〈AI放大的敘事〉一文是基於FDD網路與技術創新中心(CCTI)去年的研究成果。他們2025年10至11月間,就3場國際衝突,分別是以色列與哈馬斯、烏克蘭與俄羅斯、台灣與中國,向AI平台ChatGPT、Claude與Gemini,提出約180個問題,測試他們在回答有爭議的國際衝突問題時,會引導用戶使用哪些資料來源。
結果,與國家立場一致的宣傳內容出現在57%的回答中。主要來源包括半島電視台、俄羅斯《真理報》、土耳其安納杜魯新聞社與中共宣傳部的英文媒體《中國日報China Daily》。即使問題措辭被設計成對美國的對手較不友善,AI的回答仍然引用這些國家立場媒體。
甚至在回應明確偏向以色列的問題時,大型語言模型仍頻繁引用半島電視台的內容。這反映了半島電視台在讓自家內容更易於被AI引用的策略,也就是「生成引擎優化」(Generative Engine Optimization)方面的成功。
希斯金認為,國家立場媒體盛行的原因顯而易見。AI訓練依賴具有高發布量、廣泛覆蓋面與易取得性的媒體,而這些恰恰是具影響力的國家宣傳媒體的特徵。美國及其他民主國家的優質報紙通常設有付費牆或屏蔽AI爬蟲(AI crawlers)。相比之下,來自卡達、俄羅斯、土耳其與中國的官方媒體內容則自由流通。
希斯金也指出,目前AI識讀工作,仍在識別那些似是而非但不正確的「幻覺」,但未來應該對大型語言模型資料來源,進行批判性評估。
如果說,美國陽光計畫與保衛民主基金會,各有其政治立場,但今年5月,學術期刊《自然》(Nature)發表的論文〈國家媒體控制如何影響大型語言模型〉(State media control influences large language models),也產生近似結論。
包含奧勒岡大學、普渡大學、加州大學聖地牙哥分校、紐約大學、普林斯頓大學等校的研究團隊,在一項涵蓋37個國家的6項連結研究中發現,如果你在一個管控媒體程度較高的國家,用該國語言詢問AI對該國政府與機構的描述時,會獲得比用英文詢問更正面的答覆。
比如,以中文提問有關中國政府的問題,會比以英文提問,產生更親政府的回答。
這些研究想要表明的是,由國家控制的媒體內容,如何在AI訓練中,影響語言模型對政治問題的回答,尤其是在該國的語言環境中最為顯著。
原因之一是,政府可以透過塑造網路媒體環境,進而影響這些系統學習的文本,間接影響大型語言模型。
「國家塑造資訊環境,資訊環境塑造訓練資料,訓練資料塑造模型輸出。」因此,加州大學聖地牙哥分校政治學教授Margaret E. Roberts認為,未來大型語言模型會為有能力影響資訊環境的人提供誘因,使他們有動機去思考如何在網路上散布文本。
奧勒岡大學社會學助理教授Hannah Waight說,人們常常談論AI,彷彿它是以某種中立的方式從網路上學習,但事實並非如此。它學習的是已經被機構與權力塑造過的資訊環境,而這些環境會在模型的回答中留下可測量的痕跡。
也因此,紐約大學學者Joshua Tucker指出,公眾辯論一直聚焦於AI能生成什麼,但這項研究指向了更上游的問題。在AI系統影響政治之前,政治已經在影響AI。
為了追蹤這種制度性影響如何滲透訓練過程,研究人員首先證明中國官媒在真實訓練資料中出現的頻率相當高。
研究人員將兩個中國官媒來源,與源自Common Crawl的開源多語言資料集進行比對,發現超過310萬份中文文件與官媒存在大量措辭重疊,約占該資料集中文內容的1.64%。這一比例是中文維基百科的40倍以上。在提到中國政治領袖或機構的文件中,這一比例最高達23%。在措辭重疊的文件中,只有12%來自已知的政府或新聞網域,這意味著官媒內容在進入AI訓練語料庫之前,已廣泛擴散至整個網路。
更值得警醒的是,研究人員發現,商業模型記住了與這些材料相關的特定措辭,顯示這些內容在訓練過程中被模型反覆看到。
「中國官媒內容不只是出現在官方媒體,它還關乎再流通。」普林斯頓大學社會學副教授Brandon M. Stewart說,同樣的措辭經過報紙、APP(如微信公眾號)、貼文轉發和普通網頁,最後它看起來就像廣大資訊環境的一部分。一旦官媒內容進入訓練資料,模型就能將其洗白成看似中立、客觀的資訊。
還可以思考的一個問題是,官方媒體宣傳內容,除了容易取得外,它格式固定、重複性高的語言特性,是否與大型語言模型的訓練邏輯契合?因此,官方宣傳內容進入大型語言模型之後,是否更容易普及與被接受?
今年3月,《認知科學趨勢》有一篇由南加大三位學者合寫的文章〈大型語言模型對人類表達與思維的同質化效應〉(The homogenizing effect of large language models on human expression and thought)。
研究指出,透過反映多數常見的主流模式,大型語言模型促進了風格與概念上的同質化,同時壓制了非主流聲音。隨著大型語言模型在各領域的普及,以及對人們溝通方式的塑造,研究發現它們正在影響並同質化人們的語言、觀點與推理方式。這種同質化不僅源於訓練語料庫的偏差,也透過訓練過程本身得到放大,它偏好頻率高、易於概括的模式,同時抹除少數群體的表達。
更可怕的是,這會形成不斷加深的循環。隨著越來越多人使用大型語言模型,語言模型輸出的內容,會被吸收進人類的話語中,開始塑造用戶自身的表達與推理,進而再度成為用來訓練模型的資料,將同質化從被動的偏見,轉化為結構性強化的影響。
當AI平台大量使用中國官媒宣傳內容或是中國語料時,在中國與台灣的問題上,非常可能影響使用者的認知。因此,2025年底數位發展部宣布「臺灣主權AI訓練語料庫」正式上線,讓大型語言模型不會只取用簡體中文資料,而缺失台灣用語與觀點。但這應該還只是開始,除了中文數量必須增加外,還需考慮增加不同語言的語料和數量,像是英文,因為畢竟不是所有人都是使用中文的,而未來的AI資訊戰場,應該是包含全世界。