【語言S4E02】哪些「假新聞」容易讓人相信? 計算語言學和聽得懂人話的電腦

語言好好玩 #S04E02 與談人:張瑜芸

文|許逸如 聲音|許逸如 繪圖|許逸如

4月16日開始,全新一季《知識好好玩》重磅回歸啦!不僅老字號節目《大腦好好玩》、《語言好好玩》各自帶著更高知識密度、更有趣的內容回歸;兩檔新節目《犯罪心理學大解析》和《性別好好玩》也強勢來襲,你想聽的內容,鏡好聽都幫你準備好了!每週四、五隔週輪播犯罪心理、語言、大腦、性別,歡迎到鏡好聽的粉絲團或Instagram與我們互動哦!

這一集請到的來賓是台大語言所的學姐、現在在政大語言所教書的張瑜芸,她專精的領域是「計算語言學」。到底什麼是計算語言學?她的研究主題又是什麼呢?就由瑜芸來跟大家介紹這門最近非常夯的科目!

逸如:一般都常以為「計算語言學」應該是資工專業的課程;那語言學所學到的計算語言學到底是什麼?為什麼想要踏入這個領域?

瑜芸:其實不光是「計算語言學」,「語言學」這個詞可能很多人就不太清楚它是什麼。有拜於近年來科技的進步,我們可以用iPhone的Siri、Google的Google Assistant他們可以聽懂人類的指令、並替你開燈、開電視這樣的例子,來說明計算語言學的功能──人類說話,而且機器聽得懂你所說的語言。

這需要先研究「語言」本身,整理出用字、語法或語義等的規則系統,最後再讓機器去學習它的意思。雖然這門學問和電腦相當有關係,不過「計算語言學」這名字就是一個跨領域的結合。不只需要電腦,更需要「語言」的相關背景知識。

逸如:近年來興盛的AI人工智慧也和計算語言學很有關係對嗎?

瑜芸:沒錯。套句我在台大指導教授的一句名言:「AI人工智慧其實就是AI工人智慧」;因為需要人類先分析語言後,機器才有辦法習得。所以「人工智慧」雖然是一個聽起來很酷的詞,但它仍需要很多「人的智慧」才有辦法完成。

舉例來說,「斷詞」這件事在「自然語言處理」就是一門很重要的學問。舉例來說「在地上等冬粉」,很多人會誤以為是「在/地上/等冬粉」,但實際上卻是「在地/上等/冬粉」;要正確的斷詞,並沒有那麼簡單。另外像是「我想過過看過兒過過的生活」,那麼多的「過」要如何斷開?這樣的斷詞並不是透過字典所定義的詞就能夠斷出來的,它需要透過前後文的文義去判斷。

逸如:我們以瑜芸的博士論文《中文事件真實性判斷》作為實例,大家可能更容易理解。她的論文有很強的實用性,尤其對於現在層出不窮的假新聞來說更是如此。她的論文主要是分析中文母語人士是否會根據新聞事件的文字描述,而相信這樣的事件曾經發生。

瑜芸:我收集了一些新聞的句子,請臺灣的讀者幫我判斷他們是否相信這個事件真實發生;根據他們評分後的句子來歸納出特定的語言現象後,再讓機器去自動判讀未來若有同樣或類似的新聞事件再次發生時,讀者是否會相信。我收集的例子包含了中文和英文。例如,當英文說「FBI說他殺人了」,英文大部分的讀者都會相信;相較之下,若在中文說「警察說他殺了人」,臺灣人相信這句話是「真」的比例並不高。換句話說,臺灣人對於該新聞事件提供的「來源」並不是那麼在意,這應該和我們的文化背景比較有關係。再舉一個例子,「馬防部(馬祖國防部)說經多年的組織變革因素,徐士兵兵籍資料已不可考」這個句子,即使這個新聞的來源是來自「政府」,但大家基本上都不太相信它。

反而,臺灣的讀者比較容易被選用的「動詞」所影響。例如:「警察『說』他殺了人」和「警察『證實』他殺了人」,相信後者的情況遠高於前者。

情態詞(modality marker)照理說會影響人對於該事件的相信程度,例如「警察說他『可能』殺了人」和「警察說他『一定』殺了人」,應該後者會比前者可信許多;這理論在英文的實驗中得到了證實,但在中文的實驗卻發現「情態詞」的使用並沒有太多的影響。

逸如:那文體的正式與否會不會影響大家相信他的程度呢?

瑜芸:這是個有趣的問題,當時沒有特別深入討論,但我發現有一些動詞如「表示」、「說」、「認定」,大家相信的程度沒有差別太大;「發現」、「證實」則會讓讀者覺得這件事有個根據,就會比較相信它曾經發生。

逸如:那刻意引用數據、統計數字會不會影響人們相信它的程度呢?

瑜芸:會。像是「警察說他殺了人」,如果加上了日期、時間甚至地點,就會提高觀眾的相信程度。

另外也要特別注意,如果這個新聞事件違反了觀眾的世界知識(world knowledge),大家就不會相信。例如SETI(Search for Extra-Terrestrial Intelligence,搜尋地外文明組織)負責人曾表示:地球上的生物都是火星的副產物;雖然這是個聽起來很厲害的機構的負責人,但我們對於這樣的知識並不清楚,大家也就難以判定它是否為真實。

逸如:總體來說,像情態詞、數據、動詞等都會影響到我們對於一個句子的判定。但是這樣的效果是否可以疊加呢?舉例來說,如果用了讓人很可信的動詞、又加上了數據,大家是不是會更加地相信它?

瑜芸:我也曾想過這個問題,但好像並不會,因為大家似乎更注重自己原本的認知。舉例來說,當把句子從「NASA說地球是平的」變成「NASA證實地球是平的」,雖然大家會開始有點懷疑,但因為它違反了自己原先的認知,所以他們還是不會相信這件事。

逸如:哪一個項目是臺灣人最容易相信的呢?

瑜芸:動詞的選用。我也做過「時態」的研究,像是大家可能會認為過去已發生的事應該比較容易讓人相信,但研究顯示並不是這麼一回事。舉例來說,「網紅小美已被李安邀請多次」,雖然它是個過去式時態、可能是個事實,但人們因為不知道「網紅小美」到底是誰,也不確定李安是不是真的邀請他,所以即使它是過去式、甚至加上了詳盡的日期,人們還是不會那麼容易相信。

這是因為「過去式」它在「語用」的層面上已經被轉變。雖然說話者他是以過去式(事情已發生)的方式談論這件事,但更重要的是聽話者他是否與說話者擁有共享知識;如果說話者認同但讀者不認同,這一切的溝通就不成立了。

現在假新聞是個很重要的議題,大家應該要對這些新聞事件有多一點的思辨和判斷能力,不要全盤相信所有接收到的訊息。

逸如:那有沒有什麼使用會讓人更不相信呢?

瑜芸:我做實驗時發現人性挺善良的,大家或多或少都會相信,只是相信程度的高或低而已;完全不相信的,大部分都是因為它違反了已知的事實。

逸如:當初為什麼想要做這個題目呢?

瑜芸:我對於人如何使用、看待語言很好奇,也好奇語言如何影響整個世界。當時發現Ohio State University有老師做相關的研究,當時就馬上覺得它是個很有趣的題目,想繼續做下去。

逸如:這個研究已經有很明確也不錯的成果,你覺得它可以實際應用在哪裡嗎?

瑜芸:我覺得現階段來說,挺適合拿來預測選舉。以往選情的預則都是用電話訪問,很花時間和資源;但只要平台願意將資料開源,就可以用它來檢查網路上的文章,判斷現在的網友比較偏好哪一位候選人或政黨,或是大家比較相信誰的發言或政見。

逸如:這是個很棒的運用!但如果這樣的研究被拿去一些投放假消息的內容農場或機構的話該怎麼辦?

瑜芸:我確實寫完論文後有這樣的掙扎,但我相信大家心中應該都有很好的一把尺在衡量這件事;目前也有很多文章在教導我們要如何避免被這樣的假新聞所騙,例如:沒有發文者、文章長度偏短等,都很有可能是假的訊息。而且這樣的前提要成立,有件很重要的事──需要知道讀者要的是什麼。知道讀者要什麼,才能夠寫出讓人信服的東西。所以像這樣的研究也可以用在廣告的台詞上。

最近我們收到來自學術相關平台的信,可能因為疫情的關係,他們居然寫信來希望我們可以幫忙判別哪些論文是真的和肺炎相關、哪些是假的!可能因為疫情是個熱門話題,可能有不少論文就以以假亂真的方式想要投稿。

逸如:除了這個有趣的研究外,是不是可以再分享一些計算語言學的研究和應用?

瑜芸:舉例來說,Siri從語音的辨識到產出文字,就經過了很多計算語言學的處理。語言的「情緒」也是個重要的話題;例如「在烏漆墨黑的工地,有一個紅衣小女孩」,整句話雖然沒有任何一個情緒詞,卻會讓人覺得害怕,這就是因為「烏漆墨黑」讓人覺得有點可怕,再加上過去經驗知道「紅衣小女孩」可能是可怕的事物,就讓人覺得毛骨聳然。所以計算語言學也在研究文字到底可以表達怎樣的情緒感受。

我們之前參加駭客松(hackathon)時也做了很多有趣的專案。有一個是做性別暴力、性騷擾的偵測。當時看到報導說,很多人會在網路交友的軟體上被騙;所以我們主要希望幫助約17、18歲的女性。在專案裡,我們研究他們和那些騙子的對話模式是如何發展的,並找出一些騙人的語言模式;像,如果男生喜歡大量使用疊字、可愛的貼圖、裝可愛的語氣或是注音文,就需要特別地小心。如果發現對話內容有些問題,就可以跑出提醒。

我們也曾經做過「女友翻譯機」。很多人可能都不理解為什麼女朋友會生氣;所以我們在專案中,讓疑惑的男友在機器內輸入女友講的話後,機器就會替他翻譯、標明這句話的怒氣指數和類別,甚至提供現在應該要怎麼做的建議。

之前小S很紅的時候,我們也依照小S的語氣和說話風格做了一個Line的Chatbot,讓粉絲可以和藝人身歷其境地互動。

AI這個領域現在很紅、應用層面很廣,它能夠帶給生活上很大的便利;但目前最大的問題是它缺少了一種「人味」。機器翻譯也是個問題。像我之前去Google翻譯查「三星蔥」,它出來的結果是「Samsung Onion」;「Break you heart」就會翻成「打破你的心臟」,它還需要很長的一段路要走。期待這塊領域未來有更好的發展和更廣泛的運用。

今天這集就到這裡囉!雖然抽獎結束了,但還是歡迎大家來Facebook粉專玩「語言好難玩RPG」玩遊戲;更別忘了來Instagram和我們互動。我們下次見!

更新時間|2020.05.14 02:46

鏡週刊4年了,讀者的建議與批評我們都虛心聆聽。為提供讀者最好的閱讀空間,我們成立了會員區,提供會員高品質、無廣告、一文到底的純淨閱讀體驗,邀您立即體驗

更多內容,歡迎訂閱鏡週刊了解內容授權資訊