科技
2018.08.25 11:39

男人都才華橫溢 女人都年輕可愛?從電腦語言學看出現代英語小說的性別偏見

文|DeepTech深科技

全文朗讀

00:00 / 00:00

曼布克獎入圍的小說中與男性和女性術語相關的形容詞。(翻攝自麻省理工科技評論)
曼布克獎入圍的小說中與男性和女性術語相關的形容詞。(翻攝自麻省理工科技評論)

研究人員對入圍曼布克獎的小說進行了資料搜集,發現男性大多被描述為才華橫溢、無情的人,而對女性的描述則是年輕可愛。

性別偏見是社會中存在的一個潛在問題,滲透到我們的文化、工作場所、甚至我們的語言當中,通常以我們察覺不到的方式存在著。

改變性別偏見的第一步是發現偏見存在的地方,而這正是新興的計算語言學的用武之地。這個相對較新的學科通過使用資料採擷和機器學習來研究文本。揭示了從維基百科文章到語言本身的各種偏見。

曼布克獎被提名為世界最高文學獎之一,每年被授予給最好的英文原創小說,但在近日,IBM 印度公司的Nishtha Madaan和他的同事們使用電腦語言學揭示曼布克獎的文學作品中存在顯著的性別偏見。

他們所用的方法相對簡單。Madaan和他的同事考慮了1969年至2017年間入圍該獎項的所有書籍,總共約275部小說。研究小組並沒有分析小說中的文本,而是研究了GooDreads網站上關於這些圖書的描述。GooDreads是亞馬遜的一個社交目錄,可以免費獲取超過4億冊圖書的描述、評論和評分。然後他們研究了男性和女性在這些圖書評論中是如何被描述的。Madaan 等人說:「這揭示了書中在職業和與人物言行舉止等方面都普遍存在著性別偏見和刻板印象。」

首先,在這些書中,女性被提及的次數遠遠少於男性,提及女性平均約為15次,而男性為30次。同時,書中對男性和女性的描述也非常不同。為了說明這一點,Madaan和他的同事從文本中提取了與男性和女性術語相關的形容詞。然後,他們做了詞雲以顯示在不同的性別中哪些詞語出現的頻率更高。研究小組還通過提取角色的職業分別創造出男性和女性的詞雲來研究刻板印象。男性的高頻職業是:醫生、心理學家、教授、科學家、商界人士、董事等等。相比之下,女性的高頻職業是:教師、講師、護士、妓女、童養媳等等。Madaan等人說:“我們觀察到,在分析男性和女性的職業時,較高級別的職業被指定給男性,而較低級別的職業則被指定給女性。”

然而,性別偏見現象目前也有一些積極的變化跡象。研究小組說,近幾年來,在入圍的書籍中,已經開始有女性扮演核心角色。其中包括Madeleine Thien的《Do Not Say We Have Nothing》, Ali Smith的《How to be Both》和Karen Joy Fowler的《We Are All Completely Beside Ourselves》等。

這項研究是一項有趣的工作,但也有一些缺點。其中最重要的問題是,團隊沒法清楚地描述所收集的資料,這個資料庫的大小、資料庫中的文本在何時由何人所寫。這些問題使得這項工作難以評估。例如,書中的描述可能不是作者自己寫的,而是Goodreads的記者寫的。因此,有些偏見可能來自這位元記者,而不是書的作者。

當然,這些書籍的作者可能會爭辯說,他們的小說揭露了偏見及其對社會的影響。基於這個原因,小說必須在文本中明確反映這種偏見,例如作者可能要表明,他原本就沒打算創作一部性別平等的小說。

儘管如此,這篇論文顯示了電腦語言學在具有文化意義的作品中探索偏見的潛力。事實上,作家們已經使用這一技術來探索寶萊塢電影劇本中是否偏見,並發現了一些性別方面的陳舊觀念,特別是在職業選擇上。

該小組還在開發一種消除偏見的機制。這種機制對入圍曼布克獎的小說有多大用處還不清楚,但它無疑突出了一個需要得到更多關注的問題。

本文係由DeepTech深科技授權刊登。原文連結:计算语言学揭示现代英语小说中普遍存在的性别偏见现象。

更新時間|2019.03.21 13:36

更多內容,歡迎訂閱鏡週刊了解內容授權資訊

相關關鍵字: