計算語言學揭示現代英語小說中普遍存在的性別偏見現象

2020-12-05 騰訊網

研究人員對入圍布克獎的小說進行了數據挖掘,發現男性大多被描述為才華橫溢、無情的人,而對女性的描述則是年輕可愛。

性別偏見是社會中存在的一個潛在問題,滲透到我們的文化、工作場所、甚至我們的語言當中,通常以我們察覺不到的方式存在著。

改變性別偏見的第一步是發現偏見存在的地方,而這正是新興的計算語言學的用武之地。這個相對較新的學科通過使用數據挖掘和機器學習來研究文本。揭示了從維基百科文章到語言本身的各種偏見。

圖|布克獎入圍的小說中與男性和女性術語相關的形容詞。(來源:麻省理工科技評論)

布克獎被提名為世界最高文學獎之一,每年被授予給最好的英文原創小說,但在近日,IBM 印度公司的 Nishtha Madaan 和他的同事們使用計算機語言學揭示布克獎的文學作品中存在顯著的性別偏見。

他們所用的方法相對簡單。Madaan 和他的同事考慮了 1969 年至 2017 年間入圍該獎項的所有書籍,總共約 275 部小說。研究小組並沒有分析小說中的文本,而是研究了 GooDreads 網站上關於這些圖書的描述。GooDreads 是亞馬遜的一個社交目錄,可以免費獲取超過 4 億冊圖書的描述、評論和評分。然後他們研究了男性和女性在這些圖書評論中是如何被描述的。Madaan 等人說:「這揭示了書中在職業和與人物言行舉止等方面都普遍存在著性別偏見和刻板印象。」

首先,在這些書中,女性被提及的次數遠遠少於男性,提及女性平均約為 15 次,而男性為 30 次。同時,書中對男性和女性的描述也非常不同。為了說明這一點,Madaan 和他的同事從文本中提取了與男性和女性術語相關的形容詞。然後,他們做了詞雲以顯示在不同的性別中哪些詞語出現的頻率更高。研究小組還通過提取角色的職業分別創造出男性和女性的詞雲來研究刻板印象。男性的高頻職業是:醫生、心理學家、教授、科學家、商界人士、董事等等。相比之下,女性的高頻職業是:教師、講師、護士、妓女、童養媳等等。Madaan 等人說:「我們觀察到,在分析男性和女性的職業時,較高級別的職業被指定給男性,而較低級別的職業則被指定給女性。」

然而,性別偏見現象目前也有一些積極的變化跡象。研究小組說,近幾年來,在入圍的書籍中,已經開始有女性扮演核心角色。其中包括 Madeleine Thien 的《Do Not Say We Have Nothing》, Ali Smith 的《How to be Both》和 Karen Joy Fowler 的《We Are All Completely Beside Ourselves》等。

這項研究是一項有趣的工作,但也有一些缺點。其中最重要的問題是,團隊沒法清楚地描述所收集的數據,這個資料庫的大小、資料庫中的文本在何時由何人所寫。這些問題使得這項工作難以評估。例如,書中的描述可能不是作者自己寫的,而是 Goodreads 的記者寫的。因此,有些偏見可能來自這位記者,而不是書的作者。

當然,這些書籍的作者可能會爭辯說,他們的小說揭露了偏見及其對社會的影響。基於這個原因,小說必須在文本中明確反映這種偏見,例如作者可能要表明,他原本就沒打算創作一部性別平等的小說。

儘管如此,這篇論文顯示了計算機語言學在具有文化意義的作品中探索偏見的潛力。事實上,作家們已經使用這一技術來探索寶萊塢電影劇本中是否偏見,並發現了一些性別方面的陳舊觀念,特別是在職業選擇上。

該小組還在開發一種消除偏見的機制。這種機制對入圍布克獎的小說有多大用處還不清楚,但它無疑突出了一個需要得到更多關注的問題。

—— 分享新聞,還能獲得積分兌換好禮哦 ——

相關焦點

  • 性別會造成對性別偏見研究的偏見?
    「女性學者」流失嚴重的現象以及學術界無處不在的性別隱形歧視,引發國內學術界和輿論的普遍關注。科學家們發現,在 STEM 領域工作的男性不願接受證明其工作領域存在性別偏見的研究成果,他們對該類研究的評價存在「偏見」。  「在 STEM 領域,我們總是追求客觀性,但是諸如性別等因素確實會影響我們對『性別偏見的科學研究』作出評價,類似的現象既普通又普遍。」該研究的第一作者,蒙大拿州立大學心理學家 Ian M . Handley 告訴《知識分子》。
  • 書評刊物中的性別偏見,比你想像的更加嚴重
    因此,她們決定發表自己的詩歌和小說時,用了例如阿克頓、庫雷爾和埃利斯·貝爾等男性的化名來自費出版。在1850年版的《呼嘯山莊》前言中,夏洛蒂·勃朗特化名卡勒·貝爾特坦白了三姐妹的真實身份,並稱:我們之所以不希望公開女性身份,因為在當時我們沒有懷疑我們的寫作和思維方式不是所謂的「女性化(Feminine)」,我們有一種模糊的印象,即女作家很容易受到偏見。
  • 研究發現:在老師眼裡,居然也對學生存在性別偏見
    原創 Marple 國際科學重男輕女,不只是古老農村才有的落後習俗,現代社會中,性別偏見其實也是無處不在,只是有時很隱蔽,不認真地觀察,恐怕很難識別。舉個常見的現象:當一男一女同時競爭一個崗位時,男性成功的機率往往要比女性大。
  • 新聞報導中的性別偏見及其矯正策略
    閱讀提示帶有性別偏見的新聞報導其危害性是顯而易見的,除了弱化新聞媒體的公信力之外,也常常會影響受眾的價值取向。而其成因既包括陳舊的性別文化意識、大眾傳媒的男權價值觀內化,也包括大眾傳媒普遍的商業化等等。
  • 馮志偉談計算語言學
    20世紀80年代後期計算語言學開始戰略轉移,採用經驗主義的方法,從大規模的真實的語料庫中獲取語言知識,提高了自然語言處理的效果,進入21世紀之後,計算語言學使用神經網絡的方法,不再用手工獲取自然語言的特徵,而是通過深度學習,讓計算機自動地從語料庫中獲取自然語言的特徵,自然語言處理的效果進一步提高。
  • Psycho Sci:「性別偏見」影響我們以貌取人的結果
    「我們的研究揭示了我們如何看待他人的有害性別偏見 - 我們認為男性看起來很有能力,這種判斷會影響我們的領導選擇,」普林斯頓大學心理學研究員DongWon Oh解釋說。DongWon Oh與合作者Elinor A. Buck和Alexander Todorov有興趣確定影響我們如何從個人外表中感知能力的「視覺成分」。
  • 社會語言學,「不正經的」語言學
    應運而生的社會語言學 語言作為一種社會現象,隨著社會的發展而發展,片刻也不能脫離人而存在。而結構主義語言學「就語言而研究語言」的理論把語言扁平化,脫離於社會,研究之路必將越走越窄。 當人們發現越來越多的問題結構主義難以解釋時,社會語言學誕生了。
  • 英文精讀|灰姑娘情結:詞嵌入揭示了電影和書籍中的性別刻板印象
    ,並通過講故事使性別不平等長期存在。我們的分析涵蓋了塑造現代集體記憶的大部分敘事,包括7226本書、6087個電影概要和1109個電影劇本。據觀察,「灰姑娘情結」廣泛存在於各個時期和背景中,提醒人們性別刻板印象在我們的社會中根深蒂固。我們對圍繞女性和男性角色的詞彙的分析表明,男性的生活以冒險為導向,而女性的生活則以浪漫關係為導向。
  • 用詞向量解析故事中的性別偏見
    其實,對性別的固有成見在現實社會中根深蒂固,文化產品的再創造仍然在不斷強化這種偏見。在這個研究中,作者分析了1,327部小說,6,657部電影大綱和1,109部電影劇本,揭示這些文化創作是如何以一種不易察覺但是強有力的方式來加深對性別的刻板印象。
  • 計算語言學漫遊指南 | 語言學午餐
    上個月,《你好,機器作詩了解一下》這篇文章發布之後,許多讀者留言說希望小編能更全面地介紹下計算語言學的研究內容、相關讀物和轉專業留學申請等信息。於是,午餐君今天就為大家帶來一份乾貨滿滿的計算語言學漫遊指南!
  • 聯合國發聲:美國司法系統中普遍存在種族偏見
    當地時間5日,聯合國非洲人後裔問題專家工作組發表聲明,呼籲美國政府採取果斷行動,解決該國刑事司法系統中的系統性種族主義和種族偏見。並希望通過開展獨立調查,問責在任何情況下濫用武力的警察。資料圖,新華社供圖該工作組的聲明針對近期在美國發生的一系列殺害非裔美國人的事件。
  • 老齡化社會呼喚老年語言學的出場
    調查發現,老年語言障礙是較普遍的現象。老年人的語言障礙通常不是由先天因素,而是由身腦心的衰老和獲得性疾病導致的。例如,老年性聽力障礙會影響言語識別——低聲聽不清,高音不耐受;許多人僅能理解緩慢語流,而快速或強噪下的語流則難以領會。
  • 計算語言學前景廣闊
    計算語言學是用計算機研究和處理自然語言的一門新興交叉學科。在近年推進新文科建設的背景下,計算語言學及其相關應用日益引起關注。計算語言學領域相關學者在接受本報記者採訪時表示,計算語言學方興未艾,應用廣泛,前景廣闊。
  • 美國各州紛紛出臺新法案,消除語言中的性別歧視
    20世紀60年代,美國誕生了一門新興的邊緣學科-社會語言學,從社會的角度研究語言。1966年,美國成立了「全國婦女組織」, 她們要求男女平等,其中包括語言平等,勞工部把3000多個職業的名稱改成沒有性別區分的中性詞,自此之後,爭取語言中的性別平等問題一直沒有停下腳步。
  • 當前計算語言學發展的幾個特點
    計算語言學(computational linguistics)是用計算機研究和處理自然語言的一門新興的交叉學科。在其發展過程中,這門學科的研究就分別在語言學、計算機科學、數學、心理學、電子工程、認知科學等不同領域中進行過,具有明顯的跨學科特色。
  • 新媒體的社會語言學研究:回顧與展望
    代表作:「再論英語借詞對現代漢語詞法的影響」和「方言變異還是語體變異——內地與香港娛樂新聞語篇範疇的差異分析」,E-mail:doreen.wu@polyu.edu.hk;李朝淵,香港理工大學中文及雙語學系,E-mail:chaoyuan.li@connect.polyu.hk;馮捷蘊,對外經濟貿易大學英語學院,北京市朝陽區惠新東街10號,E-mail:fengjieyun88@126.com(北京
  • 用數學邏輯之美揭示語言結構之妙
    早在19世紀中葉,就有人用數學來研究語言現象。1838年,英國學者皮特曼選取了20本書,每書取500詞,共計1萬詞,以此為語料進行統計,得到常用英語詞頻表,於1843年出版。這可能是我所看到的文獻中使用數學方法研究詞頻的最早記載。
  • 文獻計量分析證實科研產出存在性別不平衡現象—新聞—科學網
    文獻計量分析證實科研產出存在性別不平衡現象
  • 爸爸》裡說的既不是英語,也不是「印度語」丨語言學午餐
    爸爸」預告片在語言學中,我們通常把印度的官方語言叫做印地語(Hindi),英語則是印度的輔助官方語言。印地語是印歐語系印度-伊朗語族中印度-雅利安語支下的一種語言。據統計,66%的印度人會說印地語,77%的印度人認為印地語是國家的共同語言。在美國,至少有10萬人使用印地語。
  • 夏薇:《明清小說中的性別問題》序言
    [4]在這樣上下一貫的禮教背景下,對中國古代的性別研究不能、也不應脫離了性別制度的大環境而孤立存在。中國古代文學史的主流是男性,而非女性。所以,將男性創作中的性別內涵納入研究視野中,是研究性別問題不可缺少的環節。