WikiGenderBias:一個可評價並減少模型性別偏見的數據集

2021-02-14 數據實戰派

作者:Andrew Gaut.et al

編譯:LZM

原文:Towards Understanding Gender Bias in Neural Relation Extraction  

題圖出處:pixabay

biendata 內容團隊近期組織編譯了一批機器閱讀領域內的優秀論文,如感興趣歡迎閱讀菜單欄的機器閱讀文章專輯。

關係抽取希望從無結構文本中提取三元組(頭實體,關係,尾實體)以結構化地表達文本蘊含的關係信息 

近日,來自加州大學聖塔芭芭拉分校、加州大學洛杉磯分校和喬治亞理工學院計算機系的一組研究人員在預印本平臺 arXiv 上提交了題為 Towards Understanding Gender Bias in Neural Relation Extraction 的論文。文章中,作者創造了首個用於研究神經關係抽取任務中性別偏見問題的數據集 WikiGenderBias,並利用該數據集分析了主流關係抽取模型 OpenNRE

關係抽取中的性別偏見問題

面對今天海量的文本數據,關係抽取技術日益重要。關係抽取的目的是從無結構的句子中抽取結構化的關係信息,並用精確的三元組形式進行描述,例如(巴拉克・歐巴馬,配偶,米歇爾・歐巴馬)。大量研究利用關係抽取技術從文本中提取準確的關係三元組,然後用於自動化地構建知識庫(知識圖譜),然後用於多個 NLP 下遊任務,例如基於知識庫的問答系統。

性別偏見是指在和性別無本質關聯的任務上,算法明顯利用性別信息對其他屬性相似、但性別屬性不同的樣本給出不同預測。一些研究表明,在自然語言處理的多項任務上,主流算法都存在一些性別偏見。一些方法可以簡單地檢測模型是否存在性別偏見,例如計算模型在男性測試樣本和女性測試樣本上的性能指標之差。發現性別偏見後,一些研究提出緩解偏見的方法,例如數據增強、無偏見的詞向量、平衡數據分布等等。

圖 1. 關係抽取中的性別偏見如何影響下遊任務

關係抽取作為眾多自然語言任務的上遊任務,一旦具有性別偏見,將幹擾一眾下遊 NLP 任務,使它們都受到性別偏見的影響,進而影響模型在某些性別人群中的實際使用效果,降低用戶體驗,甚至涉及到歧視。因此發現關係抽取算法的性別偏見並對其糾正,對於自然語言處理模型的實用化進程至關重要。如圖 1 所示,Beatrice(女)和 Ben(男)同為工程師,關係抽取模型正確識別了後者,但認為前者和工程師無關,最後有偏差的抽取結果影響問答系統的正確性。

WikiGenderBias 數據集的提出

研究關係抽取中的性別偏見現象需要數據集中帶有性別標籤,這是大多數關係抽取數據集不具備的。因此,作者首先構造一個帶有性別標籤的關係抽取數據集,稱為 WikiGenderBias。

在介紹具體構造方法之前,先來簡單了解下關係抽取數據集的結構。關係抽取模型最終輸出三元組(頭實體,關係,尾實體),其中實體抽取一般在關係抽取之前完成,作為數據集的輸入部分,期望的是從句子直接得到關係,因此還需要同時包含頭實體和尾實體的句子。儘管頭實體和尾實體的關係並不一定體現在二者共現的句子中,但是遠程監督假設(distant supervised assumption) 

表 1. WikiGenderBias 訓練集、驗證集和測試集的劃分

WikiGenderBias 數據集使用 Wikipedia 的文本構造,DBPedia 是 Wikipedia 的配套知識庫,包含大量從 Wikipedia 中抽取的實體和關係。作者在 DBPedia 的基礎上構造出 WikiGenderBias。WikiGenderBias 考慮了 DBPedia 中的四種關係:配偶(spouse)、職業(hypernym)、出生日期(birthDate)和出生地(birthPlace)。不屬於這四種關係的,被標註為無關係(NA, not a relation)。所以,WikiGenderBias 上的關係抽取本質為五分類任務。圖 2 展示了五種關係在數據集中的比例,女性實體的婚姻關係佔明顯高於男性,男性的職業關係佔比明顯高於女性,而出生日期和地點沒有明顯的性別偏向。因此假設一個有偏的關係抽取模型識別配偶和職業關係時會利用性別信息,因為配偶經常在女性的文本中提及,而職業常在男性的文本中提及。而出生日期和出生地可以視為對照組,和性別無關。

圖 2. 五種關係在 WikiGenderBias 中的比例

作者在設置測試集時平衡了男性和女性比例,使之接近 1:1。這種設定避免模型因為近在多數群體上表現較好而取得較高性能指標的情況。另外,由於遠程監督假設給出的標註噪音較高,因此在構造測試集標籤時,作者使用亞馬遜的數據標註平臺,僱傭人工標註測試集。對於每一個實例,標註工人需要判斷句子內容是否能反應實體的某個關係。每個實例由三名工人獨立標註。數據集採用英文文本,工人也全部來自美國、英國和澳大利亞這三個英語國家,可以保證測試集的標註質量。作者通過一些定量指標衡量,也證實了這一點。

表 2. WikiGenderBias 中各個關係的實例

檢測關係抽取模型的性別偏見

作者認為一個成功的關係抽取模型應當 1)最大化 

其中 n 為關係數量,x 為群體數量(在性別偏見問題中 x=2,即 {男性,女性}), 

其中  

圖 3. 四個關係的  

DS 計算所有關係的平均差異,當然也可以對每個關係單獨計算差異並分析,作者將一個關係上的男性  

表 3. OpenNRE 模型不同 encoder 和 selector 組合的性別差異

由圖 3 可知,NRE 在識別配偶關係時,男性實體的識別效果優於女性實體。值得注意的是,出生日期(birthDate)、出生地(birthPlace)和職業(hypernym)的性別偏見遠小於配偶(spouse)。這與 WikiGenderBias 數據集中女性 - 配偶的樣本量高於男性 - 配偶的樣本量這一事實太相符。理論上來說,樣本量更大,學習效果應該更高。這一矛盾有待繼續研究。作者猜想,男性 - 配偶樣本的書寫風格導致其更容易被正確識別。

研究團隊觀察到了模型在男性群體和女性群體上的差異表現。但是考慮到描述男性的文本和描述女性的文本具有不同的書寫風格,不能確定性別偏見是模型本身帶來的。但是,當使用 NRE 系統時(尤其是在 Wikipedia 數據上訓練的 NRE 系統),需要謹慎考慮性別偏見的影響。

緩解關係抽取模型的性別偏見

上一節中觀察到在 WikiGenderBias 數據集上訓練的 NRE 模型,在識別一些關係時有性別偏見現象出現。本節介紹三個在訓練過程中緩解模型偏見的方法,並分析它們在 WikiGenderBias 上的實踐效果。

平衡性別分布

根據表 1 可知,原本的訓練集中,男性樣本數量遠高於女性樣本數量,這可能導致模型對男性實體關係的學習較好,而對女性實體關係的學習較差。因此,作者提出第一個緩解性別偏見的方案 —— 平衡性別分布。具體做法為,保留全部女性樣本並下採樣男性樣本,使得新數據集中男性樣本數量和女性樣本數量基本相等。表 1 右側展示了新數據集的相關信息。

數據增強

描述男性的文本和描述女性的文本,它們的書寫風格不同。例如,在 Wikipedia 上,描述女性時更經常使用與性相關的詞彙。這裡,使用數據增強技術,把句子中男性化的詞彙替換成女性化的詞彙以及把女性化的詞彙替換為男性化的詞彙,得到的增強數據與原語料庫混合,用於訓練。

去偏的詞向量

詞向量會把性別偏見編碼到自身,進而影響下遊任務。這裡,作者使用 Bolukbasi 等人(1016)提出的 Hard-Debiasing 技術編碼詞向量,然後再進行 NRE 模型的訓練。

下面來看一看糾偏方法的效果。

圖 4. 各關係上的性別偏見

表 4. 不同糾偏方法的性能

通過下採樣構造性別平衡的數據集,出生日期(birthDate)、出生地(birthPlace)和配偶(spouse)三個關係上的性別差異幾乎被消除(見圖 4)。此外,這種糾偏方法帶來的關係抽取性能下降很小(見 Macro  

研究團隊檢驗了糾偏方法組合的效果,見表 4。但不幸的是,大部分方法和方法組合嚴重降低模型性能,並且也沒有有效削弱性別偏見。有趣的是,去偏詞向量略微提升了關係抽取的性能。但總的來說,這些方法和方法組合要麼降低 Macro  

圖 4 中,作者進一步分析各個糾偏方法在各個關係上的具體效果。神經關係抽取本身嚴重依賴與文本表層線索,例如上下文、實體和實體所處的位置。這使得數據增強引入的信息誤導了關係抽取模型,導致模型識別了錯誤的模式。

總結

本研究中,作者創造並公開發布了數據集 WikiGenderBias。這是第一個評價神經關係抽取模型中性別偏見的數據集。作者在該數據集上訓練 NRE 模型並測試,發現模型識別配偶(spouse)關係時,在男女群體間存在性能差異(使用  

構造無偏的神經關係抽取模型時一個開放且艱難的問題。一個可能的原因是偏見緩解方法引入了噪音,使得模型學得錯誤的關係和歸納偏好。作者希望未來有工作深度研究該難題。

儘管本文的發現可以幫助今後的工作避免性別偏見,但這項研究還處於初級階段。作者僅考慮了二分類的性別變量,未來可以拓展到多分類變量。此外,未來的工作應該進一步探究模型預測中性別偏見的來源,或許可以通過可視化注意力圖或更仔細地分析模型輸出。

主要參考文獻

[1]. Gaut A, Sun T, Tang S, et al. Towards Understanding Gender Bias in Relation Extraction[J]. arXiv preprint arXiv:1911.03642, 2019.
[2]. Bach N, Badaskar S. A review of relation extraction[J]. Literature review for Language and Statistics II, 2007, 2: 1-15.
[3]. Riedel S, Yao L, McCallum A, et al. Relation extraction with matrix factorization and universal schemas[C]//Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2013: 74-84.
[4]. Subasic P, Yin H, Lin X. Building Knowledge Base through Deep Learning Relation Extraction and Wikidata[C]//AAAI Spring Symposium: Combining Machine Learning with Knowledge Engineering. 2019.
[5]. Trisedya B D, Weikum G, Qi J, et al. Neural Relation Extraction for Knowledge Base Enrichment[C]//ACL (1). 2019: 229-240.
[6]. Zhao J, Wang T, Yatskar M, et al. Men also like shopping: Reducing gender bias amplification using corpus-level constraints[J]. arXiv preprint arXiv:1707.09457, 2017.
[7]. Rudinger R, Naradowsky J, Leonard B, et al. Gender bias in coreference resolution[J]. arXiv preprint arXiv:1804.09301, 2018.
[8]. Han X, Gao T, Yao Y, et al. OpenNRE: An open and extensible toolkit for neural relation extraction[J]. arXiv preprint arXiv:1909.13078, 2019.
[9]. Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009: 1003-1011.

關於數據實戰派

數據實戰派希望用真實數據和行業實戰案例,幫助讀者提升業務能力,共建有趣的大數據社區。

相關焦點

  • 減少谷歌翻譯中性別偏見的可擴展方法
    用於語言翻譯的機器學習(ML)模型可能會因為模型訓練數據中潛藏的社會偏見而生成同樣帶有傾向的結果。性別偏見就是一個典型的例子,主要體現在性別特定(語言中有他 / 她這樣區分性別的語素)語言和非性別特定語言之間的翻譯結果上。例如,谷歌翻譯曾將土耳其語中的「他 / 她是醫生」都翻譯成了"他是醫生",而將土耳其語中的「他 / 她是護士」都翻譯成了"她是護士"。
  • 谷歌翻譯困境破局:AI不是人,為什麼也會有性別偏見?
    圖片來源:Medium AI或機器學習技術自然沒有性別可談,可性別偏見和其它社會偏見(如對年齡、職業、宗教、種族、甚至是地域的偏見和歧視)卻常出現在AI產品之中,這也是目前AI行業極為關注的問題之一。Google Translate的負責人Macduff Hughes在接受採訪時解釋了AI技術「自帶」偏見的原因,AI和機器學習技術是通過訓練數據來實現對產品和服務的支持的,而這些訓練數據都是來自真實的社會場景,也就難免帶有社會中既有的各種偏見或歧視,接受了這些數據的AI模型則會「繼承」這些觀念。
  • ACL 2020|詞嵌入性別偏見難以避免?「雙硬去偏」新方法來了!
    ,而且這種性別偏見會被下遊模型進一步放大。2、為什麼性別偏見是一個嚴重的問題?詞嵌入中的性別偏見確實是一個很嚴重的問題。想像一下,如果人們訓練了一個基於具有偏見的詞嵌入的簡歷篩選模型,那麼這個模型就會針對程式設計師等崗位自動地過濾掉女性應聘者,也會針對理髮師等職位篩除掉男性應聘者。
  • 性別會造成對性別偏見研究的偏見
    有意思的是,美國蒙大拿州立大學的心理學家們對科學界進行了「有關性別偏見的研究」的評價研究,發現科學、技術、工程和數學領域不僅存在對於女性的偏見,而且這一領域不同性別的人對於性別偏見研究成果的評價也存在偏見。由此提醒我們,僅僅揭露性別偏見並不足以消除偏見的存在。
  • 谷歌翻譯困境破局 AI不是人,為什麼也會有性別偏見
    今年4月22日,Google AI Blog(Google AI業務新聞博客)發表了最新的文章,宣布Google Translate使用了優化升級的AI技術,進一步減少了翻譯中出現的性別偏見現象,且拓展性較原方案更強,目前已經可以支持英語與西班牙語、芬蘭語、匈牙利語以及波斯語的翻譯場景。為何「沒有感情」的機器翻譯模型也會自帶性別偏見屬性?
  • 大數據折射人類社會偏見與陰暗
    縱觀近幾年,眾多科技公司的算法都被檢測出歧視,谷歌的搜索算法將黑人標記為「大猩猩」;微軟公司的人工智慧聊天機器人Tay出乎意料的被「教」成了一個集反猶太人、性別歧視、種族歧視等於一身的「不良少女」……這些事件都引起了軒然大波,並且最終也導致了算法被叫停。
  • 盛·趣談 | 投資者偏見(八)事後聰明偏見(hindsight bias)
    「在事情發生之後,即使一個笨人也可以裝作聰明。」   ——荷馬  「事後偏見造成人們誤認為這個世界容易預測,而事實並非如此。」  ——羅伯特·席勒,《非理性繁榮》  hindsight bias是一種心理學現象,被翻譯成事後聰明偏見,或後視偏差。它指的是,很多事情你在事後看都會有一種無可避免的宿命感。這種認知偏差在騰訊股票上表現得最淋漓盡致,很多人以為自己與成功投資騰訊之間的距離就只差一個港股帳戶。
  • 機器學習裡的bias的一些處理方法和思考
    對性能影響很大,常常會使一個線下優秀的模型線上落不了地,或者鬧出新聞裡的笑話.在機器學習競賽或數據集裡,很多時候對bias的處理在test上帶來的提升可能比模型提升還要多.以下寫寫我這些年遇到的一些機器學習裡的bias的一些處理方法.
  • 20 個認知偏見請對號入座一下
    Bandwagon effect 花車效應   又叫從眾效應,持某種觀點的人越多,一個個體越有可能接納這種觀點。這是團體迷思中最厲害的一種,也是為啥開大會總是很低效的原因。   4. Blind-spot bias 偏見盲點   覺得別人比自己更容易受到偏見的影響。
  • 學術界性別偏見與歧視前沿研究文獻,我們給你譯出來了
    對於身處學界的學生、學者來說,無論性別、身份和職位,都需要學習性別知識,重新認識性別偏見和歧視並理解其背後制度化、結構性的成因,並從自身做起,不再為生產和複製性別不公的制度添磚加瓦;對於那些握有一定權力的人(如招聘委員會成員)來說,首先要反思是否因為性別偏見而影響了就僱傭、評審、提升時所做的決定。正如編者所說,在這個看重數據和「客觀化」信息的時代,對「數據」本身的反思格外重要。
  • 語言學例句中竟藏著性別偏見和性別刻板印象!!??
    當作者需要假設情境時寫「想像有一個人」,接下來用人稱代詞進行回指時,看到的更多是「他、he",而不是」她、she"?一些語言學家已經注意到了:語言學領域文獻所用例句裡的性別偏見和性別刻板印象的問題。在本篇推文中,wug來向大家介紹一些相關研究,看一看語言學家筆下的例句存在什麼問題,這些年來問題有沒有解決,以及如何解決。
  • 怎樣消除機器人的「偏見」?先從消除人的偏見做起
    偏見的部分指的是,當一個助手在和你對話時,大部分人會更習慣這個助手的性別是女的。因為人們期待 " 她 " 比男助手更加順從、體貼。至於道理的部分,基於社會學和語言學的研究發現,在說話時男性普遍更直接,女性普遍更婉轉;男性普遍更武斷 ( assertive ) ,女性普遍更配合 ( supportive ) 。
  • 谷歌翻譯引入減少性別偏見的更新 英法等六語種首發
    為了減少性別偏見,谷歌為自家的翻譯工具引入了一項更新。周四的時候,這家搜索巨頭表示,谷歌翻譯將為一個單詞提供女性化和男性化的翻譯(Gender-Specific)。在此之前,這項服務的默認視角,都是站在男性的角度。
  • 系統綜述與Meta分析(4/5): 評價原始研究質量及分析數據
    4集,之前各集的連結見下:系統綜述與meta分析(2):檢索文獻    目錄第一節 引言第二節 研究問題和文獻收集第三節 提取數據第四節 評價原始研究質量一、質量評價的原理和方法(一)評價研究質量的重要性
  • 分享幾個業界新出人臉識別數據集
    一、FairFace-緩解種族偏見人臉數據集FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age for Bias Measurement and Mitigation緩解種族偏見,FairFace 人臉圖像數據集,包含 108,501 張圖像,強調數據集中種族構成的均衡
  • 為了讓社會更公平,Google給自己的AI削減了一個功能
    眾所周知,人不可貌相,當今社會,想要憑一個人的穿著面貌判斷此人的性別,AI表示我好難!不僅如此, AI在識別人臉的時候使用性別標籤,也有可能助長社會偏見。為此,Google公司日前宣布,其圖像識別AI將不再把掃描到的「人」認定為「男人」或「女人」。
  • 矮化女性和少數族裔,OpenAI的GPT模型咋成了AI歧視重災區
    以知名科研機構 OpenAI 開發的語言生成模型 GPT 為例,它現在已經可以寫文章、幫人做報表、自動查詢信息,給用戶帶來了很大的幫助和便利。然而,多篇近期發表的論文指出,包括 GPT 在內的一些 AI 模型,其生成的結果包含基於性別和族裔的偏見。
  • NLP 模型的性別偏見到底有...
    對於使用這些模型的開發人員來說,了解這些關聯存在很重要,並且這些測試僅評估一小部分可能存在問題的偏差。減少不必要偏差的策略是一個新的活躍的研究領域,然而目前並沒有某一個方法可以適用於所有應用。在關注文本嵌入模型中的關聯時,要確定它們對下遊應用程式影響的最明確方法是直接檢查這些應用程式。
  • 面部識別系統存在哪些「偏見」困境?這名年輕人的發言讓 Jeff Dean...
    在微軟名人數據集 MS Celeb 的論文中,說明了數據集中的 100 萬個名人有超過 3/4 是女性——所以在判斷哪個性別的人群在網上更有名氣時,是否就會陷入 Alexandria Ocasio-Cortez 所謂的「自動化假設」陷阱?對此,負責構建數據集的人員一般會通過多種手段進行調整。一個非常「燒錢」的選擇是走進「現實世界」中,通過付費的方式進行數據收集。
  • 論文同行評議中或普遍存在性別偏見
    ——論文同行評議中或普遍存在性別偏見&nbsp&nbsp&nbsp&nbsp本報記者 劉 霞 綜合外電&nbsp&nbsp&nbsp&nbsp在很多科學領域,女性發表論文的數量明顯少於男性,被列為第一作者的可能性更小,也不太可能從導師那兒收到措辭亮眼的推薦信。