作者:Andrew Gaut.et al
編譯:LZM
原文:Towards Understanding Gender Bias in Neural Relation Extraction
題圖出處:pixabay
biendata 內容團隊近期組織編譯了一批機器閱讀領域內的優秀論文,如感興趣歡迎閱讀菜單欄的機器閱讀文章專輯。關係抽取希望從無結構文本中提取三元組(頭實體,關係,尾實體)以結構化地表達文本蘊含的關係信息
近日,來自加州大學聖塔芭芭拉分校、加州大學洛杉磯分校和喬治亞理工學院計算機系的一組研究人員在預印本平臺 arXiv 上提交了題為 Towards Understanding Gender Bias in Neural Relation Extraction 的論文。文章中,作者創造了首個用於研究神經關係抽取任務中性別偏見問題的數據集 WikiGenderBias,並利用該數據集分析了主流關係抽取模型 OpenNRE
關係抽取中的性別偏見問題面對今天海量的文本數據,關係抽取技術日益重要。關係抽取的目的是從無結構的句子中抽取結構化的關係信息,並用精確的三元組形式進行描述,例如(巴拉克・歐巴馬,配偶,米歇爾・歐巴馬)。大量研究利用關係抽取技術從文本中提取準確的關係三元組,然後用於自動化地構建知識庫(知識圖譜),然後用於多個 NLP 下遊任務,例如基於知識庫的問答系統。
性別偏見是指在和性別無本質關聯的任務上,算法明顯利用性別信息對其他屬性相似、但性別屬性不同的樣本給出不同預測。一些研究表明,在自然語言處理的多項任務上,主流算法都存在一些性別偏見。一些方法可以簡單地檢測模型是否存在性別偏見,例如計算模型在男性測試樣本和女性測試樣本上的性能指標之差。發現性別偏見後,一些研究提出緩解偏見的方法,例如數據增強、無偏見的詞向量、平衡數據分布等等。
圖 1. 關係抽取中的性別偏見如何影響下遊任務
關係抽取作為眾多自然語言任務的上遊任務,一旦具有性別偏見,將幹擾一眾下遊 NLP 任務,使它們都受到性別偏見的影響,進而影響模型在某些性別人群中的實際使用效果,降低用戶體驗,甚至涉及到歧視。因此發現關係抽取算法的性別偏見並對其糾正,對於自然語言處理模型的實用化進程至關重要。如圖 1 所示,Beatrice(女)和 Ben(男)同為工程師,關係抽取模型正確識別了後者,但認為前者和工程師無關,最後有偏差的抽取結果影響問答系統的正確性。
WikiGenderBias 數據集的提出研究關係抽取中的性別偏見現象需要數據集中帶有性別標籤,這是大多數關係抽取數據集不具備的。因此,作者首先構造一個帶有性別標籤的關係抽取數據集,稱為 WikiGenderBias。
在介紹具體構造方法之前,先來簡單了解下關係抽取數據集的結構。關係抽取模型最終輸出三元組(頭實體,關係,尾實體),其中實體抽取一般在關係抽取之前完成,作為數據集的輸入部分,期望的是從句子直接得到關係,因此還需要同時包含頭實體和尾實體的句子。儘管頭實體和尾實體的關係並不一定體現在二者共現的句子中,但是遠程監督假設(distant supervised assumption)
表 1. WikiGenderBias 訓練集、驗證集和測試集的劃分
WikiGenderBias 數據集使用 Wikipedia 的文本構造,DBPedia 是 Wikipedia 的配套知識庫,包含大量從 Wikipedia 中抽取的實體和關係。作者在 DBPedia 的基礎上構造出 WikiGenderBias。WikiGenderBias 考慮了 DBPedia 中的四種關係:配偶(spouse)、職業(hypernym)、出生日期(birthDate)和出生地(birthPlace)。不屬於這四種關係的,被標註為無關係(NA, not a relation)。所以,WikiGenderBias 上的關係抽取本質為五分類任務。圖 2 展示了五種關係在數據集中的比例,女性實體的婚姻關係佔明顯高於男性,男性的職業關係佔比明顯高於女性,而出生日期和地點沒有明顯的性別偏向。因此假設一個有偏的關係抽取模型識別配偶和職業關係時會利用性別信息,因為配偶經常在女性的文本中提及,而職業常在男性的文本中提及。而出生日期和出生地可以視為對照組,和性別無關。
圖 2. 五種關係在 WikiGenderBias 中的比例
作者在設置測試集時平衡了男性和女性比例,使之接近 1:1。這種設定避免模型因為近在多數群體上表現較好而取得較高性能指標的情況。另外,由於遠程監督假設給出的標註噪音較高,因此在構造測試集標籤時,作者使用亞馬遜的數據標註平臺,僱傭人工標註測試集。對於每一個實例,標註工人需要判斷句子內容是否能反應實體的某個關係。每個實例由三名工人獨立標註。數據集採用英文文本,工人也全部來自美國、英國和澳大利亞這三個英語國家,可以保證測試集的標註質量。作者通過一些定量指標衡量,也證實了這一點。
表 2. WikiGenderBias 中各個關係的實例
檢測關係抽取模型的性別偏見作者認為一個成功的關係抽取模型應當 1)最大化
其中 n 為關係數量,x 為群體數量(在性別偏見問題中 x=2,即 {男性,女性}),
其中
圖 3. 四個關係的
DS 計算所有關係的平均差異,當然也可以對每個關係單獨計算差異並分析,作者將一個關係上的男性
表 3. OpenNRE 模型不同 encoder 和 selector 組合的性別差異
由圖 3 可知,NRE 在識別配偶關係時,男性實體的識別效果優於女性實體。值得注意的是,出生日期(birthDate)、出生地(birthPlace)和職業(hypernym)的性別偏見遠小於配偶(spouse)。這與 WikiGenderBias 數據集中女性 - 配偶的樣本量高於男性 - 配偶的樣本量這一事實太相符。理論上來說,樣本量更大,學習效果應該更高。這一矛盾有待繼續研究。作者猜想,男性 - 配偶樣本的書寫風格導致其更容易被正確識別。
研究團隊觀察到了模型在男性群體和女性群體上的差異表現。但是考慮到描述男性的文本和描述女性的文本具有不同的書寫風格,不能確定性別偏見是模型本身帶來的。但是,當使用 NRE 系統時(尤其是在 Wikipedia 數據上訓練的 NRE 系統),需要謹慎考慮性別偏見的影響。
緩解關係抽取模型的性別偏見上一節中觀察到在 WikiGenderBias 數據集上訓練的 NRE 模型,在識別一些關係時有性別偏見現象出現。本節介紹三個在訓練過程中緩解模型偏見的方法,並分析它們在 WikiGenderBias 上的實踐效果。
平衡性別分布
根據表 1 可知,原本的訓練集中,男性樣本數量遠高於女性樣本數量,這可能導致模型對男性實體關係的學習較好,而對女性實體關係的學習較差。因此,作者提出第一個緩解性別偏見的方案 —— 平衡性別分布。具體做法為,保留全部女性樣本並下採樣男性樣本,使得新數據集中男性樣本數量和女性樣本數量基本相等。表 1 右側展示了新數據集的相關信息。
數據增強
描述男性的文本和描述女性的文本,它們的書寫風格不同。例如,在 Wikipedia 上,描述女性時更經常使用與性相關的詞彙。這裡,使用數據增強技術,把句子中男性化的詞彙替換成女性化的詞彙以及把女性化的詞彙替換為男性化的詞彙,得到的增強數據與原語料庫混合,用於訓練。
去偏的詞向量
詞向量會把性別偏見編碼到自身,進而影響下遊任務。這裡,作者使用 Bolukbasi 等人(1016)提出的 Hard-Debiasing 技術編碼詞向量,然後再進行 NRE 模型的訓練。
下面來看一看糾偏方法的效果。
圖 4. 各關係上的性別偏見
表 4. 不同糾偏方法的性能
通過下採樣構造性別平衡的數據集,出生日期(birthDate)、出生地(birthPlace)和配偶(spouse)三個關係上的性別差異幾乎被消除(見圖 4)。此外,這種糾偏方法帶來的關係抽取性能下降很小(見 Macro
研究團隊檢驗了糾偏方法組合的效果,見表 4。但不幸的是,大部分方法和方法組合嚴重降低模型性能,並且也沒有有效削弱性別偏見。有趣的是,去偏詞向量略微提升了關係抽取的性能。但總的來說,這些方法和方法組合要麼降低 Macro
圖 4 中,作者進一步分析各個糾偏方法在各個關係上的具體效果。神經關係抽取本身嚴重依賴與文本表層線索,例如上下文、實體和實體所處的位置。這使得數據增強引入的信息誤導了關係抽取模型,導致模型識別了錯誤的模式。
總結本研究中,作者創造並公開發布了數據集 WikiGenderBias。這是第一個評價神經關係抽取模型中性別偏見的數據集。作者在該數據集上訓練 NRE 模型並測試,發現模型識別配偶(spouse)關係時,在男女群體間存在性能差異(使用
構造無偏的神經關係抽取模型時一個開放且艱難的問題。一個可能的原因是偏見緩解方法引入了噪音,使得模型學得錯誤的關係和歸納偏好。作者希望未來有工作深度研究該難題。
儘管本文的發現可以幫助今後的工作避免性別偏見,但這項研究還處於初級階段。作者僅考慮了二分類的性別變量,未來可以拓展到多分類變量。此外,未來的工作應該進一步探究模型預測中性別偏見的來源,或許可以通過可視化注意力圖或更仔細地分析模型輸出。
主要參考文獻
[1]. Gaut A, Sun T, Tang S, et al. Towards Understanding Gender Bias in Relation Extraction[J]. arXiv preprint arXiv:1911.03642, 2019.
[2]. Bach N, Badaskar S. A review of relation extraction[J]. Literature review for Language and Statistics II, 2007, 2: 1-15.
[3]. Riedel S, Yao L, McCallum A, et al. Relation extraction with matrix factorization and universal schemas[C]//Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2013: 74-84.
[4]. Subasic P, Yin H, Lin X. Building Knowledge Base through Deep Learning Relation Extraction and Wikidata[C]//AAAI Spring Symposium: Combining Machine Learning with Knowledge Engineering. 2019.
[5]. Trisedya B D, Weikum G, Qi J, et al. Neural Relation Extraction for Knowledge Base Enrichment[C]//ACL (1). 2019: 229-240.
[6]. Zhao J, Wang T, Yatskar M, et al. Men also like shopping: Reducing gender bias amplification using corpus-level constraints[J]. arXiv preprint arXiv:1707.09457, 2017.
[7]. Rudinger R, Naradowsky J, Leonard B, et al. Gender bias in coreference resolution[J]. arXiv preprint arXiv:1804.09301, 2018.
[8]. Han X, Gao T, Yao Y, et al. OpenNRE: An open and extensible toolkit for neural relation extraction[J]. arXiv preprint arXiv:1909.13078, 2019.
[9]. Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009: 1003-1011.
關於數據實戰派
數據實戰派希望用真實數據和行業實戰案例,幫助讀者提升業務能力,共建有趣的大數據社區。