醫院裡的男性就是醫生,女性就是護士?NLP 模型的性別偏見到底有...

2020-12-27 雷鋒網

雷鋒網 AI 科技評論按:本文由 Ben Packer, Yoni Halpern, Mario Guajardo-Céspedes & Margaret Mitchell (Google AI)於 2018 年 4 月 13 日發布。這篇文章討論並嘗試實際測量了不同文本嵌入模型中的性別偏差。雷鋒網(公眾號:雷鋒網) AI 科技評論全文編譯如下。

當面對任務時,我們機器學習從業者通常基於該任務上的表現好壞來選擇或訓練模型。例如,假設我們正在建立一個系統來分類電影評論是正面還是負面,我們會選取 5 種不同的模型,看看每個模型對於這項任務的表現如何。

通常情況下,我們會選擇模型 C。儘管較之其他模型,模型 C 的效果最好,但是我們發現,模型 C 也最有可能將更積極的情感賦予「主角是男人」這句話,而不是「主角是女人」這句話。 我們應該重新思考這個問題嗎?

機器學習模型中的偏差

神經網絡模型可以非常有力、有效地用於模式識別並揭示從語言翻譯,病理學到玩遊戲等各種不同任務的結構。同時,神經網絡(以及其他類型的機器學習模型)也包含許多形式的存疑的偏差。例如,被訓練用於檢測粗魯,侮辱或不恰當評論的分類器在面對「我是同性戀」和「我是直的」這兩句話時,可能更容易命中前一句;人臉識別模型對於著妝的女性而言可能效果不佳;語音轉錄對美國黑人的錯誤率可能高於美國白人。

許多預先訓練好的機器學習模型已廣泛供開發人員使用。例如,TensorFlow Hub 最近公開發布了平臺。當開發人員在應用程式中使用這些模型時,他們意識到模型存在偏差以及偏差在這些應用中會如何展現。

人為的數據默認編碼了人為的偏差。意識到這件事是一個好的開始,關於如何處理它的研究正在進行中。在 Google,我們正在積極研究意外偏差分析和減小偏差的策略,因為我們致力於製造適合每個人的產品。在這篇文章中,我們將研究一些文本嵌入模型,提出一些用於評估特定形式偏差的工具,並討論構建應用程式時這些問題的重要性。

WEAT分數,一種通用的測量工具

文本嵌入模型將任何輸入文本轉換為數值化的輸出向量,並且在過程中將語義相似的詞語映射到相鄰的向量空間中:

給定一個訓練好的文本嵌入模型,我們可以直接測量模型中的單詞或短語之間的關聯。這些關聯許多都是符合預期的,並有助於自然語言任務。然而,也有些關聯可能會有問題。例如,Bolukbasi 等人的突破性 NIPS 論文《Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings》(https://arxiv.org/abs/1607.06520)中發現,基於 Google 新聞文本用流行的開源工具 word2vec 訓練的詞向量模型中,「男人」和「女人」之間的向量關係類似於「醫生」和「註冊護士」或「掌柜」和「家庭主婦」之間的關係。

最近,由 Caliskan 等人提出的詞向量關聯測試(WEAT)(Semantics derived automatically from language corpora contain human-like biases, Science, https://arxiv.org/abs/1608.07187)是一種檢查詞向量概念之間關係的方法,這些概念可以從內隱聯想測驗(IAT)中捕獲。本文我們將 WEAT 用作探索某些存疑關聯的一種方式。

WEAT 測試得出了模型將目標詞組(例如,非洲裔美國人名字,歐洲美國人名字,花或昆蟲)與屬性詞組(例如「穩定」,「愉快」或「不愉快」)聯繫起來的程度。兩個給定詞之間的關聯被定義為詞向量之間的餘弦相似度。

例如,第一次 WEAT 測試的目標列表是花和昆蟲的類型,屬性列表是表愉快的詞(例如「愛」,「和平」)和不愉快的詞(例如「仇恨」,「醜陋的」)。總體測試分數上,相對於昆蟲,花與表示愉快的詞語之間的相關程度更大。值為正的高分(分數可以介於 2.0 和-2.0 之間)意味著花與愉快的單詞更相關,而值為負的高分意味著昆蟲與愉快的單詞更相關。

而在 Caliskan 等人提出的第一個 WEAT 測試中,測量的關係並不是社會所關注的(除了對昆蟲學家而言),其餘的測試可以測量出更多存疑的偏差。

我們使用 WEAT 分數來檢查幾個詞向量模型:word2vec 和 GloVe(以前在 Caliskan 等人文章中提到過),以及 TensorFlow Hub 平臺上開源的三個新發布的模型——nnlm-en-dim50,nnlm-en-dim128 和 universal-sentence-encoder。得分報告在表 1 中。

這些關聯是從用於訓練這些模型的數據中學習得到的。所有模型都已經學會了我們可能期望的花、昆蟲、樂器和武器的聯繫,這可能對文本理解有用。從其他目標類別學習得到的關聯關係中,包含一些(但不是全部)由模型增強了的常見人為偏差。

對於使用這些模型的開發人員來說,了解這些關聯存在很重要,並且這些測試僅評估一小部分可能存在問題的偏差。減少不必要偏差的策略是一個新的活躍的研究領域,然而目前並沒有某一個方法可以適用於所有應用。

在關注文本嵌入模型中的關聯時,要確定它們對下遊應用程式影響的最明確方法是直接檢查這些應用程式。我們現在來看看對兩個示例應用程式的簡要分析:一個情感分析器(Sentiment Analyzer)和一個消息應用程式(Messaging App)。

案例研究1 : Tia 的電影情感分析器

WEAT 分數測量詞向量的屬性,但是他們沒有告訴我們這些向量如何影響下遊任務。在這裡,我們演示將姓名映射到幾個常見向量後對於影評情感分析的任務的影響。

Tia 正在訓練一個電影評論情感分類器。她沒有太多的影評樣本,所以她利用預訓練文本嵌入模型,將文本映射到可以使分類任務更容易識別的表示中。

讓我們使用 IMDB 電影評論數據集來模擬 Tia 的場景,對 1000 個正面評論和 1000 個負面評論進行二次抽樣。我們將使用預先訓練的詞向量來將 IMDB 評論的文本映射到低維矢量空間,並將這些矢量用作線性分類器中的特徵。我們將考慮一些不同的詞向量模型,並分別訓練一個線性情感分類器。

我們將使用 ROC 曲線下的面積(AUC)度量來評估情感分類器的質量。

這裡是使用每個向量模型提取特徵的電影情感分類的AUC分數:

起初,Tia 似乎很容易做出決定。她應該使用得分最高的向量模型用在分類器中,對吧?

但是,讓我們考慮一些可能影響這一決定的其他因素。這些詞向量模型是在 Tia 可能無法獲取的大型數據集上訓練得到的。她想評估這些數據集中固有的偏差是否會影響她的分類行為。

通過查看各種向量模型的 WEAT 分數,Tia 注意到一些詞向量模型認為某些名稱比其他名稱更具有「愉快」的含義。這聽起來並不像電影情感分析器的一個很好的屬性。Tia 認為名稱不應該影響電影評論的預測情感,這似乎是不對的。她決定檢查這種「愉悅偏差」是否影響她的分類任務。

她首先通過構建一些測試樣例來確定是否可以檢測到明顯的偏差。

在這種情況下,她從她的測試集中取得 100 條最短的評論,並附上「評論來自 _______」這幾個字,其中空白處填入一些人的姓名。使用 Caliskan 等人提出的「非裔美國人」和「歐洲美國人」名單,以及來自美國社會保障局的普通男性和女性的名字,她研究了平均情感分數的差異。

上面的小提琴圖顯示了 Tia 可能看到的平均情感分數的差異分布,通過從原始 IMDB 訓練集中抽取 1000 個正面和 1000 個負面評論的子樣本進行模擬。我們展示了 5 種詞向量模型的結果以及沒有使用詞向量的模型的結果。

檢查沒有詞向量的情感差異很方便,它可以確認與名稱相關的情感不是來自小型IMDB監督數據集,而是由預訓練詞向量模型引入的。我們還可以看到,不同的詞向量會導致不同的系統輸出,這表明詞向量的選擇是 Tia 情感分類器將會產生的關聯的關鍵因素。可以看到,只是在最後附加了不同性別的名字,都導致某些模型的情感分類的結果出現了變化。

Tia 接下來就需要非常仔細地考慮如何使用這個分類器。也許她的目標只是選擇一些好的電影供自己觀看。在這種情況下,這可能不是什麼大問題。出現在列表頂部的電影可能是非常喜歡的電影。但是,如果她用她的模型來評估演員的平均影評等級,以此為依據僱傭演員並支付演員薪酬呢?這聽起來就有大問題了。

Tia 可能不限於此處所提供的選擇。她可能會考慮其他方法,如將所有名稱映射到單個詞中;使用旨在減輕數據集中名稱敏感度的數據重新訓練詞向量;或使用多個向量模型並處理模型不一致的情況。

這裡沒有一個「正確」的答案。這些決策中的很多都是高度依賴於上下文的,並取決於 Tia 的預期用途。對於 Tia 來說,在選擇訓練文本分類模型的特徵提取方法時需要考慮的指標遠不止分類準確率一項。

案例研究2:Tamera 的消息應用程式

Tamera 正在構建一個消息應用程式,並且她希望使用文本嵌入模型在用戶收到消息時給予他們建議的回覆。她已經建立了一個系統來為給定的消息生成一組候選回復,並且她希望使用文本嵌入模型對這些候選人進行評分。具體而言,她將通過模型運行輸入消息以獲取消息的文本嵌入向量,對每個候選響應進行相同的處理,然後使用嵌入向量和消息嵌入向量之間的餘弦相似度對每個候選者進行評分。

雖然模型的偏差在許多方面可能對這些建議答覆起作用,但她決定專注於一個狹窄的方面:職業與二元性別之間的關聯。在這種情況下,舉一個關於偏差的例子,如果傳入的消息是「工程師是否完成了項目?」模型給回答「是的,他做了」的評分高於「是的,她做了」,就體現出了模型的偏差。這些關聯是從用於訓練詞向量的數據中學習的,雖然它們對於性別的反應程度很可能就是訓練數據中的實際反應(以及在現實世界中這些職業中存在性別不平衡的程度),但當系統簡單地假定工程師是男性時,對用戶來說可能是一種負面的體驗。

為了衡量這種形式的偏差,她創建了提示和回復的模板列表。這些模板包括諸如「是你的表弟嗎?」和「今天是在這裡嗎?」等問題,答案模板是「是,他/她是的」。對於一個給定的職業和問題(例如,「水管工今天會在場嗎?」),模型的偏差分數是模型對女性性別反應(「是,她會」)的分數與男性(「是的,他會的」)的分數的差異:

對於整個給定的職業,模型的偏差分數是該職業所有問題/答案模板的偏差分數的總和。

通過使用 Universal Sentence Encoder 嵌入模型分析,Tamera 可以運行 200 個職業。表 2 顯示了最高女性偏差分數(左)和最高男性偏差分數(右)的職業:

「女服務員」問題更有可能產生包含「她」的回應,但 Tamera 並沒有為此感到困擾,但許多其他回應的偏差阻攔了她。和 Tia 一樣,Tamera 可以做幾個選擇。她可以簡單地接受這些偏差,不做任何事情,但起碼,如果用戶抱怨,她不會措手不及。她可以在用戶界面上進行更改,例如通過提供兩個性別的響應而不是一個,當輸入消息中需要含有性別代名詞的時候(例如,「她今天會在那裡嗎?」)。

但她也可能不想這樣做。她可以嘗試使用偏差減輕技術重新訓練詞嵌入模型,並檢查這會如何影響下遊任務的表現,或者她可能會在訓練她的分類器時直接減輕分類器中的偏差(例如,http://research.google.com/pubs/pub46743.html,https://arxiv.org/abs/1707.00075,或者 https://arxiv.org/abs/1801.07593 )。無論她決定做什麼,重要的是 Tamera 都會進行這種類型的分析,以便知道她的產品的功能,並且可以做出明智的決定。

結論

為了更好地理解 ML 模型可能產生的潛在問題,模型創建者和使用這些模型的從業者應該檢查模型可能包含的不良偏差。我們已經展示了一些工具來揭示這些模型中特定形式的刻板印象偏差,但這當然不構成所有形式的偏差。即使是這裡討論的 WEAT 分析的範圍也很窄,所以不應該被解釋為在嵌入模型中抓取隱式關聯的完整故事。例如,針對於消除 WEAT 類別中的 50 個名稱的負相關而明確訓練的模型可能不會減輕其他名稱或類別的負相關,並且由此產生的低 WEAT 得分可能給出錯覺,即整體上的負關聯問題已經得到了很好的解決。這些評估更好地告訴我們現有模型的行為方式,並作為一個起點讓我們了解不需要的偏差是如何影響我們創造和使用的技術的。我們正在繼續解決這個問題,因為我們相信這很重要,同時也邀請您加入這個話題。

致謝:我們要感謝 Lucy Vasserman,Eric Breck,Erica Greene 以及 TensorFlow Hub 和 Semantic Experiences 團隊在這項工作上的合作。

via developers.googleblog.com,雷鋒網 AI 科技評論編譯

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 外科醫生就是男性?算法為何也有性別歧視
    父親當場去世,兒子也性命堪憂,被立即送往醫院,準備進行手術。外科醫生走進手術室,看見病人後大叫:「我沒法做手術,這是我兒子!」那麼外科醫生是誰呢?你的答案是什麼?你有考慮外科醫生是男孩母親的可能性嗎?如果沒有,放心,你不是唯一一個。
  • 職業本沒性別區分,為何男性的醫生護士更需要被鼓勵?
    我們不去否定醫生的職業素養,但是我想醫生也是一份非常光榮的職業,是人也有著七情六慾,不可能對於一個活生生的人沒有任何的情感表達。但是如果問題反過來:「如果男性科室是女醫生或者護士來檢查,你能接受嗎?」其實,這是個很常見的形象,因為醫院基本上90%以上的護士都是女性。
  • 谷歌翻譯困境破局 AI不是人,為什麼也會有性別偏見
    這些年來,Google Translate(谷歌翻譯服務)一直被人詬病存在性別偏見現象,例如Google Translate會默認將某些「中性」職業和特定的性別聯繫起來,「醫生」一定是男性,而「護士」則往往是女性。從2018年開始,Google就嘗試解決土耳其語和英語互相翻譯時的性別偏見問題,為與性別有關的詞條提供兩種版本的翻譯(和漢語不同,土耳其語是「中性」語言。
  • 谷歌翻譯困境破局:AI不是人,為什麼也會有性別偏見?
    「中性」職業和特定的性別聯繫起來,「醫生」一定是男性,而「護士」則往往是女性。 從2018年開始,Google就嘗試解決土耳其語和英語互相翻譯時的性別偏見問題,為與性別有關的詞條提供兩種版本的翻譯(和漢語不同,土耳其語是「中性」語言。漢語中有「他」和「她」兩種人稱代詞來區分性別,而土耳其語種僅存在「o」一種人稱代詞,不區分性別),分別展示指代男性和女性對應的語境。但此種解決方案可擴展性和準確度都較低,在推廣到其它語言的翻譯時困難重重。
  • 減少谷歌翻譯中性別偏見的可擴展方法
    用於語言翻譯的機器學習(ML)模型可能會因為模型訓練數據中潛藏的社會偏見而生成同樣帶有傾向的結果。性別偏見就是一個典型的例子,主要體現在性別特定(語言中有他 / 她這樣區分性別的語素)語言和非性別特定語言之間的翻譯結果上。例如,谷歌翻譯曾將土耳其語中的「他 / 她是醫生」都翻譯成了"他是醫生",而將土耳其語中的「他 / 她是護士」都翻譯成了"她是護士"。
  • 消除NLP中的刻板印象:程式設計師之於男性=家政人員之於女性?
    這有可能在應用中帶來糟糕的社會後果:在一個假想的搜索應用中尋找和程式設計師相似的人的材料,算法可能會據此把男性排在女性之前。舉個例子,一個程式設計師叫 Mary,另一個叫 John,他們作為程式設計師的專業水平一模一樣;但是因為 John 這個名字更男性,算法有可能因此認為他的個人材料就更加接近程式設計師一點,導致 John 在之後和 Mary 的競爭中帶有優勢。
  • WikiGenderBias:一個可評價並減少模型性別偏見的數據集
    性別偏見是指在和性別無本質關聯的任務上,算法明顯利用性別信息對其他屬性相似、但性別屬性不同的樣本給出不同預測。一些研究表明,在自然語言處理的多項任務上,主流算法都存在一些性別偏見。一些方法可以簡單地檢測模型是否存在性別偏見,例如計算模型在男性測試樣本和女性測試樣本上的性能指標之差。發現性別偏見後,一些研究提出緩解偏見的方法,例如數據增強、無偏見的詞向量、平衡數據分布等等。
  • AI的偏見:機器就是絕對理性的麼?
    以下是我能想出的最好的定義:對於社會歧視影響下的特定任務,如果給定的人工智慧模型能夠輸出獨立於敏感性參數(例如性別、種族、性取向、宗教信仰、殘疾等)的結果,那麼這個人工智慧模型就是公平的。本文將討論人工智慧偏見,與之對應的真實例子,及其解決方法。問題人工智慧偏見是由於訓練模型的數據所固有的偏見造成的,這導致了社會歧視,進而導致平等機會的缺乏。
  • 「男催乳師」走紅,為什麼男性比女性更受歡迎?看完放下偏見
    導讀:「男催乳師」走紅,為什麼男性比女性更受歡迎?看完放下偏見各位點開這篇文章的朋友們,想必都是很高的顏值吧,我們真的是很有緣哦,小編每天都會給大家帶來不一樣的育兒資訊,如果對小編的文章或者其他的什麼,有什麼一些意見的話歡迎在下方積極評論哦,小編每條都會認真看的。那麼本期的內容是:「男催乳師」走紅,為什麼男性比女性更受歡迎?看完放下偏見!那麼我們就來看看吧!
  • ACL 2020|詞嵌入性別偏見難以避免?「雙硬去偏」新方法來了!
    ,而且這種性別偏見會被下遊模型進一步放大。2、為什麼性別偏見是一個嚴重的問題?詞嵌入中的性別偏見確實是一個很嚴重的問題。想像一下,如果人們訓練了一個基於具有偏見的詞嵌入的簡歷篩選模型,那麼這個模型就會針對程式設計師等崗位自動地過濾掉女性應聘者,也會針對理髮師等職位篩除掉男性應聘者。
  • 未來不止有男性和女性?第三性別到底是什麼?
    德國當地時間12月15日,在德國議會上通過了一項議案,該議案允許民眾出生證明以及身份證等法律文件上除了男性和女性以外可以填寫第三類性別:「多元性別(diverse)」。但是「第三性別」,到底是什麼呢?在傳統的認知中,我們對於性別的概念就是「有男有女」這麼簡單?
  • 谷歌翻譯減少性別歧視 「他」也可以是護士
    12月7號消息,谷歌今天宣布從本周開始,谷歌翻譯開始為一些性別中立的詞語提供女性化和男性化的翻譯,減少性別偏見。例如,土耳其語中的「o bir doktor」,現在翻譯為「她是醫生」和「他是醫生」。谷歌翻譯稱一直致力於促進公平,並減少機器學習中的偏見。此前翻譯時,它無意中會表現出一些已經固化的性別偏見。例如:對谷歌翻譯中的「o bir muhendis」翻譯為「他是工程師」,而「o bir hemsire」 被翻譯為「她是一名護士。」現在,谷歌翻譯為一些性別中性詞語分別提供女性和男性的翻譯來解決性別偏見問題。
  • 性別會造成對性別偏見研究的偏見
    不僅如此,一項新的研究顯示,該領域內男性和女性對於「有關性別偏見的研究」的評價也因性別各異。這項研究來自美國蒙大拿州立大學的心理學家們,日前發表在《美國國家科學院院刊》。科學家們發現,在 STEM 領域工作的男性不願接受證明其工作領域存在性別偏見的研究成果,他們對該類研究的評價存在「偏見」。
  • 對性騷擾順從的siri們:虛擬女性在鞏固性別偏見?
    有人認為,虛擬女性的出現,就像洗衣機的出現對於婦女解放而言一樣具有革命意義,它將現實生活中的女性從傳統的由女性所提供的「情感勞動」的枷鎖中解放出來;另一方面,另一些人則認為基於性別刻板印象設計出的虛擬女性會加大男性在現實生活中對女性的不滿,增加他們對女性的偏見,而對女性來說,這會讓她們不自覺地產生模仿。
  • 順產「備皮」遭遇男護士,產婦臉紅想讓丈夫來,被主刀醫生痛批胡鬧
    在一番檢查之後,醫生開始給宋女士做產前準備,這時突然進來了一名男護士,宋女士一開始還滿頭霧水不知道要幹什麼,沒想到男護士徑直走到她面前,說"麻煩把腿張開,我要幫你備皮了。"宋女士知道備皮就是刮毛,她本來對這個流程就非常的牴觸,看到來給她備皮的居然還是一個男護士,她心裡更是無法接受,非常抗拒。
  • 我是女醫生,為什麼病人總要叫我護士、美女?
    本文作者:胡青山在第 N 次被患者叫做「美女」和「護士」之後,劉悅(化名)仍然固執地糾正:「我是醫生,有需要你可以去護士站問問。」劉悅今年 25 歲,是湖北某三甲醫院實習醫生。「有一次去查房,病人自己上廁所弄髒褲子了,特別理所應當地讓我幫他換」,劉悅表示,自己不止一次地被患者當做「護士」,對她的稱呼從「美女」到「小姐」到「護士」,千奇百怪,卻很少有人叫她醫生。在患者的認知中,年輕的女性一般都是「護士」,而男性,無論年紀身份,都被稱為「醫生」。
  • 更偏好白人男性?Science新研究證明人工智慧也能學會偏見
    地址:http://science.sciencemag.org/content/356/6334/183.full學習人類書寫的文本的計算機會自動表現出特定的男性或女性職業詞人工智慧的一個偉大願景是創造一個沒有偏見的世界。人們想著,如果讓算法來招聘員工,那麼男人和女人都應該會有同等的工作機會;如果用大數據來預測犯罪行為,那麼就會消除警務工作中的種族偏見。
  • 婦科醫生裡男性醫生比例不斷增加,分娩遇到男醫生,你會接受嗎?
    在近幾年的時間了,婦科醫生裡男性醫生的比例也在不斷的增加,已經漸漸成為了一個趨勢,但這對於不少媽媽來說,依舊是一個比較難以接受的事情,開宮口時遭遇「一陽指」,遇到男醫生的那些事,最好提前了解一下。當然,如果你不希望是男性醫生進行看診,那麼也可以提前進行預約,找專業的女性醫生全程檢查助產。
  • 男性該陽剛,女性該溫柔?廣州一教授:小學語文課本存性別偏見
    男性就該陽剛、而女性就該溫柔,這樣的性別「誤解」你有沒有遇過?1月5日,廣州市婦女兒童工作委員會辦公室舉行廣州市迎接婦女兒童發展綱要規範終期評估暨新周期綱要規劃編制培訓班。其中,中共廣州市委黨校教授葛彬在現場以男女平等為主題進行授課。
  • 職業不分性別 更多中國男性選擇「她職業」
    劉鑫在寧夏回族自治區銀川市第一人民醫院ICU當男護士已有三年,他每天不但要為病人清理身體、檢查、給藥,進行24小時監護,還需隨時配合醫生做好病危搶救工作。新華社記者 王鵬攝新華社銀川5月2日電(記者艾福梅 謝建雯 溫競華)很多人在第一次聽說胡炳龍的職業後,都會下意識問一句「你為什麼要幹這行?」