譯 as
人類容易出錯和有偏見,但這並不意味著算法一定會更好。儘管如此,技術已經在對你的生活做出重要的決定,並可能決定你看到哪些政治廣告,如何篩選你理想工作的申請,如何在你的社區部署警察,甚至預測你家的火災風險。
但這些系統可能會基於構建者、開發方式以及使用方式而產生偏差。這通常被稱為算法偏差。很難確切知曉系統是如何易受算法偏差影響的,特別是因為這種技術往往在公司的黑匣子裡運行。我們常常並不清楚一個特定的人工智慧或算法是如何設計的,什麼數據幫助構建它,或者它是如何工作的。
算法對個體的影響到底是什麼?這問題值得每個人深思
一般來講,你只知道最終的結果:如果你在第一時間意識到了人工智慧和算法的使用,它對你有什麼影響。你得到那份工作了嗎?你在自己的社交媒體時間線上看到各種宣傳廣告了嗎?面部識別系統認出你了嗎?這使得解決人工智慧偏差的問題變得很棘手,但更重要的是要搞懂怎麼回事。
當思考「機器學習」工具(人工智慧的一種)時,最好想一下「訓練」這個概念。這涉及到讓計算機接觸一堆數據——任何類型的數據——然後計算機學習對它基於模式處理的信息做出判斷或預測。
舉一個非常簡單的例子,假設你想訓練你的計算機系統根據一些因素,如紋理,重量和尺寸,來識別對象是否是一本書。人類也許可以做到這一點,但計算機可以更快地做到這一點。
為了訓練系統,需要給計算機顯示許多不同對象的度量。你給計算機系統提供每一個對象的度量,告訴計算機這些對象什麼時候是書,什麼時候不是書。在不斷地測試和改進之後,系統應該能夠知道什麼表示一本書,並且,可以期望它將來能夠根據這些指標去預測一個對象是否是一本書,而無需人工幫助。
這聽起來相對簡單。如果您對第一批數據進行了正確分類,並且包含了一系列適用於許多不同類型書籍的度量指標。
然而,這些系統通常應用於比這項任務後果要嚴重得多、又未必有「客觀」答案的情況。通常,這些用於訓練或檢查這些決策系統的數據並不完整,不平衡或選擇不當,這就會成為算法偏差的主要來源(儘管當然不是唯一的來源)。
布魯金斯學會智囊團技術創新中心的研究員Nicol Turner Lee解釋說,我們可以從兩個主要方面考慮算法偏差:準確性和影響。對於不同的人群,一個人工智慧會有不同的準確率。同樣,當一個算法應用於不同人群時,它可以做出截然不同的決策。
重要的是,當你想到數據時,你可能會想到在正式研究中需要仔細考慮人口統計學和表現形式,權衡各種限制,然後對結果進行同行評審。但那些被用來對你做出決定的基於人工智慧的系統不一定是這樣。
讓我們來看看每個人都可以訪問的數據源:網際網路。一項研究發現,通過教人工智慧在網際網路上抓爬——僅僅閱讀人類已經寫下的東西——這個系統會對黑人和婦女產生偏見。
藝術家Trevor Paglen和AI研究專家Kate Crawford在2019年合作了一個叫做「ImageNet輪盤賭」的藝術項目,證實這個圖片分類系統會產生種族主義和各種歧視的標籤。
另一個訓練數據是怎麼在算法中產生性別歧視的例子發生在幾年前,當時亞馬遜試圖使用人工智慧構建一個簡歷篩選工具。據路透社報導,該公司希望技術能使求職申請的分類過程更加高效。
它用公司10年來收集的簡歷建立了篩選算法,但這些簡歷往往來自男性。這意味著,最終這個體系學會了歧視女性。最後,它還學會了考慮性別指代因素,比如申請者是否上過女子大學。(亞馬遜方面表示從未使用過該工具,由於好幾個原因,它不起作用。)
在討論算法偏差時,使用人工智慧的公司可能會說他們正在採取預防措施,使用更具代表性的培訓數據,並定期審核其系統,以防對某些群體產生意外偏差和不同影響。但是,哈佛大學應用數學和哲學專業的博士候選人、研究AI公平性的胡莉莉(Lily Hu音譯)表示,這些並不能保證您的系統將來會表現得公平。
「你無法給出任何保證,因為你的算法對舊數據集執行『公平』,這是機器學習的一個基本問題所在。機器學習對舊數據和訓練數據起作用。而且它不適用新數據,因為我們還沒有收集到這些數據。」
但,我們不應該只製作更具代表性的數據集嗎?這可能是解決方案的一部分,不過值得注意的是,並非所有旨在構建更好數據集的努力都是合乎道德的。不僅僅是數據問題。
正如《麻省理工學院科技評論》(MIT Tech Review)的人工智慧報導記者Karen Hao所解釋的那樣,人工智慧也可以被設計成以一種根本上有問題的方式來構建一個問題。例如,一個旨在確定「信譽度」的算法,其程序是為了實現利潤最大化,最終可能決定發放掠奪性的次級貸款。
還有一件事要牢記:對一種工具進行了偏差測試(即假設正在檢查偏差的工程師實際上了解了偏差的表現和操作方式)也不夠,針對一個群體做了並不意味著對另一類型的群體做了。
當一種算法同時考慮多種身份因素時也是如此:例如,一種工具可能被認為對白人女性相當準確,但這並不一定意味著它適用於黑人女性。
預測未來犯罪的軟體會判別左邊黑人比右邊白人更有犯罪風險。Josh Ritchie拍攝,來自propublica.org
在某些情況下,可能無法找到沒有偏見的訓練數據。以美國刑事司法系統產生的歷史數據為例。很難想像,一個充斥著系統性種族主義的機構所提供的數據能夠被用來建立一個有效和公平的工具。
正如來自紐約大學和AI Now研究所的研究人員所言, 預測性的警務工具可以被輸入「髒數據」,包括反映警察部門意識和隱含偏見的警務模式,以及警察腐敗。
因此,你可能擁有構建算法的數據。但是,誰來設計,以及誰來決定如何部署它?誰來決定不同群體的可接受準確度水平?誰來決定人工智慧的哪些應用符合道德,哪些不符合道德?
雖然在人工智慧領域的人口統計學還沒有廣泛的研究,但我們確實知道人工智慧往往由男性主導。根據美國平等就業機會委員會(Equal Employment Opportunity Commission)的數據,從廣義上講,「高科技」行業往往白人佔多數,而黑人和拉丁裔佔少數。
Turner Lee強調,當提出這些系統時,我們需要考慮誰能在談判桌上佔有一席之地,因為這些人最終決定了有關其技術的道德部署的討論。
但還有一個更廣泛的問題,就是人工智慧可以幫助我們回答哪些問題。胡莉莉認為,對於許多系統來說,建立一個「公平」系統本質上是荒謬的,因為這些系統試圖回答不一定有客觀答案的社會問題。例如,那些聲稱預測一個人會不會再次犯罪的算法,並不能最終解決倫理問題,即一個人是否該獲得假釋。
「沒有客觀方法來回答這個問題,」她說,「當你嵌入一個人工智慧系統,一個算法系統,一臺計算機時,它不會改變問題的基本背景,也就是說問題沒有客觀的答案。從根本上講,這是一個我們的價值觀是什麼,以及刑事司法制度的目的是什麼的問題。」
請記住,某些算法可能不應該存在,或者至少它們不應該有如此高的濫用風險。一項技術是準確的,並不意味著它是公平或道德的。
算法偏差看起來如此不透明的一個原因是,就我們自己而言,通常無法判斷它何時發生(或者某個算法是否處於混在其中)。Turner-Lee說,這也是為什麼一對夫妻申請蘋果信用卡但信用額度懸殊的爭議引起如此多關注的原因之一。
這是一個罕見的例子,兩個人至少看起來像是暴露在同一個算法,可以很容易地進行比較。儘管監管機構目前正在調查該公司的信用卡,但此案的細節仍不清楚。
蘋果信用卡背後的算法也是深不可測
但實際上消費者很少能夠對算法結果進行這種「蘋果對蘋果」的比較,這就是為什麼倡導者們要求提高對系統工作方式及其準確性的透明度的部分原因。最終,這可能不是我們個人層面可以解決的問題。
即使我們確實知道算法可能存在偏差,但這並不意味著公司會坦誠允許外部人員研究其人工智慧。對於那些追求更公平的技術系統的人來說,這是一個挑戰。如果你無法真正訪問一個算法的內部工作流程,或無法測試其大量決策,那你又怎麼能批評這個算法(一種黑匣子)呢?
總的來說,公司都會聲稱自己是準確,但不總會透露他們的訓練數據,請記住,這是人工智慧在評估新數據(比如,你的工作申請)之前對其進行訓練的數據。
許多公司似乎並沒有接受第三方評估人員的審核,也沒有公開共享其系統在應用於不同人群時的表現。麻省理工媒體實驗室的Joy Buolamwini和微軟研究院的Timnit Gebru在一篇文章裡指出,共享用於訓練的數據和用於檢查人工智慧的數據的人口統計信息,應該是透明性的基線定義。
我們可能需要新的法律來規範人工智慧。在美國,有一項法案將迫使公司讓聯邦貿易委員會(FTC)檢查他們的系統是否存在偏見,此外還提出了立法來規範面部識別,甚至禁止該技術進入聯邦資助的公共住房領域。
Turner-Lee告誡道:「有一群非常了解它的人,他們是技術人員,還有一群根本不真正了解它或了解得很少的人,成為了決策者。」但這並不是說沒有技術上的努力來對有缺陷的人工智慧「消除偏見」,重要的是要記住,這些技術也不能解決公平和歧視的根本挑戰。
原文連結:
https://www.vox.com/recode/2020/2/18/21121286/algorithms-bias-discrimination-facial-recognition-transparency
(譯文略有刪減)
ABOUT.
科學藝術研究中心是一家非營利機構,以「跨界促生變革」為核心,致力於打造國內首家科學藝術家們的研究與創新平臺,來促進不同學科領域間的高度交叉融合。科學藝術研究中心集創作與傳播為一體,推動科學知識的大眾普及。
閱讀原文