把人做決策換成算法決策就公平了嗎?不見得

2020-12-25 雷鋒網

雷鋒網 AI 科技評論按:《哈佛商業評論》(Harvard Business Review)最近發表了一篇文章《不想被偏見左右?那就用算法!》作者是亞歷克斯·p·米勒。這篇文章談到,人類常常做出有帶有偏見性的決定(確實如此),所以他認為更多的地使用算法代替人類做決定是一個不錯的選擇。

「如何提高算法的公平性」是機器學習領域經常談及的話題,但是直接認為算法的偏見就是比人類少,馬上引起了不少反對之聲。在雷鋒網 AI 科技評論編譯的這篇文章裡,Rachel Thomas 就逐項提出了自己的反駁。

他認為米勒忽略了許多重要的相關因素,包括:

  • 算法實現的時候通常不會設計一個用來申訴的途徑(因為很多人誤以為算法是客觀、精準且不會出錯的)

  • 在許多情況下,算法的使用範圍比人類的決策者規模大得多,所以會把完全相同的偏見也散播到同樣大的範圍中去(算法之所以吸引人,一部分原因就是因為使用成本低)

  • 算法的使用者可能不理解概率或置信區間(即使已經註明),並且在實際操作中可能也不願去推翻算法的決定(即便這在技術上是完全可行的)

  • 與其只關注這些不置可否的選擇,不如好好考慮如何將人類和機器的優勢相結合,以便創造出更好的、偏見更少的決策工具

米勒在《不想被偏見左右?那就用算法!》中承認,「算法革命」的批評者是在擔心「算法在運用時會不透明、帶有偏見,成為無法解釋的工具」,但他在自己的文章中卻只提到了「偏見」,而忽略了「不透明」和「無法解釋」(以及它們和「偏見」之間的化學反應)。

人機結合才是最優方案

媒體總是通過人類和機器的對比來證明 AI 的進步,比如我們常會看到媒體報導,誰才是某項任務的冠軍。若考慮到大多數算法一般都是用來做什麼的,這種比較其實並不科學,同時這樣評價人工智慧也十分狹隘。因為在所有案例中,算法都有人類的參與,尤其是在搜集數據、制定決策、實現方式、解讀結果及因人而異的理解等方面,都會受到人類的左右。

多數從事人工智慧醫學應用的研究人員,事實上並不打算用機器來完全取代醫生,他們只想利用人工智慧來幫助醫生,使他們的決策能更加準確和效率,並提高醫療質量。要知道,史上最強的從來不是人與機器中的一個,而是並肩協作的人類與計算機組成的團隊。

米勒(正確地)認為,人類是非常有偏見的,然後他對比了幾種現有的並不完善的改善方案,想從裡面挑出不那麼糟糕的一種。但他卻並未提出實質性的思考:怎樣才能減少偏見,作出更好的決策呢?(也許是通過一些人與算法的結合?)我想,這個問題更值得考量。

人機決策方式根本不同

算法在實際中運用範圍很廣,因而也會出現許多相同的偏見,但這種偏見卻會被認為是正確或客觀的結果。米勒的研究中,把它們拿來做了完全並列的對比,但他沒有注意到實際使用中的區別。

凱茜•奧尼爾(Cathy O 'Neil)在《摧毀數學的武器》(Weapons of Math Destruction)中寫道,她所批評的那類算法更傾向於禍及窮人。它們專注於處理相對便宜而又大規模的任務,當然,價格低是它的優勢。相反,富人卻常傾向於選擇「人」。要知道,大公司或者貴族學校常傾向於內部推薦或面對面的面試,而不會像財力不足的企業那樣使用機器進行群體篩選。佼佼者往往會動用人力,而機器常被派遣去做相對初級的選拔。

凱茜在書中舉了的一個例子,有一位患雙相情感障礙的大學生,他想在暑假裡找一份裝雜貨的工作。但由於他申請的每一家便利店都在使用相同的心理測量軟體來篩選求職者,因此他被每家便利店都拒絕了。這體現出算法的另一隱患:即使人類經常有類似的偏見,但並不是所有的人都會做出相同的決定。如有可能,他也許能找到一個即使知道他的心理疾病仍然願意僱傭他的老闆。

許多人寧願相信算法做出的決策,也不願信任人類的決定。事實上,設計算法的研究者們可能對概率和置信區間有更多的了解,但真正使用這些算法的普通大眾卻不會注意到這一點。即使給了他們推翻算法決策的權力,在實際操作他們也不一定願意這樣做。

算法的解釋也值得重視

很多關於算法偏見的案例,其實都缺乏有意義的解釋或申訴過程。這看似是算法決策過程中的特殊趨勢,也許是因為人們錯誤地認為算法就是客觀的,所以沒必要允許對結果進行申訴。與此同時,正如上文所說的那樣,算法決策系統本來是為了削減成本,如果要允許申訴的話,這功夫就白費了。

凱茜·奧尼爾(Cathy O』neil)還提到,有位深受學生、家長和校長喜愛的老師,卻莫名被算法開除了。她永遠都沒辦法知道算法是因為什麼原因而開除她的!如果有一種相對快捷、簡單的方式來讓她提出申訴,甚至即便只是讓她確切知道這和什麼因素有關,這故事就不會那麼令人扼腕了。

有一個軟體在美國一半以上的州使用著,它會決定每個人接受的醫療保健服務應該有多少。根據 The Verge 的調查,這種軟體在阿肯色州實施後,許多患有嚴重殘疾的人醫療保健驟然大幅削減。比如,一位患有腦癱的女性 Tammy Dobbs,她本需要一個幫助來幫助她完成起床,上廁所,吃東西等日常生活行為的人,但其受助時間卻突然減少到每周 20 個小時。沒有任何人能向她解釋為什麼醫療保健服務一下子變少了。最終,經過法院調查,是該軟體的算法錯了,因此對糖尿病或腦癱患者產生了負面影響。然而,像 Tammy Dobbs 類似的許多病人依然生活在恐懼之中,總擔心他們的福利又會莫名其妙地被削減。

這個算法的創造者是一位教授,他從這個軟體中賺取版稅。然而在被問及此事時,他卻認為這是別人的責任。我們可不能推卸自己的技術問題給別人。

2000 年代中期,科羅拉多州使用了一個單獨的計算機系統來確定公共福利,結果被發現有超過 900 條的錯誤規定被輸入到了裡面,導致了一系列問題。比如,孕婦無法享受醫療補助。律師們通常很難發現這些漏洞,因為這些內部工作機制就像商業秘密一樣受保護。所以說,醫療保健、僱傭/解僱、刑事司法和其他會對人們的生活造成重要改變的領域的決策系統,應該創建出一個快速且易於操作的申訴機制。這些令人不安的事故中,如果有一種簡單高效的方法來糾正算法的錯誤就好了。犯錯是難免的,正因如此,有一個嚴密的系統來發現和糾正這些錯誤是不可或缺的

複雜的現實世界的系統

當我們談及人工智慧時,我們需要考慮的是在這個現實世界中複雜的系統。《哈佛商業評論》中提到的研究將決策看成孤立的行為,並沒有考慮所處的環境。就好比判斷一個人是否會坦白其他罪行,這種決定並不能孤立做出,還需要結合複雜的法律系統。我們有必要了解研究領域所處的真實環境是如何交互運作的,同時別忽略那些可能會受到影響的

在美國的一些法庭上,對於審前保釋、量刑和假釋有關的判決,都使用了 COMPAS 算法。在 ProPublica 的一項中調查發現,白人被告人的結果誤報率是 24%(這裡的誤報是說,算法判斷這個人釋放時是「高危」的,但此後並沒有二進宮),而黑人被告的誤報率高達 45%。後來的研究發現,COMPAS 事實上還不如一個簡單的線性方程精確。(你可以在普林斯頓計算機科學學院教授 Arvind Narayanan 的《21個關於公平的定義》視頻中看到更多關於公平的定義)。

克裡斯蒂安•林(Kristian Lum)是一名統計學博士,也是人權數字分析集團(Human Rights Digital Analysis Group)的首席數據科學家。她與紐約法律援助協會(NY Legal Aid Society)的律師、前公設辯護人伊莉莎白•本德(Elizabeth Bender)以及一名被捕卻無辜的男子,特倫斯•威爾克森(Terrence Wilkerson)一起組織了一個研討會。他們一起分享了關於法律體系中所存在的漏洞的應對經驗,為圍繞 COMPAS 的辯論提供了寶貴的討論素材。 Bender 分享說,紐約市的無力負擔保釋費用、也尚未經過審判的被捕公民都會被關押監禁在 Rikers Island,政府付費的公共辯護人去那裡見他們的時候來回各需要兩個小時,但是實際面見需要法律服務的那個人的時間才不到 30 分鐘,假如守衛們動作麻利、守時的話(但往往不是這樣的)。威爾克森詳細介紹了這些無力繳納保釋金的無辜被捕者有多麼經常同意籤署認罪協議,只為了他們可以更快地出獄。請不要忘了,這些都是發生在一群從來沒有上過法庭的人身上!這個圓桌討論是一個闡明現實世界與複雜系統之間關係的絕好例子,真希望更多的統計學家和計算機科學家能向他們學習。

由此可見,算法也許會加劇潛在的社會問題,比如法院和監獄系統啦,跟種族偏見掛鈎的保釋金使用等等。所以我們有責任去了解算法可能會接觸的系統以及它們可能會遇到的問題。

反對偏見不是反對算法

大多數對算法偏見持反對意見的人,都只是在反對不公平的偏見,而不是反對算法本身。米勒說,這些批評算法不公平的人「很少問他們分析的系統在沒有算法的情況下運行得有多好」,這表明那些反對者可能並不知道人類帶有多少偏見,或就只是單純排斥算法。在我開始撰寫有關機器學習偏見的文章之前,我就花了大量時間研究和撰寫有關人類的偏見(特別是關於它們如何與科技行業相關的研究)。

當我在 twitter 上分享有關偏見的算法時,常會遭到反駁,認為我是反算法/科技人士。我有數學的博士學位,我曾做過量化分析師、數據科學家和軟體工程師,並創建了一個免費的在線計算線性代數課程,且與別人合作創立了 fast.ai ,它有面向程式設計師的深度學習實操課程,並通過算法的巧妙運用贏得了史丹福大學的計算機視覺速度測試。

我不是唯一這樣的人:大多數直言不諱批評帶有偏見的算法的人,都有計算機科學、數學或統計學博士學位,且持續活躍在他們的領域裡。只要看看 Faireness Accountability and Transparency Conference 的一些發言者就懂了。好比普林斯頓大學的計算機科學教授 Arvind Narayanan,他是 Kaggle 社交網絡挑戰賽的冠軍,也是一門流行的加密貨幣課程的老師,他依然公開反對過算法偏見。

所以,我希望有關偏見算法的討論不要總是拘泥在這種無足輕重的地方,而要深入問題的本質。

via fast.ai,雷鋒網(公眾號:雷鋒網) AI 科技評論編譯

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 如何實現算法決策公平?_湃客_澎湃新聞-The Paper
    引言隨著人工智慧的發展,算法決策系統越來越多地被用於輔助甚至是替代人的決策,例如使用算法進行信貸審批、人才招聘、犯罪風險評定等等。由於算法在決策中扮演的角色越來越重要,算法決策的公平性也愈發引起重視。本專題第二期推送為大家介紹了一種將人類意志與算法意志結合起來以提高算法決策公平性的方法,這一期我們將從算法本身出發,為大家介紹Zafar等人在Fairness constraints:Mechanisms for Fair Classification這篇論文中所提出的提高決策公平性的機器學習框架。01什麼是算法決策的不公平性?
  • 【算法】決策樹與ID3算法
    2 決策樹適合解決什麼問題?1. 什麼是決策樹/判定樹(decision tree)?決策樹(Decision Tree)算法是機器學習(Machine Learning)中分類算法中的一個重要算法,屬於監督學習(Supervised Learning)算法。決策樹算法是一種逼近離散函數值的方法。它是一種典型的分類方法,首先對數據進行處理,利用歸納算法生成可讀的規則和決策樹,然後使用決策對新數據進行分析。
  • 決策樹學習筆記(三):CART算法,決策樹總結
    根據這個最優特徵和最優特徵值,把數據集劃分成兩部分D1和D2,   同時建立當前節點的左右節點,做節點的數據集D為D1,右節點的數據集D為D2.5:對左右的子節點遞歸的調用1-4步,生成決策樹。算法停止計算的條件是:如步驟1,2中所示,結點中的樣本個數小於預定閾值,或樣本集的Gini係數小於預定閾值(樣本基本屬於同一類),或者沒有更多特徵。
  • 決策樹分類算法
    、實現,最後利用決策樹算法做一個鐵達尼號船員生存預測應用。上表是一個預測一個人是否會購買購買電腦的決策樹,利用這棵樹,我們可以對新記錄進行分類,從根節點(年齡)開始,如果某個人的年齡為中年,我們就直接判斷這個人會買電腦,如果是青少年,則需要進一步判斷是否是學生;如果是老年則需要進一步判斷其信用等級,直到葉子結點可以判定記錄的類別。
  • 決策樹與隨機森林(4)—— 決策樹C5.0算法
    C5.0算法通過加入自適應增強(Adaboost)算法對C4.5進行改進。這是許多決策樹構建的一個過程,然後這些決策樹通過投票表決的方法為每個案例選擇最優的分類。Question 2: 什麼叫做 Adaboost ?
  • 詳解決策樹 C4.5 算法
    決策樹(decision tree)算法基於特徵屬性進行分類,其主要的優點:模型具有可讀性,計算量小,分類速度快。那麼,決策樹學習中的信息增益Δ等價於訓練數據集中類與特徵的互信息,表示由於得知特徵A的信息訓練數據集c不確定性減少的程度。在特徵分裂後,有些子節點的記錄數可能偏少,以至於影響分類結果。為了解決這個問題,CART算法提出了只進行特徵的二元分裂,即決策樹是一棵二叉樹;C4.5算法改進分裂目標函數,用信息增益比(information gain ratio)來選擇特徵:
  • 決策樹分類算法之ID3算法與C4.5算法
    而K均值(K-means clustering)聚類則是最典型的聚類算法(當然,除此之外,還有很多諸如屬於劃分法K-MEDOIDS算法、CLARANS算法;屬於層次法的BIRCH算法、CURE算法、CHAMELEON算法等;基於密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基於網格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法)。
  • 【智能與法】陳姿含:公共算法決策的法律規制(二)
    對算法決策中立性的否定,和透明度的需求分析說明將公共算法決策納入法律規制的必要性。但是算法決策的合法性問題的核心不在於它比人類更加不透明,更加複雜或者更加具有偏見,如果是這樣,那麼對人類決策起作用的問題機制經過一系列的修改,即規則的精細化將起到作用。
  • 決策樹-ID3算法和C4.5算法
    它通過對已有樣本的學習生成一顆決策樹(可看成if-then規則集合),從而能對新樣本作出相應分類。本文重點闡述如何選擇特徵建立決策樹,並給出理解算法的具體實例。什麼是決策樹?ID3算法詳解2.1 什麼是熵2.2 ID3算法2.3 ID3算法的缺點C4.5算法詳解3.1 第一個問題的改進辦法3.2 第二個問題的改進辦法決策樹:通過對已知樣本的學習,一步一步將特徵進行分類,從而將整個特徵空間進行劃分,進而區分出不同類別的算法
  • 【分類算法】基於 R 語言決策樹算法介紹及應用
    訓練集中的目標是由人標註的。常見的監督式學習算法包括回歸分析和統計分類。非監督式學習:與監督學習相比,訓練集沒有人為標註的結果。常見的非監督式學習算法有聚類。半監督式學習:輸入數據部分被標識,部分沒有被標識,介於監督式學習與非監督式學習之間。常見的半監督式學習算法有支持向量機。
  • AI產品經理必懂算法:決策樹
    決策樹(Decision Tree)是一種以樹形數據結構來展示決策規則和分類結果的模型,它是將看似無序、雜亂的已知實例,通過某種技術手段將它們轉化成可以預測未知實例的樹狀模型。時隔半月,已近年關。AI產品經理必懂算法的第三篇終於來了,今天想和大家聊的是決策樹,閒言少敘,切入正題。
  • 自動駕駛中的決策規划算法概述
    本文將分別介紹各層的主要作用與常見算法,並且比較各種算法的優劣性及適用情景。 1. 引言 在一套完整的自動駕駛系統中,如果將感知模塊比作人的眼睛和耳朵,那麼決策規劃就是自動駕駛的大腦。
  • 機器學習中決策樹的原理與算法 | 科普
    從名字來看,決策的的意思就是在眾多類別中我們需要決策出我們分類的東西是屬於哪一個類別,決策離散型的值的叫決策樹,決策連續型值的叫回歸樹。用學術一點的語言就是決策樹的輸出是離散型隨機變量,回歸樹的輸出是連續型隨機變量,這篇文章的重點是講解輸出是離散型隨機變量的決策樹,當你明白決策樹的運行機理後,回歸樹也就觸類旁通了。
  • IBM SPSS Modeler算法系列-----決策樹C5.0算法
    在之前的文章《IBM SPSS Modeler算法系列決策樹CHAID算法》,我們介紹是CHAID算法,今天我們介紹另外一種用得非常廣泛的決策樹算法
  • 張凌寒:算法自動化決策與行政正當程序制度的衝突與調和
    圍繞具體行政行為構建的行政程序從「人」的行為出發,而非機器。算法自動化決策對傳統行政正當程序帶來了諸多挑戰。例如,早在2005年,杜寶良案中行政相對人反覆在同一地點違章105次卻未收到行政機關通知,引發了對於全自動行政行為正當程序缺失的廣泛關注。更重要的是,算法可以提前預測風險而調配行政資源,這一活動卻完全不受正當程序的控制。
  • IBM SPSS Modeler算法系列-----決策樹CHAID算法
    (包括C5.0、CHAID、QUEST、C&R和決策列表)的區別,這可以幫助大家在選用算法的時候有一些參考。      接下來我們回到CHAID算法,我們在IBM SPSS Modeler構建這個模型,得到的決策樹結果如下(部分截圖):
  • 關於「樹」的算法:現實生活中的決策樹
    樹的結構給了我們開發算法的靈感,並再將其反饋到機器,讓它們學習我們希望它們學習的東西,以解決現實生活中的問題。這些基於樹的學習算法被認為是最好和最常用的監督學習方法之一:決策樹、隨機森林、梯度提升等方法在各種數據科學問題中得到了廣泛應用。對於每一個機器學習的初學者來說,學習這些算法並將其用於建模非常重要。
  • 獨斷式決策還是群體式決策?
    比如,很多人認為武斷的決策(獨斷式決策)是錯誤的,但在某些情況下,這種決策方式可能反而是最有效的。重點是,管理者需要知道決策有效的評估標準是什麼。在現實情境中,複雜和不可預測的環境讓決策難度不斷增大,加之危機帶來的時間壓力,要求管理者必須有能力快速作出反應。很多時候,決策對速度的要求比質量更高。如何快速決策,並保證決策有效?
  • 決策樹
    決策樹簡介3.   構造決策樹的基本算法4.   決策樹的應用一、前言機器學習中分類和預測算法的評估:1.準確率:    算法達到的準確率是多少?2.速度    算法的速度怎麼樣?算法複雜度高不高?5.可解釋性    當算法做出特徵值的選擇或者歸類的時候,能否非常容易的解釋學習出來的模型和我們的直覺是相符合的    以上這5方面是進行算法評估和比較的時候參照的,介紹的時候可以看針對這5方面,算法表現如何二、決策樹簡介1. 什麼是決策樹/判定樹(decisiontree)?
  • 智能決策論壇系列解讀 | 多智能體算法應用
    引言:2020年9月19至20日,由中國科學院自動化研究所主辦的首屆智能決策論壇在線上成功舉辦,多位專家學者圍繞決策智能相關研究內容進行深入探討,試圖廓清決策智能的邊界與內涵,為我國決策智能的發展與應用指明方向。論壇中,多智能體算法應用是一個被許多專家學者廣泛關注的問題。