如何實現算法決策公平?

2020-12-25 澎湃新聞

原創 賈小雙 定量群學

引言

隨著人工智慧的發展,算法決策系統越來越多地被用於輔助甚至是替代人的決策,例如使用算法進行信貸審批、人才招聘、犯罪風險評定等等。由於算法在決策中扮演的角色越來越重要,算法決策的公平性也愈發引起重視。本專題第二期推送為大家介紹了一種將人類意志與算法意志結合起來以提高算法決策公平性的方法,這一期我們將從算法本身出發,為大家介紹Zafar等人在Fairness constraints:Mechanisms for Fair Classification這篇論文中所提出的提高決策公平性的機器學習框架。

01

什麼是算法決策的不公平性?

簡單而言,算法決策系統的工作原理是使用大量(訓練)數據訓練出準確率很高的機器學習模型來對目標群體進行分類,從而根據預測結果進行決策。在這一過程中, 若不施加特殊限制,模型常常會將一些敏感特徵(sensitive feature,如性別、種族等)納入分類依據,並賦予較高的權重,從而導致決策結果對某些特定群體(如女性、黑人等)產生不公平的結果,即產生我們常說的「算法歧視」。

機器學習領域將算法決策結果的不公平性分為三種:差別性對待(disparate treatment),差別性影響(disparate impact)和差別性誤待(disparate mistreatment)。作者使用了一個犯罪風險評定的例子來說明這三種算法不公平性的含義:

圖 1:三種算法決策不公平性示例

如圖1所示,C1,C2 ,C3是三種假想的算法,其決策的任務是根據行人的性別、衣服是否有常鼓起和是否接近可能的犯罪地點這三個特徵來判斷路過的行人是否攜帶武器,從而決定是否要將其攔下進行搜身。其中,性別是敏感性特徵,衣服是否異常鼓起和是否接近犯罪地點為非敏感性特徵。下面我們結合這個例子來看三種算法不公平性的含義。

Disparate treatment(DT):差別性對待,也叫直接歧視(direct discrimination),指的是在其他非敏感性特徵相似的情況下,決策結果僅在敏感性特徵不同的群體間有差異。例如Male1和Famle2的衣服都有鼓包並且都接近犯罪地點,但C2算法決定攔截男性而不攔截女性;同樣,算法C3對擁有相同非敏感性特徵的Male2和Famle2也做出了不同的決策,因此C2和C3算法都存在差別性對待。

Disparate impact(DI):差別性影響,指的是算法決策所造成的結果總是對某種敏感性特徵上取某個值的群體更有利(或更不利)。例如性別這個敏感性特徵有男性和女性兩種取值,算法C1的決策更不利於男性,因為該算法決定攔截男性進行搜身的概率是100%,而攔截女性的概率只有66%。

Disparate mistreatment(DM):差別性誤待,是指算法對某一個敏感性特徵上取不同值的群體的預測準確性有差別。在機器學習中,通常用錯誤率來評估分類模型的準確性。表1展示了幾種分類錯誤率的測量方式。在上述例子中,C1算法對男性和女性是否攜帶武器的預測的假陰率(false negative rate)分別為為0和0.5;而C2算法對男性和女性是否攜帶武器的預測的假陽率(false positive rate)分別為0和1,因此C1和C2算法都存在差別性誤待。

表1:機器學習模型分類錯誤率的測量

02

什麼是公平的決策?

從上面的例子可以看出,在實際應用中,算法決策的本質是在對目標群體進行分類,因此,若要實現算法決策公平,就要使得分類模型能夠避免上述三類不公平性的產生。從方法上而言,一個公平的分類模型需要滿足[1]:

1 分類結果不存在差別性對待,即分類結果不受敏感性特徵的影響,用公式表達為:

2 分類結果不存在差別性影響,即敏感性特徵不同的群體有同樣的概率被分到某一類,可表達為:

3 分類結果不存在差別性誤待,即分類的(五種)錯誤率不受敏感性特徵的影響,按照錯誤率的計算方式,可以將這一條件進行如下形式化定義:

03

如何實現決策公平

1.基於公平性約束的機器學習分類模型框架

在釐清了算法公平性的概念後,該團隊嘗試提出一種公平性決策(分類)算法框架,該框架的核心思想是在分類模型的訓練過程中加入公平性約束(fairness constraints)。如下圖所示,這框架包含兩個部分:線性分類器的損失函數(classifier loss function)和公平性約束(fairness constraints)。前者是為了提高模型的預測準確性,後者是為了保證模型的公平性。

2.對公平性測量方式的改進

由於方程(3.2)-(3.7)對公平性的要求非常嚴格(方程全部使用等號,相當於要求完全不存在任何不公平性),現實情況往往難以滿足,因此該團隊提出了一種新的決策邊界不公平性(decision boundary unfairness)的測量方式,在新的測量方式下:

(1)差別性影響所造成的決策邊界不公平性被定義為「用戶的敏感特徵z」與「用戶的特徵向量(feature vectors)和決策邊界之間的符號距離(singed distance)dθ(x) 」的協方差的均值。

(2)基於不同的分類錯誤率定義,差別性誤待所造成的決策邊界不公平性也有不同的測量方式。例如,整體整體錯誤率(overall misclassification rate)可以轉化為「用戶的敏感特徵z」與「被分錯類的用戶的特徵向量(feature vectors)和決策邊界之間的符號距離(singed distance)dθ(x) 」的協方差;假陽性率(false positive rates)可以轉化為「用戶的敏感特徵z」與「被分錯類的且真實標籤為陰性的用戶的特徵向量(feature vectors)和決策邊界之間的符號距離(singed distance)dθ(x) 」的協方差,其他的錯誤率以此類推。

註:1差別性對待可以通過在訓練時不使用敏感特徵來進行避免。

2但可能真實的情況是敏感特徵確實與真實的分類具有較高的相關性(例如男性攜帶武器的比例確實高於女性),在這種情況下,若要避免差別性影響,模型預測的準確性可能會打折扣。在要求保證模型分類準確性的情境下(business necessity clause),該團隊也提出了如何對該框架進行調整來適應這種情境的方案。(見原文4.3)

3.如何基於這一框架來設計一個公平的分類模型?

在改進了不公平性的測量方式後,作者使用這一新的決策邊界不公平性對(3.2)-(3.7)中公平性約束條件進行了相應的修改(詳見方程(4.2)-(4.9)),放寬了(4.1)中公平性的約束。改進後的框架對公平性的約束條件為:當決策邊界不公平性小於某個閾值時,便認為模型是公平的。基於這一框架,研究者在設計具體的分類模型時只需(4.1)中的Classifier loss fuction換成相應的分類模型(如logistic regression分類器,線性SVM和非線性SVM模型等)的損失函數,將Fairness constraints部分替換成具體的公平性限制函數(如對差別性影響的限制)來設置模型即可。例如,一個不存在差別性影響的logistic regression分類器可以表達為:

04

方法評估

為評估模型的效果,作者分別使用模擬數據和真實數據來評估這一分類方法在消除分類結果的差別性影響和差別性誤待上的表現。

1.差別性影響評估;

(1)logistic regression classifier

如圖2所示,作者首先生成了兩個數據集,每個數據集各有4000個數據點,每一個點的真實標籤(y=1或y=-1)與其敏感性特徵(z=0或z=1)存在不同程度(φ)的相關(φ值越小,相關性越大),然後使用這兩個數據集來訓練基於公平性約束的logistic regression分類模型。

圖中的實線表示只關注準確性的模型所訓練出的分界線,我們把這一模型看作基準模型,藍色和黑色虛線分別表示公平性約束的閾值(c)取不同值所訓練出的分界線。可以發現,如果僅僅以準確性作為訓練目標,模型的分類準確性會非常高(Acc=0.87),但分類結果會存在不同程度的差別性影響,且敏感性特徵與真實標籤的相關性越高(右圖φ=π/8),分類所產生的差別性影響越大(|0.21-0.87|=0.66)。當加入不同程度的公平性限制時,分類模型(圖中虛線)所產生的差別性影響變小。

圖 2 模型消除差別性影響效果評估(線性分類器)

註:Acc表示準確性(accuracy),圖中綠色的點的真實類別y=1,紅色的點為y=0. 圓圈表示敏感性特徵z=1,十字表示敏感性特徵z=0。AR(positive class acceptance rate)表示模型將z=0和z=1的數據點標註為y=1的概率。

(2)非線性SVM模型表現

作者同樣生成了兩個數據集用於訓練非線性SVM分類模型。由圖3可看出,在不進行任何公平性約束時(圖a),SVM模型的分類準確率(Acc)可達0.94,但和上述線性分類器相似,沒有公平性約束的模型也產生了不同程度的差別性影響。當模型完全限制差別性影響,即公平性約束的閾值取c=0時,模型所產生的差別性影響相對較小。

圖3 模型消除差別性影響效果評估(非線性分類器)

註:無論對於線性還是非線性分類模型,當加入公平性限制時,模型的預測準確性都會降低。

2.差別性誤待評估

作者模擬了兩種情境,在第一種情境下,基準模型(訓練模型時不施加公平性約束,只關注準確性)的分類的結果只表現為一種類型的差別性誤待——模型對不同敏感特徵群體分類結果的假陰性率不同或假陽性率不同(即公式3.3和3.4其中的一個不能滿足);而在第二種情景下,這兩種差別性誤待同時存在。

圖4 模型消除差別性誤待效果評估(情境一)

圖4展示了基準模型(圖中實線)的分類結果只存在假陽性率不同的情況下,對假陽性率加以約束後訓練出的分類器(圖中虛線)能夠縮小模型對敏感性特徵不同的群體分類結果的假陽性率的差異(從0.21降低為0.15),從而減輕分類結果所造成的差別性誤待。

圖5 模型消除差別性誤待效果評估(情境二)

而圖5則展示出當情景二中兩種差別性誤待同時訊在的情況下,在模型的訓練過程中分別對假陽性率和假陰性率加以限制,或同時對二者加以限制,都能縮小不同敏感特徵人群分類結果的假陰性率和假陽性率的差異,在一定程度上消除分類結果所造成的差別性誤待,從而提高分類結果的公平性。

此外,為了評估本文提出的基於公平性約束的分類方法在真實數據上的表現,作者使用兩個真實數據集(Adult income dataset和Bank marketing dataset)對模型消除差別性影響和差別性誤待的效果進行了評估,並將本文所提出的方法與其他方法進行對比,結果顯示,本文提出的分類框架能夠較好地制約分類結果的不公平性,且加入公平性約束條件後對模型預測準確率的犧牲也較小。

05

總結

算法決策會導致三種不公平性:差別性對待、差別性影響和差別性誤待;因此一個公平的決策模型需要避免決策結果存在這三種不公平性,在這篇論文中,作者對這三種不公平性的測量方式進行了改進,提出了測量決策邊界不公平性(decision boundary unfairness)的方法,並在此基礎上設計了一個促進公平決策的分類算法框架——將公平性約束加入分類模型的訓練過程,在保證公平性的前提下對模型的準確性進行優化。基於這一框架而設計的線性和非線性分類模型在模擬數據和現實數據中的表現均優於現有的方法。

這篇文章的層次非常豐富,既介紹了「算法公平」領域的一般性的概念,又提出了一個具體的公平性算法框架,還對相關的研究進行了較為全面的綜述,並對現有的模型進行了對比與總結,使得讀者能夠窺一斑而見全豹,不同類型的讀者都能有所收穫。對算法公平感興趣的讀者可以根據表3順藤摸瓜去閱讀更多的研究。

表3 不同公平性分類方法的比較

參考文獻

[1]y^為模型預測的分類,y為真實的標籤,z為敏感性特徵,x為非敏感性特徵

[2]Zafar, M. B., Valera, I., Rogriguez, M. G., & Gummadi, K. P. (2017, April). Fairness constraints: Mechanisms for fair classification. In Artificial Intelligence and Statistics (pp. 962-970). PMLR.

推薦人

賈小雙,中山大學社會學系在讀博士,研究方向為計算社會科學,關注機器學習中的因果推論、數據驅動的社會分層等傳統與計算方法相結合的社會學研究。

原標題:《如何實現算法決策公平?》

閱讀原文 

相關焦點

  • 張凌寒:算法自動化決策與行政正當程序制度的衝突與調和
    在算法自動化決策逐步廣泛深度嵌入行政活動的背景下,如何堅持、修正和發展正當程序原則是亟待研究的重大議題。筆者從保證公民實體權利與程序性權利、通過正當程序限制公權力濫用的基本立場出發,在行政權力與公民權利互動的理論框架下,剖析算法自動化決策對行政正當程序的挑戰,以及立法者應如何應對行政正當程序實現的制度障礙與技術障礙一算法治理嵌入行政活動的雙重效應算法自動化決策從信息輸入、信息處理與信息輸出三個層面嵌入行政活動,並改變了行政活動的範式
  • 江溯:自動化決策、刑事司法與算法規制 ——由盧米斯案引發的思考
    另一方面,如果風險評估算法使用了機器學習和深度學習技術,則會面對更為棘手的「技術黑箱」問題。在這些場景中,算法規則會自動產生決策結果,甚至程式設計師也無法充分解釋算法為什麼會產生這個結果以及算法是如何作出這些決策的。這種問題在人工神經網絡算法(ANN)中最為明顯。這種算法是對人腦的模仿,包含各種神經元(即相互連接的處理器)。
  • 美團技術解析:自動駕駛中的決策規划算法概述
    這一過程面臨三個主要問題: 首先,真實的駕駛場景千變萬化,如何覆蓋? 綜合以上幾點,在自動駕駛行為決策層,我們需要解決的是在多智能體決策的複雜環境中,存在感知不確定性情況的規劃問題。可以說這一難題是真正實現L4、L5級別自動駕駛技術的核心瓶頸之一,近年來隨著深度強化學習等領域的快速發展,為解決這一問題帶來了新的思路和曙光。
  • 算法中的性別歧視,應被看見被糾正
    本版插圖:小麗「如何避免算法中的偏見和歧視」「AI時代,女性如何向前一步」等話題,在剛剛召開的「世界網際網路大會·網際網路發展論壇」上,引起了普遍關注。算法是以數學方式或計算機代碼表達的意見,由算法模型和數據輸入決定著預測的後果。隨著人工智慧時代的加速到來,我們將生活在一個算法無所不在的世界,尤其是隨著算法決策開始介入並主導人類社會事務,算法對我們的生活和未來都將產生不可估量的影響。基於此,由於算法偏見可能帶來的法律與倫理風險也開始引起人們重視。
  • 算法歧視法律規制的路徑探析
    具體來說,由於算法歧視建立在數據的收集、處理基礎之上,歐盟國家將規制視野從傳統的反歧視法擴展到數據保護法,試圖通過新型數據權利的賦予,使個人獲得對自動化決策施加影響的能力。比如,GDPR廣泛賦予數據主體以訪問權、刪除權、數據可攜權。其第22條還特別規定,數據主體有權不受某些具有法律影響或類似重大影響的完全自動化決策的制約;在接受決策的情況下,數據主體可以對算法進行人工幹涉,以表達其觀點和異議。
  • 算法治理的參與框架_湃客_澎湃新聞-The Paper
    算法越來越多地代替人們進行決策,管理著信息、勞動力和各種資源的分配,協調著各方利益。但是算法治理可能損害社會公平,因為算法可能會優先考慮部分人的利益,而犧牲其他人的利益。當權威嵌入到技術本身而不是傳統的治理形式中,治理算法就變成了引導、挑撥、控制、操縱和約束人類行為的算法。這些問題都不能通過純技術方法來解決;算法的設計需要一個規範來引導。一個理想化的算法,需要具備這些特點:1、理解公眾的道德期望;2、符合各種公平的概念3、滿足利益相關者的需要和要求。利益相關者參與決策是解決這個問題的最佳辦法。
  • 論算法的法律規制
    最後,反算法歧視的方式認為,算法中常常隱含了很多對個體的身份性歧視,因此應當消除算法中的身份歧視,實現身份中立化的算法決策。如何看待算法崛起對法律規制的挑戰?本文力圖對這一問題進行較為全面的分析。首先,本文對算法進行界定,指出算法的本質在於人機互動決策,因此算法不同於純粹的科學或工具,具備法律上的可規制性。
  • Java實現冒泡排序算法
    >1.2.如何系統化學習數據結構與算法?我想好了,還是需要學習數據結構與算法。但是我有兩個困惑:1.如何著手學習呢?2.有哪些內容要學習呢?>2.考考你在上一篇:數據結構與算法系列十(排序概述)中,我們列舉了常用的排序算法,以及分析了如何綜合衡量排序算法的優劣。
  • 如何用決策樹模型做數據分析?
    通常,一棵決策樹包含一個根結點,若干內部節點和若干葉結點,葉結點對應決策分類結果。分支做判斷,葉子下結論。我們看一個簡單的決策樹的模型,通過動物的一些特點來判斷它是否是魚類,在決策樹模型中,我們來看每一個節點是如何做判斷的。我們將所有要研究的動物作為樹最上端的起點,對它進行第一個判斷,是否能脫離水生存?如果判斷為是的話,它不是魚類。
  • 如何掌握動態規划算法的套路?
    實際上,它並不是不是一種確定的算法,它是一種最優化的方法求解問題的思想或方法。它是由美國數學家貝爾曼(Bellman)在研究多階段決策過程的優化問題時提出。不過,與之對應的還有一些與時間無關的靜態規劃,如:線性規劃、非線性規劃等。在運籌學中,動態規劃是的非常重要的內容,在各個行業領域都有著廣泛的應用。我們如何理解動態規劃?
  • 張一鳴:多元思維模型是如何幫助我們做決策的?
    如果說,創始人的認知是公司發展的天花板,那麼字節跳動全球崛起之下,無疑隱藏著張一鳴驚人的決策能力。 從這位理科出身的 80 後企業家身上,我們能學到什麼?他的決策模型是否具有可複製性? 在詳細拆解張一鳴「理性思維」決策模型之前,我們首先來看看,「感性思維」是如何決策的。
  • 高通量數據如何利用機器學習指導臨床決策?
    從機器學習算法看,常用的有監督學習算法有分類算法(Classification)和回歸算法(Regression),分類算法如支持向量機(SVM)、樸素貝葉斯(Naïve Bayes)和最近鄰算法(Nearest neighbor)
  • 斯坦福用算法分發新冠疫苗被炮轟:醫護人員只分到0.14%
    由於數量巨大、時間緊急,如何分發疫苗的任務就落在了人工智慧算法上。但用算法來做決策,又面臨著另一個問題:算法缺乏透明度,決策過程無法具體知悉,鑑於此前已經有案例表明算法會對某些人口群體,特別是少數民族和低收入者存在偏見,用算法來解決疫苗分配產生的問題更值得關注。實際上,這樣的偏見已經發生了,而且就發生在美國頂尖高校斯坦福。
  • 制約算法不合理應用存在多方面難題,應合理提高算法應用的透明度
    閱讀提示目前,網絡消費領域涉及消費者權益的算法應用問題主要有推薦算法、價格算法、評價算法、排名算法、概率算法、流量算法等。中消協指出,算法應用問題具有技術性和隱秘性,潛移默化影響著消費者的決策,消費者以個體力量沒法抗衡,應加強對算法應用的有效規制。
  • 算法推薦 | 在iOS14與Android11系統上,App開發如何實現人臉識別
    算法推薦 | 在iOS14與Android11系統上,App開發如何實現人臉識別 智慧型手機堪稱移動網際網路時代的機械義肢,與日常生活密不可分。
  • 現代AI模型用算法交易實現大跨步發展
    打開APP 現代AI模型用算法交易實現大跨步發展 智能製造網 發表於 2020-11-24 11:03:52 近日,工信部相關負責人在世界網際網路大會▪網際網路發展論壇上表示,中國人工智慧產業取得了積極進展,專用晶片、應用算法、開放平臺等技術產品不斷優化,計算機視覺、自然語言理解等技術的應用水平達到了國際先進水平。今年上半年中國人工智慧核心產業規模達到了770億元,人工智慧企業超過了260家,已成為全球獨角獸企業主要集中地之一。 有了人工智慧,企業可以轉向基於數據的模型和模擬。
  • 複雜場景下的 OCR 如何實現——深度學習算法綜述
    在過去的十幾年中,研究人員一直在探索如何能夠快速準確的從圖像中讀取文本信息,也就是現在OCR技術。工業場景下的圖像文本識別更為複雜,它會出現在許多不同的情景下,如醫藥包裝上的文字、各類鋼製零部件上的字符、貨櫃表面噴印的字符、商鋪Logo上的個性化字符等等。
  • 五分鐘了解機器學習十大算法
    本文為有志於成為數據科學家或對此感興趣的讀者們介紹最流行的機器學習算法。機器學習是該行業的一個創新且重要的領域。我們為機器學習程序選擇的算法類型,取決於我們想要實現的目標。現在,機器學習有很多算法。因此,如此多的算法,可能對於初學者來說,是相當不堪重負的。
  • 如何掌握動態規划算法的套路? - 51CTO.COM
    實際上,它並不是不是一種確定的算法,它是一種最優化的方法求解問題的思想或方法。它是由美國數學家貝爾曼(Bellman)在研究多階段決策過程的優化問題時提出。不過,與之對應的還有一些與時間無關的靜態規劃,如:線性規劃、非線性規劃等。在運籌學中,動態規劃是的非常重要的內容,在各個行業領域都有著廣泛的應用。我們如何理解動態規劃?
  • 常見的機器學習算法,你知道幾個?
    事實上,機器學習是一門多領域交叉學科,涉及概率論、統計學、算法複雜度理論等多門學科。專門研究計算機如何模擬或實現人類的學習行為,利用數據或以往的經驗,以此優化電腦程式的性能標準。  根據學習任務的不同,我們可以將機器學習分為監督學習、非監督學習、強化學習三種類型,而每種類型又對應著一些算法。