大數據文摘出品
編譯:lin
由於疫情的原因,全球受認可度最高的基礎教育組織「國際文憑(IB)在今年5月被迫取消了期末統考。
但是,全球16萬在讀高中生亟需一個成績申請大學。為了給這些畢業生分配一個可以接受的「高考」成績,IB做出了一個前所未有的嘗試:利用一個統計模型,給各位考試預估成績。
考生最終得分由IB聯合一個技術公司一起,根據學生課程作業、老師預測成績和其他歷史數據,通過模型分析給出,並在7月5日準時公布。
聽起來這一評估標準似乎公平可信,畢竟三個模型的參考變量都是基於學生最需要被評估的能力。
但是,事實真的是這樣嗎?
一位來自紐約貝萊德的數據科學家/定量研究 、伯克利機器學習研究者Ishan對此項決定做出了嚴厲批評:IB的模式存在著明顯的方法論問題,這種模式不可避免地會因為性別、種族和社會經濟地位等的差異而歧視某些學生群體。
「這將對弱勢學生造成不公平以及嚴重的影響。一個模型可以選擇系統地給女學生在STEM科目上分配較低的分數,並且/或者錯誤地讓黑人學生比亞洲學生更容易不及格。「
你可能會問,這個模型考慮的三個因素跟「族裔」「性別」根本沒關係呀,沒有相關訓練數據和特徵,模型怎麼可能有歧視?
在一篇長文中,Ishan用數據科學知識和紐約高中的真實數據,詳細解釋了為什麼IB的決定是可怕的,以及在沒有性別、種族和社會經濟數據輸入的情況下,一個模型是如何學會「歧視」的。
IB是什麼?先來看看國際文憑(IB)到底是什麼?
IB是一個全球性基礎教育機構,為來自世界各地的學生頒發高中文憑。2020年的畢業班有來自144個國家的16.6萬名考生,目前受到美國、加拿大、英國、澳洲、紐西蘭、歐洲地區,主要大學承認。IB文憑可作為報讀高等院校的資歷,成績較佳的學生,都能憑IB文憑考入包括英國的劍橋、牛津大學、以及美國的藤校。
IB的高中生在畢業時有一系列強制性的「離校考試」,你可以把它理解成一個全球通用的」高考「。這一系列考試的分數,對學生來說非常重要:是畢業、申請大學的重要指標,也是歐洲和亞洲大學招生過程中最重要的衡量標準(約佔90%的權重)。一個學生的期末成績會極大地改變他們未來,跟咱們的高考重要程度相比,一點不差。
這場疫情給國際文憑組織的計劃和運作帶來了相當大的混亂。由於課程中斷,國際文憑組織被迫取消了現有學生的期末考試。相反,它選擇以一種真正前所未有的方式給學生們打分。這裡我們引用IB在5月份通告的原話:
IB成員正在與一個專門從事數據分析、標準、評估和認證的教育機構合作,共同開發了一種方法,使用歷史數據和當下的數據,來得出每個學生的科目分數。IB一直在與世界各地的教育部門、教育監管機構和其他類似機構進行對話,以確保他們也對我們的方法充滿信心,並確保學生獲得恰當的認可。 這些評估安排代表了我們對所有學生所能採取的最公平的方法。
根據IB的規定,每個學生的最終成績將由一個包含兩個或兩個以上指標的統計模型來分配:
課程作業成績:學生在課程中斷前提交的項目和作業成績。
預測成績:教師認為如果考試按計劃進行,每個學生可能獲得的成績。這是老師對學生備考能力的評價。
其他雜項數據:IB說模型將使用其他雜項數據,只要它是可用的。
三個步驟的過程,如下所示,將被用來規定最終的成績給每個學生。我將把這整個過程稱為「模型」。
根據歷史模式,這個模型可以有很多名稱:統計建模、機器學習、數據分析、大數據、人工智慧。所有這些術語都指的是使用歷史數據來預測未來事件結果的同一套狹義過程。
不幸的是,正如三位著名的研究人員在他們的教科書中所表達的那樣,「這個過程是「以證據為基礎的」這一事實絕不能確保它將導致準確、可靠或公平的決定」。
在本文中,我將以前面的陳述為基礎,讓你相信使用統計模型給學生們評定最終分數是一個可怕的想法。
而如果你是這次考試的考生或者家長、老師,請一定要讀完文章再拿起你的武器。
IB用統計模型打分有什麼問題?
讓我們從IB所描述的過程中明顯的問題開始。
這裡我主要提出七個明顯的問題(以及一些較小但同樣重要的問題):1. 雙重危險
如果一個學生在課程中表現不好,他們將會因此被打兩次低分:一次是輸入模型中課堂表現的成績,另一次是根據計算最終成績的IB評分規則,重新預估的成績。這是因為該模型將根據課程作業來預測最終成績。然後,期末成績將與課程成績結合起來得到期末成績。
2.歷史偏見
一項基於美國國家教育統計中心(National Center for Education Statistics)數據的研究得出結論,中學教師對「有色人種學生和背景不利的學生」的預期往往較低。這是有問題的,因為預測分數在模型中扮演著重要的角色。
3.規模越小,錯誤越大
規模較小的學校(佔IB學校總數的15% - 30%)在模型預測上,與規模較大的學校相比,會出現更大、更頻繁的錯誤。這是表徵偏差的一個例子。
假設最大的IB學校有300個班級(根據2019年IB數據)。如果你是一所5人班的學校的學生,你的期末成績將比300人班的學生的平均錯誤率高出25%左右。上面的圖表描述了這種比較誤差是如何隨著班級規模的增加而衰減的。原則很簡單:你擁有的學校數據越多,你的預測就越準確。
4.評估偏差
如果不同學校的評估過程不同,會影響模型對待不同學校學生的方式。為社會經濟弱勢群體服務的學校,對學生的評價可能不那麼頻繁。這將導致成績較差的學生獲得的預期成績,與那些考試頻繁的學校裡成績較好的學生相比,預期成績的準確性較低。此外,較差的學校可能會有更大的班級規模。一個給10個學生分配預測分數的老師會比一個給30個學生分配預測分數的老師做得更好。
5.可獲得的附加數據
IB表示,他們將在「可獲得的」附加數據中補充課程成績和預測成績。這可能是有問題的,因為它可能在預測中引起偏見,並將導致一些學校的預測比其他學校的預測更準確。
6. 偏態分布
成績非正態分布的學校會有糟糕的預測。如果一所學校的分數分布是左偏的(優等生!)或者是右偏的,那麼這個模式對學生的影響就會更差。
7. 分布轉移
如果學校的學科老師在去年和今年之間發生了變化,那麼他們的預測成績和最終成績之間的歷史關係將與當前關係不匹配。這可能會導致系統性的更糟糕的預測。
這些都是基於統計學顯而易見的一些錯誤。根據IB決定使用的模型類型,還可能出現許多其他微妙的問題。
我個人認為,這些零星的「開胃菜」論點應該足以結束這個實驗。但是別著急,咱們繼續閱讀接下來這些稍微複雜一點但更令人不安的問題。
在一個統計模型中,學生的未來不應該受隨機噪音的支配
在統計領域有一個普遍的說法:「所有的模型都是錯誤的,有些模型是有用的。」
模型是基於經驗的歷史模式對現實的一種近似值:所有的預測都是粗略估計,沒有一個模型能夠完全肯定地預測未來。此外,由於隨機噪聲的存在,每個模型的預測都存在一定的不確定性。如果IB使用一個模型來給學生分配期末成績,這個模型將不可避免地出現錯誤。
讓我們假設IB構建了一個「準確率90%」的模型。這是一個幾乎不切實際的雄心勃勃的目標,在實踐中難以實現。這意味著每10名學生中至少有1人的期末成績不正確。
換句話說,這相當於中國、德國、印度、新加坡和英國所有IB學生的錯誤成績。
但IB對這10%的不準確程度似乎非常滿意。因為他們向學生保證,他們將「與去年的成績分布相匹配」。
這能抵消模型預測中的不準確性嗎?絕對不會。這是一個表面上的改進,它還有一個額外的好處,那就是為IB提供了一些合理的推諉能力。雖然IB可以使當前分布看起來像過去的分布,但他們無法保證學生之間的相鄰,儘管有與如果考試照常進行時一樣的分布。
假設我可以建立一個模型,根據任意的正態分布隨機分配給每個學生一些分數。然後,我可以使用這些標記,調整我的成績等級,以匹配去年的最終成績分布。這是否彌補了我的「模型」以一種完全脫離現實的方式分配分數的事實?不,沒有。前一個例子是病態的,在現實中,一個壞的模型會默默、但嚴重地傷害某些學生群體。
是的,模型是非常有用的工具,它可以幫助我們大規模地做出決策。其將不可避免地在我們的未來發揮很大的作用。這確實意味著,機構應該能夠規避在何種模式適合時的道德考量。因為一個黑箱決策機制認為學生不值得獲得這個機會,就剝奪學生辛辛苦苦在倫敦政治經濟學院(London School of Economics)獲得的一席之地,這是否道德?
告訴一個17歲的孩子,因為他們的錯誤預測是「做生意的成本」,所以他們不能和同齡人一起畢業,這是否道德?我相信,IB在做業務選擇時可能忽略了一些關鍵的道德考量。
模型是怎麼出問題的?
在進入最後一個論點之前,我們需要了解能做出正確預測的模型可能仍然完全不正確。
模型非常強大,但也同樣非常愚蠢:追求精確使模型可以做出一些比較好的預測,但這也使它們完全無效。模型具有檢測大量數據中的微觀模式的超強能力,它會想方設法使其能夠有效地預測結果。研究人員無法控制模型將選擇檢測的模式。因此,模型將盡一切可能使自己更具預測性-即使這意味著要利用虛假的關係來預測結果。
以下面的這些圖為例:
我訓練了一個模型,該模型幾乎完全適合上面的數據。給定藍線,它可以很好地預測紅線的值(反之亦然)。現在,讓我將這些數據重新關聯起來。
紅色實際虛線代表美國人花在寵物上的錢,藍色虛線是在加州的律師人數。我們知道,不可能將上述兩個數量相關聯-這只是一個巧合。
然而,任何模型都將可以基於這兩個變量預測一個關係函數。
任何一個有理智的人都不會認為認為2010年花在寵物上的錢突然下降會導致加州律師人數相應下降,但是,如果我根據此數據訓練模型,則很容易受到這種錯誤假設的影響。即使當我嘗試通過給模型適當的數量來糾正這種矛盾時,也應該 為了能夠預測律師的人數,它選擇使用錯誤的信號(花在寵物身上的錢)來預測結果。
作為研究者,不可能阻止模型學習這些不正確的關係。這一點很重要:僅僅因為模型是可預測的並不意味著它是正確的。準確的模型可能是錯誤的模型,而虛假的相關性如果沒有通過審核,也將非常危險。
我沒輸入有偏見的數據啊,模型是怎麼自己會學歧視的?
即使在模型中隱瞞相關信息,模型也會學習學生的性別、種族和社會經濟地位這些因素。因此,IB模型將歧視某些學生群體,產生不公平的結果,這在統計上是不可避免的。
您可能會認為,一個不了解性別/種族/社會經濟地位的模型應該無法基於這些屬性進行區分啊。這種思路被稱為「無知中的公平」。讓我們看看專家對此如何說:
有些人希望刪除或忽略敏感屬性……以某種方式確保公正性……不幸的是,這種做法通常既無效又有害。
回到現實,我將建立一個模型來預測紐約某高中的各項指標。基於它所在地區和幾項其他數據,這非常類似於 IB所做的事情(它們正在使用類似的指標)。
我首先利用這個模型來預測這所高中的畢業率是否高於/低於全國平均水平,結果準確率高達80%。請記住,此模型沒有被輸入任何種族的數據,任何高中學生群體的社會經濟地位或性別。
那麼,這個模型是如何學習預測畢業率的呢?
回答這個問題之前我將在這裡略過一些技術細節,先簡單的利用這同一個模型去預測:這是個少數族裔(黑人/西班牙裔)佔多數的高中嗎?
一個很大膽的猜測是,如果我們的模型可以高精度地檢測到少數族裔(黑人/西班牙裔)佔多數的高中,那可能它在之前就利用了這個特徵,並利用了這一點來預測畢業率。
最終結果很明顯,我們的模型可以比預測畢業率更準確地預測高中的多數種族。這意味著我們的模型肯定具有種族意識。我們沒想到它會學到關於學生種族的任何信息,但是,該模型決定需要了解此信息才能預測畢業率。我們沒有為該模型提供有關學生種族的任何數據,該模型只是繼續學習而已。
用同樣的方法我們會發現,該模型可以識別出哪些學校的學生處於經濟不利地位,精確度達到75%。這意味著我們的模型也具有經濟意識。
為了確保這不是僥倖,我們檢查該模型是否可以檢測到女性人口佔多數的學校:
該模型的準確度低於50%。這比隨機猜測略差。該模型顯然在做出決定時並未考慮學校的多數性別。
實際上,讓我們假設我們再創建一個替代模型,同時增加關於這個高中多數族裔的數據(除了與原始模型相同的數據點),我們可能會預期該模型的畢業率準確性會隨著我們的提高而大大提高。但事實上,備用模型的準確性在增加了「種族」這一指標後,僅增加了約1%。這說明,在我們錄入種族數據之前,我們的模型已經某種程度上自行獲取了這一信息。
重申:當我們建立基於測驗分數和學校位置來預測高中畢業率的模型時,我們沒有為模型提供任何有關種族,社會經濟地位或性別的信息。我們的模型只是簡單地意識到,如果它可以確定學校的種族/經濟構成,那麼就可以確定畢業率。因此,即使IB沒有給出模型敏感數據,模型也會推算出來。
那麼,當模型了解學生的性別/社會經濟地位/種族,然後錯誤地使用這些東西來預測他們的最終成績時,會發生什麼?
就像「花在寵物上的錢」實際上並不能告訴我們「加利福尼亞州律師的數量」一樣,知道種族、社會經濟地位、學生的性別也不會告訴我們有關其最終成績的任何信息-即使此數據可能對預測有用。
由於我們沒有「一種原則性的方式來說明這種關係在什麼時候令人擔憂以及在什麼情況下可以接受 」,使用模型將導致對學生群體的不公平預測。
機器學習的形成性結果表明,IB在統計上不可能確保任何模型都是完全公平的。這意味著國際文憑組織使用的任何模型都不可避免地會通過以下三種方式來歧視學生:
它可能會基於某些敏感屬性對學生進行降分,並為某些群體系統地分配較低的成績。 例如:模型可以選擇基於學生的性別(或種族/社會經濟地位)來分配成績。它可能會系統地為女數學學生分配比男數學學生低的分數。
基於某些敏感屬性,對於某些學生可能會有更高的錯誤預測率。 例如:根據學生的種族(或性別/社會經濟地位),模型可能會以不同的比率錯誤地使學生失敗(毀滅性的,但不可避免的!)。它可能以比亞裔學生更高的比率錯誤地使黑人學生遭遇學術失敗。
基於某些敏感屬性,某些組的準確性可能較低。 例如:根據學生的社會經濟狀況(或性別/種族),模型在識別應失敗學生方面可能具有不同的精度。在剔除有錢但沒有通過考試的學生(用手術刀剔除)方面較精確,而在剔除貧困但沒有通過考試的學生上(用黃油刀剔除)方面較不準確。
如上所述,對於每種敏感屬性,這三種情況中的兩種是不可避免的。這些「歧視性「將在IB選擇的任何模型中體現出來。這裡有一個不得不做的妥協:研究人員將不得不決定要犧牲的兩個標準中的哪一個。
因此我們必須謹慎思考這個問題:使用一種系統地對某些學生的表現持悲觀態度的不公平模型是否合乎道德?如果模型利用敏感屬性來分配等級,使用模型是否公平?
那麼我們現在該怎麼辦?
我已經花了很多時間討論這個統計問題了。
但我們無法得出一個完美的答案:只有一堆錯誤的答案。這是一個外包的黑匣子模型,其歷史數據有限,沒有對決策機制進行監督,並且只有三個月的研究和生產時間,這使情況進一步複雜化。
當然,數據分析和機器學習是功能非常強大的工具,但是需要在適當的情況下使用它們,並且要格外小心。當您可以顯著改變人口中弱勢群體的生活結局時,您需要在決策中採用更高的細微差別。這種情況引發了一種過程解決方案,而不是智能的「建模」解決方案。
不幸的是,我對教育領域了解不足,無法提出一個好的選擇。但是,我對自己的數學能力充滿信心,可以確定當前的解決方案無疑是錯誤的。最好有一個延遲且次優的解決方案,而不是具有歧視性和錯誤的解決方案。我意識到這樣一個事實,即這可能會使文章顯得有些偏執,但我的目標是僅僅在非常敏感的情況下提高對潛在問題的認識。
作為學生/家長/老師:第一步是不屈服於結果偏見。可以很容易地說「讓我看看模型的結果,然後再決定是否接受它」。如果您認為結果合法化後受到了不公正的對待,那麼您將無能為力。與您的管理員和IB社區中的其他人共享本文。要求一個更好,更公平,更透明的流程(support@ibo.org)。向您希望報名的大學提出您的問題,並向他們詢問更公平的替代錄取流程(info@officeforstudents.org.uk等)。
最後,我想提醒所有政府和大學,在宣布接受這個壞主意之前謹慎思考。最應該被關注的是,如何從跨學科的角度來看待這個陳規定型的商業決策,認真考慮潛在的後果。關於機器學習公平性的討論顯然未能吸引到參與此操作的許多利益相關者,或許學術界應該更關心這些問題。
相關報導:
http://positivelysemidefinite.com/2020/06/160k-students.html
原標題:《16萬高中生今年沒高考,用統計模型估成績》
閱讀原文