大數據文摘出品
來源:VICE
編譯:張睿毅、邢暢
馬上就是大學入學季了,六月的一場高考讓昔日的同窗走向了不同的城市。考試是每一個人都繞不開的一道坎,雖然未必都是「一考定終身」,但是人生軌跡總不免被各種考試改變。
在美國,每年都有數百萬學生進行標準化測試。在美國,研究生入學考試(GRE)這樣的國家考試是高等教育的守門人,從學生是否畢業到學校的聯邦資助、教師薪酬等各方面,標準化考試都有重要意義。
傳統的紙筆測試已經讓位於計算機。而且越來越多的評分過程,甚至是書面論文,也被轉交給了算法。
根據Motherboard進行的一項調查顯示,自然語言處理(NLP)人工智慧系統(通常被稱為自動化論文評分引擎),現在是至少21個州的標準化測試的初級或中級分級員。
在這21個州中,有3個洲表示每篇文章也會被人類評分。但是在剩下的18個州中,只有一小部分學生的論文將被隨機選擇供人類分級員仔細檢查機器的工作。
但心理測量學家——研究測試和AI專家的專家以及Motherboard獲得的文件的研究表明,這些工具容易受到AI世界中反覆出現的缺陷的影響:對某些人口群體的偏見。正如一項Motherboard實驗所證明的那樣,一些系統可能會被含有複雜詞彙的無意義論文所愚弄。
論文評分引擎並不分析寫作質量
論文評分引擎實際上並不分析寫作質量。他們接受了數百篇示例論文的培訓,以識別人類劃分的較高或較低等級的評分模式。然後,他們根據這些模式預測人類所分配論文的分數。
華盛頓大學計算語言學教授Emily M. Bender說:「問題在於偏見是另一種模式,所以這些機器學習系統也會逐漸學會。這些機器學習項目不僅會在訓練集中產生偏差,而且還會放大它們。」
長期以來,教育行業一直在努力克服來自某些語言背景的學生的意識和潛意識偏見,正如在幾個州禁止教授黑人英語俚語一樣。
專家說,人工智慧有可能加劇歧視。在人類得分答案的數據集上訓練論文評分引擎可以彌補算法中存在的偏差。但引擎也非常關注句子長度、詞彙、拼寫和主語——動詞協議等指標——英語學習者和其他群體更有可能做出不同的寫作部分。這些系統也無法判斷寫作的細微差別,比如創造力。
儘管如此,測試管理員和一些州教育官員已經接受了這項技術。傳統上,論文是由兩名人工檢查員聯合評分的,但是將機器評級作為論文或作為人類的替補評分員要便宜得多。
機器評分幾乎不受監督
關於機器評分偏差的研究很少,部分原因是創建這些系統的公司對自己的算法保密。考試評分供應商嚴密地保護他們的算法,各州也小心翼翼地不讓人們注意到是算法而不是人在給學生打分。只有少數發表的研究調查了這些引擎是否對來自不同語言背景的學生一視同仁,但它們的研究證實了一些批評人士的擔憂。
非營利性教育考試服務中心是少數發布機器評分偏差研究的供應商之一。它的「E-rater」引擎用於評估一系列全州評估,GRE和英語TOEFL,外國學生在進入美國某些大學之前必須參加這些考試。
「這是一個普遍關注的問題,這是我在這個領域與所有人交談的普遍問題,」ETS新產品開發副總裁David Williamson告訴Motherboard,「我們一直在公開它。」
在1999年、2004年、2007年、2008年、2012年和2018年的研究中,ETS發現它的引擎給一些學生,特別是來自中國大陸的學生更高的分數。與此同時,它傾向於強調非洲裔美國人,即使是在在嘗試重新配置系統以解決問題之後。
「如果我們進行調整,可能可以幫助一個國家的某個群體,也可能會傷害另一個國家的另一個群體。」ETS高級研究員布倫特布裡奇曼說。
2018年12月的一項研究深入研究了ETS的算法,以確定差異產生的原因。與其他參加GRE考試的人群相比,E-rater傾向於給中國大陸的學生更低的的語法成績,但是對於中國學生的論文篇幅和複雜單詞給出了高於平均水平的分數,這導致他們的論文總得分高於專業人類評分者給出的分數。
威廉姆森和其他研究人員寫道,綜合結果表明,許多來自中國大陸的學生在使用大量預先記憶的文本。
與此同時,非洲裔美國人的語法、寫作風格和組織更容易從電子評估者那裡獲得低分——這一指標與論文長度密切相關——因此他們的得分低於平均水平。但是,當專家對他們的論文進行評分時,他們的表現往往要好得多。
這種偏見會嚴重影響學生在高風險測試中的表現。GRE論文按六分制進行評分,其中0僅分配給不完整或極其偏離主題的論文。當ETS研究人員比較專家人類評分和E-rater之間的平均差異時,他們發現該機器在中國學生的平均分為1.3分,而非洲裔美國人的得分低於0.81分。而這些都只是平均結果,對於一些學生來說,差異會更大。
所有E-rater評完分的文章也會由一個人再次評分,評分存在差異的文章會被發給另一個人以最終評分。由於這項機制,ETS並不認為有任何學生受到了E-rater檢測系統的偏見帶來的不利影響。
根據聯邦法律,在沒有學生書面同意的情況下,公布其GRE以及其他考試成績是違法的,所以像E-rater這樣的系統幾乎不可能被外部審查。
2012年,新澤西理工學院(New Jersey Institute of Technology)發表了一項罕見的關於機器評分偏見的研究,研究旨在分析哪些測試最能預測一年級學生應該被安排在什麼水平的寫作班。
Norbert Elliot是《寫作分析雜誌》的編輯,曾在GRE技術諮詢委員會任職,他在新澤西理工學院擔任教授期間領導了這項研究。該研究發現,美國大學理事會的機器評分測試ACCUPLACER不能可靠地預測女性、亞裔、西班牙裔和非裔美國學生的最終寫作成績。因此新澤西理工學院認為,根據《民權法案》第六或第七章的規定,美國大學理事將無法為自己使用該測試進行法律辯護。
ACCUPLACER已經升級了,但是很多關於機器評分的重大問題仍然存在,尤其是在沒有人參與其中的情況下。
你的文章可以完全不連貫,但仍然能從算法中獲得高分。
幾年前,麻省理工學院前寫作課主任Les Perelman和一群學生開發了Basic Automatic B.S. Essay Language Generator,這個程序可以把一連串複雜的單詞和句子拼湊成毫無意義的胡言亂語。使用多個不同的評分引擎,這些毫無意義的文章總是能獲得很高的分數,有時甚至是完美的分數。
Motherboard重現了這個實驗。他們用BABEL生成了兩篇文章,一篇作為Issue、一篇作為Argument,提交給GRE的在線練習工具ScoreItNow!該工具使用E-rater進行評分。兩篇文章的得分都是4分(滿分為6分),評價說,「對論點進行有力論述,表意清晰」。
Perelman在接受Motherboard採訪時說:「BABEL生成器證明你的文章可以完全不連貫,但仍然可以從算法中獲得高分。
曾任新澤西理工學院教授的Eliot說:「自動寫作評估只是一種給學生作品進行標記的方式。如果我們過分強調書面慣例,即標準書面英語,你就會發現,自動評分系統只會重視某些類型的寫作。對書面慣例的了解只是學生寫作能力的一部分。有些學生可能特別敏銳和富有洞察力,人類評分者會重視這一點,而機器並不會。」
儘管如此,只要每篇文章都有人工評分進行質量控制,Elliot仍然支持用機器給文章打分,以及使用NLP為作者提供即時反饋。
他表示,「我對某所大學發生的事情持批評態度,但我仍然希望開放地接受新技術來促進學生的成功。我當然不是說取代整個寫作分析行業,因為在某些情況下,它會把學生分到pi的組。」
算法的偏見使其帶來的好處得到質疑
但算法中存在的偏見,讓自動評分的好處(如對學生和教師的即時反饋)也遭到了質疑。
AI Now Institute的博士後研究員Sarah Myers West表示,「如果你給學生的即時反饋是有偏見的,那這還是有用的反饋嗎?還是說這種反饋會使得對某些群體的歧視持續下去?」
大多數的機器評分系統,對於任何一篇隨機選擇的文章,如果人與機器的評分存在較大差異,都會被提交給另一個人進行評審。
多年來,猶他州一直將AI作為其標準化考試的主要評分工具。
「我們州的評分工作需要大量的人力和物力,並且十分耗時」該州考試發展評估員Cydnee Carter表示,這一自動化過程使得州政府能夠向學生和教師提供即時反饋。
非營利性的美國研究協會(American Institutes for Research,AIR)是猶他州服務時間最長的測試供應商,通過公開記錄請求, Motherboard獲得了AIR為猶他州準備的年度技術報告。這些報告讓我們得以一窺,為了公平起見,供應商是如何監控他們的文章評分系統的。
每年,AIR都會在全州評估中測試新的問題。它監測的問題之一是——與總分相似的白人或男性學生相比,女生或某些少數族裔學生在特定問題上的表現如何。這種方式被稱為項目功能差異(DIF)。
在猶他州2017-2018學年的測試中,AIR標記了348個對於少數族裔或女性學生的輕微DIF英語語言藝術(ELA)問題,而對白人或男性學生這一數字為40。它還指出了3個對少數族裔或女性學生表現出嚴重DIF問題。
被標記為嚴重DIF的問題將提交給AIR的公平和敏感性委員會進行審查。
在某些情況下,很難確定偏見產生的原因。AIR的自動評分高級主管Susan Lottridge說,可能是提示詞的措辭、有偏見的評分員或者是算法存在偏見導致的結果。
她說:「當涉及到這些開放式項目時,我們並不知道DIF的來源,我認為這是一個亟待研究的領域。」
Lottridge表示,總的來說,AIR的評分系統在不同群體中的表現基本一致。
但是對一些教育工作者來說,這並不夠。2018年,由於教師們和Perelman等寫作專家的強烈抗議,澳大利亞擱置了在其全國標準化考試中實施機器評分的計劃。在尚未成熟的AI行業,偏見問題正促使企業重新考慮這些工具的價值。
West說:「指出這個領域的歧視問題是一項持續挑戰,這也是AI這個更廣泛領域中的大問題。一個困難的問題並不意味著不需要解決,尤其是當這些測試被用於決定人們能否獲得心儀工作。」
相關報導:
https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays