美國嘗試用AI改GRE作文!背模版不好使了,性別膚色都影響評分?

2020-12-16 大數據文摘

大數據文摘出品

來源:VICE

編譯:張睿毅、邢暢

馬上就是大學入學季了,六月的一場高考讓昔日的同窗走向了不同的城市。考試是每一個人都繞不開的一道坎,雖然未必都是「一考定終身」,但是人生軌跡總不免被各種考試改變。

在美國,每年都有數百萬學生進行標準化測試。在美國,研究生入學考試(GRE)這樣的國家考試是高等教育的守門人,從學生是否畢業到學校的聯邦資助、教師薪酬等各方面,標準化考試都有重要意義。

傳統的紙筆測試已經讓位於計算機。而且越來越多的評分過程,甚至是書面論文,也被轉交給了算法。

根據Motherboard進行的一項調查顯示,自然語言處理(NLP)人工智慧系統(通常被稱為自動化論文評分引擎),現在是至少21個州的標準化測試的初級或中級分級員。

在這21個州中,有3個洲表示每篇文章也會被人類評分。但是在剩下的18個州中,只有一小部分學生的論文將被隨機選擇供人類分級員仔細檢查機器的工作。

但心理測量學家——研究測試和AI專家的專家以及Motherboard獲得的文件的研究表明,這些工具容易受到AI世界中反覆出現的缺陷的影響:對某些人口群體的偏見。正如一項Motherboard實驗所證明的那樣,一些系統可能會被含有複雜詞彙的無意義論文所愚弄。

論文評分引擎並不分析寫作質量

論文評分引擎實際上並不分析寫作質量。他們接受了數百篇示例論文的培訓,以識別人類劃分的較高或較低等級的評分模式。然後,他們根據這些模式預測人類所分配論文的分數。

華盛頓大學計算語言學教授Emily M. Bender說:「問題在於偏見是另一種模式,所以這些機器學習系統也會逐漸學會。這些機器學習項目不僅會在訓練集中產生偏差,而且還會放大它們。」

長期以來,教育行業一直在努力克服來自某些語言背景的學生的意識和潛意識偏見,正如在幾個州禁止教授黑人英語俚語一樣。

專家說,人工智慧有可能加劇歧視。在人類得分答案的數據集上訓練論文評分引擎可以彌補算法中存在的偏差。但引擎也非常關注句子長度、詞彙、拼寫和主語——動詞協議等指標——英語學習者和其他群體更有可能做出不同的寫作部分。這些系統也無法判斷寫作的細微差別,比如創造力。

儘管如此,測試管理員和一些州教育官員已經接受了這項技術。傳統上,論文是由兩名人工檢查員聯合評分的,但是將機器評級作為論文或作為人類的替補評分員要便宜得多。

機器評分幾乎不受監督

關於機器評分偏差的研究很少,部分原因是創建這些系統的公司對自己的算法保密。考試評分供應商嚴密地保護他們的算法,各州也小心翼翼地不讓人們注意到是算法而不是人在給學生打分。只有少數發表的研究調查了這些引擎是否對來自不同語言背景的學生一視同仁,但它們的研究證實了一些批評人士的擔憂。

非營利性教育考試服務中心是少數發布機器評分偏差研究的供應商之一。它的「E-rater」引擎用於評估一系列全州評估,GRE和英語TOEFL,外國學生在進入美國某些大學之前必須參加這些考試。

「這是一個普遍關注的問題,這是我在這個領域與所有人交談的普遍問題,」ETS新產品開發副總裁David Williamson告訴Motherboard,「我們一直在公開它。」

在1999年、2004年、2007年、2008年、2012年和2018年的研究中,ETS發現它的引擎給一些學生,特別是來自中國大陸的學生更高的分數。與此同時,它傾向於強調非洲裔美國人,即使是在在嘗試重新配置系統以解決問題之後。

「如果我們進行調整,可能可以幫助一個國家的某個群體,也可能會傷害另一個國家的另一個群體。」ETS高級研究員布倫特布裡奇曼說。

2018年12月的一項研究深入研究了ETS的算法,以確定差異產生的原因。與其他參加GRE考試的人群相比,E-rater傾向於給中國大陸的學生更低的的語法成績,但是對於中國學生的論文篇幅和複雜單詞給出了高於平均水平的分數,這導致他們的論文總得分高於專業人類評分者給出的分數。

威廉姆森和其他研究人員寫道,綜合結果表明,許多來自中國大陸的學生在使用大量預先記憶的文本。

與此同時,非洲裔美國人的語法、寫作風格和組織更容易從電子評估者那裡獲得低分——這一指標與論文長度密切相關——因此他們的得分低於平均水平。但是,當專家對他們的論文進行評分時,他們的表現往往要好得多。

這種偏見會嚴重影響學生在高風險測試中的表現。GRE論文按六分制進行評分,其中0僅分配給不完整或極其偏離主題的論文。當ETS研究人員比較專家人類評分和E-rater之間的平均差異時,他們發現該機器在中國學生的平均分為1.3分,而非洲裔美國人的得分低於0.81分。而這些都只是平均結果,對於一些學生來說,差異會更大。

所有E-rater評完分的文章也會由一個人再次評分,評分存在差異的文章會被發給另一個人以最終評分。由於這項機制,ETS並不認為有任何學生受到了E-rater檢測系統的偏見帶來的不利影響。

根據聯邦法律,在沒有學生書面同意的情況下,公布其GRE以及其他考試成績是違法的,所以像E-rater這樣的系統幾乎不可能被外部審查。

2012年,新澤西理工學院(New Jersey Institute of Technology)發表了一項罕見的關於機器評分偏見的研究,研究旨在分析哪些測試最能預測一年級學生應該被安排在什麼水平的寫作班。

Norbert Elliot是《寫作分析雜誌》的編輯,曾在GRE技術諮詢委員會任職,他在新澤西理工學院擔任教授期間領導了這項研究。該研究發現,美國大學理事會的機器評分測試ACCUPLACER不能可靠地預測女性、亞裔、西班牙裔和非裔美國學生的最終寫作成績。因此新澤西理工學院認為,根據《民權法案》第六或第七章的規定,美國大學理事將無法為自己使用該測試進行法律辯護。

ACCUPLACER已經升級了,但是很多關於機器評分的重大問題仍然存在,尤其是在沒有人參與其中的情況下。

你的文章可以完全不連貫,但仍然能從算法中獲得高分。

幾年前,麻省理工學院前寫作課主任Les Perelman和一群學生開發了Basic Automatic B.S. Essay Language Generator,這個程序可以把一連串複雜的單詞和句子拼湊成毫無意義的胡言亂語。使用多個不同的評分引擎,這些毫無意義的文章總是能獲得很高的分數,有時甚至是完美的分數。

Motherboard重現了這個實驗。他們用BABEL生成了兩篇文章,一篇作為Issue、一篇作為Argument,提交給GRE的在線練習工具ScoreItNow!該工具使用E-rater進行評分。兩篇文章的得分都是4分(滿分為6分),評價說,「對論點進行有力論述,表意清晰」。

Perelman在接受Motherboard採訪時說:「BABEL生成器證明你的文章可以完全不連貫,但仍然可以從算法中獲得高分。

曾任新澤西理工學院教授的Eliot說:「自動寫作評估只是一種給學生作品進行標記的方式。如果我們過分強調書面慣例,即標準書面英語,你就會發現,自動評分系統只會重視某些類型的寫作。對書面慣例的了解只是學生寫作能力的一部分。有些學生可能特別敏銳和富有洞察力,人類評分者會重視這一點,而機器並不會。」

儘管如此,只要每篇文章都有人工評分進行質量控制,Elliot仍然支持用機器給文章打分,以及使用NLP為作者提供即時反饋。

他表示,「我對某所大學發生的事情持批評態度,但我仍然希望開放地接受新技術來促進學生的成功。我當然不是說取代整個寫作分析行業,因為在某些情況下,它會把學生分到pi的組。」

算法的偏見使其帶來的好處得到質疑

但算法中存在的偏見,讓自動評分的好處(如對學生和教師的即時反饋)也遭到了質疑。

AI Now Institute的博士後研究員Sarah Myers West表示,「如果你給學生的即時反饋是有偏見的,那這還是有用的反饋嗎?還是說這種反饋會使得對某些群體的歧視持續下去?」

大多數的機器評分系統,對於任何一篇隨機選擇的文章,如果人與機器的評分存在較大差異,都會被提交給另一個人進行評審。

多年來,猶他州一直將AI作為其標準化考試的主要評分工具。

「我們州的評分工作需要大量的人力和物力,並且十分耗時」該州考試發展評估員Cydnee Carter表示,這一自動化過程使得州政府能夠向學生和教師提供即時反饋。

非營利性的美國研究協會(American Institutes for Research,AIR)是猶他州服務時間最長的測試供應商,通過公開記錄請求, Motherboard獲得了AIR為猶他州準備的年度技術報告。這些報告讓我們得以一窺,為了公平起見,供應商是如何監控他們的文章評分系統的。

每年,AIR都會在全州評估中測試新的問題。它監測的問題之一是——與總分相似的白人或男性學生相比,女生或某些少數族裔學生在特定問題上的表現如何。這種方式被稱為項目功能差異(DIF)。

在猶他州2017-2018學年的測試中,AIR標記了348個對於少數族裔或女性學生的輕微DIF英語語言藝術(ELA)問題,而對白人或男性學生這一數字為40。它還指出了3個對少數族裔或女性學生表現出嚴重DIF問題。

被標記為嚴重DIF的問題將提交給AIR的公平和敏感性委員會進行審查。

在某些情況下,很難確定偏見產生的原因。AIR的自動評分高級主管Susan Lottridge說,可能是提示詞的措辭、有偏見的評分員或者是算法存在偏見導致的結果。

她說:「當涉及到這些開放式項目時,我們並不知道DIF的來源,我認為這是一個亟待研究的領域。」

Lottridge表示,總的來說,AIR的評分系統在不同群體中的表現基本一致。

但是對一些教育工作者來說,這並不夠。2018年,由於教師們和Perelman等寫作專家的強烈抗議,澳大利亞擱置了在其全國標準化考試中實施機器評分的計劃。在尚未成熟的AI行業,偏見問題正促使企業重新考慮這些工具的價值。

West說:「指出這個領域的歧視問題是一項持續挑戰,這也是AI這個更廣泛領域中的大問題。一個困難的問題並不意味著不需要解決,尤其是當這些測試被用於決定人們能否獲得心儀工作。」

相關報導:

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

相關焦點

  • GRE考試機器評分的注意事項
    由於gre考試機器評分,在你的作文裡,不要試圖用大膽的創造性的寫作方式,而應該用樸素的組織化的結構。不要期望人工評分者能給你的大膽的創造性的作文記高分。而在推理分析部分,電腦評分器評分的機制較容易理解,因為它能識別你是否發現了推理中的邏輯錯誤。那麼,如何讓gre考試機器評分器給高分呢?
  • 21考研黨英語作文如何評分?背模板、背範文真的有用嗎?
    作文評分一共分為六檔,他們重點評分關鍵詞分別(重點是進行了加粗標註的部分):1第五檔 A節(9-10分)B節(17-20分)很好地完成了試題規定的任務。---漏掉或未能有效闡述一些內容要點,寫了一些無關內容;---語法結構單調、詞彙項目有限;---有較多語法結構及詞彙方面的錯誤,影響了對寫作內容的理解;---未採用恰當的銜接手法,內容缺少連貫性;---格式和語域不恰當。
  • 2萬所美國院校都在用的AI閱卷系統,只要複製原文「關鍵詞...
    Simmons知道,這應該是系統算法自動評分,隨後他看了兒子的考試試卷,似乎並沒有什麼大的問題。於是,她決定用一道歷史題測試一下系統的評分規則,結果讓她大跌眼鏡。題目是這樣的:君士坦丁堡的地理位置如何幫助拜佔庭帝國變得富有和繁榮?
  • GRE作文用AI打分,20周年了:AI給中國考生的分數,遠超人類打分
    VICE調查了美國的50個州,發現有至少21個州 (包括加州) 的教育系統,已經把AI當成作文打分的主要/第二主要工具,用在標準化考試裡。這時,人們不免想起了GRE,這個20年前就開始用AI判作文的大前輩。有有不少研究表明,包括GRE打分機器e-rater在內,許多AI評判文章的機制,都有明顯的缺陷。不過經年累月,AI不但沒有被各種作文考試拋棄,反而越發受歡迎了。
  • 這樣準備GRE才skr
    如果想快速了解怎麼寫作文,最快的方法還是去報班。 在這裡推薦微臣的作文班,我8月25號前報了微臣的作文班,雖然只有2 3 個小時, 但是老師能把GRE作文最精髓的東西講給你。 因為GRE作文很大一部分的評分是instruction。
  • Gre作文考試指南:機考gre作文時注意事項有哪些?
    機考gre作文時有哪些注意事項是考生們必須要知道的,否則很容易因為操作失誤失去分數。因此,對於打算參加gre作文機考的朋友們來說,大家不僅要積極地做好複習工作和考前準備,更是要了解機考gre作文時注意事項有哪些。
  • GRE作文用AI打分,已經20周年了:AI給中國考生的分數,遠高於人類打分
    VICE調查了美國的50個州,發現有至少21個州 (包括加州) 的教育系統,已經把AI當成作文打分的主要/第二主要工具,用在標準化考試裡。GRE:機器比人更偏愛中國考生早在1999年,主辦GRE的美國教育考試服務中心 (ETS) ,就開始用e-rater給作文打分了。
  • GRE作文用AI打分20周年:給中國考生分數高於人類打分
    VICE調查了美國的50個州,發現有至少21個州 (包括加州) 的教育系統,已經把AI當成作文打分的主要/第二主要工具,用在標準化考試裡。GRE:機器比人更偏愛中國考生早在1999年,主辦GRE的美國教育考試服務中心 (ETS) ,就開始用e-rater給作文打分了。
  • 2013考研英語作文模版:圖畫作文
    新東方網>英語>英語學習>英語寫作>寫作輔導>正文2013考研英語作文模版:圖畫作文 2012-12-20 10:21 來源:考試吧(Exam8.com) 作者:
  • 【考研英語】作文模版-小作文(1)
    先回顧一下之前的大作文【考研英語】作文模版-人生態度類【考研英語】作文模版-英語一社會現象類
  • GRE寫作中引用名人名言真的有必要嗎?
    新GRE寫作要求考生在30分鐘+30分鐘內分別完成兩篇文章,難度不小。要想快速提高作文含金量,背一些引用名人名言可以為自己的作文加分。改革後新gre寫作題目更加具體,考察考生完勝題目的過程中是否能夠融合批判性思維和分析寫作能力,恰當的引用,給文章潤色,會對新gre寫作的成績提高有很大幫助。
  • GRE329備考經驗貼|二戰如何突破瓶頸,高效出分!
    之前大三自己複習過,背過單詞刷過一些市面上的題和模考題,但成績不理想,V150,Q155左右吧。系統備考是6月份開始,6月底7月初上了雷哥gre封閉全科班,系統刷題系統刷單詞。其他的還有雷哥的熟詞癖義刷了保底1遍,要你命3000系統備考時背了一遍,之前大二大三的時候自己用 app刷了保底2遍,一秒一個詞的那種跑步橢圓機運動的時候就能滾。
  • GRE作文AI打分給中國考生的分數,遠高於人類打分
    VICE調查了美國的50個州,發現有至少21個州 (包括加州) 的教育系統,已經把AI當成作文打分的主要/第二主要工具,用在標準化考試裡。 GRE:機器比人更偏愛中國考生 早在1999年,主辦GRE的美國教育考試服務中心 (ETS) ,就開始用e-rater給作文打分了。
  • 逼學生作弊的AI閱卷老師
    她嘗試在答案裡加入「財富、商隊、中國、印度」,也就是上圖中的最後一句,反正能想到的關鍵詞都一股腦兒填進去。誠不欺我也!AI真的比閱卷老師還好說話。有些學生告訴記者,他們在上學期都使用了這個技巧,並每次都考到了不錯的分數。
  • PTE口語DI數字發音-再背模版前先解決這個!
    很多人在備考DI的時候,往往過度的追求真題和模版,反而忽略了最根本的數字發音。而PTE口語的發音恰恰是最重要的,如果發音本身不過關,那麼無論套多少模版背多少真題,都會碰到天花板的。首先1 6 7 10都為短元音/wʌn/ /six/ /ˈsev.ən/ /ten/;不要念成長音/wa:n/ /si:x/ /ˈse~v.ə~n/ /te~n/ 其中1和10需要特別注意:1錯誤的念法/汪/;/問/;正確的念法為/wʌn/10錯誤的念法為/碳/;正確的念法為/ten/
  • GRE改紙考的幾點注意事項
    預備考試部分**不定30分鐘。對於Issue,將給出兩個短文題目,考生任選其一。對於Argument,題目不能選擇,只有一個題目。可能包含一個未定的verbal和quantitative預備考試部分,可能出現在分析性寫作部分之後的任意位置。(3)對於GRE考試的筆考部分將如何計分的問題,規定如下:對於verbal和數學的部分,先計算出一個原始分數。
  • 【考研英語】作文模版-英語一社會現象類
    今天的作文模版是英語一的社會現象類~先回顧一下上一期【考研英語
  • 細數新舊GRE考試的區別
    小夥伴們對於新舊GRE的區分一直存在疑慮,為了幫助考生更好的了解現行gre考試,出國留學網gre考試頻道專門為考生收集整理了一些新舊GER考試區別,供考生參考,以便更好的準備。  舊GRE總分是1600分,語文、數學分別是800分滿分,作文6分滿分。 而新GRE總分變成了340分,語文、數學分別是170分滿分,作文仍然是6分。  因為GRE成績5年有效,2011年以前的舊GRE成績直到2016年前還能使用,GRE官網上也為院校和考生提供了新舊GRE的成績對應。
  • GRE高質量備考經驗心得
    如果你要看的話推薦你把3000或者紅寶背得差不多70~80%以後再去看,那時候這些同反大部分你都認識了,背起來很舒服。不然剛開始背還是大部分不認識,每個單詞又擔心它有別的意思,就很DT。比如apple我今天背的時候選錯了,那它就會讓我再多背一次。   3. 可以自己編輯單詞的漢語解釋。比較頭疼的是它裡面單詞的解釋是各種考試程度的都有,GRE、TOEFL、四六級等等,所以我每次碰到新詞都照著3000把這個詞的意思改了以後再背,省得背太多記不住又沒用。   4. 有拼寫訓練。每個單詞背到後面幾次,可以自己設置為熟練程度是「再認」或「拼寫」。
  • 新gre作文新題庫解析issue12
    新gre考試改革雖然作文機考形式沒變,但是新gre作文新題庫標誌著作文的改革,對於issue部分,答題時間也縮短為半個小時,這就更要求了考生的臨場反應速度。新東方網GRE頻道為大家整理了新gre作文issue題庫,包括題目的譯文及寫作要求的具體內容。