最近,美國一家知名教育平臺登上了Reddit熱搜。
原因是有家長爆料,該公司旗下的AI閱卷系統存在重大漏洞,學生只要在答題區寫上零散的「關鍵詞」就能輕鬆拿高分。
在事後採訪中,一位匿名學生稱,
如果不是閱卷系統的的漏洞,我不會通過代數2考試,我只是把與問題相關的關鍵詞填了上去,我相信老師們已經發現,但他們沒有做任何處理。
據了解,這款AI閱卷系統搭載於虛擬學習平臺Edgenuity,目前已服務了2萬所美國院校。
而這位爆料者名為達娜·西蒙斯(Dana Simmons),是加州大學河濱分校的歷史系副教授。
她之所以發現AI評分系統漏洞是因為他的學霸兒子在歷史測評中只拿到了50%的成績。
隨便寫寫就能拿高分
拉扎爾(Lazare)是一名高中生,他剛剛在Edgenuity平臺完成了歷史考試測評,滿分100,他只拿到了50分,這顯然與平時成績相差很多,他很傷心。
一開始,Simmons還試圖安慰他,也許這次的閱卷的老師比較嚴格。不過,Lazare稱,老師並沒有看他的答案,提交試卷不到一分鐘,成績就出現了。
Simmons知道,這應該是系統算法自動評分,隨後他看了兒子的考試試卷,似乎並沒有什麼大的問題。於是,她決定用一道歷史題測試一下系統的評分規則,結果讓她大跌眼鏡。
題目是這樣的:君士坦丁堡的地理位置如何幫助拜佔庭帝國變得富有和繁榮?
它位於愛琴海和黑海之間,是商船和乘客的集散地。它也正處於歐洲和小亞細亞之間,這使它成為一個巨大的貿易中心,而且在當時的許多貿易路線。利潤、多樣化、西班牙、中國、印度、非洲。
Simmons稱,她只是寫了兩個相關的長句,然後又往上堆疊了一些不連貫的關鍵詞,比如財富、印度、中國、中東。但這種拼湊的「單詞沙拉(Word Salad)」形式,系統卻給了她滿分。
原來根據該公司官網顯示,系統的的評分規則是,如果某些問題的答案不包括關鍵字,系統會判定為0分,如果至少包含一個關鍵字,則為100分。 而其他的問題根據包含的關鍵字數量獲得一定的百分比。
按關鍵詞評分不失為一種好的方式,但只是按照關鍵詞,顯然會出現明顯失誤。
隨後,Simmons在社交平臺Twitter上,公開指責Edgenuity公司,稱其AI算法漏洞不利於教育公平,引起很多網友的關注和支持。
對此,Edgenuity公司做出回應稱,AI系統評分只是作為參考,老師有權對其進行修改。
Edgenuity不會使用算法代替老師評分,只是為老師提供評分指導。老師有能力接受或否決建議的分數,AI不會決定學生的課程成績。
不過,這一回應也是分分鐘打臉。
在事後採訪中,Lazare的一位同學表示,老師確實可以重新查看學生的試卷,並給出最終的得分。但他認識的大多數同學都表示,從未見過老師更改Edgenuity分配的成績,儘管聽說有同學使用「單詞沙拉」的方法獲取高分。
「如果老師在看答案,他們根本不在乎」。
「我整個學期都靠它」
重要的是,Simmons並不是最早發現Edgenuity存在評分漏洞的的人。
一位已經畢業的高中生奧斯丁·帕拉迪索(Austin Paradiso)表示,他在高中期間曾多次使用Edgenuity平臺進行考試,雖然不喜歡「關鍵詞沙拉」,但這種方式確實有助於得高分,而且100%有效。
據了解,Edgenuity是美國知名在線虛擬教育機構,已成立二十多年,其提供的K12教育服務已廣泛用於2萬多所院校,而這一服務就包括Edgenuity平臺內置的AI評分系統。
另外,由於今年受疫情影響,大多數美國學校都轉向了線上授課模式,其教學和評分服務業也選擇外包給虛擬教育平臺,Edgenuity是其中收到合同最多的一個。
據統計,Edgenuity公司為初中生和高中生提供了300多個在線課程,涉及從數學到社會研究的各個領域。這些課程由教學視頻、虛擬作業,以及在線考試組成。Edgenuity在其中負責課程提供和作業評分。
而經過多次考試,很多學生都已經摸透了系統的評估方法。
一位學生說,當他不會做的時候,會嘗試提交與問題相關的成批關鍵詞,這種方法通常都會奏效。
還有另外一位同學表示,他們會截取原文中的關鍵詞粘貼到答題區,在整個上學期都使用了這個技巧。並且每次都能獲得不低的分數。
另外,在4個月前,還有學生公然在Reddit上發布帖子,詢問如何利用Edgenuity作弊。
在老師不知情的情況下,如何成功欺騙Edgenuity?我發現你們可以輕鬆地找到所有答案,我想知道是如何做到的,是否會花時間回答每個問題?
帖子下方聚集了很多同學評論,分享在線作弊技巧。其中一位學生表示,幾乎每一次Edgenuity平臺考試都會作弊。
此次Simmons的揭發對Edgenuity造成了不小影響,已家長公開反對學校使用該虛擬平臺,並表示不希望技術影響孩子成績。
AI閱卷,你怎麼看?
AI技術參與到考試測評系統中似乎是一種必然的趨勢。在國內已經有很多相關研究,而且一些技術已經開始逐步走向落地階段。
阿里巴巴於近日發起的百萬獎金數學挑戰賽,便聲稱由其自主研發的AI擔任輔助閱卷老師。
不過,關於AI閱卷的標準性和公平性一直備受爭議。
對於有標準答案的客觀題來說,AI的評分能力毋庸置疑,而且對於一些基礎的識別錯字能力,AI也有不錯的表現,比如在2017年阿里舉辦的AI作文評分測試中,AI僅用十幾秒,就在一篇200字的作文中的找出了8個錯別字。
顯然,AI在提高閱卷效率,減少老師壓力方面發揮了不少作用。但對於一些開放式試題,比如作文,AI閱卷則產生了不同的爭議。
有人認為,AI閱卷可以避免主觀偏見,在文本結構、語言表達方面形成統一的標準,而且其海量的文章儲備,也會高於人類老師的評分水平。
但也有人表示,AI判分過於刻板,如上文中的Edgenuity平臺,開放式題目表達是考生的核心思想,人類的情感表達是AI無法按照對錯來評判的。
對此你怎麼看呢?
引用連結:雷鋒網雷鋒網雷鋒網
https://www.theverge.com/2020/9/2/21419012/edgenuity-online-class-ai-grading-keyword-mashing-students-school-cheating-algorithm-glitch
https://www.reddit.com/r/edgenuity/comments/gbmx2l/how_do_i_successfully_cheat_on_edgenuity_without/
https://help.edgenuitycourseware.com/hc/en-us/articles/360042418854-Auto-Grading-Method-Comparison