AI閱卷「翻車」 不同AI評分系統結果相差甚遠

2021-02-08 國際產業網

開學季,美國一款號稱服務兩萬所學校的AI閱卷系統遭到質疑,學生們只要藉助系統漏洞,輸入相應關鍵詞,即使關鍵詞之間並無關聯,也能輕易獲得高分。

隨著人工智慧的發展,不少教育App都應用了智能評分系統,評分系統閱卷迅速,及時出分,受到不少師生的歡迎。但同時,也有不少家長吐槽智能評分系統,像英語跟讀App的評分系統,有時候即使擁有英語專業八級水平的人,測試得分也只有80分。

除了應用於英語口語的智能評分系統,人工智慧還被應用於判卷上。不過這種智能閱卷系統也時有「翻車」現象。據報導,在開學季,一款號稱服務於美國兩萬所學校的AI閱卷系統就受到了質疑,學生們藉助它的漏洞,「裸考」就能輕鬆及格。之所以被學生們鑽了空子,是由於該系統只是通過關鍵詞進行評分,學生們只要輸入相應關鍵詞,即使幾個關鍵詞之間沒有關係,也能順利過關甚至獲得高分。

閱卷前需先設定評判標準

「自動測評打分系統一般需要先設定評測的標準,而後根據設定的標準去設計合適的評測算法與模型。」天津大學智能與計算學部教授、博士生導師熊德意介紹,比如像口語測評打分,就需要機器去評判人的發音是否標準,所讀句子的重音是否正確,讀出的語句是否連貫流暢,連讀部分是否準確等。

AI閱卷系統則涉及到對語言文字的評判,涵蓋很多方面,如語法、語義等,會大量運用到自然語言處理技術。

「自然語言處理技術是人工智慧的一個重要分支,研究利用計算機對自然語言進行智能化處理,基礎的自然語言處理技術主要圍繞語言的不同層級展開,包括音位(語言的發音模式)、形態(字、字母如何構成單詞、單詞的形態變化)、詞彙(單詞之間的關係)、句法(單詞如何形成句子)、語義(語言表述對應的意思)、語用(不同語境中的語義解釋)、篇章(句子如何組合成段落)7個層級。」熊德意強調,這些基本的自然語言處理技術經常被運用到下遊的多種自然語言處理任務(如機器翻譯、對話、問答、文檔摘要等)中,自動閱卷中的語言文字評測通常涉及這7個層級的若干層。

設計自動評測指標的方法有多種,通常會根據不同的評判類型去選擇適合的方法。「比如閱卷系統若要進行翻譯題的自動評判,可以讓老師事先寫好多個參考譯文答案,然後把學生的答案和參考答案進行類比,計算它們的相似度作為學生答案好壞的評測指標。」熊德意舉例說,機器翻譯常用的評測指標BLEU,就是基於參考譯文和機器譯文之間的N-grams(N元)匹配度計算相似度的。

一個單詞是一元,兩個相連的單詞是二元,還有三元、四元,如果答案中有一個單詞與參考答案中的單詞一致,那麼就會給出一個一元評分,類似的可以計算二元、三元、四元的評分。研究人員為不同元設置不同權重,然後把得分統籌起來變成一個客觀值,得分越高就說明兩者之間的相似性越高。

不同AI評分系統結果相差甚遠

此次AI閱卷系統「翻車」的導火索是一位美國歷史系教授的兒子在進行歷史考試的時候只得到了50%的分數,而她對兒子的答案進行評測後,覺得孩子的回答基本沒有問題。

同樣的答案,人工評價和機器評價為何有如此大的出入?

「這就是基於AI算法的自動評測面臨的最大挑戰:如何與人工評價保持一致。應對這個挑戰需要解決的問題很多。比如如何制定合適的評測標準,主觀題進行自動評測必須要有合適的評測標準和規範;比如如何應對語言的千變萬化,語言的多樣性是自然語言處理技術的主要挑戰之一,語言的自動測評和自動處理都要面對多樣性的挑戰;比如如何設計一個綜合性的評測指標,雖然目前有各種各樣的指標,但是很少有指標綜合考慮語言文字的方方面面,例如作文自動閱卷,可能要考慮用詞是否合理(詞彙)、句子是否流暢(句法)、段落組織是否有條理(篇章)、內容是否扣題(語義、語用)等。」熊德意說,上面提到的BLEU就是只考慮了單詞形式的嚴格匹配,沒有考慮單詞的形態變化、語義相似性、譯文的句法合理性等因素。

「遵循的評測規則、評判的出發點不同,相應的算法模型都不一樣,因此最後的結果也會相差甚遠。」熊德意說。

因此僅僅利用一種評測方法顯然是不全面的,這也就解釋了當孩子的母親嘗試在答案裡加入「財富、商隊、中國、印度」等題目中的關鍵詞時,即使這些關鍵詞之間沒有任何串聯,她也得了滿分。「可能這個AI閱卷系統只使用了簡單的關鍵詞匹配,因此會出現『關鍵詞沙拉』也能矇混過關的情況。」熊德意解釋。

此外,口語的人工測評與機器測評也存在較大出入。「近年來,語音識別性能雖然在深度學習技術的推動下取得了顯著的提升,但是在開放環境、噪音環境下,這種識別率就會下降很多。」熊德意解釋,如果機器「聽」錯了一個單詞,而後機器進行測評,就會形成一個錯誤傳播,也就是上遊系統的錯誤會導致下一系統錯誤,錯上加錯,越錯越離譜,測評結果也會大相逕庭。

「目前有很多設計評測指標的方法,還有很多改進的方法,如在計算準確率的同時也計算召回率等。另外,還有對評測指標進行評測的,即評測的評測,看看哪個評測指標更完善,更和人的評價一致。」熊德意感嘆,很多時候,自動評測的難度和對應的自然語言處理任務的難度,從技術層面來說是一樣的,比如用機器評價一個譯文的好壞與用機器生成一個譯文的難度類似,用機器評判一個文檔摘要的好壞與用機器生成一個摘要的難度也差不多。

可結合人工評測讓系統更智能

「傳統的自動評測指標通常是基於符號進行計算的,現在深度學習等AI技術也越來越多地應用於測評工具中。」熊德意介紹,使用深度學習,可以把語言符號映射到實數稠密向量的語義空間,利用語義向量計算相似度。哪怕說的詞語和計算機原本學習的不一樣,但只要語義是一致的,機器就可以進行精準的評價。因此,基於深度學習的自動評測某種程度上可以應對語言的多樣性挑戰。不過深度學習也有一個問題,就是需要大量的數據讓機器進行學習。

基於自監督學習的預訓練語言模型,近幾年,在語言表示學習中,取得了突破性的進展。「OpenAI的預訓練語言模型GPT-3,在5000億單詞的海量語料上訓練了一個帶有1750億個參數的神經網絡,通過大量學習網絡上各種語言的文本,GPT-3形成了強大的語言表示能力,可以進行多種任務,比如自動翻譯、故事生成、常識推理、問答等,甚至可以進行加減法運算,比如其兩位數加減法正確率達到100%,五位數加減法正確率接近10%。」熊德意介紹,不過,這麼龐大的神經網絡,如果用單精度浮點數存儲,需要700G的存儲空間,另外模型訓練一次就花費了460萬美元。因此,即使GPT-3具有較好的零樣本、小樣本學習能力,其高昂的成本使其離普遍可用還有很遠的距離。

但是AI作為閱卷評測「老師」,其又有人工不可比擬的優勢。比如AI自動批閱卷系統相比人工批閱速度更快,老師不可能一次記住所有的多項選擇題答案,需要不斷檢查標準答案,這是很費時的,自動批閱系統幫助老師大大提高了效率;另外,自動批閱系統更加理性,不受外界條件幹擾,不會因疲勞等原因導致誤判。即使在複雜的幹擾環境中,仍然可以得到正確的結果;AI閱卷系統還可以在評分後直接做好學情分析,統計出考試數據、錯題數據等教學材料,幫助老師減負增效,幫助學生提高學習效率。

「將主觀題合理地客觀化,可以降低自動閱卷的難度。」熊德意表示,對無法客觀化的主觀題,雖然設定全面的評測標準比較難,但是設定某一方面的評測標準還是可行的,比如針對單詞詞法、句子語法的評判,目前準確率還是挺高的,這類技術可以從實驗室走向產品應用。

也可以引入人工評測,對AI閱卷系統打分進行覆核與修正,通過這種反覆的修正,累積大量的評測訓練數據,讓機器評分變得更加智能。

「利用自然語言處理等人工智慧技術,進一步完善主觀智能評分系統,將是未來教育領域的一個非常重要的課題。」熊德意說,以後的AI自動批閱系統肯定會越來越「聰明」,人工智慧與教育的結合也會越來越緊密。(記者 陳 曦)

相關焦點

  • 翻車了!2萬所美國院校都在用的AI閱卷系統,只要複製原文「關鍵詞...
    原因是有家長爆料,該公司旗下的AI閱卷系統存在重大漏洞,學生只要在答題區寫上零散的「關鍵詞」就能輕鬆拿高分。在事後採訪中,一位匿名學生稱,如果不是閱卷系統的的漏洞,我不會通過代數2考試,我只是把與問題相關的關鍵詞填了上去,我相信老師們已經發現,但他們沒有做任何處理。
  • 人工智慧閱卷「翻車」 其實是「翻」在了自然語言處理
    隨著人工智慧的發展,不少教育App都應用了智能評分系統,評分系統閱卷迅速,及時出分,受到不少師生的歡迎。但同時,也有不少家長吐槽智能評分系統,像英語跟讀App的評分系統,有時候即使擁有英語專業八級水平的人,測試得分也只有80分。除了應用於英語口語的智能評分系統,人工智慧還被應用於判卷上。不過這種智能閱卷系統也時有「翻車」現象。
  • 逼學生作弊的AI閱卷老師
    也就是說,Edgenuity必須和人類教師結合,需要人類幫忙在線監考、審核閱卷結果,這樣才能發揮其功效。據悉,阿里開發這套閱卷系統的主要目的,是教外國人學中文,所以在語法方面會有嚴苛的要求。如果說阿里的閱卷系統還是個小範圍的嘗試,科大訊飛已經將之應用到實際考試中了。
  • AI閱卷老師逼學生作弊!懂了套路亂寫也能拿滿分
    Dana對技術有一定的了解,她覺得,AI系統很可能是根據關鍵詞來評分。為了驗證自己的想法,他把兒子的作業做了一遍。她嘗試在答案裡加入「財富、商隊、中國、印度」,也就是上圖中的最後一句,反正能想到的關鍵詞都一股腦兒填進去。奇蹟出現了,這道題她拿了滿分。即使這些關鍵詞之間沒有任何串聯。
  • 實錘了:「AI 翻車」事件已超1000+,特斯拉,微軟、谷歌、蘋果等全部...
    但這些行業成功案例的背後,AI也沒少發生「翻車」事故。根據最新AI事故數據集AIID(AI Incident Database)顯示,AI在行業應用中已發生超1000次翻車事件,涉及78個不同類別。https://incidentdatabase.ai/在這些事故中,有的可能只是鬧了個笑話,但有的已經對人類造成了實質性的傷害,或者為國家完全埋下了隱患。此外還可以看到,特斯拉、谷歌、微軟、亞馬遜、蘋果等頗具影響力的科技巨頭在這份「翻車」列表中也頻頻出現。
  • 在Windows10系統下怎樣打開ai文件?
    Windows10系統下怎樣打開ai文件?這是近來不少朋友都向小編諮詢的問題。事實上,.ai格式的文件是illustrator軟體製作的矢量圖文件,它的優點在於不會在圖像放大的情況下產生馬賽克。我們可以使用與photoshop軟體同屬Adobe公司的illustrator軟體來將其打開並編輯,如果只為了查看,可以通過下載Acrobat閱讀器進行查看,但無法編輯!
  • 實錘了:「AI 翻車」事件已超 1000+,特斯拉,微軟、谷歌、蘋果等...
    但這些行業成功案例的背後,AI 也沒少發生 「翻車」事故。根據最新 AI 事故數據集 AIID(AI Incident Database)顯示,AI 在行業應用中已發生超 1000 次翻車事件,涉及 78 個不同類別。
  • 【考前必備】標點符號、輸入法、詞典、系統、閱卷和評分……
    「shift」鍵切換中英文功能、軟鍵盤等功能可以在輸入法測試頁面進行測試,如果可以照常使用,正式答題時也可以使用;如果不可以使用(或不顯示、點擊沒有反應),就是系統已經強制關閉。注意標點符號的使用,不要有明顯的錯用、漏用,也不要亂用標點符號和空格,以免影響閱卷和評分(閱卷和評分的問題見下文)。
  • 『AI翻車』事件已超1000+,特斯拉,微軟、谷歌、蘋果等全部...
    但這些行業成功案例的背後,AI也沒少發生「翻車」事故。根據最新AI事故數據集AIID(AI Incident Database)顯示,AI在行業應用中已發生超1000次翻車事件,涉及78個不同類別。在這項事故中,自動駕駛系統並未發揮作用,特斯拉的解釋是,分隔牆之前已被損壞,系統並未作出正確識別,同時在撞擊的前六秒,系統已發出了視覺和聽覺上的警告。但顯然,僅六秒的時間不足以讓駕駛員作出正確的應對。「殺手」機器人機器人是AI頻繁發生翻車事故的第二大領域。從列表來看,機器人在醫療、倉儲物流、、等多個場景中均發生過負面事故。
  • 【書群·AI體系】AI教學系統「登陸」書群,高分風暴即將開啟!
    「工欲善其事必先利其器」,好成績絕對少不了好輔助,一直以來,書群都竭力打造戰鬥力強、攻擊力強的學習輔助系統,協助高中生制勝高考。近日,書群又一力作全新推出,承載著書群人的希冀和付出,書群教育教學系統隆重上線,融合教學、輔助、監督、引導多種「角色」於一身,此次的書群教育教學系統是AI教學與AI自主學習室的高度融合。
  • 別錯過這張AI商用清單:你的難題可能被一個應用解決(終篇)
    Behold.ai- 醫療帳單,編碼和理賠軟體BenevolnentAI- 幫助發現新藥Calico Labs- 試圖解決老齡化和疾病的問題CareSkore - 用於預測結果和趨勢的病人檔案軟體CloudMedx
  • 上線24小時即下架,AI性別識別平臺Genderify演繹大型翻車現場
    這款產品宣稱使用一種簡單、快速、獨特的 AI 技術,讓用戶直接輸入名稱或者電子郵件地址,即可獲取性別判斷結果。開發人員稱,這款產品的目標在於幫助人們更好地了解性別特定(GenderSpecific)方面的需求。該技術也可輕鬆集成到現有系統內,例如註冊表單、CRM 和 ERM 等。
  • AI軟體商C3.ai掛牌首日飆120%
    Business Insider、Yahoo Finance報導,過去曾數次在軟體創業公司企業獲致成功的億萬富翁Tom Siebel,曾創立客戶關係管理(CRM)程序商希柏系統軟體(Siebel Systems),並於2006年以60億美元賣給甲骨文(Oracle)。
  • 2021年衛報英國大學排名結果卻與QS、THE等排名相差甚遠
    QS,THE等排名相差甚遠。  2.Guardian ranking for last year 去年衛報排名結果  3.Name of university 大學名稱  4.The Guardian score衛報分數:  滿分100分,為後9項分數綜合評分,代表院校綜合素質  5.Course satisfaction 課程滿意度:  課程綜合質量指標
  • AI創業公司大列表
    Clarifai: http://www.clarifai.com/ , CV領域的創業公司,基於DL的結果非常好,公司價值就不知道了。RealFace : http://www.realfacetech.com/ , 人臉識別公司,被蘋果收購。2017年。
  • 人們熟知的人工智慧AI到底是什麼東西?
    通用型人工智慧是ai領域研究的主要目標之一,其主要包括:計算機視覺、計算機語言理解和知識表示幾個子領域,它所規定和指導的ai手段正是符號邏輯和語義邏輯等基礎邏輯。此次獲獎的成果顯示,華為雲通用人工智慧產mace11是ai創新應用載體,基於雲端,具有極強的多領域適用性和普惠性。我們注意到,機器人創新應用的精度等要求越來越高,其對計算能力、網絡連接及雲服務等要求的提升勢在必行。機器人創新應用的精度要求,尤其是深度學習方面的解決方案不斷湧現,使機器人本體系統需要同時支持不同層面的創新應用及創新算法。
  • 不一樣的智能家居系統!家人享智慧生活,孩子零基礎學編程玩AI
    將居家生活智能化和兒童AI編程教育高度融合的芯恆安智能家居5.0「ai玩空間」版將有效解決這一難題。該系統由智慧家庭系統和「ai玩空間」系統組成,兩大系統由獨立的網關控制,日常使用時互不幹擾。智慧家庭系統由智能安防、智能照明、智能暖通、影音娛樂等智能系統組成。當然,用戶也可按照家人的習慣定製智能方案,以此創造出健康、安全、舒適、便捷、個性化和充滿關愛的家庭生活方式。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    往期已開放簡歷解析、人崗匹配邀測功能,本期簡歷畫像功能開放邀測,可基於簡歷輸出人才評分、簡歷分類、多維度標籤(簡歷標籤、項目經歷標籤、工作經歷標籤、技能標籤欄位)。此次接口公測上線,同步優化模型效果,教育場景下的識別準召率提升至85%+,可用於智能閱卷、拍照搜題等場景>>立即試用ai.baidu.com/tech/ocr/doc_analysis 儀器儀錶盤讀數識別全面公測
  • 小米ai通話介紹 小米MIUI12怎麼設置ai接電話功能
    小米ai通話介紹 小米MIUI12怎麼設置ai接電話功能 小米日前推出了全新的 MIUI 12 系統,小米宣布小米
  • 三國志13ai武將文官類威名技能效果解析,如何讓ai快速升級威名
    在上一篇文章中小編為大家詳細解說了ai武將的威名只有被動技能有效,主動技能則不會主動使用,然而並不是每個威名都均衡分配了被動技能。因此ai武將有的威名則完全不會發動技能,除了威名自帶的戰術外則相當於白板。今天小編為大家詳細解析一下ai武將文官類威名的價值,幫助大家選擇有威名技能的ai隊友,對於自創武將也可以設置ai能觸發技能的威名為理想威名。