AI閱卷「翻車」 其實是「翻」在了自然語言處理

2021-01-08 中國經濟網

開學季,美國一款號稱服務兩萬所學校的AI閱卷系統遭到質疑,學生們只要藉助系統漏洞,輸入相應關鍵詞,即使關鍵詞之間並無關聯,也能輕易獲得高分。

隨著人工智慧的發展,不少教育App都應用了智能評分系統,評分系統閱卷迅速,及時出分,受到不少師生的歡迎。但同時,也有不少家長吐槽智能評分系統,像英語跟讀App的評分系統,有時候即使擁有英語專業八級水平的人,測試得分也只有80分。

除了應用於英語口語的智能評分系統,人工智慧還被應用於判卷上。不過這種智能閱卷系統也時有「翻車」現象。據報導,在開學季,一款號稱服務於美國兩萬所學校的AI閱卷系統就受到了質疑,學生們藉助它的漏洞,「裸考」就能輕鬆及格。之所以被學生們鑽了空子,是由於該系統只是通過關鍵詞進行評分,學生們只要輸入相應關鍵詞,即使幾個關鍵詞之間沒有關係,也能順利過關甚至獲得高分。

閱卷前需先設定評判標準

「自動測評打分系統一般需要先設定評測的標準,而後根據設定的標準去設計合適的評測算法與模型。」天津大學智能與計算學部教授、博士生導師熊德意介紹,比如像口語測評打分,就需要機器去評判人的發音是否標準,所讀句子的重音是否正確,讀出的語句是否連貫流暢,連讀部分是否準確等。

AI閱卷系統則涉及到對語言文字的評判,涵蓋很多方面,如語法、語義等,會大量運用到自然語言處理技術。

「自然語言處理技術是人工智慧的一個重要分支,研究利用計算機對自然語言進行智能化處理,基礎的自然語言處理技術主要圍繞語言的不同層級展開,包括音位(語言的發音模式)、形態(字、字母如何構成單詞、單詞的形態變化)、詞彙(單詞之間的關係)、句法(單詞如何形成句子)、語義(語言表述對應的意思)、語用(不同語境中的語義解釋)、篇章(句子如何組合成段落)7個層級。」熊德意強調,這些基本的自然語言處理技術經常被運用到下遊的多種自然語言處理任務(如機器翻譯、對話、問答、文檔摘要等)中,自動閱卷中的語言文字評測通常涉及這7個層級的若干層。

設計自動評測指標的方法有多種,通常會根據不同的評判類型去選擇適合的方法。「比如閱卷系統若要進行翻譯題的自動評判,可以讓老師事先寫好多個參考譯文答案,然後把學生的答案和參考答案進行類比,計算它們的相似度作為學生答案好壞的評測指標。」熊德意舉例說,機器翻譯常用的評測指標BLEU,就是基於參考譯文和機器譯文之間的N-grams(N元)匹配度計算相似度的。

一個單詞是一元,兩個相連的單詞是二元,還有三元、四元,如果答案中有一個單詞與參考答案中的單詞一致,那麼就會給出一個一元評分,類似的可以計算二元、三元、四元的評分。研究人員為不同元設置不同權重,然後把得分統籌起來變成一個客觀值,得分越高就說明兩者之間的相似性越高。

不同AI評分系統結果相差甚遠

此次AI閱卷系統「翻車」的導火索是一位美國歷史系教授的兒子在進行歷史考試的時候只得到了50%的分數,而她對兒子的答案進行評測後,覺得孩子的回答基本沒有問題。

同樣的答案,人工評價和機器評價為何有如此大的出入?

「這就是基於AI算法的自動評測面臨的最大挑戰:如何與人工評價保持一致。應對這個挑戰需要解決的問題很多。比如如何制定合適的評測標準,主觀題進行自動評測必須要有合適的評測標準和規範;比如如何應對語言的千變萬化,語言的多樣性是自然語言處理技術的主要挑戰之一,語言的自動測評和自動處理都要面對多樣性的挑戰;比如如何設計一個綜合性的評測指標,雖然目前有各種各樣的指標,但是很少有指標綜合考慮語言文字的方方面面,例如作文自動閱卷,可能要考慮用詞是否合理(詞彙)、句子是否流暢(句法)、段落組織是否有條理(篇章)、內容是否扣題(語義、語用)等。」熊德意說,上面提到的BLEU就是只考慮了單詞形式的嚴格匹配,沒有考慮單詞的形態變化、語義相似性、譯文的句法合理性等因素。

「遵循的評測規則、評判的出發點不同,相應的算法模型都不一樣,因此最後的結果也會相差甚遠。」熊德意說。

因此僅僅利用一種評測方法顯然是不全面的,這也就解釋了當孩子的母親嘗試在答案裡加入「財富、商隊、中國、印度」等題目中的關鍵詞時,即使這些關鍵詞之間沒有任何串聯,她也得了滿分。「可能這個AI閱卷系統只使用了簡單的關鍵詞匹配,因此會出現『關鍵詞沙拉』也能矇混過關的情況。」熊德意解釋。

此外,口語的人工測評與機器測評也存在較大出入。「近年來,語音識別性能雖然在深度學習技術的推動下取得了顯著的提升,但是在開放環境、噪音環境下,這種識別率就會下降很多。」熊德意解釋,如果機器「聽」錯了一個單詞,而後機器進行測評,就會形成一個錯誤傳播,也就是上遊系統的錯誤會導致下一系統錯誤,錯上加錯,越錯越離譜,測評結果也會大相逕庭。

「目前有很多設計評測指標的方法,還有很多改進的方法,如在計算準確率的同時也計算召回率等。另外,還有對評測指標進行評測的,即評測的評測,看看哪個評測指標更完善,更和人的評價一致。」熊德意感嘆,很多時候,自動評測的難度和對應的自然語言處理任務的難度,從技術層面來說是一樣的,比如用機器評價一個譯文的好壞與用機器生成一個譯文的難度類似,用機器評判一個文檔摘要的好壞與用機器生成一個摘要的難度也差不多。

可結合人工評測讓系統更智能

「傳統的自動評測指標通常是基於符號進行計算的,現在深度學習等AI技術也越來越多地應用於測評工具中。」熊德意介紹,使用深度學習,可以把語言符號映射到實數稠密向量的語義空間,利用語義向量計算相似度。哪怕說的詞語和計算機原本學習的不一樣,但只要語義是一致的,機器就可以進行精準的評價。因此,基於深度學習的自動評測某種程度上可以應對語言的多樣性挑戰。不過深度學習也有一個問題,就是需要大量的數據讓機器進行學習。

基於自監督學習的預訓練語言模型,近幾年,在語言表示學習中,取得了突破性的進展。「OpenAI的預訓練語言模型GPT-3,在5000億單詞的海量語料上訓練了一個帶有1750億個參數的神經網絡,通過大量學習網絡上各種語言的文本,GPT-3形成了強大的語言表示能力,可以進行多種任務,比如自動翻譯、故事生成、常識推理、問答等,甚至可以進行加減法運算,比如其兩位數加減法正確率達到100%,五位數加減法正確率接近10%。」熊德意介紹,不過,這麼龐大的神經網絡,如果用單精度浮點數存儲,需要700G的存儲空間,另外模型訓練一次就花費了460萬美元。因此,即使GPT-3具有較好的零樣本、小樣本學習能力,其高昂的成本使其離普遍可用還有很遠的距離。

但是AI作為閱卷評測「老師」,其又有人工不可比擬的優勢。比如AI自動批閱卷系統相比人工批閱速度更快,老師不可能一次記住所有的多項選擇題答案,需要不斷檢查標準答案,這是很費時的,自動批閱系統幫助老師大大提高了效率;另外,自動批閱系統更加理性,不受外界條件幹擾,不會因疲勞等原因導致誤判。即使在複雜的幹擾環境中,仍然可以得到正確的結果;AI閱卷系統還可以在評分後直接做好學情分析,統計出考試數據、錯題數據等教學材料,幫助老師減負增效,幫助學生提高學習效率。

「將主觀題合理地客觀化,可以降低自動閱卷的難度。」熊德意表示,對無法客觀化的主觀題,雖然設定全面的評測標準比較難,但是設定某一方面的評測標準還是可行的,比如針對單詞詞法、句子語法的評判,目前準確率還是挺高的,這類技術可以從實驗室走向產品應用。

也可以引入人工評測,對AI閱卷系統打分進行覆核與修正,通過這種反覆的修正,累積大量的評測訓練數據,讓機器評分變得更加智能。

「利用自然語言處理等人工智慧技術,進一步完善主觀智能評分系統,將是未來教育領域的一個非常重要的課題。」熊德意說,以後的AI自動批閱系統肯定會越來越「聰明」,人工智慧與教育的結合也會越來越緊密。(記者 陳曦)

更多資訊或合作歡迎關注中國經濟網官方微信(名稱:中國經濟網,id:ourcecn)

來源:科技日報

更多內容或合作歡迎關注中國經濟網官方微信(id:ourcecn)

相關焦點

  • 復旦大學陳俊坤:自然語言處理中的多任務學習 | AI 研習社職播間第...
    近日,在雷鋒網 AI 研習社公開課上,復旦大學計算機系在讀碩士陳俊坤分享了其所在研究組關於多任務學習在自然語言處理領域的最新工作。公開課回放視頻網址:http://www.mooc.ai/open/course/574?
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    •  Dan Jurafsky 和 Chris Manning:自然語言處理[非常棒的視頻介紹系列]https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269 •  斯坦福CS224d:自然語言處理的深度學習[更高級的機器學習算法、深度學習和NLP的神經網絡架構]http://cs224d.stanford.edu/syllabus.html •  Coursera:自然語言處理簡介[由密西根大學提供的NLP
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • AI自然語言處理(NLP)領域常用的16個術語
    自然語言處理(NLP)是人工智慧領域一個十分重要的研究方向。NLP研究的是實現人與計算機之間用自然語言進行有效溝通的各種理論與方法。本文整理了NLP領域常用的16個術語,希望可以幫助大家更好地理解這門學科。
  • 科普自然語言處理
    例如,漢語、英語、日語為自然語言的例子,這一種用法可見於自然語言處理一詞中。自然語言是人類交流和思維的主要工具。以上是百度百科對自然語言的釋義。語言是信息的載體,如同數字、文字、圖像、視頻等一樣,它們的目的都是為了記錄和傳播信息。
  • Google宣布推出AutoML Vision,自然語言,翻譯和聯絡中心AI
    為此,它正在將AutoML擴展到自然語言處理(使用AutoML自然語言)和翻譯(使用AutoML Translate)。Hearst已經使用AutoML Natural Language幫助組織國內和國際雜誌的內容,日本出版商Nikkei Group正在利用AutoML Translate發布不同語言的文章。
  • 中國的自然語言處理領域的人工智慧公司
    原來,它應用了最新的人工智慧自然語言處理技術。什麼是自然語言處理?自然語言處理的英文是Natural Language Processing,一般被簡寫為NLP,它實際上包括了三個方面:語音識別、自然語言理解與語音合成(有一些人把語音識別作為自然語言處理之外的技術,在本文中,我們將語音識別也包含在自然語言處理的技術範疇之內)。
  • 一文帶你讀懂自然語言處理 - 事件提取
    數百萬數據源以新聞稿、博客、消息、手稿和無數其他形式發布,因而自動組織和處理就必不可少。隨著神經網絡算法的改進、計算機算力的顯著提升以及大量湧現的理解框架,自然語言處理的能力正被前所未有的探索。其中一個常見應用稱為事件提取,即處理收集蘊藏在文本中的一個階段內發生的事件,自動識別發生了什麼和什麼時候發生。
  • 清華大學馮珺:當強化學習遇見自然語言處理有哪些奇妙的化學反應?|...
    在近期雷鋒網GAIR大講堂上,來自清華大學計算機系的博士生馮珺,為大家介紹了如何利用強化學習技術,更好地解決自然語言處理中的兩個經典任務:關係抽取和文本分類。 本文根據視頻直播分享整理而成,內容若有疏漏,以原視頻嘉賓所講為準。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    5月26日,由百度與中國計算機學會中文信息技術專委會、中國中文信息學會青工委聯合舉辦的「2019自然語言處理前沿論壇」正式召開。本屆論壇主題為「機器之『讀、寫、說、譯』—— 探尋NLP未來之路」。論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    ,對自然語言處理在大數據中扮演的角色作了探討。自然語言處理知識表示自動推理機器學習NLP、人工智慧、機器學習、深度學習和神經網絡之間的區別人工智慧:建立能智能化處理事物的系統。自然語言處理:建立能夠理解語言的系統,人工智慧的一個分支。機器學習:建立能從經驗中進行學習的系統,也是人工智慧的一個分支。神經網絡:生物學啟發出的人工神經元網絡。
  • 國內自然語言處理(NLP)研究組
    中國大陸地區:微軟亞研自然語言計算組 Natural Language Computing (NLC) Grouphttps://www.microsoft.com/en-us/research/group/natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    ,是自然語言處理技術的幾個核心任務,涉及語言學、計算語言學、機器學習,以及認知語言等多個學科。=aitechtalkzouyanyan鄒炎炎:新加坡科學設計大學博士在讀,主要研究方向為自然語言理解。Wikipedia 上對 semantic parsing 的解釋是:把人類自然語言的話轉化為機器能夠讀懂的語言。
  • 自然語言處理的經驗主義和理性主義
    隨著移動網際網路時代的到來,自然語言處理在電子商務等領域的應用也日益成熟,產品推薦、客服機器人等應用場景已成為日常生活習以為常又不可缺少的一部分。面對基於數據統計和機器學習算法的自然語言處理取得的這些令人鼓舞的輝煌成績,有些學者的頭腦開始發熱起來,他們輕視自然語言處理中基於規則的方法,甚至貶低那些從事研究基於規則的自然語言處理的學者。
  • 自然語言處理(NLP)中的深度學習發展史和待解難題
    王小新 編譯自 sigmoidal量子位 出品 | 公眾號 QbitAI自然語言處理(NLP)是指機器理解並解釋人類寫作與說話方式的能力。近年來,深度學習技術在自然語言處理方面的研究和應用也取得了顯著的成果。技術博客Sigmoidal最近發布了一篇文章,作者是機器學習工程師Rafal。
  • 自然語言處理前沿論壇在京召開 學者專家共探機器之讀、寫、說、譯
    5月26日,由百度與中國計算機學會中文信息技術專委會、中國中文信息學會青工委聯合舉辦的「2019自然語言處理前沿論壇」正式召開。本屆論壇主題為「機器之『讀、寫、說、譯』—— 探尋NLP未來之路」。
  • CNCC 2019 | 劉群:基於深度學習的自然語言處理,邊界在哪裡?
    近日,在北京語言大學舉辦的第四屆語言與智能高峰論壇上,華為諾亞方舟實驗室語音語義首席科學家劉群教授高屋建瓴,細緻分析了深度學習時代NLP的已知與未知。他從自然語言處理基於規則、統計到深度學習的範式遷移出發,探討了深度學習方法解決了自然語言處理的哪些問題以及尚未解決哪些問題。
  • 聚焦多模態自然語言處理等AI技術,京東智聯雲亮相NLPCC 2020
    近年來,人工智慧 (AI) 在涉及單一模態如語音、自然語言和視覺等領域,取得了重大突破。在單一模態的任務上,如物體識別、語音識別、機器翻譯等,AI 系統在特定數據集上的表現水平與人類相當。隨著單模態人工智慧潛在問題的解決,研究人員意識到更高層次的AI任務往往涉及到跨多種模式的更複雜的信息處理。同時,局限於單一模態的研究往往不能充分利用跨模態信息。
  • 人工智慧難點之——自然語言處理(NLP)
    (人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 自然語言處理 NLP 發展簡史
    但 IBM 旗下的 Fortran 表處理語言卻未能支持符號運算的遞歸、條件表達式、動態存儲分配及隱式回收等功能。於是麥卡錫帶領由 MIT 學生組成的團隊開發了一門全新的表處理語言 LISP,賦予了程式語言更強的數學計算能力。LISP 語言後來也被稱為人工智慧的「母語」,成為早期人工智慧研究人員的程式語言。