AI閱卷「翻車」 其實是「翻」在了自然語言處理

2020-12-27 中國新聞網

  AI閱卷「翻車」 其實是「翻」在了自然語言處理

  本報記者 陳 曦

  開學季,美國一款號稱服務兩萬所學校的AI閱卷系統遭到質疑,學生們只要藉助系統漏洞,輸入相應關鍵詞,即使關鍵詞之間並無關聯,也能輕易獲得高分。

  隨著人工智慧的發展,不少教育App都應用了智能評分系統,評分系統閱卷迅速,及時出分,受到不少師生的歡迎。但同時,也有不少家長吐槽智能評分系統,像英語跟讀App的評分系統,有時候即使擁有英語專業八級水平的人,測試得分也只有80分。

  除了應用於英語口語的智能評分系統,人工智慧還被應用於判卷上。不過這種智能閱卷系統也時有「翻車」現象。據報導,在開學季,一款號稱服務於美國兩萬所學校的AI閱卷系統就受到了質疑,學生們藉助它的漏洞,「裸考」就能輕鬆及格。之所以被學生們鑽了空子,是由於該系統只是通過關鍵詞進行評分,學生們只要輸入相應關鍵詞,即使幾個關鍵詞之間沒有關係,也能順利過關甚至獲得高分。

  閱卷前需先設定評判標準

  「自動測評打分系統一般需要先設定評測的標準,而後根據設定的標準去設計合適的評測算法與模型。」天津大學智能與計算學部教授、博士生導師熊德意介紹,比如像口語測評打分,就需要機器去評判人的發音是否標準,所讀句子的重音是否正確,讀出的語句是否連貫流暢,連讀部分是否準確等。

  AI閱卷系統則涉及到對語言文字的評判,涵蓋很多方面,如語法、語義等,會大量運用到自然語言處理技術。

  「自然語言處理技術是人工智慧的一個重要分支,研究利用計算機對自然語言進行智能化處理,基礎的自然語言處理技術主要圍繞語言的不同層級展開,包括音位(語言的發音模式)、形態(字、字母如何構成單詞、單詞的形態變化)、詞彙(單詞之間的關係)、句法(單詞如何形成句子)、語義(語言表述對應的意思)、語用(不同語境中的語義解釋)、篇章(句子如何組合成段落)7個層級。」熊德意強調,這些基本的自然語言處理技術經常被運用到下遊的多種自然語言處理任務(如機器翻譯、對話、問答、文檔摘要等)中,自動閱卷中的語言文字評測通常涉及這7個層級的若干層。

  設計自動評測指標的方法有多種,通常會根據不同的評判類型去選擇適合的方法。「比如閱卷系統若要進行翻譯題的自動評判,可以讓老師事先寫好多個參考譯文答案,然後把學生的答案和參考答案進行類比,計算它們的相似度作為學生答案好壞的評測指標。」熊德意舉例說,機器翻譯常用的評測指標BLEU,就是基於參考譯文和機器譯文之間的N-grams(N元)匹配度計算相似度的。

  一個單詞是一元,兩個相連的單詞是二元,還有三元、四元,如果答案中有一個單詞與參考答案中的單詞一致,那麼就會給出一個一元評分,類似的可以計算二元、三元、四元的評分。研究人員為不同元設置不同權重,然後把得分統籌起來變成一個客觀值,得分越高就說明兩者之間的相似性越高。

  不同AI評分系統結果相差甚遠

  此次AI閱卷系統「翻車」的導火索是一位美國歷史系教授的兒子在進行歷史考試的時候只得到了50%的分數,而她對兒子的答案進行評測後,覺得孩子的回答基本沒有問題。

  同樣的答案,人工評價和機器評價為何有如此大的出入?

  「這就是基於AI算法的自動評測面臨的最大挑戰:如何與人工評價保持一致。應對這個挑戰需要解決的問題很多。比如如何制定合適的評測標準,主觀題進行自動評測必須要有合適的評測標準和規範;比如如何應對語言的千變萬化,語言的多樣性是自然語言處理技術的主要挑戰之一,語言的自動測評和自動處理都要面對多樣性的挑戰;比如如何設計一個綜合性的評測指標,雖然目前有各種各樣的指標,但是很少有指標綜合考慮語言文字的方方面面,例如作文自動閱卷,可能要考慮用詞是否合理(詞彙)、句子是否流暢(句法)、段落組織是否有條理(篇章)、內容是否扣題(語義、語用)等。」熊德意說,上面提到的BLEU就是只考慮了單詞形式的嚴格匹配,沒有考慮單詞的形態變化、語義相似性、譯文的句法合理性等因素。

  「遵循的評測規則、評判的出發點不同,相應的算法模型都不一樣,因此最後的結果也會相差甚遠。」熊德意說。

  因此僅僅利用一種評測方法顯然是不全面的,這也就解釋了當孩子的母親嘗試在答案裡加入「財富、商隊、中國、印度」等題目中的關鍵詞時,即使這些關鍵詞之間沒有任何串聯,她也得了滿分。「可能這個AI閱卷系統只使用了簡單的關鍵詞匹配,因此會出現『關鍵詞沙拉』也能矇混過關的情況。」熊德意解釋。

  此外,口語的人工測評與機器測評也存在較大出入。「近年來,語音識別性能雖然在深度學習技術的推動下取得了顯著的提升,但是在開放環境、噪音環境下,這種識別率就會下降很多。」熊德意解釋,如果機器「聽」錯了一個單詞,而後機器進行測評,就會形成一個錯誤傳播,也就是上遊系統的錯誤會導致下一系統錯誤,錯上加錯,越錯越離譜,測評結果也會大相逕庭。

  「目前有很多設計評測指標的方法,還有很多改進的方法,如在計算準確率的同時也計算召回率等。另外,還有對評測指標進行評測的,即評測的評測,看看哪個評測指標更完善,更和人的評價一致。」熊德意感嘆,很多時候,自動評測的難度和對應的自然語言處理任務的難度,從技術層面來說是一樣的,比如用機器評價一個譯文的好壞與用機器生成一個譯文的難度類似,用機器評判一個文檔摘要的好壞與用機器生成一個摘要的難度也差不多。

  可結合人工評測讓系統更智能

  「傳統的自動評測指標通常是基於符號進行計算的,現在深度學習等AI技術也越來越多地應用於測評工具中。」熊德意介紹,使用深度學習,可以把語言符號映射到實數稠密向量的語義空間,利用語義向量計算相似度。哪怕說的詞語和計算機原本學習的不一樣,但只要語義是一致的,機器就可以進行精準的評價。因此,基於深度學習的自動評測某種程度上可以應對語言的多樣性挑戰。不過深度學習也有一個問題,就是需要大量的數據讓機器進行學習。

  基於自監督學習的預訓練語言模型,近幾年,在語言表示學習中,取得了突破性的進展。「OpenAI的預訓練語言模型GPT-3,在5000億單詞的海量語料上訓練了一個帶有1750億個參數的神經網絡,通過大量學習網絡上各種語言的文本,GPT-3形成了強大的語言表示能力,可以進行多種任務,比如自動翻譯、故事生成、常識推理、問答等,甚至可以進行加減法運算,比如其兩位數加減法正確率達到100%,五位數加減法正確率接近10%。」熊德意介紹,不過,這麼龐大的神經網絡,如果用單精度浮點數存儲,需要700G的存儲空間,另外模型訓練一次就花費了460萬美元。因此,即使GPT-3具有較好的零樣本、小樣本學習能力,其高昂的成本使其離普遍可用還有很遠的距離。

  但是AI作為閱卷評測「老師」,其又有人工不可比擬的優勢。比如AI自動批閱卷系統相比人工批閱速度更快,老師不可能一次記住所有的多項選擇題答案,需要不斷檢查標準答案,這是很費時的,自動批閱系統幫助老師大大提高了效率;另外,自動批閱系統更加理性,不受外界條件幹擾,不會因疲勞等原因導致誤判。即使在複雜的幹擾環境中,仍然可以得到正確的結果;AI閱卷系統還可以在評分後直接做好學情分析,統計出考試數據、錯題數據等教學材料,幫助老師減負增效,幫助學生提高學習效率。

  「將主觀題合理地客觀化,可以降低自動閱卷的難度。」熊德意表示,對無法客觀化的主觀題,雖然設定全面的評測標準比較難,但是設定某一方面的評測標準還是可行的,比如針對單詞詞法、句子語法的評判,目前準確率還是挺高的,這類技術可以從實驗室走向產品應用。

  也可以引入人工評測,對AI閱卷系統打分進行覆核與修正,通過這種反覆的修正,累積大量的評測訓練數據,讓機器評分變得更加智能。

  「利用自然語言處理等人工智慧技術,進一步完善主觀智能評分系統,將是未來教育領域的一個非常重要的課題。」熊德意說,以後的AI自動批閱系統肯定會越來越「聰明」,人工智慧與教育的結合也會越來越緊密。

相關焦點

  • 人工智慧閱卷「翻車」 其實是「翻」在了自然語言處理
    AI閱卷系統則涉及到對語言文字的評判,涵蓋很多方面,如語法、語義等,會大量運用到自然語言處理技術。「自然語言處理技術是人工智慧的一個重要分支,研究利用計算機對自然語言進行智能化處理,基礎的自然語言處理技術主要圍繞語言的不同層級展開,包括音位(語言的發音模式)、形態(字、字母如何構成單詞、單詞的形態變化)、詞彙(單詞之間的關係)、句法(單詞如何形成句子)、語義(語言表述對應的意思)、語用(不同語境中的語義解釋)、篇章(句子如何組合成段落)7個層級。」
  • 對比人工翻譯及自然語言處理翻譯,ai翻譯存在哪些優勢?
    舉個簡單的例子,微博上一般都是這樣子對話的:這種對話很好「產生」,因為人的語言翻譯一般很難做出來,從整體上描述了人對話過程,這樣就完成了對話的設計和「模仿」。當然,單這麼說也不嚴謹,可能有的翻譯有點細節交流上的錯誤。另外,比如歌詞有時也可以通過一些對比的對話(bingquery)自動生成,原因在於歌詞是「不可編碼」的。這麼理解,也就沒問題了。
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 翻車了!2萬所美國院校都在用的AI閱卷系統,只要複製原文「關鍵詞...
    原因是有家長爆料,該公司旗下的AI閱卷系統存在重大漏洞,學生只要在答題區寫上零散的「關鍵詞」就能輕鬆拿高分。在事後採訪中,一位匿名學生稱,如果不是閱卷系統的的漏洞,我不會通過代數2考試,我只是把與問題相關的關鍵詞填了上去,我相信老師們已經發現,但他們沒有做任何處理。
  • 中科大 × MSRA 系列講座|周明:自然語言處理讓生活更美好
    中國科學技術大學《科學與社會》研討課微軟亞洲研究院系列講座第一期視頻在 AI 研習社可以觀看啦~觀看地址:http://www.mooc.ai/course/775?from=leiphonecolumn_mooc0320微軟亞洲研究院副院長周明博士將以《溝通無界——自然語言處理讓生活更美好》為主題,介紹自然語言處理(NLP)尤其是神經網絡 NLP 的進展,展示其在問答系統、機器翻譯、閱讀理解和計算機創作等領域的新突破。
  • AI皇冠上的明珠:人工智慧自然語言處理技術
    在人工智慧出現之前,機器能夠自動處理少量結構化的數據。隨著網絡的普及,人類進入了信息爆炸的時代,機器需要處理的數據越來越多、類型越來越豐富。而網絡中大量存在的文本、圖片、視頻往往都屬於非結構化數據。在這之中,文本的數量又是非常多的,且其中大部分都屬於上文提到的自然語言。
  • AI皇冠上的明珠:人工智慧自然語言處理技術
    在人工智慧出現之前,機器能夠自動處理少量結構化的數據。隨著網絡的普及,人類進入了信息爆炸的時代,機器需要處理的數據越來越多、類型越來越豐富。而網絡中大量存在的文本、圖片、視頻往往都屬於非結構化數據。在這之中,文本的數量又是非常多的,且其中大部分都屬於上文提到的自然語言。
  • 12個國內外頭部案例,解讀自然語言處理平臺商業化趨勢
    原創 機器之心產業研究 機器之能自然語言處理技術是人工智慧技術的重要分支,隨著自然語言處理技術本身的日趨成熟,一套相對完善的產業鏈也隨之建立,從而催生了一批針對於自然語言處理技術的商業化產品,自然語言處理平臺就是這樣的商業化產品。
  • 自然語言處理的應用前景
    自然語言處理(NLP)的定義 自然語言處理(NLP)是人工智慧技術的一個分支,它使計算機能夠像人們一樣理解、處理和生成語言,並且在商業中的應用正在迅速增長。 雖然自然語言處理(NLP)這一術語最初指的是人工智慧系統的閱讀能力,但它後來成為所有計算語言學的一種通俗說法。
  • 自然語言處理NLP大有可為
    過去認知智能主要集中在語言智能這部分,即自然語言處理,它只能簡單理解句子、篇章。正如其他人工智慧學科,自然語言處理也要有很多支撐技術、數據,包括用戶畫像,以提供個性化的服務,包括用來做訓練之用的大數據通過可解釋的學習洞察人工智慧機理,這是目前包括自然語言處理在內的多數人工智慧領域都面臨的一個問題;通過知識與深度學習的結合提升效率,當然這與缺乏基礎的專業知識或生活常識有關;通過遷移學習實現領域的自適應,即跨語言在相同的專業知識領域繼續發揮對話作用;當然還有通過強化學習進行自我演化
  • ...復旦大學邱錫鵬老師】面向自然語言處理的深度學習基礎,199頁...
    《面向自然語言處理的深度學習基礎》講座,總共199頁ppt,講述自然語言處理的理論與實踐,是非常好的學習資料。
  • 文檔「大數據」 漢王科技攻堅AI難點-自然語言處理
    作為一家佇立中關村近20年的IT企業,漢王科技正在不斷尋找新的技術市場,以期商業上的創新突破,而文檔大數據業務讓漢王在人工智慧的道路上長驅直入該領域的深度難點-自然語言處理技術的開發。從某種程度來說,這有可能是漢王進行商業突破的重要題材。
  • 國內自然語言處理(NLP)研究組
    /natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界nlp.baidu.com阿里巴巴達摩院語言技術實驗室
  • 自然語言處理及相關的機器學習技術
    隨著最近這幾年人工智慧的快速發展,自然語言處理技術的應用已經比較普及。但是自然語言處理的學習路徑依然沒有一個系統的認識。自然語言處理介紹——什麼是自然語言處理?自然語言處理是一門與語言學、計算機科學、數學、心理學、資訊理論、聲學相聯繫的交叉性學科,是計算機通過可計算的方法對自然語言(所謂「自然」乃是寓意自然進化形成,是為了區分一些人造語言,類似C++、Java 等人為設計的語言)的各級語言單位進行轉換、傳輸、存儲、分析等加工處理的科學。
  • Google TAPAS 用自然語言查詢表格數據
    > Source: https://8kmiles.com/blog/natural-language-interface-databases/使用自然語言查詢關係數據結構一直是該領域技術人員的夢想
  • 理解神奇的BERT:自然語言處理的遊戲規則改變者?
    圖源Unsplash 自然語言處理領域中最具突破性的發展是BERT的發布(曾被認為是自然語言處理領域的ImageNet)。與傳統的自然語言處理模式相比,BERT層次最高,是具有革命性意義的自然語言處理模式。
  • 自然語言處理的經驗主義和理性主義
    隨著移動網際網路時代的到來,自然語言處理在電子商務等領域的應用也日益成熟,產品推薦、客服機器人等應用場景已成為日常生活習以為常又不可缺少的一部分。面對基於數據統計和機器學習算法的自然語言處理取得的這些令人鼓舞的輝煌成績,有些學者的頭腦開始發熱起來,他們輕視自然語言處理中基於規則的方法,甚至貶低那些從事研究基於規則的自然語言處理的學者。
  • 單模型完成6項自然語言處理任務
    語言技術平臺(Language Technology Platform, LTP)是哈工大社會計算與信息檢索研究中心(HIT-SCIR)歷時多年研發的一整套高效、高精度的中文自然語言處理開源基礎技術平臺。
  • 利用人工智慧和大數據來閱卷還有多遠
    而據閱卷組負責老師介紹,這只是高考閱卷的正常速度。   這些其實是走過高考的過來人都懂的一些給分潛規則。後來筆者將閱卷的「門門道道」告訴了一位門戶的編輯同學,這位同學在感概當年自己就如此被「草菅人命」的同時,說了這樣一句腦洞大開的一句話:主觀題閱卷其實也可以將人工智慧和大數據分析運用其中埃   這句話對筆者來說頗有啟發。
  • 人工智慧之自然語言處理初探
    編輯導讀:自然語言處理是人工智慧的一個細分領域,是一個龐大的系統的工程。本文將從自然語言處理的簡介、句法分析、發展現狀、話語分割、知識體系、指代消解六個方面展開分析,希望對你有幫助。最近在梳理人工智慧的一個細分領域自然語言處理相關知識點。