人工智慧閱卷「翻車」 其實是「翻」在了自然語言處理

2020-12-15 西部網

開學季,美國一款號稱服務兩萬所學校的AI閱卷系統遭到質疑,學生們只要藉助系統漏洞,輸入相應關鍵詞,即使關鍵詞之間並無關聯,也能輕易獲得高分。

隨著人工智慧的發展,不少教育App都應用了智能評分系統,評分系統閱卷迅速,及時出分,受到不少師生的歡迎。但同時,也有不少家長吐槽智能評分系統,像英語跟讀App的評分系統,有時候即使擁有英語專業八級水平的人,測試得分也只有80分。

除了應用於英語口語的智能評分系統,人工智慧還被應用於判卷上。不過這種智能閱卷系統也時有「翻車」現象。據報導,在開學季,一款號稱服務於美國兩萬所學校的AI閱卷系統就受到了質疑,學生們藉助它的漏洞,「裸考」就能輕鬆及格。之所以被學生們鑽了空子,是由於該系統只是通過關鍵詞進行評分,學生們只要輸入相應關鍵詞,即使幾個關鍵詞之間沒有關係,也能順利過關甚至獲得高分。

閱卷前需先設定評判標準

「自動測評打分系統一般需要先設定評測的標準,而後根據設定的標準去設計合適的評測算法與模型。」天津大學智能與計算學部教授、博士生導師熊德意介紹,比如像口語測評打分,就需要機器去評判人的發音是否標準,所讀句子的重音是否正確,讀出的語句是否連貫流暢,連讀部分是否準確等。

AI閱卷系統則涉及到對語言文字的評判,涵蓋很多方面,如語法、語義等,會大量運用到自然語言處理技術。

「自然語言處理技術是人工智慧的一個重要分支,研究利用計算機對自然語言進行智能化處理,基礎的自然語言處理技術主要圍繞語言的不同層級展開,包括音位(語言的發音模式)、形態(字、字母如何構成單詞、單詞的形態變化)、詞彙(單詞之間的關係)、句法(單詞如何形成句子)、語義(語言表述對應的意思)、語用(不同語境中的語義解釋)、篇章(句子如何組合成段落)7個層級。」熊德意強調,這些基本的自然語言處理技術經常被運用到下遊的多種自然語言處理任務(如機器翻譯、對話、問答、文檔摘要等)中,自動閱卷中的語言文字評測通常涉及這7個層級的若干層。

設計自動評測指標的方法有多種,通常會根據不同的評判類型去選擇適合的方法。「比如閱卷系統若要進行翻譯題的自動評判,可以讓老師事先寫好多個參考譯文答案,然後把學生的答案和參考答案進行類比,計算它們的相似度作為學生答案好壞的評測指標。」熊德意舉例說,機器翻譯常用的評測指標BLEU,就是基於參考譯文和機器譯文之間的N-grams(N元)匹配度計算相似度的。

一個單詞是一元,兩個相連的單詞是二元,還有三元、四元,如果答案中有一個單詞與參考答案中的單詞一致,那麼就會給出一個一元評分,類似的可以計算二元、三元、四元的評分。研究人員為不同元設置不同權重,然後把得分統籌起來變成一個客觀值,得分越高就說明兩者之間的相似性越高。

不同AI評分系統結果相差甚遠

此次AI閱卷系統「翻車」的導火索是一位美國歷史系教授的兒子在進行歷史考試的時候只得到了50%的分數,而她對兒子的答案進行評測後,覺得孩子的回答基本沒有問題。

同樣的答案,人工評價和機器評價為何有如此大的出入?

「這就是基於AI算法的自動評測面臨的最大挑戰:如何與人工評價保持一致。應對這個挑戰需要解決的問題很多。比如如何制定合適的評測標準,主觀題進行自動評測必須要有合適的評測標準和規範;比如如何應對語言的千變萬化,語言的多樣性是自然語言處理技術的主要挑戰之一,語言的自動測評和自動處理都要面對多樣性的挑戰;比如如何設計一個綜合性的評測指標,雖然目前有各種各樣的指標,但是很少有指標綜合考慮語言文字的方方面面,例如作文自動閱卷,可能要考慮用詞是否合理(詞彙)、句子是否流暢(句法)、段落組織是否有條理(篇章)、內容是否扣題(語義、語用)等。」熊德意說,上面提到的BLEU就是只考慮了單詞形式的嚴格匹配,沒有考慮單詞的形態變化、語義相似性、譯文的句法合理性等因素。

「遵循的評測規則、評判的出發點不同,相應的算法模型都不一樣,因此最後的結果也會相差甚遠。」熊德意說。

因此僅僅利用一種評測方法顯然是不全面的,這也就解釋了當孩子的母親嘗試在答案裡加入「財富、商隊、中國、印度」等題目中的關鍵詞時,即使這些關鍵詞之間沒有任何串聯,她也得了滿分。「可能這個AI閱卷系統只使用了簡單的關鍵詞匹配,因此會出現『關鍵詞沙拉』也能矇混過關的情況。」熊德意解釋。

此外,口語的人工測評與機器測評也存在較大出入。「近年來,語音識別性能雖然在深度學習技術的推動下取得了顯著的提升,但是在開放環境、噪音環境下,這種識別率就會下降很多。」熊德意解釋,如果機器「聽」錯了一個單詞,而後機器進行測評,就會形成一個錯誤傳播,也就是上遊系統的錯誤會導致下一系統錯誤,錯上加錯,越錯越離譜,測評結果也會大相逕庭。

「目前有很多設計評測指標的方法,還有很多改進的方法,如在計算準確率的同時也計算召回率等。另外,還有對評測指標進行評測的,即評測的評測,看看哪個評測指標更完善,更和人的評價一致。」熊德意感嘆,很多時候,自動評測的難度和對應的自然語言處理任務的難度,從技術層面來說是一樣的,比如用機器評價一個譯文的好壞與用機器生成一個譯文的難度類似,用機器評判一個文檔摘要的好壞與用機器生成一個摘要的難度也差不多。

可結合人工評測讓系統更智能

「傳統的自動評測指標通常是基於符號進行計算的,現在深度學習等AI技術也越來越多地應用於測評工具中。」熊德意介紹,使用深度學習,可以把語言符號映射到實數稠密向量的語義空間,利用語義向量計算相似度。哪怕說的詞語和計算機原本學習的不一樣,但只要語義是一致的,機器就可以進行精準的評價。因此,基於深度學習的自動評測某種程度上可以應對語言的多樣性挑戰。不過深度學習也有一個問題,就是需要大量的數據讓機器進行學習。

基於自監督學習的預訓練語言模型,近幾年,在語言表示學習中,取得了突破性的進展。「OpenAI的預訓練語言模型GPT-3,在5000億單詞的海量語料上訓練了一個帶有1750億個參數的神經網絡,通過大量學習網絡上各種語言的文本,GPT-3形成了強大的語言表示能力,可以進行多種任務,比如自動翻譯、故事生成、常識推理、問答等,甚至可以進行加減法運算,比如其兩位數加減法正確率達到100%,五位數加減法正確率接近10%。」熊德意介紹,不過,這麼龐大的神經網絡,如果用單精度浮點數存儲,需要700G的存儲空間,另外模型訓練一次就花費了460萬美元。因此,即使GPT-3具有較好的零樣本、小樣本學習能力,其高昂的成本使其離普遍可用還有很遠的距離。

但是AI作為閱卷評測「老師」,其又有人工不可比擬的優勢。比如AI自動批閱卷系統相比人工批閱速度更快,老師不可能一次記住所有的多項選擇題答案,需要不斷檢查標準答案,這是很費時的,自動批閱系統幫助老師大大提高了效率;另外,自動批閱系統更加理性,不受外界條件幹擾,不會因疲勞等原因導致誤判。即使在複雜的幹擾環境中,仍然可以得到正確的結果;AI閱卷系統還可以在評分後直接做好學情分析,統計出考試數據、錯題數據等教學材料,幫助老師減負增效,幫助學生提高學習效率。

「將主觀題合理地客觀化,可以降低自動閱卷的難度。」熊德意表示,對無法客觀化的主觀題,雖然設定全面的評測標準比較難,但是設定某一方面的評測標準還是可行的,比如針對單詞詞法、句子語法的評判,目前準確率還是挺高的,這類技術可以從實驗室走向產品應用。

也可以引入人工評測,對AI閱卷系統打分進行覆核與修正,通過這種反覆的修正,累積大量的評測訓練數據,讓機器評分變得更加智能。

「利用自然語言處理等人工智慧技術,進一步完善主觀智能評分系統,將是未來教育領域的一個非常重要的課題。」熊德意說,以後的AI自動批閱系統肯定會越來越「聰明」,人工智慧與教育的結合也會越來越緊密。

(原標題 AI閱卷「翻車」 其實是「翻」在了自然語言處理)

編輯:秦秦

相關焦點

  • AI閱卷「翻車」 不同AI評分系統結果相差甚遠
    除了應用於英語口語的智能評分系統,人工智慧還被應用於判卷上。不過這種智能閱卷系統也時有「翻車」現象。據報導,在開學季,一款號稱服務於美國兩萬所學校的AI閱卷系統就受到了質疑,學生們藉助它的漏洞,「裸考」就能輕鬆及格。之所以被學生們鑽了空子,是由於該系統只是通過關鍵詞進行評分,學生們只要輸入相應關鍵詞,即使幾個關鍵詞之間沒有關係,也能順利過關甚至獲得高分。
  • 人工智慧之自然語言處理初探
    編輯導讀:自然語言處理是人工智慧的一個細分領域,是一個龐大的系統的工程。本文將從自然語言處理的簡介、句法分析、發展現狀、話語分割、知識體系、指代消解六個方面展開分析,希望對你有幫助。最近在梳理人工智慧的一個細分領域自然語言處理相關知識點。隨著查閱的資料越來越多,在梳理的過程中,也越來越發現自己的無知。
  • 自然語言處理——人工智慧戰略的重要方向
    人工智慧作為新一輪科技革命和產業變革的重要驅動力量,正在深刻改變世界。而自然語言處理(Natural Language Processing,簡稱NLP)已成為計算機科學領域與人工智慧領域中的一個重要方向,它推動著智能時代的持續發展和突破,並越來越多地應用於各個行業。
  • 人工智慧難點之——自然語言處理(NLP)
    (NLP)是人工智慧和語言學領域的分支學科。(人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 人工智慧自然語言處理技術拉動產業升級引擎
    作為未來科技發展的前沿領域,人工智慧在技術應用方面有很多細分領域,比如深度學習、推薦引擎、計算機視覺、智慧機器人、自然語言處理、實時語音翻譯、視覺內容自動識別等。其中的自然語言處理,是人工智慧領域中的一個重要方向。
  • 自然語言處理,人工智慧研究及應用的重要領域
    前者稱為自然語言理解,後者稱為自然語言生成。因此,自然語言處理大體包括了自然語言理解和自然語言生成兩個部分。歷史上對自然語言理解研究得較多,而對自然語言生成研究得較少,但這種狀況已有所改變。要實現自然語言理解和自然語言生成是十分困難的,造成困難的根本原因是自然語言文本和對話的各個層次上,廣泛存在的各種各樣的歧義性或多義性(ambiguity)。
  • AI皇冠上的明珠:人工智慧自然語言處理技術
    NLP,即自然語言處理,就=相當於存在於機器語言和人類語言之間的翻譯,通過搭建溝通的橋梁,能夠高效實現人機交流的目的。自然語言理解的目標是理解人類的表達,包括語音表達和文本表達,側重於理解目標的實現,包括語法分析、文本閱讀;NLG則側重於如何生成自然語言的表達,包括翻譯系統、信息簡化、問答對話等。兩者相輔相成,大部分情況下,兩者會同時出現,來構築某一系統。
  • 利用人工智慧和大數據來閱卷還有多遠
    目前大家對於人工智慧和大數據的理解也僅僅停留在和人工智慧機器人聊天、利用語音助手做日程安排、今日頭條的算法推薦等一直被企業所強化傳播的案例上。   在教育領域,人工智慧和大數據分析的通俗新聞也非常的少。但這幾天,筆者的親身經歷不禁讓自己腦洞大開:人工智慧和大數據分析如果利用在主觀題智能閱卷上,將是一種怎樣的存在?
  • 人工智慧實踐應用——自然語言處理入門介紹
    自然語言處理(NLP)是計算機科學,人工智慧,語言學關注計算機和人類(自然)語言之間的相互作用的領域。因此,自然語言處理是與人機互動的領域有關的。在自然語言處理面臨很多挑戰,包括自然語言理解,因此,自然語言處理涉及人機互動的面積。
  • 人工智慧領域專家學者論道自然語言處理技術
    通訊員 林子瀅 洪惠婷攝 東南網11月28日訊(本網記者 張立慶)人工智慧的本質是讓機器像人一樣感知世界、認知世界。以語言和知識為研究對象的自然語言處理(NLP)技術是人工智慧的核心問題之一。為促進產學研深度融合,推動自然語言處理技術進步,11月28日,中國計算機學會福州青年計算機科技論壇在福州軟體園舉行,論壇通過線上直播、線下會議方式舉行。
  • 人工智慧自然語言處理技術哪家靠譜?珍島有話說
    作為未來科技發展的尖端領域,人工智慧在技術應用方面有很多細分領域,比如深度學習、計算機視覺、智慧機器人、自然語言處理、實時語音翻譯、視覺內容自動識別、推薦引擎等。而其中的自然語言處理,是人工智慧領域中的一個重要方向,它推動著語言智能的持續發展和突破,並越來越多地應用於各個行業。
  • 讓產品更了解世界,自然語言處理掀開人工智慧新篇章
    人工智慧的不斷衍生和進化衝刷了我們對這個世界的原生認知,人類社會也在人工智慧的快速發展下迎來了智能新時代。作為未來科技發展的尖端領域,人工智慧在技術應用方面有很多細分領域,比如深度學習、計算機視覺、智慧機器人、自然語言處理、實時語音翻譯、視覺內容自動識別、推薦引擎等。
  • 走進人工智慧NLP自然語言處理的世界,NLU與NLG又是什麼
    但是網絡中大部分的數據都是非結構化的,例如:文章、圖片、音頻、視頻…為了能夠分析和利用這些文本信息,我們就需要利用 NLP 技術,讓機器理解這些文本信息,並加以利用,然後能夠給人類帶來更多的方便快捷那麼,什麼是NLP自然處理人類有人類的溝通語言,比如漢語,英語,或者手語等等,這些都是人與人溝通的語言,動物有動物之間的溝通語言,當然,植物也有植物之間的溝通信息的語言
  • 投資人工智慧:自然語言處理得到回報
    【網易智能訊10月4日消息】在過去的18個月裡,Arthur Coleman在Acxiom Research的團隊已經深入地研究了一種叫做自然語言處理(NLP)的人工智慧。其中最激動人心的NLP項目叫做ABBY——她是Acxiom Research的第一個人工智慧員工。
  • 獨家| 人工智慧學習篇7:自然語言處理開源框架
    01 概述自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智慧領域中的重要方向,研究實現人與計算機之間用自然語言進行有效交互的各種理論和方法。20世紀60年代,自然語言處理早期研究以機器翻譯為主,但由於理論和技術均不成熟,進展不大,且大多數自然語言處理系統都是基於複雜人工規則實現。從80年代末開始,自然語言處理引入了機器學習算法並嘗試從語料中學習統計特徵。自然語言具有稀疏性和語義性等特點,如何對字、詞、短語、句、段、篇章等結構進行有效表示,是研究自然語言處理需解決的首要問題。
  • 人工智慧領域的關鍵核心技術:自然語言處理
    人工智慧(Artificial Intelligence,簡稱AI)作為新一輪科技革命和產業變革的重要驅動力量,正在深刻改變世界。而自然語言處理(Natural Language Processing,簡稱NLP)是AI領域的關鍵核心技術,它推動著語言智能的持續發展和突破,並越來越多地應用於各個行業。
  • 從限定詞開始 - 詞性識別在人工智慧自然語言處理中的不足與改進
    詞性識別在人工智慧的自然語言處理領域具有極其重要的意義,可以說是更深層次分析和處理的主要基礎。* 自然語言處理:指的是在計算機和人工智慧領域中,利用電腦或人工智慧神經網絡來對人類語言進行理解、分析和其他進一步處理的一門科學。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    並著重介紹了大數據和自然語言處理的發展,對自然語言處理在大數據中扮演的角色作了探討。「人工智慧」包含兩個關鍵點:自動化智能人工智慧的目標推理自動學習&調度機器學習自然語言處理計算機視覺機器人通用智能人工智慧三大階段階段 1——機器學習:智能系統使用一系列算法從經驗中進行學習。階段 2——機器智能:機器使用的一系列從經驗中進行學習的高級算法,例如深度神經網絡。
  • 自然語言處理的發展簡史
    人工智慧作為新一輪科技革命和產業變革的重要驅動力量,正在深刻改變世界。而自然語言處理既是人工智慧的核心技術,又是計算機科學和語言科學的分支學科;它推動著語言智能的持續發展和突破,並越來越多地應用於各個行業。 人工智慧作為新一輪科技革命和產業變革的重要驅動力量,正在深刻改變世界。
  • 多變的動詞 - 詞性識別在人工智慧自然語言處理中的不足與改進
    動詞是句子的核心因此,在人工智慧的自然語言處理領域,對於動詞的處理也是重中之重。如果對一句話的動詞分析不準確,往往會導致計算機對整個句子的分析出現偏差。這是非常簡單的一個現在進行時的句子,我們先來看看著名的史丹福大學開放的自然語言處理系統分析的結果: