閱卷是老師教學工作中,非常重要的一環,同時也十分耗時耗力。隨著科技的發展,機器可以協助我們進行數據計算、體力勞動等工作。
那麼,「閱卷」是不是也可以由機器代勞呢?
答案是肯定的。
目前,科大訊飛機器智能閱卷技術已經在安慶、合肥等地成功試點應用。經過對人機評分結果的分析,計算機在評分一致率、平均分差、相關度以及與仲裁分更接近的比例等指標方面都已達到或超過人工評分水平。這意味著,讓機器評閱主觀題已不再是空想。其中最讓人眼前一亮的,是哈工大訊飛聯合實驗室研發的語文作文評分技術。
批閱主觀題的可能性
我們知道,幾乎所有的考卷都包含兩個部分,客觀題、主觀題。在有了答題卡,掃描儀後,客觀題可以全部由機器批閱,閱卷速度大大提升,且更加準確。
可是面對主觀題,機器也能替代人腦來思考嗎?
答案是肯定的。自20世紀60年代以來,國外許多專家和學者就致力於主觀題的機器閱卷技術研究,也出現了各種不同的自動批改系統。比如美國的MBA、託福考試中就應用了E-rater系統等。
但是,不管是E-rater還是國內的一些研究,大部分針對的都是第二語言作文,即非母語作文。非母語作文的特點是,學生的錯誤大多是一些基礎性的拼寫、語法方面的初級錯誤,這些錯誤是比較容易確立一個規則並讓機器執行和批閱。
要想機器閱卷技術真正普及並為閱卷工作帶來便利,無法迴避的一個難關就是:批閱學生用母語寫的作文。
與第二語言作文不同,中學生母語作文中基本很少犯語言基礎性錯誤,需要在更高層次,比如作文的文採、篇章的銜接、作文立意等方面做出評判。
那麼面對這些主觀性很強的文本,我們應該從哪些維度去評判,又如何去量化這些維度呢?
機器憑什麼給我們打分?
要回答這個問題其實也不難,我們可以先想想:老師是怎麼為我們的中高考作文進行評分的呢?
首先,他們有一套嚴格的標準。
中高考閱卷中,全國的老師都是以一套統一的、嚴格的標準為基準來進行評分的。同理,想讓機器批閱作文,最重要的也是讓機器學到這套標準,然後按標準批閱。
以本次應用在語文試卷批閱中的訊飛作文評分系統為例。教師們設置了一套通用的從字跡工整度、詞彙豐富性、句子通順度、文採、篇章結構、立意等多個層次綜合評估一篇作文質量的解決方案。哈工大訊飛聯合實驗室的研究人員則讓機器來學習這套方案,利用機器學習算法從少量人工評分的樣本中學習獲得作文評分標準。
這每一項標準背後都需要複雜、精密的技術來支持。比如要判斷字跡工整度,則需要用到手寫識別技術,我們可以在自動將圖片中手寫體字轉寫為文本的同時,給出識別概率,來表示工整度。
再比如,判斷一篇作文是否離題,首先需要根據題目內容提取關鍵詞,並根據主題進行擴展,同時提取作文的關鍵詞,計算作文的關鍵詞和題目的關鍵詞的相似度。
另外,也可以在本次考試的大規模數據上訓練主題模型,得到全局的主題分布,然後和待考察作文的主題分布對比。詞彙豐富性和立意屬於內容相關的特徵;字跡工整度、局部連貫性、句法正確性和篇章結構屬於表達相關的特徵;文採屬於發展等級特徵。
除了上述特徵外,我們還利用人工神經網絡對作文的語義進行深度表示,從而得以從宏觀上把握文章的立意。
通過從這一系列複雜、精密的技術支持,「機器老師」便能夠為學生評分了。
機器閱卷技術的未來
未來,隨著人工智慧技術的發展,除了開放式作文、甚至政史地問答題等試題的批閱中,機器都可以自動閱卷。機器可以自動學習教師的閱卷方法。比如一次考試有2000份卷子,從第一份卷子開始,機器就可以學習教師的閱卷方法,學到200份的時候機器就可以代替人工,自動對剩下的試卷進行智能化打分。
如果全自動機器閱卷變成現實,「閱卷」這件需要教師們投入大量人力物力才能完成的事將變得輕鬆,教師們將會有更多的時間和精力被解放出來,投入到對教學方法、教學手段等創造性工作的研究中,相信學生們也會因此獲得更好、更全面的教育。
這樣的未來,你期待嗎?
哈工大訊飛聯合實驗室背景介紹
哈工大訊飛聯合實驗室成立於2014年9月,實驗室主任由哈工大劉挺教授擔任,副主任由科大訊飛胡國平博士擔任。
哈工大訊飛聯合實驗室是「訊飛超腦」計劃中的核心研發團隊之一,致力於在語言認知計算領域長期、深入的技術創新,目前重點研究的前瞻課題包括類人答題、作文評閱、語音轉寫等,作文自動評分是聯合實驗室在過去一年中最重要的研發成果。