上期推送了一則新聞《高考語文、英語作文閱卷新形式來了,今年已有9省試行》。其實大多數家長的感受是,「畢竟只是小範圍試行中,離我們還遠著呢」。大家再想想早幾年,電子支付曾經被認為只是科幻電影裡的場景,從荒蕪到繁茂也不過一年半載。
作文機器閱卷不可阻擋地正在一步步逼近我們了,我們要早一點看到、理解它,就像懷滿欣喜地迎接未來一樣,迎接它的到來。
作文人工閱卷的局限
在高考評分中,作文往往是最耗費工作量,也最具爭議的一項。近年來,高考作文評分體系屢遭質疑,其中人工作文閱卷,最受詬病的是情緒化和疲勞度。
情緒化閱作文卷,帶來的是面對同樣一篇作文,分數的穩定性同一性太小。而閱卷的疲勞幾乎是難以逾越的難關,因為每年夏季的中考、高考,都是在時間緊任務重勞動強度大的狀態下進行的。
中高考中,作文的平均閱卷時間只有30秒左右。有些省份為了防止評卷老師閱卷過快,設置了每篇作文出卷的時間間隔。但實際上真正閱讀文章的時間仍是幾十秒,也就是說,不到一分鐘你的600-800字的作文就被老師打上了。
一般來說,60分的作文,凡是兩次獨立評卷的差異達到6分(即誤差大於10%)及以上的,必須進行三評。請注意,這6分誤差是大範圍存在的。且不說6分了,就1分在高考中也會左右一位學子的命運。
在如此短時間,高強度,低準度下的人工閱卷評分的局限性突顯,難免引起不少專家關注。
作文評價體系及維度
自20世紀60年代以來,國外許多專家和學者就致力於主觀題的機器閱卷技術研究,也出現了各種不同的自動批改系統。比如美國的MBA、託福考試中就應用了 E-rater系統等。
但是,不管是E-rater還是國內的一些研究,大部分針對的都是第二語言作文,即非母語作文。非母語作文的特點是,學生的錯誤大多是一些基礎性的拼寫、語法方面的初級錯誤,這些錯誤是比較容易確立一個規則並讓機器執行和批閱。
要想機器閱卷技術真正普及並為閱卷工作帶來便利,無法迴避的一個難關就是:批閱學生用母語寫的作文。
與第二語言作文不同,中學生母語作文中基本很少犯語言基礎性錯誤,需要在更高層次,比如作文的文採、篇章的銜接、作文立意等方面做出評判。高考新課標卷作文等級評分標準如下:
那麼面對這些主觀性很強的作文,我們應該從哪些維度去評判,又如何去量化這些維度呢?
作文機器閱卷的機理
一是,機器學習評卷標準,然後按標準批閱。
在中高考閱卷中,全國的老師都是以一套統一的、嚴格的標準為基準來對試卷進行評分,同理,機器批閱作文,最重要的也是讓機器學到這套標準,設置不同層級的作文評分欄目後,按標準批閱。
教師們設置了一套通用的從字跡工整度、詞彙豐富性、句子通順度、文採、篇章結構、立意等多個層次綜合評估一篇作文質量的解決方案。這每一項標準背後都需要複雜、精密的技術來支持。比如要判斷字跡工整度,則需要用到手寫識別技術,給出識別概率,來表示工整度。判斷一篇作文是否離題,首先需要根據題目內容提取關鍵詞,並根據主題進行擴展,同時提取作文的關鍵詞,計算作文的關鍵詞和題目關鍵詞的相似度。
另外,也可以在本次考試的大規模數據上訓練主題模型,得到全局的主題分布,然後和待考察作文的主題分布對比。詞彙豐富性和立意屬於內容相關的特徵;字跡工整度、局部連貫性、句法正確性和篇章結構屬於表達相關的特徵;文採屬於發展等級特徵。
二是,機器可以自動學習教師的閱卷方法。
作文評分標準中,發展部分最為主觀,不易量化指標,機器評定設計較難。
我們知道在圍棋比賽中,阿爾法狗打敗世界冠軍不是背誦記憶進了若干的棋譜,而是深度學習了天量的世界冠軍的下棋案例。因此,機器還可以根據阿爾法狗機器人的思維方式,來模似作文評分,即除了評分標準,根據高考作文閱卷實際進行深度學習的算法進行的作文評分。
比如一次考試有2000份卷子,從第一份卷子開始,機器就可以學習教師的閱卷方法,學到200份的時候機器就可以代替人工,自動對剩下的試卷進行智能化打分。
理解了這兩大閱卷機理,不難看出,機器閱卷分數將更客觀、更精準、更有價值。
與此同時,「閱卷」這件需要教師們投入大量人力物力才能完成的事將變得輕鬆,教師們將會有更多的時間和精力被解放出來,投入到對教學方法、教學手段等創造性工作的研究中,相信學生們也會因此獲得更好、更全面的教育。
感謝您的閱讀!
下次,我們接著再聊!
本文主要內容來自@科大訊飛
綜合整理@左思
□如果你喜歡文章,點個在看、轉發和收藏一下啦!
□歡迎關注公眾號「左右談」,和孩子一起快樂成長!