淺談「作文機器閱卷」的源由及機理。

2021-02-08 騰訊網

上期推送了一則新聞《高考語文、英語作文閱卷新形式來了,今年已有9省試行》。其實大多數家長的感受是,「畢竟只是小範圍試行中,離我們還遠著呢」。大家再想想早幾年,電子支付曾經被認為只是科幻電影裡的場景,從荒蕪到繁茂也不過一年半載。

作文機器閱卷不可阻擋地正在一步步逼近我們了,我們要早一點看到、理解它,就像懷滿欣喜地迎接未來一樣,迎接它的到來。

作文人工閱卷的局限

在高考評分中,作文往往是最耗費工作量,也最具爭議的一項。近年來,高考作文評分體系屢遭質疑,其中人工作文閱卷,最受詬病的是情緒化和疲勞度。

情緒化閱作文卷,帶來的是面對同樣一篇作文,分數的穩定性同一性太小。而閱卷的疲勞幾乎是難以逾越的難關,因為每年夏季的中考、高考,都是在時間緊任務重勞動強度大的狀態下進行的。

中高考中,作文的平均閱卷時間只有30秒左右。有些省份為了防止評卷老師閱卷過快,設置了每篇作文出卷的時間間隔。但實際上真正閱讀文章的時間仍是幾十秒,也就是說,不到一分鐘你的600-800字的作文就被老師打上了。

一般來說,60分的作文,凡是兩次獨立評卷的差異達到6分(即誤差大於10%)及以上的,必須進行三評。請注意,這6分誤差是大範圍存在的。且不說6分了,就1分在高考中也會左右一位學子的命運。

在如此短時間,高強度,低準度下的人工閱卷評分的局限性突顯,難免引起不少專家關注。

作文評價體系及維度

自20世紀60年代以來,國外許多專家和學者就致力於主觀題的機器閱卷技術研究,也出現了各種不同的自動批改系統。比如美國的MBA、託福考試中就應用了 E-rater系統等。

但是,不管是E-rater還是國內的一些研究,大部分針對的都是第二語言作文,即非母語作文。非母語作文的特點是,學生的錯誤大多是一些基礎性的拼寫、語法方面的初級錯誤,這些錯誤是比較容易確立一個規則並讓機器執行和批閱。

要想機器閱卷技術真正普及並為閱卷工作帶來便利,無法迴避的一個難關就是:批閱學生用母語寫的作文。

與第二語言作文不同,中學生母語作文中基本很少犯語言基礎性錯誤,需要在更高層次,比如作文的文採、篇章的銜接、作文立意等方面做出評判。高考新課標卷作文等級評分標準如下:

那麼面對這些主觀性很強的作文,我們應該從哪些維度去評判,又如何去量化這些維度呢?

作文機器閱卷的機理

一是,機器學習評卷標準,然後按標準批閱。

在中高考閱卷中,全國的老師都是以一套統一的、嚴格的標準為基準來對試卷進行評分,同理,機器批閱作文,最重要的也是讓機器學到這套標準,設置不同層級的作文評分欄目後,按標準批閱。

教師們設置了一套通用的從字跡工整度、詞彙豐富性、句子通順度、文採、篇章結構、立意等多個層次綜合評估一篇作文質量的解決方案。這每一項標準背後都需要複雜、精密的技術來支持。比如要判斷字跡工整度,則需要用到手寫識別技術,給出識別概率,來表示工整度。判斷一篇作文是否離題,首先需要根據題目內容提取關鍵詞,並根據主題進行擴展,同時提取作文的關鍵詞,計算作文的關鍵詞和題目關鍵詞的相似度。

另外,也可以在本次考試的大規模數據上訓練主題模型,得到全局的主題分布,然後和待考察作文的主題分布對比。詞彙豐富性和立意屬於內容相關的特徵;字跡工整度、局部連貫性、句法正確性和篇章結構屬於表達相關的特徵;文採屬於發展等級特徵。

二是,機器可以自動學習教師的閱卷方法。

作文評分標準中,發展部分最為主觀,不易量化指標,機器評定設計較難。

我們知道在圍棋比賽中,阿爾法狗打敗世界冠軍不是背誦記憶進了若干的棋譜,而是深度學習了天量的世界冠軍的下棋案例。因此,機器還可以根據阿爾法狗機器人的思維方式,來模似作文評分,即除了評分標準,根據高考作文閱卷實際進行深度學習的算法進行的作文評分。

比如一次考試有2000份卷子,從第一份卷子開始,機器就可以學習教師的閱卷方法,學到200份的時候機器就可以代替人工,自動對剩下的試卷進行智能化打分。

理解了這兩大閱卷機理,不難看出,機器閱卷分數將更客觀、更精準、更有價值。

與此同時,「閱卷」這件需要教師們投入大量人力物力才能完成的事將變得輕鬆,教師們將會有更多的時間和精力被解放出來,投入到對教學方法、教學手段等創造性工作的研究中,相信學生們也會因此獲得更好、更全面的教育。

感謝您的閱讀!

下次,我們接著再聊!

本文主要內容來自@科大訊飛

綜合整理@左思

如果你喜歡文章,點個在看、轉發收藏一下啦!

歡迎關注公眾號「左右談」,和孩子一起快樂成長!

相關焦點

  • 科大訊飛機器智能閱卷實現機器批改作文
    閱卷是老師教學工作中,非常重要的一環,同時也十分耗時耗力。隨著科技的發展,機器可以協助我們進行數據計算、體力勞動等工作。  那麼,「閱卷」是不是也可以由機器代勞呢?  答案是肯定的。  目前,科大訊飛機器智能閱卷技術已經在安慶、合肥等地成功試點應用。
  • 科大訊飛機器智能閱卷技術實現機器批改作文
    閱卷是老師教學工作中,非常重要的一環,同時也十分耗時耗力。隨著科技的發展,機器可以協助我們進行數據計算、體力勞動等工作。那麼,「閱卷」是不是也可以由機器代勞呢?答案是肯定的。目前,科大訊飛機器智能閱卷技術已經在安慶、合肥等地成功試點應用。
  • 9省高考針對語文、英語作文等主觀性命題引入機器閱卷
    9省高考針對語文、英語作文等主觀性命題引入機器閱卷 央視新聞12月12日消息,記者從2020年人工智慧與教育大數據大會上了解到,目前人工智慧已經與教育領域深度融合,利用大數據開展的個性化學習覆蓋學生已超千萬
  • 9省高考已引入機器閱卷 針對語文、英語作文等主觀性命題
    專家介紹,今年高考有9個省針對語文、英語作文等主觀性命題引入了機器閱卷。將機器閱卷與人工閱卷結合,當機器與人工閱卷結果分差較大時,會自動挑選出來交給專家組進行最後判別,從而減少主觀評價的差異性,使得主觀題的評價更加客觀、公平。 此外,本屆大會還就大數據挖掘與應用、腦科學、心理健康測評等話題展開了討論。(原標題《9省高考已引入機器閱卷 「人工智慧+教育」還能擦出怎樣的火花》。
  • 今年高考有9省針對語文、英語作文等主觀性命題使用機器閱卷
    專家介紹,今年高考有9個省針對語文、英語作文等主觀性命題引入了機器閱卷。將機器閱卷與人工閱卷結合,當機器與人工閱卷結果分差較大時,會自動挑選出來交給專家組進行最後判別,從而減少主觀評價的差異性,使得主觀題的評價更加客觀、公平。此外,本屆大會還就大數據挖掘與應用、腦科學、心理健康測評等話題展開了討論。
  • 多省高考語文主觀題引入機器閱卷,卷面好,分才高!
    專家介紹,今年高考有9個省針對語文、英語作文等主觀性命題引入了機器閱卷,這在告訴我們對大家的卷面和書寫的要求會更高。專家介紹,今年高考有9個省針對語文、英語作文等主觀性命題引入了機器閱卷。將機器閱卷與人工閱卷結合,當機器與人工閱卷結果分差較大時,會自動挑選出來交給專家組進行最後判別,從而減少主觀評價的差異性,使得主觀題的評價更加客觀、公平。
  • 高考英語作文閱卷新形式,三招幫你量身定製好作文
    近日,2020年人工智慧與教育大數據大會順利舉辦,專家介紹,今年高考已有9省針對語文、英語作文等主觀性命題引入機器閱卷。同時,人工智慧與教育領域的深度融合也很有可能成為未來的學習趨勢。
  • 高考滿分作文已經出現!揭開閱卷規則,分享作文備考乾貨
    高中生在上自習淺談高考作文難度就今年來看,山東語文卷的作文可以說是在大家的「意料之中」。閱卷現場高考閱卷規則,絕對公平公正自1999年廣西高考採取網上閱卷的方式,網上批閱高考卷子已經有20多年的歷史了。
  • 高考英語作文閱卷新形式,新東方在線三招幫你量身定製好作文
    近日,2020年人工智慧與教育大數據大會順利舉辦,專家介紹,今年高考已有9省針對語文、英語作文等主觀性命題引入機器閱卷。同時,人工智慧與教育領域的深度融合也很有可能成為未來的學習趨勢。新東方在線老師指出,機器閱卷是一種新型的閱卷形式,相較於單一的人工閱卷模式,機器閱卷能直接完成對卷面錯別字糾正、語法糾正以及是否抄襲的多維判斷。
  • 滿分作文是如何誕生的?細數高考閱卷套路,最終分數一人說了算
    最近,浙江滿分高考作文《生活在樹上》引起了大家的爭議。有的網友認為這篇作文引經據典,論點突出,思路清晰,滿分實至名歸;有的網友認為這篇作文使用大量的生僻字,讀作文的閱讀造成的障礙,反而成為累贅,不值得滿分。
  • 9省採用機器批改高考作文!教師如何幫助學生掌握得分技巧
    據央視新聞消息,在2020年人工智慧與教育大數據大會中,專家透露,2020年高考有9個省針對語文、英語作文等主觀性命題引入了機器閱卷。將機器閱卷與人工閱卷結合,當機器與人工閱卷結果分差較大時,會自動挑選出來交給專家組進行最後判別,從而減少主觀評價的差異性,使得主觀題的評價更加客觀、公平。 機器都是怎麼閱卷的?答題倆小時掃描一分鐘的真相
  • 高考英語作文閱卷新形式,新東方在線三招幫你量身定製好作文_發現...
    近日,2020年人工智慧與教育大數據大會順利舉辦,專家介紹,今年高考已有9省針對語文、英語作文等主觀性命題引入機器閱卷。同時,人工智慧與教育領域的深度融合也很有可能成為未來的學習趨勢。  新東方在線老師指出,機器閱卷是一種新型的閱卷形式,相較於單一的人工閱卷模式,機器閱卷能直接完成對卷面錯別字糾正、語法糾正以及是否抄襲的多維判斷。
  • 2021年天津高考語文和英語的作文閱卷新形式!你還不知道嗎?
    2020年高考已經有很多省份在高考語文和高考英語的作文上實行機器閱卷和人工閱卷同步進行,如果兩者閱卷得分差距很大,接下來交給閱卷組的專家們判定,最終使得高考主觀題評分更加公平公正。機讀與傳統的閱卷方式有何不同?
  • 9省高考已引入機器閱卷 「人工智慧+教育」還能擦出怎樣的火花?
    專家介紹,今年高考有9個省針對語文、英語作文等主觀性命題引入了機器閱卷。將機器閱卷與人工閱卷結合,當機器與人工閱卷結果分差較大時,會自動挑選出來交給專家組進行最後判別,從而減少主觀評價的差異性,使得主觀題的評價更加客觀、公平。 此外,本屆大會還就大數據挖掘與應用、腦科學、心理健康測評等話題展開了討論。
  • 高考閱卷,是機器閱卷,還是人工閱卷?這些「答題細節」容易失分
    高考從1999年以後就開始進行電腦閱卷,這也讓卷面整潔和字跡清晰成為老師們經常叮囑的事情,經歷過高考的學生們都知道,答題卡的塗寫是非常重要的,特別是使用2B鉛筆的塗卡成為電腦閱卷的關鍵。高考題答題卡的選擇題一般都是機器掃描給分,但是除了選擇題,其他的題型都是通過機器掃描到電腦後,進行人工閱卷。這是使得評分出現誤差,在老師評分時,考試經常因為以下原因丟掉本該得到的分數。
  • 高考已經結束,滿分作文堪稱「神仙字體」,閱卷老師不忍扣分!
    高考閱卷與平時模擬考試閱卷有很大的區別,高考採用的電腦閱卷。大概流程如下: 1、先將考生試卷進行加密,掩蓋關鍵個人信息。 2、將加密好的試卷放入機器內進行掃描,這個過程非常迅速。 3、試卷被掃描後,試卷上的答題信息將會被完整地傳輸到電腦上。 4、隨後,電腦自動地將試卷分為幾個小模塊,然後再隨機地分發給負責批改的閱卷老師。
  • 高考閱卷十幾秒改一篇作文,是否會催生現代版八股文?
    浙江滿分作文討論得轟轟烈烈,從這些討論中發現一個問題,一個可能是比較直接的,但又具有根子方面原因的問題,即閱卷偏好或閱卷技術導向性問題,這一問題的影響不應該被忽視。楚王好細腰,宮中多餓死,上有所好,下必從之,高考本來就是選拔性競爭性考試,高考閱卷偏好那是最直接的一個指揮棒,考生會仔細分析往年高考滿分作文,從中找出區分好作文的標準,會揣摩高考作文閱卷偏好,同時也會通過各種渠道仔細研究往年高考語文閱卷組長的偏好。而這個偏好會通過更加直接的方式影響到考試備考時的作文訓練。
  • 機器人已試點參與多次大規模考試,探索作文等開放式題目評分
    不僅閱卷速度大大提升,而且更加準確。而自20世紀60年代以來,國外許多專家和學者就開始致力於主觀題的機器閱卷技術研究,出現了各種不同的自動批改系統,例如美國的MBA、託福考試中就應用了E-rater系統。但這些系統大部分針對的都是第二語言作文,即非母語作文。但是,批閱學生用母語寫的作文需要在更高層次,比如作文的文採、篇章的銜接、作文立意等方面做出評判。
  • 浙江滿分作文閱卷組長被實名舉報:閱卷老師也要「守規矩」
    浙江一篇高考滿分作文《生活在樹上》引起的爭論隨著時間的流逝,不僅沒有消退,反而愈演愈烈。8月9日,浙江省教考院回應關於這篇作文的閱卷組組長陳建新被實名舉報,更是將關於這篇作文的爭議推向了一個新的階段。據浙江省教考院回應,確實有人向該院實名舉報陳建新,稱其一邊批閱高考作文,一邊編撰作文輔導書。
  • 陝西省中考作文閱卷手記
    考場作文是語文考試的「半壁江山」,可以毫不誇張地說,「得作文者得語文」。近年來,筆者多次參加中考作文閱卷工作,最直觀地看到了作文現狀。現將點滴感受整理如下,以饗讀者。一、把握「顯性」——「一見鍾情」須謹記網上評卷,閱卷老師面對電腦屏幕批閱,每篇作文都要進行「二評」,部分甚至要「三評」,批閱量可想而知。所以,無形中對同學們的作文增加了更高的顯性要求:1.