基於語言學特徵的小學生作文流暢性自動評價

2021-02-15 教育測量與評價

作文的流暢性反映了文章的通順程度和作者語言的規範性，是寫作能力及發展的一個基本組成部分，也是作文評價中的一項重要指標。因此，研究作文流暢性對於提高作文評價的有效性、提升學生寫作水平來說意義重大。《義務教育語文課程標準（2011 年版）》[1]指出，小學生在作文寫作方面主要處於寫話（第一學段，1~2 年級）和習作（第二、三學段，3~6 年級）階段，對學生的要求主要體現在語言通順、表達清晰、正確使用標點等較為淺層的方面。因此在小學生作文評改工作中，作文的流暢程度是一個具有較高優先級的評價維度。在現階段的漢語作文教學中，作文的評改模式仍然以傳統的教師人工評價為主。然而小學階段寫作練習量大、頻率高的特點，導致了人工評價具有以下缺點：（1）工作量大，教師負擔過重；（2）主觀性強，容易促使「印象固化」效應產生，從而影響作文評價的準確性和客觀性；（3）反饋周期較長，從而造成學生印象淡化、積極性降低等負面效應。傳統作文評價模式的不足和信息技術的進步，促成了作文自動化評價領域的產生和發展。作文自動評價（automated essay evaluation，以下簡稱AEE）是以自然語言處理（natural language processing，以下簡稱NLP）為主的人工智慧技術在教育應用領域的一個研究分支，它的研究目標是實現作文評閱的自動化，從而有效減輕人工負擔，並提升評價的客觀性。AEE 的基本思想是：（1）篩選並提取作文文本中能夠表徵作文質量的一系列特徵；（2）選取合適的評價模型；（3）利用抽取的特徵訓練評價模型；（4）使用構建的模型實現自動化的作文評閱。主流AEE 系統的架構如圖1 所示。

然而，迄今為止，絕大多數作文自動評價的相關研究都以英語作文為研究對象，且主要以文章的整體質量為評價對象，少有對文章某一方面的深入探討。正如前文所述，作文的語言流暢性是評價小學生作文質量的重要標準之一。而且，作為語言自動處理領域的一個重要指標，流暢性能夠反映出文章作者的思考、組織和表達能力。[2]作文流暢性研究的核心問題在於如何將流暢性這樣抽象的概念具體化，並用科學合理的方法對其進行測量。Latif 指出，「流暢性」這個術語在應用語言學研究中引起了很多爭論，相比於閱讀和言語流暢性，作文流暢性的定義更加多樣化。[3]Wolfe 將寫作流暢性描述為「語言輸出的舒適度和語言複述的容易程度」[4]；Yang 在進行二語寫作流暢性自動評價的研究中，將作文流暢性定義為「作文的通順程度及文章語言的規範度」[5]；同樣在二語習得領域，Polio 認為作文流暢性是指「文章語言與母語使用者寫作用語的接近程度」[6]。從已有定義可以看出，多數研究對於作文流暢性的界定傾向於作文的通順程度以及文章語言的規範性，因此本文將沿用這樣的定義。

本文在借鑑AEE 的研究思路和方法的基礎上，以小學生漢語作文為對象，採用文本分類的思想，篩選並提取能夠表徵小學生作文流暢程度的語言學特徵，進一步藉助機器學習算法構建分類模型，將文章按照流暢性分為三個等級，用「自動輸出流暢性等級」的形式來實現作文流暢性的自動評價。

在寫作研究或語言教學等人文學科領域中，與作文流暢性相關的研究重點關注語言特點的分析、評價指標的選取等理論層面。Latif 等[3]指出了作文流暢性（writing fluency）在很大程度上是基於語言流暢性（speaking fluency）來評價的，並總結了兩者在評價指標選取上的異同，最後對作文流暢性的科學有效測量給出了相應的意見。Plakans 等人[7]從複雜性、準確性和流暢性（complexity、accuracy and fluency，以下簡稱 CAF）三個方面來評價學生作文，指出作文的流暢性與複雜性、準確性在評價指標的選取上互有重疊。安福勇[8]借鑑了英語中經典的T 單位測量方法，首次將T 單位作為CSL（Chinese as a second language，漢語作為第二語言）學習者作文流暢性測量指標，並通過實證研究證明了T 單位對於漢語作文流暢性的評價是有效的。

而在計算語言學（computational linguistics，CL）或NLP 領域，相關研究重點關注的是如何利用統計學思想或機器學習等方法來從技術上解決流暢性的自動評價問題。Yang[5]以英語作文為研究對象，以AEE 的基本理論和技術路線為基礎，從詞彙、句式多樣性、句子複雜度和語法關係這幾個方面選取流暢性特徵，並取得了較為理想的效果。Mutton A 等[9]採用基於句法解析器評價句子流暢性的思想，提出了一種基於支持向量機（support vector machine，SVM）的流暢性評價方法GLEU，實驗結果表明，GLEU 與人工評價結果的相關度高於各個獨立解析器。Ahn E 等[10]使用基於規則的語法轉換（rule-based grammatical transformation）結合概率句法解析（probabilistic parsing）的方法來提升文本（英文）的流暢性，該研究提出的領域無關性（domain-independent）語法轉換規則為本研究選取作文流暢性特徵提供了一定的借鑑意義。Liu D 等[11]提出了一種基於改進的n-gram 模型的、不依賴標準參照的統計學方法，實現了句子流暢性的自動評價。然而該研究雖不依賴標準參照，但有效的n-gram 模型仍需要大量且合適的語料去訓練。類比於本研究，若想訓練出一個性能良好的n-gram 模型用於計算作文中的句子概率，需要大規模地收集高質量的小學生作文語料，這將是一個長期而浩大的工程。YuH等[12]提出了一種基於熵（entropy-based）的方法來從句子層面對翻譯結果的流暢性進行自動評價，用熵來表示機器翻譯結果與標準譯文之間匹配詞的分布情況（熵越低，表明分布越集中，翻譯結果越流暢）。

由於本研究主要從語言形式的角度來評價作文流暢性，因此我們從總篇、段落、句子、短語、詞彙和語法錯誤這幾個層面選取了較多的語言學計量特徵，並結合了少量的內容和語義特徵，來共同構成流暢性特徵集。

在特徵的提取方法上，本文根據特徵項的不同，將特徵提取工作分為兩個部分：基於LTP 的特徵提取和基於CRIE 的特徵提取，然後將這兩部分的結果組合成為完整的特徵數據，用於後續的篩選和建模。對於前者，基於LTP 的特徵提取是指使用「語言技術平臺」[13]（language technology platform，LTP）對作文文本進行預處理，獲得以XML 形式表示的作文數據。在此基礎上，採用DOM 解析的方式編寫程序進行相應計量特徵的提取。對於後者，我們使用臺灣師範大學E-learning 實驗室所研發的「文本可讀性指標自動化分析系統2.3」[14][15]（Chinese readability index explorer，CRIE 2.3，CRIE）來獲取部分與流暢性相關的文本可讀性指標。

作文的總體特點代表了作文給人的第一印象，因此總篇特徵在作文評價中佔據著重要位置。本文主要從作文的整體篇幅、所用字的筆畫分布、標點符號的使用這三個方面來選取作文總篇層次的評價指標。作文的篇幅是衡量寫作能力的重要方面，且不論是已正式投入使用的AEE 產品[16]，還是國內外對於作文流暢性相關的理論和實證研究[17][18]，都表明作文的長短是評價作文流暢程度的有效指標。因此，本文借鑑已有研究，結合小學生漢語作文的特點，選取了總字數、總標點數、總詞數、總句數、總段落數這五項指標構成作文的總體篇幅特徵。字符類特徵的選取主要是受到語言研究中詞長效應（word length effect）的啟發：對於英語等西方語言來說，詞長會影響文本閱讀的流暢性；而對於中文來說，用字的複雜程度會在一定程度上影響文章流暢性。本研究中，我們選取單字的筆畫數作為字符類特徵，用來測量作文用字的複雜程度，並將其納入流暢性特徵集。對於標點符號方面的特徵，在小學生作文中，逗號誤用現象是最為常見的標點問題之一。由於本文的研究屬於較宏觀的層次，且在不同的語料上，逗號誤用的形式也不盡相同，因此，本文結合小學生作文常見的「一逗到底」等逗號誤用現象，選取了一個粗粒度的特徵——逗號比例，作為總體的標點特徵。綜上所述，表1 給出了總篇特徵的類型、抽取方法等詳細信息。

段落在內容上能表述相對完整的意思，段落的劃分和篇幅的分布反映了作者謀篇布局和把握文章總體的能力，進而能在一定程度上體現出文章的流暢程度。由於段落由句子組成，因此我們選取段落的平均句數來衡量段落的篇幅，如表2 所示。

句子是作文中表達完整意義的最小單位，也是形式、內容最多樣化的單位。因此，對於接觸寫作不久的小學生來說，句子層面的特徵是拉開作文水平的重要因素，也是衡量作文流暢性的重要指標。在篇幅類特徵方面，Chae 等在機器翻譯語料上的研究表明，文本句子的長度與其流暢性呈負相關。[19]基於此，我們選取了語言學領域較為通用的幾個指標：平均句長、平均分句長、句平均詞數、T 單位個數、T 單位平均長度，進行句子長度的測量。在學生的實際作文中，單、複句分布不當會影響句子本身乃至全文的流暢性。例如，圖2 所示的作文片段展示了小學生作文中經典的「一逗到底」現象（已進行錯誤標註），該片段中一個自然段只包含了一個句號，句中許多逗號的使用是不符合語法規範的，評閱者在閱讀這樣的段落時會明顯感到不流暢。因此，本研究選取了所有句子中分句數和單句數所佔的比例，將其作為比例類特徵來衡量句子流暢性。

除了與句子長度和比例相關的特徵，某些較深層次的句子特徵也可能反映出作文的流暢性。Nenkova[20]在研究句子流暢度的自動評價時，提出了衡量句子複雜度的「句法樹深度」特徵，且該研究表明，當句子的長度相當時，越複雜的句子流暢度越低。因此，本文將探討此特徵在預測漢語文本流暢性中的表現。「平均句子通順度」是「百度AI 開放平臺」NLP 模塊中，DNN 語言模型接口的一項輸出，該特徵用一個float 型的參數「ppl」來表示一個句子符合客觀語言表達習慣的程度，該數值越低，則表示句子越通順、流暢[21]，這與前文對於流暢性的定義有很大的相似度，因此我們將其納入特徵集中。「複雜語義句數」是宋曜廷等[22]在中文文本可讀性研究中納入的語義類特徵。鄭錦全[23]認為，複雜語義的句子會影響文章的可讀性和流暢性。因此，我們將基於CRIE 抽取的複雜語義句數特徵納入流暢性特徵集。上述分析並選取的包括篇幅、比例和進階三種類型的所有句子特徵信息如表3所示。

短語是由語法上或意義上可搭配的詞語組合起來的語言單位。雖然在通常情況下，短語表達的意義沒有整個句子那麼完整，但短語類型、短語數量等的合理使用能在一定程度上反映出行文的流暢程度。名詞是實詞中語義最明確的詞類，一個句子中的名詞短語越多，概念和信息也就越多。同時，名詞短語修飾語的長度或數量的增加，會加大句子的理解難度。[24]因此，文章中名詞短語的比例以及平均修飾語數會影響句子的流暢性。Nenkova[20]的研究表明，在機器翻譯和人工文本中，動詞短語間的平均距離與句子的流暢度呈負相關。鑑於此，我們通過計算小學生作文中動詞短語間平均距離（即兩個動詞短語之間的平均詞數）來預測其流暢性，該特徵的提取方法如下偽碼所示：

不論是在英語作文還是漢語作文評價的相關研究中，詞彙類的指標都是重點探討對象。對於小學生作文來說，詞彙量的掌握情況、詞彙組合和合理運用的能力等更是拉開作文等級的重要因素。在詞彙的篇幅類特徵方面，「不重複詞彙數」反映了文章用詞的變化度和詞彙豐富度。Burstein 和Wolska 的研究表明，相同詞的過度重複使用會顯著影響文章的流暢性[25]，且小學生由於詞彙量有限，詞彙的重複使用現象出現較為頻繁，因此，「不重複詞彙數」理論上對作文的流暢度具有較強的區分能力。宋曜廷等[22]認為，「詞彙的字元數」（即組成詞彙的字數）和「難詞數」能夠有效分辨文章難度。因此本文將探討二字詞數、三字詞數和難詞數與文章流暢性的關係。一些高頻的功能性虛詞，如否定詞、代詞、連詞等，在文章中主要起到連接內容的作用，因而此類虛詞與文章的凝聚性（cohesion）、連貫性（coherence）關係密切[26]，而流暢性與上述兩種文本特性在定義和測量上具有高度的相關和重疊，因此我們在篇幅特徵中納入了一系列虛詞數量特徵。本文所選取的「詞彙密度」和「詞彙變化度」這兩項比例特徵，與「不重複詞彙數」類似，都是衡量詞彙豐富度的指標。Yang[5]在英文作文流暢性的自動評價研究中發現，「同義詞對數」和「相同詞間平均距離」特徵的引入使得模型效果提升明顯。因此本文將借鑑Yang 的研究，在特徵集中加入上述兩項特徵，具體如下。本文採用基於語料庫的方法進行作文同義詞特徵的提取，選用的同義詞語料為《哈工大信息檢索研究室同義詞詞林擴展版》，特徵提取思路如圖3 所示。

文章中相同詞間平均距離的提取方法與上文動詞短語間平均距離的算法類似，思路如圖4所示。

前文所分析的特徵都是基於「作文語言符合語法規範」這個假設的，但在實際的小學生作文語料中，語法不規範乃至語法錯誤現象屢見不鮮，而錯誤特徵會顯著影響文章的流暢性。因此，本文將根據依存句法分析結果和語言學相關知識，採用基於規則的方法，對主語缺失、未斷句和指代不明這三類語法錯誤進行自動識別並統計頻次。主語缺失是指整個句子中缺少主語成分，是小學生寫作中常犯錯誤之一。在使用LTP 對語料進行預處理的基礎上，我們將識別主語缺失的啟發式規則總結如下：如果一個句子中處於核心關係的詞結點不包含類型為「A0」的arg 子結點，且整句中沒有出現主謂關係（以「SBV」標識），則判定該句存在主語缺失問題。例如，表6 給出了主語缺失的一個樣例。

表6 主語缺失樣例

未斷句是指句子沒有按照標準的語法規範進行分割，而將句子錯誤地表達成為一個單句，從而影響句子的流暢度。本節實現了如下類型未斷句錯誤的自動識別：如果一個單句或子句中出現兩個及以上主謂關係（「SBV」），說明當前句內出現未斷句現象，表7 給出了未斷句現象的例句，圖5 和圖6 是錯誤和正確例句的依存句法分析圖。

指代不明主要指文中出現的代詞的指向不明或有歧義，小學生作文中出現的指代不明現象主要是由於斷句不當造成的句首代詞指向不明。由於技術和語料限制，本文僅提取了以下情況的指代不明現象：若句首詞為除第一人稱代詞（「我」「我們」）以外的代詞，則判定該句出現了指代不明現象，如表8 中的例句所示。

本研究的實驗數據來源於從「小荷作文網」爬取的小學生實際作文語料（以3~5 年級為主，共181 篇作文），每篇作文都已人工標註了流暢性等級（F1、F2、F3），並存儲在 SQLite 資料庫中。

我們把作文的流暢性等級作為預測變量，把原始流暢性特徵集中的所有元素作為待篩選特徵項，然後將信息增益和信息增益比大於0 的特徵項由大到小進行排序，結果如表9 所示。

從特徵篩選結果可以發現，信息增益和信息增益比這兩種方法篩選出的最優特徵子集包含了17 個相同的特徵項，只是特徵項的排序稍有差別，說明這17 項特徵對於作文流暢性的區分能力來說是較為穩定的。因此我們將表9 中的17 項特徵視為最優的篩選特徵集，將其用於模型訓練。

為了更客觀地評估本文特徵集對於作文流暢性的區分能力，我們分別選取了邏輯回歸、決策樹（J48）和支持向量機（SMO）這三種經典分類模型，以及邏輯模型樹（logistic model trees，以下簡稱 LMT）、SimpleLogistic 和隨機子空間（random subspace method，RSM）三種集成模型，並基於這六種算法訓練出六個分類器，將作文按照流暢性等級進行分類，最後比較它們的分類效果。各分類器的性能指標如表10 所示，分類準確率的對比如圖7 所示。

實驗結果顯示，集成了邏輯回歸和決策樹模型的LMT 和SimpleLogistic 在作文流暢性分類中表現較好。這主要是由於本研究所提取的特徵都為連續型變量，決策樹雖分類性能強，但其不擅長處理連續型數據，而邏輯回歸的引入能夠彌補該缺陷，從而讓分類效果更加理想。

從上述各模型的分類結果我們可以看出，本研究所建立的特徵集對於作文流暢性具有較好的區分度，最優的分類精度達到了85%以上。在實際作文教學中，流暢性自動評價模型可作為作文評價的輔助手段，幫助教師按照流暢程度對作文進行分檔，進而更有針對性地評改作文和指導寫作，這對提高作文評價效率、減輕教師壓力具有一定的實際意義。

本文的主要工作分為兩部分，首先是分析並抽取一系列能夠有效區分作文流暢度的特徵，然後利用特徵數據訓練不同的流暢性分類器，分析效果並得出結論。本文的研究證明：（1）沿用AEE的思想實現作文流暢性的自動評價是可行的；（2）英文作文自動評價相關研究中的部分特徵對於漢語作文來說同樣適用；（3）用分類思想代替回歸進行作文評價，能夠克服線性模型的部分缺陷，增加模型的可選擇範圍。從特徵篩選的結果來看，對於小學生作文的自動評價來說，總體的篇幅類特徵（如總字數、總詞數等）、詞彙特徵（不重複詞彙數、同義詞對數等）和語法錯誤特徵在流暢性方面具有較好的區分度。有效特徵的數量雖然可觀，但抽取的大多為表層的語言學特徵，且特徵的數據類型單一，因此從自動評價的結果來看，雖然各模型的分類準確率較為理想，但仍有一定的提升空間。從樣本的規模來看，本研究的數據集僅限於小學三、四年級的作文，且數量和題材有限，從而限制了模型的泛化性能。基於本文的研究結果，我們對小學生作文流暢性的自動評價提出以下幾點建議。（1）進一步抽取篇幅、詞彙、語法等方面的具有較強區分度的語言學特徵，並增加離散型特徵，如「是否分段」「是否離題」等。同時，根據實際的作文教學和評價工作，結合中文信息處理的新技術，挖掘出與語言連貫性、邏輯性和人物情感等方面相關的深層語義特徵。（2）廣泛搜集優質作文數據，建立具有一定量級的、主題覆蓋較廣的作文語料庫，結合深度學習模型，訓練出高泛化能力和通用性的評價模型。

基於語言學特徵的小學生作文流暢性自動評價

相關焦點

中文作文自動評分軟體系統在廣州面市

2012-2019年國家社科項目立項(語言學)之一

計算語言學相關資料

提高發展性閱讀障礙兒童的閱讀流暢性

——《計算語言學方法研究》成果選介

馮志偉談計算語言學

當前計算語言學發展的幾個特點

認知語言學的發展趨勢之一:認知社會語言學

計算社會語言學:是啥?咋搞?

學術論壇 | 深圳大學外國語言學及應用語言學學科前沿高層論壇(9月12日)

智能技術幫你學語言:外語作業自動批改

今年的高考作文，有兩個明顯的特徵，對小學生中學生非常有幫助

多人談|陸爍:語言障礙的診療急需漢語語言學的介入

好未來:AI智能批改中英文作文為老師「減負」

【學術論文】基於Transformer模型的中文文本自動校對研究

小學生作文「我的家」火了,每個家庭成員,扮演著西遊記不同角色

小學生作文腦洞奇葩,邏輯混亂笑哭網友:搞笑你是認真的

小學生作文,猜猜他是誰

語言學身份研究的理念轉變

江蘇小學生繆可馨疑因作文墜亡,語文老師該如何修改小學生的作文