託福寫作機器批改中的人工智慧應用

2020-12-22 教書匠阿倫

ETS設計託福獨立寫作之初,是想通過這種以文章為基礎(essay-based)的測試鼓勵學生對話題有更好的概念性理解(a better conceptual understanding of the material), 例如教育教學,科技發展,環境保護,以及生活態度等,從而反映出大家對於知識和應用水平的更深層次理解( reflect a deeper, more useful level of knowledge and application by students)。

因此,ETS對考生託福作文進行評分和提出修改意見,不僅是一種評估方法,而且是一種反饋手段(not only as an assessment method, but also as a feedback device to help students),有助於學生更好地學習託福考試的話題內容,進行有效的獨立思維和批判式思維訓練,更是對寫作技能的整體提升。

但是,隨著託福全球考生數量的激增,ETS很難找到足夠訓練有素的託福考官來完成規定時間內的閱卷工作。當考官工作量過大時,也會出現打分的不正常波動,影響打分的客觀性和準確性,機器閱卷(E-Rater)就此誕生。

ETS的E-Rater在項目啟動之初就採用了學術界最前沿的人工智慧技術,並與普林斯頓大學、賓夕法尼亞大學、哈佛大學一起建立了研發中心。ETS幾十年沉澱的海量數據與頂尖院校研究員的智慧相結合,尤其是在近幾年深度機器學習(Deep Learning)的幫助下,託福機器閱卷的評分效力已經可以媲美甚至超過一名經過專業訓練的託福考官。

今天這篇文章,我會給大家介紹託福寫作機器批改中的人工智慧應用。

E-rater通過計算機數據功能對於考生寫作文本的相關信息進行一定的標籤匹配,結合ETS的過往的寫作資料庫來審核考生的寫作質量。它利用的是計算機語言學中的自然語言處理(Natural Language Process,簡稱NLP)方法。

其中E-rater比較擅長捕捉的是考生的語言使用,E-rater系統將考生考場作文的語言與資料庫中不同分數段的文章的語言進行比對,判斷考生的寫作語言質量;

同時,E-rater還可以通過檢測邏輯連接詞的使用來大致判斷考生文章的邏輯銜接情況,通過匹配主題關鍵詞來檢測考試的文章發展是否出現跑題。

簡單來說,像手機軟體「唱吧」一樣,E-rater就是把考生的作文與資料庫裡的文章進行比對,從而給出系統判斷的分數。

目前的確直接使用計算機評分(computer-based assessment)的評測考試暫未完全普及,主要原因是目前的機評主要是通過統計方法(a statistical approach)分析來自該話題/領域的文章和內容信息。當然目前的計算機技術可以對考生們的託福寫作進行直接打分,從而證明這種系統的統計方法是對文章質量的準確衡量(the quality of essays)。

目前普遍使用的計算機評分機制的文本分析是基於潛在語義分析(Latent Semantic Analysis -LSA)。對LSA的詳細處理,無論是作為人類知識獲取和表達方面的理論,還是作為文本語義內容提取的方法,目前都是心理學,應用語言學等領域廣泛研究的課題。同時,許多認知心理學和語言學現象的模擬也顯示,LSA能夠通過統計學的方式捕捉到大量在話語中表達的意義的相似性(captures a great deal of the similarity of meanings expressed in discourse)。

LSA所做的相似性比較是通過比較文章之間的意義相似性(through comparing the similarity of meaning between essays)來實現自動評分的基礎。這就是為什麼阿倫老師在進行託福寫作月計劃課程中一直強調學生們要熟練運用「託福獨立寫作高分素材集」的原因。

「託福獨立寫作高分素材集」是通過歷年託福獨立寫作高頻話題的詞與語篇匯集在一定的話題空間中。讓考生們在寫作備考中高強度地模仿託福寫作考試所要求的語言表達特徵。這也是為什麼不少同學都在一個階段的課程以及講義相結合的過程中可以最終實現25+的託福寫作成績。

早期的機器批改主要集中在文章的系統特徵上(mechanical features),例如文章的語法、拼寫和標點符號問題。但大家都知道寫作一篇好文章還涉及其他因素。例如,在抽象層次上(abstract level),我們可以區分學生論文的三個值得評估的屬性:

1. 對包含的概念知識的正確性和完整性; (the correctness and completeness of its contained conceptual knowledge);

2. 在論述寫作話題時所提出論點的合理性; (the soundness of arguments that it presents in discussion of issues)

3. 寫作的流暢性、優雅性和可理解性(he fluency, elegance, and comprehensibility of its writing.);

對於顯性的語法特徵和句法特徵的評價很容易通過計算機進行實現。但其他因素:文章內容、論點、可理解性和文字風格就很難進行可測量的評估,因為它們相互影響,哪怕只是一個細小的選詞問題,這也成為了早期E-rater功能再怎麼強大,也是ETS決定以人工閱卷模型來進行最終評分的主要原因。

因為早期的E-rater主要集中在對文章進行評分的計算方法上,針對文章內容的評分係數仍然屬於次要的、間接的評分因素。在經歷一段時間的技術迭代之後,LSA方法開始成為被認可的評分機制。就是因為LSA方法關注的是概念內容(the conceptual content)、文章所傳達的知識(the knowledge conveyed in an essay)。

為了評估論文的質量,LSA首先對領域代表性文本進行訓練。基於此訓練,LSA導出域中包含的信息的表示。然後,學生論文的特點是基於所有單詞的組合的LSA向量。然後,可以將這些向量與散文或具有已知內容質量的文本的向量進行比較。這兩個向量之間的夾角代表了這兩篇文章討論相似信息的程度。例如,未評分的文章可以與已經評分的文章相比較。如果兩篇文章的角度很小,那麼這些文章的內容應該相似。因此,可以比較兩篇文章的語義或概念內容,並根據它們的相似性得出分數。請注意,兩篇文章可以被視為內容幾乎相同,即使它們包含很少或沒有相同的詞,只要它們表達相同的意思。

隨著語言學家們不斷結合深度學習,專家們認為深度編碼的特徵(E-rater)和手動批改(human rater)的功能相結合才是有效的自動作文評分(Automated Essay Scoring)系統。

專家們因此設計了兩階段學習框架(TSLF),它結合了功能模型(feature-engineered models)和點對點模型(end-to-end models)。如圖所示:在圖1中,在第一階段,計算機可以計算得出語義得分Se,一致性得分Ce,輸入相關得分Pe。在第二階段,這三個分數和一些手動批改的功能被連接起來並被編碼到一個上升模型進行進一步的係數計算。

隨著語言學家們不斷結合深度學習,專家們認為深度編碼的特徵(E-rater)和手動批改(human rater)的功能相結合才是有效的自動作文評分(Automated Essay Scoring)系統。

專家們因此設計了兩階段學習框架(TSLF),它結合了功能模型(feature-engineered models)和點對點模型(end-to-end models)。如圖所示:

在圖1中,在第一階段,計算機可以計算得出語義得分Se,一致性得分Ce,輸入相關得分Pe。

在第二階段,這三個分數和一些手動批改的功能被連接起來並被編碼到一個上升模型進行進一步的係數計算。

在Table 1中,專家們列舉出了手動批改(human rater)的潛在機制:

1. 語法錯誤數;

2. 文章長度;

3. 單詞長度的均值和方差;

4. 句子長度的均值和方差;

5. 寫作文章中的從句數量;

6. 寫作文章中的詞彙量;

直覺上,大家會認為語法錯誤多基本就是寫作高分的主要原因。但是,通過數據分析,我們發現寫作最低分通常是因為字數嚴重不足而造成。因此,基於長度的特徵是大家在進行寫作練習是務必要考慮的因素。關於字句的複雜性,這是阿倫老師在課上一直給大家強調的句子多樣性和複雜性的要求。如果大家想要進一步去了解Language Use的細節,建議大家去閱讀《託福官方指南(第5版)》第669頁到731頁的第10章Writer’s Handbook for English Language Learners的具體內容。

人工智慧對於很多行業的改變是顛覆式的,連語言學習和測評這塊硬骨頭都被ETS啃下來了。但是無論是人工批改還是機器評分,對於託福考生的語言要求是一致的,只要大家用心備考,紮實提高自己的英語寫作能力,高分終歸是你的。

相關焦點

  • 有道詞典推出全新AI技術 一鍵自動批改英語作文
    【環球網科技綜合報導 記者 樊俊卿】據搜狐網4月8日報導,網易旗下產品有道詞典推出全新AI技術,通過人工智慧自動批改英語作文。有道詞典表示,推出這一功能是希望能夠為各個學段的學生提供作文水平檢測的幫助,從而快速提升英語寫作能力。
  • 升級AI作文批改功能 有道寫作可識別百種英語寫作錯誤類型
    【環球網科技綜合報導】12月9日消息,近日,網易有道推出「有道寫作」,將原有內嵌在網易有道詞典App的AI作文批改功能,延伸至網頁瀏覽器、Word加載項、PC詞典等埠,滿足用戶的多場景使用需求。有道寫作是AI作文批改功能的應用升級,能夠幫助用戶解析文章的拼寫、語法、樣式、詞級潤色等不足,並進行智能修改實現英文寫作。在2020年年中時,AI作文批改功能正式落地網易有道詞典App,該功能是繼有道神經網絡翻譯後,網易有道推出的又一重要的人工智慧技術應用。
  • 網易有道推出有道寫作 AI作文批改功能多埠落地
    有道寫作是AI作文批改功能的應用升級,能夠幫助用戶解析文章的拼寫、語法、樣式、詞級潤色等不足,並進行智能修改實現完美英文寫作。在2020年年中時,AI作文批改功能正式落地網易有道詞典App,該功能是繼有道神經網絡翻譯後,網易有道推出的又一重要的人工智慧技術應用。
  • 讓英語作文更精彩的智能批改工具
    點擊左上角關注我們 在英語學習中,寫作是對詞彙、語法、閱讀、表達的全方位考察,可以很好地反映學習者的語言綜合素養。然而,如何實現對英語作文快速準確地評判並給予反饋,成為學生、老師、家長們共同面臨的難題。現在,小編為你介紹一種新方法:讓 AI 來批改你的作文。
  • 微軟「愛寫作」公眾號上線:英文寫作的AI私教
    它可根據不同年級的作文標準,從語法到用詞、文章結構,全面且便捷地幫助小初高學生、成人培訓學習者,以及四六級、雅思、託福、考研的備考者提升英文寫作水平。這也難不倒「愛寫作」。只需用手機給作文拍照並上傳,「愛寫作」就能分分鐘將其轉換成可用智能終端進行編輯的文字,語法檢查、作文打分、詞語替換等等作文批改功能全部輕鬆實現。而且,老師們也可以藉助此功能,輕鬆識別學生們各不相同的手寫字體,方便完成作文批改工作。微軟亞洲研究院研發的微軟新一代 OCR引擎為「愛寫作」中的手寫識別功能提供了強大的技術支撐。
  • 機器新聞寫作: 媒體行業的探索研究與實踐
    原創 任鼎 傳媒在2019年1月,習近平總書記在中共中央政治局第十二次集體學習時強調,探索將人工智慧運用在新聞採集、生產、分發、接收、反饋中,全面提高輿論引導能力。機器新聞寫作作為人工智慧與新聞業相結合的典型代表,是新聞業基於人工智慧技術創新出的內容生產方式。
  • 假如讓AI來批改英語作文……
    但對於寫作的環節,我們卻很少有機會得到訓練。書面交流不僅更要比口語更遵守語法規則,還對一個人的詞句篇章、構思邏輯等有更高的要求。同時,寫作環節的反饋,會耗費更多的精力和時間。為了解決英語學習者在寫作上的難點和痛點,近期,網易有道詞典上線了以人工智慧驅動的批改英文作文的功能——AI作文批改。
  • 託福寫作中如何講究字詞造句
    託福寫作字詞句段的講究是很常見的,其中處於中心部分的便是句,要知道新託福寫作要求大家對於用詞以及句子的表達要求都是比較高的。好的句子會使你的作文內容豐富,而且還能夠幫助解決文章框架單一的問題。下面小編整理了一些託福寫作常用的句子和句型,和大家分享。希望備考託福的考生,可以運用這些句子來優化作文內容。
  • 搜狗翻譯推出首個AI寫作助手 開啟外語學習智能化新篇章
    中新網6月17日電 近日,搜狗翻譯推出國內首個AI寫作助手,通過藉助先進的人工智慧算法對英文作文進行實時語法和拼寫糾錯,並提供專業的語句潤色優化建議,從「糾錯」到「潤色」,一站式解決英語寫作常見難題。以AI寫作助手為代表,搜狗翻譯正不斷探索高效的英語學習方式,推動外語學習智能化。
  • 搜狗翻譯推出國內首個AI寫作助手,開啟外語學習智能化新篇章
    近日,搜狗翻譯推出國內首個AI寫作助手,通過藉助先進的人工智慧算法對英文作文進行實時語法和拼寫糾錯,並提供專業的語句潤色優化建議,從「糾錯」到「潤色」,一站式解決英語寫作常見難題。打開搜狗翻譯APP點擊「作文批改」功能, AI寫作助手便可針對用戶輸入的作文內容,指出寫作中基礎的語法或拼寫等錯誤,提供8種經AI算法優化後的語句潤色升級方式。用戶還能利用批改前後對照功能,通過「輸入-反饋-修正-對比」的良性循環方式,科學、高效的提升寫作能力。
  • 邏輯對於託福寫作的重要性
    誠然,文採很重要,但我們不得不面對一個殘酷的現實,很多託福寫作拿不到高分的同學的中文作文往往好不到哪裡去,只不過自己沒有意識到而已。不信,大家可以用中文寫一下託福寫作的題目,雖然可以使用地道的中文表達(比如成語),但往往讀起來也乏善可陳。 一篇文章是否精彩,讀者判斷的核心依據不是講「漂亮」話,而是能不能把話講「清楚」。
  • 人工智慧侵入內容寫作,人類作者還能幹點什麼?
    而人類作者比如我,過去有一段時間,在內容寫作上陷入一種疲態:碎片化內容五花八門,可挖掘的點很多,但真正落筆時,總有立意不新,詞不達意之類的困頓,甚至偶爾會腦中一片空白。在實際操作過程中,它們開始測試機器人寫作,這種技術層面的角力,也關係到內容大戰的最終走向。正如科技新媒體智東西總結的那般,專業的人類寫作者必須關注兩個事實:1、在垂直領域的報導中,寫稿機器人已經被高頻率採用;2、騰訊、今日頭條、阿里和百度,是國內寫稿機器人技術應用最早和最為成熟的平臺。我們已經可以預見:未來越來越多的基礎文字寫手將讓位於機器。
  • Transformer自動糾語法、改論文,我們試了這個免費英文寫作新神器
    也許小夥伴們正在備考四六級或託福雅思,也許正在寫機器學習論文,這篇文章將介紹有道詞典中的 AI 作文批改,將我們寫的英文傳到 APP 上,它將自動批改打分,並且糾正我們的語法、拼寫等錯誤。AI 作文批改功能已經放到了最新版本的有道詞典 APP 中,我們先試用了一下雅思作文與 arXiv 上的論文。
  • 人工智慧在機場安全安保中的應用與發展
    那麼,對於機場安全安保來說,人工智慧到底有什麼影響?又會對安全安保有哪些新思路,新方向呢?近日,公安部第三研究所物聯網技術研發中心主任梅林在第四屆中國機場安全(安保)大會上就「人工智慧在機場安全安保中的應用」發表了主旨演講,並對未來機場安全安保智能化發展起到了拋磚引玉、推波助瀾的重要作用。
  • AI批改英語作文行不行?免費,覆蓋雅思考研四六級,打分評語糾錯都得有
    原創 關注前沿科技 量子位煢煢 發自 凹非寺量子位 報導 | 公眾號 QbitAI我,一個科技小編,最近在跟國外大佬的郵件交流中,感到飄過六級後的自己英語寫作水平那真是日漸捉急。
  • 智能寫作-人工智慧寫作的發展你怎麼看?
    近幾年來,人工智慧開始出現在我們的日常生活中,像照相機和麥克風后面一般都會有人臉和語音識別的人工智慧。除判斷能力外,現在的人工智慧還可以主動生成內容,比如前一陣子有人藉助人工智慧將《射鵰英雄傳》中的朱茵全部換成了楊冪,居然可以以假亂真。
  • 託福寫作:教你"造句"
    新託福寫作的評分標準比較高,在語言上的考察點也是非常高,所以新託福考試在語言上一定要引起極度重視,很多考生對於託福寫作一籌莫展,那麼我們怎麼完成一篇優秀的文章呢?其中詞彙的重要性我們必須重視,包括遣詞和造句兩個方面。下面小編為大家推薦幾種表達方式幫大家達到造句的高分。
  • 12.13更新 | 12月託福線上考位情況(美東時區)
    請回復「2019寫作」想要獲取TOEFL歷年獨立寫作題目+破題思路請回復「寫作思路」想要獲取TOEFL聽力/閱讀素材百科請回復「素材百科」想要獲取TOEFL歷年詞彙真題請回復「TOEFL歷年詞彙真題」想要獲取TOEFL口語套路請回復「TOEFL
  • 一鍵拍照上傳,科大訊飛英語通AI手寫作文批改助力寫作水平提高
    今天要為各位家長安利的這款可攜式英語學習機是由國內人工智慧,企業科大訊飛打造的,下面我們就來簡單的了解一下這款產品。  一鍵拍照上傳,支持AI手寫作文批改  訊飛英語通還支持AI手寫作文批改,這項功能是基於訊飛收集了10萬份考生作文練習數據後,進行的深度學習算法,並搭載四、六級、中高考同源的
  • 託福寫作詞彙巧用有技巧
    託福寫作詞彙使用有3大技巧:託福寫作高分的必要因素包括準確的詞彙和詞組;嚴密的邏輯結構,有力的主題和論據等。一般來說,託福寫作詞彙使用有3方面的技巧:選詞時要符合語言習慣並與社會文化諸多背景一致;選詞時要考慮主題、對象及情景;應把握好英語和漢語詞彙無法對應的部分。