近日,綜合AI技術服務商先聲智能隆重推出語法改錯系統,這是繼智能語音測評、寫作批改、自適應學習等系統後的又一重大技術突破,下面就讓我們來了解下什麼是語法改錯系統。
自動語法改錯 (Grammatical Error Correction, GEC) 是一項改正句子中所有語法錯誤的任務,如:
輸入: He go school yestoday and got injure.
輸出: He went to school yesterday and got injured.
在這個例子中,我們發現並改正的錯誤有拼寫錯誤, yestoday -> yesterday; 時態錯誤 go -> went ;詞性錯誤 injure -> injured ;介詞缺失to 。
自動語法改錯的主要方法有:
圖1. GEC應對策略
由於真實的語言環境非常複雜,錯誤類型繁多,圖2是關於主謂一致的例子,左圖簡單的情形,可以制定規則處理。不過真實情境中會有很多類似右圖中的例子。因此基於規則的方法很快就變得異常繁瑣,難以維護。而基於分類的方法往往是針對各種語法錯誤分別訓練模型,但是語法錯誤的類型繁多,很多錯誤無法被準確分類到某種語法錯誤。基於語言模型的方法,一般來說所需要的GEC數據較少,但其效果也較差。目前處理GEC問題最為有效的方法是基於翻譯的方法:該方法的原理是把需要進行糾正的語言作為源語言,把改錯後的語言作為目標語言的翻譯過程。
圖2 主謂一致樣例
基於詞組的統計翻譯模型 (Phrase-based Statistical Machine Translation, PBSMT) 曾經是GEC最為有效的方法之一。該方法先在訓練數據上用IBM Model找出源語言的詞組與目標語言詞組之間的對應關係,並統計出相應的詞組對的概率,然後在語言模型的支持下完成翻譯過程,如圖3所示。
圖3. PBSMT
隨著近年來神經翻譯的技術的發展,新模型、新算法的不斷提出,從經典的基於循環神經網絡的sequence-to-sequence模型,到注意力機制的引入,再到Convolutional sequence-to-sequence模型與Transformer,隨著一代代神經翻譯模型的不斷進化,基於神經翻譯模型的自動語法改錯模型性能得到了飛速的提高。
圖4 Convolutional seq2seq (左)[1] 與 Transformer (右)[2]
圖5 近年來在CoNLL-2014上GEC模型的表現趨勢
然而與翻譯問題相比,自動語法改錯的標註數據遠遠少於翻譯的數據。而訓練神經翻譯模型,尤其是如Transformer需要較大的數據量才能充分發揮模型的表達能力。經過半年多的探索,先聲智能的NLP團隊提出了一種利用沒有語法錯誤的單語言數據進行無監督預訓練的方法,具體的說就是利用單語言數據通過複雜的策略構造錯誤數據來生成用於訓練GEC模型所需要的平行語料 (如表1例子所示)。
表1 生成的平行語料樣例
為了構造錯誤數據,我們提出了Word Tree 數據結構。Word Tree是由一組擁有相同詞根、不同後綴的單詞組成。如圖6樣例use所示,樹的每個節點表示以use為詞根的單詞如useless,以及對應的EPOS (Extended Part-of-Speech) 標籤NN_JJ_L。其中EPOS由詞性與詞綴變化規則推衍得到。
圖6. Word Tree: use
先聲智能語法改錯系統利用所設計的平行語料生成方法利用單語言數據生成了31億詞的文本,該數據量是所有公開的GEC標註數據的221倍。
先聲智能語法改錯系統採用了Transformer作為基礎模型,我們先在生成的平行語料上預訓練,之後在標註數據上繼續訓練。該方法訓練得到的模型在幾個標準測試集上取得了已知的最佳結果,具體結果如下表所示:
表2. 先聲智能語法改錯系統與其它系統的效果比較. (1) Junczys-D et al., 2016 [5]; (2) Chollampatt & Ng, 2017 [6]; (3) Ji et al. 2017 [7]; (4) Chollampatt & Ng, 2018 [8]; (5) Grundkiewicz et al., 2018 [9]; (6) Lichtarge et al., 2018 [4]; (7) Xu et al., 2019 [10].
因此, 先聲智能語法改錯系統在CoNLL-2014上比起之前的系統有了較大幅度的提高, 並在CoNLL-10與JFLEG上均達到了人類的水平。表2中匯報的數據為2019年3月時先聲智能語法改錯系統的結果。經過幾個月的發展,我們再次取得近10%的效果提升。表3為幾個具體的改錯例子。可以看出來,先聲智能語法改錯系統,不僅可以修改時態、主謂一致等語法問題,還可以處理從句、用詞不當等複雜問題,專治中式英語。對於廣大學生、辦公室白領們來說,真是一大福音。
表3. 先聲智能語法改錯模型改錯樣例
參考文獻
[1] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N Dauphin. 2017. Convolutional sequence to sequence learning. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 1243–1252. JMLR. org
[2] Ashish Vaswani, et al. 2017. Attention is all you need. In Advances in neural information processing systems.
[3] Marcin Junczys-Dowmunt, Roman Grundkiewicz, Shubha Guha, and Kenneth Heaeld. 2018. Approaching neural grammatical error correction as a low-resource machine translation task. arXiv preprint arXiv:1804.05940.
[4] Jared Lichtarge, et al. 2018. Weakly supervised grammatical error correction using iterative decoding. arXiv preprint arXiv:1811.01710.
[5] Marcin Junczys-Dowmunt and Roman Grundkiewicz. 2016. Phrase-based machine translation is state-ofthe-art for automatic grammatical error correction. arXiv preprint arXiv:1605.06353.
[6] Chollampatt S, Ng H T. 2017. Connecting the dots: Towards human-level grammatical error correction. In Proceedings of the 12th Workshop on Innovative Use of NLP for Building Educational Applications.
[7] Ji J, Wang Q, Toutanova K, et al. 2017. A nested attention neural hybrid model for grammatical error correction[J]. arXiv preprint arXiv:1707.02026.
[8] Shamil Chollampatt and Hwee Tou Ng. 2018a. A multilayer convolutional encoder-decoder neural network for grammatical error correction. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence.
[9] Roman Grundkiewicz and Marcin Junczys-Dowmunt. 2018. Near human-level performance in grammatical error correction with hybrid machine translation. arXiv preprint arXiv:1804.05945.
[10] Shuyao Xu, et al. 2019. Erroneous data generation for Grammatical Error Correction. In Proceedings of the 14th Workshop on Innovative Use of NLP for Building Educational Applications, Florence, Italy, August. Association for Computational Linguistics.
北京先聲智能作為一家人工智慧企業,目前落地在教育領域,成立兩年內完成3輪融資,投資方為聯想之星,思必馳,浙大友創,創世夥伴資本,好未來。核心團隊70%為技術人員,分別來自騰訊、多鄰國、卡內基梅隆大學、愛丁堡大學、帝國理工大學等。具備深厚的技術背景及成功的項目運營經驗,並於2018年引入CMU計算機系教授作為首席科學家,Alexander I. Rudnicky教授是人工智慧語音對話頂級專家,擁有超過30年人工智慧&語音對話研究經驗,出版書籍、發表文章100多篇,著作等身。經過3年多的發展,先聲智能已實現從單點智能語音評測走向綜合AI技術服務商的轉變,已擁有智能語音測評、智能寫作批改、自適應學習等綜合AI技術矩陣,並頻頻獲得國際NAACL自適應學習大賽第一名、雷鋒網最佳口語測試獎、入選國家級《人工智慧+教育藍皮書》等多項國內外頂級榮譽。目前已服務數百家行業頭部企業,如百度、新東方、好未來等。
未來先聲將不斷加大對技術的研發投入及人才梯隊的儲備建設,致力於通過AI技術賦能教育行業,助力教育信息化2.0產業升級,切實為老師家長減負、幫助學生高效學習。