先聲智能發布語法改錯系統

2020-12-12 先聲智能

近日,綜合AI技術服務商先聲智能隆重推出語法改錯系統,這是繼智能語音測評、寫作批改、自適應學習等系統後的又一重大技術突破,下面就讓我們來了解下什麼是語法改錯系統。

自動語法改錯 (Grammatical Error Correction, GEC) 是一項改正句子中所有語法錯誤的任務,如:

輸入: He go school yestoday and got injure.

輸出: He went to school yesterday and got injured.

在這個例子中,我們發現並改正的錯誤有拼寫錯誤, yestoday -> yesterday; 時態錯誤 go -> went ;詞性錯誤 injure -> injured ;介詞缺失to 。

自動語法改錯的主要方法有:

圖1. GEC應對策略

由於真實的語言環境非常複雜,錯誤類型繁多,圖2是關於主謂一致的例子,左圖簡單的情形,可以制定規則處理。不過真實情境中會有很多類似右圖中的例子。因此基於規則的方法很快就變得異常繁瑣,難以維護。而基於分類的方法往往是針對各種語法錯誤分別訓練模型,但是語法錯誤的類型繁多,很多錯誤無法被準確分類到某種語法錯誤。基於語言模型的方法,一般來說所需要的GEC數據較少,但其效果也較差。目前處理GEC問題最為有效的方法是基於翻譯的方法:該方法的原理是把需要進行糾正的語言作為源語言,把改錯後的語言作為目標語言的翻譯過程。

圖2 主謂一致樣例

基於詞組的統計翻譯模型 (Phrase-based Statistical Machine Translation, PBSMT) 曾經是GEC最為有效的方法之一。該方法先在訓練數據上用IBM Model找出源語言的詞組與目標語言詞組之間的對應關係,並統計出相應的詞組對的概率,然後在語言模型的支持下完成翻譯過程,如圖3所示。

圖3. PBSMT

隨著近年來神經翻譯的技術的發展,新模型、新算法的不斷提出,從經典的基於循環神經網絡的sequence-to-sequence模型,到注意力機制的引入,再到Convolutional sequence-to-sequence模型與Transformer,隨著一代代神經翻譯模型的不斷進化,基於神經翻譯模型的自動語法改錯模型性能得到了飛速的提高。

圖4 Convolutional seq2seq (左)[1] 與 Transformer (右)[2]

圖5 近年來在CoNLL-2014上GEC模型的表現趨勢

然而與翻譯問題相比,自動語法改錯的標註數據遠遠少於翻譯的數據。而訓練神經翻譯模型,尤其是如Transformer需要較大的數據量才能充分發揮模型的表達能力。經過半年多的探索,先聲智能的NLP團隊提出了一種利用沒有語法錯誤的單語言數據進行無監督預訓練的方法,具體的說就是利用單語言數據通過複雜的策略構造錯誤數據來生成用於訓練GEC模型所需要的平行語料 (如表1例子所示)。

表1 生成的平行語料樣例

為了構造錯誤數據,我們提出了Word Tree 數據結構。Word Tree是由一組擁有相同詞根、不同後綴的單詞組成。如圖6樣例use所示,樹的每個節點表示以use為詞根的單詞如useless,以及對應的EPOS (Extended Part-of-Speech) 標籤NN_JJ_L。其中EPOS由詞性與詞綴變化規則推衍得到。

圖6. Word Tree: use

先聲智能語法改錯系統利用所設計的平行語料生成方法利用單語言數據生成了31億詞的文本,該數據量是所有公開的GEC標註數據的221倍。

先聲智能語法改錯系統採用了Transformer作為基礎模型,我們先在生成的平行語料上預訓練,之後在標註數據上繼續訓練。該方法訓練得到的模型在幾個標準測試集上取得了已知的最佳結果,具體結果如下表所示:

表2. 先聲智能語法改錯系統與其它系統的效果比較. (1) Junczys-D et al., 2016 [5]; (2) Chollampatt & Ng, 2017 [6]; (3) Ji et al. 2017 [7]; (4) Chollampatt & Ng, 2018 [8]; (5) Grundkiewicz et al., 2018 [9]; (6) Lichtarge et al., 2018 [4]; (7) Xu et al., 2019 [10].

因此, 先聲智能語法改錯系統在CoNLL-2014上比起之前的系統有了較大幅度的提高, 並在CoNLL-10與JFLEG上均達到了人類的水平。表2中匯報的數據為2019年3月時先聲智能語法改錯系統的結果。經過幾個月的發展,我們再次取得近10%的效果提升。表3為幾個具體的改錯例子。可以看出來,先聲智能語法改錯系統,不僅可以修改時態、主謂一致等語法問題,還可以處理從句、用詞不當等複雜問題,專治中式英語。對於廣大學生、辦公室白領們來說,真是一大福音。

表3. 先聲智能語法改錯模型改錯樣例

參考文獻

[1] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N Dauphin. 2017. Convolutional sequence to sequence learning. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 1243–1252. JMLR. org

[2] Ashish Vaswani, et al. 2017. Attention is all you need. In Advances in neural information processing systems.

[3] Marcin Junczys-Dowmunt, Roman Grundkiewicz, Shubha Guha, and Kenneth Heaeld. 2018. Approaching neural grammatical error correction as a low-resource machine translation task. arXiv preprint arXiv:1804.05940.

[4] Jared Lichtarge, et al. 2018. Weakly supervised grammatical error correction using iterative decoding. arXiv preprint arXiv:1811.01710.

[5] Marcin Junczys-Dowmunt and Roman Grundkiewicz. 2016. Phrase-based machine translation is state-ofthe-art for automatic grammatical error correction. arXiv preprint arXiv:1605.06353.

[6] Chollampatt S, Ng H T. 2017. Connecting the dots: Towards human-level grammatical error correction. In Proceedings of the 12th Workshop on Innovative Use of NLP for Building Educational Applications.

[7] Ji J, Wang Q, Toutanova K, et al. 2017. A nested attention neural hybrid model for grammatical error correction[J]. arXiv preprint arXiv:1707.02026.

[8] Shamil Chollampatt and Hwee Tou Ng. 2018a. A multilayer convolutional encoder-decoder neural network for grammatical error correction. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence.

[9] Roman Grundkiewicz and Marcin Junczys-Dowmunt. 2018. Near human-level performance in grammatical error correction with hybrid machine translation. arXiv preprint arXiv:1804.05945.

[10] Shuyao Xu, et al. 2019. Erroneous data generation for Grammatical Error Correction. In Proceedings of the 14th Workshop on Innovative Use of NLP for Building Educational Applications, Florence, Italy, August. Association for Computational Linguistics.

北京先聲智能作為一家人工智慧企業,目前落地在教育領域,成立兩年內完成3輪融資,投資方為聯想之星,思必馳,浙大友創,創世夥伴資本,好未來。核心團隊70%為技術人員,分別來自騰訊、多鄰國、卡內基梅隆大學、愛丁堡大學、帝國理工大學等。具備深厚的技術背景及成功的項目運營經驗,並於2018年引入CMU計算機系教授作為首席科學家,Alexander I. Rudnicky教授是人工智慧語音對話頂級專家,擁有超過30年人工智慧&語音對話研究經驗,出版書籍、發表文章100多篇,著作等身。經過3年多的發展,先聲智能已實現從單點智能語音評測走向綜合AI技術服務商的轉變,已擁有智能語音測評、智能寫作批改、自適應學習等綜合AI技術矩陣,並頻頻獲得國際NAACL自適應學習大賽第一名、雷鋒網最佳口語測試獎、入選國家級《人工智慧+教育藍皮書》等多項國內外頂級榮譽。目前已服務數百家行業頭部企業,如百度、新東方、好未來等。

未來先聲將不斷加大對技術的研發投入及人才梯隊的儲備建設,致力於通過AI技術賦能教育行業,助力教育信息化2.0產業升級,切實為老師家長減負、幫助學生高效學習。

相關焦點

  • 搶佔家庭場景入口,先聲智能進軍AI+硬體語言學習市場
    近日,國內人工智慧技術服務商先聲智能,繼發布語法改錯系統後,又推出兒童語音測評系統。先聲智能表示此舉是為滿足家庭場景下兒童英語學習的剛需,同時進一步搶佔家庭學習場景入口,進軍AI+硬體語言學習市場。AI化浪潮下,AI與教育的結合將會給教育行業帶來哪些變化?AI+教育又會有哪些新的機遇?
  • 先聲教育推出智能寫作批改,圍繞 K12 英語學習場景搭建 AI 技術...
    在推出「智能口語評測」一年之後,先聲教育在近期推出了 AI 在英語教學場景裡新的應用產品 —— 智能寫作批改,「我們正在一步步地搭建我們的 AI 體系,逐步成為英語學習這個細分領域的人工智慧技術服務商。」 先聲教育 CTO 秦龍如是說到。
  • 先聲智能AI系統上線新功能:新增自然拼讀及實時自由識別+評分,覆蓋...
    2020年9月,教育綜合AI技術服務商先聲智能於業內率先推出自然拼讀及實時自由識別+評分兩大新功能,持續優化英語口語練習方式的同時,進一步覆蓋客戶啟蒙階段英語學習場景需求。
  • 專訪先聲智能首席科學家:用語音對話系統教中國孩子說外語
    Rudnicky是卡內基梅隆大學的計算機科學教授,對AI和語音對話研究超過30年,近日,智東西就語音對話系統在AI語言學習上的應用對他進行了獨家採訪。Rudnicky目前正致力於將語音對話系統技術落地在先聲智能的AI教學產品上。Rudnicky認為語音對話系統不僅能用於功課輔導功能,還能通過對學生興趣數據的分析與孩子產生情感溝通,建立信任。
  • 獵豹移動|先聲智能 機器人AI英語陪練時代開啟
    這款兒童家教機器人搭載了國內領先人工智慧服務商先聲智能的英語AI系統,支持跟讀、糾正、15大維度測評等,可充當兒童的英語陪練,相當於擁有了一個外教老師,真正做到解決家長無法教兒童英語痛點。而在網際網路的未來新增流量池裡,基於家庭場景的智能生活正在引爆下一個入口級市場,而目前這一場景的主導者,就是風口之上的智能音箱。市場分析公司Canalys最近發布的報告顯示,今年第一季度中國智能音箱出貨180萬臺,成為僅次於美國的全球第二大智能音箱市場。正如獵豹內部人士說到:智能音響不是剛需,帶屏音響不是剛需,英語輔助學習才是剛需。
  • 先聲智能與玩瞳VisionTalk達成戰略合作,開啟「多模態AI英語學習...
    先聲智能&玩瞳科技:多模態交互AI學習體驗,助力少兒英語學習市場從教學內容的角度來說,在兒童早期教育階段,少兒英語學習一定是孩子啟蒙的剛需。根據國家統計局發布的《2015—2020中國少兒英語培訓行業市場分析》,目前我國少兒英語培訓市場規模約為600億元人民幣,而且每年以20%的驚人速度增加。
  • 先聲智能與智伴科技達成戰略合作,共同探索AIED智能教育時代下的...
    同時,隨著人工智慧和智能家居時代的到來,兒童智能教育機器人、兒童智能陪護產品正逐漸為市場所認可,湧現出了多種多樣的早教兒童機器品牌及幼教資源,而如何將優質的教學資源帶入萬千家庭成為所有教育企業需要思考的問題。今年8月,國際領先的人工智慧技術服務商先聲智能與國內兒童教育機器人先鋒品牌智伴科技達成戰略合作。
  • 天貓精靈新技能上線,先聲智能推出AI英語老師
    雙11即將到來之際,國內領先的人工智慧公司先聲智能在阿里天貓精靈上推出「先聲學英語」AI老師,與阿里的「螞蟻森林」技能並行上線,學習內容涵蓋成人實用英語和幼兒啟蒙英語。此次先聲智能推出AI英語老師,也是首次智能音響繼IOT和電商領域後在AI+教育的布局。
  • 成功支持數十萬考生英語聽說中考,先聲智能口語測評正式面向全國中...
    近日,某沿海省份多地城市數十萬中考考生順利完成了一場「高效」的英語聽說考試,全程採用人機對話系統,一改傳統人工打分方式,機器閱卷評分大大節省了人工和時間成本,獲得了當地考試院及相關教育部門的高度認可,這背後離不開國內領先人工智慧技術服務商先聲智能的技術支持,這也是該團隊繼北京,廣東等省市人機考試服務後又一成功案例。
  • 先聲智能上線中文寫作批改,持續為教育加碼AI技能
    近日,教育綜合AI技術服務商先聲智能在原有AI技術矩陣的基礎上新增了中文寫作批改技術,繼續為教育加碼AI技能,並進一步覆蓋中文寫作教學場景。規模化、效率化、個性化是中文寫作批改技術的亮點所在。該項技術採用人工智慧自然語言處理及OCR圖像識別技術,可以掃描識別學生提交的作業,並根據老師設置的作文要求,對學生的作文進行自動打分給出相應的評語和建議並標註在試卷上,整個過程只需要幾秒,假如老師每次需要逐一批改40篇的作文,現在可以一鍵批量式完成,規模化的批改極大地提高了效率,保障每個學生能夠獲得個性化的點評,同時學生也可以通過該系統進行自評。
  • 先聲智能引入美國百年兒童經典讀物蟋蟀童書,進一步升級技術+內容...
    近日,國內領先的人工智慧技術服務商先聲智能與Cricket Media達成合作,引入美國百年經典讀物蟋蟀童書,針對幼兒英語啟蒙,為教育機構、智能終端提供「AI技術+內容」綜合解決方案。先聲智能作為行業領先的人工智慧技術服務商,藉助AI實現的語音互動,背後實則為內容輸出。與傳統企業AI技術服務商不同,先聲智能能以智能產品為紐帶,帶動整個兒童生態建設。除了以強大的AI技術為企業提供服務,先聲智能還能從家庭教育各個場景出發,將AI技術與優質內容資源整合推出,滿足早教領域對技術和內容的雙重需求,率先構建了兒童家庭教育生態。
  • 先聲智能與阿里釘釘達成深度合作,共同推進智能英語聽說解決方案落地
    近日,國內AI綜合技術服務商先聲智能與阿里釘釘達成深度合作,雙方將融合各自優勢領域共同打造AI+教育解決方案,為老師減輕負擔,幫助學生提高英語聽說能力,為教育行業提效降本,促進智能教育及教育信息化發展。
  • 改錯(Proofreading and Error Correction)——語法基礎
    改錯(Proofreading and Error Correction)——語法基礎解題思路改錯出題方式及真題演練
  • 英語題型短文改錯語法分析,語法點牢固掌握,題目都做對
    親愛的小夥伴們,今天我們主要講一下英語考試的題型短文改錯,這個題型對於同學們來講是一個重難點,因為這個題型是讓我們找語法錯誤點的然後進行糾正,因為很多同學自己的語法基礎沒有打牢過,在遇到這道題的時候就會感覺到力不從心,今天老師就來教你一些小技巧把我們應該得到的分數拿到。
  • 聯想之星投資,先聲教育5大AI技術能力提升英語教學效率
    先聲教育成立於2016年4月,定位是做垂直於教育領域的人工智慧公司,創始人陸勇毅表示:「我們是一家to B的公司,專注於企業服務,運用語音測評技術、作文批改、智能對話、自適應學習等人工智慧技術,來提升英語學習效率。」
  • 高中英語語法改錯題(附答案)
    高中英語語法改錯題
  • 拿到國際SLAM競賽英語組第一名後,先聲教育想成為人工智慧領域的...
    在先聲教育聯合創始人兼CTO秦龍的介紹中,先聲教育團隊是通過深度神經網絡進行建模獲得第一名成績的團隊,另外一家並列第一的團隊則綜合運用了深度神經網絡和簡單決策樹模型兩種方法。 先聲教育成立於2016年4月,公司基於語音識別、語音評測和自然語言處理等核心技術,自主開發的人工智慧技術成果目前涵蓋了智能語音評測技術、智能寫作批改技術、自適應學習技術、智能對話技術以及情感識別五個方面。
  • 2018 NAACL語言學習建模競賽:英語組冠軍先聲教育展望自適應學習...
    官網:https://www.cs.rochester.edu/~tetreaul/naacl-bea13.html值得一提的是,本次賽事奪冠也為先聲教育在雷鋒網學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」獲得加分。
  • 高考英語改錯題技巧 短文改錯常見錯誤類型
    高考英語改錯題技巧 短文改錯常見錯誤類型英語短文改錯是高考命題的必考題型之一,是集多項語法規則和多種語言技能於一身的綜合性試題,具有題型小,靈活性大,覆蓋面廣,綜合性強,測試層次多的特點。
  • 先聲智能聯合創始人秦龍:AI正幫助每個孩子學好英語
    先聲智能聯合創始人兼CTO秦龍進行了名為《AI正幫助每個孩子學好英語》的演講。以下為專場討論實錄,未經對方審核:大家下午好,首先非常感謝創業邦給我們這個機會,跟大家探討一下人工智慧怎麼在英語學習上做改變的。