第六屆中文語法錯誤診斷大賽,哈工大訊飛聯合實驗室再獲多項冠軍

2020-12-22 科教撰稿人

近日,第六屆中文語法錯誤診斷大賽(CGED)研討會於AACL 2020大會「面向教育技術的自然語言處理(NLPTEA)」workshop中順利舉行。今年共有國內外14支隊伍參賽,提交了44個系統。訊飛、阿里、上交、南大、有道、外研社、新華社等團隊均有精彩表現。其中,哈工大訊飛聯合實驗室(下文簡稱HFL)團隊獲得綜合排名第一的成績,多項核心指標保持領先。

A.I.也能改作文,我們拿下多項冠軍!

中文語法錯誤診斷大賽官方網頁

曾經,語文老師批改作文的場景還歷歷在目——從文章裡找出贅餘、少詞、語序不當、語意不通的地方,然後一一改正。

最近,這場世界級比賽就把上述場景作為考點——第6屆中文語法錯誤診斷大賽(CGED)。主辦方會挑選外國人寫作的中文句子作為考題,參賽團隊需要利用A.I.算法技術對其中的語法語義錯誤進行識別,對部分類別錯誤進行修正,並進行系統性能評估。

可別小看了這場「語法批改大賽」,它所考驗的能力十分綜合。涉及到參賽隊伍的語病識別能力(識別句子是否有錯誤)、語病分類能力(識別具體的錯誤類型)、語病定位能力(識別錯誤的位置和類型)、語病修正能力(對於缺失和用詞不當,提供修正建議)等等。

語病錯誤類型舉例表

最終,在語病識別、語病分類、語病定位、語病修正四類核心指標中,HFL在兩項關鍵指標中獲取冠軍,另外獲得一項第二和一項第三。這也是繼上一屆大賽(CGED 2018)奪冠後,持續保持技術領先的又一份成績單。

CGED 2020 Identification-level指標情況

CGED 2020 Position-level指標情況

CGED 2020 Correction top1 指標情況

縱觀最近幾年的比賽成績,中文語法檢錯技術不斷進步,檢錯效果在不斷提升。背後付出了哪些努力?

原來,隨著深度學習相關技術的快速發展,越來越適合任務本身的模型被研究出來,並且隨著預訓練語言模型的發展,更多的外部知識被加入到模型中,使得模型的表徵能力越來越強。HFL就是以深度學習技術與預訓練語言模型為基礎,結合集成學習相關技術,完成對語病的精準識別、定位與修正。

真題實戰,看看這位A.I.冠軍如何修煉

本次HFL參賽評測方案,主要分為檢測和修正兩部分。在檢測任務中,我們提出了ResBERT檢測模型,這種模型可以幫助我們更好地檢測出語法的錯誤類型與位置信息等。

ResBERT模型結構圖

在修正任務中,我們針對缺失和用詞不當錯誤分別採用如下兩種方案進行修正:針對缺失錯誤,我們首先預測缺失位置、缺失字數,然後再使用語言模型生成候選修正結果,最後通過對多個候選修正結果的綜合比較來確定最終修正結果。針對用詞不當錯誤,我們綜合考慮字音、字形相似度以及語言模型打分來選出最終的修正結果。

例如「請座的小朋友把手放在膝蓋上」一句,我們根據檢測模型,可以判斷出「請座」中間缺少一個字,再根據修正方案確定在「請」與「座」中間需要加一個「在」字,即句子最終被修正為「請在座的小朋友把手放在膝蓋上」。

當然,我們看到今年的比賽中語病修正的指標還很低,最高的F1值也未超過0.2,原因是什麼呢?我們分析評測數據來看,數據以單句形式給出,比如「那個時候我嘗嘗去美術館參觀畫。」語病修正的參考答案為:將「嘗嘗」改為「嘗試」,而合理的修正方法其實有很多種,比如也可以改成「常常」等。僅通過單句的信息,無法確定唯一的修正結果,需要更多的上下文信息才能確定作者所要表達的真實意圖。這給評測數據的構建也提出了不小的挑戰。

因此,要想提升語病修正的效果並在實際產品中應用,對於篇章級文本的診斷分析是非常有必要的,這也給未來的評測和技術提出了更高的要求。

技術落地應用,我們讓A.I.走得更遠

在堅持核心技術研究不斷創新進步的同時,我們也不斷讓A.I.賦能於應用,服務於生活的方方面面。

多種辦公場景下,人們長時間從事文字工作難免出錯。無論是撰寫文檔,還是在信息共享與儲存場景中,當前流行的辦公工具對中文文本校對未能提供很好支持,智能辦公亟待升級。

HFL基於長期以來的技術積累,早在2019年12月1日,便正式發布了「飛鷹智能文本校對系統」

飛鷹校對涵蓋文本校對的別字糾錯、語法糾錯、標點糾錯及敏感詞檢測等不同校對模塊,並且可針對不同領域的文本校對需求,為行業客戶提供定製化的解決方案,現已支持通用領域、司法領域和教育領域文本校對服務。

飛鷹智能文本校對系統

此外,中文語法錯誤診斷技術還被應用於作文自動批改中,包括錯別字修正、語法檢錯等功能,目前已在中小學作業、訊飛學習機等產品中應用落地,輔助減輕老師作文批改的工作負擔,也可以幫助學生在自主學習中及時獲得作文批改的反饋。

科大訊飛作文自動批改

未來,隨著技術的不斷進步,以中文語法錯誤診斷與修正技術為核心的文本校對將在編輯出版、公文撰寫、作文批改以及廣大自媒體文稿寫作等場景中發揮越來越大的作用,應用前景廣闊。

布局訊飛超腦,HFL讓機器能理解會思考

哈工大訊飛聯合實驗室(HFL)是科大訊飛針對「訊飛超腦」項目計劃,重點引進和布局的核心研發團隊之一,成立於2014年,由哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)與科大訊飛AI研究院共同創辦。

根據聯合實驗室建設規劃,雙方在語言認知計算領域進行長期、深入合作,具體開展閱讀理解、自動閱卷、類人答題、人機對話、語音識別後處理、社會輿情計算等前瞻課題的研究,支撐科大訊飛實現從「能聽會說」到「能理解會思考」的技術跨越,並圍繞教育、司法、人機互動等領域實現科研成果的規模化應用與落地。

2017年至2019年,哈工大訊飛聯合實驗室在國際權威機器閱讀理解評測SQuAD、SQuAD 2.0多次獲得冠軍。其中2019年3月,在SQuAD 2.0評測中全球首次超過人類平均水平並成為裡程碑事件。2018年獲得國際語義評測(SemEval 2018)閱讀理解賽道冠軍。2019年至2020年,在多步推理閱讀理解評測HotpotQA雙賽道均獲得冠軍。2020年,在國際權威通用自然語言理解評測GLUE中獲得冠軍。

相關焦點

  • 哈工大訊飛聯合實驗室榮獲權威自然語言理解評測GLUE冠軍
    1/8月26日,第11屆虎嘯獎頒獎典禮在上海舉行。科大訊飛品牌營銷、A.I.營銷全面開花,共斬獲5項大獎。  2/8月27日上午,歐美同學會(中國留學人員聯誼會)黨組書記、秘書長王丕君,安徽省委統戰部副部長王琦一行赴科大訊飛合肥總部進行參觀考察。雙方圍繞人工智慧賦能產業生態建設,以及國際業務合作等方面進行深入交流。
  • 網易有道AI團隊拿下中文語法錯誤診斷大賽
    12月初,第六屆中文語法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,以下簡稱CGED)公布最終成績,作為首次參賽的隊伍,有道AI自然語言處理(NLP)團隊在比賽中的語法糾錯Top3賽道斬獲冠軍,並且在另外兩個賽道(語法糾錯Top1、錯誤定位)位列前三,這也標誌著有道AI在中文作文批改上取得的又一重大進展。
  • 通關英語,再戰中文,網易有道AI團隊首戰中文語法錯誤診斷大賽奪冠
    12月初,第六屆中文語法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,以下簡稱CGED)公布最終成績,作為首次參賽的隊伍,有道AI自然語言處理(NLP)團隊在比賽中的語法糾錯Top3賽道斬獲冠軍,並且在另外兩個賽道(語糾錯Top1、錯誤定位)位列前三,這也標誌著有道AI在中文作文批改上取得的又一重大進展。
  • 訊飛英語通評測:5英寸黃金機身 超便攜專業AI英語輔導助教
    比如需要查詢「surprise」中文釋義,直接對訊飛英語通讀出s-u-r-p-r-i-s-e單詞,便能快速查詢到「驚喜」的中文釋義。還能快速查找權威詞典對應解釋。訊飛英語通支持的AI語音識別技術,搭載科大訊飛人工智慧翻譯引擎,日常學習時,還能對網課中的老師口語表達實時快速翻譯,中英在線翻譯支持離線使用。
  • 晉級名單 | 第六屆金蝸牛填詞大賽
    由華唱原創音樂基金會發起、深圳市福田區文體事業發展專項資金資助,深圳市福田區委宣傳部、福田區文廣旅體局、合縱文化集團聯合主辦,深圳本色承辦,匠星娛樂、胡桃裡音樂酒館等品牌協辦的第六屆金蝸牛填詞大賽,歷經8月8日至
  • 專業「私教」:訊飛英語通全程陪伴!學生期待的「新玩物」
    隨著科技的發展,AI的出現,讓一切都變為有可能,2020年5月8日,科大訊飛發布了可攜式人工智慧英語學習機訊飛英語通,並且是現貨發售。訊飛英語通打出的賣點就是融入了人工智慧,通過深度人工智慧技術,實現了在線輔導一對一的模式,學員們便可以自由選擇聽力、口語、閱讀、寫作、詞彙、翻譯、語法、測驗等各個維度的專項練習。
  • 第六屆金蝸牛填詞大賽 落幕
    深圳特區報訊(記者 張銳)近日,深圳市第十六屆「創意十二月」系列活動之一、第六屆金蝸牛填詞大賽全國總決賽頒獎晚會在深圳福田區文化館石廈星空劇場圓滿落幕,來自南京的填詞人劉傳彪摘得冠軍。 據悉,金蝸牛填詞大賽是一檔以音樂填詞為核心的年度原創歌詞賽事。
  • 訊飛英語通用AI助孩子彎道超車!
    科大訊飛在消費者市場的一系列教育A.I.產品相信能解決這個問題。科大訊飛新近上架的針對中學生群體的一款可攜式人工智慧英語學習機,學習內容全面覆蓋英語學習中聽、說、讀、寫、查詞、模擬考評等各個專項,強大的AI語音一鍵查詞、AI情景對話練習、AI手寫作文批改等實現全方位英語學習輔導,實時、高效的解決英語學習困難,提升英語能力及考試成績。
  • 省人民醫院在第六屆陝西省醫院品管圈大賽中獲佳績 - 瀟湘名醫
    >begin-->省人民醫院在第六屆陝西省醫院品管圈大賽中獲佳績>end-->>begin--> 2020年8月22-23日,省人民醫院在「第八屆全國醫院品管圈大賽暨第六屆陝西省醫院品管圈大賽」中獲佳績,取得各類獎項一等獎、二等獎、
  • 好歌詞刻錄時代「金」聲——第六屆金蝸牛填詞大賽深圳落幕
    12月8日晚,第六屆金蝸牛填詞大賽全國總決賽頒獎晚會,在深圳福田區文化館石廈星空劇場圓滿落幕,來自南京的填詞人劉傳彪摘得冠軍殊榮。金蝸牛填詞大賽是一檔以音樂填詞為核心的年度原創歌詞賽事,從2015年起,秉承「尊重創作人才、鼓勵潛力新人、關注後期培養」的宗旨,挖掘、培養青年填詞人,向華語樂壇持續輸出優秀人才及作品。
  • 騰訊天衍實驗室斬獲CCKS2020試驗裝備NER任務冠軍
    近日,第十四屆全國知識圖譜與語義計算大會(CCKS2020)舉辦的知識圖譜與語義計算技術評測競賽結果公布,騰訊天衍實驗室從213支參賽隊伍中脫穎而出,斬獲試驗裝備鑑定領域實體抽取(NER)任務冠軍,體現了在實體抽取和知識圖譜領域的技術實力。
  • 第六屆鄭州電視臺全國主持人大賽總決賽收官
    9月20日,「上汽榮威杯 夢想融主播」2020第六屆鄭州電視臺全國主持人大賽總決賽圓滿收官。鄭州電視臺全國主持人大賽,是鄭州電視臺主辦的知名品牌賽事活動。自2002年第一屆主持人大賽舉辦以來,已成功舉辦五屆。
  • 讓機器「讀懂」醫療 天衍實驗室獲CHIP2020評測兩大獎項
    日前,第六屆中國健康信息處理大會(CHIP 2020)舉辦的中文醫學信息處理評測競賽圓滿結賽,騰訊天衍實驗室依託其在醫學領域的長期技術積累和創新探索,一舉獲得「中文醫學文本命名實體識別」賽道冠軍、「中文醫學文本實體關係抽取」賽道亞軍。
  • 好歌詞刻錄時代「金」聲 第六屆金蝸牛填詞大賽深圳落幕
    Yes娛樂12月10日 報導:12月8日晚,第六屆金蝸牛填詞大賽全國總決賽頒獎晚會,在深圳福田區文化館石廈星空劇場圓滿落幕,來自南京的填詞人劉傳彪摘得冠軍殊榮。 據悉,第六屆金蝸牛填詞大賽自8月8日開啟,經歷64天全球海選,通過填詞、作詞、金句三信道,聯合西窗燭App、萬象創作App、句子控App等10個網絡分賽區同步徵集,報名選手超過16000人。經過三期複賽、半決賽、總決賽創作營等層層選拔,最終8名單人選手、2組戰隊晉級全國十強。
  • 2020第24屆環球夫人大賽 哈爾濱總決賽暨2021新聞發布會
    本次大賽由2015年—2020年環球夫人大賽黑龍江區域連屆主席,邢玉紅女士第六年開展舉辦黑龍江區域賽事,她曾經獲得2014第十八屆環球夫人大賽「雙料冠軍」及2014第十八屆環球夫人大賽全球總決賽「環球公益愛心慈善大使最高獎項獲得者」2015年環球夫人大賽中國區執行副主席、2016年首屆榮譽主席、特邀專家評委、2016年央視星光大道特邀評委、全國30多家企業品牌形象代言人
  • 川音流行音樂學院畢業生楊念慈獲網易雲音樂第六屆全國校園歌手大賽冠軍
    2020年12月20日,2020「少年音樂大戰」暨網易雲音樂第六屆全國校園歌手決賽在廣州長隆歡樂世界圓滿落幕。歷經3個月激烈角逐,從30個城市2600所高校6.5萬名選手中選拔出來的全國20強在決賽舞臺呈現多輪精彩表演。最終經過袁婭維、隔壁老樊、顏人中等明星導師、專業鑑音團以及大眾評審團現場打分,四川音樂學院流行音樂學院流行演唱系畢業生楊念慈獲得了本次全國校園歌手大賽冠軍。
  • 科大訊飛造假?真相來了
    文 | 《中國企業家》記者 張弘編輯 | 徐曇近日,一篇關於「科大訊飛AI同傳造假」的爆料帖將科大訊飛推上了輿論的風口浪尖。9月20日,一位自稱在現場的同聲傳譯員爆料稱,科大訊飛在近日舉辦的一次會議上採用的「智能翻譯」並非採用AI翻譯,而是機器識別同傳說出的譯文後,再將譯文投放到屏幕和直播中,直播中播出語音合成的人聲。
  • 巫山劉茜,獲第六屆「愛· 重慶」微電影大賽最佳女主角
    祝賀微電影《麼哩隊長》喜獲第六屆「愛·重慶」微電影大賽二等獎。劉茜喜獲第六屆「愛 · 重慶」微電影大賽最佳女主角。據了解,第六屆「愛•重慶」微電影大賽由市委宣傳部、市委網信辦、市文明辦主辦,頒獎典禮由重慶日報報業集團、重慶工商大學、南岸區委宣傳部、今日重慶雜誌社聯合承辦。大賽自今年6月啟動以來,共徵集到來自全國各地的參賽作品475部,大賽循著決勝全面建成小康社會決戰脫貧攻堅、全民抗疫等時代烙印,通過光影的形式、專業的電影拍攝手法,展示了重慶「山水之城·美麗之地」的獨特魅力。
  • 學校在省大學生製冷空調創新設計大賽中獲多項榮譽
    學校在省大學生製冷空調創新設計大賽中獲多項榮譽 近期,第十二屆山東省大學生科技節暨第九屆山東省大學生製冷空調創新設計大賽落下帷幕,青島農業大學建築工程學院選拔的參賽作品在本次設計大賽中榮獲一等獎1項,二等獎2項,三等獎7項。