第六屆中文語法錯誤診斷大賽,哈工大訊飛聯合實驗室再獲多項冠軍

2020-12-14 科教撰稿人

近日,第六屆中文語法錯誤診斷大賽(CGED)研討會於AACL 2020大會「面向教育技術的自然語言處理(NLPTEA)」workshop中順利舉行。今年共有國內外14支隊伍參賽,提交了44個系統。訊飛、阿里、上交、南大、有道、外研社、新華社等團隊均有精彩表現。其中,哈工大訊飛聯合實驗室(下文簡稱HFL)團隊獲得綜合排名第一的成績,多項核心指標保持領先。

A.I.也能改作文,我們拿下多項冠軍!

中文語法錯誤診斷大賽官方網頁

曾經,語文老師批改作文的場景還歷歷在目——從文章裡找出贅餘、少詞、語序不當、語意不通的地方,然後一一改正。

最近,這場世界級比賽就把上述場景作為考點——第6屆中文語法錯誤診斷大賽(CGED)。主辦方會挑選外國人寫作的中文句子作為考題,參賽團隊需要利用A.I.算法技術對其中的語法語義錯誤進行識別,對部分類別錯誤進行修正,並進行系統性能評估。

可別小看了這場「語法批改大賽」,它所考驗的能力十分綜合。涉及到參賽隊伍的語病識別能力(識別句子是否有錯誤)、語病分類能力(識別具體的錯誤類型)、語病定位能力(識別錯誤的位置和類型)、語病修正能力(對於缺失和用詞不當,提供修正建議)等等。

語病錯誤類型舉例表

最終,在語病識別、語病分類、語病定位、語病修正四類核心指標中,HFL在兩項關鍵指標中獲取冠軍,另外獲得一項第二和一項第三。這也是繼上一屆大賽(CGED 2018)奪冠後,持續保持技術領先的又一份成績單。

CGED 2020 Identification-level指標情況

CGED 2020 Position-level指標情況

CGED 2020 Correction top1 指標情況

縱觀最近幾年的比賽成績,中文語法檢錯技術不斷進步,檢錯效果在不斷提升。背後付出了哪些努力?

原來,隨著深度學習相關技術的快速發展,越來越適合任務本身的模型被研究出來,並且隨著預訓練語言模型的發展,更多的外部知識被加入到模型中,使得模型的表徵能力越來越強。HFL就是以深度學習技術與預訓練語言模型為基礎,結合集成學習相關技術,完成對語病的精準識別、定位與修正。

真題實戰,看看這位A.I.冠軍如何修煉

本次HFL參賽評測方案,主要分為檢測和修正兩部分。在檢測任務中,我們提出了ResBERT檢測模型,這種模型可以幫助我們更好地檢測出語法的錯誤類型與位置信息等。

ResBERT模型結構圖

在修正任務中,我們針對缺失和用詞不當錯誤分別採用如下兩種方案進行修正:針對缺失錯誤,我們首先預測缺失位置、缺失字數,然後再使用語言模型生成候選修正結果,最後通過對多個候選修正結果的綜合比較來確定最終修正結果。針對用詞不當錯誤,我們綜合考慮字音、字形相似度以及語言模型打分來選出最終的修正結果。

例如「請座的小朋友把手放在膝蓋上」一句,我們根據檢測模型,可以判斷出「請座」中間缺少一個字,再根據修正方案確定在「請」與「座」中間需要加一個「在」字,即句子最終被修正為「請在座的小朋友把手放在膝蓋上」。

當然,我們看到今年的比賽中語病修正的指標還很低,最高的F1值也未超過0.2,原因是什麼呢?我們分析評測數據來看,數據以單句形式給出,比如「那個時候我嘗嘗去美術館參觀畫。」語病修正的參考答案為:將「嘗嘗」改為「嘗試」,而合理的修正方法其實有很多種,比如也可以改成「常常」等。僅通過單句的信息,無法確定唯一的修正結果,需要更多的上下文信息才能確定作者所要表達的真實意圖。這給評測數據的構建也提出了不小的挑戰。

因此,要想提升語病修正的效果並在實際產品中應用,對於篇章級文本的診斷分析是非常有必要的,這也給未來的評測和技術提出了更高的要求。

技術落地應用,我們讓A.I.走得更遠

在堅持核心技術研究不斷創新進步的同時,我們也不斷讓A.I.賦能於應用,服務於生活的方方面面。

多種辦公場景下,人們長時間從事文字工作難免出錯。無論是撰寫文檔,還是在信息共享與儲存場景中,當前流行的辦公工具對中文文本校對未能提供很好支持,智能辦公亟待升級。

HFL基於長期以來的技術積累,早在2019年12月1日,便正式發布了「飛鷹智能文本校對系統」

飛鷹校對涵蓋文本校對的別字糾錯、語法糾錯、標點糾錯及敏感詞檢測等不同校對模塊,並且可針對不同領域的文本校對需求,為行業客戶提供定製化的解決方案,現已支持通用領域、司法領域和教育領域文本校對服務。

飛鷹智能文本校對系統

此外,中文語法錯誤診斷技術還被應用於作文自動批改中,包括錯別字修正、語法檢錯等功能,目前已在中小學作業、訊飛學習機等產品中應用落地,輔助減輕老師作文批改的工作負擔,也可以幫助學生在自主學習中及時獲得作文批改的反饋。

科大訊飛作文自動批改

未來,隨著技術的不斷進步,以中文語法錯誤診斷與修正技術為核心的文本校對將在編輯出版、公文撰寫、作文批改以及廣大自媒體文稿寫作等場景中發揮越來越大的作用,應用前景廣闊。

布局訊飛超腦,HFL讓機器能理解會思考

哈工大訊飛聯合實驗室(HFL)是科大訊飛針對「訊飛超腦」項目計劃,重點引進和布局的核心研發團隊之一,成立於2014年,由哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)與科大訊飛AI研究院共同創辦。

根據聯合實驗室建設規劃,雙方在語言認知計算領域進行長期、深入合作,具體開展閱讀理解、自動閱卷、類人答題、人機對話、語音識別後處理、社會輿情計算等前瞻課題的研究,支撐科大訊飛實現從「能聽會說」到「能理解會思考」的技術跨越,並圍繞教育、司法、人機互動等領域實現科研成果的規模化應用與落地。

2017年至2019年,哈工大訊飛聯合實驗室在國際權威機器閱讀理解評測SQuAD、SQuAD 2.0多次獲得冠軍。其中2019年3月,在SQuAD 2.0評測中全球首次超過人類平均水平並成為裡程碑事件。2018年獲得國際語義評測(SemEval 2018)閱讀理解賽道冠軍。2019年至2020年,在多步推理閱讀理解評測HotpotQA雙賽道均獲得冠軍。2020年,在國際權威通用自然語言理解評測GLUE中獲得冠軍。

相關焦點

  • 網易有道AI團隊拿下中文語法錯誤診斷大賽
    12月初,第六屆中文語法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,以下簡稱CGED)公布最終成績,作為首次參賽的隊伍,有道AI自然語言處理(NLP)團隊在比賽中的語法糾錯Top3賽道斬獲冠軍,並且在另外兩個賽道(語法糾錯Top1、錯誤定位)位列前三,這也標誌著有道AI在中文作文批改上取得的又一重大進展。
  • 通關英語,再戰中文,網易有道AI團隊首戰中文語法錯誤診斷大賽奪冠
    12月初,第六屆中文語法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,以下簡稱CGED)公布最終成績,作為首次參賽的隊伍,有道AI自然語言處理(NLP)團隊在比賽中的語法糾錯Top3賽道斬獲冠軍,並且在另外兩個賽道(語糾錯Top1、錯誤定位)位列前三,這也標誌著有道AI在中文作文批改上取得的又一重大進展。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    而在中文領域,哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型,在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。基於 Transformers 的雙向編碼表示(BERT)在多個自然語言處理任務中取得了廣泛的性能提升。
  • 訊飛英語通評測:5英寸黃金機身 超便攜專業AI英語輔導助教
    比如需要查詢「surprise」中文釋義,直接對訊飛英語通讀出s-u-r-p-r-i-s-e單詞,便能快速查詢到「驚喜」的中文釋義。還能快速查找權威詞典對應解釋。訊飛英語通支持的AI語音識別技術,搭載科大訊飛人工智慧翻譯引擎,日常學習時,還能對網課中的老師口語表達實時快速翻譯,中英在線翻譯支持離線使用。
  • 粵北人民醫院-夏鹹柱院士病原體數位化精準診斷聯合實驗室掛牌成立
    粵北人民醫院-夏鹹柱院士病原體數位化精準診斷聯合實驗室掛牌成立 2020-11-29 12:38 來源:澎湃新聞·澎湃號·政務
  • 省人民醫院在第六屆陝西省醫院品管圈大賽中獲佳績 - 瀟湘名醫
    >begin-->省人民醫院在第六屆陝西省醫院品管圈大賽中獲佳績>end-->>begin--> 2020年8月22-23日,省人民醫院在「第八屆全國醫院品管圈大賽暨第六屆陝西省醫院品管圈大賽」中獲佳績,取得各類獎項一等獎、二等獎、
  • 省乒協第六屆段位大賽總決賽圓滿結束
    省乒協第六屆段位大賽總決賽圓滿結束 12月5日開幕的2020「中國體育彩票杯」江西省桌球協會第六屆會員段位大賽總決賽於12月6日在省體育館圓滿結束。省乒協名譽主席劉上洋宣布比賽開始。省乒協主席林軍致辭。經過激烈緊張的角逐,分別產生了五個組別冠軍。
  • 安陽工學院,2020年第六屆世界機器人大賽冠軍,為河南爭光
    世界機器人大賽,機器人界的「奧林匹克」,目前國內外影響廣泛的機器人領域的比賽。安陽工學院2020年第六屆世界機器人大賽總決賽在廣東佛山舉行,我們為之振奮的消息是安陽工學院計算機科學與信息工程學院王旭彬、郭圓輝兩名同學組成的代表隊榮獲「2020世界機器人大賽總決賽
  • 好歌詞刻錄時代「金」聲——第六屆金蝸牛填詞大賽深圳落幕
    12月8日晚,第六屆金蝸牛填詞大賽全國總決賽頒獎晚會,在深圳福田區文化館石廈星空劇場圓滿落幕,來自南京的填詞人劉傳彪摘得冠軍殊榮。 金蝸牛填詞大賽是一檔以音樂填詞為核心的年度原創歌詞賽事,從2015年起,秉承「尊重創作人才、鼓勵潛力新人、關注後期培養」的宗旨,挖掘、培養青年填詞人,向華語樂壇持續輸出優秀人才及作品。第六屆金蝸牛填詞大賽以「好歌詞,讓才華,擲地金聲」為主題,倡導高質量創作理念,期待作者從真實出發,留下可流行、可傳頌的經典作品,記錄時代「金」聲。
  • 科大訊飛摘得ICFHR 2020 OffRaSHME數學公式識別挑戰賽冠軍!
    提起科大訊飛,人們總津津樂道於「讓機器能聽會說」的先進智能語音技術。其實除此之外,科大訊飛的「攻城獅們」也一直致力於讓機器「能看會認」。近日,科大訊飛A.I.研究院聯合中科大語音及語言信息處理國家工程實驗室,以顯著優勢獲得ICFHR 2020 OffRaSHME數學公式識別挑戰賽冠軍。
  • 讓機器「讀懂」醫療 天衍實驗室獲CHIP2020評測兩大獎項
    參與互動   日前,第六屆中國健康信息處理大會(CHIP2020)舉辦的中文醫學信息處理評測競賽圓滿結賽,騰訊天衍實驗室依託其在醫學領域的長期技術積累和創新探索,一舉獲得「中文醫學文本命名實體識別」賽道冠軍、「中文醫學文本實體關係抽取」賽道亞軍。
  • 騰訊天衍實驗室斬獲CCKS2020試驗裝備NER任務冠軍
    近日,第十四屆全國知識圖譜與語義計算大會(CCKS2020)舉辦的知識圖譜與語義計算技術評測競賽結果公布,騰訊天衍實驗室從213支參賽隊伍中脫穎而出,斬獲試驗裝備鑑定領域實體抽取(NER)任務冠軍,體現了在實體抽取和知識圖譜領域的技術實力。
  • 山東高校在第六屆「網際網路+」大賽全國總決賽中創歷史...
    山東高校在第六屆「網際網路+」大賽全國總決賽中創歷史最好成績 2020-11-20 16:26 來源:澎湃新聞·澎湃號·政務
  • 獨腿女子獲健美大賽冠軍
    ▲歸玉娜參加健美大賽11月30日,36歲的歸玉娜身穿旗袍拄著拐杖驚豔亮相健美大賽,震驚了在場的觀眾,她獲得旗袍B組並列第一名的好成績。10月份,她被某健美大賽主辦方推薦,參加旗袍和傳統比基尼比賽,獲得兩項冠軍。「我拿到第一名之後,各方面的關注評論更多了,有的誇我穿旗袍比大部分人都好看。
  • 學好英語交流環境很重要,科大訊飛英語通便於攜帶隨時隨地學
    近日,科大訊飛發布了一款可攜式英語學習機——訊飛英語通,在融入人工智慧技術的基礎上,用實實在在的體驗徵服了廣大學生群體。訊飛英語通打出的賣點就是融入了人工智慧,通過深度人工智慧技術,實現了在線輔導一對一的模式,學員們便可以自由選擇聽力、口語、閱讀、寫作、詞彙、翻譯、語法、測驗等各個維度的專項練習。
  • ...科學研究優秀成果獎(人文社會科學),數字人文與語言智能實驗室...
    上海外國語大學數字人文與語言智能實驗室、上外語言數據與智慧教育研究中心揭牌成立。12月15日,由上海外國語大學和教育部中外語言交流合作中心聯合主辦的2020國際中文教育交流周「遠程中文教學師資支撐與培養」線上論壇召開。
  • 無人機定位野生動物,哈工大(深圳)學子獲全國大學生物聯網「三創...
    無人機定位野生動物,哈工大(深圳)學子獲全國大學生物聯網「三創」大賽一等獎 2020-12-16 11:56:00 哈工大(深圳)
  • 哈工大(深圳)學子獲國際自主智慧機器人大賽全球一等獎
    見圳客戶端·深圳新聞網2020年10月26日訊(記者 金洪竹 通訊員 熊小剛)近日,2020國際自主智慧機器人大賽在北京落幕,比賽吸引了來自德國漢堡大學、俄羅斯莫斯科國立大學、巴基斯坦國立科技大學以及北京大學、清華大學等高校的近80支隊伍參賽,最終評選出一等獎3名、二等獎5名、三等獎12名、優秀獎16名。
  • 科大訊飛助力第五屆全國青少年無人機大賽(安徽省賽)成功舉辦
    2020年12月5日,由中國航空學會、安徽省航空學會、安徽省青少年科技教育協會主辦,科大訊飛協辦的第五屆全國青少年無人機大賽(安徽省賽)在合肥高新創新實驗中學如期舉辦,來自全省50餘所學校百餘支隊伍的近500名選手參賽。