中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT模型

2020-12-16 砍柴網

近日,哈工大訊飛聯合實驗室發布了基於全詞覆蓋的中文 BERT 預訓練模型,該模型在多個中文數據集上,取得了當前中文預訓練模型的最佳水平,部分效果甚至超過了原版 BERT、ERNIE等中文預訓練模型。。

這一新的模型資源,極大地推動了中文自然語言處理的研究發展,彌補了之前該研究模型在中文自然語言處理上的空缺。之前 ERNIE 更多使用百度百科、貼吧等網絡數據,它對非正式文本(例如微博等)建模較好,而BERT-wwm使用了中文維基百科(包括簡體和繁體)數據進行訓練,故此對正式文本建模更有優勢,同時BERT-wwm也能更好的處理繁體中文數據,因為 ERNIE 的詞表中幾乎沒有繁體中文,讓業界多了一個選擇。

哈工大訊飛聯合實驗室(HFL)是科大訊飛重點引進和布局的核心研發團隊之一,由科大訊飛AI研究院與哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)在2014年共同創辦。

自哈工大訊飛聯合實驗室成立,雙方一直進行著深入地合作,特別是語言認知計算領域,成果顯著,研究涉及閱讀理解、自動閱卷、類人答題、人機對話、語音識別後處理、社會輿情計算等前瞻課題,相應研究成果應用於司法,教育等領域。哈工大訊飛聯合實驗室在近幾年獲得多項世界冠軍,其中包括機器閱讀理解權威評測SQuAD、SQuAD 2.0,第五屆中文語法錯誤自動診斷大賽CGED,對話型閱讀理解評測CoQA、QuAC等。

此次發布的基於全詞覆蓋的中文BERT,不僅表明科大訊飛在自然語言處理技術上保持業界領先水平,同時還積極將最新技術轉化應用到中文自然語言處理的研究中,與業界一同推進中文自然語言處理的研究與發展,為中文信息處理做出更多貢獻。

AI蓬勃發展,人工智慧要求的是不僅要「能聽會說」,還要「能理解會思考」,這一技術跨越,需要大量科學研究的支持。深層語義理解、邏輯推理決策、自主學習進化等認知智能的關鍵技術,都是當下的研究重點。語音合成技術、語音識別技術、手寫識別技術、自然語言處理技術、語音測評技術、聲紋識別技術,這些技術都展現出了訊飛的超強實力。

科大訊飛一直將「頂天立地」作為企業的核心使命。「頂天」,即技術頂天,強調技術對AI發展的的重要性。科大訊飛長期對科研保持著高投入,據其2018年財報顯示,2018年公司新增相關研發費用4.52億元,相關研發費用總額達12.63億元,較上年同期增長55.82%。科研投入可謂相當之大,難怪其技術可以一直保持行業領先了。

科大訊飛還是目前我國唯一以語音技術為產業化方向的「國家863計劃成果產業化基地」、「國家規劃布局內重點軟體企業」、「國家高技術產業化示範工程」, 曾兩次榮獲「國家科技進步獎」及中國信息產業自主創新榮譽「信息產業重大技術發明獎」。科技部明確依託科大訊飛建設了認知智能國家重點實驗室,這是我國在人工智慧高級階段——認知智能領域的第一個國家級重點實驗室。

領先的技術以及對整個人工智慧生態產業的全面把控上,科大訊飛向人們展現出了它的長遠眼光。其構建的國內首個以智能語音和人機互動為核心的人工智慧開放平臺——訊飛開放平臺,並基於該平臺相繼推出訊飛輸入法、訊飛聽見等示範性應用,推動與廣大合作夥伴攜手構建以訊飛為中心的人工智慧產業生態。其在智能語音和人工智慧核心研究和產業化方面的突出成績,也得到了社會各界和國內外的一致認可,被稱為「中國人工智慧國家隊」。

對技術的不斷追求,對科研的不斷精進,對用戶的細微關注,是每一個希望大力發展AI的企業都應該學習的,如今的科大訊飛, 仍在以高速不斷邁進和發展,我們希望在未來,能夠看到科大訊飛一個又一個技術上的突破,引領中國AI技術繼續前行。

相關焦點

  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    而在中文領域,哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型,在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。基於 Transformers 的雙向編碼表示(BERT)在多個自然語言處理任務中取得了廣泛的性能提升。
  • 哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員
    哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員 哈工大訊飛聯合實 發表於 2020-12-26 09:49:26 哈工大訊飛聯合實驗室發布的中文
  • 哈工大訊飛聯合實驗室奪中文語法診斷大賽全球冠軍
    在語病糾錯的武林江湖裡,中文又比英文難得多。最近,一場通過AI檢測中文語病的「中文語法錯誤自動診斷大賽」上,哈工大訊飛聯合實驗室摘得桂冠。第五屆中文語法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,簡稱 CGED)剛在澳大利亞墨爾本舉辦。
  • 第六屆中文語法錯誤診斷大賽,哈工大訊飛聯合實驗室再獲多項冠軍
    近日,第六屆中文語法錯誤診斷大賽(CGED)研討會於AACL 2020大會「面向教育技術的自然語言處理(NLPTEA)」workshop中順利舉行。今年共有國內外14支隊伍參賽,提交了44個系統。訊飛、阿里、上交、南大、有道、外研社、新華社等團隊均有精彩表現。
  • 哈工大訊飛聯合實驗室榮登多步推理閱讀理解評測HotpotQA榜首
    哈工大訊飛聯合實驗室不僅在國際比賽中拔得頭籌,也持續積極推動中文信息處理技術的研究與發展。2019年10月19日,由中國中文信息學會計算語言學專業委員會主辦,哈工大訊飛聯合實驗室承辦,科大訊飛股份有限公司冠名的第三屆「訊飛杯」中文機器閱讀理解評測研討會(CMRC 2019)在雲南昆明圓滿落幕。
  • 在外國人寫的中文句子裡找錯 哈工大訊飛聯合實驗室奪冠
    第五屆中文語法錯誤自動診斷大賽日前在澳大利亞墨爾本閉幕,中國社科院、阿里巴巴、北京大學等全球13個團隊參賽,最終哈工大訊飛聯合實驗室憑藉在人工智慧領域的多項技術積累,首次參賽就奪得冠軍。
  • 中文ELECTRA預訓練模型再升級
    聲明:本文轉載自 哈工大訊飛聯合實驗室 公眾號在今年3月,哈工大訊飛聯合實驗室推出了中文ELECTRA預訓練模型,並將相關資源進行開源,目前在GitHub上已獲得580個star。本次更新中,我們將預訓練語料從原有的約20G提升至180G,利用接近9倍大小的數據集。
  • ELECTRA中文預訓練模型開源,僅1/10參數量,性能依舊媲美BERT
    在去年11月份,NLP大神Manning聯合谷歌做的ELECTRA一經發布,迅速火爆整個NLP圈,其中ELECTRA-small模型參數量僅為 BERT-base模型的1/10,性能卻依然能與BERT、RoBERTa等模型相媲美
  • 華為開源中文版BERT模型
    近日,華為諾亞實驗室開源中文預訓練語言模型「哪吒」,基於BERT模型,並進行了多處優化,能夠在一系列中文自然語言理解任務達到先進水平。。現在戳右邊連結上新智元小程序了解更多! 自Google於2018年發布預訓練語言模型BERT ,並在11項自然語言處理(NLP)任務上取得最好成績,預訓練語言模型開始得到學術界和工業界的極大關注,已經成為自然語言處理的新範式。
  • 中文自然語言處理雲平臺 訊飛語言云
    2014年11月28日,由科大訊飛和哈爾濱工業大學聯合推出的全球首個中文自然語言處理雲服務平臺「哈工大訊飛語言云」正式發布。作為科大訊飛現有智能語音交互技術服務平臺--「訊飛語音雲」的重要拓展,該「語言云」將與「語音雲」一起為廣大網際網路及移動網際網路的開發者提供從語音到語言的全面的、頂級的、一站式的核心技術服務支撐。
  • 科大訊飛機器閱讀理解技術再次登頂SQuAD挑戰賽
    繼2017年7月刷新世界紀錄後,近日,科大訊飛與哈工大聯合實驗室(HFL)再次在由史丹福大學發起的機器閱讀理解領域權威評測SQuAD(Stanford
  • 訊飛行業認知智能升級讓文書質檢更簡單
    本次提交的模型在診斷任務中也取得了52.6分的好成績。本次奪冠的模型MacALBERT + DKM,在業界領先的預訓練語言模型ALBERT基礎上加入了自主研發的語義糾錯型掩碼語言模型(MLM as correction),進一步提升了模型在相似文本上的區分能力。
  • 訊飛與哈工大聯合實驗室刷新SQuAD成績,兩項指標均大幅提升
    文 | 奕欣來自雷鋒網(leiphone-sz)的報導雷鋒網AI科技評論按:科大訊飛與哈工大聯合實驗室
  • EMNLP 2019 | 基於篇章片段抽取的中文閱讀理解數據集
    本文介紹了哈工大訊飛聯合實驗室(HFL)在自然語言處理頂級國際會議EMNLP 2019上發表的論文。
  • 科大訊飛承建全球中文學習平臺正式落戶 已覆蓋169個國家
    12月3日,全球中文學習平臺落戶暨科大訊飛未來港啟幕儀式在青島市科大訊飛未來港隆重舉行。此次儀式在教育部國家語言文字工作委員會指導下,由科大訊飛股份有限公司主辦。2019年10月,全球中文學習平臺在北京正式上線。截止目前,已先後推出了國際版、國內版、學前版等面向不同中文學習者的應用,累計註冊用戶超過200萬,應用覆蓋全球169個國家。與此同時,平臺還積極開展推普助力脫貧攻堅工作,已服務雲南、貴州、新疆等深度貧困地區90餘萬人口的語言學習。
  • ChineseGLUE:為中文NLP模型定製的自然語言理解基準
    然而,現有的 GLUE 基準針對的是英文任務,無法評價 NLP 模型處理中文的能力。為了填補這一空白,國內關注 NLP 的熱心人士發布了一個中文語言理解測評基準——ChineseGLUE。ChineseGLUE 目前擁有八個數據集的整體測評及其基線模型,目前已經有 20多位來自各個頂尖機構的自願者加入並成為了創始會員。
  • 科大訊飛中文學習平臺正式登陸孔子學院
    日前,由科大訊飛推出的全新中文在線學習平臺(Chinese Online Learning Portal ,英文簡稱「COLP」)成功上線國家漢辦網絡孔子學院。全球440所孔子學院及646個孔子課堂均可以通過漢辦官網訪問該平臺,已在美國、韓國、日本、澳洲、法國等國家推廣使用,覆蓋人數超百萬人!
  • 華為雲摘得NLPCC 輕量級預訓練中文語言模型測評桂冠
    近日,華為雲AI團隊獲得第9屆國際自然語言處理與中文計算會議NLPCC 2020 輕量級預訓練中文語言模型測評第一名。NLPCC 由中國計算機學會主辦,是自然語言處理(NLP)和中文計算(CC)領域的頂級國際前沿會議,每年會議都秉承國際化和一流化的嚴格標準來進行自然語言處理任務的開放評測,推動相關任務的研究和發展。
  • 科大訊飛承建全球中文學習平臺正式落戶,已覆蓋169個國家
    36氪獲悉,2020年12月3日,全球中文學習平臺落戶暨科大訊飛未來港啟幕儀式在青島市科大訊飛未來港舉行。此次儀式在教育部國家語言文字工作委員會指導下,由科大訊飛股份有限公司主辦。2019年10月,全球中文學習平臺在北京正式上線。截止目前,已先後推出了國際版、國內版、學前版等面向不同中文學習者的應用,累計註冊用戶超過200萬,應用覆蓋全球169個國家。
  • RoBERTa中文預訓練模型,你離中文任務的「SOTA」只差個它
    機器之心報導參與:思源、一鳴有了中文文本和實現模型後,我們還差個什麼?還差了中文預訓練語言模型提升效果呀。對於中文領域的預訓練語言模型,我們最常用的就是 BERT 了,這並不是說它的效果最好,而是最為方便。