這個AI算法神了,可同時學習96門語言,還拿下多項世界第一

2021-01-09 量子位

打破語言藩籬,重建巴別塔是人類的遠古夢想,如今全球化語境下,更是一種當務之急。如何做到多語言交流和跨語義理解,也是人工智慧的「聖杯」課題。最近,百度人工智慧模型ERNIE-M,取得自然語言領域最新進展,它通過一個算法可以學習並同時掌握 96 門語言,不僅刷新5項經典多語言理解任務的世界最好成績,還一舉超越谷歌、微軟、臉書,問鼎國際權威多語言理解評測榜單 XTREME,邁出人工智慧領域自然語言處理技術的突破性一步,並在相關真實工業場景中落地,發揮出實際應用價值。

世界上存在6000餘種語言,這給不同國家與地區的交流帶來很多不便。人工智慧技術有助於打破語言的信息壁壘,搜尋引擎、智能客服、智能音箱等人工智慧系統不斷帶來更佳的用戶體驗。然而,這些系統的構建往往依賴於海量數據,使用單一語言訓練而無法直接應用於多語言,這對於數據稀少的小語種(比如布列塔尼語、冰島語)無疑挑戰巨大。如何用一個單一的語言算法或模型,理解多種語言,搭建起交流的橋梁,正是ERNIE-M 的研究目標。

當前,多語言語義理解的相關研究已經展開,主要是通過單一語言的語料分別學習不同語言的語義,再使用雙語語料對齊不同語言的語義。實驗表明,雙語語料可以顯著提升多語言模型性能。然而相對大規模的單語語料,雙語語料需要專業標註,獲取成本大,難以大規模收集。這使得多語言語義理解模型的效果受限。

為克服這一難題,百度基於回譯機制,提出首個從單語語料學習多語言語義對齊關係的預訓練模型 ERNIE-M,顯著提升包括自然語言推斷、語義檢索、語義相似度、命名實體識別、閱讀理解在內的 5 種典型跨語言理解任務效果,並於2021 年1月1號,以 80.9 分的成績登頂權威跨語言理解評測XTREME 榜首。

據知,ERNIE-M 本身包含很多技術創新,它基於百度飛槳框架訓練,構建了25 萬個多語言詞表,涵蓋了漢語、英語、法語、南非語、阿爾巴尼亞語、阿姆哈拉語、梵語、阿拉伯語、亞美尼亞語、阿薩姆語、亞塞拜然語等 96 種語言的常用詞彙,訓練語料約1.5萬億字符;它的學習過程由兩階段組成,第一階段從少量的雙語語料中學習跨語言理解能力,第二階段使用回譯的思想,增強模型的跨語言理解能力。

除了上述技術突破之外,ERNIE-M應用前景也很廣泛,該技術可將基於漢語研發的人工智慧系統,拓展到我國其他民族的語言理解上,幫助我們更好地分析各民族語言。此外,ERNIE-M 技術也可輔助語言學家和考古學家去理解已經瀕危或失傳的語言,更好地保護我們的民族文化。

ERNIE-M只是百度世界級語義理解技術與平臺文心(ERNIE)的眾多技術成果之一。自2019年3月誕生以來,文心(ERNIE)已完成3次重要迭代,在自然語言生成、語言-視覺等方面推出全新的模型,提供多模態語義理解研究新思路的同時,極大推動了人工智慧技術的發展。

2020年3月,文心(ERNIE)一舉拿下全球最大規模語義評測SemEval 5項世界冠軍;5月,文心(ERNIE)提出預訓練語言生成技術ERNIE-GEN,在語言生成領域實現重大突破;7月,文心(ERNIE)提出業多模態預訓練模型ERNIE-ViL,在多項典型多模態任務上刷新世界最好效果,並登頂多模態權威榜單VCR;同樣在7月,2020世界人工智慧大會最高獎項SAIL獎頒出,文心(ERNIE)獲獎。

值得一體的是,剛剛結束的 Wave Summit + 2020 峰會上,文心(ERNIE)又推出自然語言處理開發套件,其基於業界領先的語義理解技術,對外提供更加靈活的自然語言定製與服務能力,面向開發者和企業進行開放賦能。目前,文心(ERNIE)已通過百度AI開發平臺開放,廣泛應用於金融、通信、教育、網際網路等各行各業,大幅提升產品的智能化體驗,帶來了顯著經濟和社會效益。

— 完 —

相關焦點

  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍打破語言藩籬,重建巴別塔是人類的遠古夢想,如今全球化語境下,更是一種當務之急。如何做到多語言交流和跨語義理解,也是人工智慧的"聖杯"課題。最近,百度人工智慧模型ERNIE-M,取得自然語言領域最新進展,它通過一個算法可以學習並同時掌握 96 門語言,不僅刷新5項經典多語言理解任務的世界最好成績,還一舉超越谷歌、微軟、臉書,問鼎國際權威多語言理解評測榜單 XTREME,邁出人工智慧領域自然語言處理技術的突破性一步,並在相關真實工業場景中落地,發揮出實際應用價值。
  • 這個世界是否需要一種通用語言?
    「世界應該有一門通用的語言嗎?」當然,世界還沒有達到離開英語就不能運轉的地步。但是,隨著世界的物理隔閡一點點被打開,越來越多的人已經開始關心:這個世界是否應該有一門通用的語言呢?關於這個話題,網站www.debate.org曾經發起過一次辯論。
  • 復旦大學陳俊坤:自然語言處理中的多任務學習 | AI 研習社職播間第...
    公開課回放視頻網址:http://www.mooc.ai/open/course/574?=chenjunkun分享嘉賓:陳俊坤,復旦大學計算機系在讀碩士,導師是邱錫鵬副教授,主要研究方向為自然語言處理,多任務學習等。其研究工作曾在 AAAI, IJCAI 上發表。
  • 中國該工程曾拿下「諾貝爾獎」?多項新型專利,被譽為川藏第一橋
    中國該工程曾經拿下「諾貝爾獎」?多項新型專利,被譽為川藏第一橋大家好,歡迎收看本期節目~大家都知道,近年來我國在基建領域有著不俗的表現,而且因為我國國土太過遼闊,地形太過多樣化,我國被「迫」建造了許多世界級的工程,由於基建技術的精湛,我國也被很多人稱讚為基建狂魔。
  • 吳恩達deeplearning.ai五項課程完整筆記了解一下?
    由於前四課很多知識點都已經介紹過,因此本文我們著重介紹第五課的筆記概要,讀者可自行查閱 GitHub 閱讀完整的筆記,也可查看機器之心往期發過的一些課程資料。第五課序列模型簡介本課程將講授如何構建自然語言、音頻和其他序列數據的模型。在深度學習的幫助下,序列算法比兩年前效果更好,用於大量有趣的應用,如語音識別、音樂合成、聊天機器人、機器翻譯、自然語言理解等。
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    一般來說,Semantic Parsing 中一個比較流行的方法就是去學習 joint representation——可以同時將 input 的詞和 output 的優點:第一,它是 Language-independent,不管 input 是中文還是英文,只要餵一個模型,系統就能輸出一個 Semantic Parsing;第二,可以很好地模擬出來詞與 semantic units 的對齊關係,這個對於 Semantic Parsing 來說非常重要;第三,效率性比較高。
  • 除了Python,為什麼機器學習還需要一種新的程式語言?
    點擊上方「 CSDN 」,選擇「置頂公眾號」關鍵時刻,第一時間送達! 編者按:任何足夠複雜的機器學習系統都需要一個特定的、非強制要求、優弊共存的程式語言。 如今 Python 雖然在人工智慧領域應用廣泛,但是也存在一定的弊端,那麼是否有必要為機器學習量身打造一門新的程式語言?而究竟什麼樣的程式語言才是最適合機器學習呢?
  • 如何從零學習一門程式語言,並由此拿到高薪?
    學習任何一門程式語言,都會面臨的第一個問題都是:如何學習這門語言?
  • 薪資最高的15種程式語言及在線學習資源
    Python:全球平均薪資56,670.90美元這門語言的薪資比全球平均薪資高出4%。C#:全球平均薪資58,469.10美元這門語言的薪資比全球平均薪資高出7.3%。去哪兒學:CodeEasy。上面有教該語言基礎的初學者教程,在YouTube上有很多關於這種語言的視頻。
  • 清華大學馮珺:當強化學習遇見自然語言處理有哪些奇妙的化學反應?|...
    雷鋒網AI科技評論按:隨著強化學習在機器人和遊戲 AI 等領域的成功,該方法也引起了越來越多的關注。在近期雷鋒網GAIR大講堂上,來自清華大學計算機系的博士生馮珺,為大家介紹了如何利用強化學習技術,更好地解決自然語言處理中的兩個經典任務:關係抽取和文本分類。 本文根據視頻直播分享整理而成,內容若有疏漏,以原視頻嘉賓所講為準。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    &hmsr=aibanner&hmpl=8.18 智能招聘方案新增簡歷畫像功能,開放邀測依託百度 TIC 團隊在招聘方向的深耕,同時結合百度自然語言處理、百度文字識別的 AI 能力,提供多項招聘功能。
  • 實踐入門NLP:基於深度學習的自然語言處理
    同時,阿里IDST、騰訊NLP、科大訊飛等也在該榜單名列前茅。可以說,自然語言的研究歷史雖然還不是很長,但近些年在谷歌、IBM、斯坦福、阿里巴巴、Facebook等NLP領域的核心企業和研究所的推動下,其取得的成績,足以顯示它在人工智慧領域乃至整個計算機科學研究的重要性和廣闊應用前景。
  • 精通多門語言,對你的大腦有什麼好處?
    精通多門語言,對你的大腦有什麼好處?作為一名「混合型雙語者」(compound bilingual),加布裡埃爾僅用一套概念體系,便能同時發展出兩套語言編碼。當她剛開始接觸周圍的世界,便能同時學習英語和西班牙語。另一方面,她正處於青少年時期的哥哥則可能是一名「協調型雙語者」(coordinate bilingual),運用兩套概念體系,在學校裡學習英語,在家或和朋友相處時繼續說西班牙語。
  • 全球三十大最佳 AI 創業公司公布
    Clarifai 提供 API 類型的工具,Clarifai 的視覺識別 API 可以識別超過 11,000 種不同內容的照片和視頻,公司同時也提供應用於特定領域的識別工具。Clarifai 有著多元化的客戶群體,從《財富》500 強公司到小型的開發團隊都是他們的服務對象,包括 Buzzfeed、Trivago、500px、StyleMePretty 等。
  • 研究生能否通過自學精通兩門程式語言
    首先,程式語言本身的難度並不高,程式語言作為一種操作計算資源的工具,簡單易用是一個大的發展趨勢,所以自學程式語言並掌握其基本語法是完全可行的,同時掌握多門程式語言也比較常見,但是如果想形成自身的編程思想,同時能夠使用程式語言來完成具體場景下的開發任務,這通常需要一個積累的過程。
  • 騰訊AI Lab 2020 年度回顧
    我們也可將它們描述為虛擬集成世界框架下的軟體和硬體智能執行體,同時也涵蓋其它三大方向的一些核心技術,比如將人臉建模成數字版本就是一項現實虛擬化成果。 虛擬人:或是人類的虛擬化身,或是數字世界原住民 虛擬人是一類多模態技術,涉及計算機視覺、語音識別和生成、自然語言理解和生成等多種技術。
  • 達摩院NLP團隊斬獲六項世界冠軍背後,讓AI沒有難懂的語言
    StructuralLM模型目前在Document VQA榜單上排名第一,同時在表單理解FUNSD數據集和文檔圖片分類RVL-CDIP數據集上也超過現有的預訓練模型。比如該模型在多語言預訓練模型的測評榜單XTREME上以平均分73.9排名第一,超過Google的mBERT和Facebook的XLM-R等主流多語言模型。
  • CB Insights:2017全球AI企業100強(附下載) | 網際網路數據資訊網...
    Deep Genomics將機器學習和基因組生物學結合,致力於開發一個能夠學習、預測及解釋DNA變化的計算系統,應用於醫療的初創公司。32. Deep InstinctDeep Instinct 是第一家將深度學習應用於網絡安全的公司,旨在利用深度學習為任何設備、任何平臺和作業系統提供全面的保護。33.
  • 一周AI最火論文 | 生成描述性文字的新平臺,用語言加強AI在動態...
    您可以在此處訪問RoboTHOR代碼、可視化Demo和面臨的挑戰:  https://ai2thor.allenai.org/robothor/  了解更多:  https://arxiv.org/abs/2004.06799v1  能夠檢測多種語言仇恨言論的深度學習模型  仇恨言論、政治宣傳和虛假新聞是全球範圍內的大問題
  • AI 或可預測夫妻吵架,準確率 79.6%
    由四名工程師和心理學家組成的小組正在嘗試開發一個 AI 系統,該系統使用從可穿戴設備和智慧型手機中獲取的數據,檢測出包括生理、聲學和語言模式的規律,從而預測夫妻之間的衝突。同時,Pinterest 已有一個強大的 AI 工具集可供使用。 Pinterest 透露,其在線/離線視覺搜索工具,可以利用 AI 來識別從 Pins 或智慧型手機捕獲的事物,並提供相關主題和產品的建議。該工具已能識別出25 億個家用和時尚物品。