達摩院NLP團隊斬獲六項世界冠軍背後,讓AI沒有難懂的語言

2021-01-17 CSDN

2018年末,BERT橫空出世,它採用自編碼對句子進行表示,通過預測掩蓋詞和上下句之間的關係作為語言模型學習任務,使用更多的數據,更大的模型,在多個自然語言處理(NLP)任務中顯著超越之前的結果。這一年被視為預訓練語言模型的元年。

2019至今,預訓練語言模型呈現百花齊放、百家爭鳴態勢。其中,既有將自回歸和自編碼結合的生成式語言模型,也有將多種語言融合的預訓練語言模型,更有將語言和圖像等模態融合的多模態語言模型。

在阿里巴巴達摩院語言實驗室負責人司羅看來,預訓練語言模型技術最近的進展極大地推動了自然語言智能的發展,「越來越多的應用與深度語言模型能夠結合起來,在業務實踐中取得了比較大的實際落地效果。」

與此同時,帶著各自的預訓練語言模型在各大數據集上同臺切磋,成為各大科技公司展現自身技術實力的一大舞臺。

當然,阿里巴巴也不例外。近日,達摩院NLP團隊自研的預訓練模型框架ALICE (ALIbaba Collections of Encoder-decoders), 包括多語言模型VECO、多模態語言模型StructVBERT、生成式語言模型PALM等6大自研模型相繼刷新了世界紀錄,在預訓練模型的競技中處於領先地位。挑戰榜單只是為了驗證了技術的領先性,達摩院NLP團隊更重要的任務是把模型整合到阿里的技術平臺,並應用到阿里內部和外部客戶的產品和業務中,驗證技術為產品和業務帶來的更大價值。

那麼,阿里巴巴達摩院成立三年來究竟如何收穫技術價值?CSDN與達摩院語言技術實驗室三位技術專家司羅、黃非和黃松芳進行了交流,他們從預訓練語言模型、阿里NLP技術平臺以及行業應用實踐三大層面出發,描繪了一幅阿里NLP的全景圖。

全面布局預訓練語言模型,推動NLP新範式落地

預訓練語言模型是自然語言處理的新範式,它可以幫助機器像人類一樣理解文本。在「預訓練-精調」的框架下,模型可以通過「預訓練」階段從大規模文本中學習到詞和詞的搭配關係以及句子之間的上下文關係等語言通用知識,繼而通過「精調」階段學習到領域任務特定知識,從而在大量的下遊任務中達到更好性能。

從在開源數據集上進行評測到業務實踐中的價值體現,預訓練語言模型都被證明能夠顯著提高模型性能和算法效果。同時,從預訓練語言模型得到的文本向量表示可以與其他模態下的向量表示很好地結合,從而達到多模態建模,理解並在多個跨模態場景得以應用。

阿里巴巴作為國內最早投入預訓練語言模型研究的科技公司之一,目前已經實現了技術的全面布局,達摩院已在通用語言模型StructBERT基礎上,拓展到多語言、生成式、多模態、結構化、知識驅動等方面,並在最近全面登頂包括多語言XTREME、多模態VQA在內的多個國際賽事和榜單。

據介紹,參與競賽的6項自研AI技術均採用了模仿人類的學習模式,並針對領域特性進行了技術革新,全方位提升了機器的語言理解能力,部分能力甚至已超越人類。目前,這些技術均已大規模應用於閱讀理解、機器翻譯、人機互動等場景。

其中,達摩院NLP團隊在BERT的基礎上提出優化模型StructBERT,能讓機器更好地掌握人類語法,加深對自然語言的理解。StructBERT通過在句子級別和詞級別引入兩個新的目標函數,打亂句子/詞的順序並使模型對其進行還原的方式,使得模型學習到更強的語言結構信息,使用StructBERT模型好比給機器內置一個「語法識別器」。其相關成果論文已被ICLR-2020收錄。

該模型以平均分90.6分曾在自然語言處理領域權威數據集GLUE Benchmark中奪冠。

在StructBERT基礎上,達摩院NLP團隊進一步提出融入圖像模態知識的預訓練語言模型StructVBERT,它能同時理解文本與圖像模態的信息,並挖掘二者間的關聯以進行有效推理。

該模型好比給機器內置了隱式的「圖像翻譯器」,使機器能以同樣的方式理解文本和圖像信息,並基於兩種模態的信息進行有效地內容整合與理解,顯著提高圖文問答準確率。

在多模態視覺問答與推理VQA Challenge 2020 Test-Standard數據集上,達摩院NLP團隊的多模態語言模型StructVBERT以76.36分排名第一。

同樣基於StructBERT的模型還有結構化語言模型StructuralLM。它充分利用圖片文檔數據的二維位置信息,並引入文本框位置預測的預訓練任務,幫助模型感知圖片不同位置之間詞語的關係,這對於理解真實場景中的圖片文檔十分重要。

StructuralLM模型目前在Document VQA榜單上排名第一,同時在表單理解FUNSD數據集和文檔圖片分類RVL-CDIP數據集上也超過現有的預訓練模型。

VECO模型(Variable Encoder-decoder,可變的編碼-解碼器模型)則將單語言模型擴展到了100多種語言,並借鑑於「積木」搭建的可變化(Variable)思想,通過重新整合編碼器(Encoder)和解碼器(Decoder)的核心組件,這使得訓練的模型最終在Fine-tune階段可以選擇需要的模塊來組合,從而形成適用於針對NLU(自然語言理解)任務的Encoder架構和針對NLG(自然語言生成)任務的Encoder-Decoder架構。

其中的亮點在於,這種預訓練進行「整合」並在Fine-tune階段進行「拆分」的思想完全脫離了傳統的Pretrain-Finetune的範式,不僅在業界首次提出這種新的模型訓練範式,而且在多個評測和下遊任務中驗證了這種方法的有效性。比如該模型在多語言預訓練模型的測評榜單XTREME上以平均分73.9排名第一,超過Google的mBERT和Facebook的XLM-R等主流多語言模型。

在生成式語言模型方面,達摩院NLP團隊創新性提出了PALM (Pre-training an Autoencoding & autoregressive Language Model),它將預測後續文本作為其預訓練目標,而非重構輸入文本。它在一個模型中使用自編碼方式來編碼輸入文本,同時使用自回歸方式來生成後續文本。這種預測後續文本的預訓練促使該模型提高對輸入文本的理解能力,從而在下遊的各個語言生成任務上取得更好的效果。

目前,這個新生成模型PALM在MS MARCO自然語言生成NLG公開評測上取得了排行榜第一,同時在摘要生成標準數據集CNN/DailyMail和Gigaword上也超過了現有的各個預訓練生成語言模型。該模型可被用於問答生成、文本複述、回復生成、文本摘要、Data-to-Text等生成應用上。

篇章排序作為檢索式問答的重要一環,可以結合機器閱讀理解能力,幫助構建集生成、檢索與抽取一體的閉環搜索問答整體鏈路。

達摩院NLP團隊提出的統一的編碼器-解碼器模型(UED, United Encoder-Decoder)通過預訓練一套整體的編碼器-解碼器網絡同時進行問題生成和段落排序,使模型具備更強的段落摘要與文本匹配能力,並利用二階段Fine-tuning策略進一步提升粗排召回率。

在MS MARCO榜單上,達摩院NLP團隊在繼核心機器閱讀理解任務多次奪冠後,進一步刷新篇章排序任務榜單結果,並於去年的國際標準信息檢索評測TREC 2019 Deep Learning Track的段落檢索和文檔檢索任務上均取得第一名。

隨著數據量及模型的極速膨脹,大規模深度學習訓練的收斂變得極具挑戰性,阿里巴巴內部計算資源和訓練平臺提供了諸如高效混合精度計算、快速自適應收斂方法、優化通信時間等豐富的訓練支持,為突破多項NLP技術指標打下基礎。

為了更好地應用上述大部分模型,阿里內部還有一個語言模型平臺。在這個平臺上,不管是通用語言模型還是多語言、多模態模型,阿里的各個團隊可以做領域模型或任務模型的訓練,進行模型的蒸餾和測試,並直接部署上線調用。目前,阿里巴巴集團內超過100多個業務部門都在利用該平臺來搭建業務應用,日均調用量超過9億,已經有超過50個活躍場景。

阿里巴巴在這些預訓練語言模型領域的突破,將進一步使AI像人一樣學習新知識成為可能;更重要的是,在特定領域的應用場景落地上,將幫助AI技術變得更加智能。當然,為了讓現有模型和技術產生更大的影響力,阿里技術專家透露,上述模型也會陸續對外開源。

預訓練模型對大量計算資源的要求限制了諸多中小公司的應用落地,而如何把語言模型更好地應用在不同的行業和場景中,還需要更多的摸索和嘗試,也還有很長一段路要走,阿里技術專家稱,未來預訓練語言模型會走向更大、更快、更強。阿里達摩院也將在預訓練語言模型上持續發力,未來將會深入研究超大模型訓練以及聯合統一各類任務預訓練模型。

打造世界頂級NLP技術體系,讓AI沒有難懂的語言

阿里在模型問題上做了很多突破,但創新的本質是驅動業務創新並帶來業務價值。因此,針對真實場景的多種多樣的需求,達摩院不僅建設了深度語言技術體系全面賦能業務,更通過平臺化的方式輸出NLP技術能力。

其中,NLP技術平臺是技術體系化的重要一環。

首先是阿里自然語言技術平臺。包括底層數據層,收集了大量的自然語言相關數據,包括分詞詞性數據,實體語料庫、新聞語聊庫、情感語聊庫等;以及基礎算法層,從詞法分析到句法分析、語義分析、篇章分析等基礎算法。通過上述基礎技術,構建了內容搜索、內容推薦、問答、情感分析、意圖識別等垂直技術。這些技術結合起來,支撐了很多跟NLP相關的應用,如搜索、推薦、廣告、客服、物流等相關工作。

自然語言技術平臺現在每天有超過1000個業務方使用,每天的調用量數萬億次。

其次是翻譯技術平臺。包括底層的語料平臺,還有多語言分詞、實體識別等多語言NLP相關技術,核心的機器翻譯技術包括結合知識的翻譯技術,多語言多領域統一框架的翻譯技術以及語音,圖片,視頻等多模態翻譯等技術,上述底層技術支撐著相關翻譯場景的技術解決方案。

目前,該平臺幾十個業務方的日調用量約10億次,幫助創造了數億美元的國際跨境貿易和其他國際業務商業價值。

根據達摩院提供的數據,多語言NLP和翻譯技術每年累計為集團30+國際化核心業務場景提供服務,AliNLP平臺日均累計調用量超過數萬億次,特別在搜索query改寫、相關性匹配、排序等場景,有效的降低了搜索零少結果,以及提升搜索廣告的點擊轉化。

在幾位專家看來,自然語言智能本身的研發,甚至是AI技術的整體研發,如果要讓它產生更大的技術落地價值,就需要在場景、數據、知識和算法技術之間進行循環迭代。

阿里內部有著豐富的業務場景,同時通過阿里雲還會接觸到廣闊的外部場景,會提供很多行業場景相關的數據和知識,從而建設更加完善、高效、準確的自然語言基礎技術、翻譯技術和應用技術。

典型的場景如文本內容審核。網際網路上內容良莠不齊,需要對一些涉黃、涉暴等違規內容進行審核。其挑戰在於,網際網路文字內容涉及到大量的的音變和形變。而為了識別長文本,達摩院NLP團隊也加入了語義理解和更深度的綜合識別能力。

目前,阿里的NLP技術早已滲透至大眾生活的方方面面,如電商、城市大腦,教育、醫療、能源,通信、司法、內容等,這些領域都在因為AI的力量變得更加智能。

總體而言,達摩院在預訓練語言模型領域的突破,在一定程度上打破了NLP技術在業務場景落地的困境,同時,其豐富的業務場景轉而為預訓練語言模型及其NLP技術平臺的搭建提供了絕佳的實踐土壤。

再硬核的技術終要走向落地,達摩院NLP技術已逐步實現從單點技術到體系化能力的延伸,而現在,他們正在朝著更廣闊的目標前行,讓NLP技術普惠各行各業,讓AI沒有難懂的語言。

相關焦點

  • 國內自然語言處理(NLP)研究組
    中國大陸地區:微軟亞研自然語言計算組 Natural Language Computing (NLC) Grouphttps://www.microsoft.com/en-us/research/group/natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界
  • 達摩院(DAMO)是個什麼鬼?
    但今天最吸睛的還是「達摩院」,一所名字江湖氣息濃重的研究院。馬雲現場親自講述了成立它的初衷和期望,並且宣稱未來三年將投入1000億進行基礎科學研究和顛覆式創新研究。據說,目前已有十名專家加入到學術資訊委員會,主要研究量子計算、機器學習、基礎算法、網絡安全、視覺計算、自然語言處理、人機自然交互、金融科技等多個產業領域。
  • 機翻領域競爭激烈 臉書AI翻譯主管加盟阿里達摩院
    5月21日,阿里巴巴宣布,Facebook(臉書)應用機器學習部AI翻譯團隊主管黃非博士入職阿里巴巴達摩院。在達摩院機器智能技術實驗室,黃非和同事推動人工智慧(AI)翻譯在新零售、跨境電商、視頻等領域的實時翻譯應用。
  • 達摩院骨科AI成果已被MICCAI 2020收錄
    阿里巴巴達摩院醫療AI又有了一項突破。7月9日,達摩院提出了一種AI助力骨科關節置換手術的新方法,該方法無需醫生手動操作即可自動完成術前關鍵點位的測量,並且實現了精度上的突破,相比傳統AI方法,達摩院醫療AI團隊的精度可提升2.3%以上,整個過程僅需0.3秒。
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍打破語言藩籬,重建巴別塔是人類的遠古夢想,如今全球化語境下,更是一種當務之急。如何做到多語言交流和跨語義理解,也是人工智慧的"聖杯"課題。最近,百度人工智慧模型ERNIE-M,取得自然語言領域最新進展,它通過一個算法可以學習並同時掌握 96 門語言,不僅刷新5項經典多語言理解任務的世界最好成績,還一舉超越谷歌、微軟、臉書,問鼎國際權威多語言理解評測榜單 XTREME,邁出人工智慧領域自然語言處理技術的突破性一步,並在相關真實工業場景中落地,發揮出實際應用價值。
  • 達摩院骨科AI成果已被...
    7月9日,達摩院提出了一種AI助力骨科關節置換手術的新方法,該方法無需醫生手動操作即可自動完成術前關鍵點位的測量,並且實現了精度上的突破,相比傳統AI方法,達摩院醫療AI團隊的精度可提升2.3%以上,整個過程僅需0.3秒。達摩院算法專家透露,目前該研究成果已被醫學影像分析行業的頂會MICCAI 2020收錄,本月底將正式在醫院上線使用。
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    displaCy網站上的可視化依賴解析樹https://demos.explosion.ai/displacy/?text=Great%2C%20this%20is%20just%20what%20I%20needed!
  • 阿里巴巴達摩院發布2021年十大科技趨勢
    2021-01-04 08:00:02 來源: 萬州微視界 舉報   達摩院
  • 達摩院語音實驗室負責人鄢志傑:智能語音爆發進入倒計時,2019語音...
    鄢志傑,達摩院語音實驗室負責人,中國科學技術大學博士,IEEE高級會員。長期擔任語音領域頂級學術會議及期刊專家評審。研究領域包括語音識別、語音合成、聲紋、語音交互等。曾任微軟亞洲研究院語音團隊主管研究員。
  • 阿里升級機器翻譯,48種語言方向,雙11全球買賣無障礙
    為此,阿里巴巴達摩院在雙11之前升級了機器翻譯技術,幫助速賣通平臺上的中國及全球中小賣家,將產品詳情與評論自動翻譯成當地語言,還實現了實時AI語言翻譯的客戶服務與業務諮詢。包括俄語、西班牙語、土耳其語、法語、阿拉伯語在內,向買賣雙方提供的20多種語言,48種語言方向的機器翻譯服務,覆蓋了歐洲、亞洲、美洲與中東地區絕大多數國家。
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • 又一位量子計算頂級科學家加盟阿里,稱與達摩院不謀而合
    繼去年9月施堯耘入職後,阿里雲量子實驗室又迎來一位世界頂級科學家,匈牙利裔美國計算機科學家馬裡奧·塞格德。2018年伊始,兩次理論計算機最高獎哥德爾獎得主、匈牙利裔美國計算機科學家馬裡奧·塞格德(Mario Szegedy)入職阿里巴巴達摩院位於西雅圖的阿里雲量子實驗室(AQL)。
  • 達摩院提出新模型EBM-Net,比最強基線模型...
    在名為《Predicting Clinical Trial Results by Implicit Evidence Integration》的論文中,達摩院研究團隊設計了針對醫學臨床試驗的進一步預訓練任務,並提出全新的模型,幫助醫學研究工作者更好地選擇醫學臨床試驗,以更快地找到有效的治療方案。
  • 這套1600贊的NLP課程已開放,面向實戰,視頻代碼都有丨資源
    一套面向實戰、號稱「代碼優先」的NLP課程來了,名字為A Code-First Introduction to Natural Language Processing,fast.ai出品,全程免費學習。不到半天點讚超過1600,轉發近500。
  • 達摩院提出新模型EBM-Net,比最強基線模型準確率高9.6%
    在名為《Predicting Clinical Trial Results by Implicit Evidence Integration》的論文中,達摩院研究團隊設計了針對醫學臨床試驗的進一步預訓練任務,並提出全新的模型,幫助醫學研究工作者更好地選擇醫學臨床試驗,以更快地找到有效的治療方案。
  • 劍來:阿里達摩院外傳
    當阿里成立12周年時,馬雲自認賴以存活的三個原因是:沒有錢、不懂技術、從來不規劃。6年後,阿里18歲了,已經成年,躋身世界TOP10網際網路巨頭之列,馬雲不差錢,還是不懂技術,但開始規劃一件大事。他心目中的阿里是一家要活102年的公司,跨越三個世紀。但那件事的意義要更恆久,即使有一天阿里不在了,它還要存在。那件事,就是創辦達摩院。
  • AI 影響因子 8 月份回顧:騰訊 AI Lab 再佔榜首
    在八月召開的 KDD 上,騰訊 AI Lab、京東 AI 研究院、阿里巴巴達摩院機器智能技術實驗室、京東金融 AI 實驗室、騰訊覓影均有相應得分。首戰告捷!TSAIL 聯合騰訊 AI Lab在第一人稱射擊類遊戲《毀滅戰士》(Doom)AI 競賽 VizDoom(Visual Doom AI Competition)上榮獲競賽 Track 1 的預賽和決賽冠軍,及 Track 2 預賽冠軍、決賽亞軍,成為賽事歷史上首個中國區冠軍。
  • 達摩院2021十大科技趨勢,一起看未來
    年末收官之際,阿里巴巴達摩院重磅發布2021年度十大科技趨勢。這是達摩院成立三年以來第三次發布年度科技趨勢報告,阿里雲智能研究中心攜手達摩院的科學家和業界專家人士,歷經長達3個月大量訪談交流,共同碰撞觀點,深入探討,對人工智慧、物聯網、量子計算、雲計算、區塊鏈、新材料等熱點科技做出研判和預測,對未來的科技走向進行解讀。
  • 達摩院2021十大科技趨勢:雲原生重塑IT技術體系
    【達摩院2021十大科技趨勢】12月28日,阿里巴巴達摩院發布2021十大科技趨勢,這是達摩院成立三年以來第三次發布年度科技趨勢。達摩院認為,未來幾年,以氮化鎵和碳化矽為代表的第三代半導體材料將在材料生長、器件製備等技術上實現突破,並應用於5G基站、新能源汽車、特高壓、數據中心等新基建場景,大幅降低整體能耗。
  • 美圖影像實驗室MTlab斬獲2019 CVPR-NTIRE圖像增強比賽冠軍
    近日,NTIRE(New Trends in Image Restoration and Enhancement workshop and challenges)比賽結果公布,美圖影像實驗室MTlab在圖像增強賽道(Image Enhancement Challenge)中斬獲冠軍