2018年末,BERT橫空出世,它採用自編碼對句子進行表示,通過預測掩蓋詞和上下句之間的關係作為語言模型學習任務,使用更多的數據,更大的模型,在多個自然語言處理(NLP)任務中顯著超越之前的結果。這一年被視為預訓練語言模型的元年。
2019至今,預訓練語言模型呈現百花齊放、百家爭鳴態勢。其中,既有將自回歸和自編碼結合的生成式語言模型,也有將多種語言融合的預訓練語言模型,更有將語言和圖像等模態融合的多模態語言模型。
在阿里巴巴達摩院語言實驗室負責人司羅看來,預訓練語言模型技術最近的進展極大地推動了自然語言智能的發展,「越來越多的應用與深度語言模型能夠結合起來,在業務實踐中取得了比較大的實際落地效果。」
與此同時,帶著各自的預訓練語言模型在各大數據集上同臺切磋,成為各大科技公司展現自身技術實力的一大舞臺。
當然,阿里巴巴也不例外。近日,達摩院NLP團隊自研的預訓練模型框架ALICE (ALIbaba Collections of Encoder-decoders), 包括多語言模型VECO、多模態語言模型StructVBERT、生成式語言模型PALM等6大自研模型相繼刷新了世界紀錄,在預訓練模型的競技中處於領先地位。挑戰榜單只是為了驗證了技術的領先性,達摩院NLP團隊更重要的任務是把模型整合到阿里的技術平臺,並應用到阿里內部和外部客戶的產品和業務中,驗證技術為產品和業務帶來的更大價值。
那麼,阿里巴巴達摩院成立三年來究竟如何收穫技術價值?CSDN與達摩院語言技術實驗室三位技術專家司羅、黃非和黃松芳進行了交流,他們從預訓練語言模型、阿里NLP技術平臺以及行業應用實踐三大層面出發,描繪了一幅阿里NLP的全景圖。
全面布局預訓練語言模型,推動NLP新範式落地
預訓練語言模型是自然語言處理的新範式,它可以幫助機器像人類一樣理解文本。在「預訓練-精調」的框架下,模型可以通過「預訓練」階段從大規模文本中學習到詞和詞的搭配關係以及句子之間的上下文關係等語言通用知識,繼而通過「精調」階段學習到領域任務特定知識,從而在大量的下遊任務中達到更好性能。
從在開源數據集上進行評測到業務實踐中的價值體現,預訓練語言模型都被證明能夠顯著提高模型性能和算法效果。同時,從預訓練語言模型得到的文本向量表示可以與其他模態下的向量表示很好地結合,從而達到多模態建模,理解並在多個跨模態場景得以應用。
阿里巴巴作為國內最早投入預訓練語言模型研究的科技公司之一,目前已經實現了技術的全面布局,達摩院已在通用語言模型StructBERT基礎上,拓展到多語言、生成式、多模態、結構化、知識驅動等方面,並在最近全面登頂包括多語言XTREME、多模態VQA在內的多個國際賽事和榜單。
據介紹,參與競賽的6項自研AI技術均採用了模仿人類的學習模式,並針對領域特性進行了技術革新,全方位提升了機器的語言理解能力,部分能力甚至已超越人類。目前,這些技術均已大規模應用於閱讀理解、機器翻譯、人機互動等場景。
其中,達摩院NLP團隊在BERT的基礎上提出優化模型StructBERT,能讓機器更好地掌握人類語法,加深對自然語言的理解。StructBERT通過在句子級別和詞級別引入兩個新的目標函數,打亂句子/詞的順序並使模型對其進行還原的方式,使得模型學習到更強的語言結構信息,使用StructBERT模型好比給機器內置一個「語法識別器」。其相關成果論文已被ICLR-2020收錄。
該模型以平均分90.6分曾在自然語言處理領域權威數據集GLUE Benchmark中奪冠。
在StructBERT基礎上,達摩院NLP團隊進一步提出融入圖像模態知識的預訓練語言模型StructVBERT,它能同時理解文本與圖像模態的信息,並挖掘二者間的關聯以進行有效推理。
該模型好比給機器內置了隱式的「圖像翻譯器」,使機器能以同樣的方式理解文本和圖像信息,並基於兩種模態的信息進行有效地內容整合與理解,顯著提高圖文問答準確率。
在多模態視覺問答與推理VQA Challenge 2020 Test-Standard數據集上,達摩院NLP團隊的多模態語言模型StructVBERT以76.36分排名第一。
同樣基於StructBERT的模型還有結構化語言模型StructuralLM。它充分利用圖片文檔數據的二維位置信息,並引入文本框位置預測的預訓練任務,幫助模型感知圖片不同位置之間詞語的關係,這對於理解真實場景中的圖片文檔十分重要。
StructuralLM模型目前在Document VQA榜單上排名第一,同時在表單理解FUNSD數據集和文檔圖片分類RVL-CDIP數據集上也超過現有的預訓練模型。
VECO模型(Variable Encoder-decoder,可變的編碼-解碼器模型)則將單語言模型擴展到了100多種語言,並借鑑於「積木」搭建的可變化(Variable)思想,通過重新整合編碼器(Encoder)和解碼器(Decoder)的核心組件,這使得訓練的模型最終在Fine-tune階段可以選擇需要的模塊來組合,從而形成適用於針對NLU(自然語言理解)任務的Encoder架構和針對NLG(自然語言生成)任務的Encoder-Decoder架構。
其中的亮點在於,這種預訓練進行「整合」並在Fine-tune階段進行「拆分」的思想完全脫離了傳統的Pretrain-Finetune的範式,不僅在業界首次提出這種新的模型訓練範式,而且在多個評測和下遊任務中驗證了這種方法的有效性。比如該模型在多語言預訓練模型的測評榜單XTREME上以平均分73.9排名第一,超過Google的mBERT和Facebook的XLM-R等主流多語言模型。
在生成式語言模型方面,達摩院NLP團隊創新性提出了PALM (Pre-training an Autoencoding & autoregressive Language Model),它將預測後續文本作為其預訓練目標,而非重構輸入文本。它在一個模型中使用自編碼方式來編碼輸入文本,同時使用自回歸方式來生成後續文本。這種預測後續文本的預訓練促使該模型提高對輸入文本的理解能力,從而在下遊的各個語言生成任務上取得更好的效果。
目前,這個新生成模型PALM在MS MARCO自然語言生成NLG公開評測上取得了排行榜第一,同時在摘要生成標準數據集CNN/DailyMail和Gigaword上也超過了現有的各個預訓練生成語言模型。該模型可被用於問答生成、文本複述、回復生成、文本摘要、Data-to-Text等生成應用上。
篇章排序作為檢索式問答的重要一環,可以結合機器閱讀理解能力,幫助構建集生成、檢索與抽取一體的閉環搜索問答整體鏈路。
達摩院NLP團隊提出的統一的編碼器-解碼器模型(UED, United Encoder-Decoder)通過預訓練一套整體的編碼器-解碼器網絡同時進行問題生成和段落排序,使模型具備更強的段落摘要與文本匹配能力,並利用二階段Fine-tuning策略進一步提升粗排召回率。
在MS MARCO榜單上,達摩院NLP團隊在繼核心機器閱讀理解任務多次奪冠後,進一步刷新篇章排序任務榜單結果,並於去年的國際標準信息檢索評測TREC 2019 Deep Learning Track的段落檢索和文檔檢索任務上均取得第一名。
隨著數據量及模型的極速膨脹,大規模深度學習訓練的收斂變得極具挑戰性,阿里巴巴內部計算資源和訓練平臺提供了諸如高效混合精度計算、快速自適應收斂方法、優化通信時間等豐富的訓練支持,為突破多項NLP技術指標打下基礎。
為了更好地應用上述大部分模型,阿里內部還有一個語言模型平臺。在這個平臺上,不管是通用語言模型還是多語言、多模態模型,阿里的各個團隊可以做領域模型或任務模型的訓練,進行模型的蒸餾和測試,並直接部署上線調用。目前,阿里巴巴集團內超過100多個業務部門都在利用該平臺來搭建業務應用,日均調用量超過9億,已經有超過50個活躍場景。
阿里巴巴在這些預訓練語言模型領域的突破,將進一步使AI像人一樣學習新知識成為可能;更重要的是,在特定領域的應用場景落地上,將幫助AI技術變得更加智能。當然,為了讓現有模型和技術產生更大的影響力,阿里技術專家透露,上述模型也會陸續對外開源。
預訓練模型對大量計算資源的要求限制了諸多中小公司的應用落地,而如何把語言模型更好地應用在不同的行業和場景中,還需要更多的摸索和嘗試,也還有很長一段路要走,阿里技術專家稱,未來預訓練語言模型會走向更大、更快、更強。阿里達摩院也將在預訓練語言模型上持續發力,未來將會深入研究超大模型訓練以及聯合統一各類任務預訓練模型。
打造世界頂級NLP技術體系,讓AI沒有難懂的語言
阿里在模型問題上做了很多突破,但創新的本質是驅動業務創新並帶來業務價值。因此,針對真實場景的多種多樣的需求,達摩院不僅建設了深度語言技術體系全面賦能業務,更通過平臺化的方式輸出NLP技術能力。
其中,NLP技術平臺是技術體系化的重要一環。
首先是阿里自然語言技術平臺。包括底層數據層,收集了大量的自然語言相關數據,包括分詞詞性數據,實體語料庫、新聞語聊庫、情感語聊庫等;以及基礎算法層,從詞法分析到句法分析、語義分析、篇章分析等基礎算法。通過上述基礎技術,構建了內容搜索、內容推薦、問答、情感分析、意圖識別等垂直技術。這些技術結合起來,支撐了很多跟NLP相關的應用,如搜索、推薦、廣告、客服、物流等相關工作。
自然語言技術平臺現在每天有超過1000個業務方使用,每天的調用量數萬億次。
其次是翻譯技術平臺。包括底層的語料平臺,還有多語言分詞、實體識別等多語言NLP相關技術,核心的機器翻譯技術包括結合知識的翻譯技術,多語言多領域統一框架的翻譯技術以及語音,圖片,視頻等多模態翻譯等技術,上述底層技術支撐著相關翻譯場景的技術解決方案。
目前,該平臺幾十個業務方的日調用量約10億次,幫助創造了數億美元的國際跨境貿易和其他國際業務商業價值。
根據達摩院提供的數據,多語言NLP和翻譯技術每年累計為集團30+國際化核心業務場景提供服務,AliNLP平臺日均累計調用量超過數萬億次,特別在搜索query改寫、相關性匹配、排序等場景,有效的降低了搜索零少結果,以及提升搜索廣告的點擊轉化。
在幾位專家看來,自然語言智能本身的研發,甚至是AI技術的整體研發,如果要讓它產生更大的技術落地價值,就需要在場景、數據、知識和算法技術之間進行循環迭代。
阿里內部有著豐富的業務場景,同時通過阿里雲還會接觸到廣闊的外部場景,會提供很多行業場景相關的數據和知識,從而建設更加完善、高效、準確的自然語言基礎技術、翻譯技術和應用技術。
典型的場景如文本內容審核。網際網路上內容良莠不齊,需要對一些涉黃、涉暴等違規內容進行審核。其挑戰在於,網際網路文字內容涉及到大量的的音變和形變。而為了識別長文本,達摩院NLP團隊也加入了語義理解和更深度的綜合識別能力。
目前,阿里的NLP技術早已滲透至大眾生活的方方面面,如電商、城市大腦,教育、醫療、能源,通信、司法、內容等,這些領域都在因為AI的力量變得更加智能。
總體而言,達摩院在預訓練語言模型領域的突破,在一定程度上打破了NLP技術在業務場景落地的困境,同時,其豐富的業務場景轉而為預訓練語言模型及其NLP技術平臺的搭建提供了絕佳的實踐土壤。
再硬核的技術終要走向落地,達摩院NLP技術已逐步實現從單點技術到體系化能力的延伸,而現在,他們正在朝著更廣闊的目標前行,讓NLP技術普惠各行各業,讓AI沒有難懂的語言。