2019 自然語言處理前沿論壇,百度NLP技術全揭秘

2020-12-05 雷鋒網

雷鋒網 AI 科技評論按,近日,由百度聯合中國計算機學會中文信息技術專委會、中國中文信息學會青工委舉辦的「2019 自然語言處理前沿論壇」上,來自百度和各大高校的嘉賓們分享了關於 NLP 技術研究的心得體會。

本次論壇主題為「機器之『讀、寫、說、譯』—— 探尋 NLP 未來之路」,來自百度的嘉賓們分別在語義計算、自動問答、語言生成、人機對話和機器翻譯5場專題報告中分享了百度 NLP 技術的研究成果與應用。

語義計算

百度 NLP 主任研發架構師、語義計算技術負責人孫宇:百度語義計算技術及其應用

孫宇主要介紹了百度語義表示技術的發展和研究成果、落地情況。

他表示,百度的語義計算方向包括語義表示學習、語義匹配計算、語義解析、多模態語義計算。計算機理解人類語言是一件非常有挑戰性的事情。

語義表示技術存在的問題是,自然語言存在基本單元一詞多義、多詞同義、句子表述無限等特性。而我們的目標是將語言符號「表示」為另一種形式,這種表示具有語義上的等價性,更好的可計算性,更好地把握語義信息。

百度早期的語義表示技術採用的是基於檢索和主題模型的表示方法,包括Term向量表示、PLSA、LDA等。

在 2013~2016 年,隨著基於 DNN 表示技術的興起,百度開始了 word embedding 的研究。採用的算法是 RNNLM + Hierarchical softmax,其規模達到 1T 百度網頁數據,100 萬超大規模中文詞覆蓋,主要研究問題是解決大規模分布式計算問題。2017 年,百度進行了基於大規模表示遷移在口語理解任務的探索。

語義匹配方面,百度 2013 年率先提出了 SimNet 技術,並成功用於網頁搜索,在未來的幾年中,對該技術做了很多改進創新,包括數據分析、粒度知識融合、交互式匹配模型等方面的創新。SimNet 顯著改善了長冷 query 的搜索效果,提升了搜索智能化的水平,在百度搜索發揮至關重要的作用。當前,SimNet 語義匹配技術在百度各產品廣泛應用。

現在,百度的最新研究是提出了知識增強的語義表示模型 ERNIE 並發布了基於 PaddlePaddle 的開原始碼與模型。 框架包括基於海量百科、新聞、對話多源數據訓練,雙向多層 Transformer的 語義建模模型,融合併強化中文詞、實體等先驗語義知識學習,多階段知識學習。在自然語言推斷、語義相似度、命名實體識別、情感分析、問答匹配 等多個公開的中文數據集合上進行實驗,均取得了最好的效果。

百度接下來的主要工作還是會以語義表示為重點突破方向,包括知識的利用,自監督任務的學習,弱監督信號的利用,多語言、跨模態表示等。

自動問答

百度 NLP 資深研發工程師、閱讀理解與問答技術負責人劉璟:百度閱讀理解技術研究及應用

機器閱讀理解是指讓機器閱讀文本,然後回答和閱讀內容相關的問題。機器閱讀理解是自動問答的關鍵技術之一,該技術可以廣泛應用於智能問答、智能音箱、智能客服等產品中,因此長期以來受到學術界和工業界的廣泛關注。得益於近兩年閱讀理解技術的快速進步,百度已將這一技術應用到智能問答中。

百度主要研發了面向搜索場景的多文檔閱讀理解模型 V-NET,以及知識表示和文本表示融合模型 KT-NET。

面向搜索場景的多文檔閱讀理解中,每個問題包含了多個段落,因此通常存在歧義信息較多的挑戰。對此,百度研發了端到端的多文檔閱讀理解模型 V-NET,該模型在英文多文檔閱讀理解數據集 MSMARCO V2 問答任務上三次排名第一。

此外,機器閱讀理解不僅要求機器理解給定的文本內容,還要求機器具備外部知識以支撐更為複雜的推理。為此,百度開創性地提出了語言表示與知識表示的深度融合模型 KT-NET,同時藉助語言和知識進一步提升機器閱讀理解的效果。KT-NET 目前是常識推理閱讀理解數據集ReCoRD榜單上排名第一的模型。

除了在技術上不斷投入研發,百度在去年推出了面向搜索場景的最大規模的中文閱讀理解數據集 DuReader 2.0,規模包含了 30 萬問題和 150 萬文檔和 66 萬答案。百度、中國計算機學會和中文信息學會連續兩年舉辦了基於 DuReader 數據集的機器閱讀理解評測,推動了中文閱讀理解技術的進步。

語言生成

百度 NLP 主任研發架構師、篇章理解與語言生成技術負責人肖欣延:自然語言生成,助力智能內容創作

肖欣延表示,隨著內容生態和智能交互的發展,自然語言生成得到越來越多的關注。一方面自然語言生成能夠幫助內容創作者提升創作效率,另一方面,也能夠用來改善交互的用戶體驗。

自然語言生成的願景是,讓機器像人類一樣去表達和創作。具體來看,它包含很多類型的任務,包括數據到文本的生成、文本到文本的生成、詩歌對聯的生成、多模生成、跨語言生成、對話生成等任務。此次報告中,主要從前面四個任務,介紹自然語言生成在內容創作的技術及應用。

首先是數據到文本的生成。這裡展示了具體的足球比賽快訊生成樣例。傳統的方法是基於宏觀規劃、微觀規劃、表層實現的句法樹生成算法,這種算法效果可控,在業務中十分實用。同時報告中也介紹了基於深度學習的方法。方法是將宏觀規劃融合到層次化序列生成算法中,在公開測試集效果不錯。

其次是文本到文本的生成。這裡展示了基於摘要聚合的寫作,能夠快速對熱點進行綜述報導。其中的核心技術是摘要技術。傳統而實用的方法主要是抽取式的算法,通過文檔分析、句子排序、句子選擇、摘要構建輸出摘要。百度同時也創新提出了基於信息選擇網絡的生成式摘要,並在公開主流數據上得到不錯的實驗效果。

第三是創意寫作,包括詩歌和對聯生成。百度創新提出了基於規劃的神經網絡,並用於詩歌生成。目前基於神經網絡生成算法,在寫詩寫對聯上已經都比較實用。

最後一個任務是多模生成。百度初步嘗試了基於視頻的寫作,通過多模理解技術,如視頻理解、觀點分析、知識圖譜的技術,獲得視頻的結構化、半結構化表示,然後在利用前面所述的基於數據的生成,撰寫出內容豐富的文章。

肖欣延接著討論了智能寫作和人工撰寫的關係。智能寫作通過大數據分析,獲取熱點素材,然後快速根據數據生成報導,但是它生成的報導格式比較固定。而人類寫作時,在看到數據或事物之後,會產生各種演繹和聯想,深度挖掘各種題材,因而寫作形式也多種多樣。所以,從整體上來看,機器和人的差距依然存在,智能寫作不能完全取代作者,而應該和作者分工合作。

為此百度推出了智能寫作平臺,提供自動寫作和輔助寫作的能力,進而幫助創作者提升內容創作的效率和質量,為智能創作領域提供更多可能。目前已經可以通過百度的 AI 平臺進行訪問。

談到未來,他表示有很多比較看好的應用。一方面,寫作將會更加自動、更生動、更有深度;另一方面,基於神經網絡的生成模型會逐漸實用化;在媒體行業,智能寫作會廣泛的落地,成為人類創作的助手;在智能交互家居中,語言生成技術也能夠很好的提升用戶的交互體驗。

人機對話

百度 NLP 主任研發架構師、UNIT 技術負責人孫珂博士:對話系統的應用技術探索

近幾年來,隨著智能對話逐步深入到各行各業,用戶已經可以在車載、音箱、客服、機器人等場景感受到智能對話給大家的生活帶來的便捷與改變。

然而,隨著智能對話技術產業化落地的進一步深入,也面臨了更多的挑戰。例如對話系統的建設成本與效率是企業面臨的很大挑戰,企業需要投入大量人力和時間進行數據 積累與整理、同時也要為高質量的效果與複雜系統集成 付出較多的成本。

據此,百度基於多年積累的自然語言理解與交互技術、深度學習、大數據等核心能力,打造了智能對話系統定製與服務平臺 UNIT,幫助開發者降低對話系統研發門檻,精確適配業務需求,訓練自己的對話系統。

在 UNIT 平臺中,集成了目前工業級研發比較成熟的三種主流對話系統技術,包括任務型對話系統、問答型對話系統和閒聊型對話系統。孫珂博士重點介紹了其中的任務型對話系統的實現。據介紹,在任務型對話系統中,對話理解的深度與系統的實現成本是百度 UNIT 關注的核心問題。UNIT 通過融合語義表示預訓練模型 ERNIE 的對話理解模型和數據輔助生產工具 DataKit,綜合節省了 60% 的任務式對話系統研發成本。

除此之外, UNIT 還針對理解中的常見錯誤,總結抽象了 15 套對話容錯機制,並將其標品化,據介紹,該機制可以通過簡單的澄清反問,大幅提升對話理解的整體達成效率。

最後,孫珂博士還展示了 UNIT 基於閱讀理解技術為開發者搭建的對話式文檔問答技術。通過該技術,開發者只需上傳業務文檔並一鍵訓練,即可在1分鐘內快速定製問答系統。

機器翻譯

百度人工智慧技術委員會主席何中軍:機器同傳進展與展望

同聲傳譯最早出現在 1919 年,它最突出的特點是時間延遲小,信息傳遞效率非常高,因此被廣泛的應用於重要國際會議、外交談判等重要場景。在同聲傳譯的過程中,同聲譯員需要全神貫注地進行監聽,工作強度極高。由於苛刻的要求,全球同傳譯員稀缺。與巨大的市場需求相比,人才嚴重短缺。

目前,機器同聲傳譯技術面臨著三大挑戰,一是技術挑戰,二是數據挑戰,三是評價挑戰。

技術挑戰方面,第一個問題是噪聲問題,由於說話人的口音、語速、現場會議噪聲等因素,使得語音識別的結果存在錯誤。第二個問題是斷句,需要對語音識別後的結果進行分句並加上標點。第三個問題是,時間延遲與準確率存在矛盾。如果要提高準確率,就需要等待說話人的具體意思表達完整之後再進行翻譯,時間延遲就會比較高。第四個問題是翻譯的連貫性。同傳的主要場景是對演講者的內容進行實時翻譯,需要保證翻譯前後內容的連貫和一致。

第二是數據挑戰。面向真實場景的訓練數據只有幾十到幾百個小時,這麼少的數據對於訓練一個高質量的同傳系統而言遠遠不夠。

第三是評價挑戰。在文本翻譯的時候,我們有足夠的時間去思考、潤色和加工。而在同聲傳譯時,實時性非常強,所採用的翻譯方式與文本翻譯不同。針對文本的評價方式不適用於評價同傳。

針對語音識別錯誤的問題,百度提出了聯合詞向量編碼模型。這個模型非常簡單,就是在原來文本向量的基礎上引入了音節向量,使得模型具有了一定的容錯能力。

百度還提出了可控時延的翻譯模型,來解決時間延遲的問題。在傳統的文本翻譯過程中,我們要等待一個句子完全輸入完畢以後才能進行翻譯。百度從同傳譯員那裡獲得靈感,提出了一個可以預測的模型,在原始句子只輸入幾個字以後,就可以開始預測和翻譯。

在語篇翻譯方面,百度提出了多輪解碼策略,第一遍首先進行傳統的粗解碼,在這個基礎上,再結合句子的上下文進行第二遍精細解碼。同時,引入了強化學習策略,對產生的句子進行反饋和優化,以進一步提升句子之間的流暢度。

此外,在端到端機器同傳模型方面,百度提出基於知識蒸餾的同傳模型。利用大規模文本翻譯語料訓練一個教師模型,去優化端到端的同傳翻譯模型。該模型可以有效克服數據稀疏問題,顯著提升翻譯質量。

為推動機器同傳技術發展,百度翻譯聯合 CCMT2019(全國機器翻譯研討會)推出全球首個面向真實場景的中英同傳評測任務,同時發布了首個真實演講場景的中英同傳數據集 CCMT2019-BSTC,兩項工作都將極大地推動同聲傳譯的相關研究和發展。

何中軍表示,未來,機器同傳可以從以下三個方面開展工作,在模型方面,研究高魯棒、低時延的同傳模型;在數據方面,建設大規模面向真實場景的同傳數據;在評價方面,建立面向同傳的評價體系和標準。

相關焦點

  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    5月26日,由百度與中國計算機學會中文信息技術專委會、中國中文信息學會青工委聯合舉辦的「2019自然語言處理前沿論壇」正式召開。本屆論壇主題為「機器之『讀、寫、說、譯』—— 探尋NLP未來之路」。論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。
  • 2019自然語言處理前沿論壇:聚焦機器「讀、寫、說、譯」,探尋NLP...
    以語言和知識為研究對象的自然語言處理(NLP)技術是人工智慧的核心問題之一。5月26日,百度、中國計算機學會中文信息技術專委會和中國中文信息學會青工委聯合舉辦「2019自然語言處理前沿論壇」。百度高級副總裁、ACL Fellow王海峰博士為論壇做開場致辭。他表示,「語言是人類思維和交流的載體,同時也是人類知識凝練和傳承的載體。
  • 國內自然語言處理(NLP)研究組
    中國大陸地區:微軟亞研自然語言計算組 Natural Language Computing (NLC) Grouphttps://www.microsoft.com/en-us/research/group/natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界
  • 自然語言處理前沿論壇在京召開 學者專家共探機器之讀、寫、說、譯
    5月26日,由百度與中國計算機學會中文信息技術專委會、中國中文信息學會青工委聯合舉辦的「2019自然語言處理前沿論壇」正式召開。本屆論壇主題為「機器之『讀、寫、說、譯』—— 探尋NLP未來之路」。
  • 中文NLP福利!大規模中文自然語言處理語料
    新智元推薦來源:AINLP作者:徐亮【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
  • 自然語言處理學術會議AACL線上召開 聚焦亞太地區NLP技術進展
    同時,按照ACL年會慣例,此次亞太分會年會與第十屆國際自然語言處理聯席會議(International Joint Conference on Natural Language Processing, IJCNLP)聯合召開。會議匯集來自學界、業界的百餘位自然語言處理領域的專家大咖,圍繞語義表示與理解、知識圖譜、對話系統、信息抽取與文本挖掘、機器翻譯等前沿技術方向進行了深入交流與探討。
  • NLP 與 NLU:從語言理解到語言處理
    同理,在自然語言處理領域中,自然語言處理(NLP)的概念是否會讓位於自然語言理解(NLU)? 或者兩個概念之間的關係是否變得更微妙,更複雜,抑或只是技術的發展?在這篇文章中,我們將仔細研究NLP和NLU的概念以及它們在AI相關技術中的優勢。值得注意的是,NLP和NLU儘管有時可以互相交換使用,但它們實際上是兩個有一些重疊的不同概念。
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    •  Dan Jurafsky 和 Chris Manning:自然語言處理[非常棒的視頻介紹系列]https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269 •  斯坦福CS224d:自然語言處理的深度學習[更高級的機器學習算法、深度學習和NLP的神經網絡架構]http://cs224d.stanford.edu/syllabus.html •  Coursera:自然語言處理簡介[由密西根大學提供的NLP
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    大數據文摘作品編譯:糖竹子、吳雙、錢天培自然語言處理(NLP)是一種藝術與科學的結合,旨在從文本數據中提取信息。從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。為什麼要寫這篇文章?
  • 百度大腦論壇如期而至,語音、視覺、語言與知識技術成熱點
    Create 2019 AI 開發者大會如期而至,在上午展示了百度音箱的系列更新、發布鴻鵠晶片、宣布自動駕駛方面的多項合作之後,下午的百度大腦論壇重磅開幕。在最後,他提到 2019 百度之星,這包括百度之星編程賽(基礎算法+AI 對抗賽)與百度之星開發賽(基於飛槳的目標檢測任務),這一賽事的報名會在本月截止,今年十月會進行全國總決賽。百度發布行業知識圖譜平臺和智能創作平臺 2.0百度 AI 技術平臺體系執行總監吳甜在會上帶來了百度語言與知識技術平臺的最新進展。
  • ...2020年清華大學劉知遠新書《自然語言處理表示學習技術》(全英文)
    內容簡介 · · · · · ·《Representation Learning for Natural Language Processing(自然語言處理表示學習技術)》本書全面介紹了自然語言處理表示學習技術的理論
  • 一文讀懂Smartbi的自然語言處理(NLP)技術
    由於自然語言是人類區別於其他動物的根本標誌,沒有語言,人類的思維也就無從談起,所以NLP體現了人工智慧的最高任務與境界。也就是說,只有當計算機具備了處理自然語言的能力時,機器才算實現了真正的智能。 從技術角度看,NLP包括序列標註、分類任務、句子關係判斷和生成式任務等。
  • 自然語言處理 NLP 發展簡史
    這一系列顛覆性的研究成果在學術界引發轟動,激發了人工智慧(AI)的思潮,同時也催生了自然語言處理(NLP)和計算機技術的發展。NLP 的早期理論基礎人們最早對 NLP 的探索始於對機器翻譯的研究。1947年,美國科學家韋弗(W. Weaver)博士和英國工程師布斯(A. D.
  • 復旦大學黃萱菁:自然語言處理中的表示學習
    2020年6月20日,第16期「AI未來說·青年學術論壇」NLP前沿技術及產業化線上專場論壇以「線上平臺直播+微信社群圖文直播」形式舉行。復旦大學黃萱菁帶來報告《自然語言處理中的表示學習》。黃萱菁,復旦大學計算機科學技術學院教授、博士生導師。1998年於復旦大學獲計算機理學博士學位,研究領域為人工智慧、自然語言處理、信息檢索和社會媒體分析。
  • 最全!2019 年 NLP 領域都發生了哪些大事件?
    對於自然語言處理領域來說,2019 年可謂是令人驚嘆的一年!Adapting Pretrained Representations to Diverse Tasks》通過詳細的分析對比了各種自然語言處理中的遷移學習方法,並給出了對自然語言處理從業人員的建議。
  • 百度大腦震撼發布 自然語言處理成熟度尚不及圖像處理
    百度大腦震撼發布 自然語言處理成熟度尚不及圖像處理  語音合成是李彥宏的下一個演示。現場出現了張國榮的合成音,並按照正常人的語調播放了出來。 圖像演示在現場出現了一個笑點。李彥宏表示,現在人臉識別的準確率已經達到了99.7%,大屏幕上突然出現了現場視頻,並在一片笑意中由百度大腦順利識別出了百度副總裁朱光等人。
  • 2019全球智博會分論壇議程重磅公布,六大AI開放創新平臺將同臺展示
    >AI 時代的投融資變革5 月 10 日下午,將迎來如下分論壇:自然語言處理技術前沿與應用高峰論壇 兒童智能產業生態高峰論壇 百度城市大會-蘇州站 AI 賦能 智能醫療滴滴論壇 人工智慧創新業促進產轉型升級  跨界融合 藝術無界 工業網際網路推動製造業高質量發展
  • AI晶片、框架、語言與知識、量子計算……百度大腦6.0發布
    百度大腦分論壇帶來這些「黑科技」的全面揭秘,展示了百度大腦的技術升級與演進。百度CTO王海峰發布了百度大腦6.0,升級為「AI新型基礎設施」。「知識增強的跨模態深度語義理解」讓百度大腦的理解能力更加強大,飛槳深度學習平臺與百度崑崙晶片的升級則為開發者提供了更優的算法開發平臺和更強大的算力。
  • 百度NLP | 神經網絡語義匹配技術
    作者:百度NLP一、序言文本匹配是自然語言處理中一個重要的基礎問題,自然語言處理中的許多任務都可以抽象為文本匹配任務。例如網頁搜索可抽象為網頁同用戶搜索 Query 的一個相關性匹配問題,自動問答可抽象為候選答案與問題的滿足度匹配問題,文本去重可以抽象為文本與文本的相似度匹配問題。
  • 百度NLP主任架構師全面講解百度語義表示技術及最新進展
    孫宇,百度NLP主任研發架構師、語義計算技術負責人。本文根據作者在「2019自然語言處理前沿論壇」語義理解主題的特邀報告整理而成。1、百度早期語義表示技術:基於檢索的表示方法2007年百度便開始語義表示研究,最開始的思路是利用搜尋引擎來完成。通過搜尋引擎把要表示的句子或者詞語檢索出來,再根據檢索的結果通過Term的分析以及網頁的分析,把相關的詞、信息抽取出來,做成語言符號的表示。