12月20-21日,由鵬城實驗室、新一代人工智慧產業技術創新戰略聯盟主辦的「2019新一代人工智慧院士高峰論壇」在深圳舉行。作為國內人工智慧平臺建設最高水平的精英會,論壇聚集了數十位國內外院士專家及行業領袖,組成AI領域頂尖「智囊團」,聚焦AI最前沿技術動態和創新應用成果。百度首席技術官王海峰出席論壇,並發表題為《自然語言處理前沿》的主題演講,向與會嘉賓介紹了自然語言處理相關研究的發展歷史和趨勢,以及百度在自然語言處理技術和產業應用中取得的成果。
王海峰表示,自然語言處理(NLP)是用計算機來模擬、延伸及拓展人類語言能力的理論、技術及方法。近年來,算力持續突破、算法不斷創新、數據爆發式增長,驅動自然語言處理技術飛速發展,呈現出很多新的變化:從傳統 NLP進行層級式結構分析演變到直接的端到端語義表示;從過去局限於理解句子發展到現在多文本、跨模態的內容理解;而機器翻譯經歷了70年的發展,已經實現質量飛躍,從科幻理想落地現實應用。百度不僅在自然語言處理技術和產業應用中取得豐碩成果,更秉承開源開放、合作共贏的理念,構建了以飛槳深度學習平臺為基礎、集成語言與知識核心技術及多樣化場景解決方案的開源開放大生產平臺,賦能廣大開發者技術創新,加速產業智能化轉型升級。
以下為演講實錄:
各位院士,各位嘉賓,大家上午好!很榮幸再次來到由鵬城實驗室、新一代人工智慧產業技術創新戰略聯盟主辦的「新一代人工智慧院士高峰論壇」。今天我的報告更偏學術一些,主題就是我本人從事了近30年的專業——自然語言處理。
自然語言處理是人工智慧領域非常重要、非常熱門的方向。隨著深度學習技術的突破,人工智慧的很多相關方向,尤其是與人類感知相關的語音、視覺等等,都取得了非常大的突破,在很多方面已經逐漸超過了人類的水平。而語言和知識這些和人類認知相關的技術,在深度學習的推動下也取得了很多進步,但是仍然有很長的路要走。所以今天我把主題聚焦在自然語言處理上。
簡單來說,自然語言處理就是用計算機來模擬、延伸和拓展人的語言能力。大家都知道著名的圖靈測試,圖靈測試就是和自然語言處理相關的測試。在國務院《新一代人工智慧發展規劃(2017)》中,自然語言處理也被列為共性關鍵技術。
回顧自然語言處理的歷史,和人工智慧的其他領域類似,早期自然語言處理更多是使用人工規則,需要領域專家、領域知識,並把這些知識建模到計算機系統裡面去,開發成本和遷移成本非常高。後來有了各種統計方法,一定程度上可以實現自動訓練、模型選擇,並由特徵工程師專門去設計各種特徵。另一方面,大量的統計機器學習模型,在不同的應用中會取得不同效果,所以模型本身的選擇都需要針對不同的應用,最後才能找到適合某一個應用最好的模型。
到了深度學習時代,這些問題變得更簡單、更標準化和自動化,一套模型針對不同的數據就可以得到比較好的結果。所以,深度學習跟以前的機器學習模型相比,一個很重要的特點就是,這樣一套東西可以適用於不同領域、不同應用,這個和我們的人腦也很像。其實每個人天生是沒有專業屬性的,只是後來逐漸在學習不同的知識、不同的專業。可以說我們人腦的能力也是一個相對通用的能力。
驅動自然語言處理技術突破的三大要素,和人工智慧的其他方向也是類似的,就是算法、算力和數據。數據的井噴,算法的持續進步,算力的高速發展,推動了自然語言處理的技術突破。
一個多年研究自然語言處理的人,通常會涉及兩個經典方向,一個是對一種語言進行分析理解,另一個是跨語言之間的翻譯。而相應的,現在用深度學習的方法來解決自然語言處理問題的時候,我們把層級式的結構分析逐漸衍生到端到端的語義分析。我們知道,做自然語言理解和分析的時候,涉及到詞、句、語法、語義各個層面,需要做基本的語法分析、做語義的理解,這些都可以端到端的進行語義的表示、學習、理解。另一方面,傳統的自然語言處理主要聚焦在句子上,先把一句話分成詞、短語、理解整句話,而現在,除了句子以外,我們延伸到多文本以及跨模態,跨模態的時候,又涉及到視覺、語音等相關的技術。還有一方面就是跨語言的翻譯,翻譯經過了70年的發展,從量變到質變,現在已經越來越可以大規模應用了。
先看分析,一個傳統的自然語言處理的分析系統,以中文為例,首先要做分詞,然後是詞性標註、專名識別。西方語言一般會用短語結構文法,而中文傳統上其實是沒有這種規範的語言結構的,所以更適合做依存分析,做完之後再做語義分析,這是標準的範式。
基於深度學習的自然語言處理就把整個範式變得很不同了,我們直接做LSTM,去表示、去建模,直接做語義的表示以及理解。
我把語義表示技術的發展做一個簡單的總結。早期我們用向量空間模型。2001年有了基於神經網絡的語言模型,又經過了十幾年的發展,才逐漸體現出它的價值,開始廣泛應用。2013、2014年前後,Word2vec、Glove等詞嵌入訓練工具出現,基於詞嵌入的深度學習NLP技術有了突飛猛進的發展,出現了記憶網絡模型、注意力機制、transformer框架等等,對語言有了更好的表示工具,從而開啟了大規模預訓練語義模型範式。
研究自然語言處理的人都知道預訓練語言模型。它既有通用模型,也有不同的特定優化,比如面向生成、面向匹配、融合知識、模型壓縮等等,還包括跨語言、跨模態。一個預訓練的語言模型,首先要能讓它自監督進行學習訓練,這裡一個很重要的技術就是預測被掩模的字詞、實體等等。而這樣一套模型經過不同應用的微調,也可以用於不同的任務,比如做情感的分析、文本相似度、命名實體識別等等,只要帶上少量的應用任務數據,就可以在任務上得到更好的結果。
有了前面這些預訓練模型以後,可以通過多層次的任務學習得到更多的知識。比如我們有先驗的知識,可以進行統一的表徵,構建多層次任務全面捕捉詞法、結構、語義知識等等。詞的層面有實體、短語、大小寫等等的預測,結構層面可以做句子排序、句子距離計算等。語義層面也可以理解指代關係、關聯關係、檢索相關性等等。
基於深度學習的語義表示框架和知識,這兩者結合起來就是百度這兩年開發的ERNIE,它相當於在基本的基礎框架上融入知識,這套框架又有用戶的反饋,基於這些反饋可以進一步學習。所以它是一個持續學習的知識增強理解框架,左邊是任務構建模塊,右邊是多任務預訓練模塊,中間是可持續地預訓練。
在模型基礎上,我們加入了很多百科知識,比如像百度百科這樣全球最大的中文百科全書。把百科知識加進來,ERNIE的性能就會有一個提升。同時,我們在加入很多網頁搜索知識的時候,性能又有提升;加入對話數據,也會持續提升。這是這個框架一個非常重要的特點。人如果要持續學習,可以持續進步,這樣一個語言理解的系統,不斷加入知識也能持續進步,這就保證了可以持續提升。
在自然語言處理領域數據集GLUE中,ERNIE這套技術成為世界上第一個在榜單中突破90分的系統。智能問答、金融風控、視頻推薦等等領域應用了ERNIE,都會有效果的顯著提升。
說起自然語言處理,最基本的研究是基於一種語言的一個句子。那麼有多文本、多模態的時候我們怎麼做呢?這時候就涉及到我們要融入知識,涉及到怎麼跟語音、視覺的模塊進行配合,實現一個多文檔、多模態的語義理解。
首先是閱讀理解,讓機器像人一樣理解文本的內容。如果是人類,也是要來學習,我們讀了一篇文章以後,理解了其中的內容,可以回答跟內容相關的問題,用回答問題來檢閱閱讀理解水平,這是最常見的方法。而我們做篇章級文本,基於知識的推理就實現了這樣一個過程,比如右邊是一個例子,這樣一段話,如果人看了這段話以後都知道香格裡拉的老闆是誰,因為這段話裡面有了答案。這些年來,閱讀理解的技術有飛速的進步,早期用統計學習方法的時候,準確率大概在40%多的水平,近年來持續提升,運用了基於注意力機制的匹配,從40%多提升到70%多,現在已經達到95%左右。
多文檔怎麼做?我們提出一套V-NET模型,涉及到多文檔校驗的閱讀理解模型+候選抽取和答案選擇聯合訓練機制。在另外一個重要的數據集MS MARCO上,這套方法也取得了第一。如果只看一個傳統單文檔的閱讀理解,通常會有幾層,編碼層、匹配層、答案邊界預測層,結合這三層就實現單文檔的閱讀理解,而為了做多文檔,我們又研究了一些新的技術,包括加進來答案內容預測層,這樣可以預測答案,另一個又加了答案驗證層,多文檔可以做答案之間的相互驗證,然後做聯合訓練,取得了非常好的效果。
在閱讀理解中我們也把知識帶進來,這就是我們做的基於KT-NET的方法,做文本表示編碼的時候,涉及到問題以及文檔裡的詞等等這些,要對它進行編碼,而一個知識庫,涉及到實體、關係,我們也要進行編碼,這些編碼之後要進行聯合建模,形成融合的模型。這樣一套方法在ReCoRD榜單也得到了第一名。此外,基於知識圖譜和圖神經網絡的閱讀理解也得到了非常大的提升。
前面談到了從單文檔到多文檔,從只用自然語言處理的技術到融合知識等等。閱讀理解還要有很強的泛化能力,比如說通過預訓練模型可以學習到不同的語言知識,同時用這種多任務學習來增強不同任務的學習效果,這些也是我們過去這一兩年在開展的比較新的研究。而基於這些,我們做了MRQA任務,一共有12項任務,其中10項都得到了排名第一。
再來看多模態,如果涉及到語音,又涉及到圖像或者視頻等等,這時候怎麼弄?這時候首先要有一個統一的表徵,跨模態通用語義理解,很重要的是跨模態語義表示方法,比如說多粒度注意力的圖像—文本聯合語義表示方法。
有了這些就可以和知識融合起來,比如說和知識圖譜相融合。大家看左上角的圖片,通過視覺分析可以看到裡面有嬰兒、有媽媽在拍背這樣的基礎事實,上面還有文字,基於文字理解可以捕捉到關鍵信息,比如說寶寶、打嗝、視頻還有聲音。基於捕捉到的這些信息,融合知識圖譜,對這個視頻就有了更全面的理解。有了這些理解以後,就可以得到一個結構化的語義理解,其中主題是母嬰和育兒,場景是拍嗝等等。有了這些,對這個視頻就不僅僅是靠視覺識別技術,而是會得到一個綜合的、對這段視頻結構化的語義理解,進而就可以做各種應用。
前面我講的都是一種語言。這裡為什麼用「從理想走向現實的機器翻譯」這樣一個題目呢?因為機器翻譯的任務由來已久,在現代計算機誕生之初,上個世紀40年代就有學者提出要用計算機來做翻譯,而經過70多年的發展,很多當年看來遙不可及的東西,現在已經逐漸實現了。我列的這幾段文字是我國機器翻譯界的老前輩60年代寫的一本書,那個時候他們就希望有一個翻譯系統,可以讓我們在人民大會堂和世界各國友人聚會的時候,無論哪個國家的人在上面講話,都可以從耳機裡聽到自己國家的語言。這是典型的同聲傳譯的場景。另外還有一些文本、書籍翻譯的場景。這些發展到今天,很多很大程度上已經實現了。
我們看機器翻譯發展的歷史,早期和自然語言處理的歷程類似,近30年前我剛做翻譯的時候也是開發規則系統,對語言進行分析,到目標語言的轉換、生成。後來這個過程被大大簡化了,標準的統計機器翻譯需要翻譯模型、語言模型、解碼器,翻譯模型要做翻譯的概率、衍生的概率、位置的概率等等,形成一系列的統計機器翻譯系統。而這個系統出現以後,已經開始可以商業化了。比如,百度翻譯2011年正式上線,現在每天都是數以億計的翻譯請求。2011年上線的時候,還沒有神經網絡翻譯,也是用統計機器翻譯。有了神經網絡翻譯以後有了進一步提升,整個過程從編碼到解碼也得到了很大的簡化。百度2015年第一個上線了大規模的神經網絡翻譯系統。
這個是機器翻譯質量提升的曲線,早期的時候,BLEU值達到四十幾就已經很好了,但是隨著機器翻譯的進展,BLEU值已經突破六十,這是非常大的進步,而且越來越可以廣泛應用了。我們提出用多種策略來提升中英翻譯系統性能,把這些放在一起得到了好的效果,在WMT的中英翻譯任務上也得到了顯著領先的結果。
使用深度學習的時候,需要非常龐大的數據,但是做翻譯的時候會面臨一個問題,中英這兩種語言之間有很多的數據,但是很多小語種之間沒有那麼多的數據,這時候怎麼辦呢?就要利用其他語言的資源來幫助語料稀缺的語種翻譯。
基於這套技術,我們採取了一系列的方法,比如知識蒸餾,小語種聚類聯合訓練,使得小語種的翻譯效果有明顯提升。
同聲傳譯在很多場景很重要,但是世界上只有幾千位能做同傳的人,譯出率也只有60%,時延2-5秒,而且工作15-20分鐘就需要休息一下。如果我們能用機器解決這個問題,顯然是很有價值的事情。但是機器同傳涉及到語音的識別、語言的翻譯、合成,這裡既有錯誤的累積,又有時間延遲的累積,我們怎麼做呢?我們知道人同傳的時候,不是要聽很長一句話說完然後才開始翻譯,如果是這樣的話延時會很長。而標準的語音識別系統,也需要有完整的輸入以後,有一個校對的過程,識別才能更準。翻譯也是需要看到一句完整的話之後來進行翻譯,這個延時是很長的。所以我們做這種機器同傳的時候,研製了一種方法可以感知上下文,很大程度上可以預測上下文。人類做同傳的時候,是聽你前面幾個字,估計你後面說什麼就開始翻,我們也採取這樣一套機制,這就涉及到自然語言處理的機制,可以相對精準預測到後面說什麼,從而可以大大減少這種延遲,而且時延可調。我是要聽到兩個詞就開始預測,三個詞就開始預測翻譯,還是更多詞,這些是可調的,所以有很好的靈活性。基於此我們做出的同傳,做到了端到端,從人說話到最終翻譯出來合成聲音大概是3秒時間,和人類基本持平,而且準確率也和人類同傳基本持平,甚至是略高的水平。
我們進一步做這件事情的時候,又把一些新的技術,比如知識蒸餾技術,引入端到端的同傳模型,然後把語音識別和翻譯同步生成模型,從而進一步提升機器同傳效果。
前面講的是技術本身,這些技術一方面會應用於百度翻譯、百度搜索這些產品,另一方面也全面開源開放出來,從而讓這些技術能跨越大規模應用的鴻溝。
百度語言和知識圖譜擁有完整的技術布局。在知識圖譜層面包括知識挖掘、整合、補全、分布索引、存儲計算;語言層面則涉及到詞法、句法、語義、篇章、篇章生成等等。
隨著百度自然語言處理技術能力增強,平臺化的能力也在增強,技術能力開放出來讓技術應用的門檻越來越降低。基於飛槳深度學習平臺的開源開放大生產平臺百度大腦,已經具備了很高的標準化、自動化、模塊化的工業大生產特徵。同時,百度開放出來的所有語言和知識相關的技術,是基於百度的飛槳深度學習平臺,有不同的部署,可以應用於不同場景。
ERNIE語義理解套件,包括面向不同領域、不同任務的核心技術,也有相應的開源工具,包括微調工具、預測工具、壓縮工具等等,可以做定製平臺以及相應的應用任務。
ERNIE還可以通過定製化的方式,化繁為簡,全面滿足開發者在數據、訓練、調優、部署等環節的需求。
百度也擁有 UNIT理解與交互平臺,可以支持各種對話的任務,各行各業的開發者已經在上面定製了7.4萬多個技能,累計基於UNIT的交互已經超過1380億。
此外還有智能創作平臺,如果寫東西,涉及挖掘選題、選擇相應的參考資料、後期要做糾錯等等,這個平臺都可以支持。我們和人民日報、央視網都有很好的合作,已經累計超過2千萬的調用量。
以上這些,都是基於百度語言與知識技術的開源開放平臺,很多用戶在上面完成了自己的任務。
理解語言,擁有智能,改變世界。我今天的報告就到這裡,感謝大家!
【免責聲明:CSDN本欄目發布信息,目的在於傳播更多信息,豐富網絡文化,稿件僅代表作者個人觀點,與CSDN無關。其原創性以及中文陳述文字和文字內容未經本網證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本網不做任何保證或者承諾,請讀者僅作參考,並請自行核實相關內容。凡註明為其他媒體來源的信息,均為轉載自其他媒體,轉載並不代表本網贊同其觀點,也不代表本網對其真實性負責。您若對該稿件由任何懷疑或質疑,請即與CSDN聯繫,我們將迅速給您回應並做處理。】