百度CTO王海峰:自然語言處理技術發展飛速 機器翻譯從理想走向現實

2020-12-11 CSDN技術社區

 12月20-21日,由鵬城實驗室、新一代人工智慧產業技術創新戰略聯盟主辦的「2019新一代人工智慧院士高峰論壇」在深圳舉行。作為國內人工智慧平臺建設最高水平的精英會,論壇聚集了數十位國內外院士專家及行業領袖,組成AI領域頂尖「智囊團」,聚焦AI最前沿技術動態和創新應用成果。百度首席技術官王海峰出席論壇,並發表題為《自然語言處理前沿》的主題演講,向與會嘉賓介紹了自然語言處理相關研究的發展歷史和趨勢,以及百度在自然語言處理技術和產業應用中取得的成果。

王海峰表示,自然語言處理(NLP)是用計算機來模擬、延伸及拓展人類語言能力的理論、技術及方法。近年來,算力持續突破、算法不斷創新、數據爆發式增長,驅動自然語言處理技術飛速發展,呈現出很多新的變化:從傳統 NLP進行層級式結構分析演變到直接的端到端語義表示;從過去局限於理解句子發展到現在多文本、跨模態的內容理解;而機器翻譯經歷了70年的發展,已經實現質量飛躍,從科幻理想落地現實應用。百度不僅在自然語言處理技術和產業應用中取得豐碩成果,更秉承開源開放、合作共贏的理念,構建了以飛槳深度學習平臺為基礎、集成語言與知識核心技術及多樣化場景解決方案的開源開放大生產平臺,賦能廣大開發者技術創新,加速產業智能化轉型升級。

以下為演講實錄:

各位院士,各位嘉賓,大家上午好!很榮幸再次來到由鵬城實驗室、新一代人工智慧產業技術創新戰略聯盟主辦的「新一代人工智慧院士高峰論壇」。今天我的報告更偏學術一些,主題就是我本人從事了近30年的專業——自然語言處理。

自然語言處理是人工智慧領域非常重要、非常熱門的方向。隨著深度學習技術的突破,人工智慧的很多相關方向,尤其是與人類感知相關的語音、視覺等等,都取得了非常大的突破,在很多方面已經逐漸超過了人類的水平。而語言和知識這些和人類認知相關的技術,在深度學習的推動下也取得了很多進步,但是仍然有很長的路要走。所以今天我把主題聚焦在自然語言處理上。

簡單來說,自然語言處理就是用計算機來模擬、延伸和拓展人的語言能力。大家都知道著名的圖靈測試,圖靈測試就是和自然語言處理相關的測試。在國務院《新一代人工智慧發展規劃(2017)》中,自然語言處理也被列為共性關鍵技術。

回顧自然語言處理的歷史,和人工智慧的其他領域類似,早期自然語言處理更多是使用人工規則,需要領域專家、領域知識,並把這些知識建模到計算機系統裡面去,開發成本和遷移成本非常高。後來有了各種統計方法,一定程度上可以實現自動訓練、模型選擇,並由特徵工程師專門去設計各種特徵。另一方面,大量的統計機器學習模型,在不同的應用中會取得不同效果,所以模型本身的選擇都需要針對不同的應用,最後才能找到適合某一個應用最好的模型。

到了深度學習時代,這些問題變得更簡單、更標準化和自動化,一套模型針對不同的數據就可以得到比較好的結果。所以,深度學習跟以前的機器學習模型相比,一個很重要的特點就是,這樣一套東西可以適用於不同領域、不同應用,這個和我們的人腦也很像。其實每個人天生是沒有專業屬性的,只是後來逐漸在學習不同的知識、不同的專業。可以說我們人腦的能力也是一個相對通用的能力。

驅動自然語言處理技術突破的三大要素,和人工智慧的其他方向也是類似的,就是算法、算力和數據。數據的井噴,算法的持續進步,算力的高速發展,推動了自然語言處理的技術突破。

一個多年研究自然語言處理的人,通常會涉及兩個經典方向,一個是對一種語言進行分析理解,另一個是跨語言之間的翻譯。而相應的,現在用深度學習的方法來解決自然語言處理問題的時候,我們把層級式的結構分析逐漸衍生到端到端的語義分析。我們知道,做自然語言理解和分析的時候,涉及到詞、句、語法、語義各個層面,需要做基本的語法分析、做語義的理解,這些都可以端到端的進行語義的表示、學習、理解。另一方面,傳統的自然語言處理主要聚焦在句子上,先把一句話分成詞、短語、理解整句話,而現在,除了句子以外,我們延伸到多文本以及跨模態,跨模態的時候,又涉及到視覺、語音等相關的技術。還有一方面就是跨語言的翻譯,翻譯經過了70年的發展,從量變到質變,現在已經越來越可以大規模應用了。

先看分析,一個傳統的自然語言處理的分析系統,以中文為例,首先要做分詞,然後是詞性標註、專名識別。西方語言一般會用短語結構文法,而中文傳統上其實是沒有這種規範的語言結構的,所以更適合做依存分析,做完之後再做語義分析,這是標準的範式。

基於深度學習的自然語言處理就把整個範式變得很不同了,我們直接做LSTM,去表示、去建模,直接做語義的表示以及理解。

我把語義表示技術的發展做一個簡單的總結。早期我們用向量空間模型。2001年有了基於神經網絡的語言模型,又經過了十幾年的發展,才逐漸體現出它的價值,開始廣泛應用。2013、2014年前後,Word2vec、Glove等詞嵌入訓練工具出現,基於詞嵌入的深度學習NLP技術有了突飛猛進的發展,出現了記憶網絡模型、注意力機制、transformer框架等等,對語言有了更好的表示工具,從而開啟了大規模預訓練語義模型範式。

研究自然語言處理的人都知道預訓練語言模型。它既有通用模型,也有不同的特定優化,比如面向生成、面向匹配、融合知識、模型壓縮等等,還包括跨語言、跨模態。一個預訓練的語言模型,首先要能讓它自監督進行學習訓練,這裡一個很重要的技術就是預測被掩模的字詞、實體等等。而這樣一套模型經過不同應用的微調,也可以用於不同的任務,比如做情感的分析、文本相似度、命名實體識別等等,只要帶上少量的應用任務數據,就可以在任務上得到更好的結果。

有了前面這些預訓練模型以後,可以通過多層次的任務學習得到更多的知識。比如我們有先驗的知識,可以進行統一的表徵,構建多層次任務全面捕捉詞法、結構、語義知識等等。詞的層面有實體、短語、大小寫等等的預測,結構層面可以做句子排序、句子距離計算等。語義層面也可以理解指代關係、關聯關係、檢索相關性等等。

基於深度學習的語義表示框架和知識,這兩者結合起來就是百度這兩年開發的ERNIE,它相當於在基本的基礎框架上融入知識,這套框架又有用戶的反饋,基於這些反饋可以進一步學習。所以它是一個持續學習的知識增強理解框架,左邊是任務構建模塊,右邊是多任務預訓練模塊,中間是可持續地預訓練。

在模型基礎上,我們加入了很多百科知識,比如像百度百科這樣全球最大的中文百科全書。把百科知識加進來,ERNIE的性能就會有一個提升。同時,我們在加入很多網頁搜索知識的時候,性能又有提升;加入對話數據,也會持續提升。這是這個框架一個非常重要的特點。人如果要持續學習,可以持續進步,這樣一個語言理解的系統,不斷加入知識也能持續進步,這就保證了可以持續提升。

在自然語言處理領域數據集GLUE中,ERNIE這套技術成為世界上第一個在榜單中突破90分的系統。智能問答、金融風控、視頻推薦等等領域應用了ERNIE,都會有效果的顯著提升。

說起自然語言處理,最基本的研究是基於一種語言的一個句子。那麼有多文本、多模態的時候我們怎麼做呢?這時候就涉及到我們要融入知識,涉及到怎麼跟語音、視覺的模塊進行配合,實現一個多文檔、多模態的語義理解。

首先是閱讀理解,讓機器像人一樣理解文本的內容。如果是人類,也是要來學習,我們讀了一篇文章以後,理解了其中的內容,可以回答跟內容相關的問題,用回答問題來檢閱閱讀理解水平,這是最常見的方法。而我們做篇章級文本,基於知識的推理就實現了這樣一個過程,比如右邊是一個例子,這樣一段話,如果人看了這段話以後都知道香格裡拉的老闆是誰,因為這段話裡面有了答案。這些年來,閱讀理解的技術有飛速的進步,早期用統計學習方法的時候,準確率大概在40%多的水平,近年來持續提升,運用了基於注意力機制的匹配,從40%多提升到70%多,現在已經達到95%左右。

多文檔怎麼做?我們提出一套V-NET模型,涉及到多文檔校驗的閱讀理解模型+候選抽取和答案選擇聯合訓練機制。在另外一個重要的數據集MS MARCO上,這套方法也取得了第一。如果只看一個傳統單文檔的閱讀理解,通常會有幾層,編碼層、匹配層、答案邊界預測層,結合這三層就實現單文檔的閱讀理解,而為了做多文檔,我們又研究了一些新的技術,包括加進來答案內容預測層,這樣可以預測答案,另一個又加了答案驗證層,多文檔可以做答案之間的相互驗證,然後做聯合訓練,取得了非常好的效果。

在閱讀理解中我們也把知識帶進來,這就是我們做的基於KT-NET的方法,做文本表示編碼的時候,涉及到問題以及文檔裡的詞等等這些,要對它進行編碼,而一個知識庫,涉及到實體、關係,我們也要進行編碼,這些編碼之後要進行聯合建模,形成融合的模型。這樣一套方法在ReCoRD榜單也得到了第一名。此外,基於知識圖譜和圖神經網絡的閱讀理解也得到了非常大的提升。

前面談到了從單文檔到多文檔,從只用自然語言處理的技術到融合知識等等。閱讀理解還要有很強的泛化能力,比如說通過預訓練模型可以學習到不同的語言知識,同時用這種多任務學習來增強不同任務的學習效果,這些也是我們過去這一兩年在開展的比較新的研究。而基於這些,我們做了MRQA任務,一共有12項任務,其中10項都得到了排名第一。

再來看多模態,如果涉及到語音,又涉及到圖像或者視頻等等,這時候怎麼弄?這時候首先要有一個統一的表徵,跨模態通用語義理解,很重要的是跨模態語義表示方法,比如說多粒度注意力的圖像—文本聯合語義表示方法。

有了這些就可以和知識融合起來,比如說和知識圖譜相融合。大家看左上角的圖片,通過視覺分析可以看到裡面有嬰兒、有媽媽在拍背這樣的基礎事實,上面還有文字,基於文字理解可以捕捉到關鍵信息,比如說寶寶、打嗝、視頻還有聲音。基於捕捉到的這些信息,融合知識圖譜,對這個視頻就有了更全面的理解。有了這些理解以後,就可以得到一個結構化的語義理解,其中主題是母嬰和育兒,場景是拍嗝等等。有了這些,對這個視頻就不僅僅是靠視覺識別技術,而是會得到一個綜合的、對這段視頻結構化的語義理解,進而就可以做各種應用。

前面我講的都是一種語言。這裡為什麼用「從理想走向現實的機器翻譯」這樣一個題目呢?因為機器翻譯的任務由來已久,在現代計算機誕生之初,上個世紀40年代就有學者提出要用計算機來做翻譯,而經過70多年的發展,很多當年看來遙不可及的東西,現在已經逐漸實現了。我列的這幾段文字是我國機器翻譯界的老前輩60年代寫的一本書,那個時候他們就希望有一個翻譯系統,可以讓我們在人民大會堂和世界各國友人聚會的時候,無論哪個國家的人在上面講話,都可以從耳機裡聽到自己國家的語言。這是典型的同聲傳譯的場景。另外還有一些文本、書籍翻譯的場景。這些發展到今天,很多很大程度上已經實現了。

我們看機器翻譯發展的歷史,早期和自然語言處理的歷程類似,近30年前我剛做翻譯的時候也是開發規則系統,對語言進行分析,到目標語言的轉換、生成。後來這個過程被大大簡化了,標準的統計機器翻譯需要翻譯模型、語言模型、解碼器,翻譯模型要做翻譯的概率、衍生的概率、位置的概率等等,形成一系列的統計機器翻譯系統。而這個系統出現以後,已經開始可以商業化了。比如,百度翻譯2011年正式上線,現在每天都是數以億計的翻譯請求。2011年上線的時候,還沒有神經網絡翻譯,也是用統計機器翻譯。有了神經網絡翻譯以後有了進一步提升,整個過程從編碼到解碼也得到了很大的簡化。百度2015年第一個上線了大規模的神經網絡翻譯系統。

這個是機器翻譯質量提升的曲線,早期的時候,BLEU值達到四十幾就已經很好了,但是隨著機器翻譯的進展,BLEU值已經突破六十,這是非常大的進步,而且越來越可以廣泛應用了。我們提出用多種策略來提升中英翻譯系統性能,把這些放在一起得到了好的效果,在WMT的中英翻譯任務上也得到了顯著領先的結果。

使用深度學習的時候,需要非常龐大的數據,但是做翻譯的時候會面臨一個問題,中英這兩種語言之間有很多的數據,但是很多小語種之間沒有那麼多的數據,這時候怎麼辦呢?就要利用其他語言的資源來幫助語料稀缺的語種翻譯。

基於這套技術,我們採取了一系列的方法,比如知識蒸餾,小語種聚類聯合訓練,使得小語種的翻譯效果有明顯提升。

同聲傳譯在很多場景很重要,但是世界上只有幾千位能做同傳的人,譯出率也只有60%,時延2-5秒,而且工作15-20分鐘就需要休息一下。如果我們能用機器解決這個問題,顯然是很有價值的事情。但是機器同傳涉及到語音的識別、語言的翻譯、合成,這裡既有錯誤的累積,又有時間延遲的累積,我們怎麼做呢?我們知道人同傳的時候,不是要聽很長一句話說完然後才開始翻譯,如果是這樣的話延時會很長。而標準的語音識別系統,也需要有完整的輸入以後,有一個校對的過程,識別才能更準。翻譯也是需要看到一句完整的話之後來進行翻譯,這個延時是很長的。所以我們做這種機器同傳的時候,研製了一種方法可以感知上下文,很大程度上可以預測上下文。人類做同傳的時候,是聽你前面幾個字,估計你後面說什麼就開始翻,我們也採取這樣一套機制,這就涉及到自然語言處理的機制,可以相對精準預測到後面說什麼,從而可以大大減少這種延遲,而且時延可調。我是要聽到兩個詞就開始預測,三個詞就開始預測翻譯,還是更多詞,這些是可調的,所以有很好的靈活性。基於此我們做出的同傳,做到了端到端,從人說話到最終翻譯出來合成聲音大概是3秒時間,和人類基本持平,而且準確率也和人類同傳基本持平,甚至是略高的水平。

我們進一步做這件事情的時候,又把一些新的技術,比如知識蒸餾技術,引入端到端的同傳模型,然後把語音識別和翻譯同步生成模型,從而進一步提升機器同傳效果。

前面講的是技術本身,這些技術一方面會應用於百度翻譯、百度搜索這些產品,另一方面也全面開源開放出來,從而讓這些技術能跨越大規模應用的鴻溝。

百度語言和知識圖譜擁有完整的技術布局。在知識圖譜層面包括知識挖掘、整合、補全、分布索引、存儲計算;語言層面則涉及到詞法、句法、語義、篇章、篇章生成等等。

隨著百度自然語言處理技術能力增強,平臺化的能力也在增強,技術能力開放出來讓技術應用的門檻越來越降低。基於飛槳深度學習平臺的開源開放大生產平臺百度大腦,已經具備了很高的標準化、自動化、模塊化的工業大生產特徵。同時,百度開放出來的所有語言和知識相關的技術,是基於百度的飛槳深度學習平臺,有不同的部署,可以應用於不同場景。

ERNIE語義理解套件,包括面向不同領域、不同任務的核心技術,也有相應的開源工具,包括微調工具、預測工具、壓縮工具等等,可以做定製平臺以及相應的應用任務。

ERNIE還可以通過定製化的方式,化繁為簡,全面滿足開發者在數據、訓練、調優、部署等環節的需求。

百度也擁有 UNIT理解與交互平臺,可以支持各種對話的任務,各行各業的開發者已經在上面定製了7.4萬多個技能,累計基於UNIT的交互已經超過1380億。

此外還有智能創作平臺,如果寫東西,涉及挖掘選題、選擇相應的參考資料、後期要做糾錯等等,這個平臺都可以支持。我們和人民日報、央視網都有很好的合作,已經累計超過2千萬的調用量。

以上這些,都是基於百度語言與知識技術的開源開放平臺,很多用戶在上面完成了自己的任務。

理解語言,擁有智能,改變世界。我今天的報告就到這裡,感謝大家!

【免責聲明:CSDN本欄目發布信息,目的在於傳播更多信息,豐富網絡文化,稿件僅代表作者個人觀點,與CSDN無關。其原創性以及中文陳述文字和文字內容未經本網證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本網不做任何保證或者承諾,請讀者僅作參考,並請自行核實相關內容。凡註明為其他媒體來源的信息,均為轉載自其他媒體,轉載並不代表本網贊同其觀點,也不代表本網對其真實性負責。您若對該稿件由任何懷疑或質疑,請即與CSDN聯繫,我們將迅速給您回應並做處理。】

相關焦點

  • 深耕自然語言處理近30年 百度CTO王海峰獲光華工程科技獎
    百度CTO王海峰因其在人工智慧領域、尤其是自然語言處理領域的卓越貢獻,成為AI產業界首位獲此殊榮的科技工作者。光華工程科技獎由中國工程院主管,每兩年頒發一次。自1996年至今,共有304位科學家及1個團體獲獎。
  • 深耕自然語言處理近30年 百度CTO王海峰獲中國工程科技界最高獎
    百度CTO王海峰因其在人工智慧領域、尤其是自然語言處理領域的卓越貢獻,成為AI產業界首位獲此殊榮的科技工作者。光華工程科技獎由中國工程院主管,每兩年頒發一次。自1996年至今,共有304位科學家及1個團體獲獎。
  • 百度CTO王海峰:語言與知識技術是AI認知能力的核心
    8月25日,在線上發布會上,百度CTO王海峰首次分享了百度大腦語言與知識產品全景圖。王海峰在演講中表示,語言與知識技術是AI認知能力的核心,以語言和知識為研究對象,讓機器像人一樣掌握知識、理解語言的自然語言處理技術,對於人工智慧發展至關重要。
  • 王海峰博士領軍的百度自然語言處理技術再獲國際認可
    近日,自然語言處理(NLP)領域的國際頂級學術會議「國際計算語言學協會年會」(ACL 2019)公布了今年大會論文錄用結果。根據ACL 2019官方數據,今年大會的有效投稿數量達到2694篇,相比去年的1544篇增長高達75%。其中,國內自然語言處理領軍者百度共有10篇論文被大會收錄,展現出在該領域的技術積澱和國際水準。
  • 百度CTO王海峰榮膺第十三屆光華工程科技獎
    百度CTO王海峰因其在人工智慧領域、尤其是自然語言處理領域的卓越貢獻,成為AI產業界首位獲此殊榮的科技工作者。光華工程科技獎由中國工程院主管,每兩年頒發一次。自1996年至今,共有304位科學家及1個團體獲獎。
  • 百度CTO王海峰獲「中國工程界最高獎項」光華工程科技獎
    百度CTO王海峰因其在人工智慧領域、尤其是自然語言處理領域的卓越貢獻,成為AI產業界首位獲此殊榮的科技工作者。王海峰從上世紀九十年代開始自然語言處理及機器翻譯研究,並在博士論文中探索了將神經網絡技術用於自然語言理解及機器翻譯。
  • 王海峰:他打造了「百度翻譯」
    記者以「神馬都是浮雲」為例,百度翻譯為「Everything is nothing」,比較接近原意,而谷歌則翻譯成了「Horses are clouds of God」,基本不知所云。與百度翻譯相比,谷歌翻譯明顯體現出本地化不足的特點。而負責組隊實現百度翻譯技術攻關的則是百度基礎技術首席科學家王海峰。
  • CIIS 2019|百度CTO王海峰解讀AI發展趨勢
    會上,百度首席技術官、ACL/CAAI 會士王海峰出席峰會,並發表題為《AI大生產平臺推動產業智能化》的演講,全面介紹百度如何通過探索頂尖AI技術、打造AI大生產平臺,助力產業智能化發展。王海峰介紹稱,人類經歷的前三次工業革命中,驅動工業革命的核心技術都表現出很強的通用性,呈現出標準化、自動化、模塊化的工業大生產特徵。
  • 百度副總裁王海峰:機器翻譯實現大規模產業化
    4月19日下午,在第十屆中國電子信息技術年會網際網路機器翻譯論壇上,百度技術副總裁王海峰在現場演講中表示,通過在理論、技術、應用上的創新和突破,百度機器翻譯已經實現了大規模產業化。「第二代機器翻譯之所以遇到瓶頸,在於其難以突破語言理解的技術屏障」,中國工程院院士倪光南在現場演講中表示,「大數據和網際網路給出了一個新的工具和解決辦法」,通過發揮大數據的威力實現了技術突破,「我相信我們在這些領域做好,可以通過機器翻譯促進機器智能的發展。」
  • 中國AI金雁獎重磅揭曉 百度CTO王海峰榮膺「特殊貢獻獎」
    中國科學院院士張鈸、加拿大工程院院士杜如虛、中國工程院院士譚建榮、加拿大工程院院士楊軍、百度首席技術官王海峰榮獲中國AI金雁獎「特殊貢獻獎」。王海峰是唯一一位來自AI產業界的獲獎者,他表示,「百度所開發的AI技術以及平臺,正通過開源開放,通過百度智能雲輸送給各行各業,希望能推動全社會、各行各業的產業智能化升級。
  • 百度王海峰獲得首個吳文俊人工智慧傑出貢獻獎
    本屆吳文俊人工智慧獎共對70項人工智慧成果授獎,百度高級副總裁、AI技術平臺體系(AIG)總負責人王海峰榮獲首個吳文俊人工智慧「傑出貢獻獎」。王海峰既是出色的學者,也是工業界的技術領袖。他長期致力於人工智慧技術創新及產業發展,在機器翻譯、自然語言處理、知識圖譜和智能搜索等人工智慧技術領域取得大量領先和開創性成果。
  • 對話百度王海峰:機器能翻譯,還需要學外語嗎?
    2010年,剛剛加入百度的王海峰著手研發機器翻譯。「當時,我預料這個領域的研究一定會有重大突破。一是因為社會對於機器翻譯的需求日益旺盛,更重要的是,百度可以為這項研究提供網際網路大數據和大計算平臺的強大支持,」他說,「項目從起步到上線只用了一年多時間,現在百度翻譯已經可以支持27種語言之間的翻譯,在全球擁有5億用戶,每天響應約1億次的翻譯需求。」
  • 自然語言處理暢談之機器翻譯技術發展歷程
    也有人稱機器翻譯是自然語言處理領域的皇冠明珠,只有解決了語言分析的所有難題,才能真正攻破機器翻譯這座堡壘。近十幾年來,機器翻譯研究及產業化在各國政府和產業界的大力支持下,取得了快速進展我國政府把包括機器翻譯技術在內的自然語言理解研究列入國家中長期科技發展規劃綱要中。美國政府在2009年把自動翻譯列為最具影響力的未來十大技術之一。
  • 百度機器翻譯獲國家科技進步獎
    項目負責人、百度技術副總裁海峰從1993年初開始從事機器翻譯領域研究工作,最終藉助百度強大的海量計算平臺和豐富的海量網際網路數據處理經驗,讓機器翻譯從理論走向實踐。   據王海峰介紹,得益於百度在自然語言處理上的領先技術優勢與不懈的創新努力,此次由百度與中科院自動化所、計算所、浙江大學、哈爾濱工業大學、清華大學共同研發的「基於大數據的網際網路機器翻譯核心技術及產業化」項目,突破了機器翻譯領域內的四大世界難題:提出基於大數據的網際網路機器翻譯模型,快速響應高負荷翻譯需求; 基於大數據的翻譯知識獲取,克服語言數據噪聲問題; 通過深度語義分析和翻譯技術
  • 中文自然語言處理數據共建讓機器讀懂「千言」
    「機器人保姆要想真正走入家庭,自然語言是第一關。」達闥科技總裁黃曉慶在此前的一次座談上對記者說。   自然語言理解(NLP)素有「人工智慧皇冠上的明珠」的盛譽,語言與知識技術是人工智慧認知能力的核心。這也意味著語言與知識等認知層面的技術突破,將進一步促進AI深入發展。
  • 百度CTO王海峰世界網際網路大會發表演講:人工智慧是創新發展新動能
    24日上午,百度CTO王海峰出席「人工智慧:育新機 開新局」論壇,並發表「人工智慧 創新發展新動能」主旨演講。人工智慧發展到今天,已經具備了標準化、模塊化、自動化的特徵。王海峰表示,「隨著技術的發展,隨著大規模的產業應用落地,人工智慧已經進入到工業大生產階段。」
  • 百度CTO王海峰詳解知識圖譜與語義理解
    我現在在百度負責的技術涉及網際網路、大數據、人工智慧等方方面面,但是我的專業其實是自然語言處理、知識圖譜。大概 26 年前,我在哈工大,在李生教授和趙鐵軍教授的指導下做機器翻譯系統。當時,主要是基於規則的系統,也要用到知識,那時的知識是把人類專家的知識編輯在規則裡,實現語言的理解、生成,然後實現翻譯。
  • 獨家對話百度副總裁王海峰:NLP 的路還很長
    此前,我們曾專訪過百度自然語言處理部技術負責人吳華、高級總監吳甜,就百度機器翻譯技術展開過詳細討論。想要進一步了解百度機器翻譯,可移步《獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類》(可點擊文末閱讀原文查看)。因涉及方面較多、篇幅較長,根據專訪情況將內容分為上、下兩篇。
  • 科學家王海峰:從百度十篇論文入選ACL 2019說起
    中新網5月29日電 近日,國際自然語言處理(NLP)領域的權威學術會議「國際計算語言學協會年會」(ACL 2019)公布了今年大會論文錄用結果,其中,百度共有10篇論文被收錄。對於國內企業來說,這可謂一次前所未有的突破。在國際自然語言處理領域,百度一直處於第一梯隊。
  • 百度王海峰領銜百度AI再創佳音 10篇論文被ACL 2019錄取
    近日,自然語言處理(NLP)領域的國際頂級學術會議「國際計算語言學協會年會」(ACL 2019)公布了今年大會論文錄用結果,百度共有十篇論文被大會收錄,展現出在該領域的技術積澱和國際水準。由百度高級副總裁、AI技術平臺體系(AIG)和基礎技術體系(TG)總負責人、百度研究院院長王海峰領銜的百度AI取得新一輪創新突破。