華為李航:自然語言處理——理想與現實、機遇與挑戰(附PPT及視頻回放連結)

2021-02-08 huawei西引力


華為諾亞方舟實驗室主任李航老師親臨北大AI公開課第8講,與北大人工智慧創新中心主任、曾經的「百度七劍客」之一雷鳴老師一起,以「自然語言處理——理想與現實、機遇與挑戰」為題,全面綜述了NLP 的任務、特點、最新技術,尤其是深度學習在NLP 的應用。同時,兩位老師就產品應用、處理難點、語義理解、知識庫、通用人工智慧、神經網絡的記憶等多個大家關注的問題展開了深入的討論和交流。

李航老師綜述性地為大家介紹了 NLP 的任務、特點、最新技術以及發展趨勢。李老師精闢地總結道:「給今天的講座大概做一個總結,自然語言理解很難,自然語言處理現在用數據驅動的辦法去做,有五個最基本的問題,即分類、匹配、翻譯、結構預測和馬爾可夫決策過程。

在具體的問題上,有了數據就可以跑 AI 的閉環,就可以不斷提高系統的性能、算法的能力。深度學習在我剛說的五個大任務裡的前四個都能做得很好,特別是運用 seq to seq 的翻譯和語音識別。單論對話也能做的越來越好,但是多輪對話需要去研究和解決。」在對話部分,李航老師和北大人工智慧創新中心主任、曾經的「百度七劍客」之一雷鳴老師一起,就產品應用、處理難點、語義理解、知識庫、通用人工智慧、神經網絡的記憶等多個大家關注的問題展開了深入的討論和交流。

李航:今晚很高興能夠與大家交流,談一下自己對於自然語言處理的一些看法,包括技術發展趨勢和發展前景。講座分為三部分,第一部分是自然語言處理主要解決什麼問題,有哪些特點;第二部分是介紹自然語言處理的最新技術;第三部分是展望未來,自然語言處理方向的發展可能性。

在座都對AI很感興趣。人工智慧就是希望計算機和人一樣能夠說話、理解文章內容、與人交互。自然語言理解是人工智慧中很有挑戰的領域,因為使用語言的能力是人所獨有的,是最高智能的體現。

對於自然語言理解,有兩種定義。第一種是計算機能夠將所說的語言映射到計算機內部表示;另一種是基於行為的,你說了一句話,計算機做出了相應行為,就認為計算機理解了自然語言。後者的定義,更廣為採用。

為什麼自然語言理解很難?其本質原因是語言是一種複雜的現象。自然語言有5個重要特點,使得計算機實現自然語言處理很困難:(1)語言是不完全有規律的,規律是錯綜複雜的。有一定的規律,也有很多例外。因為語言是經過上萬年的時間發明的,這一過程類似於建立維基百科。因此,一定會出現功能冗餘、邏輯不一致等現象。但是語言依舊有一定的規律,若不遵循一定的規範,交流會比較困難;(2)語言是可以組合的。語言的重要特點是能夠將詞語組合起來形成句子,能夠組成複雜的語言表達;(3)語言是一個開放的集合。我們可以任意地發明創造一些新的表達。比如,微信中「潛水」的表達就是一種比喻。一旦形成之後,大家都會使用,形成固定說法。語言本質的發明創造就是通過比喻擴展出來的;(4)語言需要聯繫到實踐知識;(5)語言的使用要基於環境。在人與人之間的互動中被使用。如果在外語的語言環境裡去學習外語,人們就會學習得非常快,理解得非常深。

這些現象都說明,在計算機裡去實現與人一樣的語言使用能力是一件非常具有挑戰性的事情。首先,語言的不完全規律性和組合性,就意味著如果在目前的計算機上去實現,會產生組合爆炸;還有,如果需要語言做比喻,去聯繫到實踐環境,就意味著要做全局的、窮舉的計算。如果通過現代計算機來做,非常複雜,幾乎不太可能。所以,如果想讓計算機像人一樣使用語言,原理上需要完全不同的、與人腦更接近的計算機體系架構。

其本質原因是,目前在計算機上去實現東西一定需要數學模型。換句話說,計算機能夠做的事情要通過數學形式化。但是,到目前為止,語言的使用還不清楚是否能夠用數學模型去刻畫。人工智慧的終極挑戰就是自然語言理解。現實當中,不能因為自然語言理解非常困難就放棄。我們還是希望能夠使計算機越來越智能化,能夠部分使用語言。因此,就形成了所謂自然語言處理這一領域。我們叫自然語言處理,而不是自然語言理解,因為真正的理解是太難了。

自然語言處理做的第一件事情就是把問題簡化。比如,知識問答中,問姚明身高是多少?朋友告訴你是2米26。這是人與人之間的知識問答。那麼,這其中有哪些步驟呢?首先是聽,然後去理解問題,然後去做一定的推理,然後再去做信息檢索,最後判斷怎麼去做回答,整個過程相當複雜。我們現在做自然語言處理時,也做這種知識問答,包括有名的IBM的Watson,其整個步驟也是簡化了自然語言處理的過程。一般而言,就是這幾個步驟,先分析一下問句,接著去檢索相關的知識或者信息,然後產生答案。

自然語言處理領域發展的60多年中,總結出一個經驗,就是目前最好的方法是機器學習,包括深度學習。也就是,基於機器學習,並在一定程度上把人的知識加進來,並參考人腦的機理,從而構建更好的機器學習辦法。在短期內,自然語言處理很難突破這個框架。我們希望未來能夠有更大的突破,人工智慧能夠完全超出目前基於機器學習的方法去做自然語言處理甚至自然語言理解。但是,目前的其他的路徑都非常困難。現在,我們擁有大數據,使得我們能夠去更好的做自然語言處理。

現在,無論是自然語言處理,還是人工智慧的其他領域,都形成了一個閉環機制。比如,開始有一個系統,然後有用戶產生大量的數據,之後基於數據,開發好的算法,提高系統的性能。如果能夠閉環跑起來,就可以去收集更多的數據,可以開發出更好的機器學習算法,使得人工智慧系統的性能能夠不斷提升。這個人工智慧閉環是現代人工智慧技術範式裡最本質的一個現象,對於自然語言處理也不是例外。我們可以通過閉環,不斷去開發新的算法,提高自然語言處理系統的性能。


目前,所有的自然語言處理的問題都可以分類成為五大統計自然語言處理的方法或者模型,即分類、匹配、翻譯、結構預測,馬爾可夫決策過程。各種各樣的自然語言處理的應用,都可以模型化為這五大基本問題,基本能夠涵蓋自然語言處理相當一部分或者大部分的技術。主要採用統計機器學習的方法來解決。第一是分類,就是你給我一個字符串,我給你一個標籤,這個字符串可以是一個文本,一句話或者其他的自然語言單元;其次是匹配,兩個字符串,兩句話或者兩段文章去做一個匹配,判斷這兩個字符串的相關度是多少;第三就是翻譯,即更廣義的翻譯或者轉換,把一個字符串轉換成另外一個字符串;第四是結構預測,即找到字符串裡面的一定結構;第五是馬可夫決策過程,在處理一些事情的時候有很多狀態,基於現在的狀態,來決定採取什麼樣的行動,然後去判斷下一個狀態。我們也可以採用這樣的模型,去刻畫自然語言處理的一些任務。

分類主要有文本分類和情感分類,匹配主要有搜索、問題回答、對話(主要是單輪對話);翻譯主要有機器翻譯,語音識別,手寫識別,單輪對話;結構預測主要有專門識別,詞性標註,句法分析,文本的語義分析;馬可夫決策過程可以用於多輪對話。我們可以看到,自然語言處理裡面有很多任務,在現實中我們已經開始使用最基本這五種最基本的模型它都去可以去刻畫的。

自然語言處理,在一定程度上需要考慮技術上界和性能下界的關係。現在的自然語言處理,最本質是用數據驅動的方法去模擬人,通過人工智慧閉環去逼近人的語言使用能力。但是,這種技術並沒有真正實現人的語言理解機制。可能會有這樣的情況,這個技術的準確率(綠線)畫了一個上界。比如,語音識別的上屆是95%,我們希望不斷把這個技術做好,比如通過人工智慧閉環,更好的深度學習方法,從而使得上界不斷提高。但是,不可能一下子達到百分之百對,或者達到完全與人一樣的水平。每個應用,對於下界的要求是不一樣的。比如,在葡萄牙問路,對方也不會英語,我也不會葡萄牙語,交流非常困難,在這種環境下我其實就是聽懂幾個單詞,讓機器翻譯給我翻譯幾個單詞就行了,對性能的要求其實是比較低的,不需要去翻譯一大段話。我們可以看到,不同的應用,用戶對使用性能的要求不同,如果下界達到這個水平,用戶就用了。再比如網際網路搜索中排序第一的準確率不高,60%多-70%多,大家往往覺得,網際網路搜尋引擎已經達到要求了。當然因為搜索的時候,通過排序展示給用戶多個結果,用戶可以去逐個去看,一定程度上解決一些問題,這時候對性能要求下界相對就比較低。如果,現在的技術上屆達到了用戶要求的下界,就能夠使用。所以,哪些自然語言處理的技術未來能夠起飛,能夠真正實用化,就可以通過這種關係來看。還是要看具體的應用的場景。在一些特定場景下,準確率達到99%都不行。我們相信,自然語言處理的技術會不斷提高,但是是不是都能夠達到我們每一個應用要求的性能的下界,就不好說了,要看未來的發展了。這是自然語言處理技術整個發展情況。

下面,給大家一起看一下我們自然語言處理領域裡面都有哪些技術,有代表性的技術都大概達到什麼樣的水平,都是什麼樣的一些基礎。假設大家對深度學習有一定的了解,如果這方面的知識還不夠也沒關係,過後你可以去再去看書看論文,去了解一些相關的技術情況。

剛才,我介紹到站在一個很抽象的角度來看,自然語言處理就是五個問題。如果用各種方法包括深度學習把這五個問題做好了,就能夠把自然語言做得很好。現實當中,我們就是通過深度學習,達到自然語言處理技術比較好的水平。

我們就看一下自然語言處理的幾個應用。有一些也是華為諾亞方舟實驗室開發的一些技術,也是業界代表性的技術。也給大家介紹一下谷歌的機器翻譯技術。

首先,問答系統有很多,包括 IBM 的 Watson 也是一個問答系統,有大量的知識或者信息放在知識庫。典型的辦法就是把問答用FAQ索引起來,與搜尋引擎相似,如果來了一個新問題,有一大堆已經索引好的FAQ,然後去做一個檢索(字符上的匹配),之後逐個去做匹配,判斷問句與回答的匹配如何。往往匹配的模型有多個,再去將候補做一個排序,把最有可能的答案排在前面,往往就取第一個作為答案返回給用戶。

這裡面牽扯到幾個技術,我們在在線的時候要做匹配和排序,現在最先進的技術都是用機器學習,用深度學習技術。就是把問句和回答的可能的候選,用向量來表示,問句的每一個單詞都可以用向量來表示。每一個詞的語義都可以用一個實數值向量賴表示,問句和候補都是實數值向量的序列。然後,用一個二維的卷積神經網絡來判斷兩句話在語義上是不是相關,候選是否是很好的答案。通過二維卷積神經網絡,可以判斷兩句話裡面哪一些詞語、詞組是可以相互對應,最後可以做一個判斷這兩句話是不是相關的。整個模型的學習通過大量的數據、句對,去訓練。如果卷積神經網絡的參數學好,就可以判斷任何給定的兩句話是不是能夠構成一輪問答。

這樣的模型不僅僅可以用到文本問答(知識問答)上,也可以用到圖像檢索上面。給大家演示一個demo。

這種模型,可以跨模態的把文本和圖片聯繫起來。在深度學習技術出現之前的話,這件事情是不可能的。因為他們是不同的模態。一個是符號表示的信息,一個是像素表示的信息,那麼我們可以用深度學習的模型去做這種跨模態的匹配。比如,左邊有一個卷積神經網絡,他能夠抽出左邊圖片的語意表示,表示成一個向量;右邊也是一個卷積神經網絡,能夠把一段文字的內容抽取出來,表示成為一個向量,還有一個網絡判斷這兩個向量在語義上是否能夠匹配。這個模型可以通過大量的數據去訓練。假設每一個照片有3到5個人給出描述。我們用大量這樣的數據就可以學這樣的神經網絡,神經網絡可以幫助我們,就是說任何給定的一句話,要去查找一個圖片的內容,它就可以在這個圖片庫裡幫你去匹配到最相關的圖片,給你返回來。這個技術也是在深度學習出現之前應用的,因為我們不知道怎樣把圖片和文字匹配到一起。有了深度學習技術,我們可以做這樣的事情。

自然語言對話是用另外一種技術,用生成式的模型去做自然語言對話。大量的聊天系統是這麼做的,輸入一句話,裡面準備了大量的FAQ,搜索到一個最相關的回答,反饋給你。這叫做基於檢索的自然語言問答系統。

我們這裡看到是一種產生式,經過大量數據訓練之後,輸入一句話系統自動的產生一個回復,理論上產生出無窮多的不同的回覆。下面先看一個實際系統的錄像。

這個系統,我們在微博上爬了四百萬的微博數據,微博數據可以看作是一種簡單的單輪對話。我們用400萬數據訓練了這樣一個系統能夠去自動產生對話。(系統演示)

理論上它可以回答任何你輸入的對話。用400萬的微博數據就可以訓練這樣一個模型。系統產生一句話的比例是96%,真正形成一個有意義的單輪對話的比例是76%左右。這個系統的一大特點是,可以回答沒有見過的一句話。

第二個特點是能夠記住訓練數據。發現深度網絡有一個共同的特點就是能夠記住訓練數據,同時也有去泛化的能力,能針對未知的新見到的東西去自動組織出一句話,並返回給你。這種能力很令人驚嘆,是否實用並不清楚。在一個很固定的場景裡,比如話務中心,如果話務員跟客戶之間的交互都是簡單的重複,大量的類似數據可以構建一個產生自動的回覆系統,而且跟人的回覆非常接近。

大家如果熟悉深度學習的話,剛才說自然語言處理有很多問題都是翻譯的問題,即把一個文字的字符翻譯成另外一個文字字符,那麼單輪對話的產生也可以看成是機器翻譯。序列對序列學習,sequenceto sequence learning,可以用到這種單輪對話中。每個單詞其實是用一個實數值向量表示,就是編碼,之後用實數值向量分解成一個回復的一句,叫做解碼。通過這種編碼、解碼這兩個過程的話,我們把原始的數據轉化成中間表示,再把中間表示,轉換成為應該回復的話,可以產生對話系統。

一個很重要的任務就是機器翻譯,機器翻譯的歷史被認為與自然語言處理的歷史是一樣的。最近,大家也知道,深度學習,更具體的就是序列對序列學習,被成功地運用到機器翻譯裡,使得機器翻譯的準確率要大幅度提升。

谷歌的神經機器翻譯系統是一個非常強大的系統,需要很多訓練數據和強大計算資源。這個seqto seq模型有八層的編碼器和八層的解碼器,整個網絡非常深。它還用了各種這個新的技術,比如注意力技術,並行處理技術,還有模型分割和數據分割等。目前,翻譯的準確率已經超過了傳統的統計機器翻譯。

下面,再看一下未來自然語言處理技術發展的前景和趨勢。剛才我們看到技術上界和用戶對於性能要求的下界,碰到一起就看到技術的使用化。那麼,就預測一下未來自然語言處理技術的發展。目前,幾個最基本的應用,包括語音識別,就是一個序列對序列學習的問題,就是翻譯的問題,目前準確率是95%左右,那麼已經比較實用了。單輪對話往往可以變成一個分類問題,或者結構預測問題,就是通過手寫一些規則或者建一些分類器,可以做的比較準。很多手機上應用或者是語音助手像siri,就是用這樣的技術;多輪對話還很不成熟,準確率還遠遠達不到一般期待的要求,只有在特定場景下能做的比較好。單輪問答已經開始實用化,準確率一般來百分之七十八十,自動問答系統沒有超過80%的這個準確率的情況。去年,我有一個報告就講魯棒的自動問答或者知識問答,並不要求準確率是百分之百。單輪自動問答會馬上越來越實用化,因為我們看到很多成功的例子包括Alexa往往都是用單輪對話技術來做的。文本的機器翻譯水平在不斷提高,深度學習在不斷進步,越來越接近人的專業水平,但只是在一些特定場景下。完全去替代人,還是不太可能。人的語言理解是一個非常複雜的過程,序列對序列實際上是一種近似,現在這種技術能夠去無窮盡的逼近人,但是本質上還是跟人的做法不一樣的。即使是這樣,準確率可以達到百分之七八十。在某些場景下,用戶對性能要求並不是特別高。

總而言之,語音識別、機器翻譯已經起飛,大家現在開始慢慢在用,但是真正對話的翻譯還很困難,還有很長的路要走,但是也說不定能夠做得很好。並不是說序列對序列就沒有問題需要解決了,還有細緻的問題。一個典型的問題就是長尾現象。不常用的單詞、語音識別、翻譯還是做得不是很好。比如用中文語音輸入,人名、地名這種專有名詞識別率一下就下降,特殊的專業術語識也不好,講中文中間夾雜一些英文單詞也是一種長尾現象。因為現在機器學習的方法是基於統計的,原則上就是看到數據裡面的規律,掌握數據的規律。需要看到甚至多次重複看到一些東西,才能夠掌握這些規律。這塊相信有很多技術能幫助解決一些問題,使得機器翻譯或語音識別技術不斷提高,但是完全徹底的解決還是比較困難,因為這是這種方法帶來的一個局限性。

單輪的問答,特別是場景驅動的單輪的問答,可能慢慢會開始使用。但是多輪對話技術還是比較難。馬爾可夫決策過程實際上是還是個統計學習模型,本質特點就是需要有大量的數據去學習。其實我們人在做多輪對話的時候,並不需要重複才能掌握這種天生能力。這些是否能夠用馬爾科夫決策過程去模擬或者近似還不是很清楚。還有一個重要的問題就是多輪對話的數據不夠,不能夠很好地去學習這樣的模型,去研究這些問題。即使是特定任務,多輪對話還比較困難,如果是任務不特定,比如聊天機器人就更難了,我們都不知道該怎麼去做,馬爾科夫決策過程都用不上。現實當中的一些聊天機器人就是用單輪技術堆起來,但是形成不了一個很自然合理的多輪對話,變成大家用起來覺得很奇怪的東西。總結起來就是多輪對話,在任務驅動的簡單場景,有了更多的數據,我們是有可能做的越來越好。

給今天的講座大概做一個總結,自然語言理解很難,自然語言處理現在用數據驅動的辦法去做,有五個最基本的問題,即分類、匹配、翻譯、結構預測和馬爾可夫決策過程。在具體的問題上,有了數據就可以跑AI的閉環,就可以不斷提高系統的性能、算法的能力。深度學習在我剛說的五個大任務裡的前四個都能做得很好,特別是運用seq toseq的翻譯和語音識別。單論對話也能做的越來越好,但是多輪對話需要去研究和解決。

自然語言概括的那部分其實我也寫過一些文章,大家感興趣的話也可以去看一看,網上也能搜得到,然後還有就是我們相關的工作論文,包括谷歌的工作論文,我在這裡列出來了。

最後,歡迎大家加入我們的實驗室。方向有語音、語言處理、推薦搜索、大數據分析、智能通訊網絡、計算機視覺、物聯網、智能城市、智能終端。謝謝大家。

視頻回放連結:

http://www.iqiyi.com/l_19rrcceoer.html

點擊「閱讀原文」即可觀看

相關焦點

  • 市北GMIS|字節跳動李航:自然語言對話技術的發展機遇與挑戰
    現在,李航老師是字節跳動人工智慧實驗室總監,在學術界是 IEEE Fellow 和 ACM 傑出科學家。在今年上海召開的市北GMIS 2019 大會上,我們邀請到了李航老師,分享自然語言對話技術領域的相關觀點。以下為演講主要內容,機器之心進行了不改變原意的整理:大家好!非常高興今天有機會跟大家交流。
  • 北大AI課程 丨 Lesson 8—華為李航:自然語言處理,理想與現實、機遇與挑戰
    自然語言處理的最新技術1、 問答系統問答系統有很多,這裡面牽扯到幾個技術,在線的時候要做匹配和排序,現在最先進的技術都是用深度學習技術,比如 IBM 的 Watson。3、 自然語言對話自然語言對話是用另外一種技術,用生成式的模型去做自然語言對話。大量的聊天系統是這麼做的,輸入一句話,裡面準備了大量的FAQ,搜索到一個最相關的回答,反饋給你。這叫做基於檢索的自然語言問答系統。
  • 華為諾亞方舟實驗室主任李航:神經符號處理開啟自然語言處理新篇章
    所以,這是為什麼自然語言處理(甚至是廣義的人工智慧)都非常具有挑戰性的原因。現實當中大家採用的辦法,我們不叫自然語言理解,而是叫自然語言處理。我們的策略是,把人類做語言理解的這個複雜過程進行簡化。第一個,我們現在能去做的事情。人類要是理解語言的話,比如人做這種問答,問我姚明身高是多少,我想一想可能是 2 米 29。我回答的這個過程,可能包含了多個步驟。
  • 字節跳動人工智慧實驗室總監李航:《人類學習與機器學習》 (附視頻)
    本次講座中我們談到的人類學習主要是指概念和語言的學習,提到的機器學習指深度學習。曾就職於 NEC 公司中央研究所,任研究員;微軟亞洲研究院,任高級研究員與主任研究員;華為技術有限公司諾亞方舟實驗室,任首席科學家與主任。對於人類來說,人類到底是如何進行概念和語言的學習的呢?
  • 華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢
    ,華為諾亞方舟實驗室主任李航博士在會上做了題為《自然語言處理中的深度學習:過去、現在和未來》的演講,雷鋒網(公眾號:雷鋒網)根據現場演講整理成本文。深度學習在自然語言處理中的應用,大概可以分成兩個階段。現在第一階段已經基本結束,開始進入第二個階段。所以,未來自然語言處理深度學習的發展趨勢應該是一個神經處理和符號處理的結合的混合模式。
  • 李宏毅-《深度學習人類語言處理2020》中文視頻課程及ppt分享
    由國立臺灣大學李宏毅老師主講的純中文版,2020年深度學習與人類語言處理課程開課了,該課程主要講解深度學習技術在人類語言處理,比如語音識別、自然語言處理相關的知識。
  • 諾亞方舟實驗室李航:深度學習還局限在複雜的模式識別上
    諾亞方舟實驗室已經將採用深度學習(DL)提升自然語言處理(NLP)的能力(DL4NLP)作為一個研究重點,包括自然語言對話(包括知識問答)、機器翻譯和圖片搜索,實現以往的自然語言處理技術無法達到的效果。
  • 最新(2019)斯坦福CS224n深度學習自然語言處理課程(視頻+筆記+2017年合集)
    向AI轉型的程式設計師都關注了這個號👇👇👇機器學習AI算法工程  公眾號:datayx史丹福大學2019年新一季的CS224n深度學習自然語言處理課程這門自然語言處理課程是值得每個NLPer學習的NLP課程,由 Christopher Manning 大神坐鎮主講,面向史丹福大學的學生,在史丹福大學已經講授很多年。
  • 資源|李宏毅中文《機器學習/深度學習》2019上線(附ppt及視頻分享)
    ,且全部開放了課程視頻。2013年9月至2014年7月,麻省理工學院計算機科學和人工智慧實驗室( CSAIL )語言系統組的訪問科學家。他的研究方向主要是機器學習(深度學習)和語音識別。二、課程連結Youtube:https://www.youtube.com/playlist?
  • 李航:人工智慧的未來 ——記憶、知識、語言
    知識問答的本質問題是:(1)語義分析,即將輸入的自然語言的表示映射到內部的語義表示;(2)知識表示,即將輸入的信息知識轉換為內部的語義表示。最大的挑戰來自語言的多義性和多樣性,以及知識的模糊性。語言具有多義性(ambiguity),也就是說一個表達可以表示不同的意思。
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 獨家 | 快速掌握spacy在python中進行自然語言處理(附代碼&連結)
    作者:Paco Nathan翻譯:笪潔瓊校對:和中華本文簡要介紹了如何使用spaCy和Python中的相關庫進行自然語言處理
  • 中文自然語言處理數據集:ChineseNLPCorpus(附連結)
    本文為你推薦中文自然語言處理數據集。推薦一個Github項目:ChineseNLPCorpus,該項目收集了一批中文自然語言處理數據集的相關連結,可以用來練手,點擊閱讀原文可以直達該項目連結:https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁中文自然語言處理數據集,平時做做實驗的材料。歡迎補充提交合併。
  • 百度CTO王海峰:自然語言處理技術發展飛速 機器翻譯從理想走向現實
    百度首席技術官王海峰出席論壇,並發表題為《自然語言處理前沿》的主題演講,向與會嘉賓介紹了自然語言處理相關研究的發展歷史和趨勢,以及百度在自然語言處理技術和產業應用中取得的成果。王海峰表示,自然語言處理(NLP)是用計算機來模擬、延伸及拓展人類語言能力的理論、技術及方法。
  • WSDM 2019教程—李航、何向南等,深度學習匹配在搜索和推薦中的應用
    【導讀】匹配是搜索和推薦中的關鍵問題,在很多任務中都有著廣泛的應用,比如很多自然語言處理任務(信息檢索,自動問答
  • 華為諾亞方舟實驗室主任李航:長期記憶是人工智慧未來發展方向
    華為諾亞方舟實驗室主任李航做了主題為「人工智慧的未來——記憶、知識與語言」的演講,本文為其演講速記整理:各位專家、同仁大家好,非常高興有機會和大家交流。今天的報告中我想從記憶、知識、語言的角度展望一下人工智慧技術的未來發展趨勢。我的報告分幾部分,首先我們一起看一下記憶和智能的關係。
  • 李宏毅老師深度學習與人類語言處理課程視頻及課件(附下載)
    年的相關技術,自然語言處理部分重點講述BERT及之後的預處理模型(BERT和它的朋友們),以及相關的NLP任務,包括文本風格遷移、問答系統、聊天機器人以及最新的GPT3解讀等,是難得的深度學習NLP最新學習材料。
  • 今日頭條人工智慧實驗室主任李航:如何構建擁有長期記憶的智能問答...
    構建擁有長期記憶的智能問答系統,是我們現在的願景今天非常高興來到這裡,與大家一起從記憶、知識和語言的角度探討自然語言處理、人工智慧在未來發展的趨勢。首先我們來看記憶和智能的關係,分析自然語言處理的發展是否可以構建智能化的問答系統。先來看看記憶對人的智能有多麼重要。
  • 孔曉泉:自然語言處理應用和前沿技術回顧 | 分享總結
    近日,雷鋒網研習社公開課邀請了孔曉泉來介紹自然語言處理技術的一些基本知識、行業的發展現狀和基於深度學習的通用的 NLP 處理流程。本次分享將幫助想要學習和從事 NLP 的學生、工程師以及愛好者建立一個基本的 NLP 的知識框架,熟悉基礎的技術方案,了解通用的深度學習處理流程。
  • CMU2018春季課程:神經網絡自然語言處理課程(附PPT和代碼)
    ,主要內容是教學生如何用神經網絡做自然語言處理。專知內容組附上上一次CMU2018和CMU2017年課程:深度學習的內容:Neural Networks for NLP神經網絡自然語言處理課程▌課程描述神經網絡為語言建模提供了強大的工具