CNCC 2019 | 劉群:基於深度學習的自然語言處理,邊界在哪裡?

2021-01-20 雷鋒網

當前,深度學習之於自然語言處理,有其局限性。那麼它所能起作用的邊界在哪裡呢?對此問題,我們應當深思。

近日,在北京語言大學舉辦的第四屆語言與智能高峰論壇上,華為諾亞方舟實驗室語音語義首席科學家劉群教授高屋建瓴,細緻分析了深度學習時代NLP的已知與未知。

他從自然語言處理基於規則、統計到深度學習的範式遷移出發,探討了深度學習方法解決了自然語言處理的哪些問題以及尚未解決哪些問題。

劉群教授認為尚未解決的這些問題最終是由深度學習的四大邊界——數據邊界、語義邊界、符號邊界和因果邊界所共同造成的。要想在這些尚未解決的問題上尋找突破,需要從深度學習的這些邊界出發,去探索新的解決方案。

這個報告主題為《基於深度學習的自然語言處理:邊界在哪裡?》。可謂是站在 NLP 塔尖上對整個領域的復盤。

我們一起來看劉群教授本次的報告正文:

感謝大會給我這個機會來這裡跟大家進行一次交流。今天我不講我的具體工作,而是講我多年來研究機器翻譯、自然語言處理的一些體會和感想,從更加抽象的層面討論一些問題,這些想法不一定成熟,如有不恰當的地方,希望大家指正!

自然語言處理的範式遷移:從規則、統計到深度學習

相信大家對自然語言處理的範式遷移,都深有體會。以機器翻譯為例,很多年前大家都是採用基於規則的方法,基本思想是依靠人來寫規則並教機器如何去翻譯。後來,大家也慢慢發現這條路走不通,因為人不可能將所有的規則都寫窮盡,並且也寫不出大量太細的規則。

因此大家之後就轉向了基於統計的機器翻譯方法,即給機器一堆語料讓機器自己去學習翻譯規則,不過它學到的還是一些符號層面的規則,但被賦予了概率。到一定程度後,統計機器翻譯就遇到了一些瓶頸,也很難再度提高。

隨著這幾年來深度學習方法的引入,機器翻譯的水平又有了一個大幅提高,使得機器不再在符號層面做翻譯,而是將整個推理過程映射到一個高維空間中,並在高維空間中進行運算。不過,我們只能理解輸入輸出而不知道其在高維空間中具體如何進行運算的,並且機器自動學習了什麼東西,我們也說不太清楚。

 下面我試圖來探討幾個問題:一是深度學習解決了自然語言處理的哪些問題?二是還有哪些自然語言處理問題是深度學習尚未解決的?三是基於深度學習的自然語言處理,其邊界在哪裡?

深度學習解決了自然語言處理的哪些問題 

自然語言處理領域有很多難題,此前研究者費了好大勁去解決的問題,深度學習方法出現以後,一些問題被很好地解決了,或者雖然還沒有徹底解決,但是提供一個很好的框架。這些問題主要包括:詞語形態問題、句法結構問題、多語言問題、聯合訓練問題、領域遷移問題以及在線學習問題。這裡我主要講下前四個問題,不對後兩個問題進行展開。

詞語形態問題

詞語形態問題,即 Morphology,研究的是詞的構成。在中文中,它體現在詞的切分上,在英語等大部分其他語言中則主要體現在形態的分析上。其中詞語切分在包括機器翻譯在內的中文信息處理中,曾是一個非常令人頭痛的問題,我們也花了很多精力去解決。

在基於規則和基於統計的機器翻譯方法下,詞語形態分析是機器翻譯首先需要解決的問題。

對於中文而言,由於基於漢字的翻譯效果很差,因而分詞是必須解決的問題,也就是說如果不做分詞或分詞做得不好,即便用統計方法,效果也會很糟糕。然而分詞本身又面臨很多問題,因為中文詞語本來就不是一個定義很明確的單位,導致分詞缺乏統一的規範,分詞粒度難以把握。

而中文以外的很多語言都存在形態問題,其中英文的形態問題比較簡單,因為英語詞的變化比較少。而很多其他語言的變化是很多的,例如法語有四五十種變化,俄語則更多。另外以土耳其和波斯語為例的黏著語,一個詞可能有上千種變化,即一個詞後面可以加很多種詞綴,這對於自然語言處理尤其是機器翻譯而言,是非常棘手的。 

而且對於這些形態豐富的語言而言,分析的難度也很大,一般只有語言學家才能把詞語的形態說得比較清楚。同時,形態本身其實是一層結構,所有統計機器翻譯都建立在某種結構的基礎上,例如詞語層、短語層、句法層,或者說基於詞的、基於短語、基於句法的方法,那如果想在這些結構中再加入一層形態結構,統計機器翻譯的建模就會變得非常困難。

在統計機器翻譯時代,複雜形態的語言處理非常困難,對此有一個比較著名的方法叫做 Factored statistical machine translation,即基於要素的翻譯方法,就是將一個詞分成很多要素,然後分別翻譯每個要素,最後匯總起來。不過我很不喜歡這個方法,因為我認為它不夠優雅,且非常冗餘,效果也不是很好。

 

然而語言形態這個問題在神經網絡框架下就基本不成問題了,這個領域的研究者對中文分詞的討論也不太多了,雖然也有一些關於如何在神經網絡框架下將詞分得更好的探索,我也看到過幾篇挺有意思的相關文章,但是對於機器翻譯而言,中文分詞已經構不成根本性挑戰了,因為現在機器翻譯基本上可以不做分詞了,大部分中文機器翻譯系統基本上基於漢字來實現,性能跟基於詞的系統比沒有太大區別。

針對形態複雜的語言,現在提出了一種基於subword(子詞)的模型或基於character(字符)的機器翻譯模型,效果也非常好。我認為這是一個統一且優雅的方案。 

自動化所張家俊老師他們的一篇論文就介紹了基於子詞的模型方案的解決思路,如下圖所示,第一行是標準的中文,第二行是做了分詞以後的。現在一般系統基於漢字即可,就是第三行,但是我們也可以做分詞,比如第五行做BPE,將「繁花似錦」分成「繁花」、「似」、「錦」這三個子詞部分。

 

基於字符的模型則是從字母的層面來做,對英文一個字母一個字母地建模和翻譯,翻譯效果也非常好。所以我認為在神經網絡框架下,形態問題基本上不是什麼太大的問題。

 

句法結構問題

下面看句法結構問題。

無論是在基於規則還是基於統計的機器翻譯框架下,句法分析對機器翻譯的質量都起著重要的影響作用。其中在基於統計的機器翻譯中,基於短語的方法獲得了很大成功,因此現在大部分統計方法都不做句法分析。

但是對於中英文這種語法結構相差較大的語言而言,做句法分析要比不做句法分析的結果好很多,所以句法分析還是很重要的。不過句法分析難度很大,一方面會帶來模型複雜度的增加,另一方面句法分析本身存在的錯誤會影響翻譯的性能。

而目前在神經網絡機器翻譯框架下,神經網絡可以很好地捕捉句子的結構,無需進行句法分析,系統可以自動獲得處理複雜結構句子翻譯的能力。

大概 2005 年至 2015 年期間,我一直在做基於統計的機器翻譯,也就是研究如何在統計方法中加入句法方法,在這麼多年的研究中,我們提出了很多種方法也寫了很多篇論文,下圖中的這些模型概括了我們之前提出的那些方法。

 

我們的工作主要聚焦於樹到樹、樹到串的方法。美國和歐洲很多學者在做串到樹的方法,樹到樹的方法做得都比較少。另外我們還做了一些森林方法的研究,即如何避免句法分析錯誤。不過,這些問題在神經網絡框架下基本上也不存在了。

舉例來說,「第二家加拿大公司因被發現害蟲而被從向中國運輸油菜籽的名單中除名」是一個好幾層的嵌套結構,但是機器翻譯的結果「The second Canadian company was removed from the list of transporting rapeseed to China due to the discovery of pests」在結構上翻譯得很好。下面一個例子在結構上也沒有什麼錯誤。

 

神經網絡機器翻譯方法是沒有用到任何句法知識的,僅憑從網絡中學到的複雜結構就能實現這麼好的效果,這樣的話,對機器翻譯來說做句法分析就沒有太大意義了。當然句法結構並不是完全沒有意義,現在也有不少人在研究,但是我認為這已經不再是機器翻譯的一個主要難點了。

多語言問題

 曾經,我們機器翻譯研究者的一個理想,就是在基於規則的時代實現多語言翻譯。當時很多人都在做多語言翻譯,甚至是中間語言翻譯,如下圖,中間語言翻譯其實是一個理想的方案,因為多語言的互相翻譯通過某個中間語言來實現,是能夠節省很多成本的:如果使用中間語言,開發系統的數量隨翻譯語言的數量呈線性增長;否則,開發系統的數量隨翻譯語言的數量呈平方增長。

但在基於規則方法的機器翻譯時代,中間語言的方法是不可行的,正如日本機器翻譯專家 Makoto Nagao 教授曾經說過的一句話,當我們使用中間語言的時候,分析階段的輸出結果必須採用這樣一種形式:這種形式能夠被所有不同語言的機器翻譯所使用。然而這種細微程度實際上是不可能做到的。

 

在基於統計方法的機器翻譯時代,普遍採用的是 Pivot 方法,即在兩個語言的互譯中,先將所有語言翻譯成英語,再翻譯成另一種語言。這樣的話就能夠使得多語言機器翻譯成為可能。

但是這種方法也存在一些問題,即會導致錯誤傳播和性能下降。另一方面,我們做多語言翻譯的另一個想法是希望能夠利用多語言之間互相增強的特點,即很多語言有相似的特點,因而如果無法利用上這種增強的話,這種方法就並非那麼理想了。

在神經網絡機器翻譯時代,谷歌就直接利用中間語言的方法做出了一個完整且龐大的系統,將所有語言都放在一起互相翻譯以及將所有文字都放在一起編碼。雖然這個系統目前還不是很完美,但是距離理想的 Interlingua 已經很接近了。

之後,谷歌又推出了Multilingual BERT,將104種語言全部編碼到一個模型裡面,這在原來是不可想像的。 

雖然這兩個方法現在還無法徹底解決多語言問題,但是它們整個框架非常漂亮,效果也非常好,所以我覺得針對這兩個方面,我們還有很多事情可以做。

聯合訓練問題

在統計機器翻譯時代,因為各模塊都是互相獨立訓練的,導致錯誤傳播的問題很嚴重,所以聯合訓練也成為了提高性能的有效手段。

但聯合訓練本身又會導致模型複雜度的大大增加,使得開發和維護變得困難。同時由於搜索範圍急劇擴大,系統開銷也嚴重增加。不僅如此,由於模塊太多,只能有限的模塊進行聯合訓練,所以不可能將所有模塊都納入聯合訓練。

而在神經網絡機器翻譯框架下,端到端訓練成為標準模式,所有模塊構成一個有機的整體,針對同一個目標函數同時訓練,有效避免了錯誤傳播,提高了系統性能。

 還有哪些自然語言處理問題深度學習尚未解決?

 由於深度學習的應用,我們以前費很大勁去做的一些事情,現在基本上不需要再去做了。但是深度學習本身還是存在很多問題的,包括資源稀缺問題、可解釋性問題、可信任問題、可控制性問題、超長文本問題以及缺乏常識問題等等。

資源稀缺問題 

資源稀缺問題大家都很清楚,然而這個問題遠比我們大部分人想像的要嚴重得多。一般而言,對於常見語言,機器翻譯可以做得很好,然而現實世界中有幾千種語言,曾經就有一篇報告統計出 7000 多種語言,當然有文字的語言並沒有這麼多,其中絕大部分語言都是資源稀缺語言,並且絕大多數專業領域實際上也都是資源稀缺的領域。 

以下面針對醫療領域的 WMT 2019 評測為例,它的語料庫包括 3000多個文檔、4 萬多個句子。在機器翻譯領域,幾百萬個句子的語料已經是小數量的了,商業系統基本上都有好幾千萬句子的訓練語料。然而這裡才4萬多個句子,是存在嚴重資源稀缺問題的,翻譯的質量也非常糟糕,基本上是不可接受的。另外從數據上來看,西班牙語有10萬多個,法語有7萬多個,中文沒有,也就是說基本收集不到中文醫療領域的翻譯數據。 

在工業界,想要解決的大部分問題都是沒有標註語料的,需要自己去標,然而也基本上沒有那麼多錢去對很多的語料做標註。所以資源稀缺問題要比我們想像的嚴重得多。

資源稀缺對神經網絡機器翻譯的影響很大。從下圖來看,上面兩條線指基於統計的機器翻譯方法,下面這條線指神經網絡機器翻譯方法,我們可以看到神經網絡的方法只有在語料很多的情況下,表現才能超過統計方法,在語料不夠大時,表現並不比統計方法更好。

可解釋性問題和可信任問題

我們給神經網絡輸入一個東西,它就會輸出一個結果,然而其在高維空間的計算過程我們是不知道的,這就存在可解釋問題。但我認為這個問題的嚴重性要視情況而定,我們有時候需要解釋性,卻並不是所有時候都需要解釋性,比如人腦做決定,有時間可能只是靈機一動的靈感,至於怎麼來的,人自己都不一定能夠解釋得清楚。

而可解釋性帶來的一個更重要的問題是可信任問題。一些關鍵性領域如醫療領域,比如說病人看病,如果系統給出一個癌症的診斷而無法給出理由的話,病人是不敢治療的。所以在這些關鍵性的應用上,可解釋性是非常重要的,因為這個問題會導致信任問題。

機器翻譯中的一個可信任問題是翻譯錯誤。比如說重要的人名、地名和機構名是不應該翻錯的,以翻譯美國政府的一個工作報告為例,如果使用之前的語料來訓練,機器就會直接將美國總統(川普)翻譯成布希總統了,這就是一個很嚴重的錯誤了。 

第二個可信任問題是翻譯出來的意思與原意相反,這在機器翻譯中也很常見,且較難避免,因為這種意思相反的表達在語料庫中的統計特徵是非常接近的,都是在陳述同一件事情,因此在機器翻譯中很容易導致翻譯出與原意相反的結果。

第三個可信任問題則是機器翻譯犯一些過於幼稚的、完全不該犯的問題,這就會直接給人帶來不信任感。

可控制性問題

由於系統有時候的效果總不能令人滿意或總出現錯誤,所以我們希望系統變得可控,即知道怎麼對其進行修改從而避免犯這種錯誤。

基於規則的機器翻譯方法中,我們是可以通過修改規則來糾正;基於統計的機器翻譯方法,雖然改的方式繞一點,但是統計的數據都是可解釋的,我們可以在其中加上一個短語表來糾正,而在神經網絡機器學習方法中,我們幾乎是不能進行修改的。

比如對於重要的人名、地名、機構名、術語,我們希望機器嚴格按照給定的方式進行翻譯,不能隨便亂翻。我之前在愛爾蘭的時候帶學生做過這方面的比較早期的工作,目前的引用量還比較高,現在我們對這項工作進行了一些改進,可以比較好地解決機器翻譯的可控制性問題,但是這項工作還僅適用於機器翻譯這一特例,而無法做到通用化去解決神經網絡在整個自然語言處理領域存在的可控制性問題。

超長文本問題

現在的神經網絡機器翻譯在處理長文本方法取得了很大的進步。早期的神經網絡翻譯系統常被人詬病:短句子翻譯得好但長句子卻翻譯得很糟糕。而現在,這種情況已經得到了非常大的改善,一般的長句都翻譯得不錯,但漏翻等小錯誤還是不可避免。

現在基於長文本訓練的語言模型如BERT、GPT,其訓練的文本單位一般都是幾百字到上千字,所以長度在這個範圍內的文本處理沒有太大問題,並且 GPT生成一千字以內的文本都可以生成得非常流暢。

目前機器翻譯能夠處理比較長的文本,但是不能說長文本問題就解決了,它本身還存在很多挑戰:

一個是基於篇章的機器翻譯問題,不光是我們,學術界還有很多同行都在研究這個問題。基於篇章的機器翻譯實驗證明,對改進翻譯質量起作用的上下文只有前1-3個句子,更長的上下文反倒會降低當前句子的翻譯質量。按理來說,上下文更長,機器翻譯的效果應該是更好的,那為什麼反而翻譯得更差呢?這是不合理的。

另一個是預訓練語言模型問題。現在機器翻譯的訓練長度一般是幾百字到上千字,然而實際處理的文本可能不止一千字,比如說一篇八頁的英文論文,起碼都兩三千字了。因此預訓練語言模型在實際處理更長文本的時候,還是會遇到很多問題,這種情況下,語言模型消耗計算資源巨大,計算所需時空消耗會隨著句子長度呈平方或者三次方增長,所以現有模型要想支持更長的文本,還有很多問題尚待解決。

缺乏常識問題

這裡我以不久前去世的董振東先生提供的例子為例(如下圖所示),「bank」是翻譯中一個經典的歧義詞,有「銀行」和「岸」的意思,在什麼語境下翻譯成哪個意思,對於人來說很容易理解,但是即使有 fishing、water這樣的相關提示詞存在,谷歌翻譯器還是將這個詞翻譯成了「銀行」。在神經網絡機器翻譯時代,這種常識性錯誤依舊比較普遍存在。 

另外一個例子就是 GPT 的文本生成。GPT 在文本生成方面已經做得很好了,然而即便如此,還是會犯很多常識性的錯誤。以下面這個經典案例為例,前面人類輸入的句子是「在一項研究中,科學家們發現了一群獨角獸,它們生活在安第斯山脈一個偏遠的還沒被開發山谷中,更令人驚訝的是這些獨角獸會說一口流利的英語」,其中「獨角獸會說一口流利的英語」在現實生活中是荒唐、完全不可能的事。然而,GPT系統就根據這一句話生成了一個故事。 

故事寫得很漂亮,但是存在錯誤,比如第一句就是錯誤的,「科學家根據它們獨特的角,將它們命名為Ovid’s Unicorn,這些有著銀色的四個角的獨角獸是原來科學家所不曾見過的」這句話本身就矛盾,獨角獸怎麼會有四個角呢?這是很明顯的一個邏輯錯誤。所以常識問題,在機器翻譯中依舊是一個非常嚴重的問題。

基於深度學習的自然語言處理,其邊界在哪裡? 

那自然語言處理中哪些問題是可以解決的,哪些是不可以解決的呢?這就涉及到它的邊界問題。我認為深度學習有幾個重要的邊界:數據邊界、語義邊界、符號邊界和因果邊界。

數據邊界

數據邊界是限制當前機器翻譯技術發展的約束之一,這個比較好理解,就是指數據不夠,這是現有方法無法解決的。

語義邊界

人工智慧在很多領域都大獲成功,其中在圍棋、電子競技等項目上獲得的成功最大,包括早期還沒有深度學習乃至統計方法時,在 Winograd 系統上就很成功了,為什麼會取得這麼大的成功?

我認為這是因為這些領域能夠對客觀世界的問題進行精確建模,因此能做得很好;而現在自然語言處理系統大部分都無法對客觀世界進行精確建模,所以很難做好。另外比如像智能音箱、語音助手系統能夠取得一定成果,很大程度上也是因為這些系統對應著明確定義的任務,能對物理世界建模,不過一旦用戶的問話超出這些預定義的任務,系統就很容易出錯。 

機器翻譯的成功是一個比較特殊的例子,這是因為它的源語言和目標原因的語義都是精確對應的,所以它只要有足夠的數據而並不需要其他的支撐,就能取得較好的效果。

 現在的自然語言處理系統大部分,還只是流於對詞語符號之間的關係建模,沒 有對所描述的問題語義進行建模,即對客觀世界建模。而人理解語言的時候,腦子裡一定會形成一個客觀世界的影像,並在理解影像後再用自己的語言去描述自己想說的事情。 

 實際上,自然語言處理的理想狀態應該是能夠對客觀世界進行描述並建模,然而對客觀世界建模相當複雜,實現並不容易。以顏色這個屬性為例,可以用三個 8 位數進行建模,可以組合出數千萬種顏色,但刻畫顏色的詞語只有數十個,詞語和顏色模型的對應關係很難準確地進行描述。 

在機器翻譯的研究中,對客觀世界建模並不新鮮,早期的本體或者知識圖譜、語義網絡,都是人類專家試圖對客觀世界建立通用性模型的一種長期努力,其中一項集大成的成果便是知識圖譜,但是它目前還沒有辦法很好地應用到深度學習中來。不過,我認為這是一個很值得探索的方向。

總而言之,我認為自然語言處理的一個理想的改進方向就是做世界模型或語義模型,換句話說,就是不僅僅只做文本間的處理,還必須落地到現實世界中,去對現實世界建模,而知識圖譜這是其中一個較為值得探索的具體方向。

符號邊界

心理學家將人的心理活動分為潛意識和意識,用我的話來理解就是,可以用語言描述的心理活動稱作意識,而無法用語言描述的心理活動稱為潛意識。

神經網絡實際上則是潛意識的行為,可以輸入語言和輸出語言表達,但是無法對整個推理和計算過程進行描述,這本身就是它的一個重要缺陷。 

舉一個簡單的例子:使用有限狀態自動機,可以精確地定義一些特定的表示形式,如數詞、年份、網址等等,但再好的神經網絡也很難準確地學習到有限狀態自動機的表達能力,這是很多實用的自然語言處理系統仍然離不開符號這種規則方法的原因。

因果邊界 

人類對客觀世界中發生的事情中的因果關係都有明確的理解。所以很容易去蕪存真,抓住問題的本質。

神經網絡無法做到這一點,它根據數據學習到的東西去做出判斷而並沒有理解真正的因果關係,即並不知道哪些因素是事情發生的真正原因,哪些是輔助性的判斷依據,因而很容易做出錯誤的判斷 。

實際上,僅僅根據統計數據進行推斷,很難得到真正的因果關係。真正的因果關係,只有通過精心設計的實驗才能得出,例如藥物的有效性,美國、中國藥物局都需要花上幾十年的時間做實驗,最終才能確定出一個因果關係,相當不容易。

今天我講了基於深度學習的自然語言處理依舊面臨的幾個問題,而我認為這些問題最終是由我前面提到的四個邊界造成的,並且不是由邊界中的某一個造成,而是由多個邊界的共同幹擾所造成的。對此,我用一個關係圖來描述這種對應關係,如下圖所示。

 

附:問答部分

聽眾提問:在統計機器翻譯時代,有分詞分析、句法分析以及語義分析等共性任務,那在神經網絡機器翻譯時代是否也有這樣一些共性任務呢?

劉群:顯然是有的。一個是預訓練語言模型,它實際上就是在將語言當成一個共性任務來處理,其之所以現在取得這麼大的成功,我認為某種程度上就是因為這種共性任務的處理方式。

第二個是知識圖譜,它其實也是一種共性任務,這個領域的研究者做了這麼多年的研究,我認為是非常有意義的,所以我們現在也在想辦法將知識圖譜和自然語言處理結合起來做研究。

另外在手機助手、音箱等語音對話系統中,也能夠體現這種共性任務,比如說系統中的多個技能,包括控制家電、播放音樂等,如果進行單個處理的話,各項技能之間會「打架」,因此就需要將這些問題進行共性任務處理,這樣的話就會變得非常複雜,所以對話系統在這種共性任務上的研究,是比較值得探索的。

感謝劉群教授對本文內容的審閱和確認。  雷鋒網 雷鋒網(公眾號:雷鋒網) 雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 自然語言處理深度學習的7個應用
    原文:7 Applications of Deep Learning for Natural Language Processing作者:Jason Brownlee翻譯:無阻我飛揚摘要:在這篇文章中,作者詳細介紹了自然語言處理深度學習的7種應用,以下是譯文。自然語言處理領域正在從統計方法轉變為神經網絡方法。
  • 從語言學到深度學習NLP,一文概述自然語言處理
    本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念,再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文,希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。本文第一部分介紹了自然語言處理的基本概念,作者將 NLP 分為自然語言理解和自然語言生成,並解釋了 NLP 過程的各個層級和應用,這一篇論文很適合讀者系統的了解 NLP 的基本概念。
  • 閒談深度學習在自然語言處理領域的5大關鍵優勢
    在自然語言處理領域,深度學習將給予最大的幫助,深度學習方法主要依靠一下這五個關鍵優勢,閱讀本文將進一步了解自然語言處理的重要深度學習方法和應用。 在自然語言處理領域,深度學習的承諾是:給新模型帶來更好的性能,這些新模型可能需要更多數據,但不再需要那麼多的語言學專業知識。
  • 自然語言處理(NLP)中的深度學習發展史和待解難題
    王小新 編譯自 sigmoidal量子位 出品 | 公眾號 QbitAI自然語言處理(NLP)是指機器理解並解釋人類寫作與說話方式的能力。近年來,深度學習技術在自然語言處理方面的研究和應用也取得了顯著的成果。技術博客Sigmoidal最近發布了一篇文章,作者是機器學習工程師Rafal。
  • 獨家專訪華為諾亞方舟劉群:從 26 年學術生涯到執掌華為語音語義...
    日前,AI 科技評論有幸對劉群教授進行了專訪,主要就他在學術界長達 26 年的研究經歷、加入華為諾亞方舟實驗室的的契機、其執掌的語音語義團隊的整體布局和未來規劃以及對於自然語言處理的發展現狀和未來發展方向的看法,進行了一次深度對話。
  • 深度學習與自然語言處理的工作概述及未來發展
    深度學習是機器學習的一個領域,研究複雜的人工神經網絡的算法、理論、及應用。自從2006年被Hinton等提出以來[1],深度學習得到了巨大發展,已被成功地應用到圖像處理、語音處理、自然語言處理等多個領域,取得了巨大成功,受到了廣泛的關注,成為當今具有代表性的IT先進技術。
  • 深度| 深度學習概覽之自然語言處理:從基本概念到前沿研究
    選自Adit Deshpande blog作者:Adit Deshpande機器之心編譯參與:趙華龍、王宇欣、吳攀本文是 Adit Deshpande 的 Deep Learning Research Review 系列文章的第三篇,總結和解讀了深度學習在自然語言處理領域的應用。
  • 復旦大學黃萱菁:自然語言處理中的表示學習
    近年來擔任2014年ACM 信息與知識管理會議競賽主席,2015年ACM 網際網路搜索與數據挖掘會議組織者,2015年社會媒體處理大會程序委員會副主席,2016年、2019年全國計算語言學會議程序委員會副主席,2017年國際自然語言處理與中文計算會議程序委員會主席等學術職務,併入選由清華大學—中國工程院知識智能聯合研究中心和清華大學人工智慧研究院聯合發布的「2020年度人工智慧全球女性」及「2020年度
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    詞向量的引入開啟了深度學習應用於自然語言處理的時代。相比於靜態詞向量,動態詞向量可以根據上下文,更好地處理一詞多義現象,大幅提高自然語言處理多個任務的準確率。車萬翔介紹了研究組基於動態詞向量開展的相關工作,包括跨語言動態詞向量[1]、few-shot learning、輕量級動態詞向量模型等。
  • 關於數據增強在機器翻譯中的應用現狀和前景,劉群、黃輝等專場探討
    2019)於2019年9月27日至29日在江西南昌舉行。近年來,隨著深度學習的出現和計算能力的提高,機器翻譯也取得了較大的進展,在數據量比較充足的情況下,都能夠實現非常不錯的效果,然而在一些資源稀缺、領域或者說小語種的翻譯任務上,有時神經網絡機器翻譯的表現甚至還不如基於統計的機器翻譯。
  • 科普自然語言處理
    它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯繫,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通信的計算機系統,特別是其中的軟體系統。因而它是計算機科學的一部分。
  • 對話UT Austin大學教授:未來5年自然語言處理最大的挑戰在哪裡?
    香儂科技: 近年來,深度學習模型的可解釋性受到了很多關注,領域中有很多方法被提出以解釋深度神經網絡的行為(解釋性熱圖 explanatory heat-map,自然語言等)。
  • 復旦大學陳俊坤:自然語言處理中的多任務學習 | AI 研習社職播間第...
    分享主題:自然語言處理中的多任務學習 & 復旦大學 NLP 實驗室介紹分享提綱:1、復旦大學 NLP 實驗室介紹2、基於深度學習的自然語言處理3、深度學習在自然語言處理中的困境4、自然語言中的多任務學習5、多任務基準平臺
  • 2019自然語言處理前沿論壇:聚焦機器「讀、寫、說、譯」,探尋NLP...
    以語言和知識為研究對象的自然語言處理(NLP)技術是人工智慧的核心問題之一。5月26日,百度、中國計算機學會中文信息技術專委會和中國中文信息學會青工委聯合舉辦「2019自然語言處理前沿論壇」。百度高級副總裁、ACL Fellow王海峰博士為論壇做開場致辭。他表示,「語言是人類思維和交流的載體,同時也是人類知識凝練和傳承的載體。
  • AI自然語言處理(NLP)領域常用的16個術語
    自然語言處理(NLP)是人工智慧領域一個十分重要的研究方向。NLP研究的是實現人與計算機之間用自然語言進行有效溝通的各種理論與方法。本文整理了NLP領域常用的16個術語,希望可以幫助大家更好地理解這門學科。
  • 2019 自然語言處理前沿論壇,百度NLP技術全揭秘
    雷鋒網 AI 科技評論按,近日,由百度聯合中國計算機學會中文信息技術專委會、中國中文信息學會青工委舉辦的「2019 自然語言處理前沿論壇」上,來自百度和各大高校的嘉賓們分享了關於 NLP 技術研究的心得體會。
  • 人工智慧難點之——自然語言處理(NLP)
    (人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 阿爾伯塔大學博士畢業論文:基於圖結構的自然語言處理
    機器之心發布 機器之心編輯部 自然語言處理(Natural Language Processing)是人工智慧的核心問題之一,旨在讓計算機理解語言,實現人與計算機之間用自然語言進行通信。
  • 運用深度學習教機器人理解自然語言
    其符號方法包括WordNet、ConceptNet和FrameNet,通過對比來更好地理解深度學習的能力。然後我會討論深度學習如何用向量來表示語義,以及如何更靈活地表示向量。接著我將探討如何用向量編碼的語義去完成翻譯,甚至為圖片添加描述和用文字回答問題。最後,總結了用深度學習技術真正地理解人類語言還需要哪些改進。WordNet可能是最著名的象徵意義的語料庫,由普林斯頓大學研發。