一文概述 2018 年深度學習 NLP 十大創新思路

2020-11-30 雷鋒網

雷鋒網 AI 科技評論按:Sebastian Ruder 是一位 NLP 方向的博士生、研究科學家,目前供職於一家做 NLP 相關服務的愛爾蘭公司 AYLIEN,同時,他也是一位活躍的博客作者,發表了多篇機器學習、NLP 和深度學習相關的文章。最近,他基於十幾篇經典論文盤點了 2018 年 NLP 領域十個令人激動並具有影響力的想法,並將文章發布在 Facebook 上。雷鋒網(公眾號:雷鋒網) AI 科技評論編譯如下:

今年,我發現了 十個令人激動並具有影響力的想法,並將其匯總成了這篇文章。在未來,我們可能還會對它們有更多了解。

對於每個想法,我都挑選 1-2 篇對該想法執行良好的論文。我試圖保持這份清單的簡潔性,因此如果沒有覆蓋到所有相關工作,還請大家見諒。這份清單包含主要與遷移學習相關的想法及其概述,不過也必然會帶有一定的主觀性。其中的大部分(一些例外)並不是一種趨勢(但我預測其中的一些想法在 2019 年會變得更具趨勢性)。最後,我希望在評論區中看到你的精彩評論或者其他領域的精彩文章。

1)無監督的機器翻譯翻譯(Unsupervised MT)

ICLR 2018 收錄的兩篇關於無監督機器翻譯翻譯的論文(https://arxiv.org/abs/1710.11041)中,無監督機器翻譯的整個過程的表現好得讓人感到驚訝,但結果卻不如監督系統。在 EMNLP 2018,兩篇同樣來自這兩個團隊的論文(https://arxiv.org/abs/1809.01272)顯著改進了之前的方法,讓無監督的機器翻譯取得了進展。代表性論文:

《基於短語和神經的無監督機器翻譯》(EMNLP 2018)

這篇論文很好地為無監督機器翻譯提取了三個關鍵要求:良好的初始化、語言建模以及你想任務建模(通過反向翻譯)。我們在下文中會看到,這三項要求同樣對其他的無監督場景有益。反向任務建模要求循環的一致性,其已在不同方法(尤其是 CycleGAN,https://arxiv.org/abs/1703.10593)中得到應用。這篇論文甚至在兩個低資源語言對——英語-烏爾都語以及英語-羅馬尼亞語上進行了廣泛的實驗和評估。未來我們有希望看到更多針對資源匱乏類語言的工作。

無監督機器翻譯三項原則的插圖說明:A)兩個單語數據集;B)初始化;C)語言建模;D)反向翻譯 (Lample et al., 2018)。

2)預訓練的語言模型(Pretrained language models)

使用預訓練的語言模型可能是今年最重要的 NLP 趨勢,因此我在這裡就不過多描述。針對預訓練的語言模型,這裡有很多讓人印象深刻的方法:ELMo(https://arxiv.org/abs/1802.05365), ULMFiT(https://arxiv.org/abs/1801.06146)、 OpenAI Transformer(https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf)以及 BERT(https://arxiv.org/abs/1810.04805)。代表性論文:

《深度的語境化詞語表示》(NAACL-HLT 2018)

這篇論文介紹了 ELMo,頗受好評。除了實證結果讓人印象深刻,這篇論文的詳細的分析部分也非常顯眼,該部分梳理了各類因素的影響,並且分析了在表示中所捕獲的信息。詞義消歧(WSD)分析自身(下圖左)也執行得很好。這兩者都表明,機器學習本身就提供了接近最新技術的詞義消歧和詞性標註性能。

與基線相比的第一層和第二層雙向語言模型的詞義消歧(左)和詞性標註(右)結果(Peters et al., 2018)。

3)常識推理數據集(Common sense inference datasets)

將常識融入模型是向前發展的最重要方向之一。然而,創建好的數據集並不容易,甚至最常用的那些好的數據集還存在很大的偏差。今年出現了一些執行良好的數據集,它們試圖教模型一些常識,比如同樣都源自華盛頓大學的 Event2Mind(https://arxiv.org/abs/1805.06939)和 SWAG(https://arxiv.org/abs/1808.05326)。其中,SWAG 學到常識的速度出乎意料地快(https://twitter.com/seb_ruder/status/1050727451138150400)。代表性論文:

《視覺常識推理》(arXiv 2018)

這是第一個包含了每個答案所對應的基本原理(解釋)的視覺 QA 數據集。此外,問題要求複雜的推理。創建者通過確保每個答案正確的先驗概率為 25%(每個答案在整個數據集中出現 4 次,其中,錯誤答案出現 3 次,正確答案出現 1 次)來不遺餘力地解決可能存在的偏差;這就要求使用計算相關性和相似性的模型來解決約束優化問題。我希望,在創建數據集時預防可能的偏倚可以成為未來研究人員們的常識。最終,看看數據精彩地呈現出來就可以了。

VCR:給定一張圖片、一個區域列表和一個問題,模型必須回答這個問題,並給出一個可解釋其答案為何正確的理由。 (Zellers et al., 2018).

4)元學習(Meta-learning)

元學習已在小樣本學習、強化學習和機器人技術中得到廣泛應用——最突出的例子是與模型無關的元學習(MAML,https://arxiv.org/abs/1703.03400),但其很少在 NLP 中得到成功應用。元學習對於訓練示例數量有限的問題非常有用。代表性論文:

《低資源神經機器翻譯的元學習》(EMNLP 2018)

作者使用 MAML 方法學習翻譯的良好初始化,將每一個語言對都視為單獨的元任務。適應低資源語言對,可能是對 NLP 中的元學習最有用的設置。特別地,將多語種遷移學習(例如多語種 BERT,https://github.com/google-research/bert/blob/master/multilingual.md)、無監督學習和元學習結合起來是一個有前景的研究方向。

遷移學習、多語言遷移學習與元學習之間的區別。 實線:初始化學習。 虛線:調整路徑 (Gu et al., 2018).

5)穩健的無監督方法(Robust unsupervised methods)

今年,我們(http://aclweb.org/anthology/P18-1072)和其他研究者(http://aclweb.org/anthology/D18-1056)都已經觀察到,當語言不同時,無監督的跨語言詞向量方法就會失效。這是遷移學習中的常見現象,其中源和目標設置(例如,域適應中的域 https://www.cs.jhu.edu/~mdredze/publications/sentiment_acl07.pdf、連續學習 https://arxiv.org/abs/1706.08840 和多任務學習 http://www.aclweb.org/anthology/E17-1005 中的任務)之間的差異會導致模型的退化或失敗。因此,讓模型對於這些變化更加穩健非常重要。代表性論文:

《用於完全無監督的跨語言詞向量的穩健自學習方法》(ACL 2018)

該論文利用他們對問題的理解來設計更好的初始化,而不是在初始化上應用元學習。特別地,他們將兩種語言中與相似詞具有相似的詞分布的詞進行配對。這是利用領域專業知識和分析見解來使模型變得更穩健的非常好的案例。

三個詞的相似度分布。 等效翻譯(「two」和「due」)的分布比非相關詞(「two」和「cane」——意思是「dog」)的分布更為相似。(Artexte et al., 2018)

6)理解表示(Understanding representations)

研究者們未來更好地理解表示,已經做了很多努力。特別是「診斷分類器」(diagnostic classifiers,https://arxiv.org/abs/1608.04207)(旨在評估學習到的表示能否預測某些屬性的任務) 已經變得非常常用(http://arxiv.org/abs/1805.01070)了。代表性論文:

《語境化詞向量解析:架構和表示》(EMNLP 2018)

該論文對預訓練語言模型表示實現了更好的理解。作者在精心設計的無監督和有監督的任務上對詞和跨度表示進行了廣泛的學習研究。結果表明:預訓練的表示可以在較低的層中學習到低級形態和句法任務相關的任務,並且可以在較高的層中學習到更長範圍的語義相關的任務。

對我來說,這個結果真正表明了,預訓練語言模型確實捕獲到了與在 ImageNet 上預訓練的計算機視覺模型(https://thegradient.pub/nlp-imagenet/)相類似的屬性。

BiLSTM 和 Transformer預訓練表示在詞性標註、選區分析和無監督共指解析((從左到右)上每層的性能。 (Peters et al., 2018)

7)巧妙的輔助任務(Clever auxiliary tasks)

在許多場景下,我們看到研究者越來越多地將精心挑選的輔助任務與多任務學習一起使用。一個好的輔助任務來說,它必須是易於獲取數據的。最重要的例子之一是 BERT(https://arxiv.org/abs/1810.04805),它使用下一個句子的預測(該預測方法在 Skip-thoughts,https://papers.nips.cc/paper/5950-skip-thought-vectors.pdf 以及最近的 Quick-thoughts,https://arxiv.org/pdf/1803.02893.pdf 中應用過)來產生很大的效果。代表性論文:

《語義結構的句法框架》(EMNLP 2018)

該論文提出了輔助任務,它通過預測每個跨度對應的句法成分類型,來對跨度表示進行預訓練。輔助任務雖然在概念上非常簡單,但它為語義角色標註和共指解析等跨級別預測任務帶來了大幅的改進。這篇論文表明,在目標任務(這裡是指跨度任務)所要求的級別上所學到的特定的表示是效益巨大的。

pair2vec:用於跨句推理的組合詞對嵌入(arXiv 2018)

類似地,本論文通過最大化詞對與其語境間的點互信息(pointwise mutual information),來對詞對表示進行預訓練。這就激勵了模型學習更有意義的詞對表示,而不使用語言建模等更通用的目標。在 SQuAD 和 MultiNLI 等要求跨句推理的任務中,預訓練表示是有效的。

我們可以期望未來,看到更多的預訓練任務,能夠捕獲特別適用於某些下遊任務的屬性,並且能夠與語言建模等更多通用任務相輔相成。

OntoNotes的句法、PropBank和共指注釋。PropBank SRL參數和共指提及被標註在了句法成分的頂部。幾乎每一個參數都與一個句法成分有關。 (Swayamdipta et al., 2018)

8)半監督學習和遷移學習相結合(Combining semi-supervised learning with transfer learning)

伴隨著遷移學習的最新進展,我們不應該忘記使用特定的目標任務數據的更明確的方法。事實上,預訓練表示與許多半監督學習方法是相輔相成的。我們已經探索了一種半監督學習的特殊方法——自我標註的方法(http://aclweb.org/anthology/P18-1096)。代表性論文:

《基於交叉視點訓練的半監督序列建模》(EMNLP 2018)

這篇論文表明,一個能確保對輸入的不同視點的預測與主模型的預測一致的概念上非常簡單的想法,可以在大量的任務上得到性能的提高。這個想法與詞 dropout 類似,但允許利用未標記的數據讓模型變得更穩健。與 mean teacher(https://papers.nips.cc/paper/6719-mean-teachers-are-better-role-models-weight-averaged-consistency-targets-improve-semi-supervised-deep-learning-results.pdf)等其他自集成模型相比,它是專門針對特定的 NLP 任務設計的。

隨著對半監督學習的研究越越來越多,我們將有望看到有更多明確地嘗試對未來目標預測進行建模的研究工作。

輔助預測模塊看到的輸入:輔助1 :They traveled to __________________. 輔助2:They traveled toWashington _______. 輔助3: _____________ Washingtonby plane.輔助4:_____________ by plane。 (Clark et al., 2018)

9)大型文檔的問答和推理(QA and reasoning with large documents)

隨著一系列新的問答(QA)數據集(http://quac.ai/)的出現,問答系統有了很大的發展。除了對話式問答和多步推理,問答最具挑戰性的方面是對敘述和大體量信息進行合成。代表性論文:

《敘述答閱讀理解挑戰》(TACL 2018)

這篇論文基於對完整的電影劇本和書籍的提問和回答,提出了一個具有挑戰性的新的問答數據集。雖然依靠當前的方法還無法完成這項任務,但是模型可以選擇使用摘要(而不是整本書籍)作為選擇答案(而不是生成答案)的語境。這些變體讓任務的實現更加容易,也使得模型可以逐步擴展到整個語境設置。

我們需要更多這樣的數據集,它們能體現具有挑戰性的問題,並且有助於解決這些問題。

QA 數據集比較

10)歸納偏差(Inductive bias)

CNN 中的卷積、正則化、dropout 以及其他機制等歸納偏差,是神經網絡模型的核心部分,它們充當調節器的角色,使模型更具樣本效率。然而,提出一個應用更加廣泛的歸納偏差方法,並將其融入模型,是具有挑戰性的。代表性論文:

《基於人類注意力的序列分類》(CoNLL 2018)

這篇論文提出利用視覺跟蹤語料庫中的人類注意力,來 RNN 中的注意力進行規則化處理。鑑於 Transformer 等當前許多模型都使用注意力這一方法,找到更有效得訓練它的方法是一個重要的方向。同時,論文還證明了另外一個案例——人類語言學習可以幫助改進計算模型。

《語義角色標註的語言學信息的自我注意力》(EMNLP 2018)

這篇論文有很多亮點:一個在句法和語義任務上進行聯合訓練的 Transformer 模型;在測試時注入高質量語法分析的能力;以及域外評估。論文還通過訓練注意力頭來關注每個標註的句法 parents,來使轉換器的多頭注意力統一對句法更加敏感。

未來我們有望看到更多針對輸入特定場景,將 Transformer 注意力頭用作輔助預測器的案例。

PropBank語義角色標註的十年。語言學信息的自我注意力( LISA )與其他域外數據方法的比較。 (Strubell et al., 2018)

Via:http://ruder.io/10-exciting-ideas-of-2018-in-nlp/,雷鋒網 AI 科技評論編譯。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 深度學習概述:NLP vs CNN
    現在,每家公司都希望在其系統中實現這一尖端技術,以降低成本、節省時間,並通過自動化使整個工作流程更加高效。最初的人工智慧和深度學習算法比較簡單,就像我們所知的簡單感知器模型和單層神經網絡一樣。隨著時間的推移和更加專注的研究,我們已經擁有了具有多層結構的複雜神經網絡。一些公司在他們的軟體和服務中使用了LSTMs、GANs、變分自編碼器等算法。
  • 從語言學到深度學習NLP,一文概述自然語言處理
    在這一部分,該論文對以下 NLP 的應用進行了介紹:機器翻譯文本分類垃圾郵件過濾信息提取自動摘要對話系統醫療深度學習中的 NLP以上內容對 NLP 進行了基礎的介紹,但忽略了近年來深度學習在 NLP 領域的應用,因此我們補充了北京理工大學的一篇論文。
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    根據這一原則,也為了節省回答問題的時間,我在這裡給出該問題的標準問法:「我的背景是研究**科學,我對學習NLP很有興趣。應該從哪說起呢?」在您一頭扎進去閱讀本文之前,請注意,下面列表只是提供了非常通用的入門清單(有可能不完整)。 為了幫助讀者更好地閱讀,我在括號內添加了簡短的描述並對難度做了估計。最好具備基本的編程技能(例如Python)。
  • 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統
    上次,《自然語言處理在 2017 年有哪些值得期待的發展?》中,我們已經講到,2016 年是深度學習大潮衝擊 NLP 的一年,通過去年一年的努力,深度學習在 NLP 領域已經站穩了腳跟。其中,對話交互系統已經成為一個重要的應用研究領域,2017 年的自然語言對話系統,將開創一個新的人機互動時代。
  • 乾貨| 請收下這份2018學習清單:150個最好的機器學習,NLP和Python...
    那為什麼不買一本書呢? 因為教程能更好地幫助你學一技之長或者打開新視野。我把這博文分成四個部分,機器學習,NLP,Python,和數學基礎。在每一小節我會隨機引入一些問題。由於這方面學習材料太豐富了,本文並未涵括所有內容。機器學習1、機器學習就是這麼好玩!
  • ...請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    那為什麼不買一本書呢? 因為教程能更好地幫助你學一技之長或者打開新視野。我把這博文分成四個部分,機器學習,NLP,Python,和數學基礎。在每一小節我會隨機引入一些問題。由於這方面學習材料太豐富了,本文並未涵括所有內容。
  • 乾貨 | 請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    那為什麼不買一本書呢? 因為教程能更好地幫助你學一技之長或者打開新視野。 我把這博文分成四個部分,機器學習,NLP,Python,和數學基礎。在每一小節我會隨機引入一些問題。由於這方面學習材料太豐富了,本文並未涵括所有內容。
  • 一文解讀NLP中的注意力機制
    注意力機制首先從人類直覺中得到,在nlp領域的機器翻譯任務上首先取得不錯的效果。簡而言之,深度學習中的注意力可以廣義地解釋為重要性權重的向量:為了預測一個元素,例如句子中的單詞,使用注意力向量來估計它與其他元素的相關程度有多強,並將其值的總和作為目標的近似值。既然注意力機制最早在nlp領域應用於機器翻譯任務,那在這個之前又是怎麼做的呢?
  • 2019 年 NLP 領域都發生了哪些大事件?
    Mohammad 撰寫了一系列文章(閱讀地址:https://medium.com/@nlpscholar/state-of-nlp-cbf768492f90)討論 ACL 論文接收情況的歷時分析。圖神經網絡是 2019 年最火的話題之一。David Mack 撰寫了《Finding shortest paths with Graph Neural Networks》一文,介紹了他們如何使用這種技術和注意力機制一起計算最短路徑。貝葉斯方法仍然是一個有趣的課題,特別是如何將它們應用於神經網絡,從而避免像過擬合這樣的常見問題。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    這期間我需要翻閱大量資料,通過研究報告,博客和同類NLP問題的賽事內容學習該領域的最新發展成果,並應對NLP處理時遇到的各類狀況。因此,我決定將這些資源集中起來,打造一個對NLP常見任務提供最新相關資源的一站式解決方案。下方是文章中提到的任務列表及相關資源。那就一起開始吧。
  • 實踐入門NLP:基於深度學習的自然語言處理
    【課程概述 】本課程將首先介紹自然語言處理的發展現狀與挑戰,同時,講解深度學習和自然語言處理的結合應用。除了基本算法外,本課程還配備實踐環節,從一些典型的方向:機器翻譯、文本分類、問答等。【開課時間 】2018年2月上線,錄製回放視頻可隨時在線反覆觀看。
  • NLP 新手必看!這是一份覆蓋全面的基於 PyTorch 和 keras 的 NLP...
    雷鋒網 AI 科技評論按,人工智慧技術目前越來越火爆,近日,,2018 年圖靈獎得主揭曉,獲獎的三位科學家是分別是 Yoshua Bengio、Yann LeCun 和 Geoffrey Hinton。
  • 回望2017,基於深度學習的NLP研究大盤點
    年基於深度學習的自然語言處理研究進行了大盤點。在過去的幾年裡,深度學習(DL)架構和算法在諸如圖像識別和語音處理等領域取得了世人矚目的進步。然而在最開始的時候,深度學習在自然語言處理(Natural Language Processing, NLP)領域的效果一般,但是現在已經被證實深度學習在自然語言處理領域依然能夠發揮巨大的作用。並且在一些常見的自然語言處理任務中,基於深度學習的方法已經取得了最佳的結果。
  • 概述:遷移學習在NLP和CV中的應用實例
    【IT168 資訊】昨天在我們的網站上已經有一篇介紹遷移學習的文章,簡單的將遷移學習的基本情況進行了概述,在今天的這篇文章中,將討論遷移學習的兩個應用,概述自然語言處理和計算機視覺領域的相關例子。  Gensim、Spacy和FastText是這三個框架,允許你在機器學習應用程式中快速使用文字嵌入。此外,他們還支持定製字嵌入的訓練。  在計算機視覺中的遷移學習  深度學習方法已經在計算機視覺領域取得了重大成就。
  • 一文看懂NLP神經網絡發展歷史中最重要的8個裡程碑!
    在 2018 年的 Indaba 深度學習大會 上,Herman Kamper 和我組織了一場自然語言處理研討會,整個會議的幻燈片可以在 這裡(https://www.slideshare.net/SebastianRuder/frontiers-of-natural-language-processing)下載。
  • 深度學習與自然語言處理的工作概述及未來發展
    2006年以後的深度學習實際使用多於三層的神經網絡,又被稱為深度神經網絡,是複雜的非線性模型(見圖1)。深度神經網絡還有若干個變種,如卷積神經網絡(Convolutional Neural Network)、循環神經網絡(Recurrent Neural Network)。
  • 2018年十大「黑科技」創新產品品牌排行榜
    諸多智能產品改變著人們的生活,本次活動經過網絡徵集,同時結合機構推薦,共收到1306項「黑科技」創新產品的申報材料或推薦材料。經過重重篩選,小編今天發布最終遴選出的2018年十大「黑科技」創新產品,希望這些產品讓人們的生活越來越好!1:癌症早篩AI——騰訊覓影(騰訊)騰訊覓影是一款將人工智慧技術運用在醫學領域的AI產品 。
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    StanfordNLP是一個軟體包組合,包括斯坦福團隊在CoNLL 2018 的通用依存解析(Universal Dependency Parsing)共享任務上使用的軟體包,以及斯坦福CoreNLP軟體的官方Python接口。StanfordNLP支持包括阿拉伯語、中文、英語等53種語言(全部語言列表見文末)。
  • 2018.12十大機器學習熱門網文
    這是一個競爭很激烈的文章列表,你會發現很多機器學習大牛分享的經驗與技巧。,4.7/5星】AlphaZero:為西洋棋、將棋、圍棋點亮新徵程。長按連結點擊打開或點擊底部【2018.12十大機器學習熱門網文】:https://ai.yanxishe.com/page/TextTranslation/1345AI研習社每日更新精彩內容,觀看更多精彩內容:雷鋒網雷鋒網雷鋒網
  • 一文讀懂Smartbi的自然語言處理(NLP)技術
    四十年後的1997年,IBM公司的深藍超級計算機已經能夠打敗西洋棋世界冠軍卡斯帕羅夫。而機器翻譯到現在仍無法與人類翻譯水平相比,由此可見NLP有多麼的複雜和困難! 隨著2013年word2vec技術的發表,以神經網絡為基礎的深度學習技術開始在NLP中廣泛使用,深度學習的分布式語義表示和多層網絡架構具有強大的擬合和學習能力,顯著提升了NLP各種任務的性能,成為現階段NLP的主要技術方案。 深度學習是純數據驅動技術方案,需要從大規模標註數據中學習特定任務相關的複雜模式。