原標題:論文 | 自然語言處理頂會ACL 2018該關注什麼?螞蟻金服專家告訴你!
一年一度的ACL大會今年7月15日至20日在澳大利亞墨爾本召開。作為自然語言處理的頂級會議,雖然遠在澳洲召開,也吸引了1500位從全球各地趕來的專業人員參會。螞蟻金服派出了數位技術專家代表公司前去參會,本文是幾位專家參會回來後寫出的走心分享,並對此次會議的各類優秀論文做出了獨家解讀。
前言
今年的 ACL 共收到 1544 份提交論文,其中 1018 份長論文接收了 258 篇,526份短論文接收了 126 篇,總體接受率為 24.9%。
總的來說,這屆ACL中基於神經網絡的文章佔絕大多數。但是一個關於Amazon Prize的slide也很有趣。華盛頓大學的Yejin Choi教授通過這個slide,說明神經網絡大規模運用還有些許多工作要做;她的實驗室本來想用一個統一的神經網絡模型做一個可以參加Amazon Prize的對話系統。但是最終的實現的冠軍系統還是運用各種已有的子系統。見下圖:
最佳論文獎
總體看來今年的最佳論文傾向於新問題設計與對應數據集構建。
Know What You Don’t Know: Unanswerable Questions for SQuAD:提出了SQuAD2.0,主要是增加了一類不可回答的問題(即:在給定的段落中無法找打對應問題的答案)
Learning to Ask Good Questions: Ranking Clarification Questionsusing Neural Expected Value of Perfect Information:從StackExchange上抽取(post,question,answer),並把問題轉換成給定post,如何選擇好而有效的question。
Let's do it "again": A First Computational Approach to Detecting Adverbial Presupposition Triggers:對「again」構建數據集並測試了不同的模型
Tutorial(教程): Neural Semantic Parsing
該教程Slides 下載地址:
https://github.com/allenai/acl2018-semantic-parsing-tutorial
經典的語義分析模型(例如:CCG,AMR等)現在已經被基於神經網絡模型超越。
CCG模型要使用比較複雜的學習算法,並且很難上手,需要花費比較多的時間去讓你的算法起作用,除此之外,模型對沒有見到過的數據擴展性還是比較差。而神經網絡模型簡單,效果又好。報告人稱他們現在在CCG模型方向只是有空白日想想而已了。這次tutorial主要分為:
1.數據集:包括一些經典的數據集(Geoquery,ATIS,CoNala等)
2.模型:限制解碼算法,各種訓練算法(Maximum Margin,結構學習,強化學習等)
3.如何搭建語義分析器:提供了各種開源模型工具,以及要搭建分析器所需要的一些處理工具,主推了Allen NLP開源工具。
如果大家感興趣可以深入Slides了解詳細信息。
Machine Translation 機器翻譯
The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation
該論文由Google AI出品,主要是將RNN-based NMT和self attention NMT的優勢結合。論文將Multi-heads,layer normalization等機制引入到RNN-based NMT構架,提出的新架構RNN-based NMT+效果比slef attention模型還好。論文測試了混合模型,Encoder使用層疊式或並行式RNMT+和Self attention,Decoder使用RNMT+,性能上有了進一步提升,下載地址:
https://github.com/kweonwooj/papers/issues/106
Dynamic Sentence Sampling for Efficient Training of Neural Machine Translation
本篇文章關注訓練速度(收斂),在NMT中作者觀察到其中一部分樣本過分訓練,其他樣本訓練不足。作者的思路是對每個樣本進行加權採樣,對於訓練不充分的提高採樣概率。是否充分作者基於一個句子在前後兩輪cost的變化。
A Simple and Effective Approach to Coverage-Aware Neural Machine Translation
傳統的seq2seq模型傾向短句子生成,一個常見的解決方案是對生成的句子進行歸一化,但該方法並不能有效感知譯文內容的覆蓋度。本文提出了覆蓋度感知概念,定義成每一個待解碼的詞在源端的attention係數的求和。核心思想是將覆蓋度感知特徵作用到每一個解碼時刻和NMT分數線下插值融合,用於beam search 過程。
第二屆NMT 研討會:
https://sites.google.com/site/wnmt18/schedule
Google的Jacob Delvin講了他在微軟的一個工作:如何將基於RNN的NMT模型fit到離線手機應用,在不明顯損失翻譯質量的前提下,在速度和內存做最大程度上的優化。最終的模型可以在損失2個BLEU點的情況下,模型大小縮減到44M,解碼速度達到單線程400多詞每秒。
Semantic Parsing 語義分析
語義分析的目的是對自然語言做理解,以生成可以用程序來執行的合乎語法與語義的結構化表示。本次ACL大會上,關於該領域一些突出的文章如下:
Coarse-to-fine decoding for neural semantic parsing
用兩級encoder->decoder來實現。第一級做sketch,第二級再把具體的variable生成。優點是分解問題。比一步生成,相對簡單。
Semi-supervised learning with strucuture VAE
這個方法定義了結構化的latent semantic representation。用後驗概率來選擇最好的latent semantic representation。此方法和如上方法類似。
Sequence-to-Action: End-to-end Semantic Graph Generation for Semantic Parsing
這個是基於semantic graph的semantic parsing。優點是semantic graph可以用來表示sentence meaning。句子的含義可以用graph來表示。用RNN來生成圖。
Question Answering 機器問答
關注點在如何利用常識和知識庫,理解上下文、多段文本以及多文檔。
Knowledgeable Reader: Enhancing Cloze-Style Reading Comprehension with External Commonsense Knowledge
本文介紹了一種神經閱讀理解模型,將常識知識編碼為鍵值記憶,結合外部知識和上下文表示來推斷答案。
Simple and Effective Multi-Paragraph Reading Comprehension
將神經網絡段落級QA系統之間應用到文檔或多文檔級別時,段落級QA模型經常被不相關的文本分散注意力。這篇文章提出了一個訓練方法,通過從每個文檔中抽取多個段落並使用目標函數來獲得全局正確答案,從而忽略不包含答案的段落。
Did the Model Understand the Question
本文分析了三個問題回答任務的最先進的深度學習模型:(1)圖像,(2)表格,以及(3)文本段落。使用歸因概念(單詞重要性),發現這些深層網絡經常忽略重要的問題術語。結果表明,歸因可以增加標準的準確度量,並有助於調查模型性能。當模型準確但由於錯誤的原因時,歸因可能會在模型中表現出錯誤的邏輯,表明測試數據存在不足之處。
Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification
與單段落的機器閱讀理解相比,多段落機器閱讀理解的挑戰在於不同的段落裡可能含有相互混淆的內容。文章提出一個端到端的神經模型,使那些來自不同段落的答案候選者能夠根據他們的內容表示來相互驗證。具體來說,共同訓練三個模塊,可以根據三個因素預測最終答案:答案邊界,答案內容和跨段落答案驗證。
Domain adaptation 自適應
如下幾篇文章的方法雖然傳統,但是有效。
Strong baselines for neural semi-supervised learning under domain shift
基本結論是可以採用tri-training。就是三個模型在unlabeled數據上打標。對於某個數據,如果兩個同意,就把這個數據與打標結果帶入訓練集,bootstrap訓練集。這個方法雖然傳統,但是比其它的方法,比如adversarial learning等有效。
Machine Learning 機器學習
Backpropagating through structured argmax using a SPIGOT
在NLP的許多問題中,比如parsing等,有含有結構的結果。比如parsing產生的parsing tree就具有結構。產生這些結構的函數,比如argmax都不可以differentiate。此論文提出的算法是將這些argmax作為constraint,比如single headness是所有子節點到父節點的概率和為1.0。在做relaxation後,這個要求改為概率和小於等於1.0。再把gradient在做error back propagation時做個滿足這些要求的投影。效果比skip-through要好些也嚴格些。
Text classification 文本分類
Marying up Regular Expressions with Neural Networks: A Case Study for Spoken Language Understanding
三個利用正則表達式的方法。第一個是將正則表達式的結果作為輸入,但是用來作為soft-max的輸入層,第二個是正則表達式中的熱詞,作為attention用到的輸入。第三個方法是將正則表達式的輸出和Neural Network的結果融合在一起。這個方法在我們的工作也早已實驗過。
Joint embedding of words and labels for text classification
有些場景下,label中含有些詞。比如「機票火車票」。之前的方法沒有利用到這個信息。這片文章將label embedding也帶入。用類似attention的方法,將word embedding的信息和label embedding的信息結合起來。其中,可以將「機票火車票」對應的label embedding用它的每個字的word embedding來做初始化。這個方法很新穎。
Universal Language Model Fine-tuning for Text Classification
先在大量數據上訓練一個基於LSTM的語言模型,第二步再在target domain上細調語言模型,第三步再去細調classification模型。
Unsupervised Random Walk Sentence Embeddings
這個方法考慮到了詞頻以及去除large variantions。
Summarization 歸總
Retrieve, rerank and rewrite: soft template based neural summarization
採用第三方提供的IR結果,作為summarization的候選。再學習排序,以及基於這些IR結果為初始化的生成。 信息的來源包括IR獲得的模版生成的summary與輸入的saliency以及decoder生成的summary和reference summary的區分。
Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting
本文解決long document的summarization問題,通常包括2步, Extractor 和Abstractive。這裡的extractor 負責從原文中抽取合適的句子,abstractive負責改寫。抽取合適的句子採樣強化學習的思路(A2C),reward 基於ROUGE。為了使訓練更加穩定,兩個部分分別做了pretrain。但是通常extractor並不會有標準答案句子,這裡通過summary 去算原文句子裡的相似度,來獲取gold sentence。另外extractor 是基於point network.
Dialogue system 對話系統
Examplar Encoder-Decoder for Neural Conversation Generation
基本思路是找到訓練集中和當前輸入query接近的context-response配對。訓練的generator,是採用了這些配對所對應的權重的語言模型。
Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems
本文的主要思路是用memory來記錄下過去的回答歷史,並設定一classifier來判斷是否可以從對話歷史中提取反應。如果不能,則用一語言模型來提出反應。是一個結合了retrieval-based和generation-based的方法。
Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning
微軟高劍鋒等人有很系統的工作,值得去系統學習一下。他們今年ACL給了Tutorial,另外,還有一篇很有意思的論文Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning,主要將planning引入到強化學習算法框架中,將真實用戶引入到模型學習中。
Generation 生成
Learning to Write with Cooperative Discriminators
語音模型的打分要考慮關於生成的語言質量鑑別器。這些鑑別器包括「重複」、Entailment、Relevance和Lexical Style。請人來評比,比其它模型,比如Seq2Seq要效果更好。
Data 數據
MojiTalk: Generating Emotional Responses at Scale
從twitter上提取有emoji的對話。利用emoji作為打標來決定「replying to」所對應的text要生成的反應。因為可以從twitter上下載數據,所以可以生成大量的數據用來給」replying to」打標。
Tools 工具
C++版本NMT開源工具Marian,地址:
https://github.com/marian-nmt/marian
— END —返回搜狐,查看更多
責任編輯: