人去做文本摘要都挺困難了,機器要怎麼做?

2021-01-15 極客公園

本文轉載自微信公眾號：ResysChina，作者張俊，極客公園已獲得授權。

引

文本摘要是自然語言處理中比較難的一個任務，別說是用機器來做文摘了，就連人類做文摘的時候都需要具備很強的語言閱讀理解能力和歸納總結能力。新聞的摘要要求編輯能夠從新聞事件中提取出最關鍵的信息點，重新組織語言來寫摘要；paper 的摘要需要作者從全文中提取出最核心的工作，然後用更加精煉的語言寫成摘要；綜述性的 paper 需要作者通讀 N 篇相關 topic 的 paper 之後，用最概括的語言將每篇文章的貢獻、創新點寫出來，並且對比每篇文章的方法各有什麼優缺點。自動文摘本質上做的一件事情是信息過濾，從某種意義上來說，和推薦系統的功能有一點像，都是為了讓大家更快地找到感興趣的東西，只是用了不同的手段而已。

問題描述

文本摘要問題按照文檔數量可以分為單文檔摘要和多文檔摘要問題，按照實現方式可以分為提取式（extractive）和摘要式（abstractive）。摘要問題的特點是輸出的文本要比輸入的文本少很多很多，但卻蘊藏著非常多的有效信息在內。有一點點感覺像是主成分分析（PCA），作用也與推薦系統有一點像，都是為了解決信息過載的問題。現在絕大多數應用的系統都是 extractive 的，這個方法比較簡單但存在很多的問題，簡單是因為只需要從原文中找出相對來說重要的句子來組成輸出即可，系統只需要用模型來選擇出信息量大的句子然後按照自然序組合起來就是摘要了。但是摘要的連貫性、一致性很難保證，比如遇到了句子中包含了代詞，簡單的連起來根本無法獲知代詞指的是什麼，從而導致效果不佳。研究中隨著 deep learning 技術在 nlp 中的深入，尤其是 seq2seq+attention 模型的「橫行」，大家將 abstractive 式的摘要研究提高了一個 level，並且提出了 copy mechanism 等機制來解決 seq2seq 模型中的 OOV 問題。

本文探討的是用 abstractive 的方式來解決 sentence-level 的文本摘要問題，問題的定義比較簡單，輸入是一個長度為 M 的文本序列，輸出是一個長度為 N 的文本序列，這裡 M>>N，並且輸出文本的意思和輸入文本的意思基本一致，輸入可能是一句話，也可能是多句話，而輸出都是一句話，也可能是多句話。

語料

這裡的語料分為兩種，一種是用來訓練深度學習模型的大型語料，一種是用來參加評測的小型語料。

1、DUC http://duc.nist.gov/

這個網站提供了文本摘要的比賽，2001-2007 年在這個網站，2008 年開始換到這個網站 TAC http://www.nist.gov/tac/。很官方的比賽，各大文本摘要系統都會在這裡較量一番，一決高下。這裡提供的數據集都是小型數據集，用來評測模型的。

2、Gigaword https://catalog.ldc.upenn.edu/LDC2003T05

該語料非常大，大概有 950w 篇新聞文章，數據集用 headline 來做 summary，即輸出文本，用 first sentence 來做 input，即輸入文本，屬於單句摘要的數據集。

3、CNN/Daily Mail

該語料就是我們在機器閱讀理解中用到的語料，該數據集屬於多句摘要。

4、Large Scale Chinese Short Text Summarization Dataset（LCSTS http://icrc.hitsz.edu.cn/Article/show/139.html）[6]

這是一個中文短文本摘要數據集，數據採集自新浪微博，給研究中文摘要的童鞋們帶來了福利。

模型

本文所說的模型都是 abstractive 式的 seq2seq 模型。nlp 中最早使用 seq2seq+attention 模型來解決問題的是 machine translation 領域，現如今該方法已經橫掃了諸多領域的排行榜。

seq2seq 的模型一般都是如下的結構 [1]：

encoder 部分用單層或者多層 rnn/lstm/gru 將輸入進行編碼，decoder 部分是一個語言模型，用來生成摘要。這種生成式的問題都可以歸結為求解一個條件概率問題 p(word|context)，在 context 條件下，將詞表中每一個詞的概率值都算出來，用概率最大的那個詞作為生成的詞，依次生成摘要中的所有詞。這裡的關鍵在於如何表示 context，每種模型最大的不同點都在於 context 的不同，這裡的 context 可能只是 encoder 的表示，也可能是 attention 和 encoder 的表示。decoder 部分通常採用 beam search 算法來做生成。

1、Complex Attention Model [1]

模型中的 attention weights 是用 encoder 中每個詞最後一層 hidden layer 的表示與當前 decoder 最新一個詞最後一層 hidden layer 的表示做點乘，然後歸一化來表示的。

2、Simple Attention Model [1]

模型將 encoder 部分在每個詞最後一層 hidden layer 的表示分為兩塊，一小塊用來計算 attention weights 的，另一大塊用來作為 encoder 的表示。這個模型將最後一層 hidden layer 細分了不同的作用。

3、Attention-Based Summarization(ABS) [2]

這個模型用了三種不同的 encoder，包括：Bag-of-Words Encoder、Convolutional Encoder 和 Attention-Based Encoder。Rush 是 HarvardNLP 組的，這個組的特點是非常喜歡用 CNN 來做 nlp 的任務。這個模型中，讓我們看到了不同的 encoder，從非常簡單的詞袋模型到 CNN，再到 attention-based 模型，而不是千篇一律的 rnn、lstm 和 gru。而 decoder 部分用了一個非常簡單的 NNLM，就是 Bengio[10] 於 2003 年提出來的前饋神經網絡語言模型，這一模型是後續神經網絡語言模型研究的基石，也是後續對於 word embedding 的研究奠定了基礎。可以說，這個模型用了最簡單的 encoder 和 decoder 來做 seq2seq，是一次非常不錯的嘗試。

4、ABS+ [2]

Rush 提出了一個純數據驅動的模型 ABS 之後，又提出了一個 abstractive 與 extractive 融合的模型，在 ABS 模型的基礎上增加了 feature function，修改了 score function，得到了這個效果更佳的 ABS+模型。

5、Recurrent Attentive Summarizer(RAS) [3]

這個模型是 Rush 的學生提出來的，輸入中每個詞最終的 embedding 是各詞的 embedding 與各詞位置的 embedding 之和，經過一層卷積處理得到 aggregate vector：

根據 aggregate vector 計算 context（encoder 的輸出）：

其中權重由下式計算：

decoder 部分用 RNNLM 來做生成，RNNLM 是在 Bengio 提出的 NNLM 基礎上提出的改進模型，也是一個主流的語言模型。

6、big-words-lvt2k-1sent 模型 [4]

這個模型引入了 large vocabulary trick(LVT) 技術到文本摘要問題上。本方法中，每個 mini batch 中 decoder 的詞彙表受制於 encoder 的詞彙表，decoder 詞彙表中的詞由一定數量的高頻詞構成。這個模型的思路重點解決的是由於 decoder 詞彙表過大而造成 softmax 層的計算瓶頸。本模型非常適合解決文本摘要問題，因為摘要中的很多詞都是來自於原文之中。

7、words-lvt2k-2sent-hieratt 模型 [4]

文本摘要中經常遇到這樣的問題，一些關鍵詞出現很少但卻很重要，由於模型基於 word embedding，對低頻詞的處理並不友好，所以本文提出了一種 decoder/pointer 機制來解決這個問題。模型中 decoder 帶有一個開關，如果開關狀態是打開 generator，則生成一個單詞；如果是關閉，decoder 則生成一個原文單詞位置的指針，然後拷貝到摘要中。pointer 機制在解決低頻詞時魯棒性比較強，因為使用了 encoder 中低頻詞的隱藏層表示作為輸入，是一個上下文相關的表示，而僅僅是一個詞向量。這個 pointer 機制和後面有一篇中的 copy 機制思路非常類似。

8、feats-lvt2k-2sent-ptr 模型 [4]

數據集中的原文一般都會很長，原文中的關鍵詞和關鍵句子對於形成摘要都很重要，這個模型使用兩個雙向 RNN 來捕捉這兩個層次的重要性，一個是 word-level，一個是 sentence-level，並且該模型在兩個層次上都使用 attention，權重如下：

9、COPYNET [8]

encoder 採用了一個雙向 RNN 模型，輸出一個隱藏層表示的矩陣 M 作為 decoder 的輸入。decoder 部分與傳統的 Seq2Seq 不同之處在於以下三部分：

預測：在生成詞時存在兩種模式，一種是生成模式，一種是拷貝模式，生成模型是一個結合兩種模式的概率模型。

狀態更新：用 t-1 時刻的預測出的詞來更新 t 時刻的狀態，COPYNET 不僅僅詞向量，而且使用 M 矩陣中特定位置的 hidden state。

讀取 M：COPYNET 也會選擇性地讀取 M 矩陣，來獲取混合了內容和位置的信息。

這個模型與第 7 個模型思想非常的類似，因為很好地處理了 OOV 的問題，所以結果都非常好。

10、MRT+NHG [7]

這個模型的特別之處在於用了 Minimum Risk Training 訓練數據，而不是傳統的 MLE（最大似然估計），將評價指標包含在優化目標內，更加直接地對評價指標做優化，得到了不錯的結果。

結果

評價指標是否科學可行對於一個研究領域的研究水平有著直接的影響，目前在文本摘要任務中最常用的評價方法是 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)。ROUGE 受到了機器翻譯自動評價方法 BLEU 的啟發，不同之處在於，採用召回率來作為指標。基本思想是將模型生成的摘要與參考摘要的 n 元組貢獻統計量作為評判依據。

在英文數據集 DUC-2004 上進行評測，結果如下：

在中文數據集 LCSTS 上進行評測，結果如下：

不管是中文數據集還是英文數據集上，最好的結果都是來自於模型 10[7], 並且該模型只是採用最普通的 seq2seq+attention 模型，都沒有用到效果更好的 copy 機制或者 pointer 機制。

思考

自動文摘是我關注的第一個 nlp 領域，早期了很多相關的 paper，從方方面面都有所了解，也有一些比較淺薄的想法，現在總結一下。

1、為什麼 MRT 那篇文章的結果會比其他各種各樣的模型都要好呢？因為他直接將 ROUGE 指標包含在了待優化的目標中，而不是與其他模型一樣，採用傳統的 MLE 來做，傳統的目標評價的是你的生成質量如何，但與我們最終評價的指標 ROUGE 並無直接關係。所以說，換了一種優化目標，直接定位於評價指標上做優化，效果一定會很好。這點不僅僅在自動文摘中出現過，我記得在 bot 相關的 paper 中還有機器閱讀理解相關的 paper 中都有出現，只是具體的評價指標不同而已。這一點很有啟發性，如果在文章 [7] 中採用 copy 機制來解決 OOV 問題，會不會有更加驚人的效果呢？我們拭目以待。

2、OOV(out of vocabulary) 的問題。因為文本摘要說到底，都是一個語言生成的問題，只要是涉及到生成的問題，必然會遇到 OOV 問題，因為不可能將所有詞都放到詞表中來計算概率，可行的方法是用選擇 topn 個高頻詞來組成詞表。文章 [4] 和 [8] 都採用了相似的思路，從 input 中拷貝原文到 output 中，而不僅僅是生成，這裡需要設置一個 gate 來決定這個詞是 copy 來還是 generate 出來。顯然，增加了 copy 機制的模型會在很大程度上解決了 OOV 的問題，就會顯著地提升評價結果。這種思路不僅僅在文摘問題上適用，在一切生成問題上都適用，比如 bot。

3、關於評價指標的問題。一個評價指標是否科學直接影響了這個領域的發展水平，人工評價我們就不提了，只說自動評價。ROUGE 指標在 2003 年就被 Lin 提出了 [9]，13 年過去了，仍然沒有一個更加合適的評價體系來代替它。ROUGE 評價太過死板，只能評價出 output 和 target 之間的一些表面信息，並不涉及到語義層面上的東西，是否可以提出一種更加高層次的評價體系，從語義這個層面來評價摘要的效果。其實技術上問題不大，因為計算兩個文本序列之間的相似度有無數種解決方案，有監督、無監督、半監督等等等等。很期待有一種新的體系來評價摘要效果，相信新的評價體系一定會推動自動文摘領域的發展。

4、關於數據集的問題。LCSTS 數據集的構建給中文文本摘要的研究奠定了基礎，將會很大程度地推動自動文摘在中文領域的發展。現在的網際網路最不缺少的就是數據，大量的非結構化數據。但如何構建一個高質量的語料是一個難題，如何儘量避免用過多的人工手段來保證質量，如何用自動的方法來提升語料的質量都是難題。所以，如果能夠提出一種全新的思路來構建自動文摘語料的話，將會非常有意義。

參考文獻：

[1] http://cn.arxiv.org/pdf/1512.01712

[2] http://cn.arxiv.org/pdf/1509.00685.pdf

[3] http://harvardnlp.github.io/papers/naacl16_summary.pdf

[4] http://cn.arxiv.org/pdf/1602.06023

[5] http://cn.arxiv.org/pdf/1604.00125v1.pdf

[6] http://cn.arxiv.org/pdf/1506.05865

[7] http://cn.arxiv.org/pdf/1604.01904.pdf

[8] http://cn.arxiv.org/pdf/1603.06393v2.pdf

[9] http://research.microsoft.com/en-us/people/cyl/naacl2003.pdf

[10] http://jmlr.org/papers/volume3/bengio03a/bengio03a.pdf

人去做文本摘要都挺困難了,機器要怎麼做?

相關焦點

要做文本自動摘要,你得先了解PageRank算法

愛情中要怎麼做才浪漫?怎麼做一個懂浪漫的人

今天在車上看到幾個姑娘,我覺得都挺好看,要怎麼去要電話呢

arXiv灌水機:機器自動生成論文標題、摘要信息,還有40+奇妙AI應用

摘要翻譯、論文寫作……人工智慧延伸科學交流觸角

人類要怎麼做才能挺過去?

摘要翻譯、論文寫作、信息檢索、抄襲檢測……人工智慧延伸科學...

去內蒙古草原旅遊要準備什麼?挺實用的!

郭為:機器對人只是功能性替代

直銷要創新,直銷人該怎麼做才能跟上潮流?

高水平SCI英文論文的摘要怎麼寫?應該這樣寫好摘要

人的智能如何與機器無限連接

日本漁民撈到海蝨,用輪船尾氣做成美食,味道還挺不錯!

「畢業之家」畢業論文:摘要和引言該如何寫?需要注意什麼?

數學的神奇,人工智慧機器為什麼能學習,到底怎麼做的?

龍鬚菜,不知道大家都吃過沒有,那麼龍鬚菜,都是怎麼做的呢?

外賣備註太欺負人,買蚯蚓紅牛就算了,「女朋友味的菜」怎麼做?

未來的世界:機器翻譯VS人工翻譯

孫為民暢想未來中國品牌圖景:「讓機器去幹活,讓人去生活」

乘時間機器去八十萬年後的世界