AI攢論文指日可待?Transformer生成論文摘要方法已出

2020-11-23 機器之心Pro

選自arXiv

作者:Sandeep Subramanian等

機器之心編譯

參與:Panda

寫論文是一件「痛並快樂著」的事情。快樂的是可以將自己的研究公之於眾,痛苦的是有大段大段的文本內容需要完成。特別是摘要、引言、結論,需要不斷重複說明論文的主要研究、觀點和貢獻。現在,這樣的工作可以依賴 AI 完成了。Element AI 的研究者們提出了一種新的模型,使用 Transformer 架構,自動地生成論文的摘要。AI 攢論文的進程又往前走了一步。

在開始正文前,請讀者們先讀下面一段摘要:

譯文:「我們提出了一種通過神經摘要為超過數千詞的長文本生成抽象摘要的方法。我們先在生成摘要之前執行一個簡單的抽取步驟,然後再將其用於在相關信息上調整 transformer 語言模型,之後將其用於生成摘要。我們表明這個抽取步驟能顯著提升摘要結果。我們還表明這個方法能得到比之前的使用複製機制的方法更抽象的摘要,同時還能得到更高的 rouge 分數。」

讀起來怎麼樣?事實上,以上你看到的摘要內容都不是人類完成的,它是由論文中的機器學習模型寫出來的。這是來自 Element AI 的研究者最新公布的研究成果,他們使用了一種類似 GPT 的方法生成了相關研究論文的摘要。

文本摘要是 NLP 中的常見任務了。文檔摘要如果能做到很好,可以極大程度減輕文字工作者的工作量,快速提煉文本核心內容,加速文本信息的提取、閱讀和生產效率。如果能夠將相關算法應用在論文寫作上,是不是摘要、引言、相關工作、結論部分都可以省很多功夫了?

但是,正是因為現有的相關算法不夠成熟,能夠實際應用在生產中的文檔摘要算法不多,而且現有的算法普遍只能生成短的、描述事實的文本(在一些新聞平臺有所應用)。要將帶有邏輯結構的長文本進行抽取和摘要化處理,這樣的算法並不常見。

現在,這篇介紹論文摘要抽取生成的論文,也許會給這個 NLP 中的經典任務帶來新的解決思路。

論文地址:https://arxiv.org/abs/1909.03186

Transformer 怎樣生成論文摘要

語言模型的訓練目標是使用某個大型文本語料庫來學習估計任意的詞或字符序列的聯合概率。它們已經在多種不同的語言任務上取得了出色的表現。近期 Radford 等人提出的 GPT-2 表明,如果使用較大的感受野並在大量數據上訓練 transformer,那麼得到的語言模型能夠學習到文本中的長程依賴關係。

如果有人想為長文檔生成連貫的、高質量的摘要,那麼這樣的類 GPT 架構具備很多所需的性質。它們的結果還表明,無條件語言模型可以隱式地學會執行摘要總結或機器翻譯,這是其在數據上訓練得到的結果。如果將這個數據按序列格式化為文檔的不同方面(引言、正文、摘要),那麼就可以讓模型學習生成其中的一個方面。比如,通過在測試時提供相似格式的數據,可讓模型學會解決摘要任務;即語言模型可以基於文檔的引言和之後更長的正文生成一個摘要。

具體而言,論文的研究者使用了單個類 GPT 的 transformer 語言模型,並在文檔及其摘要上進行訓練。在推理階段,語言會基於輸入文檔執行生成任務(見圖 1)。研究者將這個任務劃分為了兩個步驟:抽取和摘要。為了處理超過幾千詞的超長文檔,首先先使用兩個不同的分層式文檔模型執行句子抽取;其中一個模型基於指針網絡(pointer network),這類似於 Chen and Bansal 2018 提出的方法一種變體;另一個模型則基於句子分類器。這個抽取步驟能夠抽取出文檔中的重要句子,然後這些句子可用於更好地在相關信息上調節 transformer 語言模型,然後該模型可以執行摘要生成任務。

模型框架是什麼樣的

他們提出的整體模型包含兩個不同且可獨立訓練的組件。一是分層式文檔表徵模型,它可以指向或分類文檔中的句子,從而得到一個抽取式的摘要。二是 transformer 語言模型,它可基於抽取出的句子以及文檔的一部分或整體來生成摘要。

圖 1:用提出的模型來為科研論文生成摘要

抽取模型

這是一種分層式文檔表徵模型,它可以指向或分類文檔中的句子,從而得到一個抽取式的摘要。

1. 分層式序列到序列句子指針

這個抽取模型類似於 Chen and Bansal 在 2018 年開發的句子指針架構,主要的差異是編碼器的選擇。這裡的模型使用的是分層式雙向 LSTM 編碼器,且使用了詞級和句子級的 LSTM;而 Chen and Bansal 使用的是卷積式詞級編碼器,可以實現更快的訓練和推理。但這兩者使用的解碼器是一樣的,都是 LSTM。

因此,這個抽取器採用了編碼器-解碼器架構。其中編碼器採用了分層結構,結合了 token 級與句子級的 RNN。首先,這個「句子編碼器」或 token 級 RNN 是一個雙向 LSTM,用於編碼每個句子。兩個方向的最後一層的最後隱藏狀態產生句子嵌入。句子級 LSTM 或「文檔編碼器」則是另一個雙向 LSTM,可將這個句子嵌入的序列編碼成文檔表徵。

解碼器則是一個自回歸 LSTM,它的輸入是之前抽取出的句子的句子級 LSTM 隱藏狀態。基於這個輸入,它可以預測下一個要抽取的句子。這個解碼器的輸出是根據該解碼器在文檔表徵上的隱藏狀態,使用一種注意機制計算出來的。這裡使用了來自 (Luong, Pham, and Manning 2015) 的點積注意方法。根據 (Luong, Pham, and Manning 2015) 的輸入饋送方法,這種注意感知型隱藏狀態會在下一個時間步驟連接到輸入。

將注意權重用作在文檔句子上的輸出概率分布,並據此選擇下一個要抽取的句子。這裡研究者採用了一種慣例來指示抽取結束,即相同的索引連續出現兩次。這個模型的訓練目標是最小化每個解碼器時間步驟選取正確的句子的交叉熵。

2. 句子分類器

類似於指針網絡,研究者使用了一個分層式 LSTM 來編碼文檔以及得到句子表徵的序列。這個模型的訓練目標是最小化與黃金標準抽取摘要的句子的二元交叉熵損失。

3. 模型細節

這個模型使用了大小為 300 的詞嵌入。token 級 LSTM(句子編碼器)、句子級 LSTM)文檔編碼器)和解碼器各自都有 2 個包含 512 個單元的層,並且在每個中間層的輸出處都應用了 0.5 的 dropout。訓練使用了 Adam,學習率為 0.001,權重衰減為 10^-5,批大小為 32。研究者每 200 次更新對模型進行一次評估,patience 值為 50。在推理階段,使用波束搜索進行解碼,指針模型的波束大小為 4,並從句子分類器選取 k 個最有可能的句子,其中 k 是訓練數據集中摘要的平均句數。

transformer 語言模型(TLM)

這裡僅使用了單個從頭開始訓練的 transformer 語言模型,並使用了「適當」格式化的數據。

這個 transformer 語言模型有 2.2 億個參數,具有 20 層,768 維嵌入,3072 維位置 MLP 和 12 個注意頭。這與 Vaswani et al. 2017 的 transformer 語言模型一樣,唯一的不同之處是這裡不會在初始化時擴展權重。這個語言模型的訓練在單個英偉達 DGX-2 的 16 個 V100 GPU 上用去了 5 天時間。對於前 40 000 次更新,研究者使用了一個線性上升的學習率計劃,直到最大學習率 2.5×e^4;之後的 200 000 個步驟則使用 Adam 優化器按餘弦退火計劃降至 0。訓練採用了混合精度,批大小為 256 個序列,每個序列 1024 個 token。

有時候我們要處理非常長的文檔,這些文檔可能沒法放入 transformer 語言模型的單個 token 窗口中,比如一篇科研論文。為此,研究者使用了引言作為代理,因為其中包含足夠用於生成摘要或總結的信息;論文的其餘部分則像領域語言模型訓練數據那樣使用。

為了實現科研論文的摘要,研究者將 arXiv 和 PubMed 數據集組織成了以下形式:1)論文引言;2)句子指針模型抽取出的句子;3)摘要;4)論文其餘內容。在其它數據集上,論文引言會是整個文檔,不會有論文的其它部分。

研究者使用了一個特殊 token 來標示摘要的起點,並在測試時間將其用於指示模型開始執行生成摘要的任務。文章的其餘部分也會提供給該語言模型,以用作補充的域內訓練數據。整個數據集被分割為了互不重疊的樣本,每個樣本 1024 個 token。研究者在推理時使用了「前 k 個(topk)」採樣方法,其中 k=30,softmax 溫度為 0.7。

結果與分析

數據集

研究者實驗了四個不同的大規模長文本摘要數據集:arXiv、PubMed(Cohan et al. 2018)、 bigPatent(Sharma, Li, and Wang 2019)、Newsroom(Grusky, Naaman, and Artzi 2018)。表 1 給出了這些數據集的統計情況。

表 1:本研究中所使用的數據集的統計情況。各列依次為:數據集名稱、文檔-摘要對數量、文檔詞數與摘要詞數的比、摘要的詞數、文檔的詞數

數據預處理

抽取模型與摘要模型使用的子詞單元都是通過字節對編碼(byte pair encoding)(Sennrich, Haddow, and Birch 2015)計算得到的,使用了 40 000 個 replacement。為了解決句子指針網絡的內存問題,每篇文章僅保留 300 個句子,每個句子保留 35 個 token。

評估

研究者使用的評估指標是全長度 F-1 ROUGE 分數(Lin 2004),為此研究中復用了(Co- han et al. 2018)的代碼。本研究報告的所有 ROUGE 數值都有 95% 的置信區間,偏差最多為 0.24。

結果

表 2:在 arXiv 數據集上的摘要結果。之前的研究結果(Previous Work)來自(Cohan et al. 2018)。下面幾行是簡單的基線前 10 名抽取器以及指針和分類器模型。新提出的 transformer 語言模型要麼只基於引言(I),要麼還有抽取的句子(E),這些抽取的句子來自基本真值(G)或模型(M)抽取。

表 3:定性結果——NewsRoom 數據集的新聞文章以及新提出的模型生成的摘要

相關焦點

  • arXiv灌水機:自動生成論文標題、摘要信息,還有40+奇妙AI應用
    梅寧航 發自 凹非寺量子位 報導 | 公眾號 QbitAI「無聊的人類」,還在為寫不出論文摘要發愁嗎?無趣的直立猿,還在為辛辛苦苦湊字數撓頭嗎?有個網站適合你,無聊的人類。真的叫無聊的人類。△boredhumans這個網站目的在於「通過網際網路向大眾展示人工智慧。」
  • arXiv灌水機:機器自動生成論文標題、摘要信息,還有40+奇妙AI應用
    關注前沿科技 量子位梅寧航 發自 凹非寺量子位 報導 | 公眾號 QbitAI「無聊的人類」,還在為寫不出論文摘要發愁嗎?無趣的直立猿,還在為辛辛苦苦湊字數撓頭嗎?
  • Facebook AI的DETR,一種基於Transformer的目標檢測方法
    當前的深度學習方法試圖解決作為分類問題或回歸問題或綜合兩者的目標檢測任務。例如,在RCNN算法中,從輸入圖像中識別出幾個感興趣的區域。然後將這些區域分類為對象或背景,最後,使用回歸模型為所標識的對象生成邊界框。另一方面,YOLO框架(只看一次)以不同的方式處理目標檢測。
  • 論文「太長不想讀」?人工智慧新軟體可生成一句話摘要
    TLDR軟體為科學搜尋引擎「語義學者」上的一篇計算機科學論文生成一句話摘要。圖片來源:Agnese Abrusci/Nature論文太長不想讀怎麼辦?一個軟體就可以搞定。據《自然》報導,一位科學搜尋引擎的創造者推出了一款軟體,可自動為研究論文概括生成一句話摘要,他們說,這有助於科學家更快地瀏覽論文。這個免費工具被創建它的團隊稱為TLDRs(「太長,沒讀過」的縮寫),已於日前在科學搜尋引擎「語義學者」上投入使用。「語義學者」是美國艾倫人工智慧研究所(AI2)創建的搜尋引擎。
  • 各類論文摘要寫作方法全解
    本文詳細介紹摘要的作用和目的、摘要的基本要求、五個要素的具體要求與相關句型及舉例、摘要的基本結構。本文所考慮的摘要既適合期刊論文、也適合學位論文和其它研究報告。這就要求我們首先了解一篇論文有哪些要素。讓摘要包含這些基本要素,就構成了一個沒有大的遺漏的簡介。正常的學術論文(包括期刊論文、會議論文和學位論文)都包含五個基本要素——研究主題、論文的目的、使用了什麼研究方法、得到了哪些重要結果或發現、有什麼結論(即結果有何意義)。
  • 史上最火 ECCV 已開幕,這些論文都太有意思了
    受疫情影響,今年 ECCV 2020 和其它頂會一樣,由線下轉至線上舉辦,已於 8 月 23 日拉開了帷幕。論文地址:https://arxiv.org/pdf/2008.06963姿態估計 《在擁擠場景中基於多視點幾何的對多人三維姿態估計》單位:約翰斯·霍普金斯大學,新加坡國立大學摘要:外極約束是目前多機三維人體姿態估計方法中特徵匹配和深度估計的核心問題。
  • NumPy論文登上Nature;高效Transformer綜述
    清華大學教授、IEEE Fellow 張長水等人廣泛閱讀和總結了自 21 世紀初到 2019 年的 300 餘篇論文,寫了一篇關於 FSL 的綜述文章。這篇綜述文章回顧了 FSL 的演進歷史和當前進展,將 FSL 方法分為基於生成模型和基於判別模型兩大類,並重點介紹了基於元學習的 FSL 方法。
  • 論文標題目錄和圖表目錄自動生成方法
    論文通常具有不同級別的各種標題。當內容的級別很多時,目錄非常重要,那麼如何自動生成畢業論文的標題目錄和圖表目錄??本文使用特定的步驟向您展示WORD自動目錄生成方法和自動更新過程。1.畢業論文題目目錄的自動生成方法步驟1:在Word文檔頁面中,將輸入字符放在第一級標題上,然後在「開始」菜單下的頂部目錄索引框中單擊「標題1」。
  • 如何寫論文摘要?悄悄告訴你寫論文摘要的方法!別再走彎路了
    如何寫論文摘要呢?寫論文,摘要是必不可少的,那麼摘要怎麼寫呢?有什麼要求呢?一般要寫多少字數呢?這些問題,大家都弄清楚了嗎?還沒弄清楚的話,也沒關係,今天小編就和大家簡單講講論文摘要吧~一、論文摘要1、摘要的基本要求摘要的篇幅不需要太長,它一般以短小精悍、言簡意賅為主。
  • 論文摘要這麼寫,為什麼錯了?
    學術論文的摘要通常只有一段,但核心要點有兩個,一是簡潔,二是全面。二者並不矛盾,簡潔是要求摘要不寫無關緊要的內容;而全面則是要求摘要儘量把與論文的核心論證和相關結論寫明。 摘要的主要內容應採取以「問題—結論」為主導的寫法。
  • 高質量的論文摘要,是如何提升論文可見性的?
    他的論文雖然富有創新性,數據精確且邏輯縝密,但論文的閱讀量和引用量非常少,在網頁中的搜索排名也很低。他希望通過優化自己的論文來改善這一境況,於是我們建議他,從摘要部分著手,修改論文。 論文摘要質量的不盡如人意,確實是很多作者在論文撰寫和發表中經常忽略的問題。高質量的論文摘要,往往可以使論文的整體層次得到提升,並且幫助論文通過各個渠道來獲得別人關注。
  • 論文摘要如何寫?
    論文摘要是對所寫論文主要內容的簡短陳述,要求要能簡明扼要地闡述清楚整篇文章的研究目的、研究方法、最終得出的研究結果和結論,多設置在題名和作者之後、關鍵詞之前。一、摘要四要素摘要四要素包括目的、方法、結果和結論。目的指研究的目的,而不是對主題的簡單重複。方法是指研究過程中採取了哪些方法和手段,都具體做了哪些工作。結果即通過調研、實驗、觀察取得的數據和結果。
  • 醫學論文結構式英文摘要的寫作方法
    結構式摘要具有內容完整、重點突出、信息量大、觀點明確、層次清楚、條理分明等優點,目前被國內大多數醫學期刊所採用。對於醫學論文結構式英文摘要的寫作,醫刊彙編譯認為,應根據目的、方法、結果、結論四個部分的不同內容、語言表達、結構、時態等特點分別對待。
  • 論文摘要和引言的區別
    作者:新風學術網 簡單來說,引言就叫緒論(也有叫前言的),只需交代論文論題,不需交代論據;主要敘述論文的主題、中心、寫作動機、寫作背景、論文的價值和意義。 摘要概括全文大意,是論文的中心思想。也是論文主要內容的提要,包括主要觀點、主要論證結構以及結論。
  • IJCAI 2019 論文收錄結果最新出爐!歷年傑出論文帶你重溫 AI 發展...
    論文摘要:在自然語言生成領域,生成不同情感標籤的文本越來越多受到關注。近我們提出了一個基於懲罰的目標函數,使每個生成器都能在特定情感標籤下生成具有多樣性的樣本。此外,使用多個生成器和一個多類判別器,可以使每個生成器專注於準確地生成自己的特定情感標籤的例子。在四個數據集上的實驗結果表明,我們的模型在情感準確度和生成文本的質量方面始終優於當前幾種最先進的文本生成方法。
  • 論文英文摘要如何撰寫
    英語論文摘要在內容上與漢語論文摘要大致對應在,仍要從一篇英語論文中提煉出來,是將整篇論文高度濃縮,去其了繁枝茂葉,使其言簡意賅、短小精幹,概述性地點明文獻的重要內容,提綱挈領的表明了論文所要研究的對象範圍,採用的方法手段,得出的結果結論。2.具有獨立性。
  • 「論文查重檢測」學位論文摘要寫作注意事項
    摘要是對論文的內容不加注釋和評論的簡短陳述,要求扼要地說明研究工作的目的、研究方法和最終結論等,重點是結論,是一篇具有獨立性和完整性的短文,可以引用、推廣。這裡的小編給大家分享一下學位論文摘要寫作注意事項,希望對大家論文摘要寫作有所幫助。
  • 論文引言與論文摘要有哪些誤區?
    本文由 查重降重中心 sp8080.com 整理分享論文包括標題、摘要、序言、材料和方法、結果、結論、參考文獻等,並且在寫作過程中總有一些地方容易使作者感到困惑或撰寫得不好。錯誤不能忽略。這是本文的引言和摘要之間的一些誤解。
  • 論文寫作方法訓練系列講座三:論文的標題、摘要與引言基本要求
    常香雲教授在商學院406教室為研究生作了題為「論文的標題、摘要與引言基本要求」的精彩講座。常香雲教授早期主要從事信息管理與信息系統研究,現主要從事可持續供應鏈研究,包括逆物流和低碳兩方面。
  • 學術論文的「摘要」與「引言」區別在哪?
    很多初寫論文的作者對論文中的「摘要」和「引言」部分搞不清楚,覺得兩者差別不大,其實不然。在這篇文中,小編就來和大家討論討論兩者的區別。摘要是一篇簡短的小結,寫在一篇學術論文或論文的開頭,闡述論文的目的及其主要結論。