AI給AI論文寫了個摘要,網友戲稱為「摘要通過圖靈測試」,推特點讚上千

2021-02-25 量子位
銅靈 發自 凹非寺
量子位 出品  | 公眾號 QbitAI

這一次AI自己給AI論文生成了一次摘要。

今天,一個可為長文自動生成總結的Transformer語言模型論文在推特火了起來。

細心了網友看到論文摘要結尾,才發現一個斜體備註中寫著:上面的摘要不是作者寫的,而是由研究中展示的一個模型自動生成的。

以假亂真的生成質量,讓不少網友大吃一驚。並且,其生成方式也不一般:

研究證明了,即使沒有複製機制,Transformer語言模型在總結長篇科學文章方面也非常有效,並且效果優於傳統的seq2seq方法。

並且,與先前使用複製機制的研究相比,新方法生成的摘要更全,在用於評估自動生成的摘要和翻譯水平的ROUGE評測上,獲得了更高的分數。

這項研究被OpenAI研究科學家、牛津大學人類未來研究所研究員Miles Brundage的推薦和轉發,不到一天時間獲贊近2000,網友戲稱為這是一項「摘要圖靈測試」。

還有網友表示,在未來十年內,我們或許能看到第一篇transformer寫出的研究論文了。

所以,這個讓網友大吃一驚的總結摘要生成模型,到底是如何以假亂真的?

請看摘要↓

非複製機制

我們提出了一種新的方法,通過神經摘要式總結,可以為篇幅超過上千字的長文檔自動生成摘要。

我們展示了一種在生成總結前的簡單提取步驟,在執行生成摘要任務前,會根據相關信息,將其用於Transformer語言模型,幫助模型進行條件設置。

實驗結果表明,這個步驟顯著提高了總體結果。我們還證明了,與之前使用複製機制(copy mechanism)的工作相比,這種方法生成了抽象的總結,並且還能取得更高的Rouge分數。

此前,摘要提取方法大多依據的是序列到序列(seq2seq)的學習方法,將關鍵詞識別定義為生成問題,輸出時將關鍵短語看作為詞序列。

為了這其中的控制參數數量只會選取其中出現頻率較高的詞彙,於是相對低頻且重要的詞彙就會在提取過程中被遺漏,於是就誕生了「複製機制」。

通過複製機制,模型解碼器的部分隱藏狀態當成特定的位置,不通過生成過程定義關鍵詞,而是直接複製。

這樣一來,就能保留原始文章中的重要信息了,進而在輸出端生成出摘要。

而在這篇論文中提到,不通過複製機制也可以準確提取重點信息。這是怎麼做到的?

Transformer語言模型

在論文On Extractive and Abstractive Neural Document Summarization with Transformer Language Models中,研究人員具體介紹了模型的架構。

這個模型提取科學論文的摘要是分階段的。

首先,句子指針網絡(pointer network)從論文中提取出重要信息。

接下來,這些提取過的句子會隨著完整文章一起按照順序進行排列:引言、抽取的句子、摘要和論文其他內容。Transformer語言模型就是在以這種格式組織的論文上進行訓練的。

在推理過程中,引言和提取的句子將作為上下文提供給語言模型,最終生成摘要。在新聞和專利領域,引言部分將被全文替代。

與此前大多數神經抽象概括方法不同,這種方法沒有使用帶有顯式編碼器和解碼器的seq2seq公式來生成單詞。

具體來說,研究人員使用單個類似GPT的Transformer 語言模型(TLM)進行訓練,在推理階段根據文檔從語言模型中生成摘要。

研究人員將這個任務一分為二,即提取步驟(extractive step)和抽象步驟。

為了處理超過幾千個單詞的超長文檔,他們先使用兩個不同的分層文檔模型對句子進行提取,一個基於指針網絡,另一個基於句子分類器,這樣的結構保證在生成摘要前更好地調整Transformer語言模型的相關信息。

研究人員選取了四種不同的大型長文檔摘要數據集,分別為arXiv、PubMed 、bigPatent和Newsroom,對模型進行測試,並用Rouge指標進行測試。

無論是針對arXiv上的科學論文:

還是NewsRoom上的新聞:

甚至是PubMed上的生物醫學方面的論文:

還是130萬份美國專利文獻記錄bigPatent :

新方法TLM均優於此前摘要提取的baseline,並超越了先前提取結果。

作者介紹

這篇論文的共同一作共有三位,均來自Element AI。

包括蒙特婁學習算法研究所的Sandeep Subramanian,Raymond Li和蒙特婁大學的Jonathan Pilault及Christopher Pal。

Element AI想必大家不會陌生,這是圖靈獎得主、蒙特婁大學計算機系教授Yoshua Bengio創辦的創業孵化器,幫助來自蒙特婁大學和McGill大學的AI創業者施展拳腳。

傳送門

On Extractive and Abstractive Neural Document Summarization with Transformer Language Models

https://arxiv.org/abs/1909.03186

相關焦點

  • AI能寫論文了!華人本科生發明AI論文生成器
    倫斯勒理工學院大四學生王清昀等研究人員最新開發PaperRobot,能夠從產生點子、寫摘要、寫結論到寫「未來研究」,甚至它還能為你寫出下一篇論文的題目。還在為寫論文想不出好點子而發愁嗎?不用愁了!倫斯勒理工學院、華盛頓大學等的研究人員最新開發的 PaperRobot,提供從產生idea、寫摘要、寫結論到寫「未來研究」的一站式服務!甚至它還能為你寫出下一篇論文的題目,從此論文無憂。
  • 論文摘要怎麼寫
    第三部分研究結論或實驗部分,是介紹通過你的研究解決了什麼問題。注意摘要需要寫上出版社給出的文獻編碼。一、論文摘要怎麼寫1、論文摘要:需要對論文的內容不加注釋和評論的簡短陳述,要求扼要地說明研究工作的目的、研究方法和最終結論等,最重要的是結論,是一篇具有獨立性和完整性的短文,按照內容的不同。
  • 如何寫好畢業論文——摘要的特點
    因為中國每年有數百萬大學生面臨畢業,他們一面找工作,一面要完成學校生涯的最後一個任務——寫一篇合格的畢業論文。雖然讀書多年,寫畢業論文還是第一次。人面對新東西總是感覺恐懼。大多數對畢業論文是一頭霧水,百忙交集,缺無從下筆。畢業論文的要求更是知之甚少。一篇好的畢業論文必然要配好的摘要。好的摘要滿足五大特點。
  • AI攢論文指日可待?Transformer生成論文摘要方法已出
    在開始正文前,請讀者們先讀下面一段摘要:譯文:「我們提出了一種通過神經摘要為超過數千詞的長文本生成抽象摘要的方法。我們先在生成摘要之前執行一個簡單的抽取步驟,然後再將其用於在相關信息上調整 transformer 語言模型,之後將其用於生成摘要。我們表明這個抽取步驟能顯著提升摘要結果。
  • 科技論文英文摘要的特點及寫作
    英文摘要的規範化寫作將有助於我國科技學術界的國際交流,從而有利於擴大我國科技成果的影響。本文將根據科技論文英文摘要的文體特點,從選詞、時態、語態、句型等方面概要闡述科技論文英文摘要的寫作特點、模式及摘要寫作中應遵循的原則。 一、摘要的文體特點科技論文英文摘要是位於論文正文前面的一段概括性文字。
  • 體育論文摘要怎麼寫
    1、正確選取摘要類型 學術論文的摘要有幾個種類,主要有指示性的、報導性的以及報導指示性的幾類。這些摘要並不是通用的,在寫作中要用哪一種形式就要依據論文自身寫作方法確定,還要依據體育類論文所確定內容定。報導性的論文摘要主要是對論文的主題範圍以及內容梗概做一個簡明的總結,因此這種摘要就需要具備高度的概括,一定要完整體現出論文的內容。
  • 谷歌大腦AI實現文本摘要生成
    Transformers架構,並結合了為生成抽象文本量身定做的預訓練目標。Pegasus在12個摘要任務中取得了最先進的結果,任務文本涵蓋新聞、科學、故事、說明書、電子郵件、專利和立法法案。在低資源摘要生成上,Pegasus神奇地超過了此前在6個數據集上(1000個例子)生成的的最優結果!這次研究人員設計了一項訓練任務,在該任務中,文件中完整的、被認為重要的句子都被遮蔽了。AI不得不利用網絡和新聞文章來填補空白。
  • 論文摘要怎麼寫?
    摘要也就是內容提要,它是建立在對論文進行總結的基礎之上,用簡單、明確、易懂、精闢的語言對全文內容加以概括,留主幹去枝葉,提取論文的主要信息、作者的觀點、論文的主要內容、研究成果、獨到的見解。下面是為大家整理的"本科畢業論文摘要怎麼寫"的相關知識,歡迎參考。一、本科畢業論文摘要的字數要求論文摘要分為中文摘要和外文一般為英文)摘要。
  • 畢業論文的摘要怎麼寫
    ,採用哪些手段、方法來研究你的課題第三句話,通過研究得出哪些結論與建議摘要大約在300-500字左右,如果論文十分優秀另說。二、論文摘要的分類根據內容的不同, 摘要可分為以下三大類: 報導性摘要、指示性摘要和報導-指示性摘要(1)報導性摘要: 也常稱作信息性摘要或資料性摘要, 其特點是全面、簡要地概括論文的目的、方法、主要數據和結論. 通常, 這種摘要可以部分地取代閱讀全文.
  • 【論文】摘要怎麼寫?附模板
    提到論文摘要,不得不說2019年下的考試,這次考試論文要求有所創新,第一次沒有說寫摘要的事。論文的總體要求中只說不少於2000字,項目背景不能杜撰。而在論文的格子紙中,也沒有明確標記出寫摘要的地方。      當時在考場拿到這個卷子時我是蒙的,反覆讀了三遍要求和論文紙,沒找到寫摘要的地方,思考再三我沒寫摘要。但是考完後,寫摘要的小夥伴也過了。
  • 如何寫論文摘要?悄悄告訴你寫論文摘要的方法!別再走彎路了
    如何寫論文摘要呢?寫論文,摘要是必不可少的,那麼摘要怎麼寫呢?有什麼要求呢?一般要寫多少字數呢?這些問題,大家都弄清楚了嗎?寫摘要,一些和論文選題、研究領域無關的內容都要避開,另外,學術術語的引用要準確、規範,縮略語的使用也要正確、合理,此外最好不要出現引證、舉例等。
  • 論文摘要如何寫?
    現在可能大家都在忙著寫論文,小畢給大家一些寫摘要的經驗,希望可以幫到大家。(一)摘要的構成因為摘要是論文的提要大綱,是對全文的概括。好的摘要一定是提綱挈領的。(二)摘要怎麼寫它分為中文摘要和英文摘要。中文摘要:(1)字數不要太多,在五六百字即可。(2)摘要先寫什麼,再寫什麼,根據構成要素寫,要有邏輯順序,結構要嚴謹。
  • 論文摘要不會寫?學霸教你一招,搞定論文摘要so easy!
    抓住我就劈頭蓋臉地問,論文摘要到底要寫些啥?首先,我們要知道摘要是個啥?能隨便寫嗎?摘要,沒什麼特點和要求,短小精悍,高度凝練。高手200字,普通人300字,最多也不超過400字,一般在200~300字之間。碩士論文則字數要求在500-600字之間,博士論文則需900-1200字。那摘要都需要寫些啥呢?有什麼內容必須有呢?對象——文章要解決什麼問題啊?
  • 開源|谷歌發布最新「天馬」模型,自動生成文本摘要已超越人類!
    目前,這項研究的論文《PEGASUS:Pre-training with Extracted Gap-sentence for Abstractive Summarization》已經發表在預印論文庫arXiv上,而且被ICML國際機器學習大會收錄。
  • 論文摘要怎麼寫?1分鐘教你學會論文摘要!
    很多朋友都說自己搞不定論文摘要,覺得論文摘要實在太難了。
  • 高水平SCI英文論文的摘要怎麼寫?應該這樣寫好摘要
    發表高水平SCI論文的第一步,應該這樣寫好論文標題),今天給大家分享如何寫論文摘要。摘要可以說是科技論文最難寫的部分之一。摘要的好壞決定著文章的命運、文章的曝光率、引用率等等。如何寫好高水平SCI論文摘要呢?請繼續往下看。論文摘要重要嗎?摘要又稱概要、內容提要,其英文單詞為abstract和summary。
  • 畢業論文摘要如何寫
    摘要的概念和作用 摘要又稱概要、內容提要。摘要是以提供文獻內容梗概為目的,不加評論和補充解釋,簡明、確切地記述文獻重要內容的短文。摘要應具有獨立性和自明性,並且擁有與文獻同等量的主要信息,即不閱讀全文,就能獲得必要的信息。對一篇完整的論文都要求寫隨文摘要,摘要的主要功能有: 1) 讓讀者儘快了解論文的主要內容,以補充題名的不足。現代科技文獻信息浩如煙海,讀者檢索到論文題名後是否會閱讀全文,主要就是通過閱讀摘要來判斷;所以,摘要擔負著吸引讀者和將文章的主要內容介紹給讀者的任務。
  • 科技論文摘要的英譯特點及規範表達
    為適應對外交流的需要,國家統一規定,公開發表的學術論文應附有英文摘要。關於英文摘要的寫作,雖然並沒有一成不變的模式,但一般來說,英文摘要是對原始文獻不加詮釋或評論的準確而簡短的概括,並要求它能反映原始文獻的主要信息。
  • 【方法】怎樣寫好論文摘要?6個實例告訴你!
    在摘要中評價性的語言不宜採用,換言之,就是把文章作者的觀點最乾淨地放在那裡,使摘要成為一個具有獨立性和自含性的短文。報導性摘要又稱資料性摘要或情報性摘要,它用來反映作者的主要研究成果,向讀者提供論文中全部創新內容和儘可能多的定量或定性的信息,一般以300字左右為宜,所寫的內容一般包括研究工作的目的、方法、結果和結論,而重點是後兩者。
  • 慧科訊業AI實驗室競技國際自然語言處理與中文計算大會文本摘要技術奪冠
    單文本自動摘要技術通過使用計算機軟體及其底層分析算法自動從原始文本中創建一個簡明、全面且反映該文章核心思想的摘要,從而輔助人們實現大量信息的快速閱讀與檢索。甚至更進一步,可以通過在單文本自動分析的基礎上分析多文本,實現對同一事件不同報導的多維度、多角度自動文摘。