生成英文維基百科文章的方法可以概述為源文檔的多文檔摘要

2020-12-11 電子發燒友

最近,經過研究證明,生成英文維基百科(English Wikipedia)文章的方法可以概述為源文檔的多文檔摘要。我們使用抽取式文摘(extractive summarization)來粗略地識別出顯要的信息,以及一個神經抽象模型以生成文章。對於抽象模型,我們引入了一個只能解碼的體系結構,它可以擴展性地處理非常長的序列,遠比用於序列轉換中的典型的編碼器——解碼器體系結構長得多。我們的研究表明,這個模型可以生成流暢、連貫的多句話段落,甚至整個維基百科的文章。當給出參考文獻時,研究結果表明,它可以從諸如複雜度、ROUGE分數和人類評價所反映的信息中提取出相關的事實信息。

序列—序列框架已被證明在諸如機器翻譯這樣的自然語言序列轉換任務上取得了成功。最近,神經技術已經被應用於對新聞文章進行單一文檔、抽象(釋義)文本摘要的處理。在此前的研究中,監督模型的輸入範圍包括文章的第一句到整個文本,並且要對其進行端到端的訓練以預測參考摘要。由於語言理解是生成流暢摘要的先決條件,因此進行這種端到端的操作需要大量的並行的文章—摘要對。

圖1:T-DMCA模型中使用的自注意力層(self-attention layers)的架構。每個注意力層都將一個字符序列作為輸入,並產生一個相似長度的序列作為輸出。左圖:轉換器解碼器中使用的原始自注意。中:內存壓縮的注意力(Memory-compressed attentionyers),減少了鍵/值的數量。右:將序列分割成單個較小的子序列的局部注意力。然後將這些子序列合併在一起以得到最終的輸出序列。

相反,我們考慮了多文檔摘要的任務,其中,輸入是相關文檔的集合且其摘要是精煉過的。以往研究工作的著重點在提取式摘要上,從輸入中選擇句子或短語以形成摘要,而不是生成新的文本。抽象神經方法的應用存在一定的局限性,一個可能的原因是缺少大型的已標記數據集。

在這項研究中,我們將英文維基百科視為一個多文檔摘要的監督式機器學習任務,其中,輸入由維基百科主題(文章標題)和非維基百科參考文獻的集合組成,目標是維基百科的文章文本。我們對第一次試圖抽象地生成基於參考文本的維基百科文章的第一部分或引文。除了在任務上運行強大的基線模型之外,我們還將轉換器(Transformer)體系結構(Vaswani 等人於2017年提出)修改為只包含一個解碼器,在較長的輸入序列情況下,與循環神經網絡(RNN)以及Transformer編碼器—解碼器模型相比,它具有更好的表型性能。最後,研究結果表明,我們的建模改進使得我們能夠生成完整的維基百科文章。

圖2:用於各種提取方法的ROUGE-L F1,抽象模型的貢獻表現為用於最佳組合的d tf-idf-T-DMCA模型

用於神經抽象摘要的其他數據集

神經抽象摘要(Neural abstractive summarization)是Rush等人(於2015年)提出的,其中,他們使用包括來自多家出版商的新聞報導在內的英文Gigaword語料庫(Graff和Cieri於2003年提出)對標題生成模型進行訓練。然而,這個任務更像是句子的釋義,而不是摘要,因為只有文章的第一句話才被用以預測標題和另一句話。而在ROUGE(一種經常用於摘要的自動度量)和人類評估((Chopra等人於2016年提出))中,基於RNN具有注意力(attention)的編碼器—解碼器模型(seq2seq),在該任務上具有良好的性能表現。

2016年,Nallapati等人通過修改每日郵報(Daily Mail)和美國有線電視新聞網(CNN)中配有故事亮點的新聞報導的提問數據集,提出了一個抽象的摘要數據集。這個任務比標題生成更為困難,因為亮點中所使用的信息可能來自文章的多個部分,而不僅僅是第一句。數據集的一個缺點是,它有一個較少數量級的並行樣本(310k VS 3.8M)以供學習。標準具有注意力的 seq2seq模型性能表現並不太好,並且還使用了大量的技術以提高性能。另一個不利之處是,目前還不清楚制定故事亮點的準則是什麼,而且很顯然的是,兩家新聞出版商在文體上存在者顯著的差異。

圖3:在用於不同模型體系結構的組合語料庫上,比較了複雜度和用於tf-idf提取問題中L之間的關係。對於T-DMCA來說,E表示專家級混合層(mixture-of-experts)的大小。

在我們的研究中,我們也對神經抽象模型進行了訓練,但是是在維基百科的多文檔機制中。從表1可以看出,輸入和輸出文本通常要大得多,並且根據文章的不同而有著明顯的差異。一般來說,摘要(維基百科的主要內容)往往是多個句子,有時是多個段落,且就像維基百科風格手冊中所提倡的那樣,是以一種相當統一的風格編寫的。但是,輸入文檔可能包含任意來源的任意風格的文檔。

表1:摘要數據集的數量級輸入/輸出大小和一元(unigrams)回調

我們還在表1中給出了ROUGE-1給定輸入的輸出回調(recall)得分,即同時出現在輸入輸出中的一元(unigrams)/單詞的比例。更高的分數對應於一個更易於進行抽取式摘要處理的數據集。特別是,如果輸出完全嵌入到輸入的某個地方(例如wiki複製),則得分將為100。相對於對於其他摘要數據集分數為76.1和78.7,而我們的分數為59.2的情況下,表明我們的方法是最不適合進行純抽取方法的。

涉及維基百科的任務

其實,有許多研究工作都將維基百科用於機器學習任務中,包括問題回答(questionanswering)、信息提取(information extraction)以及結構化數據中的文本生成等。

與我們最為接近的涉及維基百科生成的研究工作是Sauper和Barzilay(於2009年)所進行的,其中文章是使用學習模板從參考文檔中抽取式(而不是像我們案例中的抽象式)生成的。維基百科文章限於兩類,而我們使用的是所有文章類型。參考文檔是從搜尋引擎獲的,其中,用作查詢的維基百科主題與我們的搜尋引擎參考頗為相似。不過,我們也會在維基百科文章的「參考文獻」部分中顯示文檔的結果。

圖4:同一樣本在不同模型中的預測結果顯示。

在圖4中,我們展示了來自三個不同模型(使用tf-idf提取和組合語料庫)的預測結果,以及維基百科的基本事實。隨著複雜度的降低,我們看到模型的輸出在流暢性、事實準確性和敘述複雜性方面都有所改善。特別是,T-DMCA模型提供了維基百科版本的一個可替代性選擇,並且更為簡潔,同時提到了關鍵事實,例如律師事務所所在位置,什麼時間、如何形成的,以及該事務所的崛起和衰落。

圖5:來自Transformer-ED,L = 500的翻譯

在模型輸出的手動檢查中,我們注意到一個意想不到的副作用:模型試著學習將英文名稱翻譯成多種語言,例如,將Rohit Viswanath翻譯成印地語(見圖5)。雖然我們沒有對翻譯進行系統的評估,但我們發現它們往往是正確的,而且在維基百科文章本身中並沒有發現它們。我們還證實,一般情況下,翻譯不僅僅是從諸如示例樣本這樣的源頭複製的,其中,目標語言是不正確的(例如名稱從英文到烏克蘭語的翻譯)。

我們已經證明,維基百科的生成可以看作是一個多文檔摘要問題,它具有一個大的、並行的數據集,並且演示了一個用以實現它的兩階段的抽取—抽象框架。第一階段使用的粗提取方法似乎對最終性能有顯著的影響,這表明進一步的研究將會取得成果。在抽象階段,我們引入了一種全新的、僅具有解碼器序列的轉換模型,能夠處理非常長的輸入—輸出樣本。該模型在長序列上的性能表現明顯優於傳統的編碼器—解碼器架構,從而使得我們能夠在基於許多參考文獻的條件下,生成連貫且信息豐富的維基百科文章。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 維基百科中的數據科學:手把手教你用Python讀懂全球最大百科全書
    更好的辦法是,下載多個分區文檔,每個文檔內容是文章的一個章節。之後,我們可以通過並行化一次解析多個文檔,顯著提高效率。「當我處理文檔時,我更喜歡多個小文檔而非一個大文檔,這樣我就可以並行化運行多個文檔了。」分區文檔格式為bz2壓縮的XML(可擴展標識語言),每個分區大小300~400MB,全部的壓縮包大小15.4GB。無需解壓,但如果你想解壓,大小約58GB。
  • 維基百科聯手谷歌翻譯,結果「慘不忍睹」!
    這直接導致我們在引用和查找信息時,往往輔助以維基百科和谷歌翻譯為代表的兩大信息引擎,其重要性不言而喻。然而,維基百科的內容顯然更偏向於英文內容,舉個例子來講,全球有大約 1200 萬人使用祖魯語,但祖魯語的維基百科文章大約只有 1000 篇。作為維基百科的詞條貢獻者們而言,能夠快捷方便地創建非英語乃至少數語言的詞條基本上是相當迫切的需求。
  • 論文寫作,WORD 文檔目錄、圖表設置生成
    這樣大大耽誤我們的工作時間,下面教大家一個非常簡單的方法,只需1分鐘即可幫你自動生成500頁Word目錄步驟如下:1、 設置標題樣式首先第一步我們需要生成標題樣式,這裡面有兩種方法,第1種用於Word頁數較少的文檔,第2種用於頁數較多的文檔。
  • Search 結果默認顯示維基百科內容
    Search 結果默認顯示維基百科內容 >核心提示:從今天起,維基百科增強結果將自動顯示在 Yahoo!
  • 維基百科資料
    維基百科(英語:Wikipedia,是維基媒體基金會的商標)是一個自由、免費、內容開放的百科全書協作計劃,參與者來自世界各地。這個站點使用Wiki,這意味著任何人都可以編輯維基百科中的任何文章及條目。
  • 文章太長不想看?ML 文本自動摘要了解一下
    但是,如果將一篇很長的文章歸納成一個能夠涵蓋原文中心思想的小段落,則需要我們耗費大量時間。本文介紹了自然語言處理中的兩種文本自動摘要生成方法——抽取式和抽象式文本摘要。這兩種方法通過計算文本中句子成分的權重來生成摘要,可以大大節省通讀全文以及歸納總結主要信息的時間,為讀者提供方便。你是否曾將一篇冗長的文檔歸納為一個小的段落?你用了多長時間呢?
  • 維基百科:分享知識的新方式
    中文維基百科的網絡管理員,在北京某研究所工作的時昭告訴記者:Wikiwiki在夏威夷語中是「快點快點」的意思。維基百科是一個原始碼開放的合作軟體,這意味著任何人可以在任何時間編輯任何頁面。他們甚至不需要事先註冊。用戶隨意改變別人的編輯,採用中立的觀點一起工作,不正確的頁面將很快得到修復。
  • PRD文檔:logo生成小程序
    編輯導讀:PRD作為產品經理經常撰寫的文檔,是產品的基本功。本文通過產品概述、業務流程、全局說明、功能性需求、非功能性需求五個模塊輸出一份「logo生成」需求文檔,希望對你有幫助。本人也小白轉產品,在一家創業公司就職。
  • LaTex學術寫作——編輯文檔格式 設置論文標題與摘要
    在上一篇文章中,我們介紹了如何安裝LaTex以及開始創建文檔的命令。今天我們就從學術寫作的第一步開始講起:如何編輯論文首頁標題以及論文摘要。
  • Spring Doc 生成OPEN API 3文檔
    作者 | developlee1. 概述公司正好最近在整理項目的文檔,且文檔對於構建REST API來說是至關重要的。在這篇文章中,我將介紹Spring Doc , 一個基於OpenAPI 3規範簡化了Spring Boot 1.x和2.x應用程式的API文檔的生成和維護的工具。2.
  • Python 批量生成PDF文檔
    今天就給大家講講如何用Python自動套用模板批量生成下方這樣的PDF文檔。1.準備開始之前,你要確保Python和pip已經成功安裝在電腦上噢,如果沒有,請訪問這篇文章:超詳細Python安裝指南 進行安裝。
  • IJCAI 2018|騰訊知文等提出結合主題信息和強化訓練生成更優摘要
    自動摘要技術有兩種類型,即抽取式(extraction)和生成式(abstraction)。抽取式摘要 [Neto et al., 2002] 的目標是通過選擇源文檔中的重要片段並將它們組合來生成摘要;而生成式摘要 [Chopra et al., 2016] 則是根據文檔的核心思想來重新組織生成摘要,因此這種摘要的靈活性更高。
  • QueryPHP v1-rc.2 多語言文檔系統及文檔更新
    QueryPHP v1.0.0-rc.1 和 2,這兩版本主要推進文檔的編寫進程,第一個 rc 版本實現多國語言文檔,rc.2 開發幾十篇文檔。
  • 告別手寫 API文檔生成工具推薦
    隨著API的發展以及需求的日益增加,對API文本文檔的需求與隨之而來。相信許多開發人員都遇到過編寫API文檔方面的問題及煩惱。你是否還通過手寫的方式來生成和編寫這些文檔呢?那麼你就OUT啦!話說工欲善其事必先利其器,本文分享8款非常好的API文檔生成工具給大家。
  • 如何翻譯Word文檔?Word文檔翻譯方法介紹
    2、然後在頁面中設置翻譯形式為「簡體中文→英文」,然後點擊「翻譯」就可以了。2、然後將Word文檔添加進去,在自定義設置欄裡設置語言翻譯類型為「簡體中文→英文」,然後點擊「開始翻譯」就可以了。2、然後在信息檢索選項欄裡,設置翻譯:源語言為簡體中文,目標語言為英文。點擊「→」翻譯Word文檔,然後點擊「插入」就可以了。
  • 新手福音,自動生成word文檔中文草稿或者英文草稿
    對於新手而言,平時需要對word文檔編輯多練習,這樣才能夠提高自己的編輯速度,所以word文檔練習草稿在新手心目中的地位是特別重要的,這次我們就分享一個自動word文本草稿的小技巧,能自動生成英文草稿或者中文草稿,新手朋友可以收藏轉發。
  • word文檔怎麼自動生成目錄? word文檔自動生成目錄教程速Get
    word文檔怎麼自動生成目錄? word文檔自動生成目錄教程速Get時間:2018-06-26 19:52   來源:今日頭條   責任編輯:沫朵 川北在線核心提示:原標題:word文檔怎麼自動生成目錄? word文檔自動生成目錄教程速Get 很多小夥伴還不清楚word文檔怎麼自動生成目錄?
  • Transformer生成論文摘要方法已出
    在開始正文前,請讀者們先讀下面一段摘要:譯文:「我們提出了一種通過神經摘要為超過數千詞的長文本生成抽象摘要的方法。我們先在生成摘要之前執行一個簡單的抽取步驟,然後再將其用於在相關信息上調整 transformer 語言模型,之後將其用於生成摘要。我們表明這個抽取步驟能顯著提升摘要結果。
  • SAS-輸出文檔生成目錄的方法
    前段時間有一個需求,利用SAS實現文檔目錄的自動生成。