先草稿可生成高質量文本,Percy Liang新論文廣受讚譽

2020-12-11 太平洋電腦網

文本生成是自然語言處理NLP領域的重要問題,許多知名學者都提出了自己的方法,改善現階段文本生成中豐富性不足、句法語意不自然、長句生成困難等問題,比如不久之前我們做過報導的上海交通大學俞勇、張偉楠聯合UCL汪軍發表的「 LeakGAN 」、Percy Liang的ICML2017最佳論文「 Understanding Black-box Predictions via Influence Functions 」。

Percy Liang是NLP領域的著名研究者,師從Michael I. Jordan,現為史丹福大學教授;除了論文得到廣泛認可之外,Percy Liang還拿下了 IJCAI 2016 計算機和思想獎(Computers and Thought Award)。

近期,Percy Liang團隊的一篇新論文提出了一種新的文本生成新方法,「Generating Sentences by Editing Prototypes」(用修改草稿的方式生成句子),這個方法不僅符合直覺,生成的效果也非常好,引起了很多研究者的注意和讚譽。以下編者對這篇論文做簡單介紹。

論文內容

這篇論文中提出了一種新的句子生成模型。它首先從樣本語料庫中隨機採樣一個句子作為「草稿」(論文中prototype),然後再把這個草稿編輯為一個新的句子(如下圖)

此前表現較好的系統大多數都是基於循環神經語言模型(NLM)的,它們「從零開始」生成句子,順序往往從左到右。這類模型中很容易觀察到生成通用化應答的問題,比如「我不知道」這樣。為了提高生成文本的豐富性,目前採用的比較直白的策略都會導致語法準確性的降低,表明目前的NLM模型可能並不具備對複雜應答的各種可能性做完全表徵的能力。

論文作者們由此想到了人類寫作時常常有先打草稿、再逐漸把它修改為一篇精美文章的做法,由此提出了文中的模型。模型首先會從訓練語料庫中隨機採樣一個草稿句子,然後激活一個神經網絡編輯器;這個編輯器會生成隨機的「編輯向量」,然後根據編輯向量對草稿句子做條件編輯,從而生成新的句子。

這個思路的出發點在於,語料庫中的句子提供了一個高質量的起點:它們語法正確,天然地具有複雜性,而且不會對長短和模糊性有任何偏好。編輯器中的注意力機制就會從草稿中提取出豐富的文本信息,然後把它泛化為新的句子。

模型的訓練方式是最大化估計生成模型的對數最大似然。這個目標函數是訓練集中具有相似詞法的句子對的和,從而可以用局部敏感哈希(Locality Sensitive Hashing)做量化估計。論文中同時用實證方法表明,多數詞法相同的句子同時在語義上也是相似的,這樣給神經編輯器的語義結構方面帶來了額外的益處。比如,作者們可以讓一個神經編輯器從一個種子句子出發,探索很大一片語義空間。

作者們從兩個方面對比了這個「先打草稿再優化」的模型和以往從零生成的模型:語言生成質量以及語義屬性。對於語言生成質量,人類評價者給論文中的模型打了更好的分數,在Yelp語料庫上把複雜度(perplexity)提升了13分,在One Billion Word Benchmark中提升了7分。對於語義屬性,論文中表明隱編輯向量在語義相似性、局部控制文本生成和句子模擬任務中優於標準的句子可變編碼器。

下圖是一組草稿句子和修改後句子的對比,有顯著的不同,並且保持了高質量

社交網絡上的評價

論文公布並經過轉推擴散開來後,許多研究者都在推特上表示了對這篇論文的認可

(Percy Liang實驗室帶來的聰明的句子生成方法:從語料庫中的例子開始,學習加上有模有樣的變化)

(下面網友說:「這看起來很像我學英語的方法」)

相關焦點

  • 先打草稿可以生成更高質量的文本,Percy Liang新論文廣受讚譽
    近期,Percy Liang團隊的一篇新論文提出了一種新的文本生成新方法,「Generating Sentences by Editing Prototypes」(用修改草稿的方式生成句子),這個方法不僅符合直覺,生成的效果也非常好,引起了很多研究者的注意和讚譽。以下雷鋒網 AI 科技評論對這篇論文做簡單介紹。論文內容
  • 關於AI文本生成動畫模型的論文
    近日,迪士尼研究所和羅格斯大學的科學家共同發表了關於AI文本生成動畫模型的論文。 研究人員表示,這種算法只要在輸入的文本中描述某些活動即可,不需要注釋數據和進行大量訓練就能產生動畫。 這篇論文中,研究人員進一步提出了端到端模型,這種模型可以創建一個粗略的故事版和電影劇本的視頻,用來描繪電影劇本中的文字。
  • 文本也有攻防戰:清華大學開源對抗樣本必讀論文列表
    Jia 和 Liang 首先考慮在深度神經網絡中採用對抗樣本生成(或者「對抗攻擊」,兩者皆可)方法完成文本處理相關任務。他們的研究在自然語言處理社區很快獲得了研究方面的關注。然而,由於圖片和文本數據內在的不同,用於圖像的對抗攻擊方法無法直接應用與文本數據上。首先,圖像數據(例如像素值)是連續的,但文本數據是離散的。
  • AI攢論文指日可待?Transformer生成論文摘要方法已出
    事實上,以上你看到的摘要內容都不是人類完成的,它是由論文中的機器學習模型寫出來的。這是來自 Element AI 的研究者最新公布的研究成果,他們使用了一種類似 GPT 的方法生成了相關研究論文的摘要。文本摘要是 NLP 中的常見任務了。文檔摘要如果能做到很好,可以極大程度減輕文字工作者的工作量,快速提煉文本核心內容,加速文本信息的提取、閱讀和生產效率。
  • 文本生成哪家強?上交大提出基準測試新平臺 Texygen
    項目地址: https://github.com/geek-ai/Texygen 論文:https://arxiv.org/abs/1802.01886上海交通大學、倫敦大學學院朱耀明, 盧思迪,鄭雷,郭家賢, 張偉楠 , 汪軍,俞勇等人的研究團隊最新推出Texygen,這是一個支持開放域文本生成模型研究的基準平臺。
  • EMNLP 2017上,Percy Liang 有哪三篇論文被收錄?
    今年 EMNLP 共接受論文 323 篇,其中 216 篇為長論文,107 篇為短論文。最佳論文名單已經公布,詳見此前報導:EMNLP 2017 最佳論文揭曉,「男人也愛逛商場」獲最佳長論文。雷鋒網了解到,著名華人 NLP 學者、史丹福大學副教授 Percy Liang,共有三篇署名論文被 EMNLP 2017 收錄:《Macro Grammars and Holistic Triggering for Efficient Semantic Parsing 》作者:Yuchen Zhang, Panupong
  • 谷歌大腦AI實現文本摘要生成
    Transformers架構,並結合了為生成抽象文本量身定做的預訓練目標。根據研究人員的說法,Pegasus 生成的文本摘要不論在流利性還是連貫性上都質量很高,不再需要額外的糾正流利度之類的舉措。此外,在僅有100篇示例文章的低資源環境下,它生成的摘要質量可與在2萬至20萬篇完整數據集上進行培訓的模型相媲美。值得注意的是,當AI能夠理解一段話的意思,其應用領域將不僅限於文本摘要,還可能給多個行業帶來變革。
  • LaTex如何生成美賽論文
    繼上篇推文對美賽排版利器LaTex的科普,小競這次要為大家介紹LaTex在美賽中生成論文的具體操作啦。圖1  LaTex在美賽中的運用圖1基本概括了運用LaTex編譯一篇美賽論文需要進行的主要操作,考慮到排版樣式、參考文獻可以借鑑網絡上優秀的美賽模板,較為簡單,小競在這篇推文中主要為大家介紹如何運用LaTex進行文本、數學公式、文檔元素的編譯。文本是排版的基礎。
  • 如何讓對抗網絡GAN生成更高質量的文本?LeakGAN現身說法:「對抗中...
    上海交通大學俞勇教授、張偉楠助理教授及學生郭家賢、盧思迪、蔡涵聯合UCL計算機系汪軍教授共同完成的論文「Long Text Generation via Adversarial Training with Leaked Information」(通過有信息洩露的對抗性訓練生成長文本)中,他們就對長句子的文本生成這個問題進行了研究,找到了答案,提出了行之有效的方法,為對抗網絡廣泛用在機器人問答,自動生成新聞
  • 哈工大SCIR助理研究員馮驍騁:面向結構化數據的文本生成技術研究...
    而文本生成技術就是實現這些成就的關鍵。文本生成,按照不同的輸入劃分,可以分為文本到文本的生成、意義到文本的生成、數據到文本的生成以及圖像到文本的生成等;具體任務形式也十分多樣,包括自動文摘、對話生成、風格遷移、結構化數據描述生成等。這些任務之間既存在一些任務驅動的特殊表示和規則,也包含相對通用的技術路線和方法。
  • 哈工大SCIR助理研究員馮驍騁:面向結構化數據的文本生成技術研究 |...
    而文本生成技術就是實現這些成就的關鍵。文本生成,按照不同的輸入劃分,可以分為文本到文本的生成、意義到文本的生成、數據到文本的生成以及圖像到文本的生成等;具體任務形式也十分多樣,包括自動文摘、對話生成、風格遷移、結構化數據描述生成等。這些任務之間既存在一些任務驅動的特殊表示和規則,也包含相對通用的技術路線和方法。
  • 基於層次過濾的文本生成
    >目前文本生成最常用的算法基於 fully autoregressive 模型,比如 RNN 和 transformer。在 fully autoregressive 模型中,生成下一個詞的概率取決於之前所有的詞。給定一個 fully autoregressive 模型,文本生成通常使用 beam search 從左到右搜索概率最大的句子。但由於 beam search 是一個順序的過程,我們無法在 GPU 上進行並行加速。
  • 基於Conditional Layer Normalization的條件文本生成
    可如果是有條件生成呢?比如控制文本的類別,按類別隨機生成文本,也就是 Conditional Language Model;又比如傳入一副圖像,來生成一段相關的文本描述,也就是 Image Caption。
  • 疫情之下公益援助走進建昌 長頸鹿英語廣受讚譽
    校外教育培訓本來是一個剛需市場,但受疫情持續影響,不少機構都面臨著經營困境。不僅中小教育機構處於生死存亡期,很多品牌連鎖機構也無法避免受到衝擊,既定的很多教育項目和關聯市場也正面臨著前所未有的挑戰,整個行業都面臨著巨大的困境。疫情之下,教育培訓機構如何持續獲得家長和市場信任,是整個行業面臨的難題。
  • 四篇AAAI 2020論文,解讀微信大規模跨領域文本內容建模研究
    據機器之心了解,在近期召開的 AAAI 2020 中,微信數據質量團隊共計入選 4 篇研究論文,包含文本分類、強化學習、遷移學習等領域,包含文本分類、強化學習、遷移學習等領域,其核心算法已經用在微信看一看,搜一搜等應用裡面。本文對此四篇論文的核心內容進行了介紹。1.
  • 還是議論文
    到了認知智能這個階段,我們都希望它可以有智商、有情商、能夠進行自我表達,所以表達生成也是智能當中很重要的部分。   文本生成廣受關注   文本生成是指期待未來有一天計算機能夠像人類一樣會表達,能夠撰寫出高質量的自然語言文本。在文本生成中,我們有很多任務。
  • ACL 2018 公布四篇最佳 demo 候選論文,三篇論文第一作者來自中國
    最佳 demo 論文CRUISE: Cold-Start New Skill Development via Iterative Utterance GenerationCRUISE:基於迭代語料生成的冷啟動新技能開發論文摘要:我們提出了 CRUISE
  • 北京地區廣受關注學術論文系列報告會首次舉辦——十位論文作者與...
    本屆學術月首次推出北京地區廣受關注學術論文系列報告會。報告會展示出首都科技工作者良好的學術風採和精神風貌,以一場學術盛筵向祖國70華誕獻禮。北京市科協黨組書記馬林同志指出,北京地區廣受關注學術論文報告會是北京科技界向祖國70周年大慶獻上的一份禮物。科協系統深化改革、落實經理學術實踐兩年來,學會對科技工作者的吸引力和凝聚力大大增強、科技工作者高昂的學術熱情和科研產出空前高漲。在此基礎上,市科協重整行裝再出發,在第22屆北京科技交流學術月期間,首次推出北京地區廣受關注學術論文系列報告會。
  • NAACL 2019 | 怎樣生成語言才能更自然,斯坦福提出超越Perplexity的評估新方法
    但是這種基於統計的方法並不能很好地評估生成質量,因此本文提出一種新的評估方式 HUSE,它為自然語言生成提供了結合人類和統計評估的新架構。怎樣度量生成的語言生成文本是很多 NLP 任務的核心,但如何恰當地評估生成語言的「自然性」是很有難度的。
  • 如何寫一篇高質量的論文?
    導師讀過無數篇論文,同學們想要寫一篇高質量的論文來受到導師的青睞,其實是件不容易的事情。如果任何一位學生的論文都受到導師專家的好評,並且內容獨特,創新,詳實,那絕對是優秀的論文。寫一篇論文,首先除了要用到你平時積累的知識,其次還要通過論文查重系統的檢測。