AI 軟體TLDR:可用一句話概括文章

2020-12-21 電子發燒友

AI 軟體TLDR:可用一句話概括文章

學術頭條 發表於 2020-11-27 17:00:50

摘要在一篇文章中有著至關重要的作用,它濃縮了整篇文章的精華,可以讓你快速了解該篇文章的研究背景、研究意義和研究亮點,進而決定了你是否會點開這篇文章仔細閱讀。

如果摘要太長或者邏輯混亂,就會失去它讓人快速瀏覽的意義,很有可能讓人忽略掉一篇正文內容還不錯的文章。那麼,是否可以在摘要的基礎上進一步提煉,用一句話概括文章?

答案是:AI 可以做到。

近日,一款科學搜尋引擎在其官網上就推出了這樣一款 AI 軟體——TLDR,即「太長了,沒有讀」(too long,didn’t read)的意思,該軟體可以自動生成研究論文的一句話總結。這款軟體的開發者認為,這樣可以幫助研究人員更快地瀏覽論文,減少閱讀摘要的時間。

TLDR 經常被用於網上關於科學論文的非正式討論(比如,Twitter 或 Reddit)。

本周,這款軟體在華盛頓州西雅圖的非營利性艾倫人工智慧研究所(AI2)創建的搜尋引擎 Semantic Scholar 的搜索結果中開始上線使用。目前,該軟體只為 Semantic Scholar 所覆蓋的 1000 萬篇計算機科學論文生成一句話摘要。

AI2 管理 Semantic Scholar 小組的 Dan Weld 表示,他們目前正在優化 TLDR,預計一個月左右的時間後,TLDR 將陸續涵蓋其他學科領域的論文。

圖 | TLDR 與普通總結的對比 (來源:Semantic Scholar)

初步測試表明,該工具可以幫助讀者比查看標題和摘要的方式更快地整理搜索結果,特別是在手機上。

圖 | TLDR 在手機上的效果(來源:Nature)

介紹該軟體的預印本於 4 月 1 日首次發表在 arXiv 預印本伺服器上,並在 11 月舉行的自然語言處理會議上經過同行評審後被接收發表。研究人員免費提供了他們的代碼,以及一個測試 demo,任何人都可以嘗試使用。

圖 | 生成 TLDR 的測試 (來源:SCITDLR)

如何訓練 TLDR?

TLDR 本質上就是對科學論文的一種新的總結。Weld 創建 TLDR 軟體的靈感一部分來自於他的同事,其在 Twitter 上分享標記文章的活潑句子。與其他語言生成軟體一樣,該軟體是利用深度神經網絡,通過進行大量的訓練而生成。

圖 | TLDR 的介紹 (來源:arxiv)

為了訓練 TLDR,研究人員準備了 SCITLDR,這是一個多目標數據集,包含5411篇TLDR,覆蓋計算機科學領域的 3229 篇科學論文。

其中,訓練集包含 1992 篇論文,每篇論文都有一個「黃金」TLDR,也就是最佳 TLDR。開發集和測試集分別包含 619 篇和 618 篇論文,分別有 1452 個和 1967 個 TLDR。

通常情況下,總結數據集會假設一個給定文檔只有一個黃金總結,而 SCITLDR 與大多數現有的總結數據集不同。正如早期的摘要評估工作所證明的那樣,人類撰寫的摘要具有可變性。

將每篇論文只考慮一個黃金 TLDR 作為自動評估的基礎,可能會導致系統質量評估不準確,因為可能出現在 TLDR 中的內容可能具有很大的可變性。此外,為每份文件提供多個黃金摘要,可以進行更深入的分析和徹底的評估。

為了解決這個問題,SCITLDR 包含了從作者角度撰寫的 TLDR("TLDR-Auth")和從同行評審者角度撰寫的 TLDR("TLDR-PR")。

TLDR-Auth 可在各種在線平臺上獲得。在公開的科學評審平臺 OpenReview.org 上,作者提交其論文的 TLDR,為審稿人和其他感興趣的學者總結主要內容。學者們也會在Twitter 和 Reddit 等社交媒體平臺上分享 TLDR。

TLDR-PR 是將同行評審員已經仔細檢查了源論文後寫的評論中的總結重寫成 TLDR。為了完成這項任務,研究人員從華盛頓大學招募了 28 名計算機科學專業的本科生,他們有自我報告的閱讀科學論文的經驗。在接受一個小時的一對一寫作訓練並篩選後完成 TLDR 的寫作工作。

圖 | TLDR-Auth 和 TLDR-PR的對比(來源:arxiv)

圖 | TLDR-Auth 和 TLDR-PR的對比(來源:arxiv)

TLDR-Auth 和 TLDR-PR 即使包含相同的信息內容,也會有很大的差異。總的來說,TLDR-PR 總結的更為抽象。

引入 CATTS 對 TLDR 進行優化

CATTS(Controlled Abstraction for TLDRs with Title Scaffolding),這是一種簡單而有效的學習生成 TLDR 的方法,它可以在以上介紹的數據集訓練的基礎上進行補充訓練。該方法解決了兩個主要挑戰:(1) 訓練數據的大小是有限的;(2) 為了編寫高質量的黃金 TLDR,需要領域知識。

為了解決這些挑戰,研究人員提出使用科學論文的標題作為額外的生成目標。由於標題通常包含有關論文的關鍵信息,假設訓練模型生成標題將允許它學習如何定位論文中的突出信息,這些信息對生成 TLDR 也很有用。

通過多任務學習納入輔助腳手架任務之前已經研究過,用於改進跨度標註和文本分類 。與多任務學習類似,在帶有控制代碼注釋的異質數據上進行訓練已經被證明可以改善自回歸語言模型中的控制生成。

為了讓標題生成完成輔助 TLDR 生成的任務,研究人員提出用標題生成數據集洗牌 SCITLDR,然後分別用控制代碼 <|TLDR|> 和 <|TITLE|> 附加每個源。這使得模型的參數可以學習生成 TLDR 和標題。在生成時,適當的控制代碼被附加到源中。此外,上採樣特定任務可以被視為應用特定任務的權重,類似於多任務學習設置中的權重損失。

圖 | CATTS引入可視化(來源:arxiv)

對 TLDR 未來的期待

"我預測,在不久的將來,這種工具將成為學術搜索的標準功能。事實上,考慮到科研人員實際的需求,我很驚訝等了這麼長時間才看到它的實際應用。" 西雅圖華盛頓大學的信息科學家傑文 - 韋斯特(Jevin West)說,他應《自然》雜誌的要求測試了該工具。"雖然它並不完美,但它絕對是朝著正確方向邁出的重要一步。" 他說。

Weld 指出,TLDR 軟體並不是唯一的科學總結工具:自 2018 年以來,網站 Paper Digest 也一直提供論文摘要,但它似乎是從文本中提取關鍵句子,而不是生成新句子。

TLDR 可以從論文的摘要、引言和結論中生成一句話。它的摘要往往是根據文章文本中的關鍵短語建立起來的,所以它的受眾人群是已經了解論文行話的專業的科研人員。對於普通人來說,閱讀起來依舊存在一些難度。但 Weld 表示,該團隊正在努力為非專家受眾提供更為簡單易懂的升級版產品。

研究人員還計劃將該技術授權給出版商,並將其服務擴展到提供個性化的研究簡報,總結某個領域的關鍵論文。"我們只是到了人工智慧可以以人們可以接受的水平生成新穎的摘要的階段,"Weld 說。

責任編輯:xj

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 這個AI已經會一句話概括論文了
    某科研搜尋引擎的開發者推出了一款可以自動用一句話概括論文的軟體,他們說該軟體可以幫助科學家更快地瀏覽論文。 這款免費工具可以生成團隊稱之為TLDR(網絡流行語「Too long, didn’t read」的首字母縮寫)的一句話總結,近日已在非營利性的艾倫人工智慧研究所(AI2)開發的搜尋引擎Semantic Scholar上線。
  • 分享語文閱讀快速提技巧:學會簡要概括文章主要內容
    這裡是教育壹周刊,每日為大家分享教育車相關資訊,今天要給大家分享的內容有:分享語文閱讀快速提技巧:學會簡要概括文章主要內容。懂內容就是無論哪類文體,「粗讀法」都要求學生在看文體、找對象、標段落、歸段意後,能用一句話高度概括全文。
  • 不安裝Illustrator軟體也可以編輯AI文件,我是這樣做到的
    一般情況下,設計師都是使用矢量圖像格式,因為這種格式放大後不會失真,而AI是矢量圖像設計軟體adobe Illustrator中最常用的格式。但是,如果電腦中沒有安裝Adobe Illustrator軟體,就無法瀏覽AI文件,更不用說編輯它們了。如何在沒有Illustrator的情況下打開AI文件?
  • 人工智慧新軟體可生成一句話摘要
    TLDR軟體為科學搜尋引擎「語義學者」上的一篇計算機科學論文生成一句話摘要。圖片來源:Agnese Abrusci/Nature論文太長不想讀怎麼辦?一個軟體就可以搞定。據《自然》報導,一位科學搜尋引擎的創造者推出了一款軟體,可自動為研究論文概括生成一句話摘要,他們說,這有助於科學家更快地瀏覽論文。這個免費工具被創建它的團隊稱為TLDRs(「太長,沒讀過」的縮寫),已於日前在科學搜尋引擎「語義學者」上投入使用。「語義學者」是美國艾倫人工智慧研究所(AI2)創建的搜尋引擎。
  • 分別用一句話概括五位葉羅麗戰士的性格,王默的是她自己總結的!
    在劇中塑造了非常多的人物,至今也有了五位葉羅麗戰士,他們在辛靈的帶領下好好保護人類世界,其實每個戰士都有自己的特點,下面齊談君分別用一句話來總結一下五位葉羅麗戰士的性格特點,王默的是她自己總結的!齊娜的性格用一句話來總結就是:「我不敢跟你說話」這就話也透露了齊娜的自閉性格,不敢接近陌生人,看到陌生說話就會結結巴巴的。第四位戰士:建鵬建鵬這個孩子比較喜歡耍酷,如果非要用一句話來概括他的性格的話就是:「不打籃球的人生不完美」,建鵬是個非常喜歡運動的孩子,整天都是籃球不離手,作業可以不做,但是籃球一定要打,而且他的人生目標就是成為籃球明星。
  • AI筆刷-50款水彩花卉繪畫圖案
    大家好,這裡公眾號,Adobe軟體助手。這組漂亮的水彩花卉筆刷合集包括了19個手繪水彩畫筆、6個散點畫筆和25個圖案畫筆,將給您的作品一種手工製作的感覺。所有這些刷子的形狀都是可調的,您可以輕鬆創建靈活的手繪水彩花卉,編輯重塑和調整大小。這些矢量畫筆適用於列印和web項目,可用它們來製作名片、賀卡、請柬、博客等等。筆刷安裝教程往下拉!
  • 如何概括文章中人物性格特點
    在解答概括人物性格特點的問題時,很多同學概括得要麼不夠完整、要麼不夠準確。圖片來源於網絡表面上看,概括人物性格特點是一道閱讀題,但要是按回答閱讀題的思路去寫,很容易丟分。所以這樣的題,如果按寫作的角度去答題,答案就會非常明了。
  • 一句話就能概括12星座的人!
    【一句話概括12星座】白羊:孩子氣的強人。金牛:喜歡自然的感覺。雙子:用兩個自我看世界。巨蟹:月亮代表TA的心。獅子:最忠實熱情的朋友。處女:天生完美主義者。天秤:永遠在追求平衡。天蠍:徘徊在聖人與罪人之間。射手:追求絕對自由。摩羯:巔峰是永恆誘惑。水瓶:好奇的解謎者。雙魚:充滿神秘及智慧的靈魂
  • 如何用AI軟體繪製米老鼠?
    如何用AI軟體繪製米老鼠的耳朵?如何用AI軟體來繪製米老鼠的耳朵,這個過程比較繁瑣。我們分兩步來操作,先給大家講解一下。1.首先打開AI軟體,繪製出一個正圓,填充為黑色。如何用AI軟體繪製米老鼠的眼睛?今天小編來教大家如何繪製米老鼠的眼睛吧,繪製整個米老鼠太過繁瑣,先從眼睛開始。1.我們首先通過橢圓工具畫出一個橢圓,將橢圓旋轉一下,然後填充為肉色。2.之後按住Alt鍵,拖拽複製一個填充為白色。
  • 平面設計-AI軟體認識
    對於初學者來說,需要認識AI這款軟體,基礎常用的都有哪些功能需要設置和調整?RGB-網頁設計CMYK-印刷用AI做設計,不同階段進行保存,輸出後不能更改顏色。文件保存為ai格式,選擇cc文件自動嵌入;裁剪圖像會自動嵌入文件,圖像描摹,打開文件拓展名, pdf文件給客戶看稿用。
  • 概括類閱讀理解答題技巧:4點歸納法準確讓你總結,輕鬆讀懂文章
    小學語文期末考試,有一類閱讀題是必考的,那就是概括總結。這對大部分學生來說,難度有點大。文章明明看懂了,可是要組織語言去概括,不知道該怎麼說。明明是概括了文章的主要內容,可是老師只給了1分,到底是我理解錯了?還是答案有問題?同學們在學習語文的過程中,為什麼總是概括文章主要內容、總結中心思想、說說你的感受這一類閱讀理解主觀題呢?
  • 創建三維頭像只需一張自拍,AI 技術即將開啟 3D 社交時代?
    加州初創公司推出智能 3D 模型軟體 Loom.ai ,利用機器學習和計算機視覺技術,根據用戶 2D 平面照片,生成 3D 頭像。該公司表示,該技術能做到:口說無憑,我們來看看實際效果。開發者上傳了一幫名人的照片,給 Loom.ai 站臺。結果成了這個樣子:
  • 只需1 分鐘,這個網站用 AI 分離歌曲的人聲、伴奏和樂器聲
    將歌曲中的人聲和樂器聲分離是一件讓想使用音樂伴奏的人頭疼的事情,傳統的音樂製作軟體使用門檻較高,處理起來不光費時而且效果不一定好。糰子DanGo.ai(https://dango.ai/)——微博網友@無吔學生近期利用AI技術做的這個能分離音頻軌道的網站火了。在音樂分離這一領域,實際上已經有一些免費的AI工具。
  • AI軟體商C3.ai掛牌首日飆120%
    Business Insider、Yahoo Finance報導,過去曾數次在軟體創業公司企業獲致成功的億萬富翁Tom Siebel,曾創立客戶關係管理(CRM)程序商希柏系統軟體(Siebel Systems),並於2006年以60億美元賣給甲骨文(Oracle)。
  • 如果讓你用一句話概括下面的韓劇,鬼怪、星你、繼承者,最後一部...
    韓劇迷們看過的韓劇應該超級多了,如果讓你用一句話來概括以下的韓劇,你會說什麼? 《秘密花園》——不能說的秘密
  • AI筆刷-Ai專用閃閃發光的矢量畫筆
    大家好,這裡公眾號,Adobe軟體助手。您想給聖誕節主題項目一個轉折嗎?為婚禮邀請添加一些火花?完成情人節活動傳單嗎?這個Adobe Illustrator筆刷包-全部來自真實的資料-將幫助您實現獨特的,引人注目的設計。受到醒目的鉚釘,珠寶和亮片服裝和配飾的啟發,此包裝保留了材料的真實品質,並且超級易用。筆刷安裝教程往下拉!
  • 攻克雅思閱讀段落大意概括題的步驟和方法
    段落大意題英文名為List of Headings題,也叫做段落大意概括題,顧名思義就是為文章中每個段落選擇一個小標題來概括段落大意。回顧近幾年的雅思閱讀考試,雅思段落大意題一直是常考題。其主要考察學生的理解能力、概括能力和閱讀速度。對不少烤鴨來說,段落大意概括題一直是他們心中邁不過的一條坎,今天我們就來分析一下如何攻克段落大意題。
  • 一句話概括《如果歲月可回頭》,你更喜歡哪一句?
    現在,從不同的視角去審視這部劇,用一句話來概括劇中人通過兩年時間的兜兜轉轉領悟到的生活哲理。生活就是轉圈圈,不要輕易挖坑,因為保不齊那一天會掉進自己親手挖的坑裡。對於自己「被」離婚的事情,白志勇一直耿耿於懷。
  • 工程師開發AI「貓門」
    題圖來源:Pixabay 參考資料(可上下滑動查看) [1] AI-poweredcat door keeps pet from bringing home dead animals Retrieved August 27 2019from https://www.dailydot.com/debug/ai-powered-cat-door
  • ai換臉
    ai換臉 攝影圖像 大小: 11.70M