某搜尋引擎的論文總結工具可以使瀏覽論文變得更簡單。
某科研搜尋引擎的開發者推出了一款可以自動用一句話概括論文的軟體,他們說該軟體可以幫助科學家更快地瀏覽論文。
這款免費工具可以生成團隊稱之為TLDR(網絡流行語「Too long, didn’t read」的首字母縮寫)的一句話總結,近日已在非營利性的艾倫人工智慧研究所(AI2)開發的搜尋引擎Semantic Scholar上線。目前,該軟體只適用於Semantic Scholar收錄的1000萬篇計算機科學論文,但是再過一個月左右,等軟體調試完畢後,它也將適用於其他學科論文,艾倫人工智慧研究所Semantic Scholar工作組負責人Dan Weld說。
Weld說初步測試顯示,該軟體能讓讀者以比瀏覽標題和摘要更快的速度梳理搜索結果,尤其是在手機上,「大家看起來挺喜歡它的。」
科研搜尋引擎Semantic Scholar的TLDR工具可以用一句話總結計算機科學論文。來源:Agnese Abrusci/Nature
4月,arXiv預印本伺服器首先發布了描述該軟體的論文,11月在一場自然語言處理大會上經過同行評議後,論文已被接收發表。研究人員已經免費公開代碼和演示網站,任何人都可以試用。
「我預計未來這種工具將成為學術檢索的標配。事實上,考慮到這方面的需求,直到現在才看到這種工具面世,讓我挺詫異的。雖然它不完美,但是方向絕對是對的。」華盛頓大學的信息科學家Jevin West說,他應《自然》的請求,對該軟體進行了測試。
Semantic Scholar的搜索結果附帶TLDR總結,圖為智慧型手機視圖。來源:Semantic Scholar
Weld開發TLDR軟體的靈感有一部分來自他的同事,這些同事會用一些精煉的語句在推特上介紹論文。和其他語言生成軟體一樣,這種工具採用的是經過大量文本訓練的深度神經網絡。該團隊收錄了上萬篇與標題匹配的研究論文,使神經網絡可以學習如何生成簡潔的句子。之後,研究人員對軟體進行了微調,並利用一套新的數據集進行訓練,數據集包含幾千篇計算機科學論文和相應的論文總結——部分由論文作者所寫,部分由一群本科生所寫。研究人員已經收集了另外16個領域的訓練實例,以提高軟體的性能;預計生物醫學論文的總結功能會最先推出。
TLDR軟體不是唯一的科學論文總結工具:Paper Digest網站自2018年起就開始提供論文總結,但是它似乎只是從原論文中提取關鍵句子,而非生成新的句子,Weld說。TLDR可以從論文摘要、引言和結論中生成一句話——基於正文內的關鍵詞組,因此,這些總結完全以已經理解論文術語的專業讀者為目標。但是,Weld說他的團隊也在開發面向非專業讀者的論文總結生成軟體。
研究團隊還計劃把這項技術授權給出版商,拓展它們的服務範圍,為領域內的關鍵論文提供個性化研究摘要。「我們才剛剛達到AI技術生成的創新論文總結能夠為人所接受的這一步。」Weld說。