本文首發於微信公眾號:競爭情報雜誌 ;作者:上海圖書館金暘;
隨著時間推移,新冠病毒(COVID-19)對人類的影響與日俱增,有關COVID-19的新科學論文也在不斷增長。據統計,自2020年1月以來發表的COVID-19文獻已超過2.3萬篇,而且每20天就翻一番。這已經成為數量最多的文獻之一。
然而,一些問題也伴隨而來。首先,多達20%的新論文仍處於付費模式之下,這一比例到6月可能會增長到50%;與此同時,一些新的搜索工具在創建它們的研究團隊之外鮮為人知;最重要的是,人們傾向於在論文中過度使用哪些並不支持他們的結論的數據。
針對這些問題,數百個團隊正試圖進行文獻清理工作以更好地利用這些文獻,他們主要用到了兩種方法:
1、編輯出版易於獲取的文集,包括一些精心策劃的文集,旨在突出優秀的論文;
2、開發使用人工智慧(AI)技術的自動化搜索工具來消除噪音。
3月16日,美國白宮科技政策辦公室(White House Office of Science and Technology Policy)推動創建COVID-19文獻庫,該辦公室與出版商和科技公司合作,發布了名為CORD-19的數據集,被認為是迄今為止最大的單一數據集。它擁有超過59 000篇已發表的文章和預印本,包括可追溯到20世紀50年代的冠狀病毒研究。
圖1:CORD-19官網界面 (https://www.semanticscholar.org/cord19)
建立檔案
為了建立檔案,一些活躍在機器學習領域的大型組織開始工作。谷歌(Google)、陳˙扎克伯格倡議(Chan Zuckerberg Initiative)和艾倫人工智慧研究所(Allen Institute for AI)與美國國立衛生研究院(National Institutes of Health,NIH)和其他組織合作,使用包括自然語言處理在內的方法識別和收集論文。自然語言處理研究的是文檔中編碼關鍵字以外的各種搜索詞和相關文本。
通過CORD-19數據集,研究人員可以免費下載開放論文,通過AI驅動獲得個性化的COVID-19研究建議,了解最新研究,提取重要文本信息,以及發現科學文獻中出現的概念之間的關聯等。
圖2:CORD-19的主要功能
開發工具
為了應對COVID-19論文的劇增,許多分析團隊轉向了先進的計算工具。自CORD-19數據集啟動以來,來自全球的數百個組織和數千人為開發有用的計算工具作出了貢獻。
例如,谷歌Cloud旗下的一個機器學習科學家在線中心Kaggle,正在呼籲全球的人工智慧專家採取行動,以開發文本和數據挖掘工具,這些工具可以幫助醫學界找到優先級最高科學問題的答案。Kaggle主持了一項COVID-19開放研究數據集挑戰賽,旨在激發社區尋找有關COVID-19大流行的新見解,包括病毒的自然歷史、傳播和診斷,以及以前的流行病學研究教訓等。
數據挖掘工作的早期成果之一是「AI支持的文獻綜述」。通過使用算法,研究人員從CORD-19數據集中17個類別的783篇論文中收集了感興趣的數據點,然後為每個主題創建一個顯示結果的網頁。例如,其中一頁顯示了有關心臟病作為COVID-19死亡風險因素的研究數據。用戶可以掃描一張表格,顯示每篇論文所報告的風險的概率,並可以點擊每篇論文的文本來了解更多,如圖3。
圖3:AI支持的文獻綜述 (https://www.kaggle.com/covid-19-contributions)
此外,由志願者驅動的全球研究組織CoronaWHY致力於幫助醫學界回答與COVID-19相關的關鍵問題。參與應對COVID-19的研究人員、臨床醫生和政策制定者正在不斷尋找有關該病毒及其影響的可靠信息。
存在問題
阿姆斯特丹大學(University of Amsterdam)的文獻計量學研究人員喬瓦尼·科拉維扎(Giovanni Colavizza)稱,CORD-19的問世令人驚嘆,但他和他的同事也分析了數據集存在的一些不足。4月17日發表於bioRxiv上的預印本研究中指出,CORD-19數據集中60%以上的論文在標題、摘要或關鍵詞中都沒有提及創建者所使用的搜索詞(比如「冠狀病毒」和「SARS-CoV」這兩種病毒會導致嚴重的急性呼吸系統綜合症)。他指出,這意味著這些文章可能只是表面上與COVID-19有關。更重要的是,研究小組發現只有大約4萬篇論文有全文,而全文對於全面的數據挖掘是必要的。
更快的傳播速度可能會以犧牲研究質量為代價。很多文章只包含評論、協議和低質量的建模研究,沒有原創的發現;一些研究人員為了迅速公布他們的研究結果而發布了一些沒經過同行評審的預印本。根據Radboud大學Serge Horbach的研究,自大流行開始以來,發表有關COVID-19內容論文最多的14家醫學期刊從提交到發表的審稿周期縮短了一半,減少到了60天左右。
為此,約翰斯˙霍普金斯大學(JHU)的Grabowski團隊正在採取不同的方法來創建一個有用的COVID-19論文集,重點放在質量而不是數量上。該團隊於4月17日發布了2019年新型冠狀病毒研究概要(2019 Novel Coronavirus Research Compendium,NCRC),其中40位科學家梳理了相關文獻,選擇了80多篇他們認為超出標準的論文,涉及8個主題,包括疫苗和藥物幹預,寫了簡短的總結。
圖4:2019年新型冠狀病毒研究概要(NCRC) (https://ncrc.jhsph.edu/)
NCRC工作的重點是研究人類,目標讀者主要是衛生保健工作者、決策者以及研究人員,團隊正試圖填補太多的信息之下不完備的研究造成的空白。
此外,眾多工具也沒有實現完全的自動化。算法並不總是正確地從表格中提取出相關的數據點,所以醫學院學生和其他志願者一直在核對每個人的手稿,以確保準確性。
隨著COVID-19相關文獻持續不斷的增長,新信息的數量令人生畏。傳統的數據工具已經不能滿足相關研究在速度和質量上的要求。事實上,諸如CORD這樣的嘗試,萬變不離其宗的原理正是情報學領域的機器學習和文獻計量等方法,這些創新正在改變整個世界的科研習慣。目前,許多新型的數據挖掘工具尚未被科學家所熟知,這些工具是否能準確識別關鍵的論文信息,還有待未來的實踐來檢驗。
*註:本文部分觀點編譯自 Jeffrey Brainard的Scientists are drowning in COVID-19 papers. Can new tools keep them afloat?一文。
您還可以通過以下方式獲得更多精彩內容
微信公眾號:競爭情報雜誌
新浪微博:@中國競爭情報
《競爭情報》歡迎投稿
投稿官網:www.ci1st.org