有關COVID-19的巨量文獻:如何挖掘,如何利用?

2020-07-04 上海圖書館

本文首發於微信公眾號:競爭情報雜誌 ;作者:上海圖書館金暘;

隨著時間推移,新冠病毒(COVID-19)對人類的影響與日俱增,有關COVID-19的新科學論文也在不斷增長。據統計,自2020年1月以來發表的COVID-19文獻已超過2.3萬篇,而且每20天就翻一番。這已經成為數量最多的文獻之一。

然而,一些問題也伴隨而來。首先,多達20%的新論文仍處於付費模式之下,這一比例到6月可能會增長到50%;與此同時,一些新的搜索工具在創建它們的研究團隊之外鮮為人知;最重要的是,人們傾向於在論文中過度使用哪些並不支持他們的結論的數據。

針對這些問題,數百個團隊正試圖進行文獻清理工作以更好地利用這些文獻,他們主要用到了兩種方法:

1、編輯出版易於獲取的文集,包括一些精心策劃的文集,旨在突出優秀的論文;

2、開發使用人工智慧(AI)技術的自動化搜索工具來消除噪音。

3月16日,美國白宮科技政策辦公室(White House Office of Science and Technology Policy)推動創建COVID-19文獻庫,該辦公室與出版商和科技公司合作,發布了名為CORD-19的數據集,被認為是迄今為止最大的單一數據集。它擁有超過59 000篇已發表的文章和預印本,包括可追溯到20世紀50年代的冠狀病毒研究。

有關COVID-19的巨量文獻:如何挖掘,如何利用?

圖1:CORD-19官網界面 (https://www.semanticscholar.org/cord19)

建立檔案

為了建立檔案,一些活躍在機器學習領域的大型組織開始工作。谷歌(Google)、陳˙扎克伯格倡議(Chan Zuckerberg Initiative)和艾倫人工智慧研究所(Allen Institute for AI)與美國國立衛生研究院(National Institutes of Health,NIH)和其他組織合作,使用包括自然語言處理在內的方法識別和收集論文。自然語言處理研究的是文檔中編碼關鍵字以外的各種搜索詞和相關文本。

通過CORD-19數據集,研究人員可以免費下載開放論文,通過AI驅動獲得個性化的COVID-19研究建議,了解最新研究,提取重要文本信息,以及發現科學文獻中出現的概念之間的關聯等。

有關COVID-19的巨量文獻:如何挖掘,如何利用?

圖2:CORD-19的主要功能

開發工具

為了應對COVID-19論文的劇增,許多分析團隊轉向了先進的計算工具。自CORD-19數據集啟動以來,來自全球的數百個組織和數千人為開發有用的計算工具作出了貢獻。

例如,谷歌Cloud旗下的一個機器學習科學家在線中心Kaggle,正在呼籲全球的人工智慧專家採取行動,以開發文本和數據挖掘工具,這些工具可以幫助醫學界找到優先級最高科學問題的答案。Kaggle主持了一項COVID-19開放研究數據集挑戰賽,旨在激發社區尋找有關COVID-19大流行的新見解,包括病毒的自然歷史、傳播和診斷,以及以前的流行病學研究教訓等。

數據挖掘工作的早期成果之一是「AI支持的文獻綜述」。通過使用算法,研究人員從CORD-19數據集中17個類別的783篇論文中收集了感興趣的數據點,然後為每個主題創建一個顯示結果的網頁。例如,其中一頁顯示了有關心臟病作為COVID-19死亡風險因素的研究數據。用戶可以掃描一張表格,顯示每篇論文所報告的風險的概率,並可以點擊每篇論文的文本來了解更多,如圖3。

有關COVID-19的巨量文獻:如何挖掘,如何利用?

圖3:AI支持的文獻綜述 (https://www.kaggle.com/covid-19-contributions)

此外,由志願者驅動的全球研究組織CoronaWHY致力於幫助醫學界回答與COVID-19相關的關鍵問題。參與應對COVID-19的研究人員、臨床醫生和政策制定者正在不斷尋找有關該病毒及其影響的可靠信息。

存在問題

阿姆斯特丹大學(University of Amsterdam)的文獻計量學研究人員喬瓦尼·科拉維扎(Giovanni Colavizza)稱,CORD-19的問世令人驚嘆,但他和他的同事也分析了數據集存在的一些不足。4月17日發表於bioRxiv上的預印本研究中指出,CORD-19數據集中60%以上的論文在標題、摘要或關鍵詞中都沒有提及創建者所使用的搜索詞(比如「冠狀病毒」和「SARS-CoV」這兩種病毒會導致嚴重的急性呼吸系統綜合症)。他指出,這意味著這些文章可能只是表面上與COVID-19有關。更重要的是,研究小組發現只有大約4萬篇論文有全文,而全文對於全面的數據挖掘是必要的。

更快的傳播速度可能會以犧牲研究質量為代價。很多文章只包含評論、協議和低質量的建模研究,沒有原創的發現;一些研究人員為了迅速公布他們的研究結果而發布了一些沒經過同行評審的預印本。根據Radboud大學Serge Horbach的研究,自大流行開始以來,發表有關COVID-19內容論文最多的14家醫學期刊從提交到發表的審稿周期縮短了一半,減少到了60天左右。

為此,約翰斯˙霍普金斯大學(JHU)的Grabowski團隊正在採取不同的方法來創建一個有用的COVID-19論文集,重點放在質量而不是數量上。該團隊於4月17日發布了2019年新型冠狀病毒研究概要(2019 Novel Coronavirus Research Compendium,NCRC),其中40位科學家梳理了相關文獻,選擇了80多篇他們認為超出標準的論文,涉及8個主題,包括疫苗和藥物幹預,寫了簡短的總結。

有關COVID-19的巨量文獻:如何挖掘,如何利用?

圖4:2019年新型冠狀病毒研究概要(NCRC) (https://ncrc.jhsph.edu/)

NCRC工作的重點是研究人類,目標讀者主要是衛生保健工作者、決策者以及研究人員,團隊正試圖填補太多的信息之下不完備的研究造成的空白。

此外,眾多工具也沒有實現完全的自動化。算法並不總是正確地從表格中提取出相關的數據點,所以醫學院學生和其他志願者一直在核對每個人的手稿,以確保準確性。

隨著COVID-19相關文獻持續不斷的增長,新信息的數量令人生畏。傳統的數據工具已經不能滿足相關研究在速度和質量上的要求。事實上,諸如CORD這樣的嘗試,萬變不離其宗的原理正是情報學領域的機器學習和文獻計量等方法,這些創新正在改變整個世界的科研習慣。目前,許多新型的數據挖掘工具尚未被科學家所熟知,這些工具是否能準確識別關鍵的論文信息,還有待未來的實踐來檢驗。

*註:本文部分觀點編譯自 Jeffrey Brainard的Scientists are drowning in COVID-19 papers. Can new tools keep them afloat?一文。


您還可以通過以下方式獲得更多精彩內容

微信公眾號:競爭情報雜誌

新浪微博:@中國競爭情報

《競爭情報》歡迎投稿

投稿官網:www.ci1st.org


相關焦點

  • 巨量觀察室|家居品牌如何謀增長?巨量引擎助推線上布局撬動新藍海
    家居品牌如何借勢"宅經濟",抓住行業發展新機遇?近來,敏華控股有限公司旗下的功能沙發品牌芝華仕頭等艙,為搶先布局線上渠道,挖掘品牌增長新可能,攜手巨量引擎開展了"我的宅家神器"挑戰賽,通過線上線下聯動玩法,將其"全民升艙日
  • Covid-19藥物治療的系統回顧和薈萃分析
    Covid-19藥物治療的系統回顧和薈萃分析 作者:小柯機器人 發布時間:2020/7/31 23:04:52 加拿大麥克馬斯特大學Reed AC Siemieniuk團隊對covid-19的藥物治療進行了生活系統回顧和網絡薈萃分析
  • Covid-19血清學檢測診斷準確性的系統回顧和薈萃分析
    為了確定Covid-19血清學檢測的診斷準確性,研究組在Medline、bioRxiv和medRxiv資料庫中檢索2020年1月1日至4月30日,關於Covid-19血清學檢測的文獻,並進行系統審查和薈萃分析。
  • 床旁診斷系統在COVID-19中的應用現狀—最新外文文獻翻譯
    2020年9月23日,美國食品和藥物管理局(FDA)針對COVID-19的血清(抗體)床旁診斷(POC)測試發布了緊急使用授權(EUA)。自2020年7月以來,某些實驗室被授權將Assure COVID-19 IgG/IgM快速測試設備用於緊急情況下的抗體診斷,以幫助鑑定患者是否攜帶SARS-CoV-2抗體,以此反應患者近期或曾感染過COVID-19。
  • Science:利用基因組流行病學準確追蹤英國COVID-19傳播鏈
    2021年1月15日訊/生物谷BIOON/---根據研究人員對英國第一波COVID-19大流行的5萬多個病毒序列的分析,SARS-CoV-2病毒在2020年初被引入英國的次數遠遠超過1000次。英國在2020年3月全國封鎖前引入的病毒譜系往往規模更大,地理分布更分散。
  • FB介紹如何利用AI檢測COVID-19假新聞和仇恨言論
    FB介紹如何利用AI檢測COVID-19假新聞和仇恨言論2020-05-13 15:57出處/作者:cnBeta.COM整合編輯:佚名責任編輯:zhaoyongyu1 在本周一發布的報告中,Facebook詳細介紹了如何使用人類事實檢查員(human fact-checkers)、版主和人工智慧結合的方式來更高效執行社區標準。
  • 從血液學角度如何審視COVID-19及其治療注意事項?
    從血液學角度如何審視COVID-19及其治療注意事項?目前,由2019新型冠狀病毒(SARS-CoV-2)感染導致的新型冠狀病毒肺炎(COVID-19)對大多數人而言已不再陌生,截至北京時間4月21日16:30,全球新冠肺炎確診病例以突破240萬。
  • 滄海取一粟:如何利用PMID快速定位PubMed文獻?
    PMID即PubMed Identifier,是PubMed文獻在PubMed中的唯一識別號,每個PMID號都對應著唯一一篇文獻。PMID顯示在文獻詳細信息頁面中摘要和關鍵詞的下面,如下圖所示:圖1. 引文界面中的PMID二、如何使用PMID進行單文獻和多文獻檢索?
  • 新冠病毒是如何工作的?
    covid-19病毒是人類最新的敵人。有人說,這種病毒「智商很高」。你瞧,它的致死率不高,但傳播力極強,甚至可以在不引起症狀的情況下傳播。所以,不論為了治療還是研製疫苗,我們都需要去了解它是如何工作的。從病毒學的角度看,病毒的傳播是一個環環相扣的過程,只要一個環節阻斷,就傳播不下去。那麼,covid-19病毒的傳播有哪些環節呢?
  • NASA超級計算機助力COVID-19研究
    美國國家航空航天局(NASA)正在發揮其超級計算能力的能力,以幫助解決關於COVID-19的一些最緊迫的問題,包括關於病毒如何與人體細胞相互作用的基礎科學、遺傳風險因素和潛在治療藥物的篩選。來自華盛頓哥倫比亞特區NASA總部的高端計算項目經理Tsengdar Lee表示:「這並非NASA的日常工作,但我們擁有超級計算機和專業知識,可以幫助COVID-19的研究人員充分利用超級計算能力。」超級計算機適合處理大量數據。對於NASA的常規項目而言,這意味著模擬地球周圍的空氣團和水的運動以研究地球的氣候,尋找系外行星,研究黑洞的行為或設計航空航天飛行器。
  • 9月10日空中課堂協和醫院李太生教授、曹瑋教授解析「COVID-19重塑...
    HIV和 COVID-19 對各自疾病進程有何影響;COVID-19/HIV 合併感染,ART方案如何選擇等等,讓我們帶著這些疑問跟隨中國醫學科學院北京協和醫院感染內科主任李太生教授、曹瑋教授一起探討「COVID-19重塑HIV管理:災難還是新視角?」 01.
  • 如何有效地跟蹤文獻
    相較於此,如何有效地跟蹤文獻卻非常少見。本文作者通過跟蹤目標期刊、跟蹤同行學者、跟蹤相關主題這三個層面10種方法,闡述了他是如何有效的跟蹤文獻。敬請閱讀。文/花曉波(日本京都大學在讀博士)  目前,網絡上有許多關於如何檢索、如何有效閱讀、如何高效管理科研文獻的文章。相比而言,介紹或討論如何有效地跟蹤文獻的文章並不多。
  • 【Economist】Covid-19 in 2020: The plague year
    Another reason to expect change—or, at least, to wish for it—is that covid-19 has served as a warning.
  • 【English Paradise】Chaguan: The stigma of covid-19
    -19 in Xicheng, a district of Beijing.At the time of writing, Beijing has detected 44 cases of covid in the past month, after millions of tests. For comparison, London is finding more than 8,500 new cases a day.
  • 如何最大限度利用潛意識挖掘自身的潛能?
    消極失敗的心態之所以會使人懦弱無能,走向失敗,是因為它使人放棄了對偉大潛能的挖掘,讓潛能在那裡沉睡,白白浪費;積極成功的心態之所以會使人心想事成,走向成功,是因為它使人能夠最大限度的利用潛意識,挖掘出自身的巨大潛能。人人都渴望成功,那麼,成功有無「秘訣」?回答是有的:成功者之所以能取得成功根本原因在於它能夠運用潛意識挖掘出自身無窮無盡的潛能。
  • 「老藥新用」對治COVID-19 —— 好處和挑戰
    Alan還談到了如何運用信息科學服務和人工智慧的方法幫助解鎖和重新分析大數據,以及如何利用已有的檢測和分析工作流解決方案來簡化對已有藥物和病毒感染生命周期的研究。問:圍繞COVID-19的疫苗研發,目前有很多報導,但我們也知道疫苗的研發可能需要相當長的時間,同時,「老藥新用」(重新利用現有藥物)被視為是一種潛在的解決方案。您能談一下企業可以如何開展這項工作嗎?
  • 如何寫好一篇文獻綜述?師兄給你劃重點
    文獻綜述包括兩種類型:一是純文獻綜述類的論文;二是學術論文組成部分的文獻綜述。本文所講的文獻綜述的寫作,主要是學術論文組成部分的文獻綜述。文獻綜述作為一篇文章的第一部分被稱為龍頭,萬事開頭難,是最難寫的,也是審稿專家最關注的地方。那麼,當你確定一個好的研究選題之後(可參考往期文章:如何進行論文選題?
  • 美國COVID-19疫苗研究最新進展
    疫苗臨床試驗中期結果前景良好: 獨立的數據和安全監控委員會(DSMB)負責監督研究性COVID-19疫苗mRNA-1273的三期試驗,該委員會於2020年11月15日審查了試驗數據,並與試驗監督小組分享了其中期分析。
  • Scientific American|對COVID-19的免疫實際上意味著什麼?
    近日FDA對針對SARS-CoV-2抗體的血清學檢測授予了「緊急使用授權」(SARS-CoV-2即導致COVID-19的病原體)。這是在醫學專家和政治領導人普遍將「群體免疫」視作COVID-19大流行的潛在終點的背景下,第一個獲得美國市場準入的血清學檢測項目。在科羅拉多,進行冠狀病毒抗體檢測的公司已向該州的聖米格爾縣捐贈了試劑盒,使得在當地所有人都可以進行檢測。
  • 如何利用SCI查詢文獻以及期刊影響因子
    本經驗將告訴大家應該如何使用該索引進行文獻搜索。首先,對於學校人員,學校通常都會購買此服務,凡是在校園網絡內登陸網站即可正常使用。點擊進入學校圖書館,如圖1所示,然後點擊右側的SCI即可進入。不同網站進入方式不同,大部分在主頁或者資料庫列表中都可以找到。之後就轉到了如圖1的界面。左邊的方框即是輸入搜索詞的位置。