21個國家377個全基因組分析:探究新冠病毒起源

2020-12-04 新智元

【新智元導讀】日前,Nature製作了5張新冠病毒可視化圖表,直觀展示疫情變化趨勢、科研人員發文速度等。西電李雁妮教授和北大劉兵教授等學者聯合發表了一篇關於新冠病毒全基因序列相似性的研究,涉及21個國家的377個COVID-19及相關病毒的全基因序列,離病毒溯源更進一步。

日前,Nature製作了關於這次新冠病毒疫情的五張圖表,以一種非常直觀的方式為我們呈現了病毒確診病例的變化趨勢、R0值對比、科研人員發布研究的速度、旅行限制對碳排放和空氣品質的影響、以及和2003年SARS相比的大流行情況等。

Nature可視化圖表:新冠病毒與SARS時間表對比,這次中國真速度

目前,全球已經有超24萬人感染新冠肺炎,中國境外確診已超過境內確診病例。第一張圖展示了中國和其他國家確診病例的變化趨勢,2月中旬後中國確診數放緩,其他國家3月開始陡增。

第二張圖展示了COVID-19與其他疾病R0值和致死率的對比。目前對COVID-19病死率的估計表明,新冠病毒的致死率低於其他大規模疫情的病原體,如SARS、MERS和伊波拉。但是這種感染似乎比季節性流感等其他疾病更容易傳播。新冠病毒的基本繁殖數R0值約2到2.5。

第三張圖展示了旅行限制對碳排放和空氣品質的影響。中國為控制疫情所做的努力似乎已經遏制了能源消耗和空氣汙染。NASA和歐洲航天局收集的衛星數據顯示,全國範圍內大氣中二氧化氮(NO2,是化石燃料燃燒過程中產生的)含量急劇下降。初步分析表明,農曆新年後的NO2汙染比往年同期減少了10–30%。

第四張圖是新冠病毒與SARS時間表對比。SARS疫情持續了三個月後才被確認為是一種獨特的疾病。然後,在接下來將近兩個月的時間裡,還在尋找病原體:病毒本身的鑑定和基因組測序主要來自中國以外的研究人員。

相比之下,在第一個已知的COVID-19病例發生三周後,中國已經通知世衛組織,出現了類似肺炎的病例激增。兩周後,這種冠狀病毒被分離出來,進行了基因測序,並開發出了一種診斷測試,為中國提供了所需的工具,並啟動了全球有史以來最大規模的傳染病遏制行動之一。

最後一張圖展示了新冠病毒相關研究隨時間的變化。這次疫情的爆發促進了對新冠病毒及其引起的疾病的大規模研究。截至3月12日,有關新冠病毒的論文、預印本和初步報告約有900篇。

接下來我們就和大家分享一個關於新冠病毒的新研究。

21個國家的377個全基因組序列,探究COVID-19病毒之間的相似性和進化關係

西安電子科技大學教授李雁妮等人和北京大學講席教授劉兵發表了一篇關於新冠病毒全基因序列相似性的研究,題為「Similarities and Evolutionary Relationships of COVID-19 and Related Viruses」(COVID-19與相關病毒的相似性及其進化關係)。

論文地址:https://arxiv.org/pdf/2003.05580.pdf

研究人員通過對377個COVID-19新冠病毒及相關病毒的全基因序列進行了相似性及進化關係的計算分析,得到了一些潛在有趣的結果,可能會對相關領域專家找到病毒的源頭、有效的檢測試劑、疫苗及治療藥物的研發等有所幫助。下面為大家解讀這篇研究。

摘要:

我們收集了377個公開發布的COVID-19病毒、先前已知的4種引起流感的冠狀病毒HCov-229E、HCov-OC43、HCov-NL63和HCov-HKU1以及致命的致病性P3/P4病毒:SARS、MERS、Victoria、Lassa、Yamagata、伊波拉和登革熱的全基因組序列。

本文作者利用他們最新研發的大序列數據分析工具I-MLCS、現有的MEGA 6.0系統和聚類算法,對來自21個不同國家的COVID-19病毒序列以及COVID-19病毒與其相關病毒的相似性和進化關係進行了計算分析。

圖1.數據來源和採樣/測序時間。

表1.不同月份的COVID-19病毒序列之間的平均相似度

相似性分析表明,兩株以菊頭蝠為宿主的COVID-19病毒(TG13和 RaTG13)與以人為宿主的COVID-19病毒有很高的相似度,但以穿山甲為宿主的病毒與以人為宿主的病毒平均相似度更高一些。進化關係分析表明:來自5個國家所測序的約13株COVID-19病毒很可能與第一代COVID-19病毒及其起源有關,或可能引導研究人員找到該病毒源頭

劉兵教授還透露,他們對表1中的相似性進行了統計測試,發現病毒在過去四個月中經歷了具有統計意義的顯著突變,這使得開發好的疫苗更加困難。

介紹:

自2019年12月以來,嚴重的新冠病毒COVID-19所引發的肺炎疫情從武漢迅速蔓延到全國,據中國CDC(中國疾病控制中心)報告:截止2020.3.8號,中國已累計確診病人80868人,累計死亡病例3101人,更為嚴重的是,目前該疫情已在世界100多個國家或地區爆發蔓延。因此,有效地控制與扼制新冠病毒COVID-19疫情、治癒感染病人、免受由疫情所帶來的巨大經濟損失是當前世界面臨的最緊迫與重要問題。

本文報告了作者對新冠病毒COVID-19全基因序列(以下簡稱序列)本身,以及COVID-19病毒序列與其它相關病毒序列之間的相似性與進化關係的計算及分析。

由於新冠病毒COVID-19是一種新型病毒,對它的研究才剛剛開始。不同於現有的研究,本文工作是一種大規模的新冠病毒COVID-19及相關病毒的全基因序列的比較計算研究,共涉及了來自21個國家的377個COVID-19及相關病毒的全基因序列。更重要的是,作者首次對這377個病毒的全基因序列進行了相似性及同源/進化分析。正如本文將要呈現的,這種大規模的對COVID-19及相關病毒的全基因序列的深度計算與挖掘,將揭示COVID-19及相關病毒間的一些重要關係與發現。

本文工作中,作者共收集了公開發布的215個COVID-19全基因序列(包括:宿主為人的194個序列、宿主為菊頭蝠的13個序列、宿主為穿山甲的6個序列,以及宿主為環境的2個序列),已有的四種流感冠狀病毒HCov-229E (3個) , HCov-OC43 (78個), HCov-NL63 (16個) 和 HCov-HKU1 (4個), 以及7種高致病致命的7種 P3/P4病毒, SARS (11個)、MERS (11個)、Victoria (5個)、 Lassa (6個)、Yamagata (5個)、Ebola (11個)和Dengue (12個),以上序列總計377個。本文的序列數據來源於以下資料庫:GenBank or NCBI[7] (National Center for Biotechnology Information), GISAID[8] (Global Initiative on Sharing All Influenza Data), CDC[9](Center for Disease Control and Prevention)等,序列的平均長度為3萬左右

由於新冠病毒COVID-19肺炎的發病機理、病毒檢測、疫苗與治療藥物的研發等,在很大程度上決取於對COVID-19全基因序列的分析研究,因此,本文研究將會為生物、醫療與健康領域的相關專家們,在追溯COVID-19病毒的起源、傳播路徑、研發有效的檢測試劑、疫苗與治療藥物,以及有效地控制與扼制該疫情提供有價值的決策信息/數據支持。值得注意的是,這項工作是COVID-19全基因序列及相關病毒序列的一個大規模計算與挖掘研究,我們目的並非為了獲得廣泛的生物學解釋,除了一些最低限度的,而是擬從大序列數據的比對計算中,分析與挖掘出可能有價值的信息。

圖2.四種流感冠狀病毒與以人為宿主的COVID-19之間的平均相似度。

圖3. COVID-19與七種致命的致病性P3 / P4病毒序列之間的平均相似度。

圖4.不同宿主中COVID-19病毒序列之間的平均相似度。

這項工作的核心發現(所有的分析都只使用完整的基因組序列):

1. 通過對過去4個月來(2019.12~2020.3 )所收集的194個以人為宿主的新冠病毒COVID-19全基因序列的相似性分析結果表明:序列間具有平均高達99.8%的相似度;採用MEGA 6.0對它們的同源/進化關係分析表明:來自不同國家的新冠病毒COVID-19已發生了一定程度的變異

2. COVID-19與已知的四種流感冠狀病毒(HCov-229E, HCov-OC43, HCov-NL63和HCov-HKU1)的相似度在55.6%~56.1%之間,它表明:新冠病毒COVID-19與已知的四種流感冠狀病毒不同

3. 以人為宿主的新冠病毒COVID-19與高致病與致命的P3/P4病毒中的SARS和MERS最像,與SARS的平均相似度達到82.6%,並且MEGA 6.0計算結果報告:COVID-19與SARS同源

4. 以人為宿主的新冠病毒COVID-19序列與宿主為穿山甲的COVID-19序列相似度高於以宿主為菊頭蝠的COVID-19序列相似度,其平均相似度差值達13%~20%。但有兩株以宿主為菊頭蝠的COVID-19序列(TG13和RaTG13)除外,病毒株TG13和RaTG13與人為宿主的新冠病毒COVID-19序列的相似度高達95.9%;

5. 宿主為人的新冠病毒COVID-19序列與宿主為環境的COVID-19序列的相似度高達99.7%,且兩者為同源關係

6. 採用MEGA 6.0對來自21個國家的共計194個宿主為人的新冠病毒COVID-19序列同源進化關係的計算結果表明:來自5個國家的13株病毒序列,即:中國(China 7/85)、泰國(Thailand 2/2)、日本(Japan 2/9)、美國(USA 1/32)和韓國(South Korea 1/9)極有可能相關於,或導致我們找到第一代病毒或病毒源。值得注意的是,由於存在世界範圍內的旅行,本文決沒有上述來自5個國家的13株病毒序列一定/可能是病毒源國之意,僅表明,這13株病毒序列為我們可能追溯查找到第一代病毒或病毒源提供了必要有價值的線索。

圖5.第一代COVID-19毒株的國家、序列號和測序日期。

圖6.來自21個國家的21個COVID-19病毒株的兩棵進化樹(每個國家一個毒株)。

圖7.圖5中21個COVID-19毒株的進化樹。

圖8.15種病毒的相似度矩陣。

圖9. 15種病毒的全連接加權圖和聚類結果。

圖10.兩個病毒簇的兩棵進化樹。

「COVID-19與相關病毒的相似性及其進化關係」研究作者簡介

李雁妮,博士,教授,計算機科學與技術、軟體工程學科博士/碩士生導師。分別於1981、2005和2013獲西安電子科技大學計算機應用學士學位、軟體工程碩士學位和計算機應用技術工學博士學位。2017年9月~12月在美國伊利諾伊大學芝加哥分校做高級研究訪問學者;2019年4月~9月在加拿大尼皮辛大學做高級研究訪問學者。目前主要研究領域為:大數據分析、機器學習與多目標優化等基礎理論與應用。以第一作者撰寫專著二部,其中,《C++程序設計語言》獲國家「十.一五」規劃教材、國家普通高等教育精品教材。近年來,在研究領域上以第一作者身份發表SCI/頂級會議論文20餘篇,並主持或作為主要成員完成縱向/橫向項目10餘項。作為主要參加人,項目《複雜數據管理理論與關鍵技術》,獲2019年陝西省教育廳科技進步一等獎,項目《非結構化數據管理與挖掘關鍵技術及應用》獲2019年陝西省自然科學二等獎。

劉兵(Bing Liu)現為北京大學的講席教授(目前從伊利諾伊大學芝加哥分校(UIC)休假),為ACM Fellow、AAAI Fellow和IEEE Fellow。從愛丁堡大學獲得人工智慧專業博士學位,研究領域主要包括:終身機器學習、情感分析、數據挖掘、機器學習和自然語言處理等。在國際頂級會議/期刊發表了大量學術論文,撰寫專著4部,Google Scholar Citation達60000以上。其中2篇論文獲得KDD Test-of-Time獎, 1篇論文獲WSDM Test-of-Time獎, 1篇論文獲WSDM Test-of-Time榮譽獎(honorable mention)。他的開創性研究工作被媒體廣泛報導,包括紐約時報的首頁文章。 獲2018 ACM SIGKDD創新獎。 於2013-2017年擔任ACM SIGKDD主席,並曾擔任多個頂級數據挖掘會議的程序主席,包括KDD,ICDM,CIKM,WSDM,SDM和PAKDD。同時擔任多個頂級期刊的副編輯,包括TKDE, TWEB, DMKD和TKDD,以及多個自然語言處理、人工智慧、網絡和數據挖掘會議的領域主席或高級程序委員會成員。

相關焦點

  • 21個國家377個全基因組分析:探究新冠病毒起源,重大突變及進化關係
    日前,Nature製作了5張新冠病毒可視化圖表,直觀展示疫情變化趨勢、科研人員發文速度等。西電李雁妮教授和北大劉兵教授等學者聯合發表了一篇關於新冠病毒全基因序列相似性的研究,涉及21個國家的377個COVID-19及相關病毒的全基因序列,離病毒溯源更進一步。
  • 21個國家的377個全基因組序列,探究COVID-19病毒之間的相似性和...
    摘要:我們收集了377個公開發布的COVID-19病毒、先前已知的4種引起流感的冠狀病毒HCov-229E、HCov-OC43、HCov-NL63和HCov-HKU1以及致命的致病性P3/P4病毒:SARS、MERS、Victoria、Lassa、Yamagata、伊波拉和登革熱的全基因組序列。
  • ...標本進行新冠病毒全基因組高通量測序和序列分析。21日測序分析...
    2020-11-22 09:37:37來源:FX168 【天津瞰海軒小區19號樓確診病例測序分析結果公布:與本土第3例無症狀感染者病毒序列一致】11月18日至21日,天津市疾病預防控制中心對本土第5例無症狀感染者康某某、第141例確診病例申某及第144例確診病例楊某呼吸道標本進行新冠病毒全基因組高通量測序和序列分析。
  • 從「五個家族」到「兩個亞型」 新冠病毒變了嗎?
    (抗擊新冠肺炎)從「五個家族」到「兩個亞型」  新冠病毒變了嗎?  中新社北京3月4日電 題:從「五個家族」到「兩個亞型」 新冠病毒變了嗎?  中新社記者 張素  從被比喻為「五個家族」,到被分析出「兩個亞型」,連日來圍繞新冠病毒的諸多研究背後是一個核心問題:新型冠狀病毒變了嗎?
  • 俄專家:新冠病毒突變情況支持病毒為自然起源
    俄羅斯科研人員日前報告說,他們分析了新冠病毒的突變情況,結果支持新冠病毒是自然起源的觀點。資料圖 方非 攝據塔斯社日前報導,俄羅斯科學院信息傳輸問題研究所的亞歷山大·潘欽等人在美國《同行評議科學雜誌》上撰文說,他們分析了不同國家對新冠病毒基因組測序所得的1000多套數據,發現了1251處鹼基突變,其中許多地方的鳥嘌呤被替換為尿嘧啶。潘欽在媒體上表示,如果蝙蝠是新冠病毒的自然界宿主,那麼蝙蝠細胞和新冠病毒能「和平共處」,病毒在蝙蝠體內突變較少。
  • 疑似病例完成新冠病毒全基因組分析僅需半小時—新聞—科學網
    當前,針對新型冠狀病毒的主要檢測技術有免疫、PCR和高通量測序(NGS)三類,其中免疫和PCR方法是一種定向檢測,可以對病毒進行篩查,適合對患者標本中是否存在病毒進行診斷
  • 新冠病毒到底是從哪裡起源的?
    在這個月的《巡山報告》中,他想和你討論一個被很多人關注的問題:新冠病毒到底是從哪裡起源的?歡迎你查看下面的文章。比如,我們從三個患者身上分離出了新冠病毒,通過檢測病毒的基因序列,發現患者1身上的病毒有基因突變X,患者2身上的病毒有基因突變X和Y,患者3身上的病毒有三個基因突變——XYZ。那麼,一個最簡單的推測就是,病毒的傳播應該是1早於2、2早於3,並且它們在這個過程中逐漸積累了更多的基因突變。
  • 阿根廷發現新冠病毒突變,將對變體進行全基因組測序
    阿根廷機構間SARS-CoV-2基因組項目的專家對檢測到的並命名為S_E484的變體進行了分析,預計將對其進行全基因組測序,以求證其與一些受關注的新冠病毒變體之間的關係,主要是英國的變體,研究表明,英國變體具有更大的傳染性。目前,世界上已經發現了四種新冠病毒變體。
  • 基因組分析顯示:新冠病毒難長存
    新冠病毒是否將徹底滅絕?不少專家認為,新冠肺炎可能轉化為一種慢性疾病,新冠病毒有可能在人體內長期潛伏,和人類長期共存。難道說我們真的要長期生活在新冠疫情的陰影之下?對此,南開大學生命科學學院副教授高山在接受科技日報記者採訪時表達了不同看法。
  • 北京大學團隊發現新冠病毒存在兩個主要譜系
    《國家科學評論》上,對新冠病毒基因組的演化動態進行深入研究和解讀。通過對新冠病毒和來自馬來穿山甲的冠狀病毒的核苷酸比較,推測新冠病毒與其分歧事件並非近期發生,也說明新冠病毒的起源可能更為複雜。陸劍課題組與崔傑課題組通過對當時公共資料庫中僅有的103個新冠病毒基因組全序列進行分子演化系統分析,首次發現依據兩個高度連鎖的突變位點(分別位於參考基因組的第8782和28144位),可以把新冠病毒主要分為「L」和「S」兩個譜系,因基因組28144位突變對應的胺基酸分別是亮氨酸(L)和絲氨酸(S)而得名。
  • PNAS:劍橋最新力作揭示新冠起源和傳播,不同地區新冠病毒存在顯著...
    目前,全球相關科研人員正在為病毒溯源而不懈努力、積極奮鬥著。我國早在1月10日就發布了新型冠狀病毒基因組全序列;1月23日,中國科學院武漢病毒所研究提出蝙蝠可能是新冠病毒的自然宿主;2月7日,華南農業大學等機構聯合發文,稱穿山甲是新冠病毒的潛在中間宿主;2月18日,香港大學、廣西醫科大學聯合發表文章,也認為穿山甲是潛在中間宿主之一。
  • 《科學》熱議:新冠病毒的遺傳物質會插進人的基因組
    原創 奇點糕 奇點網 收錄於話題#新冠病毒研究進展83個今天,《科學》雜誌報導的一項研究成果[1],再次引起了學術界和公眾對新冠病毒的關注。Jaenisch在分析了新冠病毒的歷史研究數據之後發現:存在新冠病毒片段與人基因組DNA融合的現象。他們隨後通過體外細胞系研究證實,基於人體內廣泛存在的LINE-1反轉錄轉座子或HIV感染者體內的HIV-1反轉錄酶,新冠病毒的部分核酸序列可以整合到人的基因組中。
  • 專訪新冠病毒變種報告第一作者:病毒起源說含三層意義,ABC三種類型...
    這份新冠病毒變種報告分析了從病患身上取得的前160份完整病毒基因組,得出新冠病毒通過突變產生的不同病毒譜系:全球的新冠病毒已經變異為A、B、C三種類型。其中較為原始的毒株A型與在蝙蝠身上發現的毒株最接近,而A型更常出現在美國和澳洲感染者身上,在武漢更常見的是從A型突變的B型毒株。另外,由B型變異而來的C型主要出現在歐洲。
  • 迄今最詳細分析:復旦張永振教授等《細胞》探討新冠病毒起源
    幾個月過去,隨著疫情發展,更多的病毒基因組被測序。目前公開發布的SARS-CoV-2基因組序列已經有200個左右,來自世界多個地區的患者。科學家們及時公布的病毒基因組序列數據,讓診斷測試得以快速發展,也為研發疫苗和抗病毒藥物奠定了基礎。
  • ...家:武漢絕不是新冠病毒源頭!病毒並非來自實驗室,而是自然產生的
    來 源丨央視新聞、新華社、中央紀委國家監委網站(李文峰)「新冠病毒不是在實驗室中構建的」根據科學雜誌《自然醫學》發表的證據分析表明,新冠病毒「不是在實驗室中構建的,也不是有目的性的人為操控的病毒」。△《自然醫學》文章截圖杜蘭大學醫學院教授羅伯特·加裡是該論文的作者之一,他認為目前陰謀論在網絡上風行,非常有必要利用整個團隊的力量來探究這種新型冠狀病毒的起源。研究人員研究發現:新冠病毒刺突蛋白與人體細胞的結合效率之高,通過基因工程無法達到,只有自然選擇才能實現。
  • 科學家如何看待新冠病毒的來龍去脈
    科學家需要經過流行病學調查、基因組分析、宿主(中間宿主和自然宿主)篩查認定、野外取樣、病毒分離株同源性研究以及最終的生物信息學分析認證等多個環節,才能追蹤到病毒的源頭。中國科學院微生物研究所研究員施一說,病毒溯源本身是科學問題。從病毒溯源科學研究全過程來看,這是一項科學難題,需要較長時間,需要各國科學家深入研究。
  • 探尋新冠病毒的「生物密碼」——北大生命科學學院陸劍課題組開展...
    通過對新冠病毒和來自馬來穿山甲的冠狀病毒的核苷酸比較,推測新冠病毒與其分歧事件並非近期發生,也說明新冠病毒的起源可能更為複雜。陸劍課題組與崔傑課題組通過對當時公共資料庫中僅有的103個新冠病毒基因組全序列進行分子演化系統分析,首次發現依據兩個高度連鎖的突變位點(分別位於參考基因組的第8782和28144位),可以把新冠病毒主要分為「L」和「S」兩個譜系,因基因組28144位突變對應的胺基酸分別是亮氨酸(L)和絲氨酸(S)而得名。
  • 不應過度解讀新冠病毒基因序列分析
    美國洛斯阿拉莫斯國家實驗室 (Los Alamos National Laboratory) 的生物學家Bette Korber也在研究新冠病毒的基因組,他說:「新冠肺炎是一種非常重要的疾病。我們需要了解它的傳播方式。在疫情暴發期間,病毒的進化非常有限,研究人員正在盡力分析,並提出建議,但是我認為眼下應當將這些說法視為建議,而不是定論。
  • @三亞 科學家如何看待新冠病毒的來龍去脈
    倫敦大學學院遺傳學研究所的研究團隊分析了來自全球新冠病毒感染者的超過7500個病毒基因組數據,發現新冠病毒20192月21日,中國科學院西雙版納熱帶植物園等機構研究人員發表論文,將全球四大洲12個國家的93個病毒樣本的基因組數據,與華南海鮮市場有關聯患者的數據做對比,發現很多衍生病毒基因形態來自華南海鮮市場之外,也再次印證了華南海鮮市場不是病毒起源地的觀點。2月24日發表在《世界衛生組織簡報》上的一份研究報告指出,病毒有三個分支變種,其中感染初始變種病毒的患者從未與華南海鮮市場有過任何接觸。
  • 新冠病毒變異?論文通訊作者等解讀《國家科學評論》相關論文
    其來源是3月3日發表於《國家科學評論》的論文《關於SARS-CoV-2的起源和持續進化》。但是,中國—世衛組織聯合考察組剛剛給出了新冠病毒未發生明顯變異的結論。《自然—微生物學》也發表了耶魯大學流行病學專家Nathan D. Grubaugh等人的評論文章,指出病毒突變符合正常流行病學規律,沒必要引起恐慌。那麼,上述論文應該如何解讀?