特別欄目之新型冠狀病毒(2019-nCoV)序列分析

2021-02-14 R語言交流中心

我們發現在GISAID 資料庫中上傳了關於26例新型冠狀病毒的基因序列,作為生物信息的一個愛好者,我不禁想通過自己的想法,對這些已知的數據進行一下相應的分析。由於申請限制我們獲取了公眾號《測序中國》提供的數據源。那麼今天我們就介紹一下R語言之外的一個基因序列分析過程:

1. 首先是微生物序列比對的相關軟體下載:

MEGA https://www.megasoftware.net/

Clustalw http://www.clustal.org/download/

Clustalx http://www.clustal.org/download/

軟體的安裝我就不再贅述了,我下載的是老版本的MEGA 7。

2. 我們看下如何操作:

首先打開軟體:

接下來就是一個對話框彈出;選擇「create a new alignment」,選擇「DNA」,接下來就是導入fasta的文件。

當然上面的fasta文件是多個序列合併後的文件,所以在這裡我們還需要對單個的文件進行合併,然後再導入,合併需要用到windows 10自帶的type功能。

當然了,這樣合併後,還需要檢查下合併的文件,有可能因為每個序列最後沒有換行符導致,直接連起來,通過尋找「>「 進行換行,形成對應的合併後的序列集合。然後我們看下導入後的結果:

 

接下來就是分析了,我們直接用默認的參數進行clustalw分析。

不過呢,這個過程如果在windows下面運行需要很長的時間,本人還是建議直接在Linux下面進行分析。至此我們就進行多序列的比對,下面就是將序列比對的結果保存下來,導出兩個文件:all_seq.fas 和 all_seq.meg。

接下來,用clustalx打開我們比對好的.fas的文件,結果如下圖:

接下來就是導出我們的比對的可視化結果。會輸出.ps的文件,ps(PostScript)是一種頁面描述語言,主要用於高質量列印。此處的結果我們只展示1-300bp序列以及最後的124個序列:

我們從中可以看出其序列存在大量的差異性。

然後把.meg的文件利用MEGA打開,如下圖:

構建樹之後就可以看出26個病人中病毒的序列樹圖:

從上圖我們可以看出劃紅線的兩個樣本分別是最原始和離根最遠的樣本。這樣說明病毒在不斷的更新迭代,接下來,我們對各樣本之間序列的距離進行計算。

首先我們計算總體的平均距離為4.476。我們看了上面我們劃紅線的兩個樣本發現其之間的距離為5.826>4.476。同時我們發現黃色螢光的兩個樣本和其他樣本都存在一定的距離。

綜上所述,我們的這26個序列存在相當大的差異。也就是說病毒本身在不斷的進化,那麼我們看下我們26個序列的重合的369個位點的進化速率,綜合所有的樣本平均進化速率為1,26個序列中有195個位點是大於平均演化速率的,如下圖:

 

由於數據的限制,也只能做這麼多分析。如果融合臨床指標,甚至更多的組學數據也許會加速實驗的進程。我們可以猜想如果隨著時間的推移,將病毒進行時間序列分析,也許可以預測下一階段的變化。

望各平臺數據分析師聚己之思路,助止病毒之蔓延!

 

數據分享連結見:https://mp.weixin.qq.com/s/05JJbkcgxT0N5PS4Ub9TZw

(如有侵權望告知!)

 

相關焦點

  • 2019新型冠狀病毒資源庫發布
    2020年1月22日,國家基因組科學數據中心正式發布2019新型冠狀病毒資源庫。
  • .& Microbe期刊發文揭示新型冠狀病毒2019-nCoV的基因組...
    2020年2月11日訊/生物谷BIOON/---世界衛生組織(WHO)將一種新型冠狀病毒命名為「2019年新型冠狀病毒(2019-nCoV)」。它是最近於2019年12月初在中國湖北省武漢市開始的肺炎疫情的罪魁禍首。這次疫情與一家大型的海鮮和動物市場有關,目前正在開展調查以確定這種病毒感染的來源。
  • BioRxiv已有8篇論文關注新型冠狀病毒—2019-nCoV
    整理丨BioArt編輯部2020年1月23日中科院武漢病毒所石正麗研究團隊在預印本網站BioRxiv上發布了武漢新型冠狀病毒202019-nCoV與一種蝙蝠中的冠狀病毒的序列一致性高達96%,推測2019-nCoV或來源於蝙蝠(詳見:特別報導 | 相似度96%,石正麗團隊報導新型冠狀病毒或來源於蝙蝠),該論文引起了廣泛關注。
  • 【大力推薦】新型冠狀病毒(2019-nCoV)利用非典冠狀病毒受體ACE2與...
    本文來源見截圖:2019年新型冠狀病毒(2019-nCoV)利用非典冠狀病毒受體ACE2與細胞蛋白酶TMPRSS2進入靶細胞Markus Hoffmann,1*+Hannah Kleine-Weber1,2+,Nadine Krüger,3,4Marcel Müller,5,6,7Christian
  • 中文版專題開放 | 新型冠狀病毒(2019-nCoV)
    新型冠狀病毒(2019-nCoV) 引言—冠狀病毒是重要的人類和動物病原體。2019年末,一種目前命名為2019-nCoV的新型冠狀病毒在中國湖北省武漢市引起了肺炎病例聚集。2019-nCoV人傳人已在中國[12]得到證實,並且在包括美國在內的其他國家也已發現這種情況[13]。關於2019-nCoV無症狀感染者是否會傳播此病毒,目前仍有爭議[14,15]。 病毒學—全基因組測序和種系發生分析表明,2019-nCoV是一種β屬冠狀病毒,與SARS病毒及一些蝙蝠冠狀病毒屬於相同亞屬、不同進化枝。
  • J Med Virol:最大規模的薈萃分析揭示新型冠狀病毒的基因組序列特性
    2020年2月9日 訊 /生物谷BIOON/ --迄今為止,對新型冠狀病毒(2019-nCoV)基因組進行最大規模的測序分析結果證實,這種病毒起源於蝙蝠,且病毒的異質性較低;近日,一項刊登在國際雜誌Journal of Medical Virology上的研究報告中,來自博洛尼亞大學的科學家們通過研究在病毒的蛋白質中鑑別出了一種高度可變的基因組熱點區域
  • 世衛組織:新型冠狀病毒官方宣傳片(視頻+文字中英文)
    Investigations found that it was caused by a previously unknown virus – now named the 2019 Novel Coronavirus. 2019年12月,中國出現了一批肺炎病例。調查發現,它是由一種以前未知的病毒引起的,這種病毒現在被命名為2019年新型冠狀病毒。
  • 中科院:與美國同步共享5株2019新型冠狀病毒基因組序列
    【環球網綜合報導】中國科學院7日在官網上發文披露,國家生物信息中心(CNCB)/國家基因組科學數據中心(NGDC)首批自主收錄的5株2019新型冠狀病毒基因組序列實現與美國NCBI核酸資料庫GenBank數據同步與共享。
  • 新型冠狀病毒最新研究動態,第二彈!
    關於新型冠狀病毒的研究,檢驗君上周整理過一期並與大家分享。今天,《新型冠狀病毒最新研究動態,第二彈》來襲! 雷莫地韋和氯喹對2019-nCoV的體外抑制作用 目前還沒有針對新型冠狀病毒的具體治療方法,我們迫切需要尋找有效的抗病毒藥物來治療疾病,阻止疫情傳播。
  • 新型冠狀病毒2019-nCoV/COVID-19最新研究進展(第5期)
    研究者表示,通過對冠狀病毒進行進化分析,他們發現,2019-nCoV可能起源於蝙蝠,2019-nCoV的S蛋白或能通過與人類細胞ACE2受體相互作用來進入宿主細胞,這或許就揭示了2019-nCoV的發病機制;另一方面,2019-nCoV還與蝙蝠冠狀病毒RATG132共享了大約96.2%的序列,通過對比2019-nCoV的S蛋白(GenBank:MN908947.3)的胺基酸序列與蝙蝠SARS
  • 基因組機器學習分析表明武漢2019-nCoV與蝙蝠β冠狀病毒之間存在關聯
    截至2020年2月3日,2019年新型冠狀病毒(2019-nCoV)傳播到27個國家,死亡362人,確診病例超過17000起。科學家們正在將2019-nCoV與臭名昭著的SARS冠狀病毒爆發進行比較。
  • 新型冠狀病毒2019-nCoV/COVID-19最新研究進展(第6期)
    同一天,負責分類和命名病毒的的國際病毒分類學委員會的冠狀病毒研究小組在bioRxiv上發表了一篇文章,指出該研究小組已經決定,新型冠狀病毒2019-nCoV是導致2002-2003年爆發嚴重急性呼吸症候群(SARS)冠狀病毒(SARS-CoV)的變種。
  • 新型冠狀病毒包含愛滋病毒序列?闢謠來了
    誤導輿論認為新型冠狀病毒可能來自人為蓄意改造。闢謠:印度團隊的研究方法和邏輯存在根本性錯誤。其觀點、推論和結論均不成立,大有蹭熱度之嫌,已受到各國學者質疑和抨擊。首先,作者精心「挑選」了一系列冠狀病毒的基因組序列,建立的系統進化樹,發現新型冠狀病毒和SARS病毒親緣關係最近。系統進化樹解析:軟體根據基因序列的一致性進行聚類,一致性越高,那麼兩者間分支的數量就越少,說明親緣關係越近。
  • 國家基因組科學數據中心首次公開新型冠狀病毒全基因組序列
    此前科學家陸續獲得的2019新型冠狀病毒基因組序列一般遞交到全球流感序列資料庫(GISAID)和美國國家生物技術信息中心(NCBI)的GenBank資料庫。此前的1月22日,國家基因組科學數據中心正式發布2019新型冠狀病毒信息庫。
  • 2019年中國肺炎患者的新型冠狀病毒
    按照製造商的說明,這些PCR產物從凝膠中純化,使用BigDye Terminator v3.1循環測序試劑盒和3130XL基因分析儀進行測序,並對2019-nCoV和參考序列進行多序列比對。利用RAxML(13)進行全基因組的系統發育分析,共進行了1000次自舉複製,並建立了一個通用的時間可逆模型作為核苷酸替代模型。
  • 新型冠狀病毒2019-nCoV/COVID-19最新研究進展(第9期)
    2020年1月7日,中國疾病預防控制中心(China CDC)從患者的咽拭子樣本中鑑定出一種新型冠狀病毒,最初被世界衛生組織(WHO)命名為2019-nCoV。大多數2019-nCoV肺炎患者的症狀較輕,預後良好。到目前為止,一些患者已經出現嚴重的肺炎,肺水腫,ARDS或多器官功能衰竭和死亡。2020年2月11日,世衛組織將這種疾病病重命名為2019年冠狀病毒病(COVID-19)。
  • 新型冠狀病毒包含愛滋病毒序列?是科學家蓄意改造的嗎?
    作者:Nekout編輯:Yuki太長不看版事件:印度某研究團隊提出,新型冠狀病毒(2019-nCoV)帶有4個來自於愛滋病毒(HIV)的短肽序列。誤導輿論認為新型冠狀病毒可能來自人為蓄意改造。闢謠:印度團隊的研究方法和邏輯存在根本性錯誤。
  • 國家基因組科學數據中心發布2019新型冠狀病毒資源庫
    經數據分析,2019新型冠狀病毒(2019-nCoV)與2003年爆發的SARS病毒基因組序列相似度為80%,與2017年2月從國內的蝙蝠中採集到的Bat SARS-like coronavirus isolate bat-SL-CoVZC45基因組序列相似性最高,相似度為88%。
  • 中科院:與美國同步共享5株新型冠狀病毒基因組序列
    新型冠狀病毒基因組序列實現與美國NCBI核酸資料庫GenBank數據同步與共享。中科院官網截圖全文如下:國家生物信息中心(CNCB)/國家基因組科學數據中心(NGDC)首批自主收錄的5株2019新型冠狀病毒基因組序列實現與美國NCBI核酸資料庫GenBank數據同步與共享。
  • 新型冠狀病毒2019-nCoV/COVID-19最新研究進展(第7期)
    同一天,負責分類和命名病毒的的國際病毒分類學委員會的冠狀病毒研究小組在bioRxiv上發表了一篇文章,指出該研究小組已經決定,新型冠狀病毒2019-nCoV是導致2002-2003年爆發嚴重急性呼吸症候群(SARS)冠狀病毒(SARS-CoV)的變種。