導語
8月16日,一則來自馬來西亞的新聞讓新冠病毒上的一個變異:D614G一下子聲名鵲起。根據那則新聞,攜帶D614G變異的毒株傳播速度可能比一般毒株快10倍,然而被新聞忽略的一點是,D614G病毒並不新鮮,在廣大公眾熟悉這個名稱之前,它其實曾橫掃歐洲大陸,還是北京的新發地疫情中的元兇。目前的研究顯示,這個突變可能會加快病毒傳播速度,卻對毒性影響不大,且該突變涉及到新冠病毒最外側突起蛋白,因可能會改變與細胞受體或抗體而備受關注,好在最新研究表明,D614G對在研疫苗的中和效力影響不大。
下文是一篇讀者投稿,使用GISAID的新冠病毒資料庫,利用生物信息學的手段,追蹤了攜帶D614G突變橫掃歐亞大陸的B.1與B.1.1型病毒,從病毒基因入手,為我們演示了利用生物信息學對病毒進行追蹤的方法和過程。
撰文 | 傅毓濤
責編 | 李珊珊
2020年盛夏,原本該是奧運盛會如火如荼的日子裡,現實世界裡上演的卻只有全人類對抗新冠病毒的競賽。在率先走出隔離的中國,6月,北京新發地市場見證了病毒的回馬槍。繼而風波不斷的香港在7月初開始了新一波疫情,新疆烏魯木齊和遼寧大連也先後在7月中下旬出現本地病例,一時間讓人不禁又繃緊了心弦。
前度劉郎今又來,好在這回種桃道士準備好了應對之道,不象在武漢那時手足無措了。追蹤病毒來源的最有效手段莫過於全基因組測序。在世界範圍內快速共享新冠病毒測序數據早已成為全體研究者的共識,目前規模最大的平臺是GISAID 【1】。
GISAID建立於2008年,全稱為Global Initiative on Sharing All Influenza Data,從中可以看出,該平臺是專注於流感研究的。GISAID的新冠病毒資料庫雖然今年才登場,至今已經收錄了近8萬條新冠全基因組序列,開放給公眾經簡單註冊後即可免費訪問。從中,我們可以很快鎖定這些與北京(Beijing)、香港(Hong Kong)、新疆和遼寧(Liaoning)疫情相關的近期記錄。
GISAID新冠病毒資料庫中的部分記錄。
上表為GISAID新冠病毒資料庫中的部分新冠病毒基因序列記錄。
按照採樣時間排序,最早的是6月北京新發地疫情的樣本,至今只公開了3份,下文有詳述。而來自香港的7月樣本記錄多達70餘條,我們只選取了比較有代表性的兩例,分別採集於7月1日和14日。值得注意的是,雖然尚未出現新疆或烏魯木齊的標註,但據新疆疾控中心的消息,當地疫情病例基因測序,「結果顯示為多個檢測樣本序列相同,表明此次疫情來源於同一傳染源暴露所致」【2】。因此一名新疆籍旅客7月15日在浙江紹興確診的樣本(上表第6行Zhejiang)無疑提供了管中窺豹之利【3】。最後,4份遼寧樣本7月22日樣本序列主體完全一致,符合官方定性的早期「聚集性疫情」的特徵。
用以上序列直接在資料庫中暴力搜索,尋找與全球哪裡的樣本最接近,這可能是大多數讀者的第一反應。為了了解這一點,我們使用了GISAID自帶的地理匹配功能,結果如下。
各代表序列在GISAID中前10條最佳匹配樣本的地理分布。數字代表該地區匹配樣本數。
上圖中的四組匹配有相似的地理分布,特別是都包含來自歐洲的樣本。來自北京、遼寧、新疆和7月14日的香港樣本序列確實高度相似,都屬於B.1.1型新冠病毒。該型有案可查的首例樣本是2020年2月16日在英國採集的(hCoV-19/England/20168037604/2020)。
與新冠病毒參考基準基因組,即來自武漢華南海鮮批發市場的B型毒株比較,B.1.1的突變特徵含7個連鎖位置(241,3037,14408,23403,28881,28882,28883),其中的23403所對應的正是最近很多報導中提到的D614G突變。B.1.1是由只含前4個突變位置的B.1進化而來的支系,同樣也包含D614G突變(23403)。
而未包含在上圖中的香港7月1日樣本(表格中第4行)正是B.1的直系後代,也呈現出截然不同的的匹配地理分布(見下圖)。由於B.1和B.1.1現有成員在時間和空間上共存,因而並不能判定香港7月1日樣本是7月14日樣本或其他內地樣本的直接祖先。
香港7月1日樣本在GISAID中前10條最佳匹配樣本的地理分布
由此,除了在新發新冠病例較多的香港,病毒類型和來源比較多樣化以外,北京、新疆、遼寧的疫情都是由B.1型病毒進化而來並直接起源於歐洲的B.1.1傳入所引發的。那麼再往前推,B.1又是從何而來的呢?我們不妨按照公開報導中的時間線進一步梳理GISAID中的信息。
2020年1月,德國汽車零部件供應商偉巴斯特(Webasto)在上海分公司的一名女員工先接待了從武漢來探親的父母,後赴德國巴伐利亞州慕尼黑市的公司總部出差。她在返程的飛機上開始出現新冠肺炎症狀,這天正好是武漢開始封城的1月23日【4】。次日,兩份採集於四川(hCoV-19/China/SC-PHCC1-022/2020)和浙江杭州(hCoV-19/Zhejiang/HZ103/2020)的樣本序列中分別出現了B.1的4個特徵突變中的各3個,其中的四川樣本與後來的慕尼黑傳播鏈病毒序列完全一致。而在海外,一名21歲女中國留學生武漢封城前飛抵澳洲後發病【5】,她1月25日的樣本(hCoV-19/Australia/NSW2153/2020)已具備B.1全部4個特徵突變。
以上種種,令探尋B.1及其起源的工作無法繞開對武漢早期疫情的回溯。
1月後很長一段時間,很多研究者關注的是以8782和28144位置祖先型為特徵的A型與參考基準B型新冠病毒孰先孰後的問題,直到B.1開始如洪水決堤般在歐洲泛濫開來,再到B.1.1後浪推前浪席捲全世界,幾乎把A型和B型淹沒其中【6】。
全球新冠病毒突變累計頻率每日變化。來源:中國國家生物信息中心
讓我們把目光拉回到當前樣本的分析。除了直接序列匹配和匯總統計之外,專業研究者更擅長統籌全局的生物信息學方法,通過與參考基準比較識別基因組序列中的突變,輔以採樣時間線索,構建系統發育樹,從而更精細地確定各樣本間的傳承關係。另一個新冠病毒序列分析網站Nextstrain就是這一思路的代表【9】。
以北京新發地疫情為例,下表總結了3份樣本序列和參考基準之間的差異。第3行的病例是中國肉類食品綜合研究中心25歲職員劉某某(以下簡稱為劉郎),6月5日曾到過新發地,之前曾去外地多家市場調研【7】。第4行在GISAID詳細信息中的樣品編號BJ-TJZ-01,53歲男,大概就是如今聲譽鵲起的西城唐大爺,去新發地的日期為6月3日。最後1行則是環境樣本,編號BJ0614-45-HJ,實際採樣日期並非GISAID顯示的6月11日,而應當是6月14日【8】。
北京新發地病毒樣本序列所含突變。灰色部分為B.1.1特徵突變。
由這三條序列的突變情況推測,如果排除回復突變等少見情況,劉郎樣本更接近參考基準,應該最接近新發地疫情的源頭。雖然唐大爺自述去新發地的時間更早,但他所感染的病毒基因組序列似乎比較新。而環境樣本無論從採集時間還是突變組成看,也都比劉郎樣本要新。這三份B.1.1型樣本共有的在6026位置上的新突變,最早見於2020年2月2日採集於上海的一份B型樣本(hCoV-19/Shanghai/SH01/2020),這暗示發生過基因組重組的可能,但也可能只是巧合。
在Nextstrain上,這3個樣本及相似序列的關係如下:
北京新發地病毒樣本及相似序列的系統發育樹。
在系統發育樹上,越近的鄰居通常代表越近的親緣關係。上圖中藍色分支是北京新發地樣本,最接近的橙色一支來自南美州的哥倫比亞,其他樣本分別來自歐洲的葡萄牙、愛爾蘭、英國和俄羅斯。雖然以目前的樣本數量和分析精度,尚無法指認北京疫情到底從何處輸入,但是這種系統性的基因組序列分析無疑為多次疫情間的比較和後續研究指明了大方向。
同樣,我們能夠方便地查找新疆和遼寧樣本序列的鄰居,並用英國格拉斯哥大學發布的CoV-GLUE工具對兩份香港樣本序列做類似分析【10】。從結果可以看出,北京、香港、新疆和遼寧疫情相互獨立,各有不同的輸入模式。
新疆和遼寧樣本及相似序列的系統發育樹
香港7月1日(B.1,左)和14日(B.1.1,右)樣本及相似序列的系統發育樹
除基因組序列以外,還有很多研究人員關注新冠病毒在胺基酸和蛋白水平的變化,特別是對人體免疫方面的影響。在B.1和B.1.1型病毒共享的特徵突變位置裡,D614G突變(23403)涉及到新冠病毒最外側突起蛋白,可能會改變與細胞受體或抗體結合從而備受關注。好在最新的研究表明,D614G對在研疫苗的中和效力影響不大,免疫學家們這才鬆了一口氣。
當然,生物信息學分析並不能完全代替流行病調查的傳統手段。確定單次疫情的具體源頭仍然需要更多實地調查、實驗室重現和跨學科合作的不懈努力。
進入8月,北京西城的唐大爺已經回到了正常生活,新發地病例業已清零。遼寧和新疆的疫情正在走向尾聲,香港每日新增病例數也開始掉頭向下。2020年剩餘的日子裡,願山河無恙,新冠病毒相關話題熱度不再,也祝各位讀者消夏有方。
中國大陸(上)和香港(下)7月每日新增病例數。來源:Google COVID-19動態統計板。
參考資料:
1. GISAID (https://www.epicov.org)並特別感謝以下數據提供者:
2. 新疆疾控中心:基因測序顯示此次疫情來源於同一傳染源 (央視新聞客戶端,http://m.news.cctv.com/2020/08/04/ARTICKNL5lkn4gLsIHQKOFVQ200804.shtml)
3. 烏魯木齊,確診1例!浙江新增無症狀感染者為新疆輸入 (新浪科技, https://tech.sina.cn/2020-07-16/detail-iivhuipn3382768.d.html)
4. Germany confirms human transmission of coronavirus. (Deutsche Welle, https://www.dw.com/en/germany-confirms-human-transmission-of-coronavirus/a-52169007
5. 澳洲確診第五例新型肺炎病例 患者為中國女留學生 (新浪財經,https://finance.sina.com.cn/stock/usstock/c/2020-01-27/doc-iihnzahk6564107.shtml)
6. 中國國家生物信息中心2019新型冠狀病毒信息庫(https://bigd.big.ac.cn/ncov)。特別感謝他們的工作,使得業內業外人士對新冠病毒的數據分析都便捷了許多。
7. 關於北京市豐臺區新冠肺炎確診病例劉某某在青活動情況通報 (新華網,http://www.xinhuanet.com/local/2020-06/12/c_1126108721.htm)
8. 三進新發地,中國疾控中心病毒病所發現了什麼 (觀察者網,https://www.guancha.cn/politics/2020_06_19_554692.shtml)
9. Nextstrain – Real-time tracking of pathogen evolution(https://nextstrain.org/ncov/global)
10. CoV-GLUE(http://cov-glue.cvr.gla.ac.uk)