全文6,627字,閱讀 25 分鐘。
----/ START /----
今天想分享一個主題:人類基因組時代的泛基因組學。主要內容源自今年《Nature Reviews Genetics》上一篇題為《Pan-genomics in the human genome era》的文章。
文章的作者是約翰霍普金斯大學的計算機科學和生物統計學傑出教授史蒂芬.薩爾茲伯格(Steven Salzberg)和他的博士生(Rachel M. Sherman)。薩爾茲伯格是一位橫跨計算機領域和生物學領域的專家,名氣很大,他是約翰霍普金斯大學計算生物學中心的主任,同時在計算機系和醫學院任職,專門從事基因測序和基因組學應用研究,人類基因組計劃的參與者之一,最近還主持了非洲裔美國人的基因組學項目等。開發過很多有名的生物信息算法,大家使用過的生信軟體如:bowtie、TopHat、cufflinks等都出自於他的實驗室,今天要談的泛基因組學也是他的研究內容之一。
薩爾茲伯格
2010年,華大基因提出了人類泛基因組學的概念,發表了關於泛基因組學的重要文章,那時我剛剛到華大基因實習,雖然未參與過該項目,但多多少少還是有所了解,後來在丹麥人基因組中也對此進行了探索。這裡我參照薩爾茲伯格的綜述文章將內容分為以下 6 個部分,同時也融入部分我對泛基因組學的理解:
單一「參考基因組」分析模式的局限;「泛基因組學」概念的由來和定義構建物種泛基因組的意義;人類泛基因組的構建;泛基因組參考序列的記錄和表示方式;泛基因組分析的應用和未來展望。單一「參考基因組」分析模式的局限
現在的基因組學研究無一例外都是單一「參考基因組(Reference genome)」模式的, 這樣的模式是有局限的。但要理解它的局限性,我們需要先知道這個單一參考基因組是怎麼來的。
參考基因組,其實就是我們平時所說的「參考序列」, 一般是每個物種「典型」個體的基因組序列——這裡的「典型」泛指一個或者多個特定個體(這些個體是研究者所能獲得樣本,它們未必是最最具代表性的,這個要注意)。我們熟知的 「人類基因組計劃(HGP)」 測序得到的基因組序列其實只是人類這個物種少量個體的基因組序列,我們將它稱之為「人類基因組參考序列」,它由若干個高加索人的基因組序列合併而成。
我們知道基因組學的研究都需要圍繞 「參考基因組」 來開展,因此它的作用和意義非凡。以人類基因組學研究為例,通常情況下我們要將新測序的人類基因組數據和參考基因組進行比對,才能夠獲得個體、人群之間所存在的序列差異,然後再進行後續研究,比如尋找疾病的遺傳起源、腫瘤的易感因子、藥物開發的靶點、特定目的基因晶片的設計等,參考序列就是這個過程中最重要的標準參照物——它是一個基因組學的」參考坐標系「。
但是,隨著群體基因組研究規模的增大,這種單一參考基因組的模式就逐漸暴露出了它的不足之處。其中最重要的是,它無法包含(也不能表達)群體中所有個體的基因序列變化情況。因為,它的序列僅僅由一個或者多個特定個體的基因組信息合併而成,這些個體還不一定是種群中最具代表性的樣本,所以它實際上是高度特異的,通常只能較好地代表一部分個體。因此,它不可避免地遺漏了很多在群體中存在的DNA序列,這在群體遺傳學、特別是疾病基因組學上就會帶來問題,比如可能由於完全丟失了和疾病相關的序列信息,導致無法對某類疾病進行完整的研究。
因此,學者們就提出了構建一個能夠包含物種中所有 DNA 序列信息的理想基因組集合,這個「序列集合」 就稱之為泛基因組(Pan-genome),也是本文接下來的內容。
不過我要先說明一點,泛基因組其實並不是要大家為每個不同地區的人群去組裝一個所謂」特定地區人群參考序列「。我有時候會看到國內外有些團隊和機構在幹這個事,我覺得這完全不對(關於這一點我也歡迎大家發表自己的看法)。參考序列是一個參考坐標系,就像度量衡一樣,它是需要統一的,它和測量長度的標準單位,測量質量標準單位之間並沒有本質的差別,否則大家各用各的坐標體系,那麼彼此的研究成果就說不到一塊去了,結果與結果之間也無法共享,更無法高效復用現有的數據集和研究結論,就連基因你都得重新注釋,完全就是一個事倍功半(可能連「半」都達不到)的活。
「泛基因組學」 概念的由來和定義
泛基因組——這裡還不是人類泛基因組(下文詳述),這個概念最初是美國馬裡蘭大學的 Tetterlin 教授,在 2005 年研究無乳鏈球菌的多種不同致病菌株時提出的。不過他當時的定義和現在已經有些差別了,他當時描述為,共享於所有菌株的 「核心基因組(core genome)」 和分散在單個或者部分菌株基因組中的 「非必需基因組(Dispensable genome)」 的總和,如圖1。
圖1. Core genome and dispensable genome
從他的定義中我們知道,泛基因組包含了兩個部分,一個是共享於物種的公有序列(即,core genome)和分散在部分個體裡的差異序列(即,dispensable genome)。構建泛基因組的關鍵是匯集第二部分的差異序列,這是物種中差異化最大、最為多樣化的序列信息。
不過,由於時代的關係,泛基因組在不同類型的物種裡面,定義上還是有些區別的。
特別是在 Tetterlin 剛提出這個概念時,他主要還是針對細菌這一類原核生物的。因此,那時研究人員所說的泛基因組,通常是指細菌的基因(gene)序列而不是全部的基因組(genome)序列。當時這樣定義有其合理之處,因為,在原核生物中,絕大部分的 DNA 序列其實就是有功能的基因序列,而且不同菌株間基因的差異還比較大。在某些已經發現的細菌基因組中,菌株間基因的差異甚至可以達到20%-40%,而這些差異通常就和菌株它們在人群中的致病性、耐藥性等密切相關。
真核生物泛基因組的定義和所包含的內容就與原核生物不同了,它不能僅圍繞基因本身,因為在真核生物的基因組中,有很大一部分(超過50%)並不是編碼基因的序列(外顯子),而是基因間區(intergenic)、內含子(Intron)這一類。例如,在人類基因組中,基因編碼序列僅佔到了全基因組的 ~2%,如果僅用這些序列來描述人類的泛基因組那肯定是不對的。
因此,真核生物的泛基因組定義的是物種全體的 DNA序列總集合。如果我們非要將其中的編碼序列拎出來造一個編碼序列的泛基因組,那麼可以叫:「基因泛基因組(genic pan-genome)」,圖2 是關於真核生物泛基因組的示意圖。
圖2. 真核生物泛基因組
另外,除了泛基因組之外,最近還有一種新的泛分析,叫做:「泛轉錄組(Pan-stanscriptome)」。顧名思義,它是物種全體轉錄出來的 RNA 序列總集合,用來特指基因表達和轉錄上的泛分析。
這類分析在高等植物中比較常見,有兩個方面的原因:第一,泛轉錄組的研究成本較低,研究起來也要更方便;第二,植物基因組通常都比較巨大而且序列複雜(通常都有高雜合、高重複的特點),以目前的技術來說,並不容易構建它們的泛基因組。目前已經擁有泛轉錄組的植物主要是一些重要的農作物,如玉米、小麥這一類。
構建物種泛基因組的意義
說了這麼多,那 「泛基因組」 除了作為一個學術概念之外,它有實際的生物學或者醫學意義嗎?
對於細菌的泛基因組來說,就如上面提到的,細菌泛基因組有助於我們研究菌株內的遺傳多樣性,深入了解菌株致病性、毒力和耐藥性差異的根本原因,而且還可以幫助我們預測新菌株的危害性。這對於人類健康來說有實際的意義。
對於真核生物的泛基因組特別是「植物泛基因組」研究來說意義也很大。現在已經有多個農作物的物種泛基因組被構建出來了,這其中包括水稻、西紅柿、大豆、白菜、西蘭花和向日葵等。
構建農作物泛基因組的目的通常都是為了了解作物基因組上的哪些突變會影響農作物的表型,從而改善育種。
儘管人類自8000年前開始馴化農作物以來,我們就已經對作物進行了多次選擇性育種,但是我們通常並不了解所選定作物表型背後關聯到的基因都是什麼,有時甚至會留下具有不良表型的基因。比如,有些能夠產出更大果實的品種可能缺乏抗病基因。通過泛基因組分析,可以用來揭示農作物表型和特定基因型的關聯,反過來就可以幫助我們定向地進行作物育種和基因改良,然後創造出更高產、更具抗病性、更長保質期和口感更好的作物。
人類泛基因組的構建
我們應該注意到自 2015 年以來,大規模的人類基因組項目變多了(圖3)。但迄今為止,也沒有哪一個項目可以做到真正囊括全球各個不同的人類群體,並產生出一個包含全部人類群體變異序列並且可分析的泛基因組。
圖3. 全球各地區大規模基因組研究計劃 by 劉榮 & 黃樹嘉
實現全人群的泛基因組,目前看起來還比較遙遠,但針對特定地區或者國家的人群泛基因組(也就是Population-specific pan-genome)卻已經有眉目了。這其中比較有代表性的是美國國家人類基因組研究所發起和資助的項目。而且,他們有一個項目計劃收集350個具有不同遺傳背景的個體構建全人群的泛基因組序列——意圖實現全人群泛基因組。
構建人類泛基因組需要以人類基因組變異數據為基礎。這些變異不僅要包括SNPs、短長度的Indels,也要包含基因組結構性變異(SVs)、拷貝數變異(CNV)等。
自人類基因組計劃以來,我們代表性的變異數據集上已經有了一些進展,比如dbSNPs、ClinVar,以及孟德爾遺傳病變異資料庫(OMIM)。其中,ClinVar 和 OMIM 屬於已知與臨床性狀相關聯的變異集合。但這些變異集合都只是一些小長度的變異,對於基因組上長度超過 50bp 的高質量結構性變異來說,數量還很有限,這其中 dbVar、DGV和DGVa,已經算是人類基因組上一些比較大的結構性變異集合了——但其實都很小。
為了進一步擴大變異集合,國際上有多個人類基因組變異檢測的項目在進行,這其中包括高深度千人基因組計劃、TOPMed、Simons基因組多樣性計劃以及 gnomAD。特別是 gnomAD,今年成果很顯著,6月份的時候以專刊的形式在Nature期刊上發了4篇相關的文章,其中也包括結構性變異的成果。
不過,在以上項目中,千人基因組項目無疑是最早開展的大型全球性人類基因組測序計劃,它分為三期,從2009年開始,一共測序了世界上26個不同的群體、2504個人的基因組,它所產出的人類基因組變異資料庫也是目前最成熟和用的最廣的一個。但千人基因組項目發起時使用的是低深度測序技術,這導致在基因組變異檢測方面存在局限性——特別是難以檢測結構性變異。因此在2019年的時候,千人基因組啟動了一個高深度重測序計劃,目的就是為了彌補前期的局限並提升現有變異檢測的質量,不過目前尚未有關於這一塊的新進展。
除了要獲得基因組完整的結構性變異之外,構建人類泛基因組還面臨著另一個挑戰,那就是Novel sequence 的檢測。Novel sequence與前面的序列變異不同,序列變異指的都是那些和參考基因組相比存在差別的序列信息,大多數情況下這些序列還是可以通過比對,然後在參考基因組上找到信號的。但 Novel sequence 是參考基因組上完全丟失的序列內容,它不在參考基因組上,因此這是無法通過直接比對獲得的,而是要進行高深度測序和序列組裝(或者採用單分子測序技術獲得長序列)才能發現。
Simons基因組多樣性項目是尋找人類 Novel sequence 方面的一個代表。它收了全球各地 142 個不同群體、一共300個樣本的基因組數據,然後高深度(30x-40x)測序,並進行序列組裝,最後發現平均每個個體有約 5.2M 的新序列(Novel sequence)無法比對到人類參考基因組上。
除了 Simons 項目之外,TOPMed 項目也在這方面有所發現。TOPMed 很大!有 53,831 個樣本,使用的測序方法也是短序列測序方法,但它平均每個樣本只發現了2.2M 的 Novel sequence,之所以比 Simons 項目少,可能是因為這個項目的質控條件比較嚴格。
另外,雖然說現在全球大型人類基因組項目也不少,但用這些項目來構建泛基因組幫助是有的,但也都有一些很明顯的局限性,原因就在於:
首先,它們基本上都是短讀長測序數據,這本身就不利於基因組完整變異的檢測。而且短序列也並不利於組裝,常常會由於讀長不足的關係丟失一部分基因組上的大長度插入序列。還有就是這些項目的首要目標其實並不是為了 Novel sequence 和泛基因組,泛基因組分析通常都只是這些項目一個次要的、補充性的邊角料分析。最後,這些項目即使發現了相關的變異信息和 Novel sequence,也沒有一個統一的、標準化的方式來將這些新變異、新序列進行整合、或者納入到一個可被使用的所謂」人類泛基因組序列集合「中。
另外,我們目前甚至也沒有人類染色體從端至端的完整序列拼接結果,這也會導致我們難以分辨一些 DNA 序列到底應該落在哪。不同的人群基因組項目對的 Novel sequence 數量和長度也存在著差異,有時候差異還十分巨大。比如 1.5萬冰島人的基因組項目和910個非洲裔基因組項目所獲得的 Novel sequence 分別是0.33Mb和295.5Mb。
非洲裔的 Novel sequence 比起冰島人的要多得多,這很可能是由於人類參考基因組是由歐洲人所構成的有關。現代歐洲人其實只是非洲人中的一個子集,在走出非洲之後逐漸演變而來,這個子集自然無法包含更多屬於非洲裔的特有序列。
如果要比較有效地解決結構性變異和Novel sequence的檢測問題,我們還是得通過長讀長測序技術和序列組裝技術。儘可能將每個個體的基因組(甚至單倍體基因組)組裝出來,這樣得到的差異序列才能更好地用於泛基因組序列的構建。
如何記錄和表示泛基因組序列
泛基因組序列有兩個部分:核心基因組和分散在個別群體中的DNA序列,如何將它們有效地記錄起來,並用在實際項目中,目前來看有三種可能的方式。
第一個是線性記錄,就是將這些額外的序列直接作為 Alternate 序列收錄在原來的人類參考基因組之中,如同另一條染色體序列一般,GRCh38 參考基因組中大量的 ALT 序列就是這一類。使用的時候,它們相當於被看成是另外的染色體序列。這樣的表示方式好處是簡單,但是卻丟失了一些屬於這些新序列的信息,比如它們原本應該是在某一條染色體上的特定位置的信息。
第二個方式,稱之為圖表示(graphical representation)。這是一個在邏輯上更加合適的表達方式,如圖4 所示。
圖4. Graphical genome
它以原來的參考基因組為框架,以一個個的鹼基作為圖的節點,鹼基之間的前後關係作為圖的邊,然後在存在序列差異的地方自然形成不同的分支,從而逐漸構建出一個圖基因組。這個圖基因組可以依據新序列的加入不斷擴展變化,最終它將會成為一個符合全人群的泛基因組圖譜。這和上面的線性基因組是不同的,圖基因組是一個二維序列圖譜。
但要使用這樣的一個圖基因組來進行分析,就無法沿用當前適合於線性參考基因組的算法了,而是必須開發一系列全新的生物信息學方法。目前適合用在圖基因組方面的算法有VG、SevenBridges、aSGAL和GraphAligner。
圖基因組雖然邏輯合理,表示方式也很形象,但遺憾的是缺點也很多。首先,它很容易產生更多的歧義比對結果(如下圖5)。
圖5. 歧義比對
在圖5中,本來測序 read 只會比對在一個地方的,但現在卻會同時比對到圖中三個不同的分支序列上,而且由於發生差異的情況都是相同的,這就導致這個 read 在這三個位置上看起來都是合理的,從而形成了歧義,這樣的歧義結果會明顯增加變異檢測的難度——而且難以排除。
另外,序列錯誤比對情況增多,這隨著而來的就是更多假陽性變異結果的檢出。
以上這兩個問題是應用圖基因組來做研究的明顯挑戰。至於是否還有其它方面的挑戰也歡迎大家在留言區一起來討論。
第三個方法是混合記錄。將人類泛基因組同時以圖基因組和線性基因組的方式進行存儲,如圖6所示。
圖6. 混合模式
這樣可以同時發揮這兩個方式的優點,目的其實是為了減少由圖基因組所帶來的歧義情況。不過這在進行數據分析的時候就需要分兩個步驟了,要分別對圖基因組和線性基因組進行比對,然後再結合這兩個比對結果完成基因組上的序列差異分析。
泛基因組分析的應用和未來展望
關於泛基因組分析的應用,其實在上文就已經有所闡述了。概括來講,泛基因組分析可以提升我們對物種基因組的認識,能夠獲得新見解。比如,在細菌泛基因組中,我們可以鑑定細菌(如大腸桿菌、幽門螺旋桿菌、人體共生微生物等)的新致病菌株、並探索其中的致病基因,這對於人類健康來說意義重大。
在農作物泛基因組方面,有一個例子是通過對番茄進行泛基因組分析,我們就對影響番茄開花時間、果實產量、風味等方面的性狀有了更新更深刻的理解。例如在泛分析之後,研究人員發現了一個名為 TomLoxC 的番茄基因,它的基因啟動子區域上有一個~4kbp的序列替換,這種序列變異在以前的研究中是發現不了的,而這個序列替換明顯影響了番茄的風味。
對於人類來說,泛基因組分析的一個直接好處是能夠有效發現屬於單個個體(或散在個體)的特殊序列變異,特別是在線性參考基因組中無法被檢測出來的變異信息。然後研究這些變異是否和一些疾病、個體表型特徵相關聯,這些表型既可以是有益的特徵、也可以是有害的特徵。
而群體中有很多這樣的序列其實是與疾病或者預防疾病相關的,對於單一參考基因組往往都是無法將其包含在其中的(圖7),這個難題也只有通過泛基因組分析才能解決。
圖7. 冰島人特有變異
這個圖來自一個關於冰島人基因組的研究,通過泛基因組分析中研究人員新發現了這一個長度達到 766bp 的插入序列在冰島人群體中高頻出現,後來驗證得知這個突變和降低心肌梗塞的風險相關。
這樣的情況非常值得我們關注,特別是在以後的基因組項目研究中都不應忽略泛分析。不過構建全人群的泛基因組序列現在依然困難重重,現階段看來也只有圍繞特定人群的泛基因組序列構建是可行的,冰島人和丹麥人的研究就是這樣的例子。另外就是,泛基因組分析需要更加新穎的計算機方法和生物信息學方法。
但不管怎麼說,現在情況就是這樣,在不久的將來我們的基因組學研究可能都會擺脫對單一人類參考基因組的依賴了,做好準備吧。
參考文獻Pan-genomics in the human genome era
What I cannot create, I do not understand.
- Richard P.Feynman(理察.菲利普斯.費曼)
----/ END /----
※ ※ ※
你還可以讀
基因組學中的深度學習科普 | 古DNA研究如何揭示中國人的起源?如何理解GWAS中Manhattan plot和QQ plot所傳遞的信息
這是我的知識星球:『達爾文生信星球』(原名:解螺旋技術交流圈),是一個我與讀者朋友們的私人朋友圈。我有10+年前沿而完整的生物信息學、NGS領域的科研經歷,在該領域發有多篇Nature、Cell級別的科學文章,我希望藉助這個知識星球可以與更多的志同道合者溝通和交流,同時也把自己的一些微薄經驗分享給更多對組學感興趣的夥伴們。
這是知識星球上第一個與基因組學和生物信息學強相關的圈子,也是官方評定的優秀星球。希望能夠藉此營造一個高質量的組學知識圈和人脈圈,通過提問、彼此分享、交流經驗、心得等,促進彼此更好地學習生信知識,共同提升基因組數據分析和解讀的能力。
在這裡你可以結識到全國優秀的基因組學和生物信息學專家,同時可以分享你的經驗、見解和思考,有問題也可以向我提問和星球裡的星友們提問。