始於1990年的人類基因組計劃(The Human Genome Project)開啟了基因組時代。隨著測序技術的不斷進步和測序成本的下降,越來越多的物種基因組被測序,從原核生物(流感嗜血桿菌,1995)到真核生物(釀酒酵母,1996),從單細胞生物到多細胞生物(秀麗線蟲,1998;果蠅,2000),從陸生生物到水生生物(河豚魚,2002),從動物到植物(擬南芥,2000),從小基因組生物到大基因組生物(人,2001;小鼠,2002;大鼠,2004)。大量基因組數據的深入研究,開闊了人類對物種進化及生命之樹(地球上所有生命之間的進化關係網絡,圖1)認識的眼界,推動了物種間的比較基因組學的研究。
圖1 | 生命之樹(來源於網絡圖片)
比較基因組,一般是指一個物種的多個個體基因組(群體)或多個物種基因組的結構和功能基因區域進行比較分析(Nobrega and Pennacchio 2004),本文主要指後者。具體來講就是:比較多個物種的基因組結構特徵的異同,研究物種間基因家族收縮與擴張,研究分化時間和演化關係,研究新基因的產生與進化等。其中,基因組的結構特徵包括DNA序列、基因及基因家族、基因排序、調控序列和其它基因組結構標誌等(圖2)。
圖2 | 基因組特徵結構(修改網絡圖片)
當物種A與物種B在從共同祖先分化的初期,兩物種基因序列(內含子和外顯子)都具有非常高的保守性(圖3左)。但是隨著兩物種的分化時間越來越久遠,由於鹼基自發突變,兩物種的基因序列會存在越來越多的變異。不同的是內含子序列由於不參與編碼蛋白,其突變不改變蛋白序列,因此受選擇壓力較小,允許積累較多突變;而外顯子區域由於負責編碼蛋白,其突變導致蛋白序列和功能發生改變,特別是功能重要的看家基因,其外顯子序列受到較強的負向選擇,一般不容易積累突變,因而兩物種的外顯子區域仍然具有非常高的同源性(圖3右)(Miller, Makova et al. 2004)。
比較基因組研究的基礎正是基於物種基因序列的相似性,即物種間基因序列同源性越高,基因組共線性越好,說明物種的親緣關係越近;相反,如果物種間基因序列變異越大,說明物種分化時間越久遠,親緣關係就越遠。
圖3 | 基因編碼和非編碼序列在物種分化後因受到不同選擇壓力,具有不同保守性
通過比較在生命進化樹中處於不同地位的物種的基因組結構特徵,推測序列的共同祖先狀態(common ancestral states),得到最近共同祖先序列(MRCA: most recent common ancestor)。通過研究物種演化過程中序列變異,了解物種分類譜系的動態變化過程,解析物種進化關係,為闡明物種進化歷史提供依據(圖4)(Kawashima,T. 2019)。同時,比較基因組對於解釋基因功能,闡明其在適應性進化中的作用,鑑定基因型和表型之間的聯繫等方面也有重要意義(Alfoldi and Lindblad-Toh 2013)。
圖4 | 比較基因組中物種生物學分類距離示意圖
X、Y、Z為現存物種,都從共同祖先CA分化而來,其中X和Y的親緣關係比X和Z的親緣關係更近。當將X、Y和Z三個物種同時進行比較基因組分析時,可以推測其共同祖先CA的性狀特徵。
比較基因組學通過比較多物種蛋白序列或者基因位置與相對順序,包括基因的丟失、複製、水平轉移等,鑑定物種之間保守的基因(找物種相似之處),或者每個生物自身特徵基因(找物種不同之處),旨在闡釋物種多樣性的分子遺傳基礎。其常見分析包括:基因家族聚類得到直系同源基因、系統進化分析、物種分歧時間估算、鑑定基因融合與基因簇、信號通路基因簇重構、基因家族收縮與擴張、全基因組共線性比較等(圖5)(V. de Crécy-Lagard and Hanson, A. 2013)。
圖5 | 比較基因組常見分析流程圖
選擇合適的物種是比較基因組分析的第一步,是成功挖掘生物學故事的關鍵,更是發高分文章的必要條件。那如何選擇合適的物種呢?小編在這裡列舉些高分文章的實例,拋磚引玉,給老師們提供些思路。
案例1:比較基因組分析揭示黃麻纖維生物合成機制
研究人員首先獲得兩個高質量的錦葵科黃麻基因組,然後通過與其他13個物種,包括錦葵類(可可,棉花,擬南芥),豆類(亞麻,蓖麻,苜蓿,大豆,楊樹),菊類(番茄和土豆),葡萄和單子葉水稻(外類群)等物種進行比較基因組分析,結合纖維特異表達的轉錄組數據,揭示了黃麻中纖維合成的分子機制(圖6)(Islam, Saito et al. 2017)。
圖6 | 黃麻系統進化樹
案例2:比較基因組分析揭示大熊貓(Giant panda)和小浣熊(Red panda)都愛吃竹子的趨同進化機制
雖然大熊貓和小浣熊名字中都帶「熊」字,但它們實際上是遠親。通過將小浣熊、大熊貓、白釉、北極熊、狗、老虎、人和老鼠等物種進行比較基因組分析發現,小浣熊與白釉親緣關係相對較近,位於進化樹的姐妹支;而大熊貓與北極熊親緣關係相對較近(圖7A)。雖然是遠親,小浣熊卻表現出與大熊貓相同的食性,都愛吃竹子。這種兩個親緣關係較遠的生物獨立發展出相似特性的現象被稱為趨同進化。通過比較基因組分析,研究人員發現兩個基因PCNT 和DYNC2H,在兩個物種的四肢發育中是重要的,允許手腕的骨頭額外增長成拇指狀附屬物(偽拇指的第六指)來幫助它們進食,有助於把握竹竿(圖7B)(Hu, Wu et al. 2017)。
圖7 | 小浣熊和大熊貓的系統進化樹分析和偽拇指的趨同表型
案例3:芡實和金魚藻基因組揭示被子植物早期進化
兩種水生植物-芡實和金魚藻通過與其它代表性陸生植物基因組包括真雙子葉植物(擬南芥、桃子、葡萄和耬鬥菜),木蘭類植物(牛油果、牛樟和鵝掌楸),單子葉植物(水稻、小果野焦和蝴蝶蘭),無油樟和裸子植物銀杏,進行深入比較分析,揭示了被子植物在生命之樹中關鍵進化地位:無油樟和睡蓮是其他所有被子植物的姐妹群;而金魚藻是雙子葉植物的姐妹群(圖8)(Yang, Sun et al. 2020)。
圖8 | 芡實和金魚藻系統進化樹
從以上比較基因組研究論文中可以看出,物種的選取與闡述的生物學故事緊密相關。在此,小編依據對文獻的理解和項目分析的經驗,大膽提出針對不同的項目需求,採用不同的原則選取物種:
如闡釋物種特異的生物學特性,即找物種之間差異或不同,比如案例1,要採取「相近相異」原則,即選取親緣關係較近,但生物學特性不同的物種。
如闡釋物種共有的生物學特性,即找物種間相似性,比如案例2,要採取「相遠相同」原則,即選取物種親緣關係相對較遠,但具有相似生物學特性的物種。
如闡釋物種的系統發育關係,則採取「跨度合適」的原則,即選取生命之樹上跨度合適的物種。
當然,比較基因組分析還可以應用在其他很多方面,選取物種的原則也因具體研究而異。
高質量基因組的不斷湧現,使得比較基因組的應用越來越廣泛和深入,也是研究者挖掘生物學問題和解釋生物學現象的有力工具。歐易生物擁有專業的動植物基因組研發團隊,為客戶提供從PacBio三代測序、de novo組裝、基因注釋、基礎分析,到比較基因組、個性化分析及多組學聯合分析等高質量的技術服務,多名博士級專業人員,經過多年經驗沉澱積累,具備多角度分析問題能力,提供多元化項目技術服務,多組學技術平臺聯合支撐,極力打造一站式服務。歡迎登陸歐易生物官網或來電諮詢。
Alfoldi, J. and K. Lindblad-Toh (2013). "Comparative genomics as a tool to understand evolution and disease." Genome Res 23(7): 1063-1068.
Hu, Y., Q. Wu, S. Ma, T. Ma, L. Shan, X. Wang, Y. Nie, Z. Ning, L. Yan, Y. Xiu and F. Wei (2017). "Comparative genomics reveals convergent evolution between the bamboo-eating giant and red pandas." Proc Natl Acad Sci U S A 114(5): 1081-1086.
Islam, M. S., J. A. Saito, E. M. Emdad, B. Ahmed, M. M. Islam, A. Halim, Q. M. Hossen, M. Z. Hossain, R. Ahmed, M. S. Hossain, S. M. Kabir, M. S. Khan, M. M. Khan, R. Hasan, N. Aktar, U. Honi, R. Islam, M. M. Rashid, X. Wan, S. Hou, T. Haque, M. S. Azam, M. M. Moosa, S. M. Elias, A. M. Hasan, N. Mahmood, M. Shafiuddin, S. Shahid, N. S. Shommu, S. Jahan, S. Roy, A. Chowdhury, A. I. Akhand, G. M. Nisho, K. S. Uddin, T. Rabeya, S. M. Hoque, A. R. Snigdha, S. Mortoza, S. A. Matin, M. K. Islam, M. Z. Lashkar, M. Zaman, A. Yuryev, M. K. Uddin, M. S. Rahman, M. S. Haque, M. M. Alam, H. Khan and M. Alam (2017). "Comparative genomics of two jute species and insight into fibre biogenesis." Nat Plants 3: 16223.
Miller, W., K. D. Makova, A. Nekrutenko and R. C. Hardison (2004). "Comparative genomics." Annu Rev Genomics Hum Genet 5: 15-56.
Kawashima T, (2019). 「Comparative and Evolutionary Genomics.」 Encyclopedia of Bioinformatics and Computational Biology.
Nobrega, M. A. and L. A. Pennacchio (2004). "Comparative genomic analysis as a tool for biological discovery." J Physiol 554(Pt 1): 31-39.
V. de Crécy-Lagard, Hanson, A. (2013) 「Comparative Genomics and Genome Evolution.」 Brenner's Encyclopedia of Genetics (Second Edition).
Yang, Y., P. Sun, L. Lv, D. Wang, D. Ru, Y. Li, T. Ma, L. Zhang, X. Shen, F. Meng, B. Jiao, L. Shan, M. Liu, Q. Wang, Z. Qin, Z. Xi, X. Wang, C. C. Davis and J. Liu (2020). "Prickly waterlily and rigid hornwort genomes shed light on early angiosperm evolution." Nature Plants 6(3): 215-222.