讀創/深圳商報記者 袁斯茹
11月12日,深圳華大生命科學研究院生物多樣性團隊、昆明動物研究所等單位聯合在《自然》(Nature)上同期以封面形式發表了兩篇文章報導萬種鳥類基因組計劃第二階段(科級別)最新研究結果。研究團隊發表了363種鳥類基因組數據,同時通過這一數據建立了無參考序列下多基因組比對和分析的新方法,並基於這一新方法闡明高密度物種取樣對生物多樣性研究的重要性,為深入了解基因組多樣性演化奧秘提供了契機。
傳統的比較基因組學分析依賴於某個基因組作為參考序列建立全基因組比對,進而開展相關的比較分析。這一方法存在兩個弊端,一是因為受制於參考基因組而無法識別出其他物種特異序列或者其他物種之間的差異序列,二是因為只獲取單拷貝同源區域而丟失了由分支特異複製事件所帶來的一比多或多比多的同源區域。在多物種比較分析中,由於基因複製、序列丟失或獲得、染色體結構變異等事件存在的情況下,如何獲取更真實且全面的序列同源關係用於後續系統發生關係的解析和比較基因組學相關分析尤為關鍵。
針對此問題,研究團隊建立了適用於多物種且無參基因組的比對算法——Cactus。該算法基於預設的物種關係樹,將複雜的多序列比對問題分解到物種分支上,對每個分支上的物種開展兩兩比對並構建出其祖先基因組序列,而後再基於祖先序列將更多分支的物種基因組排比在一起,從而構建出無參考序列的多基因組比對信息。
這一方法成功的解決了現有多序列比對軟體的弊端,也極大的提高了跨物種的比對效率,減少了由於與參考物種遺傳距離差異引起的比對偏好和序列丟失。例如,363隻鳥類基因組構建的全基因組比對序列總長為981Mb,比之前以雞和斑胸草雀為參考基因組構建的48隻鳥類全基因組比對序列在長度上提升了149%。深圳國家基因庫張國捷教授和加州大學聖克魯斯分校的Benedict Paten共同為文章的通訊作者。
無參的全基因組比對數據集為全面解析鳥類遺傳多樣性特徵的演化歷程和分子遺傳機制提供了全新的切入點。在另外一篇文章中,研究團隊藉助Cactus這一算法的優勢建立了更加完善的同源基因集合,還開發了一套鑑定任意演化分支特異獲得和丟失序列的方法,從而完整描繪出鳥類物種譜系基因組動態演化圖譜。
研究發現這些動態變化的基因組區域往往存在一些分支特異基因或調控元件,可能與物種特異性狀的起源和演化有關。比如,雀形目鳥類基因組多出一個生長激素基因的拷貝。雀形目中的鳴禽丟失了Cornulin基因,該基因所編碼的蛋白主要位於食管和口腔上皮細胞,其缺失可能會引起食管上皮的粘彈性特性發生變化,進而使得食管上部直徑可以產生快速變化來調整的聲道,這可能與其多樣化的純音發聲演化有關。
此外,研究發現基於高覆蓋度的物種取樣的基因組比較分析顯著提高了對基因組序列保守性的檢驗效力,實現了在單鹼基分辨度下的自然選擇壓力分析。相比於53個物種的比較分析,363個物種計算得到的單鹼基保守位點從2.1%上升到13.2%。
「在少量物種的比較分析中,我們只能通過嚴格篩選演化速率近乎為0的基因組區域作為超保守區域,因此只能檢測出受到強烈自然選擇的基因組區域。而高覆蓋度的物種比較分析可以極大提高對基因組選擇壓力的檢測靈敏度,以鳥類現有數據來看,我們可以在低於中性演化水平50%左右的演化速率下即可檢測出受到自然選擇的區域。」B10K項目發起人之一、來自深圳國家基因庫、深圳華大生命科學研究院和哥本哈根大學的張國捷教授強調說,「這些區域可能在演化過程中由於在某些物種分支上提供特殊適應性功能,從而受到較弱的自然選擇壓力。因此這些區域對揭示物種類群的分化具有重要意義。」
鳥類是物種最豐富的動物群體之一,它們幾乎出現在世界上的每一個棲息地。它們是第五次物種大滅絕後倖存下來的唯一的恐龍譜系,在適應性大爆發後演化出超過10500個物種,展現出多樣的生態、形態和行為特徵。在全基因組數據中,我們不僅可以找到物種演化歷程的印記,也可以基於此來預示物種的適應潛能。
萬種鳥基因組學計劃旨在構建所有現生約10500種鳥類的基因組圖譜,該項目由深圳國家基因庫、中國科學院、哥本哈根大學、史密森博物館、深圳華大生命科學研究院以及洛克菲勒大學共同主導。
目前發表的研究成果是該計劃第二階段科級別的最新研究成果。科研團隊從現存鳥類的科階元中選取一個代表性鳥類物種,共計獲得363隻鳥類的全基因組數據覆蓋92%的科階元,其中267個物種的基因組數據為首次發布。
項目所使用的樣品主要來源於全球多個博物館所保存的鳥類組織樣品。其中美國史密森博物館、丹麥自然博物館和路易斯安那州立大學自然博物館為該項目貢獻了大部分樣品。這使得研究團隊能夠對一些稀有的和瀕危的鳥類物種進行基因組測序,這將為物種保育提供重要的基因組資源。本研究中,首次發布的267個物種基因組使用華大基因自主研發的BGISEQ-500平臺測序完成。