人類基因組的Phasing原理是什麼?

2020-09-24 黃樹嘉

什麼是Phasing?

Phasing,或者說Genotype Phasing,它的中文名有很多:基因定相、基因分型、單倍體分型、單倍體構建等在不同的語境下都有人說過。但不管如何,所謂Phasing就是要把一個二倍體(甚至是多倍體)基因組上的等位基因(或者雜合位點),按照其親本正確地定位到父親或者母親的染色體上,最終使得所有來自同一個親本的等位基因都能夠排列在同一條染色體裡面。

現在流行的NGS測序技術,都是把序列打亂混在一起測序的,測完之後,我們是無法直接區分這些序列中哪一個是父源,哪一個是母源的。我們通常都只是檢測出基因組上有哪些變異,以及這些變異的鹼基組成(純合、雜合),也就是平時所說的基因型(Genotype)。只有經過Phasing,才能夠實現這個區分(圖1)。

圖1. 變異位點經過Phasing和不經過Phasing的示意圖。右上圖代表通常的Genotype,

為什麼要Phasing

因為Phasing很重要。Phasing的重要性可以分為兩個方面。一方面, Phasing與遺傳變異的功能詮釋密切相關。這體現在遺傳諮詢師或者科學家需了解基因突變的相位後, 才能更好地判斷基因突變是否會產生臨床表型。比如在一個基因上發生多個Loss of function variants(LOF),通常當這些變異出於不同的單倍型時(這稱為trans-configuration),即兩個拷貝的姐妹基因都發生了變異, 才會導致基因表達計量(Gene expression dosage)的錯誤且產生危害。而當它們出於同一個單倍型時(這稱為cis-configuration),因為還有一個正常拷貝的基因(作為備胎), 基因表達很可能不會發生改變也不會產生危害。

另一方面, Phasing在遺傳學研究中也有諸多應用,具體如下:

  • 第一、人群Phasing後形成的單倍型參考序列集(Reference panel)是基因型推斷(Imputation)必須的數據材料。而基因型推斷(Imputation)是基因型-表型關聯分析研究中必不可少的環節。高質量的Reference Panel能提升關聯分析的統計功效;

  • 第二、除了Reference Panel的製造需要使用Phasing技術之外,對被研究的對象進行預先Phasing(Pre-phasing)也可以極大地提高基因型推斷(Imputation)的準確性;

  • 第三、使用多個位點組成的Haplotype,而不是簡單的單位點基因型, 可實現群體遺傳歷史的推斷;

  • 第四、可通過Phased後的家系人群單倍型序列,估算染色體重組率、重組熱點等重要遺傳參數;

  • 第五、Phasing可用於探測頻發突變、選擇信號以及基因表達的順勢調控。

Phasing說起來容易,做起來卻很難

雖然Phasing理解起來並不難,但實現起來卻不容易,即使在理論上也是如此。這需要相關的統計學和計算機算法技術,求解的過程往往還是一個NP問題。目前通常採用馬爾科夫鏈蒙特卡洛算法來完成,因此,Phasing算法本身基本都是計算密集型的,做起來也比較耗時間,有時即使是在超算集群中也得跑很長時間。

Phasing的方法有哪些

Phasing的方法總結起來主要有三個:家系分型(Related individuals Phasing)、群體LD分型(LD Phasing)和物理分型(Physical Phasing)下面我就來逐一展開對其方法進行說明。

目前,基因定相最準確的方法是利用家係數據來實現。具體來說,就是除了被研究的這個個體之外,同時對其父親和母親的基因組進行測序。有了這三個人的數據之後,就可以很容易地區分出這個樣本的兩個單倍體。為了便於理解,我打個比方,比如我們知道他/她的基因組某一個位置上的基因型是AB,而父親的基因型是AA,母親的基因型是BB,那麼我們就可以清楚地知道他/她這個基因上的A是來自於父親染色體,而B則是屬於母親染色體的,更多的具體情況可以參看下面這個示意圖。

圖2. 家係數據實現對子/女基因組的Phasing示意圖

這個方法的一大優點就是定相(Phasing)的過程非常直接、簡單,不需要進行複雜的統計學計算,就可以準確地實現長距離的定相,並且還能夠知道每一個基因型的親本來源到底是什麼,比如在上面的例子中,我們可以知道A和B分別屬於父本和母本(如上圖)。這個親本來源的問題對於研究或者治療許多複雜疾病的意義是十分重大的,比如最近發表在《Science》上的一個研究中發現,影響小孩發生孤獨症(也稱自閉症)的基因突變中父親的影響更大,除此之外還有很多母源或者父源性的疾病(這裡面其實還涉及到Transmitted和Non-Transmitted Chromosome的問題),這些類型的結果如果沒有家系的數據是無法得出的。

對於這個方法來說,家系越龐大它的Phasing效果會越好。萬一很不幸我們沒能湊齊一家三口(Trio樣本)僅有雙樣本的情況,也不用灰心,雖然效果會差一些,但還是會比沒有任何族譜信息的數據要好。

家系Phasing的這個方法雖有很多難以比擬的好處,但也有一些比較明顯的缺點。比如,我們為了對這個人進行定相分析,就不得不多測另外兩個人的基因組。這一方面大大增加了原有的成本;另一方面則是有些人由於各種各樣的原因已經難以獲取其雙親的樣本數據了;另外,這個方法其實也無法完成對該個體所有變異的完全定相,比如當碰到父、母和子/女都是雜合突變的位點時,就無法區分了。這樣的位點雖然在基因組上不是最主要的,但是也大約佔到了總變異位點數的13%左右,或者說有大約五分之一的雜合突變位點(注意只是佔所有雜合的比例)是這種不可Phasing的狀態,詳細的分類情況可以參考下表:

表1. 能夠被Phasing和不能夠被Phasing的SNPs位點分類

LD Phasing是另外一個非常常用的基因定相方法,它是利用群體中大量無血緣關係的個體,依據基本的連鎖不平衡(Linkage disequilibrium,LD)遺傳原理和相關數學模型,推斷群體中每個個體的單倍體的方法,因此它也是計算量最大的一個。

我們知道人這個物種在減數分裂產生生殖細胞的過程中姐妹染色單體會發生重組,這個重組的發生率每代大約是10^-8,雖然很低,但是隨著一代接一代不斷地繁衍下去,經過足夠長的時間之後(比如說無窮!無窮!無窮!)。

那麼從理論上來講,來自同一祖先的兩條染色就會被均勻地重組一個遍。然而,遺憾的是我們現代人還是Too Youg Too Simple!從最早的證據來看現代人的共同祖先大概起源於15萬-19萬年前(第三次走出非洲的時間),所以至今我們也不過才經歷了6,000-7,600代而已。

這麼少的代數也就意味著染色體的重組其實還很有限,因此人類基因組中許多相鄰的區域往往都是「黏」在一起遺傳下去的,這也就是所謂的存在連鎖不平衡的遺傳現象,這些「黏」在一起的區塊稱為「連鎖不平衡區塊」(LD Block)。

常見變異——那些在人群中頻率佔比達到5%以上的變異——所存在的連鎖不平衡區塊(LD Block,Tajima’s D > 0.5)的長度大多集中在50Kbp-60Kbp。並且LD區塊的長度在不同的人群中是不同的,比如,非洲人的LD區塊就比歐洲人和亞洲人的更短。為什麼呢?這是因為非洲人比歐洲人或者亞洲人都要更古老,他們的基因組相比於另外的兩個人群發生了更多次數的重組,所以LD區塊的長度就更短了。

LD區塊的存在就意味著我們可以通過構建相關的數學模型,來把這樣的連鎖關係求解出來。在開展大規模的基因組研究計劃時(如Hapmap、國際千人基因組、Haplotype reference consortium以及各國家的國家基因組計劃),通過構建基於隱馬爾可夫模型(HMM)等的Phasing算法就可以依據測序數據或者晶片數據,反推出每個個體最有可能的單倍體,完成Phasing。

目前,適合於以上兩種Phasing方法(家系和LD Phasing)的最好工具是Beagle和Shapeit。這兩個工具都同時包含了用於家系(Related individual Phasing)和LD Phasing的模塊。並且都可以用於測序數據和晶片數據,但其中的差別在此不贅述。

回過頭來想想LD Phasing方法的缺點是什麼?其實通過上面的介紹,我想大家或多或少也注意到了,由於這個方法需要依據群體的信息,那麼它所能夠Phasing的精度就會受到群體的制約。通常來說它只能針對群體中常見的變異(如頻率在5%以上的變異),在這方面它的效果確實非常棒,很多基因檢測公司甚至會把這個作為公司產品的買點,但對於罕見突變和個體特有的變異就不行了。雖然隨著人群基數的增大,它所能夠Phasing的變異範圍也會隨著不斷增加,比如從只能Phasing 5%以上頻率的變異,增大到能夠Phasing 1%以上頻率的變異,但說到底它還是難以實現對一個個體單倍體的完全定相。

那麼,到底該怎麼做才能實現完全定相呢?

正所謂,求人不如求己。由於有了以上的種種限制,於是科學家們就研發了第三類方法:Physical Phasing——「物理定相(或叫物理分型)」。它不需要家係數據,也不藉助LD關係,完全依賴自身的測序數據,就可以完成基因的定相。

我們都知道在第二代或者三代測序中,一條read、一對reads或者一個clone上的每一個鹼基都必定來自同一個染色體(也就是同一個單倍體)。對於每一個這樣的測序片段而言,它本身就是某一個單倍體的一個「局部」,因此現在的問題就變成了要如何把這些一個一個的小」局部「連成一個整體,接出完整的單倍體,從而實現定相,這就是Physical Phasing。而且如果測序序列足夠長(比如三代測序數據),深度足夠深,那麼它就能夠實現個體的完全定相,而且有必要的話還可以同時把這兩個單倍體的完整DNA序列組裝出來,形成姐妹染色單體,這兩個優點是另外兩個方法難以比擬的。

長序列可以來自特殊建庫,如長度約是40Kbp的Fosmid建庫後的測序和組裝,或者是華大測序儀的Long Fragment Read(LFR)測序技術,當然也可以是第三代測序的數據。

這也是我(礦工)在華大基因深度負責的第一個研究課題(我的博士論文也是基於該課題)。當時這一塊還比較空白,第三代測序技術也還不是很成熟,當時為了獲得長序列,我們採用了基於Fosmid構建大長度克隆片段然後進行二代測序並組裝的方法(如下圖),成果發表在2015年的《Nature Biotechnology》上,我也是共同第一作者。

圖3. 基於Fosmid和二代測序技術相結合的de novo Phasing方法

由於我當時已經為課題中的一些細節寫過兩篇文章,因此這裡就不再展開,感興趣的話你也可以查看本文最後的推薦閱讀,這裡我只介紹物理定相的基本原理。總的來說,要把局部的小片段連成一個大片段,從而實現Phasing,這個過程要做的好就需要充分藉助小片段上的雜合SNPs作為區分的標記。通過每個雜合位點上各個小片段中所含鹼基的異同和彼此之間的重疊關係,我們可以把絕大部分的小片段分成兩類,然後通過一系列的連接、二分圖構建、二分圖求解和重新組裝等方法,最後就可以把小片段逐步連成大片段,從而構建出單倍體了,如下圖(請橫著看)。

圖4.物理定相示意圖

物理定相的方法,往往要求每個片段中都能包含較多的雜合SNPs位點,但由於人類基因組中雜合SNPs位點之間的距離普遍在1.5Kbp左右——還是比較長的,因此測序片段本身就要足夠長,這就需要使用包括三代測序技術在內的一些測序方法,因此它的成本會比較高。我目前所知道的在Physica Phasing方面做得比較好的機構中,除了我們自己當時的小組之外,還有德國的馬克普朗克研究所( Max Planck Institute)Margret教授團隊和華大基因Brock Peters博士所在的研究組,他們建立了LFR的實驗和信息方法。

小結

關於Phasing原理的介紹到此就告一段落了,這裡在介紹LD Phasing和物理定相的時候沒有從數學原理方面去展開,希望可以看起來比較通俗易懂,並且所有的Phasing算法都只對二倍體基因組比較有效,多倍體更加困難。在實際的項目中,我們還是需要根據樣本的特點、測序策略和結果預期,有針對性地選擇其中的一種或者多種進行組合,從而達到最有效的Phasing效果,評價Phasing效果好壞的指標有兩個:

  • 第一,能夠被Phasing的變異位點越多越好;

  • 第二,正確被Phasing的位點數佔比越高越好。


推薦閱讀

  • 華大基因組裝迄今最完整人類單倍體水平基因組的重要技術細節(上)

  • 華大基因組裝迄今最完整人類單倍體水平基因組的重要技術細節(下)

  • GATK4.0和全基因組數據分析實踐(上)

  • GATK4.0和全基因組數據分析實踐(下)

  • 該如何自學入門生物信息學

相關焦點

  • 如何使用Shapeit2對人類基因組數據進行Phasing
    在上一篇文章中,分享了有關基因組Phasing的原理,一共有三種,分別是:家系關係分型(Related individuals Phasing)、群體LD分型(LD Phasing)和物理分型(Physical Phasing)。
  • Haplotype phasing 常用軟體實操介紹
    什麼是 haplotype phasing單倍型(haplotype)是單倍體基因型的簡稱,在遺傳學上是指在同一條染色體上進行共同遺傳的多個基因座上等位基因的組合。單倍型定相(haplotype phasing)是指從基因型數據(genotype data)運用統計學知識進行單倍型估計的過程。最常見的場景是,獲取樣本(通常是二倍體,多倍體複雜很多。
  • 基因型填充中的phasing究竟是什麼
    目前主流的基因型填充軟體都分為了以下兩個步驟phasing genotypesimputing ungenotyped markers這個二步法是為了提高運算速度而設計的,基因型填充有一步法和二步法兩種策略,示意如下以上截圖來自文獻Genotype Imputation
  • 基因組測序是什麼
    什麼是基因組測序?就其本身而言,並不是很多。通常將基因組測序與「解碼」進行比較,但是序列在代碼中仍然非常多。從某種意義上說,基因組序列只是一個很長的字母串,用一種神秘的語言表達。當您閱讀一個句子時,其含義不僅限於字母順序。這些字母的單詞和語言語法也是如此。同樣,人類基因組不僅僅是其序列。
  • 基因組規模的大小並沒有什麼卵用?
    基因組規模的大小並沒有什麼卵用?時間:2015-09-25 08:04   來源:川北在線整理   責任編輯:沫朵 川北在線核心提示:原標題:基因組規模的大小並沒有什麼卵用 對人類的基因測序工程剛剛過去10年,在那之後的工作更加艱巨,我們需要檢測每個基因片段是否被表達,或者僅僅就是被攜帶在染色體中。
  • 人類基因組指導手冊發布:生成了詳細基因組圖譜
    基因多樣性是生物多樣性的重要層次,不光是野生動植物物種如此,人類也是如此。近日,中國綠髮會國際工作顧問Fred Dubee先生分享了一則來自人類基因組的全球前沿進展。據美國能源部勞倫斯伯克利國家實驗室在2020年8月15日發布的消息:一項歷時17年的研究計劃,如今已經成功的繪製出了一份詳細的基因組圖譜,揭示了數十萬個潛在調控區域的位置,這一資源將有助於所有人類生物學研究向前發展。在人類基因組的30億個鹼基對中,只有2%編碼構建和維持我們身體的蛋白質。
  • 基因組測序原理及其發展歷程
    本文將介紹當前的基因組測序原理及其發展歷程。
  • 探索人類基因組「荒漠」中的秘密[圖]
    該項目旨在識別出人類基因組序列中的所有功能區,包括轉錄、轉錄因子聯合、染色質結構和組蛋白修飾區,現在科學家們可以確認,人類基因組中80%的成分至少有一種生化功能。  人類基因組計劃與ENCODE計劃之間有著承上啟下的關係。人類基因組計劃發現基因組中僅有1.5%的序列是給蛋白質編碼的,其餘98.5%的序列以前被認為是「垃圾」。
  • 美國國家人類基因組研究所再發布人類基因組研究領域新願景
    近日,一項刊登在國際雜誌Nature上的研究報告中,來自美國國家人類基因組研究所(NHGRI)等機構的科學家們發表了他們在基因組前言研究領域改善人類健康的戰略願景,這一願景描述了未來十年人類基因組學研究中最引人注目的研究重點和研究機遇,這標誌著這一研究領域或有望進入一個新的研究時代。
  • 人類基因組研究轉移戰場
    據新華社北京4月15日電(記者李斌)人類基因組序列「全書」提前繪製完成後,人類基因組研究將向何處去?國際「人類基因組單體型圖計劃」中國協調人楊煥明教授在接受新華社記者專訪時透露,人類基因組研究的「主戰場」已經轉移至「單體型圖」,以尋找不同人群之間的基因差異,繪製出一張更為全面的人類基因組遺傳整合圖。「為什麼每個人對疾病的易感性不同?
  • 科學家初步完成人類與黑猩猩基因組比較
    分析顯示,黑猩猩與人類在基因上的相似程度達到96%以上。       這一成果發表在9月1日出版的《自然》雜誌和9月2日出版的《科學》雜誌上。黑猩猩是第一個基因組測序的非人類靈長動物,也是現存與人類關係最密切的「表兄弟」。科學家稱,將黑猩猩與人類基因組進行比較是一個「歷史性成果」。
  • 人類基因組序列圖繪製完成
    本報北京4月15日凌晨電(記者謝湘)美國聯邦國家人類基因組研究項目負責人弗朗西斯?柯林斯博士於美國當地時間4月14日中午在華盛頓宣布,人類基因組序列圖繪製成功,人類基因組計劃的所有目標全部實現。
  • 在爭議聲中人類基因組編寫計劃即將啟動
    一群科學家本月初宣布將於今年籌資1億美元啟動人類基因組編寫計劃,目標包括10年之內耗資數十億美元從頭開始合成出一條完整的人類基因組。這一計劃,被有些人視為新時代基因革命的創舉,同時也引來許多爭議。
  • 美推出人類基因組編寫計劃
    人類基因組計劃從1990年持續到2003年,重點是基因測序,讓科學家能夠「閱讀」基因組。而人類基因組編寫計劃的重點是構建基因,讓科學家能夠「編寫」基因組。科學家說,今天雖然基因組測序技術仍在以極快速度發展,但構建基因的能力仍基本局限於少量短的片段,限制了對生命的了解。
  • 人類基因組「基本信息」首次公布
    本報北京2月12日電參與人類基因組計劃的美、英、日、法、德、中六國科學家今天共同宣布,經過初步測定與分析,人類基因組約有32億鹼基,包含約3萬到4萬個蛋白編碼基因。這是繼去年6月26日人類基因組「工作框架圖」公布後,科學家首次公布人類基因組第二階段的「基本信息」。
  • 人類基因組時代的泛基因組學
    我們熟知的 「人類基因組計劃(HGP)」 測序得到的基因組序列其實只是人類這個物種少量個體的基因組序列,我們將它稱之為「人類基因組參考序列」,它由若干個高加索人的基因組序列合併而成。我們知道基因組學的研究都需要圍繞 「參考基因組」 來開展,因此它的作用和意義非凡。
  • 迄今最詳細的人類基因組分析數據出爐
    國際科學界9月5日宣布,「DNA元素百科全書」計劃(簡稱ENCODE)獲得了迄今最詳細的人類基因組分析數據,其成果由於非常複雜,以30篇論文的形式同時發表在英國《自然》雜誌等多份學術刊物上。這是「人類基因組計劃」之後國際科學界在基因研究領域取得的又一重大進展。人類基因組計劃讓我們得到了人類基因組圖譜,但其中許多基因過去都不知道有什麼功能。研究者最常關注的是與編碼蛋白質相關的基因,但它們只佔整個基因組的約2%。本次公布的數據顯示,人類基因組中約80%的基因都有某種確定的功能。
  • 西安交大在《科學》發文揭示鴉片罌粟基因組及嗎啡合成原理—新聞...
  • 基因組編輯技術尚不能安全用於人類
    ,可遺傳人類基因組編輯(HHGE)當前還達不到安全、有效地應用於人類的相關標準,各國在決定是否批准這類技術進入臨床應用前,應展開廣泛的討論並進行嚴格監督。這一國際委員會名為「人類生殖系基因組編輯臨床應用國際委員會」,由來自10個國家科研機構的18名代表組成,包括美國國家醫學院、國家科學院以及英國皇家學會等。
  • 新知:人類基因組沒那麼多
    國際先驅導報文章2004年10月21日出版的《自然》雜誌,以15頁的篇幅發表了國際人類基因組測序聯盟(IHGSC)的最新成果。這篇名為「完成人類基因組常染色質測序」的文章公布了人類基因組迄今為止最精確的序列。2001年的草圖中有15萬個空隙,而這份新序列圖只留下了341個空隙。