關聯分析和連鎖分析 | 群體遺傳專題

2021-02-23 聯川生物

在說關聯分析和連鎖分析之前,我們先聊聊性狀和QTL。

廣義來說,大千世界,凡是肉眼可見的表現都能稱之為性狀(當然還有肉眼凡胎看不到的性狀)。在某一個物種中,某個性狀可能會有不同的表現,比如人頭髮有直有卷,孟德爾的豌豆有圓有扁。這種我們稱之為相對性狀。性狀由對應的基因控制。根據控制基因的個數,可以把性狀分為質量性狀和數量性狀。質量性狀由一對或者少數幾對基因控制,表現在表型數據上就是不連續的變異,不恰當的例子是人分為男女,沒有中間型(人妖除外)。數量性狀是連續變異的性狀,其遺傳基礎複雜,受多基因控制,且易受環境影響,比如人的身高,有小巨人姚明,也有小土豆內特·羅賓遜,還有被吐槽身高的半殘廢的靠譜er。通常大多數的性狀為數量性狀,比如作物的產量、質量、株型、生長發育;動物的肌肉、脂肪沉積、產蛋/肉等性狀。控制數量性狀的基因在基因組中的位置稱為數量性狀基因座即QTL(quantitative trait locus)。QTL定位需要一個群體,而群體又分為遺傳分離群體和自然群體。以下的連鎖分析和關聯分析就是分別基於這兩種群體展開。遺傳群體群體通俗來說就是基於人工雜交/回交若干代後形成的遺傳分離群體,咱們常說的F1,F2,BC,DH,RIL,NIL等等都屬於遺傳分離群體。自然群體則是收集的不同品種,地方種,或者種質資源等等材料。某些特殊的群體比如NAM,MAGIC可同時進行連鎖分析和關聯分析,本文暫且不表。

為了探明基因(標記)和性狀之間的聯繫(相關性和因果性),遺傳學家和統計學家進行了很長時間的探索(QTL定位)。這個時候,連鎖分析(linkage analysis)就登場了。基於連鎖分析的QTL定位即是以遺傳連鎖圖譜為基礎,通過數量性狀的表型值與分子標記間的連鎖分析,即當標記與特定性狀連鎖時,不同標記基因型個體的表型值間存在顯著性差異,以此來確定各個數量性狀基因座位在染色體上的位置和效應,以及各個QTL間、與環境之間的互作效應。常用的基於連鎖分析定位方法是利用雙親本雜交(回交)材料所構建的遺傳分離群體進行的。定位及效應估計的精確性和完整性在很大程度上依賴於定位的統計模型和方法。QTL定位方法主要有單標記分析法(老古董)、區間作圖法(F1群體中較常用)、複合區間作圖法(非cp類群體中常用)、完備區間作圖法等。

目前通過正向遺傳克隆的大多數基因均是採用連鎖分析進行初定位,然後進行精細定位,定位的準確性較高,但是連鎖以檢測群體內的遺傳重組為基礎,在構建遺傳分離群體時由於雜交/自交次數的限制,發生的重組次數有限,所以定位的精度也有限。此外分離群體一般由兩個特定的材料構建,因此連鎖分析只涉及同一座位的兩個等位基因,而且這兩個親本材料也許僅能代表該物種一小部分的相關表型變異,這就導致了在不同的遺傳群體中發生分離的可能是不同的。

關聯分析(Association Mapping)最開始應用在人類遺傳研究中,在2001年被首次被引入到植物研究中。關聯分析是以連鎖不平衡(linkage disequilibrium)為基礎的鑑定群體(一般是自然群體)中控制目標性狀的功能基因以及挖掘功能位點的分祈方法。選鎖不平衡是生物群體在自然選擇過程中出現的一種現象,是處在不同基因座上等位基因的非隨機組合。連鎖不平衡的程度通常是以D為基礎的兩個數值——D』值和r2值進行衡量,D』與r2值的範圍都是從0到1。當兩個基因座上的等位基因分別為A、a和B、b時,其等位基因組成的單倍型為AB、Ab、aB、ab四種。當D≠0時,兩個基因座之間處於連鎖不平衡。當D』與r2=1時,說明基因座之間完全選鎖不平衡。一般會採用D』或者r2值>0.8來進行單體型分析。針對自然群體,關聯分析策略的選擇及其解析度取決於目標群體內的連鎖不平衡程度及等位基因或單倍型的頻率。

關聯分析具有以下優點:

花費時間少,一般採用自然群體為材料,無需構建遺傳分離群體;

廣度大,關聯分析群體具有廣泛的變異,並且關聯分析可以同時檢測相同位點的多個等位基因,將優良等位變異直接利用於育種實踐;

精度高,關聯群體中發生的重組為歷史重組,其定位精度可以大大提高,某些自然群體甚至可以精確到單個SNP的水平。

連鎖分析和關聯分析的比較(Yu et al., 2006)

儘管關聯分析在數量性狀的解析中存在上述優勢,但也具有一些不足之處。群體遺傳結構和等位基因頻率的存在,可能會導致假陽性的關聯結果。等位基因頻率的影響會通過MAF(最小等位基因頻率)對相關SNP進行過濾。而群體結構控制一般採用兩種方法:一個是採用用覆蓋全基因組的隨機標記來估計群體的結構對關聯分析的影響,並假定這種結構對所有座位的影響都是相近的;另一個是利用隨機標記估計群體結構(STRUCTURE),然後整合到統計模型,比如常見的MLM模型。此外,對於某些小眾的但是具有特殊表型(比如脅迫抗性)種質資源,在進行關聯分析時,其SNP數據可能會被過濾掉。這種情況下,需要構建雙親的遺傳分離群體進行QTL定位。

不論是連鎖分析還是關聯分析,單獨使用都具有一定的局限。鑑於關聯分析與連鎖分析存在優勢互補,結合連鎖分析和關聯分析兩種方法進行性狀定位已經成了黃金搭檔。具體到項目設計來說,可以以200個左右的自然群體材料進行多個表型的全基因組關聯分析,然後從這200個材料中選擇感興趣的具有極端表型的雙親構建遺傳分離群體,通過高密度遺傳圖譜QTL定位或者BSA分析,相同性狀的共定位loci即是下一步需要克隆基因的位點。後續靠譜er會針對這類思路進行相關文獻的解讀,請讀者朋友們保持關注。

參考文獻

Yu J, Buckler E S. Genetic association mapping and genome organization of maize. Current opinion in biotechnology, 2006, 17(2): 155-160.

什麼是Bonferroni校正?| 群體遺傳專題

什麼是SNP?| 群體遺傳專題

什麼是Graded-seq?| 群體遺傳專題

一文說清楚遺傳分離群體類型和BSA | 群體遺傳專題

一文說明白BSA到底需要幾個混池 | 群體遺傳專題

一文說清楚BSA分析的閾值選擇 |  群體遺傳專題

相關焦點

  • | 群體遺傳專題
    Bonferroni校正的主要應用範圍就是GWAS,即全基因組關聯分析。在全基因組關聯分析中,如果對每個位點進行測試,以0.05的水平進行篩選,由上文可知,在1000000個位點中其假陽性的位點可能達到5%,即50000個,所以,為了控制假陽性的概率,以Bonferroni校正對閾值進行調整。Bonferroni校正會將設定的顯著性水平除以測試次數,最終得到一個總的閾值。
  • 連鎖分析和關聯分析中新方法綜述
    本文引領讀者了解連鎖分析與關聯分析之間的區別與聯繫,綜述了連鎖分析和關聯分析中的新方法和新應用,並指出了連鎖分析和關聯分析在遺傳學研究中的發展方向及趨勢。 目前擔任中科院心理研究所客座研究員的Jurg Ott教授是國際知名的資深學者,是遺傳統計研究的先驅。
  • 群體遺傳分析—LD連鎖不平衡
    在群體遺傳學研究中,LD連鎖不平衡分析是最常見的分析內容,也是關聯分析的基礎。
  • 詳解GATK突變硬過濾 | 群體遺傳專題
    對於聯川的重測序組來說,每天都會和許許多多的SNP打交道(什麼是SNP?),經手處理過的SNP位點何止上億。而在他們手中,GATK(Genome analysis toolkit)是一柄鋒利無比的雕刻刀,原始數據經過GATK的處理之後才能去偽存真,顯出本色,進入後續的挖掘過程。GATK(不是GANK也不是GTA!)
  • 群體遺傳中的主成分分析及其解讀
    主成分分析是群體遺傳學中常用的分析手段,一般用來 1)分析群體中存在的群體結構(分層); 2) 推斷群體歷史; 3) 關聯分析中對群體結構進行校正
  • 植物基因克隆發Nature的秘密全在這裡了 | 群體遺傳專題
    這些材料包含了大量的適應當地環境(包括土壤肥力)的遺傳變異,是優良的遺傳育種資源。目前水稻中有幾個氮素利用效率的基因被克隆(NRT1.1B,OsNR2),但是在更廣泛的群體範圍內,氮素利用的遺傳基礎並沒有被全面的揭示。本文就利用水稻的核心種質進行GWAS分析,鑑定到OsTCP19一個啟動子區域的突變和氮素響應的水稻分櫱表型關聯。該基因的等位基因和不同地理區域的土壤氮素含量相關。
  • GWAS專題之連鎖不平衡
    小編上一期簡單介紹了關聯分析的發展歷程(戳這裡看回放),今天主要和大家分享的是關聯分析的基礎和前提
  • 群體遺傳|根據SNP驗證自然選擇—XPEHH分析
    簡介最近自己的項目需要做XPEHH分析,手裡只有群體的vcf文件,然而做單倍型分析最不可或缺的就是map文件,折騰了好久,總算是找到了一種解決辦法。這篇推送記錄了我從vcf文件到完成xpehh分析及可視化的所有過程,自己也是剛接觸生信,走了很多彎路,也參考了很多別人的寫的文章(文中和文末附有連結地址)作此記錄希望也能夠幫助到他人。如有不足之處,大家盡情批評指正。
  • 【科普】種質資源——遺傳多樣性分析
    遺傳多樣性評價、分子身份證和新基因挖掘是種質資源利用的3大內容。遺傳多樣性指的是群體的複雜程度,遺傳多樣性評價方法主要包括形態學標記、同工酶標記和DNA分子標記。目前最流行的方法是DNA分子標記的方法,分子標記的發展從最初的AFLP、RFLP、RAPD和SSR標記,過渡到更高通量、二等位和共顯性的SNP標記。
  • 利用CUBIC群體推進定製化玉米遺傳改良 | Genome Biology
    論文標題:CUBIC: an atlas of genetic architecture promises directed maize improvement 期刊:Genome Biology 作者:Hai-Jun Liu, Xiaqing Wang et al.
  • 全基因組關聯的meta分析研究確定了多種長壽基因
    | 作者:範大志 (佛山市婦幼保健院)近日,德國馬克思·普朗克老化生物研究所(Max Planck Institute for Biology of Ageing)的Deelen J研究者們,通過全基因關聯meta分析的方法確定了多個人類長壽基因位點及相關基因
  • 鄭州大學公共衛生學院平智廣副教授:從哈溫平衡到連鎖不平衡
    哈溫定律是群體遺傳中最重要的原理,它解釋了繁殖如何影響群體的基因和基因型頻率。在滿足HWE的情況下,進行基因多態性與疾病遺傳學關聯研究時,研究者通常需要考慮不同遺傳模式(顯性、隱性、加性等)下基因的遺傳學作用,但這種分析策略存在以下問題:⑴多種遺傳模式同時分析導致統計效能降低,Ⅰ類錯誤率升高,即假陽性率升高。⑵當兩種遺傳模式均有統計學意義時,結果難以解釋。⑶不同的研究所得到的結果呈現多樣性,無法直接進行比較。雖然存在眾多問題,但其依然是遺傳學研究常用的分析策略。
  • 華中農業大學油菜團隊揭示油菜籽粒含油量自然變異的遺傳基礎
    近年來群體轉錄組分析在關聯群體中的應用為「後關聯分析時代」的研究提供了新思路。  群體結構,油菜籽粒含油量QTL定位,QTL效應以及受選擇分析  研究利用505份甘藍型油菜群體的基因組重測序數據以及從中選擇的309份代表性材料種子發育中兩個時期的轉錄組數據,通過全基因組關聯分析(GWAS)和全轉錄組關聯分析(TWAS)等方法對油菜籽粒含油量的遺傳基礎進行了系統解析
  • 如何做好關聯分析(購物籃分析)
    零售超市或商場,可以通過產品關聯程度大小,指導產品合理擺放,方便顧客最購買更多其所需要的產品。最常見的就是超市裡面購買肉和購買蔬菜水果等貨架會擺放得很近,目前就是很多人會同時購買肉與蔬菜,產品的合理擺放也是提高銷售的一個關鍵。  3. 進行相關產品推薦或者挑選相應的關聯產品進行精準營銷。
  • 世界首張鯉魚遺傳連鎖圖譜繪出
    本報北京7月17日電我國研究人員日前成功地繪製出世界第一張鯉魚的遺傳連鎖圖譜,從而為今後在DNA分子層面上培育具有某些特定優良品質的鯉魚品種,創造了必要的技術條件。鑑定此項成果的農業部的有關專家認為,此項研究在國際同類研究中處於領先水平,鯉魚遺傳連鎖圖譜的繪製和從DNA分子層面上研究獲得的抗寒性分析結果,在世界上尚屬首次。據了解,在這張圖譜中,迄今人們已知的與鯉魚優良品質密切相關的DNA分子,被按照互為「鄰居」的身份,準確地排列出一個次序,並標記出所處的位置。此圖譜共有262個DNA分子標記,其中基因標記178個。
  • 遺傳發育所 — 分子育種生涯從這裡啟航
    受益於國家 863 生物技術計劃,朱立煌老師等水稻領域的專家藉助於洛克菲勒基金會的資助,赴歐美許多國家開展分子生物學研究和培訓,在遺傳群體構建及其分子標記分析方面緊緊跟蹤國際前沿。遺傳所非常擅長花粉培養的陳英老師當時正在利用水稻品種窄葉青 8 號和京系 17 培育雙單倍體(DH)群體,並與朱老師合作用於分子標記 RFLP 的分析。
  • 【支持線上直播】微生物組學數據分析與挖掘專題培訓班(3.17-19)
    3、手把手帶你進行微生物組學數據的分析包括微生物多樣性測序數據處理和宏基因組數據分析,如原始數據的質控和拼接、OTU聚類、物種注釋、宏基因組數據的組裝、基因預測以及基於物種豐度、功能豐度表進行的有效信息的統計分析。
  • 群體結構分析三種常用方法 (上篇)
    寫在前面在群體遺傳學和進化生物學相關的項目中,群體結構分析是最常見也是最初步的分析內容,可以幫助我們確認樣本分群是否符合預期以及檢測離群樣本。群體結構分析最常用的三種方法就是PCA、系統發生樹和祖先成分堆疊圖,下面我們將使用發表在Genome Rearch上的Gou et al,2014中的數據(60隻狗全基因組SNP)逐一講解,分為上下兩篇。一、 PCA分析1.
  • 4億人遺傳分析揭示:基因對壽命的作用有限,你和誰結婚影響更大
    這種將壽命長短完全歸於遺傳影響的想法先已被證明是完全錯誤的。通過對 4 億人的追蹤遺傳分析,研究人員發現遺傳基因對於壽命的影響作用十分有限。該研究的最新進展發表於 11 月 7 日的《Genetics》雜誌。
  • 層次典型相關分析揭示了植物的表型、基因型和地理氣候之間的關聯
    文章探討了如何利用高級典型相關分析(CCA)將來自擬南芥地理起源的地理氣候特徵與基因組特徵結合起來進行表型預測和關聯分析,植物表型資訊介紹如下。 植物通過適應其地理起源的當地環境改變了自身的遺傳變異。雖然當地環境特徵與植物的基因型和其他基因組特徵相關,但它們也可以作為基因型-表型關聯的指示,從而提供與環境依賴性相關的其他信息。