在說關聯分析和連鎖分析之前,我們先聊聊性狀和QTL。
廣義來說,大千世界,凡是肉眼可見的表現都能稱之為性狀(當然還有肉眼凡胎看不到的性狀)。在某一個物種中,某個性狀可能會有不同的表現,比如人頭髮有直有卷,孟德爾的豌豆有圓有扁。這種我們稱之為相對性狀。性狀由對應的基因控制。根據控制基因的個數,可以把性狀分為質量性狀和數量性狀。質量性狀由一對或者少數幾對基因控制,表現在表型數據上就是不連續的變異,不恰當的例子是人分為男女,沒有中間型(人妖除外)。數量性狀是連續變異的性狀,其遺傳基礎複雜,受多基因控制,且易受環境影響,比如人的身高,有小巨人姚明,也有小土豆內特·羅賓遜,還有被吐槽身高的半殘廢的靠譜er。通常大多數的性狀為數量性狀,比如作物的產量、質量、株型、生長發育;動物的肌肉、脂肪沉積、產蛋/肉等性狀。控制數量性狀的基因在基因組中的位置稱為數量性狀基因座即QTL(quantitative trait locus)。QTL定位需要一個群體,而群體又分為遺傳分離群體和自然群體。以下的連鎖分析和關聯分析就是分別基於這兩種群體展開。遺傳群體群體通俗來說就是基於人工雜交/回交若干代後形成的遺傳分離群體,咱們常說的F1,F2,BC,DH,RIL,NIL等等都屬於遺傳分離群體。自然群體則是收集的不同品種,地方種,或者種質資源等等材料。某些特殊的群體比如NAM,MAGIC可同時進行連鎖分析和關聯分析,本文暫且不表。
為了探明基因(標記)和性狀之間的聯繫(相關性和因果性),遺傳學家和統計學家進行了很長時間的探索(QTL定位)。這個時候,連鎖分析(linkage analysis)就登場了。基於連鎖分析的QTL定位即是以遺傳連鎖圖譜為基礎,通過數量性狀的表型值與分子標記間的連鎖分析,即當標記與特定性狀連鎖時,不同標記基因型個體的表型值間存在顯著性差異,以此來確定各個數量性狀基因座位在染色體上的位置和效應,以及各個QTL間、與環境之間的互作效應。常用的基於連鎖分析定位方法是利用雙親本雜交(回交)材料所構建的遺傳分離群體進行的。定位及效應估計的精確性和完整性在很大程度上依賴於定位的統計模型和方法。QTL定位方法主要有單標記分析法(老古董)、區間作圖法(F1群體中較常用)、複合區間作圖法(非cp類群體中常用)、完備區間作圖法等。
目前通過正向遺傳克隆的大多數基因均是採用連鎖分析進行初定位,然後進行精細定位,定位的準確性較高,但是連鎖以檢測群體內的遺傳重組為基礎,在構建遺傳分離群體時由於雜交/自交次數的限制,發生的重組次數有限,所以定位的精度也有限。此外分離群體一般由兩個特定的材料構建,因此連鎖分析只涉及同一座位的兩個等位基因,而且這兩個親本材料也許僅能代表該物種一小部分的相關表型變異,這就導致了在不同的遺傳群體中發生分離的可能是不同的。
關聯分析(Association Mapping)最開始應用在人類遺傳研究中,在2001年被首次被引入到植物研究中。關聯分析是以連鎖不平衡(linkage disequilibrium)為基礎的鑑定群體(一般是自然群體)中控制目標性狀的功能基因以及挖掘功能位點的分祈方法。選鎖不平衡是生物群體在自然選擇過程中出現的一種現象,是處在不同基因座上等位基因的非隨機組合。連鎖不平衡的程度通常是以D為基礎的兩個數值——D』值和r2值進行衡量,D』與r2值的範圍都是從0到1。當兩個基因座上的等位基因分別為A、a和B、b時,其等位基因組成的單倍型為AB、Ab、aB、ab四種。當D≠0時,兩個基因座之間處於連鎖不平衡。當D』與r2=1時,說明基因座之間完全選鎖不平衡。一般會採用D』或者r2值>0.8來進行單體型分析。針對自然群體,關聯分析策略的選擇及其解析度取決於目標群體內的連鎖不平衡程度及等位基因或單倍型的頻率。
關聯分析具有以下優點:
花費時間少,一般採用自然群體為材料,無需構建遺傳分離群體;
廣度大,關聯分析群體具有廣泛的變異,並且關聯分析可以同時檢測相同位點的多個等位基因,將優良等位變異直接利用於育種實踐;
精度高,關聯群體中發生的重組為歷史重組,其定位精度可以大大提高,某些自然群體甚至可以精確到單個SNP的水平。
連鎖分析和關聯分析的比較(Yu et al., 2006)儘管關聯分析在數量性狀的解析中存在上述優勢,但也具有一些不足之處。群體遺傳結構和等位基因頻率的存在,可能會導致假陽性的關聯結果。等位基因頻率的影響會通過MAF(最小等位基因頻率)對相關SNP進行過濾。而群體結構控制一般採用兩種方法:一個是採用用覆蓋全基因組的隨機標記來估計群體的結構對關聯分析的影響,並假定這種結構對所有座位的影響都是相近的;另一個是利用隨機標記估計群體結構(STRUCTURE),然後整合到統計模型,比如常見的MLM模型。此外,對於某些小眾的但是具有特殊表型(比如脅迫抗性)種質資源,在進行關聯分析時,其SNP數據可能會被過濾掉。這種情況下,需要構建雙親的遺傳分離群體進行QTL定位。
不論是連鎖分析還是關聯分析,單獨使用都具有一定的局限。鑑於關聯分析與連鎖分析存在優勢互補,結合連鎖分析和關聯分析兩種方法進行性狀定位已經成了黃金搭檔。具體到項目設計來說,可以以200個左右的自然群體材料進行多個表型的全基因組關聯分析,然後從這200個材料中選擇感興趣的具有極端表型的雙親構建遺傳分離群體,通過高密度遺傳圖譜QTL定位或者BSA分析,相同性狀的共定位loci即是下一步需要克隆基因的位點。後續靠譜er會針對這類思路進行相關文獻的解讀,請讀者朋友們保持關注。
參考文獻
Yu J, Buckler E S. Genetic association mapping and genome organization of maize. Current opinion in biotechnology, 2006, 17(2): 155-160.
什麼是Bonferroni校正?| 群體遺傳專題
什麼是SNP?| 群體遺傳專題
什麼是Graded-seq?| 群體遺傳專題
一文說清楚遺傳分離群體類型和BSA | 群體遺傳專題
一文說明白BSA到底需要幾個混池 | 群體遺傳專題
一文說清楚BSA分析的閾值選擇 | 群體遺傳專題