上一章學習了群體中等位基因頻率變化和Hard-Weinberg平衡。本章學習影響群體遺傳一個很重要的參數 - 遺傳漂變和有效群體數量。
Hardy-Weinberg平衡的假設是群體無限大。但實際上沒有生物群體能滿足這一假設。群體大小對等位基因頻率有十分顯著的影響。
遺傳漂變:在生物學群體中,一代向下一代的遺傳傳遞中,由於個體數、配子數和等位基因是一個有限採樣傳遞,因而產生了子代和親代在等位基因頻率上的隨機差異。這種差異就是遺傳漂變。採樣樣本量越小,遺傳漂變越大。
Wright-Fisher模型:該模型是一個簡化群體模型,其假設條件和Hardy-Weinberg平衡的假設條件幾乎一致,唯一的不同是該模型假設的群體數量是有限的。比較關鍵的假設是:世代無交叉重疊;雌雄比例相同;群體數量N保持不變;無自然選擇。
在Wright-Fisher模型下,隨著時間的延長,遺傳漂變會最終使得等位基因在群體中固定fixation或者消失loss。同時,群體數量越小,遺傳漂變越大,等位基因在群體中固定或消失的越快。
【在N=4和N=20時,50世代時間內等位基因的頻率變化。下排兩圖是對應基因型的變化】
問題來了:如果時間足夠長,那麼在遺傳漂變的作用下,所有等位基因要麼固定、要麼消失,所有的多態位點都不復存在。那麼現實生物群體中為什麼會一直長期存在大量的多態性位點呢?
遺傳漂變同樣會導致群體中基因型頻率的改變。會導致群體中雜合子頻率降低。但是這和近緣交配導致的雜合子頻率降低是不同的!!遺傳漂變是因為基因頻率改變導致的雜合子頻率減低;而近緣交配中基因頻率不發生變化。
一個等位基因在群體中最終固定的概率和它在群體中起始基因頻率是一樣大的。如下圖:
【某一等位基因起始頻率為0.2時(左圖),那麼該等位基因最終在群體中固定的概率是0.2,另外0.8的概率是消失;反之,右圖】
本部分介紹3種遺傳漂變模型:二項分布模型、馬爾科夫鏈、擴散模型。
二項分布模型:即一些二項分布的基本屬性。當兩個等位基因頻率相等時(p=q=0.5),最後結果方差最大,遺傳漂變的的效應最大。
馬爾科夫鏈:轉移概率,與初始狀態無關。
擴散模型:一個初始頻率為p的等位基因在群體數為2N的群體中固定下來的所需要的預期時間為:
其在群體中消失所需的預期時間為:
【不同起始等位基因頻率的基因在群體中固定或消失所需要的時間】
等位基因起始頻率越接近於0,其在群體中固定所需時間越長,最長的平均時間為4N(世代)。當兩個等位基因頻率p=q=0.5時,群體中的雜合子持續時間最長,為2.8N(世代)。
有效群體數量有效群體數量並不是根據統計群體數量來定義的,而是根據遺傳變異在群體中的表現來定義群體大小的。如果一個群體在遺傳漂變的作用下,等位基因頻率在一定時間內發生的改變很緩慢,那麼我們就認為該群體的有效群體數量很大;反之,如果等位基因頻率變化很大,那麼我們就認為該群體的有效群體數量很小。有效群體數量實際上是一個虛擬的群體參數,翻譯成「等效」群體數量更合適,即不管他實際統計群體數量大小,如果該群體的所保持的遺傳變異或者所經歷的遺傳漂變和一個理想的Wright-Fisher群體一致,那麼該Wright-Fisher模型的群體數量就等效於該群體的群體數量。
那麼哪些因素會影響有效群體數量呢?
首先是群體數量的波動。比如因為捕食關係的造成的雪兔/猞猁數量的變化,或者是建立者效應founder event。此時的有效群體數量可以根據調和平均值計算:
比如一個群體第一代有效群體數是100,第二代是10,第三代是100,那麼根據上述公式可以計算該群體的有效群體數是25,而其統計平均群體數是70。在實際中,這種群體波動造成的有效群體數量的變化非常常見,比如群體數量隨季節性變化。
建立者效應:一個群體是由一個或少數幾個個體建立起來的,該群體往往有較小的有效群體數量。比如少數有害物種入侵。
瓶頸效應:一個群體突然經歷了劇烈短暫的群體數量減少,進而導致了遺傳漂變突然增大,並顯著影響了後續群體的有效群體數量(即便後續群體的統計群體數量的得到很快恢復)。
第二個影響有效群體數量的因素是交配模式。如果群體兩性交配模式不是1:1,比如一雄多雌或者一雌多雄,某一性別個體對後代的貢獻可能遠遠大於同性別其他個體。那麼對該性別來說,實際上是經歷了瓶頸效應。這種情況下,該群體的有效群體數量為:
其中,
第三個影響有效群體數量的因素是子代貢獻率。在Wright-Fisher模型中,每對親代產生兩個子代。實際中,一個群體一對親代平均產生2個後代,但是並不是每個親代都產生2個後代,有些可能產生後代多,有些可能產生1個,後者0個。這種後代數量的差異就會影響到有效群體數量。
其中,
【在一個有效群體數量為100、平均後代為2的群體中,後代數量變異對有效群體數量的影響。第一個圖是Possion分布,有效群體數量不變。第二個圖方差大於均數,實際上是負二項分布,有效群體數量變小。第三個圖方差小於均數,有效群體數量變大】
後代數量的變異過小可能會導致有效群體數量比實際統計群體數量大。一個極端的情況時群體中所有親代產生的後代數都是兩個,此時有效群體數量則是實際統計群體數量的2倍。這和群體波動以及交配模式對有效群體數量的影響不同,群體波動和交配模式不會使有效群體數量大於統計群體數量。
漂變和近交一個數量有限群體可以看成是存在某種程度的近交群體。群體越小,發生近交的可能性越大,所以遺傳漂變和近交常常是緊密關聯的。它們導致的結果也很相似,都是雜合子頻率降低。
其中,
下圖是不同群體大小中雜合子變化情況:
雖然漂變和近交都會造成群體中雜合子降低,但是再強調一遍,它們的機制不同。漂變伴隨著等位基因頻率的改變,而近交只有基因型頻率改變,沒有等位基因頻率的改變。
【關於島嶼種群(小群體)和大陸種群(大群體)雜合子頻率的比較。Fe>0表示大陸種群雜合子比例高。可以看出大部分物種的大陸種群要比島嶼種群有更高的雜合子頻率】
有多種有效群體數量估計方式:近交有效群體數量 - 在一個群體中兩個等位基因是來自共同祖先IBD的概率,和該概率等效的理想群體數就是近交有效群體數。變異有效群體數量 - 在一個群體中採樣變異大小和一個理想群體採樣變異大小相等,那麼該理想群體的數量就是該群體變異有效群體數量。
上述對有效群體數量不同的估計方式可能得到的結果會有所差異。
從實際經驗來說,有效群體數量通常比統計群體數量少很多,可少至1/10甚至更多。下圖是一些關於統計群體數和有效群體數比較的研究。
繁育有效群體數 - 理想的群體每一個個體都能在空間中自由移動,自由交配。但是實際上個體的移動空間範圍是有一定限度的,尤其是對於一些植物,本身不能移動,配子播散數量隨距離減少。這就違背了自由交配的原則。也就形成了距離隔離isolation by distance(IBD),此IBD非identical by descent。這時的有效群體數量也會變小。
距離隔離:隨著空間距離的增加,交配概率或者配子擴散數量降低。
此外,細胞質基因組(線粒體或者葉綠體)的有效群體數量要低於核基因組有效群體數量。因為細胞質基因組都是單倍體,而且不存在減數分裂。細胞質基因組有效群體數量大概是核基因組有效群體數量的1/4。
基因系譜和溯祖模型溯祖:根據當前的群體樣本逆推過去群體中發生的事件,直到找到一個共同的祖先。
最近共同祖先Most Recent Common Ancester:在系譜中,對當前樣本溯祖,第一個出現的共同的祖先,即最近共同祖先。
對於一個2N大小的群體,兩個系譜能夠在上一代中溯祖的概率為
那麼兩個系譜在t代或之前溯祖的累計概率為:
所以一個2N群體的兩個系譜平均理論溯祖時間是2N代。
對於多個系譜的溯祖,系譜越多,溯祖發生的概率越大,等待時間越短。
如下:
6個系譜發生一次溯祖要
另外,我們在描述溯祖時間的時候,通常用2N為單位。比如一個2N=100的群體在t=1.4的時候發生了溯祖,那麼實際上是指100*1.4=140,即140代時候發生了溯祖。如果該群體數量是20,那麼則是在28代的時候發生了溯祖。群體數量越小,找到所有系譜的最近共同祖先所需的時間越短。
溯祖樹高:從當下到k個系譜找到它們的最近共同祖先所需要的時間。樹高平均為2N代-4N代,當k=2時,所需時間最短,為2N,隨著k的增加,所需時間增長,最長為4N。公式如下:
在溯祖時間中,隨著時間的回溯,系譜逐漸減少,發生一個溯祖的所需時間越長。
溯祖模型中的有效群體數量在群體經歷了瓶頸事件時,群體中的各個系譜比瓶頸前或後更容易找到共同祖先,所以在瓶頸的溯祖時間變短。如下圖瓶頸事件:
擴張群體:越靠近當下時間,群體數量越大,溯祖時間越長;反之,隨著時間回溯,群體數量變小,溯祖時間變短。
收縮群體:越靠近當下,群體數量越小,溯祖時間越短;反之,隨著時間回溯,群體數量擴大,溯祖所需時間越長。
擴張群體和收縮群體樹如下:
總結由於群體不再是無限群體,在一代一代遺傳傳遞過程中,存在抽樣問題,因為就會產生抽樣誤差,這種誤差導致的基因頻率的改變就是遺傳漂變。遺傳漂變最終會使所有的變異得到固定或者消失。起始頻率越大,最終固定的概率越大,反之越小。
當兩個等位基因頻率相等時,該基因位點保持多態性的時間越長,理論上可以保持2.8N代。
有效群體數量實際上是根據實際群體遺傳過程對Wright-Fisher群體做的等效,是方便我們研究虛擬的群體參數。和實際統計群體數量關係不大,但通常比實際統計群體數量小很多。可以通過很多模型來計算有效群體數量,比如近交有效群體數量、變異有效群體數量、繁育有效群體數量(IBD原因)。
遺傳漂變和近交都會導致群體雜合子頻率降低,但是它們降低的原因不同。
兩個系譜溯祖的期待時間為2Ne代。多個系譜溯祖,離當下越近,溯祖事件發生概率越大,離當下越遠,溯祖時間發生概率越小,所需時間越長。
群體數量變化,如瓶頸效應、群體擴張、群體收縮,都會改變溯祖發生的概率。