父系Y染色體上的單倍群名稱會不時發生變化。
有人會問,Y染色體上的突變這麼多,單倍群名稱也這麼多,這些單倍群名稱每年可能都會變化,就不能一直保持不變嗎?
回答是:不能。因為這樣不符合科學的事實。由於不斷發現新的支系和新的突變位點,父系Y染色體譜系樹的分支結構是在不斷細化的。相應地,Y染色體單倍群的名稱也是不斷改變的。因此,父系Y染色體名稱的變化是正常的、也是必要的。
事實上,目前的單倍群命名的改變規則,是在很多種規則中選出的最合理、最科學、最規範的改變方法。這套規則,也是唯一完全符合計算機邏輯、能夠實現自動化命名的規則。經過16年的使用,這套規則目前沒有出現大的使用問題,目前也沒有出現其他更符合科學邏輯的規則。
不過,由於人類父系本身的分支層級非常多,當前的命名規則和改變規則會導致很長的單倍群名稱。這是一個需要解決的問題。為了方便使用,目前也存在很多其他的Y染色體上單倍群命名法。最終能否出現一種即符合科學邏輯、又簡潔實用的新規則,目前尚不確定。
改變規則的說明
參考論文[1]和下圖1。說明:下文的突變「u」不是真實的突變,只是為了說明示例。
1. 新發現的突變(比如突變u)合併了兩個原來並列的單倍群(G1-P20和G2-P15),就用新突變命名新的支系(G1-u),把原來的兩個單倍群定義為新支系(G1-u)的兩個下遊分支(G1a-P20和G1b-P15),同時,嚴格按照命名規則來改變其他的旁系支和下遊的支系(如原G2a-P16變成G2b1-P16)。
2. 在原有支系(G1-P20)之下,發現了由新的突變位點(u)定義的新的分支。原支系中不屬於這個支系的樣本就被歸類為 帶「*」的單倍群(G1*-P20),定義新分支為新的下遊支系(G1a-u)。
3. 原有支系有多個等價位點。新的樣本在這些位點上部分有突變,部分沒有突變,從而形成了新的級別,所有支系的名稱都按命名規則改變。
4. 例外的情況:由字母 A~T定義的全世界的大類單倍群,由於常年使用並約定俗稱,無論人類父系主幹的分支結構如何變化,這些大類支系的名稱本身都不變化,而是靈活處理。比如,新發現位點L298合併了原來的L-M20和T-M184。L-M20和T-M184的定義不變,而是定義新的 LT-L298支系。
經驗:父系Y染色體單倍群的名稱是在不斷變化的(比如O3-M122變成O2-M122). 但只是單倍群編號本身在變(O3變O2),而突變名本身不變(M122)。因此,牢記突變名,可以大致解決單倍群名稱的變化帶來的困擾。
圖1. 命名變化規則,參考論文[1]
單倍群名稱改變的實例
1. 新發現的突變(比如F75)合併了兩個原來並列的單倍群(O1-M119和O2-M268),就用新突變命名新的支系(O1-F75),原來的兩個單倍群定義為新支系(O1-F75)的兩個下遊分支(O1a-M119和O1b-M268),同時,嚴格按照命名規則來改變其他的支系(原O3-M122變成O2-M122)。
圖2. O-M175譜系最大的一次變化
一些小故事:F系列突變位點是復旦研究者發現的。2014年我們已經預見會有這次很大的變化。O3-M122這個單倍群已經使用了很多年,出現在很多文獻裡。變成O2-M122的話,會讓很多文獻變得難以讀懂。我們給ISOGG管理員寫信,希望保留 O2-M122的命名,而使用O1』2-F75這個命名來包含O1-M119和O2。不過,ISOGG管理員認為,這不符合於當前的規則。況且,連西方人群中支系最多、人數最多的R1b-M269的名稱都變成R1b1a1a2-M269了, M269之下的所有支系名稱也都變了。歐美學者和公眾都接受這種改變,O3-M122也不應例外。這樣的話,我們也就接受了這個改變。
2. 新發現的突變(F6251等)合併了兩個原來並列的單倍群(D1-M15和D3-P99),就用新突變命名新的支系(D1a-F6251),原來的兩個單倍群定義為新支系(D1a-F6251)的兩個下遊分支(D1a1-M15和D1a2-P99),同時,嚴格按照命名規則來改變其他的支系(原D2- M46.1變成D1b-M46.1)。
圖3
3. 之前,因為突變數量少,所以認為 C1-M8、C2-M38、C3-M217、C4-M347和C5-M356是平行的5個支系。在發現了更多位點後,除了C3-M217外,其他的支系都是另一個分支下的下遊支系。所以,單倍群命名全部改變,C3-M217變成C2-M217。
從 ISOGG歷年的譜系樹的對比上,可以看到因為不斷發現新支系和新位點而導致的單倍群名稱的變化。可參見https://isogg.org/tree/index.html
圖4
4. 在東亞人群中,有幾個父系支系在距今1.1萬年以來的新石器早期、中期和晚期經歷了非常顯著的人口擴張,在很短的歷史時期內(相對而言,1-2千年內或稍長的時段內)產生了很多個下遊支系。這樣的支系在現代人群中佔有較大的比例,被稱為「超級祖父支系」。
為了研究和討論的方便,復旦大學的嚴實博士對這些支系進行了特殊的命名,包括O3a2c1a-F5 (Oα), O3a2c1-F46 (Oβ), O3a1c1-F11 (Oγ), C3a1-F2613 (Cα), Q1a1-M120 (Qα), and O1a1a1-F78 (Oδ)。[2]
命名原則是:在父系譜系上發生爆發性支系擴張之前的最後一個級別的支繫上,存在一系列的等價位點。從這些等價位點選取一個位點(例如F11)來命名這個支系(例如Oγ,命名為Oγ-F11)。
隨著測序數據的增加,譜系樹會細化。在今後,可能會發現新的旁系支,導致這個「超級祖父支系」支系上的最後一個分化級別沒有那麼多等價位點。這時候,仍然從剩下的一系列等價位點中選取一個位點(例如F325)來命名這個支系(例如Oγ,命名為Oγ-F325)。也就是說,Oα或Oβ這樣的「超級祖父支系」的名稱保持不變,而定義突變位點可以變。
這樣的特殊命名法確實是方便的,但不符合普遍接受的ISOGG的規則。現階段,可以兩種方式都使用。
4.1. O2a1c-MS-JST002611下O2a1c1a1a1a1-F325(Oγ-F325)的命名法
圖5
註:Oγ最初的定義位點是F11, 當時F11與F325是等價的。後來發現了F11+, F325-的罕見支系,所以命名修改為 Oγ-F325,仍然包含那些經歷爆發性擴張而出現的支系。
4.2. O2a2b1a-M117下O2a2b1a1a-F5(Oα-F5)的命名法
圖6
4.3. O2a2b1a2-F444下O2a2b1a2a1-F46 (Oβ-F46) 的命名法
圖7
5. 「超級祖父支系」在新石器時代之後的爆發性擴張,與傳統學科研究提出的「新石器革命」引起的人口急劇增加的過程是一致的[2]。類似一系列的父系的擴張,最終造就了東亞現代人群的人口基礎。
圖8
6. 目前,www.yfull.com的譜系樹採用的命名法是:大類支系的單倍群編號都列出,但二級以下的單倍群編號都不列出。比如O1a-M119、O2-M122、O2a-M324和O2a1-KL1都只分別寫作O-M119、O-M122、O-M324和O-KL1。
因為人類的父系的層級很多,以後可能會更多,會出現這樣的單倍群命名:
O1a1a1a1a1a1a1a1a1a1a1a1a1a1a1a1a1a1a1a1a1-MXXX
很顯然,這樣的命名雖然符合邏輯,但常人使用起來是非常不方便的。
Yfull的命名法是簡潔的,但因為突變位點很多,一般人很難看懂這些支系分別都是原來常用的哪些支系,每次都需要參考整棵譜系樹才能看懂上下遊關係。
總之,就Y染色體單倍群的命名規則和改變規則而言,舊有的規則是最合理的,但目前也遇到了難題。而能解決所有問題、被普遍接受的新規則還沒有出現。
作者簡介:韋蘭海,復旦大學人類生物學博士,主要研究人類的父系Y染色體譜系樹、東歐亞地區族群及其文化傳統的起源和演化歷史。於2010年開始創辦「分子人類學論壇」 (後更名為「人類生物學在線」),現已成為具有較高知名度的、專業的分子人類學科普平臺和活躍的個人DNA測試數據討論社區。
參考文獻
[1] Y Chromosome Consortium. A nomenclature system for the tree of human Y-chromosomal binary haplogroups. Genome research. 12, 339-348 (2002).
[2] 嚴實, 王傳超, 等(2014) 四成的中國人Y染色體繼承自新石器時代的三個老祖宗. 科學公共文庫-一集9(8): e105691.
[3] 文少卿, 佟欣竹, 李輝(2016) 東亞地區新石器時代轉型形成Y染色體遺傳結構. 第四紀國際, 426:50-55.