(點擊文章最下方「閱讀全文」可看繁體版本及打賞)
大家都知道,人體共有46條染色體(22對常染色體加性染色體XX或XY),總長度是3 Gbp×2(就是60億個鹼基對),而Y染色體僅有60 Mbp,即基因組的1%,線粒體更短,只有16569 bp長。也就是說人體絕大多數的遺傳信息都是在常染色體和X染色體上。只不過因為常染色體和X染色體都會在產生精子和卵子的減數分裂時發生重組,所以沒法簡單地像Y染色體和線粒體一樣畫譜系樹。但分析起來,故事更多,既能看出各種跟人的長相、性格、能力、疾病有關的內容,也能分析出祖先有多少不同群體的混合。
我現在收集了很多自己或者別人感興趣的位點(見http://www.ranhaer.com/thread-14446-1-1.html ),做成一個捕獲試劑(因為現在全基因組還太貴,只能先挑著做),然後用二代測序得到位點信息。我自己也在頭一批的測試對象裡面。
測的位點多數是單核苷酸變化,就是一個單一的鹼基從A變成C這樣的。如果是在人群中有一定比例(如1%)的鹼基變異,被稱為單核苷酸多態(single nucleotide polymorphism, SNP),而罕見變異的一般被稱為突變(mutation)。一般來說,能夠成為SNP的位點多態都不會造成太嚴重的疾病,因為明顯有害的突變會在人群裡被迅速淘汰掉,所以一般的SNP要麼是沒有功能,要麼是幾種等位基因功能上有區別但不是嚴格的哪個健康哪個致病。除非是在某些條件下能給該等位基因的攜帶者帶來重要優勢但在其它情況下造成嚴重疾病的,仍可能在一些人群裡成為SNP(這個要以後單獨講,有一些重要案例,比如高血壓、肥胖、高原缺氧適應、地中海貧血等)。很多嚴重疾病都不是SNP造成的,而是重要基因上的某些位點發生了新的突變,基因功能嚴重變化或喪失,造成疾病後個體被馬上淘汰掉,也就是所謂「常見疾病,罕見突變」(common disease -rare variant)假說。這樣的疾病是很難從SNP晶片數據中看出來的,只有對相關基因做測序才能發現。
SNP的編號一般是rs後面接數字,如rs590787,而具體的物理位置寫成如chr1:25629943,就是說1號染色體上的第25629943個鹼基(每條染色體都是線性的)。因為相同位點的鹼基位置會隨著參考基因組的版本而不同,目前常見的有hg18、hg19、hg38幾種(對的,hg19後面就是hg38了,生物學家的數學學得不好),本文的物理位置都是按hg19的(參考序列是歐洲人)。而基因在染色體上的方向有時候是和參考序列一致,有時是反向,比如一個基因按轉錄的方向有個A>G的突變,但在參考序列上就是T>C的突變了。本文的鹼基和突變一律按參考序列而不是按基因轉錄的方向。
我這裡曬一部分我測到的位點:
其它的一些常染色體解讀,以及上面已經列出的性狀的更詳細解讀,我以後還會陸續放出來。如果各位想要測這些性狀,可以來我實驗室(http://www.ranhaer.com/thread-14446-1-1.html )。對於已經在我這裡有血樣的老客戶我還會提供更優惠的價格。通過大家的樣本(尤其需要少數民族、西部省份、外國人等),我們能夠更深入地了解各個族群的歷史和演化歷程。
對於測到的常染色體SNP結果,只要有其rs編號,可以在SNPedia網站裡查詢,比如查rs671(乙醛脫氫酶,喝酒臉紅),用http://www.snpedia.com/index.php/Rs671 就可以了,包括該位點的相關文獻,及各種連結如1000 Genomes, HapMap, 23andMe等。
polyhedron
首發於新浪博客,2014.12.17