stacks基礎:SNP、基因座、等位基因、基因型、單倍型的概念

2021-02-25 微科享

點擊藍字↑↑↑「微科享」,輕鬆關注不迷路

相關系列第一期請戳:stacks拆包RAD-seq過程中 process_radtags沒有自己需要的限制性內切酶怎麼辦?

在stacks運行完畢後,會有*.alleles.tsv.gz, *.snp.tsv.gz, *.matchs.tsv.gz等結果文件生成,如果對SNP、基因座(locus)、等位基因(alleles)、基因型(genotype)和單倍型(haplotypes)的概念沒有深刻的理解的話,要讀懂這些結果文件是非常困難的,本文將以解析這些概念為切入點,解讀stacks產生的結果文件。


SNP


snp的定義是單核苷酸多態性(single nucleotide polymorphism),SNP所表現的多態性只涉及到單個鹼基的變異,這種變異可由單個鹼基的轉換(transition)或顛換(transversion)所引起,如圖1所示,也可由鹼基的插入或缺失所致。但通常所說的SNP並不包括後兩種情況。 

圖1.SNP(灰色表示男性的X染色體,藍色表示男性的Y染色體)


   打開stacks產生的結果文件GZ1.tags.tsv.gz,這是ustacks運行結束後生成的,原文件內容截取部分如下:

[bash]# less GZ1.tags.tsv.gz
# ustacks version 2.2; generated on 2020-12-31 21:57:22
1 2 consensus AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA 0 0 0
1 2 model OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU
1 2 primary 0 282_7_2116_32106_32390/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 282_7_2116_32136_32408/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 282_7_2218_1834_36346/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 1 236_6_1105_23206_10679/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 236_6_2211_23409_10187/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1207_5792_18063/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1207_8166_18450/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1207_5558_18537/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1217_3112_55262/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1217_2869_55965/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN


為了方便觀察,我們把目光聚焦到後半段:


1       2       consensus       AAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA
1 2 model OOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN


第一行是consensus,是由樣本的多個locus形成的一致性序列,第二行是model,表明在形成一致性序列的時候,每個位點的一致性狀況,O代表完全一致,U代表Unknown,E代表SNP位點。如果locus中有掩碼N的存在或者變異的位點佔總數太少(比如倒數第8個位點有8條locus是G,兩條locus是G,那麼該位點的model也是U)。


基因型(genotype)、基因座(locus)、等位基因(alleles)


等位基因(Alleles)是同源染色體的相同位置上基因的變體,比如圖2種的顯性等位基因C和隱性等位基因c,他們控制著同一性狀的不同形態。 

  基因型(Genotype)是染色體特定位置上等位基因的組合,比如圖2中的BB、aa和Cc。 

  基因座(Locus)是一個空間上的概念,它指的是染色體特定位置的DNA片段。當DNA序列達到一定長度時,那麼它在染色體的位置就是唯一的,能夠表示一個基因座。 

圖2.基因型、基因座、等位基因


  打開populations.marker.tsv,該文件主要記錄等位基因與基因型的映射關係,截取部分內容整理如下: 

[bash]# less populations.marker.tsv

Catalog Locus IDTotal GenotypesMax Genotype FreqsFGenotype Map1616.66667aa:1(16.7%);bb:1(16.7%);cc:1(16.7%);dd:1(16.7%);ee:1(16.7%);ff:1(16.7%);ANNATN:a;NATACG:b;NGCATG:c;NGTCCG:d;NNNNNA:e;TNNNNN:f;19333.33333aa:1(33.3%);ab:1(33.3%);ac:1(33.3%);AA:a;AC:b;GA:c;20250.00000ad:1(50.0%);bc:1(50.0%);ACTACC:a;ATTCAC:b;ATTCAG:c;GCCACC:d;39450.00000aa:2(50.0%);ab:1(25.0%);ac:1(25.0%);AA:a;AC:b;GA:c;404295.23810aa:40(95.2%);ab:1(2.4%);ac:1(2.4%);GG:a;GT:b;TG:c;42333.33333aa:1(33.3%);bb:1(33.3%);cc:1(33.3%);ATTTNNCG:a;CAGAGGTA:b;CNNNCCTA:c;單倍型(haplotypes)


一組DNA變異(如SNP和indels)在同一位點上彼此相鄰,往往會一起遺傳,這種SNPs位點的組合稱之為單倍型(如圖3所示)。圖3表示男性群體中的Y染色體某一locus的變異情況,所謂單倍型既是該locus上SNP位點的組合。

圖3.單倍型


打開GZ1.alleles.tsv.gz文件

# ustacks version 2.2; generated on 2020-12-31 21:57:22
1 2 AAA 70.00 7
1 2 TGT 30.00 3
1 3 CA 35.29 6
1 3 CG 5.88 1
1 3 TA 5.88 1
1 3 TG 17.65 3
1 4 GGTC 30.77 4
1 4 GGTT 30.77 4
1 4 TAGC 38.46 5
1 5 A 38.46 5
1 5 C 61.54 8
1 6 CAAAA 53.33 8
1 6 CAGAA 20.00 3
1 6 GCGGC 26.67 4
1 10 AGGTT 62.50 5
1 10 CATAA 37.50 3
1 11 CGCC 13.79 4
1 11 CGCT 10.34 3

與剛才的GZ1.tags.tsv.gz文件作為對比,可以發現GZ1.alleles.tsv.gz的前兩行就是對下面內容的SNP位點的組合情況進行記錄。同樣的GZ1.snps.tsv.gz也是對GZ1.tags.tsv.gz的snp位點進行單獨的統計。
1       2       consensus       AAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA
1 2 model OOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN

對本文有問題的可以加作者微信諮詢:

END

微科享,享科學

微科享是微生太旗下專注於學術知識免費分享平臺,內容主要包括學術資訊、學術直播以及乾貨分享。

微科享僅用於學術成果分享與交流,不涉及商業利益。嚴禁他人將本公眾號的內容用於商業運營。

相關焦點

  • 等位基因在我們體內扮演了什麼角色?!
    等位基因等位基因(英語:allele),是染色體內的基因座的可以複製的DNA序列,其在細胞有絲分裂時的染色體上的兩個基因座是對應排列的,故在早期細胞遺傳學裡稱其為等位。等位基因一個生物體裡,某個基因的基因型是由該基因所擁有的一對等位基因所決定。例如在人和其他二倍體生物,也就是每條染色體都有兩套的生物,其等位基因的兩個位點決定了該基因的基因型。等位基因兩個位點來自父輩和母輩的遺傳,其基因型決定了生物的表現型。 生物的表現型由一對等位基因的一個位點決定的,稱顯性基因;而由兩個位點決定的,則稱為隱性基因。
  • 【生物圖解】相對性狀與等位基因
    根據上述資料分析自己下表中一些性狀的基因型,並用相應的符號表示。你也可以了解自己家庭成員的一些性狀,並判斷控制這些性狀的基因型是顯性純合的還是雜合的。如果以上資料還不足以幫助你確定這些性狀是不是雜合基因型控制的,就假定基因型是雜合的。根據你自身的性狀特徵,將相應的表現型和基因型填寫在表格內:
  • 《現代遺傳學教程》概念介紹(2):等位基因系列概念
    等位基因是遺傳學中最基本的概念之一,對它的正確理解是進行遺傳學分析的重要前提。同時,由等位基因派生出了多個類似概念,弄清楚它們之間的關係,對於遺傳學的學習是有幫助的。l 等位基因(alleles):指一對同源染色體上某一給定位點的成對的遺傳因子,如R和r。該詞由William Bateson創立。等位基因之間有顯隱性之分。
  • 變異形式專題-SNP多態性
    在一個種群中,單核苷酸多態性(SNP)可以以次要等位基因頻率的形式體現,即那些等位基因頻率很低的基因座。單核苷酸多態性(SNP)等位基因的頻率在不同人群中具有差異性,因此,常見於某地區或民族的單核苷酸多態性(SNP)等位基因在其他的地區或民族則可能很少見。
  • 什麼叫基因?染色體的可變性質?背景基因型?
    (這涉及到了基因工作組的力量,人類的基因工作組與果蠅的基本相似)背景基因型:從理論上看,任何一個基因的作用都要受到同一細胞中其他基因的影響。除了人們正在研究的少數基因以外,其餘的全部基因構成所謂的背景基因型或稱殘餘基因型。
  • 人體細胞為二倍體型,兩個單倍型分別來自父親和母親
    現在用分子生物學方法可在基因水平上鑑定出更大的HLA多態性,例如HLA-A2的基因有12個變異體(A^0201~A*0212) ,其差別僅在第19密碼子一個鹼基的置換。1994年3月WHO命名委員會公布的I類和類等位基因為440個,1995年1月又發現了35個新的基因序列,並對以前的報告進行了部分修正。
  • 利用GWAS探究中國小麥種質芽期耐鹽性的優異單倍型及其溯源分析
    因此,評價中國當前小麥材料的耐鹽性,挖掘耐鹽優異單倍型,對於指導小麥耐鹽特色化育種有重要的意義。 西北農林科技大學康振生課題組前期從全世界收集了5000餘份小麥種質資源,並利用小麥660K SNP晶片對1500餘份材料進行了基因型測定。
  • 基因型填充中的phasing究竟是什麼
    目前主流的基因型填充軟體都分為了以下兩個步驟phasing genotypesimputing ungenotyped markers這個二步法是為了提高運算速度而設計的,基因型填充有一步法和二步法兩種策略,示意如下以上截圖來自文獻Genotype Imputation
  • 強直性脊柱炎易感基因多態性的研究進展
    Wang等研究發現,在漢族人群中,有ERAP-1(rs27434)多態性的健康對照組人群其基因型(AA、CC)頻率顯著低於AS病例組人群,此外,AS病例組中A-C單倍型的頻率高於健康對照組,提示A-C基因可能是AS的易感性基因,ERAP-1基因位點rs27434多態性可能會增加AS的發生風險。
  • Nature Commun 詳細解讀 | 中國農科院棉花所李付廣團隊揭示陸地棉栽培種廣泛的基因順序和基因結構變異
    值得注意的是,在該倒位區域內的單倍型分組信息及基於300,000多個SNPs的系統發育分析同樣將大量的陸地棉種質進行了類似的聚類。本研究中開發的基因組資源可以促進基礎植物生物學研究和棉花應用育種。材料:G. hirsutum L. acc.
  • 基因多態性的檢測方法
    ,同一基因位點可存在2種以上的基因型。突變鹼基及對應的正常鹼 基勻位於寡核苷酸片段的中央,嚴格控制雜交及洗脫條件,使只有與探針序列完全互補的等位基因片段才顯示雜交信號,而與探針中央鹼基不同的等位基因片段不顯示雜交信號,如果正常和突變探針都可雜交,說明突變基因是雜合子,如只有突變探針可以雜交,說明突變基因為純合子,若不能與含有突變序列的寡核苷探針雜交,但能與相應的正常的寡核苷探針雜交,則表示受檢者不存在這種突變基因。
  • 民間研究:南北漢人Y染色體是白人基因型
    M134分布在雲南、四川包括漢民族在內的許多民族、藏民族和北方漢族中間,姑且稱為先羌基因。M117姑且稱為北方漢族基因型,是漢民族一個古老的基因型,主要分布在北方漢人以及北方一些民族中間。推測大約是周秦民族的源基因型。
  • 多基因風險評分(PRS)分析教程
    PRS 分析需要兩個輸入數據集:i)base data(GWAS):全基因組範圍內遺傳變異的基因型-表型關聯的摘要統計信息(例如 beta,P值) ;ii)target data:目標樣本中個體的基因型和表型。基於 base data 得到的 SNP 效應值計算 target data 中樣本的 PRS。
  • 前沿研究丨優化關鍵物候基因,提高小麥適應性
    在不同氣候條件下Vrn和Ppd基因的等位基因、單倍型和拷貝數有不同的反應,因而不僅可以改變發育階段,而且可以提高產量。3個Ppd1a基因座的效能也有差異,具有Ppd-A1a和Ppd-D1a的植株比具有Ppd-B1a的植株開花更早。與已經鑑定出許多Vrn-1等位基因的方式相同,最近還在普通小麥和硬粒小麥中發現Ppd-1基因的所有3個同源基因座的許多等位基因及其單倍型(表2),在育種計劃中具有重要的利用價值。
  • 等位基因介紹
    遺傳方式和公式可以參考公眾號裡的基因介紹貼,裡有詳細介紹。關於基因和染色體應該都理解了吧,那麼接下來就講一下複合基因和等位基因。而等位基因,就是兩條蛇的染色體是在同一對染色體產生變異,就比如你和一個人上樓梯,你在第三個臺階站住,他也在第三個臺階站住,這樣說能理解吧,所以兩個基因組合後並不是疊加,可以理解為融合,重組後的基因可以說它是雙基因也可以說是單基因,因為是同一條染色體變異融合,並不是疊加成為兩條染色體變異,並且每個品系會表現出一半,Ultramel的書寫方式直接可以寫成ab,一半一半,這也是為什麼叫做Het
  • 椎間盤退變遺傳易感基因的研究進展
    研究發現,解整鏈蛋白金屬蛋白酶(ADAMTS)4外顯子中的rs4233367與LDD有關,其單核苷酸多態性T等位基因的LDD風險較低,TT基因型的IDD風險只有CC基因型的1/5。國內學者研究發現,ADAMTS5基因單核苷酸多態性可能與LDD的易感性有關,在LDD患者的ADAMTS5基因中,rs162502與rs151058可能存在相互作用的關係。
  • 基因型填補(genotype imputation)網站學習
    那就是最近一直非常困擾小編的genotype imputation,中文名叫基因型填補。 首先先給大家解釋一下什麼是基因型填補呢? 基因型填補( genotype imputation)是一種基於觀察對象已有基因型,對未進行基因分型(genotyping) 的位點之等位基因( allele) 進行預測的方法。
  • 基因表達、男女有別:Science、Cell等發布15篇人類遺傳最新成果
    它同時也是一塊巨大的「開關板」,充滿了可控制基因活性的DNA序列。事實上,基因組在調控方面的複雜性已極大地阻礙了研究者們對疾病遺傳學基礎的探索和靶向特定致病性DNA藥物的開發。但近年來,一些大型研究也已聚焦於基因調控開關的位置、調控開關所控制的特定基因以及調控開關在體內激活或抑制基因活性的具體部位。
  • 多重等位基因特異性PCR通用晶片在聽力篩查中的應用
    We demonstrate that the ASPUA platform is rapid, cost-effective, and easily-used, and is especially appropriate for mutation detection in clinical genetic diagnostics.