點擊藍字↑↑↑「微科享」,輕鬆關注不迷路
相關系列第一期請戳:stacks拆包RAD-seq過程中 process_radtags沒有自己需要的限制性內切酶怎麼辦?
在stacks運行完畢後,會有*.alleles.tsv.gz, *.snp.tsv.gz, *.matchs.tsv.gz等結果文件生成,如果對SNP、基因座(locus)、等位基因(alleles)、基因型(genotype)和單倍型(haplotypes)的概念沒有深刻的理解的話,要讀懂這些結果文件是非常困難的,本文將以解析這些概念為切入點,解讀stacks產生的結果文件。
snp的定義是單核苷酸多態性(single nucleotide polymorphism),SNP所表現的多態性只涉及到單個鹼基的變異,這種變異可由單個鹼基的轉換(transition)或顛換(transversion)所引起,如圖1所示,也可由鹼基的插入或缺失所致。但通常所說的SNP並不包括後兩種情況。
圖1.SNP(灰色表示男性的X染色體,藍色表示男性的Y染色體)
打開stacks產生的結果文件GZ1.tags.tsv.gz,這是ustacks運行結束後生成的,原文件內容截取部分如下:
[bash]# less GZ1.tags.tsv.gz
# ustacks version 2.2; generated on 2020-12-31 21:57:22
1 2 consensus AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA 0 0 0
1 2 model OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU
1 2 primary 0 282_7_2116_32106_32390/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 282_7_2116_32136_32408/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 282_7_2218_1834_36346/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 1 236_6_1105_23206_10679/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 236_6_2211_23409_10187/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1207_5792_18063/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1207_8166_18450/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1207_5558_18537/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1217_3112_55262/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1217_2869_55965/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
為了方便觀察,我們把目光聚焦到後半段:
1 2 consensus AAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA
1 2 model OOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN
第一行是consensus,是由樣本的多個locus形成的一致性序列,第二行是model,表明在形成一致性序列的時候,每個位點的一致性狀況,O代表完全一致,U代表Unknown,E代表SNP位點。如果locus中有掩碼N的存在或者變異的位點佔總數太少(比如倒數第8個位點有8條locus是G,兩條locus是G,那麼該位點的model也是U)。
基因型(genotype)、基因座(locus)、等位基因(alleles)
等位基因(Alleles)是同源染色體的相同位置上基因的變體,比如圖2種的顯性等位基因C和隱性等位基因c,他們控制著同一性狀的不同形態。
圖2.基因型、基因座、等位基因
基因型(Genotype)是染色體特定位置上等位基因的組合,比如圖2中的BB、aa和Cc。
基因座(Locus)是一個空間上的概念,它指的是染色體特定位置的DNA片段。當DNA序列達到一定長度時,那麼它在染色體的位置就是唯一的,能夠表示一個基因座。
打開populations.marker.tsv,該文件主要記錄等位基因與基因型的映射關係,截取部分內容整理如下:[bash]# less populations.marker.tsv
Catalog Locus IDTotal GenotypesMax Genotype FreqsFGenotype Map1616.66667aa:1(16.7%);bb:1(16.7%);cc:1(16.7%);dd:1(16.7%);ee:1(16.7%);ff:1(16.7%);ANNATN:a;NATACG:b;NGCATG:c;NGTCCG:d;NNNNNA:e;TNNNNN:f;19333.33333aa:1(33.3%);ab:1(33.3%);ac:1(33.3%);AA:a;AC:b;GA:c;20250.00000ad:1(50.0%);bc:1(50.0%);ACTACC:a;ATTCAC:b;ATTCAG:c;GCCACC:d;39450.00000aa:2(50.0%);ab:1(25.0%);ac:1(25.0%);AA:a;AC:b;GA:c;404295.23810aa:40(95.2%);ab:1(2.4%);ac:1(2.4%);GG:a;GT:b;TG:c;42333.33333aa:1(33.3%);bb:1(33.3%);cc:1(33.3%);ATTTNNCG:a;CAGAGGTA:b;CNNNCCTA:c;單倍型(haplotypes)一組DNA變異(如SNP和indels)在同一位點上彼此相鄰,往往會一起遺傳,這種SNPs位點的組合稱之為單倍型(如圖3所示)。圖3表示男性群體中的Y染色體某一locus的變異情況,所謂單倍型既是該locus上SNP位點的組合。圖3.單倍型
打開GZ1.alleles.tsv.gz文件# ustacks version 2.2; generated on 2020-12-31 21:57:22
1 2 AAA 70.00 7
1 2 TGT 30.00 3
1 3 CA 35.29 6
1 3 CG 5.88 1
1 3 TA 5.88 1
1 3 TG 17.65 3
1 4 GGTC 30.77 4
1 4 GGTT 30.77 4
1 4 TAGC 38.46 5
1 5 A 38.46 5
1 5 C 61.54 8
1 6 CAAAA 53.33 8
1 6 CAGAA 20.00 3
1 6 GCGGC 26.67 4
1 10 AGGTT 62.50 5
1 10 CATAA 37.50 3
1 11 CGCC 13.79 4
1 11 CGCT 10.34 3
與剛才的GZ1.tags.tsv.gz文件作為對比,可以發現GZ1.alleles.tsv.gz的前兩行就是對下面內容的SNP位點的組合情況進行記錄。同樣的GZ1.snps.tsv.gz也是對GZ1.tags.tsv.gz的snp位點進行單獨的統計。1 2 consensus AAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA
1 2 model OOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN對本文有問題的可以加作者微信諮詢:
END
微科享,享科學
微科享是微生太旗下專注於學術知識免費分享平臺,內容主要包括學術資訊、學術直播以及乾貨分享。
微科享僅用於學術成果分享與交流,不涉及商業利益。嚴禁他人將本公眾號的內容用於商業運營。