好久不見的軟體操作系列開始更新啦!!!
那麼今天我們要給大家說點兒什麼呢?那就是最近一直非常困擾小編的genotype imputation,中文名叫基因型填補。
首先先給大家解釋一下什麼是基因型填補呢?
基因型填補( genotype imputation)是一種基於觀察對象已有基因型,對未進行基因分型(genotyping) 的位點之等位基因( allele) 進行預測的方法。
SNP 間存在著連鎖不平衡( linkage disequilibrium),因而人類的DNA 序列可以認為是由很多的單體型( haplotype) 構成。
單體型之內的位點的等位基因間存在著相關性,意味著在同一單體型內,某SNP為某個等位基因時,或某些SNP 具有某種組合時,另一個SNP 將有較大可能出現某一等位基因。
根據這一原理,基因型填補首先利用密度更高的參照數據( 來自於HapMap 計劃或1000 Genome 計劃)獲得單體型信息。
再根據樣本觀察到的基因型推測該樣本最有可能攜帶的單體型,並據此將該單體型上相應位點的等位基因作為最有可能的填補值。
填補能增加GWAS 中單核苷酸多態性( single-nucleotidepolymorphism,SNP) 的密度,使得在已經發現的關聯性位點周圍尋找疾病位點( disease locus) 成為可能,同時也能提高對採用了不合適的標籤( tagger) SNP 進行標記的SNP 的檢驗效能。
簡單點來說,就是用靠譜的統計方法來幫你填補出那些你沒有測的位點,可信度較高還省錢。
以下是做imputation的網站:
https://imputation.sanger.ac.uk/
https://imputationserver.sph.umich.edu/index.html#!pages/home
這次我們先來給大家說一說第一個網站怎麼用。
1.準備文件
將自己的二進位文件轉換為vcf格式(因為imputation中需要用到vcf格式文件)
Plink --bfile wgas3 --recode vcf --out gzhtest
檢查文件是否存在問題:
bcftools +fixref gzhtest.vcf -- -f human_g1k_v37.fas(黃色部分可以替換)
bcftools norm --check-ref e -f /path/to/reference.fasta input.vcf.gz -Ou -o /dev/null
因為小編使用的是一組示例數據,所以mismatch值會偏高,但是如果使用真實數據是不會這樣的。
那麼如果出現上面這種情況,我們應該如何減少這個mismatch值呢?
a.利用如下命令行生成含有match位點的文件:
bcftools norm --check-ref x -f reference.fasta gzhtest.vcf –o match.vcf
b.然後利用包涵全部位點的文件和match.vcf文件在excel中做匹配比對,將mismatch的位點篩選出來,生成list.txt
c.利用plink翻轉鏈
plink –bfile gzhtest --fliplist.txt --recode vcf –out filename
2.註冊部分:
然後你會收到一封郵件:
點擊郵件中的連結,出現以下界面:
將需要上傳的文件放在左邊,通過這個界面將自己的文件轉移到右邊框框所代表的伺服器上。
小編是通過使自己的電腦成為終端,然後本地上傳文件的。
所以就要下載相應組件:
https://www.globus.org/globus-connect-personal
下載適合自己電腦版本的組件,自己的電腦就會變成一個終端,從本地上傳文件,在transfer的框框裡就可以選擇administered by me時就會出現自己電腦的名字。
上傳成功之後,你會收到一封郵件:
好啦,到目前為止,我們需要做的工作就已經完成了,後面的工作會由網站來完成,完成之後會有一個連結以郵件的形式發給你。點擊郵件連結,就可以下載結果了。
上面是小編嘗試多次的出來的結果,如果各位還有疑問或者更好的方法歡迎留言喲!!!
以下是小編的戰果,試了好多次啊。。。。。。(一張圖都根本截不完)
了解更多相關內容,請掃描下圖並關注:
plink 軟體學習(第一彈)
PLINK軟體學習(第二彈)
易感基因與致病基因是怎樣的關係--解讀基因檢測(系列二)
Meta分析利器:看完這篇文章,你大概就會了。「菜鳥」Meta分析的學習體驗
基因姑娘GeneGirl向您介紹:基因與健康,基因與哲學,基因與科幻。包括遺傳性疾病知識科普,遺傳學數據分析軟體學習。我們是遺傳學的魔法學校--Hogwarts School of Genetics。我們的基調是:在好玩中學習,在學習中好玩。輕鬆了解基因的故事。解讀基因檢測。