基因型填補(genotype imputation)網站學習

2021-02-20 基因姑娘GeneGirl

好久不見的軟體操作系列開始更新啦!!!

 

那麼今天我們要給大家說點兒什麼呢?那就是最近一直非常困擾小編的genotype imputation,中文名叫基因型填補

 

首先先給大家解釋一下什麼是基因型填補呢?

 

基因型填補( genotype imputation)是一種基於觀察對象已有基因型,對未進行基因分型(genotyping) 的位點之等位基因( allele) 進行預測的方法。

 

SNP 間存在著連鎖不平衡( linkage disequilibrium),因而人類的DNA 序列可以認為是由很多的單體型( haplotype) 構成

 

單體型之內的位點的等位基因間存在著相關性,意味著在同一單體型內,某SNP為某個等位基因時,或某些SNP 具有某種組合時,另一個SNP 將有較大可能出現某一等位基因。

 

根據這一原理,基因型填補首先利用密度更高的參照數據( 來自於HapMap 計劃或1000 Genome 計劃)獲得單體型信息。

 

再根據樣本觀察到的基因型推測該樣本最有可能攜帶的單體型,並據此將該單體型上相應位點的等位基因作為最有可能的填補值。

 

填補能增加GWAS 中單核苷酸多態性( single-nucleotidepolymorphism,SNP) 的密度,使得在已經發現的關聯性位點周圍尋找疾病位點( disease locus) 成為可能,同時也能提高對採用了不合適的標籤( tagger) SNP 進行標記的SNP 的檢驗效能。

 

簡單點來說,就是用靠譜的統計方法來幫你填補出那些你沒有測的位點,可信度較高還省錢。

以下是做imputation的網站:

https://imputation.sanger.ac.uk/

https://imputationserver.sph.umich.edu/index.html#!pages/home

 

這次我們先來給大家說一說第一個網站怎麼用。

 

1.準備文件

 

將自己的二進位文件轉換為vcf格式(因為imputation中需要用到vcf格式文件)

 

Plink --bfile wgas3 --recode vcf --out gzhtest

 

檢查文件是否存在問題:

 

bcftools +fixref gzhtest.vcf -- -f human_g1k_v37.fas(黃色部分可以替換)

 

bcftools norm --check-ref e -f /path/to/reference.fasta input.vcf.gz -Ou -o /dev/null

 

因為小編使用的是一組示例數據,所以mismatch值會偏高,但是如果使用真實數據是不會這樣的。

那麼如果出現上面這種情況,我們應該如何減少這個mismatch值呢?

a.利用如下命令行生成含有match位點的文件:

bcftools norm --check-ref x -f reference.fasta gzhtest.vcf –o match.vcf

 

b.然後利用包涵全部位點的文件和match.vcf文件在excel中做匹配比對,將mismatch的位點篩選出來,生成list.txt

 

c.利用plink翻轉鏈

 

plink –bfile gzhtest --fliplist.txt --recode vcf –out filename

2.註冊部分:


然後你會收到一封郵件:

點擊郵件中的連結,出現以下界面:

將需要上傳的文件放在左邊,通過這個界面將自己的文件轉移到右邊框框所代表的伺服器上。

 

小編是通過使自己的電腦成為終端,然後本地上傳文件的。

 

所以就要下載相應組件:

https://www.globus.org/globus-connect-personal

下載適合自己電腦版本的組件,自己的電腦就會變成一個終端,從本地上傳文件,在transfer的框框裡就可以選擇administered by me時就會出現自己電腦的名字。


上傳成功之後,你會收到一封郵件:

好啦,到目前為止,我們需要做的工作就已經完成了,後面的工作會由網站來完成,完成之後會有一個連結以郵件的形式發給你。點擊郵件連結,就可以下載結果了。

上面是小編嘗試多次的出來的結果,如果各位還有疑問或者更好的方法歡迎留言喲!!!

以下是小編的戰果,試了好多次啊。。。。。。(一張圖都根本截不完)

了解更多相關內容,請掃描下圖並關注:

plink 軟體學習(第一彈)

PLINK軟體學習(第二彈)

易感基因與致病基因是怎樣的關係--解讀基因檢測(系列二)

Meta分析利器:看完這篇文章,你大概就會了。「菜鳥」Meta分析的學習體驗

基因姑娘GeneGirl向您介紹:基因與健康,基因與哲學,基因與科幻。包括遺傳性疾病知識科普,遺傳學數據分析軟體學習。我們是遺傳學的魔法學校--Hogwarts School of Genetics。我們的基調是:在好玩中學習,在學習中好玩。輕鬆了解基因的故事。解讀基因檢測。        

相關焦點

  • Nature:第三個人類基因組單體型圖完成
    「國際人類基因組單體型圖聯合項目組」是為繪製一個人類基因組單體型圖、以描述DNA序列變化的共同模式而成立的。現在,該機構已繪製出了其第三個單體型圖。第一個單體型圖(HapMap1)是2005年發表的,含有超過100萬個SNP(單核苷酸多態性)基因型,是由來自4個不同地域的人群的269個個體產生的。
  • 研究開發用於基因組比對和分型的HISAT系列軟體
    研究開發用於基因組比對和分型的HISAT系列軟體 作者:小柯機器人 發布時間:2019/8/6 20:30:04 美國德克薩斯大學西南醫學中心Daehwan Kim研究團隊提出一種快速精確的運算程序名為
  • stacks基礎:SNP、基因座、等位基因、基因型、單倍型的概念
    在stacks運行完畢後,會有*.alleles.tsv.gz, *.snp.tsv.gz, *.matchs.tsv.gz等結果文件生成,如果對SNP、基因座(locus)、等位基因(alleles)、基因型(genotype)和單倍型(haplotypes)的概念沒有深刻的理解的話,要讀懂這些結果文件是非常困難的,本文將以解析這些概念為切入點
  • HLAI類基因影響腫瘤免疫治療
    Lenz等研究人員,合作發現HLA I類基因型的進化差異影響腫瘤免疫治療的療效。這一研究成果11月7日在線發表在國際學術期刊《自然—醫學》上。 研究人員通過量化每個患者基因型中I型人類白細胞抗原(HLA-1)等位基因之間的理化序列差異,揭示了接受免疫檢查點抑制劑(ICI)治療的癌症患者種系HLA-1進化差異(HED)。HED是ICI治療後生存的重要決定因素。
  • NRR:中國湖南地區漢族人群腦梗死或腦出血的易感基因
    人們推測高水平的B族I型清道夫受體在介導高密度脂蛋白的抗動脈粥樣硬化發生方面可能具有很重要的作用。目前已有的對B族I型清道夫受體基因多態性的研究主要是針對外顯子1 G4A多態和外顯子8 C1050T多態,其中外顯子1 G4A多態對血脂的影響獲得較多的支持,該多態位點不僅對部分人種健康人群血脂有一定的影響,還參與了糖尿病患者血脂代謝紊亂。
  • Nature genetics|新方法實現多倍體植物基因組的全染色體組裝
    特別是對於缺少基因型數據和基因分型錯誤的情況,這個方法更加穩健。 研究人員利用PacBio長讀與限制性位點相關DNA測序相結合的方法,為異源四倍體草坪植物構建了假分子;利用Illumina讀本組裝的重疊群與單核苷酸多態性產生的基因型數據相結合,分別通過測序和基因分型構建了二倍體番薯和三倍體馬鈴薯。
  • 華大基因金絲帶官方網站全新改版上線
    華大基因金絲帶官方網站全新改版上線 時間: 2018-06-28 16:16  來源: 求醫網   編輯: 志飛
  • Direct-seq:單細胞水平分析CRISPR基因編輯篩選實驗 | Genome...
    Direct-seq:單細胞水平分析CRISPR基因編輯篩選實驗 | Genome Biology020-02044-w 微信連結:點擊此處閱讀微信文章 基於CRISPR基因編輯的正向遺傳篩選技術已經廣泛應用於「表型(phenotype)-基因型(genotype)」的鑑定研究,常見的研究類型包括鑑定與細胞增殖相關essential gene的負選擇實驗、與細胞獲得抗藥抗殺傷能力相關的正選擇實驗等。
  • 人體細胞為二倍體型,兩個單倍型分別來自父親和母親
    現在用分子生物學方法可在基因水平上鑑定出更大的HLA多態性,例如HLA-A2的基因有12個變異體(A^0201~A*0212) ,其差別僅在第19密碼子一個鹼基的置換。1994年3月WHO命名委員會公布的I類和類等位基因為440個,1995年1月又發現了35個新的基因序列,並對以前的報告進行了部分修正。
  • Science:首次在體內繪製tRNA基因適應度景觀圖
    在任何一種給定的環境下,一種有機體的基因組成,或者基因型,在與同種物種的其他成員競爭時起著協助或破壞的作用。適應度景觀是一種可視化觀察基因型與繁殖成功率之間關係的方法。但是對適應度景觀的研究從理論探討轉向實驗科學因幾種原因的存在而一直是一種挑戰。首先,基因型數量非常龐大,任何單個有機體有大量的遺傳可能性。
  • 中鐵青藏鐵路JQ140G型架橋機填補國內空白
    中鐵青藏鐵路JQ140G型架橋機填補國內空白  6月26日,中國鐵路工程總公司所屬的武漢中鐵工程機械廠自行設計、製造的青藏鐵路JQ140G型架橋機通過了總公司組織的科技成果評審,填補了國內高原架橋機的空白,達到國內領先水平。
  • 華西醫院「卵巢癌基因治療實驗研究」成果填補國內空白
    華西醫院「卵巢癌基因治療實驗研究」成果填補國內空白 2002年8月21日04:10  四川在線-華西都市報   昨日,記者從四川大學華西第二醫院獲悉
  • 清華廖洪恩課題組在人工智慧挖掘影像基因組學領域合作發表系列論文
    上述兩項工作,前一項實現了方法學的創新,採用人工智慧技術學習大量腦幹膠質瘤患者的磁共振影像學特點,深度挖掘其與該基因的關聯;後一項貼近了臨床應用需求,利用機器學習探索影像學與基因的關聯度後建立易於使用的簡易預測模型,幫助醫學界獲得基因學的診斷依據,其方法分析上用到與基因關聯密切的影像學與臨床參數,有助於提高臨床診斷水平。
  • 從基礎到臨床認識眼咽型肌營養不良
    該病由位於14q11.2-q13 的PABPN1基因突變導致。野生型PABPN1基因包含10個GCN(N代表A、T、C、G,四種核苷酸密碼子所編碼胺基酸均為丙氨酸)重複表位,而突變基因則在氨基末端異常擴增或者插入1-8個GCN。異常擴增序列的數量與病情嚴重性無關,與發病年齡負相關,且純合基因患者的臨床表型更重。
  • 基因工程專業英語詞彙
    A腺苷脫氨酶缺乏症 adenosine deaminase deficiency (ADA) 腺病毒 adenovirus Alagille症候群 Alagille syndrome 等位基因artificial chromosome (BAC) 鹼基對 base pair 先天缺陷 birth defect 骨髓移植 bone marrow transplantation BRCA1/BRCA2 C癌 cancer 後選基因
  • 深圳RHD血型研究填補國際相關領域多項空白
    該課題在RHD血型的研究上取得了重要的突破,多項成果填補了國際的空白,對於臨床血型鑑定準確性,提高輸血安全有著重要意義。  Rh血型是人類最複雜的血型系統,也是輸血醫學最重要的血型系統之一。Rh血型D抗原是引起新生兒溶血病的主要血型抗原,也是臨床溶血性輸血反應的重要抗原物質。