單核苷酸多態性(英語:Single Nucleotide Polymorphism,簡稱SNP,讀作/snip/)指的是由單個核苷酸—A,T,C或G的改變而引起的DNA序列的改變,造成包括人類在內的物種之間染色體基因組的多樣性。
例如,來自兩個不同個體的DNA片段,AAGCCTA和AAGCTTA為等位基因。幾乎所有常見的單核苷酸多態性(SNP)位點只有兩個等位基因。
單核苷酸多態性(SNP)位點的分布是不均勻的,在非編碼區比在編碼區更常見。一般來說,自然選擇傾向於保留最利於遺傳適應性的單核苷酸多態性(SNP)位點。其他因素,如基因重組和突變率也可判斷單核苷酸多態性(SNP)位點的密度。
特點單核苷酸多態性(SNP)的密度可以通過微衛星DNA進行預測。AT微衛星是單核苷酸多態性(SNP)密度有效的檢測方式,在單核苷酸多態性(SNP)顯著降低及較低GC含量的區域,AT出現大片重複。
在一個種群中,單核苷酸多態性(SNP)可以以次要等位基因頻率的形式體現,即那些等位基因頻率很低的基因座。單核苷酸多態性(SNP)等位基因的頻率在不同人群中具有差異性,因此,常見於某地區或民族的單核苷酸多態性(SNP)等位基因在其他的地區或民族則可能很少見。
SNP佔DNA序列差異性之比例於所有可能的DNA序列差異性(sequence differenciation)中,SNP是最普遍發生的一種遺傳變異。在人體中,SNP的發生機率大約是0.1%,也就是每1200至1500個鹼基對中,就可能有一個SNP。目前科學界已發現了約400萬個SNPs。平均而言,每1kb長的DNA中,就有一個SNP存在;換言之每個人的DNA序列中,每隔1kb單位長度,就至少會發生一個「單一鹼基變異」。由於SNP的發生頻率非常之高,故SNP常被當作一種基因標記(genetic marker),已用來進行研究。
但必須注意的是,並非所有的SNP都有臨床意義。對疾病發生和藥物治療有重大影響的SNP,估計只佔數以百萬計SNP的很小一部分。即使產生了SNP,也不一定造成蛋白質胺基酸編碼改變或基因表達調控改變,或導致蛋白質結構或活性,而造成對於藥物的特殊影響。
類型
單核苷酸多態性(SNP)根據其在基因中的位置,可以分為基因編碼區、基因非編碼區、基因間隔區(基因之間的區域)。由於基因序列的簡併性,含有編碼序列的單核苷酸多態性(SNP)不一定會改變蛋白的胺基酸序列。
編碼區的單核苷酸多態性(SNP)有兩種類型:同義和非同義。同義單核苷酸多態性(SNP)並不影響蛋白質序列,而非同義單核苷酸多態性(SNP)則會改變蛋白質的胺基酸序列。
不在蛋白質編碼區的單核苷酸多態性(SNP)仍可能影響基因剪接、轉錄子結合、信使RNA降解或非編碼區的RNA序列。受到這種單核苷酸多態性(SNP)影響的基因表達被稱為單核苷酸多態性表達(ESNP),可能發生在此基因的上遊或下遊。
單核苷酸多態性(SNP)可能分布於編碼基因段或非編碼基因段。由於存在冗餘基因序列,編碼段中的單核苷酸多態性(SNP)不一定會影響蛋白質中的胺基酸序列。
SNP的重要性從演化的觀點來看,SNP具有相當程度的穩定性,即使經過代代相傳,SNP所引起的改變卻不大,因此可用以研究族群演化。
SNP決定著群體和個體基因序列的細微差別,科學家將可憑此找到疾病的易感基因,並使個體化醫療成為可能。先前的研究證實,人類的大部分疾病,如三分之二的腫瘤可以被預防。
SNP 資料庫生物信息學資料庫用於對單核苷酸多態性(SNP)相關研究的檢索。單核苷酸多態性資料庫(dbSNP)信息來自生物技術信息中心 (NCBI)。以下列出一些常用SNP相關的資料庫:
資料庫或工作組名稱主要特點SNPedia維基風格,可用於支持人類基因組注釋,解釋和分析OMIM資料庫描述多態性與疾病之間的關聯人類基因突變資料庫提供人類遺傳性疾病和功能性SNP的基因突變GWAS中央允許用戶查看目前單個或多個GWAS的大體水平國際SNP圖譜工作組通過校對嵌入的較大克隆體的基因組序列繪製出基因庫中每個SNP的周圍序列國際人類基因組單體圖譜計劃在每個項目中研究能識別標記的SNP用於確定單倍體的採集SNP的應用尋找致病基因 :
個體間的基因差異主要在於SNP,遺傳疾病中已發現SNP的例子,如鐮刀型血球性貧血、APOE ε4 等位基因參與晚期突發老年性痴呆、V因子1691G →A等位基因(FV Leiden)參與深靜脈血栓形成、以及細胞色素P450(CYp)基因的幾種形態影響藥物代謝等,原因都出在SNP。但必須注意的是,並非所有的SNP都有臨床意義。對疾病發生和藥物治療有重大影響的SNP,估計只佔數以百萬計SNP的很小一部分。
診斷及預測致病風險 :
藉由對致病基因的了解與認識,可進行比對,更正確地診斷與預測潛在的或遺傳性疾病。
藥物基因體學及新藥的發現 :
臨床治療實踐清楚地表明,藥物的有效劑量有著極大的個體差異,可以視為一種基因的表型(phenotype)。藥物目標的基因變異,會改變藥物與目標蛋白間的相互作用;負責運輸藥物的蛋白其基因變異,會影響藥物的吸收、運送和排出;藥物代謝酶的基因變異,會改變藥物的代謝;DNA修復酶的基因變異,則可改變藥物的安全性。利用SNP與現有的基因診斷體系接軌,能加速檢驗醫學從表型診斷轉向基因型診斷,並預防藥物副作用,提高療效。此外,對於藥物效果也可有進一步的認識,甚至可以預測用藥結果,減少藥物誤用或濫用的情況。
生物晶片快速檢測 :
目前DNA微陣列或基因晶片要進行大量的SNP篩檢已可自動化,並可應用於親子鑑定及最有效、精確的身分識別(ID)。
研究族群演化 :
SNP具有相當程度的穩定性,即使經過代代相傳,SNP所引起的改變卻不大,可用來研究族群演化。
在了解了這麼多關於SNP的知識後,下面給大家分享生物技能樹中一個簡單易學的實戰連結。只要短短幾行代碼就可以,輕鬆了解SNP calling 的基本流程,深一步了解,怎樣進行snp的數據分析。(實戰連結請點擊查看原文)
References:Wikipedia -https://zh.wikipedia.org/wiki/%E5%96%AE%E6%A0%B8%E8%8B%B7%E9%85%B8%E5%A4%9A%E6%85%8B%E6%80%A7
生物實驗室
http://bioinfo.cs.ccu.edu.tw/wiki/doku.php?id=single_nucleotide_polymorphism_snp
還有更多文章,請移步公眾號閱讀。
如果你生信基本技能已經入門,需要提高自己,請關註上面的生信技能樹,看我們是如何完善生信技能,成為一個生信全棧工程師
如果你是初學者,請關注下面的生信菜鳥團,了解生信基礎名詞,概念,紮實的打好基礎,爭取早日入門。