【陪你學·生信】九、多序列比對-Multiple Sequence Alignment(MSA)

2021-01-14 番茄隨筆

一、多序列比對能幹嘛?


下面是多序列比對的主要應用:


1. 推測——Extrapolation

可以推測一條未知的aa序列屬於某個已知的蛋白質家族或者擁有相似蛋白質結構域甚至相似的蛋白質3D結構等。


2. 系統發育分析——Phylogenetic Analysis

如果選擇合適的序列進行多序列比對,可以分析他們的系統發育關係。比如利用BioWeb(https://bioweb.pasteur.fr/welcome)的Pasteur Phylip(https://evolution.gs.washington.edu/phylip.html)或者Phylogeny.fr等網頁上的工具可以實現(http://phylogeny.lirmm.fr/phylo_cgi/index.cgi,這個網站的新版:https://ngphylogeny.fr/ 剛剛朋友M還給我介紹了另一個工具:SMS,如果用PhyML建樹的話,可以在SMS上先跑一下,得到建樹的推薦參數設定)。


SMS的那篇論文


預測結構,預測功能,構建系統發育樹?聽上去都是生物研究中需要分析的基礎項。那麼怎麼做?就是將目標序列與資料庫中多條同源序列的相似部分擺放在同一欄,同一位置。


有一些工具可以幫助我們進行多序列比對,但是最好再根據結構、進化、功能、序列相似性人工矯正一下比對結果。



二、選擇合適的序列


1. 選擇序列時要注意的問題


選擇要比對的序列很重要,不然結果沒有意義。這些序列一般同源、同一家族等。但是同源,同一家族的蛋白質也太多了,我們選擇時一般可以注意以下幾個方面(比較通用的幾點,有特殊實驗要求的另外考慮):


(1)一般選擇比較蛋白質序列比DNA更好(因為蛋白質序列短而且含有的20種胺基酸信息比DNA有的的4種核苷酸信息更多;如果是非編碼區就只能選DNA序列比對);


(2)選擇的資料庫中的序列最好有一些有詳細的注釋,這樣可以提供很多信息;


(3)多序列比對選用10-15條序列開始比對(如果10條的結果不錯,又想再加別的序列進行分析也可以。如果結果不好,需要對現有的序列進行處理,比如刪除,剪輯等。比對序列的數量不是越多結果越好,多了反倒增加軟體出錯概率,除非工作需要);


(4)如果有一條序列與半數以上的其他序列一致性低於30%,比對會有些問題(一般aa序列一致性在30%-70%之間,E-value在10^-40到10^-5,不過這並不是硬性規定);


(5)如果有序列之間一致性太高的,進行多序列比對也沒有什麼價值(除非有特殊實驗目的,具體問題具體分析。需要權衡結果是要能更多地體現相似性還是提供新信息。序列之間高度相似,一定會有很好的比對結果。但是提供的新信息會少);


(6)很多工具善於比對總長度類似的序列,對長短不一的分析結果不好,如果可以,需要提前剪輯;


(7)一般工具對有重複片段的多序列進行比對時存在問題,尤其序列間重複的次數不同時問題更大,需要人工提取這部分,進行分析。


2. 操作示例


以人的鈣依賴性肌酶蛋白calcium-dependent kinase proteins—— 序列號為P20472的序列為例。可以在ExPASy、Swiss-Prot、NCBI的blastp頁面上直接輸入序列號,檢索,得到一系列同源序列,再按照上述規則選擇合適的多條序列,下載FASTA格式文件。


(1)下面截圖是ExPASy-blastp網頁的(https://web.expasy.org/blast/),如果選擇的序列它們長度相似且不需要額外剪輯,還可以直接勾選發送到ExPASy-Clustal W,進行多序列比對。


輸入序列號或者原始序列


得到多條比對結果,選擇並且導出FASTA格式或者直接發送到ExPASy-Clustal W(如下圖)


很多網站都有Clustal,MUSCLE的插件,在下面【三、選擇合適的多序列比對的方法】中會多介紹,這裡是因為ExPASy等網站可以直接將數據發送到多序列比對MSA的頁面,就先寫了;同樣,很多MSA網頁又可以直接將比對結果send to系統發育分析的網頁。


(2)在UniProt網站使用序列號提取全部序列


如果我們知道自己要比對的多條序列的序列號,可以直接在這裡(https://www.uniprot.org/uploadlists/)提取,點擊底下的submit即可。


輸入序列號


這裡除了提取序列,還可以通過序列號直接提取序列的其他信息


三、多序列比對軟體/程序


目前常見的有Clustal,、MUSCLE、T-Coffee和MAFFT等。


1. Clustal 


由於是第一款多序列比對的軟體,所以使用較多,很多網頁都有這個的功能插件(比如EBI,EMBnet,PIR,GenomeNet,DDBJ等)。它的更新版本也蠻多,之前是Clustalx,Clustal W系列。現在最新的是Clustal Omega,可最多比對4000條序列/小於4MB的文件。


EMBL-EBI-Clustal Omega

https://www.ebi.ac.uk/Tools/msa/clustalo/

GenomeNet-Clustal W

https://www.genome.jp/tools-bin/clustalw



Clustal Omega算法流程圖,整體來講,Clustal系列採用累進算法(progressive methods)。首先進行序列兩兩比對,構建距離矩陣→基於兩兩比對距離矩陣,由關係近的序列逐漸加入關係遠的序列構建引導樹guide tree→進行多序列比對。由此可見,比對的準確性高度依賴於一開始的兩兩比對,比較適用於親緣關係較近的序列。Clustal Omega中改進的新兩兩比對和建guide tree算法使Omega在W的基礎上,速度、準確度和數據處理量上與所提升。


2. MUSCLE(MUltiple Sequence Comparison by Log- Expectation)


https://www.ebi.ac.uk/Tools/msa/muscle/

最多比對500條序列/小於1MB的文件。


MUSCLE第一篇論文,介紹了算法。整體看也是累進算法,但是在此基礎上還有對引導樹受限分區進行調整和修正。


3. T-Coffee


最多比對500條序列/小於1MB的文件。

https://www.ebi.ac.uk/Tools/msa/tcoffee/

官網:http://tcoffee.crg.cat/apps/tcoffee/index.html



Coffee系列感覺很不錯啊,我是它顏粉。M-Coffee很與時俱進,顯示結果會指出其他的軟體,比如Clustal,MUSCLE等比對與Coffee結果一致的部分,一致部分比對可信度高,給科研工作者以參考,不用手動去不同平臺比對再進行比較了。


Coffee還推出了一個對MSA結果評估的工具TCS:



T-Coffee算法流程圖,方形框是操作,圓角框是數據結構。整體上還是累進算法,基於Clustal的算法。


4. MAFFT(Multiple Alignment using Fast Fourier Transform)


https://www.ebi.ac.uk/Tools/msa/mafft/

最多比對500條序列/小於1MB的文件。特定是速度快。



MAFFT中實現了兩種不同的算法,即累進方法(FFT‐NS‐2)和迭代優化方法(FFT‐NS‐i)。迭代方法(iterative methods)針對累進比對的不足,在比對過程中不斷重新比對各個亞組序列,再把亞組序列重排成包括所有序列在內的整體比對,從而獲得最優比對。


若我們在UniProt提取編號為P20472, P80079, P02626, P02619, P43305, P32930, Q91482, P02620, P02622, P02627的蛋白質序列的FASTA格式,上傳上述四個網站,結果是差不多的(應該是我找的這幾個序列對比太簡單了,序列長度都類似)。硬要仔細比較,可能是MUSCLE吧,它的distance矩陣看起來好些。


搜了一下別人的看法,大家都各有慣用的工具。另外有一個上文沒有提到的工具「PRANK」在發現多序列保守區域中表現很好,只是速度太慢,不適合較大文件。而且用這些工具進行比對之後,往往還需要手動調整、裁剪等,再進行下一步分析。


用不同的工具進行多序列比對時,還可看看它們能設定的參數。有的明顯更加適合你的數據(或者有的數據用什麼工具的結果都類似,就像我文中選的這10條序列)。找到自己喜歡的工具和網頁,多了解可以設定的參數(一般網站設定參數後面都有小問號解釋),更好的進行分析。


MUSCLE的distance matrix


四、評估多序列比對結果


1. 從結果的顯示可以簡單看出:


保守程度由高到低為「 *→:→ · 」 

*   保守欄,序列一致。

: 保守性突變,那幾個胺基酸可能是同種性質的,如分子量,電荷極性等。

·   半保守性突變。


2. Coffee-TCS也可以評估: 


從粉到藍,good→bad



3. 對結果進行進一步分析


我們進行MSA多數是為了找到這些序列的重要片段,重要片段的序列組成保守,不易突變,即使是在親緣關係較遠的序列間也相對保守。


上面的例子中幾個蛋白序列的MSA比對結果較好,通過評估只可以看出來N末端比C末端更加保守,推測在N末端更有可能是活性位點。但是範圍有些大且究竟是不是,還需引入差異大一些的序列進一步分析。


我們可以在擁有很好比對結果的序列基礎上引入兔子(P02586)和老鼠(P19123)的相應鈣依賴性肌酶蛋白的序列,再進行一次MSA(P20472, P80079, P02626, P02619, P43305, P32930, Q91482, P02620, P02622, P02627, P02586, P19123)。


直接提取相關序列並下載


MUSCLE比對加T-Coffee-TCS評估


原來一大塊比對的粉色區域被拆開了,可見粉色深的區域更加保守,很可能這些蛋白的活性位點在這個區域。


在Geneious軟體上的MUSCLE比對結果圖也很直觀:綠色identity=100%;軍綠色identity>30%;紅色identity<30%。引入兩條序列後,根據新的MSA結果推測鈣依賴性肌酶蛋白的活性位點(鈣離子結合位點)在下圖的圈裡,這個推測也與資料庫中的注釋信息一致,耶!開心。


Geneious MUSCLE比對結果


資料庫中關於人類鈣依賴性肌酶蛋白P20472的功能區域注釋,位置和比對結果可以對應


五、在一些unaligned蛋白序列中尋找保守功能域/DNA序列中找蛋白質結合位點(非比對MSA)


有時候我們要比較親緣關係太遠或沒有同源性的序列之間相似的部分,或想發現蛋白序列中複雜可變的模體。上面介紹的MSA程序就都不好用了,這時可以試試基於統計學方法的Pratt等工具,用以發現不能比對的序列的保守motif。


Pratt(https://www.ebi.ac.uk/Tools/pfa/pratt/),EMBL上的描述如下:



類似的分析不方便比對的序列的保守motif的工具還有:


Bioprospector (http://ai.stanford.edu/~xsliu/BioProspector/)

Improbizer(https://users.soe.ucsc.edu/~kent/improbizer/improbizer.html)


六、多序列比對總體思路


這個圖體現了多序列比對總體思路,我在國內外很多講義上看到,沒有註明來源,我也沒有找到是哪本書上的。這匯總的很棒,很清晰。今天這個推送裡主要介紹的就是這張圖中兩個紅圈方塊,上方紅圈是比對MSA,下方紅圈是非比對MSA。如果小夥伴知道是哪本書的還請留言哈。


這期有點長,給看到這裡的小夥伴筆芯♥

如果有錯誤還請留言哦,共同進步♥



往期相關內容:

【陪你學·生信】序

【陪你學·生信】一、生信能幫我們做什麼

【陪你學·生信】二、一些你肯定會用到的生信工具和基本操作

【陪你學·生信】三、核苷酸序列資料庫的使用

【陪你學·生信】四、蛋白質相關的資料庫

【陪你學·生信】五、當你有一段待分析的DNA序列(基礎操作介紹)

【陪你學·生信】六、當你有一段待分析的胺基酸序列 (基礎操作介紹)

【陪你學·生信】七、在資料庫中檢索相似的序列

【陪你學·生信】八、序列兩兩比對

相關焦點

  • 多序列比對——Clustal
    多序列比對是對3個以上生物序列(蛋白質、DNA、RNA等)進行比對,分析序列的同源性,根據比對的結果來構建系統進化樹。
  • 多重序列比對(MSA)分析工具怎麼選,看這一篇就夠了
    原本以為可以快速地進行下一步的選擇壓力分析,沒想到卻在多序列比對這一環節出現了棘手的問題。以前,我都是經過PRANK軟體進行多序列比對,然後再使用Gblocks軟體對數據進行過濾的。現在,由於師弟師妹在拼接CDS序列時,有些鹼基並不是保留3的倍數,造成很多編碼序列出現移碼突變,甚至變成了偽假基因(幾百個基因)。
  • 新算法助力大規模多序列比對
    新算法助力大規模多序列比對 作者:小柯機器人 發布時間:2019/12/3 12:33:22 近日,西班牙巴塞隆納科學技術學院Cedric Notredame、Evan Floden等研究人員合作開發了可用於大規模多序列比對(
  • 序列比對軟體
    今天小編特意給大家整理分享了有關序列比對綜合分析的軟體,聰明的你們快來試試有沒有心儀的軟體工具。Geneious         序列綜合分析軟體(https://www.geneious.com/)ClustalW  2.1用來對核酸與蛋白序列進行多序列比對(multiple sequence alignment
  • BBRC:章張等開發出編碼蛋白質DNA序列並行比對工具ParaAT
    同源序列比對是生物信息學最普遍使用的分析方法之一,其中,編碼蛋白質DNA序列比對最為常見,對比較基因組學、分子進化學、系統發育等領域具有重要的基礎意義。為獲取相應的比對結果,通常採用的方法是將蛋白序列的比對結果「回譯」(back-translate)成DNA比對序列,這樣的比對結果比直接進行DNA序列比對更可靠、準確。
  • BBRC:章張團隊研究開發出DNA序列並行比對新工具
    同源序列比對是生物信息學最普遍使用的分析方法之一,其中,編碼蛋白質DNA序列比對最為常見,對比較基因組學、分子進化學、系統發育等領域具有重要的基礎意義。為獲取相應的比對結果,通常採用的方法是將蛋白序列的比對結果「回譯」(back-translate)成DNA比對序列,這樣的比對結果比直接進行DNA序列比對更可靠、準確。
  • 序列比對綜合分析軟體
    Geneious 8.0.3序列綜合分析軟體;MACAW 2.05多序列構建與分析軟體。Clustal W 2.1用來對核酸與蛋白序列進行多序列比對(multiple sequence alignment)的軟體。FASTA 36.3.6f。將一條序列與另一條序列進行比較或在資料庫中查找同源序列並輸出。
  • Nat Methods:蛋白序列比對新工具HHblits更快更準
    近日,來自德國慕尼黑大學的研究人員在Nature Methods雜誌上發表論文"HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment"介紹一種能提高蛋白序列比對分析的新工具:HHblits,這是一種能極大增加蛋白功能性分析技術的軟體,能通過新穎的序列尋找方法
  • 如何進行基因組序列比對?
    、詳細信息及下載地址已經知道啦,那麼我們來看看利用什麼軟體或算法來將測序數據比對到31億鹼基序列上呢?SAM文件包括兩部分內容:注釋信息(header section)和比對結果部分(alignment section)。
  • Methods:德發明蛋白序列比對新工具——HHblits
    所以蛋白結構分析是蛋白研究的一個重要方面,蛋白結構比對也成為了常規手段之一,研究人員常常在公眾資料庫中比對蛋白結構,通過分析這些相似的已知結構來分析蛋白的功能,S?ding博士說,「這種序列分析方法是生物信息學領域的一種基礎研究手段。」序列尋找程序能通過計算配對方式來評估序列相似性——兩個胺基酸序列被按照先後順序排列,這是根據常見識別,或者同樣方式的胺基酸配對。
  • 常用在線序列比對工具
    多序列比對工具工具集網址:https://www.ebi.ac.uk/Tools/msa/>該主頁提供了多款多序列比對工具,其中Clustal Omega結果形式是全局比對形式,但是算法還是局部比對算法,不建議在分子進化樹分析過程使用Clustal相關程序,因為其速度及準確度均遜色於下述的MAFFT及MUSCLE。
  • 科學家發明蛋白序列比對新工具
    by HMM-HMM alignment」的文章,介紹一種能提高蛋白序列比對分析的新工具:HHblits,這是一種能極大增加蛋白功能性分析技術的軟體,能通過新穎的序列尋找方法,更快更準確的識別資料庫中具有相似序列的蛋白,比現有的方法能快2500倍!
  • 一文秒懂Blast結果圖(附序列比對網址)!教你快速上手,絕對實用!
    功能:多序列比對相似性展示網址:http://cotton.hzau.edu.cn/EN/tools/BioERCP/simitrix.php  功能:運行速度比較快的多序列比對網址:http://www.ebi.ac.uk/Tools/msa/muscle/#
  • 新手上路,一文秒懂Blast結果圖(附序列比對網址)
    一般來說,序列間的相似度越高,它們是同源序列的可能性就越高。 其中,序列比對無疑是評估序列相似性的最簡單方法。顯然,Blast就是序列比對檢測的中堅力量。Blast自1990年首次亮相以來,憑藉從各大資料庫(EST、PDB資料庫等)獲取信息的能力,迅速成為序列比對界的領頭羊。
  • 如何獲取蛋白序列並進行序列比對?
    今天我們就來說一下具體的方法,先介紹蛋白序列的獲取和序列比對。,我們看到包括了Sox9,Sox2,Sox11等蛋白的序列,這樣我們就拿到Sox家族的各條序列了,接來下我們進行序列比對。,單擊Align選項下的Edit/Build Alignment,創建新alignment,選擇蛋白protein:
  • 多序列比對分析-Dnaman很好用!
    軟體主要功能匯總1、DNA序列轉化、翻譯2、多序列比對分析3、系統進化樹分析4、DNA序列組裝和編輯5、BLAST通過網絡界面在Intranet / Internet Server上進行搜索6、SiRNA選擇器7、限制性內切酶酶切分析8、翻譯和密碼子使用分析9、蛋白質疏水性/
  • 手把手教你用 Fast Tree 快速構建序列進化樹
    對於近緣序列,最大簡約法用的假設最少,各種方法結果相似。而對於遠緣序列,一般使用最大似然法或鄰接法。對相似度很低的序列,鄰接法往往出現 Long-branch attraction(LBA,長枝吸引現象),嚴重幹擾進化樹的構建。對於各種方法構建分子進化樹的準確性,Hall 認為貝葉斯的方法最好,其次是最大似然法,然後是最大簡約法。其實如果序列的相似性較高,各種方法結果差別不大。
  • 【科研工具】做序列比對,這個工具最好用!
    在做基因分析的實驗室裡,經常要做序列比對(sequence alignment),多數人都會選擇用NCBI上的BLAST工具。其實,用一個名叫BLAT的工具,有時可以體驗到更好的比對效果。BLAST很常用,但在實際工作中,BLAST做序列比對有一些不足之處,例如比對分析速度偏慢,比對結果不直觀、難於處理,比對不能顯示基因內含子及其基因定位等等。相比之下,BLAT比對簡單方便,速度更快,可以做單一或多個序列的同時比對,還可以輸出直觀的比對結果。
  • 處理SAM、BAM你需要Samtools
    一般把測序reads比對到參考基因組以後,通常得到的就是sam文件,全稱是sequence alignment/map format,BAM就是SAM的二進位文件(B即:Binary)官方參考文檔http://samtools.github.io/hts-specs/SAMv1.pdf需要知道的名詞template:DNA/RNA序列的一部分,