Nat Methods:蛋白序列比對新工具HHblits更快更準

2021-01-15 生物谷

近日,來自德國慕尼黑大學的研究人員在Nature Methods雜誌上發表論文"HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment"介紹一種能提高蛋白序列比對分析的新工具:HHblits,這是一種能極大增加蛋白功能性分析技術的軟體,能通過新穎的序列尋找方法,更快更準確的識別資料庫中具有相似序列的蛋白,比現有的方法能快2500倍!。

領導這一研究的是慕尼黑大學基因中心的Johannes Söding博士,他表示,「我們的方法能延伸序列分析的廣度和力度,從而能方便之後的蛋白結構和功能的解析。」

蛋白存在於生命中幾乎所有生化過程中,一個蛋白的功能很大程度上依賴於其20種胺基酸排列組合的順序,以及胺基酸序列組成的三維空間結構。因此對於序列相似的蛋白來說,生物信息學方法能預測出其進化相關性,從而預測出相似的結構和功能。

所以蛋白結構分析是蛋白研究的一個重要方面,蛋白結構比對也成為了常規手段之一,研究人員常常在公眾資料庫中比對蛋白結構,通過分析這些相似的已知結構來分析蛋白的功能,Söding博士說,「這種序列分析方法是生物信息學領域的一種基礎研究手段。」

序列尋找程序能通過計算配對方式來評估序列相似性——兩個胺基酸序列被按照先後順序排列,這是根據常見識別,或者同樣方式的胺基酸配對。「也許比配對序列相似性更加重要的是,所謂的多序列比對,在這種情況下,研究人員可以尋找許多相關蛋白中的相似序列,或者將其安排進矩陣中——矩陣是指每個序列排列一行,相同單元中具有相同胺基酸」,Söding博士說。因為進化上相關蛋白的功能和結構都通常是保守的,比如說即使進化過程中出現突變,序列改變了,但是多序列比對能找到未知蛋白的結構和分子功能。

在過去的15年間,最流行的比對蛋白質序列的工具是PSI-BLAST,這是由於這一程序兼具速度和高靈敏度,以及精確度。

但這一新成果,Söding博士的這一最新HHblits方法在各方面更勝一籌,這主要體現在兩個方面,首先研究人員能將興趣蛋白的序列,與資料庫中蛋白的序列相互轉換,進入Hidden Markov Models (HMMs)模式,HMMs是一種能配合序列比對過程中出現的突變可能的統計模型,因此這一步能提升亞序列相似搜索的靈敏度和準確性。

其次,這一研究組還研發了一種能幫助降低篩選量,而又不損害搜索靈敏性的過濾成像,這種方法能將搜索時間提高2500倍,Söding博士強調這種HHblits方法,比較於之前的方法,能更快更精確預測蛋白功能和結構,其研究組已經著手更深入提升這一方法,這包括協同蛋白三維結構數據進行分析。(生物谷Bioon.com)

HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment

Michael Remmert,  Andreas Biegert,  Andreas Hauser  & Johannes Söding

Sequence-based protein function and structure prediction depends crucially on sequence-search sensitivity and accuracy of the resulting sequence alignments. We present an open-source, general-purpose tool that represents both query and database sequences by profile hidden Markov models (HMMs): 'HMM-HMM–based lightning-fast iterative sequence search' (HHblits; http://toolkit.genzentrum.lmu.de/hhblits/). Compared to the sequence-search tool PSI-BLAST, HHblits is faster owing to its discretized-profile prefilter, has 50–100% higher sensitivity and generates more accurate alignments.

相關焦點

  • Nat. Methods:德發明蛋白序列比對新工具——HHblits
    HHblits是一種能極大增加蛋白功能性分析技術的軟體,能通過新穎的序列尋找方法,更快更準確的識別資料庫中具有相似序列的蛋白,比現有的方法能快2500倍!領導這一研究的是慕尼黑大學基因中心的Johannes Soding博士,他表示,「我們的方法能延伸序列分析的廣度和力度,從而能方便之後的蛋白結構和功能的解析。」
  • 科學家發明蛋白序列比對新工具
    :HHblits,這是一種能極大增加蛋白功能性分析技術的軟體,能通過新穎的序列尋找方法,更快更準確的識別資料庫中具有相似序列的蛋白,比現有的方法能快2500倍!因此對於序列相似的蛋白來說,生物信息學方法能預測出其進化相關性,從而預測出相似的結構和功能。 所以蛋白結構分析是蛋白研究的一個重要方面,蛋白結構比對也成為了常規手段之一,研究人員常常在公眾資料庫中比對蛋白結構,通過分析這些相似的已知結構來分析蛋白的功能,Söding博士說,「這種序列分析方法是生物信息學領域的一種基礎研究手段。」
  • 常用在線序列比對工具
    算法在向更快、更精確、能處理更多數據這些方向進行緩慢而有力的發展。常用的在線序列比對工具主要由EMBL-EBI提供,包括但不限於Needle, Water, Clustal Omega, Muscle, Mafft, T-coffee等,以及NCBI提供的blast2seq工具;常用的序列相似性搜索工具有NCBI提供的BLAST、UCSC提供的BLAT等。
  • 如何獲取蛋白序列並進行序列比對?
    今天我們就來說一下具體的方法,先介紹蛋白序列的獲取和序列比對。以Sox家族的蛋白為例,我們首先通過Uniprot資料庫(http://www.uniprot.org/)獲取蛋白序列:這是打開後是序列,我們看到包括了Sox9,Sox2,Sox11等蛋白的序列,這樣我們就拿到Sox家族的各條序列了,接來下我們進行序列比對。
  • 多重序列比對(MSA)分析工具怎麼選,看這一篇就夠了
    另外,兩個序列之間的長度差異可以通過刪除一個序列中的現有鹼基位點或插入另一個序列中的新鹼基位點來解釋。兩個序列之間發生替換差異的進化譜系,可以用外群序列來解決,也可以通過推斷兩個序列的祖先的特徵狀態來解決。因此,以上所有情況的結論準確性很可能取決於多序列比對(MSA)的準確性。最近的研究表明,MSA算法在分析基因組序列時會產生不同的結果,包括系統發生樹推斷和適應性進化的檢測。
  • 【陪你學·生信】九、多序列比對-Multiple Sequence Alignment(MSA)
    需要權衡結果是要能更多地體現相似性還是提供新信息。序列之間高度相似,一定會有很好的比對結果。但是提供的新信息會少);(6)很多工具善於比對總長度類似的序列,對長短不一的分析結果不好,如果可以,需要提前剪輯;(7)一般工具對有重複片段的多序列進行比對時存在問題,尤其序列間重複的次數不同時問題更大,需要人工提取這部分,進行分析。
  • 新算法助力大規模多序列比對
    新算法助力大規模多序列比對 作者:小柯機器人 發布時間:2019/12/3 12:33:22 近日,西班牙巴塞隆納科學技術學院Cedric Notredame、Evan Floden等研究人員合作開發了可用於大規模多序列比對(
  • 【科研工具】做序列比對,這個工具最好用!
    在做基因分析的實驗室裡,經常要做序列比對(sequence alignment),多數人都會選擇用NCBI上的BLAST工具。其實,用一個名叫BLAT的工具,有時可以體驗到更好的比對效果。BLAST很常用,但在實際工作中,BLAST做序列比對有一些不足之處,例如比對分析速度偏慢,比對結果不直觀、難於處理,比對不能顯示基因內含子及其基因定位等等。相比之下,BLAT比對簡單方便,速度更快,可以做單一或多個序列的同時比對,還可以輸出直觀的比對結果。
  • 序列比對綜合分析軟體
    SeqPup 0.9SeqPup是生物分子序列編輯與分析軟體。K-Estimator 6.1v當對兩個核酸序列進行比對時,K-Estimator用來評估兩者核苷酸替代數(趨異性),包括蛋白編碼區與非蛋白編碼區。BioEdit 7.2.1BioEdit是一個序列編輯器與分析工具軟體。7.0.1中文漢化版。DAMBE 5.3.48綜合性序列分析工具軟體。
  • BBRC:章張團隊研究開發出DNA序列並行比對新工具
    最近,中國科學院北京基因組研究所基因組科學與信息重點實驗室「百人計劃」章張研究員,帶領其團隊成功開發出「編碼蛋白質DNA序列並行比對工具—ParaAT(Parallel Alignment and back-Translation)」。
  • 乾貨時間 | 序列比對,科研必備的幾款軟體!
    BLAST(Basic Local Alignment Search Tool)可以說是短序列比對中最常用的比對工具了,它不僅支持核酸和蛋白的雙序列比對,而且可以在蛋白質資料庫或DNA資料庫中進行相似性比較,找到與查詢序列相似的序列。
  • 序列比對軟體
    今天小編特意給大家整理分享了有關序列比對綜合分析的軟體,聰明的你們快來試試有沒有心儀的軟體工具。Geneious         序列綜合分析軟體(https://www.geneious.com/)ClustalW  2.1用來對核酸與蛋白序列進行多序列比對(multiple sequence alignment
  • BBRC:章張等開發出編碼蛋白質DNA序列並行比對工具ParaAT
    近日,國際雜誌Biochemical and Biophysical Research Communications在線刊登了中國科學院北京基因組研究所基因組科學與信息重點實驗室「百人計劃」章張研究員團隊的最新研究成果,研究者成功開發出「編碼蛋白質DNA序列並行比對工具—ParaAT(Parallel Alignment and back-Translation
  • 序列比對及Blast的應用
    早期的序列比對是全局的序列比較,但由於蛋白質具有的模塊性質,可能由於外顯子的交換而產生新蛋白質,因此局部比對會更加合理。通常用打分矩陣描述序列兩兩比對,兩條序列分別作為矩陣的兩維,矩陣點是兩維上對應兩個殘基的相似性分數,分數越高則說明兩個殘基越相似。
  • 多序列比對分析-Dnaman很好用!
    序列載入打開Dnaman軟體,如下圖,第一欄為主菜單欄,有12個常用主菜單;第二欄為工具欄;再下面為瀏覽器欄中可以節約存取序列時間,加快分析速度,序列裝載如下圖所示,也可以點擊工具欄中的File seq圖標進行序列裝載。
  • 乾貨 | 一款超好用的 DNA 序列比對軟體
    對於每一個進入生物領域的人,基本都避免不了分子克隆,當然就需要一個稱手的 DNA 比對軟體
  • Current Opinion in Structural Biology:從蛋白質序列到功能的預測
    然而,這些序列信息還沒有被很好的註解。例如,只有不到1%的蛋白質序列有已知的功能。如果我們能夠利用計算生物學的方法,大量註解這些序列信息,就能夠積累很多對於蛋白質結構的認識,最終達到從量變到質變的飛躍。來自美國紐約霍華德醫學中心的科學家們討論了基於蛋白質功能注釋結構的新方法。
  • 如何進行基因組序列比對?
    首先要做的就是將測序得到的reads比對到人基因組參考序列上。隨著人類基因組計劃(Human Genome Project,HGP)的進行,International Human Genome Sequencing Consortium在2001年首次公布了人基因組序列的草圖,2003年人類基因組計劃宣布完成。
  • 手把手教你用 Fast Tree 快速構建序列進化樹
    對於近緣序列,最大簡約法用的假設最少,各種方法結果相似。而對於遠緣序列,一般使用最大似然法或鄰接法。對相似度很低的序列,鄰接法往往出現 Long-branch attraction(LBA,長枝吸引現象),嚴重幹擾進化樹的構建。對於各種方法構建分子進化樹的準確性,Hall 認為貝葉斯的方法最好,其次是最大似然法,然後是最大簡約法。其實如果序列的相似性較高,各種方法結果差別不大。
  • 新手上路,一文秒懂Blast結果圖(附序列比對網址)
    一般來說,序列間的相似度越高,它們是同源序列的可能性就越高。 其中,序列比對無疑是評估序列相似性的最簡單方法。顯然,Blast就是序列比對檢測的中堅力量。Blast自1990年首次亮相以來,憑藉從各大資料庫(EST、PDB資料庫等)獲取信息的能力,迅速成為序列比對界的領頭羊。