近日,來自德國慕尼黑大學的研究人員在Nature Methods雜誌上發表論文"HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment"介紹一種能提高蛋白序列比對分析的新工具:HHblits,這是一種能極大增加蛋白功能性分析技術的軟體,能通過新穎的序列尋找方法,更快更準確的識別資料庫中具有相似序列的蛋白,比現有的方法能快2500倍!。
領導這一研究的是慕尼黑大學基因中心的Johannes Söding博士,他表示,「我們的方法能延伸序列分析的廣度和力度,從而能方便之後的蛋白結構和功能的解析。」
蛋白存在於生命中幾乎所有生化過程中,一個蛋白的功能很大程度上依賴於其20種胺基酸排列組合的順序,以及胺基酸序列組成的三維空間結構。因此對於序列相似的蛋白來說,生物信息學方法能預測出其進化相關性,從而預測出相似的結構和功能。
所以蛋白結構分析是蛋白研究的一個重要方面,蛋白結構比對也成為了常規手段之一,研究人員常常在公眾資料庫中比對蛋白結構,通過分析這些相似的已知結構來分析蛋白的功能,Söding博士說,「這種序列分析方法是生物信息學領域的一種基礎研究手段。」
序列尋找程序能通過計算配對方式來評估序列相似性——兩個胺基酸序列被按照先後順序排列,這是根據常見識別,或者同樣方式的胺基酸配對。「也許比配對序列相似性更加重要的是,所謂的多序列比對,在這種情況下,研究人員可以尋找許多相關蛋白中的相似序列,或者將其安排進矩陣中——矩陣是指每個序列排列一行,相同單元中具有相同胺基酸」,Söding博士說。因為進化上相關蛋白的功能和結構都通常是保守的,比如說即使進化過程中出現突變,序列改變了,但是多序列比對能找到未知蛋白的結構和分子功能。
在過去的15年間,最流行的比對蛋白質序列的工具是PSI-BLAST,這是由於這一程序兼具速度和高靈敏度,以及精確度。
但這一新成果,Söding博士的這一最新HHblits方法在各方面更勝一籌,這主要體現在兩個方面,首先研究人員能將興趣蛋白的序列,與資料庫中蛋白的序列相互轉換,進入Hidden Markov Models (HMMs)模式,HMMs是一種能配合序列比對過程中出現的突變可能的統計模型,因此這一步能提升亞序列相似搜索的靈敏度和準確性。
其次,這一研究組還研發了一種能幫助降低篩選量,而又不損害搜索靈敏性的過濾成像,這種方法能將搜索時間提高2500倍,Söding博士強調這種HHblits方法,比較於之前的方法,能更快更精確預測蛋白功能和結構,其研究組已經著手更深入提升這一方法,這包括協同蛋白三維結構數據進行分析。(生物谷Bioon.com)
HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment
Michael Remmert, Andreas Biegert, Andreas Hauser & Johannes Söding
Sequence-based protein function and structure prediction depends crucially on sequence-search sensitivity and accuracy of the resulting sequence alignments. We present an open-source, general-purpose tool that represents both query and database sequences by profile hidden Markov models (HMMs): 'HMM-HMM–based lightning-fast iterative sequence search' (HHblits; http://toolkit.genzentrum.lmu.de/hhblits/). Compared to the sequence-search tool PSI-BLAST, HHblits is faster owing to its discretized-profile prefilter, has 50–100% higher sensitivity and generates more accurate alignments.