【科研工具】做序列比對,這個工具最好用!

2021-01-18 聯埠資訊


在做基因分析的實驗室裡,經常要做序列比對(sequence alignment),多數人都會選擇用NCBI上的BLAST工具。其實,用一個名叫BLAT的工具,有時可以體驗到更好的比對效果。


BLAST很常用,但在實際工作中,BLAST做序列比對有一些不足之處,例如比對分析速度偏慢,比對結果不直觀、難於處理,比對不能顯示基因內含子及其基因定位等等。


相比之下,BLAT比對簡單方便,速度更快,可以做單一或多個序列的同時比對,還可以輸出直觀的比對結果。如果序列中包含內含子,可以一目了然看到內含子序列及其在染色體上的位置。另外,BLAT也同樣可以處理DNA,RNA和蛋白質序列的比對。線上BLAT工具在genome.ucsc.edu上,當然也可以下載這個工具的安裝版,在線下做比對分析。


對DNA序列,BLAT分析可以快速在基因組資料庫中找到95%一致性的匹配序列,對25bp以上DNA片段的相似性會更高。BLAT可能會錯過更多差異性或更短的序列比對(這些差異其實也沒有什麼實際意義,可以忽略)。對輸入DNA序列的長度,要求不少於20bp。對蛋白質序列,BLAT可找到資料庫中80%一致性或更高,要求最短輸入長度為12aa。在實踐中,DNA BLAT在靈長類動物上運作良好,而蛋白質BLAT在陸地脊椎動物上運作良好。這對做人類基因研究工作來說,當然不成問題。

現在以一個200 bp DNA序列片段為例,演示如何運用線上BLAT做比對分析,甚至是突變分析。


第一步,打開genome.ucsc.edu網頁,在其主頁面的Tools欄,找到BLAT並點擊。



第二步,在方框中輸入序列並提交。


如果比對人類基因,在方框上方的Genome 中下拉選擇Human。依具體研究需要,也可以選擇其它物種,甚至勾上Search all選中所有物種。


Assembly 是不同時期版本的基因組資料庫,可以選擇特定版本,也可以使用默認default的版本(一般就是最新版本)。


在Query type欄,可以下拉選擇所輸入序列的性質是DNA,RNA或蛋白質,也可以選默認的BLAT’s guess。


在Sort output欄,可以選擇結果輸出的包括的內容,包括序列長度,起始位置,可BLAT的相似度分值。這裡選擇第一種(query,score)。


在Outputtype欄,可以選擇結果輸出的形式,可以是超連結hyperlink,也可以是非連結的psl形式。多數時會選擇hyperlink,因為這樣可以進一步獲取目標序列更多的有用信息。


然後點擊Submit提交。


第三步,預覽比對結果。


Submit後幾乎立即就可得到BLAT比對結果,並以清晰明了的方式將該目標序列與人類基因組資料庫的匹配情況顯示出來。


在本實例中,可以看到該序列BLAT產生了3個人類基因的匹配位置,按其分值大小上下排列。

第一個匹配的分值是196,從1-200bp都在匹配區域,一致性有99.5%(不是100%,提示有序列變異)。該匹配在X染色體上負鏈上,對應於15587804-15591744的鹼基序列位置。最後一列顯示該比對發現目標序列跟基因組序列有3941bp的跨度(SPAN)。這個SAPN基本上可以認為是內含子產生的,當然還不能確定是有一個內含子還有兩個或更多。在結果顯示欄的最前面,還有兩個超連結,點擊browser可以看到該序列在對應的染色體上的位置以及所屬基因等更多信息,點擊details可以獲取目標序列的更詳細的結構信息。這兩個功能我們下面會繼續提到。


第二個和第三個匹配的分值都很低,分別只有21和20,第二個匹配是46-66bp對應於12號染色體正鏈45682095-45682115位置,有100%的一致性,因跨度只有21bp,可以認為這個匹配是偶然產生的,並不代表該目標序列與此位置真正有關係。但是,因為存在這100%的序列一致性,提示在可能存在的引物設計中,要避開這21個bp的位置。第三個匹配情況相似,不做更多說明。


第四步,獲取目標序列的染色體位置及所屬基因信息。


點擊browser後,該目標序列對應的染色體位置以及所屬基因等更多信息就很直觀地顯現出來。


從圖上我們可以看到,這個目標片段屬於位於X染色體的ACE2基因,該序列含有ACE2基因的三個外顯子的部分序列,但沒有內含子對應的序列,所以可以認定是cDNA序列。這個圖下邊還有ACE2基因更多的信息,包括基因結構,基因表達,該序列對應的ACE2基因區域在各個物種中的序列保守性,以及這個區域的序列變異性,包括SNP和重複序列等。繼續下拉,還可以看到更多可以顯示的內容,這屬於genome browser界面的功用,這裡不再多述了。



第五步, 獲取目標序列的詳細的結構和組成信息。


我們可以從第四步的browser頁面後退回到BLAT Search Results顯示頁面,點擊details,就可以得到目標序列的詳細組成信息。


這是對BLAT Alignment of YourSeq and chrX:15587804-15591744D的總結。

在這個圖上可以清楚看到,目標序列對應於ChrX:15587804-15591744位置,並對序列鹼基標識(顏色和大小寫)做了清晰說明。接著顯示內容依次為:

cDNA YourSeq:輸入的目標序列的類型(cDNA),完整序列及長度(200bp)和變異鹼基(33位c)。


Genomic chrX (reverse strand): 目標序列及其兩側的序列以及染色體位置。


Side by Side Alignment:跟BLAST相似的目標序列與基因組序列匹配鹼基的位置

這個頁面十分友好,在左上角還設置了幾個快捷連結,點擊不同快捷連結可以快速切換,在右側顯示欄顯示相關信息。例如,在本例中,左上的block1,block2和block3分別對應於目標序列的3個外顯子區域,點擊其中一個就可以在右側直接顯示該外顯子序列的具體情況。


在本例中,cDNA YourSeq欄,顯示我們輸入的目標序列屬於cDNA序列,並標上不同顏色。藍色大寫鹼基表示是完全與基因組ACE2基因匹配的部分,淡藍色大寫鹼基表示間隔的邊界(常常是外顯子與內含子間的剪切位點)。而第33位的鹼基c用黑色小寫,表示不能與基因組序列匹配,提示這是一個序列變異甚至可能是突變。


在Genomic chrX (reverse strand) 欄,顯示了這200bp目標序列對應的基因組序列的詳細信息。首先看到的是block1,外顯子鹼基序列顯示與cDNA YourSeq欄完全對應,並且顯示出外顯子所涵蓋的內含子區域的完整序列(黑色小寫)以及鹼基位置(右邊數字為該行序列最後一個鹼基的在染色體上的物理位置)。我們繼續下拉滑標或用左上快捷連結可以瀏覽block2和block3及其兩側的序列組成。


在block2的5』端,我們可以看到基因組序列15589456位置的a 對應於目標序列第33位的鹼基c,兩者不能匹配,均用黑色小寫。一般情況下,可以解釋為在該目標序列中,發現了一個A>C的變異。當然,是否是「真實」的突變還需要進一步驗證。



值得注意的是,在block1前面有200bp的序列,用黑色小寫表示,表示不與目標序列匹配,但也不一定就是內含子序列,需要根據具體情況來區分這200bp序列哪部分是跟block1同一個外顯子序列,哪一部分是前邊一個內含子的序列。對於block3後面的200bp序列,情況類似。這時可以到browser的界面,下載ACE2基因的全序列以及外顯子/內含子結構,就可以輕鬆解決。


第六步 ,建立基因BLAT比對文檔和記錄。


BLAT還有一個優點,及時它生成的BLAT結果輸出,序列和超連結都可以同複製/粘貼的方式放到Word文檔裡進行編輯。這個真的是太方便了!


最後說明一下,BLAT是BLAST-Like Alignment Tool的簡稱,顧名思義,只是一個"類BLAST 比對工具",不能代替BLAST做所有的序列比對工作。還有,BLAT是吉姆·肯特(Jim Kent)撰寫,像Jim的大多數軟體一樣,線上和線下BLAT的使用都是免費的。我們在享受這些免費工具給我們帶來的便利和快樂時,不要忘了Jim這樣的建設者吧。



本文為 陳漢奎 原創

聯埠資訊編輯部整理編輯

 1991年武漢大學生物系畢業,2002年獲中山大學博士學位,先後在美國俄亥俄州立大學、芝加哥大學和Rush大學從事腫瘤研究工作,2017年創立廣州中鑫基因醫學科技有限公司,專注於腫瘤早篩、液體活檢、病原基因檢測等產品研發和應用轉化。



-END-


【科研工具】

別再找啦!NCBI Gene使用秘籍都在這兒!

科研工具

必看!R的高級玩法!用R分析COVID-19實時數據-地圖篇

相關焦點

  • 常用在線序列比對工具
    EMBL-EBI提供大量的對比工具在線服務,並不代表其擁有這些工具的所有權。 按工具功能大致可以分為3類:配對序列比對工具,多序列比對工具以及序列相似性搜索工具。 配對序列比對工具工具集網址:https://www.ebi.ac.uk/Tools/psa/這些可能是史前比對工具了,現在估計沒有什麼人在用了,可能也沒人聽過還有這樣的工具存在。
  • BBRC:章張等開發出編碼蛋白質DNA序列並行比對工具ParaAT
    近日,國際雜誌Biochemical and Biophysical Research Communications在線刊登了中國科學院北京基因組研究所基因組科學與信息重點實驗室「百人計劃」章張研究員團隊的最新研究成果,研究者成功開發出「編碼蛋白質DNA序列並行比對工具—ParaAT(Parallel Alignment and back-Translation
  • BBRC:章張團隊研究開發出DNA序列並行比對新工具
    最近,中國科學院北京基因組研究所基因組科學與信息重點實驗室「百人計劃」章張研究員,帶領其團隊成功開發出「編碼蛋白質DNA序列並行比對工具—ParaAT(Parallel Alignment and back-Translation)」。
  • 科學家發明蛋白序列比對新工具
    來自德國慕尼黑大學的研究人員發表了題為「HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment」的文章,介紹一種能提高蛋白序列比對分析的新工具
  • 做生物信息學分析屢碰壁?其實是你沒有用對工具
    生物信息學分析工具做生物信息學分析碰壁?那是你沒有用對工具序列比對是我們科研人員經常要做的工作,但是因為每個人因習慣、喜好或者實驗室偏好不同,往往會使用不同的序列比對工具,今天南博屹生物小博為大家帶來幾個好用的序列比對工具——總有一款適合你Clustal OmegaDNA
  • 乾貨時間 | 序列比對,科研必備的幾款軟體!
    本文作者:Cream 轉載留言即可 作為一名生物科研狗,在飽受實驗折磨的同時,相信大家也都多少會受到一些生信軟體的「寵愛」。比如需要做序列比對,卻不知道該用什麼軟體,不知道怎麼設參數、不懂怎麼讀結果。
  • 多重序列比對(MSA)分析工具怎麼選,看這一篇就夠了
    雖然,現在可以進行多序列比對的軟體有很多,比如Muscle、MAFFT、PRANK等,但它們均不能解決移碼突變的問題。於是,我開始去google搜尋解決方案。功夫不負有心人,我最終找到了完美的解決辦法,收穫頗豐,所以把這個過程記錄下來。
  • 如何獲取蛋白序列並進行序列比對?
    今天我們就來說一下具體的方法,先介紹蛋白序列的獲取和序列比對。,我們看到包括了Sox9,Sox2,Sox11等蛋白的序列,這樣我們就拿到Sox家族的各條序列了,接來下我們進行序列比對。接下來我們要用的工具軟體是MEGA,可以從官網(http://www.megasoftware.net/)下載:下載後打開後的界面:
  • 乾貨 | 一款超好用的 DNA 序列比對軟體
    今天給大家強烈推薦一款 DNA 比對軟體:APE(a plasmid editor)這款軟體不僅能做 DNA 序列比對,DNA 序列翻譯,還能夠做引物設計,酶切位點設計,質粒圖譜構建(這個還是 snapgene 更好用,不過人家是收費的),ORF
  • Nat Methods:蛋白序列比對新工具HHblits更快更準
    近日,來自德國慕尼黑大學的研究人員在Nature Methods雜誌上發表論文"HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment"介紹一種能提高蛋白序列比對分析的新工具:HHblits,這是一種能極大增加蛋白功能性分析技術的軟體,能通過新穎的序列尋找方法
  • Methods:德發明蛋白序列比對新工具——HHblits
    近日,德國慕尼黑大學的研究人員發表論文介紹一種能提高蛋白序列比對分析的新工具:HHblits。相關成果公布在《自然—方法學》(Nature Methods)雜誌上。所以蛋白結構分析是蛋白研究的一個重要方面,蛋白結構比對也成為了常規手段之一,研究人員常常在公眾資料庫中比對蛋白結構,通過分析這些相似的已知結構來分析蛋白的功能,S?ding博士說,「這種序列分析方法是生物信息學領域的一種基礎研究手段。」序列尋找程序能通過計算配對方式來評估序列相似性——兩個胺基酸序列被按照先後順序排列,這是根據常見識別,或者同樣方式的胺基酸配對。
  • 【陪你學·生信】九、多序列比對-Multiple Sequence Alignment(MSA)
    /index.cgi,這個網站的新版:https://ngphylogeny.fr/ 剛剛朋友M還給我介紹了另一個工具:SMS,如果用PhyML建樹的話,可以在SMS上先跑一下,得到建樹的推薦參數設定)。
  • 多序列比對分析-Dnaman很好用!
    ,是生物學家必備工具之一。序列載入打開Dnaman軟體,如下圖,第一欄為主菜單欄,有12個常用主菜單;第二欄為工具欄;再下面為瀏覽器欄下面主要介紹下Channel 工具條,Dnaman 提供20 個Channel(如下圖左側),點擊Channel 工具條,即可擊活相應的Channel,每個Channel 可以裝入一條序列,將要分析的序列(DNA 序列或胺基酸序列)放入Channel
  • 序列比對及Blast的應用
    因此,序列比對問題變成在矩陣裡尋找最佳比對路徑,目前最有效的方法是Needleman-Wunsch動態規划算法,在此基礎上又改良產生了Smith-Waterman算法和SIM算法。在FASTA程序包中可以找到用動態規划算法進行序列比對的工具LALIGN,它能給出多個不相互交叉的最佳比對結果。 在進行序列兩兩比對時,有兩方面問題直接影響相似性分值:取代矩陣和空位罰分。
  • 序列比對綜合分析軟體
    SeqPup 0.9SeqPup是生物分子序列編輯與分析軟體。K-Estimator 6.1v當對兩個核酸序列進行比對時,K-Estimator用來評估兩者核苷酸替代數(趨異性),包括蛋白編碼區與非蛋白編碼區。BioEdit 7.2.1BioEdit是一個序列編輯器與分析工具軟體。7.0.1中文漢化版。DAMBE 5.3.48綜合性序列分析工具軟體。
  • 基因組序列太深奧?用這套工具能讀懂
    原標題:基因組序列太深奧?用這套工具能讀懂 基因組測序工作完成後,哪些基因能翻譯蛋白、能翻譯哪些蛋白,一直是生命科學研究的熱點和難點。近日,中國科學院水生生物研究所葛峰學科組在這一問題上取得突破性進展,相關研究成果於近日在線發表於國際期刊《分子植物》上。
  • 序列比對軟體
    今天小編特意給大家整理分享了有關序列比對綜合分析的軟體,聰明的你們快來試試有沒有心儀的軟體工具。Geneious         序列綜合分析軟體(https://www.geneious.com/)ClustalW  2.1用來對核酸與蛋白序列進行多序列比對(multiple sequence alignment
  • 推薦2個核酸序列翻譯成胺基酸序列的小工具
    這裡為大家推薦2個在線小工具,可查找DNA或RNA序列的開放閱讀框(ORF),同時將其翻譯成胺基酸序列。雖然使用方法非常簡單,但非常有用,比如可分析circRNA、LncRNA是否具有翻譯潛能(是否有ORF)等。
  • 谷歌推出開源工具DeepVariant,用深度學習識別基因變異
    Root 李林 編譯整理量子位 出品 | 公眾號 QbitAIGoogle今天推出了一個名叫DeepVariant的開源工具,用深度神經網絡來從DNA測序數據中快速精確識別鹼基變異位點。學科研究的革命性進展,特別是基因學上,需要依賴於新技術的出現。比如桑格發明了測序法之後,才實現了人類基因組的測序。
  • 新手上路,一文秒懂Blast結果圖(附序列比對網址)
    轉載請註明:解螺旋·臨床醫生科研成長平臺 眾所周知,同源性是預測基因和蛋白質功能的主要線索,而序列同源性的判斷則離不開兩個或多個序列之間相似性的檢測一般來說,序列間的相似度越高,它們是同源序列的可能性就越高。 其中,序列比對無疑是評估序列相似性的最簡單方法。顯然,Blast就是序列比對檢測的中堅力量。Blast自1990年首次亮相以來,憑藉從各大資料庫(EST、PDB資料庫等)獲取信息的能力,迅速成為序列比對界的領頭羊。