在做基因分析的實驗室裡,經常要做序列比對(sequence alignment),多數人都會選擇用NCBI上的BLAST工具。其實,用一個名叫BLAT的工具,有時可以體驗到更好的比對效果。
BLAST很常用,但在實際工作中,BLAST做序列比對有一些不足之處,例如比對分析速度偏慢,比對結果不直觀、難於處理,比對不能顯示基因內含子及其基因定位等等。
相比之下,BLAT比對簡單方便,速度更快,可以做單一或多個序列的同時比對,還可以輸出直觀的比對結果。如果序列中包含內含子,可以一目了然看到內含子序列及其在染色體上的位置。另外,BLAT也同樣可以處理DNA,RNA和蛋白質序列的比對。線上BLAT工具在genome.ucsc.edu上,當然也可以下載這個工具的安裝版,在線下做比對分析。
對DNA序列,BLAT分析可以快速在基因組資料庫中找到95%一致性的匹配序列,對25bp以上DNA片段的相似性會更高。BLAT可能會錯過更多差異性或更短的序列比對(這些差異其實也沒有什麼實際意義,可以忽略)。對輸入DNA序列的長度,要求不少於20bp。對蛋白質序列,BLAT可找到資料庫中80%一致性或更高,要求最短輸入長度為12aa。在實踐中,DNA BLAT在靈長類動物上運作良好,而蛋白質BLAT在陸地脊椎動物上運作良好。這對做人類基因研究工作來說,當然不成問題。
現在以一個200 bp DNA序列片段為例,演示如何運用線上BLAT做比對分析,甚至是突變分析。
第一步,打開genome.ucsc.edu網頁,在其主頁面的Tools欄,找到BLAT並點擊。
第二步,在方框中輸入序列並提交。
如果比對人類基因,在方框上方的Genome 中下拉選擇Human。依具體研究需要,也可以選擇其它物種,甚至勾上Search all選中所有物種。
Assembly 是不同時期版本的基因組資料庫,可以選擇特定版本,也可以使用默認default的版本(一般就是最新版本)。
在Query type欄,可以下拉選擇所輸入序列的性質是DNA,RNA或蛋白質,也可以選默認的BLAT’s guess。
在Sort output欄,可以選擇結果輸出的包括的內容,包括序列長度,起始位置,可BLAT的相似度分值。這裡選擇第一種(query,score)。
在Outputtype欄,可以選擇結果輸出的形式,可以是超連結hyperlink,也可以是非連結的psl形式。多數時會選擇hyperlink,因為這樣可以進一步獲取目標序列更多的有用信息。
然後點擊Submit提交。
第三步,預覽比對結果。
Submit後幾乎立即就可得到BLAT比對結果,並以清晰明了的方式將該目標序列與人類基因組資料庫的匹配情況顯示出來。
在本實例中,可以看到該序列BLAT產生了3個人類基因的匹配位置,按其分值大小上下排列。
第一個匹配的分值是196,從1-200bp都在匹配區域,一致性有99.5%(不是100%,提示有序列變異)。該匹配在X染色體上負鏈上,對應於15587804-15591744的鹼基序列位置。最後一列顯示該比對發現目標序列跟基因組序列有3941bp的跨度(SPAN)。這個SAPN基本上可以認為是內含子產生的,當然還不能確定是有一個內含子還有兩個或更多。在結果顯示欄的最前面,還有兩個超連結,點擊browser可以看到該序列在對應的染色體上的位置以及所屬基因等更多信息,點擊details可以獲取目標序列的更詳細的結構信息。這兩個功能我們下面會繼續提到。
第二個和第三個匹配的分值都很低,分別只有21和20,第二個匹配是46-66bp對應於12號染色體正鏈45682095-45682115位置,有100%的一致性,因跨度只有21bp,可以認為這個匹配是偶然產生的,並不代表該目標序列與此位置真正有關係。但是,因為存在這100%的序列一致性,提示在可能存在的引物設計中,要避開這21個bp的位置。第三個匹配情況相似,不做更多說明。
第四步,獲取目標序列的染色體位置及所屬基因信息。
點擊browser後,該目標序列對應的染色體位置以及所屬基因等更多信息就很直觀地顯現出來。
從圖上我們可以看到,這個目標片段屬於位於X染色體的ACE2基因,該序列含有ACE2基因的三個外顯子的部分序列,但沒有內含子對應的序列,所以可以認定是cDNA序列。這個圖下邊還有ACE2基因更多的信息,包括基因結構,基因表達,該序列對應的ACE2基因區域在各個物種中的序列保守性,以及這個區域的序列變異性,包括SNP和重複序列等。繼續下拉,還可以看到更多可以顯示的內容,這屬於genome browser界面的功用,這裡不再多述了。
第五步, 獲取目標序列的詳細的結構和組成信息。
我們可以從第四步的browser頁面後退回到BLAT Search Results顯示頁面,點擊details,就可以得到目標序列的詳細組成信息。
這是對BLAT Alignment of YourSeq and chrX:15587804-15591744D的總結。
在這個圖上可以清楚看到,目標序列對應於ChrX:15587804-15591744位置,並對序列鹼基標識(顏色和大小寫)做了清晰說明。接著顯示內容依次為:
cDNA YourSeq:輸入的目標序列的類型(cDNA),完整序列及長度(200bp)和變異鹼基(33位c)。
Genomic chrX (reverse strand): 目標序列及其兩側的序列以及染色體位置。
Side by Side Alignment:跟BLAST相似的目標序列與基因組序列匹配鹼基的位置
這個頁面十分友好,在左上角還設置了幾個快捷連結,點擊不同快捷連結可以快速切換,在右側顯示欄顯示相關信息。例如,在本例中,左上的block1,block2和block3分別對應於目標序列的3個外顯子區域,點擊其中一個就可以在右側直接顯示該外顯子序列的具體情況。
在本例中,cDNA YourSeq欄,顯示我們輸入的目標序列屬於cDNA序列,並標上不同顏色。藍色大寫鹼基表示是完全與基因組ACE2基因匹配的部分,淡藍色大寫鹼基表示間隔的邊界(常常是外顯子與內含子間的剪切位點)。而第33位的鹼基c用黑色小寫,表示不能與基因組序列匹配,提示這是一個序列變異甚至可能是突變。
在Genomic chrX (reverse strand) 欄,顯示了這200bp目標序列對應的基因組序列的詳細信息。首先看到的是block1,外顯子鹼基序列顯示與cDNA YourSeq欄完全對應,並且顯示出外顯子所涵蓋的內含子區域的完整序列(黑色小寫)以及鹼基位置(右邊數字為該行序列最後一個鹼基的在染色體上的物理位置)。我們繼續下拉滑標或用左上快捷連結可以瀏覽block2和block3及其兩側的序列組成。
在block2的5』端,我們可以看到基因組序列15589456位置的a 對應於目標序列第33位的鹼基c,兩者不能匹配,均用黑色小寫。一般情況下,可以解釋為在該目標序列中,發現了一個A>C的變異。當然,是否是「真實」的突變還需要進一步驗證。
值得注意的是,在block1前面有200bp的序列,用黑色小寫表示,表示不與目標序列匹配,但也不一定就是內含子序列,需要根據具體情況來區分這200bp序列哪部分是跟block1同一個外顯子序列,哪一部分是前邊一個內含子的序列。對於block3後面的200bp序列,情況類似。這時可以到browser的界面,下載ACE2基因的全序列以及外顯子/內含子結構,就可以輕鬆解決。
第六步 ,建立基因BLAT比對文檔和記錄。
BLAT還有一個優點,及時它生成的BLAT結果輸出,序列和超連結都可以同複製/粘貼的方式放到Word文檔裡進行編輯。這個真的是太方便了!
最後說明一下,BLAT是BLAST-Like Alignment Tool的簡稱,顧名思義,只是一個"類BLAST 比對工具",不能代替BLAST做所有的序列比對工作。還有,BLAT是吉姆·肯特(Jim Kent)撰寫,像Jim的大多數軟體一樣,線上和線下BLAT的使用都是免費的。我們在享受這些免費工具給我們帶來的便利和快樂時,不要忘了Jim這樣的建設者吧。
本文為 陳漢奎 原創
聯埠資訊編輯部整理編輯
1991年武漢大學生物系畢業,2002年獲中山大學博士學位,先後在美國俄亥俄州立大學、芝加哥大學和Rush大學從事腫瘤研究工作,2017年創立廣州中鑫基因醫學科技有限公司,專注於腫瘤早篩、液體活檢、病原基因檢測等產品研發和應用轉化。
-END-
【科研工具】
別再找啦!NCBI Gene使用秘籍都在這兒!
【科研工具】
必看!R的高級玩法!用R分析COVID-19實時數據-地圖篇