有不少人詢問如何查詢基因序列、如何進行引物設計、如何使用 BLAST 進行序列比對.其實這些問題在 NCBI 上都可以方便的找到答案。
我將結合我自己使用 NCBI 的一些經歷跟大家交流一下 NCBI 的使用。主要有以下四部分內容:
今天我們就先講第一部分:如何查找基因序列、mRNA、Promoter。這裡主要用到的是 Map viewer,我們以人的 IL6(白細胞介素 6)為例講述一下具體的操作步驟。
1. 打開 Map viewer 頁面,網址為:http://www.ncbi.nlm.nih.gov/mapview/index.html,在 search 的下拉菜單裡選擇物種,for 後面填寫你的目的基因。操作完畢如下圖所示。
2. 點擊 GO 出現如下界面。
3.在步驟 2 圖示的右下角有一個 Quick Filter,在 Gene 前面的小方框裡打勾,然後點擊 Filter。出現下圖:
染色體上的紅色區域即為你的目的基因所處位置。下面參考序列給出了三個,是不同的部門做出來的。經我驗證,序列有微小的差異,但總體來說基本相同。儘管你分別點擊後,序列代碼等有所差異,但鹼基基本一致,不影響大家研究分析序列。
現在普遍採用的是最上面的那個序列,這一條是世界範圍的生物科學家用計算機合成的 一個序列。我也推薦大家使用這個序列。
4. 點擊上述三條序列第一條序列,即 reference 對應的 Genes seq,出現新的頁面,頁面如下圖所示。
5. 點擊上圖出現的 Download/View Sequence/Evidence ,即下載查看序列等功能,結果如下圖所示。
在 Sequence Format(序列輸出格式)後面是一個下拉式選擇菜單,默認的為 FASTA 格式,還有一個是 GenBank 格式。我推薦大家選擇 GenBnak 格式,因為這個格式提供了很多該基因的信息,而 FASTA 格式只有基因序列。
6. 在 Sequence Format 後選擇 GenBank,然後點擊下面的 Display,目的基因的相關信息和序列就出現在眼前了。點擊後如圖所示,由於網頁較大,只截取一小部分以作示範。
在上述打開的網頁中,你可以看到基因長度、基因序列以及這個基因是如何被報導出來的等各種信息。
mRNA join(3598..3678,3841..4031,5090..5203,5911..6057, 7803..8394) ,這代表了從基因的 3598 位開始就是轉錄區了,即我們常說的 mRNA 片斷,由於內含子的存在,所以 mRNA 在 DNA 序列上分成了幾段。
CDS join(3660..3678,3841..4031,5090..5203,5911..6057, 7803..7970)
CDS 代表編碼序列,即蛋白編碼區是從 3660 開始( ATG),由於剪接作用所以 CDS 區也是不連續的。
promoter:轉錄起始位點前面是基因的調控區,啟動子區沒有明顯的位置定義,大家也只是猜測它的大體位置。如果你要研究 promoter 區的話,建議你選擇轉錄起始位點前的 2000 個鹼基進行研究,一般默認的是這樣。當然你如果覺得長度太長不好研究的話,也可以只研究-1000 到 0 這一千個鹼基,因為一般情況下,啟動子區的變異都在這個區域內。
怎麼樣,學會了嗎?你不妨試試去找到自己的目的基因序列和啟動子。