如何使用 NCBI 查找基因序列、mRNA、Promoter | 實驗

2021-02-15 生物學霸


有不少人詢問如何查詢基因序列、如何進行引物設計、如何使用 BLAST 進行序列比對.其實這些問題在 NCBI 上都可以方便的找到答案。

我將結合我自己使用 NCBI 的一些經歷跟大家交流一下 NCBI 的使用。主要有以下四部分內容:

今天我們就先講第一部分:如何查找基因序列、mRNA、Promoter。這裡主要用到的是 Map viewer,我們以人的 IL6(白細胞介素 6)為例講述一下具體的操作步驟。

1. 打開 Map viewer 頁面,網址為:http://www.ncbi.nlm.nih.gov/mapview/index.html,在 search 的下拉菜單裡選擇物種,for 後面填寫你的目的基因。操作完畢如下圖所示。

2. 點擊 GO 出現如下界面。


3.在步驟 2 圖示的右下角有一個 Quick Filter,在 Gene 前面的小方框裡打勾,然後點擊 Filter。出現下圖:


染色體上的紅色區域即為你的目的基因所處位置。下面參考序列給出了三個,是不同的部門做出來的。經我驗證,序列有微小的差異,但總體來說基本相同。儘管你分別點擊後,序列代碼等有所差異,但鹼基基本一致,不影響大家研究分析序列。

現在普遍採用的是最上面的那個序列,這一條是世界範圍的生物科學家用計算機合成的 一個序列。我也推薦大家使用這個序列。

4. 點擊上述三條序列第一條序列,即 reference 對應的 Genes seq,出現新的頁面,頁面如下圖所示。


5. 點擊上圖出現的 Download/View Sequence/Evidence ,即下載查看序列等功能,結果如下圖所示。


在 Sequence Format(序列輸出格式)後面是一個下拉式選擇菜單,默認的為 FASTA 格式,還有一個是 GenBank 格式。我推薦大家選擇 GenBnak 格式,因為這個格式提供了很多該基因的信息,而 FASTA 格式只有基因序列。

6. 在 Sequence Format 後選擇 GenBank,然後點擊下面的 Display,目的基因的相關信息和序列就出現在眼前了。點擊後如圖所示,由於網頁較大,只截取一小部分以作示範。


在上述打開的網頁中,你可以看到基因長度、基因序列以及這個基因是如何被報導出來的等各種信息。

mRNA join(3598..3678,3841..4031,5090..5203,5911..6057, 7803..8394) ,這代表了從基因的 3598 位開始就是轉錄區了,即我們常說的 mRNA 片斷,由於內含子的存在,所以 mRNA 在 DNA 序列上分成了幾段。

CDS join(3660..3678,3841..4031,5090..5203,5911..6057, 7803..7970)

CDS 代表編碼序列,即蛋白編碼區是從 3660 開始( ATG),由於剪接作用所以 CDS 區也是不連續的。

promoter:轉錄起始位點前面是基因的調控區,啟動子區沒有明顯的位置定義,大家也只是猜測它的大體位置。如果你要研究 promoter 區的話,建議你選擇轉錄起始位點前的 2000 個鹼基進行研究,一般默認的是這樣。當然你如果覺得長度太長不好研究的話,也可以只研究-1000 到 0 這一千個鹼基,因為一般情況下,啟動子區的變異都在這個區域內。

怎麼樣,學會了嗎?你不妨試試去找到自己的目的基因序列和啟動子。

相關焦點

  • 使用BioNumerics軟體批量下載NCBI中基因序列
    使用BioNumerics軟體批量下載NCBI中基因序列大家可能曾經都被如何批量下載NCBI中的數據所困擾,在NCBI的網站上苦苦搜尋,但是無從下手。本文將介紹如何通過BioNumerics軟體實現基因序列的批量下載。
  • NCBI教程|如何從NCBI批量下載序列並用MEGA畫進化樹
    後,利用序列的NC號或者GI號直接搜索下載即可。備註:NC號即為完整的基因組分子序列,標記的類別包括基因組、染色體、細胞器、質粒等。如果想要查找Japanese yam mosaic virus的基因組參考序列的話,可以在NCBI主頁選擇基因組資料庫,搜索Japaneseyam mosaic virus,就可以得到其NC號了(在這裡就是NC_000947),然後就可以下載其相應的序列文件。 打開這個網址:http://www.ncbi.nlm.nih.gov/sites/batchentrez。
  • Nucleic Acids Reasearch 重磅推薦 | NCBI多個核心資料庫:核酸序列、PubMed等更新與使用指南!
    NCBI最近為用戶添加了一種新方法,以供用戶在NCBI RefSeq數據集中表示的生物體內和生物之間找到與進化相關的基因。這項新服務的目的是讓用戶輕鬆地從越來越多的帶注釋的真核參考基因組中訪問序列數據,以及同源基因集的可視化和分析工具,促進比較基因組學研究。
  • NCBI介紹
    最後還要向讀者介紹ncbi blast的一個新網址:URL: blast.ncbi.nlm.nih.gov。NCBI建議讀者都使用這個網址登陸NCBI BLAST,因為該BLAST使用更多的計算機進行分析,也具有更強的系統容錯能力。
  • 啟動子的查找與序列分析-Follow me!
    無論是基因的時空表達譜還是基因表達調控都是由啟動子決定的,因此研究基因的轉錄調控就離不開對啟動子的研究。對啟動子的基本研究過程大致為:查找啟動子序列-分析啟動子序列-啟動子序列克隆與活性驗證。      一、查找啟動子序列       有參考基因組的物種,可以直接利用基因組資料庫查找啟動子序列。沒有參考基因組的物種只能利用移步法對啟動子進行克隆,本文暫不討論。在基因組上,大多數相鄰基因之間的區域短於2 kb,因此對啟動子的研究一般也限於2 kb的範圍。
  • 凌波微課|NCBI數據批量下載,你會了嗎?
    ,呃……16S rRNA、功能基因進化樹來一個,同源基因、共線性分析走起。哎,等等,這些分析都屬於比較基因組分析,需要首先選擇合適的參考物種基因組,可是一個一個查找下載太麻煩,有什麼辦法一鍵批量下載呢?
  • 分分鐘搞定NCBI GenBank序列上傳
    近些年來,隨著測序技術的發展和成本的降低,高通量測序技術日益普及,更多的科研工作者可以使用這種通量高、效率高、性價比高的科研手段對研究樣本開展平行大規模的研究
  • 基因家族擴增與收縮分析
    orthoMCL雖然很長時間沒有進行過維護更新了,但大家進行基因家族擴張和收縮分析是依然經常性的使用,而orthofinder是16年出現的新軟體,本身使用和安裝起來更加方便,我也是比較推薦這個提取最長轉錄本進行mcl聚類之前,首先需要挑選每個基因最長的轉錄本形成一個fa文件,fa文件中是胺基酸序列,不是鹼基序列,這裡強調一下。
  • 通過轉錄組技術而測序的dna序列被稱為「dna受體」
    測smallmrna:測smallmrna等等。從目前的情況來看,mirna相對普遍但受到的關注不是很多。主要還是基因晶片市場比較小,但dna晶片的研究比較多,工業化也有一段時間了。比如這次的迪昂巴沙(dnare巴沙、drabahacheberzo)通過測序與dna序列做了對比,可以用來分析該序列的突變和基因轉移。
  • NCBI微生物基因組批量下載
    不要哭,今天小編就為大家提供幾個批量下載某物種或特定物種基因組並獲取基因組預測及注釋信息的方法。1、ftp://ftp.ncbi.nlm.nih.gov/genomes/GENOME_REPORTS主要是在分類學水平上對物種基因組信息以文件夾的形式歸類,最終基因組整理統計的基本信息展示在Browse網站(第二部分詳述)(1) ftp://ftp.ncbi.nlm.nih.gov/genomes/all/ (2) ftp://ftp.ncbi.nlm.nih.gov
  • 數據上傳NCBI三劍客之③—上傳菌種鑑定序列
    這些物種鑑定序列的通常是上傳到NCBI Genbank資料庫。前兩篇推文中,小編為各位小夥伴們介紹了測序原始數據上傳SRA資料庫和微生物基因組上傳NCBI,在本期小編繼續帶小夥伴們輕鬆學會將菌種鑑定序列上傳Genbank資料庫。
  • 玩轉基因組瀏覽器之利用IGV查找motif結合位點
    motif在基因組上結合位點的查找是生信分析中的一項基本技能,在轉錄因子的chip_seq, m6A_seq等落雨都有廣泛應用,之前也寫了很多的文章來介紹motif本文以最近非常火熱的RNA甲基化測序m6A_seq為例,來展示下IGV的motif結合位點查找功能, 眾所周知,m6A修飾位點的motif序列為RRACH, 通過peak calling我們可以識別到包含
  • 如何查找並確定關注基因的SNP位點?
    DNA序列多態性。經過近年檢測技術的發展,科研人員可以通過NGS或SNP晶片篩選與疾病關聯基因或區段,進而針對這個特定區段或基因上的SNP進行更為仔細研究,也有科研人員會通過已發表文章查詢到與其研究相關的基因,再通過對該基因的DNA序列變化分析遺傳機制,但如何查詢特定區段或基因上的有用SNP位點呢?
  • 揭示具有增強子功能的啟動子---Epromoter
    增強子研究的更多方法,歡迎點擊:Plus深讀 | Nature Biotech: 如何研究基因組中的非編碼序列?  在本文中,研究者將小鼠T細胞系P5424的基因組切斷,捕獲DHS序列,分為兩類:啟動子近端序列(距離TSS < 1kb)和遠端序列(距離TSS > 1kb)。
  • 如何查找序列中最大的N個元素,Python模塊heapq的使用方法及場合
    這種排序真的簡單嗎?一個例子因此,通過傳入序列,此函數使用到了堆結構特性去處理該序列,而返回結果類型依然是該序列本身的類型。如何使用【如何創建堆】方法一:使用heappush()方法heap = []data = [2,3,5,7,9,23,14,16,12,10]for i in data
  • 如何快速查找物種間對應的同源基因
    有時候,大家做實驗以小鼠為模型,但希望查看與之對應的人同源基因。
  • 如何快速從轉錄組結果中挑基因設計引物
    基迪奧的技術咖又分享乾貨了,今天的主題是:如何快速從轉錄組結果中挑基因設計引物。
  • 推薦2個核酸序列翻譯成胺基酸序列的小工具
    ,問如何把核酸序列翻譯成蛋白序列。 這裡為大家推薦2個在線小工具,可查找DNA或RNA序列的開放閱讀框(ORF),同時將其翻譯成胺基酸序列。雖然使用方法非常簡單,但非常有用,比如可分析circRNA、LncRNA是否具有翻譯潛能(是否有ORF)等。
  • 凌波微課|菌種鑑定序列上傳NCBI,so easy!
    這些物種鑑定序列的通常是上傳到NCBI Genbank資料庫。本期凌波微課就手把手帶你輕鬆搞定菌種鑑定序列上傳Genbank資料庫。具體操作猛戳上方視頻~ 文  字  簡  要  版  如  下1、在菌鑑結果文件夾中,找到每個樣本的拼接序列,然後將需要上傳的樣本序列整理合併為一個fasta格式的序列(如下圖)。
  • 四分之三的DNA序列如何被開啟的?Nature新論文報導人工智慧獲得的重要突破
    科學家們早就知道,人類基因會依照我們DNA的精確順序傳遞的指令付諸行動,這些指令由四種不同類型的單個的鹼基分別編碼:A,C,G和T。眾所周知,將近25%的基因被類似於TATAAA的序列(稱為「 TATA框」)轉錄,那其它75%的基因是如何開啟的呢?這依然是一個謎。