基因結構有很多概念,經常會把我們繞暈,之前小編給大家整理過mRNA、CDS、ORF等概念知識(感興趣的點擊查看:CDS、cDNA、ORF等等傻傻分不清);今天我們再補充一些概念性知識及著重說下啟動子以及啟動子序列查找方法。
基礎概念1. 啟動子(Promoter):啟動子是RNA 聚合酶識別、結合和開始轉錄的一段DNA 序列,它含有RNA 聚合酶特異性結合和轉錄起始所需的保守序列,多數位於結構基因轉錄起始點的上遊,啟動子本身不被轉錄。所以一般所說的啟動子是DNA序列上的結構,在mRNA、cDNA中它是不存在;但是也有一些例外,如tRNA啟動子就位於轉錄起始點的下遊,這些DNA序列是可以被轉錄的,只能說啟動子一般位於轉錄起始位點的上遊。
2. 轉錄組起始點(TSS):是指與新生RNA鏈第一個核苷酸相對應的DNA鏈上的鹼基,通常為一個嘌呤(A 或G),即5』UTR的上遊第一個鹼基;注意轉錄起始點和起始密碼子的區別。
3. 起始密碼子和終止密碼子:mRNA的開放閱讀框架中,每3個相鄰的核苷酸編碼一種胺基酸,這種存在於mRNA開放閱讀框架區的三聯體形式的核苷酸序列稱為密碼子(codon);由A、U、C、G四種核苷酸可組成64個密碼子,其中有61個密碼子可編碼胺基酸。AUG既編碼甲硫氨酸,又作為多肽鏈合成的起始信號,作為起始信號的密碼子稱為起始密碼子;而終止翻譯的密碼子稱為終止密碼子,包含3個:UAG、UAA、UGA。
4. UTR區:UTR(Untranslated Region),即非翻譯區;在分子遺傳學中,是指任意一個位於mRNA鏈編碼序列兩端的片段;如果其位於5′端,則稱為5′非翻譯區(5'-untranslated region,5'-UTR)(或"前導序列,leader"),反之若位於3′端,則稱為3′非翻譯區(3'-untranslated region,3'-UTR)(或"尾隨序列,trailer")。儘管它們被稱為"非翻譯區",並且不是構成該基因的蛋白質編碼區,但在5′非翻譯區內的上遊可讀框可以被翻譯成多肽。
5. 5'帽子(cap):真核生物mRNA的5'端有特殊的帽子(cap)結構,它由甲基化鳥苷酸經焦磷酸與mRNA的5'末端核苷酸相連,形成5',5'-三磷酸連接(5',5'-triphosphate linkage);這種結構有抗5'-核酸外切酶的降解作用;在蛋白質合成過程中,它有助於核糖體對mRNA的識別和結合,使翻譯得以正確起始。
6. PolyA尾巴:真核生物mRNA尾部特有的150-200個腺苷酸殘基,保護mRNA,免受核酸外切酶攻擊,並且對轉錄終結、將mRNA從細胞核輸出及進行翻譯都十分重要;PolyA尾巴是mRNA轉錄後修飾加上去的,DNA基因序列中是不存在的,經mRNA反轉錄出的cDNA是有PolyA結構的。
7. CDS與ORF:這是一個經常被人混淆的兩個概念;CDS是Coding sequence的縮寫,是指編碼一段蛋白產物的序列,是與蛋白質密碼子一一對應的序列,注意其與mRNA序列的差異;ORF是open reading frame的縮寫,翻譯成開放閱讀框,是指從一個起始密碼子開始到一個終止密碼子結束的一段序列,但並不是所有ORF都能表達出蛋白產物,但CDS必定是一個ORF,但也可能包括多個ORF,相反,每個ORF不一定都是CDS。
DNA/mRNA結構示意圖
啟動子序列的查找在實際生信分析中,一般取轉錄組起始位置前1500-2000bp作為啟動子區域序列,擁有生信技能的人提取及批量提取某些基因啟動子序列簡直就是小菜一碟;但是對於生信小白來說就難上青天了;不過還有一些在線資料庫是可供我們查找提取啟動子序列之用,常見的比如NCBI,ensembl,UCSC 等等;但小編覺得那些都不怎麼好用,上周我們其實給大家分享過一個非常好用的植物啟動子分析資料庫PlantPAN3.0,簡單好用,功能非常強大,感興趣點此連結查看:植物啟動子分析網站PlantPAN3.0-不可或缺的基因表達調控資料庫!;今天我再跟大家分享一個小巧好用的真核生物啟動子資料庫:The eukaryotic promoter database(EPD)。
EPD資料庫操作演示EPD 是一個非冗餘的真核啟動子資料庫,其轉錄起始位點已經通過實驗驗證。該資料庫包含來自十餘種物種的啟動子序列信息(如下圖),界面友好,操作簡單,適合小白操作學習。
1. EPD界面非常簡單,如下圖所示可在是檢索框輸入基因ID或者基因名(gene symbol),再選擇物種,點擊search即可,我們以擬南芥基AT1G66550為例。
2. 有時候會檢索出多個基因,選擇自己感興趣的即可,示例數據僅一個檢索結果,直接給出了啟動子序列信息頁面,如下圖,可在Sequence Retrieval Tool 下設置啟動子序列提取範圍,一般轉錄組起始點前1500-2000bp,設置好點擊右側的GET SEQL即可;還可以在Search Motif Tool項下預測TATA-box等順式作用元件。
3. 下圖是提取好的啟動子序列及預測的順式作用元件,不過小編覺得順式作用元件繪圖很是難看,我們完全可以用提取的序列用其他軟體去繪圖,順式作用元件預測及繪圖操作教程見連結:充電課-順式作用元件分析(基礎知識及預測)和收藏貼-順式作用元件分布圖繪製。
好了,這樣啟動子序列就提取好了,你get到了嗎?最後奉上EPD資料庫網址:https://epd.epfl.ch//index.php
延伸閱讀:
1.植物代謝通路注釋+基因表達可視化神器--Mapman
2.收藏貼-基因/蛋白功能注釋、富集分析在線工具詳解
3. 如何下載基因組及查找基因
4. CDS、cDNA、ORF等等傻傻分不清
5. qRT-PCR相對定量計算詳解
6. 繪一棵超酷炫的系統發育樹!
7. 2020年1-4月100+篇基因家族分析文獻信息免費領取
8. 100個接收基因家族分析類文獻的期刊匯總!速領!
9. 2020年轉錄組文章到底有多難發?一文說明白!
10. 生物信息軟體安裝解決方案-docker虛擬化技術
11. 充電課-(適合小白自學生信)《Linux生信分析環境搭建Bio-linux》
12. 充電課-限時免費領取《癌症TCGA-文章套路解析》
13. 充電課-免費領取《illumina測序原理及Fastq文件解讀》視頻課程
14. 充電課-限時免費領取《基因家族分析詳解課程》