提到lncRNA、circRNA,大家最先想到的研究熱點是什麼?lncRNA的cis、trans?還是circRNA的ceRNA?事實上,兩種非編碼RNA(ncRNA)的另一種共有屬性還未被廣泛發現,那就是「編碼」!
一、非編碼RNA"編碼"概況
納尼?非編碼還能編碼,這是什麼新特性!確實,根據許多標準,它們不太可能編碼功能蛋白。這些標準包括缺乏長的ORF,缺乏胺基酸序列保守性和缺乏已知的蛋白質結構域1。由於技術手段受限,長久以來,人們忽視了這些分子編碼的短肽對生命活動的影響。
得益於分子技術的發展,Orera2等分析了六種生物的核糖體譜數據,發現lncRNA與核糖體關聯達到30-82%(編碼為>92%),預示著lncRNA存在較大的編碼潛力;Ariel3等人運用核糖體足跡技術鑑定出人和斑馬魚表達的數百個短的閱讀框(short ORFs)sORFs;pncr003:2L編碼兩個短肽,調節果蠅的心臟收縮4;人MRI-2(69個胺基酸)刺激DNA雙鏈斷裂連接5;人lncRNA-HOXB-AS3可編碼長約53位胺基酸的短肽,該短肽而非lncRNA可抑制結腸癌的發生6。
環狀RNA(circRNA),同樣具有編碼短肽的功能。不同於mRNA、lncRNA具有5端帽子,3端polyA尾結構,circRNA為閉環的RNA分子,其翻譯特性由m6A或者IRES(招募核糖體功能)驅動。根據circRNADb收錄的數據,32914條環狀RNA,預測編碼超過100個胺基酸的達16328條,存在IRES的達7170條,表明很多環狀RNA也存在編碼短肽的能力:Circ-FBXW7表達185aa的短肽與膠質母細胞瘤表型相關7;circ-SHPRH表達146aa的短肽可起到抑制膠質瘤的發生8;circ-ZNF609編碼的短肽可控制成肌細胞的增殖9。
一系列的報導預示著,sORFs是一片藍海有待發掘。那麼,如何研究ncRNA的編碼特性呢?我們以HOXB-AS3(NCBI登錄號NR_033201)為例為您詳解lncRNA-sORF的預測及實驗設計過程。
二、lncRNA-sORF預測
1. ORF預測
大部分lncRNA編碼的肽段較短、或者一條長鏈裡面包含多個ORF,優先選擇ORF較長的研究。打開orffinder預測網站,輸入登錄號ID或者序列,其他參數默認(參考已發現最小的短肽,目前預測短肽的最小值是24aa),點擊「submit」,可看到兩條預測結果:
注意只看「strand」為「+」的結果,因為RNA是單鏈的,編碼區不會存在負義鏈上。網站預測到HOXB-AS3存在兩個短肽,分別為53、40個胺基酸,接下來就是進行實驗驗證。
2. 實驗設計
針對預測的短肽是否編碼,常規是構建過表達載體並在ORF的C端添加標籤(螢光或者WB標籤),並需要將翻譯起始位點ATG進行突變,以確認翻譯的起始位點。具體操作如下:
方法一:針對較長的肽,可採取融合flag直接進行WB,直接將flag插入在全長lncRNA的ORF末端,並設計ATG突變作為對照(文章還設計了只構建編碼區作為陽參),隨後進行WB實驗即可。
方法二:針對短肽,若WB靈敏度不足以檢測到,那麼採取短肽融合螢光策略較優。方法類似,後續通過螢光的表達即可確認肽是否編碼。
三、circRNA預測
得益於circRNADb資料庫對收錄的circRNA進行了較多的注釋,circRNA可以直接查詢網站統計好的預測數據。以FBXW7(hsa_circ_0001451)為例,直接在circrnadb資料庫查找FBXW7名稱,找到對應的circRNA(在circrnadb的ID是hsa_circ_16502),可以獲得資料庫預測的IRES(也可以用IRESfinder預測)以及ORF區(同樣可以用ORFfinder預測,但是要將序列成環延伸變為線性再進行預測):
接下來仿照lncRNA的做法,在ORF末端加上標籤,進行密碼子ATG突變,以及IRES缺失構建環狀RNA過表達,進行表達驗證:
非編碼RNA通常轉錄活性較低,且由於較短的ORF,同於早前認為lncRNA是轉錄垃圾,一些科研人員認為大部分短肽是無功能的翻譯垃圾。然而研究發現:多數人類特異性編碼基因是從獼猴或黑猩猩低表達的非編碼RNA進化而來10,這表示在選擇壓力下,ncRNA編碼的肽可作為物種進化時新肽的重要來源2,至於ncRNA表達的肽是否具有更加廣泛的生物學意義,還待更多的科學研究!!!
吉凱基因經過大量測試優化,已經開發出適用不同載體的lncRNA、circRNA構建方法,可以將lncRNA、circRNA構建到質粒載體、慢病毒載體、腺病毒載體、腺相關病毒載體實現高表達,歡迎進行相關研究的科研人員來諮詢交流。
【參考文獻】
1.GENCODE: the reference human genome annotation for The ENCODE Project;
2.Long non-coding RNAs as a source of new peptides;
3.Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation;
4.Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames;
5.A human short open reading frame (sORF)-encoded polypeptide that stimulates DNA end joining;
6.A Peptide Encoded by a Putative lncRNA HOXB-AS3 Suppresses Colon Cancer Growth;
7.Novel Role of FBXW7 Circular RNA in Repressing Glioma Tumorigenesis;
8.A novel protein encoded by the circular form of the SHPRH gene suppresses glioma tumorigenesis;
9.Circ-ZNF609 Is a Circular RNA that Can Be Translated and Functions in Myogenesis;
10.Hominoid-Specific De Novo Protein-Coding Genes Originating from Long Non-Coding RNAs.