前面我們系統性的總結了circRNA的相關背景知識:
同樣的策略,我們也可以應用到lncRNA的學習。以前我在:miRNA、LncRNA、CircRNA靠譜小結 也提到過一些基礎知識,但還不夠豐滿!其實讀一篇綜述是最好的學習方式,不過英文的畢竟難啃。假如你還是需要深入學習,建議看2009的CELL雜誌的超級經典綜述:Evolution and Functions of Long Noncoding RNAs
當然了,你假如僅僅是分析lncRNA的表達矩陣,你其實是可以不需要耗費時間去理解那麼多生物學背景的,把它當做是一個基因ID即可,一個有名字的基因。
首先lncRNA是Non-coding RNAs的一種而且Non-coding RNAs的別名太多了,"non-protein-coding RNA", "npcRNA", "non-messenger RNA", "nmRNA", "functional RNA", "fRNA", "ncRNA"。而Non-coding RNA 的分類就太多了,在:https://www.genenames.org/data/genegroup/#!/group/475可以看到信息列表。非編碼RNA(Non-coding RNA)是指不編碼蛋白質的RNA。其中包括rRNA、tRNA、snRNA、snoRNA 和microRNA 等多 種已知功能的 RNA,還包括未知功能的RNA。這些RNA的共同 特點是都能從基因組上轉錄而來,但是不翻譯成蛋白,在RNA 水平上就能行使各自的生物學功能。如果你對Non-coding RNA 感興趣呢,可以看 https://www.nature.com/collections/sqtqxdnvdz 裡面的合輯:
SERIES | 01 JANUARY 2018
With improved methods to explore the transcriptome, in recent years there have been great advances in identifying and understanding non-coding RNAs. Regulatory pathways involving small RNAs, such as microRNAs, are now being elucidated in detail, and functions for long non-coding RNAs are also coming to light. The articles in this series discuss insights into the biology of non-coding RNAs of all sizes in a wide range of organisms
話說這個系列的綜述裡面的機製圖,都畫的好漂亮啊!
長鏈非編碼RNA(long noncoding RNA,lncRNA)
長 度>200bp的RNA,由RNA聚合酶Ⅱ轉錄,lncRNA具有保守的 二級結構, 大部分不編碼蛋白質,也有報導,其可以編碼多肽,多 肽大部分無功能。
LncRNA來源很廣,可以來源於基因編碼區、 非編碼區、外顯子、內含子、正義鏈或反義鏈。
LncRNA發揮功 能的方式很廣,可以與蛋白、DNA和RNA相互作用,參與多種 生物學過程的調控。
再次強調,如果你僅僅是處理數據,可以把LncRNA跟其它基因一樣的處理即可。大部分都是看表達差異罷了。
在GENCODE Release (version 32)的LncRNA信息據ENCODE (Encyclopedia of DNA Elements)項目統計,人類基因 組中約75%區域都可以轉錄。其中1%為編碼蛋白外顯子,40% 為蛋白編碼基因(外顯子+內含子)轉錄區域,剩下絕大多數轉 錄區域產生lncRNA。因為Long non-coding RNA genes資料庫來源太多,研究也不統一,我比較喜歡GENCODE 資料庫的。我傾向於把基因分成Protein-coding和Non-coding 兩個大類,其在 GENCODE 數量如下:
Total No of Genes 60609
Protein-coding genes 19965
Long non-coding RNA genes 17910
Small non-coding RNA genes 7576
Pseudogenes 14749
- processed pseudogenes 10668
- unprocessed pseudogenes 3556
- unitary pseudogenes 228
- polymorphic pseudogenes 42
- pseudogenes 18
Immunoglobulin/T-cell receptor gene segments
- protein coding segments 408
- pseudogenes 237
這裡面的17910個 Long non-coding RNA genes 是需要重點關注的。參考:https://www.gencodegenes.org/human/stats.html
所以,如果你分析LncRNA的數據,最後最好是輸出的結果,以GENCODE資料庫的ID為準,這樣方便你我他!再次強調,如果你僅僅是處理數據,可以把LncRNA跟其它基因一樣的處理即可。大部分都是看表達差異罷了。
lncRNA功能前面我們提到過LncRNA發揮功 能的方式很廣,可以與蛋白、DNA和RNA相互作用,參與多種 生物學過程的調控。同理我們應該是看綜述,這個時候推薦的同樣是引用最多的,發表在 Mol Cell. 2011 Sep 16; 43(6): 904–914. 的Molecular mechanisms of long noncoding RNAs
如果你覺得不過癮,也可以繼續看其它,再比如: Functional Classification and Experimental Dissection of Long Noncoding RNAs
LncRNA調控分析 LncRNA順式(cis)調控基因分析Antisense長鏈非編碼RNA,至少其中相當多的一部分,能夠順式調節鄰近蛋白編碼基因的轉錄,精密控制這些發育多樣性基因位點的時空表達,並參與到與之相關的發育和其它生物學過程。順式調控就是指非編碼RNA對臨近mRNA的一種轉錄激活與表達調控方式。LncRNA以序列互補為原理結合在未解鏈的染色質大溝中,或者和解鏈的DNA鏈結合,LncRNA位點附近的基因轉錄會受到該LncRNA對正在轉錄或者剪接體的影響,某個基因的轉錄起始元件出現在臨近的LncRNA轉錄位點中。
LncRNA 反式(trans)調控基因分析反鏈LncRNA反式(trans)調控,是對遠端mRNA轉錄的調控LncRNA可以調控遠距離的基因的表達,例如結合增強子和啟動子等。LncRNA可以起到支架作用,組織蛋白複合物行使功能,充當亞細胞結構,LncRNA以劑量依賴形式在胞質或者胞核內,調控結合的蛋白或者RNA的活性。通過皮爾森相關係數(閾值大於0.95)可以判斷LncRNA是否調控基因。
lncRNA-miRNA相互作用這個其實是目前的數據分析重點,就是我們一直說的ceRNA 理論。
lncRNA因其存在Introns等片段組成,長度可達數千nt,這就為吸附結合大量的miRNA提供了良好的物質基礎,通過競爭佔有胞內大量的miRNA,像海綿一樣緩衝並削減其幹涉靶基因mRNA編碼蛋白的能力,我們就稱這樣的lncRNA與mRNA互為ceRNA關係,因此可見,作為關聯節點的就是miRNA,它的靶構成了ceRNA,共同組合就是ceRNA網絡。
lncRNA種類主要是根據其在參考基因組上的位置,一個 lncRNA 可以歸於以下五類中的一種或五種:(1)sense(2)antisense (3)bidirectional(4)intronic(5)intergenic,這個在很多綜述都可以看到,我建議看最新的,就是發表在J Anim Sci Technol. 2018; 的綜述:Long non-coding RNA: its evolutionary relics and biological implications in mammals: a review
參考綜述是:Dhanoa et al. Journal of Animal Science and Technology (2018) 60:25
也可以分成更多類型,各種各樣的綜述都有:
反義型(antisense lncRNAs)、
內含子型(intronic lncRNAs)、
反向型(divergent lncRNAs)、
基因間型(intergenic lncRNAs)、
啟動子上遊型(promoter upstream lncRNAs)
啟動子型(promoter-associated lncRNAs)
轉錄起始位點型(transcription start site-associated lncRNAs)
利用RNA-seq技術發現並且鑑定lncRNA做到RNA-seq技術來鑑定lncRNA比較少,主要是非模式生物的,數據分析的難點主要在:LncRNA鑑定,可以看一寫公司的結題報告:
主要是通過三個軟體鑑定樣本中的LncRNA,分別是CPAT、CPC2和CNCI。但是由於 LncRNA的特徵,單一一種軟體鑑定出來的結果假陽性較多,因此取三個軟體得到結果的交集作為最終結果,三個軟體結果可以做韋恩圖。
發現並且鑑定lncRNA就需要命名啦,也是有一定規則的。
lncRNA的命名實際上,目前lncRNA的命名還沒有一個統一的原則,但為了讓lncRNA的命名具有唯一性、準確性並最大程度上反映其功能,雨果基因命名委員會(HGNC,唯一的制定人類基因命名標準的官方授權機構)提供了一個命名指導指南,以供參考。參考文獻:A short guide tolong non-coding RNA gene nomenclature
作者在發表新lncRNA時,可先獲取HGNC的認可,如果作者發布的名字已在其他地方使用過,HGNC將會指定一個新名字供作者選擇。
lncRNA的名字應是描述基因的縮寫,便於人們理解名字的含義。如BANCR就是BRAF-activatednon-proteincoding RNA的縮寫。
功能性轉錄假基因在命名時應保留它們假基因名稱且不應改變其基於功能的名稱。為了方便搜索,這個功能應加在名字的最後。eg: PTENP1 是「phosphatase and tensin homolog pseudogene 1 (functional)」.
而對於未知功能的lncRNA應依據基因組上下文來命名
如果有一個很接近的蛋白編碼基因,lncRNA的名字應該以這個編碼基因名字開始,再加後綴即可。
後綴的分類:
反義(antisense,AS),eg: BACE1-AS;
內含子(intronic,IT),eg: SPRY4-IT1;
重疊(overlapping,OT),eg: OSX2-OT;
長鏈基因間lncRNA(Longintergenic lncRNAs,lincRNAs),以LINC為前綴,數字為後綴,eg: LINC00485。
此外,有些lncRNA與編碼基因是頭碰頭(headto head),可推斷它們擁有雙向啟動子,HGNC推薦將其命名為反義上遊(Antisense upstream,AU),例如,GENE2-AU1。
lncRNA的常用資料庫大全因為實在是太多,介紹起來沒完沒了,我們這裡重點講解一個即可,就是:RNAcentral,它整合了多個資料庫,並且提供4個重要的功能:text search, sequence similarity search, bulk downloads, and programmatic data access.
如果你確實感興趣它所整合的那些資料庫本身,也可以自己慢慢學習:https://rnacentral.org/expert-databases
在Wikipedia可以查到更多:https://en.wikipedia.org/wiki/List_of_long_non-coding_RNA_databases