何慶瑜團隊解讀「非編碼RNA」的編碼行為,重新認識人類基因組

2020-11-23 騰訊網

人類基因組已知大約有5萬個基因,其中僅約2萬個被注釋為可以表達蛋白質的「編碼基因」,而另外3萬個基因被標註為「非編碼基因」(ncRNAs)。近10年來,人們逐漸注意到這些ncRNAs的翻譯行為,尤其是近兩年已有研究報導部分內源性長鏈非編碼RNAs (lncRNAs)和環狀RNAs (circRNAs)可以編碼新的功能蛋白質。為什麼這些ncRNAs被定義為非編碼基因?如何檢測ncRNAs是否編碼新蛋白質?ncRNAs編碼新蛋白質有何意義?SCIENCE CHINA Life Sciences邀請暨南大學生命科學技術學院何慶瑜教授團隊撰寫綜述文章:Understanding the proteome encoded by 「non-coding RNAs」: new insights into human genome(點擊題目或「閱讀原文」獲取全文),詳細總結近年來ncRNAs編碼新蛋白質/新蛋白質組的研究進展,包括新蛋白多樣化的功能、新蛋白檢測方法等,並解釋新蛋白質組在人類基因組中被錯誤注釋的原因,以及新蛋白質組在基礎生物學和醫學中的意義。

人類基因組注釋的偏差

許多人可能以為人類基因組的注釋都有堅實的實驗基礎,然而事實上大部分人類基因組的注釋是利用各種數學模型和算法在計算機上完成的。用典型的ncRNAs和一些典型的可編碼蛋白質的mRNA作為訓練集對計算機進行訓練後,計算機再基於這樣的模型將其餘RNA進行分類。然而,由於某些蛋白質編碼基因可能與典型的ncRNAs有相似的性質,這時算法極易把這些編碼基因歸為「非編碼基因」。

如何檢測ncRNAs是否編碼新蛋白質?

質譜和抗體是檢測蛋白質的常用方法。然而,質譜技術需依賴蛋白序列理論資料庫進行分析,需要將新蛋白的所有可能序列全部構建成資料庫,通常是使用基因組六框翻譯或轉錄組三框翻譯對新蛋白的序列進行預測。然而,其中絕大部分理論序列實際上都不可能存在,這將大大增加了假髮現率(FDR),降低可靠性和靈敏性;新蛋白質表達量低,理化性質也比較特殊,這也增加了質譜的檢測難度。抗體技術從一定程度上可用來克服質譜技術的局限性,但是抗體檢測存在「低染」問題,而新蛋白質一般較小,抗體表位單一,因此抗體檢測新蛋白也不太容易。

翻譯組測序技術可以測定正在翻譯的mRNA,間接對應著蛋白質,由於測的是核酸,靈敏性遠優於質譜和抗體。翻譯組測序包括核糖體足跡測序分析(Ribo-seq)和翻譯中的全長mRNA測序分析(RNC-seq)。Ribo-seq的基本原理是對核糖體保護的長度約為20-40nt的小片段RNA(也稱核糖體足跡,RFP)進行測序分析。然而在製備RFP的過程中很難避免細胞內各種小RNA片段和降解RNA小片段的汙染,假陽性情況嚴重。Ribo-seq的短讀長使得序列比對分析以及在檢測可變剪切變體上面臨巨大的信息學挑戰。相比之下,RNC-seq分析的是翻譯中的全長mRNA,測序分析的片段長度為300-400nt甚至更長,比Ribo-seq長10倍以上,有效的避免了短RNA片段汙染,極大地降低了假陽性。RNC-seq的長讀長在檢測剪切變體和circRNAs的反向剪切位點的概率比Ribo-seq高出數量級。因此RNC-seq比Ribo-seq更加適合新蛋白的發現。用RNC-seq製作蛋白質最小化庫,大大有利於蛋白質組的質譜檢測。

RNC-seq 和 Ribo-seq 的區別

新蛋白如何進化而來?他們的存在有何意義?

新蛋白大部分是進化中的年輕基因,進化保守性低,在較低等的生物中幾乎不存在。這些年輕基因通常與高等生物特有的性狀相關。新蛋白的表達量大部分極低,其mRNA甚至低於每細胞1個拷貝,即有的細胞中存在、有的細胞中不存在,該文作者將其稱為「漲落表達」,並提出這是新蛋白基因從非編碼到編碼的進化過程中的中間體,是進化中低成本的試誤;在不確定的外界環境下,某些有利於生物體生存性狀的新蛋白基因被保留和加強;即便嘗試失敗,使用各種方法壓低或阻止這些低表達基因的表達也十分容易。「漲落表達」造成了細胞的多樣性,這也是即使同一種細胞中仍存在細胞異質性的原因之一。

新蛋白起源假說

新蛋白全局鑑定方法的建立,使我們可以鑑定到許多從前人們認為不存在的、由ncRNAs所編碼的新蛋白質,大規模校正了人類基因組注釋,打開了一扇寶貴的發現新功能蛋白質分子的大門。同時,這也意味著今後如果再要宣稱一個RNA是「非編碼RNA」,就要提供它不翻譯的證據才行。

相關焦點

  • 【盤點】非編碼RNA與人類疾病關聯性亮點研究
    人類基因組計劃揭示人基因組中有30億個鹼基對,其中1.5%能夠編碼蛋白質,98.5%是非蛋白質編碼基因,這些基因序列一度被認為是垃圾基因然而隨後的ENCODE計劃表明,大約75%的人類基因組能被轉錄成RNAs,當中74%是非蛋白編碼RNA(ncRNAs)。
  • 清華大學生命學院高冠軍課題組發現大量基因組非編碼RNA功能性證據
    清華大學生命學院高冠軍課題組發現大量基因組非編碼RNA功能性證據清華新聞網9月8日電 傳統研究認為,人類所有的生命活動是由約2~3萬個蛋白質編碼基因所支配(約佔人類基因組2%)。而超過95%的人類基因組並不編碼蛋白質基因,而是構成了遺傳物質中的「垃圾」——非編碼RNA。
  • 為什麼說人類基因組序列圖的繪製只是認識生命的起點?
    為什麼說人類基因組序列圖的繪製只是認識生命的起點?然而,隨著時間的推移,隨後10多年間的事實表明,人類基因組序列圖的繪製並沒有在醫療實踐中發揮出人們預想中的重要作用。這也表明,生物系統本身是複雜的,人類基因組序列圖的繪就,僅僅是認識生命、維護人類健康的萬裡長徵中的第一步。
  • 【盤點】非編碼RNA與癌症關聯性研究進展
    人類基因組計劃發現人類基因組中有30億個鹼基對,其中1.5%能夠編碼蛋白質,98.5%是非蛋白質編碼基因,這些基因序列一度被認為是垃圾基因。然而隨後的ENCODE計劃表明,大約75%的人類基因組能被轉錄成RNAs,當中74%是非蛋白編碼RNA(ncRNAs)。
  • 新技術「解密」非編碼RNA
    作者| 韓揚眉增強子—啟動子RNA連結圖 薛願超供圖人類基因組計劃研究表明,人類基因組中只有不到2%的蛋白質編碼序列,而剩餘98%為非編碼核酸序列。這些非編碼序列可能有功能,也可能僅僅是副產物,曾被稱為「垃圾DNA」或者「暗物質」。
  • 揭示反義長鏈非編碼RNA順式調控基因轉錄的新模式
    多細胞生物擁有不同大小的基因組,比如人的基因組比秀麗線蟲的大30倍,它們卻擁有相似數目的蛋白編碼基因。蛋白分子一直被認為是生命活動的載體和執行者。近年來隨著高通量DNA測序技術的發展,研究表明80%的人類基因組序列雖然能夠轉錄表達並產生RNA ,卻不能編碼和翻譯成蛋白。由此產生了大量的長鏈非編碼RNA(lncRNA),其基因數量(近2萬個)和蛋白編碼基因相當。
  • 【學術前沿】 沈曉驊團隊發現U1 snRNP調控非編碼RNA結合染色質的...
    獲取更多CSCB2020相關資訊人和鼠的基因組擁有大量的非編碼核酸序列。非編碼RNA在細胞核染色質上的定位與其調控功能緊密相關。相比細胞質定位的蛋白編碼信使mRNA,眾多的非編碼RNA,比如長鏈非編碼lncRNA、和啟動子和增強子調控元件關聯的不穩定轉錄本(uaRNA、eRNA),更傾向於結合在染色質上參與調控染色質結構、轉錄和RNA加工等過程【1-3】。儘管零星報導少數RNA核滯留的現象,但為何大部分lncRNA會滯留於染色質上行使調控功能,仍是個不解之謎。
  • 非編碼RNA研究園地 | 一種大環肽與腫瘤發生的自然通訊
    m6A對RNA的認識。在這裡我們發現長的非編碼RNA(IncRNA)LINC 00266-1編碼71個胺基酸肽.該肽主要與rna結合蛋白(包括m6A)相互作用。107個潛在的與RBRP相互作用的行為體在此通過細胞間分析被鑑定出來。基因注釋分析表明,這107個蛋白質中有76個屬於RNA結合蛋白.因此,我們稱之為LINC 00266-1-編碼肽RBRP。
  • 崔慶華:在長非編碼RNA的世界中,一定存在著長非編碼RNA中的P53, PTEN
    LncRNADisease在儲存了人類的非編碼RNA研究信息的同時,還收錄了其他物種的相關信息。另外,在這項資料庫的創建過程中,序列、基因組位置等信息都被納入我們的考慮範圍中。隨著人類基因組計劃的初步完成,人們發現「能夠編碼蛋白質的基因只佔全部基因組的2%左右」,而之後的ENCODE計劃揭示了非編碼RNA佔據了剩下的98%人類基因組中的大量份額,非編碼RNA在生物信息領域中扮演著越來越重要的角色,有關非編碼RNA的研究也多次入選「世界科學十大進展」或「世界醫學十大進展」。但是,目前相對於蛋白質編碼基因,人們對非編碼RNA的了解十分有限。
  • 【科技前沿】劉平生團隊鑑定系列由非編碼RNA翻譯的全新脂滴蛋白...
    脂滴(lipid droplet,LD)是一種由單層磷脂膜及外周蛋白包被中性脂核心的細胞器,存在於細菌到人類幾乎所有的細胞中。脂滴最開始只被認為是「惰性的」中性脂貯存場所,近20年研究表明脂滴參與許多重要的生物學過程,如脂質轉運與代謝、蛋白貯存與降解、核酸穩定性的調控等。
  • Cell|長非編碼RNA種屬特異性加工決定其功能差異
    責編丨迦漵人類基因組中超過98%的區域都是非編碼區域。長非編碼RNA 是一類廣泛轉錄但不翻譯產生功能性蛋白質的核糖核酸大分子。越來越多的研究表明它們在基因表達調控過程中發揮著重要功能【1】。中國科學院分子細胞科學卓越創新中心(生物化學與細胞生物學研究所)陳玲玲研究組長期從事長非編碼RNA生物學研究。2016年陳玲玲曾提出長非編碼RNA功能與其加工和定位息息相關,而解析它們的加工代謝等生物學過程有助於深入認識其功能【2,3】。
  • 我國學者揭示長鏈非編碼RNA順式調控基因表達的新模式
    RNA調控基因表達和多能幹細胞分化),系統揭示了長鏈非編碼RNA順式調控基因組上鄰近基因的表達,以及它們在幹細胞分化和發育中的作用。LncRNA的功能分類及預測,是非編碼RNA領域一直追尋和探索的重要問題,它對於認識非編碼RNA生物學功能和存在的意義具有重要作用。沈曉驊研究組發現,lncRNA在基因組上的分布不是隨機的,並根據它們在基因組上與鄰近蛋白編碼基因的位置關係進行了分類。其中,反義長鏈非編碼RNA(divergent lncRNAs)與鄰近蛋白基因在基因組上以頭對頭的方式反向排列和轉錄。
  • RNA Biol:章張等發表長非編碼RNA分類問題綜述文章
    近日,中國科學院北京基因組研究所基因組科學與信息重點實驗室的「百人計劃」研究員章張及其團隊,與沙特阿卜杜拉國王科技大學(King Abdullah University of Science and Technology)開展科研合作,對長非編碼RNA的分類問題進行了系統綜述,相關論文在RNA Biology發表。
  • 史上最全非編碼RNA合集,擁有2021的第一篇SCI
    非編碼RNA的前世今生多年來,人們已經清楚的認識了一系列結構RNA和調節RNA。由於這些RNA不編碼蛋白質,所以統稱為非編碼RNA(ncRNAncRNA的由來研究熱點近些年的研究熱點還是在LincRNA上面,未來還會發現更多的非編碼分子
  • 最強攻略2: 史上最全非編碼RNA資料庫匯總解讀
    長鏈非編碼RNA(Long non-coding RNA, lncRNA)是長度大於 200 個核苷酸的非編碼RNA。研究表明, lncRNA 在劑量補償效應、表觀遺傳調控、細胞周期調控和細胞分化調控等眾多生命活動中發揮重要作用,成為遺傳學研究熱點。
  • 分子細胞卓越中心等發現長非編碼RNA種屬特異性加工決定其功能差異
    該研究首次發現長非編碼RNA在不同物種來源幹細胞中的特異性加工是其發生適應性功能變化的重要機制,為深入理解長非編碼RNA的功能及進化提供了新思路。  人類基因組中超過98%的區域都是非編碼區域。序列及基因組位置保守的長非編碼RNA在人胚胎幹細胞中更多地定位在細胞質內,而在鼠胚胎幹細胞中則更多地滯留在細胞核內。
  • 科學家在人類癌症基因組非編碼區域中鑑別出關鍵的...
    近日,一項刊登在國際雜誌Nature上的研究報告中,來自加拿大安大略省癌症研究所的科學家們通過研究在人類癌症基因組中的大量非編碼區域(也被稱之為人類癌症DNA的「暗物質」)中發現了一種新型的致癌突變;這種突變或能作為一種新型潛在的治療靶點,幫助科學家們開發治療多種類型癌症的新型療法,包括腦癌、肝癌和血液癌症等。
  • 2月長非編碼RNA和環狀RNA研究推薦
    其中,LXRs的激活通過誘導一系列基因(包括編碼質膜轉運蛋白ABCA1的Abca1)促進膽固醇逆向轉運。Abca1對於高密度脂蛋白(HDL)的產生是至關重要的,其功能的缺失會導致丹吉爾病(Tangier disease)。研究者通過用LXRs的興奮劑處理細胞,鑑定到一系列差異表達的長非編碼RNA。
  • 非編碼RNA之lncRNA最新研究進展(第3期)
    國際著名的非編碼RNA資料庫NONCODE中顯示,目前人類和小鼠的長非編碼RNA基因的數目分別為56018和46475個。lncRNA的表達水平相對於編碼蛋白的基因一般比較低。多數lncRNA雖然不直接參與基因編碼和蛋白質合成,但在基因組印記、染色質修飾、基因轉錄後調控、剪切和修飾等過程中發揮著非常重要的功能,也在很多生命活動中均起著舉足輕重的作用。