人類基因組已知大約有5萬個基因,其中僅約2萬個被注釋為可以表達蛋白質的「編碼基因」,而另外3萬個基因被標註為「非編碼基因」(ncRNAs)。近10年來,人們逐漸注意到這些ncRNAs的翻譯行為,尤其是近兩年已有研究報導部分內源性長鏈非編碼RNAs (lncRNAs)和環狀RNAs (circRNAs)可以編碼新的功能蛋白質。為什麼這些ncRNAs被定義為非編碼基因?如何檢測ncRNAs是否編碼新蛋白質?ncRNAs編碼新蛋白質有何意義?SCIENCE CHINA Life Sciences邀請暨南大學生命科學技術學院何慶瑜教授團隊撰寫綜述文章:Understanding the proteome encoded by 「non-coding RNAs」: new insights into human genome(點擊題目或「閱讀原文」獲取全文),詳細總結近年來ncRNAs編碼新蛋白質/新蛋白質組的研究進展,包括新蛋白多樣化的功能、新蛋白檢測方法等,並解釋新蛋白質組在人類基因組中被錯誤注釋的原因,以及新蛋白質組在基礎生物學和醫學中的意義。
人類基因組注釋的偏差
許多人可能以為人類基因組的注釋都有堅實的實驗基礎,然而事實上大部分人類基因組的注釋是利用各種數學模型和算法在計算機上完成的。用典型的ncRNAs和一些典型的可編碼蛋白質的mRNA作為訓練集對計算機進行訓練後,計算機再基於這樣的模型將其餘RNA進行分類。然而,由於某些蛋白質編碼基因可能與典型的ncRNAs有相似的性質,這時算法極易把這些編碼基因歸為「非編碼基因」。
如何檢測ncRNAs是否編碼新蛋白質?
質譜和抗體是檢測蛋白質的常用方法。然而,質譜技術需依賴蛋白序列理論資料庫進行分析,需要將新蛋白的所有可能序列全部構建成資料庫,通常是使用基因組六框翻譯或轉錄組三框翻譯對新蛋白的序列進行預測。然而,其中絕大部分理論序列實際上都不可能存在,這將大大增加了假髮現率(FDR),降低可靠性和靈敏性;新蛋白質表達量低,理化性質也比較特殊,這也增加了質譜的檢測難度。抗體技術從一定程度上可用來克服質譜技術的局限性,但是抗體檢測存在「低染」問題,而新蛋白質一般較小,抗體表位單一,因此抗體檢測新蛋白也不太容易。
翻譯組測序技術可以測定正在翻譯的mRNA,間接對應著蛋白質,由於測的是核酸,靈敏性遠優於質譜和抗體。翻譯組測序包括核糖體足跡測序分析(Ribo-seq)和翻譯中的全長mRNA測序分析(RNC-seq)。Ribo-seq的基本原理是對核糖體保護的長度約為20-40nt的小片段RNA(也稱核糖體足跡,RFP)進行測序分析。然而在製備RFP的過程中很難避免細胞內各種小RNA片段和降解RNA小片段的汙染,假陽性情況嚴重。Ribo-seq的短讀長使得序列比對分析以及在檢測可變剪切變體上面臨巨大的信息學挑戰。相比之下,RNC-seq分析的是翻譯中的全長mRNA,測序分析的片段長度為300-400nt甚至更長,比Ribo-seq長10倍以上,有效的避免了短RNA片段汙染,極大地降低了假陽性。RNC-seq的長讀長在檢測剪切變體和circRNAs的反向剪切位點的概率比Ribo-seq高出數量級。因此RNC-seq比Ribo-seq更加適合新蛋白的發現。用RNC-seq製作蛋白質最小化庫,大大有利於蛋白質組的質譜檢測。
RNC-seq 和 Ribo-seq 的區別
新蛋白如何進化而來?他們的存在有何意義?
新蛋白大部分是進化中的年輕基因,進化保守性低,在較低等的生物中幾乎不存在。這些年輕基因通常與高等生物特有的性狀相關。新蛋白的表達量大部分極低,其mRNA甚至低於每細胞1個拷貝,即有的細胞中存在、有的細胞中不存在,該文作者將其稱為「漲落表達」,並提出這是新蛋白基因從非編碼到編碼的進化過程中的中間體,是進化中低成本的試誤;在不確定的外界環境下,某些有利於生物體生存性狀的新蛋白基因被保留和加強;即便嘗試失敗,使用各種方法壓低或阻止這些低表達基因的表達也十分容易。「漲落表達」造成了細胞的多樣性,這也是即使同一種細胞中仍存在細胞異質性的原因之一。
新蛋白起源假說
新蛋白全局鑑定方法的建立,使我們可以鑑定到許多從前人們認為不存在的、由ncRNAs所編碼的新蛋白質,大規模校正了人類基因組注釋,打開了一扇寶貴的發現新功能蛋白質分子的大門。同時,這也意味著今後如果再要宣稱一個RNA是「非編碼RNA」,就要提供它不翻譯的證據才行。