深圳2019年8月21日 /美通社/ -- 2019年7月24日,承啟生物支持的中國科學家團隊在生物科學界權威期刊Nucleic Acids Research上發表論文,通過自主研發的翻譯組測序技術,發現了對癌症等重大病變有重要影響的「隱藏的蛋白質組」(Hidden Proteome) -- 這些蛋白質長期以來被人們認為不會存在,所以被稱為「隱藏的蛋白質組」。
蛋白質是胺基酸形成的多肽長鏈。通常認為,至少50個胺基酸以上的為「蛋白質」,而50個胺基酸以下的為「小肽」。小肽因長度短,難以形成複雜的空間構象,只能起一些調控作用;而蛋白質較大,能生成較為精密和複雜的空間構象,便可獨立行使細胞結構、催化酶等較為複雜的功能,也能與其他蛋白質相結合,形成精密的蛋白質複合體甚至大分子機器,是生物學功能的主要執行者。
在人類基因組已知的約5萬個基因中,其中約2萬個被認為是「編碼基因」(coding genes) ,即其可以被翻譯成蛋白質;餘下3萬個左右的基因被認為是「非編碼基因」(non-coding genes) ,這些基因被認為不可能翻譯為蛋白質。
已有的報導中,除了部分非編碼基因可表達為小肽行使調控功能外,有發現個別非編碼基因(如CLUU1、ESRG等)實際上能翻譯成>50胺基酸的蛋白質。若這種情況不是個案而是普遍存在的現象,則說明確實存在相當一部分「編碼基因」被錯誤地標註成了「非編碼基因」,這將意味著人基因組需要被系統性地重新注釋。
該問題很早就被學界所關注,但科學界一直未給出有效的解決方法。傳統的蛋白質組質譜技術難以有效發現這些「隱藏的蛋白質」。2014年,人類蛋白質組草圖在Nature上發表,聲稱發現千餘個「非編碼基因」所編碼的「新蛋白質」,但隨後便被人類蛋白質組組織 (HUPO) 爆出其分析不合規範,在用較嚴格的標準進行質控後,這些所謂的「新蛋白質證據」幾乎都被認為是假陽性而不予認定。
承啟生物首席科學家、暨南大學張弓教授於2012年開發成功翻譯組測序技術 (RNC-seq),即測定翻譯中的全長mRNA。由於該項技術能準確監測翻譯過程,精度比質譜高很多,可用於指導蛋白質組學,規避上面提到的問題,因此很快被作為人類蛋白質組計劃的核心支柱之一,並在2014年被人類蛋白質組組織列為人類蛋白質組計劃的首要突出貢獻。
2018年,中山大學張弩教授、暨南大學張弓教授等人便用翻譯組測序技術,發現了人細胞內8000多個環狀RNA可能翻譯出蛋白質,顛覆了「只有極少數環狀RNA才能翻譯成蛋白質」的傳統觀念,並確證了其中一個蛋白質LINC-PINT具有明確的抑癌功能,顯示了翻譯組測序技術在尋找新蛋白方面所起到的積極作用。
而在本次發表的論文中,暨南大學何慶瑜教授、張弓教授、王通教授研究組發現了約4700個人類「非編碼基因」實際上可能翻譯成蛋白質,並提供了其中314個由長鏈非編碼RNA (lncRNA) 表達的蛋白質證據。這些蛋白質不是小肽,而是含50個胺基酸以上的蛋白質,它們能穩定存在,並可在癌症等病變中發揮重要作用。
承啟生物在該研究中提供了系統生物學數據分析,準確地預測了這些從未被人們認知的蛋白質在細胞中的定位及其可能的功能,相關結果已通過實驗被證實。
本次研究發現的大批此前不為人知的新蛋白質,大規模地校正了人類基因組中的錯誤注釋。這些新蛋白質中有不少與人類生理病理相關的重要分子,由此打開了一個全新的人類蛋白質寶庫,為研究各種重大疾病打開了一扇大門。同時,也使得中國科學家有獨立的方法檢驗與校正人類基因組的注釋,不再依賴美國NCBI等資料庫中的注釋。