景傑學術| 報導
蛋白質是生命功能的執行者,但由於技術的局限性,人們對蛋白質圖譜的理解還遠遠不足。隨著質譜技術的發展,人們已經完成了多個物種(包括人類)的蛋白質組圖譜分析。然而,在跨物種的蛋白質組比較分析方面仍然缺少系統性的研究。
2020年6月17日,國際著名蛋白質組學家、馬克斯普朗克生物化學研究所所長Matthias Mann教授團隊在國際著名期刊Nature發表題為「The proteome landscape of the kingdoms of life」的文章。文章中,研究人員使用先進的蛋白質組學工作流程深入研究100個不同類別的生物體,以標準化的方式獲得了200萬個肽和34萬個蛋白質的鑑定,為生命科學以及基於序列的機器學習提供了一個大規模的研究案例。
文章速讀
1、 跨生命樹蛋白質組學工作流程圖
為了在生命樹中收集各類具有代表性的生物,研究人員考慮了組裝基因組序列的可用性和培養或組織材料的可及性等因素,選擇了包括19個古生菌,49個細菌和32個真核生物——總共100個不同的物種(樣本策略)進行後續的蛋白組學研究。研究人員將最新的技術納入了高解析度、高通量的蛋白質組學工作流程(質譜策略)。該流程採用晶片形式的小型、高效的UHPLC裝置進行分離。在該裝置中,C18覆蓋的珠子被均勻有序、靜態固定的微米大小的柱狀結構取代,顯著提升了肽段保留時間的變異係數和實驗的重現性。
2、 應用深度學習模型預測肽段保留時間
深度學習的算法為質譜數據的匹配搜庫提供了新的思路和應用,而這項關於100個物種、超過200萬個肽段的大規模分析非常適合於發展深度學習算法。作者開發了一個long short-term memory(LSTM)的深度學習模型來準確預測色譜保留時間,並實現皮爾遜相關性0.990。為了驗證該模型的可靠性,研究人員應用質譜儀對均變桿菌、巨大芽孢桿菌或產氣腸桿菌三個未知蛋白組的物種進行分析,結果顯示其能夠符合絕大多數(約88%)的蛋白質組數據,表明這個算法是成功和準確的。
3、蛋白質組學數據全局分析
與基因組學和轉錄組學不同,蛋白質組數據可以直接估計基因表達的最終產物。接下來,研究人人員進一步探究蛋白質在不同生物體內是如何分布的。跨物種分析中,作者專門挑選了高豐度的蛋白進行分析(因為這些蛋白功能較為保守和基礎),其中真核生物有1546個蛋白質,細菌中有306個,古菌中有262個。隨後,研究人員把相應蛋白質和肽段信息同各種數據源的數據相關聯,產生一個多於800萬個節點的網絡結構圖和多於5380萬的作用關係。進一步的分析發現,某些種類的蛋白質只在特定的生命分支中佔優勢,比如與光合作用相關的蛋白質只存在於光合自養生物體中,如植物、藻類、原生動物或藍藻細菌(100個生物體中的13個)。
通過對生命分類學的取樣,研究人員創建了一套高覆蓋率蛋白質組質譜數據。非標(label-free)定量使我們能夠推斷出共同的和專門的生物功能,並將它們與所有分類層次的近親和遠親進行比較。蛋白組與基因組、代謝組和其他數據的整合,以及將機器學習方法納入特定物種庫,將把系統生物學的視角從模式生物體擴展到整個生命樹。
此項研究結果為整個進化範圍內生物的功能組織研究提供了一個重要的信息。在所有檢測到的蛋白質中,有38.4%的蛋白是沒有功能注釋的,其中還包括不少高豐度的蛋白。發現這些「dark proteome」的功能,將是非常吸引人的新研究方向。此外,蛋白質修飾也是蛋白質組的重要層面,本文中雖然沒有對修飾進行特殊富集,但仍然嘗試從有限信息中進行搜索和展示了部分的修飾位點。未來通過富集的手段進行更大規模的修飾組分析,將是全蛋白質組圖譜研究的另一個重要方向。
參考文獻:
1、Johannes B. Müller,et al.,2020,The proteome landscape of the kingdoms of life.Nature.
2020.03:Cell重磅!組織特異性的蛋白質氧化還原修飾,或將提供衰老研究新思路
2020.02:2020開年紅!Cell | 貝勒醫學院章冰/西北太平洋國家實驗室劉濤等解析子宮內膜癌蛋白質組學圖譜
2020.01:癌症研究新篇章,Cell | 高深度蛋白質組學補全「癌細胞系百科全書」