人類蛋白質組組織(HUPO)於2010年啟動了人類蛋白質組計劃(HPP),為全球合作、數據共享、質量保證和增強基因組編碼蛋白質組的準確注釋創建了一個國際框架。在隨後的十年中,HPP建立了合作關係,制定了指導方針和指標,並對以前保存的公共數據進行了重新分析,不斷擴大人類蛋白質組的覆蓋面。
2020年10月20日,在HPP成立十周年之際,HUPO在《Nature Communications》報導並討論了第一個高嚴格度HPP藍圖。該藍圖由HPP組裝了10年,覆蓋了90%以上的人類蛋白質組,這與人類基因組組織(HGP)取得的進展相當。該藍圖提供了基因組學本身無法提供的重要生化和細胞生物學信息,為我們對蛋白質組的動態性質、其修飾以及與人類生物學和疾病的關係的分子理解帶來更多的細緻信息。同時為診斷、預後、治療和精準醫學應用奠定了更好的基礎。
HPP起源於幾個基礎的HUPO項目(血漿、肝臟、腦、心血管、腎臟/尿液蛋白質組)。目前,HPP包含兩個戰略舉措--以染色體為中心(C-HPP;25個團隊)和以生物/疾病為中心(B/D-HPP;19個團隊),結合四個資源支柱支撐【抗體(AB)、質譜(MS)、知識庫(KB)和病理學】組成一個戰略矩陣。
圖1 HUPO人類蛋白質組計劃(HPP)的組織架構
圖2 HPP知識庫如何形成、積累及被公共應用
1
關於HPP的戰略計劃及我國人類肝臟蛋白組項目
HPP包含兩個戰略計劃,以染色體為中心(C-HPP)和以生物學/疾病為中心(B / D-HPP),C-HPP旨在注釋所有基因組編碼的蛋白質。它探索了以前從未通過質譜或其他分析方法可靠地觀察到的蛋白質。而B / D-HPP旨在在一系列生理和病理條件下測量和解釋人類蛋白質組數據。它著重於以下方面:(i)闡明生物學/疾病的標誌性蛋白質驅動因素,以及(ii)促進新蛋白質組學分析工具的開發,包括基於抗體的方法,以及基於質譜的MRM / PRM方法測定。
值得一提的是B / D-HPP戰略計劃中的肝臟蛋白質組項目。肝臟蛋白組主要是由我國賀福初院士帶領的中國HPP團隊(CN-HPP)完成。中國的CN-HPP表徵了四種肝細胞類型,強調了獲取細胞類型特異性圖譜以了解基礎生物學/病理學的益處。此外,還進一步繪製了早期肝細胞和肺癌的景觀圖,產生了癌症亞型改變,其中蛋白質組學特徵識別出預後不良的患者和/或受益於靶向治療的患者。在CN-HPP研究中,他們使用質譜儀以總體解剖解析度分析了顯微解剖的細胞類型揭示肝臟、腦、心臟和胃中的晝夜節律周期和時空蛋白質組表達,並提供資源以更好地了解器官的生物化學、生理學和病理學。
2
關於HPP的資源支持支柱
HPP的戰略由四個HPP資源支柱支持,以確保有效的數據生成、集成和實施。
其中質譜資源支持涵蓋各種類型的質譜採集數據,包括MALDI、ESI、top-down、bottom-up、DDA、DIA、SRM/MRM/PRM、交聯質譜、蛋白翻譯後修飾、NC端測序及蛋白互作等。
此外還包括,使用基於抗體的策略來分析蛋白質組的時空特徵;以及已經完成的多個圖譜庫:組織圖譜、細胞圖譜、病理圖譜、血液圖譜、大腦圖譜和代謝圖譜等。
HPP參考知識庫為neXtProt。每年將neXtProt版本指定為「HPP發布」。它從UniProtKB / SwissProt接收和整理數據,並從PeptideAtlas、MassIVE添加了MS證據。neXtProt還管理基於抗體的基因組、轉錄組和其他生物學數據,以創建人類蛋白質組的組裝快照。
3
將蛋白質組學轉化為精準醫學
生物醫學研究的一個關鍵方面在於將發現轉化為臨床用途。蛋白質測定仍然是診斷的基石。儘管可以診斷性地高精度測量單個蛋白質(即靈敏度和特異性),但是某些測定法由於與包括自身抗體在內的幹擾物質的交叉反應而具有較低的特異性(例如甲狀腺球蛋白免疫測定法)。基於質譜的SRM / MRM / PRM分析允許同時、準確、靈敏且高度特異性地測量多種蛋白質。此外,據報導,將液質聯用與免疫捕獲測定結合使用可消除幹擾。另外,由於大多數疾病是異質性和多基因的,因此多重蛋白質組學或多組學研究很可能會實現更高的準確性。
以癌症為例
儘管基因組學可以常規地確定高風險、易感性以及與腫瘤負荷和復發相關的方面,但是仍然無法對所有癌症進行有效的靶向癌症治療。例如,系統的全基因組研究如Pan-Cancer Analysis對來自38種腫瘤類型和正常組織匹配的2600多個全基因組進行了綜合分析,發現了許多與癌症相關的基因染色體重排,一些未知的驅動因子,但很少有新的治療靶標。這主要是因為突變不會自動導致蛋白質組預測的變化,因此很難確定哪些變化是關鍵的生化驅動程序,而哪些變化不是關鍵的。
整合基因組和蛋白質組學數據(即蛋白質基因組學)有可能提供對疾病根本原因和機制的見解,包括癌症生物學的標誌。這可以促進有效治療幹預的實施。對癌症體細胞突變的功能後果進行蛋白質組學分析的價值有助於縮小大缺失和擴增區域內候選驅動基因的範圍。乳腺癌的相關研究還表明,將基因組/轉錄組數據與蛋白質組/磷酸化分析相結合比任何單獨的方法都更具洞察力。值得注意的是,黑素瘤腫瘤基因組BRAF驅動程序突變與相應的蛋白質序列匹配,說明與患者腫瘤的組織病理學和臨床元數據一起考慮時,蛋白質組學景觀為基因組數據增添了價值。
以SARS-CoV-2病毒學為例
最近導致COVID-19疾病的嚴重急性呼吸症候群冠狀病毒2(SARS-CoV-2)爆發對人類健康和我們的經濟構成了重大威脅。大流行強調了我們對病毒病理學的了解,確定支持複製的宿主-病原體相互作用,發現與臨床結果相關的生物標誌物以及擴大監測範圍的需求。
在2003年SARS-CoV-1以及相關的MERS和IBV冠狀病毒爆發之後,進行了許多組學研究。CoV-1和CoV-2表面刺突蛋白的細胞表面受體已通過親和質譜鑑定為血管緊張素轉化酶2(ACE2)在最近的一項基於抗體的蛋白質組學的大規模研究中,其主要定位於消化系統,腎臟,心臟,睪丸,胎盤,眼睛和上呼吸道上皮細胞。病毒結合導致氣道上皮細胞表達的跨膜絲氨酸蛋白酶TMPRSS2發生蛋白水解,因此,正在研究臨床批准的TMPRSS2抑制劑(甲磺酸靜效抑制劑)以阻止感染。此外,蛋白質組學已表徵了傳染性CoV-1病毒顆粒感染期間,宿主細胞的時間變化和病毒誘導的內質網膜重塑成雙膜囊泡的病毒複製室。> 500個宿主和14個病毒蛋白與病毒複製酶NPS2關聯,突出顯示冠狀病毒複製中的水泡運輸、自噬和剪接蛋白,如果顯示CoV-2也是如此,則表明潛在的藥物靶標。
基於對冠狀病毒感染的了解,最近的蛋白質組學研究集中在SARS-CoV-2上,發現了其他潛在的治療靶標。質譜和基於陣列的蛋白質組學血清學篩查了潛在的生物標誌物和抗感染抗體。已經使用Caco-2細胞開發了臨床分離株感染模型結合代謝標記和串聯質量標記方法,使用多重質譜技術在感染過程中鑑定出暫時的蛋白質組變化。一致地,感染後宿主水泡運輸、翻譯、RNA剪接、核苷酸合成和糖酵解途徑蛋白被上調,並用抑制劑靶向這些過程揭示了潛在的治療靶點。此外,親和力-MS相互作用組研究檢查了HEK293T人類細胞中表達的29種SARSCoV-2總蛋白中的26種,表明有69種現有藥物值得進一步調查。此外,最近的磷酸化蛋白質組學分析指出通過PTM調節病毒蛋白。
蛋白質組學方法開發血清學檢測以及臨床前和計算模型系統以評估患者對感染的反應。對無症狀/有症狀感染,疾病嚴重程度,再次感染的風險和/或疫苗功效的血清學生物標誌物進行了表徵。除了不斷積累的組學知識外,SARS-CoV-2病理生物學的許多方面還有待進一步探索,包括開發用於臨床病毒檢測的其他方法,確定感染階段以及深入了解功能性時空病毒與宿主蛋白的相互作用以及細胞器重塑。例如,最近的研究利用靶向MS進行SARS-CoV-2蛋白質檢測和血清學免疫應答的蛋白質組學表徵患者樣本,可能會支持PCR篩查以評估疾病的嚴重程度。還可以採用其他蛋白質組學方法來進一步擴展對SARS-CoV-2生物學的理解。其中包括該技術有望鑑定許多SARS-CoV-2蛋白酶底物以及被病毒蛋白水解滅活的那些細胞途徑。
4
結論和未來方向
未來的收益來自對健康和疾病特徵的詳細組學理解。在該文中,HUPO審查了人類蛋白質組公認的高嚴格性藍圖的構建。從2011年的13,588個到2020年的17,874個PE1,這標誌著人類蛋白質組零件清單的完成率超過90%。其中還提供了一些具體的例子,說明蛋白質組學將成為未來生物醫學科學發現和精密醫學中的一個集成組件(與基因組學和其他組學)。
SARS-CoV-2大流行後世界將有所不同。加速精確醫學發展的新範例可能會出現。毫無疑問,這些將涉及使用多學科方法的全球合作(甚至在競爭實體之間),這將使新型診斷測試和精確療法的快速跟蹤成為可能。幾乎可以肯定,這些結果將需要有關人類蛋白質組的知識。
5
蛋白質存在證據的嚴格標準:高嚴格性(high-stringency)
在HPP的人類蛋白質組藍圖中,有一個非常關鍵的定義:「高嚴格性」(high-stringency)。「高嚴格性」是指用於採集後處理的嚴格HPP標準,以及從原始MS肽譜數據得出的任何蛋白質推論。高嚴格性的使用會影響從任何原始MS數據得出的所有蛋白質推論的可靠度。當前的HPP準則至少需要兩個獨特的匹配肽段,其長度至少為9個胺基酸。肽段必須是非嵌套的,但可能會部分重疊,因此覆蓋範圍超過18個殘基。在肽段和蛋白質水平上,需要說明假陽性率(FDR)的控制,最大允許蛋白質水平FDR為1%。許多先前的研究使用高(質量)準確性的儀器,但在較低的默認設置下進行後續的蛋白質推斷鑑定,可能導致錯誤識別更多假陽性。這「高嚴格性」與常用的涉及儀器精度的「高精度」是有所不同的。
這一標準中將蛋白質存在(PE)證據歸類到五個級別:PE1蛋白存在至少一種明確實驗證據(包括質譜鑑定,Edman測序,X射線,純化的天然蛋白質的核磁共振(NMR)結構,可靠的蛋白質-蛋白質相互作用和/或抗體數據等);PE2蛋白序列只存在相應的轉錄本(如cDNA,逆轉錄PCR,northern blotting數據);PE3蛋白序列在親緣物種中存在同源基因;PE4蛋白僅基於基因的序列,沒有其他數據支持;PE5蛋白對應基因編碼可疑或者是非編碼元件的電子翻譯。HPP優先跟蹤PE1、2、3、4蛋白質編碼條目。PE1級別為高嚴格性蛋白,PE2、3、4為缺失蛋白。下圖展示了HPP數據中PE各級別蛋白條目的變化情況,在過去十年中PE1蛋白數據強勢增加,從2011年的13,588增加到2020年的17,874,佔比由69.8%上升到90.4%。PE2蛋白因為有轉錄本信息,一旦neXtProt收錄相應mRNA對應的蛋白數據,就可以升級為PE1蛋白。通過對近十年間蛋白分級變化情況分析,發現升級到PE1的缺失蛋白大多屬於鋅指蛋白、跨膜蛋白、碳水化合物代謝蛋白等家族,而G蛋白偶聯受體化學感覺家族蛋白卻難以升級(如嗅覺受體,味覺受體等)。
圖3 2011到2020高嚴格性蛋白變化情況