對由進化所規定的種群、個體及細胞層級的基因型(genotype)與表現型(phenotype)之間的關聯的解析是分子生物學研究的核心課題。就方法論而言,基因擾動實驗(perturbation)和基因型——表現型特徵統計分析是兩條具有統治地位的路徑,它們能夠分別揭示出具有因果關係的(causal)或者具有相關性的(correlative)調控者——靶標邏輯。考慮到基因型與表現型二者的搜索空間均十分龐大,基因擾動實驗往往局限在單一調控者或特定靶標的範圍之內。
相反,統計關聯分析的極佳延展性在多組學數據快速積累的背景下成為了大規模闡釋基因型——表現型連接的常用手段,經典案例包括全基因組關聯分析(GWAS)、表達數量性狀基因座分析(eQTL)、等位基因特異性表達分析(ASE)和基因共表達網絡分析(co-expression network)等。不過,統計關聯分析範式易受上位作用(epistatic effect)等因素的影響,從而遺漏具有直接邏輯關聯的基因型——表現型配對。
近年來,隨著CRISPR基因編輯技術、單細胞測序技術及高通量圖像處理技術等的興起,對基因型進行大規模擾動並快速捕捉多維度表現型信息成為了可能。其中,癌症研究領域是擾動生物學(perturbation biology)研究範式的最大受益者之一。具體而言,實驗者通過擾動基因的序列、表達、定位、或修飾等,繼而測量作為反應的RNA、蛋白表達或細胞狀態等特徵, 最終發現疾病、基因和治療之間的關係。
由美國Broad研究所領銜的癌症依賴性圖譜計劃(Cancer Dependency Map)篩選了上千種癌細胞系中全基因組範圍單基因敲除對細胞增殖效應的影響,而L1000計劃(前身為Connectivity Map)資料庫中則有超過百萬的小分子化合物、基因過表達,或基因敲低等擾動處理後得到的癌細胞系基因表達譜。
不過,現存的各類大規模基因或化合物篩選數據集均缺少以蛋白表達水平為核心的響應指標,這主要是由於蛋白質大規模定量仍較為困難,因而將諸如定量蛋白質組學技術(quantitative proteomics)等應用至大規模擾動生物學研究中並非一條可行的路徑。考慮到蛋白質是細胞功能的主要載體和大部分抗腫瘤藥物的直接作用靶標,其表達水平和修飾狀態對外界刺激作出的響應是反映細胞狀態轉變的關鍵指標,亦是抗腫瘤機制的重要線索。因此,如何將對蛋白水平的監測納入大規模癌症擾動生物學研究,是亟待解決的課題。
2020年11月6日,美國MD安德森癌症中心梁晗課題組和俄勒岡健康與科學大學Gordon Mills課題組合作在Cancer Cell雜誌上發表了題為Large-scale characterization of drug responses of clinically relevant proteins in cancer cell lines的論文。
該研究首次報導了以蛋白表達水平作為擾動指標的大規模抗腫瘤藥物效應篩選數據集。這項工作由課題組成員趙維博士、李軍博士和陳玫如博士等合作完成。
與定量蛋白組學技術相比,反向蛋白微陣列技術(reverse phase protein microarray, RPPA)具有樣本通量高、靈敏度高、樣本需求低、成本低等優勢,因而適合於應用至對特定功能蛋白群的大規模表達水平檢測。基於這一技術,MD安德森癌症中心的研究人員此前已經對癌症基因組圖譜(TCGA)中的來自32種癌症類型的超過八千個病人樣本和癌細胞系百科全書計劃(CCLE)中的超過六百種細胞系中的數百個癌症相關蛋白進行了精確定量。
在該項研究中,作者以RPPA測定的210個癌症相關蛋白質的表達水平作為指標,系統性地描繪了約170種臨床前或已經應用於臨床的藥物對近320種癌細胞系的細胞狀態擾動效應。在經過嚴格的基於內部重複組對比的質量驗證後,作者得到了超過15000個擾動實驗圖譜。在其後與外部公開數據(如CCLE定量蛋白質組和L1000等)的對比中,這一數據集亦表現出良好的跨平臺可重複性。值得一提的是,該數據集中還包括了對於同一藥物與癌細胞系配對的不同梯度和時間進程下的效應測定,因而產生了超越單劑量、單時間點的多維度數據類型和由此衍生的豐富生物學意義。
基於這一數據集,作者主要探討了由癌細胞系敏感性資料庫GDSC等所提供的癌細胞抗藥強度與其自身蛋白表達譜特徵之間的關聯。一個關鍵的發現是,儘管與以往多項研究所揭示的結論相同,癌細胞在未經處理時的靜態蛋白表達數據可以較好地用於預測其對於靶向特定信號通路的藥物的反應性,但當在預測模型中加入經藥物處理後的動態蛋白表達數據時,準確性能夠得到顯著提高。這一結果從癌細胞——藥物互作角度展現了擾動生物學技術相較於統計關聯分析在連接基因型(癌細胞蛋白表達譜)和表現型(抗藥性)上的優勢。
該數據集的高維度和統一化特徵使得建立一個根據藥物作用效應和蛋白功能分類形成的藥物——蛋白大尺度互作網絡成為可能。對這一網絡進行分析,作者發現已知具有類似生物靶標的藥物往往被歸類在一起,而表達水平被同一藥物顯著擾動的蛋白質群之間則具有顯著更多的已知互作連接。另外,當把這一藥物——蛋白互作網絡與癌細胞抗藥性數據聯合分析時,作者能夠通過對應信號通路的反向擾動作用預測出可能具有潛在結合效應的抗癌藥物組合。有趣的是,其中多個組合已經存在於既往的特定研究或者臨床試驗中,因此展現了對大規模藥物蛋白擾動效應的測定在指導臨床藥物運用方面的巨大潛力。
總之,該數據集首次在大規模癌症藥物效應篩選中實現了以蛋白表達為測量基準,彌補了由於蛋白表達信息缺乏所導致的對藥物抗腫瘤機制進行闡釋和效應預測的重大缺陷。另外,考慮到絕大多數常用癌細胞系已經具有統一化、高質量的多組學數據,包括RNA、蛋白質、DNA甲基化、miRNA、基因突變、藥物敏感性等,該研究所提供的蛋白擾動數據將能夠經由多模態整合分析發揮超出本身數據含量指數級的價值,為闡明癌細胞的藥物反應在各個分子層級的潛在影響因素的交叉作用提供絕佳的機會。(生物谷Bioon.com)