Cancer Cell|時代新範式-下一代組學分析智慧機器人

2020-09-30 BioArt

撰文 | 伊凱

責編 | 兮


生物醫學傳統上是一個實驗科學,儘管它並不排斥理論研究和計算模擬,甚至往往受益於後者的貢獻:遠有半個世紀前木村資生(Motoo Kimura)等人建立的具有堅實數學基礎和完備理論框架的分子進化中性理論(neutral theory)【1】深刻地豐富和修正了自然選擇的內涵,近有上個世紀末Christopher Burge等人基於隱馬爾科夫模型開發的基因結構預測算法【2】顯著推進了人們對基因功能表現形式的認知;但直到進入新世紀之後,尤其是以人類基因組的發布為裡程碑,生物醫學領域內積累的數據的尺度和豐富性、及相適應的計算方法的多樣性和延展性才真正迎來革命性的加速變化。這一發生在生物醫學領域內的整體研究範式的演變如此激進和深刻,以至於研究者們特意給這個時代賦予了一個名號——組學時代(omics era)


所謂組學,即是對具有內在統一屬性的生物學各層級研究對象的系統性歸納。隨著研究界對生命密碼的解析逐漸深入和先進實驗及計算方法的不斷更迭,組學研究從最初以基因組為核心發展出包含轉錄組、蛋白質組、代謝物組、表觀遺傳組、蛋白互作組等多模態相輔相成的豐富內涵。相應地,在科研實踐中,以產出大規模組學資源為目的的大型聯合體項目層出不窮,其貢獻的數據深度與廣度往往是前所未有的。在此僅舉幾例:


  • 從2005年建立並發展至今的癌症基因組圖譜(The Cancer Genome Atlas, TCGA)計劃陸續對跨越33種癌症類型的具有多樣化臨床表現和組織病理學及分子特徵的超過一萬個病人的腫瘤樣本進行了全外顯子組、全基因組、RNA、DNA甲基化、miRNA、染色質開放性等多組學刻畫,為癌症分子生物學研究貢獻了極為珍貴的資源,已然成為腫瘤大數據研究的金標準資料庫【3】


  • 2012年, Broad研究所、Dana-Farber癌症研究所和Novartis合作發布了「癌細胞系百科全書」(Cancer Cell Line Encyclopedia, CCLE),對覆蓋三十多種組織來源的947種人類癌細胞系進行了大規模深度測序,整合了DNA突變、基因表達和染色體拷貝數等遺傳信息【4】;2019年,該項目再次發布重大更新,增加了基於RPPA的數百種蛋白定量、基於RNA-seq的可變剪切及miRNA定量、基於RRBS的啟動子甲基化定量、以及基於代謝組學的數百種代謝物定量等【5】。


  • 起始於2010年的基因型-組織表達(Genotype-Tissue Expression, GTEx)項目對近一千名捐獻者的跨越54個組織類型的超過一萬五千個樣本進行了轉錄組測序和全基因組測序,從而描繪出迄今最為詳盡的人類基因表達模式(包括基因表達量和可變剪切模式等)與DNA序列變異之間的關聯圖譜,亦即數量性狀基因座(quantitative trait loci,QTL)研究,對研究界深入理解人類正常組織生理的分子多樣性、疾病的遺傳基礎和基因調控的分子進化特徵等均做出了巨大的推動【6】。



在數據爆炸式增長的趨勢之下,伴隨而來的是數據科學和統計學方法在生命科學研究中的廣泛應用:從基於C語言、perl、Python、R等所編寫的「單打獨鬥」的實驗室自製數據處理腳本(script),到依賴「群體智慧」合眾開發的一系列集成化、規範化的生物醫學數據專用計算擴展項目(如Biopython和Bioconductor等),再到由政府部門資助的超大型數據儲存、交流和分析平臺(如NCBI GEO、EMBL The Expression Atlas和GDC TCGA portal等),見證了生物信息學(bioinformatics)、生物統計學(biostatistics)和計算生物學(computational biology)等新興學科的全面成熟。與此同時,對數據的公開透明、易獲得、可重複等特質的追求作為促進領域整體發展的必要條件而成為了生物醫學研究倫理的應有之義。儘管在這種變革之中仍舊發生過以新英格蘭醫學雜誌主編將部分生信工作者斥為「數據寄生蟲」(data parasites)【7】為代表的新舊思維的對抗,但這些一廂情願、缺乏建設性的論調終究抵擋不了生物醫學數據化和計算化的大潮【8】。



然而,作為促使當今生物醫學研究發生整體前進的核心動力之一,生物醫學大數據從來未曾真正地公平、普遍、甚至有效地惠及大部分的生物醫學工作者。儘管不排除造成這種局面的原因可能是部分研究者由於個人偏好、實驗環境等因素形成的對大數據本身及其所支持的研究範式的排斥;但絕大多數時候,數據和方法的不可接近性作為一種領域內的整體性困境,都是由基於資源和知識限制所形成的各種各樣具象或抽象的壁壘所導致的。


為了回應這一挑戰,生物信息科學家們在簡化生物醫學數據分析流程上付出了諸多努力,開發出了各類適應於本地運行的高度封裝化的端對端的生物醫學數據分析工具和基於網頁操作的數據可視化及分析平臺。在這方面,獲得2020年班傑明·富蘭克林生命科學開放獲取大獎(The Benjamin Franklin Award for Open Access in the Life Sciences)的哈佛大學華人科學家劉小樂(Xiaole Shirley Liu)教授的課題組是一個典範,其十多年來開發的被應用於轉錄調控、腫瘤免疫、高通量基因篩選等多個領域的原始碼公開的生物信息學方法(如MACS、MAGeCK)和便捷式網頁資料庫及分析平臺(如TIDE、TISCH)為推動生物信息學普及化做出了重要貢獻。



在可預見的未來,伴隨著單細胞測序技術、大規模並行篩選技術和空間轉錄組測序技術等高通量多模態實驗技術的方興未艾,生物醫學領域的數據規模將繼續呈現指數級增長模式。對於缺乏數據科學專業訓練的以實驗技術為主導的研究者個人或課題組來說,如何更便捷、更高效地通過對現有大規模數據進行挖掘和分析來設計課題、產生假說、驗證結論,是一個關係到科研生產力整體發展的重要話題。前述提到的普及化分析工具和平臺往往在分析模態的多樣性和靈活性上有諸多限制,並且對實驗生物學研究者仍然提出了掌握各類常規操作模塊或分析界面的技術性要求。另外,儘管與專職生物信息學研究者進行合作在當下的生物醫學研究界已經成為一項常規操作,但合作雙方在課題思路上的交流屏障、在數據分析方向上的分歧、甚至是在作者署名中的爭議等問題仍舊在很多時候阻礙著這種工作模式的進展。


2020年9月24日,美國MD安德森癌症研究中心梁晗課題組在Cancer Cell上發表了題為Next-generation Analytics for Omics Data的評論文章,詳細闡述了組學時代生物醫學研究者在數據分析方面面臨的挑戰和可行的解決方案,並介紹了基於自然語言和人工智慧邏輯開發的下一代組學數據分析平臺——DrBioRight。這項工作由課題組成員李軍、陳虎、王雨濛和陳玫如等共同完成。



在該研究中,作者創新性地提出以自然語言交流作為生物學數據分析的基本邏輯框架,從而將分析平臺的角色從被動式的、充滿局限的「冰冷機器」轉換至主動式的、可充分延展的「科研伴侶」。作者總結了下一代組學分析範式應該具有的五大特徵——自然語言理解、人工智慧、透明度、移動端及社交媒體友好和眾包(crowdsourcing)。具體而言,一個智能化的分析平臺要能夠實現1)準確識別不具有專門技術性知識的用戶所提出的分析請求所對應的標準化分析流程;2)幫助用戶探索和理解與任務相關的組學數據和分析結果;3)通過穩定用戶群的貢獻保持對組學數據和分析方法的及時更新;4)經由用戶對分析質量的反饋不斷修正和更新平臺性能;5)與智能移動平臺和社交媒體實現良好匹配,從而為分析流程增加更多的靈活性。



基於上述對生物醫學數據智能分析平臺的性能期待,作者開發了一個以自然語言理解和人工智慧交互為核心的下一代組學分析工具——DrBioRight。作者們為DrBioRight設計了一個極為簡潔的交互界面,其僅僅由一個輸入框和一個輸出框構成。對於用戶以自然語言形式輸入的分析請求,DrBioRight將基於其自然語言處理模塊來標記其中的語義實體,預測出與之匹配度最高的分析任務。然後,DrBioRight將調用特定的分析模塊,識別相關的數據集,並檢查是否填寫了所有必需的參數。計算任務在得到用戶確認後會被提交至雲計算節點進行處理。任務完成後, DrBioRight將調用適當的可視化模塊,以通常為交互式表格或繪圖的形式將結果返回至用戶。與此同時,DrBioRight將要求用戶為每個成功執行的作業評分,並利用收集到的用戶反饋進一步改善自身的NLP和AI模塊的性能。



DrBioRight代表了以自然語言和人工智慧交互為核心的下一代組學數據分析範式的首個嘗試,其背後蘊含的是對組學數據分析流程去中心化、去黑箱化的研究倫理價值的追求,和對生物醫學研究領域與大數據時代發生深度融合從而惠及每一個普通研究者和更為廣泛的大眾的展望。


原文連結:

https://doi.org/10.1016/j.ccell.2020.09.002


製版人:SY



參考文獻


1. Kimura, M. Evolutionary rate at the molecular level. Nature 217, 624–626 (1968).

2. Burge, C. & Karlin, S. Prediction of complete gene structures in human genomic DNA. J. Mol. Biol.268, 78–94 (1997).

3. Hutter, C. & Zenklusen, J. C. The Cancer Genome Atlas: Creating Lasting Value beyond Its Data. Cell(2018) doi:10.1016/j.cell.2018.03.042 .

4. Barretina, J. et al. The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity.Nature 483, 603–607 (2012).

5. Ghandi, M. et al. Next-generation characterization of the Cancer Cell Line Encyclopedia.Nature 569, 503–508 (2019).

6. Consortium, T. Gte. The GTEx Consortium atlas of genetic regulatory effects across human tissues The GTEx Consortium. Science(80-. ). 369, 1318–1330 (2020).

7. Longo, D. L. & Drazen, J. M. Data Sharing.The New England journal of medicine vol. 374 276–277 (2016).

8. Greene, C. S., Garmire, L. X., Gilbert, J. A., Ritchie, M. D. & Hunter, L. E. Celebrating parasites. Nature Genetics vol. 49 483–484 (2017).

相關焦點

  • 新研究揭示轉移性結直腸癌的多組學圖譜
    新研究揭示轉移性結直腸癌的多組學圖譜 作者:小柯機器人 發布時間:2020/9/4 20:11:59 中國科學院分子細胞卓越創新中心曾嶸、吳家瑞以及上海長海醫院張衛研究組合作的最新研究揭示了轉移性結直腸癌(CRC)的多組學圖譜
  • 通過基因組學和轉錄組學特徵分析合併肝細胞癌和肝內膽管癌的不同...
    通過基因組學和轉錄組學特徵分析合併肝細胞癌和肝內膽管癌的不同分子亞型 作者:小柯機器人 發布時間:2019/7/11 14:24:57 北京大學白凡/張寧團隊經過課題組成員不懈努力,通過分析基因組和轉錄組特徵
  • 【Cell】迄今最大規模乳腺癌蛋白質組學分析:發現新亞型 提出新療法
    隨著人類基因組等大量生物體全基因組序列的破譯和功能基因組研究的展開,生命科學家越來越關注如何用基因組研究的模式開展蛋白質組學的研究。近日,貝勒醫學院、麻省理工學院和哈佛大學等機構的研究人員通過強大的蛋白質組學分析,深入了解了乳腺癌的生物學複雜性。在此基礎上,他們能夠對已知的靶標提出更精確的診斷方法,開發侵襲性腫瘤的新治療方法,並揭示乳腺癌耐藥性的新機制。
  • Cancer Cell: 蛋白質組學為治療頭頸部鱗狀細胞癌提供了新見解
    近日,一項新研究通過蛋白質組學分析方法確定了頭頸部鱗狀細胞癌(HNSCC)中的三種分子亞型,可能會提供新的見解,以匹配針對癌症患者的針對特定癌症的有效療法。該研究由貝勒醫學院,約翰·霍普金斯大學和美國國家癌症研究所的臨床蛋白質組學腫瘤分析聯合會(CPTAC)領導,相關結果發表在《Cancer Cell》雜誌上。
  • 科學家繪製出乳腺癌腫瘤發生和靶向治療的蛋白基因組學圖譜
    科學家繪製出乳腺癌腫瘤發生和靶向治療的蛋白基因組學圖譜 作者:小柯機器人 發布時間:2020/11/20 14:37:37 美國博德研究所Michael A.
  • 「Cell」迄今最大規模乳腺癌蛋白質組學分析:發現新亞型 提出新療法
    近日,貝勒醫學院、麻省理工學院和哈佛大學等機構的研究人員通過強大的蛋白質組學分析,深入了解了乳腺癌的生物學複雜性。在此基礎上,他們能夠對已知的靶標提出更精確的診斷方法,開發侵襲性腫瘤的新治療方法,並揭示乳腺癌耐藥性的新機制。
  • 蛋白質組分析揭示小細胞肺癌治療的潛在靶點
    蛋白質組分析揭示小細胞肺癌治療的潛在靶點 作者:小柯機器人 發布時間:2020/6/14 21:58:19 在小細胞肺癌幹細胞中,無偏倚的蛋白質組學分析揭示了可靶向的GNAS / PKA / PP2A軸,這一成果由美國史丹福大學
  • 革新範式,人類表型組學策動生命科學原始創新
    表型組,是指生物體從微觀組成到宏觀、從胚胎發育到衰老死亡全過程中所有表型的集合。表型組學是繼基因組之後生命科學的又一個戰略制高點和原始創新源。基於大數據與人工智慧時代的新理念、新方法,人類表型組大科學計劃正深刻地改變著生命科學領域的科研面貌,引領生命科學的範式變革。
  • Cancer Research:轉錄組分析發現可診斷多種癌症的泛標記物
    近日,來自日本、丹麥和澳大利亞的科學家在國際學術期刊Cancer Research上發表了一項最新研究進展,他們利用轉錄組分析的方法對多種癌症類型中反覆出現的一些基因突變進行了揭示,而這些新發現的基因突變或可作為潛在生物標記在癌症的臨床診斷和靶向治療過程中發揮重要作用。
  • 癌細胞系百科全書資料庫新增定量蛋白質組學數據
    癌細胞系百科全書資料庫新增定量蛋白質組學數據 作者:小柯機器人 發布時間:2020/2/3 9:23:14 近日,美國哈佛醫學院Steven P. Gygi、David P.
  • Cell:人類結腸癌蛋白質基因組學分析揭示出新的治療策略
    2019年5月8日訊/生物谷BIOON/---在一項新的研究中,來自美國國家癌症研究所、貝勒醫學院、太平洋西北國家實驗室、華盛頓大學、範德堡大學和德克薩斯大學衛生科學中心等研究機構的研究人員通過對來自患者的結腸癌組織產生的全部基因和蛋白的分析,對這種腫瘤有了更全面的認識,並指出新的癌症生物學機制和可能的新治療策略。
  • 新研究為單細胞蛋白質組學定義載體蛋白質組限制
    新研究為單細胞蛋白質組學定義載體蛋白質組限制 作者:小柯機器人 發布時間:2020/12/9 13:30:20 美國南加州大學Christopher M.
  • 上海交大瑞金醫院揭示NKTCL的基因組和轉錄組學表徵
    上海交大瑞金醫院揭示NKTCL的基因組和轉錄組學表徵 作者:小柯機器人 發布時間:2020/3/18 20:57:43 上海交通大學瑞金醫院趙維蒞、陳賽娟以及黃金豔課題組合作取得一項新成果。
  • 觀點摘錄 | 新興技術論壇:雲時代的科學第四範式
    大數據時代下微生物與宿主相互作用的研究○ 1.如今數據的溝通和交流變得越來越重要,在生物學的傳染疾病研究過程中,微生物整個發展的相互介入包括整個遺傳學還有物理、化學包括基因組學各方面相互作用,所有的研究過程均會生成大量數據
  • ...我國科學家通過優化單細胞多組學測序技術分析結直腸癌異質性
    2018年12月3日/生物谷BIOON/---在一項新的研究中,來自中國北京大學第三醫院、北京未來基因診斷高精尖創新中心和北大-清華生命科學聯合中心和的研究人員發現利用優化的單細胞多組學測序能夠更好地揭示結直腸癌異質性。
  • 觀點摘錄 | 新興技術論壇:雲時代的科學第四範式
    -大數據時代生命科學範式變革○ 1.傳統的科學研究是問題導向的研究,而大數據時代的科學第四範式下的科學研究是產生問題首先要通過「測量」獲得大量數據,然後才能進行分析。生命科學已進入大數據時代,與大數據的概念相似,基因組學範式的第一步即是發現基因與表型的關聯。
  • 大數據時代的社會科學研究新範式
    隨著全球新一輪科技革命與產業變革的加速演進,數據來源、數據處理以及數據分析等數據相關技術發展迅速,特別是以統計學習、機器學習、深度學習乃至更為廣泛意義的人工智慧為代表的數據分析手段,正在帶來新的認知方式,為形成數據驅動的社會科學研究新範式提供有力支撐。
  • Nature Methods|新方法再次提高單細胞蛋白質組學質譜定量準確度
    —— 諾貝爾生理學或醫學獎獲得者Sydney Brenner單細胞蛋白質組學在蛋白豐度檢測、轉錄修飾和翻譯後修飾方面填補了單細胞轉錄組學的空白。單細胞蛋白質組學質譜(SCoPE-MS)是近年來興起的一種定量分析多功能單細胞蛋白質組的方法,這種方法採用同位素標記和載體蛋白質組學來分析單個細胞【1】。
  • 【智能製造】以三體智能解讀智能製造三個範式
    既然是以「三體智能模型」來解讀智能製造的三個範式,那麼筆者首先簡介《三體智能革命》的若干基本概念。   《三體智能革命》是第一本旨在反映智能科技革命成果、預測新工業革命趨勢、探討智能社會基本原理的未來學著作。
  • 「Cell子刊」湯富酬團隊利用單細胞多組學測序 證實結直腸癌基質細胞中普遍的基因組變異
    近日,北京大學的湯富酬等人利用單細胞多組學研究,發現在結直腸癌患者腫瘤微環境中發現的基質細胞具有普遍的基因組變異,其中一些變異可作為預後不良的標誌。腫瘤微環境中的細胞可能通過與癌細胞的相互作用而促進疾病的進展,但是對於這些非癌性細胞被癌細胞轉化的程度人們還知之甚少。