撰文 | 伊凱
責編 | 兮
生物醫學傳統上是一個實驗科學,儘管它並不排斥理論研究和計算模擬,甚至往往受益於後者的貢獻:遠有半個世紀前木村資生(Motoo Kimura)等人建立的具有堅實數學基礎和完備理論框架的分子進化中性理論(neutral theory)【1】深刻地豐富和修正了自然選擇的內涵,近有上個世紀末Christopher Burge等人基於隱馬爾科夫模型開發的基因結構預測算法【2】顯著推進了人們對基因功能表現形式的認知;但直到進入新世紀之後,尤其是以人類基因組的發布為裡程碑,生物醫學領域內積累的數據的尺度和豐富性、及相適應的計算方法的多樣性和延展性才真正迎來革命性的加速變化。這一發生在生物醫學領域內的整體研究範式的演變如此激進和深刻,以至於研究者們特意給這個時代賦予了一個名號——組學時代(omics era)。
所謂組學,即是對具有內在統一屬性的生物學各層級研究對象的系統性歸納。隨著研究界對生命密碼的解析逐漸深入和先進實驗及計算方法的不斷更迭,組學研究從最初以基因組為核心發展出包含轉錄組、蛋白質組、代謝物組、表觀遺傳組、蛋白互作組等多模態相輔相成的豐富內涵。相應地,在科研實踐中,以產出大規模組學資源為目的的大型聯合體項目層出不窮,其貢獻的數據深度與廣度往往是前所未有的。在此僅舉幾例:
在數據爆炸式增長的趨勢之下,伴隨而來的是數據科學和統計學方法在生命科學研究中的廣泛應用:從基於C語言、perl、Python、R等所編寫的「單打獨鬥」的實驗室自製數據處理腳本(script),到依賴「群體智慧」合眾開發的一系列集成化、規範化的生物醫學數據專用計算擴展項目(如Biopython和Bioconductor等),再到由政府部門資助的超大型數據儲存、交流和分析平臺(如NCBI GEO、EMBL The Expression Atlas和GDC TCGA portal等),見證了生物信息學(bioinformatics)、生物統計學(biostatistics)和計算生物學(computational biology)等新興學科的全面成熟。與此同時,對數據的公開透明、易獲得、可重複等特質的追求作為促進領域整體發展的必要條件而成為了生物醫學研究倫理的應有之義。儘管在這種變革之中仍舊發生過以新英格蘭醫學雜誌主編將部分生信工作者斥為「數據寄生蟲」(data parasites)【7】為代表的新舊思維的對抗,但這些一廂情願、缺乏建設性的論調終究抵擋不了生物醫學數據化和計算化的大潮【8】。
然而,作為促使當今生物醫學研究發生整體前進的核心動力之一,生物醫學大數據從來未曾真正地公平、普遍、甚至有效地惠及大部分的生物醫學工作者。儘管不排除造成這種局面的原因可能是部分研究者由於個人偏好、實驗環境等因素形成的對大數據本身及其所支持的研究範式的排斥;但絕大多數時候,數據和方法的不可接近性作為一種領域內的整體性困境,都是由基於資源和知識限制所形成的各種各樣具象或抽象的壁壘所導致的。
為了回應這一挑戰,生物信息科學家們在簡化生物醫學數據分析流程上付出了諸多努力,開發出了各類適應於本地運行的高度封裝化的端對端的生物醫學數據分析工具和基於網頁操作的數據可視化及分析平臺。在這方面,獲得2020年班傑明·富蘭克林生命科學開放獲取大獎(The Benjamin Franklin Award for Open Access in the Life Sciences)的哈佛大學華人科學家劉小樂(Xiaole Shirley Liu)教授的課題組是一個典範,其十多年來開發的被應用於轉錄調控、腫瘤免疫、高通量基因篩選等多個領域的原始碼公開的生物信息學方法(如MACS、MAGeCK)和便捷式網頁資料庫及分析平臺(如TIDE、TISCH)為推動生物信息學普及化做出了重要貢獻。
在可預見的未來,伴隨著單細胞測序技術、大規模並行篩選技術和空間轉錄組測序技術等高通量多模態實驗技術的方興未艾,生物醫學領域的數據規模將繼續呈現指數級增長模式。對於缺乏數據科學專業訓練的以實驗技術為主導的研究者個人或課題組來說,如何更便捷、更高效地通過對現有大規模數據進行挖掘和分析來設計課題、產生假說、驗證結論,是一個關係到科研生產力整體發展的重要話題。前述提到的普及化分析工具和平臺往往在分析模態的多樣性和靈活性上有諸多限制,並且對實驗生物學研究者仍然提出了掌握各類常規操作模塊或分析界面的技術性要求。另外,儘管與專職生物信息學研究者進行合作在當下的生物醫學研究界已經成為一項常規操作,但合作雙方在課題思路上的交流屏障、在數據分析方向上的分歧、甚至是在作者署名中的爭議等問題仍舊在很多時候阻礙著這種工作模式的進展。
2020年9月24日,美國MD安德森癌症研究中心梁晗課題組在Cancer Cell上發表了題為Next-generation Analytics for Omics Data的評論文章,詳細闡述了組學時代生物醫學研究者在數據分析方面面臨的挑戰和可行的解決方案,並介紹了基於自然語言和人工智慧邏輯開發的下一代組學數據分析平臺——DrBioRight。這項工作由課題組成員李軍、陳虎、王雨濛和陳玫如等共同完成。
在該研究中,作者創新性地提出以自然語言交流作為生物學數據分析的基本邏輯框架,從而將分析平臺的角色從被動式的、充滿局限的「冰冷機器」轉換至主動式的、可充分延展的「科研伴侶」。作者總結了下一代組學分析範式應該具有的五大特徵——自然語言理解、人工智慧、透明度、移動端及社交媒體友好和眾包(crowdsourcing)。具體而言,一個智能化的分析平臺要能夠實現1)準確識別不具有專門技術性知識的用戶所提出的分析請求所對應的標準化分析流程;2)幫助用戶探索和理解與任務相關的組學數據和分析結果;3)通過穩定用戶群的貢獻保持對組學數據和分析方法的及時更新;4)經由用戶對分析質量的反饋不斷修正和更新平臺性能;5)與智能移動平臺和社交媒體實現良好匹配,從而為分析流程增加更多的靈活性。
基於上述對生物醫學數據智能分析平臺的性能期待,作者開發了一個以自然語言理解和人工智慧交互為核心的下一代組學分析工具——DrBioRight。作者們為DrBioRight設計了一個極為簡潔的交互界面,其僅僅由一個輸入框和一個輸出框構成。對於用戶以自然語言形式輸入的分析請求,DrBioRight將基於其自然語言處理模塊來標記其中的語義實體,預測出與之匹配度最高的分析任務。然後,DrBioRight將調用特定的分析模塊,識別相關的數據集,並檢查是否填寫了所有必需的參數。計算任務在得到用戶確認後會被提交至雲計算節點進行處理。任務完成後, DrBioRight將調用適當的可視化模塊,以通常為交互式表格或繪圖的形式將結果返回至用戶。與此同時,DrBioRight將要求用戶為每個成功執行的作業評分,並利用收集到的用戶反饋進一步改善自身的NLP和AI模塊的性能。
DrBioRight代表了以自然語言和人工智慧交互為核心的下一代組學數據分析範式的首個嘗試,其背後蘊含的是對組學數據分析流程去中心化、去黑箱化的研究倫理價值的追求,和對生物醫學研究領域與大數據時代發生深度融合從而惠及每一個普通研究者和更為廣泛的大眾的展望。
原文連結:
https://doi.org/10.1016/j.ccell.2020.09.002
製版人:SY
參考文獻
1. Kimura, M. Evolutionary rate at the molecular level. Nature 217, 624–626 (1968).
2. Burge, C. & Karlin, S. Prediction of complete gene structures in human genomic DNA. J. Mol. Biol.268, 78–94 (1997).
3. Hutter, C. & Zenklusen, J. C. The Cancer Genome Atlas: Creating Lasting Value beyond Its Data. Cell(2018) doi:10.1016/j.cell.2018.03.042 .
4. Barretina, J. et al. The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity.Nature 483, 603–607 (2012).
5. Ghandi, M. et al. Next-generation characterization of the Cancer Cell Line Encyclopedia.Nature 569, 503–508 (2019).
6. Consortium, T. Gte. The GTEx Consortium atlas of genetic regulatory effects across human tissues The GTEx Consortium. Science(80-. ). 369, 1318–1330 (2020).
7. Longo, D. L. & Drazen, J. M. Data Sharing.The New England journal of medicine vol. 374 276–277 (2016).
8. Greene, C. S., Garmire, L. X., Gilbert, J. A., Ritchie, M. D. & Hunter, L. E. Celebrating parasites. Nature Genetics vol. 49 483–484 (2017).