蕭簫 編輯整理量子位 報導 | 公眾號 QbitAI
AlphaFold2出世、強力抗生素Halicin的預測……
機器學習,已經在生物醫藥這一大領域貢獻了不少成果。
然而,這一領域,此前甚至還沒有大規模的機器學習數據集?
無論是查找、處理數據,還是驗證模型效果,之前的研究,都只能在幾個小型數據集、或是已經被反覆研究的幾個任務上進行。
這極大地降低了ML在生物醫藥領域的應用進展。
為此,一群來自哈佛、MIT、斯坦福等機構的研究人員,開發出了第一個ML領域的生物醫藥大型數據集TDC,還附帶最新的模型評估方法。
這是個什麼樣的數據集?
TDC(Therapeutics Data Commons)數據集有三大特點:開源、大型、3行代碼搞定。
這一開源數據集,包含20+有意義的任務,和70多個高質量數據集。
涉及的範圍也非常廣,包含生物醫藥的各種研究方向,如靶蛋白發現、藥物動力學、安全性和藥物生產等。研究目標也不局限於小分子,還包括抗體、疫苗、miRNA等。
使用起來也非常簡便,只需要3行代碼,就能獲得ML-ready數據、使用TDC裡面的各種功能。
TDC解決問題的3層架構
生物醫藥領域涵蓋各種任務,每個任務都需要不同的數據結構來進行處理。
為此,TDC提出了一個三層式階級架構Central Dogma(中心法則)。
第一層,模型要解決哪類問題?
單實例預測(Single-instance prediction): 預測單個實體(比如分子,蛋白)的某些性質。多實例預測(Multi-instance prediction): 預測多個實體之間的某些性質(比如反應類型)生成(Generation): 已知一系列的實體,生成新的擁有某些性質的實體(比如優化後的分子)第二層,模型要學習什麼樣的任務?從生物醫藥角度來定義,任務包括設計新的抗體、識別個性化的組合療法、改善疾病診斷、尋找治療新疾病的方法。第三層,模型用什麼數據集來訓練?根據任務類型,從TDC已有的數據集中挑選數據,用於訓練模型。根據這三層架構,就能非常輕鬆地找到需要用的數據集。例如,想要檢索Z類問題中的學習任務Y,Y中需要用到數據集X,只需要三行代碼就能找到需要的結果。
TDC的數據集長啥樣TDC所包含的數據集和任務,大多是沒有用機器學習進行過系統研究、但又極具潛力的應用方向。
例如,ADMET性質預測。其中,ADMET包含一系列藥物指標,用於評估某種藥物分子在口服後,能否安全有效地到達指定靶點。
此前,已有部分研究機構進行過ADMET預測,但都基於非公開數據。TDC從各種小資料庫、期刊等公開資料中,收集整理了20多個藥廠目前在用的重要指標,並將所有數據進行了開源。準確預測這些指標,可以幫助藥企節省大量資源。又例如,對藥物進行精準組合。同種藥物,在不同個體間會產生不同影響,尤其是腫瘤方向的藥物。如果用機器學習,就能預測藥物在各種基因表達下的效果,目前TDC也已經包含了這樣的數據集。
此外,多藥物分子組合,往往比單藥物分子效果更好(drug synergy),如果能預測出兩個藥物分子的組合效應,能節省大量新藥研發的時間,TDC也已經處理了這樣的數據集。還有生物藥(Biologics)方向的任務。近幾年來,機器學習在小分子上已有許多應用,但在大分子生物藥上的應用不多。TDC也包含了6個生物藥方面的任務,包括抗體和抗原的親和力預測、多肽和MHC的親和力預測、miRNA和靶點的反應預測等。TDC的數據處理函數除了核心數據集以外,TDC還能進行簡單的數據處理,主要包括以下四點:模型評估:TDC提供了一個評估函數。只需3行代碼,就能評估TDC中的任務。數據分割:TDC提供了一些訓練和測試集的分割方法,用於模擬實際生物醫藥場景,如scaffold split等。數據處理:TDC提供可視化、標籤轉化,二值化等工具。分子生成任務:目的是讓產生的新藥物分子具有更好的性質。TDC收集了20多個有意義的任務,同樣只需要3行代碼,就能運行。
還可以刷新榜單排名此外,TDC還提供各種類型的榜單(Leaderboard),給機器學習研究者對比模型預測的效果。
雖然TDC提供的每個數據集都能作為基準,但如果要真正評估一個機器學習模型,就要求其必須在一系列數據集和任務上達到更好的效果。因此,TDC圍繞各種有意義的生物醫療問題,合併了各種子基準、形成基準組合。所有的衡量標準和訓練、測試、分割的方式的設計目的,都是為了模擬實際生物醫藥的應用場景。團隊簡介TDC的開發和維護團隊,由多個高校和機構的研究人員共同組成。主要的5位開發者,分別是來自哈佛的黃柯鑫、喬治亞理工學院的符天凡、MIT的高文昊、CMU的趙越、斯坦福的Yusuf Roohani。此外,還有他們的5位導師,也在這次數據集開發中做出了不少貢獻。
目前,TDC數據集還在不斷地更新和完善中,作者黃柯鑫表示,還會不斷地更新如CRISPR、臨床試驗等方向的其他數據。