總部位於英國的AI公司DeepMind自開發出AlphaGo以後,已經成為了人工智慧領域裡的領航者。
然而,有不少人詬病其未能在更加具有應用性的問題裡有所突破。
在此背景下,DeepMind的研究人員正在努力讓AI解決更根本的重大科學難題。他們使用最新版本的AlphaFold AI引擎,似乎實現了一個雄心勃勃的目標。
大約50年以來,分子生物學家一直猜測,蛋白質分子長鏈在空間中的摺疊結構,是由鏈上的胺基酸種類和順序唯一決定的——由此我們就可以按部就班地拼接胺基酸來得到特定功能的酶,或者僅通過小分子的順序來預測蛋白質大分子的功能,而無需實驗——但這並不是一個容易解決的問題。
實際上,潛在結構的數目是如此之大,以至於研究人員推測,對所有可能的分子排列進行採樣所花費的時間將超過宇宙的壽命。
但是,如果我們能夠解決這個難題(即蛋白質摺疊問題),將極大地加快藥物開發和疾病建模的能力,並帶來遠遠超出當前想像的應用。
因此,儘管面臨挑戰,但數十年來,研究人員一直在努力尋找解決方案。
1990年代開始進行了名為CASP(蛋白質結構預測的關鍵評估)的嚴格實驗,用於檢驗科學家們設計出的能夠預測蛋白質摺疊的理論系統。
如今,在CASP的第三個十年中,似乎已經產生了最有希望的解決方案——DeepMind的AlphaFold提供了準確性前所未有的3D蛋白質結構預測模型。
在實驗中,DeepMind為AlphaFold使用了一種新的深度學習架構,該架構能夠理解和計算3D蛋白質的「空間圖」,從而預測支撐其摺疊結構的分子結構。
AI系統被餵了大約170000種蛋白質的結構數據,作為培訓,參與到今年的CASP挑戰中(CASP14),得分為92.4 GDT。
該數值高於通常的溼實驗方法得到的結果——90 GDT閾值,而DeepMind表示,其預測平均僅偏離約1.6埃(約一個原子的寬度)。
歐洲分子生物學實驗室的基因組學研究員Ewan Birney說:「當我看到這些結果時,我幾乎從椅子上摔了下來。我知道CASP多麼嚴格——它基本上確保了計算模型必須從頭開始蛋白質摺疊。令人沮喪的是,看到這些模型可以如此精確地做到這一點,而我們有很多方面需要理解,但這確實是科學的巨大進步。」
值得注意的是,該研究尚未經過同行評審,也未在科學雜誌上發表(儘管DeepMind的研究人員說快了)。
即使這樣,即使尚未看到完整的報告和詳細的結果,該領域的專家已經讚嘆不已。
皇家學會主席,結構生物學家Venki Ramakrishnan說:「這項計算代表了蛋白質摺疊問題的驚人進展,而那是生物學有50年歷史的重大問題。」
完整的論文尚未發布,但是您可以在此處查看摘要:https://predictioncenter.org/casp14/doc/CASP14_Abstracts.pdf。
*解釋一下大概就是說,蛋白質分子長鏈上的胺基酸與空間結構的關係,最理想的情況當然是把它轉化為物理-數學問題。從更基本的物理特性出發,轉為數學模型,然後直接證明,得到定律。如同萬有引力可以推導出天體的運行軌跡一樣。
但是那個目前做不到。所以只能寄希望於統計-數值模型。就是我們從大量數據裡發掘出一個規律性的東西,但是規律的本質我們還不清楚。
AlphaFold就是得到了當前最優的模型。它給出的預測結果,和直接實驗測量蛋白質一樣好。然後它的計算時間也足夠快。