智東西(公眾號:zhidxcom)
編譯 | 子佩
編輯 | Panken
智東西12月2日消息,Alphabet旗下公司DeepMind本周一在官網中宣布,已經開發出可以快速準確預測蛋白質結構的機器學習軟體AlphaFold,用於藥物開發。在兩年一次的蛋白質結構預測評估(Critical Assessment of protein Structure Prediction,下稱CASP)中,AlphaFold平均GDT得分達到92.4,與藥物實驗模擬結果相差無幾。
DeepMind在博客中寫道:AlphaFold解決了困擾生物界50年的問題——蛋白質是如何摺疊的,這是一個巨大的科技突破。
對於生命來說,蛋白質必不可少:它們運輸物質、作為酶進行化學反應,作為抗體抵禦病毒……所有這些功能都是通過結構決定的。如果我們想要設計出有特定功能的蛋白質,我們必須了解不同的結構都具備怎樣的功能。
一般來說,藥理學家會通過大量的觀察和統計,得到粗略的經驗:怎樣的蛋白質結構大致具備怎樣的功能,但由於蛋白質是納米量級上的3D結構,通過這樣不斷枚舉的「笨」辦法設計藥物是非常棘手的。
所以目前,很多公司和高校都在研究,如何通過電腦程式檢測組成蛋白質的各類胺基酸,再基於胺基酸反推蛋白質結構,DeepMind的AlphaFold就是其中之一,也是目前的第一。
創立於1994年的CASP,致力於促進蛋白質預測領域的研究,關注該領域的進展,以及建立最新的技術標準。
每兩年,CASP都會以實驗室最新研究出的蛋白質結構為目標,開展一次蛋白質結構預測比賽。各參賽團隊在不知道該目標蛋白質的情況下,以功能需求為導向,設計該蛋白質結構,CASP會將各團隊的預測結果與目標蛋白質的真實實驗數據相比對,進行評分。
GDT評分
在本周一,第14次的CASP評估中,AlphaFold在所有類別比賽上,GDT總體平均得分達到92.4,比藥物模擬實驗的得分(GDT90)還高,在最具挑戰性的自由建模類中,中位數得分也達到了87.0。
GDT是Global Diatance Test的簡稱,也就是全局距離測試,代表兩個蛋白質結構之間的相似度,分數從0到100,得分越高,預測模型與目標結構相似度越高。
左為藥物實驗室結果,右為AlphaFold結果
諾貝爾化學獎得主、英國結構生物學家Venki Ramakrishan說:「DeepMind的這項工作代表了蛋白質結構預測領域的驚人進展,這是一個生物學上的重大突破,將從根本上改變生物學研究方式。」
在2018年,初代AlphaFold就參與了CASP測試,儘管GDT得分不足60,但排名仍位居第一,在隨後的兩年內,AlphaFold團隊引入深度學習框架,基於初代模型不斷改進創新。
CASP歷年自由建模類別,最佳模型GDT得分
摺疊的蛋白質結構可以被簡單視為「空間圖」,已知的信息和結構是基點,所有的研究預測工作都是為了將這些基點連接起來,組成一張立體的空間圖。
AlphaFold神經網絡模型架構
如果想要實現上述這一過程,模型必須要「理解」圖中蛋白質內的相互作用和影響。
因此,AlphaFold研究團隊創建了一個基於注意力的神經網絡系統,通過端到端訓練解釋該圖結構,同時對所隱含的信息進行推理預測,此外,AlphaFold還使用相關的蛋白質進化序列、多序列比對(MSA)以及胺基酸殘基對表示法作為補充。
通過重複此過程,AlphaFold能夠在幾天內實現蛋白質高精度結構的預測,且基於內部置信度量度判斷每個預測是否可靠。
AlphaFold使用了公開數據集進行了模型訓練,包括來自蛋白質資料庫的約170000種蛋白質結構以及其他未知結構的蛋白質序列數據集。AlphaFold基於約16個TPUv3(相當於128個TPUv3內核或大約相當於100到200個GPU)訓練了幾周時間,相對於大多數最新機器學習模型,計算量並不大。
AlphaFold研究團隊表示正在準備相關論文,以將研究成果向同行分享。
在官網博客上,AlphaFold研究團隊表示,AlphaFold未來會在新冠肺炎危機中大有可為。
在今年早些時候,研究團隊通過AlphaFold預測了SARS-CoV-2病毒的幾種蛋白質結構,包括從前結構未知的ORF3a以及另一種冠狀病毒蛋白ORF8。
儘管這兩種蛋白質的相關研究較少,但通過與實驗室數據相比對,AlphaFold所預測的蛋白質結構準確性仍非常高。
除了加深對已知疾病的了解之外,AlphaFold團隊也希望拓展更廣闊的生物學領域,為有可能出現的疾病做好準備。
DNA指定了蛋白質的胺基酸序列,而根據基因組學,世界上應該存在1.8億個蛋白質序列,但受限於測序工作的龐大工作量或其他原因,目前蛋白質資料庫中只涵蓋約170000種蛋白質結構。
在這些還未被「開採」的蛋白質中,或許有一些具有意想不到的新奇效,AlphaFold就像哈勃望遠鏡探索宇宙一樣,幫助人類找到它們。
AlphaFold研究團隊表示:「現在,預測單一蛋白質結構已基本實現,預測蛋白質複合物結構將會是下一步。但在這個巨大工程中,AlphaFold不可能「單打獨鬥」。」
儘管AlphaFold預測的結果幾乎與傳統藥物研發效果相同,但它不會完全取代實驗室實驗,因為藥物開發依舊是個複雜的過程,目前AlphaFold並不能理解蛋白質分子之間或蛋白質分子與如DNA或RNA等其他分子的相互作用。
AlphaFold研究團隊在博客中寫道:「 AlphaFold是迄今為止我們最重要的成果之一,但是,與所有其他研究一樣,仍有許多問題急需解答。我們與其他團隊合作,學習如何在新藥開發中最好地利用這些工具。」
來源:DeepMind官網、The Register、ZDNet