今天,一條重磅消息引爆科技圈。
昨晚國際蛋白質結構預測競賽CASP公布的數據顯示,谷歌旗下人工智慧技術公司DeepMind開發的深度學習算法AlphaFold的表現令人瞠目結舌。
Alphafold的表現超過了大約100個其他團隊,準確性達到了與實驗室方法不分伯仲的水平[1],一舉解決了困擾學界長達五十年之久的蛋白質摺疊問題。
「它將改變醫學。它將改變研究。它將改變生物工程。它將改變一切。」馬克斯-普朗克發育生物學研究所的進化生物學家Andrei Lupas說[2]。
「我之前認為這個問題在我有生之年不會得到解決。」歐洲分子生物學實驗室的結構生物學家Janet Thornton說[3]。
「它的發生比該領域的許多人預測的要早幾十年。」2009年諾貝爾化學獎得主、英國劍橋MRC分子生物學實驗室結構生物學家Venki Ramakrishnan說[4]。
這麼說吧:AlphaFold或許會像「天文望遠鏡」一樣幫助人類了解生命「宇宙」的未知領域。
我們都知道,蛋白質是生命的承載者,對生命至關重要,幾乎支撐著生命的所有功能,細胞內發生的大部分反應都依賴於蛋白質。
蛋白質的工作方式和功能取決於它獨特的三維結構,也就是我們常說的「結構即功能」。因此,了解蛋白質的三維結構,是理解生命與疾病的關鍵。可以毫不誇張地說,搞清楚了蛋白質的三維結構,就拿到了打開生命的鑰匙。
那蛋白質的三維結構是如何形成的呢?
目前學界一致認為,蛋白質的一級結構,即胺基酸的排列決定了蛋白質的三維結構。也就是說,蛋白質會根據胺基酸的排列信息,自動摺疊成正確的三維結構。這一過程只受物理定律的指導。
一直以來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。
在1950年代,利用X射線束照射結晶蛋白質,並將衍射光轉化為蛋白質原子坐標的技術,首次確定了蛋白質的完整結構。目前已知的絕大部分的蛋白質結構都是通過X射線確定的。在過去的十年裡,低溫電鏡逐漸成為許多結構生物學實驗室的首選工具。
不過,傳統的實驗室方法費時(數月到數年)、費力、燒錢,很多人在嘗試尋找新的方法預測蛋白質的三級結構。
複雜蛋白質的摺疊過程(圖源:deepmind.com)
實際上,咱們現在耳熟能詳的「一級結構決定三級結構」的假說,最早是Christian Anfinsen在1972年諾貝爾化學獎的獲獎感言中提出的,他認為:理論上,蛋白質的胺基酸序列應該完全決定其結構。
Christian Anfinsen的這一假設引發了長達50年的探索,很多研究人員希望能夠僅根據蛋白質的胺基酸序列來計算預測蛋白質的三維結構,作為那些昂貴且耗時的實驗方法的補充。
然而,這一設想面臨一個主要的挑戰:從理論上講,一條胺基酸鏈在形成最終的三維結構之前可能會有許多種摺疊方式。這裡說的「許多」可是一個天文數字。試想,給你一串珍珠項鍊,你是不是能摺疊出數不清的三維結構。
在1969年,Cyrus Levinthal就指出,通過蠻力計算來列舉一個典型蛋白質的所有可能構型所需要的時間比已知宇宙的年齡還要長。然而在自然界中,蛋白質會自發地摺疊,有的在幾毫秒內就摺疊完畢。這就是生命的奇妙之處。
到1994年,為了推動蛋白質結構預測技術的進展,John Moult教授和Krzysztof Fidelis教授創立了CASP。
CASP很有特色,它選擇那些最近才通過實驗確定的蛋白質結構(有些結構在評估時仍在等待確定)作為團隊測試其結構預測方法的對象。所有參賽者都是根據對一級結構的計算,預測蛋白質的結構,隨後將這些預測結構拿去與實驗室獲得的真實數據做比較。
正是基於這種盲測的方法,CASP才被譽為評估預測技術的金標準。
CASP用來衡量預測準確性的主要指標是GDT(Global Distance Test),其範圍為0-100。簡單來說,GDT可以大致認為是胺基酸殘基與正確位置閾值距離內的百分比。Moult教授表示,如果一個預測工具的GDT得分在90分左右,可以認為與通過實驗方法得到的結果不相上下。
據了解,即使是在1994年的時候,對於小型、簡單的蛋白質,算法預測的結構也能與實驗結果相匹配。但是對於較大的、具有挑戰性的蛋白質,預測工具的GDT分數約為20分。用Lupas的話說,在當時的條件下,預測複雜蛋白的結構簡直就是一場災難。
到2016年,對於最難的蛋白質,計算預測的GDT分數才達到40分左右。粗粗看來,22年的時間只提高了20分左右。
點擊播放 GIF 0.0M
圖源:deepmind.com
時隔兩年之後的2018年,DeepMind開發的AlphaFold首次參加比賽,表現亮眼,在每個結構上平均超出對手15%,在最難的蛋白結構上也贏得了高達60左右的GDT分數。AlphaFold的實力可見一斑。
但是,對於這個分數,AlphaFold開發負責人John Jumper顯然不滿意。因為這些預測仍然太粗糙,沒有用處,離真實的蛋白結構還差很遠。
為了提高預測的準確性,Jumper和他的同事將深度學習與「tension algorithm」結合起來,這種算法模仿了組裝拼圖的方式:首先將小塊的碎片連接起來,然後尋找將小塊連接成一個更大的整體的方法。隨後在由128個處理器組成的計算機網絡上,用17萬個已知的蛋白質結構訓練了該算法。
訓練的結果就是今年AlphaFold的亮眼表現。
在所有的目標蛋白中,AlphaFold取得了92.4分的GDT中值,而其他團隊開發的算法最好表現也就是得到75分左右。這意味著AlphaFold的預測平均誤差(RMSD)約為1.6埃,與一個原子的寬度(或0.1納米)相當。
AlphaFold取得的成就,足以與實驗室方法抗衡。
Moult甚至說,在某些情況下,他們並不清楚AlphaFold的預測結果和實驗結果之間的差異,究竟是預測錯誤,還是實驗過程中的人為因素。
這就很厲害了。
難怪《科學》雜誌毫不吝嗇地說[3],「人工智慧(AI)已經解決了生物學的宏大挑戰之一:預測蛋白質如何從一條線性胺基酸鏈捲曲成3D形狀,使它們能夠執行生命的任務。」
此外,對於最具挑戰性的蛋白質,AlphaFold的中位數GDT為87分,比排名第二的預測方法高出25分。
還有一點值得一提的是,AlphaFold甚至很擅長解決那些被夾在細胞膜中的蛋白質的結構,這些結構很難用X射線晶體學解決,然而這些蛋白質結構又是許多疾病的關鍵所在。
點擊播放 GIF 0.0M
AlphaFold預測結構與實驗結果的比較(圖源:deepmind.com)
在今年的CASP中,還有一個小插曲。
由於AlphaFold的表現過於優異,主辦方甚至擔心DeepMind可能以某種方式作弊。所以Lupas設置了一個特殊的挑戰:預測一種古菌的一個特殊膜蛋白結構。
Lupas和他的團隊與這個蛋白死磕了10年時間,雖然也得到了一些X射線數據,但是他們沒能理解這些數據,更沒有搞清楚這個蛋白的結構。
Lupas把這個難題甩給了AlphaFold。
沒想到這對於AlphaFold而言不是難題。AlphaFold提供的預測模型讓Lupas和他的同事理解了他們之前得到的X射線數據。隨後的分析結果證實,AlphaFold預測的結構與實驗室的數據相吻合。
「這幾乎是完美的,」Lupas說。「他們不可能在這方面作弊。我不知道他們是怎麼做到的。」
至於AlphaFold對真實世界的影響,那有可能是翻天覆地。
要知道,科學家在自然界中發現了1.8億個蛋白序列,而且這一數據目前還在快速增長。然而人類只搞清楚了其中17萬個蛋白的結構。在未知的蛋白中,究竟還隱藏這多少未知的秘密,想想就讓人興奮。
AlphaFold或許就像一個天文望遠鏡,幫助我們更深入地觀察生命宇宙中的未知。
基於AlphaFold,科學家或許能在更快的時間內闡明人類基因組中數千種未解決的蛋白質的功能,並理解人與人之間不同的致病基因變異,相關藥物的開發或許也會變得更快。
當然,AlphaFold的出現不可能完全取代實驗室方法,這兩種方法在未來可能趨向於取長補短,使新一代的分子生物學家有能力提出更高級的問題,更深入地理解生命和疾病。
此外,AlphaFold還有很多東西需要學習,包括多種蛋白質如何形成複合物,蛋白質如何與DNA、RNA或小分子相互作用,以及如何確定所有胺基酸側鏈的精確位置等等問題。