CASP14: DeepMind的AlphaFold 2到底取得了什麼成就? 它對蛋白質摺疊, 生物學和生物信息學意味著什麼?

2021-03-06 分子模擬之道

■2020-12-15 10:40:23

按: 本文主要彙編自網上的兩篇文章:

■王浩博: AlphaFold2[1]■Carlos Outeiral Rubiera: CASP14: what Google DeepMind's AlphaFold 2 really achieved, and what it means for protein folding, biology and bioinformatics[2] ; 翻譯: DeepL; 校對: 郝寅靜, 惠成功; 統稿: 李繼存

前言

1969年Cyrus Levinthal(塞萊斯·力文所)寫到, 對一個蛋白質來說, 其構象空間可以高達10300, 然而自然界中的蛋白質可以在微秒級別摺疊, 這是一個悖論.

蛋白質結構預測是結構生物學一個裡程碑式的問題, 每兩年, 人類會組織一場蛋白質結構預測大賽, 即結構預測關鍵評估競賽(CASP), 它堪稱該領域的奧林匹克賽. CASP14的會議安排在2020年12月1號美東時間10點, 也就是北京時間, 周二的晚上11點, 世界上成績最好的三支隊伍將要給我們講解他們今年在CASP14上創造了什麼樣的成績?!

如果說兩年前AlphaFold還是以A7D出道, 傳統的課題組沒有對他進行一點防備, 那麼今年就完全不同了, 比賽前大家似乎卯足了勁, 工業界的隊伍也多了不少, 從 CASP14摘要[3] 上來看, 目前的工業界隊伍(搜索.com粗略估計), 除了DeepMind的AlphaFold 2, 還有一些工業巨頭, 比如微軟的BrainFold, 微軟亞洲研究院的兩款算法, TOWER and FoldX 和 NOVA, 騰訊的數款算法tFold.

不過最值得一提的是一名上屆程序未寫完, 利用業餘時間在Rust上實現PBuild算法的日本小哥, T. Oda. 遺憾的是這名小哥在摘要中提到了結構好像沒有摺疊出有意義的. 不過這種自由探索的精神可嘉, 這是真心愛科學, 希望他在未來繼續努力!

(題外話, 他還讓我想到了默默無聞在一家小公司開發質譜, 最後得了諾貝爾獎的田中耕一. 這些人的出現就是科研的土壤培養出來的. 如果我們各種普通人都有極大興趣能夠參與科學, 說明我們的土壤也肥沃起來了.)

讓我們先來回顧一下, 之前的CASP都發生了什麼?

這幾十年科學家們一直在緩慢而且努力的前進著. CASP11中協同進化方法開始嶄露頭角, 有了一個小的跳躍, 然後CASP12大家就齊頭趕上了. 到CASP13的時候, AlphaFold 來了, 利用深度學習結合協同進化的算法, 力壓群雄, 碾壓各種人類傳統模型, 把第一名和第二名的差距直接拉大了!

我們來看一下今年CASP14的結果! Alphafold 2直接到了血虐其他算法的地步. 其實學術界的BAKER今年的進步也非常明顯, 只不過在AlphaFold面前不值得一提了.

CASP用來衡量預測準確性的主要指標是GDT, 範圍為0-100. 簡單來說, GDT可以近似地認為是和實驗結構相比, 成功預測在正確位置上的比例. 70分就是達到了同源建模的精度, 根據Moult教授的說法, 非正式地說, 大約90 分可以和實驗結果相競爭!

這次DeepMind直接把總分幹到了92.4, 和實驗的誤差在1.6埃, 即使是在最難的沒有同源模板的蛋白質上面, 這個分數也達到了了恐怖的87.0.

來自牛津蛋白質信息學小組的報告

免責聲明: 這篇博客是作者作為一名研究蛋白質建模的博士生基於參加CASP14會議過程傳遞的經歷和觀點. 提供的引用內容是從我的會議筆記中摘錄的, 儘管我希望儘可能準確地記錄這些內容, 仍無法保證它們是與會者所述的逐字轉錄. 牛津蛋白質信息學小組和我都不對這篇文章的內容承擔任何責任.

你可能從 科學[4] 或 常規媒體[5] , 甚至可能是 DeepMind自己的博客[6] 上聽到過, 谷歌的AlphaFold 2無可爭議地在 第14屆結構預測關鍵評估競賽CASP14[7] 奪冠——該競賽是為計算生物學家預測幾種蛋白質結構的兩年一次的盲測; 這些蛋白質的結構已經通過實驗確定——但尚未公開發布. AlphaFold 2的預測結果準確得令人難以置信, 以至於很多人已經歡呼這個代碼就是長期存在的蛋白質結構預測問題的解決辦法.

蛋白質結構是生物化學的核心, 對醫學和技術有重大影響. 建立蛋白質結構是 基於結構的藥物設計[8] 的瓶頸, 準確的結構預測有望提高藥物研究流程的生產力(儘管這只是一個因素, 在真正的革命性變化發生之前, 我們還需要把其他事情做好——請在 這裡[9] 和 這裡[10] 查看Derek Lowe的文章). 蛋白質的結構信息在生物學中也是至關重要的, 它有助於闡明功能——生物化學中的許多關鍵論文都從結構測定的實驗進展中獲得洞見.

鑑於這個問題是如此地重要, 以及幾十年來網絡資源的緩慢發展, 我想沒有人想到解決方案會很快出現. 我自己也決定將博士研究的重點放在結構預測領域, 我和很多人一樣認為, 在我們能夠取得接近解決方案的成果之前, 需要進行幾年工作, 跨越很多研究線. 現在我可能需要換個課題了.

新聞稿中有多少是真實的, 實際發生了什麼, 有多大意義? 關於這個話題, 在多個論壇上已經出現了無盡的討論. 坦率地說, 在過去的72小時裡, 我一直無法思考其他事情. 為了理清自己的思路, 我決定寫下這篇博文, 詳細介紹自格林尼治標準時間周一下午3點左右我的科學世界被顛覆後所了解到的一切. 我希望這對那些不能參加CASP14的蛋白質生物信息學家朋友們有用, 同時也對任何想多聽一點這個話題的人有用.

請記住, 我對CASP14評估和會議的報告必然會夾雜著猜測. AlphaFold 2[11] 的工作細節仍然未知, 在他們的論文通過同行評審之前(根據他們的CASP13論文, 這可能需要一年以上的時間), 我們可能無法完整了解這些細節. 突破程度是不可否認的——但我們需要更多的細節來衡量其潛在的影響.

這將是一篇很長的文章. 不要說我沒有警告過你.

AlphaFold 2到底有多好?

驚人得好.

CASP14組織者, John Moult , 一位近70歲, 倫敦口音的老紳士在這屆會議上娓娓道來, I wasn't sure that I would live long enough to see this.

結構生物學家Osnat Herzberg: 預測的結果好像和我做的結構不大一樣, 咦?我怎麼解錯了.

結構生物學家Petr Leiman: 我用著價值一千萬美元的電鏡, 還這麼努力的解了好幾年, 這就一下就給我算出來了??

讓我來告訴你發生在上周一的事. 在CASP14會議開始前的幾個小時——格林尼治標準時間中午左右——主辦方公布了評估結果. 馬上, 評論開始在Twitter上流傳. 這是大家都在分享的圖片:

綜合成績

最難的free modelling部分

根據預測的Z-score總和(如果大於零), 對CASP14參與者進行排名. 第一名AlphaFold 2(427組)相對於第二名BAKER(473組)表現出了驚人的提高. 此圖來自2020年12月1日(星期二)CASP14官方網頁.

這個柱狀圖給出了不同組的預測 Z-score[12] 之和. 請記住, Z-score只是樣本值相對於群體平均值的差, 然後除以標準差所得的值; 數值越高, 代表與平均值的偏差越大, 這是一種常用的離群值檢測方式. 換句話說, 明顯優於平均水平的組, 其Z-score會更大. 在這張圖中, 我們看到有一個組的表現遠遠好於其他組. 當考慮所有目標時, 427組的平均Z-score大約2.5, 而在最困難目標中, 其Z-score上升到3.8. 如果這是一個智力測試, AlphaFold 2的 智商(IQ)[13] 會超過160分.

如果說相對比較令人震驚, 那麼實際表現也同樣令人印象深刻. 我將考慮結構生物學中的一個典型指標, 原子位置的均方根偏差(RMSD)[14] . 如果你不是很了解蛋白質摺疊, 這些數字對你來說可能沒太多意義. 別擔心——在下一節中, 我將展示一些圖形化的例子. 只要記住: (1) 較低的RMSD代表著更好的預測結構; (2) 大多數實驗結構的解析度在2.5 Å左右(12月8日更新: 儘管, 正如許多人在Twitter上指出的那樣, 這種比較並不恰當). 考慮到這一點, 427組提交的目標中, 約有三分之一(36%)的預測均方根偏差(RMSD)低於2 Å, 86%低於5 Å, 總平均值為3.8 Å.

AlphaFold 2提交的排名最高的模型的RMSD分布. 數據來自2020年12月1日(星期二)CASP14官方網頁.

當會議開始時, 我們仍然在消化這些信息, 哦, 天哪, 前半小時對我們簡直是折磨. 先是聲稱今年的比賽"有點不尋常", 隨後提到一個特定的小組已經得到了令人印象深刻的結果. 最後, 自1994年以來一直擔任每屆CASP主席的John Moult, 熟練地對比賽的歷史作了一番扣人心弦的闡述, 慢慢地給我們提供信息, 直到他最終展示了我們都期待的圖表, 也就是下圖:

歷屆CASP競賽的綜合結果. 深橙色的線(CASP14_serv)對應的是全自動伺服器給出的預測, 橄欖綠色的線(CASP14_w/o427)包括除表現最好的小組之外, 所有由人工輔助的預測, 黑色的線(CASP14)代表表現最好的小組, 427組, 即AlphaFold 2的預測. 該圖使用GDT_TS評分, 其中100代表完美結果, 0表示無意義的預測.

根據經驗判斷, GDT_TS在60%左右代表"正確摺疊", 意味著我們對蛋白質如何整體摺疊有點概念; 而超過80%則表示側鏈與模型非常接近. 正如你所看到的, 除了一小部分任務外, AlphaFold 2在其他任務中都達到了這個目標.

然後, 經過三十年的競爭, 評估人員宣布AlphaFold 2成功地解決了一個公開了50年的挑戰: 開發一種方法, 能夠準確地, 普遍地, 有競爭力地從蛋白質序列(或者, 好吧, 我們將在後面看到是多序列比對)預測蛋白質結構. 同其它任何應用一樣, 現在還存在著一些注意事項和邊緣情況——但這一突破的規模及其潛在影響不可否認.

故事並沒有到此結束. AlphaFold 2產生的模型非常好, 以致於在某些情況下與實驗結果相悖. 我將根據會議中提到的例子舉兩個簡單的例子. 第一個例子來自 Osnat Herzberg組[15] , 他們正在研究一種噬菌體尾絲蛋白. 在看到DeepMind預測的模型與他們的結構有很好的一致性後, 他們注意到他們對順式脯氨酸有不同的指定. 在重新回顧了分析之後, 他們意識到自己在解讀結構時犯了一個錯誤, 並進行了糾正.

第二個例子來自 Henning Tidow組[16] , 他正在研究一種整合膜蛋白——還原酶FoxB(看起來與革蘭氏陰性菌的鐵吸收有關). Tidow組對這個模型進行了大約兩年的研究, 嘗試了不同的方法來獲得晶體結構, 包括 實驗性的相位方法[17] . 當他們得到DeepMind預測的模型後, 他們在幾個小時內就成功地通過 分子替換[18] 解決了問題.

最後還有一點需要說明. 有人曾懷疑, 谷歌不可思議的成功是否與今年的這組目標蛋白更容易沒有關係. 這個說法本身就很難成立(畢竟其他經驗更豐富的小組不也會因此受益嗎?), 但為了反駁這一點, 評估人員根據現有蛋白結構與目標的相似性, 得出了CASP14的任務目標是歷屆最難的:

根據現有模板的覆蓋範圍和序列一致性對最後四屆CASP目標的比較. 在這兩方面, CASP14包括了迄今為止提供過的最難的自由建模(FM)目標. TBM代表基於模板的模型.

還有有許多有趣的討論點. 許多人會認為, CASP14研究目標的集合併不能代表 所有 有趣的結構預測問題. 他們會是對的. 是的, 當然有一些問題, AlphaFold 2的表現並沒有那麼好. 在這篇博文快結束的時候, 我會講講自己對一些注意事項的看法. 但是, 現在我們要明確一點: AlphaFold 2是一個可以解決 相當多目標蛋白質 結構預測的工具.

與其他方法相比如何?

我可能已經說服了你, AlphaFold 2是一個巨大的突破. 現在是時候從評估者發現了什麼這一堅實基礎, 沿著越來越多的猜測向下探討其他小組是如何做的, 做了什麼, 然後是AlphaFold 2的方法, 然後去預測這對生物學, 特別是生物信息學可能意味著什麼.

我將對競賽中的兩個目標進行仔細的, 儘管是簡短的考察, 將AlphaFold 2與兩個排名最好的小組, David Baker組[19] 和 Yang Zhang組[20] 進行比較. 他們 (1) 在過去的CASP比賽中一直表現非常好, (2) 在本周二發表了精彩的演講, 所以我對預測背後的情況有不錯的了解.

我準備考察的第一個目標是ORF8蛋白, 這是一種參與SARS-CoV-2和免疫反應之間相互作用的病毒蛋白( PDB: 7JTL[21] , bioRxiv上有 預印本[22] ). 在CASP14中, 它被標記為T1064. 讓我們來看看AlphaFold 2預測的結構(紅色)與晶體結構(藍色)的比較:

427組給出的T1064目標蛋白的最佳模型(紅色), 疊加到7JTL_A結構上(藍色). DeepMind的結構來自2020年12月1日(星期二)CASP14官方網頁.

蛋白質核心的預測與實驗非常一致, 完整再現了反平行β片層的結構, 更令人印象深刻的是連接它們的環形結構. 請記住, 環區的特點是缺乏二級結構, 意味著不像α-螺旋和β-片層那樣, 有一個氫鍵的骨架將結構維持在一起. 由於這個原因, 一般認為環區很難預測, 與通常的方法相比, AlphaFold 2的表現相當驚人.

然而, 請注意, 在圖像的左下角, 有一個大的環形區域, 與晶體結構有顯著區別. 除了環形結構的整體形狀, 氫鍵模式也明顯錯誤, PyMOL將其中相當一部分識別為β片層. 雖然這個含30個殘基的環狀區域位置錯誤, 但模型確實與環形區域有一定的相似性, 其表現仍優於大多數常用方法. 更重要的是, 由於環狀區域通常柔性很大, 程序的失敗可能只是指出這個區域是非固定的(在 距離預測模型[23] 中有時會發生). 此外, 即使結構出錯的百分比有兩位數, 整體RMSD也只超過1 Å一點點.

12月10日更新: 來自Institut de Biologie et Chimie des Protéines的Juliette Martin向我指出SARS-CoV2 ORF8蛋白的一個新結構, 其中被AlphaFold 2預測錯誤的環形結構實際上與預測結構非常相似! 即使我們認為它失敗了, 它居然也能做對.

其他小組的表現如何? Baker組和Zhang組都使用了類似的流程, 其中融合了 CASP13 AlphaFold[24] 的許多想法: 建立一個多序列比對, 可能會考慮宏基因組學序列; 使用深度學習預測一個潛在的結構, 並使用他們實驗室的特有方法找到一個最佳結構(Baker組使用ROSETTA, Zhang組使用I-TASSER), 並進行一些精修, 可能也是使用深度學習. 我不會深入討論細節——請在CASP14的特刊中尋找他們的論文——相反, 讓我們看看他們的表現(綠色為Baker組, 黑色為Zhang組).

頂部: Zhang(黑色)和Baker(綠色)人工組提交的T1064目標蛋白的最高得分模型. 底部: 與晶體結構對齊後的模型. 右圖: 所有三個模型(Zhang, Baker和AlphaFold 2)與晶體結構對齊. 圖來自2020年12月1日(星期二)CASP14官方網頁.

我們可以看到模型和晶體結構之間的明顯差異. 兩種模型都把核心的拓撲結構弄錯了: Baker組的β片層比晶體結構多, 拓撲結構也是錯誤的, 把平行片層和反平行片層結合在一起了; Zhang組勉強抓住了核心的結構. 在這兩種情況下, 連接β片層的環形區域到處都是, 對於AlphaFold 2沒有正確建模的含30個殘基的環形區域, 這兩個組得到的結果更糟糕.

不要誤會我的意思——這是一個困難的目標, Baker和Zhang的工作已經非常出色, 他們的預測在其他任何CASP中都會是最先進的. 這個目標的次佳的模型, 來自清華的 Xianming Pan[25] , 只是稍微好一點. 但有一點很清楚: 當與蛋白質結構預測界表現最好的小組進行比較時, AlphaFold 2的準確率簡直是在一個完全不同的水平上.

雖然ORF8蛋白肯定不是他們模型中最差的, 但在DeepMind的演講中, ORF8蛋白被強調為"他們做得不是那麼好"的目標之一. 好吧, 讓我們來看看他們實際上做得非常好的一些模型. 我們現在要看的是目標T1046s1(PDB: 6x6o[26] , 鏈A).

427組T1046s1目標蛋白的最佳模型(紅色), 疊加在6X6O_A結構上(藍色). DeepMind的結構來自2020年12月1日(星期二)CASP14官方網頁.

在這裡, AlphaFold模型與晶體結構幾乎沒有區別, 總的RMSD為0.48 Å. α-螺旋的精度簡直完美, 特別是第一個α-螺旋(3D圖像上最接近觀察者的那個)的扭結以出色的精度再現. 與之前的目標一樣, 連接主要二級結構部分的無規區域與晶體結構幾乎無法區分. 唯一顯示出明顯差異的區域是N-和C-末端, 而且這些區域確實非常小.

由於這是一種相對簡單的蛋白質(一種小型的全α螺旋蛋白), 所以並不奇怪, Baker和Zhang組建立的模型都能準確地重現摺疊:

上圖: Zhang(黑色)和Baker(綠色)人工組提交的T1046s1目標蛋白的最高得分模型. 底部: 與晶體結構對齊後的模型(藍色). 右: 所有三個模型(Zhang, Baker和AlphaFold 2, 紅色)與晶體結構(藍色)的對齊. 參賽作品來自2020年12月1日(星期二)CASP14官方網頁.

這些都是非常好的模型, 尤其是對連接α-螺旋的環形結構表現非常出色. 然而, 仔細檢查後發現了一些差異. 第一個α螺旋的扭結沒有準確地再現: Zhang組將其建模為基本上直的螺旋, 而Baker組則顯示出較小的扭結; 相比之下, AlphaFold 2的扭結得非常準確. 而且, 這兩個組模型偏差的幅度要比AlphaFold 2模型中大很多.

評測人員之一的 Nick Grishin[27] 用一句話總結了這種不可思議的表現, 這句話大致是這樣的: "AlphaFold 2做對了而其他模型沒有做對的, 是什麼? 細節". 事實上, 模型符合得非常好, 甚至對側鏈也是這樣:

AlphaFold 2不僅能高度準確地預測蛋白質的全局結構, 還能對側鏈結構做出令人難以置信的準確預測. 圖片取自CASP14的幻燈片.

他們是怎麼做到的? 第一部分: 技術細節

這將是一個困難的問題. DeepMind在 CASP14摘要集[28] 中對他們所用流程的描述沒有提供太多細節, 儘管他們的演講確實提供了一些有趣的信息, 但很多東西還是未知的. 在他們發布相應的論文之前, 我們不會知道他們到底做了什麼, 論文發表需要幾個月甚至一年以上的時間. 不過, 我可以告訴你目前他們說了些什麼, 我們可以試著猜測一下他們的底細.

首先看看 DeepMind官網的說明[29] :

A folded protein can be thought of as a "spatial graph", where residues are the nodes and edges connect the residues in close proximity. This graph is important for understanding the physical interactions within proteins, as well as their evolutionary history. For the latest version of AlphaFold, used at CASP14, we created an attention-based neural network system, trained end-to-end, that attempts to interpret the structure of this graph, while reasoning over the implicit graph that it's building. It uses evolutionarily related sequences, multiple sequence alignment (MSA), and a representation of amino acid residue pairs to refine this graph.

大致是說, 摺疊的蛋白質可以視為"空間圖", 其中殘基為結點, 邊將殘基緊密相連. 該圖對於理解蛋白質內的物理相互作用及其進化歷史非常重要. 對於在CASP14上使用的最新版本的AlphaFold, 我們創建了一個基於注意力的神經網絡系統, 該系統經過端到端訓練, 試圖解釋該圖的結構, 同時對所構建的隱式圖進行推理. 它使用進化相關序列, 多序列比對(MSA)和胺基酸殘基對表示來完善此圖.

此外, 裡面沒有提到深度增強學習, 倒是講了目前學術界和工業界都非常關注的注意力模型. 同時, 用了128 TPUv3[30] 核心和幾周的時間, 訓練了PDB庫中的約17萬個蛋白. 這套模型需要幾天的時間來預測一個高精度的蛋白質結構.

代表DeepMind參加會議的John Jumper報告時開篇講了一下核心觀點, 物理直覺融入到了網絡結構中, 端對端直接生成結構取代了殘基的距離矩陣, 從圖的角度出發直接反映蛋白質的物理結構和幾何.

John提到了資料庫, 說是標準的資料庫, 如序列庫UniRef90, BFD, MGnigy Clusters, 結構庫PDB, PDB70.

訓練流程基本上和官網的圖一致, 從序列出發得到MSA和template, 然後給了一個雙線的transformer(似乎是在序列維度上和殘基維度上分別做了softmax), 然後兩者怎麼交互的信息沒怎麼看明白, 不過看迭代邊和序列的方式, 應該就是經典的GNN, 參考 Deepmind的GNN[31] , Transformer教程[32] ).

然後結合3D-equivariant transformer做端對端的訓練, 訓練完之後用amber優化一下. 參考 Max Welling的3D Roto-Translation Equivariant transformer[33] , 聽說他們知道AlphaFold用了這個還挺吃驚. 聽說這裡有一個可微分的問題, 且需要neighborhood來幫助解決旋轉平移不變性特別吃內存, 具體還不是很清楚.

這裡沒有預訓練模型, 沒有深度增強學習, 輸入是MSA, 沒有MRF/協同進化/precision matrix作為feature, 沒有distance matrix作為最終的輸出, 直接輸出PDB, 整個框架都變了!

整個報告信息量不足, 這裡給出的都是碎片化的相關信息. 至於AlphaFold的核心武器在哪裡, 討論下來, 大家把更多的目光放在了後面的實現端對端的3D-equivariant transformer上. 猜測端對端減少了embed協同進化信號帶來的噪音, distance matrix只有主鏈信息, PDB結構可以提供額外的約束信息, 可以直接把模型質量反饋給前端的transformer.

這樣看來, AlphaFold 2和大多數現代預測算法一樣, 依賴 多序列比對(MSA)[34] . 我們打算預測其結構的蛋白質的序列會在一個大型資料庫中進行比對(通常是類似 UniRef[35] 的資料庫, 儘管在後來的幾年裡, 用源於 宏基因組學[36] 的序列來豐富這些比對變得很常見). 其基本思想是, 如果兩個胺基酸緊密接觸, 其中一個胺基酸的突變將導致另一個胺基酸的突變, 這樣才能保持結構.

協同進化方法如何從多序列比對(MSA)中提取蛋白質結構信息的示意圖. 圖片修改自doi: 10.5281/zenodo.1405369[37] .

考慮下面的例子. 假設我們有一個蛋白質, 其中一個帶負電荷的胺基酸(如穀氨酸)靠近一個帶正電荷的胺基酸(如賴氨酸), 儘管它們在胺基酸序列中都相距甚遠. 這種庫侖相互作用穩定了蛋白質的結構. 現在想像一下, 第一個胺基酸突變成一個帶正電荷的胺基酸——為了保持這種接觸, 第二個胺基酸將在進化壓力下突變成一個帶負電荷的胺基酸, 否則產生的蛋白質可能無法摺疊. 當然, 真實的情況很少像這個例子一樣清晰, 但你明白我的意思.

這個原理啟發了非常多的算法來預測蛋白質的結構特性, 從接觸到二級結構. AlphaFold自己在CASP13中的成功[38] 確實根據MSA(以及很多其他特徵, 包括一些協同進化軟體的輸出)利用了深度學習來預測殘基間距離. 然後, 這些預測將被轉化為一個潛在的結構, 並進行能量最小化(使用一個簡單的梯度下降算法, 如 L-BFGS[39] )以找到一個好的結構. 在CASP14中很多研究小組採用了這個想法, 包括非常優秀的一些研究小組.

但這次, DeepMind決定開發一個端到端的模型. 他們沒有使用MSA來預測約束, 而是設計了一個深度學習架構, 將MSA作為輸入(加上一些模板信息, 但這是另一個故事), 並在最後輸出一個完整的結構. 他們的動機很簡單. 鑑於PDB中可用的約17萬個結構構成了一個小的數據集, 他們希望充分利用 歸納偏向[40] ——在模型架構中引入約束, 確保信息被快速高效地同化.

為了理解DeepMind團隊的目的, 讓我們先考慮一下 卷積神經網絡[41] 的案例, 它是計算機視覺領域許多成功案例背後的深度學習架構. 許多人認為 CNN的成功是由於它們限制信息流動的方式[42] : 由於它們的設計, 一個像素所對應的信息與其鄰居混合在一起, 這種局部性在各層中流動, 以分層的方式從不同區域提取信息 . 網絡不需要使用大量的數據或訓練時間來學習局部信息是重要的——相反, 由於架構所施加的約束, 這些信息會自然學習到.

他們尚不清楚他們如何使用歸納偏向. 我們知道, 輸入信息被嵌入到一個嵌入空間中, 對於這個空間, 我們並沒有太多的信息. 代表DeepMind參加會議的John Jumper解釋說, 它"學習序列-殘基邊和殘基-殘基邊", 並提到該模型"採用了一個基於注意力的網絡來識別哪些邊是重要的"(相比之下, 原來的AlphaFold對所有距離的權重相等). 雖然我們對實際架構的信息不多, 但我們知道, 一個重要的部分是3D等價 轉變器[43] (3D equivariant transformer)——這是一種新型的深度學習架構, 因其在 GPT-3[44] 和 BERT[45] 等著名模型中的作用而廣為人知——它負責更新蛋白質骨架和構建側鏈.

DeepMind的圖(摘自他們的博客)提供了AlphaFold 2的架構概述, 但缺乏重現它所需的細節.

預測過程以迭代的方式進行, "在MSA和蛋白質的內部表示之間來回傳遞信息". 我猜測這意味著從網絡的正向傳遞中獲得的信息會以某種方式反饋到輸入特徵中, 然後重新運行, 直到收斂——但這當然是一種猜測. 從大會上展示的圖來看, 第一次的預測結果往往非常好(大約70-80 GDT_TS), 經過幾次迭代之後, 就會收斂到我們在CASP14中看到的令人印象深刻的90+ GDT_TS的預測結果. 最終的結果並不能保證符合所有的立體化學約束, 所以使用Amber ff99SB力場和OpenMM通過坐標限制梯度下降來弛豫最終的結構.

當然, 沒有足夠的信息來嘗試創建一個類似的模型. 我懷疑蛋白質信息學界的其他成員正在經歷一場科學的懸念, 以比《賽博朋克2077》更高的熱情等待DeepMind的論文. 同時, 我們也不清楚要朝哪個方向努力.

他們是怎麼做到的? 第二部分: 不那麼技術性的細節

當然, DeepMind團隊的成功不僅與深度學習有關. 還有更多, 很多.

很多因素讓人想起 Mohammed AlQuraishi在上屆CASP後的那個著名說辭[46] ——DeepMind組織了一個靈活的, 資金充裕的小組, 可以快速嘗試很多想法, 交流信息的速度也比學術小組快得多, 他們每兩年才交流一次. 我不想討論這個問題, 因為我期待AlQuraishi在這次CASP之後會寫一篇類似的文章(12月8日更新: Mo的文章[47] ). 相反, 我想討論兩個問題, 我認為這兩個問題不僅對理解他們的成功很重要, 而且對考慮這種成功將如何影響學術計算研究也很重要: (1) DeepMind幾乎無限的算力的影響; (2) 學術研究團體所產生和發表的大量結構和方法數據的影響.

我們先來談談計算資源. 當 John Moult[48] 在介紹AlphaFold 2令人印象深刻的性能時, 第一批新聞稿也開始出現了, 有一個話題似乎佔據了CASP14 Discord頻道的主導地位: 有多少資源用於訓練這個模型. DeepMind的博客文章[49] 指出, 他們的模型

使用了大約128個TPUv3核心(大致相當於約100-200個GPU), 運行了幾周, 在當今機器學習中使用的大多數大型最先進模型的背景下, 這是一個相對適中的計算量.

AlphaFold: 解決生物學領域50年來的大挑戰, 見 DeepMind的博客[50] .

張量處理單元(TPU)[51] 是谷歌開發的一種專有的專用集成電路(ASIC), 用於加速神經網絡的訓練. 與最初被設想為處理圖形之後被轉換用途的GPU不同, TPU從一開始就是為深度學習而設計的, 在DeepMind最近的大部分成功案例中都有它們的身影.

TPU和GPU之間並不存在明確的等價關係(就像GPU和CPU之間不存在一樣), 因為 性能取決於問題[52] , 但正確使用時, 它們可以提供相當大的速度提升. 也許更重要的是, 一個8核TPU v3晶片擁有128GB的vRAM, 這對於一些內存成本較高的架構——比如注意力模型——是必要的. 僅供參考, 我所知道的具有最大內存的GPU是NVIDIA A100, 有40GB(雖然最近公布了這款GPU的 80GB版本[53] ). 這是相當大的差距.

如果你覺得GPU很貴, 可以考慮一下, 按照 谷歌雲的定價頁面[54] , 租用128個TPUv2核心的年成本是50萬美元. 使用雲服務複製DeepMind的實驗副本, 根據條件不同, 需要2.5萬美元到20萬美元不等——當然, 這還沒有算上探索架構, 調試, 優化超參數或運行多個副本的計算工作量. 總的計算成本可能在幾百萬美元左右.

這一切都很好, 但是, 與其他參與者相比如何呢? 在一次問答中, Baker和Zhang小組表示, 他們大致用了4個GPU來訓練自己的模型, 花了幾個星期. 這意味著DeepMind團隊的計算資源大概多了兩個數量級. 當然, 像我們在前一段中估計的數字, 即使是資助最雄厚的計算研究小組也無法做到.

這種龐大的計算能力是DeepMind成功背後的唯一因素嗎? 我不這麼認為. 這個天才團隊的工作展示了新穎的想法和創造性的問題解決方式, 而這些差異不能僅僅歸因於處理器的強悍. 當然, 也不能忽視. 龐大的計算能力不僅意味著他們可以處理更大的模型——他們還可以實現比任何學術小組更高的吞吐量. Baker小組需要一個月的時間在他們的4個Titan GPU中測試的東西, 對於DeepMind來說可能只需要幾個小時, 這使得快速原型設計和測試想法成為可能. 當然, 像最終形成AlphaFold 2的架構這樣的想法, 在沒有合適的硬體的情況下根本不會考慮.

展望未來, 人們不禁要問, 這種資源的不平衡將如何影響學術計算研究. 模型變得更大, 更複雜是一個明顯的趨勢, 而這一趨勢的發生速度遠遠超過了硬體價格的下降速度. 除非我們能想出一種方法來改善對快速增加的計算資源的需求, 而價格又能承受, 否則我們可能最終會陷入這樣一種無謂的境地: 學術研究無法追求他們本應歡愉的大膽的, 異想天開的想法——僅僅因為他們受限於運行高度簡化的模型.

當然, 我們可能會學習一些策略來減少有限資源的影響. 例如, 梯度檢查點[55] 等技巧可能有助於減少內存佔用. 另外, 局限性的存在很可能會促使我們創造性地設計其他模型, 能夠以更低成本來實現類似或更好的性能——就像Baker小組對 trRosetta[56] 所做的那樣, 它以更小的架構超越了CASP13的AlphaFold. 然而, 很明顯, 那些擁有更多計算能力的公司將始終佔據上風.

這可能會導致未來計算研究小組需要在基礎設施上進行大量投資才能生存——就像我們在實驗生物科學領域的同事一樣, 儘管設備的淘汰速度要快得多. AlphaFold的成功可能會讓資助機構相信, 只要有足夠的資源, 計算研究就能做大事, 並使之成為可能. 或者, 我們可能都得把資源集中起來, 組成一個大規模的國際財團, 大規模地購買硬體——就像高能物理學家們不得不聯合起來建設歐洲核子研究中心這樣的大型項目一樣.

話題開始變得有點黯淡, 所以我打算以我們現在正在討論研究經費為藉口, 停止不經意的抱怨, 討論另一個話題. 那就是幾十年來, 主要由學術研究團體收集的大量蛋白質結構數據和信息所發揮的作用.

DeepMind成功的一個重要因素是技術的可用性, 尤其是結構生物學小組幾十年來苦心收集的數據. 他們用於訓練的 蛋白質資料庫(Protein Data Bank)[57] 收集了約17萬個結構, 其中大部分是由學術團體制提供的, UniRef[58] 蛋白質資料庫, 或宏基因組學序列的 BFD[59] 和 MGnify[60] 也是一樣. 採用的軟體工具, 如 HHblits[61] , JackHMMER[62] 和 OpenMM[63] 也是由政府資助的學術計劃開發的. 同樣重要的是——這些計劃中的大部分都是由公共資金資助的. 儘管DeepMind的戰利品可能很大, 但納稅人大幾個數量級的投資才使他們的成就得以實現.

這一點對由專業學者主導, 撰寫和評審, 由同行評議的文章中關於蛋白質結構預測的大量研究同樣成立 .這包括AlphaFold整合的許多想法, 從利用多序列比對來預測蛋白質結構, 到將模板納入建模.這絕不是要貶低DeepMind的工作. 他們已經開發出了一種新穎的解決蛋白質結構預測的方法, 將許多創造性的想法與精湛的工程相結合. 但是, 如果說他們能看得更遠, 那是因為他們站在巨人的肩膀上.

這就提出了許多關於研究倫理以及人工智慧的有趣問題. 例如, 考慮一下Alphabet決定對AlphaFold進行商業開發的可能性——他們從這樣一大批幾乎完全由納稅人支付的研究中獲利是否合理? 由可公開獲得的研究創造的信息在多大程度上屬於公眾——請注意, 公開是為了刺激進一步的公共研究——以及在什麼條件下它可以用於營利性的活動? 如果我們想讓科學保持其應有的開放性和協作性, 就需要提出許多問題.

AlphaFold為什麼強?AlphaFold團隊成員

雖然摘要中沒有講AlphaFold 2的具體細節, 先讓我們來看看那19位共同一作都是做什麼的吧!

第一位John Jumper是這屆AlphaFold的領袖, 我記得上一屆是Andrew Senior(此人CS背景). 這屆明顯換人了, 而且這位之前的研究經歷是匹配這個問題的, 可以說是domain knowledge豐富. 他的linkedin公開簡歷如下

這位年輕帥氣的大哥, 08-11年在世界上"最豪華"的分子動力學研究所, 也就是傳奇的對衝基金大佬D.E. Shaw帶領下的D.E. Shaw Research研究所的地方研究分子動力學模擬. 這人練級過程中有分子動力學和商業驅動科研的經歷. 在芝加哥大學研究機器學習和粗粒化蛋白質摺疊的方法. 最後進入了世界上又是"最豪華"的商業公司, 一個曾經把柯潔下棋下到流淚的公司, DeepMind, 開啟了AlphaFold2的研究之路. 這人的履歷就是為蛋白質摺疊這個問題而生的!

關於此人的更多信息, 可以閱讀其實驗室同組人員王宗安的介紹 AlphaFold 2領隊Jumper奇人 - 我們需要什麼樣的複合型人材?[64] .

第二位作者是Richard Evans, DeepMind有兩個richard, 一開始把我搞蒙了, 找到一個AI方向, 具體細分是做範疇邏輯?(Cathoristic Logic)的, 原來的應用是, 個人行為和社會行為(Social Practices and Individual Personalities)?據我腦子中的淺薄的知識, 目前所有學術界在做蛋白質結構預測方向好像都沒有用上這個. 以為DeepMind在這裡用了什麼黑科技. 然後經提醒發現是這個Richard Evans, 主攻Deep reinforcement learning的, 且參加過初代AlphaFold的開發, 瞬間合理了!

第三位Alexander Pritzel, 理論高能物理背景, 最高引文章是還是deep reinforcement learning, 有理由相信AlphaFold在這個策略上進行了嘗試.

第四位 Tim Green[65] , 量子化學, 凝聚態物理轉移, 博士工作是利用密度泛函理論來預測NMR的耦合參數.

第五位Michael Figurnov, 相關工作有residual network, 這個在AlphaFold中已經部署.

第六位牛津大學博士Kathryn Tunyasuvunakool, 博士時候這位姐姐的主要工作在自述中應該是生物數據的處理, 她在博士期間還寫過生物數據可視化的代碼.

第七位Olaf Ronneberger, U-net的作者, 單篇被引用次數超過20000, U-net是用於生物醫學圖像分割的卷積網絡.

第八位牛津大學博士Russ Bates, 醫學圖像處理.

第九位劍橋大學MEng, Augustin Žídek, 深度增強學習相關.

第十位Alex Bridgland, 牛津大學計算機博士, 資料不詳, AlphaFold一代作者之一.

第十一位Clemens Meyer, 世界頂尖商學院巴黎高商畢業, 且有了十年以上管理經驗的資深產品經理. 這個是我沒有想到的. . .

第十二位Simon Kohl, KIT畢業物理碩士, CS博士, AlphaFold一代作者.

第十三位Anna Potapenko, 俄羅斯國立高等經濟大學CS博士, 自然語言處理相關,

這篇文章在我能夠理解的範圍內, 瞎猜一個, transformer?long-range sequence?部署了transformer在提取序列attention當做input?(賽前猜的, 猜對了一半, 用了transformer直接end2end了)

第十四位Andrew Ballard, 計算物理學家, 2015年加入DeepMind, 用過副本交換, 研究過非平衡態系統, 可能可以用來解決後面蛋白質結構refinement的問題?

第十五位Angew Cowie, 參與開發了Acme!DRL!

第十六位Bernardino Romera Paredes UCL CS master.

第十七位Stanislav Nikolov, MIT MEng master.

第十八位, Rishub Jain, CMU CS master.

第十九位, Demis Hassabis 大boss.

這麼多看下來, 這19位真是兵強馬壯, John Jumper又是為這個方法而生的, 同時還引入了一個產品經理來維護整個團隊, 這些都是學術界不大可能擁有的東西. 18年的AlphaFold我們還可以argue, 其實他是集學術界大成者, 整體創新性並沒有那麼強, 起碼大家都很容易follow, 這次的AlphaFold 2我要下個暴論, 是真正意義上的應用了AI來解決蛋白質摺疊問題!

計算資源

我之前對計算資源有點不屑一顧, 不就是128個TPU麼, 幾百萬就搞定了, 能拿的出這錢的單位多了. 但是我現在想通一個問題, 就是算法的迭代. 研究人員在研究的時候要有無數次的嘗試, 如果訓練模型不能快速的給出反饋的話, 科研的進度就會被大大拖累. 有大量的計算資源, 不僅僅是提高了模型的複雜度而已, 而是提高了研發人員的速度. 就好比以前我們做gremlin開發的時候, 部署在matlab框架下要一天時間, 重新部署在tensorflow下幾秒鐘就夠了, 於是我就可以嘗試各種奇怪的idea了. 速度同樣可以帶來大量的創新.

所以我相信, 128個TPU只是最終模型訓練的結果, 在研發過程中, 肯定調用了更多的你難以想像的計算資源!但是這也沒有完, Baker團隊的trrosetta用非常輕量的模型就超過了18年的AlphaFold, 所以在未來的幾年, 對問題理解的更好, 學術界的平民版AlphaFold我相信也很快會出來的.

這對生物學意味著什麼?

現在有兩個重要的問題在大多數蛋白質生物信息學家中流傳. 第一個問題是: 他們[DeepMind]會不會公開他們的代碼, 如果會, 如何公開? 而第二個問題, 只是稍微不那麼重要, 那就是: 運行它需要什麼?

第一個問題是最重要的. 當被問及代碼可用性的問題時(剛好超過虛擬[CASP14]問答聊天框中三分之一的問題), John Jumper聲稱他們正在DeepMind進行"內部討論", 關於"將他們的工作提供給社區", 他們希望在1月初宣布.

可能出現多種情況. 從根本上講Alphabet是一家私人的營利性公司, 所以他們可能會決定對AlphaFold 2進行商業化利用——就像 OpenAI決定對GPT-3[66] (今年早些時候推出的著名語言模型)所做的那樣. 這也很可能意味著代碼將保持私有性, 坦率地說, 這將至少在一段時間內阻礙蛋白質信息學的進展. 還有一種可能是, 他們決定將代碼開源——可能是對商業用戶的某種授權——這也是大家希望他們在論文通過同行評審後所做的事情, 這樣社區就可以在這個令人難以置信的成功基礎上再接再厲.

提供他們的代碼並不意味著任何人都可以運行它. 當他們的 Nature論文[67] 在去年1月發表時, 還缺少一個關鍵的部分: 構建神經網絡的輸入特徵的代碼. 雖然他們確實提供了這些特徵的描述, 但我和一些OPIGlets儘管在這個方向上做了大量的努力, 卻一直無法得到有意義的結果——從CASP14 Discord頻道的討論來看, 似乎許多其他科學家也做了類似的嘗試, 結果同樣令人失望. 然而, 有了這個架構, 應該可以完全重新訓練這個模型, 或許可以通過匯集幾個來源的資源, 部署一個雖然比AlphaFold 2稍差的系統, 但對於實際應用還是有用的.

這就引出了一個相關的問題. 我們知道DeepMind採用了大量的計算能力來製作AlphaFold 2, 但它實際運行的時間有多長? 當被問及訓練和運行他們的模型需要多長時間時, John Jumper重複了DeepMind的博文信息, 即製作最終模型所使用的資源——但避而不談運行代碼需要多長時間, 以及在什麼條件下運行. 新聞稿中提到的"幾天", 在128個TPU-v3核心中, 很可能意味著以一般計算組的資源計算幾個月.

12月4日更新: Demis Hassabis(DeepMind的CEO)證實, 根據蛋白質的不同, 該模型需要在5-40個GPU上運行"幾小時到幾天". 這不是很有參考價值, 因為DeepMind已經研究了相當廣泛的長度和序列比對深度, 而且我們不知道他們使用的是哪種類型的GPU——例如, 如果是40個Titan GPU, 將是10萬英鎊以上的基礎設施投資. 然而, 即使這個價格也比實驗方法至少低一個數量級, 而且速度快很多. 事情看起來很有希望.

如果代碼運行速度快, 那麼它可以被加載到API中, 並被任何連接網際網路的人使用, 就像GPT-3一樣. 如果它需要特殊的硬體, 那麼它可能會被限制在有能力維護一個高性能計算集群的計算小組中. 我個人的直覺是後者的可能性更大, 因為最初的AlphaFold在通用GPU上運行需要幾天時間.而AlphaFold 2似乎比它的前輩大得多. 無論成本如何, 它很可能比實驗性的蛋白質結構測定要快得多, 也便宜得多, 而後者往往需要數年和數百萬美元.

藥物發現的一個經典障礙——假設我們知道一個可靠的疾病靶點, 這是一個完全不同的故事——是缺乏可靠的晶體結構. 如果一個靶點的結構是已知的, 那麼就有可能設計出一種能與活性位點最佳結合的化合物——這個過程被稱為基於結構的藥物設計——以及對所述分子進行工程設計, 使其具有溶解性和低毒性的特性, 從而使其成為有用的藥物. 不幸的是, 有整個靶點家族——想想 G蛋白偶聯受體[68] (GPCRs), 其成員是FDA批准的三分之一藥物的靶點——其結構無法準確了解. 快速, 準確的蛋白質結構預測有望極大地提高藥物研發的效率.

精確結構預測的另一個有趣的應用將是精確的蛋白質設計和工程. 有幾個小組, 特別是David Baker的小組, 已經用類似的想法工作了一段時間. 然而, 這將取決於一些技術細節, 例如AlphaFold從淺層多序列比對中提取信息的能力, 我們將在下一節簡單討論.

總的來說, 廉價而準確的結構預測將是生物學的一個勝利. 蛋白質的功能依賴於結構——按需生成結構的能力有望讓我們進一步了解生命.

這對結構生物信息學意味著什麼?

這意味著我們可以專注於結構預測之外的其他問題.

因為這正是AlphaFold 2所解決的問題, 而不是像很多新聞稿所說的那樣, 解決蛋白質摺疊問題. DeepMind的代碼不會提供一個多肽或多條鏈如何在幾秒鐘內組裝成發揮作用所需的複雜結構的信息. 它只能提供晶體結構的準確估計, 這只是蛋白質構象的快照. 但蛋白質遠不止如此——晶體結構並不一定能告訴我們全部的故事(看這篇 論文[69] 的例子).

更重要的是, 雖然AlphaFold 2為蛋白質結構預測提供了一個 一般 的解決方案, 但這並不意味著它是 通用 的. CASP14的幾個目標沒有被成功預測, 說明有一些蛋白質家族需要進一步的工作. 當然, 這些目標並不能完全代表一個蛋白質組. 該模型是在蛋白質資料庫上進行訓練的, 眾所周知, 蛋白質資料庫偏向於容易結晶的蛋白質. 此外, 由於AlphaFold採用多序列比對作為輸入, 它是否能處理淺層次或信息量不大的問題還有待觀察, 例如在蛋白質設計這個非常重要的問題上, 在突變序列或有時在抗體序列中發生的例子.

摺疊本身就是一個引人入勝的問題, 不僅對基礎生物學有意義, 而且對生物醫學也有意義, 因為它可以讓我們更好地理解許多疾病, 蛋白質錯誤摺疊或者作為病因, 或者引發可怕的後果[70] . AlphaFold 2的成功可能會給我們提供一些啟示, 如果我們能夠分析神經網絡是如何推斷摺疊結構的——但它也可能提供很少的知識, 因為解釋的困難, 或者只是因為網絡的推斷不能很好地代表動態摺疊過程.

蛋白質運動, 包括柔性和變構效應, 是蛋白質信息學的另一個明顯的發展方向. 這些機制是蛋白質功能和傳遞信號的基本方式, 但可用來模擬這些現象的計算技術仍然非常有限. Dominik Schwarz, 我們的OPIGlets之一, 最近表明, 通過深度學習的距離預測編碼了一些 關於蛋白域柔性的信息[71] . AlphaFold 2可能也能提供類似的見解.

另一個我非常感興趣的領域, 是研究蛋白質與蛋白質之間的相互作用. 以抗體為例, 想一想: 在旁位(界面的抗體部分)和表位(抗原部分)之間有一組相互作用, 這是維持結合的基礎. 儘管做了大量的工作, 蛋白質-蛋白質對接在很大範圍內仍然不成功, 並且存在類似CASP的常規評估, CAPRI[72] . 從AlphaFold 2中吸取的經驗可能會刺激這個領域, 儘管我們從CASP14中知道, 它經常無法預測晶格接觸.

最後, 蛋白質結構的可用性增加只會提高人們對蛋白質-配體對接的興趣, 即預測配體將如何與蛋白質相互作用——以及作用有多麼強烈. 儘管仍然普遍缺乏能夠在這一領域取得重大進展的好的注釋數據, 這一領域也已經取得了顯著的進展, 特別是在新型深度學習方法相對成功的情況下.

學術問題

蛋白質摺疊問題解決了沒有?結構基因組學時代來臨了沒有?在這個技術下面, 哪些目前的技術會被替代?結構生物學的空間在哪裡?哪些有瓶頸的技術會得到突破, 比如和蛋白質組學聯合解釋數據?

基本解決了, 從結構生物學的角度講, 基因平等, 然而人類總是挑一些可能比較有意思的蛋白去解析結構, AlphaFold 2預測的精度足夠高, 一些犄角旮旯的蛋白結構可以得到大量的補充. 而且在序列數據爆炸的情況下, 可以得到大量可靠的預測模型是非常有意義的. 按Nature的一篇評論, 人們可以花更多的時間思考, 花更少的時間拿移液槍了.

但是AlphaFold也提了, 胺基酸側鏈的精確位置仍然是一個挑戰, 還有一些比如PPI, DNA, RNA, 小分子配體的結合還沒有解決. 製藥行業對側鏈的精確度是非常之高的.

機制問題

學術界幹了幾十年沒解決的蛋白質摺疊問題, DeepMind為什麼做的這麼好, 僅僅是因為資源豐富嗎?

除了算法強之外, AlphaFold還匯集了幾個領域的大佬, 甚至請了一個專業的產品經理, 學術界的合作是否能如此的緊密?目前的學術運營框架下合作難度多大?

學術界是不是在搞跳高運動, 每年創新1cm?

社會問題

對學術界有什麼影響?

I think it's fair to say this will be very disruptive to the protein-structure-prediction field. I suspect many will leave the field as the core problem has arguably been solved," he says. "It's a breakthrough of the first order, certainly one of the most significant scientific results of my lifetime."

Mohammed AlQuraishi

網紅科學家穆罕穆德, 這對這個領域是破壞性的, 這個領域的核心問題已經被解決了, 我想很多人都會離開這個領域了吧.

結論

如果不是從認識論的角度, 而是從影響的角度來看的話, 谷歌剛剛取得的成就很可能是本世紀最重要的科學成就之一. 長期吃香的從蛋白質的序列預測蛋白質結構的能力(以及類似的突變序列的可得性)將開啟從基礎生物學到醫藥應用等整個生命和醫學科學的應用. 前景確實令人震驚.

話雖如此, 但這句話還是要慎重對待. 雖然我們已經有了解決蛋白質結構預測問題的 一般 方案, 但還沒有一個 通用 的方案. CASP中的一些結構即使AlphaFold 2預測的準確性也很低, 這表明對特定的目標家族可能需要做進一步的工作. 眾所周知, 用於訓練的蛋白質資料庫偏向於易結晶蛋白質, 目前還不清楚這將如何影響其對 暗蛋白質組[73] 的作用. 此外, 由於預測依賴於多序列比對, 當比對中的序列很少或沒有序列時, 如設計蛋白, 或者當它的信息不充分時, 如抗體, 這種方法是否有效還有待觀察.

DeepMind的成功也提出了一些科學界需要相當認真考慮的問題. 雖然他們比大多數個人研究小組更靈活, 資金也更充足, 但這一成就卻引出了一些深層次的問題, 那就是我們進行研究和交流的方式, 以及我們這個擁有更多資源和積累知識的群體是否真的有效利用了它們的潛力. 我們還需要反思我們作為科學家的責任, 確保科學保持開放, 確保在公眾支持下進行的研究對公眾仍然有用.

拋開這些顧慮不談, 結構預測問題的解決將最終刺激新的研究路徑. 長期以來, 我們一直專注於再現通過X射線晶體學捕捉到的蛋白質結構的靜態圖景. 現在我們可以把更多的精力投入到其他同樣有趣的問題上: 蛋白質是如何摺疊成這些奇異複雜的構象的? 它們是如何運動的, 這種運動又是如何調節的? 它們如何與其他蛋白質以及配體相互作用? 這只是蛋白質信息學一個非常令人興奮的時代的開始.

我要感謝Mark Chonofsky, Fergus Imrie, Constantin Schneider, Javier Pardo Díaz, Matthew Raybould和Garrett M. Morris, 他們辛勤地審閱, 識別這篇文章的錯別字, 並為這篇文章的第一稿和第二稿提供了寶貴的反饋意見.

更多討論

■ 如何看待 AlphaFold 在蛋白質結構預測領域的成功?[74]■ 專訪 | AlphaFold2是一艘曲率飛船[75]■ AlphaFold2 解決了蛋白質結構問題嗎?DeepMind 解決這項生物學五十年難題有何重大意義?[76]

外部連結

[1] AlphaFold2: https://zhuanlan.zhihu.com/p/315497173
[2] CASP14: what Google DeepMind's AlphaFold 2 really achieved, and what it means for protein folding, biology and bioinformatics: https://www.blopig.com/blog/2020/12/casp14-what-google-deepminds-alphafold-2-really-achieved-and-what-it-means-for-protein-folding-biology-and-bioinformatics/
[3] CASP14摘要: https://link.zhihu.com/?target=https%3A//predictioncenter.org/casp14/doc/CASP14_Abstracts.pdf
[4] 科學: https://www.nature.com/articles/d41586-020-03348-4
[5] 常規媒體: https://www.nytimes.com/2020/11/30/technology/deepmind-ai-protein-folding.html
[6] DeepMind自己的博客: https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
[7] 第14屆結構預測關鍵評估競賽CASP14: https://predictioncenter.org/casp14/index.cgi
[8] 基於結構的藥物設計: https://en.wikipedia.org/wiki/Drug_design#Structure-based
[9] 這裡: https://blogs.sciencemag.org/pipeline/archives/2019/09/25/whats-crucial-and-what-isnt
[10] 這裡: https://blogs.sciencemag.org/pipeline/archives/2020/12/01/the-big-problems
[11] AlphaFold 2: https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
[12] Z-score: https://en.wikipedia.org/wiki/Standard_score
[13] 智商(IQ): https://en.wikipedia.org/wiki/Intelligence_quotient
[14] 原子位置的均方根偏差(RMSD): https://en.wikipedia.org/wiki/Root-mean-square_deviation_of_atomic_positions
[15] Osnat Herzberg組: http://www.chem.umd.edu/faculty-staff-directory/facultydirectory/osnat-herzberg
[16] Henning Tidow組: https://www.chemie.uni-hamburg.de/en/institute/bc/arbeitsgruppen/tidow/personen/tidow-henning.html
[17] 實驗性的相位方法: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5947774/
[18] 分子替換: https://en.wikipedia.org/wiki/Molecular_replacement
[19] David Baker組: https://www.bakerlab.org/
[20] Yang Zhang組: https://zhanglab.ccmb.med.umich.edu/
[21] PDB: 7JTL: https://www.rcsb.org/structure/7jtl
[22] 預印本: https://www.biorxiv.org/content/10.1101/2020.08.27.270637v1
[23] 距離預測模型: https://www.biorxiv.org/content/10.1101/2020.10.15.340752v1
[24] CASP13 AlphaFold: https://www.nature.com/articles/s41586-019-1923-7
[25] Xianming Pan: http://life.tsinghua.edu.cn/lifeen/info/1077/1238.htm
[26] 6x6o: https://www.rcsb.org/structure/6x6o
[27] Nick Grishin: http://prodata.swmed.edu/Lab/HomeLAB.htm
[28] CASP14摘要集: https://predictioncenter.org/casp14/doc/CASP14_Abstracts.pdf
[29] DeepMind官網的說明: https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
[30] TPUv3: https://cloud.google.com/tpu/docs/types-zones
[31] Deepmind的GNN: https://arxiv.org/pdf/1806.01261.pdf
[32] Transformer教程: http://jalammar.github.io/illustrated-transformer/
[33] Max Welling的3D Roto-Translation Equivariant transformer: https://arxiv.org/pdf/2006.10503.pdf
[34] 多序列比對(MSA): https://en.wikipedia.org/wiki/Multiple_sequence_alignment
[35] UniRef: https://www.uniprot.org/help/uniref
[36] 宏基因組學: https://en.wikipedia.org/wiki/Metagenomics
[37] 10.5281/zenodo.1405369: https://doi.org/10.5281/zenodo.1405369
[38] AlphaFold自己在CASP13中的成功: https://www.nature.com/articles/s41586-019-1923-7
[39] L-BFGS: https://en.wikipedia.org/wiki/Limited-memory_BFGS
[40] 歸納偏向: https://en.wikipedia.org/wiki/Inductive_bias
[41] 卷積神經網絡: https://en.wikipedia.org/wiki/Convolutional_neural_network
[42] CNN的成功是由於它們限制信息流動的方式: https://poloclub.github.io/cnn-explainer/
[43] 轉變器: https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)
[44] GPT-3: https://arxiv.org/abs/2005.14165
[45] BERT: https://arxiv.org/abs/1810.04805
[46] Mohammed AlQuraishi在上屆CASP後的那個著名說辭: https://moalquraishi.wordpress.com/2018/12/09/alphafold-casp13-what-just-happened/#s2.2
[47] Mo的文章: https://moalquraishi.wordpress.com/2020/12/08/alphafold2-casp14-it-feels-like-ones-child-has-left-home/
[48] John Moult: http://moult.ibbr.umd.edu/
[49] DeepMind的博客文章: https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
[50] DeepMind的博客: https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
[51] 張量處理單元(TPU): https://en.wikipedia.org/wiki/Tensor_Processing_Unit
[52] 性能取決於問題: https://arxiv.org/pdf/1907.10701.pdf
[53] 80GB版本: https://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing
[54] 谷歌雲的定價頁面: https://cloud.google.com/tpu/pricing
[55] 梯度檢查點: https://medium.com/tensorflow/fitting-larger-networks-into-memory-583e3c758ff9
[56] trRosetta: https://www.pnas.org/content/117/3/1496.short
[57] 蛋白質資料庫(Protein Data Bank): https://www.rcsb.org/
[58] UniRef: https://www.uniprot.org/help/uniref
[59] BFD: https://bfd.mmseqs.com/
[60] MGnify: https://www.ebi.ac.uk/metagenomics/
[61] HHblits: https://github.com/soedinglab/hh-suite
[62] JackHMMER: https://www.ebi.ac.uk/Tools/hmmer/
[63] OpenMM: https://github.com/openmm/openmm
[64] AlphaFold 2領隊Jumper奇人 - 我們需要什麼樣的複合型人材?: http://blog.sciencenet.cn/home.php?mod=space&uid=3458695&do=blog&id=1262404
[65] Tim Green: https://www.linkedin.com/in/tim-green-6832886/
[66] OpenAI決定對GPT-3: https://medium.com/@chengh/understand-the-pricing-of-gpt3-e646b2d63320
[67] Nature論文: https://www.nature.com/articles/s41586-019-1923-7
[68] G蛋白偶聯受體: https://en.wikipedia.org/wiki/G_protein-coupled_receptor
[69] 論文: https://onlinelibrary.wiley.com/doi/abs/10.1002/anie.201900840
[70] 蛋白質錯誤摺疊或者作為病因, 或者引發可怕的後果: https://en.wikipedia.org/wiki/Proteopathy
[71] 關於蛋白域柔性的信息: https://www.biorxiv.org/content/10.1101/2020.10.15.340752v1
[72] CAPRI: https://www.ebi.ac.uk/msd-srv/capri/
[73] 暗蛋白質組: https://en.wikipedia.org/wiki/Dark_proteome
[74] 如何看待 AlphaFold 在蛋白質結構預測領域的成功?: https://www.zhihu.com/question/304484648
[75] 專訪 | AlphaFold2是一艘曲率飛船: http://blog.sciencenet.cn/blog-3458695-1261414.html
[76] AlphaFold2 解決了蛋白質結構問題嗎?DeepMind 解決這項生物學五十年難題有何重大意義?: https://www.zhihu.com/question/432774098

相關焦點

  • AlphaFold2是什麼狗?(會後解讀)
    Alphafold團隊配置圖片來自casp14摘要俗話說,作者列表提供了大量有效的信息(感謝wangsheng的提醒)。雖然摘要中沒有講alphafold2的具體細節,先讓我們來看看那19位共同第一作者都是做什麼的吧!
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    「蛋白質摺疊」是一種令人難以置信的分子摺疊形式,科學界以外很少有人討論,但卻是一個非常重要的問題。生物由蛋白質構成,生物體功能由蛋白質形狀決定。理解蛋白質的摺疊方式可以幫助研究人員走進科學和醫學研究的新紀元。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • 【獨家解讀】Nature論文AlphaFold:AI推動科學發現
    我們已經建立了一個專門的跨學科團隊,希望利用AI來推動基礎研究的發展:召集結構生物學,物理學和機器學習領域的專家,共同運用前沿技術來實現僅根據遺傳序列預測蛋白質的3D結構。我們的系統AlphaFold是多年工作的結晶,它建立在數十年來使用大型基因組數據集預測蛋白質結構的研究的基礎上。AlphaFold生成的蛋白質3D模型比以前的任何一種都要精確得多,這標誌著生物學的一項核心挑戰取得了重大進展。
  • 「它將改變一切」,DeepMind AI解決生物學50年來重大挑戰,破解蛋白...
    11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智慧技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
  • 生物學的一個基本大問題迎來重大突破!
    | 圖片來源:DeepMind蛋白質的功能在很大程度上取決於其獨特的結構,它們是一些由胺基酸構成的複雜大分子。因此,能夠預測蛋白質會摺疊成什麼形狀,預測未知蛋白質的結構,不僅能夠幫助我們治療疾病、更快找到新的藥物,或許還能幫助我們解開生命是如何運作的奧秘。
  • 講座預約丨權威專家談AlphaFold:DeepMind到底突破了什麼?
    我們需要做的,就是如何用更好的姿勢來迎接它,並對它提出自己的思考和判斷:AlphaFold,其研究、工程優勢與弱點,到底有哪些?會對哪些研究團隊產生「降維打擊」?基於AlphaFold的現有成果,蛋白質結構預測的未來,會是什麼樣?AlphaFold對新冠病毒的研究能起到多大幫助?
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    通過強有力的跨學科方法,DeepMind 匯集了結構生物學、物理學和機器學習領域的專家,應用前沿技術,僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構。我們的系統,AlphaFold,在過去的兩年裡我們一直在努力研究它,它建立在多年前使用大量基因組數據預測蛋白質結構的研究基礎之上。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智慧技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
  • 七問AlphaFold2:一場AI引發的「結構生物學」大討論
    AlphaFold就是在這樣的背景下誕生,而且從第一天起,就立志挑戰生物學裡的最難問題——蛋白質摺疊。經過整整兩年的,Hassabis這番豪言,如今終於應驗。蛋白質摺疊預測——一場群體智慧的綻放1、蛋白摺疊預測的主要意義和應用是什麼?主要難點是什麼?2、AlphaFold2主要在哪些技術問題上取得了突破?在哪些主要問題上還沒有?
  • 顛覆生物學!AlphaFold成功預測蛋白質結構
    結構問題蛋白質是生命的基石,決定著細胞裡發生的一切。蛋白質如何工作以及它做些什麼都是由它的3D結構決定的——「結構即功能」是分子生物學的一條公理。蛋白質似乎無需幫助就能成形,只需要遵循物理定律。幾十年來,實驗室實驗一直是獲得良好的蛋白質結構的主要手段。
  • DeepMind的蛋白質摺疊AI解決了50年來的生物學重大挑戰
    蛋白質的工作方式和功能由其三維形狀決定-"結構即功能 "是分子生物學的公理。幾十年來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。從20世紀50年代開始,利用X射線束射向結晶的蛋白質,並將衍射光轉化為蛋白質的原子坐標的技術,首次確定了蛋白質的完整結構。X射線晶體學產生了絕大部分的蛋白質結構。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    近日,谷歌AI團隊DeepMind所研究的 AlphaFold 算法在生物學領域取得了重要突破:通過蛋白質的胺基酸序列高精度地確定其3D結構。 排名前六位的分別是David Barke lab的兩個工具(第二、第三位)、密西根州立大學的 Michael Feig和密西根大學Yang Zhang排名在第四位、第五位,而騰訊AI lab 的tFold_human 排名第六。 這說明,在某種程度上,在對蛋白質結構和摺疊的預測這件事情上,人類已非望塵莫及。
  • 結構生物學興趣小組,學習A​lphafold2
    研究Alphafold2分子動力學凝聚態物理範疇邏輯拓撲,流形(扭結理論和瓊斯多項式)機器學習結構生物學計算共形幾何結合在一起,探索蛋白質結構、功能。因為它集合了結構生物學發現裡幾乎所有的精彩要素和挑戰。第一,在剪接體結構出來之前,有很多剪接體的組分甚至是未知的。不同於傳統的結構生物學,先知道你要研究對象是啥,再吭哧吭哧地去把它們的結構解出來——剪接體的電鏡分析是看到了密度圖之後,完全不曉得這是啥,需要通過質譜等手段去鑑定組分。我從2015年就預測:電鏡與質譜組合,將會變成一個重要的生物學研究發現手段。
  • AI破解蛋白質摺疊難題,這意味著什麼?-虎嗅網
    五十年來,蛋白質摺疊一直是生物學的巨大挑戰。分子摺疊方式變幻無窮,其重要性很難估計。大多數生物過程都圍繞蛋白質,而蛋白質的形狀決定了其功能。這個假設引起了長達五十年的探索,即僅僅基於蛋白質的1D胺基酸序列就能夠計算預測蛋白質的3D結構。然而,這個假設面臨的一個主要的挑戰是,理論上蛋白質在進入最終的3D結構之前可以摺疊的方式數量是一個天文數字。1980年代和1990年代,儘管早期計算機科學家已經取得了進展,但是從蛋白質的組成中推斷結構仍非易事。
  • DeepMind破解蛋白質摺疊難題
    五十年來,蛋白質摺疊一直是生物學的巨大挑戰。 分子摺疊方式變幻無窮,其重要性很難估計。大多數生物過程都圍繞蛋白質,而蛋白質的形狀決定了其功能。只有當知道蛋白質如何摺疊時,他我們才能知曉蛋白質的作用。 1980年代和1990年代,儘管早期計算機科學家已經取得了進展,但是從蛋白質的組成中推斷結構仍非易事。 為什麼預測蛋白質的形狀非常困難?
  • AlphaFold 2發布背後,DeepMind AI去年巨虧6.49億美元
    今年花錢這麼多,但DeepMind的一位發言人在接受採訪時表示:「在產生這些支出的同時,DeepMind也取得了很多開創性的進展,比如蛋白質結構預測,解決了生物學50年的難題,還和谷歌的團隊合作,以將技術投入大規模現實應用。」
  • 解決生物學50年來重大挑戰!人工智慧預測蛋白結構能力堪比實驗室水平
    Alphafold的表現超過了大約100個其他團隊,準確性達到了與實驗室方法不分伯仲的水平[1],一舉解決了困擾學界長達五十年之久的蛋白質摺疊問題。 「它將改變醫學。
  • 機器學習遇見生物學:詳解蛋白質摺疊預測中的算法
    最後,蛋白質的整體幾何結構稱為三級結構(Tertiary structure),它決定了蛋白質的整體特徵。這些結構都是由 DNA 中的信息編碼的。其他類型的蛋白質也有很多,比如 Cas9,它以 CRISPR 序列為指導,作用類似於見到,可以剪切和粘貼 DNA 片段;抗凍蛋白,其 3D 結構使它們能夠與冰晶結合併防止生物凍結;核糖體的功能則類似於程序化的裝配線,可幫助自身構建蛋白質。因此,確定蛋白質的 3D 結構是非常重要的。
  • 攻克生物學難題,「阿爾法摺疊」精準預測蛋白質三維結構
    據美國《科學》雜誌網站11月30日報導,「蛋白質結構預測關鍵評估」(CASP)競賽傳來喜訊:英國「深度學習」(DeepMind)稱其AI實現了上述成就,他們的方法將極大加快新藥研發進程。人體擁有成千上萬種不同的蛋白質,每一種蛋白質都包含幾十到幾百種胺基酸,這些胺基酸的順序決定了它們之間的作用,賦予蛋白質複雜的三維形狀,進而決定了蛋白質的功能。