John Moult (CASP14組織者, 一位近70歲,倫敦口音的老紳士在這屆會議上娓娓道來): 「I wasn’t sure that I would live long enough to see this」。(我活久見了)Osnat Herzberg(結構生物學家):」預測的結果好像和我做的結構不大一樣,咦?我怎麼解析錯了。結構生物學家Petr Leiman,我用著價值一千萬美元的電鏡,還這麼努力地嘗試了好幾年,這就一下就給我算出來了??」塞萊斯 力文所 (1969年的Cyrus Levintha) : 「對一個蛋白質來說,它的構象空間可以高達10的300次方,然而蛋白質在自然界中可以在微秒級別摺疊,這是一個悖論。」
皮卡車: 「可以,我要蹭一波狗的熱度!」
前言
蛋白質結構預測問題是結構生物學一個裡程碑式的問題,每兩年,人類會組織一場蛋白質結構預測大賽,而在接下來的幾天,第十四屆,堪稱該領域奧林匹克的比賽,CASP14就要開始了。
今年CASP14的會議安排已經出來,在2020年12月1號美東時間10點,也就是北京時間,周二的晚上11點,世界上成績最好的三支隊伍將要給我們講解他們今年在CASP14上創造了什麼樣的成績?!
如果說兩年前alphafold還是以A7D出道,傳統的課題組沒有對他進行一點防備,那麼今年就完全不同了,比賽前大家似乎卯足了勁,工業界的隊伍也多了不少,從CASP14摘要上來看,
目前的工業界隊伍(用搜索「.com」粗略估計),除了Deepmind 的alphafold2,還有一些工業巨頭,比如微軟的BrainFold,微軟亞洲研究院的兩款算法,TOWER and FoldX 和 NOVA,騰訊的數款算法tFold。
不過最值得一提的是一名上屆程序未寫完,利用業餘時間在Rust上實現PBuild算法的日本小哥,T. Oda。遺憾的是這名小哥在摘要中提到了結構好像沒有摺疊出有意義的。不過這種自由探索的精神可嘉,這是真心愛科學,希望他在未來繼續努力!
( 題外話,他還讓我想到了默默無聞在一家小公司開發質譜技術,最後得了諾貝爾獎的田中耕一。這些人的出現就是科研的土壤培養出來的。比如你去四川就能看到小區樓下都是麻將攤,女王的棋局裡蘇聯到處都是下西洋棋的老大爺。如果我們各種普通人都有極大興趣能夠參加科學中,說明我們的土壤也肥沃起來了。)
CASP13 Alphafold 力壓群雄,碾壓各種人類傳統模型,讓我們先來回顧一下,之前的CASP都發生了什麼?(圖片來源)
這幾十年科學家們一直在緩慢而且努力的前進著。CASP11比賽中的共進化方法開始嶄露頭角,有了一個小的跳躍,然後CASP12大家就齊頭趕上了。到CASP13的時候,Alphafold來了,深度學習結合共進化的算法把第一名和第二名的差距直接拉大了!那麼Alphafold2在今年直接到了血虐其他算法的地步了,其實學術界的BAKER今年的進步也非常明顯,只不過在Alphafold面前不值得一提了。我們來看一下今年的結果!
這個圖是什麼概念?
CASP用來衡量預測準確性的主要指標是 GDT,範圍為0-100。簡單來說,GDT可以近似地認為是和實驗結構相比,成功預測在正確位置上的比例。70分就是達到了同源建模的精度,根據Moult教授的說法,非正式的說,大約90 分可以和實驗結果相競爭!
這次DeepMind直接把總分幹到了92.4,和實驗的誤差在1.6 埃,即使是在最難的沒有同源模板的蛋白質上面,這個分數也達到了了恐怖的87.0 。
來看兩個官網上秀的結果:
Alphafold2做了什麼改進?
文中講摺疊的蛋白質可以被視為「空間圖」,其中殘基是結點,邊緣將殘基緊密相連。該圖對於理解蛋白質內的物理相互作用及其進化歷史非常重要。對於在CASP14上使用的最新版本的AlphaFold,我們創建了一個基於注意力的神經網絡系統,該系統經過端到端訓練,試圖解釋該圖的結構,同時對所構建的隱式圖進行推理。它使用進化相關序列,多序列比對(MSA)和胺基酸殘基對表示來完善此圖。
文中沒有講深度增強學習,倒是講了目前學術界和工業界都非常關注的注意力模型。同時,用了128 TPUv3 cores 和幾周的時間,訓練了PDB庫中的~170,000蛋白(這個都是常規操作了)。這套模型需要幾天的時間來預測一個高精度的蛋白質結構。
Alphafold2會議具體細節:
聲明,來自一名業餘選手的解讀!
報告講完了,一句話概括,信息量不足。開篇放了19人的合影,待視頻release之後我把這幫人合影插一個進來紀念一下。然後我們直接快進到最感興趣的地方,模型是什麼?
John Jumper開篇講了一下核心觀點,物理直覺融入到了網絡結構中,端對端直接生成結構取代了殘基的距離矩陣,從圖的角度出發直接反映蛋白質的物理結構和幾何,
Jone提到的資料庫時候,說的是標準的資料庫,如序列庫UniRef90,BFD,MGnigy Clusters,結構庫PDB,PDB70。
訓練流程基本上和官網的圖一致,從序列出發得到MSA和template,然後給了一個雙線的transformer(似乎是在序列維度上和殘基維度上分別做了softmax),然後兩者怎麼交互的信息沒怎麼看明白,不過看迭代邊和序列的方式,應該就是經典的GNN, 參考資料:Deepmind的GNN,Transformer教程)。
然後結合3D-equivariant transformer 做端對端的訓練,訓練完之後用amber優化一下。參考資料,Max Welling大佬的3D Roto-Translation Equivariant transformer,聽說他們知道alphafold用了這個還挺吃驚。聽說這裡有一個可微分的問題,且需要neighborhood來幫助解決旋轉平移不變性特別吃內存,具體還不是很清楚,需要讀一下這篇文獻,完全陌生。
這裡沒有預訓練模型,沒有深度增強學習,輸入是MSA,沒有MRF/共進化/precision matrix作為feature,沒有distance matrix作為最終的輸出,直接輸出PDB,整個框架都變了!
然後基本就沒有然後了,信息量完全不夠,這裡放的都是碎片的相關信息,大家猜幾天我再試圖把這些串起來。至於Alphafold的核心武器在哪裡,討論下來,大家思路把更多的目光放在了後面的實現端對端的3D-equivariant transformer上。
猜測:端對端減少了embed 共進化信號帶來的噪音,distance matrix只有主鏈信息,PDB結構可以提供額外的約束信息,可以直接把模型質量反饋給前端的transformer。
期間感謝,Justas, Sergey,Sirui,Shihao和Rosetta中文社區各位大佬的討論。
Alphafold團隊配置
圖片來自casp14摘要
俗話說,作者列表提供了大量有效的信息(感謝wangsheng的提醒)。雖然摘要中沒有講alphafold2的具體細節,先讓我們來看看那19位共同第一作者都是做什麼的吧!
第一位 John Jumper是這屆alphafold的領袖,我記得上一屆是andrew senior(此人CS背景)。這屆明顯換人了,而且這位之前的研究經歷是都匹配這個問題的,可以說是domain knowledge豐富,他的linkedin簡歷。
John Jumper的公開簡歷
這位年輕帥氣的大哥,08-11年在世界上「最豪華」的分子動力學研究所,也就是傳奇的對衝基金大佬D.E. Shaw 帶領下的D.E. Shaw Research研究所的地方研究分子動力學模擬,
這人練級過程中有分子動力學和商業驅動科研的經歷。在芝加哥大學研究機器學習和粗粒化蛋白質摺疊的方法。最後進入了世界上又是「最豪華」的商業公司,一個曾經把柯潔下棋下到流淚的公司,deepmind,開啟了alphafold2的研究之路。這人的履歷就是為蛋白質摺疊這個問題而生的!
第二位 作者是Richard Evans,deepmind 有兩個richard,一開始把我搞蒙了,找到一個AI方向,具體細分是做範疇邏輯?(Cathoristic Logic)的,原來的應用是,個人行為和社會行為(Social Practices and Individual Personalities)?。據我腦子中的淺薄的知識,目前所有學術界在做蛋白質結構預測方向好像都沒有用上這個。以為deepmind在這裡用了什麼黑科技。然後經提醒發現是這個Richard Evans,主攻Deep reinforcement learning的,且參加過初代alphafold 的開發,瞬間合理了!
第三位 Alexander Pritzel,理論高能物理背景,最高引文章是還是deep reinforcement learning,有理由相信alphafold在這個策略上進行了嘗試。
第四位 Tim Green,量子化學,凝聚態物理轉移,博士工作是利用密度泛函理論來預測NMR的耦合參數,我的知識水平跟不上了,不知道如何安排的。
第五位 Michael Figurnov, 相關工作有residual network,這個在alphafold中已經部署,
第六位 牛津大學博士Kathryn Tunyasuvunakool,博士時候這位姐姐的主要工作在自述中應該是生物數據的處理,她在博士期間還寫過生物數據可視化的代碼。
第七位 Olaf Ronneberger,U-net的作者,單篇被引用次數超過20000,U-net是用於生物醫學圖像分割的卷積網絡。圖像分割,contact map cropping?
第八位 牛津大學博士Russ Bates,醫學圖像處理,第九位劍橋大學MEng,Augustin ídek,深度增強學習相關。第十位Alex Bridgland,牛津大學計算機博士,資料不詳,alphafold一代作者之一。
第十一位 Clemens Meyer,世界頂尖商學院巴黎高商畢業,且有了十年以上管理經驗的資深產品經理。這個是我沒有想到的。。。
第十二位 Simon Kohl,KIT畢業物理碩士,CS博士,alphafold一代作者。
第十三位 Anna Potapenko,俄羅斯國立高等經濟大學CS博士,自然語言處理相關,
這篇文章在我能夠理解的範圍內,瞎猜一個,transformer?long-range sequence?部署了transformer在提取序列attention當做input?
第十四位 Andrew Ballard, 計算物理學家,2015年加入deepmind,用過副本交換,研究過非平衡態系統,可能可以用來解決後面蛋白質結構refinement的問題?
第十五位 Angew Cowie,參與開發了Acme!!!DRL!!!
第十六位 Bernardino Romera Paredes UCL CS master。第十七位Stanislav Nikolov,MIT MEng master。第十八位, Rishub Jain,CMU CS master。第十九位,Demis Hassabis 大boss。
小結:這麼多看下來,是不是提取出了什麼關鍵詞,DRL!圖像分割。18年的alphafold我們還可以argue,其實他是集學術界大成者,整體創新性並沒有那麼強,起碼大家都很容易follow,這次的alphafold2我要下個暴論,是真正意義上的應用了AI來解決蛋白質摺疊問題!
問題:
1. 蛋白質摺疊問題解決了沒有?結構基因組學時代來臨了沒有?在這個技術下面,哪些目前的技術會被替代?結構生物學的空間在哪裡?哪些有瓶頸的技術會得到突破,比如和蛋白質組學聯合解釋數據?
基本解決了,從結構生物學的角度講,基因平等,然而人類總是挑一些可能比較有意思的蛋白去解析結構,alphafold2預測的精度足夠高,一些犄角旮旯的蛋白結構可以得到大量的補充。而且在序列數據爆炸的情況下,可以得到大量可靠的預測模型是非常有意義的。按Nature的一篇評論,人們可以花更多的時間思考,花更少的時間拿移液槍了。
但是Alphafold也提了,胺基酸側鏈的精確位置仍然是一個挑戰,還有一些比如PPI,DNA,RNA,小分子配體的結合還沒有解決。製藥行業對側鏈的精確度是非常之高的。
2. 機制問題:
學術界幹了幾十年沒解決的蛋白質摺疊問題,deepmind為什麼做的這麼好,僅僅是因為資源豐富嗎?
除了算法強之外,alphafold還匯集了幾個領域的大佬,甚至請了一個專業的產品經理,學術界的合作是否能如此的緊密?目前的學術運營框架下合作難度多大?
學術界是不是在搞跳高運動,每年創新1cm?
3. 對學術界有什麼影響?
網紅科學家穆罕穆德,這對這個領域是破壞性的,這個領域的核心問題已經被解決了,我想很多人都會離開這個領域了吧。