AlphaFold2是什麼狗?(會後解讀)

2020-12-04 DrugAI

John Moult (CASP14組織者, 一位近70歲,倫敦口音的老紳士在這屆會議上娓娓道來): 「I wasn’t sure that I would live long enough to see this」。(我活久見了)Osnat Herzberg(結構生物學家):」預測的結果好像和我做的結構不大一樣,咦?我怎麼解析錯了。結構生物學家Petr Leiman,我用著價值一千萬美元的電鏡,還這麼努力地嘗試了好幾年,這就一下就給我算出來了??」塞萊斯 力文所 (1969年的Cyrus Levintha) : 「對一個蛋白質來說,它的構象空間可以高達10的300次方,然而蛋白質在自然界中可以在微秒級別摺疊,這是一個悖論。」

皮卡車: 「可以,我要蹭一波狗的熱度!」

前言

蛋白質結構預測問題是結構生物學一個裡程碑式的問題,每兩年,人類會組織一場蛋白質結構預測大賽,而在接下來的幾天,第十四屆,堪稱該領域奧林匹克的比賽,CASP14就要開始了。

今年CASP14的會議安排已經出來,在2020年12月1號美東時間10點,也就是北京時間,周二的晚上11點,世界上成績最好的三支隊伍將要給我們講解他們今年在CASP14上創造了什麼樣的成績?!

如果說兩年前alphafold還是以A7D出道,傳統的課題組沒有對他進行一點防備,那麼今年就完全不同了,比賽前大家似乎卯足了勁,工業界的隊伍也多了不少,從CASP14摘要上來看,

目前的工業界隊伍(用搜索「.com」粗略估計),除了Deepmind 的alphafold2,還有一些工業巨頭,比如微軟的BrainFold,微軟亞洲研究院的兩款算法,TOWER and FoldX 和 NOVA,騰訊的數款算法tFold。

不過最值得一提的是一名上屆程序未寫完,利用業餘時間在Rust上實現PBuild算法的日本小哥,T. Oda。遺憾的是這名小哥在摘要中提到了結構好像沒有摺疊出有意義的。不過這種自由探索的精神可嘉,這是真心愛科學,希望他在未來繼續努力!

( 題外話,他還讓我想到了默默無聞在一家小公司開發質譜技術,最後得了諾貝爾獎的田中耕一。這些人的出現就是科研的土壤培養出來的。比如你去四川就能看到小區樓下都是麻將攤,女王的棋局裡蘇聯到處都是下西洋棋的老大爺。如果我們各種普通人都有極大興趣能夠參加科學中,說明我們的土壤也肥沃起來了。)

CASP13 Alphafold 力壓群雄,碾壓各種人類傳統模型,讓我們先來回顧一下,之前的CASP都發生了什麼?(圖片來源)

這幾十年科學家們一直在緩慢而且努力的前進著。CASP11比賽中的共進化方法開始嶄露頭角,有了一個小的跳躍,然後CASP12大家就齊頭趕上了。到CASP13的時候,Alphafold來了,深度學習結合共進化的算法把第一名和第二名的差距直接拉大了!那麼Alphafold2在今年直接到了血虐其他算法的地步了,其實學術界的BAKER今年的進步也非常明顯,只不過在Alphafold面前不值得一提了。我們來看一下今年的結果!

這個圖是什麼概念?

CASP用來衡量預測準確性的主要指標是 GDT,範圍為0-100。簡單來說,GDT可以近似地認為是和實驗結構相比,成功預測在正確位置上的比例。70分就是達到了同源建模的精度,根據Moult教授的說法,非正式的說,大約90 分可以和實驗結果相競爭!

這次DeepMind直接把總分幹到了92.4,和實驗的誤差在1.6 埃,即使是在最難的沒有同源模板的蛋白質上面,這個分數也達到了了恐怖的87.0 。

來看兩個官網上秀的結果:

Alphafold2做了什麼改進?

文中講摺疊的蛋白質可以被視為「空間圖」,其中殘基是結點,邊緣將殘基緊密相連。該圖對於理解蛋白質內的物理相互作用及其進化歷史非常重要。對於在CASP14上使用的最新版本的AlphaFold,我們創建了一個基於注意力的神經網絡系統,該系統經過端到端訓練,試圖解釋該圖的結構,同時對所構建的隱式圖進行推理。它使用進化相關序列,多序列比對(MSA)和胺基酸殘基對表示來完善此圖。

文中沒有講深度增強學習,倒是講了目前學術界和工業界都非常關注的注意力模型。同時,用了128 TPUv3 cores 和幾周的時間,訓練了PDB庫中的~170,000蛋白(這個都是常規操作了)。這套模型需要幾天的時間來預測一個高精度的蛋白質結構。

Alphafold2會議具體細節:

聲明,來自一名業餘選手的解讀!

報告講完了,一句話概括,信息量不足。開篇放了19人的合影,待視頻release之後我把這幫人合影插一個進來紀念一下。然後我們直接快進到最感興趣的地方,模型是什麼?

John Jumper開篇講了一下核心觀點,物理直覺融入到了網絡結構中,端對端直接生成結構取代了殘基的距離矩陣,從圖的角度出發直接反映蛋白質的物理結構和幾何,

Jone提到的資料庫時候,說的是標準的資料庫,如序列庫UniRef90,BFD,MGnigy Clusters,結構庫PDB,PDB70。

訓練流程基本上和官網的圖一致,從序列出發得到MSA和template,然後給了一個雙線的transformer(似乎是在序列維度上和殘基維度上分別做了softmax),然後兩者怎麼交互的信息沒怎麼看明白,不過看迭代邊和序列的方式,應該就是經典的GNN, 參考資料:Deepmind的GNN,Transformer教程)。

然後結合3D-equivariant transformer 做端對端的訓練,訓練完之後用amber優化一下。參考資料,Max Welling大佬的3D Roto-Translation Equivariant transformer,聽說他們知道alphafold用了這個還挺吃驚。聽說這裡有一個可微分的問題,且需要neighborhood來幫助解決旋轉平移不變性特別吃內存,具體還不是很清楚,需要讀一下這篇文獻,完全陌生。

這裡沒有預訓練模型,沒有深度增強學習,輸入是MSA,沒有MRF/共進化/precision matrix作為feature,沒有distance matrix作為最終的輸出,直接輸出PDB,整個框架都變了!

然後基本就沒有然後了,信息量完全不夠,這裡放的都是碎片的相關信息,大家猜幾天我再試圖把這些串起來。至於Alphafold的核心武器在哪裡,討論下來,大家思路把更多的目光放在了後面的實現端對端的3D-equivariant transformer上。

猜測:端對端減少了embed 共進化信號帶來的噪音,distance matrix只有主鏈信息,PDB結構可以提供額外的約束信息,可以直接把模型質量反饋給前端的transformer。

期間感謝,Justas, Sergey,Sirui,Shihao和Rosetta中文社區各位大佬的討論。

Alphafold團隊配置

圖片來自casp14摘要

俗話說,作者列表提供了大量有效的信息(感謝wangsheng的提醒)。雖然摘要中沒有講alphafold2的具體細節,先讓我們來看看那19位共同第一作者都是做什麼的吧!

第一位 John Jumper是這屆alphafold的領袖,我記得上一屆是andrew senior(此人CS背景)。這屆明顯換人了,而且這位之前的研究經歷是都匹配這個問題的,可以說是domain knowledge豐富,他的linkedin簡歷。

John Jumper的公開簡歷

這位年輕帥氣的大哥,08-11年在世界上「最豪華」的分子動力學研究所,也就是傳奇的對衝基金大佬D.E. Shaw 帶領下的D.E. Shaw Research研究所的地方研究分子動力學模擬,

這人練級過程中有分子動力學和商業驅動科研的經歷。在芝加哥大學研究機器學習和粗粒化蛋白質摺疊的方法。最後進入了世界上又是「最豪華」的商業公司,一個曾經把柯潔下棋下到流淚的公司,deepmind,開啟了alphafold2的研究之路。這人的履歷就是為蛋白質摺疊這個問題而生的!

第二位 作者是Richard Evans,deepmind 有兩個richard,一開始把我搞蒙了,找到一個AI方向,具體細分是做範疇邏輯?(Cathoristic Logic)的,原來的應用是,個人行為和社會行為(Social Practices and Individual Personalities)?。據我腦子中的淺薄的知識,目前所有學術界在做蛋白質結構預測方向好像都沒有用上這個。以為deepmind在這裡用了什麼黑科技。然後經提醒發現是這個Richard Evans,主攻Deep reinforcement learning的,且參加過初代alphafold 的開發,瞬間合理了!

第三位 Alexander Pritzel,理論高能物理背景,最高引文章是還是deep reinforcement learning,有理由相信alphafold在這個策略上進行了嘗試。

第四位 Tim Green,量子化學,凝聚態物理轉移,博士工作是利用密度泛函理論來預測NMR的耦合參數,我的知識水平跟不上了,不知道如何安排的。

第五位 Michael Figurnov, 相關工作有residual network,這個在alphafold中已經部署,

第六位 牛津大學博士Kathryn Tunyasuvunakool,博士時候這位姐姐的主要工作在自述中應該是生物數據的處理,她在博士期間還寫過生物數據可視化的代碼。

第七位 Olaf Ronneberger,U-net的作者,單篇被引用次數超過20000,U-net是用於生物醫學圖像分割的卷積網絡。圖像分割,contact map cropping?

第八位 牛津大學博士Russ Bates,醫學圖像處理,第九位劍橋大學MEng,Augustin ídek,深度增強學習相關。第十位Alex Bridgland,牛津大學計算機博士,資料不詳,alphafold一代作者之一。

第十一位 Clemens Meyer,世界頂尖商學院巴黎高商畢業,且有了十年以上管理經驗的資深產品經理。這個是我沒有想到的。。。

第十二位 Simon Kohl,KIT畢業物理碩士,CS博士,alphafold一代作者。

第十三位 Anna Potapenko,俄羅斯國立高等經濟大學CS博士,自然語言處理相關,

這篇文章在我能夠理解的範圍內,瞎猜一個,transformer?long-range sequence?部署了transformer在提取序列attention當做input?

第十四位 Andrew Ballard, 計算物理學家,2015年加入deepmind,用過副本交換,研究過非平衡態系統,可能可以用來解決後面蛋白質結構refinement的問題?

第十五位 Angew Cowie,參與開發了Acme!!!DRL!!!

第十六位 Bernardino Romera Paredes UCL CS master。第十七位Stanislav Nikolov,MIT MEng master。第十八位, Rishub Jain,CMU CS master。第十九位,Demis Hassabis 大boss。

小結:這麼多看下來,是不是提取出了什麼關鍵詞,DRL!圖像分割。18年的alphafold我們還可以argue,其實他是集學術界大成者,整體創新性並沒有那麼強,起碼大家都很容易follow,這次的alphafold2我要下個暴論,是真正意義上的應用了AI來解決蛋白質摺疊問題!

問題:

1. 蛋白質摺疊問題解決了沒有?結構基因組學時代來臨了沒有?在這個技術下面,哪些目前的技術會被替代?結構生物學的空間在哪裡?哪些有瓶頸的技術會得到突破,比如和蛋白質組學聯合解釋數據?

基本解決了,從結構生物學的角度講,基因平等,然而人類總是挑一些可能比較有意思的蛋白去解析結構,alphafold2預測的精度足夠高,一些犄角旮旯的蛋白結構可以得到大量的補充。而且在序列數據爆炸的情況下,可以得到大量可靠的預測模型是非常有意義的。按Nature的一篇評論,人們可以花更多的時間思考,花更少的時間拿移液槍了。

但是Alphafold也提了,胺基酸側鏈的精確位置仍然是一個挑戰,還有一些比如PPI,DNA,RNA,小分子配體的結合還沒有解決。製藥行業對側鏈的精確度是非常之高的。

2. 機制問題:

學術界幹了幾十年沒解決的蛋白質摺疊問題,deepmind為什麼做的這麼好,僅僅是因為資源豐富嗎?

除了算法強之外,alphafold還匯集了幾個領域的大佬,甚至請了一個專業的產品經理,學術界的合作是否能如此的緊密?目前的學術運營框架下合作難度多大?

學術界是不是在搞跳高運動,每年創新1cm?

3. 對學術界有什麼影響?

網紅科學家穆罕穆德,這對這個領域是破壞性的,這個領域的核心問題已經被解決了,我想很多人都會離開這個領域了吧。

相關焦點

  • AlphaFold2的技術細節和局限與意義
    因為能比較準確地拿到結構,這些方向的未來發展會比較快。 另一方面,解結構的人對我們從事計算研究的人員信任程度也會提升,以前我們做出來的結構可能對其他研究人員來說用處不大,但是軟體質量提升後,他們會慢慢喜歡用我們這些軟體預測出來的數據,便於他們研究蛋白質及功能。 張陽:我覺得AlphaFold2的成功,並不會讓很多人轉行或者受影響而淡出。
  • 什麼是Alpha Finance Lab(ALPHA)?
    官網:https://alphafinance.io/白皮書:https://bit.ly/2Hn83Gu官方電報社區:https://t.me/AlphaFinanceLab推特:https://twitter.com/alphafinancelab博客:https://blog.alphafinance.io/GIthub
  • 狗子一生都在用尾巴說話,狗尾巴的深意解讀
    現在城市養狗人家很多,伴隨不負責主人拋棄而成為流浪狗的更不少見。所以,我們在處出時,遇到狗是常有的事。許多時候遇到狗時,沒有幾個人會視而不見,但都不會形成記憶,因為每天都會遇到。除非與狗發生了交集,那將會給你留下深刻的印象,或救助或被咬等,多數時都是見其沒有威脅而勿勿而過。
  • 四大頂級專家談AlphaFold2:記錄、風向與學術思考(下篇)
    因為能比較準確地拿到結構,這些方向的未來發展會比較快。另一方面,解結構的人對我們從事計算研究的人員信任程度也會提升,以前我們做出來的結構可能對其他研究人員來說用處不大,但是軟體質量提升後,他們會慢慢喜歡用我們這些軟體預測出來的數據,便於他們研究蛋白質及功能。張陽:我覺得AlphaFold2的成功,並不會讓很多人轉行或者受影響而淡出。
  • 《心理學百科》解讀,第12講:巴甫洛夫的狗實驗,行為主義的基礎
    大家好,今天是「倚龍的讀書俱樂部」關於《心理學百科》解讀的第12講。一直重複這一操作,最後,即使沒有給狗食物,只要鈴聲一響,狗也會流口水的那個實驗。大家千萬不要小看這個實驗,這個實驗可是對「行為主義」心理學流派,產生了極其重要的影響!三、巴甫洛夫的狗的實驗首先,來具體介紹一下這個「巴甫洛夫的經典條件反射」實驗的具體步驟。
  • 阿法狗算什麼?這個星球最聰明的人說:零來了 擺脫人類自學成才
    起名「零」並非舊版的升級而是有顛覆性的全新版對於新版本阿法狗的研發,其實在烏鎮「人狗大戰」前後一直沒有停止過。在3比0完勝中國天才圍棋少年柯潔後,哈薩比斯曾在中國公開表示,「這次比賽聚集了圍棋起源地最優秀的棋手,是阿法狗作為一個競賽系統能夠對弈的最高級別對手。因此,本次中國烏鎮圍棋峰會是阿法狗參加的最後對弈比賽。」
  • 什麼品種的狗最聰明?
    在許多「聰明的狗」的名單上,傑克羅素似乎沒有出現。同樣是因為這個聰明的小狗行動迅速,所以有些人會注意到它。與牧師羅素梗關係密切的傑克羅素,是一條無畏、充滿活力的狗,一次機智敏銳、頑強的連勝。小獵犬並不能給你帶來任何有趣的好運,它只是想阻止獵犬得到它想要的。
  • 當狼像狗一樣被養大時會發生什麼,把狗放在野外又會怎樣?
    當狗受到壓力時,它們會在人類面前感到舒適,這一特點通過自身馴化得到了強化。 另一方面,狼天生對人類很警惕,害怕我們的存在和環境,不像狗,它們非常獨立。 例如,當狼群外出狩獵時,狼崽往往被單獨留下,這讓這些動物幾乎像貓一樣自給自足。與狗不同的是,狼從不需要依靠其他物種來獲得安慰。
  • 什麼是音聲療愈、了解Alpha阿爾法波的作用
    一方面,聲波頻率會引起人們生理上的反應。聲音的振動頻率是一種物理能量,而適度的物理能量會引起人體組織細胞發生和諧共振現象,能使顱腔、胸腔或某一個組織產生共振,這種聲波引起的共振現象,會直接影響人的腦電波、心率、呼吸節奏等。
  • 醉酒後與狗對罵 這到底是個什麼梗?
    近日江蘇常熟一男子喝醉酒後足足和一條朝他汪汪叫的流浪狗對罵了半個多小時,最後狗乖乖認輸跑開了......3日晚,江蘇常熟,邵某應酬後,喝得醉醺醺駕駛摩託車回家,途中一條流浪狗突然追著邵某汪汪直叫,邵某頓時被惹怒,停車跟狗理論。視頻畫面顯示,邵某一開始還是採取了比較溫和的策略,他朝小狗時而說著什麼,時而抬起下巴指向遠方。
  • 狗最害怕哪些氣味?聞到後會有什麼樣的反應
    狗能夠成為人類的專用搜救犬,是因為天生具有非常靈敏的嗅覺,而依靠著它的嗅覺,它會完成對外部事物的判斷,依靠嗅覺可以決定它們的下一步行為。說它們是依靠嗅覺生存的動物也毫不為過。主人外出歸來時,狗子從來都是熱情歡迎,但主人進屋後它依然會先把你嗅上一遍。具體嗅什麼,那只有它知道。據科學診斷,狗的嗅覺是人類的1200倍左右,敏感的嗅覺是它們判斷一切的依據,但發達的嗅覺使它們對刺激性氣味也是十分懼怕。所以,我們儘可能地避免它們聞到味道較重的氣味,這是每一位狗主人都應該記住的。狗子嗅覺相當敏感,那它十分討厭或懼怕一些刺激性氣味是很正常的。
  • 瘋狂解讀《浮雲遮日打一生肖》是什麼動物?浮雲遮日是什麼生肖
    開 :牛36----驗證100%正確320:[鼠.羊] 開 :鼠01----驗證100%正確319:[鼠.猴] 開 :鼠37----驗證100%正確318:[羊.雞] 開 :羊06----驗證100%正確317:[狗.馬] 開 :狗39----驗證100%正確316:[猴.蛇] 開 :猴05----驗證100%正確
  • 把柯潔虐哭的阿法狗被「新一代」Alpha Go Zero虐死,人工智慧也太可怕了!
    在與柯潔的比賽結束後,中國圍棋協會授予AlphaGo職業圍棋九段的稱號。 大家猜得到這開頭,卻想必猜不到後續的發展。一物降一物,這(幾)只偉大的「狗狗」——AlphaGo(阿法狗)在踩碎了圍棋愛好者的一地玻璃心之後,終於被家族的「新世代」——AlphaGoZero給收拾了。
  • 「言情推文/星際」一個地球少女穿越成ABO世界女性Alpha後不可描述
    ABO世界,大家懂吧,女主原本是軟萌妹子,然後穿越進了abo世界,成了女性alpha,就是那種有大丁丁的女強人!!她實在想不通為什麼會有六種性別,她很難接受這個設定,但是她暗自忍了下來,讀書的時候本想想學文史音樂之類的文藝學,可是這類的學校不收alpha,一般只收b和o,她只能進了軍校,測出來她有超強的體能和精神力!!稱得上是史上最強alpha,前途無量,然後!她去醫院把自己的丁丁切了!
  • 「智能」塑料片訓練後會動,就像巴普洛夫的狗
    「智能」塑料片訓練後會動,就像巴普洛夫的狗 2019-12-12 19:15 來源:澎湃新聞·澎湃號·政務
  • 夢見狗咬我是什麼徵兆?會不會對我們不利?
    在生活中,狗是一種能夠保護我們,和我們成為朋友的一種動物。但有些狗因為和自己不熟,或者是從小和人類交往的慘痛經歷,使得在我們接近狗的時候,我們會被狗咬。那麼今天,就讓我們一起來了解一下夢見狗咬自己有什麼徵兆,會不會對自己不利吧!
  • Alpha多樣性指數的計算和差異分析(差異檢驗結果可視化)
    alpha多樣性是進行生物群落研究的最基礎方法,關於alpha多樣性指數的介紹和計算在網上有茫茫多的資料,本文將不會花費大量篇幅介紹這些基礎知識,而是重點帶來對alpha多樣性進行統計學分析並直接生成圖像的方法。
  • 夢見狗是什麼意思 夢見狗預示著什麼
    夢見狗是什麼意思夢見狗,預兆朋友軟弱無能。孕婦夢見狗,在很大的程序上,代表著對未來寶寶的一種期待,預示著母子平安。夢中的狗,即是做夢人自己內心的行為規範、準則、道德的守衛者,或者可能理解為平日人們所說的「良心」在內心潛意識中發揮作用,在夢中形成的形象。
  • Alpha阿爾法波腦科學與禪修
    清醒時的會出現腦波α波(alpha)、β波(beta)是清醒時的會出現腦波。當腦中出現α波的時候,身體會分泌β皮內素以及甲狀腺刺激素,這個腦內賀爾蒙對人都是好的。如果腦袋長期被β波佔領的話,會分泌腎上腺素、正腎上腺素,會讓微血管收縮、血液循環變差、白血球停止活動,就會使人對細菌的抵抗力下降,讓人容易生病,也會好得很慢。結論就是要讓我們的腦中多出現α波。
  • 懷孕後家裡養的狗要送走,不然會感染弓形蟲?狗:我躺著也中槍
    懷孕消息一公布,家裡父母就不停叮囑:不能再養狗了,它們身上有弓形蟲。小陳覺得,現在懷個孕,真的太難了,一邊是養了好幾年的愛犬,一邊是全家期盼的寶寶,真是讓人頭大。都說養貓會容易感染弓形蟲,養狗會感染弓形蟲我也是第一次聽說,有些人甚至聞蟲變色,家裡有個孕婦,居然讓全小區都不要養寵物了,生怕一出門就感染了什麼病毒。其實這種想法實在是過於偏激了。