AlphaFold2是什麼狗?(會後解讀)

2020-12-04 DrugAI

John Moult (CASP14組織者, 一位近70歲,倫敦口音的老紳士在這屆會議上娓娓道來): 「I wasn’t sure that I would live long enough to see this」。(我活久見了)Osnat Herzberg(結構生物學家):」預測的結果好像和我做的結構不大一樣,咦?我怎麼解析錯了。結構生物學家Petr Leiman,我用著價值一千萬美元的電鏡,還這麼努力地嘗試了好幾年,這就一下就給我算出來了??」塞萊斯 力文所 (1969年的Cyrus Levintha) : 「對一個蛋白質來說,它的構象空間可以高達10的300次方,然而蛋白質在自然界中可以在微秒級別摺疊,這是一個悖論。」

皮卡車: 「可以,我要蹭一波狗的熱度!」

前言

蛋白質結構預測問題是結構生物學一個裡程碑式的問題,每兩年,人類會組織一場蛋白質結構預測大賽,而在接下來的幾天,第十四屆,堪稱該領域奧林匹克的比賽,CASP14就要開始了。

今年CASP14的會議安排已經出來,在2020年12月1號美東時間10點,也就是北京時間,周二的晚上11點,世界上成績最好的三支隊伍將要給我們講解他們今年在CASP14上創造了什麼樣的成績?!

如果說兩年前alphafold還是以A7D出道,傳統的課題組沒有對他進行一點防備,那麼今年就完全不同了,比賽前大家似乎卯足了勁,工業界的隊伍也多了不少,從CASP14摘要上來看,

目前的工業界隊伍(用搜索「.com」粗略估計),除了Deepmind 的alphafold2,還有一些工業巨頭,比如微軟的BrainFold,微軟亞洲研究院的兩款算法,TOWER and FoldX 和 NOVA,騰訊的數款算法tFold。

不過最值得一提的是一名上屆程序未寫完,利用業餘時間在Rust上實現PBuild算法的日本小哥,T. Oda。遺憾的是這名小哥在摘要中提到了結構好像沒有摺疊出有意義的。不過這種自由探索的精神可嘉,這是真心愛科學,希望他在未來繼續努力!

( 題外話,他還讓我想到了默默無聞在一家小公司開發質譜技術,最後得了諾貝爾獎的田中耕一。這些人的出現就是科研的土壤培養出來的。比如你去四川就能看到小區樓下都是麻將攤,女王的棋局裡蘇聯到處都是下西洋棋的老大爺。如果我們各種普通人都有極大興趣能夠參加科學中,說明我們的土壤也肥沃起來了。)

CASP13 Alphafold 力壓群雄,碾壓各種人類傳統模型,讓我們先來回顧一下,之前的CASP都發生了什麼?(圖片來源)

這幾十年科學家們一直在緩慢而且努力的前進著。CASP11比賽中的共進化方法開始嶄露頭角,有了一個小的跳躍,然後CASP12大家就齊頭趕上了。到CASP13的時候,Alphafold來了,深度學習結合共進化的算法把第一名和第二名的差距直接拉大了!那麼Alphafold2在今年直接到了血虐其他算法的地步了,其實學術界的BAKER今年的進步也非常明顯,只不過在Alphafold面前不值得一提了。我們來看一下今年的結果!

這個圖是什麼概念?

CASP用來衡量預測準確性的主要指標是 GDT,範圍為0-100。簡單來說,GDT可以近似地認為是和實驗結構相比,成功預測在正確位置上的比例。70分就是達到了同源建模的精度,根據Moult教授的說法,非正式的說,大約90 分可以和實驗結果相競爭!

這次DeepMind直接把總分幹到了92.4,和實驗的誤差在1.6 埃,即使是在最難的沒有同源模板的蛋白質上面,這個分數也達到了了恐怖的87.0 。

來看兩個官網上秀的結果:

Alphafold2做了什麼改進?

文中講摺疊的蛋白質可以被視為「空間圖」,其中殘基是結點,邊緣將殘基緊密相連。該圖對於理解蛋白質內的物理相互作用及其進化歷史非常重要。對於在CASP14上使用的最新版本的AlphaFold,我們創建了一個基於注意力的神經網絡系統,該系統經過端到端訓練,試圖解釋該圖的結構,同時對所構建的隱式圖進行推理。它使用進化相關序列,多序列比對(MSA)和胺基酸殘基對表示來完善此圖。

文中沒有講深度增強學習,倒是講了目前學術界和工業界都非常關注的注意力模型。同時,用了128 TPUv3 cores 和幾周的時間,訓練了PDB庫中的~170,000蛋白(這個都是常規操作了)。這套模型需要幾天的時間來預測一個高精度的蛋白質結構。

Alphafold2會議具體細節:

聲明,來自一名業餘選手的解讀!

報告講完了,一句話概括,信息量不足。開篇放了19人的合影,待視頻release之後我把這幫人合影插一個進來紀念一下。然後我們直接快進到最感興趣的地方,模型是什麼?

John Jumper開篇講了一下核心觀點,物理直覺融入到了網絡結構中,端對端直接生成結構取代了殘基的距離矩陣,從圖的角度出發直接反映蛋白質的物理結構和幾何,

Jone提到的資料庫時候,說的是標準的資料庫,如序列庫UniRef90,BFD,MGnigy Clusters,結構庫PDB,PDB70。

訓練流程基本上和官網的圖一致,從序列出發得到MSA和template,然後給了一個雙線的transformer(似乎是在序列維度上和殘基維度上分別做了softmax),然後兩者怎麼交互的信息沒怎麼看明白,不過看迭代邊和序列的方式,應該就是經典的GNN, 參考資料:Deepmind的GNN,Transformer教程)。

然後結合3D-equivariant transformer 做端對端的訓練,訓練完之後用amber優化一下。參考資料,Max Welling大佬的3D Roto-Translation Equivariant transformer,聽說他們知道alphafold用了這個還挺吃驚。聽說這裡有一個可微分的問題,且需要neighborhood來幫助解決旋轉平移不變性特別吃內存,具體還不是很清楚,需要讀一下這篇文獻,完全陌生。

這裡沒有預訓練模型,沒有深度增強學習,輸入是MSA,沒有MRF/共進化/precision matrix作為feature,沒有distance matrix作為最終的輸出,直接輸出PDB,整個框架都變了!

然後基本就沒有然後了,信息量完全不夠,這裡放的都是碎片的相關信息,大家猜幾天我再試圖把這些串起來。至於Alphafold的核心武器在哪裡,討論下來,大家思路把更多的目光放在了後面的實現端對端的3D-equivariant transformer上。

猜測:端對端減少了embed 共進化信號帶來的噪音,distance matrix只有主鏈信息,PDB結構可以提供額外的約束信息,可以直接把模型質量反饋給前端的transformer。

期間感謝,Justas, Sergey,Sirui,Shihao和Rosetta中文社區各位大佬的討論。

Alphafold團隊配置

圖片來自casp14摘要

俗話說,作者列表提供了大量有效的信息(感謝wangsheng的提醒)。雖然摘要中沒有講alphafold2的具體細節,先讓我們來看看那19位共同第一作者都是做什麼的吧!

第一位 John Jumper是這屆alphafold的領袖,我記得上一屆是andrew senior(此人CS背景)。這屆明顯換人了,而且這位之前的研究經歷是都匹配這個問題的,可以說是domain knowledge豐富,他的linkedin簡歷。

John Jumper的公開簡歷

這位年輕帥氣的大哥,08-11年在世界上「最豪華」的分子動力學研究所,也就是傳奇的對衝基金大佬D.E. Shaw 帶領下的D.E. Shaw Research研究所的地方研究分子動力學模擬,

這人練級過程中有分子動力學和商業驅動科研的經歷。在芝加哥大學研究機器學習和粗粒化蛋白質摺疊的方法。最後進入了世界上又是「最豪華」的商業公司,一個曾經把柯潔下棋下到流淚的公司,deepmind,開啟了alphafold2的研究之路。這人的履歷就是為蛋白質摺疊這個問題而生的!

第二位 作者是Richard Evans,deepmind 有兩個richard,一開始把我搞蒙了,找到一個AI方向,具體細分是做範疇邏輯?(Cathoristic Logic)的,原來的應用是,個人行為和社會行為(Social Practices and Individual Personalities)?。據我腦子中的淺薄的知識,目前所有學術界在做蛋白質結構預測方向好像都沒有用上這個。以為deepmind在這裡用了什麼黑科技。然後經提醒發現是這個Richard Evans,主攻Deep reinforcement learning的,且參加過初代alphafold 的開發,瞬間合理了!

第三位 Alexander Pritzel,理論高能物理背景,最高引文章是還是deep reinforcement learning,有理由相信alphafold在這個策略上進行了嘗試。

第四位 Tim Green,量子化學,凝聚態物理轉移,博士工作是利用密度泛函理論來預測NMR的耦合參數,我的知識水平跟不上了,不知道如何安排的。

第五位 Michael Figurnov, 相關工作有residual network,這個在alphafold中已經部署,

第六位 牛津大學博士Kathryn Tunyasuvunakool,博士時候這位姐姐的主要工作在自述中應該是生物數據的處理,她在博士期間還寫過生物數據可視化的代碼。

第七位 Olaf Ronneberger,U-net的作者,單篇被引用次數超過20000,U-net是用於生物醫學圖像分割的卷積網絡。圖像分割,contact map cropping?

第八位 牛津大學博士Russ Bates,醫學圖像處理,第九位劍橋大學MEng,Augustin ídek,深度增強學習相關。第十位Alex Bridgland,牛津大學計算機博士,資料不詳,alphafold一代作者之一。

第十一位 Clemens Meyer,世界頂尖商學院巴黎高商畢業,且有了十年以上管理經驗的資深產品經理。這個是我沒有想到的。。。

第十二位 Simon Kohl,KIT畢業物理碩士,CS博士,alphafold一代作者。

第十三位 Anna Potapenko,俄羅斯國立高等經濟大學CS博士,自然語言處理相關,

這篇文章在我能夠理解的範圍內,瞎猜一個,transformer?long-range sequence?部署了transformer在提取序列attention當做input?

第十四位 Andrew Ballard, 計算物理學家,2015年加入deepmind,用過副本交換,研究過非平衡態系統,可能可以用來解決後面蛋白質結構refinement的問題?

第十五位 Angew Cowie,參與開發了Acme!!!DRL!!!

第十六位 Bernardino Romera Paredes UCL CS master。第十七位Stanislav Nikolov,MIT MEng master。第十八位, Rishub Jain,CMU CS master。第十九位,Demis Hassabis 大boss。

小結:這麼多看下來,是不是提取出了什麼關鍵詞,DRL!圖像分割。18年的alphafold我們還可以argue,其實他是集學術界大成者,整體創新性並沒有那麼強,起碼大家都很容易follow,這次的alphafold2我要下個暴論,是真正意義上的應用了AI來解決蛋白質摺疊問題!

問題:

1. 蛋白質摺疊問題解決了沒有?結構基因組學時代來臨了沒有?在這個技術下面,哪些目前的技術會被替代?結構生物學的空間在哪裡?哪些有瓶頸的技術會得到突破,比如和蛋白質組學聯合解釋數據?

基本解決了,從結構生物學的角度講,基因平等,然而人類總是挑一些可能比較有意思的蛋白去解析結構,alphafold2預測的精度足夠高,一些犄角旮旯的蛋白結構可以得到大量的補充。而且在序列數據爆炸的情況下,可以得到大量可靠的預測模型是非常有意義的。按Nature的一篇評論,人們可以花更多的時間思考,花更少的時間拿移液槍了。

但是Alphafold也提了,胺基酸側鏈的精確位置仍然是一個挑戰,還有一些比如PPI,DNA,RNA,小分子配體的結合還沒有解決。製藥行業對側鏈的精確度是非常之高的。

2. 機制問題:

學術界幹了幾十年沒解決的蛋白質摺疊問題,deepmind為什麼做的這麼好,僅僅是因為資源豐富嗎?

除了算法強之外,alphafold還匯集了幾個領域的大佬,甚至請了一個專業的產品經理,學術界的合作是否能如此的緊密?目前的學術運營框架下合作難度多大?

學術界是不是在搞跳高運動,每年創新1cm?

3. 對學術界有什麼影響?

網紅科學家穆罕穆德,這對這個領域是破壞性的,這個領域的核心問題已經被解決了,我想很多人都會離開這個領域了吧。

相關焦點

  • 「ABO爽文」冷漠腹黑溫柔alpha×奶兇可愛易炸毛omega,巨甜~
    大家好,好久不見,我是小鯨魚,歡迎來到純愛文的世界,哈哈哈~新鮮出爐的文章喲,快來看哦~【ABO爽文】冷漠腹黑溫柔alpha×奶兇可愛易炸毛omega,真甜~《獨有情鍾》作者:枝共冢簡介:南城二高的全校師生眾所周知:高二年紀尚未分化的五班靳意同學和已分化性別為alpha
  • 解讀狗語:這裡有本訓狗秘籍
    《教你讀懂狗語》 (美)艾琳·亞歷山大·紐曼 (美)加裡·韋茨曼 中國畫報出版社廣州日報訊 (全媒體記者 吳波)狗可以說是人類最好的朋友,它們忠心耿耿、通情達理,高興的時候和主人一起快樂,低潮的時候不離不棄。
  • 星際ABO純愛《甜味兒Alpha》雙A,敵人變愛人,請放心食用!超甜
    超甜《ABO之標記那個大齡O 》簡介:雙腿殘疾的大皇子晏戟被迫娶了大他五歲的omega塗笙,傳言中不孕的塗笙卻在看到晏戟的第一眼就打臉了,新婚過後,晏戟本想無視這個覬覦自己的omega,卻一直被打臉中,直到某一日,他的皇妃怎麼變胖了……精彩內容:優秀的alpha才不會計較幾口肉,優秀的alpha不能和omega置氣,晏戟在心裡默默背如何成為優秀alpha的守則
  • 純愛文推:可愛ABO文,這個alpha外A內弱,這omega外A內嬌
    《戎先生的失戀日記》作者桃白百,看名字以為是虐文,但是算是小甜餅吧。有一天,他邂逅了一個非常優秀的alpha陳柯堯,終於春天來了,一來二去,兩人交往了。  可是對方得知他是omega以後,崩了。這是怎麼回事?明明該是互相吸引才對啊。怎麼接個吻還吐了呢?兩人掰了。  巧的是命運的小爪伸向了他們,他們成了同住一個屋簷下的房東與房客。  看點總結
  • Ubuntu 9.04(活潑的懷俄明野兔) Alpha 1 發布
    據了解, Ubuntu 9.04 ( Jaunty Jackalope ) 將極有可能加入一個快速開機的功能,如果這個功能加入到 Ubuntu 9.04 中的話,那麼 Ubuntu 9.04 將會在數秒鐘內啟動完成,另外會重新整合Debian核心的更新升級,並加入對ARM處理器的支持。
  • 十種狗的行為解讀 解讀狗狗的肢體語言
    就跟人類的語言一樣,狗狗也會通過肢體動作來表達它們的意思,你真的都明白你的小夥伴想要表達的意思嗎?如果不知道的話沒關係,下面我們將做出詳細的十種狗的行為解讀。10. 帶給你東西你的毛茸茸的朋友有沒有給你帶來過它最喜歡的小皮球,或者是他抓到的小獵物?
  • eReader1.59(1.6alpha)(自製讀書&看圖軟體) (支持TTF字體)
    eReader1.59(1.6 alpha) (自製讀書&看圖軟體) (支持TTF字體)功能說明:讀書和看圖支持任意大小點陣字體,支持最大約20M的文件(PSP的內存上限),支持html讀取,編碼轉換,豎看,翻頁保留行,書籤及自動書籤等
  • 腐漫百科《狗與狼的時間》,成為我的男人,你的未來由我來守護
    謝謝大家的支持,這兩天閱讀量雖然不像以前那麼多,但是總算是活躍起來了,有很多粉絲願意留言和我討論漫畫什麼的,看到大家留言甚是欣慰。漫畫《狗與狼的時間》講述了極優Omega在滿是alpha監獄的艱難求生史。韓啟曜原本只是以為貧困的畫家,靠在網上接單為生。
  • 《星球大戰:戰爭前線2》開始向玩家發放alpha測試激活碼
    因為DICE似乎還沒有正式宣布《星球大戰:戰爭前線2》的Alpha測試時間。   EA社區經理墊埃弗雷特曾經表示發出的激活碼可用於所有平臺,但是他現在又表示,alpha測試可能不會出現在所有平臺上。   我們所知道的是,《星球大戰:戰爭前線2》的多人測試版正在進行中,但要更接近發布才能使用。 具體的時間細節尚未透露。   與2015年的初代遊戲不同的是,新作《星球大戰:戰爭前線2》加入了玩家們萬眾期待的單人戰役模式。
  • 狗子一生都在用尾巴說話,狗尾巴的深意解讀
    現在城市養狗人家很多,伴隨不負責主人拋棄而成為流浪狗的更不少見。所以,我們在處出時,遇到狗是常有的事。許多時候遇到狗時,沒有幾個人會視而不見,但都不會形成記憶,因為每天都會遇到。除非與狗發生了交集,那將會給你留下深刻的印象,或救助或被咬等,多數時都是見其沒有威脅而勿勿而過。
  • Kodi 16 Alpha 3 發布,XBOX 媒體中心
    users of Kodi on 3D TVs or VR headsetsThe Music Library and Files View for music have now been unified, similar to how video files and library are unified詳細信息請查看:http://kodi.tv/kodi-16-alpha
  • 艾解讀:驢子與狗——不要以自己的意願代替他人的意願
    #小故事大智慧#寓言故事驢子與狗狗聽到驢子讀的這些,很不舒服,不耐煩地對驢說:「好朋友,快讀下去,看有沒有提到肉和骨頭。」驢子將信全部讀完後,仍沒有發現信中提到狗所想要的東西,狗就說:「把它扔了吧,朋友,都是些沒有什麼興趣的東西。」艾解讀這個故事的本意是,有些人總是以自己的意願代替他人的意願。
  • 做夢夢見狗是什麼意思?預示什麼?
    做夢夢見狗且沒將夢中狗等同於自己的做夢人,又該如何解讀夢境預示呢?陳鵬解夢告訴你,解讀夢境預示是需要把做夢人在夢裡的遭遇和表現結合起來的。 夢見自己被狗咬是什麼意思?預示什麼?陳鵬解夢遇到一個男性諮詢夢境時,說他夢見被狗咬到其敏感位置,然後,他性福了...這夢被陳鵬解夢歸納到春夢的範疇。當做夢夢見被狗咬卻成了春夢裡才有的快樂感覺,則夢境預示解讀又指向了荷爾蒙的積累,以及畸形性意識在影響做夢人的生活。 夢見狗咬了別人是什麼意思?預示什麼?
  • 狗為什麼迷戀路邊的電線桿?解讀狗狗的常見行為
    日常中狗狗的有些常見行為讓鏟屎官很不解,今天就跟popobox寵物泡泡盒來解讀下狗狗的一些常見行為。狗在向它的朋友們(人或者其它狗〉問好時,會有向後咧的微笑的嘴﹑安祥的眼神﹑向後傾的耳朵以及翻卷的舌頭。
  • 狗尾巴的模糊解讀
    狗尾巴的模糊解讀現在城市養狗人家很多,伴隨不負責主人拋棄而成為流浪狗的更不少見。所以,我們在外出時,遇到狗是常有的事。許多時候遇到狗時,沒有幾個人會視而不見,但都不會形成記憶,因為每天都會遇到。除非與狗發生了交集,那將會給你留下深刻的印象,或救助或被咬等,多數時都是見其沒有威脅而勿勿而過。
  • 築巢什麼意思什麼梗? 這梗代指ABO世界觀裡的一種設定
    築巢什麼意思什麼梗? 這梗代指ABO世界觀裡的一種設定時間:2020-04-10 17:23   來源:小雞詞典   責任編輯:沫朵 川北在線核心提示:原標題:築巢什麼意思什麼梗?這梗代指ABO世界觀裡的一種設定 指ABO世界觀裡的一種設定,有的alpha(一種性別)在易感期會出現築巢行為,表現為收集大量的伴侶的衣服為自己築巢,類似於動物做窩。極其需要伴侶的氣味和伴侶陪伴,無論平時多麼冷漠強大的alpha,易感期   原標題:築巢什麼意思什麼梗?
  • ABO推薦《兩個alpha先生的第101次相親》雙A竹馬文,大半夜被甜哭
    大家好,歡迎大家來到笑笑的地盤,今天小編給大家推薦的是ABO推薦《兩個alpha先生的第101次相親》雙A竹馬文,大半夜被甜哭《他狠我就乖了》作者:半緣修道文案:黎楠七歲第一次見周宴,沒管住自己的手,弄碎了周宴的玩具模型。
  • 雙語閱讀|為什麼我的狗總是想走在我的前面而不是我的旁邊?
    為什麼我的狗總是想走在我的前面而不是我的旁邊?I saw this question and figured that many people would answer 『the dog thinks it’s dominant/alpha.』我看到這個問題,估計很多人都會回答'狗狗認為自己是主導。
  • 不要過分解讀,先來聊聊狗是如何走近人類生活的
    該目錄的作用並不是規定什麼動物能吃,什麼動物不能吃,所以現在還是不要過分地解讀這個目錄。在網上,對於這個話題形成了鮮明的兩方。一方認為,狗作為人類的忠實夥伴,已經從傳統的畜禽特化為伴侶動物了,而且現在世界上的一些國家也有關于禁食狗肉的相關規定,出於人類的感情,不應該再食用狗肉了。
  • 狗尾巴的模糊解讀
    現在城市養狗人家很多,伴隨不負責主人拋棄而成為流浪狗的更不少見。所以,我們在外出時,遇到狗是常有的事。許多時候遇到狗時,沒有幾個人會視而不見,但都不會形成記憶,因為每天都會遇到。除非與狗發生了交集,那將會給你留下深刻的印象,或救助或被咬等,多數時都是見其沒有威脅而勿勿而過。