阿爾法狗再下一城 | 蛋白結構預測AlphaFold大勝傳統人類模型

2021-02-15 生信寶典

「我有一個要研究的蛋白,但我不知道它的結構和功能」——這是分子和細胞生物學家每天面臨的最大難題之一。[1] 隨著胺基酸測序技術的不斷發展,越來越多的蛋白質序列得以被高通量地讀取,但是從這個一維序列本身到能夠解出實際的三維結構,仍然還有很大的距離。

[1]引自 Roy, A. et al., Nature Protocol, 2010


如果說生物的基本單元是細胞,那麼細胞的基本功能單元,就是一個個錯綜複雜的蛋白。而決定蛋白質功能的核心,正是蛋白的結構。想要研究蛋白質的功能或是設計靶向的藥物,蛋白質的結構也是非常重要的一環。也正是因為這種重要性,生物裡面專門有一個領域,叫做結構生物學。知名華人生物學家施一公,就是結構生物學的帶頭人之一。


2018年,又是兩年一度的國際蛋白質結構預測競賽(CASP)的日子(歷史推文無序結構域IDRs的預測裡也有提到)。這個迄今已經進行了25年的比賽項目,每屆都能吸引來自世界各地的數百支團隊參與,對一些組委會選中蛋白結構進行定量地預測。上周末,正是本屆競賽結果揭榜的日子。更多詳情可查看官網:http://predictioncenter.org/casp13


在揭榜以前,大賽組委會群發了這麼一條劇透郵件給參賽者。


CASP13 this year has observed unprecedented progress in the ability of computational methods to predict protein 3D structure. The reasons are not yet fully clear, but all this, including of course the results, will be discussed at the meeting.  


大意是說,這屆比賽見證了「前所未有」的突破,具體的原因尚不十分清楚,但我們會在周末的正式大會上進行詳細地討論。「史無前例的神秘團隊」,高高地吊起了眾人的胃口。因為這次事件的特殊性,大會甚至追加了一輪註冊,給想要來看熱鬧的媒體們提供額外一次買票的機會。

美國時間凌晨,本屆比賽參賽總榜正式揭開,一個署名為A7D的團隊拔得頭籌,並且把其他隊伍的結果遠遠地甩在了後面。甩得有多遠呢?駐波去挖了一下前幾次比賽的最終結果,A7D和第二名在本屆比賽中的差距,幾乎比CASP成立二十年以來模型性能提升的總和還要高[2]。

[2] 每屆預測目標不同,直接比較的結果並不非常準確。


縱坐標:模型對每一道賽題(蛋白)的

預測近似性成績累加,越高越好

深灰色的是今年97支隊伍的成績,淺灰色的是2016年上屆128支隊伍成績,紅色的是DeepMind的隊伍A7D。

舉幾個被預測蛋白的例子,A7D的模型的畫風是這樣的——

下面每幅圖代表參賽模型對某一個未知結構的蛋白的預測結果

縱坐標:模型預測和實際結構在全鏈上的累計偏差(越低越好)


青色的線是A7D的預測結果

粉色的線是總成績第二名的密西根大學團隊

這樣的——

和這樣的——

除了累計總分第一名,DeepMind團隊成功在43個參賽蛋白中拿到25個單項最佳模型;相比之下,累計總分第2名的團隊拿到了其中的3個[3]。 這個可謂一騎絕塵的隊伍究竟是何方神聖呢?是的你已經被劇透了,賽後A7D在論壇上表示,自己其實是來自DeepMind的研究人員,對就是那個當年開發AlphaGo的DeepMind!據報導,DeepMind已經將此模型正式命名為AlphaFold [3]。

[3] Guardian新聞

事實上,早在2017年10月,DeepMind就在一次公開採訪中表示,團隊開始對人工智慧在藥物開發中的應用感興趣,而新藥開發的關鍵一步,就是對靶點蛋白質三維結構的精準測算。如今這個新聞正好過去一年的時間,DeepMind也向世人再次證明了深度學習在又一全新場景中的巨大潛力。

Deep Learning又雙叒叕滲透進了一個新的應用場景

DeepMind這一次做了什麼?

據統計,截至2010年,只有0.6%的已知蛋白序列被解析出了相應的結構[3]。正是緣於這個巨大的斷層,第一屆蛋白質結構預測挑戰(Critical Assessment of Techniques for Protein Structure Prediction,CASP)於1994年在加州舉辦。得益於問題的規範化,二十年來許許多多的計算模型得以被開發。筆者的導師Chris Sander,多年前從理論物理方向轉行生物的時候,也是從結構預測這個生物學問題開始的。我也是這次寫這篇新聞稿才知道,Chris當年也是CASP競賽第一屆的獲獎者之一。


我的導師Chris Sander

可以手寫蛋白質三個漢字的德國老爺子

歷史上來說,這些計算的模型主要分成了三大流派——Comparative Modeling的演化流,threading methods的比對流,還有from scratch的ab initio流。

演化流的核心概念是尋找演化歷史上同源或者近似同源的序列,從他們的結構出發預測新的目標蛋白;比對流的核心概念是說,不一定要演化上同源,直接將目標序列中的片段和曾經解析出來的三維結構進行匹配和比對,就可以用來預測新的蛋白;而最難卻也最關鍵的,就是ab initio流,目的是從零開始預測那些完全找不到相似性的蛋白序列,這是拉丁語裡從最初開始的意思。

1999年,一款基於ab initio的模型Rossetta由華盛頓大學David Baker團隊開發。模型通過Monte Carlo模擬退火算法成功預測了長度100個胺基酸左右的若干蛋白,預測精度最低達到方均根差(RMSD) 3.8Å,並成為了CASP III的獲獎者之一 [4]。Baker 2003年發表於Science雜誌上的一項工作中,更是成功預測了一段長度93個胺基酸的人工合成序列TOP7,精度達到1.2Å[5]。2005年,Baker團隊開發了屏保程序Rosetta@home,客戶端會在閒置時幫助Rossetta伺服器進行結構解析的模擬運算。借用這種分布式計算的形式,調用眾多閒置個人計算資源,取得了極大的成功。

[4] Simons et al., Proteins. 1999.

[5] Kuhlman et al., Science. 2003.


Baker Lab開發的的屏幕保護程序Rossetta@Home

近年來,隨著CASP挑戰的持續進行,這些流派之間的界限也逐漸變得模糊,越來越多的科研團隊開始把這三方面信息都整合到一個模型之中,融合成一個更加準確的預測模型。在這些團隊之中,來自密西根大學的Yang Zhang團隊所開發的I-TASSER,就是成功的例子之一。


UMich的教授Yang Zhang和他開發的I-TASSER,該工具已經被引用超過6000次,協助過來自141個國家的超過100,000名科研人員。

從2008年模型面世開始,I-TASSER及他的各種變體組合已經成為了最流行的結構計算模型之一,在接近十年的CASP比賽中名列前茅。本次CASP比賽中,Zhang團隊通過整合I-TASSER和卷積神經網絡CNN,將模型準確率進一步提高,並獲得了本次比賽的第二名。

AlphaGo版的蛋白預測模型因何取得巨大突破

甚至早在AlphaGo面世之前,就有一些學者嘗試使用神經網絡和Reinforcement Learning來模擬退火的這一步過程[6]。那麼這次AlphaGo是因何能夠在本次比賽中脫穎而出呢?AlphaGo官方聲明還沒有出,我們只能從他在比賽網站上po出的一頁紙的概要中略窺一二。

[6] Czibula et al., Int.J.Comp.Tech.Appl. 2011.

DeepMind在CASP比賽網站上po出的模型概述

按照隊伍帶頭人之一Andrew Senior所述,本次DeepMind提交的預測結果來自於三種不同變體的神經網絡生成模型。整個模型由一個二維接觸網絡和一個評估網絡組成。

在二維接觸網絡中,蛋白的一級序列被用來預測蛋白每一對胺基酸與胺基酸兩兩組合的距離。在這一計算模塊中,雖然三維的結構尚不清楚,但是神經網絡可以學習並預測出是哪些胺基酸在相對較近的同一空間區域當中(contact matrix),相當於把一維的信息轉變為二維的距離。

評估網絡模塊的輸入,就是第一個網絡的輸出,再加上序列匹配(Multiple Sequence Alignment,MSA)和幾何結構(Structure Geometry)的信息。這些信息則被投入到一個退火組裝的模型當中,然後根據全片段的預測結構和實際結構的相似性學習出一個使退火組裝表現最好的分數;在預測過程中,這個分數作為退火模型優化的目標函數。

為了訓練這個神經網絡,DeepMind將國際蛋白質資料庫PDB中全部已知結構的蛋白都投入到了training當中。每個蛋白被分割成許許多多互相重疊的短肽,模型被要求對這些短肽片段進行結構的預測和評分。這些評分的結果和傳統的Rossetta的評分一起被用來訓練這兩個模塊中的參數,從而自動訓練出一個模擬退火的目標函數。

使用CASP13中的一個例子CASP13-T1008

演示模型訓練的進程

如果到這裡就結束了,那你就小看DeepMind了。DeepMind這次上傳的模型中,還包含了一種完全拋棄傳統上fragmentation先分段後組裝的訓練方法,在這個模型中,DeepMind將胺基酸之間的扭轉角(torsion)直接作為模型的預測輸出,對應兩個神經網絡給出的二維結構評估和全長評分直接進行梯度下降(Gradient Descent,GD),竟也取得了相當驚人的效果。這種幾乎完全放棄傳統意義上biophysics手動選取feature的方法,仿佛讓人們看到了當年AlphaGo高處不勝寒的影子。

後記:結構生物學的春天來臨了嗎

「除了DeepMind外,包括我們在內的很多工作組也在使用其他的Machine Learning方法解決這一問題。」英國科學家Liam McGuffin也表達了他的樂觀,「這幾年來AI給這個領域帶來了驚人的推動,也許在2020年左右,我們就可以基本上解決蛋白結構預測的問題,我對此很樂觀。」

在結構生物學領域,這毫無疑問是一項巨大的突破,但也掀起了很多質疑和擔憂的聲音。事實上,這個模型也尚沒有達到極高的準確率,在一些傳統模型可以解決的案例中,反而達不到預期的效果。比如CASP13-T0966-D1,對應E. Coli中的RRSP蛋白,是一種和Ras-Erk同路有相互作用的重要蛋白,也是一種治療Ras相關癌症的潛在藥物靶點,AlphaFold對這個蛋白的預測甚至都沒有達到平均水平。模型對於什麼樣的蛋白分子更有效?為什麼更有效?這些都尚未被詳細地研究清楚。這樣的模型可以被用來實際應用幫助藥物開發嗎?可能還要畫一個小小的問號。

一個DeepMind模型失敗的例子:蛋白RRSP

青色的線表示A7D的結果,粉色的線是總平均第二名的密西根大學團隊

「比起正確率的突破,DeepMind在退火模擬中沒有採用外界所預期的強化學習的思路更值得玩味。」MIT人工智慧實驗室的一名博士生S這樣告訴駐波,「DeepMind有一萬條理由去嘗試這條思路,但是最終公布的結果並沒有採用。如果擁有如此資源的DeepMind都沒有做到這些,這可能對於強化學習在蛋白摺疊中的應用是一個警告。」

「而且,模型中也包含了 Rosetta的評分。」S補充道,「DeepMind嘗試過拋棄這種評分系統,但是最終也沒有完全做到,這充分說明這種傳統方法長期積累下來的估值函數也起到了相當於重要的作用。」

實際上,AI在生物學的整合併非個例。近年來以google為首的人工智慧團隊在生物醫藥領域全面開花,已經在癌症病理圖片識別,基因組突變檢測,疾病風險評估等諸多領域取得了人類水平,甚至超過人類水平的耀眼成績。但這些表面看上去很成功的模型也都不可避免地受到普適性、可用性、可解釋性的障礙。

一個成熟的應用場景不僅僅需要一個高精度的網絡模型,更需要對領域裡亟待解決的問題有足夠深的理解,以及更多有著交叉學科背景的人才攜手努力。隨著越來越多的人加入到這場戰役之中,AI醫療,未來可期。


文/袁博

審/範靜萱、張涵雄、常亮


NGS基礎和軟體應用更多閱讀

畫圖三字經 生信視頻 生信系列教程 

心得體會 癌症資料庫 Linux Python 

高通量分析 在線畫圖 測序歷史 超級增強子

培訓視頻 PPT EXCEL 文章寫作 ggplot2

海哥組學 可視化套路 基因組瀏覽器

色彩搭配 圖形排版 互作網絡

易生信2019年課程,連報優惠

後臺回復「生信寶典福利第一波」獲取教程合集

相關焦點

  • 精準預測蛋白結構的AlphaFold,會砸了結構生物學家的飯碗嗎?
    pixabay.com2020年11月30日,谷歌旗下DeepMind公司研發的人工智慧系統AlphaFold在第14屆國際蛋白質結構預測競賽(CASP)中摘得桂冠。這些激動人心的表述,讓網友們驚呼:如果機器預測蛋白結構這麼準,結構生物學家們的飯碗,要被機器搶走了嗎?
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    比賽的目的是根據胺基酸列表來預測蛋白質的結構,這些胺基酸列表會在幾個月內每隔幾天發送給參賽團隊。這些蛋白質的結構最近已經通過費力又費錢的傳統方法破解,但還沒有公開。提交最準確預測的團隊將獲勝。先通過神經網絡預測胺基酸之間的距離和化學鍵角度,然後再根據兩種物理屬性對結構進行評分,最後通過梯度下降優化評分。第二種方法是通過梯度下降來優化評分,得到的結構高度精確。
  • AlphaFold2是什麼狗?(會後解讀)
    前言蛋白質結構預測問題是結構生物學一個裡程碑式的問題,每兩年,人類會組織一場蛋白質結構預測大賽,而在接下來的幾天,第十四屆,堪稱該領域奧林匹克的比賽,CASP14就要開始了。CASP13 Alphafold 力壓群雄,碾壓各種人類傳統模型,讓我們先來回顧一下,之前的CASP都發生了什麼?(圖片來源)這幾十年科學家們一直在緩慢而且努力的前進著。CASP11比賽中的共進化方法開始嶄露頭角,有了一個小的跳躍,然後CASP12大家就齊頭趕上了。
  • AlphaFold成功預測蛋白質結構
    AlphaFold的首次迭代將深度學習應用到結構和遺傳數據上,用來預測一個蛋白質的胺基酸對之間的距離。第二步不需要AI,AlphaFold會用這一信息給出這個蛋白質應有結構的「共識」模型,DeepMind項目負責人John Jumper說。團隊嘗試從這個方法展開,但最終碰壁了。
  • DeepMind抗疫:預測新冠病毒相關蛋白結構
    「在共享的蛋白質資料庫中,我們的系統準確地為SARS-CoV-2刺突蛋白提供了預測實驗,這使我們相信,我們對其他蛋白質的模型預測可能是有用的。」DeepMind在博客文章中寫道。DeepMind的底氣,來自於AlphaFold——這個2018年12月問世便驚呆科學家的系統,它主要功能是用人工智慧加速科學發現。
  • 精準預測蛋白結構的Al,會砸了結構生物學家的飯碗嗎?
    2020年11月30日,谷歌旗下DeepMind公司研發的人工智慧系統AlphaFold在第14屆國際蛋白質結構預測競賽(CASP)中摘得桂冠。自由建模環節中AlphaFold的模型與實驗數據高度貼合。藍色為計算預測,綠色為實驗結果。圖源:deepmind.com在今年CASP比賽中,組織方在5月到8月間放出胺基酸序列,上百個參賽團隊可在5月至9月中旬間提交模型。
  • 【獨家解讀】Nature論文AlphaFold:AI推動科學發現
    我們已經建立了一個專門的跨學科團隊,希望利用AI來推動基礎研究的發展:召集結構生物學,物理學和機器學習領域的專家,共同運用前沿技術來實現僅根據遺傳序列預測蛋白質的3D結構。我們的系統AlphaFold是多年工作的結晶,它建立在數十年來使用大型基因組數據集預測蛋白質結構的研究的基礎上。AlphaFold生成的蛋白質3D模型比以前的任何一種都要精確得多,這標誌著生物學的一項核心挑戰取得了重大進展。
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    圍棋界公認阿爾法圍棋的棋力已經超過人類職業圍棋頂尖水平。但是 DeepMind 團隊的最終目的並不是做遊戲,他們希望用人工智慧方法能幫助人類推動基本科學的進步。近日,團隊發現了僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構的方法。雷鋒網 AI 科技評論編譯如下。
  • CASP14: DeepMind的AlphaFold 2到底取得了什麼成就? 它對蛋白質摺疊, 生物學和生物信息學意味著什麼?
    蛋白質結構預測是結構生物學一個裡程碑式的問題, 每兩年, 人類會組織一場蛋白質結構預測大賽, 即結構預測關鍵評估競賽(CASP), 它堪稱該領域的奧林匹克賽. CASP14的會議安排在2020年12月1號美東時間10點, 也就是北京時間, 周二的晚上11點, 世界上成績最好的三支隊伍將要給我們講解他們今年在CASP14上創造了什麼樣的成績?!
  • 顏寧等點評:AI 精準預測蛋白質結構,結構生物學何去何從?
    傳統上,蛋白質結構預測可以分成基於模板和從頭預測,但是 AlphaFold2 只用同一種方法 —— 機器學習,對幾乎所有的蛋白質都預測出了正確的拓撲學的結構,其中有大約 2/3 的蛋白質預測精度達到了結構生物學實驗的測量精度。這說明,至少是在單結構域的蛋白結構,他們接近解決了這個問題。谷歌這次為什麼能夠取得如此大的成功?
  • 結構生物學興趣小組,學習A​lphafold2
    研究Alphafold2分子動力學凝聚態物理範疇邏輯拓撲,流形(扭結理論和瓊斯多項式)機器學習結構生物學計算共形幾何結合在一起,探索蛋白質結構、功能。年初,Jo Marchant [1] 等人藉助AI,在不使用任何人類假設的情況下,從零開始識別出全新種類的抗生素,並進一步由科學家驗證效果。未來,機器學習是否也能不藉助結構生物學家知識的假設,預測有一定功能的蛋白質結構,再由結構生物學家來驗證。這可能會改變結構生物學研究的範式。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    在CASP這項比賽中,DeepMind開發AlphaFold2用的數據是:資料庫裡的超過17萬種蛋白序列與結構,以及其他一些大型資料庫裡的數據。 評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    最終,谷歌旗下DeepMind公司的人工智慧系統AlphaFold2在2018年的Alphafold基礎上迭代創新,超常發揮,一枝獨秀,基本解決了「從胺基酸序列預測蛋白質結構」這個困擾人類50年的生物學第二遺傳密碼問題。
  • AI精準預測蛋白質結構,結構生物學何去何從?|返樸
    最終,谷歌旗下DeepMind公司的人工智慧系統AlphaFold2在2018年的Alphafold基礎上迭代創新,超常發揮,一枝獨秀,基本解決了「從胺基酸序列預測蛋白質結構」這個困擾人類50年的生物學第二遺傳密碼問題。
  • AlphaFold預測蛋白質3D結構,2018谷歌走下神壇,微軟創CoQA挑戰
    ;AlphaFold能根據基因序列來預測蛋白質的3D結構,近期在接受採訪時,哈薩比斯也講述了這背後的故事。【業界 | 2018,谷歌走下神壇】來源:銀杏財經2018年,谷歌一步步走下神壇今年 20 歲的谷歌,在四大科技巨頭中淪為墊底。隱私政策、壟斷指控、性醜聞、AI軍事項目爭議、高管離職......2018年,谷歌一步步走下神壇。
  • AlphaFold:首個有望獲得諾貝爾獎的人工智慧成果
    以電腦跟人下象棋為例,隨著算力的提升,就連西洋棋冠軍也下不過電腦。後來,人們認為在圍棋上,機器應該無法超越人類,因為圍棋有 219×19 各種變化。但沒想到僅十幾年光景,谷歌的 AlphaGo 就已打敗世界圍棋冠軍李世石。而 AlphaFold 同樣代表著人類對此方向的追求,其中包括在算法上訓練如何破解蛋白質結構和驗證晶體結構等。
  • 人工智慧預測蛋白結構能力堪比實驗室水平
    不過,傳統的實驗室方法費時(數月到數年)、費力、燒錢,很多人在嘗試尋找新的方法預測蛋白質的三級結構。 用Lupas的話說,在當時的條件下,預測複雜蛋白的結構簡直就是一場災難。 到2016年,對於最難的蛋白質,計算預測的GDT分數才達到40分左右。粗粗看來,22年的時間只提高了20分左右。
  • Science:利用宏基因組數據預測之前未知的蛋白結構
    2017年1月23日/生物谷BIOON/---根據一項新的研究,從多種環境中收集的DNA序列數據有助研究人員構建出600多種蛋白家族的三維結構模型,而在此之前,它們的結構是未知的。這些宏基因組數據能夠讓人們在多種物種之間進行蛋白序列比較,從而允許利用統計學力量預測這些之前不可能預測的蛋白結構。
  • AlphaFold:首個有望獲得諾貝爾獎的人工智慧成果|專訪
    在上世紀九十年代,人們就意識到如果數據足夠多、算力足夠強,用機器預測蛋白質結構就會成為現實。以電腦跟人下象棋為例,隨著算力的提升,就連西洋棋冠軍也下不過電腦。後來,人們認為在圍棋上,機器應該無法超越人類,因為圍棋有 219×19各種變化。 但沒想到僅十幾年光景,谷歌的 AlphaGo 就已打敗世界圍棋冠軍李世石。
  • 「深度學習」通過學習勢能函數實現蛋白質的結構預測
    深度神經網絡(DNN)近期在蛋白質結構預測方面展現出了優異的表現,該領域常用的方法包括(1)胺基酸殘基間距預測(參考:AlphaFold開啟了新方向嗎)以及(2)相鄰殘基間的扭轉角預測(參考:最新蛋白結構預測模型-循環幾何網絡RGN),這些方法在往期的推送中都有所涉及。