DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》

2021-01-08 雷鋒網



雷鋒網(公眾號:雷鋒網)報導:還記得AlphaFold成名的那一戰麼?

2018年的11月2日,在第13屆全球蛋白質結構預測競賽(CASP)上,AlphaFold獲得了預測43種蛋白中的25種蛋白結構的最高分,在98名參賽者中排名第一。對於DeepMind的預測方法,由於當時沒有具體論文發布,眾多學者認為是計算能力突出使得AlphaFold獲得冠軍。

1月15日,DeepMind關於AlphaFold模型與代碼通過了同行評審發布在了雜誌《nature》上面。並且模型和代碼已經開源。

代碼:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13

模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf

根據DeepMind的介紹,在預測蛋白質結構的物理性質方面使用了兩種不同的方法來構建預測模型。並且兩種方法都是基於深度神經網絡來設計的,另外,預測模型主要完成對基因序列中蛋白質的特性的預測,這些特性包括:a:成對的胺基酸之間的距離;b:連接這些胺基酸的化學鍵之間的角度。

兩種圖片展示方式都表達了AlphaFold預測的準確度,像素亮度代表胺基酸之間的距離,像素顏色越亮,兩個殘基(residues)對就越近。第一行圖片是真實距離,中間一行圖片展示的是平均距離。

具體操作步驟為用神經網絡預測蛋白質中的每一對殘基的概率分布,然後將這些概率合併為一個分數,從而能夠估計預測蛋白質結構的準確性。另外,還訓練了一個單獨的神經網絡,基於所有距離的總和來評估預測的蛋白質結構與實際的結構的接近程度。然後使用評分系統(也是用神經網絡構建)找到最優的預測。

雷鋒網:整個蛋白質結構預測的過程

第二種方法是採用梯度下降優化分數,從而達到更準確的精度。更具體的是將梯度下降應用在整個蛋白質結構鏈的預測過程,而不僅僅是蛋白質展開的「碎片」。

模型簡介

https://www.biorxiv.org/content/10.1101/846279v1.full.pdf

根據DeepMind公開的論文《Improved protein structure prediction using predicted inter-residue orientations》。AlphaFold由深度學習和傳統算法混合而成:CNN+Rosetta。

具體來說構建神經網絡預測殘基間的方向和距離,然後用Rosetta對蛋白質結構同源建模、結構修復。同時設計一種Rosetta的優化方法來補充Rosetta能量函數的預測約束,進而生成更精確的模型。

儘管訓練數據集全部為天然的蛋白質,但該模型始終將更高的概率分配給新設計的蛋白質,並找到決定殘基的關鍵摺疊和建立蛋白質結構「理想性(ideality)」的獨立定量衡量標準。

更為具體的,模型的由兩個關鍵部分組成:一個是深度殘差卷積神經網絡,即將多序列比對( multiple sequence alignments)作為輸入;輸出的信息為蛋白質中的殘基對中的相對距離和方向。

另一個是在網絡輸出的基礎上針對殘基對的距離和方向最小化的約束建立快速Rosetta模型(fast Rosetta model)在訓練數據集方面,DeepMind使用的蛋白質資料庫(PDB)裡面有15051個蛋白質鏈條信息,其中有30%是被標註的數據。

關於對模型的測試,DeepMind使用的是兩個獨立的測試集:第一個來自CASP13,第二個來自CAMEO實驗。另外,在CASP13數據集上,DeepMind使用完整的蛋白質序列而不是結構域序列來模擬。

圖註:A:用角度和距離表示從一個殘基到另一殘基的轉換。B:神經網絡結構根據MSA預測殘基間的幾何形狀;C:預測過程概覽

在殘基間的幾何預測方面,DeepMind使用深度殘差神經網絡。與大多數預測方法不同,DeepMind除了預測化學鍵之間的距離之外,殘基對之間的方位也屬於其預測的範圍。如上圖所示,殘基1與殘基2之間的方位由3個二面角以及2個平面角表示。其中ω表示沿虛軸(連接兩個殘基的原子)旋轉角度。平面角定義了從殘基1看到殘基2的Cβ原子的方向。另外,與d和ω不同,θ和φ坐標是不對稱的,其取決於殘基的順序。綜上6個參數d,ω,定義了兩個殘基的主幹原子的相對位置,這6個參數也是神經網絡所要預測的。

神經網絡的輸入是從MSA提取的特徵,並且執行動態運算。輸入的一維特徵包括:蛋白質胺基酸序列的獨熱編碼、位置特定頻率矩陣(position-specific frequency matrix)、配位熵(positional entropy)。隨後這些一維特徵被水平和垂直平鋪,然後堆疊在一起以產生2×42=84個2維特徵映射。此外,DeepMind從MSA中提取配對統計信息,這些信息從輸入MSA構造的縮小協方差矩陣的逆導出的耦合來表示。首先計算一個站點(one-site)和兩個站點(two-site)的頻率計數,計算公式如下:

其中,A和B分別表示胺基酸的屬性,δ是克羅內克函數,Wm是MSA中序列數目的倒數,與序列m至少有80%的序列同源性。其中

然後計算樣本協方差矩陣,公式如下:

接下來在收縮(即通過在對角線上附加恆定權重進行正則化)之後求其逆(也稱為精度矩陣):

範數轉換:

最後修正:  

在具體的訓練過程中,DeepMind使用交叉熵進行評估,其評估結果是總損失等於4個擁有同樣權重的分支網絡的損失之和。另外,使用學習率為1e-4的Adam優化器,Dropout保持85%的概率。並隨機地對輸入MSAs在對數尺度上平均進行採樣,長度超過300個胺基酸的大蛋白質會被隨機切片。然後對於距離分布,將概率值通過以下等式將概率值轉換為分數:

上述公式中的a是常數(=1.57),di是第i個bin的距離,

pi是第i個bin的距離的概率,N是bin的總數。

對於方向的分布,不考慮歸一化的情況下,概率轉分數的公式為:


最後將所有的分數通過Rosetta轉化成平滑勢能,並用約束限制勢能最小化。綜上整個模型我們可以歸結為:扔進一個蛋白質序列,生成一個結構、一個評分,通過評分判斷是否滿意,不滿意就再生成一個。

代碼簡介

根據DeepMind提供的Github中介紹,這份代碼包括預測網絡、相關的模型權重以及在《自然》雜誌上發表的CASP13數據集的實現。此外,還詳細的介紹了數據的下載地址,以及如何輸入數據;運行系統如何操作也給出了詳細的指導。雷鋒網 AI科技評論在下方再次給出github地址,感興趣的讀者趕緊去上手試一試吧!

https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    DeepMind 開放的新冠病毒蛋白質結構預測結果下載連結:https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip為什麼要用深度學習預測新冠病毒蛋白結構?
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    機器之心報導機器之心編輯部Alphabet(谷歌)旗下公司 DeepMind 的人工智慧 AlphaGo 曾在西洋棋、圍棋等項目中取得了超越人類的表現,其研究不僅震驚世界,也兩次登上值得一提的是,AlphaFold 關注從頭開始建模目標形狀,且並不使用先前已經解析的蛋白質作為模板。AlphaFold 在預測蛋白質結構的物理性質上達到了高度的準確性,然後基於這些預測可以使用兩種不同的方法預測構建完整的蛋白質結構。
  • DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!
    前幾天,DeepMind宣布推出全新的AlphaFold系統,能夠預測並生成蛋白質的3D結構。這一系統在周日進行的國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手。 我們都知道,蛋白質是維持我們生命所必需的龐大而複雜的物質。我們身體的幾乎所有功能,例如收縮肌肉、感知光線或將食物轉化成能量等,都需要一種或多種蛋白質來完成。
  • 【AlphaFold精準預測蛋白結構】|蛋白質|胺基酸|生物學|複合物...
    繼圍棋、西洋棋等競技項目之後,近日谷歌旗下DeepMind開發的人工智慧程序AlphaFold在兩年一次的蛋白質結構預測挑戰賽CASP中再次大幅勝出。該程序在根據蛋白質胺基酸序列確定蛋白質三維結構方面取得巨大飛躍,準確性可與冷凍電子顯微術(亦稱冷凍電鏡)(Cryo-EM)和X-射線晶體學等實驗技術相媲美。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    此消息一出,立刻登上了Nature雜誌封面,標題直接評論為:「它將改變一切!」。該圖代表了AlphaFold系統的神經網絡模型體系結構。該模型對蛋白質序列和胺基酸殘基進行操作——在兩種表示之間傳遞迭代信息以生成結構。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    DeepMind在官方博客中稱:AlphaFold的最新版本,在通過胺基酸序列精確預測蛋白質摺疊結構方面,已經獲得權威蛋白質結構預測評估機構(Critical Assessment of protein Structure Prediction,CASP)的認可。此消息一出,立刻登上了Nature雜誌封面,標題直接評論為:「它將改變一切!」。
  • 預測新冠病毒「蛋白質摺疊」重磅武器:AlphaFold!精度碾壓生物與...
    我們分享了幾種模型預測的病毒蛋白質結構,希望能為廣大研究人員提供一些幫助。我們相信新系統比我們早期的CASP13系統更準確。 此前,我們成功預測了一個蛋白質資料庫中經過實驗驗證的SARS-CoV-2棘突蛋白結構,這給了我們足夠的信心,新系統預測其他蛋白質結構也是有可能的。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    DeepMind在官方博客中稱:AlphaFold的最新版本,在通過胺基酸序列精確預測蛋白質摺疊結構方面,已經獲得權威蛋白質結構預測評估機構(Critical Assessment of protein Structure Prediction,CASP)的認可。此消息一出,立刻登上了Nature雜誌封面,標題直接評論為:「它將改變一切!」。
  • AlphaFold2是什麼狗?(會後解讀)
    文中沒有講深度增強學習,倒是講了目前學術界和工業界都非常關注的注意力模型。同時,用了128 TPUv3 cores 和幾周的時間,訓練了PDB庫中的~170,000蛋白(這個都是常規操作了)。這套模型需要幾天的時間來預測一個高精度的蛋白質結構。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • 預測蛋白結構的AlphaFold,會砸了結構生物學家飯碗嗎?
    藍色為計算預測,綠色為實驗結果。圖源:deepmind.com在今年CASP比賽中,組織方在5月到8月間放出胺基酸序列,上百個參賽團隊可在5月至9月中旬間提交模型。隨著海量的序列和結構數據積累,預測結構不再是根據胺基酸序列「空算」,而有了學習的依據。利用這17萬公開的蛋白質序列和結構數據,以及已知序列而未知結構的蛋白質資料庫,DeepMind 對 Alphafold 進行訓練。
  • DeepMind宣布解決蛋白質摺疊問題,獲92.4準確性得分
    CASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。而該模型,使盧帕斯和他的同事能夠理解他們的X射線數據。參考連結:https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biologyhttps://www.nytimes.com
  • DeepMind破解蛋白質摺疊難題
    它使用了大約128個 TPU v3 (大致相當於100-200個 GPU) ,只訓練了幾周時間,在當今機器學習領域中使用的大多數SOTA模型中來說是一個相對較少的計算量。CASP 是評估預測技術的標準。更重要的是,CASP 選擇那些最近才經過實驗確定的蛋白質結構(有些在評估時仍在等待確定)作為研究小組測試其結構預測方法的目標; 而這些結構的預測方法並沒有提前公布。參與者必須直接預測蛋白質的結構,這些預測隨後會在可用時與實驗數據進行比較。
  • ...DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子摺疊問題
    最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。  DeepMind 重大科研突破的消息一出即被《Nature》、《Science》等科學雜誌爭相報導,新成果也立刻獲得了桑達爾 · 皮查伊、伊隆 · 馬斯克等人的祝賀。
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    通過強有力的跨學科方法,DeepMind 匯集了結構生物學、物理學和機器學習領域的專家,應用前沿技術,僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構。 我們的系統,AlphaFold,在過去的兩年裡我們一直在努力研究它,它建立在多年前使用大量基因組數據預測蛋白質結構的研究基礎之上。
  • DeepMind抗疫:預測新冠病毒相關蛋白結構
    「在共享的蛋白質資料庫中,我們的系統準確地為SARS-CoV-2刺突蛋白提供了預測實驗,這使我們相信,我們對其他蛋白質的模型預測可能是有用的。」DeepMind在博客文章中寫道。DeepMind的底氣,來自於AlphaFold——這個2018年12月問世便驚呆科學家的系統,它主要功能是用人工智慧加速科學發現。
  • DeepMind劃時代傑作!AlphaFold蛋白結構預測擊敗人類奪冠
    通過跨學科方法,DeepMind匯集了來自結構生物學,物理學和機器學習領域的專家,以應用尖端技術,僅根據其基因序列預測蛋白質的3D結構。在獲悉這一划時代的技術性突破後,動脈網試圖通過以下邏輯,還原DeepMind再次戰勝人類模型的「裡程碑」事件,以及DeepMind在醫療領域所做的探索。
  • DeepMind破解蛋白質摺疊難題
    AlphaFold解決蛋白質摺疊問題的方法DeepMind 在2018年首次使用最初版本的 AlphaFold 參加 CASP13,在參賽者中獲得了最高的準確度,隨後又在《自然》雜誌上發表了一篇關於 CASP13 方法及相關代碼的論文,這篇論文繼續啟發了其他工作和社區開發的開源實現。
  • 向李昌鈺學破案,這是Deepmind預測蛋白質結構的秘密研究方法嗎?
    不,我們要向李昌鈺博士學習破案手段,絕不放過任何蛛絲馬跡,靠豐富的想像力,進行推理,看能否找到Deepmind預測蛋白質結構的秘密研究方法。結構預測評估競賽(CASP)是第十三次舉辦的意思。官網介紹:結構預測評估競賽(CASP)13為評估蛋白質結構建模方法提供了獨立的制度。從2018年5月到7月,CASP組織者一直在這個網站上發布未知蛋白質結構的序列進行建模。從5月到8月中旬收集蛋白質模型,並在實驗坐標可用時進行評估。在夏季和秋季,全球大約100個研究小組提交的數以萬計的模型得到了處理和評估。
  • DeepMind破解蛋白質摺疊難題
    AlphaFold解決蛋白質摺疊問題的方法DeepMind 在2018年首次使用最初版本的 AlphaFold 參加 CASP13,在參賽者中獲得了最高的準確度,隨後又在《自然》雜誌上發表了一篇關於 CASP13 方法及相關代碼的論文,這篇論文繼續啟發了其他工作和社區開發的開源實現。