DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構

2020-11-29 搜狐網

原標題:DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構

雷鋒網 AI 科技評論按:在 2016 年和 2017 年,谷歌旗下 DeepMind 團隊的研究成果 AlphaGo 可以說是科技界當之無愧的焦點。2016 年,AlphaGo 以出色的表現戰勝圍棋世界冠軍、職業九段棋手李世石,之後和中日韓數十位圍棋高手進行快棋對決,連續 60 局無一敗績。2017 年 5 月,AlphaGo 以 3 比 0 的總比分戰勝排名世界第一的世界圍棋冠軍柯潔。圍棋界公認阿爾法圍棋的棋力已經超過人類職業圍棋頂尖水平。

但是 DeepMind 團隊的最終目的並不是做遊戲,他們希望用人工智慧方法能幫助人類推動基本科學的進步。近日,團隊發現了僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構的方法。雷鋒網 AI 科技評論編譯如下。

今天,我們非常興奮地與大家分享 DeepMind 在展示人工智慧研究如何推動和加速新的科學發現方面的第一個重要裡程碑。通過強有力的跨學科方法,DeepMind 匯集了結構生物學、物理學和機器學習領域的專家,應用前沿技術,僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構。

我們的系統,AlphaFold,在過去的兩年裡我們一直在努力研究它,它建立在多年前使用大量基因組數據預測蛋白質結構的研究基礎之上。AlphaFold 產生的蛋白質的 3D 模型比之前的任何模型都精確得多,也就是在這一生物學核心挑戰上取得了重大進展。

蛋白質摺疊問題是什麼?

蛋白質是維持生命必不可少的複雜大分子。幾乎我們身體的每一項功能——收縮肌肉、感知光線或將食物轉化為能量——都可以追溯到一種或多種蛋白質以及它們如何移動和轉化。製作這些蛋白質的配方,也就是基因,就編碼在我們的 DNA 中。

每種蛋白質可以做什麼取決於其獨特的三維結構。例如,構成我們免疫系統的抗體蛋白是「Y 形」,類似於獨特的鉤狀物。通過鎖定病毒和細菌,抗體蛋白能夠檢測並標記致病微生物以便消滅它們。類似地,膠原蛋白呈繩索狀,它在軟骨、韌帶、骨骼和皮膚之間傳遞張力。其他類型的蛋白質包括 CRISPR 和 CAS9,它們能像剪刀一樣剪切和粘貼 DNA;抗凍蛋白,其 3D 結構允許它們與冰晶結合併防止生物體凍結;核糖體就像一個程序化的裝配線,幫助自己構建蛋白質。

但是僅僅根據蛋白質的基因序列來弄清蛋白質的 3D 形狀是一項複雜的任務,科學家們已經為此奮鬥了幾十年。挑戰在於,DNA 只包含有關這種蛋白質的胺基酸殘基的序列的信息,這種胺基酸殘基形成長鏈。預測這些長鏈是如何摺疊成複雜的蛋白質 3D 結構就是所謂的「蛋白質摺疊問題」。

蛋白質越大,模型就越複雜和困難,因為需要考慮胺基酸之間更多的相互作用。正如列文塔爾的悖論所指出的,在得到正確的 3D 結構之前,需要比宇宙的年齡更長的時間來枚舉典型蛋白質所有可能的構型。

蛋白質摺疊為什麼很重要?

預測蛋白質形狀的能力對科學家是有用的,因為理解其在體內的作用對診斷和治療被認為是由蛋白質的錯誤摺疊引起的疾病是至關重要的,如阿爾茨海默氏症、帕金森氏症、亨廷頓氏症和囊性纖維化。

我們尤其感興趣它是如何提高我們對身體的理解以及它是如何工作的,這可以使得科學家能夠設計出新的、更有效的治療疾病的方法。我們可以通過模擬和模型獲得更多關於蛋白質的形狀和它們如何工作的知識,它開闢了藥物發現的新潛力,同時也降低了實驗相關的成本。這最終可以改善全世界數百萬患者的生活質量。

對蛋白質摺疊的理解也有助於蛋白質設計,這可以帶來許多好處。例如,可以通過蛋白質設計來實現生物可降解酶,從而幫助對付諸如塑料和石油之類的汙染物,幫助我們以對環境更友好的方式分解廢物。事實上,研究人員已經開始對細菌進行工程改造,以分泌蛋白質,使廢物可生物降解並更容易處理。

為了促進對提高預測準確性的最新方法的研究和測量進展,1994 年建立了一個名為 Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction(CASP)的兩年一度的全球競賽,並已成為評估技術的金標準。

AI 是如何帶來改變的?

在過去的 50 年中,科學家已經能夠使用實驗技術,如冷凍電子顯微鏡、核磁共振或 X 射線晶體學,在實驗室中確定蛋白質的形狀,但是每種方法都依賴於大量的試驗和誤差,這可能需要數年時間,並且每個結構花費很多錢。這就是為什麼生物學家轉向人工智慧方法,以替代這一漫長而費力的檢測複雜蛋白質的過程。

幸運的是,由於基因測序成本的迅速降低,基因組學領域數據非常豐富。因此,基於基因組數據的深度學習方法在近幾年來變得越來越流行。今年我們向 CASP 提交了 AlphaFold,這是近幾年我們 DeepMind 對這個問題的研究成果。我們很自豪地成為 CASP 組織者所稱的「在預測蛋白質結構的計算方法能力方面的空前進步」的一部分,在入選的團隊中排名第一(我們的代號是 A7D)。

我們的團隊特別關注從零開始建模目標形狀的難題,而不使用以前構建的蛋白質結構作為模板。在預測蛋白質結構的物理性質時,我們獲得了很高的精確度,然後使用兩種不同的方法來構建全蛋白質結構的預測。

用神經網絡預測物理性質

這兩種方法都依賴於深層神經網絡,這些神經網絡被訓練後可以從蛋白質的遺傳序列預測蛋白質的性質。我們的網絡預測的特性是:(a)胺基酸對之間的距離,(b)連接這些胺基酸的化學鍵之間的角度。第一個進展是評估胺基酸對是否彼此接近的常用技術的進步。

我們訓練神經網絡來預測蛋白質中每對殘基之間距離的獨立分布。然後將這些概率組合成一個分數,以估計所構建的蛋白質結構有多精確。我們還訓練了一個單獨的神經網絡,它使用所有距離來估計所構建的結構離正確答案有多近。

構造蛋白質結構預測的新方法

利用這些評分功能,我們能夠搜索蛋白質形狀,找到符合我們預測的結構。我們的第一個方法建立在結構生物學中常用的技術之上,並且用新的蛋白質片段反覆替換蛋白質結構的片段。我們訓練一個有生成式的神經網絡來發明新的片段,這些片段被用來不斷改進所提議的蛋白質結構的評分。

第二種方法通過梯度下降來優化分數,梯度下降是機器學習中常用的數學技術,用於進行小的、遞增的改進,從而構建高精度的結構。這種技術應用於整個蛋白質鏈,而不是在組裝之前必須單獨摺疊的片段,從而降低了預測過程的複雜性。

接下來會發生什麼?

我們首次涉足蛋白質摺疊的成功,展示了機器學習系統如何能整合各種信息來源,以幫助科學家快速地找到解決複雜問題的創造性解決方案。正如我們已經看到人工智慧如何通過像 AlphaGo 和 AlphaZero 這樣的系統幫助人們掌握複雜的遊戲,我們也同樣希望有一天,人工智慧的突破也能幫助我們掌握基本的科學問題。

這些早期的蛋白質摺疊進展的跡象,證明了人工智慧在科學發現中的效用,這是非常令人興奮的事情。儘管我們在能夠對治療疾病、管理環境等產生量化影響之前還有很多工作要做,但我們知道潛力是巨大的。我們擁有一個專注的團隊,致力於研究機器學習如何推動科學進步,我們期待著看到我們的技術可以帶來更多的變化。

雷鋒網返回搜狐,查看更多

責任編輯:

相關焦點

  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    2018年的11月2日,在第13屆全球蛋白質結構預測競賽(CASP)上,AlphaFold獲得了預測43種蛋白中的25種蛋白結構的最高分,在98名參賽者中排名第一。對於DeepMind的預測方法,由於當時沒有具體論文發布,眾多學者認為是計算能力突出使得AlphaFold獲得冠軍。
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    DeepMind 開放的新冠病毒蛋白質結構預測結果下載連結:https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip為什麼要用深度學習預測新冠病毒蛋白結構?
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    DeepMind 用 AlphaFold 參加了 CASP,這是一年兩次的蛋白質摺疊奧運會,吸引了來自世界各地的研究小組。比賽的目的是根據胺基酸列表來預測蛋白質的結構,這些胺基酸列表會在幾個月內每隔幾天發送給參賽團隊。這些蛋白質的結構最近已經通過費力又費錢的傳統方法破解,但還沒有公開。
  • DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!
    前幾天,DeepMind宣布推出全新的AlphaFold系統,能夠預測並生成蛋白質的3D結構。這一系統在周日進行的國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手。 我們都知道,蛋白質是維持我們生命所必需的龐大而複雜的物質。我們身體的幾乎所有功能,例如收縮肌肉、感知光線或將食物轉化成能量等,都需要一種或多種蛋白質來完成。
  • 【AlphaFold精準預測蛋白結構】|蛋白質|胺基酸|生物學|複合物...
    繼圍棋、西洋棋等競技項目之後,近日谷歌旗下DeepMind開發的人工智慧程序AlphaFold在兩年一次的蛋白質結構預測挑戰賽CASP中再次大幅勝出。該程序在根據蛋白質胺基酸序列確定蛋白質三維結構方面取得巨大飛躍,準確性可與冷凍電子顯微術(亦稱冷凍電鏡)(Cryo-EM)和X-射線晶體學等實驗技術相媲美。
  • DeepMind劃時代傑作!AlphaFold蛋白結構預測擊敗人類奪冠
    蛋白質結構預測的劃時代意義2. DeepMind憑藉什麼奪冠3. AI算法將漫長費力的預測過程縮短至幾小時4.而根據第13屆全球蛋白質結構預測競賽官方披露的成績,總分第2名的團隊是一支名為「Zhang」的團隊,總分為107.03。據DeepMind介紹,該項成果的設計源於使用神經網絡預測物理特性以及構建蛋白質結構預測的新方法。這兩種方法都依賴於深度神經網絡,這些神經網絡經過訓練可以從其基因序列中預測蛋白質的特性。
  • 預測蛋白結構的AlphaFold,會砸了結構生物學家飯碗嗎?
    藍色為計算預測,綠色為實驗結果。圖源:deepmind.com在今年CASP比賽中,組織方在5月到8月間放出胺基酸序列,上百個參賽團隊可在5月至9月中旬間提交模型。隨著海量的序列和結構數據積累,預測結構不再是根據胺基酸序列「空算」,而有了學習的依據。利用這17萬公開的蛋白質序列和結構數據,以及已知序列而未知結構的蛋白質資料庫,DeepMind 對 Alphafold 進行訓練。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    CASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。△圖源:Science從1994年起,隨著技術的進步,蛋白質的預測準確性在不斷增加,而在今年,迎來了重大突破,預測準確性得分達到了92.4/100。而這,便是DeepMind的AlphaFold 2系統帶來的。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    在CASP這項比賽中,DeepMind開發AlphaFold2用的數據是:資料庫裡的超過17萬種蛋白序列與結構,以及其他一些大型資料庫裡的數據。 評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。
  • 生物界AlphaGo精準預測蛋白質結構
    有學者估計,一個典型的蛋白質理論上可以形成10的300次方(1後面加300個0)個可能構象。然而在自然界,蛋白質能夠自發地在幾毫秒內,迅速摺疊成其中一個構象。用什麼樣的計算方法,才能從10的300次方的可能構象中找到那個正確的構象?
  • AlphaFold2是什麼狗?(會後解讀)
    前言蛋白質結構預測問題是結構生物學一個裡程碑式的問題,每兩年,人類會組織一場蛋白質結構預測大賽,而在接下來的幾天,第十四屆,堪稱該領域奧林匹克的比賽,CASP14就要開始了。在芝加哥大學研究機器學習和粗粒化蛋白質摺疊的方法。最後進入了世界上又是「最豪華」的商業公司,一個曾經把柯潔下棋下到流淚的公司,deepmind,開啟了alphafold2的研究之路。這人的履歷就是為蛋白質摺疊這個問題而生的!
  • 預測新冠病毒「蛋白質摺疊」重磅武器:AlphaFold!精度碾壓生物與...
    我們分享了幾種模型預測的病毒蛋白質結構,希望能為廣大研究人員提供一些幫助。我們相信新系統比我們早期的CASP13系統更準確。 此前,我們成功預測了一個蛋白質資料庫中經過實驗驗證的SARS-CoV-2棘突蛋白結構,這給了我們足夠的信心,新系統預測其他蛋白質結構也是有可能的。
  • 解決生物學50年來重大挑戰 生物界"AlphaGo"精準預測蛋白質結構
    這說明,在某種程度上,在對蛋白質結構和摺疊的預測這件事情上,人類已非望塵莫及。 第二代AlphaFold做了什麼? 在CASP這項比賽中,DeepMind開發AlphaFold2用的數據是:資料庫裡的超過17萬種蛋白序列與結構,以及其他一些大型資料庫裡的數據。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    AlphaFold:精確度高達92.4GDT首先要了解為什麼要預測蛋白質摺疊結構?眾多周知,蛋白質對於生命至關重要。幾乎所有疾病,包括癌症、痴呆症都與蛋白質的功能有關。而蛋白質的功能由它的3D結構決定。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    DeepMind在官方博客中稱:AlphaFold的最新版本,在通過胺基酸序列精確預測蛋白質摺疊結構方面,已經獲得權威蛋白質結構預測評估機構(Critical Assessment of protein Structure Prediction,CASP)的認可。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    首先要了解為什麼要預測蛋白質摺疊結構?眾多周知,蛋白質對於生命至關重要。幾乎所有疾病,包括癌症、痴呆症都與蛋白質的功能有關。而蛋白質的功能由它的3D結構決定。但一個現實挑戰是,蛋白質的3D結構在形成之前會有數以億計的摺疊方式。美國分子生物學家Cyrus Levinthal指出,如果用蠻力來計算蛋白質所有可能的構型所需要的時間可能比宇宙的時間都要長,一個典型的蛋白質可能有10∧300種可能的構型。因此,從1972年至今,如何準確預測蛋白質的摺疊方式一直是生物學界的一項重大挑戰。
  • DeepMind推出AlphaFold,可通過胺基酸序列預測蛋白質結構
    PingWest品玩12月4日訊,根據英國衛報報導,周日在墨西哥坎昆舉辦的一場國際會議中,DeepMind 的最新 AI——AlphaFold 成功地根據基因序列預測出蛋白質的 3D 形狀。「蛋白質摺疊」是一種分子摺疊形式。
  • DeepMind抗疫:預測新冠病毒相關蛋白結構
    DeepMind利用其最新版本的AlphaFold系統,發現幾種與新冠病毒(SARS-CoV-2)相關的蛋白質的結構預測,並在今天對所有人公開。他們表示,這些蛋白質結構還尚未被專家研究,希望能夠對抗疫科研作出貢獻。
  • ...DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子摺疊問題
    蛋白質摺疊問題解讀視頻請戳:    視頻來源:https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
  • 精準預測蛋白結構的AlphaFold,會砸了結構生物學家的飯碗嗎?
    1AlphaFold預測結構奪冠,再次名聲大噪了解一種新的蛋白結構有兩條路,一是靠實驗去 「看」,二是根據胺基酸序列用計算機去 「算」。圖源:deepmind.com自由建模環節中AlphaFold的模型與實驗數據高度貼合。