高效預測幾乎所有人類蛋白質結構,AlphaFold再登Nature,資料庫全部免費開放

2021-12-17 機器之心

這次,AlphaFold 的預測結果幾乎覆蓋了人類所有的蛋白質結構,而且將免費開放給公眾。這將是科學界的一筆寶貴財富。

生命所必需的每一次基礎生物學活動幾乎都是由蛋白質帶來的。蛋白質參與創建細胞和組織並保持著它們的形狀;構成維持生命所需化學反應的催化酶;充當分子工廠、轉運工具和馬達;充當細胞通訊的信號和接收器等等。

蛋白質由很多胺基酸長鏈組成,通過摺疊成精確的 3D 結構來完成無數的任務。這些結構控制著它們與其它分子互動的方式,決定了其功能以及它在疾病中的功能紊亂程度。闡明蛋白質的結構是分子生物學的核心議題,更是治療患者、拯救生命、改變生活的醫學發展的核心。

在這一領域,DeepMind 的 AlphaFold 被寄予厚望。在上周發表在《自然》雜誌上的一篇論文中,DeepMind 表示,AlphaFold 預測的蛋白質結構已經能達到原子水平的準確度。

如今,這一成果的最大回報已經到來:其中一個研究小組剛剛宣布,他們已經使用新開發的 AlphaFold 預測出了 35 萬種蛋白質的結構,包括人類基因組所表達的約 2 萬種蛋白質和其他 20 種生物學研究中常用模式生物(如大腸桿菌、酵母和果蠅)的蛋白,是以前用實驗方法解決的蛋白質數量的兩倍多。該組織表示,未來,他們還將繼續擴大預測的範圍,將預測數量擴展至已編目的所有蛋白質,這大約要覆蓋 1 億個分子。

最重要的是,DeepMind 還與歐洲生物信息研究所(EMBL-EBI)合作建立了一個平臺——AlphaFold DB(AlphaFold 蛋白質結構資料庫),將他們的預測結果免費開放給公眾。這將涵蓋 98.5% 的幾乎所有人類蛋白。

網站連結:https://alphafold.ebi.ac.uk/

DeepMind 創始人兼執行長 Demis Hassabis 博士說:我們使用 AlphaFold 生成了人類蛋白質組最完整、最準確的圖片。我們相信這是迄今為止人工智慧對推進科學知識所做的最重要貢獻,也是人工智慧可以為社會帶來的各種好處的一個很好的例證 。」

這項最新的研究成果於 7 月 22 日以「Highly accurate protein structure prediction for the human proteome」為題發表在《自然》雜誌上。

論文連結:https://www.nature.com/articles/s41586-021-03828-1

研究發現,AlphaFold 能對人類蛋白質組 58% 的胺基酸的結構位置給出可信預測。其中,對 35.7% 的結構位置的預測達到了很高的置信度,是實驗方法覆蓋的結構數量的兩倍。在蛋白水平上,AlphaFold 對 43.8% 的蛋白的至少四分之三的胺基酸序列給出了可信預測。預測信息將通過 EMBL-EBI 託管的公用資料庫免費向公眾開放。

清華大學生命科學學院的龔海鵬副教授告訴機器之心——ScienceAI,「這項工作影響非常深遠,將在很大程度上改變相關領域的科研模式」,而且從事蛋白質功能和機理研究、分子動力學模擬和基於結構的藥物開發、蛋白質結構解析的研究者都能從中受益。

龔海鵬副教授表示,對於計算化學領域和生物信息學領域的研究者來說,這項研究給出了很好的蛋白質初始結構信息,可以基於此進行分子動力學模擬以及計算機輔助藥物設計等工作。研究蛋白質功能和機理的學者,也可以根據預測的結構解釋實驗中胺基酸殘基突變對蛋白質功能的影響,有助於更深入和更準確地理解蛋白質的工作機理。目前結構解析團隊用冷凍電鏡法較容易建立低解析度的電子密度圖,用X射線晶體衍射法常常缺乏相位信息,這些缺陷都影響結構的解析;而該研究結果的開源,使得大部分實驗室可以根據精度較低的實驗數據建立較為合理的結構模型。

不過,芝加哥豐田計算技術研究所的許錦波教授指出:「AlphaFold 預測人類蛋白的覆蓋率很高,達到了 98.5%,但在某些生物製藥或疾病治療領域,對蛋白質胺基酸結構精度需要達到原子級別,從這個角度看,AlphaFold 還有一定的提升空間。」

另一些研究人員也同意許教授的看法。自然資源部第三海洋研究所一名研究蛋白互作的研究人員表示,AlphaFold 是對實驗結構生物學的一種補充技術,它可以加速現有的生物結構實驗研究,節約數月的時間,但「預測畢竟是預測,還是需要實驗證實」。

參與這項工作的 DeepMind 研究人員表示,「像AlphaFold 這樣擅長理解蛋白質結構任務的網絡架構的發展令人樂觀,我們可以在相關問題上(預測複合物的結構、結合非蛋白質成分等)取得進展……大規模的準確結構預測將成為一種重要工具,讓我們能從結構的角度解答新的科學問題,而 AlphaFold 的預測結果將幫助進一步闡明蛋白質的作用。」

機器學習加速蛋白質結構預測

解析蛋白質的結構可以為理解生物學過程提供重要信息,並有望指導藥物研發。考慮到理解人類蛋白質組對健康和醫藥的重要性,研究人員付出了大量努力來確定這些蛋白質結構。雖然開展了數十年的研究攻關,但只有 35% 的人類蛋白質映射到蛋白質資料庫(PDB)條目。利用實驗方法解析結構需要跨越諸多十分耗時的障礙,因此,擴大蛋白質組覆蓋面仍是一項艱巨挑戰。

蛋白質結構預測通過快速、大規模地提供可操作的結構假設,有助於縮小這一差距。近年來,機器學習方法的出現,讓蛋白質結構預測取得了實質性進展。

2020年12月,DeepMind 團隊開發的 AlphaFold2 在國際蛋白質結構預測競賽 CASP14 擊敗一眾選手,實現了前所未有的結構預測精度,這破解了出現50年之久的蛋白質分子摺疊問題,被稱作結構生物學「革命性」的突破、蛋白質研究領域的裡程碑。

上周,備受矚目的 AlphaFold2 開源,它預測的蛋白質結構能達到原子水平的準確度。鑑於此,DeepMind 將 AlphaFold 應用於人類蛋白質組結構預測

視頻簡單介紹了AlphaFold預測蛋白質結構的原理與方法。(來源:DeepMind)

AlphaFold方法

AlphaFold 網絡由兩個主要階段組成。第1階段,以胺基酸序列和多序列對齊(MSA)作為輸入。它的目標是學習一個豐富的「成對表示」。這種表示可提供「哪些殘基對在 3D 空間中接近」的信息。第2階段,使用第一階段的表示法直接產生原子坐標;將每個殘基作為一個單獨的物體,預測放置每個殘基所需的旋轉和平移;最終組裝成一個完整的結構鏈。這裡可以生成一個基於網絡中間層表示的三維結構。

圖示:CASP14的預測結構在網絡的連續層上的目標T1044、T1024和T1064。(來源:論文)

準確性和置信度

CASP14 實驗對 AlphaFold 進行了嚴格的評估。實驗中,參與者對已經解決但尚未公開的蛋白質結構進行盲測。AlphaFold 在大多數情況下都取得了較高的精度,實驗結構平均 95% 的 RMSD-Cα 小於1Å。在新發布的論文中,DeepMind在更大的 PDB 條目上進一步評估了這個模型。結果表明,AlphaFold 在大蛋白上具有強大性能和良好的側鏈精度,其中主鏈預測性能很好。


圖示:在CASP14中AlphaFold相對於其他方法的精度。(來源:論文)

結構預測實用性的一個重要因素是相關置信度的質量。為了解決「模型能否確定其預測中可能可靠的部分」的問題,研究人員在 AlphaFold 網絡的基礎上開發了兩個信任度量。

第一個度量是 pLDDT(預測的 lDDT-Cα),它是在 0 -100範圍內對局部置信度的每個殘基的度量。pLDDT可以沿著一條鏈顯著變化,使得模型能夠表達結構域的高置信度,但是在結構域之間的連接子(linker)上具有低置信度。研究人員提出了一些證據,證明低 pLDDT 的區域可能是孤立的非結構。pLDDT<50 的區域不應被解釋,或者被解釋為「可能的無序預測」。

第二個度量是 PAE(預測對齊誤差),當預測和真實結構在殘基y上對齊時,它報告AlphaFold在殘基x處的預期位置誤差。這對於評估對全局特徵(尤其是域包裝)的信心很有用。對於來自兩個不同結構域的殘基x和y,在(x,y)處始終較低的PAE表明α摺疊對相對結構域位置更可信;在(x,y)處始終較高的PAE表明不應解釋域的相對位置。用於生成PAE的一般方法,同樣適用於預測各種基於疊加的度量,包括 TM-score 和 GDT。

圖示:兩種示例蛋白(P54725、Q5VSL9)的每殘基置信度(pLDDT)和預測對準誤差(PAE)。(來源:論文)

蛋白質組規模和 AlphaFold DB

AlphaFold 可快速預測的特性,允許該方法應用於整個蛋白質組規模。研究人員使用 AlphaFold 對人類蛋白質組進行預測。在這之前,AlphaFold 已經對許多模式生物、病原體以及經濟上重要的物種的參考蛋白質組進行了預測。觀察物種之間pLDDT 分布的差異,AlphaFold 的預測對細菌和古細菌的置信度普遍較高,對真核生物的置信度較低;研究人員猜測可能與這些蛋白質組中疾病的流行有關。

圖示:14 個物種的每個殘留置信度分布;從左到右:細菌/古細菌、動物和原生生物。(來源:論文)

圖示:AlphaFold DB 對自各種生物體的預測示例。(來源:論文)

論文一作 Kathryn Tunyasuvunakool 表示:「我們對計算生物學的未來感到興奮。最終,我們希望 AlphaFold 將成為一個照亮蛋白質空間的有用工具,我們期待看到它在未來幾個月和幾年的應用。

近期機器之心知識站將舉行在線直播論壇,邀請領域專家就基於機器學習的蛋白質結構預測開展討論。詳情請關注後續報導,或添加機器之心小助手,註明「蛋白質」入群。


「2021 AI 100 Connect Webinar」AI + 工業專場

智慧物流作為智能工廠的核心一環,智慧機器人的發展趨勢是什麼?應如何驅動智慧物流走向大規模應用,推動工廠的智能化升級呢?對於工業質檢領域來說,智能檢測設備的成本應如何平衡?如何應對更高的定製化需求呢?7月28日19:30-21:00,「2021 AI 100 Connect Webinar」AI + 工業專場系列第一場直播間邀請到極智嘉 AI 研究院院長譚文哲,鯤雲科技合伙人營運長 / 鯤雲人工智慧應用創新研究院副院長王少軍博士圍繞智慧機器人和 AI 視覺檢測兩大方向帶來趨勢洞察和案例分享。

© THE END 

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com

相關焦點

  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    周日,在墨西哥坎昆舉辦的一場國際會議中,DeepMind 的最新 AI——AlphaFold 在一項極其困難的任務中擊敗了所有對手,成功地根據基因序列預測出蛋白質的 3D 形狀。例如,心臟細胞蛋白質的摺疊方式可以使血流中的任何腎上腺素都粘在它們上面,以加速心率。免疫系統中的抗體是摺疊成特定形狀的蛋白質,以鎖定入侵者。幾乎身體的每一種功能——從收縮肌肉和感受光線到將食物轉化為能量——都和蛋白質的形狀及運動相關。
  • AlphaFold成功預測蛋白質結構
    AlphaFold幫他發現了困擾他實驗室數十年的一種蛋白質的結構,他認為AlphaFold將改變他的工作方式,以及他要解決的問題。「它將改變醫學,改變研究,改變生物工程,改變所有。」Lupas說。有些時候,AlphaFold預測的結構與利用X射線晶體學和近幾年的冷凍電鏡(cryo-EM)等「金標準」實驗方法所確定的結構幾乎別無二致。
  • 技術乾貨 | AlphaFold/ RoseTTAFold開源復現(1)—推理復現
    01 蛋白質幾乎參與所有生命現象,從催化化學反應的酶、到對抗病毒的抗體、以及作為信號物質的胰島素。決定蛋白質功能的是由胺基酸序列摺疊形成三維結構,各種蛋白質相互結合從而去影響生命現象。因此有「序列決定結構,結構決定功能」的說法。
  • 手把手教你玩轉AlphaFold
    時隔一月,有關AlphaFold的新聞已經降溫了,前不久知識分子公眾號發了一篇《「狂歡」之餘還需冷靜》的文章,文中採訪了清華大學和西湖大學等機構的多位教授專家,
  • 【獨家解讀】Nature論文AlphaFold:AI推動科學發現
    正如Levinthal的悖論注所證明的那樣,在達到真正的3D結構之前,隨機枚舉典型蛋白質的所有可能構型所花費的時間要比已知宇宙的時間長,而蛋白質本身卻在幾毫秒內自發摺疊。預測這些鏈將如何摺疊成複雜的蛋白質3D結構就是所謂的「蛋白質摺疊問題」,這是數十年來科學家一直在努力的挑戰。
  • CASP14: DeepMind的AlphaFold 2到底取得了什麼成就? 它對蛋白質摺疊, 生物學和生物信息學意味著什麼?
    蛋白質結構預測是結構生物學一個裡程碑式的問題, 每兩年, 人類會組織一場蛋白質結構預測大賽, 即結構預測關鍵評估競賽(CASP), 它堪稱該領域的奧林匹克賽. CASP14的會議安排在2020年12月1號美東時間10點, 也就是北京時間, 周二的晚上11點, 世界上成績最好的三支隊伍將要給我們講解他們今年在CASP14上創造了什麼樣的成績?!
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    圍棋界公認阿爾法圍棋的棋力已經超過人類職業圍棋頂尖水平。但是 DeepMind 團隊的最終目的並不是做遊戲,他們希望用人工智慧方法能幫助人類推動基本科學的進步。近日,團隊發現了僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構的方法。雷鋒網 AI 科技評論編譯如下。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    這說明,在某種程度上,在對蛋白質結構和摺疊的預測這件事情上,人類已非望塵莫及。 1 第二代AlphaFold做了什麼? 在CASP這項比賽中,DeepMind開發AlphaFold2用的數據是:資料庫裡的超過17萬種蛋白序列與結構,以及其他一些大型資料庫裡的數據。 評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。
  • AlphaFold2是什麼狗?(會後解讀)
    前言蛋白質結構預測問題是結構生物學一個裡程碑式的問題,每兩年,人類會組織一場蛋白質結構預測大賽,而在接下來的幾天,第十四屆,堪稱該領域奧林匹克的比賽,CASP14就要開始了。John Jumper開篇講了一下核心觀點,物理直覺融入到了網絡結構中,端對端直接生成結構取代了殘基的距離矩陣,從圖的角度出發直接反映蛋白質的物理結構和幾何,Jone提到的資料庫時候,說的是標準的資料庫,如序列庫UniRef90,BFD,MGnigy Clusters,結構庫PDB,PDB70。
  • 精準預測蛋白結構的AlphaFold,會砸了結構生物學家的飯碗嗎?
    解析蛋白質結構,現有的常用實驗方法有三種:核磁共振、X射線晶體學和冷凍電鏡。如今,已有約17萬蛋白質的結構經實驗破解,並上傳至蛋白質數據銀行(Protein Data Bank,PDB)公開。隨著海量的序列和結構數據積累,預測結構不再是根據胺基酸序列「空算」,而有了學習的依據。
  • 阿爾法狗再下一城 | 蛋白結構預測AlphaFold大勝傳統人類模型
    而決定蛋白質功能的核心,正是蛋白的結構。想要研究蛋白質的功能或是設計靶向的藥物,蛋白質的結構也是非常重要的一環。也正是因為這種重要性,生物裡面專門有一個領域,叫做結構生物學。知名華人生物學家施一公,就是結構生物學的帶頭人之一。
  • 周四直播預告:AlphaFold會顛覆生物學嗎?漫談蛋白質結構預測問題
    近日,谷歌旗下DeepMind公司所開發的新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了所有選手,預測準確性可以跟人類實驗測得的結果相媲美
  • 顏寧等點評:AI 精準預測蛋白質結構,結構生物學何去何從?
    傳統上,蛋白質結構預測可以分成基於模板和從頭預測,但是 AlphaFold2 只用同一種方法 —— 機器學習,對幾乎所有的蛋白質都預測出了正確的拓撲學的結構,其中有大約 2/3 的蛋白質預測精度達到了結構生物學實驗的測量精度。這說明,至少是在單結構域的蛋白結構,他們接近解決了這個問題。谷歌這次為什麼能夠取得如此大的成功?
  • 綜述 | DescribePROT:胺基酸水平蛋白質結構和功能預測資料庫
    通訊作者單位:美國維吉尼亞州里奇蒙,維吉尼亞聯邦大學計算機科學系現有的大多數資料庫及軟體對蛋白質的預測都將重點放在胺基酸(AA)級描述符的特定類別上,例如PSIPRED、SCRATCH和MULTICOM資料庫主要關注蛋白質結構描述符,而DEPICTER數據裡既覆蓋結構和功能特性,又覆蓋無序區域。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    最終,谷歌旗下DeepMind公司的人工智慧系統AlphaFold2在2018年的Alphafold基礎上迭代創新,超常發揮,一枝獨秀,基本解決了「從胺基酸序列預測蛋白質結構」這個困擾人類50年的生物學第二遺傳密碼問題。
  • AI精準預測蛋白質結構,結構生物學何去何從?|返樸
    最終,谷歌旗下DeepMind公司的人工智慧系統AlphaFold2在2018年的Alphafold基礎上迭代創新,超常發揮,一枝獨秀,基本解決了「從胺基酸序列預測蛋白質結構」這個困擾人類50年的生物學第二遺傳密碼問題。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    CASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。△圖源:Science從1994年起,隨著技術的進步,蛋白質的預測準確性在不斷增加,而在今年,迎來了重大突破,預測準確性得分達到了92.4/100。而這,便是DeepMind的AlphaFold 2系統帶來的。
  • DeepMind推出AlphaFold,可通過胺基酸序列預測蛋白質結構
    PingWest品玩12月4日訊,根據英國衛報報導,周日在墨西哥坎昆舉辦的一場國際會議中,DeepMind 的最新 AI——AlphaFold 成功地根據基因序列預測出蛋白質的 3D 形狀。「蛋白質摺疊」是一種分子摺疊形式。
  • DeepMind抗疫:預測新冠病毒相關蛋白結構
    DeepMind利用其最新版本的AlphaFold系統,發現幾種與新冠病毒(SARS-CoV-2)相關的蛋白質的結構預測,並在今天對所有人公開。他們表示,這些蛋白質結構還尚未被專家研究,希望能夠對抗疫科研作出貢獻。
  • 精準預測蛋白結構的Al,會砸了結構生物學家的飯碗嗎?
    如今,已有約17萬蛋白質的結構經實驗破解,並上傳至蛋白質數據銀行(Protein Data Bank,PDB)公開。隨著海量的序列和結構數據積累,預測結構不再是根據胺基酸序列「空算」,而有了學習的依據。利用這17萬公開的蛋白質序列和結構數據,以及已知序列而未知結構的蛋白質資料庫,DeepMind 對 Alphafold 進行訓練。