顛覆生物學!AlphaFold成功預測蛋白質結構

2020-12-21 騰訊網

原文作者:Ewen Callaway

科學家認為,谷歌預測蛋白質3D結構的深度學習程序將顛覆生物學。

谷歌旗下人工智慧(AI)公司DeepMind的一個AI網絡朝著解決生物學領域最大的挑戰之一邁出了一大步,這裡的挑戰是:根據一個蛋白質的胺基酸序列來確定它的3D結構。

DeepMind的這個程序叫做「AlphaFold」,在名為「蛋白質結構預測關鍵評估」(CASP)的蛋白質結構預測雙年賽上,擊敗了其他百來支團隊。11月30日,賽事盤點大會(今年改為線上舉辦)開幕,公布了上述結果。

一個蛋白質的功能由它的3D結構決定。來源:DeepMind

「這非常了不起。」馬裡蘭大學計算生物學家John Moult說。Moult在1994年聯合創辦了CASP,為的是提高準確預測蛋白質結構的計算方法。「從某種程度上說,問題解決了。」

能根據胺基酸序列準確預測蛋白質結構,將為生命科學和醫藥領域帶來巨大好處。這將極大地增進我們對細胞基本構成的理解,讓藥物發現加速升級。

AlphaFold在上一屆的CASP上摘得頭魁——2018年,總部位於倫敦的DeepMind首次參賽。而在今年,DeepMind的深度學習網絡更是一騎絕塵,用科學家的話說,其表現之驚人,或預示著生物學的一場革命。

「它改變了整個局面。」CASP的評委、馬克斯·普朗克發育生物學研究所的演化生物學家Andrei Lupas說。AlphaFold幫他發現了困擾他實驗室數十年的一種蛋白質的結構,他認為AlphaFold將改變他的工作方式,以及他要解決的問題。「它將改變醫學,改變研究,改變生物工程,改變所有。」Lupas說。

有些時候,AlphaFold預測的結構與利用X射線晶體學和近幾年的冷凍電鏡(cryo-EM)等「金標準」實驗方法所確定的結構幾乎別無二致。科學家說,目前看來,AlphaFold還不能取代這些費力又昂貴的技術,但它將帶來全新的研究生命的方式。

結構問題

蛋白質是生命的基石,決定著細胞裡發生的一切。蛋白質如何工作以及它做些什麼都是由它的3D結構決定的——「結構即功能」是分子生物學的一條公理。蛋白質似乎無需幫助就能成形,只需要遵循物理定律。

幾十年來,實驗室實驗一直是獲得良好的蛋白質結構的主要手段。蛋白質的首個完整結構是在上世紀50年代確定的,當時使用的技術拿X射線束照射結晶的蛋白質,衍射光轉化為蛋白質的原子坐標。X射線晶體學貢獻了大部分的蛋白質結構,但在過去十年裡,冷凍電鏡成為了許多結構生物學實驗室的首選工具。

科學家一直想知道蛋白質的組分——一連串不同的胺基酸——是如何扭曲和摺疊成其最終形狀的。20世紀80、90年代用計算機預測蛋白質結構的早期嘗試並不成功,研究人員說。已發表論文中的誇大其詞在其他科學家用別的蛋白質嘗試時很容易不攻自破。

為了讓這方面的研究更加嚴謹一些,Moult創立了CASP。參賽團隊需要預測的蛋白質的結構已經用實驗方法進行了解析,但尚未公布。Moult認為這個實驗(他沒有稱其為比賽)擠掉了水分,淨化了整個領域。「你真的在判斷哪些看起來有希望、哪些有用、哪些需要拋棄。」他說。

來源:DeepMind

DeepMind在2018年CASP13上的表現驚豔了領域內的不少科學家,這個領域本來一直是一小群學術團體的堡壘。不過,當時它的方法大體上與其他利用AI的團隊差不多,伊利諾伊大學芝加哥分校的計算生物學家Jinbo Xu說。

AlphaFold的首次迭代將深度學習應用到結構和遺傳數據上,用來預測一個蛋白質的胺基酸對之間的距離。第二步不需要AI,AlphaFold會用這一信息給出這個蛋白質應有結構的「共識」模型,DeepMind項目負責人John Jumper說。

團隊嘗試從這個方法展開,但最終碰壁了。於是他們換了個方向,Jumper說,他們設計了一種AI網絡,其中包含決定蛋白質摺疊的額外的物理和幾何約束條件。他們還給它布置了一個更難的任務:沒有讓它預測胺基酸之間的關係,而是預測一段目標蛋白序列的最終結構。「這讓整個系統複雜了不止一點。」Jumper說。

準確度驚人

每屆CASP會持續好幾個月。比賽中會定期給出目標蛋白質或蛋白質結構域——總共100個左右,讓團隊有幾周的時間來提交他們預測的結構。隨後,一支由獨立科學家組成的團隊利用各類指標對預測結果進行評估,這些指標主要判斷團隊預測的蛋白質與實驗解析的結構有多相似。評審專家並不知道預測是誰做的。

AlphaFold的預測用被稱為「427組」,多個預測達到了驚人的準確性,讓它們脫穎而出,Lupas說。「我猜到了是AlphaFold,大部分人都猜到了。」他說。

AlphaFold的預測水平有高有低,但將近三分之二的預測結果都與實驗結果在質量上不相上下。有些情況下,Moult說,我們甚至不知道AlphaFold的預測和實驗結果之間的差異究竟是預測上的錯誤還是實驗中的偽跡。

AlphaFold的預測結果與利用核磁共振光譜技術解析的實驗結構匹配度較差,但這可能和原始數據轉為模型的方式有關,Moult說。AlphaFold在模擬蛋白複合物/群組的單體結構方面也顯困難,因為它們與其他蛋白質的相互作用會扭曲其形狀。

整體來說,今年參賽團隊的預測結果較上一屆更加準確,但主要進步還是來自AlphaFold,Moult說。預測準確度以100分為滿分,在難度中等的目標蛋白質中,其他團隊的最好成績一般是75分,而AlphaFold能拿到90分左右,Moult說。

約半數團隊在摘要裡概括他們的方法時都提到了「深度學習」,Moult說,說明了AI對該領域的影響力不容小覷。參加CASP14的大部分團隊都有學術背景,但也有微軟和騰訊這樣的團隊。

紐約哥倫比亞大學的計算生物學家Mohammed AlQuraishi也參加了CASP,他迫切想要了解AlphaFold在比賽中的表現細節,他準備在12月1日DeepMind團隊演示他們的方法時,好好研究一下這個系統的工作方式。他說,雖然可能性不大,但也有可能是因為這次的目標蛋白質比平時簡單,才讓他們取得了如此好的成績。強烈的直覺告訴AlQuraishi,AlphaFold將是顛覆性的。

「我想可以這麼說,蛋白質結構預測領域將迎來一場顛覆。我懷疑許多人都會離開,因為該領域的核心問題已經解決了。」他說,「這是最高級別的突破,它絕對是我一生中看到的最重要的科學成果之一。」

DeepMind執行長Demis Hassabis說,公司正在了解生物學家對AlphaFold有何要求。來源:OLI SCARFF/AFP/Getty

加快預測蛋白質結構

AlphaFold的預測幫助確定了Lupas實驗室多年來一直想要破解的一種細菌蛋白的結構。Lupas的團隊此前收集了原始的X射線衍射數據,但將這些羅夏(Rorschach)墨跡一樣的圖案變成一種結構,需要一些關於蛋白質形狀的信息。用於獲得這些信息的技巧,以及其他預測工具都失敗了。「427組的模型在半小時裡就給出了我們的結構,而這個結構曾讓我們花了十年時間,試遍了所有方法。」Lupas說。

DeepMind的聯合創始人兼執行長Demis Hassabis說,公司計劃讓AlphaFold能為其他科學家所用。(DeepMind之前發表了關於第一版AlphaFold 的豐富細節,足以讓其他科學家重複這個方法。)AlphaFold給出一個預測結構可能要幾天,其中包括對蛋白質不同區域可信度的預測。「我們才開始了解生物學家想要什麼。」Hassabis說,他認為藥物發現和蛋白設計是潛在的應用方向。

2020年初,DeepMind公布了多個尚無實驗確定的新冠病毒蛋白的結構預測結果。DeepMind對Orf3a蛋白的預測和後來用冷凍電鏡確定的結構非常相似,加州大學伯克利分校的分子神經生物學家Stephen Brohawn說。Brohawn的團隊在6月公布了這個結構。「他們之前的結果真的讓人印象深刻。」他補充道。

現實影響力

AlphaFold不太可能會讓實驗室關門——比如用實驗方法解析蛋白質結構的Brohawn實驗室。但它或許意味著,想要得到一個好的結構,可能只要相對低質量、易收集的實驗數據就夠了。它的一些應用註定要大放異彩,比如對蛋白質的演化分析,因為現有的海量基因組數據如今有望可靠地轉化為結構了。「這將賦能新一代的分子生物學家,讓他們提出更前沿的問題。」Lupas說,「今後需要的思考越來越多,需要的移液越來越少了。」

「我本來以為我這輩子都看不到這個問題被解決的一天。」曾擔任CASP評審專家、歐洲分子生物學實驗室-歐洲生物信息研究所的結構生物學家Janet Thornton說。她希望這種方法能幫助揭示人類基因組中成千上萬個尚未解析的蛋白質的功能,搞清楚人與人之間為什麼會有不同的致病基因變異。

AlphaFold的表現也是DeepMind的一個轉折點。這家公司因讓AI成為了圍棋等遊戲的高手而聞名,但公司的長遠目標是開發能實現寬泛的、更接近人類智能的程序。化解宏大的科學難題,比如預測蛋白質結構,是它們的AI技術所能實現的最重要的應用之一,Hassabis說。「我真的認為這是我們做過的最厲害的事,我是指在現實影響力方面。」

原文以『It will change everything』: DeepMind’s AI makes gigantic leap in solving protein structures為標題發表在 2020年11月30日的《自然》新聞上

nature

doi: 10.1038/d41586-020-03348-4

點擊閱讀原文查看英文原文

職位推薦

Nature Careers

1. 上海交通大學醫學院

招聘崗位:單細胞組學與疾病研究中心教職崗和博士後(幹細胞和癌症領域),上海

1月4日前申請職位,掃碼查看詳情

2. 清華-北大生命科學聯合中心

招聘崗位:助理研究員和正副研究員(多學科領域),北京

1月9日前申請職位,掃碼查看詳情

3. 南方科技大學醫學院

招聘崗位:生物化學領域終身教職崗位,深圳

1月13日前申請職位,掃碼查看詳情

更多國內外科研工作機會,請訪問:nature.com/naturecareers

點擊播放 GIF 0.0M

點擊圖片查看如何通過自然職場(nature.com/naturecareers)平臺自助發布職位

版權聲明:

本文由施普林格·自然上海辦公室負責翻譯。中文內容僅供參考,一切內容以英文原版為準。歡迎轉發至朋友圈,如需轉載,請郵件China@nature.com。未經授權的翻譯是侵權行為,版權方將保留追究法律責任的權利。

2020 Springer Nature Limited. All Rights Reserved

喜歡今天的內容嗎?喜歡就給我們一個「三連」(轉發,將公眾號設為星標,在看)吧!

Nature Research科研服務

點擊圖片閱讀

相關焦點

  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    傳統上,蛋白質結構預測可以分成基於模板和從頭預 測,但是AlphaFold2隻用同一種方法--機器學習,對幾乎所有的蛋白質都預測出了 正確的拓撲學的結構,其中有大約2/3的蛋白質精度達到了結構生物學實驗的測量 精度。說他們接近解決了這個問題,這個說法沒錯,至少是在單結構域的蛋白結構 來講是這樣的。谷歌這次為什麼能夠取得如此大的成功?
  • AI精準預測蛋白質結構,結構生物學何去何從?|返樸
    最終,谷歌旗下DeepMind公司的人工智慧系統AlphaFold2在2018年的Alphafold基礎上迭代創新,超常發揮,一枝獨秀,基本解決了「從胺基酸序列預測蛋白質結構」這個困擾人類50年的生物學第二遺傳密碼問題。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    CASP始於1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。△圖源:Science從1994年起,隨著技術的進步,蛋白質的預測準確性在不斷增加,而在今年,迎來了重大突破,預測準確性得分達到了92.4/100。而這,便是DeepMind的AlphaFold 2系統帶來的。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    2018年的11月2日,在第13屆全球蛋白質結構預測競賽(CASP)上,AlphaFold獲得了預測43種蛋白中的25種蛋白結構的最高分,在98名參賽者中排名第一。對於DeepMind的預測方法,由於當時沒有具體論文發布,眾多學者認為是計算能力突出使得AlphaFold獲得冠軍。
  • 解決生物學50年來重大挑戰!生物界「AlphaGo」精準預測蛋白質結構
    今日,DeepMind宣布,其新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    通過強有力的跨學科方法,DeepMind 匯集了結構生物學、物理學和機器學習領域的專家,應用前沿技術,僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構。我們的系統,AlphaFold,在過去的兩年裡我們一直在努力研究它,它建立在多年前使用大量基因組數據預測蛋白質結構的研究基礎之上。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    美國時間11月30日,谷歌母公司Alphabet旗下人工智慧公司DeepMind公開宣布,生物學界50年來的重大難題——蛋白質摺疊預測,已被其成功攻克。對此,CALICO創始人兼執行長亞瑟·D·萊文森高度評價稱:AlphaFold是上一代產品中的佼佼者,它以驚人的速度和精度預測蛋白質結構。這一飛躍證明了計算方法將轉變生物學研究,並為加速藥物發現過程具有廣闊的前景。
  • AlphaFold2是什麼狗?(會後解讀)
    前言蛋白質結構預測問題是結構生物學一個裡程碑式的問題,每兩年,人類會組織一場蛋白質結構預測大賽,而在接下來的幾天,第十四屆,堪稱該領域奧林匹克的比賽,CASP14就要開始了。CASP用來衡量預測準確性的主要指標是 GDT,範圍為0-100。簡單來說,GDT可以近似地認為是和實驗結構相比,成功預測在正確位置上的比例。70分就是達到了同源建模的精度,根據Moult教授的說法,非正式的說,大約90 分可以和實驗結果相競爭!
  • 精準預測蛋白結構的AlphaFold,會砸了結構生物學家的飯碗嗎?
    解析蛋白質結構,現有的常用實驗方法有三種:核磁共振、X射線晶體學和冷凍電鏡。如今,已有約17萬蛋白質的結構經實驗破解,並上傳至蛋白質數據銀行(Protein Data Bank,PDB)公開。隨著海量的序列和結構數據積累,預測結構不再是根據胺基酸序列「空算」,而有了學習的依據。
  • AlphaFold有望改變生物學
    近日,谷歌AI團隊DeepMind所研究的 AlphaFold 算法在生物學領域取得了重要突破:通過蛋白質的胺基酸序列高精度地確定其3D結構。 具體而言,是DeepMind的第二代AlphaFold 在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智慧技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
  • 「它將改變一切」,AI解決生物學50年來重大挑戰,破解蛋白質分子...
    11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智慧技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
  • 攻克生物學難題,「阿爾法摺疊」精準預測蛋白質三維結構
    科技日報北京12月1日電人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。1994年,為更好預測和破解蛋白質三維結構,馬裡蘭大學結構生物學家約翰·穆爾特等人發起了CASP競賽,每兩年舉行一次。在今年的比賽中,「深度學習」團隊的「阿爾法摺疊」(AlphaFold)方法的中位分數為92.4(滿分100分,90分以上被認為預測方法可與實驗方法相媲美),預測最具挑戰性的蛋白質的平均得分為87,比次優預測高出25分。
  • 生物學的一個基本大問題迎來重大突破!
    | 圖片來源:DeepMind 蛋白質的功能在很大程度上取決於其獨特的結構,它們是一些由胺基酸構成的複雜大分子。因此,能夠預測蛋白質會摺疊成什麼形狀,預測未知蛋白質的結構,不僅能夠幫助我們治療疾病、更快找到新的藥物,或許還能幫助我們解開生命是如何運作的奧秘。
  • 「阿爾法摺疊」精準預測蛋白質三維結構
    人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。據美國《科學》雜誌網站11月30日報導,「蛋白質結構預測關鍵評估」(CASP)競賽傳來喜訊:英國「深度學習」(DeepMind)稱其AI實現了上述成就,他們的方法將極大加快新藥研發進程。人體擁有成千上萬種不同的蛋白質,每一種蛋白質都包含幾十到幾百種胺基酸,這些胺基酸的順序決定了它們之間的作用,賦予蛋白質複雜的三維形狀,進而決定了蛋白質的功能。
  • 精準預測蛋白結構的Al,會砸了結構生物學家的飯碗嗎?
    利用這17萬公開的蛋白質序列和結構數據,以及已知序列而未知結構的蛋白質資料庫,DeepMind 對 Alphafold 進行訓練。 2018年,DeepMind 推出 AlphaFold1 參加第13屆CASP競賽,今年的系統則是新版本AlphaFold2,使用了大約128個TPUv3核(相當於100-200個gpu)進行數周運算,算力更強。
  • 「它將改變一切」,DeepMind AI解決生物學50年來重大挑戰,破解蛋白...
    11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智慧技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
  • 除了下圍棋 AI還能預測"難纏"的蛋白質結構
    在2020年各種重大科學新聞評選中,「人工智慧預測蛋白質三維結構」是上榜率很高的一項內容。50年來,科學家們一直在努力解決生物學最大的挑戰之一——預測一串胺基酸在變成工作蛋白質時摺疊成的精確三維形狀。2020年,他們通過一款人工智慧程序,實現了這一目標。那麼,這個工作的意義是什麼?人工智慧又是如何做到這一點的?
  • 人工智慧裡程碑突破:DeepMindI精準預測蛋白質結構
    今日,DeepMind宣布,新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列來預測蛋白質結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X單晶衍射等方法解析的蛋白結構相媲美。這一突破被多家媒體稱為「變革生物科學和生物醫學」的突破。
  • 谷歌DeepMind重大突破:蛋白質結構準確預測或加速藥物研發
    從那時起,研究人員通過X射線、核磁共振和冷凍電鏡技術破譯了部分蛋白質結構,但這一過程需要幾個月甚至幾年的時間。雖然計算機技術的發展極大地推動了對蛋白質結構的預測,但到目前為止,生命體中已知的約2億種胺基酸序列中,只有約17萬種蛋白質結構得以確定。