會預測蛋白結構的AI,還要教我們設計新蛋白

2020-12-21 返樸

自然界經過了數千萬年的生命進化過程,才產生了這麼複雜而美麗的蛋白質世界,而神經網絡竟然用極短的時間就能模擬這一過程。

撰文 | 曹龍興(華盛頓大學蛋白質設計所博士後)、盧培龍(西湖大學特聘研究員)

不久前,谷歌公司旗下的DeepMind研發的AlphaFold2人工智慧系統在國際蛋白質結構預測競賽(CASP)上取得驚人的準確度,多數預測模型與實驗測得的蛋白質結構模型高度一致,引起了舉世矚目。實際上,蛋白質的結構不僅可以被預測,還可以被設計,二者互為「逆操作」。AlphaFold2在結構預測上的成功,也將惠及蛋白質設計領域。如今,以深度學習技術為代表的人工智慧無疑已經高度融入生物科學與技術領域,並且極大地推動了生物領域的發展。今天我們就來講講深度學習對蛋白質設計領域的影響。

什麼是蛋白質設計?

圖1. 胺基酸(amino acid)組成肽鏈,肽鏈摺疊成蛋白質(生物大分子),不同胺基酸組成的肽鏈會在空間中摺疊成各種形狀,從而行使不同的功能。

(來源:https://biocorpllc.com/there-is-a-lot-of-misinformation-about-protein-and-amino-acids/)

蛋白質是由胺基酸組成的長鏈條高分子化合物(圖1)。天然蛋白質基本上由天然胺基酸以一定的組合順序排列形成,序列長度不定。天然胺基酸共有20種,化學組成和性質各不相同,它們在序列之間的相互作用決定了蛋白質摺疊形成的形狀、結構,以及摺疊後的功能。這就像不同形狀的積木可以搭成不同形狀、不同功能的建築。例如我們熟知的血紅蛋白可以結合併輸送氧氣,新冠病毒的中和抗體(蛋白)可以保護人體免於病毒的攻擊——這些都是蛋白質的不同功能。人體中有兩萬多種基因用於編碼不同的蛋白質序列,如果考慮不同的剪接形式、修飾和突變,蛋白質的類別總數目有可能超過10萬。

通過編排蛋白質的胺基酸序列,使其能夠自發摺疊,形成所需要的三維結構,並具有一定的功能,這就是蛋白質設計了。蛋白質設計可以分為蛋白質的人工改造和蛋白質從頭設計。蛋白質的人工改造是基於現有蛋白質的結構進行一定的突變和進化。蛋白質的從頭設計,是完全基於生物物理與生物化學原理的——它不依賴現有的天然蛋白質結構,而是從頭搭建、設計具有全新結構和全新功能的蛋白質。如果拿建房子來類比的話,前者類似於對現有房屋的裝修改造,細節上有變化,整體框架往往變動不大;而後者就像是先從白紙上畫藍圖,設計房子的每個細節,最終搭建出個性化的建築。較之自然界演化的蛋白質,人工從頭設計蛋白質,可以幫助我們探索整個蛋白質序列摺疊空間,並在性能方面更好地滿足我們特定的需求(圖2)。蛋白質設計領域的巨擘David Baker領導的蛋白質設計研究所在這一領域取得了一系列奠基性的成果,並一直持續產生重要的突破與進展。

圖2. 利用蛋白質設計開發的可高效中和新冠病毒的人工蛋白質(點擊看大圖) 丨UW Institute for Protein Design

蛋白質設計是蛋白質結構預測的逆操作,兩者就像一枚硬幣的正反面:結構預測是從蛋白質序列出發,預測現有胺基酸序列能夠形成什麼樣的三維結構;蛋白質設計剛好相反,先確定我們需要什麼樣的三維結構,再找到能夠自發摺疊成所需三維結構的蛋白質序列。蛋白質設計與蛋白質結構預測圍繞的都是「蛋白質如何摺疊」這一根本問題。無疑,蛋白質結構預測水平的提高會大大加速蛋白質設計的過程。

深度學習如何影響蛋白質設計領域?

AlphaFold2在蛋白質結構預測中取得了巨大成功,將直接促進蛋白質設計的發展,並會催生出一系列基於深度學習的蛋白質設計新方法。

首先,深度學習算法可直接用於提高蛋白質設計的精度以及成功率。

當前設計蛋白質的基本思路是:通過編排胺基酸序列,使其可以自發摺疊成所要設計的結構,並使整個體系自由能最低,以保證該三維結構可以穩定存在。但是,由於蛋白質序列的排列組合空間極其巨大,且當前能量計算函數精度不足,所以蛋白質設計的成功率並不高。大部分計算機設計的全新胺基酸序列並不能摺疊成、或者只能近似摺疊成我們想要的結構。而要讓設計出的蛋白質具有期望的功能,必須保證三維結構上的高精準度。比如,只能通過特定離子的膜蛋白通道,以及可催化特定反應的酶,要成功設計這些新型蛋白質,活性位點的原子級別的精準度是關鍵之一。

囿於當前蛋白質設計領域的這些局限,設計者通常需要在實驗室中花費大量的時間與精力,通過高通量篩選以及定向進化的方法,從大量的序列中篩選出具有特定結構和高活性的蛋白質。

此時,AlphaFold2提供了一個非常好的結構驗證工具:通過高精度的結構預測,篩選出能摺疊成目標結構的序列,還可以優化胺基酸序列,使最終的三維結構與所要設計的蛋白質結構更加接近。這將減少大量繁瑣的實驗室篩選和優化環節,縮短蛋白質設計的時間,降低人力成本,提高設計成功率,並有可能設計出結構和功能更加複雜的蛋白質。新舊兩種方法的對比可見圖3。

圖3. 採用高通量篩選和定向進化方法的蛋白質設計流程(黃色箭頭)vs. 通過深度學習算法優化蛋白質設計流程(綠色箭頭) 丨作者作圖

另一方面,AlphaFold2也會啟發人們開發基於深度學習的蛋白質設計新方法 。

在AlphaFold之前的蛋白質結構預測領域,深度神經網絡主要是通過分析和提煉同源蛋白序列之間的進化信息,預測出胺基酸之間的距離關係,進而構建出胺基酸序列所對應的三維結構。但在2018年的國際蛋白質結構預測競賽(CASP13)上,AlphaFold近乎完美地預測了一個沒有任何同源序列的、全新設計的蛋白質的三維結構,極大地震撼了蛋白質設計科學家。這表明,深度神經網路並不僅僅從同源蛋白之間的進化信息獲取三維結構的特徵,而是可以直接理解蛋白質序列和結構之間的複雜關係。

AlphaFold2更進一步,它直接將蛋白質一級序列和三維結構通過一個精妙的深度神經網絡關聯了起來,這就像是DeepMind找到了一個優美的數學公式,可以將蛋白質的序列和結構用等號連接起來(圖4)。

圖4:通過深度神經網絡構建蛋白質序列與結構之間的關係丨作者作圖

AI蛋白質設計的成就與挑戰

目前,科學家已經使用深度學習在蛋白質設計領域做了很多嘗試和努力,並取得了許多令人興奮的結果。比如,通過學習自然界中蛋白質結構與序列之間的關係,深度神經網絡已經可以直接根據蛋白質的三維結構預測最佳的可摺疊成該結構的胺基酸序列。這將大大加速整個蛋白質設計的過程,甚至徹底替代傳統的、通過優化能量來設計胺基酸序列的過程。

另外一個令人興奮的結果是美國華盛頓大學David Baker實驗室開發的基於深度學習的蛋白質設計方法——神經網絡trDesign。通過不斷學習自然界中存在的蛋白質一級序列和三維結構,trDesign竟能自己頓悟、設想出全新的、自然界中不存在的蛋白質。經實驗驗證,這些蛋白質可以自發摺疊成非常穩定的三維結構。自然界經過了數千萬年的生命進化過程,才產生了這麼複雜而美麗的蛋白質世界,而神經網絡竟然用極短的時間就能模擬這一過程。如果添加一些限制條件,比如蛋白質-蛋白質結合位點信息或者酶催化活動中心信息,trDesign甚至可以創造出具有這些關鍵結構特徵的蛋白質。研究人員現在正運用實驗方法檢驗這些蛋白質是否具有相應的功能。在未來幾年時間內,深度學習在蛋白質設計中的應用將會產生更多令人興奮的、現在難以預測的結果與發現。

圖5. David Baker博士因其在蛋白質設計方面的貢獻獲得2021年生命科學突破獎。| by Ian Haydon

正如DeepMind所提到的,AlphaFold2目前仍有一定的局限性:蛋白質側鏈構象與位置信息不能十分精確;暫時不能對於多鏈蛋白質複合物、蛋白質-DNA(RNA)、蛋白質-小分子等複合物的結構進行預測;暫時不能預測蛋白質的多種結構狀態,動態過程缺失。這些問題也是蛋白質設計領域非常關心的。隨著利用深度學習的蛋白質結構預測方法進一步發展,這些方面將會取得進一步突破,促進人們設計更為複雜的,功能更加強大的新型蛋白質。

人工智慧,無限可能

AlphaFold2精確預測蛋白結構的消息傳出後,圈內圈外都在驚嘆深度神經網絡所取得的偉大成就,調侃結構生物學家失業的話題也熱鬧了一陣。這讓我們想起了七年前,冷凍電鏡技術取得革命性進展時,「以蛋白質結晶學為主要技術手段的結構生物學家是不是會失業」的話題。我們現在回頭看去,結構生物學家不但沒有失業,反而利用最新的技術手段做出了一個又一個重要發現,並破解了大量以前我們不可能看到的生命奧秘。

在科學史上,技術的革新與科學的突破互為因果,相輔相成,我們要做的就是擁抱科技的進步,並以此為基礎取得新的突破。以AlphaFold系列為代表的深度學習方法將給蛋白質設計領域帶來深遠影響,其中充滿了機遇與無限的可能性,我們對此無比期待。

相關焦點

  • 【前沿科普】會預測蛋白結構的AI,還要教我們設計新蛋白
    蛋白質設計與蛋白質結構預測圍繞的都是「蛋白質如何摺疊」這一根本問題。無疑,蛋白質結構預測水平的提高會大大加速蛋白質設計的過程。深度學習如何影響蛋白質設計領域?AlphaFold2在蛋白質結構預測中取得了巨大成功,將直接促進蛋白質設計的發展,並會催生出一系列基於深度學習的蛋白質設計新方法。
  • 創新驅動新蛋白食品產業加速發展第三屆未來食品高峰論壇舉辦
    本屆論壇以「創新驅動產業升級轉型 」為主題,邀請多位來自國內外新蛋白食品產業精英、政策制定者、科研專家、金融投資機構共同參與。與會嘉賓分別從政策、技術、市場、消費趨勢、供應鏈等不同角度來探索未來食品創新與發展,同時聚焦新蛋白食品的監管與標準制定,以期推動這個新興產業的健康發展。近300位來自國外內的植物基產業相關人士參加了本屆論壇。
  • AlphaGo顛覆生物圈,精準預測蛋白質結構
    在CASP這項比賽中,DeepMind開發AlphaFold2用的數據是:資料庫裡的超過17萬種蛋白序列與結構,以及其他一些大型資料庫裡的數據。 評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。
  • 解決生物學50年來重大挑戰 生物界"AlphaGo"精準預測蛋白質結構
    評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。差得越少,得分越高。 GDT的分值在0-100之間。2006-2016年間,這個數字最高在40左右。2018年,上一代的 AlphaFold得分一下子突破了50。
  • 除了下圍棋,AI還能預測「難纏」的蛋白質結構,它是怎麼做到的?
    例如,我們免疫系統中的抗體蛋白是「Y」形的,並且會形成獨特的鉤狀,這使得它們能夠附著在病毒和細菌上,檢測和標記致病微生物,將其徹底消滅。膠原蛋白的形狀像擰起來的繩索,因而能夠在軟骨、韌帶、骨骼和皮膚之間傳遞張力。還有在被稱為「基因魔剪」的CRISPR-Cas9基因編輯技術中,Cas9蛋白質利用CRISPR基因序列作為嚮導,像剪刀一樣靈巧地剪切和粘貼DNA片段。
  • 美科學家繪製新冠病毒S蛋白高清結構圖:這是研製疫苗關鍵一步
    2月19日, 美研究團隊利用冷凍電鏡(cryo-EM)技術,揭示了新冠病毒表面S蛋白三聚體的高清結構,建了S蛋白的3D原子尺度結構圖。該研究團隊已向世界各地的研究人員發送了新冠病毒S蛋白高清結構圖片,包括中國的許多團體,這將有助於中國疫苗的研發。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    甚至很少露面的DeepMind創始人哈薩比斯,也親自出面介紹:DeepMind背後的終極願景一直是構建通用人工智慧,利用通用人工智慧來極大地加速科學發現的步伐,幫助我們更好地了解周圍世界。而哥大生物學助理教授Mohammed AlQuraishi,更是評價道:蛋白質結構AI進入「ImageNet時代」。如此重大的突破,究竟帶來了什麼呢?讓我們來快速且全面地了解一下。CASP中斬獲92.4的均分就在11月30日,第14次CASP評估的評價結果公布了。
  • Science:根據分子結構預測氣味?AI再勝一籌
    除了視覺,聽覺也是一樣,超過80分貝的聲音肯定會讓大部分人覺得吵。這種確切的定義可以讓業界很好地設計相關的材料和產品,來滿足人類的需要。但是,另一種感覺——嗅覺卻和視覺與聽覺不一樣,很難通過簡單的方式來定義。這也導致了另一個很讓科學家們頭疼的問題——如何根據物質的分子結構來預測氣味。
  • AlphaFold成功預測蛋白質結構
    於是他們換了個方向,Jumper說,他們設計了一種AI網絡,其中包含決定蛋白質摺疊的額外的物理和幾何約束條件。他們還給它布置了一個更難的任務:沒有讓它預測胺基酸之間的關係,而是預測一段目標蛋白序列的最終結構。「這讓整個系統複雜了不止一點。」Jumper說。準確度驚人每屆CASP會持續好幾個月。
  • 跨膜蛋白分析預測姿勢,都在這裡!
    我們知道細胞內外的能量轉換、信號傳遞、營養物質和離子的運輸、細胞內吞和外排都離不開膜蛋白。
  • David Sabatini團隊鑑定出介導半胱氨酸輸入的新蛋白
    David Sabatini團隊鑑定出介導半胱氨酸輸入的新蛋白 作者:小柯機器人 發布時間:2020/11/19 14:02:28 美國麻省理工學院David M.
  • 「深度學習」通過學習勢能函數實現蛋白質的結構預測
    對於宏觀生命體系的研究離不開對於微觀結構及其相互作用的理解。為了更好的理解這些微觀結構,如蛋白質的生物學功能,我們需要分析其三維結構信息。然而在很多情況下,蛋白質的三維結構信息是難以獲得的,因此有必要藉助基於理論計算的方法對其結構進行預測。
  • Science:利用基因相互作用圖譜確定蛋白複合物的整體結構
    有了關於蛋白複合物結構的精確信息,科學家們就有更大的機會設計出高效的藥物來阻斷或提高這種複合物的活性,從而達到治療目的。他們還可以更好地預測突變如何可能破壞一種複合物並導致疾病。 但確定蛋白複合物的結構是一項艱苦的工作。每種複合物都是不同的,沒有一個放之四海而皆準的方法來確定它們的結構,也沒有什麼手段可以加快這個過程。
  • 關於螢光蛋白的一切--結構和進化
    可是對於真正的螢光蛋白、色蛋白來說,它們與魚友想像的卻大不一樣,歸功於螢光蛋白在生物學研究裡已經得諾獎的巨大應用,螢光蛋白的結構,光學特徵、化學性質等等已經被學界了解的非常清楚了,但是對於螢光蛋白在珊瑚體內起到的功能,珊瑚對螢光蛋白的調控機理我們所知的卻非常少。
  • Science:從結構上揭示tau蛋白與微管之間的相互作用,有助深入認識...
    Nogales實驗室博士後研究員Simon Poepsel之前作為研究生時就已研究了tau的澱粉樣蛋白形式,並且在純化和製備用於低溫電鏡觀察的樣品中發揮著重要的作用。Nogales實驗室博士後研究員Elizabeth Kellogg說,「當我們最終觀察到tau蛋白中的重複序列長度並且發現它具有確定的結構和結合位點時,我們意識到tau蛋白實際上與微管蛋白表面形成特定的相互作用。
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    DeepMind 開放的新冠病毒蛋白質結構預測結果下載連結:https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip為什麼要用深度學習預測新冠病毒蛋白結構?
  • 騰訊AI Lab聯合研究登上Nature子刊,首次...
    「模板建模」是目前最普遍的蛋白結構預測手段,但有一個使用前提——人類已知的蛋白結構資料庫(即PDB)當中,必須存在和預測的蛋白相似的結構,否則就無法使用。而騰訊AI Lab採用的「從頭摺疊」方法則跳出了這個限制,可以不依賴於模板來預測蛋白結構。但此前,通過「從頭摺疊」方法預測的蛋白質結構精度不高,難以滿足晶體數據解析的精度需要。
  • 凝縮蛋白相互作用將DNA摺疊成Z環結構
    如今,在一項新的研究中,這些研究人員發現這絕不是凝縮蛋白包裹DNA的唯一方式。他們發現了一種全新的環形結構,他們稱之為Z環(Z loop)。他們首次證實凝縮蛋白彼此間會相互作用,將DNA摺疊成鋸齒形結構(zigzag structure)。
  • 3D列印 一體式構建人工智慧(AI)驅動設計的火箭發動機新型結構
    本文所講述的案例亮點在於,火箭發動機完全使用人工智慧驅動設計,並採用3D列印將燃燒室和表面冷卻流道等多組件實現一體式構建。在此基礎上,我們將講述AI如何融入增材製造的前後端製造鏈。火箭發動機在燃燒過程中,燃燒室喉部燃燒溫度高達3500℃,內壁溫度超過 1000℃。為防止材料失效,結構設計就非常關鍵。
  • 西湖大學再發布複合物結構,《Science》上線S蛋白結構論文
    今天(2月21日),在BioRxiv上,西湖大學又發布了關於新冠肺炎的最新研究成果,揭示了病毒侵入人體細胞後的複合物結構。在短短十天時間內,我們相繼看見了S蛋白結構、ACE2蛋白結構的研究成果,以及基於兩項成果發布的複合物結構,這為後期的疫苗研製奠定了非常堅實的基礎。