會預測蛋白結構的AI,還要教我們設計新蛋白

2020-12-27 返樸

自然界經過了數千萬年的生命進化過程,才產生了這麼複雜而美麗的蛋白質世界,而神經網絡竟然用極短的時間就能模擬這一過程。

撰文 | 曹龍興(華盛頓大學蛋白質設計所博士後)、盧培龍(西湖大學特聘研究員)

不久前,谷歌公司旗下的DeepMind研發的AlphaFold2人工智慧系統在國際蛋白質結構預測競賽(CASP)上取得驚人的準確度,多數預測模型與實驗測得的蛋白質結構模型高度一致,引起了舉世矚目。實際上,蛋白質的結構不僅可以被預測,還可以被設計,二者互為「逆操作」。AlphaFold2在結構預測上的成功,也將惠及蛋白質設計領域。如今,以深度學習技術為代表的人工智慧無疑已經高度融入生物科學與技術領域,並且極大地推動了生物領域的發展。今天我們就來講講深度學習對蛋白質設計領域的影響。

什麼是蛋白質設計?

圖1. 胺基酸(amino acid)組成肽鏈,肽鏈摺疊成蛋白質(生物大分子),不同胺基酸組成的肽鏈會在空間中摺疊成各種形狀,從而行使不同的功能。

(來源:https://biocorpllc.com/there-is-a-lot-of-misinformation-about-protein-and-amino-acids/)

蛋白質是由胺基酸組成的長鏈條高分子化合物(圖1)。天然蛋白質基本上由天然胺基酸以一定的組合順序排列形成,序列長度不定。天然胺基酸共有20種,化學組成和性質各不相同,它們在序列之間的相互作用決定了蛋白質摺疊形成的形狀、結構,以及摺疊後的功能。這就像不同形狀的積木可以搭成不同形狀、不同功能的建築。例如我們熟知的血紅蛋白可以結合併輸送氧氣,新冠病毒的中和抗體(蛋白)可以保護人體免於病毒的攻擊——這些都是蛋白質的不同功能。人體中有兩萬多種基因用於編碼不同的蛋白質序列,如果考慮不同的剪接形式、修飾和突變,蛋白質的類別總數目有可能超過10萬。

通過編排蛋白質的胺基酸序列,使其能夠自發摺疊,形成所需要的三維結構,並具有一定的功能,這就是蛋白質設計了。蛋白質設計可以分為蛋白質的人工改造和蛋白質從頭設計。蛋白質的人工改造是基於現有蛋白質的結構進行一定的突變和進化。蛋白質的從頭設計,是完全基於生物物理與生物化學原理的——它不依賴現有的天然蛋白質結構,而是從頭搭建、設計具有全新結構和全新功能的蛋白質。如果拿建房子來類比的話,前者類似於對現有房屋的裝修改造,細節上有變化,整體框架往往變動不大;而後者就像是先從白紙上畫藍圖,設計房子的每個細節,最終搭建出個性化的建築。較之自然界演化的蛋白質,人工從頭設計蛋白質,可以幫助我們探索整個蛋白質序列摺疊空間,並在性能方面更好地滿足我們特定的需求(圖2)。蛋白質設計領域的巨擘David Baker領導的蛋白質設計研究所在這一領域取得了一系列奠基性的成果,並一直持續產生重要的突破與進展。

圖2. 利用蛋白質設計開發的可高效中和新冠病毒的人工蛋白質(點擊看大圖) 丨UW Institute for Protein Design

蛋白質設計是蛋白質結構預測的逆操作,兩者就像一枚硬幣的正反面:結構預測是從蛋白質序列出發,預測現有胺基酸序列能夠形成什麼樣的三維結構;蛋白質設計剛好相反,先確定我們需要什麼樣的三維結構,再找到能夠自發摺疊成所需三維結構的蛋白質序列。蛋白質設計與蛋白質結構預測圍繞的都是「蛋白質如何摺疊」這一根本問題。無疑,蛋白質結構預測水平的提高會大大加速蛋白質設計的過程。

深度學習如何影響蛋白質設計領域?

AlphaFold2在蛋白質結構預測中取得了巨大成功,將直接促進蛋白質設計的發展,並會催生出一系列基於深度學習的蛋白質設計新方法。

首先,深度學習算法可直接用於提高蛋白質設計的精度以及成功率。

當前設計蛋白質的基本思路是:通過編排胺基酸序列,使其可以自發摺疊成所要設計的結構,並使整個體系自由能最低,以保證該三維結構可以穩定存在。但是,由於蛋白質序列的排列組合空間極其巨大,且當前能量計算函數精度不足,所以蛋白質設計的成功率並不高。大部分計算機設計的全新胺基酸序列並不能摺疊成、或者只能近似摺疊成我們想要的結構。而要讓設計出的蛋白質具有期望的功能,必須保證三維結構上的高精準度。比如,只能通過特定離子的膜蛋白通道,以及可催化特定反應的酶,要成功設計這些新型蛋白質,活性位點的原子級別的精準度是關鍵之一。

囿於當前蛋白質設計領域的這些局限,設計者通常需要在實驗室中花費大量的時間與精力,通過高通量篩選以及定向進化的方法,從大量的序列中篩選出具有特定結構和高活性的蛋白質。

此時,AlphaFold2提供了一個非常好的結構驗證工具:通過高精度的結構預測,篩選出能摺疊成目標結構的序列,還可以優化胺基酸序列,使最終的三維結構與所要設計的蛋白質結構更加接近。這將減少大量繁瑣的實驗室篩選和優化環節,縮短蛋白質設計的時間,降低人力成本,提高設計成功率,並有可能設計出結構和功能更加複雜的蛋白質。新舊兩種方法的對比可見圖3。

圖3. 採用高通量篩選和定向進化方法的蛋白質設計流程(黃色箭頭)vs. 通過深度學習算法優化蛋白質設計流程(綠色箭頭) 丨作者作圖

另一方面,AlphaFold2也會啟發人們開發基於深度學習的蛋白質設計新方法 。

在AlphaFold之前的蛋白質結構預測領域,深度神經網絡主要是通過分析和提煉同源蛋白序列之間的進化信息,預測出胺基酸之間的距離關係,進而構建出胺基酸序列所對應的三維結構。但在2018年的國際蛋白質結構預測競賽(CASP13)上,AlphaFold近乎完美地預測了一個沒有任何同源序列的、全新設計的蛋白質的三維結構,極大地震撼了蛋白質設計科學家。這表明,深度神經網路並不僅僅從同源蛋白之間的進化信息獲取三維結構的特徵,而是可以直接理解蛋白質序列和結構之間的複雜關係。

AlphaFold2更進一步,它直接將蛋白質一級序列和三維結構通過一個精妙的深度神經網絡關聯了起來,這就像是DeepMind找到了一個優美的數學公式,可以將蛋白質的序列和結構用等號連接起來(圖4)。

圖4:通過深度神經網絡構建蛋白質序列與結構之間的關係丨作者作圖

AI蛋白質設計的成就與挑戰

目前,科學家已經使用深度學習在蛋白質設計領域做了很多嘗試和努力,並取得了許多令人興奮的結果。比如,通過學習自然界中蛋白質結構與序列之間的關係,深度神經網絡已經可以直接根據蛋白質的三維結構預測最佳的可摺疊成該結構的胺基酸序列。這將大大加速整個蛋白質設計的過程,甚至徹底替代傳統的、通過優化能量來設計胺基酸序列的過程。

另外一個令人興奮的結果是美國華盛頓大學David Baker實驗室開發的基於深度學習的蛋白質設計方法——神經網絡trDesign。通過不斷學習自然界中存在的蛋白質一級序列和三維結構,trDesign竟能自己頓悟、設想出全新的、自然界中不存在的蛋白質。經實驗驗證,這些蛋白質可以自發摺疊成非常穩定的三維結構。自然界經過了數千萬年的生命進化過程,才產生了這麼複雜而美麗的蛋白質世界,而神經網絡竟然用極短的時間就能模擬這一過程。如果添加一些限制條件,比如蛋白質-蛋白質結合位點信息或者酶催化活動中心信息,trDesign甚至可以創造出具有這些關鍵結構特徵的蛋白質。研究人員現在正運用實驗方法檢驗這些蛋白質是否具有相應的功能。在未來幾年時間內,深度學習在蛋白質設計中的應用將會產生更多令人興奮的、現在難以預測的結果與發現。

圖5. David Baker博士因其在蛋白質設計方面的貢獻獲得2021年生命科學突破獎。| by Ian Haydon

正如DeepMind所提到的,AlphaFold2目前仍有一定的局限性:蛋白質側鏈構象與位置信息不能十分精確;暫時不能對於多鏈蛋白質複合物、蛋白質-DNA(RNA)、蛋白質-小分子等複合物的結構進行預測;暫時不能預測蛋白質的多種結構狀態,動態過程缺失。這些問題也是蛋白質設計領域非常關心的。隨著利用深度學習的蛋白質結構預測方法進一步發展,這些方面將會取得進一步突破,促進人們設計更為複雜的,功能更加強大的新型蛋白質。

人工智慧,無限可能

AlphaFold2精確預測蛋白結構的消息傳出後,圈內圈外都在驚嘆深度神經網絡所取得的偉大成就,調侃結構生物學家失業的話題也熱鬧了一陣。這讓我們想起了七年前,冷凍電鏡技術取得革命性進展時,「以蛋白質結晶學為主要技術手段的結構生物學家是不是會失業」的話題。我們現在回頭看去,結構生物學家不但沒有失業,反而利用最新的技術手段做出了一個又一個重要發現,並破解了大量以前我們不可能看到的生命奧秘。

在科學史上,技術的革新與科學的突破互為因果,相輔相成,我們要做的就是擁抱科技的進步,並以此為基礎取得新的突破。以AlphaFold系列為代表的深度學習方法將給蛋白質設計領域帶來深遠影響,其中充滿了機遇與無限的可能性,我們對此無比期待。

相關焦點

  • 精準預測蛋白結構的Al,會砸了結構生物學家的飯碗嗎?
    展示的可能是(分子量)比較小的,可能是由幾個α螺旋或者幾個β摺疊這樣的二級結構,或者是一些結構域(超二級結構)、小蛋白質結構。」 李賽解釋,蛋白越大、摺疊的不確定性就越大。對於蛋白中穩定的結構域,通過胺基酸序列就可預測二級結構。但隨著結構尺度「升級」,會出現一些摺疊不確定的部分,「這些對於預測是蠻難的,即使是實驗方法都不能保證測出來。
  • 精準預測蛋白結構的AlphaFold,會砸了結構生物學家的飯碗嗎?
    展示的可能是(分子量)比較小的,可能是由幾個α螺旋或者幾個β摺疊這樣的二級結構,或者是一些結構域(超二級結構)、小蛋白質結構。」 李賽解釋,蛋白越大、摺疊的不確定性就越大。對於蛋白中穩定的結構域,通過胺基酸序列就可預測二級結構。但隨著結構尺度「升級」,會出現一些摺疊不確定的部分,「這些對於預測是蠻難的,即使是實驗方法都不能保證測出來。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    另外,他 們可以高薪招聘大量專業人才,集中精力攻關一件事,不需要擔心基金申請,教 學,和學生畢業論文等等。這些人力和計算資源上的差別是谷歌DeepMind這樣的工 業研究機構同學術界在攻關科學或者工程問題上的最大優勢。當然,學術界在蛋白 質結構預測這麼多年的積累,也給AlphaFold2的成功奠定了基礎。其實,我自己很高興他們取得了這麼大突破。
  • AI精準預測蛋白質結構,結構生物學何去何從?|返樸
    CASP組織者John Moult指出,計算下一步還有更困難的問題要解決:超大複合物結構、動態構象變化、蛋白質設計、藥物設計等等。 除了我們蛋白質結構預測小同行對AlphaFold2的成功很欣喜之外,社會上還有多個不同方向的學術界、產業界和新聞界對它寄予了厚望。
  • DeepMind稱AI能精確預測蛋白摺疊 將加速藥物設計
    CASP組織近25年來一直在監測蛋白摺疊預測領域的進展,並將DeepMind在競賽中的預測結果與「實驗金標準」進行比較。「DeepMind取得了進步。」 CASP主席約翰·穆爾特(John Moult)教授在周一的一場新聞發布會上表示,「計算機科學領域50年來的巨大挑戰已在很大程度上得到解決。」
  • 騰訊AI Lab 聯合研究登上Nature子刊,獨創方法提升蛋白質結構預測...
    為了解決這一難題,騰訊 AI Lab 科研團隊採用了難度更高的「從頭摺疊」(de novo folding)方法來預測 SRD5A2 蛋白的三維結構,並將其用於「分子置換」(molecular replacement, MR)的初始構型來解析晶體數據。所謂「從頭摺疊」,是相對於「模板建模」的一種蛋白質結構預測方法。
  • AI破解生物界50年重大挑戰!DeepMind精準預測蛋白質結構
    如果我們想要設計出有特定功能的蛋白質,我們必須了解不同的結構都具備怎樣的功能。一般來說,藥理學家會通過大量的觀察和統計,得到粗略的經驗:怎樣的蛋白質結構大致具備怎樣的功能,但由於蛋白質是納米量級上的3D結構,通過這樣不斷枚舉的「笨」辦法設計藥物是非常棘手的。
  • 新冠疫苗、AI預測蛋白結構、CRISPR...
    《科學》雜誌第一篇關於新冠的文章是病毒刺突Spike蛋白的電鏡結構,從投稿到接受最後發表僅僅用了9天(投稿到接受僅用9天!Science率先發布新冠病毒刺突蛋白電鏡結構)。在疫情爆發的一年之內,萬眾期盼的多個疫苗完成了三期臨床,逐步開展了普通人群的大規模接種工作。
  • DeepMind用AI精準預測蛋白質結構
    如果我們想要設計出有特定功能的蛋白質,我們必須了解不同的結構都具備怎樣的功能。 一般來說,藥理學家會通過大量的觀察和統計,得到粗略的經驗:怎樣的蛋白質結構大致具備怎樣的功能,但由於蛋白質是納米量級上的3D結構,通過這樣不斷枚舉的「笨」辦法設計藥物是非常棘手的。
  • 除了下圍棋 AI還能預測"難纏"的蛋白質結構
    例如,我們免疫系統中的抗體蛋白是「Y」形的,並且會形成獨特的鉤狀,這使得它們能夠附著在病毒和細菌上,檢測和標記致病微生物,將其徹底消滅。膠原蛋白的形狀像擰起來的繩索,因而能夠在軟骨、韌帶、骨骼和皮膚之間傳遞張力。還有在被稱為「基因魔剪」的CRISPR-Cas9基因編輯技術中,Cas9蛋白質利用CRISPR基因序列作為嚮導,像剪刀一樣靈巧地剪切和粘貼DNA片段。
  • 蛋白結構快要進入人工智慧 時代了
    由20多種胺基酸組成的蛋白質,其三維結構一直無法準確預測,大一點的蛋白質結構解析一直依賴於X光晶體衍射、冷凍電鏡等實驗。AlphaFold2 谷歌的 DeepMind 研究人員發布消息,他們用 AlphaFold2 預測了
  • 蛋白功能預測
    我們在遇到一些新的蛋白的時候,經常需要去了解這個蛋白的功能。如果是一個新的還沒有功能注釋的蛋白,一般資料庫就用不了了。這個時候就可以使用 NetGo 來對蛋白的序列進行功能注釋了。所謂的fasta序列就是在我們知道的胺基酸序列前面加一行>注釋信息。例如:> RNF180MSSMSSAEEQFQWQSQDGQKDIEDELTTGLELVDSCIRSLQESGILDPQDY第一行的東西只是告訴電腦,我們輸入那些序列的是什麼東西。
  • 騰訊AI Lab聯合研究登上Nature子刊 獨創方法提升蛋白質結構預測精度
    為了解決這一難題,騰訊AI Lab科研團隊採用了難度更高的「從頭摺疊」(de novo folding)方法來預測SRD5A2蛋白的三維結構,並將其用於「分子置換」(molecular replacement, MR)的初始構型來解析晶體數據。  所謂「從頭摺疊」,是相對於「模板建模」的一種蛋白質結構預測方法。
  • 做RNA-蛋白結合預測,這個網站你可能需要了解一下
    在上一個系列中,野菜君給大家帶來了關於lncRNA調控蛋白功能的四種方式,而這些研究中的一個核心的起點,就是找到能夠與你的寶貝lncRNA結合的蛋白,文章裡呈現的方式大多是兩種,一種是RNA pull down聯合質譜,一種是利用基於特定算法的預測工具。但鑑於大多數同學還在沒有條件打質譜的社會主義初級階段,那麼預測工具,特別是一些在線的預測軟體就成了我們的首選了。
  • 獨創方法提升蛋白質結構預測精度 騰訊AI Lab聯合研究登上Nature子刊
    為了解決這一難題,騰訊 AI Lab 科研團隊採用了難度更高的「從頭摺疊」(de novo folding)方法來預測 SRD5A2 蛋白的三維結構,並將其用於「分子置換」(molecular replacement, MR)的初始構型來解析晶體數據。所謂「從頭摺疊」,是相對於「模板建模」的一種蛋白質結構預測方法。
  • AlphaFold成功預測蛋白質結構
    於是他們換了個方向,Jumper說,他們設計了一種AI網絡,其中包含決定蛋白質摺疊的額外的物理和幾何約束條件。他們還給它布置了一個更難的任務:沒有讓它預測胺基酸之間的關係,而是預測一段目標蛋白序列的最終結構。「這讓整個系統複雜了不止一點。」Jumper說。準確度驚人每屆CASP會持續好幾個月。
  • Science:利用基因相互作用圖譜確定蛋白複合物的整體結構
    但蛋白並不是單獨行動的,科學家們還需要知道蛋白在一起工作時形成的複合物的形狀和組成--他們稱之為結構。有了關於蛋白複合物結構的精確信息,科學家們就有更大的機會設計出高效的藥物來阻斷或提高這種複合物的活性,從而達到治療目的。他們還可以更好地預測突變如何可能破壞一種複合物並導致疾病。但確定蛋白複合物的結構是一項艱苦的工作。
  • 人工智慧裡程碑突破:DeepMindI精準預測蛋白質結構
    今日,DeepMind宣布,新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列來預測蛋白質結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X單晶衍射等方法解析的蛋白結構相媲美。這一突破被多家媒體稱為「變革生物科學和生物醫學」的突破。
  • 王立銘:人工智慧預測蛋白結構再獲突破,意味著什麼?|巡山報告
    因為絕大多數藥物都是通過結合特定的蛋白質來起作用的,如果能搞清楚蛋白質分子怎麼摺疊、三維結構長什麼樣,我們就能更方便的設計出專門結合它的藥物來治療疾病。最後,當然是因為這個問題非常非常非常非常的難。比如我們說過的胰島素蛋白,人的、豬的、牛的、雞的、牛的,彼此之間都只有一些細微的差別。當我們把這些接近但不同的序列放在一起看,就能發現某些位置的胺基酸特別保守,幾乎不變,有些位置的胺基酸總變來變去,還有些位置的胺基酸要麼都不變,要麼一起變。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    甚至很少露面的DeepMind創始人哈薩比斯,也親自出面介紹:DeepMind背後的終極願景一直是構建通用人工智慧,利用通用人工智慧來極大地加速科學發現的步伐,幫助我們更好地了解周圍世界。而哥大生物學助理教授Mohammed AlQuraishi,更是評價道:蛋白質結構AI進入「ImageNet時代」。如此重大的突破,究竟帶來了什麼呢?讓我們來快速且全面地了解一下。CASP中斬獲92.4的均分就在11月30日,第14次CASP評估的評價結果公布了。