「我有一個要研究的蛋白,但我不知道它的結構和功能」——這是分子和細胞生物學家每天面臨的最大難題之一。[1] 隨著胺基酸測序技術的不斷發展,越來越多的蛋白質序列得以被高通量地讀取,但是從這個一維序列本身到能夠解出實際的三維結構,仍然還有很大的距離。
[1]引自 Roy, A. et al., Nature Protocol, 2010
如果說生物的基本單元是細胞,那麼細胞的基本功能單元,就是一個個錯綜複雜的蛋白。而決定蛋白質功能的核心,正是蛋白的結構。想要研究蛋白質的功能或是設計靶向的藥物,蛋白質的結構也是非常重要的一環。也正是因為這種重要性,生物裡面專門有一個領域,叫做結構生物學。知名華人生物學家施一公,就是結構生物學的帶頭人之一。
2018年,又是兩年一度的國際蛋白質結構預測競賽(CASP)的日子(歷史推文無序結構域IDRs的預測裡也有提到)。這個迄今已經進行了25年的比賽項目,每屆都能吸引來自世界各地的數百支團隊參與,對一些組委會選中蛋白結構進行定量地預測。上周末,正是本屆競賽結果揭榜的日子。更多詳情可查看官網:http://predictioncenter.org/casp13
在揭榜以前,大賽組委會群發了這麼一條劇透郵件給參賽者。
CASP13 this year has observed unprecedented progress in the ability of computational methods to predict protein 3D structure. The reasons are not yet fully clear, but all this, including of course the results, will be discussed at the meeting.
大意是說,這屆比賽見證了「前所未有」的突破,具體的原因尚不十分清楚,但我們會在周末的正式大會上進行詳細地討論。「史無前例的神秘團隊」,高高地吊起了眾人的胃口。因為這次事件的特殊性,大會甚至追加了一輪註冊,給想要來看熱鬧的媒體們提供額外一次買票的機會。
美國時間凌晨,本屆比賽參賽總榜正式揭開,一個署名為A7D的團隊拔得頭籌,並且把其他隊伍的結果遠遠地甩在了後面。甩得有多遠呢?駐波去挖了一下前幾次比賽的最終結果,A7D和第二名在本屆比賽中的差距,幾乎比CASP成立二十年以來模型性能提升的總和還要高[2]。
[2] 每屆預測目標不同,直接比較的結果並不非常準確。
縱坐標:模型對每一道賽題(蛋白)的
預測近似性成績累加,越高越好
深灰色的是今年97支隊伍的成績,淺灰色的是2016年上屆128支隊伍成績,紅色的是DeepMind的隊伍A7D。
舉幾個被預測蛋白的例子,A7D的模型的畫風是這樣的——
下面每幅圖代表參賽模型對某一個未知結構的蛋白的預測結果
縱坐標:模型預測和實際結構在全鏈上的累計偏差(越低越好)
青色的線是A7D的預測結果
粉色的線是總成績第二名的密西根大學團隊
這樣的——
和這樣的——
除了累計總分第一名,DeepMind團隊成功在43個參賽蛋白中拿到25個單項最佳模型;相比之下,累計總分第2名的團隊拿到了其中的3個[3]。 這個可謂一騎絕塵的隊伍究竟是何方神聖呢?是的你已經被劇透了,賽後A7D在論壇上表示,自己其實是來自DeepMind的研究人員,對就是那個當年開發AlphaGo的DeepMind!據報導,DeepMind已經將此模型正式命名為AlphaFold [3]。
[3] Guardian新聞
事實上,早在2017年10月,DeepMind就在一次公開採訪中表示,團隊開始對人工智慧在藥物開發中的應用感興趣,而新藥開發的關鍵一步,就是對靶點蛋白質三維結構的精準測算。如今這個新聞正好過去一年的時間,DeepMind也向世人再次證明了深度學習在又一全新場景中的巨大潛力。
Deep Learning又雙叒叕滲透進了一個新的應用場景
DeepMind這一次做了什麼?
據統計,截至2010年,只有0.6%的已知蛋白序列被解析出了相應的結構[3]。正是緣於這個巨大的斷層,第一屆蛋白質結構預測挑戰(Critical Assessment of Techniques for Protein Structure Prediction,CASP)於1994年在加州舉辦。得益於問題的規範化,二十年來許許多多的計算模型得以被開發。筆者的導師Chris Sander,多年前從理論物理方向轉行生物的時候,也是從結構預測這個生物學問題開始的。我也是這次寫這篇新聞稿才知道,Chris當年也是CASP競賽第一屆的獲獎者之一。
我的導師Chris Sander
可以手寫蛋白質三個漢字的德國老爺子
歷史上來說,這些計算的模型主要分成了三大流派——Comparative Modeling的演化流,threading methods的比對流,還有from scratch的ab initio流。
演化流的核心概念是尋找演化歷史上同源或者近似同源的序列,從他們的結構出發預測新的目標蛋白;比對流的核心概念是說,不一定要演化上同源,直接將目標序列中的片段和曾經解析出來的三維結構進行匹配和比對,就可以用來預測新的蛋白;而最難卻也最關鍵的,就是ab initio流,目的是從零開始預測那些完全找不到相似性的蛋白序列,這是拉丁語裡從最初開始的意思。
1999年,一款基於ab initio的模型Rossetta由華盛頓大學David Baker團隊開發。模型通過Monte Carlo模擬退火算法成功預測了長度100個胺基酸左右的若干蛋白,預測精度最低達到方均根差(RMSD) 3.8Å,並成為了CASP III的獲獎者之一 [4]。Baker 2003年發表於Science雜誌上的一項工作中,更是成功預測了一段長度93個胺基酸的人工合成序列TOP7,精度達到1.2Å[5]。2005年,Baker團隊開發了屏保程序Rosetta@home,客戶端會在閒置時幫助Rossetta伺服器進行結構解析的模擬運算。借用這種分布式計算的形式,調用眾多閒置個人計算資源,取得了極大的成功。
[4] Simons et al., Proteins. 1999.
[5] Kuhlman et al., Science. 2003.
Baker Lab開發的的屏幕保護程序Rossetta@Home
近年來,隨著CASP挑戰的持續進行,這些流派之間的界限也逐漸變得模糊,越來越多的科研團隊開始把這三方面信息都整合到一個模型之中,融合成一個更加準確的預測模型。在這些團隊之中,來自密西根大學的Yang Zhang團隊所開發的I-TASSER,就是成功的例子之一。
UMich的教授Yang Zhang和他開發的I-TASSER,該工具已經被引用超過6000次,協助過來自141個國家的超過100,000名科研人員。
從2008年模型面世開始,I-TASSER及他的各種變體組合已經成為了最流行的結構計算模型之一,在接近十年的CASP比賽中名列前茅。本次CASP比賽中,Zhang團隊通過整合I-TASSER和卷積神經網絡CNN,將模型準確率進一步提高,並獲得了本次比賽的第二名。
AlphaGo版的蛋白預測模型因何取得巨大突破
甚至早在AlphaGo面世之前,就有一些學者嘗試使用神經網絡和Reinforcement Learning來模擬退火的這一步過程[6]。那麼這次AlphaGo是因何能夠在本次比賽中脫穎而出呢?AlphaGo官方聲明還沒有出,我們只能從他在比賽網站上po出的一頁紙的概要中略窺一二。
[6] Czibula et al., Int.J.Comp.Tech.Appl. 2011.
DeepMind在CASP比賽網站上po出的模型概述
按照隊伍帶頭人之一Andrew Senior所述,本次DeepMind提交的預測結果來自於三種不同變體的神經網絡生成模型。整個模型由一個二維接觸網絡和一個評估網絡組成。
在二維接觸網絡中,蛋白的一級序列被用來預測蛋白每一對胺基酸與胺基酸兩兩組合的距離。在這一計算模塊中,雖然三維的結構尚不清楚,但是神經網絡可以學習並預測出是哪些胺基酸在相對較近的同一空間區域當中(contact matrix),相當於把一維的信息轉變為二維的距離。
評估網絡模塊的輸入,就是第一個網絡的輸出,再加上序列匹配(Multiple Sequence Alignment,MSA)和幾何結構(Structure Geometry)的信息。這些信息則被投入到一個退火組裝的模型當中,然後根據全片段的預測結構和實際結構的相似性學習出一個使退火組裝表現最好的分數;在預測過程中,這個分數作為退火模型優化的目標函數。
為了訓練這個神經網絡,DeepMind將國際蛋白質資料庫PDB中全部已知結構的蛋白都投入到了training當中。每個蛋白被分割成許許多多互相重疊的短肽,模型被要求對這些短肽片段進行結構的預測和評分。這些評分的結果和傳統的Rossetta的評分一起被用來訓練這兩個模塊中的參數,從而自動訓練出一個模擬退火的目標函數。
使用CASP13中的一個例子CASP13-T1008
演示模型訓練的進程
如果到這裡就結束了,那你就小看DeepMind了。DeepMind這次上傳的模型中,還包含了一種完全拋棄傳統上fragmentation先分段後組裝的訓練方法,在這個模型中,DeepMind將胺基酸之間的扭轉角(torsion)直接作為模型的預測輸出,對應兩個神經網絡給出的二維結構評估和全長評分直接進行梯度下降(Gradient Descent,GD),竟也取得了相當驚人的效果。這種幾乎完全放棄傳統意義上biophysics手動選取feature的方法,仿佛讓人們看到了當年AlphaGo高處不勝寒的影子。
後記:結構生物學的春天來臨了嗎
「除了DeepMind外,包括我們在內的很多工作組也在使用其他的Machine Learning方法解決這一問題。」英國科學家Liam McGuffin也表達了他的樂觀,「這幾年來AI給這個領域帶來了驚人的推動,也許在2020年左右,我們就可以基本上解決蛋白結構預測的問題,我對此很樂觀。」
在結構生物學領域,這毫無疑問是一項巨大的突破,但也掀起了很多質疑和擔憂的聲音。事實上,這個模型也尚沒有達到極高的準確率,在一些傳統模型可以解決的案例中,反而達不到預期的效果。比如CASP13-T0966-D1,對應E. Coli中的RRSP蛋白,是一種和Ras-Erk同路有相互作用的重要蛋白,也是一種治療Ras相關癌症的潛在藥物靶點,AlphaFold對這個蛋白的預測甚至都沒有達到平均水平。模型對於什麼樣的蛋白分子更有效?為什麼更有效?這些都尚未被詳細地研究清楚。這樣的模型可以被用來實際應用幫助藥物開發嗎?可能還要畫一個小小的問號。
一個DeepMind模型失敗的例子:蛋白RRSP
青色的線表示A7D的結果,粉色的線是總平均第二名的密西根大學團隊
「比起正確率的突破,DeepMind在退火模擬中沒有採用外界所預期的強化學習的思路更值得玩味。」MIT人工智慧實驗室的一名博士生S這樣告訴駐波,「DeepMind有一萬條理由去嘗試這條思路,但是最終公布的結果並沒有採用。如果擁有如此資源的DeepMind都沒有做到這些,這可能對於強化學習在蛋白摺疊中的應用是一個警告。」
「而且,模型中也包含了 Rosetta的評分。」S補充道,「DeepMind嘗試過拋棄這種評分系統,但是最終也沒有完全做到,這充分說明這種傳統方法長期積累下來的估值函數也起到了相當於重要的作用。」
實際上,AI在生物學的整合併非個例。近年來以google為首的人工智慧團隊在生物醫藥領域全面開花,已經在癌症病理圖片識別,基因組突變檢測,疾病風險評估等諸多領域取得了人類水平,甚至超過人類水平的耀眼成績。但這些表面看上去很成功的模型也都不可避免地受到普適性、可用性、可解釋性的障礙。
一個成熟的應用場景不僅僅需要一個高精度的網絡模型,更需要對領域裡亟待解決的問題有足夠深的理解,以及更多有著交叉學科背景的人才攜手努力。隨著越來越多的人加入到這場戰役之中,AI醫療,未來可期。
文/袁博
審/範靜萱、張涵雄、常亮
畫圖三字經 生信視頻 生信系列教程
心得體會 癌症資料庫 Linux Python
高通量分析 在線畫圖 測序歷史 超級增強子
培訓視頻 PPT EXCEL 文章寫作 ggplot2
海哥組學 可視化套路 基因組瀏覽器
色彩搭配 圖形排版 互作網絡
易生信2019年課程,連報優惠
後臺回復「生信寶典福利第一波」獲取教程合集