by Asier Sanz | https://asiersanz.com/
AlphaFold2是個大突破,但我們還有努力的方向
張陽
(ITASSER創造者,美國密西根大學教授)
AlphaFold2顯然是個大突破,這是從1969年第一篇Journal of Molecular Biology論文用比較建模方法預測蛋白質結構的51年來的真正突破。最近四年來,有共同進化預測contact map(胺基酸接觸圖譜),並引入深度學習之後,原來的ITASSER/Rosetta/RaptorX等算法都有了很大進步,比原來提升了計算精度一倍以上,只不過AlphaFold2進步更多,說他們接近解決了這個問題沒錯。谷歌公司擁有強大的資源,他們用TPU,我們用GPU,而很多實驗室還沒有GPU。他們原來在宣傳中說只用100個GPU訓練了兩周,這是不客觀的。因為訓練穩定的模型,起碼要重複100次甚至1000次,就像餓漢一樣,不能說最後一個饅頭才有作用,前面那麼多的嘗試都有作用。這是學術界與產業界最大的差別。當然,他們不訓練contact map,直接訓練結構中的原子坐標,這是新的想法,以前沒人成功過。我很高興他們取得了突破,因為證明了蛋白質結構預測問題是可以解決的,我在15年前的PNAS論文上提出,用PDB庫中的模板在理論上可以解決這個問題,他們這次用暴力實現了。
但基於商業或其它考慮,他們還不會公開代碼或server,所以要依靠我們科學界來做出讓公眾受益的方法。這次只有2/3的題目可以做到實驗精度,還有1/3做不到,是否還有更快更好的途徑來產生更高精度結構的算法?這是值得我們努力的方向。
龔新奇
(中國人民大學數學科學研究院教授,清華大學北京結構生物學高精尖中心合作研究員)
2020年第14屆國際蛋白質結構預測競賽(CASP14)共有84個常規(Regular)題目,其中有14個題目因為生物實驗沒給出確定結構等原因被取消或延緩,其他70個題目的單體和複合物蛋白質所含有的胺基酸個數從73到2180不等。19個國家的215個小組參加了CASP14。最終,谷歌旗下DeepMind公司的人工智慧系統AlphaFold2在2018年的Alphafold基礎上迭代創新,超常發揮,一枝獨秀,基本解決了「從胺基酸序列預測蛋白質結構」這個困擾人類50年的生物學第二遺傳密碼問題。
不少結構的預測精確度跟實驗晶體結構相當,可以替代晶體結構;
一些含有多個結構域的複雜超長的單鏈結構也達到了可以跟實驗結構比較的程度;
幫助解析了競賽中涉及到的、實驗多年沒拿到的X射線晶體和cryo-EM冷凍電鏡結構,比如T1058的膜蛋白是用了Alphafold2的預測模型之後,才跟原有晶體學數據綜合成功解析了結構。
AlphaFold2團隊的John Jumper報告表明,他們使用了基於注意機制的神經網絡,動態調整網絡中節點的順序和連結;依靠的是端到端的優化整體構建結構,而不是胺基酸距離;網絡中內置了大量的序列、結構和宏基因組等多重比較信息;還依賴分子模擬軟體優化去掉了原子的堆積碰撞。在AlphaFold2的摘要作者名單裡,交叉團隊的30位作者中有19位都被標記為相同貢獻的第一作者。他們將近8分鐘的宣介視頻,記錄了團隊成員在新冠疫情期間精誠合作、攻堅克難的寶貴場景。CASP組織者John Moult指出,計算下一步還有更困難的問題要解決:超大複合物結構、動態構象變化、蛋白質設計、藥物設計等等。除了我們蛋白質結構預測小同行對AlphaFold2的成功很欣喜之外,社會上還有多個不同方向的學術界、產業界和新聞界對它寄予了厚望。在欣喜的同時,蛋白質結構預測小同行也有一些保留意見:
工程化明顯,依賴於強大的GPU計算資源和代碼優化團隊;
谷歌公司幾乎可以收集全球所有網絡信息,雖然看起來AlphaFold2的自動化程度很高,但他們在人工操作中使用了哪些信息值得關注;
預測對了結構,但不等於明白了蛋白質摺疊過程和原理。
生物實驗科學家也有不少看法:
還有關心這個領域的其他方向的專家也提出了問題:怎麼理解這個算法成功的原理?怎麼跟原有的熱力學、物理學等基本原理相融相通?我認為AlphaFold2是個大突破,後續可能性很多,會替代一些簡單的結構生物學實驗,但對當下科學家追求的前沿生物學來說,
共贏大於競爭;對生物學、數學和計算機學等學科而言,則會帶來新的機遇。
顏寧
(美國普林斯頓大學雪莉·蒂爾曼終身講席教授,美國科學院外籍院士)
首先,簡單說一下,什麼是生物學裡的「結構」。用個不太恰當的類比:變形金剛。比如擎天柱是輛車還是個機器人,這就是不同的結構了,機器人能打架大車做運輸,功能也不一樣。而不同的汽車人組成成分可能差不多,都有合金、玻璃、橡膠,但是形態各異,特長也不一樣。生物分子的組成成分和基本單元就那麼幾種,但是組裝起來,不同的序列不同的結構,於是功能各異、五花八門。這個結構不是靜止的,每一個生物大分子基本都像個小機器,比變形金剛更複雜、更變化多端。因為結構決定了生物大分子的功能,所以解析高解析度結構在過去幾十年一直是理解生物大分子工作機理最有力的工具。但是一直以來,因為技術局限,對於絕大多數生物大分子的結構解析困難重重。所以,一批科學家另闢蹊徑,試圖在已有的知識基礎上,繞開勞心勞力又勞財的實驗步驟,從蛋白質的序列直接通過計算預測出它們精準的三維結構。蛋白結構預測並不是一個新鮮學科,一直以來就是結構生物學的一個分支,很多科學家不斷開發算法,希望根據序列預測出來的結構越來越準確。這個領域在過去十幾年進步迅速,並且與實驗結構生物學融合度越來越高。比如,自從進入電鏡時代,看到一堆黑白灰的密度,如果其中某些部分沒有同源結構,通過軟體預測一個大致的結構模型,放到密度圖裡面做框架,再根據實驗數據調整,已經是個常規操作。這次人工智慧贏得CASP的新聞亮點有兩個,一是AI,二是準確度高。這確實是突破,但是有了兩年前的新聞(註:2018年,DeepMind開發的第一代AlphaFold首次參加CASP並且拔得頭籌)做鋪墊,現在這次委實是意料之中。至於衍生出來的所謂「結構生物學家都要失業了」的調侃——如果你對結構生物學的理解還停留在20年前,那這麼說也不是不行。但是結構生物學自身一直在發展著,一場冷凍電鏡的解析度革命更是令結構生物學不同往日了。我在2015年主持一個學術研討會的時候曾經評論過:
結構生物學的主語是生物學,是理解生命、是做出生物學發現。但是,在X-射線晶體學為主要手段的時代,獲得大多數研究對象的結構本身太難了,於是很多研究者把「獲得結構」本身作為了目標,讓外行誤以為結構生物學就是解結構。但我從進入這個領域之初,就被教育得明明白白:
結構本身只是手段,它們是為了回答問題、做出發現。而電鏡使得「發現」二字尤為突出。
看到結構本身、知道你的研究對象長啥樣,倒也可以稱之為發現,但我剛剛說的「發現」,特指那些超乎想像的、通過結構才揭示出來的、自然界裡神奇的存在或者令人嘆為觀止的機理。我講課最喜歡舉的例子之一就是施一公組的剪接體結構。為啥呢?因為它集合了結構生物學發現裡幾乎所有的精彩要素和挑戰。
第一,在剪接體結構出來之前,有很多剪接體的組分甚至是未知的。不同於傳統的結構生物學,先知道你要研究對象是啥,再吭哧吭哧地去把它們的結構解出來——剪接體的電鏡分析是看到了密度圖之後,完全不曉得這是啥,需要通過質譜等手段去鑑定組分。我從2015年就預測:電鏡與質譜組合,將會變成一個重要的生物學研究發現手段。在電鏡時代,這樣的例子越來越多。比如清華大學隋森芳老師組的那個巨大的藻膽體結構,靠質譜都不夠了。為了搞明白組分,他們甚至先做了基因組測序。
第二,幾十上百個蛋白如何眾星捧月地把那麼幾條貌似簡單的RNA掰成與幾個小小的金屬離子配合的核酶反應中心,在茫茫鹼基中,在正確的時間正確的地點牽線搭橋,剪掉intron(內含子),連接exon(外顯子)?就為了這一「剪子」一「鉤針」,為了幾毫秒的過程,這麼個龐然大物的幾十上百個組成部件卻要分分合合,這個過程是真神奇。
(圖源:生物化學經典教材Lehninger Principles of Biochemistry(第七版)封面)結構生物學目前的實驗手段只能獲得靜止的3D照片,為了揭示這部電影,就要不斷獲得中間態的3D照片,幀數越多,電影越精準。但即便如此,這個過程中的動力學問題,簡單說,就是變化速度,依舊不是現在的結構生物學實驗手段可以揭示的,需要藉助更多生物物理技術、計算生物學手段去探索。我自己的工作雖然沒有剪接體那麼酷炫,但是電壓門控鈉離子通道如何感受膜電勢的變化,開門關門,就這麼個過程,聽著簡單,我們死磕三年了,依舊束手無策。另外,我們今年發的兩篇PNAS論文其實代表了結構生物學的另一個努力方向:在實驗操作過程中對生物大分子施加外力(電場、磁場、各種長度的波......)。
也許是受到我自身專業領域的局限,AlphaFold迄今帶給我的震撼還趕不上冷凍電鏡的革命,後者將我們從技術掙扎中解放出來,可以專注於結構帶來的生物學發現本身。
AlphaFold目前最成功的預測是針對單鏈分子,當然將來預測複合物的高精結構也應該不在話下。相比於對蛋白摺疊的貢獻,我倒是更希望AI能夠助力Molecular Dynamics Simulation(分子動力學模擬)。對結構生物學而言,這個領域才是亟需進步的。
我個人認為生命是地球上最神奇的存在,那麼多未知要探索,任何一次技術進步都是契機。該考慮的是如何把新技術為我所用,去問出、去探索更有意思的問題。
最後,當AI能夠成功預測我們正在孜孜以求的生物大分子動態、原位高解析度結構的時候,那失業的一定不止是結構生物學家、或者生物學家了。
根據現在披露的結果,AlphaFold2已經基本達到實驗解析結構的精度。前天AlphaFold2團隊的報告展示了新冠病毒SARS-COV-2的預測結果,說明RNA聚合酶這麼大的蛋白也能基本預測準確。理論上,這會對結構生物學有很大衝擊,尤其是以後單顆粒cryo-EM的實驗方法上,是否還需要把解析度做得那麼高?低解析度的電子密度圖,甚至SAXS數據結合預測結果應該就能解決問題了。
但是,現實中的衝擊不會那麼大。這是因為,AlphaFold2模型的創新性非常高,其中結合的2D transformer和3D equivariant transformer都是AI領域的前沿技術,模型的訓練難度很大。DeepMind的訓練方法在學術界很難復現,估計學術界要花幾年的時間才能跟上,因此短期內AlphaFold2對結構生物學的影響會比較有限。DeepMind可能會和個別實驗室合作,預測蛋白質結構。
——
龔海鵬(計算生物學家,清華大學結構生物學高精尖創新中心研究員)
AlphaFold為結構生物學家提供了除晶體學、冷凍電鏡、NMR以外的另外一種手段,用於揭示生物大分子發揮作用的分子機制。
——
張鵬(結構生物學家,主要利用晶體學和冷凍電鏡技術;中科院分子植物科學卓越創新中心研究員)
AlphaFold目前還不能預測複雜的分子機器,主要是因為蛋白-蛋白相互作用非常複雜,存在極多的可能性。實驗手段所揭示出來的蛋白-蛋白相互作用方式還只是冰山一角,更何況在不同生理條件和過程中的結構變化。因此,未來對有特定功能的、多個成分組成的、生物大分子複合體的結構解析,以及體內的結構分析,將成為結構生物學實驗研究的主要內容。無論有沒有AlphaFold,結構生物學也正在朝這個方向發展。Rosetta(註:從頭蛋白結構建模算法)也好,AI也罷,結構預測都是基於已有的實驗數據夠大。沒有足夠的數據積累,這些基於統計和資料庫的預測就無法實現。完全基於物理學和化學第一性原理的結構預測還沒有出現。
實驗科學永遠是探索未知的必要手段。新的軟體算法應該是成為實驗科學家的更有力工具,而不是取代實驗科學。
——王宏偉(cryo-EM專家,清華大學結構生物學高精尖創新中心執行主任,清華大學生命科學學院院長)
最近兩年,結構生物學領域經歷了與圍棋界類似的故事。Alphago Fan版本時圍棋界並不認為它能夠戰勝人類頂尖高手,可是Alphago Lee後整個圍棋界甘拜下風,並且轉向AI拜師學藝。2018年Alphafold出現時,實驗結構生物學領域認為被戰勝的僅僅是傳統的結構預測領域,2020年Alphafold2之後,實驗結構生物學領域應該開始思考如何與之共存以及如何「拜師學藝」了。目前階段人工智慧在圍棋上已經遠遠超過人類頂尖棋手,但是人類圍棋比賽並未因此取消,如同汽車發明後奧林匹克仍然在進行田徑比賽一樣。原因之一是人工智慧雖然超越了人類,但並未解決圍棋的最終解。同樣的道理,對於複雜的結構生物學問題,預測手段本身還不能號稱完全解決了問題。實驗結構生物學領域接下來需要做的一個事情是要擁抱變化,更好地與預測方法結合以及共同發展。
——周強(cryo-EM專家,西湖大學生命科學學院特聘研究員)
蛋白質體系越大,結構的解析越難僅依賴計算方法。Cryo-ET (冷凍電鏡斷層成像) 技術擅長解析體外難表達的大分子機器結構、細胞中的原位蛋白結構等複雜體系,因此很難被脫離實驗手段的方法取代。目前,由於體系過於複雜,使用分子動力學模擬整顆病毒尚未實現,要模擬細菌、細胞、組織,還要很長的路要走。
——李賽(Cryo-ET專家,清華大學結構生物學高精尖創新中心研究員)