AlphaFold預測的新冠病毒ORF8蛋白結構;該結構已獲實驗證實。
1972年諾貝爾獎得主克裡斯蒂安·安芬森(Christian Anfinsen)在諾獎頒獎典禮上提出猜想:一個蛋白的胺基酸序列應該能完全決定這個蛋白的結構;而蛋白作為生命的基本構件,其結構與生命的各種功能息息相關。因此,半個世紀以來,科學家努力嘗試著利用胺基酸序列預測蛋白結構。然而,迄今為止的大多數嘗試皆為徒勞。
現在,一個來自DeepMind的人工智慧算法,終於一舉解決了這個問題。
喜訊在昨晚傳來:困擾了生物學家半個世紀的蛋白摺疊問題(protein folding problem),被一個人工智慧算法解決了。這個算法名為「AlphaFold」,由DeepMind公司開發。DeepMind發布於6年前的圍棋算法AlphaGo,至今已無人能敵。
DeepMind這次的新突破,其重要程度或許更甚於AlphaGo的誕生。在宣布AlphaFold解決了蛋白摺疊問題後,《自然》《科學》等著名雜誌相繼發文,在祝賀DeepMind之餘,也強調了這是人工智慧的又一次重大勝利。DeepMind母公司Alphabet和其姐妹公司Google的CEO桑達·皮採(Sundar Pichai)在推特上表示,這項新突破能讓我們更好地理解生命的基本構件之一,並「幫助研究人員攻克新難題,不論是抗擊疾病,還是保護環境。」
桑達·皮採的祝賀推特。
生物學的一個50年難題,正在人工智慧的幫助下迅速拉上帷幕。
蛋白難題
人類已知的所有生命都由蛋白構成,這些有機分子構成了我們與世界交互的基本元件。以視覺為例:我們眼中的感光細胞(photoreceptor)都擁有感光蛋白(opsin),感測光子,並將光信號轉化為大腦能理解的電化學信號。與任何蛋白一樣,人類視杆細胞中的感光蛋白視紫紅質(rhodopsin)是由胺基酸(amino acid)組成的;視紫紅質由348個胺基酸連接而成,在三維空間內的形狀與下圖大致相符:
牛視紫紅質(與人類視紫紅質結構相近)的三維結構。
然而,儘管視紫紅質的胺基酸序列在上世紀80年代就已測出,其結構卻直到2000年才被首次揭開。將近20年的時間跨度,凸顯了半個世紀以來一直困擾著生物學家的計算難題:已知一個蛋白的胺基酸序列,要怎樣才能求出其三維結構?
這可不是一個小問題:蛋白的功能取決於其三維結構,而在自然環境中,蛋白通常能自發地在數秒內摺疊成具有功能性的特定三維形狀。對於現代生物學來說,測出一個蛋白的胺基酸序列相對簡單(可用蛋白質譜法),但確定蛋白的三維結構則非常難(需要用到X射線晶體學和冷凍電鏡)。如何從胺基酸序列跨到蛋白的三維結構,難倒了一代代的生物學家。若能解決蛋白摺疊問題,科學家就不必浪費大量時間和資金確定蛋白的結構,而是可以將精力放在更重要的問題上,甚至還能針對性地設計具有獨特功能的蛋白。
於是,從上世紀60年代開始,生物學家對這個難題展開了強勁攻勢。八九十年代見證了蛋白摺疊問題「答案」的泉湧,科學家們一度以為很快就能從胺基酸序列預測蛋白的三維結構了;然而,當大家將眾多論文中提出的預測方法應用到自己感興趣的蛋白上時,卻發現我們離解答蛋白摺疊問題還差得太遠。
1994年,在生物學界的悲觀氛圍中,馬裡蘭大學學院市分校的計算生物學家約翰·莫爾特(John Moult)等人創立了兩年一度的CASP(Critical Assessment of protein Structure Prediction,即蛋白結構預測關鍵評估)比賽。在CASP上,不同隊伍需要利用已知的胺基酸序列預測蛋白的三維結構。這些結構都已被實驗證實,但未被公開。最後,評審會將各個隊伍的預測結果與實驗結果作比較,從而給出一個GDT分數。GDT意為「全局距離測試」(Global Distance Test),可理解為「有多大比例胺基酸的預測位置,與實驗測定的實際位置相差無幾」,因此分數越高,代表著預測越準。
GDT測試的滿分為100。一個預測方法必須要取得90分以上的成績,才能算作「解決了蛋白摺疊問題」。
截至2016年,12屆CASP的歷史最高分約為40。
AI相助
AlphaFold的第一次亮相在2018年。在第13屆CASP上,AlphaFold獲得了將近60分的GDT分數,比第二名高出了15%。在今年的CASP上,AlphaFold更是一舉獲得了將近90分的成績。
在中等難度的蛋白結構預測中,AlphaFold連續兩年奪冠,今年更是取得了將近90分的GDT成績。
AlphaFold的工作原理分為兩步。第一步是多序列校準(multiple sequence alignment),與一同參賽的其它算法沒有區別,意在將已知的胺基酸序列與資料庫內的序列對比,找出那些「喜歡待在一起」的胺基酸,再通過進一步分析模擬出每個胺基酸之間的距離,從而得出初步預測。但知道胺基酸之間的距離還不夠——畢竟不是每一種三維結構都符合物理規則。於是在第二步中,AlphaFold會基於胺基酸序列,創造出一個符合物理規則的隨機三維結構,然後用深度學習中常用的梯度下降法(gradient descent)改進第一步中得出的預測。
至此,AlphaFold已經能超越前12屆CASP中冠軍所用的預測方法了。但在今年的CASP上,第二代的AlphaFold還用上了基於注意力機制的神經網絡(attention-based neural network)架構。簡單來說,在考慮蛋白三維結構時,這種旨在模仿大腦的神經網絡架構不僅會考慮到胺基酸序列中的每個胺基酸,還能預估一個胺基酸的位置受哪些胺基酸的影響、影響程度有多大,等等。就如同大腦在決策時會將注意力集中在重要信息上一樣,升級版AlphaFold在預測結構時也會將「注意力」集中在重要的胺基酸上。
與其它深度學習算法一樣,AlphaFold也需要利用大量數據進行訓練。今年參加CASP的AlphaFold,訓練數據集囊括了大約17萬個已知的蛋白三維結構,加上包括Uniprot在內的大型蛋白序列庫中的蛋白胺基酸序列。利用128個TPUv3核心,AlphaFold在訓練了幾周後就達到了參賽水平。
有了先進的神經網絡架構、算法和數據的支持,AlphaFold能在幾天內預測出一個蛋白的三維結構,甚至還能計算預測結構中每個部分的可靠性(即AlphaFold對這部分預測結構的「信心」)。在CASP的盲審中,當評委們看到一個隊伍的算法擁有極高的預測準確率時,他們「就已經猜到這是AlphaFold了,」評審之一,安德烈·魯帕斯(Andrei Lupas)說。比賽結果顯示,AlphaFold將近三分之二的預測都與實驗結果相近。
AlphaFold對兩個蛋白(左:RNA聚合酶的一個域;右:黏附素尖端)的結構預測(藍色)和實驗測定結構(綠色)的對比。
撼動學界
AlphaFold的參賽結果,讓哥倫比亞大學的計算生物學家穆罕默德·庫雷希(Mohammed AlQuraishi)感覺會有很多人因此離開蛋白結構預測領域。他說:「這是最高級別的突破,絕對是我人生中最重要的科學成果之一。」AlphaFold的出現,意味著今後要對蛋白結構進行高效、簡便且精準的預測,僅需初步的試驗數據即可。擁有這些蛋白結構的助力,疾病、演化等領域的研究將得到強大的推動。
以疾病研究為例,利用給定胺基酸序列預測蛋白結構至關重要。例如,鐮刀形貧血症(sickle-cell anaemia)是由單個胺基酸的變動(從穀氨酸到纈氨酸)引起的。這個變動足以使血細胞從正常運作的球狀,變成具有嚴重缺陷的鐮刀狀。類似的遺傳疾病比比皆是。有了AlphaFold的幫助,我們就能快速利用發生變動的胺基酸序列,預測疾病中異常蛋白的結構,從而有針對性地進行下一步研究。
除此之外,AlphaFold也標誌著DeepMind公司的轉型。在今年年初,《自然》刊發了一篇DeepMind的科研文章,利用從人工智慧領域中獲得的洞見,改變了許多神經科學家對大腦中重要的神經調質多巴胺(dopamine)的看法。AlphaFold的此次成功,更堅定了DeepMind利用人工智慧助力生物領域研究的角色。
DeepMind公司的CEO德米斯·哈薩比斯(Demis Hassabis)表示:「在實際影響力上,我真的覺得這是(DeepMind)至今最重要的成就。」這個50年難題的解決,意味著生物學家終於從預測蛋白結構的苦勞中被解放出來,能夠著手應對更新、更需要創造力的任務。