DeepMind於12月初宣布了一項重大突破,他們的AI系統AlphaFold已經解決了「蛋白質摺疊問題」,這是生物學中已經困擾了科學家50年的巨大難題。
蛋白質摺疊問題的突破可以幫助我們了解疾病並發現新的藥物。生物學家安德烈·盧帕斯(Andrei Lupas)告訴《自然》(Nature),這是在 「改變遊戲規則」。 他補充道,「這將改變醫學,改變研究,改變生物工程。甚至改變一切。」
DeepMind是一家人工智慧(AI)研究實驗室,在2014年被Google收購,現在已經成為Google母公司Alphabet的獨立全資子公司。
DeepMind這家公司聽起來陌生,但實際上大家對它的產品應該還算熟悉:大名鼎鼎的圍棋界超級無敵大黑馬阿爾法狗(AlphaGo)就是由他們開發的。仔細看看,就能發現,AlphaFold與AlphaGo的命名方式如出一轍。畢竟圍棋在西方就叫做「Go」,而蛋白質摺疊翻譯成英語則是「Protein folding」。
蛋白質是一種大分子,與核酸、多糖等一起被稱為生物大分子。它是在細胞中完成工作的基本組成部分,約佔人體全部質量的18%。最重要的是,蛋白質幫助人們維持正常代謝功能,與生命中的各種現象有關。
人體內蛋白質的種類很多,性質功能各不相同,但都是由20種基本胺基酸(Amino acid)按不同比例組合而成的,並在體內不斷進行代謝與更新。它們最開始時是一串胺基酸(可以想像成一條穿著珍珠的項鍊),但很快就會摺疊成一個獨特的三維形狀(想像一下將這串珍珠項鍊弄亂)。
如果為了更好地理解後續AlphaFold所做出的貢獻和成就,就需要展開說得更詳細一些,得從蛋白質的一級結構、二級結構和三級結構講起了。
蛋白質的基本組成單位是胺基酸。而蛋白質的一級結構指的就是其胺基酸序列。胺基酸通過脫水縮合連成肽鏈,多肽主鏈骨架原子沿一定的軸盤旋或摺疊而形成的特定的構象就是二級結構。
一條或者多條多肽鏈組合在一起,便組成了蛋白質三級結構。具體一點地說,蛋白質會由所含胺基酸殘基的親水性、疏水性、帶正電、帶負電等特性通過殘基間的相互作用而摺疊成一個立體的三級結構。本文要講的蛋白質摺疊問題就是跟這三級結構的摺疊情況有關。
根據1972年的諾貝爾化學獎得主安芬森提出的著名假設,蛋白質分子的一級結構決定其立體結構。也就是說,如果從蛋白質的一級結構就能知道它的三級立體結構,那麼就可以直接從基因推測其編碼蛋白質所對應的生物學功能。
但現在的問題是,雖然蛋白質可以在短時間內,從一級結構摺疊至三級立體結構,研究者卻無法在短時間中從胺基酸序列開始,計算出蛋白質結構,甚至無法得到準確的三維結構。因此,研究蛋白質摺疊的過程,可以說是破譯摺疊密碼的過程。
這個摺疊後的三維形狀至關重要,因為它決定了蛋白質的工作方式。如果開發新藥物的科學家知道蛋白質的形狀,他就更容易找到一個可以與之結合的分子,使這個蛋白質可以改變它的行為。問題在於,很難預測蛋白質將會呈現哪種形狀。
用疫情中的冠狀病毒來舉例這個過程的話,病毒的序列不但顯示了它的來源,還將顯示將來會呈現的形狀及導致的身體狀況,或者說是生物現象。所以從序列開始,就需要做出計算來獲知它的立體結構,並通過尋找一個結合的分子去改變這個結構,從而改變這個結構帶來的生物現象。但是,這個蛋白質變化很快,計算卻太難,需要大量的時間。
研究這些形狀預測問題的研究人員為了更好的交流,每隔兩年,都會提交有關某些蛋白質未來形狀的預測來證明自己的能力以及想要獲得進步。他們會在一個「結構預測的關鍵評估」(Critical Assessment of Structure Prediction / CASP)會議上進行同行評審。所以,這個會議因為那些奇奇怪怪的預測,有時候會被認為是成年人之間的科幻比賽。
到了2018年,DeepMind的AI作出的預測已經超越了這個CASP會議裡的每個人,讓這些人類研究員感到了恐慌以及鬱悶。畢竟,那是一種要被搶去飯碗的不妙感。DeepMind在那一年贏得了明顯的勝利,但它距離解決蛋白質摺疊問題差得還是太遠了。
令人驚嘆的是,短短兩年過去,現在,DeepMind的AlphaFold系統已經能夠以驚人的速度和準確性預測出胺基酸串會摺疊成什麼樣子的立體形狀。AI當然並不完美,但是在這件事上卻做得非常出色:當它出現錯誤時,通常也只有一個原子的寬度。這與科學家在實驗室中進行實驗時所犯的錯誤差不多大,只是這些科學家的實驗速度會慢得多,費用也高昂得多。
「這很重要,」 CASP的共同創始人和負責人約翰·穆爾特(John Moult)告訴《自然》。「從某種意義上說,問題已經解決。」
現在我們來說說這個AI技術的進步對生物學來說有多重要。雖然AlphaFold的技術仍然有待完善,但假設研究人員能夠精準實現這一目標,這一突破將可能加快並提高我們開發新藥的能力。
讓我們來看看AI在提升研發速度方面的真正能力。為了更了解AlphaFold可以在多大程度上促進科學家的工作,我們可以舉個人類科學家的例子來說明:德國Max Planck研究所的進化生物學家Andrei Lupas花了十年,試圖弄清楚一種蛋白質的形狀。但是,無論他在實驗室中嘗試了什麼,都無法得到真正的結果。於是他試用了AlphaFold,在半小時內得到了答案。是的,就是這麼令人沮喪又令人驚喜。
看了以上這些,很多人仍然不明白這項AI 技術對我們普通人來說意味著什麼。實際上,許多疾病都是由錯誤摺疊的蛋白質引起的。例如阿茨海默症(老年痴呆)、囊性纖維病變、家族性高膽固醇症、家族性澱粉樣蛋白症、某些腫瘤、白內障等。
而從阿茨海默症到目前的冠狀疫情大流行,AlphaFold都會有影響。它可以幫助我們了解疾病,找到新的治療方法,還可以幫助我們快速確定哪些現有藥物可以有效地應用於新的或變異的病毒。換句話說,花了人們一整年的時間去研究的新冠疫苗,如果在一年前就有了這個AI的幫助,指不定全球疫情都快要結束了。
未來,當另一種從未見過的疫情發生時,在我們的後兜裡安裝一個像AlphaFold這樣的系統,可能會讓我們像會分析對方戰力的超級機器人那般,無所懼怕。但是要使這些成為可能,DeepMind必須與科學家共享技術。這家實驗室目前表示,正在探索實現這一目標的方法。
接著我們來講講這個在生物方面的探索為什麼對人工智慧來說也很重要。在過去的幾年中,DeepMind通過玩遊戲而舉世聞名。他們建立的AI系統不斷傳出勝績,使得像西洋棋、圍棋和星際爭霸這樣的戰略遊戲中的專業遊戲玩家倍受打擊。就像IBM的Deep Blue和Garry Kasparov之間的西洋棋比賽一樣,這些比賽主要用來證明DeepMind可以使AI超越人類的能力。
現在,DeepMind用AlphaFold證明它已經成長,從玩電子遊戲逐漸升級為解決具有現實意義的生死攸關的科學問題。就像是一個只會玩遊戲到處挑戰的熊孩子,現在終於長大成人,成為了一個實驗室裡為人類做貢獻的科學家。
解決蛋白質摺疊問題就是這一個完美的證明DeepMind的AI長大了的方案。目前,DeepMind是構建神經網絡的全球領導者。神經網絡是一種受人腦神經元啟發的人工智慧。這種AI的優點在於它不需要人類使用很多規則對其進行預編程,只需向神經網絡提供足夠的某些事例或者案例即可。它可以學習並檢測這些案例中的數據或模式,然後基於此得出推論。
例如,可以為這個AI顯示成千上萬個胺基酸串,並顯示它們會摺疊成什麼形狀。逐漸地,它給出的胺基酸串摺疊方式趨於成形並進行驗證,隨後基於該檢測模式,一直做更新的嘗試。由於人力的關係,可能會得出一些人類專家未檢測到的規律或模式。因而,它可以預測其他更多蛋白質的摺疊方式。
顯然,這些不斷嘗試的過程,正是神經網絡擅長的方面。而DeepMind明顯也意識到了這一點,將正確類型的AI與正確類型的謎題結合在一起。甚至,還整合了一些更複雜的知識,例如關於物理學和與進化相關的胺基酸序列方面的知識。由於DeepMind仍在準備發表同行評審的論文,所以細節比較少,但想來離公布不遠了。
其他實驗室其實也已經利用神經網絡的力量在生物學上取得了一定的突破。今年年初,AI研究人員通過向神經網絡提供有關已知具有抗菌特性的2335個分子的數據來訓練神經網絡。然後,他們用它來預測在1.07億種可能性中,還有哪些其他分子也具有這些特性。通過這種方式,他們確定了新型的抗生素。
DeepMind的研究人員正在用跟人類息息相關的成就來結束這一年,這項成就表明了AI的成熟程度。對於整個2020年以及整個世界來說,都是個極致的好消息。