當地時間11月30日,谷歌旗下的人工智慧公司DeepMind宣布,其研發的AI系統AlphaFold成功解開了一個困擾人類長達50年之久的生物學難題——「蛋白質摺疊問題」。
這一驚人的成果立刻引發了關注。科學家們表示,這個突破性的成就不僅將幫助科研人員弄清引發某些疾病的機制,為更快研發藥物、農作物增產,以及可降解塑料的超級酶研發鋪平道路,還可能對大部分人類產生革命般的影響。
「這是該研究領域激動人心的一刻,」DeepMind聯合創始人兼CEO哈薩比斯說:「這些算法今天已經足夠成熟強大,足以被應用於真正具有挑戰性的科學問題上。」
為何「蛋白質摺疊問題」如此重要?
蛋白質被稱為地球生命的「基石」,它幾乎支持著地球上每一種生物的生命功能。而這些由胺基酸鏈組成的複雜大分子,其功能很大程度上取決於自身獨特的3D結構。
蛋白質的功能是由其三維形狀決定 圖據DeepMind官網
1972年,諾貝爾化學獎得主、美國科學家克安芬森提出了一個著名的假設:從理論上來說,蛋白質的胺基酸序列應該可以完全決定其結構。自此,人類科學開始了一場半個世紀的新探索。
自安芬森提出假設後,科學家們一直在尋找一種快速預測蛋白質結構的方法,一旦能掌握這樣的方法,就能更好地理解蛋白質在人體內的作用以及其工作原理,但他們卻遲遲未能得以突破。
弄清蛋白質的胺基酸序列如何決定其摺疊成何種形狀,即「蛋白質摺疊問題」,被稱為過去的50年裡生物學領域最棘手、最持久的謎團之一。
蛋白質的形狀由胺基酸之間數以百萬計的微小相互作用決定的,而「一旦這些胺基酸發生一次微小的重組,就會對人體的健康造成災難性的影響,因此,研究相關蛋白質是了解人類疾病和找到新治療方法最有效的方法之一。」致力於研究蛋白質結構預測問題的CASP14小組主席約翰·莫爾特博士解釋道。
不僅如此,世界上許多重要的科研挑戰,如開發治療疾病的方法或找到分解工業廢料的超級酶,基本上都與蛋白質及其所扮演的角色有關。
然而,人體內有成千上萬種蛋白質,細菌、病毒等其他物種則有多達上億種蛋白質。目前已知的蛋白質有兩億種,但只有一小部分已被破解,因為按照傳統研究方式,僅僅破譯一種蛋白質的結構就需要耗費大量時間和金錢。
DeepMind研究團隊正展示其AI系統預測的蛋白質3D結構 圖據DeepMind官網
據《財富》雜誌介紹,迄今為止,唯一破譯蛋白質結構的方法是通過X射線晶體學。這涉及到將數以百萬計的蛋白質溶液轉變成晶體,這是一個十分棘手的化學過程。然後,X射線被射向這些晶體,科學家根據它們產生的衍射圖案逆向工作,從而建立蛋白質本身的圖像。而對許多蛋白質來說,不是任何X射線都可以「勝任」,它們需要由一個巨大的、視距大小的圓形粒子加速器——同步加速器產生。
這一整個過程既昂貴又耗時。根據多倫多大學研究人員的一項估計,用X射線晶體學方法確定單個蛋白質的結構大約需要12個月和12萬美元。目前全球每年新增發現大約3千萬種蛋白質,但其中只有不到20萬種能通過用X射線晶體學繪製出結構圖。DeepMind高級研究員、蛋白質摺疊問題團隊負責人約翰·江珀曾表示:「我們的無知程度正在迅速增長。」
可有助理解生命形成,研究治療癌症、新冠的救命藥
解決蛋白質摺疊問題意味著什麼?答案是:可能會對大部分人類產生革命般的影響。
如今,科學家們通過Alphafold 2已經擁有了預測蛋白質3D摺疊形狀的能力,對於人們理解生命形成的機制至關重要。
《自然》雜誌指出,準確預測蛋白質結構的能力將是生命科學和醫學領域的巨大福音。因為幾乎所有的疾病,包括癌症、新冠病毒等,都與蛋白質3D結構有關,而通過確定以前不為人知的蛋白質結構,可以更快地開發更有針對性的治療方法和藥物。這可能會加快新藥上市的時間,可能會減少新藥開發的幾年時間和數億美元的成本,可能因此拯救數億人的生命。
不僅如此,該領域科學家們指出,這一突破將徹底改變生物學。
英國皇家學會主席拉馬克裡希南指出,在AlphaFold的幫助下,人類攻克「蛋白質摺疊問題」比此前的預期提前了好幾十年。「它將從根本上改變生物學眾多領域的研究,這將是令人興奮的。」他說道。
「它改變了遊戲規則,」德國進化生物學家安德烈·盧普斯說道。AlphaFold已經幫助他找到了一種困擾了團隊長達10年的蛋白質結構,他預計,這將改變團隊的工作方式和他的科研任務。「這將改變醫學,改變大家的研究方向,改變生物工程,改變一切,」他補充道。
哥倫比亞大學計算生物學家 Mohammed AlQuraishi 在《自然》雜誌上的撰文指出,「可以說這將對蛋白質結構預測領域造成極大影響。我懷疑許多人會離開這個領域,因為核心問題已經解決。這是一流的科學突破,是我一生中最重要的科學成果之一。」
但盧普斯認為,這將允許新一代的分子生物學家提出更高級的問題。
毫無疑問,AlphaFold 也是 DeepMind 迄今為止取得的最重要進展之一,也是人工智慧領域最重要的成就之一。但對於DeepMind的研究人員而言,還有很多後續問題有待解決,包括弄清楚多種蛋白質如何形成複合物以及它們如何與DNA相互作用。江珀表示,DeepMind下一步計劃將應對這些挑戰。
問題的開始:打破人類智商「天花板」 解決「根節點問題」
作為全球領先的人工智慧研究中心之一,DeepMind研發的AI系統已經讓世人驚嘆。此前,該公司最為人所知的成就當屬擊敗了圍棋世界冠軍李世石的AlphaGo。
2016年3月15日,李世石(左)與哈薩比斯握手 圖據《財富》雜誌
然而這並不是DeepMind的目標,利用人工智慧解決一些最緊迫的科學難題,才是其聯合創始人兼CEO傑米斯·哈薩比斯成立這家企業的初衷。
而DeepMind之所以要瞄準了蛋白質摺疊問題,一切要從一個遊戲開始說起。
哈薩比斯曾是一名西洋棋神童,13歲時就成為象棋大師,曾一度在同齡人中排名世界第二。他對西洋棋的熱愛讓他痴迷於兩件事:遊戲設計和自己內心的思維機制。
在進入劍橋大學學習計算機科學後,他於1998年創立了自己的電腦遊戲公司Elixir Studios。在製作出兩款獲獎遊戲後,他賣掉了智慧財產權並關閉了公司。隨後,哈薩比斯又在倫敦大學學院獲得了認知神經科學博士學位。
2009年,哈薩比斯在美國麻省理工學院做博士後研究時,聽說了一款名為Foldit的網路遊戲。Foldit由華盛頓大學的研究人員設計的,是一個關於蛋白質摺疊的「公民科學」項目。這款遊戲引起了哈薩比斯濃厚的興趣。
2010年,哈薩比斯創立了人工智慧公司DeepMind,目標是「解決智力問題,然後用它來解決其他一切問題」。此時的哈薩比斯已經對蛋白質摺疊有了初步的認識,使其成為了「其他一切問題」之一。
由人工智慧預測的蛋白質結構(藍色)和實驗確定的蛋白質結構(綠色)幾乎完全匹配 圖據《科學》雜誌
2016年3月15日,AlphaGo擊敗世界頂級棋手李世石當天,DeepMind一戰成名。同樣在當天,哈薩比斯在首爾街頭對AlphaGo團隊負責人大衛·西爾弗表示:「告訴你吧,我們可以解決蛋白質摺疊問題。」
DeepMind人工智慧科學應用的部門負責人普什米特·科利表示,DeepMind的目標是試圖解決「根節點問題」,也就是說,解開通向眾多不同科學途徑的根本問題,而蛋白質摺疊問題正是這些根節點之一。
Alphafold是如何突破這一難題的?短短4年:從誕生到成功
時間回到1994年,當許多科學家第一次開始使用複雜的計算機算法來嘗試預測蛋白質摺疊問題時,馬裡蘭大學的生物學家莫爾特決定創建一個競賽,以提供一個公正的方式來評估出最好的算法。他將這個比賽命名為「蛋白質結構預測的關鍵評估(CASP)」,每兩年舉行一次。此後,CASP被譽為蛋白質結構預測領域的奧林匹克競賽。
2016年,在AlphaGo擊敗李世石後不久,DeepMind向爭奪這塊CASP金牌發起了進攻。
為了解決這個問題,DeepMind成立了一個由六名AI研究人員和工程師組成的尖兵隊伍,隨後蛋白質摺疊問題專家約翰·江珀也加入了。經過一番摸索,通過一種名為「監督式深度學習」的簡單訓練方法,並使用來自蛋白質資料庫(一個大型生物分子的3D結構數據在線資料庫)的17萬份公開數據作為訓練數據,AlphaFold很快有了雛形。
傑米斯·哈薩比斯 圖據《財富》雜誌
所謂「監督式深度學習」,就是大多數商業應用中使用的人工智慧:從一組已建立的數據輸入和相應輸出,神經網絡學習如何匹配給定的輸入和給定的輸出。
此前,一些生物學家也嘗試使用「監督式深度學習」來預測蛋白質如何摺疊,但正確率只有50%。隨後,有科學家根據蛋白質的進化史將其分門別類並發現,在各類別中,DNA序列中可能存在著「協同進化」的胺基酸對,在蛋白質的摺疊結構中相互接觸。
2018年第13屆CASP比賽,DeepMind在「協同進化」和接觸預測的基本觀點上增加了兩個重要的轉折因素——距離和角度。首先,讓算法預測蛋白質中所有胺基酸對之間的距離,而不是試圖確定兩個胺基酸是否會接觸。其次,研發了第二個神經網絡,以預測胺基酸對之間的角度。
至此,DeepMind的算法已經能夠計算出蛋白質可能結構的粗略輪廓。然後又使用了一種非人工智慧的算法對結構進行優化。將以上所有元素合併後,「AlphaFold」AI系統正式誕生。
DeepMind高級研究員、蛋白質摺疊問題團隊負責人約翰·江珀 圖據《財富》雜誌
在2018年第13屆CASP比賽中,AlphaFold擊敗了所有對手。在最難的43種蛋白質預測中,AlphaFold獲得了25種蛋白質的最高分,而緊隨其後的第二名僅得到了3個最高分。
比賽結果一出便震驚了整個領域。儘管如此,此時的AlphaFold距離哈薩比斯的目標——解決蛋白質摺疊問題,還差得很遠。AlphaFold幾乎有一半的結果相當不準確,且在104個蛋白質靶點中,僅有三種情況的結果與X射線晶體學得出的結果一樣好。「我們不僅僅想成為這方面的佼佼者,我們還想做到最好。我們實際上想要一個對生物學家有意義的系統,」江珀說道。
2018年比賽結束後,DeepMind開始更加努力。但研究團隊並不是僅在AlphaFold的基礎上改進,而是重新回到白板前,開始提出完全不同的想法,希望讓系統更接近於X射線晶體學達到的精確度。
然而接下來,據江珀回憶,是整個項目中最可怕、最令人沮喪的一段時期:一切嘗試都是無用功。他說道:「我們花了三個月的時間,都沒有比CASP13更好的結果,這讓我們開始感到恐慌。」但後來,研究人員嘗試進行了一些輕微的改動,六個月後,該系統明顯優於最初的AlphaFold。
在接下來的兩年裡,江珀和整個團隊都陷入了一種循環:三個月沒有任何進展,接著是三個月的快速發展,接著是另一個停滯期。
2019年11月21日,新系統AlphaFold 2終於在性能上有了巨大的飛躍。2020年5月至8月,第14屆CASP比賽開始,11月30日公布排名中,AlphaFold 2打破了精確度的紀錄,以平均預測準確度為92.4分(滿分100分),最具挑戰性的蛋白質分類平均得分87分的成績,獲得了比賽冠軍,同時也撼動了全球生物學領域。
紅星新聞記者 徐緩
編輯 張尋
(下載紅星新聞,報料有獎!)