人工智慧預測的蛋白質結構(藍色)和實驗確定的蛋白質結構(綠色)幾乎完全匹配。
在化學、生物等領域,不少研究生的生活可以被形容為「7-11」:一周工作 7 天,每天 11 個小時。今年7月,利物浦大學的研究者開發了一款「007」機器人,一天二十幾個小時都泡在實驗室裡,8 天就能完成 688 個實驗,還自己發現了一種高效催化劑.....
當時,網上就有不少科研人員自嘲要失業了。近日,一群蛋白質結構研究的朋友又紛紛自嘲:要失業了....
來自Science最新(11月30日)消息,人工智慧(AI)已經解決了生物學的一個重大挑戰:預測蛋白質如何從胺基酸線性鏈捲曲成3D形狀,從而使它們能夠執行生命任務。遊戲發生了變化,人工智慧(AI)成功地解決了蛋白質結構問題,在解決蛋白質結構方面取得了勝利!
11月30日,領先的結構生物學家和兩年一次的蛋白質摺疊比賽的組織者宣布了英國人工智慧公司DeepMind的研究人員的這一成就。他們表示,DeepMind的方法將產生深遠的影響,其中包括極大地加快了新藥物的開發速度。
在今年CASP中,針對各種目標蛋白,DeepMind的AlphaFold的GDT平均分為92.4。在最具挑戰性的蛋白質測試中,AlphaFold的中位數得分為87分,比排名第二的預測高出25分。它甚至擅長於解決楔入細胞膜中的蛋白質結構,這是許多人類疾病的核心,但眾所周知,用x射線晶體學很難解決。
醫學研究理事會分子生物學實驗室的結構生物學家Venki Ramakrishnan稱該結果「在蛋白質摺疊問題上取得了驚人的進步。
歐洲生物信息學研究所(European Bioinformatics Institute)名譽主任Janet Thornton說, DeepMind團隊所取得的成就非常了不起,它將改變結構生物學和蛋白質研究的未來。這是一個已有50年歷史的問題。
馬裡蘭大學Shady Grove的結構生物學家John Moult補充說,他從來沒想過在其的有生之年會看到這個。
人體擁有成千上萬種不同的蛋白質,每一種蛋白質都由幾十到數百種胺基酸組成。這些胺基酸的順序決定了它們之間的作用,賦予了蛋白質複雜的三維形狀,進而這種三維形狀又決定了蛋白質的功能。了解這些形狀有助於研究人員設計出可以能在蛋白質縫隙內滯留的藥物。而且,能夠合成具有所想結構的蛋白質,可以加速酶的研製過程,可用於製造生物燃料並降解廢棄塑料。
克裡斯蒂安·安芬森(Christian Anfinsen)在1972年諾貝爾化學獎的獲獎感言中,提出了一個著名的假設,即理論上,蛋白質的胺基酸序列應該完全決定其結構。正是由於這一假設,引發了50年的探索,即能夠僅基於1D胺基酸序列通過計算預測蛋白質的3D結構。
幾十年來,研究人員利用x射線晶體學或低溫電子顯微鏡(cryo-EM)等實驗技術來破譯蛋白質的3D結構。但這種方法可能需要數月或數年時間,而且並不總是有效。目前,在生命形式中發現的2億多種蛋白質中,只有17萬種蛋白質的結構被破解。
在20世紀60年代,研究人員意識到,如果他們能計算出蛋白質序列中所有個體的相互作用,他們就能預測蛋白質的三維形狀。然而,由於每個蛋白質有數百個胺基酸,並且每對胺基酸可以通過多種方式相互作用,每個序列可能的結構數量就是一個天文數字。計算機科學家們開始著手解決這個問題,但進展緩慢。
1994年,馬裡蘭州大學的結構生物學家John Moult及其同事發起了CASP競賽,每兩年舉行一次。進入者獲得約100種蛋白質的胺基酸序列,其結構未知。一些小組計算每個序列的結構,而另一些小組則通過實驗確定它。組織者然後比較計算預測和實驗室結果,並利用全球距離測試(GDT)的方法給出分數。在0到100分的評分中,90分以上被認為與實驗方法相當。
在1994年,對小而簡單蛋白質的預測結構,即使也能與實驗結果相匹配。但是對於更大的、具有挑戰性的蛋白質,計算的GDT分數大約是20。
到2016年,在針對最困難的蛋白質,競爭小組已經達到了40分左右,大部分是通過深入了解與CASP靶點密切相關的已知蛋白質結構。
DeepMind於2018 年首次參加(第 13屆 )全球蛋白質結構預測競賽,在CASP 上,DeepMind 的最新人工智慧程序 AlphaFold ,成功預測生命基本分子 —— 蛋白質的三維結構。DeepMind輕鬆獲勝,在每個結構上以平均15%的優勢擊敗了競爭對手,並且在最難的目標上贏得了高達60分的GDT得分。
但是,DeepMind負責AlphaFold開發的John Jumper說,這些預測仍然太粗糙而無法發揮作用。我們知道我們離生物學相關性還有多遠。
為了做得更好,Jumper和他的同事將深度學習與模仿人組裝拼圖的方式的「注意力算法」相結合:首先將小塊連接在一起(在這種情況下是胺基酸簇),然後尋找方法將團塊合併成一個更大的整體。他們利用一個由128個機器學習處理器構建的計算機網絡,在大約17萬個已知蛋白質結構上算法訓練。
今年比賽的所有團體都進步了。有了AlphaFold,遊戲已經改變了。組織者甚至擔心DeepMind可能一直在以某種方式作弊。因此,德國馬克斯·普朗克發育生物學研究所蛋白質進化學系主任Andrei Lupas提出了一個特殊的挑戰:預測一種來自古細菌群中古細菌物種的膜蛋白。
在10年的時間裡,他的研究團隊嘗試了所有的方法,以獲取蛋白質的X射線晶體結構,一直們無法解決這個問題。
但是AlphaFold沒有遇到任何麻煩。它輸出去了一個蛋白質的詳細圖像,該蛋白質由三部分組成,中間有兩條長長的螺旋臂。該模型使Lupas和他的同事能夠理解他們的X射線數據。在半小時內,他們的實驗結果與AlphaFold的預測結構相符。Lupas表示,這幾乎是完美的。他們不可能對此作弊。我不知道他們是怎麼做到的。
作為進入CASP的條件,與所有小組一樣,DeepMind同意向其他小組公開有關其方法的詳細信息。這將給實驗者帶來福音,他們將能夠使用準確的結構預測來理解不透明的X射線和低溫EM數據。Moult說,它還可以使藥物設計人員快速確定新的和危險的病原體(例如SARS-CoV-2)中每種蛋白質的結構,這是尋找分子以阻斷它們的關鍵一步。
不過,AlphaFold並不能做好所有事情。在比賽中,它明顯地在一種蛋白質上搖擺不定,這種蛋白質由52個重複的小片段組成的混合物,當它們組合在一起時,彼此扭曲了位置。Jumper說,該團隊現在希望訓練AlphaFold來解決這種結構,以及那些能夠共同發揮細胞關鍵功能的蛋白質複合物的結構。
儘管一項重大挑戰已經結束,其他挑戰無疑也會出現。這不是事情的結局。這是許多新事物的開始。#木木西裡#
內容來源:E探索醫學
博士勸退文(肺腑之言)
5個地球之外的實驗
20 歲感染 HIV,病情被醫院判死刑後:什麼才是「活著」?
特別聲明:本文發布僅僅出於傳播信息需要,並不代表本公共號觀點;如其他媒體、網站或個人從本公眾號轉載使用,請向原作者申請,並自負版權等法律責任。