1972年,諾貝爾化學獎獲得者克裡斯蒂安·安芬森在獲獎感言中提出了一個假設來說明酶進行化學合成的可能性。他猜測蛋白質複雜的三維結構是由它的一維結構所決定的,也就是說,由DNA控制細胞內RNA所搭建的特定胺基酸序列,從理論上來講,應該決定了這類蛋白質擁有怎樣的結構。這就是著名的蛋白質摺疊結構預測。
沒想到,這個假設竟成為了生物學界近50年來一個重大難題。要解決這個難題最大的挑戰在於:在自然界,蛋白質摺疊的方式實在太多了,據估算,一個典型的蛋白質有10300次方種可能的構型,它們可以自個兒把自個兒扭成一幅六親不認的樣子,即便是物理規則來了也要流淚,因為有些形狀實在難以想像。
而就在剛結束不久的第十四屆CASP競賽上,由谷歌Deepmid推出的AlphaFold最新版本力壓群雄,在通過胺基酸序列預測蛋白質摺疊結構方面,其準確性已經接近於使用X射線晶體學、超低溫電子顯微鏡(cryo—EM)等標準實驗方法所解析出的3D結構。
消息一出,立刻被《nature》、《science》等多家科學雜誌所報導,《nature》雜誌更是直接將其評為:「(這將改變一切)」。
在Deepmind發布的官方推文下,谷歌CEO桑達爾·皮查伊、斯坦福計算機科學系教授李飛飛、馬斯克等科技大佬也紛紛「一鍵三連」。
那麼,這項轟動各界的研究到底是什麼呢?
蛋白質是生命的基礎,這些碳基分子負責處理細胞內部發生的大部分事情,比如面對病毒的入侵,細胞內的DNA就開始忙活起來,生產與之對抗的抗體來抵禦病毒。從某種角度而言,它們和現實生活中的打工人沒什麼區別,每天的工作就如同流水線一般重複進行著。
而它們的工作方式和作用都取決於其3D結構,「結構即功能」是分子生物學不變的真理。自1950年開始,科學家已經可以通過X射線照射結晶的蛋白質並將其產生的衍射光轉化為蛋白質的三維原子坐標,從而獲得準確的蛋白質結構。
但這種方式需要花費的大量時間和資金,於是科學家一直想知道蛋白質的組成部分(一串胺基酸長鏈)如何在極短時間內變形成曲折的三維結構。
在上世紀八九十年代,計算機開始應用於模擬蛋白質結構,得益於計算機強大的算力,科學家們提出了許多理論的預測方法,然而,很快就被現實打臉了,當他們將論文中的方法在實驗室應用時,發現自己鼓搗出的蛋白質與實際情況相去甚遠。
不過這並不代表計算機退出了舞臺,相反,來自馬裡蘭大學學院公園分校的計算生物學家約翰·穆爾特與其他人共同創立了CASP,致力於改進精確預測蛋白質結構的計算方法。
CASP用來衡量預測結果準確性的主要指標為GDT,其範圍為0~100。這項測試主要是判斷胺基酸殘基在閾值範圍內與正確位置的百分比。測試結果如果能達到90分以上就可以被認為是與實驗方法相媲美的。
在11月30日公布的最新一屆CASP評估結果中,AlphaFold系統總分為92.4GDT,這也意味著預測平均誤差約為1.6埃(一埃等於0.1納米),相當於一個原子的寬度。
即便是對於最難的隨機蛋白質結構預測,AlphaFold也達了87.0GDT的高分。
AlphaFold是怎麼做到的?
AlphaFold分兩步工作。第一步與比賽中大多數參賽選手使用的其他方法一樣,最開始都會將多條胺基酸序列進行篩選,像AlphaFold就被「餵養」了17000條序列。
然後它會將這些序列與資料庫中的相似序列進行比較,找出在鏈中彼此不相鄰但往往串聯出現的胺基酸對。這就表明在摺疊的蛋白質中這兩個胺基酸非常接近。
DeepMind也訓練了一個神經網絡來進行這樣的配對,並預測摺疊蛋白質中兩個配對胺基酸之間的距離。通過將預測結果與精確測量的蛋白質距離進行比較,AlphaFpld更精確地預測了蛋白質鏈中連續胺基酸之間的摺疊角度。
但通過這些步驟還無法單獨預測結構,因為所預測的距離和角度上可能會違背物理規律。
因此,第二步,AlphaFold為胺基酸序列創建了一種在物理上可能出現但幾乎只有在隨機中才能「曇花一現」的摺疊結構。並通過梯度下降的優化方法來進行迭代,通過這個過程,系統能在幾天時間內確定高精度的蛋白結構。
對現實的意義
從胺基酸序列預測蛋白質結構變化的能力將對生命科學及醫學領域帶來巨大好處,德國馬克斯·普朗克發展生物學研究所的進化生物學家安德烈·盧帕斯直言:「AlphaFold幫助他解決了困擾十幾年的難題,通常情況下,破解一個蛋白質的結構需要耗費數年時間,而現在,幾天之內就能得到一個非常接近的結構,這無疑會極大加速對細胞組成部分的工作,也將改變我的工作方式」。
最近微信推送規則更新,想要第一時間收到我們的推送,記得一定要點「小星星」哦~
特別聲明
參考資料:
https://www.nature.com/articles/d41586-020-03348-4
https://www.nature.com/articles/d41586-019-01357-6
圖片來源於:
Google、bing圖片、維基百科、nature
更新時間:每周一、三、五
我們旨在分享優質文章、原創作品,與您共同學習成長
本文如有侵權歡迎原作者及時與我們取得聯繫,署名或刪除
如對本文有所意見或發現錯誤歡迎指正
原標題:《50年都未解開的蛋白質摺疊難題被AI破解了》
閱讀原文