在我們身體的每個細胞裡,有數十億的微型分子機器正在努力工作,它們讓眼睛能夠感知到光線,讓神經元能發出信號,讓DNA中的「指令」能被讀取,讓我們成為獨一無二的自己。而負責進行這些精細而又複雜的任務的,就是蛋白質。
蛋白質支撐著每一個生物的生物過程,可以說它們是地球生命的基石。它們能否正常發揮其功能對生物來說至關重要,世界上的許多疑難雜症都與蛋白質所的功能有關。
蛋白質的功能在很大程度上取決於它的三維結構。| 圖片來源:DeepMind
蛋白質的功能在很大程度上取決於其獨特的結構,它們是一些由胺基酸構成的複雜大分子。因此,能夠預測蛋白質會摺疊成什麼形狀,預測未知蛋白質的結構,不僅能夠幫助我們治療疾病、更快找到新的藥物,或許還能幫助我們解開生命是如何運作的奧秘。
然而一直以來,「蛋白質摺疊問題」一直是生物學中的一個重大挑戰,並且已經困擾生物學家50多年。直到現在,終於有佳訊傳來:由DeepMind開發的人工智慧系統AlphaFold,在根據胺基酸序列確定蛋白質的三維形狀方面取得了重大突破。
圖片來源:DeepMind
目前,地球上已知的蛋白質約有2億個,這個數字還在以每年3000萬個的速率增長。每一個蛋白質都有其獨特的三維形狀,決定著它會如何發揮作用。然而迄今為止,科學家已經確切掌握了其三維結構的蛋白質只有一小部分。
假如我們能「解」開一個蛋白質,呈現在眼前的會像是一串由一系列不同的化學物質組成的鏈條,這些化學物質就是胺基酸。胺基酸的這些序列是根據生物體DNA的遺傳指令組合的。20種不同類型的胺基酸之間的相互吸引和排斥,會使「鏈條」通過自發摺疊的方式將自己打包成有著複雜的捲曲、環形和褶皺的三維結構。
多年來,許多先進的實驗技術都已被使用來檢查和確定蛋白質的結構,這些技術包括核磁共振、X射線晶體學、冷凍電鏡等等。然而在進行這項研究時,這些技術實則依賴於試錯,是一類無論在時間還是金錢上都代價高昂的方法。因此,有科學家一直在尋找一種能通過胺基酸序列來確定蛋白質結構的方法。
早在上世紀八九十年代,就有研究人員嘗試過用計算機來預測蛋白質結構,但是結果欠佳。1994年,一些科學家組建了一個社群論壇,名為CASP(預測蛋白質結構的關鍵評估),讓從事蛋白質摺疊研究的科學家可以分享最新的進展。
CASP每兩年會舉辦一次競賽,來測試科研人員對蛋白質結構進行預測的準確性:每個參賽的團隊會得到一組蛋白質的胺基酸序列,這是一些已知其明確結構但尚未公開的蛋白質,參賽團隊需要對這些蛋白質的結構作出最佳預測,再通過與實際結構進行比對來分出勝負。
CASP衡量預測準確度的主要度量標準是全局距離測試(GDT),其範圍值在0到100之間。簡單來說,GDT可被當做是胺基酸殘基在正確位置的閾值距離內的百分比。GDT分數在90以上的預測結構可被認為大致與實驗確定的結果相一致。
在每次CASP競賽中,表現最好的團隊做出的預測的中值GDT分數。| 圖片來源:DeepMind
誕生於2016的AlphaFold參加了2018年的CASP13,當時它以接近60的GDT排名第一,令在場的許多科學家都為之驚嘆。AlphaFold先是通過深度學習的方法,學習大量已知蛋白質的序列和結構,然後利用這些信息對蛋白質應該是什麼樣子生成一個模型,在「習得」之後再預測蛋白質中的胺基酸對之間的距離。
最近版本的AlphaFold利用約170000個蛋白質結構數據進行了訓練。在最新發布的CASP14評估結果中,AlphaFold獲得的中值GDT分數是92.4,這意味著它的平均預測誤差大約為1.6埃(1.6×10⁻¹⁰米),相當於一個原子的寬度;即使是對那些最難以預測的蛋白質,AlphaFold也達到了87的中值。
一個摺疊的蛋白質可以被看作是一個「空間圖」,其中的殘基是節點,用線可以將鄰近的殘基連接起來。在AlphaFold的最新版本中,研究人員創建了一個基於注意力的神經網絡系統,這個系統會試圖解釋空間圖的結構,同時對它正在構建的隱式圖進行推理。它使用進化相關的序列、多序列比對(MSA),以及胺基酸殘基對的表示來細化這張圖。通過重複這個過程,這一系統能對蛋白質的潛在物理結構進行強有力的預測,並能夠在幾天之內高度準確地確定蛋白質的結構。| 圖片來源:DeepMind
可以說,現在的AlphaFold基本上可以根據蛋白質的胺基酸序列,對蛋白質的形狀和結構進行高度準確的預測。
兩個AlphaFold根據實驗結果預測出的高度精確的蛋白質結構。| 圖片來源:DeepMind
這是一項重大的突破,它意味著要高水平的獲悉一個蛋白質的結構變得不再困難,只需收集到普通甚至較差質量的實驗數據即可。有生物學家認為,這樣的技術將帶來翻天覆地的變化,它能徹底地革新醫學、生物學研究、生物學工程。現在,隨著大量的可用基因組數據有望被可靠地翻譯成結構,一些如蛋白質的進化分析在內的領域將蓬勃發展,幫助分子生物學家提出更加高深的問題。
雖然還有許多問題仍有待解答,比如多個蛋白質是如何形成複合物的?它們又如何與DNA、RNA或其他小分子相互作用?要如何才能確定所有胺基酸側鏈的精確位置?但可以說,AlphaFold為蛋白質摺疊問題帶來了迄今為止最重大的進步之一。這樣的進展也讓研究人員更加充滿信心,相信在未來,人工智慧將能成為人類擴展科學知識前沿的最有效工具之一,期待未來將它們將能帶給我們更多的新發現。
參考來源:
https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
https://www.sciencemag.org/news/2020/11/game-has-changed-ai-triumphs-solving-protein-structures
https://deepmind.com/research/case-studies/alphafold