蛋白質結構是指蛋白質分子的空間結構。蛋白質主要由碳、氫、氧、氮等化學元素組成,是一類重要的生物大分子。
了解蛋白質結構在疾病診斷和治療中非常重要,它可以提高科學家對人體的認識,並有助於支持蛋白質設計和其它生物工程研究。
所有蛋白質都是由20種不同胺基酸連接形成的多聚體,在形成蛋白質後,這些胺基酸又被稱為殘基。要發揮生物學功能,蛋白質需要正確摺疊為一個特定構型。
有多種科學方法可用於預測DNA中殘留胺基酸的蛋白質分子的天然三維狀態(即蛋白質鏈如何摺疊以達到天然狀態)。甚至還有一個眾包遊戲(FoldIt)試圖利用人類的直覺來預測可行的蛋白質形式。
但是對三維結構進行建模是一項非常複雜的任務,因為蛋白質摺疊可能存在多種排列方式,這取決於諸如各種胺基酸之間的相互作用等因素。
近日,谷歌在倫敦的研發中心DeepMind, 宣布在幫助完成僅基於基因序列預測蛋白質的三維結構的複雜任務方面,取得重大突破。
它在一篇關於使用AI來預測蛋白質如何摺疊的項目的博客文章中寫道: 「AlphaFold [DeepMind的AI系統]生成的蛋白質的三維模型比以前的任何模型都更準確,在生物學的一個核心挑戰上取得重大進展。「
DeepMind表示,其方法依賴於多年前使用大數據來預測蛋白質結構的研究。
具體而言,它正在將深度學習方法應用於基因組數據。
「幸運的是,由於基因測序成本的快速降低,基因組學領域的數據非常豐富。因此,在過去幾年中,依賴於基因組數據的預測問題的深度學習方法變得越來越流行。DeepMind由此研發了AlphaFold,我們今年提交給了CASP [ 蛋白質結構預測技術關鍵評估的社區範圍實驗 ],「這篇博客文章中寫到。
「我們很自豪地成為CASP組織者所稱的『在預測蛋白質結構的計算方法方面的空前進步』的一部分,在參賽隊伍中排名第一(我們的參賽作品是A7D)。」
「我們的團隊特別關注從零開始建模目標形狀的難題,而不使用以前解決的蛋白質作為模板。當預測蛋白質結構的物理性質時,我們獲得了高度的精確度,然後使用兩種不同的方法來構建全蛋白質結構的預測,」它補充道。
DeepMind說,它使用的兩種方法依賴於使用深度神經網絡訓練來預測其基因序列中的蛋白質特性。
「我們的網絡預測的屬性是:(a)胺基酸對之間的距離和(b)連接這些胺基酸的化學鍵之間的角度。第一個發展是對常用技術的進步,這些技術可以估計胺基酸對是否彼此接近,」它解釋說。
「我們訓練了一個神經網絡來預測蛋白質中每對殘基之間的距離的單獨分布。然後將這些概率組合成評估所提出的蛋白質結構的準確度的分數。我們還訓練了一個單獨的神經網絡,它使用所有距離匯總來估計擬議結構與正確答案的接近程度。「
然後,它使用新方法嘗試構建蛋白質結構的預測,搜索與其預測相匹配的已知結構。
「我們的第一種方法建立在結構生物學中常用的技術上,並且用新的蛋白質片段反覆替換蛋白質結構的片段。我們訓練了一個生成神經網絡來產生新的片段,以用於不斷提高所提出的蛋白質結構的得分,「它寫道。
「第二種方法通過梯度下降優化得分—— 一種常用於機器學習的數學技術,用於進行小的,漸進的改進——由此得出高度精確的結構。該技術用於整個蛋白質鏈,而不是用於在組裝之前必須單獨摺疊的片段,從而降低了預測過程的複雜性。」
「DeepMind將迄今為止使用計算方法所取得的成果描述為「蛋白質摺疊進展的早期跡象」,並聲稱它們證明了「AI用於科學發現的實用性」。
但它也強調證明深度學習方法具有任何「可量化的影響」還為時過早。
「儘管我們在用AI對治療疾病、管理環境等產生量化影響之前還有很多工作要做,但我們知道潛力是巨大的,」它寫道。