■趙廣立
美國密西根大學計算醫學與生物信息學中心教授安布裡什·羅伊(Ambrish Roy)曾於2010年在Nature Protocol發文,稱「我有一個要研究的蛋白,但我不知道它的結構和功能」是幾乎所有分子和細胞生物學家每天面臨的最大難題之一。無怪乎羅伊發此喟嘆,當年的統計數字顯示,只有0.6%的已知蛋白序列被解析出了相應的結構。
不過,自從美國科學家克裡斯蒂安·安芬森(Christian B. Anfinsen)提出「蛋白質的高級空間結構由蛋白質的胺基酸序列決定」後(他也因此獲得1972年諾貝爾化學獎),人們開始尋找一種能夠預測蛋白質結構的算法,可以精確地從蛋白質的胺基酸序列,利用計算機預測出其複雜的空間結構,甚至其由結構決定的功能。
值得一提的是,儘管隨著胺基酸測序技術的發展,越來越多的蛋白質序列得以被高通量的讀取,但是從解析一維序列到能夠解析實際三維結構,仍然還有很大的距離。
「這不但是生物信息學,也是整個生物學中的一個重要的『聖杯』。」巴黎笛卡爾大學前沿生物學博士郭昊天如此說道。畢竟,要研究蛋白質的功能或是設計靶向藥物,蛋白質結構都是非常重要的一環。
國際蛋白質結構預測挑戰競賽(CASP)應運而生。自首屆CASP於1994年在美國加州舉辦以來,20多年間科學家們開發出許多用於蛋白質結構預測的計算模型,這些計算模型主要分成三大「流派」:演化流、比對流和從零開始的ab initio流——ab initio就是拉丁語裡「從最初開始」的意思。
演化流的核心概念是尋找演化歷史上同源或者近似同源的胺基酸序列,從它們的結構出發預測新的目標蛋白;比對流則不一定要求演化上同源,直接將目標序列中的片段和曾解析出來的三維結構進行匹配和比對,由此來預測新的蛋白;而最難也最關鍵的ab initio流,則是完全從零開始預測那些完全找不到相似性的蛋白序列。
隨著CASP挑戰的持續進行,這些流派之間的界限逐漸變得模糊,越來越多的科研團隊開始把這三種流派整合到一個模型之中,融合成一個更加準確的預測模型。而在對模型的優化過程之中,CNN、RNN(循環神經網絡)、DNN(深度神經網絡)、強化學習等技術也在不斷地被調用於各個計算環節。
一個有趣的工作是,華盛頓大學David Baker團隊於1999年開發了一款基於ab initio流派的Rossetta模型,利用此模型該團隊先後成功預測了長度100個胺基酸左右的若干蛋白和一段長度93個胺基酸的人工合成序列。2005年,Baker團隊突發奇想,開發出屏保程序Rosetta@home,使用PC端在閒置時幫助Rossetta伺服器進行結構解析的模擬運算。借用這種分布式計算的形式,Rossetta模型調用眾多閒置個人計算資源,取得了極好的效果。
《中國科學報》 (2018-12-13 第5版 技術經濟周刊)