蛋白質結構預測:生命科學的又一場競爭
央視國際 www.cctv.com 2006年12月07日 23:55 來源:
科學時報2006年12月7日訊 中國學者張陽最近在第七屆蛋白質結構預測技術評估大賽中獲得第一名的好成績。消息傳來,他做博士後時的導師歐陽鍾燦院士給予高度評價。據歐陽鍾燦介紹,由生物大分子的基因序列預測其結構,是當前生物學研究面臨的最重要挑戰之一,如果能夠實現,將在生物技術與藥物設計領域產生巨大影響。
2006年11月26~30日,第七屆CASP總結大會在美國加州阿薩爾默會議中心舉行,在大會公布的測評排列名單上,美國堪薩斯大學的助理教授張陽位居第一。
對此,中國科學院院士歐陽鍾燦評價說:「CASP被譽為蛋白質結構預測領域的奧林匹克競賽,張陽獲得第一名,表明他已經走在這個領域的最前沿,這個成就令人興奮。」
蛋白質結構預測技術評估(CASP)大賽是一個世界性的蛋白質結構預測技術評比活動。1994年,第一屆CASP在美國馬裡蘭大學生物技術研究所的約翰·莫爾特(John Moult)倡議、組織下舉行,此後每兩年舉行一次。
張陽在華中師範大學師從劉連壽教授並獲得物理學博士學位,1999~2000年在中國科學院理論物理所跟隨歐陽鍾燦院士做博士後,2001年初到美國。張陽說:「比賽獲勝說明我們的預測方法的確行之有效,我很高興看到這一點。在當今蛋白質結構預測這個競爭激烈的領域,贏得CASP比賽勝利是得到同行尊重和承認的最重要和幾乎唯一的途徑。」
近日,張陽到北京參加會議併到中科院理論物理所訪問,在此期間,他接受了《科學時報》的專訪。
結構密碼蘊藏在排序中
這是一個複雜但很有意思的生命過程——基因承載了生命的遺傳信息,生命的功能則是藉由蛋白質執行的;蛋白質是由20種胺基酸組成的肽鏈,而DNA中的基因控制了蛋白質中胺基酸種類的排序。蛋白質只有在摺疊的狀態下才能表現出生命的功能,但摺疊是如何自發形成的呢?
胺基酸序列與蛋白質空間結構的關係研究源於美國生物化學家安芬森(C.Anfinsen)。1961年,他研究了核糖核酸酶的去摺疊和重摺疊過程,發現在相同的環境中去摺疊的蛋白質都會恢復到原來的空間結構,認為蛋白質鏈會以自由能最低的方式形成三維結構,由此推測蛋白質的摺疊密碼隱藏在胺基酸排序中,即所謂的安芬森原則:蛋白質一級排序決定三維結構。因為「對控制蛋白質鏈摺疊原理的研究」,安芬森獲得1972年諾貝爾化學獎。
然而,蛋白質的空間結構極其複雜,該如何確定呢?現在有兩種方法:一種是實驗測量,包括用X射線衍射和核磁共振成像;一種是理論預測,利用計算機根據理論和已知的胺基酸序列等信息來預測,方法包括同源結構模擬、摺疊辨識模擬和基於第一性原理的從頭計算。
1913年,勞爾和布拉格父子第一次發現X射線通過晶體可以產生衍射現象從而確定原子在晶體中的位置並因此獲得諾貝爾獎。1957年,劍橋大學的肯德魯用勞爾-布拉格的方法確定出第一個蛋白質(肌紅蛋白)的三維結構從而獲得1962年的諾貝爾化學獎。此後18年間,人類共測出38個蛋白質結構;至1980年,這個數目增長到184個。
顯然,用實驗方法測量蛋白質及生物大分子的結構相當繁瑣。張陽說:「蛋白質結構的實驗測定十分費時費力。多年前測定一個蛋白質的結構就有可能獲得諾貝爾獎。如今隨著技術的進步,實驗測蛋白質結構的時間和花費已經大大地減少了,但測定一個蛋白質結構的平均費用也在100萬美元左右。」
自然界有大量種類的蛋白質,實驗只能測出其中非常小的一部分,目前「蛋白質資料庫」中只有3萬多個蛋白質的結構。有沒有其他方法可以更快、更經濟地測量出大量蛋白質呢?
物含妙理總堪尋
既然蛋白質結構的密碼隱藏在序列中,那麼解開這個密碼就可以通過序列來解開蛋白質的結構。張陽說:「我們的目的就是用計算機從胺基酸的序列來直接預測蛋白質的結構。將序列輸進計算機裡,設計一套程序,讓計算機去計算和確定蛋白質中每個原子的三維坐標。如果這種理論方法經實驗數據的驗證可行,那麼就可能通過計算機自動預測出蛋白質的結構,這幾乎是免費的。」
然而,用序列預測結構談何容易。驅動胺基酸摺疊形成特定三維空間的作用諸多,包括胺基酸側鏈分子間作用力、水分子表面張力、胺基酸側鏈分子間的電偶極距和電磁力以及它與水分子的相互作用等。根據數學計算,由100個胺基酸構成的小蛋白質的空間構象可能會有1050種空間結構。
物含妙理總堪尋。張陽說,一種胺基酸序列只可能有一種蛋白質結構,這就是計算機預測蛋白質結構的意義所在。根據安芬森的熱動力學原理,蛋白質在細胞中應該處在它與環境的自由能最低態。這意味著可以根據物理、化學、生物學等知識來設計蛋白質的能量函數,因此尋找這種最低自由能所代表的結構。
科學家們使出十八般武藝來預測序列與結構間的密碼,尋找出三種有代表性的預測方法:同源結構模擬(Homology Modeling)、摺疊辨識模擬(Fold Recognition)和基於「第一原則」的從頭計算方法(Ab Initio)。
張陽說,同源模擬又稱為比較性模擬。如果目標蛋白質與已測出結構的蛋白質的序列有30%以上的相似,那麼這兩種蛋白質可被視為同源,它們也應該有類似的空間結構。因此,若知道同源蛋白質家族中的某些蛋白質的結構,就可利用它們作為模板來模擬目標蛋白質的結構,這種方法速度較快,精度也比較高。但是這種方法有局限性,畢竟已知結構的蛋白質數量很少,而且很多蛋白質沒有同源系列。
摺疊辨識模擬又稱串線指認方法,意思是指把目標蛋白序列與蛋白質資料庫中所有的蛋白質結構進行逐一對比。自然界中有些蛋白質的胺基酸序列不大相同,但其結構極為相似。張陽說:「這對我們建立新計算機模型非常有用。在無法進行序列比對的情況下,我們就想辦法用目標序列直接與已有的其他蛋白質結構進行比較。具體做法是,設計一個打分系統,讓計算機來識別這個序列放在被比較的其他蛋白質上是否『舒服』,再根據得分高低判斷序列是否會摺疊成這種結構,評分系統是這種方法的關鍵。」
「從頭計算」方法源於安芬森的「最低自由能構型假說」。張陽說,前兩種方法是用已知結構的蛋白質為模板來構建新的結構,而「從頭計算」不需要模板,它是以物理為基礎來研究蛋白質的摺疊方法,怎樣設計適當的能量函數,怎樣找到相應的最低自由能是這種方法的關鍵。