在使用殷賦雲計算平臺的時候,有不少用戶對於如何選擇蛋白晶體結構存在疑問。本篇就這個話題做一些經驗分享。任何標準都有一個適用範圍。我們在這裡只討論用於分子對接的蛋白晶體結構的選擇原則和方法。
1. 確定蛋白種屬
在實驗當中,研究人員通常使用動物模型(如小鼠)來研究人源蛋白。這樣做有許多原因,比如:
1) 無法獲得(提純分離)人源蛋白;
2) 需要在體內考察蛋白的功能,但無法直接進行人體臨床試驗;
3) 使用動物蛋白更方便、更便宜;
4) 其他限制因素。
而計算模擬則便利很多。如果我們真正的研究對象是人體,則一般情況下應當使用人源蛋白。但是,如果需要根據對接計算的結果去指導實驗或解釋實驗現象,或者開展後續實驗(如定點突變)對計算結果進行驗證,那麼,原則上應當讓計算用的蛋白種屬與實驗一致,否則胺基酸序列可能對應不上。
比如,在UniprotKB資料庫(https://www.uniprot.org/)輸入基因名1DH1,得到以下結果。然後,根據我們確定的種屬查詢相應的蛋白。
(UniprotKB資料庫蛋白查詢結果)
假設我們要研究人的蛋白,那麼,可以在RCSB Protein Data Bank資料庫中搜索它的Entry name(1DHC_HUMAN)。另一方面,PDB資料庫也會給出每個晶體結構的種屬信息。
(PDB詳情頁的蛋白種屬信息)
2. 了解更多關於蛋白功能/結構的信息
做任何研究都應當對研究對象有充分了解。UniprotKB資料庫為我們整合了蛋白的相關知識,我們可以通過它獲得重要的信息。比如,了解蛋白的功能是什麼,序列有多長,結合位點在哪裡,有哪些蛋白結構。
(UniprotKB蛋白詳情頁,了解蛋白功能與結構信息)
(蛋白的結合區域信息)
3. 選擇口袋完整的晶體結構
對於某些蛋白,RCSB PDB資料庫可能存在許多晶體結構。這種情況下,應當選擇包含完整口袋的晶體結構。比如,當我們尋找1DH1基因的蛋白(Isocitrate dehydrogenase [NADP] cytoplasmic,Uniprot AC: IDHC_HUMAN)時,找到許多晶體結構。以4UMX和4UMY為例,如果查看三維結構,我們會發現4UMY有較多殘基缺失。最關鍵的是,一大段組成口袋的殘基缺失了,導致口袋的形狀改變(對比4UMX可知)。相反,4UMX則較為完整。因此,我們不應選擇4UMY,而應選擇4UMX作為候選結構。
(口袋完整與殘基缺失的蛋白對比)
4. 選擇含有共晶配體的結構
很多時候,蛋白晶體結構中不只是蛋白,還可能有核酸、多肽、輔酶、小分子化合物(抑制劑、拮抗劑、激動劑、底物)、助溶劑、表面活性劑、金屬離子和水分子以及其他分子;除了目標蛋白,可能還有其他蛋白。在PDB資料庫的蛋白詳情頁內有詳細記錄,我們需要了解各組分是什麼物質,各自的作用是什麼,哪個是共晶配體。
(蛋白晶體結構中各組分的信息)
一些很小的分子,數量很多的分子,結合在很淺的蛋白表面的分子,通常不會是配體分子(但也有例外)。還有一些名稱非常常見的,比如:GOL、ACT、PEG、SO4等等,這些只是蛋白結晶所需要的或者在溶液中存在的分子,不是真正意義上的配體分子。
仍然以4UMX為例,通過查詢它的詳細記錄(https://www.rcsb.org/structure/4UMX),我們了解到NAP是輔酶,VVS是小分子配體,GOL是助溶劑分子而已。那麼,我們應當以VVS的結合位置為對接口袋,而不應以NAP為對接位點。考慮到NAP與VVS有直接的相互作用,我們應當在對接時保留NAP,把它作為受體的一部分參與對接。
常見的輔酶還有:ADP、ATP、NAD+、NADH、NADP+、NADPH、HEME。
5. 選擇共晶配體相似的晶體結構
當有多個蛋白晶體結構可選,並且很多是包含共晶配體的,我們可以選擇共晶配體與要對接的化合物在結構上比較相似的那個。因為蛋白與配體在結合過程中,會發生「誘導契合」效應。有的蛋白的口袋柔性較大,這種效應更加明顯,蛋白跟不同配體結合時,口袋會有所改變。更為極端的是,有可能存在「開」和「合」等不同狀態。而對接過程中,蛋白結構是剛性不變的。因此,選擇口袋形狀合適的晶體結構會有利於對接。
6. 選擇解析度高的晶體結構
蛋白晶體結構的質量指標之一是resolution,它表示晶體結構模型中的原子位置的不確定程度。在有許多晶體結構可選的情況下,我們選擇解析度高的,即resolution數值小的。一般來說,resolution < 2 就足夠好了。但這不是最重要的選擇標準,很多人一上來就根據這條規則過濾掉大部分蛋白,這是不夠嚴謹、合理的。因為這樣有可能導致被過濾掉的低解析度蛋白中包含共晶配體,而剩下的高解析度蛋白中卻沒有配體的情況。此時選擇高解析度蛋白就無法確定口袋的位置(雖然可以通過低解析度蛋白來了解口袋位置,但仍然不便於定位口袋)和獲得適合的口袋形狀。
(蛋白結構解析度resolution)
值得注意的是,晶體結構由於解析度問題,通常不含氫原子,只有個別超高解析度的文件,才能看到氫原子的確切位置。相反,核磁結構通常含有氫原子,且有較多構象(它是溶液中的狀態),但不含配體分子。在蛋白解析度的選擇問題上,我們應有合理的依據,而非教條主義、人云亦云。
總結
事實上,如何選擇蛋白晶體結構,是個帕累託最優問題。我們需要綜合判斷,選擇最適合於當前研究的晶體結構。上述內容雖然是針對分子對接計算來講的,但同樣適用於其他計算模擬的情況。
如果上述內容有紕漏之處,歡迎大家批評指出。如果有補充或建議,歡迎在下方評論進行交流。