翻譯:劉廣峰
這是RAW-BioSAXS的第四篇。本教程介紹了根據SAXS數據重構大分子形狀的串珠(虛擬原子)模型的基本原理和最佳實踐。
概述
許多SAXS實驗的預期結果是確定樣品的「溶液結構」,即溶液中存在的大分子結構。不幸的是,與晶體學,cryoEM和NMR不同,SAXS數據不能用於生成高解析度3D模型(儘管可以用來約束其他結構確定方法)。SAXS經常提供的信息以及SAXS分析的一個共同終點是對樣品的低解析度形狀重構。
多年來,串珠建模是生成這些低解析度形狀的最佳方法。近來,已經開發了其他技術,例如以低解析度直接重構電子密度。儘管如此,串珠建模仍然是形狀重構的事實標準。
為什麼做串珠模型重構?
串珠模型儘管解析度較低,但卻可以成為了解溶液系統的強大工具。可以將高解析度結構對接(docked)在串珠模型中,從而可以對高解析度結構與溶液結構的一致性進行可視化分析。在沒有其他結構信息的情況下,串珠模型可用於為系統的整體形狀和大小提供重要線索,這通常足以得出有關大分子功能或與其他分子相互作用等重要結論。
儘管串珠建模非常有用,但務必牢記兩點。首先,即使有高質量的數據,也很容易獲得不良的重構,並且在使用它們之前必須仔細評估重構結果。其次,SAXS在假設檢驗方面比在生成串珠模型上更為準確。換句話說,SAXS擅長指出不是什麼,但不擅長說明是什麼。例如,如果想將高解析度結構與SAXS數據進行比較,看它們是否一致,那麼與將結構對接到串珠模型中相比,最好將測得的散射曲線與高解析度結構的計算散射曲線進行比較。在這種情況下,串珠模型可能對可視化溶液形狀和高解析度結構之間的差異很有用。
如何做串珠模型重構?
有許多不同的程序可用於進行串珠建模,有些適合於通用系統,有些則針對特殊的應用進行了調整,例如用於去垢劑光環包含得膜蛋白。無論如何,這些方法都有著相似的步驟。
1、生成一定數量的珠子(又稱「虛擬原子」),並將其隨機分配為允許的相之一。通常,珠子是溶劑或大分子,但是某些程序允許兩個以上的相,例如區分蛋白質和RNA或大分子和脂質。
2、從串珠模型計算散射輪廓,並將其與數據擬合。
3、在相之間翻轉一組隨機選擇的珠子(例如從溶劑到大分子,反之亦然)。
4、重新計算從模型到數據的散射曲線。
5、如果擬合度更好,則接受珠子的變化。如果擬合度較差,以一定的可能性接受珠子的變化(避免局部最小值)。
6、重複步驟3-5,直到滿足收斂標準為止。
另外,程序通常會對串珠模型施加物理約束以改進模型。常見的約束條件是模型的連通性,對延展模型給予約束,並基於Rg和/或Dmax約束模型的大小。
事實證明,散射曲線不會生成唯一的重構。考慮到這一點,採取了類似於蒙特卡洛方法,生成多個(通常為10-20)模型,然後取其平均值進行一致重構。
串珠模型重構的最常用程序(遠非唯一的程序)是ATSAS軟體包中的DAMMIF(或DAMMIN)[1-2]。在本教程的其餘部分中,我們將專門討論如何使用DAMMIF/N,其中許多討論也適用於其他程序。
使用DAMMIF/N進行串珠模型重構
DAMMIF是最常用的串珠模型重構程序。
輸入數據
DAMMIF需要由GNOM(.out文件)生成的P(r)(r)函數作為輸入。請注意,如IFT教程中所述,IFT的散射曲線應截斷最大q值為8/Rg或〜0.25-0.30 1/埃,以較小者為準。這是因為DAMMIF無法對水合層和內部結構進行建模,從而導致較高q值處產生誤差。截斷刪除了可能出問題的高q數據。
產生模型
由於串珠建模不會生成唯一的解。為了得到合理的模型,可以創建10-20個串珠模型重構,然後將其平均。這裡的建議是進行15次重構。這意味著需要將DAMMIF運行15次。
DAMMIF的最易於訪問的設置是「模式」(Mode),「對稱性」(Symmetry)和「各向異性」(Anisometry)。
模式:對於模式,選項為快速(fast)或慢速(slow)。快速模式計算很快,但是不夠詳細,而慢速模式則相反。對於最終的重構,請使用慢速模式。
對稱性:添加對稱性約束可以改善重構。如果知道粒子的對稱性,則可以指定它。但是,始終建議使用P1對稱性進行另一組重構,以驗證對稱性會不會過度約束重構。
各向異性:添加各向異性約束可以改善重構效果(譯者註:選項為oblate 和 prolate,代表橢球體長軸的方向不同)。如果知道粒子的形狀,則可以指定它。但是,始終建議進行另一組重構,不使用各向異性約束,以驗證對稱性不會過度約束重構。
可用的其他高級選項在DAMMIF手冊中有介紹。(譯者註:只需要搜索DAMMIF manual就可以找到。)
如果只想快速看一下形狀(例如在光束線上收集數據時),則在快速模式下進行3次重構就可以達到此目的。
平均和聚類模型
生成模型後,下一步是對模型進行平均和聚類。平均操作從各個模型生成一個共同形狀,並提供重構穩定性的統計數據,使用DAMAVER [3]完成。平均輸出damaver.pdb和damfilt.pdb模型文件。這對應於模型的兩個不同的共同形狀,分別是寬鬆定義和嚴格定義的。但是,這兩個模型都不適合實際數據,因此通常不應該用於顯示。DAMAVER還將指定最可能的單個模型。如果不優化DAMAVER的結果,則應使用最有可能的模型作為最終結果。
聚類使用DAMCLUST [4]完成,聚類的模型彼此之間比與其他模型更相似。這是一種評估重構模糊性的方法,將在下面的重構評估一節中進一步討論。
創建最終的精修模型
DAMAVER的輸出,特別是damstart.pdb文件,可以用作DAMMIN的輸入文件以創建最終的精修模型。本質上,damstart.pdb代表最可能佔用體積的保守核心,該核心是通過使用DAMAVER對所有重構進行平均而確定的。DAMMIN保持此核心固定,並完善模型的外部以匹配散射輪廓。關於是否應該進行完善,有各種不同的建議(甚至來自軟體開發者)。通常應該精修,但也可以使用DAMAVER確定的最可能模型作為結果。
評估DAMMIN/F重構
SAXS數據包含非常有限的信息,這既是因為它是在相對較低的q下測量的,又是因為它是從溶液中以隨機角度定向的大量粒子中測量的。SAXS散射曲線表示來自單個粒子的散射,在所有可能的方向上取平均值。這樣做的實際結果是,通常存在幾種可能的形狀,會產生相同(或十分相似,以至於在實驗噪聲中無法區分)散射輪廓。這樣,無論整體數據質量如何,都不可能從數據集中重構串珠模型來準確表示溶液中的粒子形狀。如果樣品是柔性的,或這樣品在溶液中以多種構象或低聚態存在,則重構也將具有挑戰性,或者乾脆不可能。總之,高質量的SAXS數據不能保證良好的串珠模型重構。因此,無論基礎數據質量如何,嚴格評估完成的每項重構都非常重要。
運行DAMMIF,DAMAVER,DAMCLUST,SASRES [5](作為DAMAVER的一部分運行)和AMBIMETER [6]時,會生成評估重構所需的信息。儘管可以通過這些程序生成的文件都可以訪問,但是在RAW中運行DAMMIF時,RAW會收集並顯示這些文件的信息。
良好DAMMIF/N重構的標準
模糊度得分<2.5(最好是<1.5)
NSD <1.0
平均時剔除的模型很少(0-2)
只有一組模型
對於所有模型,χ2接近1.0
模型Rg和Dmax接近於p(r)函數的值
對於所有模型,模型體積計算得到的MW均接近預期MW
有關這些標準條件的更多信息,請參見下文。
模糊性
可以在進行重構之前評估串珠模型重構的潛在模糊性。ATSAS軟體包中的AMBIMETER程序可以在GNOM的p(r)函數上運行,以評估獲得良好重構的可能性。該程序有一個散射曲線資料庫,代表由多達7個珠子組成的所有可能的形狀。將散射輪廓與這些形狀進行比較,AMBIMETER報告有多少與實驗散射輪廓匹配。來自AMBIMETER的輪廓越多,可以匹配的形狀就越多。
AMBIMETER報告形狀的數目和形狀數據的對數(以10為底),這是歧義度得分。他們提供以下解釋:
歧義度得分<1.5--重構很可能是唯一的;
歧義度得分1.5-2.5--進行重構時要當心;
歧義度得分> 2.5--重構很可能是模稜兩可的。
這提供了一個快速的初始評估,以決定是否應嘗試對數據集進行形狀重構。可以從RAW中運行AMBIMETER。
歸一化空間差異
DAMAVER報告了許多不同的結果。最有用的是歸一化空間差異(NSD)。本質上,這是用於比較兩個不同模型相似程度的尺寸歸一化度量。運行DAMAVER時,它將報告所有重構之間NSD的平均值和標準偏差。它還報告每個模型的平均NSD。
平均NSD通常用於評估重構的穩定性。粗略地說,重構穩定性評估為:
NSD <0.6-重構的穩定性良好;
NSD在0.6和1.0之間-重構的穩定合理性;
NSD> 1.0-重構的穩定性較差。
一般而言,如果平均NSD小於1.0,則可以信任重構(如果所有其他驗證指標正常);而如果大於1.0,則應謹慎操作,或不使用所有這些重構模型。
NSD還用於確定平均時使用哪些模型。如果給定模型的平均NSD高於整體平均NSD兩個以上標準差,則該模型不包括在平均值中。如果拒絕超過2個模型(在15個模型中),則可能表示重構不穩定。
聚類
DAMCLUST創建的模型集彼此之間的相似性高於其餘模型。這是一種評估重構模糊性的方法。如果重構中有多個模型集群,則DAMMIF算法可能正在重構幾種不同的形狀。這通常表明溶液中可能存在幾種不同的形狀,這些形狀可能會生成實驗測量到的散射輪廓。因此,這是重構高度模糊的另一個指示。
需要注意的是,對於高質量數據,其歧義度非常低(來自AMBIMETER的歧義度<0.5),並且只產生一組重構,這些重構具有非常小的平均NSD(通常<0.5)和NSD標準偏差(〜0.01), 但是用DAMCLUST時標識出幾個(通常> 5個)集群。在這種情況下實際上並沒有多個聚類,模型之間的極低偏差正在欺騙DAMCLUST算法。
請注意,不應將不同的簇視為溶液中中不同形狀的代表。即使溶液中存在有限數量不同形狀的散射(例如蛋白質的打開和閉合狀態),所測得的散射圖也是每個組分散射的平均值,並且每個單獨的重構都適合所測得的散射曲線。因此,無法僅通過單獨的重構來擬合來自組分之一的散射,因此不同的簇無法代表溶液中的不同形狀。
模型擬合和參數
每個模型具有以下參數,可用於評估單個重構的成功性:χ2、Rg、Dmax、體積、根據體積估算的分子量以及模型擬合與數據的歸一化殘差。為了使數據更好地擬合,模型χ2應該接近1,並且模型擬合和數據之間的歸一化殘差應該是平坦的,並且隨機分布在零附近。但是,歸一化殘差經常顯示出一些小的系統偏差,因此不必太在意。χ2值顯著大於1(1.5-2或更大)表示對數據的擬合度較差或數據的不確定性被低估了。為了區分這兩種情況,請查看歸一化殘差。如果它是平坦且隨機分布的,則不確定性很可能被低估了。如果顯示出明顯的系統偏差,則擬合質量較差。
從模型獲得的Rg和Dmax應該接近從p(r)函數計算得到的Rg和Dmax。如果不是這種情況,則應重新評估p(r)函數,並在必要時重做重構。如果差異仍然存在,則表明重構不能很好地說明溶液中的內容,因此不應該被信任。儘管這裡沒有關於Rg和Dmax應該多接近的硬性規定,經驗是,對於高質量數據,Rg之間差異應該少於5%,Dmax少於10%。
程序報告了每個模型的體積,但通常更容易將根據該體積計算的分子量與預期分子量進行比較。在這種情況下,M.W.用體積(名義上代表樣品的排除體積)除以經驗確定的常數1.66[4](在RAW中使用,其他程序可能使用不同的值)來計算。該值是近似的,並且根據大分子的形狀在1.5和2.0之間變化。考慮到係數的變化,該M.W.的確定性不如其他SAXS方法好。這樣,它對於指示重構的總體大小與預期大小之間的一致性最為有用。如果M.W.與預期M.W.相差20%至25%,則應考慮重新建模。
串珠模型的局限
儘管串珠模型非常有用,但它們有很多限制,其中許多限制已在本教程的前面部分中提到。總結如下:
即使數據質量很高,串珠模型也可能是模糊的。這是因為溶液中的多個不同形狀可以產生相同的散射輪廓,因此無法保證唯一的重構模型,並且重構的成功不僅取決於輸入數據的質量,還取決於粒子的固有形狀以及粒子的形狀對於SAXS的歧義性。因此,應如上所述全面評估所有模型。
忽略歧義性,串珠模型仍然僅在特定的粒子形狀下效果最佳。在文獻[3]中有關於串珠模型如何適合不同類型形狀的討論。總結是,對於高長寬比的對象(例如長杆或薄盤),帶有空隙的對象(例如球形殼)和環,串珠模型往往不太可靠。 對於一般球形結構,它們是最可靠的。
串珠模型解析度低。模型表面的細微變化可能微不足道。很少有估計的模型解析度小於20埃,通常它們要大得多。
串珠模型(通常)不對粒子的水合層或內部結構進行建模。這要求僅使用最大q值為8/Rg或0.25-0.30 1/埃(取較小者)的數據。
最常見的串珠建模程序無法對樣品中的多個電子密度進行建模,例如蛋白質-核酸複合物或帶有去垢劑圈的膜蛋白。有專門的程序(例如MONSA或Memprot)可以處理這些情況,但是這些程序需要輸入其他信息以提供額外的約束。
串珠模型最多與輸入數據一樣好。尤其是,串珠模型對溶液中較大的顆粒(低聚物或非特異性聚集體)的存在非常敏感。在一個簡單的模擬中,只有0.7%的聚集體會導致串珠模型發生重大變化。非特定聚集通常表現為從模型主體的延展突出。
如你所見,雖然串珠模型對於研究無疑是有用的,但是在進行串珠建模之前,應謹慎行事並確保重構可信賴。
可視化DAMMIF/N重構
可視化DAMMIF/N串珠模型與顯示典型的大分子結構略有不同。可視化的主要方式有兩種,要麼是單個的珠子,要麼是更常見的是定義模型邊緣的輪廓。 兩種表示形式通常都設為半透明的,以便可以同時看到與串珠模型對接的高解析度結構。
要記住的主要細節是,要獲得正確的可視化效果,必須為模型設置正確的串珠大小,該大小在DAMMIF/N .pdb文件的頭文件中給出。
(譯者註:忽略了在ChimeraX和PyMOL程序中實現可視化的步驟,感興趣的可以參考原文,也可以看本公眾號之前發表的步驟Steps:製作虛擬原子模型圖。)
常見問題
必須重構串珠模型嗎?
不。這完全取決於數據要說明什麼問題。但是,尤其是如果系統顯示出柔性的跡象,或者AMBIMETER報告了較高的歧義度,即使願意,也不必費心製作串珠模型。
如何將高解析度結構對接到串珠模型?
如果高解析度結構相對完整(包含溶液中的所有殘基,理想情況下包括翻譯後修飾),則可以使用SUPCOMB [7]之類的程序將結構自動擬合進串珠模型。如果缺少大量結構(例如較大的loop環)或只有一個多亞基複合物的一個亞基,則必須手動將結構對接到輪廓中。
串珠模型和高解析度結構不同,哪一個是對的?
也許兩者都對!這實際上取決於輸入。如果已經按照上述方法驗證了串珠模型,並且看起來不錯,那麼它很可能代表溶液中的低解析度形狀。還應該驗證高解析度形狀是否包含所有殘基,通常高解析度結構缺少諸如loop環或N和C末端區域。
如果兩個模型都很好,則取決於獲得高解析度形狀的方式。模型可能是正確的,代表著不同條件下的形狀。例如,在晶體學中通常會看到由於大分子堆積而引起的人工結構。
當然,將高解析度結構與SAXS數據進行比較的最好方法不是將其對接在串珠模型中,而是使用CRYSOL或FoXS等程序將其與實驗數據擬合。如果這些擬合不好,則無論串珠模型顯示什麼,高解析度結構都無法匹配數據。如果這些擬合很好,而串模型與高解析度結構不一致,則說明串珠模型是錯誤的。
串珠模型不好,該怎麼辦?
除了在此處列出的方法,還有更多可用的方法,以下是兩個常見的方法:
如果數據顯示結構具有柔性,則可以嘗試某種基於整體建模的方法,例如EOM,SASSIE或BilboMD。
如果數據顯示結構為剛性,由幾個子單元組成,則可以考慮使用剛體建模,例如SASREF。
參考文獻
1. Franke, D. and Svergun, D.I. (2009) DAMMIF, a program for rapid ab-initio shape determination in small-angle scattering. J. Appl. Cryst., 42, 342-346.
2. D. I. Svergun (1999) Restoring low resolution structure of biological macromolecules from solution scattering using simulated annealing. Biophys J. 2879-2886.
3. V. V. Volkov and D. I. Svergun (2003). Uniqueness of ab-initio shape determination in small-angle scattering. J. Appl. Cryst. 36, 860-864.
4. Petoukhov, M.V., Franke, D., Shkumatov, A.V., Tria, G., Kikhney, A.G., Gajda, M., Gorba, C., Mertens, H.D.T., Konarev, P.V. and Svergun, D.I. (2012) New developments in the ATSAS program package for small-angle scattering data analysis. J. Appl. Cryst. 45, 342-350
5. Anne T. Tuukkanen, Gerard J. Kleywegt and Dmitri I. Svergun(2016) Resolution of ab initio shapes determined from small-angle scattering IUCrJ. 3, 440-447.
6. M.V. Petoukhov and D.I. Svergun (2015) Ambiguity assessment of small-angle scattering curves from monodisperse systems Acta Cryst. D71, 1051-1058.
7. M.Kozin & D.Svergun (2001) Automated matching of high- and low-resolution structural models J Appl Cryst. 34, 33-41.