1. 材料方法撰寫要求
1.1 實驗部分
1.1.1 實驗設計和統計描述:
作者必須在實驗方法部分添加一個subsection標題命名為 「Experimental Design and Statistical Rationale」. 該部分必須明確註明以下信息:
1)樣品的數量和類型;
2)用於分析和結果中展示的樣本數量;
3)該實驗所包含的技術重複生物學重複以及過程重複的數目,如果沒有設置任何重複,需明確給出該結果可被接受的理由;
4)樣本數目及重複數目設置的合理性;
5)是否採用了標準肽段或蛋白矯正保留時間;
6)樣本採集順序隨機化的方法;
7)是否建立真實譜圖庫,建庫採用的樣本的數量和類型(包括是否設置生物學重複/技術重複);
8)描述數據處理和統計學分析所採用的算法或者程序。需完整描述採用或者引用用於後續數據統計分析的方法並闡述採用該方法的合理性。
示例:
Experimental Design and Statistical Rationale
Two group tissue samples (e.g. liver, brain) were selected, and each group is represented by nine biological replicates. Nine individuals per group also permits sufficient sample size for standard statistical tests such as two-way ANOVA and PCA and so on, because the variation between technical replicates in DIA is less than the difference between biological replicates (technical error is ~1/3 of biological error [1]). For library generation by DDA, all 18 samples were pooled as a mixture and fractionated by high pH separation with 10 fractions. And all 18 samples were processed by DIA individually to assess theproteome differences. MS1 and MS2 data were all acquired, and samples acquisition by random order. The iRT kit (Ki3002, Biognosys AG, Switzerland) was added to all of the samples to calibrate the retention time of extracted peptide peaks. The statistical analysis of the DIA dataset was performed by Spectronaut X (Biognosys AG, Switzerland) including data normalization and relative protein quantification. After Student’s t-Test, different expressed proteins were filtered if their Qvalue <0.05 and Absolute AVG log2 ratio>0.58.
Reference:
[1] Williams, E.G., et al., Systems proteomics of liver mitochondria function. Science, 2016.
352(6291): p. aad0189.
1.2 數據採集
DIA數據採集的方法有很多種,作者需要給出其認為有利於評估此檢測結果的所有參數,包括:
1)是否採集了MS1數據及掃描範圍;
2)是否進行了分級,如果分級那麼分級相關的參數,窗口的數目,是否設置了重疊窗口以及循環時間等。
示例:
DIA data acquisition
Data-independent Acquistion (DIA): The peptides were re-dissolved in solvent A (A: 0.1% formic acid in water) and analyzed by on-line nanospray LC-MS/MS on an Orbitrap Q Exactive HF coupled to EASY-nLC 1200 system (Thermo Fisher Scientific, MA, USA). 3 μL peptide sample was loaded to analytical column (Acclaim PepMap C18, 75 μm x 25 cm) and separated with 120 min gradient, from 5% to 35% B (B: 0.1% formic acid in ACN). The column flow rate was maintained at 200 nL/min. The electrospray voltage of 2 kV versus the inlet of the mass spectrometer was used. The mass spectrometer was run under data independent acquisition mode, and automatically switched between MS and MS/MS mode. The full scan was performed between 350–1,600 m/z at 60,000 resolution. The automatic gain control target for the MS scan was set to 3e6 and the maximum injection time was 20 ms. The MS/MS scan was performed at 30,000 resolution (automatic gain control target of 1e6 and auto for injection time. The collision energy was 27, and stepped collision energy was 5%. DIA was performed with variable Isolation window, and each window overlapped 1 m/z, and the window number is 42, total cycle time is 3s.
DIA Raw Data analysis
Raw Data of DIA were processed and analyzed by Spectronaut X (Biognosys AG, Switzerland) with default settings, Retention time prediction type was set to dynamic iRT. Decoy generation was set to mutated which similar to scrambled but will only apply a random number of AA position swamps (min=2, max=length/2). Interference correction on MS2 level was enabled. The false discovery rate (FDR) was set to 1% at peptide level. After Student’s t-Test, different expressed proteins were filtered if their Qvalue <0.05 and Absolute AVG log2 ratio>0.58. The DIA raw data and the results reported at protein level as well as peptide level is available at iPROX(or supplement)
1.3 DIA數據的分析方法
DIA數據的分析大致可以分為兩種策略;一種是試圖將肽與單個譜圖(以譜圖為中心,Spectrum-Centric)匹配,另一種是試圖檢測數據文件中某個給定的肽(以肽為中心,Peptide-Centric)。對於兩種策略,都可以匹配蛋白質資料庫或譜圖庫,但是大多數以譜圖為中心的分析查詢蛋白質資料庫而以肽為中心的方法主要使用譜圖庫。下面就根據不同的分析策略分別進行指導,有些工作可能使用這兩種方法的組合,在這種情況下,這兩套指導方針都是適用的。
1.3.1 Spectrum-Centric策略進行的DIA分析
(1)峰列表(peak list)生成:
a.說明用於創建峰列表的方法和/或程序(包括版本號和/或日期)。
b.列舉創建此峰列表時使用的參數,特別是可能影響後續資料庫搜索質量的任何處理。例如平滑、信噪比閾值,帶電荷狀態或去同位素峰,去多重累積,肽的不同電荷狀態(m/z或者漂移分離)對產物離子譜的相對貢獻。
c.描述在峰列表文件中是如何分配離子的保留/漂移時間和強度的。
d.說明一個檢測到的碎片離子可以包含的母離子峰的最大數量。
e.如果在創建峰列表時執行了額外的自定義處理,例如聚類或過濾,則應引用所採用的方法和/或程序(包括版本號)。
f.搜尋引擎:必須提供用於資料庫搜索的所有程序的名稱和版本(或發布日期)。
g.序列資料庫或譜圖庫:必須列出所使用的所有序列資料庫或譜圖庫的名稱和版本(或發布日期)。如果是自建的序列資料庫或者譜圖庫,則必須完整的描述序列或者譜圖的來源以及用於建庫的軟體。必須說明從每個序列資料庫或者譜圖庫中搜索到的實際條目數。如果使用的資料庫或譜圖庫非常小(< 1000個條目)或排除了常見的汙染物則必須提供明確的理由,因為這可能會產生錯誤的匹配和不準確的錯誤發現率(FDR)。
h.酶特異性:必須完整描述酶切過程所採用的所有蛋白酶種類,包括漏切的數量和非特異性酶切(如semitryptic),必須列出。
i.固定修飾:所有修飾的列表(包括特異性殘基)。
j.可變修飾: 所有修飾的列表(包括特異性殘基)。如果沒有指定固定或可變的修飾,也須說明。
k.母離子及碎片離子的質量容差(如果是自定義設置的需要說明這一點;一些軟體會自動確定這一點)。
l.已知汙染物排除:所有鑑定出的汙染物的譜峰是否被排除(或是否這些碎片離子被應用到校準過程)。
m.閾值評分/期望值:被用於譜圖鑑定的標準以及理由需明確陳述。
n.肽段、蛋白質鑑定的錯誤發現率(FDR)和批處理水平:對於大規模實驗,任何能用來評價數據鑑定準確性的額外的統計分析結果,或錯誤發現率的計算,如反庫檢索結果或其他計算方法的結果需進行描述。
示例:
Peak List Generation
Spectronaut X (Biognosys AG, Switzerland) with default settings was used to generate a peak list by the database of swissprot homo sapiens 201803. Trypsin was assumed as the digestion enzyme. Missed Cleavages was set to 2, and the decoy database was generated by reversed sequence. Carbamidomethyl (C) was specified as the fixed modification. Oxidation (M) and Acetyl(Protein N-term) was specified as the variable modifications. Kernel Density Estimator was performed to calculate the Pvalue, because it usually provides the best fit for estimating null-distribution Pvalues. Qvalue (FDR) cutoff on precursor and protein level was applied 1%. Remove the peptide if there are not at least 3 fragment ions, and kept best 6 fragments per peptide. All selected fragment ions passing the filters are used for quantification. The average top 3 filtered peptides which passed the 1% Qvalue cutoff were used to calculate the major group quantities. 34,767 precursors, 26,538 peptides, 3,758 proteins and 3,650 protein groups were searched. After Student’s t-Test, different expressed proteins were filtered if their Qvalue <0.05 and Absolute AVG log2 ratio>0.58. The database and reports are available on iPROX (or supplement) (項目號)
1.3.2 Peptide-Centric 策略的DIA分析
譜圖庫:
對於所有譜圖庫,必須報告譜圖的數量和它們所覆蓋的蛋白質的數量(target和Decoy)。對於較小的庫(小於1000個條目),必須提供合理的理由。
(1)譜圖庫的建立是否作為本研究的一部分:
a.如果從DDA數據創建譜圖庫,則DDA MS/MS的創建過程必須完整。
b.用於建庫的軟體 (包括版本號)
c.多個譜圖可以被一個肽段使用的標準;
d.如果一個譜圖被添加到譜圖庫中,選擇的標準是什麼,例如最佳評分,最可信的修飾位點。
e.如果譜圖庫中創建了合成譜圖,那麼合併譜圖所採用的參數也需要說明
f.是否只有一個肽段用於創建庫,即是否去除未修飾或修飾的肽段
g.某些峰(如前體離子)是否從譜圖庫中刪除
h.譜峰是否卡了閾值(例如最低信噪比,每張譜圖最大的譜峰數目)
i.計算的得出的譜圖庫中每個條目的FDR值;包括計算方法。分析結果是否整合了多種算法的分析結果,如果是,那麼是使用的什麼軟體/方法來進行FDR的控制的。
(2)如果使用的是公開的譜圖庫:
a.庫的版本號。提供文獻引文。
b.資料庫可以獲得/下載的位置。
c.被額外利用的資料庫中的圖譜元數據有哪些;例如保留時間,離子遷移率。
d.是否對庫進行進一步處理;例如進一步參數調整;峰閾值修改。
(3)如果使用的是預測的譜圖庫:
a.用於建庫的軟體(包括版本號)
b.建庫的參數包括(如蛋白質序列的來源;酶特異性假定;包括哪些修飾;肽段長度/質量範圍等)。
c.如果譜圖庫存在Decoy庫:
d.有多少Decoy條目(相對於target條目的比例)
e.如何分配這些Decoy蛋白(允許蛋白質水平的FDR估計)?
f.Decoy蛋白的譜圖是如何產生的?
g.利用譜圖庫進行資料庫檢索:
h.用於peptide-centric分析的軟體的名稱和版本號
i.是否採集母離子?
○如果是,母離子信息是如何使用的?
○母離子匹配的質量容差是多少?
j.保留時間或離子遷移率是否用來輔助定性?
○如果是,如何進行的;例如是否利用了預測時間/移動的窗口?
○利用什麼方法來進行保留時間的對齊,或者描述用來評估保留時間重現性的方法。
k.色譜峰的形狀是否作為一個參數用於結果評分?如果是,怎麼做的?
l.有多少質譜峰被用於識別一個肽段?(對於某些軟體,這可能是一個範圍)
○這些譜峰挑選的標準是什麼;例如,在譜圖庫中的相對強度,必須大於某一分子量;必須在一定的質量範圍內等
m.搜庫時碎片離子的質量容差。
n.如果是修飾位點的鑑定,用於判斷修飾位點可靠性的方法
o.肽段、蛋白質鑑定的錯誤發現率(FDR)和批處理水平:對於大規模實驗,任何能用來評價數據鑑定準確性的額外的統計分析結果,或錯誤發現率的計算,如反庫檢索結果或其他計算方法的結果需進行描述。
示例:
Library Generation
Data-dependent Acquistion (DDA): The peptide mixture was re-dissovled in the buffer A (buffer A: 20 mM ammonium formate in water, pH 10.0, adjusted with ammonium hydroxide), and then fractionated by high pH separation using Ultimate 3000 system (ThermoFisher scientific, MA, USA) connected to a reverse phase column (XBridge C18 column, 4.6 mm x 250 mm, 5 μm, (Waters Corporation, MA, USA)). High pH separation was performed using a linear gradient, starting from 5% B to 45% B in 40 min (B: 20mM ammonium formate in 80% ACN, pH 10.0, adjusted with ammonium hydroxide). The column was re-equilibrated at the initial condition for 15 min. The column flow rate was maintained at 1 mL/min and the column temperature was maintained at 30℃. Ten fractions were collected; each fraction was dried in a vacuum concentrator. And then peptides were re-dissolved in 0.5% formic acid in 5% ACN) and analyzed by on-line nanospray LC-MS/MS on an Orbitrap Q Exactive HF coupled to EASY-nLC 1200 system (Thermo Fisher Scientific, MA, USA). 3 μL peptide sample was loaded to analytical column (Acclaim PepMap C18, 75 μm x 25 cm) and separated with 120 min gradient, from 5% to 35% B (B: 0.1% formic acid in 80% ACN). The column flow rate was maintained at 200 nL/min. The electrospray voltage of 2 kV versus the inlet of the mass spectrometer was used. The mass spectrometer was run under data dependent acquisition mode, and automatically switched between MS and MS/MS mode. The full scan was performed between 350–1,600 m/z at 60,000 resolution. The automatic gain control target for the MS scan was set to 3e6 and the maximum injection time was 50 ms. The dynamic exclusion was set to 30 s. The MS/MS scan was performed at 15,000 resolution (automatic gain control target of 5e5 and 60 ms maximum injection time. The collision energy was 30.
Spectral Library generation: Raw Data of DDA were processed and analyzed by Spectronaut X (Biognosys AG, Switzerland) with default settings to generate an initial target list, which contained 34,767 precursors, 26,538 peptides, 3,758 proteins and 3,650 protein group. Spectronaut was set up to search the database of swissprot homo sapiens 201803 assuming trypsin as the digestion enzyme. Carbamidomethyl (C) was specified as the fixed modification. Oxidation (M) was specified as the variable modifications. Qvalue (FDR) cutoff on precursor and protein level was applied 1%. The complete assay library including all relevant metadata is available at iPROX (or supplement)
1.4 結果部分
1.4.1 肽和蛋白質報告(見Spectronaut 導出的Report列表)
根據研究的重點,結果可能在肽段或蛋白水平上得到最適當的展示。必須提供一份結果列表,可以放在原稿中,或者如果結果文件很大,也可以作為補充材料隨原稿一起提交給雜誌。
對於蛋白質水平報告的結果,此表必須包括:
a.蛋白質的accession號
b.每個蛋白對應的肽段數目:計算這個數字時,胺基酸序列相同的多個匹配肽應該算作不同的肽,包括一個肽段不同的帶電狀態或者修飾狀態。任何替代假設都必須是合理的。
c.如果某個蛋白被鑑定到了,那該蛋白在譜圖庫中的肽段數目是多少。
d.對於某些只鑑定到一個肽段的蛋白,肽段水平的信息必須提供,以及質譜和色譜信息 (哪個更合適;見下文)
e.對於肽段水平報告的結果,結果表必須包括:
f.蛋白質的accession號
g.所有匹配到的肽段序列。
h.母離子電荷數,以及檢測到的m/z(質荷比,如果使用MS1數據)。
i.所有檢測到的修飾。
j.對於peptide-centric分析,匹配和沒有匹配到的碎片離子的數量和評估鑑定質量的統計結果。
k.對於spectrum-centric分析,打分,和/或肽段匹配的統計度量。
l.如果鑑定到的肽段包含修飾,衡量修飾可靠性的方法必須報告(或必須表明修飾的可靠性沒有評估)。
m.如果報告鑑定到的肽段帶有翻譯後修飾,或者鑑定到的蛋白是基於一個唯一肽段(此定性結果不推薦)那麼這些肽段對應的質譜圖和色譜圖都必須是可獲得的。可以通過以下方式提供:
○把所有的數據和搜庫結果上傳到一個配備有查看功能的公共數據存儲平臺,這種方法優於直接發送給雜誌。
或者
○提交的數據和搜索結果的文件格式允許一些免費的軟體對譜圖進行可視化查看。
請參見
http://www.mcponline.org/site/misc/annotated_spectra.xhtml
了解如何通過不同的軟體實現譜圖的注釋。
Spectronaut分析結果可以導出為.sne文件。將該文件上傳至公共數據存儲平臺即可。
一般在結果部分,我們鼓勵作者展示在質譜數據中鑑定到的總離子的比例,該百分比可以通過使用任何軟體對數據進行解釋並且應說明如何確定或估計出該比例的。
1.4.2 定量
提供基於質譜分析的定量蛋白質組學結果的手稿必須提供以下信息:
1)所有相關的定量數據(作為肽段和蛋白鑑定列表的一部分),以及描述是如何通過原始數據得到這些定量值的(例如利用MS1還是MS2定量)。
2)後處理步驟的完整描述,如離群值剔除,通過鑑定打分值或者CV值進行數據過濾,通過閾值排除數據(例如,基於信噪比或最低離子數目。)
3)每個蛋白質用於定量的肽段數目(如果與定性採用的數目不一致)。
4)描述如何通過技術重複以及統計學方法來驗證測量的分析方法的可靠性的。可能會引用一些標準方法或者特殊軟體。然而,有必要證明手稿中包含的數據確實符合模型的假設。
5)描述如何通過生物學重複,統計方法來驗證生物學可靠性的。單個樣本的單次實驗通常是不能接受的(除了作為測試生物信息學系統的數據)。如果生物學重複的來源相同是不能接受的 (例如,疾病樣本),為了得到一個可靠的結論必須進行足夠數量的類似生物樣本的檢測,並進行適當的證明。
6)描述定量過程中對共流出肽段的幹擾是如何處理的
7)如果鑑定到修飾,那麼是採用何種軟體評估修飾位點鑑定的可靠性的。
8)正確估計不確定性和誤差分析的方法。
9)對大量蛋白和多肽進行定量通常需要使用某種形式的多重假設檢驗校正。儘可能的應該為每個單獨的蛋白質定量的可信度進行評估而不是基於全局數據集的評估。從手稿中的定量數據中得出的任何結論或假設,都必須與評估的不確定度估計值一致。
10)描述由多個亞型蛋白構成的蛋白組(protein group)的定量方式。
示例:
Quantification
Data extraction was determined by Spectronaut X based on the extensive mass calibration. Spectronaut Pulsar X will determine the ideal extraction window dynamically depending on iRT calibration and gradient stability. Qvalue (FDR) cutoff on precursor and protein level was applied 1%. All selected fragment ions passing the filters are used for quantification.MS2 interference will remove all interfering fragment ions except for the 3 least interfering ones. The average top 3 filtered peptides which passed the 1% Qvalue cutoff were used to calculate the major group quantities. After Student’s t-Test, different expressed proteins were filtered if their Qvalue <0.05 and Absolute AVG log2 ratio>0.58. The quantification report is available on iPROX (or supplement)
1.5 數據提交到公共存儲庫
所有由質譜輸出的原始文件必須在首次提交手稿時存放在一個可公開訪問並且不受作者控制的第三方數據存儲平臺(例如ProteomeXchange旗下的資料庫iPROX)中。如果譜圖庫是作為研究的一部分創建的,那麼用於創建譜圖庫的原始數據也必須上傳(除非它已經公開可用,在這種情況下應該提供可供下載的位置),以及創建的譜圖庫(target庫和Decoy庫)。譜圖庫數據應優先作為單獨的提交文件存放,以便更容易引用。存儲庫通常需要用戶名和密碼才能訪問提交的數據集。這些信息必須在提交稿件給雜誌時一同提供給編輯,並作為評審過程的一部分提供給審稿人。如果讀取原始數據的軟體不是被廣泛應用的軟體的話,我們鼓勵將數據轉換為mzML等開放格式(Thermo Fisher質譜儀器產生的數據無需這麼做)。我們期望以儘可能接近原始數據的形式上傳譜圖數據,以免某些處理影響後續的數據解釋度。
此外,必須提交一個文件作為補充材料(並且提交到原始數據的存儲庫),該文件映射每個原始數據文件、中間處理文件和結果文件之間的關係,並確定哪些是生物、技術或過程重複。所有的軟體分析都必須記錄所用軟體的相應版本。
如果需要延遲或者不提交數據,必須在投稿時以書面形式提交請求給數據管理編輯[chalkley@cgl.ucsf.edu]。並且數據必須在出版時向公眾提供。
有關此要求的進一步信息,請聯繫
mcp@asbmb.org。