基於朱峰課題組提出的標準化新策略(Brief Bioinform. 21: 2142-52, 2020),實現了對數百種代謝組數據預處理流程的全面掃描。基於五個獨立標準的評估策略(Mol Cell Proteomics. 18: 1683-99, 2019),實現了對所有預處理流程的系統評估。這些功能,使得這一新系統能夠有效的針對時間序列和多類別代謝組學數據(如下圖),開展預處理流程的全面掃描和系統優化,此新系統也因此成為了其他可用工具的重要補充。
預處理的正確應用必須保持「真」標誌物(如臨床已知標記物、加入的標準化合物等)的變化水平。作為色氨酸的代謝物,犬尿氨酸被報導將在瘧疾感染患者的血漿中顯著升高,同時在治療後會恢復正常。基於新系統對代謝組學基準測試數據的處理和評估,在三個時間點(瘧疾感染前、診斷確定日和治療後三周)的分析結果顯示(如下圖):評測效能優異的數據預處理流程(a和b)能有效保存犬尿氨酸的生物變化(瘧疾感染後在血漿中升高,且經治療後顯著下降);相反,評測效能較差的數據預處理流程(c)幾乎無法保留這種變化。換言之,新系統可以有效提升時間序列代謝組數據預處理的效能。
新系統在多類代謝組學數據預處理中的應用顯示:對於按照不同濃度配比添加的九種標準化合物(spiking compounds)來說,評測效能優異的數據預處理流程(a)能有效保存所有九種化合物的濃度配比梯度(如下圖);相反,評測效能較差的數據預處理流程(b)則完全無法保留各個化合物的濃度差異(如下圖)。換言之,此新系統可以系統優化多類別代謝組數據預處理的流程。
本研究構建的新型在線服務系統(https://idrblab.org/noreva/)實現了對時間序列和多類別代謝組學數據的預處理,首次通過多角度評估實現了對數百種代謝組數據預處理流程的全面掃描(如下圖)。對基準測試數據的案例分析驗證了此新系統的重要性和有效性。隨著組學研究的普及和深入,此新系統和其他工具可以共同為相關領域的研究做出貢獻。此項研究工作共同第一作者為浙江大學藥學院的楊慶霞博士和王雲霞博士。
Yang, QX; Wang, YX; Zhang, Y; Li, FC; Xia WQ; Zhou, Y; Qiu, YQ; Li, HL; Zhu, F*. NOREVA: enhanced normalization and evaluation of time-course and multi-class metabolomic data. Nucleic Acids Research. 48: 436-48 (2020).