營養與健康所等開發新的定量蛋白質組數據差異分析計算模型

2020-12-13 中國科學院

  8月13日,國際學術期刊Cell Discovery 在線發表了中國科學院上海營養與健康研究所中科院計算生物學重點實驗室(馬普計算生物學研究所)邵振課題組研究論文「MAP: model-based analysis of proteomic data to detect proteins with significant abundance changes」,報導了一種新計算模型MAP,用於統計分析基於同位素標記產生的定量蛋白質組數據並鑑定其中差異表達的蛋白質。

  基於同位素標記和質譜技術的定量蛋白質組實驗(如iTRAQ、TMT和SILAC等)能同時檢測數千甚至上萬個蛋白質在不同樣本之間的相對豐度或表達差異。這類數據已有的差異表達分析方法大多依賴於對並行或已有的技術重複數據進行前期比較來構建實驗的技術誤差模型,並以它為基礎檢驗每個蛋白質在被比較樣本之間表達差異的統計顯著性。該方法佔用了有限的實驗通道,也難以保證誤差模型的精確適用性。

  針對這一局限,在MAP模型中研究人員發展了一種新穎的分步回歸(step-by-step regression)分析流程,實現直接對被比較的兩個iTRAQ樣本構建技術誤差模型。在此類研究中,一個常用的經驗假設是技術誤差對樣本間每個蛋白質iTRAQ信號log2比率(log2-ratio)的貢獻服從以0為中心的正態分布N(0, σ2)。其中,方差σ2依賴於該蛋白質的信號強度,並且常被用一個指數衰減函數來刻畫其依賴關係,即所要構建的全局誤差函數。MAP模型首先使用滑動窗口掃描兩個樣本的M-A圖,同時對窗口中0附近的log2比率進行線性建模,以其斜率的平方作為誤差函數的局域估計。然後,對所得局域估計進行第二輪指數擬合,獲得被比較樣本的全局誤差函數,並以它為參照計算每個蛋白質信號差異的顯著性P值(圖1)。

  同位素標記定量蛋白質組數據長期存在比率壓縮的難題。研究人員使用MAP模型分別比較分析了三個批次產生的小鼠胚胎幹細胞分化前後蛋白質組數據,發現蛋白質iTRAQ信號log2比率在不同批次間關聯很低(圖2a),可能是因為技術誤差對其貢獻所服從的正態分布N(0, σ2)在批次間各不相同。根據MAP模型,研究人員提出使用每個批次的全局誤差函數對其中每個蛋白質iTRAQ信號的log2比率進行重標度(rescaling),使得在不同批次中技術誤差對其貢獻均服從標準正態分布N(0, 1),從而發展了一個新的Z統計量。比較不同批次蛋白質Z統計量之間的關聯,可以發現它具有明顯更好的可重複性(圖2b)。

  為方便蛋白質組領域研究者使用MAP模型進行數據分析,研究人員搭建了一個網絡服務平臺(http://bioinfo.sibs.ac.cn/shaolab/MAP)。該平臺額外搭載了一個整合分析模塊,能夠通過整合多個批次生物重複比較結果的次優P值或者平均Z統計量來最終鑑定差異表達蛋白質,並新發展了一種分析方法用於估測基於這些統計量所定義差異表達蛋白質的錯誤發現率(FDR)。此外,在用於雙樣本比較的MAP模型基礎上,研究人員還通過分別用樣本方差和卡方分布分位數取代原分步回歸建模流程中所使用的log2比率和標準正態分布分位數,進一步發展了適用於多樣本比較的拓展eMAP模型。

  上述研究由營養與健康所研究助理李木山和博士研究生塗世奇等在研究員邵振的指導下,與中科院植物生理生態研究所、復旦大學上海醫學院和美國西南醫學中心等多家單位的研究人員合作完成,得到國家自然科學基金委、科技部和中科院等的資助。

  論文連結

 

  圖1:MAP模型的分步回歸分析流程:(a)局域線性擬合;(b)全局指數擬合構建技術誤差模型;(c)計算每個蛋白質信號差異的顯著性P值。

 

圖2:不同批次蛋白質iTRAQ信號的log2比率(a)和Z統計量(b)的皮爾森關聯繫數。

相關焦點

  • 營養與健康所等建立MAnorm2計算模型
    近期,Genome Research在線發表了中國科學院上海營養與健康研究所中科院計算生物學重點實驗室(馬普夥伴計算生物學研究所)研究員邵振課題組的方法學論文——MAnorm2 for quantitatively comparing groups of ChIP-seq samples,報導了其開發的新一代MAnorm2計算模型。
  • ...科學家建立世界上首個蛋白質組規模的健康人尿蛋白定量參考範圍...
    文章第一作者為冷文川副研究員,該研究以國際兩中心的方式採集了來自167名健康自願者的500個尿蛋白質組數據,對健康人尿蛋白質組的生理波動性和個體間差異進行了系統性評估,在此基礎上建立了世界上首個蛋白質組規模的健康人尿蛋白定量參考範圍。
  • 我國科學家建立世界上首個蛋白質組規模的健康人尿蛋白定量參考...
    文章第一作者為冷文川副研究員,該研究以國際兩中心的方式採集了來自167名健康自願者的500個尿蛋白質組數據,對健康人尿蛋白質組的生理波動性和個體間差異進行了系統性評估,在此基礎上建立了世界上首個蛋白質組規模的健康人尿蛋白定量參考範圍。
  • 科學家開發出新型定量蛋白質組學分析方法
    科學家開發出新型定量蛋白質組學分析方法 作者:小柯機器人 發布時間:2020/11/26 11:45:11 美國威斯康星大學麥迪遜分校Joshua J. Coon、Jesse G.
  • Anal Chem:董夢秋等開發出定量蛋白質組學數據解析軟體pQuant
    中科院計算所pFind研究團隊與我所董夢秋實驗室合作開發了定量蛋白質組學數據解析軟體pQuant,用計算方法排除幹擾信號的影響、提高肽段和蛋白質的定量準確度並對每個定量值進行準確性評價。基於質譜的定量蛋白質組學是現代生物學技術的生長點之一,用於測量複雜生物體系中蛋白質及其翻譯後修飾在不同條件下的豐度變化,是研究蛋白質功能和藥物作用機制的重要工具。
  • 青年才俊上演計算蛋白質組學頭腦風暴——記CNCP 2016新技術
    ,特別是在交聯質譜技術與蛋白質複合體,蛋白質相互作用、翻譯後修飾技術、蛋白質鑑定數據處理、定量蛋白質組技術等領域報告較多,下面對這26個報告的內容逐一進行簡介總結。張弓教授介紹了研究團隊研發的利用翻譯組測序數據作為蛋白質de novo鑑定質量控制新方法,使肽段de novo鑑定能首次應用在蛋白質組複雜樣品的實用化鑑定。
  • 「鳥槍法(shotgun)」定量蛋白質組學技術介紹
    差異蛋白質的定量研究是基於肽段水平而非完整的蛋白質,成為該技術最大的技術特色,該技術實現了樣品分離與鑑定直接聯合,完全自動化操作,可以用於各種蛋白質混合物的蛋白質組學分析,如血清、組織、各種體液以及尿液等。  技術路線:  鳥槍法為基因組測序,是先將基因組打斷,分段測序, 然後利用計算機重組在一起。從而確定一段的基因序列。
  • SWATH-MS定量蛋白質組學
    一項新的研究表明,人類、動物和環境資源可能與 MRSA在整個生產鏈中對乳製品的汙染有關,這對乳製品安全以及食品從業者和消費者的健康構成了嚴重威脅。因此,迫切需要防止和控制MRSA擴散的新型抗菌劑。新的研究發現乳糖酸(LBA)表現出與乳鏈菌肽和百裡酚對單核細胞增生李斯特菌的協同抗菌作用以及對耐甲氧西林金黃色葡萄球菌(MRSA)的抗菌活性。
  • iTRAQ —— 蛋白質組學研究的利器
    蛋白質組學(Proteomics)是蛋白質(protein)與 基因組學(genomics)兩個詞的組合體,表示「一種基因組所表達的全套蛋白質」,即包括一種細胞乃至一種生物所表達的全部蛋白質。蛋白質組的實質是在大規模水平上研究蛋白質的特徵,包括蛋白質的表達水平,翻譯後的修飾,蛋白與蛋白相互作用等,由此獲得各個相關信息,從而實現對細胞代謝等過程的整體而全面的認識。
  • 【盤點】定量蛋白組學將在未來10年飛速發展!
    蛋白質作為生命活動的"執行者",自然成為生命科學研究的新"寵兒"。幾乎在所有生命科學領域內,科學研究工作者都需要對細胞、組織或完整生物體的蛋白進行定性描述或定量檢測。對一種細胞、組織或完整生物體所擁有的全套蛋白質為特徵的蛋白組學在生命科學領域將會發揮重要作用!
  • Nature Methods|新方法再次提高單細胞蛋白質組學質譜定量準確度
    —— 諾貝爾生理學或醫學獎獲得者Sydney Brenner單細胞蛋白質組學在蛋白豐度檢測、轉錄修飾和翻譯後修飾方面填補了單細胞轉錄組學的空白。單細胞蛋白質組學質譜(SCoPE-MS)是近年來興起的一種定量分析多功能單細胞蛋白質組的方法,這種方法採用同位素標記和載體蛋白質組學來分析單個細胞【1】。
  • Python數據實戰分析之定量和定性數據分析
    定量和定性數據分析數據分析過程都是以數據為中心,根據數據的特點,其實還可以對數據分析作進一步區分。如果所分析的數據有著嚴格的數值型或類別型結構,這種分析稱為定量分析;如果數據要用自然語言來描述,則稱為定性分析。
  • ...小紅/秦偉捷團隊合作報導,大規模尿液樣本的糖基化組學分析新策略
    這種策略將資料庫搜索速度提高了20倍,並使單個樣品中完整O-糖肽定量提高了30%-40%,重現性明顯提高。運用該集成數據處理策略,作者共在36個健康的人類尿液樣本中鑑定出1300個完整的O-糖肽,缺失數據量減少了30%-40%。
  • 項目文章 | iTRAQ標記定量蛋白質組學揭示硝普鈉處理對大豆芽的影響
    研究中iTRAQ標記定量蛋白質組學實驗由鹿明生物提供技術支持。中文標題:iTRAQ標記定量蛋白質組分析揭示硝普鈉處理對大豆芽的影響研究對象:大豆芽發表期刊:Food Chemistry影響因子:6.306合作單位:南京農業大學
  • RNA-seq數據分析最佳實踐調查
    縮寫:ChIP-seq染色質免疫沉澱測序,eQTL表達定量基因座,FPKM每外顯子模型的映射鹼基片段每百萬讀取,GSEA基因集富集分析,PCA主成分分析,RPKM每千鹼基外顯子讀取模型的每百萬讀取,sQTL拼接數量性狀位點,TF轉錄因子,TPM。實驗設計成功進行RNA-seq研究的關鍵先決條件是所生成的數據具有回答感興趣的生物學問題的潛力。
  • 草菇響應低溫脅迫的差異蛋白質組學分析
    草菇低溫自溶的特性制約了草菇菌種保藏和子實體生產流通,嚴重影響了該產業的健康可持續發展。福建農林大學食品科學學院,福建省農副產品保鮮技術開發基地的吳志亮、黃 瑩*、王則金*以草菇子實體為對象,利用蛋白質組學技術研究草菇子實體響應低溫脅迫的差異蛋白質,揭示草菇發生低溫自溶後的代謝通路變化,旨在為草菇低溫自溶機理的進一步研究提供參考。
  • TMT蛋白質組學與生物信息學分析不同石杉鹼甲含量的蛇足石杉葉狀體的蛋白差異
    方法  利用定量蛋白質組學串聯質譜標籤(tandem mass tag,TMT)技術對不同株系蛇足石杉葉狀體進行定量蛋白質組學檢測和鑑定,再對差異蛋白進行GO和KEGG等生物信息學分析。本研究利用串聯質譜標籤(tandem mass tag,TMT)定量蛋白質組學方法,分析不同Hup A積累能力的蛇足石杉葉狀體的差異表達蛋白,並進行生物信息學分析,篩選與合成生物鹼有關的目的蛋白,結合不同株系的Hup A含量特性關聯分析,揭示HupA生物合成相關的分子信息。
  • 實力乾貨—蛋白質組學(iTRAQ)
    現在有一種很火的蛋白定量技術叫做iTRAQ,相信很多接觸過蛋白組學方面研究的童鞋們都有耳聞,不過可能大多數人對它沒有比較深入的了解,現在小知帶領大家一起來好好了解下這種超厲害的定量蛋白質組學技術。隨著生物技術的飛速發展,組學這個詞慢慢的被大家所熟知,包括基因學,轉錄組學,蛋白組和代謝組學等。
  • 蛋白質組學——iTRAQ技術簡述
    蛋白質組學(Proteomics)是蛋白質(protein)與基因組學(genomics)兩個詞的組合體,表示「一種基因組所表達的全套蛋白質」,即包括一種細胞乃至一種生物所表達的全部蛋白質。蛋白質組學研究,就是要把一個基因組表達的絕大多數蛋白質或一個複雜的混合體系中絕大多數蛋白質進行精確的定量和鑑定。
  • qRT-PCR差異分析及P值計算
    ,他的計算方法有很多,常用的相對定量數據分析方法是KJ Livak(Applied Biosystems)等人在2001年提出的「比較Ct法相對定量」,即:利用ΔCt值差異來推算基因表達差異(Ct目的基因 – Ct內參基因 = ΔCt),該方法的具體計算方法請參見文章:qRT-PCR相對定量計算詳解。