PICRUSt作為利用16S進行功能預測的方法,使用非常廣泛。但是其利用Greengene作為參考資料庫,由於Greengene更新緩慢,在如今測序技術發展一日千裡、成本不斷下降、新序列的出現日新月異的條件下,其準確性一直都受到質疑(沒有文獻參考,起碼受到我的質疑0.0)。
另外這種基於系統發育關係判定功能的方法本身也是一種近似,其本身就存在很多的偏差。
前幾天看到一篇文章:
PICRUSt功能預測又被爆出新的問題啦!
介紹了bipRxiv上一項研究,說PICRUSt存在很大的問題。
文章中指出PICRUSt主要的問題在於其預測的準確性和宏基因組相差太多,人類腸道樣本效果還稍微好一點,環境樣本,尤其是土壤樣本效果很差。如下圖所示(記為A)。
巧的是,在PICRUSt方法發表的文章中也有一張圖,用的恰好也是土壤樣本。其結論是說在低測序深度條件下PICRUSt更準確,高測序深度宏基因組更準確。如下圖所示(記為B)。
這就讓我對bipRxiv的結論很有興趣。我沒有看bipRxiv的原文,只是找了他們用到的樣本信息,如下表所示。
事先聲明,以下結論全為自己推論,沒有證實,只是一時發散思維的想法,切莫當」真」。。。
樣本LWM對應的表中的第7行,樣本AAN對應表中的第8行。仔細看他們的16S序列數和宏基因序列數。LWM的16S序列遠高於AAN,而其宏基因組序列數遠低於AAN。兩樣本的序列數都高於20,000,測序深度較高,在圖B中表明宏基因組的結果都要好於16S+PICRUSt,比較吻合。
那麼再回到bipRxiv中的那張圖A,LWM由於16S很多,PICRUSt準確性也較高,和宏基因組重合比例較高。AAN的16S序列很少,而宏基因組數據特別多,因此PICRUSt預測效果很差,和宏基因組重合比例很低,這也完全解釋的通。
所以bipRxiv說土壤樣本不準,可能是因為測序深度比較深,也可能是因為宏基因組數據太多而16S數據太少,使得兩者差異較大。
為了進一步驗證我的猜想,繼續看其他類型的樣本。如第5行的mouse和第6行的chicken,兩者由於16S序列很少,小於10,000,根據圖B表明PICRUSt應該比宏基因組準確性更高。隨著宏基因組序列數的大幅增加(mouse到chicken),PICRUSt和宏基因組的重疊果然也大幅增加(圖A)。
綜合上述瞎猜,可以得出參考基因組;測序深度;以及16S和宏基因組相對數據量會影響PICRUSt準確性。
測序深度在以後只可能更深,因此PICRUSt準確性不如宏基因組已成事實。bipRxiv的研究在樣本的選擇上存在很多問題,只憑一篇文章並不能把PICRUSt一巴掌拍死。
近期出了PICRUSt2,可參考:
PICRUSt2:OTU/ASV等16S序列隨意預測宏基因組,參考資料庫增大10倍
以及PICRUSt2 Tutorial (v2.1.4 beta)
https://github.com/PICRUSt/PICRUSt2/wiki/PICRUSt2-Tutorial-(v2.1.4-beta)#place-reads-into-reference-tree
(閱讀原文直達)
PICRUSt2 裡的Key Limitations也說了,預測主要受限於現有參考基因組的基因。
對於16S,其基因序列通常不能分辨一個物種內的菌株變異。原核物種菌株的基因含量差異很大,在親緣關係較遠的類群之間經常發生水平基因轉移,因此對預測結果應小心。
另外,參考基因組的選擇也會影響結果。如與牛瘤胃相比,PICRUSt2在人類腸道的16S序列上表現得更好,即使實際的16S序列本身非常相似。其原因是許多重要的瘤胃特異性酶在默認的參考基因組中缺失。這個問題的一個潛在解決方案是創建一個特定的基因組參考資料庫,該資料庫只針對感興趣的環境進行預測。
Reference
Shan Sun, RoshondaB. Jones, Anthony A. Inference based PICRUSt accuracy varies across sampletypes and functional categories. FodorbioRxiv 655746; doi: https://doi.org/10.1101/655746
Langille M GI, Zaneveld J, Caporaso J G, et al. Predictive functional profiling ofmicrobial communities using 16S rRNA marker gene sequences[J]. Naturebiotechnology, 2013, 31(9): 814.
一個環境工程專業卻做生信分析的深井冰博士,深受拖延症的困擾。想給自己一點壓力,爭取能夠不定期分享學到的生信小技能,亦或看文獻過程中的一些筆記與小收穫,記錄生活中的雜七雜八。
目前能力有限,尚不能創造知識,只是知識的搬運工。
歡迎大家掃描下方二維碼關注我的公眾號,若有問題也可直接加我的微信:水岸風堤(lii32703)。請備註姓名及單位,否則自動忽略。
歡迎分享,轉載請聯繫我。