大家好,我是徐振江,來自南昌大學食品科學與技術國家重點實驗室。
在這裡我給大家介紹一下,如何在微生物組學的研究當中避免走一些彎路。
微生物組學研究可以分為以下這 4 個步驟。
首先,我們提出一個科學假說或者說一個科學問題;然後,我們再來設計一個合適的研究方案,來解答這個問題,驗證或者推翻科學假說;在實施研究方案的過程當中,我們要避免一些幹擾因子對我們的生物學分析的影響;最後拿到數據之後,我們進行一個數據分析:將生物信息學的方法應用其中,得到可靠的生物學結論。
怎樣是一個好的科學假說呢?
比如說,如果我們有興趣來研究腸道微生物組跟餐後血糖的關係的話,我們可以提這樣一個假說:腸道微生物組是否可以比較好的預測餐後血糖升高的幅度呢?這是一種假說,對吧?
但是我們也可以把這個假說更精確一點、精細化一點,我們可以提這樣一個假說:腸道微生物組是否可以預測漢族成人麵食餐後血糖升高的幅度呢?這樣一個更加精細的假說就會框定我們這樣一個科學的研究的範圍,能夠讓我們更加精細化的、更好的來驗證這樣一個假說,得到更可靠的、更精確的結論。
有了一個科學假說或者一個科學問題之後,我們如何設計研究方案呢?最簡單的就是橫斷面的研究。
比如說我們對一個人群感興趣,對糖尿病患者的腸道微生物感興趣。我們無法研究所有的糖尿病患者,但是我們可以選取一些有代表性的糖尿病患者,將他們的腸道微生物拿過來研究,研究他們腸道微生物有什麼樣的特徵。這就是橫斷面的研究。
更進一步,我們想對比健康人跟糖尿病患者之間,他們的腸道微生物有什麼樣的異同。我們就可以設計病例對照這樣一種研究方案來進行。當我們有一些糖尿病患者之後,我們可以根據他們的年齡、種族和性別,挑跟他們匹配的一些健康人作為對照來進行研究。
這樣的話,我們就排除了年齡、性別和種族這些因素的幹擾,我們可以非常精細化地將糖尿病患者的腸道微生物組的變化給提煉出來。
進一步,發現了腸道微生物有什麼樣的不同之後,我們就可以進行幹預性的研究,比如飲食幹預或者藥物幹預。想看這種幹預對糖尿病患者有什麼影響的話,我們可以設置不同的實驗組,進行不同的飲食或者藥物幹預,來進行幹預前、幹預後以及不同的幹預之間的比較。
這種幹預的方法,雖然我們也可以設計對照,來控制其它因素對各組人群或者動物之間的影響,但是畢竟各個樣本、各個個體之間還是有一定的差異。
為了嚴格控制這種差異,有另外一種研究方案就是交叉設計。這種研究方案主要是針對每個個體而進行的。
在實驗的每個個體當中,我們會進行兩種或者兩種以上的幹預。在第一種幹預進行之後,我們會有一個洗脫期,將第一次幹預的影響消除掉、洗脫掉。然後我們再進行第二次幹預。這種研究設計的好處就是可以將其它的和我們不感興趣的因素都控制在最小的範圍之內。
交叉設計的研究主要是每個人幹預前和幹預後他們自行自我比較,所以就排除了人與人之間的不同、個體與個體之間的不同。這是這種研究方案的好處。
另外一種研究方案就是前瞻性隊列。這種研究方案主要是用來研究,在我們感興趣的臨床結局發生之前,是否可以用腸道微生物或者其它的生物因子來判斷每個個體的生物結局、臨床結局。
依然以糖尿病研究為例,如果我們想判斷,腸道微生物組在糖尿病的發生發展過程當中起一個什麼樣的作用,我們是否可以通過腸道微生物來判斷糖尿病的發生?
我們可以在之前就採集微生物組的樣本,然後再跟蹤隨訪。我們就可以利用他們的腸道微生物來判斷、預測:他到底在多長時間以後或者說是否會產生糖尿病。這是前瞻性隊列的好處——我們可以預判性的,可以通過預防性的實驗手段來進行這種預測性的研究。
有了一個研究方案之後,我們可以結合我們常用的一些技術手段來進行研究。
最常用的可能大家都知道——擴增子測序、宏基因組測序,或者對代謝組學感興趣的話,就是液相色譜串聯質譜。
我們可以得到一個微生物組,它到底由哪些微生物組成,它的功能構成是什麼樣子的。然後,如果我們對其中的單菌感興趣的話,可以將這個細菌挑出來進行分離培養,進行基因組的測序,甚至進行一些工程改造,來進一步研究單菌跟宿主之間的相互作用。
在這個過程當中,我們會需要對一些特定的微生物進行絕對定量,這時就可以用 qPCR,或者在細胞層面上進行統計,用流式細胞儀之類的手段。
以上這些都是從功能性的角度來看我們微生物群落裡面到底有哪些功能。但是它是否具有活性,基因的表達到底是什麼樣子的,其實都是不一定的、未知的。
為了研究這些,我們可以進行宏轉錄組或者宏蛋白質組的研究。這些技術手段成本更高一些,所以應用的也相對而言少一些。但是如果我們對這些感興趣的話,這些技術手段也是比較成熟的。
在進行這些微生物組學的研究之後,我們可能要進行更多的、更進一步的宿主跟微生物之間的相互作用的關係的研究。我們就可以用到 in vitro 或者 in vivo 的模型,可以用類器官或者無菌動物,或者悉生動物的模型來進行研究。
在這些研究實施的過程當中,會有非常多的幹擾因素影響我們的結果。我在這就舉一個例子。
我們這裡是同樣的樣本,在上面兩幅圖裡面,我們可以用不同的顏色來區分不同的因子對我們結果的影響。藍色是表示我們感興趣的生物因子,比如像疾病或者健康,它們可以很好的區分開來。
如果我們有另外一個技術層面的幹擾因子,比如說不同的測序批次、不同的樣本處理,也會得到這樣一個分類的話、它們完全重合的話,我們其實就無法判斷我們樣本的聚類到底是由於我們的疾病造成的,還是由於我們的幹擾因素造成的。
但是如果我們能夠將這些樣本隨機化處理,就是說,不同的幹擾因子隨機的發生在我們的樣本當中,我們就會得到下面這兩幅圖。
下面兩幅圖裡面,我們也可以看出來,生物因子是可以將兩類樣本區分開來的。在這種情況下,因為幹擾因子是隨機化的,所以它就不會跟我們的生物因子重疊。我們就可以比較可靠的得到結論說,我們生物因子是影響了我們微生物組成的構成,它是可以很好的分成兩類的,而不是由於其它的幹擾因素造成的。
我們微生物組學研究的幹擾因素到底包括哪些呢?這些幹擾因素其實無處不在,所以我們在樣本採集、在實驗實施的過程當中,都要非常小心。
比如像我們的樣本的採集,它們的保存、處理、測序,都會對我們樣本微生物、最後你得到的 DNA 的結果,會有很大的影響。
比如像 DNA 的提取和擴增、測序平臺以及測序批次,甚至同一個廠商的試劑不同的批次之間都有微小的差異,都會影響我們最後得到的微生物組成,或者說功能性研究的差異。
我們生物信息學也會對我們最後的結果有一定的影響。如果我們要對不同的數據集之間整合起來做一個薈萃分析的話,我們需要用統一的生物學軟體、算法進行統一的處理。得到一個統一的表格、數據之後,我們再來進行下遊的統計分析跟可視化分析。
在小分子的代謝組學研究當中也是一樣的,質譜其實也受非常多的幹擾因素的影響。比如像溶劑的選擇、小分子如何萃取、電離模式——到底是正電還是負電荷的這種不同的電離模式,以及生物信息後面的處理,都會影響我們代謝組學的結果。
其中一個,大家可能也聽說過一個影響,動物實驗最重要的一個幹擾因素就是籠子效應。所謂的籠子效應,就是因為我們的動物,尤其是小鼠,它們會互相吃糞便,所以養在同一個籠子裡面的小鼠,它們的腸道微生物就會更加的趨同,就會更加相似。
所以如果你的處理組只有一隻籠子的話,你這個處理組跟別的處理組發現有微生物的不同,這種時候的話,你就沒法判斷你的不同到底是由於籠子效應造成的,還是由於你的處理組造成的。
在這裡就非常顯著的可以看出來,這裡有三個不同的處理。三個不同的處理組,每個處理組有兩個籠子。所以你會看出來,有些籠子,它有些特異性的微生物是只在這個籠子裡面出現,但是沒有在處理組的其他籠子裡面出現。這是非常重要的,所以我們一般在設計實驗的時候,每一個處理組至少要設置兩個籠子以上的實驗動物。
然後,在我們後面的樣本的處理過程當中,也有一些考慮因素。上面我介紹了另外一個需要非常小心的,就是 DNA 汙染。這在一些低生物量的樣本當中,比如像皮膚微生物、口腔微生物以及像胎盤微生物之類的,因為它們的生物量很少,有一點點 DNA 汙染的話,它就會在測序結果裡面呈現出來。
我們最近有一項研究就發現,高通量測序的時候,用 96 孔板進行 DNA 處理、提取、擴增的時候發現,有些 DNA 會從一個孔汙染到另外一個孔,產生交叉汙染。
我們如何來避免這樣一種汙染呢?其實我們可以在 96 孔板裡面設置很多的對照,包括陽性對照、陰性對照。陽性對照呢,你可以在你的樣本當中,在你的空白對照裡面加一定量的你已知的比如像 E. coli 的 DNA。在陰性對照呢,那就更簡單了,你就直接將一個空白的樣本,進行同樣的操作處理——提取 DNA,進行 DNA 擴增,拿去測序。
在這種陽性對照跟陰性對照設置過程當中,我們隨機的放在 96 孔板的不同位置,就可以從後續的 DNA 結果當中、生物信息學方法分析當中,就可以判斷,到底有哪些 DNA 是從你旁邊的孔裡面,通過氣溶膠或者其它的方式,汙染到旁邊的孔的,以及汙染量是多少。我們都可以從生物信息、從數據的角度來判斷。
另外,我們在這個實驗過程當中,很多時候要考慮到底要多少樣本,對吧?我們需要納入多少人到人群隊列當中?我們需要多少個籠子、需要多少只老鼠來進行這個實驗?
這裡有一些已知的生物影響因子,以及技術層面的影響因子,對我們最後結論的影響因素有多大?比如像不同的物種之間、像人跟猴子、像人體的不同的部位,這些對我們的微生物群落的影響是非常大的。所以這些影響因素 effect size(效應值)還是比較大的。
其次就是一些年齡、地域差別,還有一些長期的飲食以及藥物的幹預這類影響因素。比較小的影響因素就是其它的一些短期的幹預。在技術層面,我們的樣本處理會影響非常大,包括樣本的保存以及生物信息學。然後試劑不同的批次影響稍微小一點。
所以要根據不同的研究方法,以及感興趣的問題,來判斷我們到底需要多少樣本,來得到一個可靠、可以實質性的發現生物學差異的一個樣本量。
我們拿到樣本、拿到數據之後,就要進行大量的生物信息學分析了。
生物信息學分析其實是現代生物醫學當中非常重要的,也是處於瓶頸的一個步驟,因為我們現在積累的生物數據量已經越來越大了。但是如何將不同研究當中的數據集整合起來,將這些海量的數據薈萃分析,如何在其中提煉出有用的生物學結論,現在都是生物信息學的一個瓶頸。
我們已開發了高效、靠譜、易用的一些算法跟生物信息學工具,來從事微生物組學的研究。比如 scikit-bio,它就是一個底層的 Python 的軟體包,用來支撐後續的不同的生物信息學軟體的開發。
還有去年剛剛發表出來的 Qiime2,很多不同的插件可以分析不同的功能,進行可重複的分析。然後還有 CALOUR、Deblur,可以進行不同的微生物組學的分析。從上遊的 DNA 序列的處理,到中遊的統計學分析,以及到下遊的可視化的分析,都有一系列的工具。
然後生物信息學對感興趣的朋友來說,一個非常重要的數據特點就是 compositionality(合成性)。所謂的 compositionality,是說基本上我們大多數研究當中所測到的那些微生物的量,都是一個相對的量。
也就是說我們只知道 Bacteroidetes 它在我們的樣本當中所佔的比例是多少,但是我們不知道它絕對含量是多少,我們不知道在原始的樣本當中,到底有多少個 Bacteroidetes 的微生物細胞在裡面。
相對量對我們的分析有什麼樣的影響呢?它的影響其實是非常巨大的。因為在我們的樣本當中,一個微生物的升高就意味著另外一個微生物在相對量而言它會降低,不管真實情況是怎麼樣,它在相對豐度就會降低。
所以很多時候,它就會造成一個假陽性的這樣強相關的一個結果。所以如果我們要做差異性豐度分析,或者說做相關性分析的時候,我們就要將 compositionality 的情況考慮進去。
這裡就是一個非常好的例子。這是一項發表在 2015 年的研究。他們主要是想看腸道微生物在晝夜節律變化當中有什麼樣的不同的行為。
我們主要看左邊的黑線,他們發現 Bacteroidetes 這一組的話,它們有一個明顯的節律的變化。在白天的時候,它會開始降低,然後再慢慢升高,到晚上一直到達最高相對豐度。
另外一組微生物 Firmicutes 呢?它有一個類似於相反的這樣一個表現。它在晚上的時候是比較低,白天的時候升高,然後到晚上又降低。
這兩組微生物,如果我們只看相對豐度的話,它有一個非常強的負相關性。但是他們做的比較好的就是,通過其他的手段,他們檢測到了腸道微生物裡面整個微生物的絕對量是多少。
所以如果將絕對量考慮進去的話,他們就得到右邊這樣一條紅色的曲線。在絕對量上面,Bacteroidetes 這種微生物,它同樣還是有這樣一個節律的變化。但是 Firmicutes 的變化,就不是那麼明顯了,甚至它跟 Bacteroidetes 的變化有點趨同。如果我們仔細看的話,它稍微有一點點正相關,而不是我們之前看相對變化的話,它是一個負相關的關係。
這就意味著什麼呢?這就意味著,如果我們想要得到一個可靠的生物學結論的時候,我們就需要將微生物的測序過程當中,無論是從我們實驗的角度得到絕對生物量,還是從後面生物信息的角度,來將 compositionality 的問題解決掉,我們才能得到一個可靠的結論。
這個問題之所以出現,主要是因為考慮相對豐度的時候,一個微生物的升高就會顯得另外一個微生物在相對豐度上降低。雖然在實際情況當中,它們絕對微生物的量可能不是這樣變化的。所以,我們一定要將 compositionality 的問題,納入到我們生物信息學分析的考慮範圍當中。
另外一個大家需要注意的就是數據的可挖掘性以及多面性。我們需要將不同的統計方法或者說不同的可視化分析應用到數據當中。因為我們的數據在不同的分析方法當中呈現出來的結果可能是非常不一樣的。
在這裡我也舉一個例子。左邊這個圖得到的結論是,短期的飲食幹預不會改變腸道微生物組。大家也可以看出來,同一種顏色來自同一個人的樣本,它都聚類在一起,不管你的飲食幹預與否,它們都不會相差太大。
但是右邊這個圖可以看出來,這種基於動物性的飲食方案,雖然只有 4 天的幹預,但是它顯著地改變了他們的腸道微生物,所以,從人與人之間的角度來看,它可能不會說改變到大到你跟別的人更相似。但是從另外一個角度來看,如果跟自己先前的腸道微生物的基線來比較的話,還是有非常大的改變。
所以從數據分析的角度來看,我們可以從不同的角度、不同的層面來分析我們的數據,可能會得到一些更有意思的結論。
最後,其實微生物組學也受到其它一些領域的學者的詬病。其中一個重要的原因就是我們數據分析、我們結論的可重複性。針對這個,我們其實也做了非常多的生物信息學方面的改進。
比如像最新版的 Qiime2 的軟體就是針對這一問題,將得到結論過程當中的一些使用的數據來源,還有使用的算法跟工具以及設置的參數,都會列到其中。
所以,你如果看到這樣一個結論的文件之後,你就可以非常好的按照裡面提供的信息可重複地從原始數據得到一個同樣的、可靠的結論。
同時,我們通過 Jupyter Notebook 以及 RStudio 這一類的分析平臺,將我們的數據來源、說明文檔、代碼,以及統計方法、可視化得到的圖都整合到一個文檔當中。
這樣我們就可以非常好的介紹這個數據為什麼做這樣的統計分析,這個統計分析得到什麼樣的結論,我們最後的結論、最後的圖是通過什麼方法得到的,都可以供大家公開來審閱,就可以得到一個非常好的、可重複性的生物學結論。
最後,我希望通過我剛才介紹的這一點,越來越多的學者對微生物組學感興趣。然後通過各種不同的平臺,我們互相交流,推動整個領域的前進。
希望有更多、更嚴謹、更有意義的微生物組學的研究,在越來越多的在文獻當中、在我們的報導當中出現。將我們在一些評論當中看到的:微生物組學研究可重複性差,「遇事不絕,量子力學;機制難尋,腸道菌群」這一類的評論,都儘早的能夠通過更嚴謹的研究將這些都杜絕。
最後,感謝大家的聆聽!