From 16S rDNA測序 To 宏基因組學研究—應用的策略和主要流程

2020-10-18 remax520

主要內容

1.實驗設計和研究目的定製策略

2.統計分析內容的事先計劃

3.樣品的採集、保存、提取(良好結果的前提)

4.測序平臺的選擇

5.數據的存儲、分析、發布

——————————————————————————————————

1.實驗設計和研究目的定製策略

1.1 一切始於實驗設計

在某些方面實驗設計需要謹慎:宏基因組研究中使用方法特點不同。  

首先要確立宏基因組學研究的主要目標:要嘗試解釋怎樣的科學問題?  

根據實驗規模和收集並用於後續分析的關聯數據或Metadata的數量,可以實現測試多個假設。

1.2 分析方法學的處境

宏基因組數據集的高緯度,給微生物分析方法學帶來了挑戰與創新機遇。 

什麼是高緯度數據集?

收集的數據類型,將決定分析類型

分析可以幫助我們回答哪些問題:


在實驗開始之前,規劃樣本結構和數據的獲取以及要使用的分析流程,將會避免一些不必要的麻煩並節省資金成本。

1.3 需要特別關注的問題

在研究設計階段,研究者需要考慮與宏基因組數據收集和分析相關的倫理和法律問題。  

從宿主採集的任何樣本將含有大量的寄主遺傳物質。宿主遺傳物質對樣本的潛在汙染增加了宏基因組學研究的複雜性。去除汙染序列的複雜計算流程對於產生有意義的結論是非常必要的。同時,能夠保護供體的隱私。

2. 統計分析內容的事先計劃

2.1 統計分析計劃應考慮因素

做好統計分析計劃應是研究設計的一個組成部分。雖然許多實驗設計可以在宏基因組項目中進行,但沒有單一一條途徑可以直接通向完美策略。  

統計分析計劃應考慮到實驗的特點(在人體研究中的納入和排除標準)  

樣本採集率(一批或多批受試者招募率)

研究對象的描述,假設的驗證,獨立或嵌合在生物信息工具或流程中的分析方法等。

2.2 統計分析計劃的主要優勢

當有數據時,同時就有了一個分析的策略。這一點至關重要,因為二代測序提供大量數據,而我們希望繼續專注於自身的主要研究目標。當主要研究目標完成後,探索性分析和額外的假設調研才成為可能。

2.3 樣品量該如何評估

為了合理評估細菌群落之間的相似或差異程度,必須有可度量的差異或者效應的大小。一般來說,效應規模越小,一組樣本內的變異性越大,就需要更多的樣本來獲得足夠的統計能力。

樣品數量的估算方式可參考如下文獻:

LaRosa, P. S. et al.Hypothesis testing and power calculations for taxonomic-based human microbiomedata. PLoSOne 7,e52078, doi:10.1371/journal.pone.0052078 (2012).

2.4 樣品複雜度與測序深度間的關係

樣品的複雜性將極大地影響宏基因組測序項目中的序列覆蓋深度。  

樣品的複雜性較低,則可以估計所需的測序覆蓋深度,以便對整個宏基因組項目進行採樣。  

儘管每種二代測序平臺都有獨特的偏向性和相關的錯率誤(這個問題不限於二代測序)。

2.5 縱向研究挑戰大

縱向研究可以在獨立的每個時間點、沿時間線以及跨不同區域位點進行分析。在可行的情況下,時間點之間的宏基因組數據對於理解微生物種群動態變化特徵至關重要。

2.6 關於合併樣本

合併樣本似乎是降低成本和減少樣本變化的一個好策略。  

但合併樣本失去了所有低遺傳代表性和推斷微生物種群的能力。

2.7 需要Metadata為分析提供關聯

對於任何一個宏基因組研究來說,關鍵是與其相關的Metadata的質量和範圍。它將增強分析結果的說服力,使之成為最有力的證據。它為實驗提供了背景,允許在研究之間進行有意義的比較,同時加深了我們對數據集的理解。隨著信息的深入,需要對「環境因素」有更廣泛的了解。雖然不是實驗的重點,但看似無關的數據可能變得很重要。  

有關樣本位置或與其他樣本的相對位置的信息可以包括在分析中。生物地理學的概念超越了對影響微生物空間分布的環境特徵的描述。它旨在了解微生物自身生態位內的代謝過程及其與其他生物生態位的關係。生態位可能是口腔、消化管或皮膚中的不同部位。為了幫助我們更好地理解這些位置方面,誕生了大規模的數據可視化和分析工具。  

當我們發現微生物組是任何生物系統中相互依賴的「器官」時,我們可能需要重新定義什麼是與基因組樣本一起收集的最佳相關數據。

定義或重新定義表型可能具有至關重要的意義。因為表型是基因型和生物體環境的相互作用的結果,包括微生物組,所以我們需要重新關注所定義的表型的粒度。從宏觀到分子尺度,以前由於無意義而被忽視的新角度,在用不同的觀察方向或觀察窗口進行觀察時,可能會發揮作用。

3. 樣品的採集、保存、提取(良好結果的前提)

3.1 樣品採集(良好結果的基礎)

儘管測序平臺的技術已經發展,但它們都專注於對核酸(DNA或RNA)進行測序。從環境、植物、昆蟲和動物到人類,微生物組樣本的來源差別很大。公布的環境樣本數據多種多樣(土壤、溫泉、海水、空氣以及家庭和醫院環境)。對植物來說,地上和地下的相關微生物群已經被研究。在昆蟲、動物和人類中,多個身體部位已經被調研過。在隨後的許多研究中,所涉及的假設、目標、可用的設施和人員以及可用的資金在決策中起重要作用。  

由於所採集數據的深度,汙染將被檢測成為樣品的一個組成部分。建議在使用耗材或抑制劑對下遊應用造成潛在無意汙染的情況下檢查每個步驟。尤其是重複使用的工具,在這些工具中,適當的清潔和消毒程序是必不可少的。  

本環節不探討:生物樣本或戴口罩可以消除呼吸的汙染。在使用手套保護樣品時,皮膚或表面的簡單接觸會汙染手套,進而可能汙染樣品本身。天然的DNA酶和RNA酶可能會對樣品造成潛在的損害。

本環節主要集中在:收集的數據深度及其關聯上的應用常識。換言之,如果你想知道香蕉皮上的微生物群,但你把香蕉扔在地裡,你還將了解到地表微生物群以及水果的微生物群。  

正確的取樣方案對宏基因組學研究至關重要,因為許多生物體的準確鑑定取決於樣本的收集和處理。確定地理位置或特定的體位、表面、深度、體積或要採集的數量是採樣標準化所必需的。在可能的情況下,保持樣品的濃縮並對其進行處理,以便立即儲存。各方面的一致性既能保持樣品的質量,又能限制分析過程中的批次(量)效應,確保研究準確性。保護樣品不受其他元素(風、太陽等)的影響看起來不錯,但在處理樣品時,樣品乾枯同樣也是一個常見問題。

分析一個樣本的真實性,技術重複和評估觀察到的差異是否具有統計學意義是一個好的做法。真實重複:當同一地點被多次取樣時,很少在宏基因組學研究中進行,因為由於位點的生物組織,當多次針對一個位點採樣時,由於技術的敏感性可能很容易顯示出差異;當樣品被分割處理時,技術重複則很容易進行。

3.2 樣品的儲存

儲存和取樣是緊密相連的問題。在採集樣本時,不可能總是有冷凍室或專家在場。在開始研究之前,需要確定影響下遊步驟一些問題的解決方案。樣本類型的性質太過多樣化,無法考慮到所有細節,但有一個關鍵問題:「我真正需要多少樣本?」相關的問題是:「我是否需要來自同一樣本的DNA、RNA、蛋白質、脂質、小分子等?」、「樣品將用於多個環節、製備或提取?」,以及以後可能感興趣的與當前或未來研究應用有關的任何其他問題。  

樣品儲存方案眾多,從立即提取到長期儲存在液氮中。樣品的性質通常規定了避免樣品乾燥、變性、溶解、降解等的最佳方案。由於現場立即提取或進入-80℃冷凍櫃並非始終是一種可行的選擇或易實施的方案,必須制定替代方案以保護樣品、完整性和對研究問題的價值。多家公司正在提供含有保存液的採樣材料,但這些不同保存液的效果很少經過比較分析驗證。  

樣品成本忽略,存儲空間足夠,這可以忽略樣品採集數量。但使每個樣本或每批樣本採集流程保持一致是很重要的。無論研究者是在大型人體受試者隊列中工作還是在大型野外採集中工作,人員、取樣設備(可能時一次性使用)以及臨時和永久性儲存的成本都會迅速增加。隨著樣品的收集和儲存,核苷酸提取將是下一步。

3.3 核酸提取

納入到宏基因組學研究中的樣本可能非常多樣化。在進行任何分析之前,需要從樣本中提取DNA和/或RNA。樣本的類型和來源決定了最合適的提取方法。由於提取的DNA和/或RNA的質量影響到所有後續步驟,因此這一步驟通過可用的核酸提取試劑盒。提取對分析的成功至關重要。在選擇最合適的提取方法之前,建議仔細閱讀文獻並對特定樣本的方法進行驗證。提取方法的選擇取決於DNA或RNA的產量、對核酸的剪切情況、汙染物的去除(可能對後續步驟有抑制作用)等。  

現有試劑盒的優化;如何保存樣本也很重要;細菌細胞壁結構的差異導致細菌細胞裂解或多或少是有效率的。裂解的效率不同會扭曲微生物群落的表觀組成,並在相對豐度的估計中引入偏差。  

樣品處理和加工的一致性是避免批量效應的關鍵。培訓、標準操作程序和良好的質量控制有助於最大限度地減少批量(次)效應的可能性。當有足夠的樣本可用且提取方法已得到驗證時,核酸提取自動化才是一個很好的選擇。

一次提取多個大分子是一種選擇。試劑盒和操作步驟允許從同一樣本中純化DNA和RNA,而其他試劑盒也可以通過回收蛋白質來進一步純化DNA和RNA。一個挑戰是從同一樣本中純化其他大分子,這可能需要一套不同的策略。  

去除宿主DNA可能會提高分析質量,並通過減少相同信息的reads來降低測序成本。商用試劑盒採用的兩種策略是:真核細胞的差異裂解和基於宿主和微生物之間CpG位點甲基化密度的甲基化DNA完成分離。減少宿主DNA的嘗試不僅限於脊椎動物宿主,而且在植物中也成功地去除了汙染物DNA。

4. 測序平臺的選擇

4.1 選擇測序平臺需要考慮的問題

由於科學研究的多樣性,沒有一種單一的方法可以推薦。對文獻的詳細審查、與同事討論、測序設施、成本、可用性、周轉時間和項目範圍將是決策過程的一部分。但研究提出的假設和研究的最終目標應該是真正的驅動力。  

每個測序平臺的特點是它們在讀取長度、AT或GC豐富區域的偏差以及它們對Ploy結構測序能力方面的強弱。

4.2 怎樣的測序深度才滿足要求

確定所需的Reads數應該在信息統計分析所需的最小Reads數與可用預算之間的權衡。  

這個選擇是由平臺和你的實驗需求驅動的。 

樣品低複雜度——可以降低測序覆蓋度; 

樣品高複雜度——需要增加測序覆蓋度; 

關注低豐度數據集——增加測序覆蓋度。

4.3 數據質量

數據質量始終是一個需要考慮的參數。評估序列質量數據最常用的指標之一是Q分值。低Q值(低於20)會導致假陽性變異增加。Q20代表1%的錯誤概率,是高質量鹼基的公認標準,類似於基於SangerDNA測序的預期。隨著技術的進步,我們可以期望Q30(誤差概率為1-1000)及以上的質量標準成為標準。

5. 數據的存儲、分析、發布

5.1 數據存儲與分析

所有的生物信息學工具都依賴於資料庫來添加從系統發育到功能的信息。雖然有些僅基於一種技術(如METAhit和HMP的基因數據集),但另一些則是通過一代又一代的方法和技術進步而發展起來的,如COG、KEGG、GenBank和所有其他國際存管機構。缺乏標準化、注釋不一致以及不同的技術導致一些未知的錯誤,這些給研究者帶來了一些挑戰。  

管理型資料庫試圖限制這些問題,並通過刪除與所討論的焦點無關的信息(例如序列)來減少數據集的大小。其中一些資料庫包括CAZy、Greengenes、HOMD和MetaCyc。附加信息的強大之處在於它們豐富了可以從數據集中獲得的內容。但是,來自數據集的部分信息是不可用的,因為它與以前獲得的數據集不完全匹配。由於微生物菌株的多樣性尚待測序,對你的科學問題的解答,可能存在於沒有相關功能的保守蛋白質中,也可能存在以前從未沉積過的基因或基因集。

5.2 數據與發布

任何一個宏基因組項目都應該包括一個將收集到的數據共享給科學界目標,包括序列數據和Metadata。國際核苷酸序列資料庫協作組織(INSDC,http://INSDC.org)擁有一些用於收集和傳播核酸數據集的儲存庫。INSDC託管以下計算機化資料庫:日本DNA資料庫(日本)、GenBank(美國)和歐洲核苷酸檔案(英國)。  

研究團體已經認識到需要歸檔定義良好的Metadata,從而創建了基因組標準聯盟。他們的任務是:1)實施新的基因組標準,2)在標準內,捕獲和交換信息的方法,3)協調整個基因組學界的信息收集和分析工作將基因組和Metadata提交給期刊和序列庫。MIGS(關於基因組序列的最小信息)、MIMS(關於元基因組序列的最小信息)、MIMARKS(關於標記基因序列的最小信息)和MIxS(關於任何(X)序列的最小信息)規範都是標準化,並增強了我們進一步分析數據集的能力,無論是用於培訓還是用於補充分析:採用這些標準可以提高數據存儲庫收集的信息的質量、可訪問性和實用性。

到目前為止,還沒有標準的格式來表示數據是如何分析的。為了大家的利益,標準格式中應該包括分析中使用的方法、工具和參數。一種選擇是將這些信息作為已發表文章的在線附錄提供等。類似的高質量標準也應該投入使用。

相關焦點

  • From 16S rDNA測序 To 宏基因組學研究—技術發展及異同點
    主要內容:1.16S rDNA測序2.宏基因組測序3.宏基因組的由來及發展過程4.16S rDNA測序與宏基因組的優勢和局限性5.16s rDNA測序與宏基因組技術差異—————————————————————1.
  • 宏基因組學技術對生物冶金的貢獻
    宏基因組學技術與微生物浸出技術宏基因組學作為新興的微生物研究方法,其不依賴於有機體的培養技術手段,以微生物多樣性、種群結構進化關係、功能活性相互協作關係以及與環境之間的關係為研究目的。高通量測序技術和基因晶片技術是目前宏基因組學研究最為成熟的兩個關鍵技術, 其準確性、全面性和信息的深入程度都令其它傳統技術無法企及。
  • 微生物組學數據分析工具綜述 | 16S+宏基因組+宏病毒組+宏轉錄組
    宏轉錄組的好處是,跳出了DNA層面的束縛,可以獲得實時活躍的、真正對群落有貢獻的基因和通路,然而mRNA不如DNA穩定,此外多純化和擴增的步驟也可能引入錯誤。表1 三種技術的選擇策略宏基因組這部分,生信者言李木子童鞋也曾經給大家做過系統梳理和點評:《精選30餘款宏基因組分析軟體,來自老司機的使用經驗總結(上篇)》、《精選30餘款宏基因組分析軟體,來自老司機的使用經驗總結(中篇)》、《精選30餘款宏基因組分析軟體,來自老司機的使用經驗總結(下篇)》、《句句乾貨!一文讀懂宏基因組binning》。
  • 科學網—宏基因組學:查明微生物身份新手段
    這篇論文中應用了一種稱為「宏基因組學」的技術方法,不通過培養,直接從病人樣品中檢測分析其攜帶的病原微生物,甚至可以發現用常規方法難以檢出的病原菌。由此,大家都開始關注一個共同的話題,是不是已經找到了一個能夠解決突發傳染病疫情病原鑑定的金剛鑽呢?是不是我們以後再也不會像面對當年SARS疫情那樣手足無措呢?
  • 16S rDNA測序+代謝組學,讓科研結果更「近」一步
    測序分析和代謝組學聯合研究的必要性生物體內的基因系統調控是一個整體,單一組學看到的只是冰山一角,並不能完整的解釋生物學問題,而且通常文章的影響因子也比較低。所以利用多組學技術將各組學的數據進行整合分析並深入挖掘生物學數據,可以對生物樣本進行系統全面的研究。
  • 微生物宏組學通關技能第三關——全長16S rDNA測序
    通過上一期微生物宏組學的內容介紹,我們知道了二代測序平臺是對16S rDNA單個或連續的兩三個可變區序列進行測序分析
  • 9文聚焦:宏基因組學與微生物組分析方法和工具
    作者總結了菌株在人體的分布和多樣性,以及它們與健康維護、疾病風險和進展的新聯繫,以及對飲食或藥物等擾動的生化反應。文中列出了利用高通量測序以及其他分子和「培養組學」技術鑑定,定量和追蹤菌株的方法,最後作者討論了人口群體水平中實驗研究缺乏的現狀,以及更好地了解菌株對人類微生物組健康影響方面的意義。
  • 中國宏基因組學第二代測序技術檢測感染病原體的臨床應用專家...
    中國宏基因組學第二代測序技術檢測感染病原體的臨床應用專家共識發布!宏基因組測序技術(mNGS)因其覆蓋度廣、特異性好等特點越來越多地被應用於臨床感染性疾病的精準診斷,但因一直沒有相應的標準而無法在臨床進行更為規範化的開展。
  • 研究思路|微生物組+代謝組多組學應用案例解讀(第3期)
    在高通量測序的大力推動和快速發展下,微生物組學研究進入到了多組學的時代。為更好滿足科研人員多組學聯合分析需求,美格基因基於科研需求及以往項目經驗,全新推出微生物組+代謝組聯合分析解決方案,克服單一組學研究局限性,多角度解釋科學問題!本期分享幾篇微生物組+代謝組多組學應用案例,為大家提供微生物組+代謝組多組學研究思路。
  • 號外|風暴前夜的預警器:宏基因測序
    圍繞這種技術的一系列研究方法,被稱為:宏基因組學(Metagenomics)宏基因組學與宏基因組測序最近三十年,組學研究一直是熱點,最早是基因組學,然後是蛋白質組學,如今新興組學領域則是被認為最有前景的宏基因組學(Metagenomics)。
  • 研究思路|微生物組+代謝組多組學應用案例解讀(第二期)
    案例1題目:飲食和運動在腸道微生物-宿主共代謝中的作用研究期刊:mSystemsIF:6.633發表時間:2020.12DOI號:10.1128/mSystems.00677-20研究方法:16S+宏基因組+靶標代謝組本文為了研究飲食和體育鍛鍊對新陳代謝和腸道微生物群的單獨和聯合影響,收集運動員和不經常運動的人的糞便和尿液樣本
  • 6篇16S rRNA基因測序+代謝組學聯合項目文章助力您快速發文
    編者按:16S rRNA基因測序是目前主要的高通量測序依賴的腸道微生物研究的方法之一,16S rRNA基因測序測序可以對腸道微生物中的所有菌種進行精確定量,可以回答「樣本當中有哪些微生物,他們具有哪些功能」。然而蛋白質組學和代謝組學等下遊組學研究可以回答「這些功能是否真的發生了,發生的程度是什麼樣的」。
  • 南土所褚海燕組綜述微生物組學的技術和方法及其應用
    因此, 該文首先介紹了微生物組學的基本概念及其發展簡史, 其次簡述了微生物組學研究的相關技術和方法及其發展歷程, 並進一步闡述了微生物組學的技術和方法在生態學研究中的應用及存在的主要問題, 最後從技術、理論和應用層面闡述了未來微生物組學技術和方法發展的前沿方向, 並提出了今後微生物組學研究的優先發展領域。
  • 中國宏基因組學第二代測序技術檢測感染病原體的臨床應用專家共識發布!| 檢訊
    中國宏基因組學第二代測序技術檢測感染病原體的臨床應用專家共識發布!宏基因組測序技術(mNGS)因其覆蓋度廣、特異性好等特點越來越多地被應用於臨床感染性疾病的精準診斷,但因一直沒有相應的標準而無法在臨床進行更為規範化的開展。
  • 宏基因組binning原理
    通過binning得到的bins(更確切的說是strain-level clusters或strain-leveltaxonomic units)很可能是實驗室無法純培養的未知的微生物的基因組序列,對其進行組學分析具有重要意義[1]。
  • 16S rDNA測序
    其具有9個高變區域(V1-V9)和10個保守區域,保守區反映細菌種屬間親緣關係,而高變區則反映了物種間的特異性。因此通過分析16S rDNA 可變區的序列即可得到各細菌的分類學特徵,結合高通量測序可研究環境或者臨床樣本中的微生物組成及群落功能。
  • 空氣微生物研究,不可錯過的DNA提取和宏基因組學測序新方法!!!
    and metagenomic sequencing of airborne microbial communities(空氣微生物DNA提取及宏基因組測序方法)的論文,報導空氣微生物宏基因組測序新技術。
  • 宏基因組測序和16S rDNA測序有啥區別?
    編者按 16S rDNA測序及宏基因組測序都是微生物研究和應用的重要方法,那麼問題來了:兩者到底有什麼區別呢?什麼情況下需要做16S測序?什麼情況下需要做宏基因組測序?什麼情況下需要二者結合使用呢?那麼在開始宏基因組測序專題前,小編需要給大家解決一個非常重要的問題——16S測序和宏基因組測序的主要區別是什麼?
  • 微生物組創新創業者協會發起中國腸道宏基因組計劃
    隨著基因組學相關技術的巨大發展,微生物組研究已成為國際生命科學研究中的熱點,在世界範圍內,眾多國家均開展了國家級微生物組領域發展的相關計劃,包括歐盟「人類腸道宏基因組計劃」(MetaHIT)、美國「人體微生物組計劃」(HMP)等,這些計劃都側重微生物資源調查以及微生物組在健康領域的應用。
  • Nanopore宏基因組學臨床快速診斷細菌性下呼吸道感染
    今天帶來Nature Biotechnology上的佳作一篇,作者基於Nanopore高通量測序平臺搭建了一套能夠有效去除人體DNA幹擾,且能在6h內快速檢測下呼吸道感染病原的檢測流程。美格基因現已推出「三+二」宏基因組測序策略,如對本產品感興趣可通過文末方式聯繫我們!