主要內容
1.實驗設計和研究目的定製策略
2.統計分析內容的事先計劃
3.樣品的採集、保存、提取(良好結果的前提)
4.測序平臺的選擇
5.數據的存儲、分析、發布
——————————————————————————————————
1.實驗設計和研究目的定製策略
1.1 一切始於實驗設計
在某些方面實驗設計需要謹慎:宏基因組研究中使用方法特點不同。
首先要確立宏基因組學研究的主要目標:要嘗試解釋怎樣的科學問題?
根據實驗規模和收集並用於後續分析的關聯數據或Metadata的數量,可以實現測試多個假設。
1.2 分析方法學的處境
宏基因組數據集的高緯度,給微生物分析方法學帶來了挑戰與創新機遇。
什麼是高緯度數據集?
收集的數據類型,將決定分析類型
分析可以幫助我們回答哪些問題:
在實驗開始之前,規劃樣本結構和數據的獲取以及要使用的分析流程,將會避免一些不必要的麻煩並節省資金成本。
1.3 需要特別關注的問題
在研究設計階段,研究者需要考慮與宏基因組數據收集和分析相關的倫理和法律問題。
從宿主採集的任何樣本將含有大量的寄主遺傳物質。宿主遺傳物質對樣本的潛在汙染增加了宏基因組學研究的複雜性。去除汙染序列的複雜計算流程對於產生有意義的結論是非常必要的。同時,能夠保護供體的隱私。
2. 統計分析內容的事先計劃
2.1 統計分析計劃應考慮因素
做好統計分析計劃應是研究設計的一個組成部分。雖然許多實驗設計可以在宏基因組項目中進行,但沒有單一一條途徑可以直接通向完美策略。
統計分析計劃應考慮到實驗的特點(在人體研究中的納入和排除標準)
樣本採集率(一批或多批受試者招募率)
研究對象的描述,假設的驗證,獨立或嵌合在生物信息工具或流程中的分析方法等。
2.2 統計分析計劃的主要優勢
當有數據時,同時就有了一個分析的策略。這一點至關重要,因為二代測序提供大量數據,而我們希望繼續專注於自身的主要研究目標。當主要研究目標完成後,探索性分析和額外的假設調研才成為可能。
2.3 樣品量該如何評估
為了合理評估細菌群落之間的相似或差異程度,必須有可度量的差異或者效應的大小。一般來說,效應規模越小,一組樣本內的變異性越大,就需要更多的樣本來獲得足夠的統計能力。
樣品數量的估算方式可參考如下文獻:
LaRosa, P. S. et al.Hypothesis testing and power calculations for taxonomic-based human microbiomedata. PLoSOne 7,e52078, doi:10.1371/journal.pone.0052078 (2012).
2.4 樣品複雜度與測序深度間的關係
樣品的複雜性將極大地影響宏基因組測序項目中的序列覆蓋深度。
樣品的複雜性較低,則可以估計所需的測序覆蓋深度,以便對整個宏基因組項目進行採樣。
儘管每種二代測序平臺都有獨特的偏向性和相關的錯率誤(這個問題不限於二代測序)。
2.5 縱向研究挑戰大
縱向研究可以在獨立的每個時間點、沿時間線以及跨不同區域位點進行分析。在可行的情況下,時間點之間的宏基因組數據對於理解微生物種群動態變化特徵至關重要。
2.6 關於合併樣本
合併樣本似乎是降低成本和減少樣本變化的一個好策略。
但合併樣本失去了所有低遺傳代表性和推斷微生物種群的能力。
2.7 需要Metadata為分析提供關聯
對於任何一個宏基因組研究來說,關鍵是與其相關的Metadata的質量和範圍。它將增強分析結果的說服力,使之成為最有力的證據。它為實驗提供了背景,允許在研究之間進行有意義的比較,同時加深了我們對數據集的理解。隨著信息的深入,需要對「環境因素」有更廣泛的了解。雖然不是實驗的重點,但看似無關的數據可能變得很重要。
有關樣本位置或與其他樣本的相對位置的信息可以包括在分析中。生物地理學的概念超越了對影響微生物空間分布的環境特徵的描述。它旨在了解微生物自身生態位內的代謝過程及其與其他生物生態位的關係。生態位可能是口腔、消化管或皮膚中的不同部位。為了幫助我們更好地理解這些位置方面,誕生了大規模的數據可視化和分析工具。
當我們發現微生物組是任何生物系統中相互依賴的「器官」時,我們可能需要重新定義什麼是與基因組樣本一起收集的最佳相關數據。
定義或重新定義表型可能具有至關重要的意義。因為表型是基因型和生物體環境的相互作用的結果,包括微生物組,所以我們需要重新關注所定義的表型的粒度。從宏觀到分子尺度,以前由於無意義而被忽視的新角度,在用不同的觀察方向或觀察窗口進行觀察時,可能會發揮作用。
3. 樣品的採集、保存、提取(良好結果的前提)
3.1 樣品採集(良好結果的基礎)
儘管測序平臺的技術已經發展,但它們都專注於對核酸(DNA或RNA)進行測序。從環境、植物、昆蟲和動物到人類,微生物組樣本的來源差別很大。公布的環境樣本數據多種多樣(土壤、溫泉、海水、空氣以及家庭和醫院環境)。對植物來說,地上和地下的相關微生物群已經被研究。在昆蟲、動物和人類中,多個身體部位已經被調研過。在隨後的許多研究中,所涉及的假設、目標、可用的設施和人員以及可用的資金在決策中起重要作用。
由於所採集數據的深度,汙染將被檢測成為樣品的一個組成部分。建議在使用耗材或抑制劑對下遊應用造成潛在無意汙染的情況下檢查每個步驟。尤其是重複使用的工具,在這些工具中,適當的清潔和消毒程序是必不可少的。
本環節不探討:生物樣本或戴口罩可以消除呼吸的汙染。在使用手套保護樣品時,皮膚或表面的簡單接觸會汙染手套,進而可能汙染樣品本身。天然的DNA酶和RNA酶可能會對樣品造成潛在的損害。
本環節主要集中在:收集的數據深度及其關聯上的應用常識。換言之,如果你想知道香蕉皮上的微生物群,但你把香蕉扔在地裡,你還將了解到地表微生物群以及水果的微生物群。
正確的取樣方案對宏基因組學研究至關重要,因為許多生物體的準確鑑定取決於樣本的收集和處理。確定地理位置或特定的體位、表面、深度、體積或要採集的數量是採樣標準化所必需的。在可能的情況下,保持樣品的濃縮並對其進行處理,以便立即儲存。各方面的一致性既能保持樣品的質量,又能限制分析過程中的批次(量)效應,確保研究準確性。保護樣品不受其他元素(風、太陽等)的影響看起來不錯,但在處理樣品時,樣品乾枯同樣也是一個常見問題。
分析一個樣本的真實性,技術重複和評估觀察到的差異是否具有統計學意義是一個好的做法。真實重複:當同一地點被多次取樣時,很少在宏基因組學研究中進行,因為由於位點的生物組織,當多次針對一個位點採樣時,由於技術的敏感性可能很容易顯示出差異;當樣品被分割處理時,技術重複則很容易進行。
3.2 樣品的儲存
儲存和取樣是緊密相連的問題。在採集樣本時,不可能總是有冷凍室或專家在場。在開始研究之前,需要確定影響下遊步驟一些問題的解決方案。樣本類型的性質太過多樣化,無法考慮到所有細節,但有一個關鍵問題:「我真正需要多少樣本?」相關的問題是:「我是否需要來自同一樣本的DNA、RNA、蛋白質、脂質、小分子等?」、「樣品將用於多個環節、製備或提取?」,以及以後可能感興趣的與當前或未來研究應用有關的任何其他問題。
樣品儲存方案眾多,從立即提取到長期儲存在液氮中。樣品的性質通常規定了避免樣品乾燥、變性、溶解、降解等的最佳方案。由於現場立即提取或進入-80℃冷凍櫃並非始終是一種可行的選擇或易實施的方案,必須制定替代方案以保護樣品、完整性和對研究問題的價值。多家公司正在提供含有保存液的採樣材料,但這些不同保存液的效果很少經過比較分析驗證。
樣品成本忽略,存儲空間足夠,這可以忽略樣品採集數量。但使每個樣本或每批樣本採集流程保持一致是很重要的。無論研究者是在大型人體受試者隊列中工作還是在大型野外採集中工作,人員、取樣設備(可能時一次性使用)以及臨時和永久性儲存的成本都會迅速增加。隨著樣品的收集和儲存,核苷酸提取將是下一步。
3.3 核酸提取
納入到宏基因組學研究中的樣本可能非常多樣化。在進行任何分析之前,需要從樣本中提取DNA和/或RNA。樣本的類型和來源決定了最合適的提取方法。由於提取的DNA和/或RNA的質量影響到所有後續步驟,因此這一步驟通過可用的核酸提取試劑盒。提取對分析的成功至關重要。在選擇最合適的提取方法之前,建議仔細閱讀文獻並對特定樣本的方法進行驗證。提取方法的選擇取決於DNA或RNA的產量、對核酸的剪切情況、汙染物的去除(可能對後續步驟有抑制作用)等。
現有試劑盒的優化;如何保存樣本也很重要;細菌細胞壁結構的差異導致細菌細胞裂解或多或少是有效率的。裂解的效率不同會扭曲微生物群落的表觀組成,並在相對豐度的估計中引入偏差。
樣品處理和加工的一致性是避免批量效應的關鍵。培訓、標準操作程序和良好的質量控制有助於最大限度地減少批量(次)效應的可能性。當有足夠的樣本可用且提取方法已得到驗證時,核酸提取自動化才是一個很好的選擇。
一次提取多個大分子是一種選擇。試劑盒和操作步驟允許從同一樣本中純化DNA和RNA,而其他試劑盒也可以通過回收蛋白質來進一步純化DNA和RNA。一個挑戰是從同一樣本中純化其他大分子,這可能需要一套不同的策略。
去除宿主DNA可能會提高分析質量,並通過減少相同信息的reads來降低測序成本。商用試劑盒採用的兩種策略是:真核細胞的差異裂解和基於宿主和微生物之間CpG位點甲基化密度的甲基化DNA完成分離。減少宿主DNA的嘗試不僅限於脊椎動物宿主,而且在植物中也成功地去除了汙染物DNA。
4. 測序平臺的選擇
4.1 選擇測序平臺需要考慮的問題
由於科學研究的多樣性,沒有一種單一的方法可以推薦。對文獻的詳細審查、與同事討論、測序設施、成本、可用性、周轉時間和項目範圍將是決策過程的一部分。但研究提出的假設和研究的最終目標應該是真正的驅動力。
每個測序平臺的特點是它們在讀取長度、AT或GC豐富區域的偏差以及它們對Ploy結構測序能力方面的強弱。
4.2 怎樣的測序深度才滿足要求
確定所需的Reads數應該在信息統計分析所需的最小Reads數與可用預算之間的權衡。
這個選擇是由平臺和你的實驗需求驅動的。
樣品低複雜度——可以降低測序覆蓋度;
樣品高複雜度——需要增加測序覆蓋度;
關注低豐度數據集——增加測序覆蓋度。
4.3 數據質量
數據質量始終是一個需要考慮的參數。評估序列質量數據最常用的指標之一是Q分值。低Q值(低於20)會導致假陽性變異增加。Q20代表1%的錯誤概率,是高質量鹼基的公認標準,類似於基於SangerDNA測序的預期。隨著技術的進步,我們可以期望Q30(誤差概率為1-1000)及以上的質量標準成為標準。
5. 數據的存儲、分析、發布
5.1 數據存儲與分析
所有的生物信息學工具都依賴於資料庫來添加從系統發育到功能的信息。雖然有些僅基於一種技術(如METAhit和HMP的基因數據集),但另一些則是通過一代又一代的方法和技術進步而發展起來的,如COG、KEGG、GenBank和所有其他國際存管機構。缺乏標準化、注釋不一致以及不同的技術導致一些未知的錯誤,這些給研究者帶來了一些挑戰。
管理型資料庫試圖限制這些問題,並通過刪除與所討論的焦點無關的信息(例如序列)來減少數據集的大小。其中一些資料庫包括CAZy、Greengenes、HOMD和MetaCyc。附加信息的強大之處在於它們豐富了可以從數據集中獲得的內容。但是,來自數據集的部分信息是不可用的,因為它與以前獲得的數據集不完全匹配。由於微生物菌株的多樣性尚待測序,對你的科學問題的解答,可能存在於沒有相關功能的保守蛋白質中,也可能存在以前從未沉積過的基因或基因集。
5.2 數據與發布
任何一個宏基因組項目都應該包括一個將收集到的數據共享給科學界目標,包括序列數據和Metadata。國際核苷酸序列資料庫協作組織(INSDC,http://INSDC.org)擁有一些用於收集和傳播核酸數據集的儲存庫。INSDC託管以下計算機化資料庫:日本DNA資料庫(日本)、GenBank(美國)和歐洲核苷酸檔案(英國)。
研究團體已經認識到需要歸檔定義良好的Metadata,從而創建了基因組標準聯盟。他們的任務是:1)實施新的基因組標準,2)在標準內,捕獲和交換信息的方法,3)協調整個基因組學界的信息收集和分析工作將基因組和Metadata提交給期刊和序列庫。MIGS(關於基因組序列的最小信息)、MIMS(關於元基因組序列的最小信息)、MIMARKS(關於標記基因序列的最小信息)和MIxS(關於任何(X)序列的最小信息)規範都是標準化,並增強了我們進一步分析數據集的能力,無論是用於培訓還是用於補充分析:採用這些標準可以提高數據存儲庫收集的信息的質量、可訪問性和實用性。
到目前為止,還沒有標準的格式來表示數據是如何分析的。為了大家的利益,標準格式中應該包括分析中使用的方法、工具和參數。一種選擇是將這些信息作為已發表文章的在線附錄提供等。類似的高質量標準也應該投入使用。