最近很多老師的單細胞文章都紛紛開始投稿,卻被文章發表前的臨門一腳——GEO數據上傳難住了,今天我們就來一起學習下單細胞數據上傳GEO的具體操作步驟吧~
跟著這份操作指南,上傳從此不再犯難!
· GEO資料庫簡介 ·
GEO資料庫全稱Gene Expression Omnibus,是由美國國立生物技術信息中心NCBI創建並維護的基因表達資料庫,主要用來儲存二代測序、晶片以及其他高通量測序數據。利用這個資料庫,我們可以公開共享自己的實驗測序數據,也可以檢索到其他文章上傳的數據。很多文章在正式見刊前會要求將數據上傳到GEO資料庫中,具體如何操作呢?別擔心,按照以下流程一步步來即可~
進入網站
https://www.ncbi.nlm.nih.gov/geo/submitter/
如果已有NCBI帳號,點擊Login登錄;
如果沒有則需要註冊,註冊步驟很簡單,填寫帶星號(必填)的個人基本信息和郵箱地址即可(注意需要填寫常用郵箱,後續上傳成功或失敗消息都會通過郵件形式告知)。
點擊進入
https://www.ncbi.nlm.nih.gov/geo/info/submission.html,
選擇上傳數據的類型:
Submit high-throughput sequence submisssions(高通量測序數據)。
這裡我們需要準備三個文件,分別是:
① Metadata spreadsheet
② Processed data files
③ Raw data files
① Metadata spreadsheet
Metadata spreadsheet的示例模版表格可以從官網下載
(如下圖,也可以進入以下連結直接下載https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx)。
表格中的藍色加粗字體為必填項,藍色未加粗的為選填項。右上角有紅色三角標誌的表格,將滑鼠放上去會彈出填寫內容的提示。以下是對表格裡7個模塊的詳細說明:
· 1.1 SERIES
上傳數據的基本信息
比如文章標題、研究目的、樣本數量、來源、測序平臺、主要貢獻者等。
* 填寫示例如下 *
·1.2 SAMPLES
樣品描述信息
包括樣品名稱、組織來源、物種、年齡、表達量數據和原始數據等。
* 填寫示例如下 *
·1.3 PROTOCOLS
樣品的處理和建庫等詳細信息
可以參考項目報告的附錄《歐易生物單細胞轉錄組實驗技術方法說明_英文》進行填寫。
* 填寫示例如下 *
·1.4 DATA PROCESSING PIPELINE
數據處理步驟和比對參考基因組信息等……
可以參考項目報告的附錄《歐易生物單細胞轉錄組生信分析方法_英文》進行填寫。
* 填寫示例如下 *
·1.5 PROCESSED DATA FILES
分析得到的基因表達量數據
可以是CellRanger/outs/filtered_feature_bc_matrix中的三個結果文件。
·1.6 RAW FILES
原始數據文件名稱、格式、MD5值、測序平臺和單雙端信息等。
·1.7 PAIRED-END EXPERIMENTS
如果是雙端測序,需要填寫原始數據Read1 和Read2文件名稱。
② Processed data files
基因表達量數據文件,即1.5 PROCESSED DATA FILES步驟中填寫的三個結果文件。
③ Raw data files
測序原始數據,一般上傳fastq.gz文件即可。
準備文件就緒,萬事俱備,只欠東風~下面可以正式開始上傳啦!
回到GEO上傳界面,點擊Transfer Files,GEO會為你創建一個專屬上傳空間:uploads/********,如下圖的Step1所示。
對於Windows用戶,GEO官方推薦使用FileZilla軟體
(下載地址:https://filezilla-project.org/),FileZilla軟體界面如下所示。
首先使用上圖Step2中公布的帳號密碼登錄
主機地址:ftp-private.ncbi.nlm.nih.gov
用戶名:geoftp
密碼:rebUzyi1(密碼可能會不定期更新)
埠號不填,點擊快速連接按鈕(如果有出現permission demined提示,不影響,忽略即可)。
接著在下方右側遠程站點的地址框中,輸入上圖Step1提供的個人上傳路徑:uploads/********,按回車鍵進入。
最後,在個人上傳目錄裡新建一個文件夾(文件夾名可以是GEO帳戶名),把第二步我們準備好的文件:Metadata spreadsheet信息表、Processed data files基因表達矩陣、Raw data files原始測序數據,全部拖到該文件夾下即可。
(由於單細胞數據量大,整體上傳時間會比較久,這時候可以泡杯咖啡,再次自我檢查一下文件是否都已填寫完整,耐心等待上傳完成就可以啦~)
文件上傳完成後,點擊Step3中的Notify GEO通知GEO,提交後會出現如下頁面。
注意:如果上傳之後沒有及時通知GEO上傳完成,文件會在兩周後自動刪除哦。
如果上傳無誤,GEO會在5個工作日內給你郵件發送GEO登錄號,如:GSEXXXX。如果有問題,工作人員也會通過郵件告知你需要修改的地方,修改後再次上傳即可。審核通過後會收到GEO登錄號,可以用於準備發表的文章中。
有GEO上傳需要,準備發文章的老師們,趕快來試一試吧~
END