單細胞數據上傳GEO操作指南

2020-09-05 鹿明蛋白組代謝組

最近很多老師的單細胞文章都紛紛開始投稿,卻被文章發表前的臨門一腳——GEO數據上傳難住了,今天我們就來一起學習下單細胞數據上傳GEO的具體操作步驟吧~


跟著這份操作指南,上傳從此不再犯難!


· GEO資料庫簡介 ·

GEO資料庫全稱Gene Expression Omnibus,是由美國國立生物技術信息中心NCBI創建並維護的基因表達資料庫,主要用來儲存二代測序、晶片以及其他高通量測序數據。利用這個資料庫,我們可以公開共享自己的實驗測序數據,也可以檢索到其他文章上傳的數據。很多文章在正式見刊前會要求將數據上傳到GEO資料庫中,具體如何操作呢?別擔心,按照以下流程一步步來即可~



1、NCBI帳號註冊/登錄

進入網站

https://www.ncbi.nlm.nih.gov/geo/submitter/

如果已有NCBI帳號,點擊Login登錄;

如果沒有則需要註冊,註冊步驟很簡單,填寫帶星號(必填)的個人基本信息和郵箱地址即可(注意需要填寫常用郵箱,後續上傳成功或失敗消息都會通過郵件形式告知)。


2、文件準備

點擊進入

https://www.ncbi.nlm.nih.gov/geo/info/submission.html,

選擇上傳數據的類型:

Submit high-throughput sequence submisssions(高通量測序數據)。

這裡我們需要準備三個文件,分別是:

① Metadata spreadsheet

② Processed data files

③ Raw data files

① Metadata spreadsheet

Metadata spreadsheet的示例模版表格可以從官網下載

(如下圖,也可以進入以下連結直接下載https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx)。

表格中的藍色加粗字體為必填項,藍色未加粗的為選填項。右上角有紅色三角標誌的表格,將滑鼠放上去會彈出填寫內容的提示。以下是對表格裡7個模塊的詳細說明:

· 1.1 SERIES

上傳數據的基本信息

比如文章標題、研究目的、樣本數量、來源、測序平臺、主要貢獻者等。

* 填寫示例如下 *


·1.2 SAMPLES


樣品描述信息

包括樣品名稱、組織來源、物種、年齡、表達量數據和原始數據等。

* 填寫示例如下 *


·1.3 PROTOCOLS

樣品的處理和建庫等詳細信息

可以參考項目報告的附錄《歐易生物單細胞轉錄組實驗技術方法說明_英文》進行填寫。

* 填寫示例如下 *


·1.4 DATA PROCESSING PIPELINE

數據處理步驟和比對參考基因組信息等……

可以參考項目報告的附錄《歐易生物單細胞轉錄組生信分析方法_英文》進行填寫。

* 填寫示例如下 *


·1.5 PROCESSED DATA FILES

分析得到的基因表達量數據

可以是CellRanger/outs/filtered_feature_bc_matrix中的三個結果文件。


·1.6 RAW FILES

原始數據文件名稱、格式、MD5值、測序平臺和單雙端信息等。

·1.7 PAIRED-END EXPERIMENTS

如果是雙端測序,需要填寫原始數據Read1 和Read2文件名稱。

② Processed data files

基因表達量數據文件,即1.5 PROCESSED DATA FILES步驟中填寫的三個結果文件。

③ Raw data files

測序原始數據,一般上傳fastq.gz文件即可。

準備文件就緒,萬事俱備,只欠東風~下面可以正式開始上傳啦!


3、數據上傳

回到GEO上傳界面,點擊Transfer Files,GEO會為你創建一個專屬上傳空間:uploads/********,如下圖的Step1所示。

對於Windows用戶,GEO官方推薦使用FileZilla軟體

(下載地址:https://filezilla-project.org/),FileZilla軟體界面如下所示。


首先使用上圖Step2中公布的帳號密碼登錄

  • 主機地址:ftp-private.ncbi.nlm.nih.gov

  • 用戶名:geoftp

  • 密碼:rebUzyi1(密碼可能會不定期更新)

埠號不填,點擊快速連接按鈕(如果有出現permission demined提示,不影響,忽略即可)。


接著在下方右側遠程站點的地址框中,輸入上圖Step1提供的個人上傳路徑:uploads/********,按回車鍵進入。


最後,在個人上傳目錄裡新建一個文件夾(文件夾名可以是GEO帳戶名),把第二步我們準備好的文件:Metadata spreadsheet信息表、Processed data files基因表達矩陣、Raw data files原始測序數據,全部拖到該文件夾下即可。


(由於單細胞數據量大,整體上傳時間會比較久,這時候可以泡杯咖啡,再次自我檢查一下文件是否都已填寫完整,耐心等待上傳完成就可以啦~)


4、通知GEO上傳完成

文件上傳完成後,點擊Step3中的Notify GEO通知GEO,提交後會出現如下頁面。

注意:如果上傳之後沒有及時通知GEO上傳完成,文件會在兩周後自動刪除哦。

如果上傳無誤,GEO會在5個工作日內給你郵件發送GEO登錄號,如:GSEXXXX。如果有問題,工作人員也會通過郵件告知你需要修改的地方,修改後再次上傳即可。審核通過後會收到GEO登錄號,可以用於準備發表的文章中。

有GEO上傳需要,準備發文章的老師們,趕快來試一試吧~



END


相關焦點

  • 超詳細的GEO數據上傳攻略,一看就會
    選擇需要上傳的高通量數據需要上傳的數據有三種2.1 Metadata spreadsheet該文件是關於整個研究中樣本和實驗的相關信息。2.1.1 SERIES主要包含文章的標題、概述、實驗整體設計、共同作者、補充材料和SAR號(SRA號為選填,如果已經上傳了SRA,則填上,否則空著即可)。此項需要填寫的稍微詳細一點,不然後面GEO可能發郵件要求補充abstract。
  • 單細胞RT-PCR表達量數據也可以差異分析
    最近搜集整理單細胞研究的時候,看到於2015年發表在nature雜誌的文章是:Single-cell analysis reveals a stem-cell
  • 什麼,你感興趣的GEO數據集沒有關聯到原始文獻出處
    一個GSE數據集會關聯到一個原始文獻,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?比如:當然,並不是說這個GEO數據集被多次挖掘,就一定要關聯到多個文章,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4107 它其實至少被挖掘了五次。
  • (GEO)
    把上次算出來的距離一一對比,在 5km 以內的數據就是我們需要的附近的人的數據。用關係型資料庫(mysql)存在的問題其實用 mysql 的方式表面上看著是可以解決問題的,其實不然首先遍歷數據就是遍歷所有的數據,而且是在一個需要及時返回結果的接口中,這樣做是非常不科學的,用戶量非常多的話根本不現實遍歷完了之後還得繼續計算距離,這個數量級也是非常大的距離那些都弄完了還得再篩選一遍在附近的,又是一遍所有數據的遍歷如果符合附近的人的要求是需要按照距離從近到遠來排序
  • 單細胞數據挖掘與課題設計實戰課程
    本課程設計了一門單細胞數據挖掘與課題設計課程,專門針對單細胞轉錄組測序數據進行「數據挖掘方法、代碼與思路分享」,並針對單細胞領域課題設計提供詳細的建議。 目前單細胞公共樣本超過3萬例,涵蓋人、小鼠、斑馬魚等常見模式生物,包含血液、正常組織以及罕見組織(如腦、神經系統)等樣本。在各類腫瘤、疾病、不同治療方案等領域更是積累了大量的公共數據,且數據增長趨勢顯著,單細胞測序數據的挖掘目前還是處於剛剛起步的狀態,利用成熟的公共數據進行有意義的挖掘,是用資源取得最優項目及產出的正確思路。
  • 邀您體驗CLC單細胞數據分析模塊
    單細胞測序技術作為一種高解析度的技術,可以在單細胞水平快速構建組織或器官的分子圖譜,了解基因調控機制,從而探索早期胚胎發育、組織及器官形成、免疫機制和腫瘤發生等分子機理。當然,對於高噪音、高維度的單細胞測序數據,同樣需要特定的分析流程進行處理。
  • 吃豆人geo新手怎麼玩 吃豆人geo攻略大全2020
    吃豆人geo這款遊戲是一款非常有趣的休閒遊戲,很多玩家們都喜歡玩這款有趣的吃豆遊戲,大家可以體驗到非常真實的場景,今天40407小編為各位玩家們帶來吃豆人geo攻略大全,快收藏起來吧!
  • 單細胞數據結構| 果殼中的宇宙
    我是樓下單細胞天地的鄰居:周運來就是我。今天很突然,是我的生日。同樣突然的是老大拉我進菜鳥團的後臺群,安排寫一寫單細胞相關的文章。今後一段時間,會不時出沒了啦~初次見面聊點什麼好呢?其實單細胞大家已經很熟悉了,一如我們經常仰望的星空。那麼,就聊一聊單細胞的數據結構,介紹個對象吧^_^在我們涉足單細胞數據分析不久之後就會發現,我們在和一套新的理念打交道。
  • 數據上傳NCBI三劍客之③—上傳菌種鑑定序列
    這些物種鑑定序列的通常是上傳到NCBI Genbank資料庫。前兩篇推文中,小編為各位小夥伴們介紹了測序原始數據上傳SRA資料庫和微生物基因組上傳NCBI,在本期小編繼續帶小夥伴們輕鬆學會將菌種鑑定序列上傳Genbank資料庫。
  • 高歌團隊發布單細胞轉錄組數據檢索新方法和參考資料庫
    若能有效利用現有的單細胞數據進行檢索與推斷,研究者便能更好地進行新測序單細胞的注釋,以及綜合多數據集的研究。然而,精確的單細胞轉錄組數據檢索和注釋需要克服兩個挑戰:一、數據集之間的批次效應(batch effect)會顯著影響細胞檢索的可靠性;二、目前缺少跨物種和平臺、具有高質量注釋的單細胞轉錄組資料庫。
  • 精於數據處理:自動化單細胞分析軟體——CeleScope
    你是否還在為單細胞數據分析而發愁?是否還在為重新學習各種分析軟體而苦惱?今天給大家介紹一個單細胞數據分析軟體——CeleScope™,簡單易上手,結果準確可靠,讓你的研究更進一步!CeleScope™是一系列用於分析新格元GEXSCOPE®單細胞測序數據的生物信息流程。可從二代測序下機的原始fastq數據開始處理,包含數據拆分、比對、定量、生成表達矩陣、分群等功能。
  • 10x單細胞免疫組庫VDJ數據分析就看它
    2015年,10x Genomics發布了基於微流控和油滴包裹技術的Chromium單細胞系統平臺,可實現高通量的單細胞轉錄組和單細胞V(D)J測序。不但可以將TCR/BCR雙鏈完美匹配,而且可以細化到單細胞水平,同時獲得表達譜信息。目前該技術也是研究單細胞免疫組庫應用最廣泛的技術,那麼10x 單細胞免疫數據該如何分析?分析結果又有哪些呢?今天小編帶大家來聊聊單細胞免疫組庫測序數據分析那些事。
  • BIOPIC張澤民課題組在Nature Communications發表單細胞轉錄組數據...
    > 4月14日,北京大學生命科學聯合中心(CLS)、生物醫學前沿創新中心(BIOPIC)、生命科學學院、北京未來基因診斷高精尖創新中心(ICG)張澤民教授課題組聯合百奧智匯,在期刊Nature Communications發表題為「SciBet as a portable and fast single cell type identifier」的生物信息方法學論文,正式發布了基於單細胞轉錄組數據進行快速有監督細胞類型注釋的新工具
  • 單細胞數據分析神器——Seurat
    在2015年至2017年,甚至對某細胞群體或組織進行單細胞測序,解析其細胞成分就能發一篇CNS級別的文章。近兩三年,單細胞技術從最開始的基因組,轉錄組測序,發展成現在的單細胞DNA甲基化,單細胞ATAC-seq等等。測序手段也從早期的10X Genomics、 Drop-seq等,發展為現在的多種多樣個性化的方法。研究內容更不僅僅局限於解析細胞群體的成分,而是向研究細胞功能和生物學特性發展。
  • 單細胞數據科學的十一個重大挑戰
    這是單細胞數據分析的大框架,要說難點都難,今天我們就來談談目前單細胞數據解讀(挖掘)的一些挑戰。主要參考文章:Eleven grand challenges in single-celldata science ,Lähnemann et al.
  • geotrust ev證書——單域名和多域名
    GeoTrust是業內非常著名的品牌,分為dvssl ovssl evssl三種類型,對於想要綠色網址欄的客戶來說,GeoTrust TrueBusinessID with EV證書是好的選擇,並且這款證書運用的256位加密,下面SSL盾小編為您講解下geotrust ev證書的性能與如何選擇
  • 單細胞測序樣本操作原則和注意事項
    歐易上門提取一個樣本細胞起始量大於 1×10 5 個;(2)樣品濃度:5×10 5 - 1.2×10 6 / mL,最低需要 1×10 5 / mL;(3)細胞活性:活細胞數在 90 %以上;(4)細胞大小:小於 40 m;(5)細胞培養基及緩衝液不能含有 Ca 2+ 和 Mg 2+ 等影響酶活性的物質;(6)組織需解離成單細胞懸液
  • 單細胞數據高級分析——解碼細胞通信網絡
    隨著單細胞RNA測序的日益流行,RNA測序數據量的指數增長,使得測量多種細胞類型中配體和受體的表達,並系統地解碼細胞間通信網絡,最終解釋組織在穩態中的功能及其在疾病中的變化成為可能。CellPhoneDB的輸入scRNA-seq數據中應包含有counts定量數據和細胞類型注釋信息,具有相同細胞類型注釋的細胞以細胞狀態聚合在一起(圖a)。
  • 缺什麼來什麼,單細胞ATAC的數據有救了!
    此時綠葉團隊的ArchR出現了,綠葉團隊此前在NBT發過兩篇單細胞文章,分析實力很強勁。(我後來知道,洲更早就嘗試復現過原文)ArchR,他的全稱叫作Analysis of Regulatory Chromatin in R. 意思很明顯,這是全部用R就可以完成的操作,極其幸福的感覺。
  • 研究揭示整合單細胞數據集Harmony
    研究揭示整合單細胞數據集Harmony 作者:小柯機器人 發布時間:2019/11/19 12:23:39 美國布萊根婦女醫院和哈佛醫學院Soumya Raychaudhuri研究組揭示了快速