什麼,你感興趣的GEO數據集沒有關聯到原始文獻出處

2021-02-24 生信技能樹

一般來說,想挖掘GEO資料庫的公共數據集,最後發表時候都要引用該數據集的原始文獻。一個GSE數據集會關聯到一個原始文獻,比如:

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE90604

可以看到其關聯的文章是:Simultaneous miRNA and mRNA transcriptome profiling of glioblastoma samples reveals a novel set of OncomiR candidates and their target genes. Brain Res 2018 Dec 1;1700:199-210. PMID: 30176243

甚至一個GSE數據集關聯更多文獻,如果這個數據集被挖掘過。比如:

當然,並不是說這個GEO數據集被多次挖掘,就一定要關聯到多個文章,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4107 它其實至少被挖掘了五次。

更嚴重的是有些時候,你感興趣的GEO數據集沒有關聯到原始文獻出處。比如:

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE104267

如下所示:

GEO數據集沒有關聯到原始文獻出處

其實可以,根據作者單位,上面寫的是:顧建欽. Jianqin Gu. 河南省人民醫院. Henan Provincial People 's Hospital

或者搜索 郵箱;dangyuan830307@hotmail.com  多次反覆搜索,查到了對應的真實作者:Dang, Yuan  dangyuan830307@hotmail.com

World J Surg Oncol. 2015 Oct 1 Expression and clinical significance of long non-coding RNA HNF1A-AS1 in human gastric cancer.World J Surg Oncol. 2018 Mar  Evaluation of the expression and clinical value of lncRNA AC010761.9 in human gastric adenocarcinoma.

其實上面我舉例的第一個例子最開始也是沒有關聯文獻的,我當時是谷歌搜索:Sukru Gulluoglu Yeditepe University

https://www.researchgate.net/profile/Sukru_Gulluogluhttps://sg.linkedin.com/in/sukru-gulluoglu-42576827https://scholar.google.com.tr/citations?hl=en&user=COkIAXYAAAAJ&view_op=list_works&sortby=pubdate

甚至還能查到作者的其它數據集:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE88721

我們感興趣的數據集相關文章應該是:https://www.sciencedirect.com/science/article/pii/S0006899318304578?via%3Dihub  作者的差異分析結果是:1332 genes and 319 miRNAs were found to be dysregulated by the microarrays. 正文清清楚楚的提到了:GEO Series accession number GSE90604 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE90604).

然後我聯繫了GEO官方,把這個文獻關聯上去了這個數據集頁面

嘻嘻,如果你在挖掘GEO數據集的同時,也發現了那些並沒有關聯到原始文獻的,而且你成功找到了就通知一下GEO官方哈。

絕大部分同學是R或者Linux基礎知識掌握的不牢固,並不是我的視頻課程錄製的不夠好

不點讚也不打賞,為什麼呢?

相關焦點

  • 單細胞數據上傳GEO操作指南
    利用這個資料庫,我們可以公開共享自己的實驗測序數據,也可以檢索到其他文章上傳的數據。很多文章在正式見刊前會要求將數據上傳到GEO資料庫中,具體如何操作呢? ·1.7 PAIRED-END EXPERIMENTS如果是雙端測序,需要填寫原始數據
  • 收藏|一圖介紹GEO資料庫
    它創建於2000年,收錄了世界各國研究機構提交的高通量基因表達數據,也就是說只要是目前已經發表的論文,論文中涉及到的基因表達檢測的數據都可以通過這個資料庫中找到。關鍵是這個數據是免費的!NCBI Gene Expression Omnibus(GEO)作為各種高通量實驗數據的公共存儲庫。
  • 如何利用NCBI-GEO探索目標基因在模型中的表達!!花別人的錢,為你開路!
    最近雜事一堆各種糾結時常感覺心塞,剛好有老師做心肌梗死的,問我說想初步判斷幾個自己感興趣基因在模型中的表達情況。
  • 過來人談考研興趣:你了解你感興趣的專業麼?
    大學的第一個學期,我就明顯體會到了什麼叫盲目喜歡。現實跟我的想像存在一定的偏差,新聞專業,作為傳播學的一個分支,涉及方方面面的知識。現當代文學、古代文學、寫作這些都是常規基礎課,必須要學,而且還要學好,至於我所期盼的採訪課、編輯課,也統統都是陳舊的理論知識,沒有想像中的採訪實踐,也不是期望中的「無冕之王」。
  • (GEO)
    相信微信附近的人的功能大家都應該用過我可以很隨意的通過我自己的定位能看到我附近的人,並且能看到那個人距離我的距離,大家有沒有思考過這個是怎麼實現的?作為一個程序猿任何問題應該都有一個思考的過程,而不是直接看結論,接下來大家一步一步的思考,直到問題解決。
  • 今日Paper | COVID-19感染者篩查;生成式摘要;圖像融合數據集;端到...
    from=leiphonecolumn_paperreview0220這篇論文為多焦點圖像融合問題提供了一個新的數據集。以往的多焦點圖像融合方法都是在模擬圖像集或Lytro數據集上評估的,然而散焦散布效應在這些數據集中並不明顯。這篇論文構建了一個名為MFFW的新數據集。該數據集包含在網際網路上收集的19對多焦點圖像。
  • 10萬+病例全基因組關聯分析確定86個新的前列腺癌易感變異
    10萬+病例全基因組關聯分析確定86個新的前列腺癌易感變異 2021-01-11 11:48 來源:澎湃新聞·澎湃號·湃客
  • 120萬科學家都在用的文獻神器,它能幫你找到最新的研究熱點
    作為一名科研民工,能夠精準追蹤所研究領域的最新文獻是一件非常重要的事情,如果你還是定期去 Web of Science 資料庫檢索看看有沒有新文獻的話,不僅費時費力,而且文獻更新非常不及時。所以當周圍的同學熱火朝天地討論最新的一篇文獻時,你只能露出尷尬的圍笑。
  • 菜鳥團一周文獻推薦(No.34)
    34期,這期包括5篇精彩文獻:1篇是scATAC-seq分析方法評估;兩篇scRNA-seq的應用:一篇是研究肝癌腫瘤微環境,一篇是單細胞在免疫學的研究綜述;兩篇RNA-seq分析的新觀點和方法:做RNA-seq分析你真的需要trimming嗎;差異表達不僅僅是火山圖熱圖富集分析圖。
  • 對醫學術語感興趣?那這些你可能需要知道
    我國現階段的醫療環境中,充斥著大量分布式的異構數據、信息、儀器設備和系統,為醫療信息的表達、存儲、交換、共享、系統協同工作帶來了諸多障礙。未來是大數據時代,醫療也要實現數位化、信息化,實現高效率的全社會醫療資源共享、跨區域醫療、跨系統醫療,必須要解決以上問題。有效方法便是構建一套符合中國臨床環境的醫學術語集,實現基於語義的數據交換。
  • 一篇文章讓你知道什麼是大數據挖掘技術
    什麼是大數據挖掘?  數據準備:數據準備包括:選擇數據–在大型資料庫和數據倉庫目標中 提取數據挖掘的目標數據集;數據預處理–進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等。  數據挖掘:根據數據功能的類型和和數據的特點選擇相應的算法,在淨化和轉換過的數據集上進行數據挖掘。
  • 沒有興趣怎麼辦?你可能只是缺乏勇氣
    在知乎上有這樣的問題:本人大學生,自認為正是可以做很多事情的年紀,但問題出現了,我該做什麼呢?對於很多事,我的興趣都是淡淡的,可以做,但又隨時可以放下,三分鐘熱度,過後甚至覺得無聊。沒有遇到哪件事讓自己有強烈的衝動。 於是覺得自己很可悲又無用……該怎麼辦呢? 在我看來,這事兒跟勇氣有關。你可能會說:「太雞湯了吧?興趣跟勇氣有什麼關係?」我們來分析一下。
  • 精品乾貨:XRD從原始數據到圖
    今天我們將整個過程串起來,給大家一個直觀的認識,看看XRD如何一步一步從樣品到最後文章中的圖。通過上一期的內容(從樣品到原始數據),大家應該大致了解如何通過多晶衍射儀得到XRD原始數據(包括raw和txt兩個文件)。今天就接著從這裡開始分享,看看如何從這兩個原始文件最後變成可用於文章的圖。
  • 吃豆人geo新手怎麼玩 吃豆人geo攻略大全2020
    吃豆人geo這款遊戲是一款非常有趣的休閒遊戲,很多玩家們都喜歡玩這款有趣的吃豆遊戲,大家可以體驗到非常真實的場景,今天40407小編為各位玩家們帶來吃豆人geo攻略大全,快收藏起來吧!
  • 數據挖掘之關聯規則算法(Apriori)
    1 關聯規則挖掘定義大多數關聯規則挖掘算法通常採用的一種策略是,將關聯規則挖掘任務分解為如下兩個主要的子任務:頻繁項集產生(Frequent Itemset Generation關聯分析的目標發現頻繁項集;由頻繁項集產生強關聯規則,這些規則必須大於或等於最小支持度和最小置信度。
  • 甲基化晶片數據的一些質控指標
    前面我們介紹了一些背景知識,主要是理解什麼是DNA甲基化,為什麼要檢測它,以及晶片和測序兩個方向的DNA甲基化檢測技術。具體介紹在:甲基化的一些基礎知識,也了解了甲基化晶片的一般分析流程 。然後下載了自己感興趣的項目的每個樣本的idat原始文件,也可以簡單通過minfi包或者champ處理它們拿到一個對象。
  • 無需數據集的Student Networks
    Data-Free Learning 本文聚焦無訓練數據的情況,提出了一種不需要原始訓練數據集的深度神經網絡壓縮新框架DAFL。 首先在MNIST數據集上進行實驗,MNIST數據集由10個類別(從0到9)的28×28像素圖像組成,整個數據集包括6萬張訓練圖像和1萬張測試圖像。
  • 如何在Keras中訓練大型數據集
    數據集的準備 - 批量加載數據集下一步是獲取整個數據集(即所有數據點(在我們的示例中為圖像))並將它們存儲到一個文件夾中。我們創建一個名為「all_images」的新文件夾,目標是將數據集中的所有圖像存儲在這個「all_images」文件夾中。我們使用以下腳本將所有圖像存儲在「all_images」文件夾中。
  • 用谷歌圖片搜索自製深度學習數據集 | 教程
    用谷歌圖片搜索自製深度學習數據集 | 教程 銅靈 編譯整理 就怕前腳剛立志搞個新研究,後腳就發現沒有合適的數據集可用。AI工程師從入門到放棄,可能就是這麼一會的功夫。 別找了,現在深度學習數據集也能自制了。
  • 手把手教你提交晶體結構數據
    科學家們往PDB資料庫提交的晶體結構數據,也可以提交到國家微生物科學數據中心(NMDC)了!在全民抗擊新冠疫情的重要時期,中國科學院微生物所齊建勳研究員團隊完成了新冠病毒S蛋白結構解析,並在文章發表前,第一時間將結構數據上傳到了國際蛋白質結構資料庫(PDB)和國家微生物科學數據中心。