原來一個星期真的可以零基礎入門TCGA數據挖掘,甚至markdown寫作公眾號投稿

2021-03-02 生信技能樹

生信技能樹有話說:最近剛剛組建一個TCGA交流群:4年前的TCGA重磅資料你學了嗎 把資料系統性整理給到了大家,發現其中一個群友聊天非常積極,而且看得到的進步,就要求他投稿,原題目是:

R菜鳥及生信菜鳥之第一篇Markdown筆記——歪打正著復現帖子的一個boxplot

作為一個剛入門生信的菜鳥,啥都不懂。

唯一有的優勢是積攢多年的生物學背景及學習能力快【囫圇吞棗能力】。再者,作為當代有痣青年,在這個生物大數據橫行,各種高通量技術橫行的時代,怎能缺少咱們的影子[捂臉],還想著花點錢搞個單細胞測序發個CNS啥的,哈哈。有幸碰到了生信技能樹的團隊,剛好有這個機緣,所以乾脆就把腳踏入了這個圈。。。

走出舒適區,磨練自己。我的方法是邊看生信技能樹的教程,邊學技術,遇到不懂的,直接google,直接pubmed(這兩板斧最好用)。

話說,從接觸R到現在(28/11)到現在(03/12)總共不到一個星期裡,跟著依葫蘆畫瓢學習了幾個TCGA資料庫相關的教程。每個教程的code都是自己一個個手動打的,因為是一個個比較零散的教程,不成系統,所以基本大腦還沒有形成套路。我最想做的事情就是研究SCI文章裡面的數據挖掘套路,復現其數據處理過程及圖表產出。不僅可以跟上SCI文章的思路,而且可以學到技術。希望後面自己的生信體系會越來越成系統。

言歸正傳,按這個思路,我系統性研讀了生信技能樹系統的數據挖掘專題目錄:

其中 7. 腫瘤異質性+免疫浸潤細胞數據挖掘(可能是最簡單的3分⽂章了) 吸引了我的注意, 而且這個文章是TCGA資料庫的挖掘,所以應該重複性不錯。

說幹就幹,就臨摹起了這個帖子。一個下午大半時間各種折騰安裝相關的包。

同時泛讀了這個帖子相關的三篇文獻後:

 開始幹活。

Step1,Step2基本沒啥問題都處理好了。

在處理Boxplot的時候,帖子作者在復現KI67的時候用的是「從UCSC Xena下載gene expression RNAseq」的data,處理好了之後導入到R裡面的,然後發現出來的圖與原SCI不一致。

SCI原文圖:

image-20191204104113749

帖子復現圖如下:

image-20191204104027232

帖子處理的KI67 基因在兩組裡面沒有統計學差異。

我在這停頓了一下,帖子作者是從UCSC下載的數據,沒有提供下載【捂臉】!繼續不下去了,怎麼辦?只能自己操作獲取。想起前幾天學的cgdsr下載CGTA基因表達的數據,乾脆就寫了兩句自己獲取了,代碼如下:


library(cgdsr)
mycgds <- CGDS("http://www.cbioportal.org/")
mycaselist = 'brca_tcga_rna_seq_v2_mrna'
mygeneticprofile = 'brca_tcga_rna_seq_v2_mrna'
MKI67 = getProfileData(mycgds,'MKI67',mygeneticprofile,mycaselist)

MKI67$Sample_ID <- chartr('.','-',substr(row.names(MKI67),1,12))

df_ki67 <- merge(df,MKI67)

df_ki67$MKI67 <- log2(df_ki67$MKI67)


library(ggpubr)

p1 <- ggboxplot(df, x="group",y="Mutation_burder",
                fill = "group",
                palette = "jco",
                legend = "") +
  stat_compare_means(method = "t.test")

p2 <- ggboxplot(df_ki67, x="group",y="MKI67",
                fill = "group",
                palette = "jco",
                legend = "") +
  stat_compare_means(method = "t.test")
ggarrange(p1,p2,ncol = 2,nrow=1)

姨?發現我處理出來的圖基本吻合了SCI裡面的boxplot!如下:

image-20191204111112654

總結:應該是數據處理方式不同。我沒有下載UCSC的數據,所以不知道裡面是如何進行normalization的。在cgdsr拿到KI67 的表達量之後,我這裡進行了log2處理以吻合原SCI的縱坐標。總之,歪打正著的趕腳。然後再測試了SCI文章Figure 3裡面的基因,發現也基本吻合,如下圖:

image-20191204111820690

SCI原圖:

image-20191204111854986

不過p值和SCI文章不一致,估計和數據處理和異常值有關。

而後一直在找intratumor heterogeneity的數據,原SCI作者沒說他的數據怎麼來的。我估計也是從ATCG上處理過來的,可是我還不會~~~

這個帖子還沒臨摹完,後續繼續做生存相關及免疫細胞亞群的分析。。。fighting

相關焦點

  • 深度學習真的可以零基礎入門嗎?
    即便有意避免研究導向,甚至弱化數學理論部分(比如吳恩達老師在 Coursera 上的「Machine Learning」),仍然離產業界的需求相去甚遠。用一句話來概括:現有的深度學習資源,對學生群體很友好,但對在職工程師並不如此。許多人花大半年時間(有毅力的會更久)研讀了幾本深度學習教材,發現實際操作時仍然不知道該怎麼實現一個具體的東西。
  • 數據分析 | 帶你零基礎入門數據挖掘(附代碼)
    對於數據挖掘項目,本文將學習應該從哪些角度分析數據?數據及背景阿里天池-零基礎入門數據挖掘https://tianchi.aliyun.com/competition/entrance/231784/informationEDA的目標熟悉數據集,了解數據集,對數據集進行驗證來確定所獲得數據集可以用於接下來的機器學習或者深度學習使用。
  • Markdown—一種高效的寫作方式
    Markdown挺早之前有有所耳聞,但因為需要學習其特定的一些標記語法就沒有真的使用。後來因為所閱讀的一些文章大都出現在簡書,於是去註冊了自己的帳號,嘗試發文。它有兩種書寫方式,一種是富文本編輯器,類似word、公眾號的原生編輯器這種,文字是文字,排版需另做。另外一個就是Markdown,於是開始嘗試使用Markdown來寫作,從此一發不可收拾。
  • 整理一些微信公眾號投稿指南,以及寫作格式和編輯溝通指南(一)
    有朋友留言,問我如何向公眾號投稿以及一些可信的公眾號,這次就為大家推薦一下,先介紹小白適合的公眾號,再講一下應注意的格式及事項。關注公眾號後,進入公眾號,尋找投稿郵箱後即可,也可以尋找編輯號,直接溝通。特別提示:以上平臺我從未投過稿,能否易過,信譽可靠,不能保證。投稿前請自行查明,要有辨識能力,以免被騙稿等其他不良事件發生。
  • 一鍵下載公眾號所有文章,導出文件支持PDF,HTML,Markdown,Excel,chm等格式
    再次抓取可以看到公眾號文章接口數據了。,offset 是偏移量,count 是每次請求的條數,返回值可以看到返回數據包括文章標題titile、摘要digest、文章地址content_url、閱讀原文地址source_url、封面cover、作者author ,只要抓取這些有用的數據就行了。
  • 如何用Markdown寫論文?
    本文用簡明的樣例,介紹如何使用Markdown和自動化工具幫你處理數學公式、參考文獻引用、圖片交叉索引等學術論文寫作中常見的棘手問題。快來試試吧。(由於微信公眾號外部連結的限制,文中的部分連結可能無法正確打開。如有需要,請點擊文末的「閱讀原文」按鈕,訪問可以正常顯示外鏈的版本。)
  • R Markdown 簡介
    rmarkdown包藉助pandoc來將文件轉變成新的格式,例如,你可以轉變Rmd文件成HTML, PDF, 或Microsoft Word文件,你甚至可以轉變成 HTML5 或 PDF 幻燈片,rmarkdown保持文本,代碼結果與Rmd文件中的結構一致。這些轉變能力能讓你markdown編輯,並方便的改變格式,你可以將R代碼放入knit,並以任何一種格式分享個其他人。
  • RStudio|用R Markdown生成你的R語言數據分析報告
    作者:魯偉一個數據科學踐行者的學習日記。
  • 寫作投稿賺錢的騙局!
    一直有人拿出自身成功案例來宣傳寫文章投稿是可以賺錢的,做公眾號寫寫雞湯文也是可以賺錢的,但在我看來,能相信這種話的也多數是一些上班族,對於網際網路怎樣賺錢一知半解,沒有建立獨立認知的小白群體,這部分群體多數還以女性居多。
  • 新手給公眾號投稿賺錢,這些訣竅有必要掌握!
    今天,本人和大家談一談給公眾號投稿賺錢的訣竅,希望對小白們有一定的指導作用。1.認真研究公眾號對於新手而言,首先要確定自己喜歡和擅長的領域,不擅長的領域先不要去寫。接下來,要找到與自己領域相吻合的公眾號,進行深入的研究。例如:它的風格是怎樣的?主要針對哪些人群?
  • 通知|「無錫太湖學院」公眾號投稿須知
    嚴禁抄襲,必須保證投稿作品的原創性。如發現作品作假,後果自負。2. 「無錫太湖學院」具有審核和修改稿件的權力,任何學院、班級、社團組織和個人不得強制要求推送其稿件。重視來稿質量,同一類型的來稿將依據質量擇優選取。本公眾號不退稿,請自留稿底,三個月內未發表的稿件可自行處理。
  • 怎樣寫作投稿?你知道稿費是有可能上萬的麼?幾種投稿方式要知道
    但是後來,我發現原來讀書寫作也能變現之後,也曾經有過同樣的問題,到底如何寫作投稿?因為熱愛讀書,加上寫的筆記和書評非常有價值,所以收穫了第一批粉絲。後來就認識了一些出版社的編輯,也就有了我的第一種投稿渠道。如果你不認識一些編輯的話,你也可以通過某瓣的一些投稿帳號去參與一些書評投稿。
  • 投稿公眾號整理
    【魷魚刺小棧】定位:溫暖治癒的故事號稿費:基礎稿費15元,閱讀量每破100,增加10元字數:1500左右特點:易過稿,審稿時長3日內,過與不過都會回復徵稿方式:加小編v投稿【停在星光裡】定位:溫暖確幸小故事or學習,生活乾貨稿費:10—30元字數:1500—3500字特點:新號易過稿,3-5天回復過稿信息,7天未回復則未過稿徵稿方式:發送word文檔至qq郵箱:2865569668
  • 我寫作公眾號的意義
    最近發現周更俱樂部裡有朋友在思考寫公眾號的意義,「寫作公眾號的意思」這個題材其實在最初有意向加入公眾號周更俱樂部的時候就寫過了,沒有發布,因為寫的不滿意
  • 一周內教會您單細胞測序數據挖掘分析和課題設計 2020年8月10-14日線上
    好的技術給科研帶來了更為豐富、精準的數據。如何在最終的數據分析中結合生物學背景挖掘到更多信息也是困擾很多科研人員的一大難題。為了讓更多的研究者了解單細胞測序數據挖掘的常用套路以及單細胞常用數據分析軟體的使用特舉辦單細胞測序數據挖掘與課題設計學習班。
  • 網絡寫作技巧
    本來這個主題想一篇文章介紹的,後面考慮到篇幅過大,所以分開兩篇文章來介紹,可以閱讀下這篇文章的姐妹篇《網絡寫作規範》平臺選擇隨著移動網際網路的普及,網絡成為生活中不可缺失的一部分。網絡寫作平臺成為了網民展示和獲取信息的重要平臺。網絡寫作平臺比較多,較為知名的是微信公眾號、知乎、簡書、豆瓣閱讀、今日頭條、微博、Github 等。
  • 1000元/篇+獎勵 |《霧滿攔江》公眾號徵稿
    「寫作投稿平臺」是收集各種類型文字的徵稿平臺,對文案感興趣的同學入門其實不難,你可以在公眾號的歷史消息選擇自己喜歡的類型進行投稿
  • 讓文檔回歸本質,為什麼應該用Markdown
    比如字體,顏色,甚至表格等。2、用特殊字符來標記必要的格式 比如 標題 段落 加粗 列表等,比純文本複雜些,但基本不影響閱讀。3、通過簡單的工具即可轉換為HTML,PDF等格式。純文本標記語言有什麼好處呢?1、方便編輯。任何一個文本編輯器就可以編輯,連大家熟悉的Windows記事本也可以。
  • 你知道markdown嗎
    markdown從入門到精通Markdown 是一種輕量級的「標記語言」,它的優點很多,目前也被越來越多的寫作愛好者,撰稿者廣泛使用。看到這裡請不要被「標記」、「語言」所迷惑,Markdown 的語法十分簡單。常用的標記符號也不超過十個,這種相對於更為複雜的 HTML 標記語言來說,Markdown 可謂是十分輕量的,學習成本也不需要太多,且一旦熟悉這種語法規則,會有一勞永逸的效果。
  • 不用轉發 不用買粉 銀行員工從零開始怎麼做公眾號
    公眾號的紅利期2016-2017年,現在已經是2019年,看到很多公眾號隨便的閱讀量就是10萬+,即使是個人的公眾號,很多人也作出了自己的品牌,看到特別熟悉的人還能把公眾號做的特別好,真的是羨慕忌妒恨,如果當初早點下手,會不會現在也是好幾萬,甚至還幾十萬粉絲了。我現在開始做,還來得及嗎?