把tcga大計劃的CNS級別文章標題畫一個詞雲

2021-02-13 生信技能樹

TCGA計劃官方文章在:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga/publications

全部的標題的英文很容易提取和整理,如下:

Comprehensive genomic characterization defines human glioblastoma genes and core pathwaysIntegrated genomic analyses of ovarian carcinomaComprehensive molecular characterization of human colon and rectal cancerComprehensive molecular portraits of human breast tumoursComprehensive genomic characterization of squamous cell lung cancersIntegrated genomic characterization of endometrial carcinomaGenomic and epigenomic landscapes of adult de novo acute myeloid leukemiaComprehensive molecular characterization of clear cell renal cell carcinomaThe Cancer Genome Atlas Pan-Cancer analysis projectThe somatic genomic landscape of glioblastomaComprehensive molecular characterization of urothelial bladder carcinomaComprehensive molecular profiling of lung adenocarcinomaMultiplatform analysis of 12 cancer types reveals molecular classification within and across tissues of originThe Somatic Genomic Landscape of Chromophobe Renal Cell CarcinomaComprehensive molecular characterization of gastric adenocarcinomaIntegrated genomic characterization of papillary thyroid carcinomaComprehensive genomic characterization of head and neck squamous cell carcinomasGenomic Classification of Cutaneous MelanomaComprehensive, Integrative Genomic Analysis of Diffuse Lower-Grade GliomasComprehensive Molecular Portraits of Invasive Lobular Breast CancerThe Molecular Taxonomy of Primary Prostate CancerComprehensive Molecular Characterization of Papillary Renal-Cell CarcinomaComprehensive Pan-Genomic Characterization of Adrenocortical CarcinomaDistinct patterns of somatic genome alterations in lung adenocarcinomas and squamous cell carcinomasIntegrated genomic characterization of oesophageal carcinomaComprehensive Molecular Characterization of Pheochromocytoma and ParagangliomaIntegrated Molecular Characterization of Uterine CarcinosarcomaIntegrative Genomic Analysis of Cholangiocarcinoma Identifies Distinct IDH-Mutant Molecular ProfilesIntegrated genomic and molecular characterization of cervical cancerComprehensive and Integrative Genomic Characterization of Hepatocellular CarcinomaIntegrative Analysis Identifies Four Molecular and Clinical Subsets in Uveal MelanomaIntegrated Genomic Characterization of Pancreatic Ductal AdenocarcinomaComprehensive Molecular Characterization of Muscle-Invasive Bladder CancerComprehensive and Integrated Genomic Characterization of Adult Soft Tissue SarcomasThe Integrated Genomic Landscape of Thymic Epithelial TumorsPan-cancer Alterations of the MYC Oncogene and Its Proximal Network across the Cancer Genome AtlasScalable Open Science Approach for Mutation Calling of Tumor Exomes Using Multiple Genomic PipelinesMolecular Characterization and Clinical Relevance of Metabolic Expression Subtypes in Human CancersSystematic Analysis of Splice-Site-Creating Mutations in CancerSomatic Mutational Landscape of Splicing Factor Genes and Their Functional Consequences across 33 Cancer TypesThe Cancer Genome Atlas Comprehensive Molecular Characterization of Renal Cell CarcinomaPan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor ContextSpatial Organization and Molecular Correlation of Tumor-Infiltrating Lymphocytes Using Deep Learning on Pathology ImagesMachine Learning Detects Pan-cancer Ras Pathway Activation in The Cancer Genome AtlasGenomic and Molecular Landscape of DNA Damage Repair Deficiency across The Cancer Genome AtlasDriver Fusions and Their Implications in the Development and Treatment of Human CancersGenomic, Pathway Network, and Immunologic Features Distinguishing Squamous CarcinomasIntegrated Genomic Analysis of the Ubiquitin Pathway across Cancer TypesSnapShot: TCGA-Analyzed TumorsThe Cancer Genome Atlas: Creating Lasting Value beyond Its DataMachine Learning Identifies Stemness Features Associated with Oncogenic DedifferentiationOncogenic Signaling Pathways in The Cancer Genome AtlasPerspective on Oncogenic Processes at the End of the Beginning of Cancer GenomicsComprehensive Characterization of Cancer Driver Genes and MutationsAn Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome AnalyticsPathogenic Germline Variants in 10,389 Adult CancersA Pan-Cancer Analysis of Enhancer Expression in Nearly 9000 Patient SamplesGenomic and Functional Approaches to Understanding Cancer AneuploidyA Comprehensive Pan-Cancer Molecular Study of Gynecologic and Breast CancersComparative Molecular Analysis of Gastrointestinal AdenocarcinomaslncRNA Epigenetic Landscape Analysis Identifies EPIC1 as an Oncogenic lncRNA that Interacts with MYC and Promotes Cell-Cycle Progression in CancerThe Immune Landscape of CancerIntegrated Molecular Characterization of Testicular Germ Cell TumorsComprehensive Analysis of Alternative Splicing Across Tumors from 8,705 PatientsA Pan-Cancer Analysis Reveals High-Frequency Genetic Alterations in Mediators of Signaling by the TGF-β SuperfamilyIntegrative Molecular Characterization of Malignant Pleural MesotheliomaThe chromatin accessibility landscape of primary human cancersComprehensive Molecular Characterization of the Hippo Signaling Pathway in CancerBefore and After: Comparison of Legacy and Harmonized TCGA Genomic Data Commons』 DataComprehensive Analysis of Genetic Ancestry and Its Molecular Correlates in Cancer

簡單的使用bing搜索一下關鍵詞:word clound in r ,就可以找到解決方案,第一個連結就是:http://www.sthda.com/english/wiki/text-mining-and-word-cloud-fundamentals-in-r-5-simple-steps-you-should-know,代碼分成5個步驟。

Step 1: Create a text fileStep 2 : Install and load the required packagesStep 4 : Build a term-document matrixStep 5 : Generate the Word cloud

一般來說,會R基礎的朋友們很容易看懂,如果你還不會R語言,建議看:

把R的知識點路線圖搞定,如下:

核心代碼就是wordcloud函數,但是這個wordcloud函數要求的輸入數據就需要認真做出來。

# 安裝R包相信無需再強調了library("tm")library("SnowballC")library("wordcloud")library("RColorBrewer")# 這裡我們直接讀取自己電腦剪切的數據即可# 運行下面這句代碼的同時,需要保證你已經複製了前面我們整理好的文章標題哦!text=readLines(pipe("pbpaste"))# 好像這裡Mac系統跟Windows系統稍微不一樣,大家需要自行把握# Load the data as a corpusdocs <- Corpus(VectorSource(text))toSpace <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))docs <- tm_map(docs, toSpace, "/")docs <- tm_map(docs, toSpace, "@")docs <- tm_map(docs, toSpace, "\\|")# Convert the text to lower casedocs <- tm_map(docs, content_transformer(tolower))# Remove numbersdocs <- tm_map(docs, removeNumbers)# Remove english common stopwordsdocs <- tm_map(docs, removeWords, stopwords("english"))# Remove your own stop word# specify your stopwords as a character vectordocs <- tm_map(docs, removeWords, c("blabla1", "blabla2")) # Remove punctuationsdocs <- tm_map(docs, removePunctuation)# Eliminate extra white spacesdocs <- tm_map(docs, stripWhitespace)# Text stemming# docs <- tm_map(docs, stemDocument)
dtm <- TermDocumentMatrix(docs)m <- as.matrix(dtm)v <- sort(rowSums(m),decreasing=TRUE)d <- data.frame(word = names(v),freq=v)head(d, 10)set.seed(1234)wordcloud(words = d$word, freq = d$freq, min.freq = 1, max.words=200, random.order=FALSE, rot.per=0.35, colors=brewer.pal(8, "Dark2"))

詞雲繪圖結果每次布局都不一樣哦,如下所示:

image-20200819181252785

其實就是把詞頻給可視化了一下:

> head(d, 10)               word freq1  characterization   252         molecular   253           genomic   244            cancer   235     comprehensive   226          analysis   137        integrated   128         carcinoma   119              cell    810           genome    8

出現次數很多的單詞,在詞雲就顯示大一點,僅此而已。

在三年前我就整理並且製作了TCGA腫瘤資料庫知識圖譜視頻教程,一年半前免費公布在生信技能樹的B站,現在勉勉強強也快有兩萬的觀看量。

閱讀量如下:

視頻目錄是:

P1-TCGA-101-課程介紹-需要哪些背景知識

P2-TCGA-102-課程導讀-如何使用我的github代碼

P3-TCGA-103--TCGA資料庫大有作用-不僅僅是灌水

P4-TCGA-201-背景介紹及網頁工具大全

P5-TCGA-202-其它資料庫介紹

P6-TCGA-203-使用Xena網頁工具

P7-TCGA-204-使用firehose網頁工具

P8-TCGA-205-文章規律講解

P9-TCGA-301-數據下載方式導言

P10-TCGA-302-GDC下載數據實戰

P11-TCGA-303-GDC數據整理

P12-TCGA-304-GDC下載數據續集

P13-TCGA-305-R-TCGA包下載數據及數據提取

P14-TCGA-306-使用GDC和firehose下載-TCGA的胃癌的甲基化信息數據

P15-TCGA-307-使用GDC和Xena下載RNA-Seq的表達矩陣並且比較

我們生信技能樹團隊優秀R語言講師《小潔》也學完了我的全套視頻,在她自己的理解的基礎上面,也給大家奉獻了一套筆記:

小潔的筆記

細數下來,寫了17篇TCGA相關的筆記,現對其進行完整梳理,一篇年度精品推文橫空出世。再次重申:本系列是我的TCGA學習記錄,跟著生信技能樹B站課程學的,已獲得授權。課程連結:https://www.bilibili.com/video/av49363776

一、數據下載1.官方工具GDC

需要去官網下載對應系統版本的GDC軟體,存放在工作目錄下。
關於這個工具前後寫了三篇:
(1)GDC數據下載
(2)GDC數據整理
(3)GDC數據整理續集
這個方法需要紮實的的linux命令行和R語言基礎,僅僅是理解代碼,也是需要花費一些時間的。

2.R包TCGA-biolinks

R包TCGAbiolinks下載數據
這是一個完全基於R語言的流程,下載的是最新的數據,其實還是基於GDC,更加集成化,操作簡單很多,除了參數研究比較費時間,沒有發現什麼缺點。

3.R包RTCGA

使用RTCGA包獲取數據
這是一個資料庫式的包,把所有數據都包裝進去了,導致包很大,不是最新的數據,但最簡單。

總結一下這三種方法,都是分別下載表達矩陣和meta信息,但由於有的病人既有腫瘤樣本,又有正常樣本,導致他們並非是一一對應的關係,需要一定的R語言技巧。

二.差異分析

TCGA(轉錄組)差異分析三大R包及其結果對比
使用轉錄組三大R包deseq2,limma和edgeR分別進行差異分析

三.生存分析

兩種方法批量做TCGA生存分析
單個基因的生存分析可視化是很簡單的,有非常好的R包可用,畫出來的圖要顏值有顏值,要內涵有內涵。

四.生存模型構建

課程中共使用了四種算法構建模型:

不管用了那種算法,核心都只是幾句代碼.

相關焦點

  • Word中標題級別樣式的順序調整,這個技巧快速提高工作效率
    在Word文檔中,經常會用到多級標題,以便對文章的層次和結構進行有效區分,系統中默認的多級標題其實有些並不符合我們的使用習慣,為了能夠設置成方便我們使用的樣式,今天就帶著大家一起來學習一下吧。每個級別前面都有一個序號,這個表示優先級,可以理解為顯示的次序。對於其優先級的調整可以通過點擊上移或者下移來實現,也可以在指定值的選項中輸入數字,直接跳轉到需要的位置,這樣會更加方便,設置完成之後,下端還有一個選項,那就是僅限此文檔還是基於該模板的新文檔。這個可以根據自身的需要進行選擇。
  • 一個好的淘寶文章標題怎麼寫?寶貝標題優化的四大原則
    最近很多商家都私信我怎麼寫標題 今天我就跟大家分享下我的經驗乾貨淘寶標題具體怎麼寫標題是要考慮到方方面面的,包括你店鋪當前的實際狀況,你類目的實際狀況,是否大促活動時期等等。總的來說,標題寫作有以下幾個基本原則:1.
  • 探討科技文章標題的寫作與翻譯
    科技文章的標題,也就是論文、技術報告等的標題。它要求簡明、高度地概括全文的實質性內容。而且,標題應該是讓人看了一目了然,並給讀者留下深刻的印象。因此,處理好科技文章標題的寫作和翻譯,是準確概括和表達科技文章實質內容的關鍵,往往要經過反覆推敲才能確定。
  • TCGA數據下載 | TCGAbiolinks、gdc-client、UCSC、官網等方式下載TCGA數據
    作為目前最大的癌症基因信息資料庫,TCGA的全面不僅僅體現在眾多癌型上,還體現在多組學數據,包括基因表達數據、miRNA表達數據、拷貝數變異、DNA甲基化、SNP,而相對於GEO資料庫,TCGA最大的優勢是豐富且規範的臨床數據,以及針對每種癌型的大樣本量。
  • 怎麼理解大級別段和小級別段重合(纏論隨筆)
    纏論的分析過程中,你是否發現很多時候,大級別段和小級別段是重合,比如上圖30分鐘k線上畫段,和15分鐘k線上畫段,兩者是完全重合的,我認為歸根到底,是因為走勢比較流暢,小級別沒有足夠細節,但波動足夠大造成的。
  • "10萬+"文章標題長度平均21.66字 是誰讓標題越來越長
    原標題:「10萬+」文章標題長度平均21.66字,比2015年多3.6個字新媒體語境下,是誰讓標題越來越長  《三亞流水席廚師一人掌9口鍋3天炒菜2000多盤一盤賺5毛》《英國維多利亞時代四層洗衣房僅寬2米如今叫價近八百萬英鎊》《心臟長在胸腔外的小女孩已經7歲了,醫生曾說她活不下來》———3篇文章取材迥異,發布平臺也不同
  • 女孩畫巨型龍,畫完後瞬間走紅,網友:如果做紋身也是大師級別的
    女孩畫巨型龍,畫完後瞬間走紅,網友:如果做紋身也是大師級別的   隨著現在的網絡發展的特別的快,很多有才藝的人通過網絡有都開起了直播,我們從這些直播中也學到了各種各樣的才藝,見識到了各種各樣的藝術,其中畫畫是目前最為火熱的一種了
  • 【科研作圖】AI快速畫出一個肝臟
    至於畫的好不好,這個需要持續練習,把握細節,提升審美。總結了一下,我發現繪製這麼一個肝臟,好像4個大步驟就能完成。繪圖期間只需要使用鉛筆工具、平滑工具、效果工具。鉛筆工具主要是用於繪製肝臟外形。最快捷的辦法就是在搜索一張肝臟的圖片,然後置入到AI中,用鉛筆工具順著外形去描繪勾勒肝臟外形。
  • 《1976年大地震》天津首發 收錄逾百篇回憶文章
    中新社發 版權聲明:凡標註有「cnsphoto」字樣的圖片版權均屬中國新聞網,未經書面授權,不得轉載使用。30周年前夕,由天津社會科學院出版社出版的《1976年大地震》一書,今天首次與廣大讀者見面。據《天津通志》記載,在這場大地震中,天津市死亡24345人,重傷21497人,67%的房屋遭到不同程度的破壞,直接經濟損失達39.2億元人民幣。  為紀念抗震救災30周年,今晚傳媒集團會同天津市地震局、中國人壽保險公司天津分公司,自今年初開始舉辦「1976年大地震」徵文活動,引起天津各界人士強烈反響。半年來,千篇飽蘸淚水、感人至深的稿件,從四面八方飛向《今晚報》社。
  • 如何取一個好的論文標題?
    如何取一個好的論文標題?你是人間的四月天,笑響點亮了四面風。四年的大學生活近在咫尺,卻又遠在天邊,一切仿佛就在眼前,卻好像已經漸行漸遠。對於即將走出象牙塔的同學們來說,畢業論文是眼下首當其衝的要緊事。那麼,作為畢業論文的點睛之筆,一個好的論文標題可以給人眼前一亮的效果。如果一篇學術論文的標題繁冗複雜,不知所云,即使正文部分再吸引人,也不能夠稱得上是一篇優秀的畢業論文。
  • 助力構建中國科研良性生態 愛思唯爾推出「文章級別學科匹配」
    中新網北京12月8日電 (記者 張素)科研分析管理工具SciVal的新版本8日正式發布,其中包含基於文章級別的教育部一級學科分類功能,這將支持中國用戶實現更精確的教育部一級學科內容檢索與分析。  上述服務是由信息服務提供商愛思唯爾發布。
  • 文章標題的擬定:全書思想框架的重要組成部分是如何演變的
    文章標題的擬定:全書思想框架的重要組成部分是如何演變的導語:先秦諸子文章標題的擬定,經歷了由簡單、隨機到精心設計的歷史演進過程。精心選擇文章標題,是文章寫作更加自覺的重要標誌之一,也是成熟的專論體說理文的主要特徵之一。
  • 2018中國高校在3大頂級期刊CNS論文統計:清華、北大、復旦前3
    《自然》(Nature)、《科學》(Science)和《細胞》(Cell)作為目前國際上最頂尖的學術期刊,發表文章基本也代表了相關領域的頂尖研究成果。關於cns這三大國際頂級期刊有多牛,在這裡也就不多介紹了,你只需要知道,就連中國科學院院士也不是隨便就能在上面發文,就ok了。2018已經過去了,縱觀這一年,我國高校科研也取得了非常大的成績和進步,雖然也有些爭議和瑕疵的事情發生,但總體上來說,瑕不掩瑜。
  • 化學試劑級別及簡稱大匯總
    化學試劑級別及簡稱大匯總北極星環境監測網訊:化學試劑是進行化學研究、成分分析的相對標準物質,是科技進步的重要條件,廣泛用於物質的合成、分離、定性和定量分析,可以說是化學工作者的眼睛,在工廠、學校、醫院和研究所的日常工作中,均離不開化學試劑。化學試劑的品種繁多,分類方法國際上尚未有統一的規定。
  • TCGA資料庫任意腫瘤任意基因,隨意分析
    3 任意一個基因在腫瘤不同分期,不同性別等臨床特性的表達情況4 任意一個基因在任意一個腫瘤,或腫瘤的某種特徵中的生存分析讀取數據 這一步耗時較長(如果這個過程你的電腦hold不住了,可以直接用後面整理好的數據,開始作圖)rm(list = ls())library(tidyverse)#讀取數據ALLdata <- data.table::fread("t
  • 畫泡泡圖,發CNS
    小夥伴們看了《把Cell爆文的思路、方法用到自己的研究中》都想知道:找到關鍵轉錄因子的這個圖是怎麼畫的?
  • 掌握這8個標題寫作技巧,至少讓你的文章逼格提升100倍
    文章標題的好壞是決定文章閱讀量的核心,讀者決定看不看這篇文章取決於你的標題。小編杜舉紅研究100篇以上10萬+的網文,80%的閱讀量來都源於標題,那麼如何寫出一篇具有爆款式及吸引力的標題呢?接下來小編杜舉紅苦心總結提煉100篇10萬+大咖的文章,總結八大高閱讀量標題的核心技巧,僅供讀者參考。文章標題在當下網絡時代的趨勢及現狀:1.寫作標題的重要性。
  • 氣象編程 | Python子圖、colorbar和標題
    首先,我們要新建一個大的畫布,設置好它的大小和解析度:fig = plt.figure(figsize=(12,8),dpi=150)我們需要畫同一時刻四個不同層次,因此我們在這個大畫布裡設置四個子圖但是,在調用函數的時候,當然還是名字都一樣好寫一點咯~只畫4層情況的話,我使用了range來控制讀取的層次,那麼,如何將有規律的名字字符串轉換為變量的名字,再傳入自定義函數中呢?我使用了locals()來達成目的。
  • 如何起好文章標題?這裡有6個即學即用的」套路」
    而對於一篇文章,正是標題當擔了此」重任」!起得一個好的標題,豪不誇張地說就等於成功了一大半,但是很多人也正是為了」取一個好標題」,漸漸在」標題黨」的路上越行越遠。如何才能既起得一個好標題,有不讓讀者反感呢?
  • 怎樣設置多級標題編號?
    多級編號怎麼添加1、添加樣式選中文本,點擊開始——樣式——選擇標題1,相同的樣式則可以借用F4來實現。PS:以同樣方式設置標題2甚至其他標題。2、設置多級列表點擊開始——段落——多級列表,在下拉框中選擇【定義新的多級列表】,在打開的界面中設置好級別,比如這裡將級別1的編號格式設置為默認格式,而級別所連結到的樣式則為標題1,級別2的編號格式也是選擇默認,連結的樣式則是選擇標題2。如果你會發現編號與文本之間的間距過大,如下圖所示,該如何處理呢?