R plus 生物~Bioconductor

2021-02-28 生信星球

今天是生信星球陪你的第120天

   你想找輛共享單車,發現滿街都是別家車,沒有一輛你能騎。

   你想學點生信,搜了「初學者教程」,滿眼儘是高大上,沒有一句能看懂。

   終於你跨越茫茫宇宙,來到生信星球,發現了初學者的新大陸

豆豆寫於18.9.7 晚

各行各業數據呈爆炸式增長,大量的數據等待被處理,R語言就是一個利器,可以說是做數據分析必備的程式語言。當強大的R與包羅萬象的生物結合,再一次刺激了R的迅猛發展。隨著NGS測序的普及,R語言的生信專業社區Bioconductor誕生,開啟了生物信息的R語言時代。
好工具,用起來,首先要了解生物數據與R之間的關聯


. 生物知識回顧

基因有三類:第一類編碼序列,編碼蛋白【轉錄+翻譯功能】;第二類只有轉錄沒有翻譯功能【tRNA+rRNA】;第三類不轉錄基因,調控基因表達【啟動子、操縱子】

基因組:單倍體細胞中包含編碼序列和非編碼序列的全部DNA【核基因組+線粒體基因組+葉綠體基因組】

狹義轉錄組:mRNA,代表樣本整體基因表達水平,一般稱為「表達譜」【真正的表達譜是蛋白質組信息,研究手段是質譜】。通常用基因晶片、RNA-seq

廣義轉錄組:

非編碼ncRNA:有三類【按長度劃分】

小於50nt的small RNA【長度單位:單鏈叫nt,雙鏈叫bp】:miRNA、siRNA、piRNA【small RNA序列短,同源性高,一般採用二代測序檢測】

50-500nt:rRNA、tRNA、snRNA、snoRNA

大於500nt:mRNA-like ncRNA、不帶polyA尾的ncRNA

microRNA:也叫miRNAs,20-25nt,初級轉錄物-》核酸酶剪切加工-〉組裝進RNA誘導的沉默複合體-》互補配對識別靶mRNA-〉根據互補程度不同指導沉默複合體降解靶mRNA或者阻遏mRNA翻譯

DNA、蛋白互作:Chromatin immuopre-cipitation, ChIP,主要應用於:DNA序列轉錄因子結合位點(Binding sites)識別 ,如啟動子、增強子等順式作用文件(Cis-acting element)的識別;DNA甲基化、組蛋白修飾、核小體定位

DNA甲基化:甲基化DNA免疫共沉澱測序(Methylated DNA immunoprecipitation sequencing, MeDIP-seq)、甲基化DNA(蛋白)結合域測序(Methylated DNA binding domain sequencing, MBD-seq)和亞硫酸氫鹽測序(Bisulfite sequencing, BS-seq)

. 基因表達分析基因表達檢測方法

實時螢光定量PCR(Quantitative real time PCR, qRT-PCR)

基因(表達譜)晶片(Microarray)

表達序列標籤(Expressed Sequence Tag, EST)

基因表達系列分析(Serial Analysis of Gene Expression, SAGE)

轉錄組測序

PCR技術應用最為成熟,靈敏度高,特異性強,但其缺點是通量較小;基因晶片方便快捷,適合臨床診斷及個體基因組分析;基因測序技術通量高,但周期長、成本高

基因晶片是什麼

基因晶片又稱DNA微陣列,按照檢測物的不同,可分為DNA晶片、RNA晶片等,其中DNA晶片又可分為單核苷酸多肽性(SNP)晶片、比較基因組雜交(CGH)晶片等。

原理:基於A、T;C、G互補理論,將已知序列的核酸探針與未知序列的核酸序列進行雜交檢測DNA,並且DNA探針以顯微列印的方式大規模集成於晶片(類似於計算機的矽晶片)表面。雜交後通過計算機對雜交信號的檢測分析,得出樣品的遺傳信息(基因序列及表達的信息)。分析單核苷酸變異多態性性價比較高。

基因晶片原理
主流寡聚核苷酸晶片主要有:Affymetric、Agilen、Illumina公司基因表達數據

矩陣表示:行名代表一個基因不同條件/樣本的表達,列名代表某個條件/樣本的所有基因表達。數據代表表達水平。那麼一般分析什麼?

不同樣本/處理中哪些基因表達有顯著差異?

基因之間有什麼共有的功能,或者參與哪些共同代謝途徑?

不同的處理中,哪些基因變化一致,它們受到上遊哪些基因的調節,或者它們控制下遊哪些基因的表達?

哪些基因表達存在樣本特異性,也就是說通過他們的表達可以判斷樣本的狀態(如:細胞的增殖、分化、凋亡、應激、癌變等)

主要的分析

主要有差異顯著性分析和時間序列分析,後者主要是測定基因多個時間點的表達量,然後聚類+主成分分析尋找共調控基因

表達顯著性分析就是為了找差異基因(DEG)。那麼怎樣判斷基因間是有差異的呢?常用的有3種算法:一是倍數分析(無統計假設),計算每個基因在不同條件/樣本的比值,再與閾值比較;二是用統計模型T檢驗等方法,計算差異表達的置信度p值,以0.05或者0.01作為閾值;三是機器學習方法,利用貝葉斯模型、隨機森林等。分析的結果從來不用擔心沒有差異基因,而是要考慮差異基因可能存在很多,從幾十個到上百個不等,那麼如何展示他們呢,一張簡單粗暴的大表格嗎?肯定是不行的!

需要把上遊的這些差異基因再進行注釋、分組,一個類別就相當於一個GO term,然後看這幾大類的區別,肯定比看幾十甚至上百個基因或蛋白的差異要更加直觀,這就是富集分析,包括GO分析,KEGG分析,GSEA分析等。其中重點研究的基因集叫做前景基因,需要比對的所有基因集叫背景基因,前景是背景的子集。例如轉錄組數據中的對照組和處理組,處理與對照之間的差異基因就是前景基因,兩組所有的表達基因就是背景基因。富集分析的目的就是根據不同功能,把各個分子進行分類,然後使用超幾何分布檢驗進行分析。當然使用不同工具,得到的結果不同,現在clusterProfiler要比DAVID的結果更多。

GO分析(Gene Ontology)

包括GO terms(標籤)+GO annotations(注釋)。

GO terms存在於由基因本體聯合會(Gene Ontology Consortium)建立的資料庫中,對基因和蛋白功能進行限定和描述,每個注釋信息都有一個GO ID。它由兩部分構成,第一部分都是GO,第二部分是以0開頭的7位數字,例如GO:0016021 。

GO是一個情報員,他負責調查:包括基因的分子功能:「幹啥的」(molecular function,MF),指分子所執行的任務【如與碳水化合物結合或ATP水解酶活性等】、細胞組分:「活動區域」即產物發揮作用的位置(cellular component,CC)【如核仁、端粒和識別起始的複合物】、參與的生物過程:「近期有什麼動靜」(biological process,BP)【嘌呤代謝、有絲分裂等】GO調查完就給被查對象貼標籤term

GO annotations即GO注釋,是針對基因產物的而不是基因,表示某些基因的產物是是非編碼RNA、蛋白質還是大分子等。這裡GO就相當於一個中間媒介,它對基因進行定義GO term,然後其他各個資料庫使用GO的定義方法,對它們的基因產物進行標註,例如一個資料庫的EntrezID或SYMBOL與GO資料庫進行ID對應,或者用一個資料庫的序列與GO term進行對應。

在一個GO注釋中,例如,一個基因的產物是細胞色素c(cytochrome c),那麼這個基因的產物就會被一個分子功能術語(Molecular Function)描述為氧化還原酶活性(oxidoreductase activity ),被生物過程(Biological Process)描述為氧化磷酸化(oxidative phosphorylation ),被細胞成分(Cellular Component )描述為線性體基質(mitochondrial matrix )和線粒體內膜(mitochondrial inner membrane )~引用自「讀研筆記」

pathway代謝通路

GO負責分門別類,而pathway負責把每一類對應到具體的代謝網絡中。研究pathway的原因是:生物學問題中設定一個「蝴蝶效應」假設:1個Pathway上遊基因的改變,會導致下遊相關基因改變,從而改變通路中大量基因的表達。現在常用是KEGG,但是它收錄的都是是已有的研究結果,而這些信息,還沒有完善

. 熟悉一下Bioconductor

Bioconductor擁有上千個擴展包,主要有實驗數據包、軟體包、注釋數據包三大類,例如白血病的ALL包就是利用Affymetrix進行晶片分析的數據包;但最重要的當屬軟體包

軟體包:

1 . 注釋:GO、Pathway等

2 . 微陣列板塊(Assay Domains):處理晶片數據,Bioconductor支持主流的Affymetrix的商業化單色寡聚核苷酸晶片,也支持用戶定製的雙色cDNA晶片。晶片數據一般流程:數據預處理、差異表達基因篩選、聚類分析。這裡的包有以下幾部分:

比較基因組雜交(Comparative Genomic Hybridization, CGH)

細胞水平檢測(Cell Based Assays)

染色質免疫共沉澱晶片(ChIPchip)

拷貝數變異(Copy Number Variants)

CpG島(CpGIsland)

差異表達(Differential Expression)

DNA甲基化(DNA Methylation)

外顯子檢測(Exon Assay)

基因表達(Gene Expression)

遺傳變異性(Genetic Variability)

單核苷酸多態性(SNP)

轉錄

3 . 測序技術(Assay techs)

4 . 數據處理:基因晶片數據預處理(背景矯正、歸一化、質控)、晶片分析、基因間關係、樣本間關係、識別差異基因

聚類分析(Clustering)、分類(Classification)、富集分析(Enrichment)、多組比較(Multiple Comparison)、預處理(Preprocessing)、質控、序列匹配、時間序列分析(Time Course)、可視化、網絡分析

點擊底部的「閱讀原文」,獲得更好的閱讀體驗哦😻

初學生信,很榮幸帶你邁出第一步。

我們是生信星球,一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請後臺留言、聯繫微信或發送郵件到Bioplanet520@outlook.com

攢錢買麥旋風,點一下廣告=2毛

相關焦點

  • R語言公益課程之bioconductor
    Bioconductor用於分析和理解高通量基因組數據;其在統計上有嚴謹的方法對設計的實驗進行微陣列預處理和分析,並且對生物信息學處理有綜合和可重複的方法而獲得了很高的可信度。Bioconductor現含749+R包,包用於表達和其他微陣列、序列分析、流式細胞術、成像和其他領域。
  • 生物信息學之初學者(四)
    其實妨礙大家進行生物信息學學習的一個比較關鍵的地方就是編程了。
  • Bioconductor簡介
    Bioconductor的產生是計算生物學及生物信息學(computational biology and bioinformatics,CBB)發展的產物,其目的是有效降低CBB的門檻。當前,隨著計算生物學的發展,越來越多的數學方法及模型被引入到生物學當中來,另一方面,隨著生物技術的發展,實驗可以產生前所未有的高通量生物信息。如何方便而準確地使用數據工具來處理海量的生物信息,成為Bioconductor最直接的目的。
  • R語言包,掌握這10個就夠了!(含資源下載)
    四、生物信息學Bioconductor對於做基因組或晶片分析、陣列、基因流等等的小夥伴,Bioconductor是個好選擇。它還有個很活躍的用戶社區,可獲得及時反饋,每年更新2次,還有豐富的學習資源,比如http://www.bioconductor.org/help/course-materials/這裡的一系列教程。
  • 生物信息分析入門全攻略
    生物信息學是生命科學研究的重大前沿領域,未來將佔據生命科學研究的半壁江山。已經有越來越多的小夥伴投入到生物信息的學習中,但是入門難、深入慢、摸不到方向等都成為持續學習的攔路虎。本文根據生物信息技術大牛成長經歷和華大人才培養經驗總結入門攻略,帶領小夥伴們全面破解生物信息學習難題。
  • R與生物專題 | 第五十四講 R-樣本量及實驗效能計算
    t檢驗(兩個n不相等的樣本)7.1 對t檢驗(兩組樣本相等)進行效能計算的函數pwr.t2n.test()(第十講 R-兩獨立樣本t檢驗)pwr.t2n.test(n1 = NULL, n2= NULL,d = NULL, sig.level = 0.05
  • 超級乾貨 :手把手教你學習R語言(附資源連結)
    如果您更傾向於在線交流方式學習R語法,DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)提供的免費在線R教程是很好的資源。還可以選擇後續課程:中級R編程(https://www.datacamp.com/courses/intermediate-r)。
  • Net Income:Summer League team plus
    Summer League team plus Chase Budinger three years ago. https://t.co/clVish0rlA if ($weibo['img_link']): ?
  • 20201025期:1900出一部iPhone8plus,保護的很好//口紅禮品盒,3r Kenzo水之戀香水,全新120r
    👉複製口令%a_w9BD%點擊文中任一小程序即可查看👀收兩個筆記本 60頁左右的👉複製口令%a_4vAk%點擊文中任一小程序即可查看👀收床簾👉複製口令%a_kB4M%點擊文中任一小程序即可查看👀口紅禮品盒,3r Kenzo水之戀香水,全新120r naraya泰國曼谷雙肩包,10寸左右,買成500泰銖,全新
  • 【5分鐘學習】各種R包的安裝方法
    下面連結是 ggplot2 包的R CRAN地址:https://cran.r-project.org/web/packages/ggplot2/index.html在R CRAN中的包都會有自己的主頁,以 ggplot2 為例:點擊進去,我們可以看到,它的版本是 3.3.2 ,需要的R版本要高於 R 3.2 ,如果我們安裝了最新版本的R,即 R 4.0.2 即符合
  • 獨家 | 手把手教你學習R語言(附資源連結)
    如果您更傾向於在線交流方式學習R語法,DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)提供的免費在線R教程是很好的資源。還可以選擇後續課程:中級R編程(https://www.datacamp.com/courses/intermediate-r)。
  • R包ComplexHeatmap繪製個性化熱圖
    requireNamespace(p, quietly = TRUE))    install.packages(p)}# 檢測安裝bioconductor包package_list = c("ComplexHeatmap")for(p in package_list){if (!
  • 自己照片製作手機殼 iPhone7plus也能一件定製
    手機殼可以量身定做,打造專屬外觀來裝扮手機,提供喜歡的照片即可讓你的手機擁有獨一無二的定製手機殼,oppor7,r9S,iPhone7plus,iPhone6S,品牌手機殼定製盡在其中網店連結] http://s.zol.com.cn/shop_196141/[產品連結] http://s.zol.com.cn/shop_196141/29484836.html本文屬於原創文章,如若轉載,請註明來源:自己照片製作手機殼 iPhone7plus
  • 編程模板-R語言腳本寫作:最簡單的統計與繪圖,包安裝、命令行參數解析、文件讀取、表格和矢量圖輸出
    個人認為:是否能熟悉使用Shell(項目流程搭建)+R(數據統計與可視化)+Perl/Python等(膠水語言,數據格式轉換,軟體間銜接)三門語言是一位合格生物信息工程師的標準。直接使用Rscript執行Rscript template.r# 調置輸入數據文件,輸出圖表文件名前綴Rscript template.r -i data_table.txt -o output# 方法2.
  • [On the Radar]: Hitachino Mansion, Beer Plus, Coffee In
    They're planning on serving up a menu that looks like yakitori and other Japanese bar snacks to complement.
  • R Markdown 簡介
    You can embed an R code chunk like this:```{r}summary(cars)```You can also embed plots:```{r, echo=FALSE}plot(cars)```Note that the `echo = FALSE` parameter was added to the code chunk to prevent printing
  • plus是什麼意思 plus正確的讀音方法
    plus是什麼意思 plus正確的讀音方法 來源:www.18183.com作者:皮卡時間:2015-10-15 iPhone6 Plus的推出可以說打破了蘋果多年來堅守的機身尺寸傳統
  • 6.22號訊,不止柚子,plustoken3天之內三筆轉出,價值9億
    三天三筆價值9億的異動 老白自己一直持有並密切關注柚子,所以昨天plustoken地址向外轉出2632萬枚EOS的事情,我第一時間就關注到了。 而今天細究之下我才發現,這並不是plustoken近期唯一一次大動作。 2632萬枚柚子目前價值近5個億,三天前,plustoken的地址還轉出了價值近4億人民幣的另一個幣——
  • 英語發音教學 04 R音 R sound
    This video is about the /r/ sound, the letter R.在這段視頻中,我將向你展示如何準確地發出五個最常發錯的輔音中的一個和它最典型的字母(組合)。那麼,我們開始吧。本集視頻關於字母 R 的發音/r/音。
  • plus是什麼意思 plus有什麼含義詳細解析
    plus是什麼意思 plus有什麼含義詳細解析 來源:www.18183.com作者:集落時間:2014-12-29 2014年的蘋果發布會為我們帶來了iPhone6 Plus