今天是生信星球陪你的第120天
你想找輛共享單車,發現滿街都是別家車,沒有一輛你能騎。
你想學點生信,搜了「初學者教程」,滿眼儘是高大上,沒有一句能看懂。
終於你跨越茫茫宇宙,來到生信星球,發現了初學者的新大陸
豆豆寫於18.9.7 晚
各行各業數據呈爆炸式增長,大量的數據等待被處理,R語言就是一個利器,可以說是做數據分析必備的程式語言。當強大的R與包羅萬象的生物結合,再一次刺激了R的迅猛發展。隨著NGS測序的普及,R語言的生信專業社區Bioconductor誕生,開啟了生物信息的R語言時代。
好工具,用起來,首先要了解生物數據與R之間的關聯
基因有三類:第一類編碼序列,編碼蛋白【轉錄+翻譯功能】;第二類只有轉錄沒有翻譯功能【tRNA+rRNA】;第三類不轉錄基因,調控基因表達【啟動子、操縱子】
基因組:單倍體細胞中包含編碼序列和非編碼序列的全部DNA【核基因組+線粒體基因組+葉綠體基因組】
狹義轉錄組:mRNA,代表樣本整體基因表達水平,一般稱為「表達譜」【真正的表達譜是蛋白質組信息,研究手段是質譜】。通常用基因晶片、RNA-seq
廣義轉錄組:
非編碼ncRNA:有三類【按長度劃分】
小於50nt的small RNA【長度單位:單鏈叫nt,雙鏈叫bp】:miRNA、siRNA、piRNA【small RNA序列短,同源性高,一般採用二代測序檢測】
50-500nt:rRNA、tRNA、snRNA、snoRNA
大於500nt:mRNA-like ncRNA、不帶polyA尾的ncRNA
microRNA:也叫miRNAs,20-25nt,初級轉錄物-》核酸酶剪切加工-〉組裝進RNA誘導的沉默複合體-》互補配對識別靶mRNA-〉根據互補程度不同指導沉默複合體降解靶mRNA或者阻遏mRNA翻譯
DNA、蛋白互作:Chromatin immuopre-cipitation, ChIP,主要應用於:DNA序列轉錄因子結合位點(Binding sites)識別 ,如啟動子、增強子等順式作用文件(Cis-acting element)的識別;DNA甲基化、組蛋白修飾、核小體定位
DNA甲基化:甲基化DNA免疫共沉澱測序(Methylated DNA immunoprecipitation sequencing, MeDIP-seq)、甲基化DNA(蛋白)結合域測序(Methylated DNA binding domain sequencing, MBD-seq)和亞硫酸氫鹽測序(Bisulfite sequencing, BS-seq)
. 基因表達分析基因表達檢測方法實時螢光定量PCR(Quantitative real time PCR, qRT-PCR)
基因(表達譜)晶片(Microarray)
表達序列標籤(Expressed Sequence Tag, EST)
基因表達系列分析(Serial Analysis of Gene Expression, SAGE)
轉錄組測序
PCR技術應用最為成熟,靈敏度高,特異性強,但其缺點是通量較小;基因晶片方便快捷,適合臨床診斷及個體基因組分析;基因測序技術通量高,但周期長、成本高
基因晶片是什麼基因晶片又稱DNA微陣列,按照檢測物的不同,可分為DNA晶片、RNA晶片等,其中DNA晶片又可分為單核苷酸多肽性(SNP)晶片、比較基因組雜交(CGH)晶片等。
原理:基於A、T;C、G互補理論,將已知序列的核酸探針與未知序列的核酸序列進行雜交檢測DNA,並且DNA探針以顯微列印的方式大規模集成於晶片(類似於計算機的矽晶片)表面。雜交後通過計算機對雜交信號的檢測分析,得出樣品的遺傳信息(基因序列及表達的信息)。分析單核苷酸變異多態性性價比較高。
基因晶片原理矩陣表示:行名代表一個基因不同條件/樣本的表達,列名代表某個條件/樣本的所有基因表達。數據代表表達水平。那麼一般分析什麼?
不同樣本/處理中哪些基因表達有顯著差異?
基因之間有什麼共有的功能,或者參與哪些共同代謝途徑?
不同的處理中,哪些基因變化一致,它們受到上遊哪些基因的調節,或者它們控制下遊哪些基因的表達?
哪些基因表達存在樣本特異性,也就是說通過他們的表達可以判斷樣本的狀態(如:細胞的增殖、分化、凋亡、應激、癌變等)
主要的分析主要有差異顯著性分析和時間序列分析,後者主要是測定基因多個時間點的表達量,然後聚類+主成分分析尋找共調控基因
表達顯著性分析就是為了找差異基因(DEG)。那麼怎樣判斷基因間是有差異的呢?常用的有3種算法:一是倍數分析(無統計假設),計算每個基因在不同條件/樣本的比值,再與閾值比較;二是用統計模型T檢驗等方法,計算差異表達的置信度p值,以0.05或者0.01作為閾值;三是機器學習方法,利用貝葉斯模型、隨機森林等。分析的結果從來不用擔心沒有差異基因,而是要考慮差異基因可能存在很多,從幾十個到上百個不等,那麼如何展示他們呢,一張簡單粗暴的大表格嗎?肯定是不行的!
需要把上遊的這些差異基因再進行注釋、分組,一個類別就相當於一個GO term,然後看這幾大類的區別,肯定比看幾十甚至上百個基因或蛋白的差異要更加直觀,這就是富集分析,包括GO分析,KEGG分析,GSEA分析等。其中重點研究的基因集叫做前景基因,需要比對的所有基因集叫背景基因,前景是背景的子集。例如轉錄組數據中的對照組和處理組,處理與對照之間的差異基因就是前景基因,兩組所有的表達基因就是背景基因。富集分析的目的就是根據不同功能,把各個分子進行分類,然後使用超幾何分布檢驗進行分析。當然使用不同工具,得到的結果不同,現在clusterProfiler要比DAVID的結果更多。
GO分析(Gene Ontology)包括GO terms(標籤)+GO annotations(注釋)。
GO terms存在於由基因本體聯合會(Gene Ontology Consortium)建立的資料庫中,對基因和蛋白功能進行限定和描述,每個注釋信息都有一個GO ID。它由兩部分構成,第一部分都是GO,第二部分是以0開頭的7位數字,例如GO:0016021 。
GO是一個情報員,他負責調查:包括基因的分子功能:「幹啥的」(molecular function,MF),指分子所執行的任務【如與碳水化合物結合或ATP水解酶活性等】、細胞組分:「活動區域」即產物發揮作用的位置(cellular component,CC)【如核仁、端粒和識別起始的複合物】、參與的生物過程:「近期有什麼動靜」(biological process,BP)【嘌呤代謝、有絲分裂等】GO調查完就給被查對象貼標籤term
GO annotations即GO注釋,是針對基因產物的而不是基因,表示某些基因的產物是是非編碼RNA、蛋白質還是大分子等。這裡GO就相當於一個中間媒介,它對基因進行定義GO term,然後其他各個資料庫使用GO的定義方法,對它們的基因產物進行標註,例如一個資料庫的EntrezID或SYMBOL與GO資料庫進行ID對應,或者用一個資料庫的序列與GO term進行對應。
在一個GO注釋中,例如,一個基因的產物是細胞色素c(cytochrome c),那麼這個基因的產物就會被一個分子功能術語(Molecular Function)描述為氧化還原酶活性(oxidoreductase activity ),被生物過程(Biological Process)描述為氧化磷酸化(oxidative phosphorylation ),被細胞成分(Cellular Component )描述為線性體基質(mitochondrial matrix )和線粒體內膜(mitochondrial inner membrane )~引用自「讀研筆記」
pathway代謝通路GO負責分門別類,而pathway負責把每一類對應到具體的代謝網絡中。研究pathway的原因是:生物學問題中設定一個「蝴蝶效應」假設:1個Pathway上遊基因的改變,會導致下遊相關基因改變,從而改變通路中大量基因的表達。現在常用是KEGG,但是它收錄的都是是已有的研究結果,而這些信息,還沒有完善
. 熟悉一下BioconductorBioconductor擁有上千個擴展包,主要有實驗數據包、軟體包、注釋數據包三大類,例如白血病的ALL包就是利用Affymetrix進行晶片分析的數據包;但最重要的當屬軟體包
軟體包:1 . 注釋:GO、Pathway等
2 . 微陣列板塊(Assay Domains):處理晶片數據,Bioconductor支持主流的Affymetrix的商業化單色寡聚核苷酸晶片,也支持用戶定製的雙色cDNA晶片。晶片數據一般流程:數據預處理、差異表達基因篩選、聚類分析。這裡的包有以下幾部分:
比較基因組雜交(Comparative Genomic Hybridization, CGH)
細胞水平檢測(Cell Based Assays)
染色質免疫共沉澱晶片(ChIPchip)
拷貝數變異(Copy Number Variants)
CpG島(CpGIsland)
差異表達(Differential Expression)
DNA甲基化(DNA Methylation)
外顯子檢測(Exon Assay)
基因表達(Gene Expression)
遺傳變異性(Genetic Variability)
單核苷酸多態性(SNP)
轉錄
3 . 測序技術(Assay techs)
4 . 數據處理:基因晶片數據預處理(背景矯正、歸一化、質控)、晶片分析、基因間關係、樣本間關係、識別差異基因
聚類分析(Clustering)、分類(Classification)、富集分析(Enrichment)、多組比較(Multiple Comparison)、預處理(Preprocessing)、質控、序列匹配、時間序列分析(Time Course)、可視化、網絡分析
點擊底部的「閱讀原文」,獲得更好的閱讀體驗哦😻
初學生信,很榮幸帶你邁出第一步。
我們是生信星球,一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請後臺留言、聯繫微信或發送郵件到Bioplanet520@outlook.com
攢錢買麥旋風,點一下廣告=2毛