R語言實現DNA結構預測

2021-02-15 R語言交流中心

大家對DNA應該都有一定的了解,那麼DNA同樣不僅僅是具有一級結構的鹼基序列,而且還具有二級結構(雙螺旋),三級結構(超螺旋)的特徵。今天給大家介紹一個來預測DNA結構的R包DNAshapeR,其從基因組測序數據中以超高速、高通量的方式預測DNA形狀特徵。該軟體包以核苷酸序列或基因組間隔作為輸入,並生成各種圖形表示,以供進一步分析。DNA預測使用滑動五聚體窗口,其中512個不同五聚體中的每一個都有獨特的結構特徵,從而在每個核苷酸位置(周向)定義了小溝寬(MGW),滾動,螺旋槳扭曲(ProT)和螺旋扭曲(HelT)的向量(周 等人,2013)。MGW和ProT定義鹼基對參數,而Roll和HelT代表鹼基對步長參數。首先我們看下需要安裝的包:

 

BiocManager::install("DNAshapeR")BiocManager::install("BSgenome.Scerevisiae.UCSC.sacCer3")BiocManager::install("BSgenome.Hsapiens.UCSC.hg19")BiocManager::install("AnnotationHub")BiocManager::install("Biostrings")

接下來我們直接通過實例來看下包的操作:

 

1. 序列的結構預測

library(DNAshapeR)fn <- system.file("extdata","CGRsample.fa", package = "DNAshapeR")pred <- getShape(fn)

 

 

 

 

2. 對於參考基因組上的間隔進行預測

library(BSgenome.Scerevisiae.UCSC.sacCer3) # Create a query GRanges objectgr <- GRanges(seqnames =c("chrI"),           strand = c("+", "-", "+"),           ranges = IRanges(start = c(100, 200, 300), width = 100))getFasta(gr, Scerevisiae, width = 100,filename = "tmp.fa")fn <- "tmp.fa"pred <- getShape(fn)heatShape(pred$ProT, 20)#其中20指的是色塊的合併需要的大小即熱圖的單元格數量

 

3. 利用公共的平臺去檢索對應的基因序列做結構預測,當然,我們參考的這個平臺的包需要連接外網。

library(BSgenome.Hsapiens.UCSC.hg19)library(AnnotationHub) ah <- AnnotationHub()

 

ah <- subset(ah, species=="Homosapiens")ah <- query(ah, c("H3K4me3","Gm12878", "Roadmap"))getFasta(ah[[1]], Hsapiens, width = 150,filename = "tmp.fa")

 

fn <- "tmp.fa"pred <- getShape(fn)

 

4. 預測CpG甲基化背景下的DNA形態特徵,可以製備一個FASTA序列文件,其中符號Mg: M表示前導鏈上甲基化CpG的胞嘧啶,符號g表示後隨鏈上甲基化CpG的胞嘧啶。例如,

 

library(DNAshapeR)fn_methy <- system.file("extdata","MethylSample.fa", package = "DNAshapeR")pred_methy <- getShape(fn_methy,methylate = TRUE)

 

5. 基因組瀏覽器的類似功能,展示DNA形狀的預測結構

fn2 <- system.file("extdata","SingleSeqsample.fa", package = "DNAshapeR")pred2 <- getShape(fn2)trackShape(fn2, pred2) 

 

6. DNA序列的編碼

library(Biostrings)fn3 <- system.file("extdata","PBMsample_short.fa", package = "DNAshapeR")pred3 <- getShape(fn3)featureType <- c("1-mer","1-shape")featureVector <- encodeSeqShape(fn3,pred3, featureType)head(featureVector)

得到DNA序列的編碼,後面具體如何應用那就很廣了,在此不再贅述。

歡迎大家學習交流!

相關焦點

  • r語言有什麼優劣勢及R語言的未來發展趨勢_R語言在現實中的應用
    「我之所以喜愛R語言,是因為它易於從計算機科學角度出發實現編程,」Peng表示。而R語言隨時間推移正呈現出愈發迅猛的發展態勢,並成為能夠將不同數據集、工具乃至軟體包結合在一起的膠水型語言,Peng解釋道。 「R語言是創建可重複性及高質量分析的最佳途徑。
  • R語言-stringr-字符串處理
    ,不用轉義路徑複製和直接可用charchar <- r"(我是一名'R語言'學習者)"cat(char)常用函數截取字符串,匹配字符串,添加指定字符籌齊長度,去除左右兩邊空格,分割字符串,r_left <- function(str,num){  str_sub(string = str,start = 1,end = num)}r_left('我是R語言學習者',3)
  • 使用機器學習和Python揭開DNA測序神秘面紗
    通過有效利用大型數據集,深度學習已給了計算機視覺和自然語言處理等領域帶來了很大進步。它已成為許多基因組建模任務的首選方法,包括預測遺傳變異對基因調控機制(如DNA接受性和DNA剪接)的影響。在本文中,我們將了解如何解釋DNA結構以及如何使用機器學習算法來建立DNA序列數據的預測模型。DNA序列如何表示?
  • R語言arma模型診斷_arma模型實現模型r語言 - CSDN
    tsdiag(m1)  #對估計進行診斷,判斷殘差是否為白噪聲summary(m1)r=m1$residuals  #用r來保存殘差Box.test(r,type="Ljung-Box",lag=6, fitdf=1)#對殘差進行純隨機性檢驗,fitdf表示殘差減少的自由度
  • 醫學統計與R語言:GiViTI Calibration Belt
    當95%CI 區域不穿過45°對角平分線時,提示預測模型擬合度好。GiViTI校準曲線帶圖的P<0.05說明預測模型的擬合度不佳。https://cran.r-project.org/web/packages/givitiR/vignettes/givitiR.htmlNattino, G., Finazzi, S., & Bertolini, G. (2016).
  • R語言實現LASSO回歸模型
    今天我們給大家介紹下在R語言如何實現LASSO模型構建,其中有兩個包是可以實現的(glmnet和lars)。因為glmnet涉及範圍涉及廣義線性模型,我們就主要介紹下lars是怎麼實現LASSO的。包的安裝我就不多講了,install.pacakges(),你懂的。   首先我們看下其函數lars()。
  • 掌握R語言for循環一文就夠了(認真臉)
    R語言相信大家在利用R語言進行數據分析的時候可能會有大數據分析需求。R語言不考慮並行運算下的簡單批處理實現方式就是for循環。rstudio在左側光標處就可以輸入你的代碼了for循環基本結構如下=1再執行下一個for,直到下一個for的r從1到100都執行完後再跳到第一個for r=2,再執行r從1到100,再r=3以此類推直到r=100,整個for循環就結束了。
  • r語言的p值檢驗 - CSDN
    輸入1: rdata = matrix(rnorm(1000* 6, 0, 3), 6) rvar = apply(rdata, 2, var) mean(rvar)結果1: )醫學統計R語言:分面畫boxplot醫學統計與R語言:調節效應分析(Moderation Analysis)醫學統計與R語言:結構方程模型(structural equation model)醫學統計與R語言:中介效應分析(mediation effect analysis)醫學統計與R語言:生存曲線(survival curves
  • C語言基礎:以實例跟我學while循環結構,計算圓周率pi
    循環結構是程式語言中的一種基本程序結構,C語言中有兩種表示方法,分別可通過for循環和while循環結構實現。上篇文章已經講了for循環的使用方法,詳細請參考:這次通過一個計算圓周率pi的例子給大家介紹C語言中while循環結構的編程方法。
  • 9 本優秀的 R 語言免費電子圖書
    R語言是主要用於統計分析、繪圖的語言和操作環境。 R本來是由來自紐西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman 開發。
  • 科學家建立一種新型的元DNA結構,開闢光電子以及合成生物學
    這項研究今天發表在自然化學--的確,元DNA自組裝的概念可能會徹底改變結構DNA納米技術的微觀世界。眾所周知,沃森-克裡克鹼基配對的可預見性以及dna的結構特徵,使得dna可以作為一種通用的構件,來設計複雜的納米結構和設備。
  • Deepmind實現蛋白質3D結構精準預測,或將改變生命科學研究範式|...
    · 人工智慧 DeepMind 實現精準預測蛋白質 3D 結構,突破蛋白質摺疊預測難題 當地時間 11 月 30 日,DeepMind 宣布其新一代 AlphaFold 人工智慧系統能夠基於胺基酸序列,精確預測蛋白質 3D 結構,在解決蛋白質摺疊問題方面取得了重要進展。
  • 從經典結構到改進方法,神經網絡語言模型綜述
    神經網絡語言模型(NNLM)克服了維數的限制,提升了傳統語言模型的性能。本文對 NNLM 進行了綜述,首先描述了經典的 NNLM 的結構,然後介紹並分析了一些主要的改進方法。研究者總結並對比了 NNLM 的一些語料庫和工具包。此外,本文還討論了 NNLM 的一些研究方向。
  • r語言卡方檢驗和似然比檢驗_r語言似然比檢驗代碼 - CSDN
    本文對應《R語言實戰》第9章:方差分析;第10章:功效分析 ====================================================================方差分析:回歸分析是通過量化的預測變量來預測量化的響應變量,而解釋變量裡含有名義型或有序型因子變量時
  • R語言從入門到精通:Day12--R語言統計--回歸分析
    它其實是一個廣義的概念,通指那些用一個或多個預測變量(也稱自變量)來預測響應變量(也稱因變量) 的方法。通常,回歸分析可以用來挑選與響應變量相關的預測變量,可以描述兩者的關係,也可以生成一個等式,通過預測變量來預測響應變量。
  • 機器學習的R包
    R語言:R語言可以使用rpart包實現決策樹fit3 <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis,control = rpart.control(cp = 0.05))其中參數
  • r語言一元回歸模型專題及常見問題 - CSDN
    它規定模型f函數只能是y=k*x+b的形式,即只使用一個變量x(故稱為一元)的線性形式來預測目標變量y。6.1.1引例利用某網站歷次促銷活動中促銷讓利費用和銷售金額的數據(單位是十萬元),將使用該數據集來說明線性回歸分析的應用。
  • 入門| 簡易指南帶你啟動 R 語言學習之旅
    53.520.830.614.8[4,]55.020.330.315.2[5,]52.520.830.315.5[6,]57.521.530.815.6[7,]53.020.632.515.6[8,]55.021.534.015.7數據幀(dataframe)數據幀是R語言裡最常用的數據結構之一
  • 數據可視化之R語言
    可以通過設置horizontal=TRUE將箱線圖調為水平格式,此外,如果數據為數據框並且為響應變量和預測分組變量的形式,則可以使用公示語法——響應變量~預測變量的形式,如> boxplot(grass$rich~grass$graze,data=grass,horizontal=TRUE,
  • 用AVR彙編語言實現AES及其優化
    本文在研究分析AES加密算法原理的基礎上,著重說明算法的實現步驟,並結合AVR彙編語言完整地實現AES加密和解密。根據AES原理,提出幾種列變化的優化算法,並根據實驗結果分析和比較它們的優缺點。本文以128為例,介紹算法的基本原理;結合AVR彙編語言,實現高級數據加密算法AES。1 AES加密、解密算法原理和AVR實現AES是分組密鑰,算法輸入128位數據,密鑰長度也是128位。用Nr表示對一個數據分組加密的輪數(加密輪數與密鑰長度的關係如表1所列)。