對基因做批量t檢驗--第一個生信工具

2021-02-20 pypi

我發現很多人R的代碼能力實在是太差了,可能都還是在for的那個水平,如果遇到一些批量運算的東西,可能就無從下手了。

之前遇到一個這樣的問題。他有一個基因數據,是一個csv表格,這個表格的第一列是一個group。然後剩下的每一列都是基因,這個同學相對每一個基因和group這一列做一個t.test。

這個其實不太難了,畢竟就是涉及到寫個基礎函數,然後寫個for循環之類的就完事了。但是,在真實的數據中,會遇到很多問題,比如某一組基因數據都是一樣的,比如數據中有缺失值,比如數據樣本不夠,可能都會導致for的計算終止,甚至很多人都看不懂錯誤。

上面還只是一個數據計算問題,如果可以計算,那麼計算出來的結果如何提取、如何保存?

下面是我最後保存出來的結果,並且將每一個錯誤都標記出來:到底是樣本不夠、還是缺失值太多,到底是基因數據不對還是balabala……。

說實話,寫成圖文教程估計也沒人看,寫成代碼估計也很少人會去改動,可能很多人連source都不太會用🚗

這裡面涉及到使用R的下面知識點:

formula形式、t.test的結果的提取、錯誤判斷,如果數據量比較大,還會涉及到計算速度的問題(應該用不用並行?還是使用for,如何加速等問題)。

這些東西就只是為了做一個批量計算基因的t檢驗。

實際上從R小白到會上面的東西,可能大部分人需要十幾天才能做出來,但是很多人等不及。

那麼我寫這個推文真的只是勸退嘛?

不是,我將要發布一個shiny,通過滑鼠,只需要選擇一個文件,然後R就會自動計算,同時返回實時計算的進度,你不需要再考慮上面的一系列數據格式轉換問題。保證電腦連接電源、保證良好的散熱,稍等片刻,我就能讓你的電腦起飛。

也歡迎大家聯繫我,如果遇到一些R上的困難,或者你覺得有什麼難題,或者你覺得一些內容代碼寫起來非常不方便,歡迎分享給我,郵箱是:yuanhzoulvpi@outlook.com

我現在也遇到一個難題,就是逐漸掌握一些技術之後(比如關於R,python,JavaScript一些內容)我沒有地方使用他們,也就是只能基於shiny來做一些交互的工具給大家使用,但是如果沒有使用場景做出來沒人用還是很浪費的,所以,希望大家有啥好的想法,或者說你遇到一些難以解決的東西,希望有更加優雅的解決方式,可以找我,如果效果非常好,會給一定的報酬。歡迎在讀者討論中積極發言💬,或者發郵箱給我:yuanzhoulvpi@outllok.com。

讓大家沒有難用的R代碼🚔

相關焦點

  • 生信小工具:Orthofinder使用教程
    Orthofinder介紹OrthoFinder是比較基因組學中的實用的,運行快速,準確的全面的工具。它的主要功能是,找到了正交群和直系同源物,推斷出所有正交群的根基因樹,並識別那些基因樹中的所有基因重複事件。它還為所分析的物種推斷出有根的物種樹,並將基因重複事件從基因樹比對到物種樹的分支中。另外,OrthoFinder還為比較基因組分析提供全面的統計數據。
  • 高分生信必備的TCGA資料庫一站式分析神器!真捨不得告訴你
    這款工具是發表於今年2月的生信老牌期刊Bioinformatics,2019同樣使用帶有FDR校正功能的Student t檢驗來評估獨立亞組在臨床變量和分子參數方面的差異。並通過箱式圖和帶有t檢驗結果的列表展示相應結果。該模塊有助於了解所選腫瘤的不同組織學類型之間基因表達的差異。如果某些類型與顯著的低基因表達或高基因表達有關,那麼相應的箱形圖將發生變化。每個箱線圖顯示中位數和四分位數表達(框的邊界),最小和最大表達以及離群值。
  • 單基因生信分析2--下遊分析
    前期小王子已經更過單基因生信分析--差異分析&生存分析,今天,小王子跟大家一起學習如何進行下遊挖掘,也就是本期主打的單基因下遊富集通路,以下以
  • 批量解決哪個轉錄因子調控你的基因
    果子導讀:   我的導師曾經跟我講過,10年前,CELL雜誌每期一半以上都是在做轉錄調控。10年後,我們發現,在很多雜誌,這個現象依然存在。   如果已知轉錄因子,找他的靶基因,用ChIP-seq就可以搞定。
  • 尋找同源基因工具OrthoMCL與OrthoFinder的安裝與使用
    OrthoMCL-pipline的安裝、配置及其使用 OrthoMCL-pipline的安裝不僅需要工具OrthoMCL所依賴的MySql資料庫外還需要工具所必須的perl模塊環境,在對MySql資料庫的搭建成功後,才可以對接下來的pipline工具進行配置。
  • t檢驗的目的_單樣本t檢驗的目的 - CSDN
    3,T檢驗和F檢驗至於具體要檢定的內容,須看你是在做哪一個統計程序。你做的是T檢驗,為什麼會有F值呢?T檢驗和F檢驗的關係另一種解釋:t檢驗有單樣本t檢驗,配對t檢驗和兩樣本t檢驗。    因為我們在做正態檢驗時,要使用到平均數和標準差以確定該正態分布形態,此外,要計算出各個區間的理論次數,我們還需要使用到N。
  • 在回歸分析中t檢驗_回歸分析的t檢驗如何做 - CSDN
    統計分析常需要先做假設或判斷,然後利用數據分析技術來驗證假設是否成立。數據挖掘則不需要對數據內在的關係做任何假設和判斷,而是讓數據挖掘工具中的算法自動去尋找數據中隱藏的關係和規律。  統計分析在預測中的應用常表現為一個或者一組函數關係式,而數據挖掘在預測中有時候不會從結果中生產明確的函數關係,不知道哪些變量起作用,缺乏解釋性,例如「神經網絡」。
  • 利用python做t檢驗
    當樣本符合正態分布或趨近於正太分布時可以使用;(根據中心極限定理,當樣本n>30時,可認為近似符合正態分布)使用用途:檢驗的總體方差未知,主要檢驗單個樣本是否和已知的總體均值相等;(python使用 ttest_1samp檢驗-雙邊)檢驗兩對獨立的正太數據或近似正太分布的均值是否相等;(python用ttest_ind
  • 「spss數據分析系列」t檢驗
    一、t統計量及t檢驗本人介紹spss數據分析中的t檢驗,我們平時分析數據時經常對比均值,其中兩分類的均值對比採用的t檢驗,這裡強調一下的是兩分類的對比,其他還有獨立樣本t檢驗,配對t檢驗,我們在下面spss軟體部分再做說明
  • 第七章 t檢驗與u檢驗--第一節 t檢驗
    第七章 t檢驗與u檢驗   抽樣研究包含參數估計與通過假設檢驗作統計推斷這樣一些重要內容。前者在第六章最後一節中已經涉及,後者如X2檢驗,我們亦已有過接觸。本章將介紹兩均數相比時的假設檢驗。
  • 假設檢驗、Z檢驗與T檢驗
    單樣本t檢驗雙樣本t檢驗Z檢驗和t檢驗的決定案例研究:Python冠狀病毒的假設檢驗假設檢驗基礎讓我們舉一個例子來理解假設檢驗的概念。一個人因刑事犯罪正在接受審判,法官需要對他的案件作出判決。進行假設檢驗的步驟進行假設檢驗有四個步驟:設定假設設定決策的重要程度和標準計算測試統計做決策步驟1到步驟3是非常不言而喻的,但是我們可以根據什麼在步驟4中做出決定?
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    3,T檢驗和F檢驗至於具體要檢定的內容,須看你是在做哪一個統計程序。舉一個例子,比如,你要檢驗兩獨立樣本均數差異是否能推論至總體,而行的t檢驗。兩樣本(如某班男生和女生)某變量(如身高)的均數並不相同,但這差別是否能推論至總體,代表總體的情況也是存在著差異呢?
  • 理解 t 檢驗與 F 檢驗的區別
    至於具體要檢定的內容,須看你是在做哪一個統計程序。舉一個例子,比如,你要檢驗兩獨立樣本均數差異是否能推論至總體,而進行t檢驗。兩樣本(如某班男生和女生)某變量(如身高)的均數並不相同,但這差別是否能推論至總體,代表總體的情況也是存在顯著差異呢?
  • 淺入淺出 | 學生t檢驗 (附qPCR計算升級版)
    假設檢驗假設檢驗這個東西,我們顧名思義,就是檢驗某一個假設,所以,這就很自然地引出兩個重點,欸對,兩個重點就是:我們可以這麼理解student t檢驗這個東西:我有兩組數據,A和B。這裡有兩個統計學的術語:除了T檢驗,還有別的檢驗,不同的檢驗都有對應的假設和檢驗方法,比如F-檢驗,卡方檢驗,秩和檢驗等,適用於不同的情況,有不同的目的,使用前要搞清楚。
  • 單基因生信加點免疫組化,4分sci等你來發!
    我是你們的老朋友小木舟~今天給大家分享一篇2019年11月發表於《JOURNAL OF TRANSLATIONAL MEDICINE》的一篇單基因生信結合組化實驗的文章,雜誌IF= 4.098。(可用在線工具UALCAN :http://ualcan.path.uab.edu/index.html完成)。採用Kaplan-Meier方法進行的Progression-Free Survial和OverallSurvial生存分析表明,在TCGA中水通道蛋白9的高表達與較短的PFS(p=0.009)和較短的OS(p<0.001)顯著相關。
  • 通俗理解T檢驗與F檢驗的區別
    3,T檢驗和F檢驗 至於具體要檢定的內容,須看你是在做哪一個統計程序。 舉一個例子,比如,你要檢驗兩獨立樣本均數差異是否能推論至總體,而行的t檢驗。惟t檢驗須知道兩個總體的方差(Variances)是否相等;t檢驗值的計算會因方差是否相等而有所不同。也就是說,t檢驗須視乎方差齊性(Equality of Variances)結果。所以,SPSS在進行t-test for Equality of Means的同時,也要做Levene's Test for Equality of Variances 。
  • 一元回歸t檢驗與f檢驗_多元回歸模型的r檢驗f檢驗與t檢驗 - CSDN
    6、預測; 一元線性回歸操作和解釋摘要一元線性回歸可以說是數據分析中非常簡單的一個知識點,有一點點統計、分析、建模經驗的人都知道這個分析的含義,也會用各種工具來做這個分析變量的顯著性檢驗的思想:用的是純數理統計中的假設檢驗的思想。
  • t檢驗中t值的意義 - CSDN
    顯著性檢驗(significance test)就是事先對總體(隨機變量)的參數或總體分布形式做出一個假設,然後利用樣本信息來判斷這個假設(備擇假設)是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。或者說,顯著性檢驗要判斷樣本與我們對總體所做的假設之間的差異是純屬機會變異,還是由我們所做的假設與總體真實情況之間不一致所引起的。
  • T檢驗與F檢驗,你分清楚嗎?
    T檢驗和F檢驗至於具體要檢定的內容,須看你是在做哪一個統計程序。舉一個例子,比如,你要檢驗兩獨立樣本均數差異是否能推論至總體,而行的t檢驗。兩樣本 (如某班男生和女生) 某變量 (如身高) 的均數並不相同,但這差別是否能推論至總體,代表總體的情況也是存在著差異呢?
  • T檢驗與F檢驗,傻傻分不清楚?
    T 檢驗和 F 檢驗至於具體要檢定的內容,須看你是在做哪一個統計程序。舉一個例子,比如,你要檢驗兩獨立樣本均數差異是否能推論至總體,而行的 t 檢驗。兩樣本 (如某班男生和女生) 某變量 (如身高) 的均數並不相同,但這差別是否能推論至總體,代表總體的情況也是存在著差異呢?