Nature Methods | python求數據均值和標準差

2021-12-25 小杜的生信筆記

目前,如果你還是編程小白!!

你諮詢編程大神:大神、大神,我想學編程,你說我是學Java、C語言、Python..,還是其他的語言?你推薦先學哪一種程式語言呢?.。

問題就如糖衣大炮一樣,又讓人應接不暇,無從下口。但是,大多數大神給你的回答就是學python,我前面也寫過一篇博文為什麼推薦學Python。首先,Python語法讀起來還是比較簡單的,類似於R語言一樣,以及Python的用途很廣等等因素結合起來,所以推薦小白的你來學Python。

但是說來慚愧,自己很早以前就一直有這個概念,有這樣的想法,但是由於自己一直沒有堅持下來,到現在還是不會寫Python代碼,慚愧,羞愧,害...,沒有臉說什麼吧。我自己也是個編程小白。

生信人,最少需要來掌握一門程式語言(PS:自己定義R語言不算,個人認為R是必須掌握的)。個人推薦,Perl或Python可以適當學一點哦!至少可以滿足自己需求,如果你不會,那只能求助他人啦(滿足這個條件的前提是,你身邊有這樣的大神)。

OK!!前面都是些「廢話」,我後續也會逐漸的分享一些關於Python的教程。

我們一起進步啦!!一起學習!!

今天分享的教程是,求所有數據的標準差和均值

代碼來自Nature Methods,題目OME-NGFF: a next-generation file format for expanding bioimaging data-access strategies,網址:https://www.nature.com/articles/s41592-021-01326-w#data-availabilit

1.1 原始數據

代碼區

## python 
# Get the standard deviation and mean for all the benchmark data
# grouped by type (e.g. HDF5, TIFF, Zarr, Overhead) and by
# source (e.g. http, local, s3)

## 加載所需包
import pandas

# 加載我文件
for csv_file in ["2d_benchmark_data.csv", "3d_benchmark_data.csv"]:

   print(csv_file)

   df = pandas.read_csv(csv_file)

   print("Mean")
   mean_values = df.groupby(["type", "source"]).mean()
   # or if you only want the "seconds" column
   # mean_values = mean_values["seconds"]
   print(mean_values)

   print("Std")
   std_values = df.groupby(["type", "source"]).std()
   print(std_values)

代碼分段式

for csv_file in ["2d_benchmark_data.csv", "3d_benchmark_data.csv"]:

   print(csv_file)

求均值

df = pandas.read_csv(csv_file)

  print("Mean")
  mean_values = df.groupby(["type", "source"]).mean()

輸出結果如下:

2d_benchmark_data.csv
Mean
type     source
HDF5     http     0.221113
        local     0.002818
        s3       1.121805
Overhead http     0.001269
        local     0.000014
        s3       0.011279
TIFF     http     0.151114
        local     0.086267
        s3       0.388272
Zarr     http     0.006652
        local     0.007099
        s3       0.131575
Name: seconds, dtype: float64
Std
                duration chunk_distance     round   seconds
type     source                                              
HDF5     http   0.051123   149981.733567 29.011492 0.051115
        local   0.004189   149981.733567 29.011492 0.004156
        s3     0.322672   149981.733567 29.011492 0.322666
Overhead http   0.001197   149981.733567 29.011492 0.001187
        local   0.000016   149981.733567 29.011492 0.000002
        s3     0.002839   149981.733567 29.011492 0.002838
TIFF     http   0.037332   149981.733567 29.011492 0.037327
        local   0.036226   149981.733567 29.011492 0.036227
        s3     0.088530   149981.733567 29.011492 0.088532
Zarr     http   0.001773   149981.733567 29.011492 0.001760
        local   0.002866   149981.733567 29.011492 0.002868
        s3     0.019592   149981.733567 29.011492 0.019609
3d_benchmark_data.csv
Mean
type     source
HDF5     http     0.220592
        local     0.002479
        s3       1.046130
Overhead http     0.001163
        local     0.000023
        s3       0.012607
TIFF     s3       0.928801
Zarr     http     0.013290
        local     0.007667
        s3       0.100552
Name: seconds, dtype: float64
Std
                duration chunk_distance     round   seconds
type     source                                              
HDF5     http   0.051433   906299.64163 29.011492 0.051430
        local   0.002911   906299.64163 29.011492 0.002880
        s3     0.259094   906299.64163 29.011492 0.259042
Overhead http   0.000518   906299.64163 29.011492 0.000509
        local   0.000086   906299.64163 29.011492 0.000051
        s3     0.005196   906299.64163 29.011492 0.005179
TIFF     s3           NaN             NaN       NaN       NaN
Zarr     http   0.009346   906299.64163 29.011492 0.009336
        local   0.006391   906299.64163 29.011492 0.006381
        s3     0.015169   906299.64163 29.011492 0.015172

Process finished with exit code 0

初學者,很多不懂,請大家多多指教!!

一起進步哦!!!

「小杜的生信筆記」 公眾號、知乎、簡書,主要發表或收錄生物信息學的教程,以及基於R的分析和可視化(包括數據分析,圖形繪製等);分享感興趣的文獻和學習資料!

相關焦點

  • EXCEL求標準差,中位數,均值
    Excel作為常用數據處理軟體,非常適合做一些數據統計類的工作,比如求一組數據的標準差,中位數,均值:假設A列有若干隨機數據,我們用函數
  • 你用對「均值和標準差(SD)」和「均值和標準誤(SEM)了嗎」
    用「均值和標準差(SD)」還是「均值和標準誤(SEM)?
  • 數理統計丨剖析均值方差與標準差
    其中最基礎的分析工具就是均值,方差以及標準差。通過這三個基本工具,我們就可以對給定數據的分布規律有一定基本的了解, 從而我們就可以做一些最基礎的數據歸納與預測了。其中方差和標準差就是兩個基於均值衍生的兩個非常重要的描述指標方差(Variance)在均值的介紹中,我們說了,通過均值,我們可以知道一組數據中的大部分數據都會分布在均值的附近。但是我們卻沒說這些數據離咱們的均值有多遠。為什麼我們需要知道我們的數據離均值有多遠呢?我們用兩個例子來說明。
  • python 生成正態分布數據,並繪圖和解析
    這篇文章主要介紹了python 生成正態分布數據,並繪圖和解析,幫助大家更好的利用python進行數據分析,感興趣的朋友可以了解下
  • OpenCV-Python教程:統計函數~非零數、極值、和、均值、標準差、行列統計
    本文介紹圖像統計功能相關的函數,包含統計元素中非零值的數量、最小值、最大值、和、均值、標準差,以及單行或單列的最小值、最大值、和、均值。1、非0值數量 countNonZerocountNonZero()用來統計元素值為非0值的像素點個數。
  • 學信號處理要理解均值、平均偏差、標準差、方差
    那麼研究均值有啥意義呢?其實一般對於原始樣本直接計算均值可能意義不是特別大,但是基於均值衍生的其他統計量則非常有價值,比如接下來要說的標準偏差,簡稱為標準差。平均偏差 在談標準差之前,先談談平均偏差。,每個樣本與均值的偏離程度之和再求平均,則就是字面意思了,所有樣本與平均值的偏離程度,故稱為平均偏差。
  • python數據分析:numpy入門
    微信公眾號:學點啥玩點啥小白友好型python數據分析:numpy入門numpy:一個在python中做科學計算的基礎庫,重在數值計算,也是大部分python科學計算庫的基礎庫,多用於在大型、多維數組上執行數值計算。
  • Nature Methods:fMRIPrep: 一個穩定的fMRI數據預處理工具
    因此,神經影像領域缺乏能夠可靠地為來源不同的數據集提供高質量和一致性結果的預處理流程。表1 一系列現有的影像預處理軟體工具結果fMRIPrep是一個功能強大且方便的工具,能夠使研究人員和臨床醫生對任務和靜息態的功能磁共振數據進行預處理。
  • 用 Python 對數據進行相關性分析
    在進行數據分析時,我們所用到的數據往往都不是一維的,而這些數據在分析時難度就增加了不少,因為我們需要考慮維度之間的關係。而這些維度關係的分析就需要用一些方法來進行衡量,相關性分析就是其中一種。本文就用python來解釋一下數據的相關性分析。
  • 利用Python進行數據分析--第七章 數據統計<一>
    數據分析 13個
  • 統計過程控制(SPC)和休哈特控制圖之十二-Xbar-S(均值-標準差)控制圖分析
    這一期來介紹一下Xbar-S(均值-標準差)控制圖,希望下面分享的能給朋友們理解和應用統計過程控制帶來啟發和幫助
  • 標準差計算公式
    > The Standard Deviation  is a measure of how spread out numbers are.為計算均值,現將上面步驟的結果相加再除以數據的個數But hang on ... we are calculating the Sample Standard Deviation, so instead of dividing by how many (N), we will divide by N-1
  • Python時間序列數據分析--以示例說明
    雖然右圖在均值和方差上都是與時間無關的,但仍是非穩定數據。2. python判斷時序數據穩定性有兩種方法:1.Rolling statistic-- 即每個時間段內的平均的數據均值和標準差情況。Dickey-Fuller Test -- 這個比較複雜,大致意思就是在一定置信水平下,對於時序數據假設 Null hypothesis: 非穩定。
  • wps如何求標準差? WPS表格求標準差圖文教程
    wps如何求標準差? WPS表格求標準差圖文教程時間:2017-07-16 14:56   來源:三聯   責任編輯:沫朵 川北在線核心提示:原標題:wps如何求標準差? WPS表格求標準差圖文教程 wps如何求標準差?下面為大家帶來了WPS表格求標準差的方法,供大家學習噢! 這裡標準偏差的計算使用n-1方法。
  • 只有均值、標準差、樣本量可以進行獨立樣本t檢驗和方差分析嗎?
    在實際工作和學習中,經常有非統計學專業的審稿老師諮詢,沒有原始數據只有樣本量、均值和標準差可以進行兩組獨立樣本t檢驗,方差分析以及組間兩兩比較嗎
  • 標準差的含義——離均值的平均距離
    其實求期望和求平均之間還是有那麼一些關係的。期望我們先來舉個例子,讓你對期望有直觀的理解。假設我有1個不均勻的六面體,每個面標了一個數字,分別是1、2、3、4、5、6。把它一般化, 假設有x1、x2...xn一共n個數據,它們的均值是μ,那麼方差就可以表示為:有時候分母的n也會換成n-1,取決於它是樣本數據還是整體數據,不過對我們的結果影響不大。那麼方差有什麼意義呢?它所表示的是數據的波動程度,更具體的說,它表示的是數據與均值之間的離散程度。
  • 【知識】標準差與標準誤差的區別和用法
    當數據呈正態分布的時候,使用標準差是一個很好的選擇,經驗法則告訴我們觀測值落入(μ±2σ)的比例約為95%。然而,當數據分布為偏態或U型,J型等其他非正態分布情況下,使用標準差來表示數據的分散程度可能並不是一個最佳選擇(當然你依然可使用切比雪夫法則解釋),使用其他度量如極差、百分位數等可能是一個更好地選擇。
  • 標準差、標準誤、標準誤差 ???
    首先,說明兩點:(1)標準誤差就是標準誤,標準誤就是標準誤差,他們兩是一個東西。(2)標準差和標準誤不是同一個東西,他們有聯繫也有區別。那麼,標準差和標準誤又是怎麼樣的一種微妙關係呢。借用一下WolframMathWorld上對標註差和標準誤的定義。標準差(Standard Deviation)[1]
  • wps如何求標準差? 手把手教你如何在WPS表格中求標準差
    wps如何求標準差? 手把手教你如何在WPS表格中求標準差時間:2017-08-08 14:42   來源:系統天堂   責任編輯:沫朵 川北在線核心提示:原標題:wps如何求標準差? 手把手教你如何在WPS表格中求標準差 wps如何求標準差?怎麼求一系列數據的標準方差呢?
  • python數據科學系列:numpy入門詳細教程
    本文知識要點一級菜單numpy:numerical python縮寫,提供了底層基於C語言實現的數值計算庫,與python內置的list和array數據結構相比,其支持更加規範的數據類型和極其豐富的操作接口,速度也更快numpy的兩個重要對象是ndarray和ufunc,其中前者是數據結構的基礎,後者是接口方法的基礎ufunc,通函數,其意義是可以像執行標量運算一樣執行數組運算,本質即是通過隱式的循環對各個位置依次進行標量運算。