Nature Methods | python求數據均值和標準差

2021-12-25 小杜的生信筆記

目前，如果你還是編程小白！！

你諮詢編程大神：大神、大神，我想學編程，你說我是學Java、C語言、Python..，還是其他的語言？你推薦先學哪一種程式語言呢？.。

問題就如糖衣大炮一樣，又讓人應接不暇，無從下口。但是，大多數大神給你的回答就是學python，我前面也寫過一篇博文為什麼推薦學Python。首先，Python語法讀起來還是比較簡單的，類似於R語言一樣，以及Python的用途很廣等等因素結合起來，所以推薦小白的你來學Python。

但是說來慚愧，自己很早以前就一直有這個概念，有這樣的想法，但是由於自己一直沒有堅持下來，到現在還是不會寫Python代碼，慚愧，羞愧，害...，沒有臉說什麼吧。我自己也是個編程小白。

生信人，最少需要來掌握一門程式語言（PS：自己定義R語言不算，個人認為R是必須掌握的）。個人推薦，Perl或Python可以適當學一點哦！至少可以滿足自己需求，如果你不會，那只能求助他人啦（滿足這個條件的前提是，你身邊有這樣的大神）。

OK！！前面都是些「廢話」，我後續也會逐漸的分享一些關於Python的教程。

我們一起進步啦！！一起學習！！

今天分享的教程是，求所有數據的標準差和均值

代碼來自Nature Methods，題目OME-NGFF: a next-generation file format for expanding bioimaging data-access strategies，網址：https://www.nature.com/articles/s41592-021-01326-w#data-availabilit

1.1 原始數據

代碼區

## python
# Get the standard deviation and mean for all the benchmark data
# grouped by type (e.g. HDF5, TIFF, Zarr, Overhead) and by
# source (e.g. http, local, s3)

## 加載所需包
import pandas

# 加載我文件
for csv_file in ["2d_benchmark_data.csv", "3d_benchmark_data.csv"]:

print(csv_file)

df = pandas.read_csv(csv_file)

print("Mean")
mean_values = df.groupby(["type", "source"]).mean()
# or if you only want the "seconds" column
# mean_values = mean_values["seconds"]
print(mean_values)

print("Std")
std_values = df.groupby(["type", "source"]).std()
print(std_values)

代碼分段式

for csv_file in ["2d_benchmark_data.csv", "3d_benchmark_data.csv"]:

print(csv_file)

求均值

df = pandas.read_csv(csv_file)

print("Mean")
mean_values = df.groupby(["type", "source"]).mean()

輸出結果如下：

2d_benchmark_data.csv
Mean
type source
HDF5 http 0.221113
local 0.002818
s3 1.121805
Overhead http 0.001269
local 0.000014
s3 0.011279
TIFF http 0.151114
local 0.086267
s3 0.388272
Zarr http 0.006652
local 0.007099
s3 0.131575
Name: seconds, dtype: float64
Std
duration chunk_distance round seconds
type source
HDF5 http 0.051123 149981.733567 29.011492 0.051115
local 0.004189 149981.733567 29.011492 0.004156
s3 0.322672 149981.733567 29.011492 0.322666
Overhead http 0.001197 149981.733567 29.011492 0.001187
local 0.000016 149981.733567 29.011492 0.000002
s3 0.002839 149981.733567 29.011492 0.002838
TIFF http 0.037332 149981.733567 29.011492 0.037327
local 0.036226 149981.733567 29.011492 0.036227
s3 0.088530 149981.733567 29.011492 0.088532
Zarr http 0.001773 149981.733567 29.011492 0.001760
local 0.002866 149981.733567 29.011492 0.002868
s3 0.019592 149981.733567 29.011492 0.019609
3d_benchmark_data.csv
Mean
type source
HDF5 http 0.220592
local 0.002479
s3 1.046130
Overhead http 0.001163
local 0.000023
s3 0.012607
TIFF s3 0.928801
Zarr http 0.013290
local 0.007667
s3 0.100552
Name: seconds, dtype: float64
Std
duration chunk_distance round seconds
type source
HDF5 http 0.051433 906299.64163 29.011492 0.051430
local 0.002911 906299.64163 29.011492 0.002880
s3 0.259094 906299.64163 29.011492 0.259042
Overhead http 0.000518 906299.64163 29.011492 0.000509
local 0.000086 906299.64163 29.011492 0.000051
s3 0.005196 906299.64163 29.011492 0.005179
TIFF s3 NaN NaN NaN NaN
Zarr http 0.009346 906299.64163 29.011492 0.009336
local 0.006391 906299.64163 29.011492 0.006381
s3 0.015169 906299.64163 29.011492 0.015172

Process finished with exit code 0

初學者，很多不懂，請大家多多指教！！

一起進步哦！！！

「小杜的生信筆記」公眾號、知乎、簡書，主要發表或收錄生物信息學的教程，以及基於R的分析和可視化（包括數據分析，圖形繪製等）；分享感興趣的文獻和學習資料！

相關焦點

EXCEL求標準差,中位數,均值

Excel作為常用數據處理軟體，非常適合做一些數據統計類的工作，比如求一組數據的標準差，中位數，均值：假設A列有若干隨機數據，我們用函數
你用對「均值和標準差(SD)」和「均值和標準誤(SEM)了嗎」

用「均值和標準差（SD）」還是「均值和標準誤（SEM）？
數理統計丨剖析均值方差與標準差

其中最基礎的分析工具就是均值，方差以及標準差。通過這三個基本工具，我們就可以對給定數據的分布規律有一定基本的了解，從而我們就可以做一些最基礎的數據歸納與預測了。其中方差和標準差就是兩個基於均值衍生的兩個非常重要的描述指標方差（Variance）在均值的介紹中，我們說了，通過均值，我們可以知道一組數據中的大部分數據都會分布在均值的附近。但是我們卻沒說這些數據離咱們的均值有多遠。為什麼我們需要知道我們的數據離均值有多遠呢？我們用兩個例子來說明。
python 生成正態分布數據,並繪圖和解析

這篇文章主要介紹了python 生成正態分布數據,並繪圖和解析，幫助大家更好的利用python進行數據分析，感興趣的朋友可以了解下
OpenCV-Python教程:統計函數~非零數、極值、和、均值、標準差、行列統計

本文介紹圖像統計功能相關的函數，包含統計元素中非零值的數量、最小值、最大值、和、均值、標準差，以及單行或單列的最小值、最大值、和、均值。1、非0值數量 countNonZerocountNonZero()用來統計元素值為非0值的像素點個數。
學信號處理要理解均值、平均偏差、標準差、方差

那麼研究均值有啥意義呢？其實一般對於原始樣本直接計算均值可能意義不是特別大，但是基於均值衍生的其他統計量則非常有價值，比如接下來要說的標準偏差，簡稱為標準差。平均偏差在談標準差之前，先談談平均偏差。，每個樣本與均值的偏離程度之和再求平均，則就是字面意思了，所有樣本與平均值的偏離程度，故稱為平均偏差。
python數據分析:numpy入門

微信公眾號：學點啥玩點啥小白友好型python數據分析：numpy入門numpy:一個在python中做科學計算的基礎庫，重在數值計算，也是大部分python科學計算庫的基礎庫，多用於在大型、多維數組上執行數值計算。
Nature Methods:fMRIPrep: 一個穩定的fMRI數據預處理工具

因此，神經影像領域缺乏能夠可靠地為來源不同的數據集提供高質量和一致性結果的預處理流程。表1 一系列現有的影像預處理軟體工具結果fMRIPrep是一個功能強大且方便的工具，能夠使研究人員和臨床醫生對任務和靜息態的功能磁共振數據進行預處理。
用 Python 對數據進行相關性分析

在進行數據分析時，我們所用到的數據往往都不是一維的，而這些數據在分析時難度就增加了不少，因為我們需要考慮維度之間的關係。而這些維度關係的分析就需要用一些方法來進行衡量，相關性分析就是其中一種。本文就用python來解釋一下數據的相關性分析。
利用Python進行數據分析--第七章數據統計<一>

數據分析 13個
統計過程控制(SPC)和休哈特控制圖之十二-Xbar-S(均值-標準差)控制圖分析

這一期來介紹一下Xbar-S(均值-標準差)控制圖，希望下面分享的能給朋友們理解和應用統計過程控制帶來啟發和幫助
標準差計算公式

> The Standard Deviation is a measure of how spread out numbers are.為計算均值，現將上面步驟的結果相加再除以數據的個數But hang on ... we are calculating the Sample Standard Deviation, so instead of dividing by how many (N), we will divide by N-1
Python時間序列數據分析--以示例說明

雖然右圖在均值和方差上都是與時間無關的，但仍是非穩定數據。2. python判斷時序數據穩定性有兩種方法：1.Rolling statistic-- 即每個時間段內的平均的數據均值和標準差情況。Dickey-Fuller Test -- 這個比較複雜，大致意思就是在一定置信水平下，對於時序數據假設 Null hypothesis: 非穩定。
wps如何求標準差? WPS表格求標準差圖文教程

wps如何求標準差？ WPS表格求標準差圖文教程時間：2017-07-16 14:56 來源：三聯責任編輯：沫朵川北在線核心提示：原標題：wps如何求標準差？ WPS表格求標準差圖文教程 wps如何求標準差?下面為大家帶來了WPS表格求標準差的方法，供大家學習噢! 這裡標準偏差的計算使用n-1方法。
只有均值、標準差、樣本量可以進行獨立樣本t檢驗和方差分析嗎?

在實際工作和學習中，經常有非統計學專業的審稿老師諮詢，沒有原始數據只有樣本量、均值和標準差可以進行兩組獨立樣本t檢驗，方差分析以及組間兩兩比較嗎
標準差的含義——離均值的平均距離

其實求期望和求平均之間還是有那麼一些關係的。期望我們先來舉個例子，讓你對期望有直觀的理解。假設我有1個不均勻的六面體，每個面標了一個數字，分別是1、2、3、4、5、6。把它一般化，假設有x1、x2...xn一共n個數據，它們的均值是μ，那麼方差就可以表示為：有時候分母的n也會換成n-1，取決於它是樣本數據還是整體數據，不過對我們的結果影響不大。那麼方差有什麼意義呢？它所表示的是數據的波動程度，更具體的說，它表示的是數據與均值之間的離散程度。
【知識】標準差與標準誤差的區別和用法

當數據呈正態分布的時候，使用標準差是一個很好的選擇，經驗法則告訴我們觀測值落入（μ±2σ）的比例約為95%。然而，當數據分布為偏態或U型，J型等其他非正態分布情況下，使用標準差來表示數據的分散程度可能並不是一個最佳選擇（當然你依然可使用切比雪夫法則解釋），使用其他度量如極差、百分位數等可能是一個更好地選擇。
標準差、標準誤、標準誤差 ???

首先，說明兩點：（1）標準誤差就是標準誤，標準誤就是標準誤差，他們兩是一個東西。（2）標準差和標準誤不是同一個東西，他們有聯繫也有區別。那麼，標準差和標準誤又是怎麼樣的一種微妙關係呢。借用一下WolframMathWorld上對標註差和標準誤的定義。標準差（Standard Deviation）[1]
wps如何求標準差? 手把手教你如何在WPS表格中求標準差

wps如何求標準差？手把手教你如何在WPS表格中求標準差時間：2017-08-08 14:42 來源：系統天堂責任編輯：沫朵川北在線核心提示：原標題：wps如何求標準差？手把手教你如何在WPS表格中求標準差 wps如何求標準差?怎麼求一系列數據的標準方差呢?
python數據科學系列:numpy入門詳細教程

本文知識要點一級菜單numpy：numerical python縮寫，提供了底層基於C語言實現的數值計算庫，與python內置的list和array數據結構相比，其支持更加規範的數據類型和極其豐富的操作接口，速度也更快numpy的兩個重要對象是ndarray和ufunc，其中前者是數據結構的基礎，後者是接口方法的基礎ufunc，通函數，其意義是可以像執行標量運算一樣執行數組運算，本質即是通過隱式的循環對各個位置依次進行標量運算。

Nature Methods | python求數據均值和標準差

相關焦點

EXCEL求標準差,中位數,均值

你用對「均值和標準差(SD)」和「均值和標準誤(SEM)了嗎」

數理統計丨剖析均值方差與標準差

python 生成正態分布數據,並繪圖和解析

OpenCV-Python教程:統計函數~非零數、極值、和、均值、標準差、行列統計

學信號處理要理解均值、平均偏差、標準差、方差

python數據分析:numpy入門

Nature Methods:fMRIPrep: 一個穩定的fMRI數據預處理工具

用 Python 對數據進行相關性分析

利用Python進行數據分析--第七章 數據統計<一>

統計過程控制(SPC)和休哈特控制圖之十二-Xbar-S(均值-標準差)控制圖分析

標準差計算公式

Python時間序列數據分析--以示例說明

wps如何求標準差? WPS表格求標準差圖文教程

只有均值、標準差、樣本量可以進行獨立樣本t檢驗和方差分析嗎?

標準差的含義——離均值的平均距離

【知識】標準差與標準誤差的區別和用法

標準差、標準誤、標準誤差 ???

wps如何求標準差? 手把手教你如何在WPS表格中求標準差

python數據科學系列:numpy入門詳細教程

利用Python進行數據分析--第七章數據統計<一>