做實驗需要掌握哪些統計學知識?

2021-01-14 實驗室經理人


統計學是數據分析的基石。學了統計學,你會發現很多時候的分析並不靠譜。比如很多人都喜歡用平均數去分析一個事物的結果,但是這往往是粗糙的,不準確的。如果學了統計學,那麼我們就能以更多更科學的角度看待數據。 


大部分的數據分析,都會用到統計方面的以下知識,可以重點學習:

通過基本的統計量,你可以進行更多元化的可視化,以實現更加精細化的數據分析。這個時候也需要你去了解更多的Excel函數來實現基本的計算,或者python、R裡面一些對應的可視化方法。

有了總體和樣本的概念,你就知道在面對大規模數據的時候,怎樣去進行抽樣分析。

你也可以應用假設檢驗的方法,對一些感性的假設做出更加精確地檢驗。

利用回歸分析的方法,你可以對未來的一些數據、缺失的數據做基本的預測。

了解統計學的原理之後,你不一定能夠通過工具實現,那麼你需要去對應的找網上找相關的實現方法,也可以看書。先推薦一本非常簡單的:吳喜之-《統計學·從數據到結論》。 

另外,如何精力允許,請掌握一些主流算法的原理,比如線性回歸、邏輯回歸、決策樹、神經網絡、關聯分析、聚類、協同過濾、隨機森林。再深入一點,還可以掌握文本分析、深度學習、圖像識別等相關的算法。關於這些算法,不僅需要了解其原理,你最好可以流暢地闡述出來,還需要你知曉其在各行業的一些應用場景。如果現階段不是工作剛需,可不作為重點。

本文算是一個知識點匯總,不做細緻展開,讓大家了解統計學有哪幾大塊,每一類分別用於什麼樣的分析場景。後面幾篇會以實際案例的方式,細緻講講描述性統計、概率分布等。


知識點匯總:

1.集中趨勢

2.變異性

3.歸一化

4.正態分布

5.抽樣分布

6.估計

7.假設檢驗

8.T檢驗

1.眾數

出現頻率最高的數;

2.中位數

把樣本值排序,分布在最中間的值;

樣本總數為奇數時,中位數為第(n+1)/2個值;

樣本總數為偶數時,中位數是第n/2個,第(n/2)+1個值的平均數;

3.平均數

所有數的總和除以樣本數量;

現在大家接觸最多的概念應該是平均數,但有時候,平均數會因為某些極值的出現收到很大影響。舉個小例子,你們班有20人,大家收入差不多,19人都是5000左右,但是有1個同學創業成功了,年入1個億,這時候統計你們班同學收入的「平均數」就是500萬了,這也很好的解釋了,每年各地的平均收入數據出爐,小夥伴們直呼給祖國拖後腿了,那是因為大家收入被平均了,此時,「中位數」更能合理的反映真實的情況;


1.四分位數

上面說到了「中位數」,把樣本分成了2部分,再找個這2部分各自的「中位數」,也就把樣本分為了4個部分,其中1/4處的值記為Q1,2/4處的值記為Q2,3/4處的值記為Q3

2.四分位距 IQR=Q3-Q1

3.異常值

小於Q1-1.5(IQR)或者大於Q3+1.5(IQR);

對於異常值,我們在數據處理的環節就要剔除;

4.方差

5.平方偏差

方差的算術平方根

6.貝塞爾矯正:修正樣本方差

實際在計算方差時,分母要用n-1,而不是樣本數量n。原因在於,比如在高斯分布中,我們抽取一部分的樣本,用樣本的方差表示滿足高斯分布的大樣本數據集的方差。由於樣本主要是落在x=u中心值附近,那麼樣本如果用如下公式算方差,那麼預測方差一定小於大數據集的方差(因為高斯分布的邊沿抽取的數據也很少)。為了能彌補這方面的缺陷,那麼我們把公式的n改為n-1,以此來提高方差的數值,這種方法叫貝塞爾矯正係數。


1.標準分數

一個給定分數 距離 平均數 多少個標準差?

標準分數是一種可以看出某分數在分布中相對位置的方法。

標準分數能夠真實的反映一個分數距離平均數的相對標準距離。


1.定義:隨機變量X服從一個數學期望為μ,方差為σ⊃2;的正態分布,記為N(μ,σ⊃2;)

隨機取一個樣本,有68.3%的概率位於距離均值μ有1個標準差σ內;

有95.4%的概率位於距離均值μ有2個標準差σ內;

有99.7%的概率位於距離均值μ有3個標準差σ內;

1.中心極限定理

設從均值為μ,方差為σ⊃2;的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ⊃2;/n的正態分布

2.抽樣分布

設總體共有N個元素,從中隨機抽取一個容量為n的樣本,在重置抽樣時,共有N·n種抽法,即可以組成N·n不同的樣本,在不重複抽樣時,共有N·n個可能的樣本。每一個樣本都可以計算出一個均值,這些所有可能的抽樣均值形成的分布就是樣本均值的分布。但現實中不可能將所有的樣本都抽取出來,因此,樣本均值的概率分布實際上是一種理論分布。數理統計學的相關定理已經證明:在重置抽樣時,樣本均值的方差為總體方差的1/n。

舉個例子:

48盆MM豆,計算出每盆有幾個藍色的MM豆,48個數據構成了總體樣本。然後隨機選擇五盆,計算五盆中含有藍色MM豆的平均數,然後反覆進行了50次。這就是n為5的樣本均值抽樣。

1. 誤差界限

2. 置信度

We are some % sure the true population parameter falls within a specific range

我們有百分之多少確信總體中的值落在一個特定範圍內;

一般情況下,取95%的置信度就可以;

3. 置信區間


七、假設檢驗

1.問題:什麼是顯著性水平?

顯著性水平是估計總體參數落在某一區間內,可能犯錯誤的概率,也就是Type I Error

A Type II Error is when you fail to reject the null when it is actually false.

2. 如何選擇備選檢驗和零假設?

一個研究者想證明自己的研究結論是正確的,備擇假設的方向就要與想要證明其正確性的方向一致;

同時將研究者想收集證據證明其不正確的假設作為原假設H0

1. 主要用於樣本含量較小(例如n<30),總體標準差σ未知的正態分布。

流程如下:

是用t分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著;

一般檢驗水準α取0.05即可;

計算檢驗統計量的方法根據樣本形式不同;

2. 獨立樣本T檢驗:

現在要分析男生和女生的身高是否相同兩者的主要區別在於數據的來源和要分析的問題。

問題:為什麼T檢驗查表時候要n-1?

樣本均值替代總體均值損失了一個自由度

3. 配對樣本t檢驗

分析人的早晨和晚上的身高是否不同,於是找來一撥人測他們早上和晚上的身高,這裡每個人就有兩個值,這裡出現了配對

樣本誤差(Standard Error)


4. Pooled variance 合併方差

當樣本平均數不一樣,但實際上認為他們的方差是一樣的時候,需要合併方差

不要被公式嚇到,他的本質是兩個樣本方差加權平均


5. Cohen’s d

效應量(effect size):提示組間真正的差異佔統計學差異的比例,值越大,組間差異越可靠。

來源:實驗室ISO17025


全國產品檢測、技術培訓、儀器校準諮詢電話:4008180021


2021年實驗培訓課程目錄


ISO IEC 17025:2017實驗室管理體系內審員培訓

ISO IEC 17025:2017實驗室管理體系內審員轉版培訓

ISO IEC 17025:2017實驗室風險控制和評估培訓

檢測設備管理與量值溯源培訓

檢測數據控制及檢測結果的質量保證培訓

測量不確定評定與表示培訓

ISO 15189 醫學實驗室認可內審員培訓

CNAS-CL08 司法鑑定機構內審員培訓

汽車行業實驗室的管理要求- IATF 16949:2016 對汽車行業實驗室的要求培訓

實驗室運營與管理培訓

實驗室安全管理培訓

實驗室試劑耗材及標準物質管理培訓

實驗室高級審核技巧培訓

檢測方法驗證和確認培訓

金屬材料失效分析技術培訓

金相分析測試操作培訓

金屬力學性能測試操作培訓

金屬材料化學成分分析測試操作培訓

金屬材料理化試驗理解與應用培訓

緊固件機械性能測試操作培訓

鹽霧測試操作培訓

光老化測試操作培訓

高分子材料鑑別與分析技術培訓

塑料拉伸彎曲標準解讀及測試操作培訓

高分子材料及製品常規阻燃測試標準解讀及操作培訓

色度學與顏色評價培訓

循環鹽霧測試及操作培訓

塑料熔體流動速率和熱變形維卡測試標準解讀及現場操作培訓

磨耗、鉛筆硬度、附著力塗膜物理性能測試技術培訓

實驗室管理與技能提升培訓

水尺計重培訓


2021年全國培訓課程總表,點這裡

相關焦點

  • 統計學知識大梳理(終極篇)
    既然統計學這麼厲害,這麼牛逼,這麼重要。作為統計學專業的我,我就忍不住要給大家好好梳理下統計學的知識框架,並且帶著大家一點一點的學習下統計學和概率論的知識。在今後的關於統計學的文章中,我努力實現以下幾個小目標。
  • 學好物理需要掌握哪些數學知識
    今天小卜老師就帶新初二的小朋友們了解一下,在學習物理之前,你要掌握哪些數學知識點,才能學好這個科目01科學計數法1. 物理在計算時,如果數字比較大,就要用到科學計數法表示,在公式中和單位轉換時會涉及到科學計數法相關計算,永遠不要忘記同底數冪相乘,底數不變,指數相加的規律哦!02行程等問題2.
  • 2005.04:構建統計學專業課程實驗教學體系
    學生疲於應付考試,「上課時抄筆記(不上課或上課時不做筆記的則考前臨時複印別人筆記)、考試前背筆記、考試後全忘記」的現象十分普遍。從幾十年來的教學實踐看,這種統計專業課程教學模式存在明顯缺陷,那就是學生缺乏獨立分析與解決實際問題能力的培養,對統計分析、預測和決策的方法沒有真正掌握。
  • 統計學專業介紹,專業說
    近年來,隨著網際網路以及人工智慧行業的迅速崛起,加之金融行業的持續升溫,統計學逐步躋身於比較熱門的專業之一,人們意識統計學及數學是從事諸多行業的重要基礎,不管是做大數據、做機器人還是金融精算,都離不開統計知識的學習,因此許多數學基礎比較好的同學都將統計學納入了報考專業的考量範圍,但實際上統計學與大家心目中所想的可能還是有所差異的,社會上也普遍存在一些片面的理解,那我們今天就來聊一聊
  • 信息學競賽需要掌握哪些程式語言知識
    首先c++語言完全兼容c語言,其次,c++語言可以使用標準模板庫,可以極大的方便程序設計,如:競賽中經常用到的排序,如果用c語言必須考生自己編寫排序函數,但c++提供標準的排序算法,其時間複雜度為O(NlogN),這已相當高效了,而且,競賽中使用C++語言並不需要學習C++語言的全部,一些較難的內容並不學習,其實就是c語言加標準模板庫,所以現在絕大多數數考生選擇c++語言。
  • 統計學與大數據具有哪些聯繫
    首先,統計學是大數據的三大基礎學科之一,所以統計學與大數據之間的關係還是非常密切的,但是這也導致一部分人產生了一定的誤解,認為大數據就是統計學,統計學就是大數據。實際上,雖然在大數據時代背景下,統計學的知識體系產生了一定程度的調整,但是統計學本身的理念與大數據還是具有一定區別的,統計學注重的是方式方法,而大數據則更關注於整個數據價值化的過程,大數據不僅需要統計學知識,還需要具備數學知識和計算機知識。從另一個角度來說,統計學為大數據進行數據價值化奠定了一定的基礎。
  • 統計學需要一場變革
    這本書的書名在當時看起來並不會「暢銷」,但實際上這本書卻取得了巨大的成功,而且還使菲舍爾成為現代統計學之父。在這本書中,他著眼於研究人員如何將統計檢驗理論應用於實際數據,以便基於數據得出他們所發現的結論。當使用某個統計假設來做檢驗時,該檢驗能夠概述數據與其假設的模型之間的兼容性,並生成一個p值。
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 你需要掌握的AP統計學答題事項
    前往美國留學的同學一般都不會錯過了解AP考試的機會,AP考試也就是AP統計學考試對於大家申請國外大學的還是很有幫助的, AP考試對於申請或者說對於大家學習又有什麼優勢,>三立小編整理相關關於AP考試也就是AP統計學答題事項的內容,幫助大家更好地了解和進行AP考試課程的學習。
  • 學習大數據需要具備哪些基礎知識,以及應該重視哪些環節
    首先,從大的知識體系結構來看,學習大數據需要具備三方面基礎,分別是數學基礎、統計學基礎和計算機基礎,選擇不同的主攻方向還需要有不同的學習側重點,比如從事大數據分析(算法)崗位需要重點學習數學和統計學知識,而從事大數據開發崗位則需要重點學習計算機知識,從當前的人才需求量來看,大數據開發領域的人才需求量更大一些
  • 統計學是什麼?| 統計學七支柱
    根據《箴言》,建造智慧的房屋是為了歡迎尋求知識的人。此外,本書還有一個目的:闡釋統計推理的核心思想。將這七個原則稱作「統計學的七大支柱」之前,我先強調,它們是七根「支撐」的柱子,是統計學的學科基礎,而不是完整的體系。一方面,這七根支柱都有古老的起源;另一方面,現代學科通過自身結構的偉大獨創性,以及華麗承諾不斷產生的精彩的新思想,將統計學構建為多元化的科學。
  • 就業篇丨統計學類:開啟數字人生新篇章
    統計學專業要兼顧知識和實踐,二者缺一不可。知識是數學與現實的融合,比如某一理想的統計情景下所得出的結論,如果應用於現實會得出怎樣的結論;實踐是軟體的靈活應用,在熟練掌握常見統計軟體之外,還需要有快速自學新軟體的能力,要能趕上軟體的更新迭代速度。
  • 19個數學和統計學公開課推薦
    如果你想掌握數據科學,你就必須要對基本代數和統計學有很好的了解。但是,對於沒有數學背景的人來說,起步之路可能會舉步維艱。首先,你必須要搞明白哪些必須學,哪些沒有必要——其中可能包含了線性代數、微積分、概率學、統計學、離散數學、回歸、優化等許多主題。你需要多麼深入這些主題?自學的話很難單靠自己把這一切都把握好。
  • 2014軍隊文職人員考試經濟學知識:統計學主要知識點
    2014軍隊文職人員考試經濟學知識:統計學主要知識點 2013年總政幹部部專門下發的通知,要求對2014年度全軍文職人員統一招聘工作作出全面部署,這是全軍實行文職人員統一招聘。
  • 你真的懂了什麼是統計學嗎?其實統計學也是科學思維的訓練
    七年之後,為了不再繼續大學時代的噩夢以及洗刷多年來的恥辱,伴隨著碩士研究生公共基礎課網絡教學新試點的步伐,我成為了一個完全意義上的統計學「自學人」,這聽起來難免有那麼點諷刺。這期間,看視頻、做習題和與小夥伴兒的互相討論成為了我學習的日常,在接近兩個月的學習過程中我似乎又重拾了對於醫學統計學的信心。
  • 在線數學教育告訴您通分需要掌握什麼知識
    在小學數學中,通分是非常重要的一個知識,不僅在考試過程中會遇到,在一些比較複雜的計算中也會用到相關知識。那麼在學習通分過程中,需要掌握哪些知識點呢?在線數學教育平臺麥斯數學認為,關於通分知識應該掌握這些。
  • 統計學公開課大盤點
    : 這門課是我拿到第一張MOOC的證書,berkeley的這位女老師把統計學導論課程分為三部分,這個是第一部分,內容很簡單,通過很容易,主要就是介紹統計概率最基本的知識。edX上的這門描述統計學課程基本上只是做了一些概括介紹,所以總共只有五周課程,而且每周課程只有2-3個視頻,開始我還比較詫異,後來做練習時發現不是這回事,因為課後的練習或者作業多指向伯克利自己的統計學課程,而這門課程被 P.B. Stark教授做成了一個在線的統計學課程項目:SticiGui, 而這個在線課程上的視頻,都是其在伯克利大學的統計學授課視頻,長度比這裡長多了。
  • 統計學專業二:專業與就業
    例如,政府需要通過計算居民消費指數等手段來衡量物價水平、通貨膨脹水平;通過人口普查來了解人口結構,老齡化趨勢等等。政府運用統計和數據分析,為國家制定各種政策法規提供參考依據。各個學科都在自己的領域使用統計學,生物學、經濟學、心理學三個學科對統計應用尤其多,還發展出了自己的一套統計方法,如生物統計、計量統計和心理測驗。  隨著大數據時代的來臨,統計學和數據分析更是發生了革命性的變化。
  • 2006.03:統計學中 「三位一體」教學方法研究(胡學鋒)
    如何在統計學的教學中做到「知識傳授、能力培養、素質提升」三位一體,培養能滿足社會主義市場經濟建設所需要的統計學專業人才,必然需要我們認真研究和改革教學方法。  在統計學的教學中,「知識傳授、能力培養、素質提升」三者的關係應該是:知識傳授是基礎,能力培養是主幹,素質提升是目標。三位一體的教學方法首先要能體現教育的基本功能,即「傳道、授業、解惑」。