數據分析必備——統計學入門基礎知識 - 人人都是產品經理

2020-12-14 人人都是產品經理

編輯導語：不論在什麼崗位，都要懂得本崗位的基礎知識，打牢基礎後面才能穩步發展；數據分析也是如此，數據分析必須要掌握統計學的基礎知識；本文是作者分享的關於統計學入門基礎的知識，我們一起來學習一下吧。

要做好數據分析，除了自身技術硬以及數據思維靈活外，還得學會必備的統計學基礎知識！

因此，統計學是數據分析必須掌握的基礎知識，即通過搜索、整理、分析、描述數據等手段，以達到推斷所測對象的本質，甚至預測對象未來的一門綜合性科學。

統計學用到了大量的數學及其它學科的專業知識，其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域，而在數據量極大的網際網路領域也不例外；因此紮實的統計學基礎是一個優秀的數據人必備的技能。

但是，統計學的知識包括了圖形信息化、數據的集中趨勢、概率計算、排列組合、連續型概率分布、離散型概率分布、假設檢驗、相關和回歸等知識；對於具體的知識點，本文就不一一介紹了，感興趣的同學請參考《深入淺出統計學》、《統計學：從數據到結論》等等專業書籍。

統計學分為描述性統計學和推斷性統計學。

一、描述性統計

定義：使用特定的數字或圖表來體現數據的集中程度和離散程度。

1. 集中趨勢

集中趨勢集中趨勢是指一組數據所趨向的中心數值，用到的指標有：算數均數、幾何均數、中位數。

算數均數：即為均數，用以反映一組呈對稱分布的變量值在數量上的平均水平。幾何均數：常用以反映一組經對數轉換後呈對稱分布的變量值在數量上的平均水平。中位數：適用於偏態分布資料和一端或兩端無確切的數值的資料，是第50百分位數。百分位數：為一界值，用以確定醫學參考值範圍。

2. 離散趨勢

離散趨勢是反映數據的變異程度，常用指標有極差、四分位間距、方差與標準差、變異係數。

極差：為一組數據的最大值和最小值之差，但極差不能反映所有數據的變異大小，且極易受樣本含量的影響。常用以描述偏態分布。四分位數間距：它是由第3四分位數與第1四分位數相減得到，常和中位數一起描述偏態分布資料的分布。方差與標準差：反映一組數據的平均離散水平，消除了樣本含量的影響，常和均數一起用來描述一組數據中的離散和集中趨勢。變異係數：也稱作異常值，多用於觀察指標單位不同時，可消除因單位不同而不能進行比較的困難。例如箱線圖就可以很好反映其中部分重點統計值：

3. 抽樣方法和中心極限定理

抽樣方法：

我們在做產品檢驗的時候，不可能把所有的產品都打開檢驗一遍看是否合格，我們只能從全部的產品中抽取部分樣本進行檢驗，依據樣本的質量估算整體的產品質量，這個就是抽樣，抽樣的定義是為了檢驗整體從整體中抽離部分樣本進行檢測，以樣本的檢測結果進行整體質量的估算的方法。

抽樣有多種方法，針對不同的目的和場景，需要運用不同的方法進行檢測，常見的抽樣方法有：

1）概率抽樣

簡單隨機抽樣；分層抽樣；整群抽樣（先將總體中若干個單位合併為組，這樣的組稱為群，再直接對群進行抽樣）；系統抽樣（將總體中所有單位按一定順序排列，在規定的範圍內隨機抽取一個單位作為初始單位，然後再按事先指定好的規則確定其他樣本單位）；階段抽樣（先抽群，然後在群內進行二階段抽樣）。2）非概率抽樣

方便抽樣（依據方便原則自行確定）；判斷抽樣（依據專業知識進行判斷）；自願樣本（調查者自願參加）；滾雪球樣本（類似樹結構）；配額樣本（類似分層抽樣）；3）兩者抽樣方法之間的比較：

非概率抽樣適合探索性的研究，為更深入的數據分析做準備，特點是操作簡便、時效快、成本低；而且對於抽樣中的統計專業技術要求不是很高；概率抽樣的技術含量更高，調查成本更高，統計學專業知識要求更高，適合調查目的為研究對象總體，得到總體參數的置信區間。

4）中心極限定理：

若給定樣本量的所有樣本來自任意整體，則樣本均值的抽樣分布近似服從正態分布，且樣本量越大，近似性越強。

以30為界限，當樣本量大於30的時候符合中心極限定理，樣本服從正態分布；當樣本量小於30的時候，總體近似正態分布時，此時樣本服從t分布。樣本的分布形態決定了我們在假設檢驗中採用什麼方法去檢驗它。

二、推斷性統計

定義：根據樣本數據推斷總體的數據特徵。

1. 基本步驟

產品質檢的時候用的幾乎都是抽樣方法的推斷性統計，推斷性的過程就是一種假設檢驗，在做推斷性統計的時候我們需要明確幾點：

明確後可以對應我們假設檢驗的幾個步驟了：

提出原假設（H0）和備選假設（H1），確定顯著性水平（原假設為正確時，人們把它拒絕了的概率）；選擇檢驗方法，確定檢驗統計量；確定P值，作出統計推理；假設對於某一個器件，國家標準要求：平均值要低於20。

某公司製造出10個器件，相關數值如下：15.6、16.2、22.5、20.5、16.4、19.4、16.6、17.9、12.7、13.9。

運用假設檢驗判斷該公司器件是否符合國家標準：

1）設假設：

2）總體為正態分布，方差未知，樣本為小樣本，因此採用T檢驗。

3）計算檢驗統計量：樣本平均值17.17，樣本標準差2.98，檢驗統計量為（17.17-20）/（2.98/√10）=-3.0031

4）當置信度選擇97.5%，自由度為9，此時為單尾檢驗，臨界值為2.262。

5）由於-3.0031<-2.262，拒絕原假設，因此接受備擇假設，該器件滿足國家標準。

2. 假設檢驗類型

單樣本檢驗：檢驗單個樣本的平均值是否等於目標值；相關配對檢驗：檢驗相關或配對觀測之差的平均值是否等於目標值；獨立雙樣本檢驗：檢驗兩個獨立樣本的平均值之差是否等於目標值；

3. 統計檢驗方法

Z檢驗：一般用於大樣本（即樣本容量大於30）平均值差異性檢驗的方法。它是用標準正態分布的理論來推斷差異發生的概率，從而比較兩個平均數>平均數的差異是否顯著。

T檢驗：用於樣本含量較小（例如n<30），總體標準差σ未知的正態分布樣本。

F檢驗：F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。檢驗兩個樣本的方差是否有顯著性差異這是選擇何種T檢驗（等方差雙樣本檢驗，異方差雙樣本檢驗）的前提條件。

（T檢驗用來檢測數據的準確度，檢測系統誤差；F檢驗用來檢測數據的精密度，檢測偶然誤差。）

卡方檢驗：主要用於檢驗兩個或兩個以上樣本率或構成比之間差別的顯著性，也可檢驗兩類事物之間是否存在一定的關係。

4. 雙尾檢測和單尾檢測

這個和我們提出的原假設相關，例如我們檢測的原假設：器件平均值>=20。

我們需要拒絕的假設就是器件平均值<20，此時就是單尾檢驗；如果我們的原假設是器件平均值>20，則我們需要拒絕的假設就是器件平均值<20和器件平均值=20，此時就是雙尾檢測。

5. 置信區間和置信水平

在統計學中，幾乎都是依據樣本來推斷總體的情況的，但在推斷的過程中，我們會遇到各種各樣的阻礙和幹擾；所以我們推斷出的結果不是一個切確的數字，而是在某個合理的區間內，這個範圍就是置信區間。

但整體中所有的數據都在這個範圍也不現實，我們只需要絕大多數出現在置信區間就可以了，這裡的絕大多數就是置信水平的概念，通常情況我們的置信水平是95%。

置信區間[a，b]的計算方法為：（z分數：由置信水平決定，查表得。）

a = 樣本均值 – z*標準誤差，b = 樣本均值 + z*標準誤差

志在必得。

不學自知，不問。自曉，古今行事未之有也！

就數據分析而言，我們通過統計學可以用更富有信息驅動力和針對性的方式對數據進行操作；更深入、更細緻地觀察數據是如何進行精確組織的，並且基於這種組織結構確定數據分析的方法，來獲取更多的信息。

本文由 @木兮擎天＠原創發布於人人都是產品經理。未經許可，禁止轉載

題圖來自Unsplash，基於CC0協議

相關焦點

數據分析必備——統計學入門基礎知識

——數據說·夢想季導讀：要做好數據分析，除了自身技術硬以及數據思維靈活外，還得學會必備的統計學基礎知識！因此，統計學是數據分析必須掌握的基礎知識，即通過搜索、整理、分析、描述數據等手段，以達到推斷所測對象的本質，甚至預測對象未來的一門綜合性科學。
入門公開課 | 產品經理的宏觀能力、中觀套路、微觀體感是什麼? |...

當你開始著手入門一個新領域的時候，一定要先給自己畫一個知識地圖，大概明確要學哪些東西，學習的邊界在哪裡，這樣目標才能清晰，不容易半途而廢。但據我們觀察，80%的人在入門產品的時候沒有清晰的學習規劃，往往都是學到哪算哪，撿到啥學啥。如果你明白產品經理的能力分為三個層級：宏觀能力、中觀套路、微觀體感，那麼你入門時的方向感和規劃性就會強許多。1.什麼是宏觀能力？假設你是二零一幾年的程維，你如何帶領滴滴走向出行領域的獨角獸？
產品經理入門概念通識

三、能力模型「人人都是產品經理」幾乎是產品經理業內最火爆的一句話。從本意上來看，每個人確實都可以發現並嘗試解決用戶需求，所以字面上沒有什麼太大的問題。但與上一個問題相似，所有的產品經理都是優秀的產品經理嗎？答案當然是否定的。那麼一個優秀的產品經理需要具備哪些素質和能力呢？
數據分析必備統計學(二):假設檢驗

講完概率分布，再來講講統計學的最後一個知識點——假設檢驗。假設檢驗是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。事先對總體參數或分布形式作出某種假設，然後利用樣本信息來判斷原假設是否成立，採用邏輯上的反證法，依據統計上的小概率原理。為了更好的解釋，這裡舉個例子。
0基礎、3個月,我如何拿到13k產品offer? | 人人都是產品經理

離職後以0經驗、0基礎求職產品經理5個月無果，又經過3個月的系統學習之後，成功拿到上海某網際網路公司月薪13k產品offer。5個月空窗、3個月學習，經過大量的實戰與面試，她總結了以下6點建議分享給大家：01/請足夠了解你簡歷上寫的每一句話大多數面試官的問題均來自於簡歷，以此掂量一個人簡歷的水分。
什麼是產品經理,職責是什麼?如何入門?

首先，產品經理是一個職位，談到對一個職位的理解，可以從職位的職責去分析。02產品經理的職責到底是什麼那很多人就有疑問了，產品經理究竟是幹啥的，有沒有明確的職能？其實在你所處的環境不同而有所不同，比如在一些職能沒有下放的公司，可能你在這個職位，卻幹著收集數據+競品分析+寫小作文+畫畫原型的基礎工作，許多決策權並不在你。權利集中在他人手上。你個副手。
入行建議|2021年,還要做產品經理嗎? | 人人都是產品經理

比如做數據測算的產品經理，他們主要負責分析業務數據；做算法的產品經理，他們根據實際反饋進行算法的優化；還有面向企業級客戶的產品經理、智能硬體方面的產品經理……所以，從企業招聘需求上來說，未來的產品經理崗位缺口依然很大，有核心競爭力的產品經理，不太用擔心自己失業找不到工作的問題。3.
AI產品經理的入門必修課(4)——知識圖譜

編輯導語：通過知識圖譜，不僅可以將網際網路的信息表達成更接近人類認知世界的形式，而且提供了一種更好的組織、管理和利用海量信息的方式；本文作者分享了關於AI產品經理的知識圖譜簡介以及利用，我們一起來了解一下。
零基礎轉行數據分析師是怎樣的體驗?

在知乎上找了一些成功轉行的帖子總結下經驗，另外在招聘網站上匯總常見的數據分析師招聘需要的JD條件。明確了自己最大的差距是兩個，一個是在於一些常見數據分析工具需要補齊，第二是網際網路常見分析場景的業務思維，也稱套路。由於白天工作，只能晚上和周末抽時間來學習相關知識，雖然比較辛苦，但是每天都有收穫的感覺是很幸福的。
競品分析:流利說雅思 | 人人都是產品經理

產品最初名稱為雅思流利說，定位為雅思考生必備刷分神器；而在2018-04-21的2.5版本定位中，產品定位變為懂提分的雅思口語神器，slogan為「口語課程練習模考一步到位!」。在2018-07-25的2.7.1版本中，定位變為劍橋雅思口語提分神器，slogan為「雅思口語考試提分必備，題庫模考精準反饋」。
CDA數據分析師開展寧波銀行統計學入門「雲培訓」

2020年9月24日,CDA數據分析師開展了為期1天的「寧波銀行統計學入門線上培訓」,此次培訓是風語智控秋季集訓內容中的一環,寧波銀行總行風險管理部門及各個支行近二百名學員參加了本次企業「雲內訓」,雖然只有短短的一天時間,同學們在CDA數據分析師專業老師的帶領下,在課程群中積極進行響應和討論
AI產品經理 VS 數據產品經理,看這5點區別與聯繫

你將跟LineLian學習案例研究、創建數據集，並構建AI模型，熟練掌握各種 AI 概念和實用技能並能夠構思、開發、評估和實施基於人工智慧技術的新產品。而數據產品經理也是時下的熱門崗位。兩者關係是，AI產品經理以數據為基礎，數據產品經理發展的晉級階段是AI產品經理。
統計學公開課大盤點

課程對學生的數學基礎要求很小，可以認為是零基礎學習統計學的好課程，授課老師是斯坦福教授Sebastian Thrun，他是Udacity的創始人之一，同時作為Google Fellow, 他創辦了Google X實驗室，主導了Google無人駕駛汽車以及Google眼鏡等革命性產品。
都說產品要懂數據分析,到底要懂到什麼程度?

編輯導讀：毫無疑問，產品經理一定要懂數據分析。但所謂「懂「數據分析，並不是全包全能，而是儘可能全面地了解與自己的產品落地息息相關的基礎數據知識。本文作者梳理總結了產品經理需要懂的數據範圍，一起來看看~
基礎之上,產品經理還應具備4個能力

產品經理是產品的核心管理者，因此需要產品經理了解用戶、發現需求、策劃產品、推動上線、優化產品、產生最大化用戶價值。在這個過程中，產品經理貫穿始終，需要具備各個環節的能力。文章梳理總結了產品經理需要重點提升的4個能力：邏輯能力、溝通能力、數據分析能力和項目管理能力，與大家分享。大家從《產品經理！
產品經理必備乾貨:全面詳細的產品測試知識

1、寫在前面文章主要涉及產品經理工作上經常接觸到的基礎的測試知識，包括測試的定義、測試何時進行、產品經理應該懂的測試概念、產品經理如何測試驗收產品。2、為什麼產品經理需要懂測試產品每個階段都有驗收標準，比如需求評審階段驗收、開發階段驗收，所以每個階段都需要測試。
B端產品經理入門的第一年做了什麼?

編輯導語：作為產品經理，你入門的第一年都做了什麼呢？本文作者作為B端產品經理，為我們分享了他入職第一年，作為一個產品新人的一些經驗和想法，希望能對一些剛入門B端產品經理或者對產品經理行業感興趣的人帶來一些參考。
項目管理入門必備的基礎知識

項目管理入門必備的基礎知識來源：財訊網 • 2020-12-11 09:56:58 項目管理似乎是一項令人生畏的學科
統計學知識大梳理(終極篇)

作者介紹@大師兄混跡數據江湖十餘載。主要負責大數據商業變現和產品運營工作。學好統計學，讓你成為高富帥，迎娶白富美，走上人生巔峰，不是不可能，但可能性只有0.00001%。既然統計學這麼厲害，這麼牛逼，這麼重要。作為統計學專業的我，我就忍不住要給大家好好梳理下統計學的知識框架，並且帶著大家一點一點的學習下統計學和概率論的知識。在今後的關於統計學的文章中，我努力實現以下幾個小目標。
產品經理入門及進階修煉指南:七維能力模型

產品輸出層是基礎能力層，即產品經理開展日常工作需要掌握的基本技能，在本層的能力缺失或是技法的不足將會對日常的產出會造成較大的影響，七維能力模型中的產品力、技術力、學習力、項目力都歸屬於本層。業務決策層是進階能力層，即產品經理在夯實產品輸出層的基礎上需要進階掌握的能力方向，在該層產品經理需要更加注重「經理」二字的實踐能力和理論積澱。

數據分析必備——統計學入門基礎知識 - 人人都是產品經理

相關焦點

數據分析必備——統計學入門基礎知識

入門公開課 | 產品經理的宏觀能力、中觀套路、微觀體感是什麼? |...

產品經理入門概念通識

數據分析必備統計學(二):假設檢驗

0基礎、3個月,我如何拿到13k產品offer? | 人人都是產品經理

什麼是產品經理,職責是什麼?如何入門?

入行建議|2021年,還要做產品經理嗎? | 人人都是產品經理

AI產品經理的入門必修課(4)——知識圖譜

零基礎轉行數據分析師是怎樣的體驗?

競品分析:流利說雅思 | 人人都是產品經理

CDA數據分析師開展寧波銀行統計學入門「雲培訓」

AI產品經理 VS 數據產品經理,看這5點區別與聯繫

統計學公開課大盤點

都說產品要懂數據分析,到底要懂到什麼程度?

基礎之上,產品經理還應具備4個能力

產品經理必備乾貨:全面詳細的產品測試知識

B端產品經理入門的第一年做了什麼?

項目管理入門必備的基礎知識

統計學知識大梳理(終極篇)

產品經理入門及進階修煉指南:七維能力模型