數據分析必備——統計學入門基礎知識 - 人人都是產品經理

2020-12-13 人人都是產品經理

編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。

要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!

因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。

統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外;因此紮實的統計學基礎是一個優秀的數據人必備的技能。

但是,統計學的知識包括了圖形信息化、數據的集中趨勢、概率計算、排列組合、連續型概率分布、離散型概率分布、假設檢驗、相關和回歸等知識;對於具體的知識點,本文就不一一介紹了,感興趣的同學請參考《深入淺出統計學》、《統計學:從數據到結論》等等專業書籍。

統計學分為描述性統計學和推斷性統計學。

一、描述性統計

定義:使用特定的數字或圖表來體現數據的集中程度和離散程度。

1. 集中趨勢

集中趨勢集中趨勢是指一組數據所趨向的中心數值,用到的指標有:算數均數、幾何均數、中位數。

算數均數:即為均數,用以反映一組呈對稱分布的變量值在數量上的平均水平。幾何均數:常用以反映一組經對數轉換後呈對稱分布的變量值在數量上的平均水平。中位數:適用於偏態分布資料和一端或兩端無確切的數值的資料,是第50百分位數。百分位數:為一界值,用以確定醫學參考值範圍。

2. 離散趨勢

離散趨勢是反映數據的變異程度,常用指標有極差、四分位間距、方差與標準差、變異係數。

極差:為一組數據的最大值和最小值之差,但極差不能反映所有數據的變異大小,且極易受樣本含量的影響。常用以描述偏態分布。四分位數間距:它是由第3四分位數與第1四分位數相減得到,常和中位數一起描述偏態分布資料的分布。方差與標準差:反映一組數據的平均離散水平,消除了樣本含量的影響,常和均數一起用來描述一組數據中的離散和集中趨勢。變異係數:也稱作異常值,多用於觀察指標單位不同時,可消除因單位不同而不能進行比較的困難。例如箱線圖就可以很好反映其中部分重點統計值:

3. 抽樣方法和中心極限定理

抽樣方法:

我們在做產品檢驗的時候,不可能把所有的產品都打開檢驗一遍看是否合格,我們只能從全部的產品中抽取部分樣本進行檢驗,依據樣本的質量估算整體的產品質量,這個就是抽樣,抽樣的定義是為了檢驗整體從整體中抽離部分樣本進行檢測,以樣本的檢測結果進行整體質量的估算的方法。

抽樣有多種方法,針對不同的目的和場景,需要運用不同的方法進行檢測,常見的抽樣方法有:

1)概率抽樣

簡單隨機抽樣;分層抽樣;整群抽樣(先將總體中若干個單位合併為組,這樣的組稱為群,再直接對群進行抽樣);系統抽樣(將總體中所有單位按一定順序排列,在規定的範圍內隨機抽取一個單位作為初始單位,然後再按事先指定好的規則確定其他樣本單位);階段抽樣(先抽群,然後在群內進行二階段抽樣)。2)非概率抽樣

方便抽樣(依據方便原則自行確定);判斷抽樣(依據專業知識進行判斷);自願樣本(調查者自願參加);滾雪球樣本(類似樹結構);配額樣本(類似分層抽樣);3)兩者抽樣方法之間的比較:

非概率抽樣適合探索性的研究,為更深入的數據分析做準備,特點是操作簡便、時效快、成本低;而且對於抽樣中的統計專業技術要求不是很高;概率抽樣的技術含量更高,調查成本更高,統計學專業知識要求更高,適合調查目的為研究對象總體,得到總體參數的置信區間。

4)中心極限定理:

若給定樣本量的所有樣本來自任意整體,則樣本均值的抽樣分布近似服從正態分布,且樣本量越大,近似性越強。

以30為界限,當樣本量大於30的時候符合中心極限定理,樣本服從正態分布;當樣本量小於30的時候,總體近似正態分布時,此時樣本服從t分布。樣本的分布形態決定了我們在假設檢驗中採用什麼方法去檢驗它。

二、推斷性統計

定義:根據樣本數據推斷總體的數據特徵。

1. 基本步驟

產品質檢的時候用的幾乎都是抽樣方法的推斷性統計,推斷性的過程就是一種假設檢驗,在做推斷性統計的時候我們需要明確幾點:

明確後可以對應我們假設檢驗的幾個步驟了:

提出原假設(H0)和備選假設(H1),確定顯著性水平(原假設為正確時,人們把它拒絕了的概率);選擇檢驗方法,確定檢驗統計量;確定P值,作出統計推理;假設對於某一個器件,國家標準要求:平均值要低於20。

某公司製造出10個器件,相關數值如下:15.6、16.2、22.5、20.5、16.4、19.4、16.6、17.9、12.7、13.9。

運用假設檢驗判斷該公司器件是否符合國家標準:

1)設假設:

2)總體為正態分布,方差未知,樣本為小樣本,因此採用T檢驗。

3)計算檢驗統計量:樣本平均值17.17,樣本標準差2.98,檢驗統計量為 (17.17-20)/(2.98/√10)=-3.0031

4)當置信度選擇97.5%,自由度為9,此時為單尾檢驗,臨界值為2.262。

5)由於-3.0031<-2.262,拒絕原假設,因此接受備擇假設,該器件滿足國家標準。

2. 假設檢驗類型

單樣本檢驗:檢驗單個樣本的平均值是否等於目標值;相關配對檢驗:檢驗相關或配對觀測之差的平均值是否等於目標值;獨立雙樣本檢驗:檢驗兩個獨立樣本的平均值之差是否等於目標值;

3. 統計檢驗方法

Z檢驗:一般用於大樣本(即樣本容量大於30)平均值差異性檢驗的方法。它是用標準正態分布的理論來推斷差異發生的概率,從而比較兩個平均數>平均數的差異是否顯著。

T檢驗:用於樣本含量較小(例如n<30),總體標準差σ未知的正態分布樣本。

F檢驗:F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。檢驗兩個樣本的方差是否有顯著性差異 這是選擇何種T檢驗(等方差雙樣本檢驗,異方差雙樣本檢驗)的前提條件。

(T檢驗用來檢測數據的準確度,檢測系統誤差 ;F檢驗用來檢測數據的精密度,檢測偶然誤差。)

卡方檢驗:主要用於檢驗兩個或兩個以上樣本率或構成比之間差別的顯著性,也可檢驗兩類事物之間是否存在一定的關係。

4. 雙尾檢測和單尾檢測

這個和我們提出的原假設相關,例如我們檢測的原假設:器件平均值>=20。

我們需要拒絕的假設就是器件平均值<20,此時就是單尾檢驗;如果我們的原假設是器件平均值>20,則我們需要拒絕的假設就是器件平均值<20和器件平均值=20,此時就是雙尾檢測。

5. 置信區間和置信水平

在統計學中,幾乎都是依據樣本來推斷總體的情況的,但在推斷的過程中,我們會遇到各種各樣的阻礙和幹擾;所以我們推斷出的結果不是一個切確的數字,而是在某個合理的區間內,這個範圍就是置信區間。

但整體中所有的數據都在這個範圍也不現實,我們只需要絕大多數出現在置信區間就可以了,這裡的絕大多數就是置信水平的概念,通常情況我們的置信水平是95%。

置信區間[a,b]的計算方法為:(z分數:由置信水平決定,查表得。)

a = 樣本均值 – z*標準誤差,b = 樣本均值 + z*標準誤差

志在必得。

不學自知,不問。自曉,古今行事未之有也!

就數據分析而言,我們通過統計學可以用更富有信息驅動力和針對性的方式對數據進行操作;更深入、更細緻地觀察數據是如何進行精確組織的,並且基於這種組織結構確定數據分析的方法,來獲取更多的信息。

本文由 @木兮擎天@ 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相關焦點

  • 【入門】數據分析必備——統計學入門基礎知識
    >人人都可以簡單入門Python、爬蟲、數據分析One old watch, like brief python成功的關鍵在於相信自己有成功的能力。數據之路,與你同行!——數據說·夢想季導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 想做數據分析達人+核心論文收割機?學它就對了!| 統計學入門訓練營
    或者想要找數據分析/戰略分析/市場/運營相關的實習/工作,都離不開數據分析。而無論你選擇使用Excel/Python/mySQL作為工具,統計學都是數據分析的基礎、基礎、基礎!更重要的是,我們生活處處都離不開統計學,比如設計理財或保險產品、網遊掉率、賭博遊戲的玩法等都是概率統計的知識;還有現在大熱的機器學習,實際上也是運用統計學知識,從大量的數據中提取人們需要的信息和規律。
  • 數據分析必備的統計學基礎知識
    數據分析師利用數據思維做數據分析時,一般需要具備統計學的基礎知識,此外,在工作後,筆者才發現Excel是做數據分析的一項強大工具,之前有一種錯誤的認識覺得
  • 數據分析入門學習指南,零基礎小白都能輕鬆看懂
    數據分析在如今的求職場上越來越重要。然而,讓很多朋友困惑的是,我是沒有編程基礎的小白,能學會數據分析麼?該如何學習數據分析呢?其實,如果你打算成為一名數據分析師,如何出身並不重要,數據科學是一門應用學科,你需要系統提升數據獲取、數據分析、數據可視化、機器學習的水平。下面我就簡單提供一個數據分析入門的路徑。
  • 數據分析課程清單,從入門到精通
    上線連貫、課件風趣好懂),課程含有PPT\EXCEL\SQL等,分析師常用操作技巧適合人群:0.0000基礎,運營、產品、營銷從業者進階提升第二門:分析案例思維課程 這門課的特點:案例講解,由BAT數據分析專家帶你領略數據分析思維的樂趣,目前好評如潮,記住有了思維和方法論再去入門,這樣你定位更加清晰,後期也可作為自己思維的提升,多看幾遍適合人群:預用數據分析來升職、提升、加薪的從業者
  • 網際網路產品經理如何入門設計產品整理需求文檔模板表格計劃方案怎麼學習app推廣產品運營計劃方案資料合集技巧幹貨經驗教學課程培訓下載
    關於產品經理寫給供應鏈產品經理:如何設計基礎數據平臺小白應該懂的產品經理入門知識,都在這9本書裡了(內含福利)體系化入門AI產品經理,應該如何學習乾貨 | 百度月薪6W產品經理: 這麼寫需求文檔,撕逼沒輸過!最後4天|修煉優秀產品經理的硬技能!
  • 數據分析基礎:從統計學入手數據分析!
    統計學是在數據分析的基礎上,研究如何測定、收集、整理、歸納和分析反映數據數據,以便給出正確消息的科學。如果要學習數據分析,那麼紮實的統計知識是必備的。本文參考《深入淺出統計學》二 、三、 四、 五 章知識,對重點內容進行歸納總結。
  • 數據分析的坑,都在統計學裡埋過
    為什麼要了解統計學?對於普羅大眾來說,統計學應該會成為每人必備的常識,才能避免被越來越精緻的數字陷阱欺騙。起碼當你看到各種百分比和收益率,能多出一份警覺,多思考些他們的來源和計算途徑。對於網際網路工作者來說,統計知識投射在網際網路上,就是數據相關的方法論。舉例來講,現在盛行的 A/B Test 本質上就是控制變量法實驗中的一種。不同的是,網際網路獲取數據更簡單,進行對比實驗更方便。這將是一個統計學/數據分析的大事件。想像一下 Facebook 內部幾千個 A/B Gate,簡直稱得上一場史無前例的大規模人口社會實驗。
  • 數據分析的四個層次 - 人人都是產品經理
    編輯導讀:單純的數字是沒有靈魂的,但是數據分析卻可以洞察出數據背後業務的規律。因此,數據分析是商業活動中重要的一項工作。本文將圍繞數據分析的四個層次展開介紹,希望對你有幫助。一、引言我通常把數據理解為業務的另一個他,單純的數字是沒有靈魂的,而背後的業務卻是鮮活的。
  • 左手SPSS,右手EXCEL——數據分析工具入門
  • 精品數據分析課程推薦
    學習的最好方式不是輸入而是輸出,很希望大家能和我們一起交流學習、一起進步,擁有了自己的輸出,這些知識才真正意義上算是你的。常見問題答疑:Q1、課程是永久有效的嗎?A:是的,永久有效,隨到隨學。Q2、課程中遇到問題怎麼辦?A:每個課程都有對應的QQ學員群,可以與主講老師及其他同學進行交流討論。
  • 數據產品經理從零到一(1):數據產品能力模型構建
    從上面的企業招聘需求可以看出,數據產品經理除了需要具備一些普通產品經理基礎能力外,對數據分析,商業智能,數據挖掘等技能有著非常高的專業門檻。雖然數據產品經理也細分出應用方向,大數挖掘方向,數據分析方向,但為了更加有效的共同,還是有必要補全知識結構。
  • 數據產品經理必備技能之分析方法
    本文作者將與你分享三種數據分析方法:常規分析、統計模型分析以及自建模型分析。掌握這三種分析思路,就能解決大部分分析需求,並根據分析需求固化為數據產品。很多人覺得,做數據產品經理就沒有必要掌握數據分析相關技能了,終於可以遠離了枯燥的數據分析工作。如果真這麼覺得,那麼就大錯特錯了,一個好的數據產品經理,不僅要有產品sense,還要有好的分析思路,因為一個數據產品需求大部分都是由分析需求固化而來的。
  • 數據科學的重要支柱——統計學的最佳入門書籍
    現在我們知道了書的必備要素,也知道了為什麼有些書極具閱讀價值卻還是看不下去,接著就該探索《深入淺出統計學》的優點了。我的短評如前所說,我在約莫一年半前讀完這本書,它能為未來探索進階話題夯實基礎。即使現在讀一本python統計學的書籍,書中沒有詳實深入地解釋理論,我也不會感到困惑,因為我有紮實的背景知識儲備。這也就是本書真正的目標群體——剛入門的初學者,和修過統計學課程,但因教學方式欠佳收穫不大的人。
  • 產品經理必備技能包含哪些?
    每一個在職的產品經理都需要不斷的學習和提升自己,在自己的領域不斷深挖。產品經理必備技能包括哪些?接下來,我們先來看下崗位招聘信息和日常工作流程,之後從中抽離出產品經理必備技能,大家要重點閱讀哦!!1. 從招聘信息看崗位要求
  • 人人都是產品經理
    - 書籍導讀 -《人人都是產品經理》是一本很有意思的書:它一開始給你「產品經理是CEO的學前班」這樣的崇高感,但當你誤以為這是一本預備CEO的修煉寶典的時候,隨著書中逐步講述這個養成過程,你卻會發現你所知道的永遠不夠,應該掌握的方法和技巧還有很多。
  • AI 產品經理入門與勸退指南
    本文總結了 AI 產品經理入門前的必備須知,以及入門 AI 產品經理前需要建立的初步認知框架。01「人工智慧是未來,而未來已至。」這種論調已經普及開了,可謂是深入人心。很多產品經理或者還未入行的新人,都在糾結到底要不要做AI產品經理,畢竟帶了「AI」就覺得非常光鮮、非常前沿了,仿佛自己可以趕上一波時代紅利。所以在講AI產品經理的相關知識前,先勸退一波。
  • 數據分析篇|基於推斷統計學,把握問題核心洞悉數據模式與趨勢
    Hi,各位看官老爺們好~,在前兩篇《數據分析-初識數據埋點(一)》、《數據分析-初識數據埋點(二)》中已經對實戰應用中的數據埋點的基礎認知、基本分類、定義規範、流程以及詳細的應用場景與大家做了全面的討論,第三篇也就是本篇將在數據埋點的基礎之上深入討論後續數據分析中的一些問題
  • 1小時搞定面試:產品經理面試經典15問 | 人人都是產品經理
    根據今年智聯招聘《春季求職競爭周報》的數據,平均每一個招聘職位能收到8份簡歷。而熱門職業如網際網路產品,運營的競爭甚至更激烈,可以達到18,即平均每一個招聘職位能收到18份簡歷。如果想要在一個產品崗位應聘成功就需要至少擊敗17個競爭對手,甚至更多!