數據分析必備——統計學入門基礎知識 - 人人都是產品經理

2020-11-29 人人都是產品經理

編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。

要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!

因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。

統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外;因此紮實的統計學基礎是一個優秀的數據人必備的技能。

但是,統計學的知識包括了圖形信息化、數據的集中趨勢、概率計算、排列組合、連續型概率分布、離散型概率分布、假設檢驗、相關和回歸等知識;對於具體的知識點,本文就不一一介紹了,感興趣的同學請參考《深入淺出統計學》、《統計學:從數據到結論》等等專業書籍。

統計學分為描述性統計學和推斷性統計學。

一、描述性統計

定義:使用特定的數字或圖表來體現數據的集中程度和離散程度。

1. 集中趨勢

集中趨勢集中趨勢是指一組數據所趨向的中心數值,用到的指標有:算數均數、幾何均數、中位數。

算數均數:即為均數,用以反映一組呈對稱分布的變量值在數量上的平均水平。幾何均數:常用以反映一組經對數轉換後呈對稱分布的變量值在數量上的平均水平。中位數:適用於偏態分布資料和一端或兩端無確切的數值的資料,是第50百分位數。百分位數:為一界值,用以確定醫學參考值範圍。

2. 離散趨勢

離散趨勢是反映數據的變異程度,常用指標有極差、四分位間距、方差與標準差、變異係數。

極差:為一組數據的最大值和最小值之差,但極差不能反映所有數據的變異大小,且極易受樣本含量的影響。常用以描述偏態分布。四分位數間距:它是由第3四分位數與第1四分位數相減得到,常和中位數一起描述偏態分布資料的分布。方差與標準差:反映一組數據的平均離散水平,消除了樣本含量的影響,常和均數一起用來描述一組數據中的離散和集中趨勢。變異係數:也稱作異常值,多用於觀察指標單位不同時,可消除因單位不同而不能進行比較的困難。例如箱線圖就可以很好反映其中部分重點統計值:

3. 抽樣方法和中心極限定理

抽樣方法:

我們在做產品檢驗的時候,不可能把所有的產品都打開檢驗一遍看是否合格,我們只能從全部的產品中抽取部分樣本進行檢驗,依據樣本的質量估算整體的產品質量,這個就是抽樣,抽樣的定義是為了檢驗整體從整體中抽離部分樣本進行檢測,以樣本的檢測結果進行整體質量的估算的方法。

抽樣有多種方法,針對不同的目的和場景,需要運用不同的方法進行檢測,常見的抽樣方法有:

1)概率抽樣

簡單隨機抽樣;分層抽樣;整群抽樣(先將總體中若干個單位合併為組,這樣的組稱為群,再直接對群進行抽樣);系統抽樣(將總體中所有單位按一定順序排列,在規定的範圍內隨機抽取一個單位作為初始單位,然後再按事先指定好的規則確定其他樣本單位);階段抽樣(先抽群,然後在群內進行二階段抽樣)。2)非概率抽樣

方便抽樣(依據方便原則自行確定);判斷抽樣(依據專業知識進行判斷);自願樣本(調查者自願參加);滾雪球樣本(類似樹結構);配額樣本(類似分層抽樣);3)兩者抽樣方法之間的比較:

非概率抽樣適合探索性的研究,為更深入的數據分析做準備,特點是操作簡便、時效快、成本低;而且對於抽樣中的統計專業技術要求不是很高;概率抽樣的技術含量更高,調查成本更高,統計學專業知識要求更高,適合調查目的為研究對象總體,得到總體參數的置信區間。

4)中心極限定理:

若給定樣本量的所有樣本來自任意整體,則樣本均值的抽樣分布近似服從正態分布,且樣本量越大,近似性越強。

以30為界限,當樣本量大於30的時候符合中心極限定理,樣本服從正態分布;當樣本量小於30的時候,總體近似正態分布時,此時樣本服從t分布。樣本的分布形態決定了我們在假設檢驗中採用什麼方法去檢驗它。

二、推斷性統計

定義:根據樣本數據推斷總體的數據特徵。

1. 基本步驟

產品質檢的時候用的幾乎都是抽樣方法的推斷性統計,推斷性的過程就是一種假設檢驗,在做推斷性統計的時候我們需要明確幾點:

明確後可以對應我們假設檢驗的幾個步驟了:

提出原假設(H0)和備選假設(H1),確定顯著性水平(原假設為正確時,人們把它拒絕了的概率);選擇檢驗方法,確定檢驗統計量;確定P值,作出統計推理;假設對於某一個器件,國家標準要求:平均值要低於20。

某公司製造出10個器件,相關數值如下:15.6、16.2、22.5、20.5、16.4、19.4、16.6、17.9、12.7、13.9。

運用假設檢驗判斷該公司器件是否符合國家標準:

1)設假設:

2)總體為正態分布,方差未知,樣本為小樣本,因此採用T檢驗。

3)計算檢驗統計量:樣本平均值17.17,樣本標準差2.98,檢驗統計量為 (17.17-20)/(2.98/√10)=-3.0031

4)當置信度選擇97.5%,自由度為9,此時為單尾檢驗,臨界值為2.262。

5)由於-3.0031<-2.262,拒絕原假設,因此接受備擇假設,該器件滿足國家標準。

2. 假設檢驗類型

單樣本檢驗:檢驗單個樣本的平均值是否等於目標值;相關配對檢驗:檢驗相關或配對觀測之差的平均值是否等於目標值;獨立雙樣本檢驗:檢驗兩個獨立樣本的平均值之差是否等於目標值;

3. 統計檢驗方法

Z檢驗:一般用於大樣本(即樣本容量大於30)平均值差異性檢驗的方法。它是用標準正態分布的理論來推斷差異發生的概率,從而比較兩個平均數>平均數的差異是否顯著。

T檢驗:用於樣本含量較小(例如n<30),總體標準差σ未知的正態分布樣本。

F檢驗:F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。檢驗兩個樣本的方差是否有顯著性差異 這是選擇何種T檢驗(等方差雙樣本檢驗,異方差雙樣本檢驗)的前提條件。

(T檢驗用來檢測數據的準確度,檢測系統誤差 ;F檢驗用來檢測數據的精密度,檢測偶然誤差。)

卡方檢驗:主要用於檢驗兩個或兩個以上樣本率或構成比之間差別的顯著性,也可檢驗兩類事物之間是否存在一定的關係。

4. 雙尾檢測和單尾檢測

這個和我們提出的原假設相關,例如我們檢測的原假設:器件平均值>=20。

我們需要拒絕的假設就是器件平均值<20,此時就是單尾檢驗;如果我們的原假設是器件平均值>20,則我們需要拒絕的假設就是器件平均值<20和器件平均值=20,此時就是雙尾檢測。

5. 置信區間和置信水平

在統計學中,幾乎都是依據樣本來推斷總體的情況的,但在推斷的過程中,我們會遇到各種各樣的阻礙和幹擾;所以我們推斷出的結果不是一個切確的數字,而是在某個合理的區間內,這個範圍就是置信區間。

但整體中所有的數據都在這個範圍也不現實,我們只需要絕大多數出現在置信區間就可以了,這裡的絕大多數就是置信水平的概念,通常情況我們的置信水平是95%。

置信區間[a,b]的計算方法為:(z分數:由置信水平決定,查表得。)

a = 樣本均值 – z*標準誤差,b = 樣本均值 + z*標準誤差

志在必得。

不學自知,不問。自曉,古今行事未之有也!

就數據分析而言,我們通過統計學可以用更富有信息驅動力和針對性的方式對數據進行操作;更深入、更細緻地觀察數據是如何進行精確組織的,並且基於這種組織結構確定數據分析的方法,來獲取更多的信息。

本文由 @木兮擎天@ 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相關焦點

  • 數據分析必備——統計學入門基礎知識
    數據之路,與你同行!——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 數據分析實戰|人人都是產品經理網站(上篇):平臺視角
    乾貨滿滿的上篇,不僅僅是一篇數據分析,相信你將對人人都是產品經理的網站和發展會有新認識,歡迎指導交流~上過人人的微信頭條,每天都能有幾個新的訂閱用戶,這些都在告訴在我這一點付出還是能夠幫助到其他人的。但我一直很好奇它具體在人人的過往文章中到底是個什麼水平,我心裡沒有底。所以出於好奇,就有了這次數據分析的探索之旅。內容安排學過數據分析的同學肯定在最開始都有這樣的體會,手中有了錘子,看什麼都像釘子。
  • 數據分析入門學習指南,零基礎小白都能輕鬆看懂
    數據分析在如今的求職場上越來越重要。然而,讓很多朋友困惑的是,我是沒有編程基礎的小白,能學會數據分析麼?該如何學習數據分析呢?其實,如果你打算成為一名數據分析師,如何出身並不重要,數據科學是一門應用學科,你需要系統提升數據獲取、數據分析、數據可視化、機器學習的水平。下面我就簡單提供一個數據分析入門的路徑。
  • 數據產品經理之數據分析與挖掘
    作為如今網際網路+過程中最火熱的關鍵詞之一,大數據越來越火,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據的商業價值發掘利用相關的技術和知識越來越引起政府、企業和求職者的重視。其中,作為數據產品經理必備的專業知識之一的數據分析可以分為廣義的數據分析和狹義的數據分析,廣義的數據分析就包括狹義的數據分析和數據挖掘,人們常常提到的數據分析是指狹義的數據分析,數據挖掘和數據分析都是從數據中提取一些有價值的信息,但互相的側重點又有所不同。
  • 入門公開課 | 產品經理的宏觀能力、中觀套路、微觀體感是什麼? |...
    當你開始著手入門一個新領域的時候,一定要先給自己畫一個知識地圖但據我們觀察,80%的人在入門產品的時候沒有清晰的學習規劃,往往都是學到哪算哪,撿到啥學啥。如果你明白產品經理的能力分為三個層級:宏觀能力、中觀套路、微觀體感,那麼你入門時的方向感和規劃性就會強許多。1.什麼是宏觀能力?假設你是二零一幾年的程維,你如何帶領滴滴走向出行領域的獨角獸?
  • 人人都是產品經理App體驗報告及改進建議
    產品概況背景介紹人人都是產品經理社區是中國最大、最活躍、最具人氣產品經理學習、交流、分享平臺。社區目前擁有300萬忠實粉絲,其中產品經理佔比50萬, 中國75%的產品經理都在這裡。產品經理這款APP是繼Web端之後人人都是產品經理社區推出的移動端產品,更加便於資訊信息的獲取以及產品經理之間的交流學習。產品簡介產品經理這款App主要以業界資訊動態,產品的互動設計運營等相關的文章為主,也有著關於行業招聘,職場攻略的文章,是一款將產品經理日常工作的方方面面全部涵蓋進去的App。
  • 定性研究數據的敏捷量化分析 - 人人都是產品經理
    用戶調研得來的數據該如何處理?筆者在本文給出了敏捷量化分析方法,可供同學們參考並交流。上一篇文章講了B端用戶調研的一些靈活方法,當收集到用戶調研的數據之後,接下來就是做問題的整理、分析和優化了。一、用戶調研數據分析思路數據收集整理→問題優先級排序→解決方案設計→解決方案的優先級排序二、步驟詳細說明第一步:數據收集整理關於用戶調研的數據收集、整理,每個企業、團隊、產品經理等都有自己的記錄分析的方法和規範體系,為了方便最後的敏捷量化分析,數據的收集整理請注意以下幾點:團隊內建立一個問題識別的規範體系,更加快捷地識別問題的嚴重性
  • 關於AI學習方法的思考——產品經理入門人工智慧
    好了,今天這篇文章我將向您分享我(作為產品經理)對入門人工智慧學習方法上的一些思考。我是一名網際網路產品經理,也希望進入AI領域。目前為止,我已經用了2個月的業餘時間學習入門知識,但還不能算是入門,原因就是人工智慧領域的概念過於寬泛,技術門檻較高。我先用這2個月的學習成果,分享一下我對於入門AI領域學習方法的思考,給大家拋個磚,也許能為大家節省一些時間。
  • AI產品經理的入門必修課(4)——知識圖譜
    編輯導語:通過知識圖譜,不僅可以將網際網路的信息表達成更接近人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式;本文作者分享了關於AI產品經理的知識圖譜簡介以及利用,我們一起來了解一下。
  • 0基礎產品入門法,1小時對話8年大廠PM
    這是一個人人都是產品經理的時代,也是一個人人都嚮往產品經理的時代。工資水平:在北上廣深一線城市,有 89%的產品經理月薪在 8k以上,超過一半的產品經理月薪過萬。△ 看各種入門書籍《人人都是產品經理》、《啟示錄》、《結網》、《點石成金》、《設計之下》等。△ 體驗各種產品從產品的設計、功能、流程等方面去體驗。
  • 零基礎轉行數據分析師是怎樣的體驗?
    第一階段:2周拿下數據分析師的基礎必備技能-SQL結合現在工作後反過來看的話,SQL真的很必備,數據分析工作匯總使用頻率最高的非SQL莫屬。花了1周時間入門了基礎的SQL語句,看的是一個日本人寫的入門教材《SQL基礎教程(mick第二版)》,彩色的,有對應不同類型SQL語句的差異,主要看第一章到第7章。我用的網際網路公司常用的開源MySQL。
  • 競品報告 | 模板讓競品分析一文不值 | 人人都是產品經理
    此即競品分析時最為常用的用戶體驗五要素法。很多產品經理將這部分內容作為主要的分析對象,甚至本末倒置,直接根據這些要素來找信息做「填空」。滯後性——能觀察到競品當前做法的,但是無法預計後續的動作,永遠只能在對手完成相應動作後才去分析。五要素法其實是幫助我們將競品拆分成不同維度的基礎信息。單純地呈現此類信息就會發現,這樣的報告對一個有一定業務認知基礎的人意義不大。二、一個適用的分析策略組有了基礎的信息後,我們需要對這些信息進行有效加工。怎麼加工?
  • 產品經理必備之常用需求挖掘的7個方法
    作者對產品經理常用的需求挖掘的方法進行了梳理總結,並結合相關案例進一步加深了對需求分析的理解。為什麼我要說常用需求挖掘方法是產品經理必備的知識?在《俞軍產品方法論》一書中提到產品經理需要為用戶創造價值,在我看來產品經理只有通過解決用戶的問題進而滿足用戶的需求才能不斷為用戶創造價值。
  • 零基礎學習數據分析,應該做哪些準備
    大數據是未來發展必然趨勢,不懂數據分析很可能在將來會被時代所淘汰,所以現在很多人都爭搶學習數據分析,而且很多人都是零基礎學習。零基礎學習數據分析是有一定難度的,需要大家提前做一些準備。下面,小編就來跟大家盤點一下學習數據分析之前那些必須要做的事。
  • 想成為數據產品經理,先掌握這些數據分析方法論(二)
    之前在《想成為數據產品經理,先掌握這些數據分析方法論》一文中,分享了一些基礎的數據分析方法,從業務分析、用戶分析和產品運營三個方面提供了一些分析的切入角度。接下來,進階一步,我們再來看看還有哪些實用的分析工具。一、業務分析:如何做診斷歸因?
  • 如何成為一名數據分析師?
    接下來主要從技術知識層面來分析。首先我們先說說這兩種方向共同需要的技術面,當然以下只是按照數據分析入門的標準來寫:1. SQL(資料庫),我們都知道數據分析師每天都會處理海量的數據,這些數據來源於資料庫,那麼怎麼從資料庫取數據?如何建立兩表、三表之間的關係?怎麼取到自己想要的特定的數據?
  • 常用推薦算法介紹 | 人人都是產品經理
    搜索滿足用戶從海量數據中迅速找到自己感興趣內容的需求,屬於用戶主動獲取。推薦則是系統從海量數據中根據獲取到的用戶數據,猜測用戶感興趣的內容並推薦給用戶,屬於系統推薦給用戶。本質上都是為了在這個信息過載的時代,幫助用戶找到自己感興趣的東西。推薦系統有很多種形式。運營或者編輯篩選出自己認為最好的內容放在首頁,廣義上講這也是一種推薦。
  • 數據產品必備技術知識:數據倉庫入門,看這這一篇就夠了
    數據倉庫是存數據的,企業的各種數據往裡面塞,主要目的是為了有效分析數據,後續會基於它產出供分析挖掘的數據,或者數據應用需要的數據,如企業的分析性報告和各類報表,為企業的決策提供支持。數據倉庫可以算是數據產品必須要了解的技術知識了, 在一年前的數據產品求職分析中,其中技能要求這一項中,數據倉庫可是佔了一席之地的。
  • 數據分析必備統計學(二):假設檢驗
    假設檢驗解決那些問題網際網路運營分析師與產品經理都很熟悉的方法:ABtest。適用方面:往往新版本或者新功能上線之前,需要驗證新需求的是否有正收益,傳統模式往往就是新版本發布,然後觀察留存率、跳轉率等核心指標,如果觀察表現期內,流量正增長,那麼則認可該版本,如果效果反饋不佳,則快速回滾舊版本。
  • 想快速入門互金產品經理,你一定需要先了解的這點知識
    金融pm每天都在幹嘛,和我的知識儲備一致麼?不管是正在考慮轉型還是準備入行pm的同學,都十分適合這篇文章。因為我們有pm的基礎技能講授,也有網際網路金融知識的傳遞,讓你產品基礎技能+金融行業知識雙豐收。內容大綱:第一部分:網際網路金融公司業務體系內的4類產品能力;第二部分:網際網路金融的3大業務;第三部分:想從事網際網路金融行業?