不懂統計和數據分析講的是什麼?看這篇就夠了,乾貨值得收藏

2020-12-11 Ray的數據分析自習室

數據分析與統計的骨幹知識點集合。

1 數據分析概述

數據分析是基於某種業務目的,有目的的處理數據,提取有價值的信息,解決各種業務問題的過程。

目的/出發點:設立目標或業務需求,明確問題方法:根據不同場景選定分析方法結果:目標解釋或業務應用(to do),創造價值1.1 數據分析流程

目的和內容:明確項目整體框架或業務問題數據收集:根據假設或問題樹收集相應數據,要求數據準確、有效;SQL、業務調整信息數據預處理:檢驗-清理,可比(例如標準化、得分轉換等),論證數據分析:方法、工具的選取數據表達:圖表數據報告:結論、建議&解決方案1.2 數據分析方法

預處理加工:描述性統計分析(數據分布、數據趨勢)、相關分析(正負相關、擬合、相關係數)基於數理統計:方差分析、回歸分析、因子分析數據挖掘:聚類(層次分析、K均值、模糊聚類、高斯回歸)、分類(決策樹、神經網絡、貝葉斯分類、SVM、隨機森林)、回歸分析(線性回歸、logistic回歸)1.3 數據分析工具

Excel-SQL、R、Python、BI、HADOOP、Spark......

2 數據趨勢

2.1 計量尺度

計量尺度是刻畫或比較數據的標準,分為四類:

定類尺度:分類,例如性別;可用 = 或 != 進行運算定序尺度:有序列分類,例如職稱級別(講師、副教授、教授);可用=、!= 或 <、>進行運算定距尺度:例如溫度;可用=、!= 或 <、>或 + 、- 進行運算定比尺度:可用於數據大小、屬性、加減乘除等;可用=、!= 或 <、>或 + 、- 、*、/ 進行運算其中,定類、定序用於刻畫定性數據;定距、定比用於刻畫定量數據。

2.2 數據集中趨勢

平均數:算法平均數、加權平均數、幾何算法平均數(幾何平均數是n個變量值連乘積的n次方根:對比率、指數等進行平均;複利下的平均年利率;連續作業的車間求產品的平均合格率)眾數:頻數最大的數據分位數:1/4;中位數;3/4位數2.3 數據離中趨勢

極值:d = max - min,可粗略檢查產品質量和穩定程度四分位點內距:IQR = Q_3 - Q_1,反映數據中間部分的差距方差variance:觀察值的離均差平方和的算術平均數;刻畫數據的波動程度和穩定性;區分總體方差和樣本方差標準差standard deviation:方差的平方根;與原始數據單位相同,較方差更易於解釋變異係數/離散係數cofficient of variation:標準差/均值 * 100;百分比形式;去量綱、比較多組數據波動程度3 數據分布和展示

3.1 數據分布

數據分布用來描述變量的概率分布,即數據在各個區間分布的多少。

可用數據偏態、數據峰度對數據分布進行描述。

3.1.1 數據偏態

對稱分布:平均數=中位數=眾數非對稱分布時即存在偏態,分為右向偏態和左向偏態右向偏態:平均數>眾數,極端值在右側,曲線向右延伸左向偏態:平均數<眾數,極端值在左側,曲線向左延伸偏態的描述方法:偏態係數SK(=0對稱分布,>0正偏態,<0負偏態)3.2.1 數據峰度

數據峰度用於刻畫數據的尖峭程度。

標準峰度:正態分布對應的標準峰度尖頂峰度:數據在眾數周圍分布較集中平頂峰度:數據在眾數周圍分布相對分散,扁平峰度描述方法:峰度係數K(=0標準峰度,>0尖頂峰度分布,<0平頂峰度分布)3.2 數據展示

條形圖:分組後統計結果的展示扇形圖:各類別佔比的分布折線圖:表示統計數據的增長變化,主要用於展示時間序列的數據直方圖:用於表示數據的分布情況盒式圖:顯示數據的離散情況,中位數、四分位數、上下邊緣、異常值(四分位與邊緣間為溫和異常值,上下邊緣以外為異常值)上下邊緣不是極大極小值,上邊緣 = Q3 + 1.5(Q3-Q1),下邊緣 = Q1 - 1.5(Q3-Q1)使用箱式圖判斷異常值無需假設數據服從正態分布(相比3sigma方法),並且數據抗耐高4 數理統計基礎知識

4.1 隨機變量及其概率描述

隨機現象:具有偶然性,並不總出現相同結果的事件隨機事件:隨機現象的某些基本結果組成的集合(不能確定是否發生,多次試驗結果具有規律性),使用隨機變量對隨機事件的可能性進行描述概率:預測事件發生的可能性,試驗中事件的發生次數/總試驗次數隨機變量的分布離散型:有限個點或可列出,分布類型包含二項分布、泊松分布連續型:區間;均勻分布、指數分布、正態分布條件概率:B發生時A發生的概率=AB同時發生概率/B發生的概率相互獨立事件:P(A|B)=P(A) & P(B|A)=P(B) & P(AB)=P(A) x P(B) ,例如有放回抽樣4.2 常見分布類型介紹

正態分布

正態分布是對稱的,概率曲線最高點在均值處,標準正態分布是指均值為0,標準差為1的正態分布、

3sigma準則:質量檢測、剔除異常值

z標準化:將正態分布轉化為標準正態分布

卡方分布

用於卡方檢驗

若n個相互獨立的隨機變量ξ,ξ,...,ξn ,均服從標準正態分布(也稱獨立同分布於標準正態分布),則這n個服從標準正態分布的隨機變量的平方和構成一新的隨機變量,其分布規律稱為卡方分布

t分布

t分布是一簇曲線,其形態變化與n(確切地說與自由度df)大小有關。自由度df越小,t分布曲線越低平;自由度df越大,t分布曲線越接近標準正態分布(u分布)曲線。

t檢驗、獨立性檢驗等

F分布

用於方差分析、方差檢驗

4.3 大數定律&中心極限定理

大數定律

在隨機事件的大量重複出現中,往往呈現幾乎必然的規律,這個規律就是大數定律。

中心極限定理

對於任何分布的總體,若樣本容量較大,能夠用正態概率分布來近似樣本均值的抽樣分布。

通常樣本容量達到30(樣本中的單位數達到30)即可滿足定理的大樣本條件。

5 抽樣估計

5.1 抽樣概念引入

抽樣:使用局部估計整體

總體相關概念

總體:根據研究目標確定的對象全體,未必是全量用戶總體指標:均值、比重結構等個體:總體中的每個元素,具有同質性(滿足同一研究目標)、大量、差異性;個體總數稱為總體容量N樣本相關概念

樣本:隨機從總體中抽取的部分個體樣本指標:樣本均值、樣本方差樣本容量:樣本中的個體數量抽樣估計:利用樣本指標估計總體值班表

要求:隨機性、獨立性

5.2 區間估計

相關指標

置信區間:精確性置信係數:可靠性顯著性水平:alpha,表示不可靠概率檢驗統計量

根據樣本容量不同、估計均值或比例的不同,選取不同的檢驗統計量

大樣本——z分布

小樣本——t分布

6 假設檢驗

6.1 概念

通過樣本數據檢驗對總體的假設。

基本思想:反證法,基於小概率時間不發生的準則和總體的假設,根據樣本數據獲得的樣本統計量分布,得到抽樣過程中的極端或錯誤現象的小概率時間,從而做出對假設的否定判斷。

假設:原假設、備擇假設

6.2 假設檢驗方法

建立假設:通常希望證偽的假設作為原假設,反之為備擇假設選擇檢驗統計量:確定拒絕域:給定顯著性水平,從而確定拒絕域計算檢驗統計量,做出判斷:計算結果落在拒絕域中,則表明小概率事件發生,拒絕原假設6.3 常見檢驗統計量

Z檢驗:統計量滿足正態分布。用於單個正態總體均值檢驗;兩個正態總體均值之差檢驗,方差已知;t檢驗:統計量滿足t分布。單個正態總體均值檢驗,方差未知;兩個正態總體均值/比例檢驗,方差相等但未知(同一群體的兩次實驗);兩個正態總體均值/比例檢驗,方差不等且未知(AB測試)卡方檢驗:統計量服從卡方分布,樣本來自正態總體,用於單個正態總體方差檢驗;F檢驗:統計量服從F分布,樣本數據來自兩個正態總體,用於兩個正態總體方差檢驗。Z、t檢驗用於均值或比例檢驗,卡方和F檢驗用於方差檢驗

7 方差分析

方差分析用來描述多個總體的差異性,檢驗多個總體均值是否相同。

通過檢驗各總體均值是否相等來判斷分類型自變量對數值型因變量是否有顯著性影響。

相關焦點

  • 《R語言統計應用入門》成績分析2016版(乾貨篇)
    是的,大家喜聞樂見(or 如喪考妣)的R語言成績分析2016-2017學期版又來了。這一篇命名為乾貨篇,原因嘛,確實挺「幹」的,欠缺點可讀性。
  • 「精液分析報告」數據太多看不懂?關注這3項就夠了
    準爸也該去查查精子君,看是不是出了問題。然而,化驗報告單就像「天書」。這指標是什麼意思,這數值又怎麼回事,根本看不懂啊!!接下來,咱們就來講講精液檢查,學會這些,自己也能看懂精液報告啦!01、精液採集,這幾個問題要注意不注意這些細節,分分鐘影響精液分析的結果,到時候坑爹又坑娃……▶去醫院檢查前控制自己!先禁慾3~5天。時間也沒那麼絕對啦,反正不少於2天,不多於7天都ok。
  • Stata, R和Python視頻課程, 文章, 數據和代碼全在這裡, 真的受用無窮!
    滿滿乾貨拿走不謝2.Stata資料全分享,快點收藏學習3.Stata統計功能、數據作圖、學習資源等4.Stata學習的書籍和材料大放送, 以火力全開的勢頭5.史上最全Stata繪圖技巧, 女生的最愛6.把Stata結果輸出到word, excel的乾貨方案7.程式語言中的函數什麼鬼?
  • 乾貨|Meta分析各種概念
    乾貨|Meta分析各種概念今天我們打算給大家講一下Meta分析的一些相關概念,也許看完這篇文章後你依然不會做Meta分析,但是你應該能夠容易讀懂
  • Excel操作技巧:簡單3步,搞定數據統計和分析!
    所以,我們需要對表格內容進行數據統計和分析,才能夠將信息順利的傳遞出去。今天的這篇文章,我給大家分享一下數據統計分析的3個基本套路:1、 需求分析2、 數據整理3、 統計分析第一步:需求分析在開始統計之前,我們先要搞清楚對方想要從這個表格中獲取什麼信息。
  • 統計|臨床試驗數據分析要點
    由於各種理由,這在實際上是難以達到的,因此,全樣本分析是儘可能接近於包括所有隨機受試者,在分析中保留最初的隨機化對於防止偏差和提供安全的統計檢驗基礎很重要。在許多場合,它提供的對治療效果的估算很可能反映了以後的實際觀察結果。  從分析中剔除已隨機受試者的情況不多:包括不符合重要入選標準,一次也沒有用藥,隨機化後沒有任何數據。
  • 乾貨丨18個免費的探索性數據分析工具,值得收藏
    因為我在這一生中從未編碼過。我的情況就像是一個從來沒學過遊泳的人在被強行踹進深海後用盡力氣讓自己不沉下去但是卻喝了好多口鹹鹹的海水。現在,當我回過頭看,我笑了。你知道為什麼嗎?因為,我本可以選擇不需要會編程就可以使用的數據分析工具並避免那些痛苦。數據挖掘是預測建模不可缺少的一部分。除非你知道過去發生了什麼否則你無法做出預測。
  • 大數據行業的乾貨資料,這一次,全都整理分享出來
    我知道,很多人都會在網際網路上尋找一些學習的乾貨,可是質量不高、講的不夠精華讓人總不痛快!很多乾貨資料看著多麼的牛,實際上內容真的很水。數位化這一塊,乾貨資料不應該是講什麼虛頭巴腦的概念,而是應該直接從場景切入,把是什麼、為什麼、怎麼做講的明明白白,這才是真正有價值的。我整理了一些,如果是大數據行業的,這些夠你學很久很久,因為都是企業的實際案例。
  • 想學數據分析卻不知道看什麼書,為你推薦精選書單
    趕快收藏啦~本次書單推薦包含「入門篇」、「進階篇」、「高階篇」,適用於不同層次的學習者。請大家對號入座,收好適合自己的修煉秘籍吧~入門篇1.儘管閱讀容易,但所講的知識在數據分析中都是常見且必須掌握的,比如基本的統計量,基本上每個分析項目中都會用到;比如基本的概率分布,總體與樣本的概念、置信區間、假設檢驗、回歸分析,都是關於數據分析的統計學知識。4.
  • 乾貨:UN和WTO推薦的最全且權威的實證研究方法及在Stata實現!
    滿滿乾貨拿走不謝,2.Stata資料全分享,快點收藏學習,3.Stata統計功能、數據作圖、學習資源等,4.Stata學習的書籍和材料大放送, 以火力全開的勢頭,5.史上最全Stata繪圖技巧, 女生的最愛,6.
  • 乾貨|作為一個合格的「增長黑客」,你還得重視外部數據的分析!
    對於數據分析師而言,「描述型分析」、「診斷型分析」和「預測型分析」最為常見,而「規範型分析」涉及比較高深的數據挖掘和機器學習知識,不是我們接下來討論的重點。1.1 描述型數據分析描述型分析是用來概括、表述事物整體狀況以及事物間關聯、類屬關係的統計方法,是上述四類中最為常見的數據分析類型。
  • 鵝廠 大數據行業的乾貨資料,這一次,全都整理分享出來
    我知道,很多人都會在網際網路上尋找一些學習的乾貨,可是質量不高、講的不夠精華讓人總不痛快!很多乾貨資料看著多麼的牛,實際上內容真的很水。數位化這一塊,乾貨資料不應該是講什麼虛頭巴腦的概念,而是應該直接從場景切入,把是什麼、為什麼、怎麼做講的明明白白,這才是真正有價值的。
  • 數據分析淺談 | 基礎篇
    「萬事開頭難」這句俗語的力量我是又一次深深地體會到啦,默默兩行淚,我竟然不知道寫什麼,哈哈哈~ 作為野生程序猿的首篇「水」文,當然要與眾不同啦
  • SPSS+Excel統計分析技巧篇——醫學數據的描述性統計分析
    對原始數據進行格式化整理需要使用到Excel,如下圖:請觀看下方視頻教程全屏播放請關閉手機中「方向鎖定」,然後將手機橫向放置(若無法播放,請聯繫客服微信3301888200)Excel對原始數據進行整理
  • 考研上岸高分秘籍,只看這篇就夠!
    看了那麼多東西如果記不住也沒用。複習的東西到底是不是那個階段必須的呢?花那麼多時間去複習的內容真的值得嗎?在考研準備期間我常常這樣思考,不是在懷疑自己,而是給自己一個調整複習的機會,事實證明這些思考必要也值得。拿英語來說吧。
  • 大數據行業的乾貨資料,這一次,全都整理分享出來,拒絕無用資料
    我知道,很多人都會在網際網路上尋找一些學習的乾貨,可是質量不高、講的不夠精華讓人總不痛快!很多乾貨資料看著多麼的牛,實際上內容真的很水。數位化這一塊,乾貨資料不應該是講什麼虛頭巴腦的概念,而是應該直接從場景切入,把是什麼、為什麼、怎麼做講的明明白白,這才是真正有價值的。
  • 微信公眾號怎樣做數據分析?學會這八點就行!
    從公眾號會話分享率(圖文轉發率)從公號分享到朋友圈的人數/公眾號會話閱讀人數,該是衡量這篇推送文章價值的標準,圖文轉化率越高說明這篇文章質量越好。相比一次傳播,二次傳播更加能夠說明該篇文章推送的傳播力和影響力,是深度傳播,比一次傳播的數據更有價值。
  • 【乾貨滿滿】這些書都沒看?那你的數據分析白學了!——產品&運營專屬
    首先,剛開始在要研究數據分析時,整個腦子都是懵的,不過在讀到這本書時,卻感覺數據分析還挺有有意思的,這本書是類似於「章回小說」的活潑生動形式,讓數據小白們,詮釋了數據分析的基本步驟,實驗方法,最優化方法/假設檢驗法/貝葉斯統計法/等等方法論,還有更重要的是數據分析整理技巧,這個太重要了。
  • 絕對乾貨!如何記筆記效率最高?如何歸納整理?這篇文章值得收藏
    絕對乾貨!如何記筆記效率最高?如何歸納整理?這篇文章值得收藏隨著9月的到來,大部分學生都開學了。在學生時期,筆記是非常重要的。高效率記筆記對於日後的複習、備考都是非常有幫助的。今天跟大家分享的就是如何記筆記,怎樣對知識進行歸納整理?!
  • 戰爭中的統計數字有啥用?要是這都看不懂,仗也就不用打了
    而關注武器的朋友對數據指標也是比較關心的,比如火炮的口徑、射程、戰鬥全重以及更加細節的一些指標等等。脫離了統計數字去談戰史,脫離了武器數據去談裝備,這顯然是聊不出個所以然的。筆者在寫戰史文章的時候,經常會引用一些統計數字。有些朋友會比較奇怪,都打仗了,怎麼可能還會有精確到個位數的統計?還有的朋友也有疑問,這些數字看得暈頭慌腦的,都看不懂,列這些有什麼用?