不懂統計和數據分析講的是什麼?看這篇就夠了,乾貨值得收藏

2020-11-30 Ray的數據分析自習室

數據分析與統計的骨幹知識點集合。

1 數據分析概述

數據分析是基於某種業務目的,有目的的處理數據,提取有價值的信息,解決各種業務問題的過程。

目的/出發點:設立目標或業務需求,明確問題方法:根據不同場景選定分析方法結果:目標解釋或業務應用(to do),創造價值1.1 數據分析流程

目的和內容:明確項目整體框架或業務問題數據收集:根據假設或問題樹收集相應數據,要求數據準確、有效;SQL、業務調整信息數據預處理:檢驗-清理,可比(例如標準化、得分轉換等),論證數據分析:方法、工具的選取數據表達:圖表數據報告:結論、建議&解決方案1.2 數據分析方法

預處理加工:描述性統計分析(數據分布、數據趨勢)、相關分析(正負相關、擬合、相關係數)基於數理統計:方差分析、回歸分析、因子分析數據挖掘:聚類(層次分析、K均值、模糊聚類、高斯回歸)、分類(決策樹、神經網絡、貝葉斯分類、SVM、隨機森林)、回歸分析(線性回歸、logistic回歸)1.3 數據分析工具

Excel-SQL、R、Python、BI、HADOOP、Spark......

2 數據趨勢

2.1 計量尺度

計量尺度是刻畫或比較數據的標準,分為四類:

定類尺度:分類,例如性別;可用 = 或 != 進行運算定序尺度:有序列分類,例如職稱級別(講師、副教授、教授);可用=、!= 或 <、>進行運算定距尺度:例如溫度;可用=、!= 或 <、>或 + 、- 進行運算定比尺度:可用於數據大小、屬性、加減乘除等;可用=、!= 或 <、>或 + 、- 、*、/ 進行運算其中,定類、定序用於刻畫定性數據;定距、定比用於刻畫定量數據。

2.2 數據集中趨勢

平均數:算法平均數、加權平均數、幾何算法平均數(幾何平均數是n個變量值連乘積的n次方根:對比率、指數等進行平均;複利下的平均年利率;連續作業的車間求產品的平均合格率)眾數:頻數最大的數據分位數:1/4;中位數;3/4位數2.3 數據離中趨勢

極值:d = max - min,可粗略檢查產品質量和穩定程度四分位點內距:IQR = Q_3 - Q_1,反映數據中間部分的差距方差variance:觀察值的離均差平方和的算術平均數;刻畫數據的波動程度和穩定性;區分總體方差和樣本方差標準差standard deviation:方差的平方根;與原始數據單位相同,較方差更易於解釋變異係數/離散係數cofficient of variation:標準差/均值 * 100;百分比形式;去量綱、比較多組數據波動程度3 數據分布和展示

3.1 數據分布

數據分布用來描述變量的概率分布,即數據在各個區間分布的多少。

可用數據偏態、數據峰度對數據分布進行描述。

3.1.1 數據偏態

對稱分布:平均數=中位數=眾數非對稱分布時即存在偏態,分為右向偏態和左向偏態右向偏態:平均數>眾數,極端值在右側,曲線向右延伸左向偏態:平均數<眾數,極端值在左側,曲線向左延伸偏態的描述方法:偏態係數SK(=0對稱分布,>0正偏態,<0負偏態)3.2.1 數據峰度

數據峰度用於刻畫數據的尖峭程度。

標準峰度:正態分布對應的標準峰度尖頂峰度:數據在眾數周圍分布較集中平頂峰度:數據在眾數周圍分布相對分散,扁平峰度描述方法:峰度係數K(=0標準峰度,>0尖頂峰度分布,<0平頂峰度分布)3.2 數據展示

條形圖:分組後統計結果的展示扇形圖:各類別佔比的分布折線圖:表示統計數據的增長變化,主要用於展示時間序列的數據直方圖:用於表示數據的分布情況盒式圖:顯示數據的離散情況,中位數、四分位數、上下邊緣、異常值(四分位與邊緣間為溫和異常值,上下邊緣以外為異常值)上下邊緣不是極大極小值,上邊緣 = Q3 + 1.5(Q3-Q1),下邊緣 = Q1 - 1.5(Q3-Q1)使用箱式圖判斷異常值無需假設數據服從正態分布(相比3sigma方法),並且數據抗耐高4 數理統計基礎知識

4.1 隨機變量及其概率描述

隨機現象:具有偶然性,並不總出現相同結果的事件隨機事件:隨機現象的某些基本結果組成的集合(不能確定是否發生,多次試驗結果具有規律性),使用隨機變量對隨機事件的可能性進行描述概率:預測事件發生的可能性,試驗中事件的發生次數/總試驗次數隨機變量的分布離散型:有限個點或可列出,分布類型包含二項分布、泊松分布連續型:區間;均勻分布、指數分布、正態分布條件概率:B發生時A發生的概率=AB同時發生概率/B發生的概率相互獨立事件:P(A|B)=P(A) & P(B|A)=P(B) & P(AB)=P(A) x P(B) ,例如有放回抽樣4.2 常見分布類型介紹

正態分布

正態分布是對稱的,概率曲線最高點在均值處,標準正態分布是指均值為0,標準差為1的正態分布、

3sigma準則:質量檢測、剔除異常值

z標準化:將正態分布轉化為標準正態分布

卡方分布

用於卡方檢驗

若n個相互獨立的隨機變量ξ,ξ,...,ξn ,均服從標準正態分布(也稱獨立同分布於標準正態分布),則這n個服從標準正態分布的隨機變量的平方和構成一新的隨機變量,其分布規律稱為卡方分布

t分布

t分布是一簇曲線,其形態變化與n(確切地說與自由度df)大小有關。自由度df越小,t分布曲線越低平;自由度df越大,t分布曲線越接近標準正態分布(u分布)曲線。

t檢驗、獨立性檢驗等

F分布

用於方差分析、方差檢驗

4.3 大數定律&中心極限定理

大數定律

在隨機事件的大量重複出現中,往往呈現幾乎必然的規律,這個規律就是大數定律。

中心極限定理

對於任何分布的總體,若樣本容量較大,能夠用正態概率分布來近似樣本均值的抽樣分布。

通常樣本容量達到30(樣本中的單位數達到30)即可滿足定理的大樣本條件。

5 抽樣估計

5.1 抽樣概念引入

抽樣:使用局部估計整體

總體相關概念

總體:根據研究目標確定的對象全體,未必是全量用戶總體指標:均值、比重結構等個體:總體中的每個元素,具有同質性(滿足同一研究目標)、大量、差異性;個體總數稱為總體容量N樣本相關概念

樣本:隨機從總體中抽取的部分個體樣本指標:樣本均值、樣本方差樣本容量:樣本中的個體數量抽樣估計:利用樣本指標估計總體值班表

要求:隨機性、獨立性

5.2 區間估計

相關指標

置信區間:精確性置信係數:可靠性顯著性水平:alpha,表示不可靠概率檢驗統計量

根據樣本容量不同、估計均值或比例的不同,選取不同的檢驗統計量

大樣本——z分布

小樣本——t分布

6 假設檢驗

6.1 概念

通過樣本數據檢驗對總體的假設。

基本思想:反證法,基於小概率時間不發生的準則和總體的假設,根據樣本數據獲得的樣本統計量分布,得到抽樣過程中的極端或錯誤現象的小概率時間,從而做出對假設的否定判斷。

假設:原假設、備擇假設

6.2 假設檢驗方法

建立假設:通常希望證偽的假設作為原假設,反之為備擇假設選擇檢驗統計量:確定拒絕域:給定顯著性水平,從而確定拒絕域計算檢驗統計量,做出判斷:計算結果落在拒絕域中,則表明小概率事件發生,拒絕原假設6.3 常見檢驗統計量

Z檢驗:統計量滿足正態分布。用於單個正態總體均值檢驗;兩個正態總體均值之差檢驗,方差已知;t檢驗:統計量滿足t分布。單個正態總體均值檢驗,方差未知;兩個正態總體均值/比例檢驗,方差相等但未知(同一群體的兩次實驗);兩個正態總體均值/比例檢驗,方差不等且未知(AB測試)卡方檢驗:統計量服從卡方分布,樣本來自正態總體,用於單個正態總體方差檢驗;F檢驗:統計量服從F分布,樣本數據來自兩個正態總體,用於兩個正態總體方差檢驗。Z、t檢驗用於均值或比例檢驗,卡方和F檢驗用於方差檢驗

7 方差分析

方差分析用來描述多個總體的差異性,檢驗多個總體均值是否相同。

通過檢驗各總體均值是否相等來判斷分類型自變量對數值型因變量是否有顯著性影響。

相關焦點

  • seo數據分析與統計都用什麼工具?這幾款值得收藏
    數據統計和分析是運營中必不可少的重要步驟之一,分析用戶行為,使用上面設備、搜索什麼關鍵詞進入網站,用戶在頁面上的停留時間、是否諮詢,使用的是什麼瀏覽器、作業系統,對哪些內容比較感興趣,每天都有哪些關鍵詞流量大等,這些數據可以知道我們未來該怎麼去做內容運營,重點優化哪些內容。
  • Excel操作技巧:簡單3步,搞定數據統計和分析!
    所以,我們需要對表格內容進行數據統計和分析,才能夠將信息順利的傳遞出去。今天的這篇文章,我給大家分享一下數據統計分析的3個基本套路:1、 需求分析2、 數據整理3、 統計分析第一步:需求分析在開始統計之前,我們先要搞清楚對方想要從這個表格中獲取什麼信息。
  • 乾貨|作為一個合格的「增長黑客」,你還得重視外部數據的分析!
    ,讓我們先簡單的看一看數據分析的四種類型。通過統計處理可以簡潔地用幾個統計值來表示一組數據地集中性(如平均值、中位數和眾數等)和離散型(反映數據的波動性大小,如方差、標準差等)。規範型分析通過 「已經發生什麼」、「為什麼發生」和「什麼將發生」,也就是綜合運用上述提及的描述型分析、診斷型分析和預測型分析,對潛在用戶進行商品/服務推薦和決策支持。
  • 數據分析實戰|人人都是產品經理網站(上篇):平臺視角
    上過人人的微信頭條,每天都能有幾個新的訂閱用戶,這些都在告訴在我這一點付出還是能夠幫助到其他人的。但我一直很好奇它具體在人人的過往文章中到底是個什麼水平,我心裡沒有底。所以出於好奇,就有了這次數據分析的探索之旅。內容安排學過數據分析的同學肯定在最開始都有這樣的體會,手中有了錘子,看什麼都像釘子。
  • 數據分析淺談 | 基礎篇
    「萬事開頭難」這句俗語的力量我是又一次深深地體會到啦,默默兩行淚,我竟然不知道寫什麼,哈哈哈~ 作為野生程序猿的首篇
  • 數據分析神操作,第一個操作就跪了!(建議收藏)
    是什麼原因讓企業如此重視「數據人才」?伴隨滴滴出行、智慧營銷等的落地商用,部分企業嘗到了數據帶來的巨額紅利,各大企業開始關注曾經「無用」的數據。如今,企業每天會產生海量的數據,BAT日均數據更是達到了PB級別。
  • 看不懂,看不進去?如何閱讀一篇英文文獻?
    曾經我也不愛看英文文獻,看不懂,看不進去,直到後來寫畢業論文,10分鐘看完一篇,一宿查閱完四五十篇英文文獻並且撰寫緒論引用文獻,慢慢地掌握了閱讀英文文獻的方法。為什麼看不進去英文文獻?剛上研究生的時候,導師的要求是每周至少精讀一篇英文文獻。
  • 猛獁象牙值得收藏嗎?
    猛獁象牙雕刻雕件今日與喜愛牙雕的藏友一起交流,問起現在象牙雕刻製品已經很難碰到了,取而代之的是猛獁象牙的雕件,到底現在猛獁牙有沒有收藏價值呢?我們下面來討論一下。著名的廣州牙雕「鬼工球」去廣州旅遊哪些地方值得一去?
  • 提高數據分析能力,你不得不看的33本書|推薦收藏
    《誰說菜鳥不會數據分析》推薦理由:基於通用的Excel工具,在8個章節中,分別講解數據分析必知必會的知識、數據處理技巧、數據展現的技術、通過專業化的視角來提升圖表之美、數據分析報告的撰寫技能以及持續的修煉。讀者完全可以把這本書當小說來閱讀,跟隨主人公小白,在Mr.林的指點下輕鬆掌握數據分析的技能,提升職場競爭能力。2.
  • 數據產品必備技術知識:數據倉庫入門,看這這一篇就夠了
    數據倉庫是存數據的,企業的各種數據往裡面塞,主要目的是為了有效分析數據,後續會基於它產出供分析挖掘的數據,或者數據應用需要的數據,如企業的分析性報告和各類報表,為企業的決策提供支持。數據倉庫可以算是數據產品必須要了解的技術知識了, 在一年前的數據產品求職分析中,其中技能要求這一項中,數據倉庫可是佔了一席之地的。
  • 什麼樣的人適合學習數據分析?小白如何自學數據分析?
    帶著這些問題,我們一起來看今天要探討的問題。什麼叫數據分析?什麼樣的人適合學習數據分析?應該學習哪些內容?需要用到哪些學習資料?自學數據分析如何安排時間?不是相關專業,如何打造簡歷?圖片來源於百度想要學習數據分析技能,or利用數據分析提高自己的工作效率,or解鎖新技能,看完這些,可以考慮自己適不適合學習數據分析。
  • 看這篇文章就夠了
    別著急,往下看。一、明確自己差在哪裡?英語為什麼學不好,成績為什麼提不上去,總是有理由的。比如:1. 有的同學積累的詞彙量還維持在小學階段,做題的時候題目都看不懂,成績自然提不上去;2.這第一步就是先知道自己到底差在哪裡,對症下藥,見效才快!二、對症下藥1. 單詞積累不夠的,一定要先去背單詞,詞彙書,推薦大家使用:閃過英語《中考詞彙閃過》,這是一本劃重點的單詞書。
  • 股市的大數據統計!「黑色星期四」?「黑色星期五」?
    股市的大數據統計!程式化測試第一篇!股市10年來周中交易日的漲跌概率!股市一直流傳「黑色星期四」、「黑色星期五」的「傳言」,是真是假?一般的散戶並沒有好的「工具」、「方法」進行統計、測試。今後「芳華講交易」會幫助交易者朋友們,利用專業機構的「程式化工具」進行統計測試,用數據和事實說話,破除交易市場上的各種「流言蜚語」!
  • 腫瘤經典資料庫Oncomine,腫瘤研究的萬金油,看這篇就夠了
    > Oncomine也是腫瘤領域中一個經典的樣本資料庫,能幫助我們篩選一些值得研究的靶分子,或預測表型。
  • 實驗統計測量複習方法指導—心理學考研人的福音,乾貨滿滿!
    很多同學最怕的也就是實驗設計了,看別人的實驗設計對於大家來說可能不是很難,但是一旦讓自己來設計實驗,就不知道該如何下手了。大家可以按照《心理學考研一本通:實驗統計測量篇》上面所講的方法一步一步的進行(如下圖):
  • 乾貨!B站上值得推薦的8個自學編程視頻
    1、[小甲魚]零基礎入門學習Python 播放量:1331.4萬 視頻風格十分幽默,播放量很高,深受大家喜愛,不過已經是2013的了,確實有點過時,但還是值得一看的
  • 蛋白質組學研究,這篇夠經典!
    在正文開始之前,推薦蛋白質組學的一本書和一篇綜述,書是冷泉港蛋白質組學實驗手冊,適合完全不懂零基礎的開始學,綜述是chemical review(影響因子有40多,化學類第一高)上的Protein Analysis by Shotgun/Bottom-up Proteomics,適合有一定基礎的看。
  • 機場行業價值分析,看這篇就夠了
    來源:21世紀經濟報導原標題:機場行業價值分析,看這篇就夠了機場行業是指機場經營商以及提供相關服務的公司。 第一章行業概況機場行業是指機場經營商以及提供相關服務的公司。機場系統包括空側陸側兩部分。空側是指飛行器區域,機場內旅客和其他公眾不能自由進入的地區;陸側是指機場內旅客和其他公眾可以自由進入的地區。
  • 用數據驅動HR,虎彩做到了!(深度乾貨)
    演 講丨王斌,HR數據部經理整 理丨環球君滿滿乾貨,建議直接分享收藏!掃描下方二維碼,即可收聽完整版語音+PPT分享。覺得不錯,請為虎彩印藝HR投票哦!此時需求HR數據分析協助,期望能有說服力的依據給到自己做管理決策加人還是不加人?這個時候,作為HR,就需要分析公司的效能產值,比如單位工時產值、人均產值等等:
  • 沒有統計知識怎麼寫統計論文?(通俗易懂篇)
    如果你第一次寫統計論文也許可以幫助到你。統計方法的重要性:社會學科絕大多數情況都是寫的定量論文,也就是會運用到統計軟體進行寫作。基本涵蓋商科(經濟管理貿易金融等),傳媒,教育學,心理學等,雖然研究的內容不一樣,但是研究方法和邏輯差不多。