果斷收藏!數據分析中常犯的18個統計學錯誤,請務必跳過這些坑

2020-12-13 數據分析不是個事兒

在數據分析的過程中我們經常會用到很多的統計學知識,但有很多統計學知識經常有人用錯,從而導致分析結果不盡如人意,今天就給大家列舉了18個容易錯的統計學知識點,建議大家收藏留著以後慢慢看:

1. 變量之間關係可以分為兩類:

函數關係:反映了事物之間某種確定性關係。

相關關係:兩個變量之間存在某種依存關係,但二者並不是一一對應的;反映了事務間不完全確定關係;

2. 為什麼要對相關係數進行顯著性檢驗?

實際上完全沒有關係的變量,在利用樣本數據進行計算時也可能得到一個較大的相關係數值(尤其是時間序列數值)。當樣本數較少,相關係數就很大。當樣本量從100減少到40後,相關係數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;改變兩列數據的順序,不會對相關係數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標準化處理,不會影響相關係數;我們計算的相關係數是線性相關係數,只能反映兩者是否具備線性關係。相關係數高是線性模型擬合程度高的前提;此外相關係數反映兩個變量之間的相關性,多個變量之間的相關性可以通過復相關係數來衡量

3. 增加變量個數,R2會增大;P值,F值只要滿足條件即可,不必追求其值過小

4. 多重共線性與統計假設檢驗傻傻分不清?

多重共線性與統計假設沒有直接關聯,但是對於解釋多元回歸的結果非常重要。相關係數反應兩個變量之間的相關性;回歸係數是假設其他變量不變,自變量變化一個單位,對因變量的影響,而存在多重共線性(變量之間相關係數很大),就會導致解釋困難;比如y~x1+x2;x·1與x2存在多重共線性,當x1變化一個單位,x2不變,對y的影響;而x1與x2高度相關,就會解釋沒有意義。

一元回歸不存在多重共線性的問題;而多元線性回歸要摒棄多重共線性的影響;所以要先對所有的變量進行相關係數分析,初步判定是否滿足前提---多重共線性。

5. 時間序列數據會自發呈現完全共線性問題,所以我們用自回歸分析方法;

6. 什麼樣的模型才是一個好模型?

在測試集表現與預測集相當,說明模型沒有過度擬合:在訓練集上表現完美,在測試集上一塌糊塗;原因:模型過於剛性:「極盡歷史規律,考慮隨機誤差」;擬合精度不能作為衡量模型方法的標準;

一個好的模型:只描述規律性的東西(抓住事務的主要特徵),存在隨機誤差是好事,在預測時,就有了「容錯空間」,預測誤差可能減小!

7. 假設檢驗顯著性水平的兩種理解:

顯著性水平:通過小概率準則來理解,在假設檢驗時先確定一個小概率標準----顯著性水平;用 表示;凡出現概率小於顯著性水平的事件稱小概率事件;通過兩類錯誤理解: 為拒絕域面積

8. 中心極限定律與大數定理:

大數定理---正態分布的「左磅」,隨著樣本數的增加,樣本的平均值可以估計總體平均值;

中心極限定理---正態分布的「右臂」具有穩定性,大數定理說明大量重複實驗的平均結果具有穩定解決了變量均值的收斂性問題中心極限定理說明隨機變量之和逐漸服從某一分布,解決了分布收斂性問題。

9. 方差

方差能最大程度的反映原始數據信息;

反映了一組數據相對於平均數的波動程度,相比於Xi-X ,其平方項更放大了波動,且差的平方在數學公式推導上有大用。

10. 使用最小二乘法條件:

自變量之間不能存在完全共線性;總體方程誤差項服從均值為0的正態分布(大數定理);誤差項的方差不受自變量影響且為固定值;(同方差性)11. 最大似然估計與最小二乘法區別

最小二乘法是基於幾何意義上距離最小;最大似然估計是基於概率意義上出現的概率最大;最小二乘法:對數據分布無要求;最大似然估計:需要知道概率密度函數。12. 關於H0與H1

H0:原假設,零假設----零是相關係數為0,說明兩個變量無關係。

H1:備用假設。

如何設置原假設:

1.H0與H1是完備事件組,相互對立,有且只有一個成立。2.在確立假設時,先確定備設H1,然後再確定H0,且保證「=」總在H0上。3.原H0一般是需要反駁的,而H1是需要支持的。4.假設檢驗只提供原假設不利證據。

即使「假設」設置嚴密,檢驗方法「精確」;假設檢驗始終是建立在一定概率基礎上的,所以我們常會犯兩類錯誤;

第一類:原H0是真,卻拒絕原假設;犯 a類錯誤。

第二類:原H0是假,卻不拒絕原假設;犯 b 類錯誤。

通常只能犯兩種錯誤中的一種,且 a增加, b減少。

通常, a類錯誤是可控的,先設法降低第一類錯誤概率 a

13. 什麼是雙尾檢驗,單尾檢驗?

1. 當H0採用等號,而H1採用不等號,雙尾檢驗。

2.當H0是有方向性的,單尾檢驗。

14. P值

當原假設為真時,比所得到的樣本觀察,結果更極端的結果會出現的概率。如果P值很小,我們拒絕原假設的理由越充分。P的意義不表示兩組差別大小,p反映兩組差別有無統計學意義。顯著性檢驗只是統計結論,判斷差別還需要專業知識;15. T檢驗與U檢驗

當樣本容量n夠大,樣本觀察值符合正態分布,可採用U檢驗;當樣本容量n較小,若觀測值符合正態分布,可採用T型檢驗。16. 方差分析

主要用於兩樣本及以上樣本間的比較,又被稱為F檢驗,變異數分析;

基本思想:通過分析研究不同來源的變異對總體變異的貢獻大小,從而確定可控因素對研究結果影響力的大小

總變異可以被分解為組間變異與組內變異。

組間變異:由於不同實驗處理而造成的各組之間的變異。組內變異:組內各被適變量的差異範圍所呈現的變異。

17. 直方圖:對數據進行整體描述,突出細節

箱線圖:對數據進行概要描述,或對不同樣本進行比較。箱線圖可以讓我們迅速了解數據的匯集情況(這個樣本,緊密的集合在一起;哇,這個樣本不那麼密集;這個樣本,大部分向左偏,哇,這個樣本大部分向右偏。)

但是請注意:一個直方圖比1000個p值更重要,拿到數據先繪製散點圖、直方圖、箱線圖看看,再決定用什麼描述!

18. 霜線圖

對於分位數的理解:霜線圖看數據分布特徵統計學中,把所有數值由小到大排列並分成四等份,處於三個分割點位置的得分就是四分位數。所以,四分位數有三個!四指四等份!

第一四分位數:下四分位數;等於該樣本中所有數值由小到大排列後第25%的數字(所以下四分位數可以不是樣本中的數值,它是一個統計指標(就像平均數一樣,不一定是原數據中的一點)。第二四分位數:中位數;第三四分位數:上四分位數。其中,下四分位數與上四分位數的距離叫四分位距!(IQR)

分享就到這裡,記得收藏哦!

相關焦點

  • 警惕:研究中最常犯的10大統計學錯誤
    2020年6月,PM&R雜誌發表了題為「Ten Common Statistical Errors from All Phases of Research, and Their Fixes」的文章,作者列舉了研究四個階段(研究設計→數據整理與清洗→數據分析→結果報告)常犯的10個統計學錯誤案例,並給出了可以幫助研究人員避免這些錯誤的潛在解決方案
  • 數據分析的坑,都在統計學裡埋過
    對於網際網路工作者來說,統計知識投射在網際網路上,就是數據相關的方法論。舉例來講,現在盛行的 A/B Test 本質上就是控制變量法實驗中的一種。不同的是,網際網路獲取數據更簡單,進行對比實驗更方便。這將是一個統計學/數據分析的大事件。想像一下 Facebook 內部幾千個 A/B Gate,簡直稱得上一場史無前例的大規模人口社會實驗。
  • 管理者在數據分析上常犯的9個錯誤
    除非你直接參與定義和監視原始的數據收集目標、工具和策略,否則你可能無法掌握那些能幫你發現錯誤處理、解釋和使用這些數據的關鍵知識。大多數被我們成為「數據」的東西可能是些僅僅是用來支持某種議程的測量、與事實無關的信息集合、或者來自看起來合理、但是帶有偏見的收集工作。
  • 數據科學家新手常犯的 13 個錯誤(附工具、學習資源)
    如今越來越多的企業正在變得以數據驅動,世界變得越來越緊密,以致於看起來每個企業都需要數據科學實踐。因此,對數據科學家的需求是巨大的。甚至更好的是,業界數據科學人才短缺已經成為共識。 然而,要成為一名數據科學家並不容易。需要掌握多種技能,才能真正成為一名數據科學家。這些技能包括解決問題、結構化思考、編程和其他專業技能。
  • 收藏!關於數據科學中數學和統計學的完全指南
    數學與我們周圍的一切事物息息相關,從形狀、圖案、顏色到花朵中花瓣的數量。數學深深紮根於人類生活的各個方面。數學和統計學對學習數據科學至關重要,因為這些學科構成了所有機器學習算法的基礎。成為一名數據科學家,除了對程式語言要有很好的了解,還必須要掌握機器學習算法、數據驅動方法。
  • 避坑指南:數據科學家新手常犯的13個錯誤(附工具、學習資源連結)
    如果你不是技術出身或者數學出身,就很有可能通過書籍和視頻課程來學習,但大多數並沒有教你那些當前業界渴望從數據科學家身上尋找到的東西。 這是想要成為數據科學家的人正在努力彌合自我教育與現實世界工作之間的差距的原因之一。 在本文中,我會討論數據科學家新手常犯的錯誤(我自己也犯了其中一些),並提供了相關資源,旨在幫助你避免數據科學之旅中的這些陷阱。
  • 10個常犯的期刊投稿合規性錯誤
    學術期刊每天都會收到大量的投稿,然而只有一部分能夠順利得到發表,這也意味著每個研究人員在職業生涯中都會有被拒稿的經歷。很多時候稿件被拒並不是因為研究成果不夠好,而是因為手稿不符合目標期刊的要求。這篇文章中,我們將分享十種作者常犯的導致拒稿的期刊合規性錯誤:1.未能遵守期刊指南:這種情況主要是是因為作者在起草稿件時沒有檢查期刊指南,因此也就沒有遵守相應的期刊要求。
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 數據分析:淺談統計學在生活中的應用,看完長見識了!
    二、統計學在生活中的應用分析   (一)統計學在經濟學中的重要應用   運用統計學對生活中的數據信息進行整理分析,首先要學習統計學的基礎知識以及數據統計個分析等學科,這些基礎知識和方法都是在開展統計學應用活動之前調研人員所必須掌握的
  • 商務英語寫作中常犯的5個錯誤(圖)
    新東方網>英語>英語學習>英語寫作>商務寫作>正文商務英語寫作中常犯的5個錯誤(圖) 2012-09-01 13:41 來源:《kugroo》的博客 作者:
  • 數據分析必備的統計學基礎知識
    數據分析師利用數據思維做數據分析時,一般需要具備統計學的基礎知識,此外,在工作後,筆者才發現Excel是做數據分析的一項強大工具,之前有一種錯誤的認識覺得
  • 【入門】數據分析必備——統計學入門基礎知識
    因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 寫作中常犯的24種邏輯錯誤
    小紅犯了訴諸感情的謬誤。4謬誤謬誤你看到別人的論述水平很低,或者別人的論述裡面有謬誤,就認為別人的觀點一定是錯誤的。很多時候,辯論的贏家獲勝並不是因為觀點正確,而是因為辯論技巧更好。作為一個理性的人,你不能因為別人的論述中存在謬誤或者錯誤,就認為別人的觀點一定是錯誤的。
  • 「超智·挖坑」簡單談談統計學
    其實以上這些問題,本身就犯了缺乏統計學常識的錯誤。至少出現了以下3個誤區: (1)存在樣本偏差。比如抽菸,樣本數量非常有限,得出的結論是不靠譜的;(2)將相關關係和因果關係弄混了。比如賺錢,不僅與學歷有關,還與能力,機會等很多因素有關;(3)沒有採用正確的分析方法。比如在分析學歷和收入之間的關係時,應該保證:學歷之外的其他條件都是一致的並且不變的,這樣分析得出的結論,才是有意義的。年輕人一般都具備統計學常識,不會上面那些犯明顯的常識錯誤。
  • 統計學:大數據時代的新寵!
    其實不然,統計學不僅僅是簡單的收集整理數據,它是一門通過分析挖掘數據內在數量規律性的科學,是一門研究如何解釋、分析和應用數據的方法論科學,是一門融合自然科學和社會科學的學問。浙江大學數學系蘇中根教授說:「統計學專業是學習和研究隨機現象(不確定現象)規律的一門學科。
  • 學習Python數據分析的正確姿勢
    很多數據分析師在開始學習 Python 數據分析之前就被引導學習 LeetCode 上那些為程式設計師準備的編程謎題。這對於只需要提取、清洗數據、繪製可視化圖、構建模型的數據分析師來說實在是誤人子弟,數據分析師要學的不是開發應用軟體,而是應該把時間和精力花在學習處理數據的模塊與支持庫上。請根據以下步驟一步步學習的Python 數據科學。
  • 專家:大數據時代 統計學依然是數據分析靈魂
    清華大學統計學研究中心前不久成立,著名統計學家、哈佛大學終身教授劉軍擔任主任。日前,劉軍做客人民日報、人民網《文化講壇》,分享他的思考。 ——編者 讓大數據區別於數據的,是其海量積累、高增長率和多樣性 什麼是數據?數據(data)在拉丁文裡是「已知」的意思,在英文中的一個解釋是「一組事實的集合,從中可以分析出結論」。
  • 統計學知識闖關
    t檢驗是目前醫學研究中使用頻率最高,醫學論文中最常見到的處理定量資料的假設檢驗方法。第4關:統計學意義(P值) 答:結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,P值為結果可信程度的一個遞減指標,P值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。
  • 數據分析篇|基於推斷統計學,把握問題核心洞悉數據模式與趨勢
    Hi,各位看官老爺們好~,在前兩篇《數據分析-初識數據埋點(一)》、《數據分析-初識數據埋點(二)》中已經對實戰應用中的數據埋點的基礎認知、基本分類、定義規範、流程以及詳細的應用場景與大家做了全面的討論,第三篇也就是本篇將在數據埋點的基礎之上深入討論後續數據分析中的一些問題
  • 新手爸媽常犯的10個錯誤,你中了幾個?
    初次迎接自己的寶寶的新手爸媽,想要給寶寶十分的呵護,可是往往因為一些常識性的問題,犯一些錯誤,而這些錯誤可能會影響寶寶的健康成長!今天,小編就總結了10個常犯的錯誤,希望能對新手爸媽有用哦~錯誤三:睡覺要蓋被子枕枕頭新生兒睡著的時候,伸胳膊和踢腿這些動作可能會導致被子蓋住他的嘴鼻