果斷收藏!數據分析中常犯的18個統計學錯誤,請務必跳過這些坑

2020-11-29 數據分析不是個事兒

在數據分析的過程中我們經常會用到很多的統計學知識,但有很多統計學知識經常有人用錯,從而導致分析結果不盡如人意,今天就給大家列舉了18個容易錯的統計學知識點,建議大家收藏留著以後慢慢看:

1. 變量之間關係可以分為兩類:

函數關係:反映了事物之間某種確定性關係。

相關關係:兩個變量之間存在某種依存關係,但二者並不是一一對應的;反映了事務間不完全確定關係;

2. 為什麼要對相關係數進行顯著性檢驗?

實際上完全沒有關係的變量,在利用樣本數據進行計算時也可能得到一個較大的相關係數值(尤其是時間序列數值)。當樣本數較少,相關係數就很大。當樣本量從100減少到40後,相關係數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;改變兩列數據的順序,不會對相關係數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標準化處理,不會影響相關係數;我們計算的相關係數是線性相關係數,只能反映兩者是否具備線性關係。相關係數高是線性模型擬合程度高的前提;此外相關係數反映兩個變量之間的相關性,多個變量之間的相關性可以通過復相關係數來衡量

3. 增加變量個數,R2會增大;P值,F值只要滿足條件即可,不必追求其值過小

4. 多重共線性與統計假設檢驗傻傻分不清?

多重共線性與統計假設沒有直接關聯,但是對於解釋多元回歸的結果非常重要。相關係數反應兩個變量之間的相關性;回歸係數是假設其他變量不變,自變量變化一個單位,對因變量的影響,而存在多重共線性(變量之間相關係數很大),就會導致解釋困難;比如y~x1+x2;x·1與x2存在多重共線性,當x1變化一個單位,x2不變,對y的影響;而x1與x2高度相關,就會解釋沒有意義。

一元回歸不存在多重共線性的問題;而多元線性回歸要摒棄多重共線性的影響;所以要先對所有的變量進行相關係數分析,初步判定是否滿足前提---多重共線性。

5. 時間序列數據會自發呈現完全共線性問題,所以我們用自回歸分析方法;

6. 什麼樣的模型才是一個好模型?

在測試集表現與預測集相當,說明模型沒有過度擬合:在訓練集上表現完美,在測試集上一塌糊塗;原因:模型過於剛性:「極盡歷史規律,考慮隨機誤差」;擬合精度不能作為衡量模型方法的標準;

一個好的模型:只描述規律性的東西(抓住事務的主要特徵),存在隨機誤差是好事,在預測時,就有了「容錯空間」,預測誤差可能減小!

7. 假設檢驗顯著性水平的兩種理解:

顯著性水平:通過小概率準則來理解,在假設檢驗時先確定一個小概率標準----顯著性水平;用 表示;凡出現概率小於顯著性水平的事件稱小概率事件;通過兩類錯誤理解: 為拒絕域面積

8. 中心極限定律與大數定理:

大數定理---正態分布的「左磅」,隨著樣本數的增加,樣本的平均值可以估計總體平均值;

中心極限定理---正態分布的「右臂」具有穩定性,大數定理說明大量重複實驗的平均結果具有穩定解決了變量均值的收斂性問題中心極限定理說明隨機變量之和逐漸服從某一分布,解決了分布收斂性問題。

9. 方差

方差能最大程度的反映原始數據信息;

反映了一組數據相對於平均數的波動程度,相比於Xi-X ,其平方項更放大了波動,且差的平方在數學公式推導上有大用。

10. 使用最小二乘法條件:

自變量之間不能存在完全共線性;總體方程誤差項服從均值為0的正態分布(大數定理);誤差項的方差不受自變量影響且為固定值;(同方差性)11. 最大似然估計與最小二乘法區別

最小二乘法是基於幾何意義上距離最小;最大似然估計是基於概率意義上出現的概率最大;最小二乘法:對數據分布無要求;最大似然估計:需要知道概率密度函數。12. 關於H0與H1

H0:原假設,零假設----零是相關係數為0,說明兩個變量無關係。

H1:備用假設。

如何設置原假設:

1.H0與H1是完備事件組,相互對立,有且只有一個成立。2.在確立假設時,先確定備設H1,然後再確定H0,且保證「=」總在H0上。3.原H0一般是需要反駁的,而H1是需要支持的。4.假設檢驗只提供原假設不利證據。

即使「假設」設置嚴密,檢驗方法「精確」;假設檢驗始終是建立在一定概率基礎上的,所以我們常會犯兩類錯誤;

第一類:原H0是真,卻拒絕原假設;犯 a類錯誤。

第二類:原H0是假,卻不拒絕原假設;犯 b 類錯誤。

通常只能犯兩種錯誤中的一種,且 a增加, b減少。

通常, a類錯誤是可控的,先設法降低第一類錯誤概率 a

13. 什麼是雙尾檢驗,單尾檢驗?

1. 當H0採用等號,而H1採用不等號,雙尾檢驗。

2.當H0是有方向性的,單尾檢驗。

14. P值

當原假設為真時,比所得到的樣本觀察,結果更極端的結果會出現的概率。如果P值很小,我們拒絕原假設的理由越充分。P的意義不表示兩組差別大小,p反映兩組差別有無統計學意義。顯著性檢驗只是統計結論,判斷差別還需要專業知識;15. T檢驗與U檢驗

當樣本容量n夠大,樣本觀察值符合正態分布,可採用U檢驗;當樣本容量n較小,若觀測值符合正態分布,可採用T型檢驗。16. 方差分析

主要用於兩樣本及以上樣本間的比較,又被稱為F檢驗,變異數分析;

基本思想:通過分析研究不同來源的變異對總體變異的貢獻大小,從而確定可控因素對研究結果影響力的大小

總變異可以被分解為組間變異與組內變異。

組間變異:由於不同實驗處理而造成的各組之間的變異。組內變異:組內各被適變量的差異範圍所呈現的變異。

17. 直方圖:對數據進行整體描述,突出細節

箱線圖:對數據進行概要描述,或對不同樣本進行比較。箱線圖可以讓我們迅速了解數據的匯集情況(這個樣本,緊密的集合在一起;哇,這個樣本不那麼密集;這個樣本,大部分向左偏,哇,這個樣本大部分向右偏。)

但是請注意:一個直方圖比1000個p值更重要,拿到數據先繪製散點圖、直方圖、箱線圖看看,再決定用什麼描述!

18. 霜線圖

對於分位數的理解:霜線圖看數據分布特徵統計學中,把所有數值由小到大排列並分成四等份,處於三個分割點位置的得分就是四分位數。所以,四分位數有三個!四指四等份!

第一四分位數:下四分位數;等於該樣本中所有數值由小到大排列後第25%的數字(所以下四分位數可以不是樣本中的數值,它是一個統計指標(就像平均數一樣,不一定是原數據中的一點)。第二四分位數:中位數;第三四分位數:上四分位數。其中,下四分位數與上四分位數的距離叫四分位距!(IQR)

分享就到這裡,記得收藏哦!

相關焦點

  • 警惕:研究中最常犯的10大統計學錯誤
    2020年6月,PM&R雜誌發表了題為「Ten Common Statistical Errors from All Phases of Research, and Their Fixes」的文章,作者列舉了研究四個階段(研究設計→數據整理與清洗→數據分析→結果報告)常犯的10個統計學錯誤案例,並給出了可以幫助研究人員避免這些錯誤的潛在解決方案
  • 研究各階段常犯的10大統計學錯誤 | 科研時間
    2020年6月,PM&R雜誌發表了題為「Ten Common Statistical Errors from All Phases of Research, and Their Fixes」的文章,作者列舉了研究四個階段(研究設計→數據整理與清洗→數據分析→結果報告)常犯的10個統計學錯誤案例,並給出了可以幫助研究人員避免這些錯誤的潛在解決方案。
  • 統計學中p值的含義和顯著差異性分析
    即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯將等於或強於我們的實驗結果。(這並不是說如果變量間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變量存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)在許多研究領域,0.05的p值通常被認為是可接受錯誤的邊界水平。
  • 收藏!關於數據科學中數學和統計學的完全指南
    數學與我們周圍的一切事物息息相關,從形狀、圖案、顏色到花朵中花瓣的數量。數學深深紮根於人類生活的各個方面。數學和統計學對學習數據科學至關重要,因為這些學科構成了所有機器學習算法的基礎。成為一名數據科學家,除了對程式語言要有很好的了解,還必須要掌握機器學習算法、數據驅動方法。
  • 【獨家】考察數據科學家和分析師的41個統計學問題
    > 本文是Analytics Vidhya所舉辦的在線統計學測試的原題,有志於成為數據科學家或者數據分析師的同仁可以以這41個問題測試自己的統計學水平。 介紹 統計學是數據科學和任何數據分析的基礎。良好的統計學知識可以幫助數據分析師做出正確的商業決策。一方面,描述性統計幫助我們通過數據的集中趨勢和方差了解數據及其屬性。另一方面,推斷性統計幫助我們從給定的數據樣本中推斷總體的屬性。了解描述性和推斷性統計學知識對於立志成為數據科學家或分析師至關重要。
  • 「超智·挖坑」簡單談談統計學
    其實以上這些問題,本身就犯了缺乏統計學常識的錯誤。至少出現了以下3個誤區: (1)存在樣本偏差。比如抽菸,樣本數量非常有限,得出的結論是不靠譜的;(2)將相關關係和因果關係弄混了。比如賺錢,不僅與學歷有關,還與能力,機會等很多因素有關;(3)沒有採用正確的分析方法。比如在分析學歷和收入之間的關係時,應該保證:學歷之外的其他條件都是一致的並且不變的,這樣分析得出的結論,才是有意義的。年輕人一般都具備統計學常識,不會上面那些犯明顯的常識錯誤。
  • 數據分析必備——統計學入門基礎知識
    數據之路,與你同行!——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 撰寫醫學論文這些統計學問題你要注意
    眾所周知,統計學主要是一門以統計學原理及方法為基礎,對科研數據進行採集,整理及分析的應用科學。在實際工作中,統計學問題已成為評價醫學論文質量高低的重要指標之一。統計學方法在應用過程中的錯誤與否會在一定程度上影響醫學科研結論的科學性、可靠性以及嚴謹性。
  • 醫學論文寫作中常見統計學問題分析
    因此,統計學方法在應用過程中的錯誤與否,會在一定程度上影響醫學科研結論的科學性、可靠性以及嚴謹性。以下是達晉編譯針對醫學論文寫作中一些常見統計學問題的分析:一、統計研究設計不科學。大部分非統計學專業學者在進行統計研究設計時僅從自身的專業角度出發,且在分組方式上按照自己主觀所要獲得的結果進行設計,徹底忽略了研究設計的可行性,組間數據的可比性等一系列問題。
  • 人民日報:這些世界地理知識你應該知道,請家長務必替孩子收藏
    人民日報:這些世界地理知識你應該知道,請家長務必替孩子收藏一直以來,形容一個人知識非常淵博,我們都會用「上知天文、下知地理」來形容。而從學習上來講,這也證明了地理這門學科的一個重要性,因為地理是一門人文社科類學科,不管是從學習上還是從生活上來講,我們都會運用到地理相關的知識。
  • 盤點人們最常犯的10個英語語法錯誤
    即使是很聰明的人也會在寫作時犯一些愚笨的錯誤。有時是因為犯懶或沒耐心,有時是他們真的很困惑。根據來自百萬用戶的數據,微軟公司最近整理出了英語中最常見的語法錯誤前十名。在下面,我們列出了來自微軟的10個最常見語法錯誤及示例,你大概至少會犯其中的一項錯誤。   1.
  • 在數據可視化中,最容易犯的十大錯誤
    使用數據可視化來進行數據分析的過程是「獲取無聊的平面數據,並通過可視化將其變為現實。」 但是,在數據分析的過程中很多人開始敏銳地意識到可視化有可能會變成讓數據以錯誤的方式呈現,甚至有的人開始提出:「可視化經常被用來擾亂數據分析過程。」
  • 家長常犯的3個錯誤是根源,家長要重視
    文 | 小微爸爸課堂(文章原創 ,版權歸本作者所有,歡迎個人轉發分享)孩子膽小,並且隨著年齡的增長,還會越來越「慫」,這些都不是與生俱來的,而是家長在教育孩子時犯的錯誤,導致孩子越來越膽小。一、孩子越長大越膽小的根源其實這個理論最早來自於國外的實驗,美國心理學家約翰華生在阿爾伯特只有8個月的時候,就讓他去接觸小白鼠等小動物,這個時候他表現出來的興奮和恐懼,並且對這些小動物們產生喜愛。
  • 寫作中你可能會犯的24種邏輯錯誤
    小紅犯了訴諸感情的謬誤。4 謬誤謬誤你看到別人的論述水平很低,或者別人的論述裡面有謬誤,就認為別人的觀點一定是錯誤的。很多時候,辯論的贏家獲勝並不是因為觀點正確,而是因為辯論技巧更好。作為一個理性的人,你不能因為別人的論述中存在謬誤或者錯誤,就認為別人的觀點一定是錯誤的。
  • 大數據下的「應用統計學」與「經濟統計學」,如何抉擇?
    日常生活中,你填寫過各式各樣的調查問卷嗎?比如一家你常去的餐廳想要推出新品,需要你給出滿意度評分。如果你對這些社會性質的調查比較排斥,那你一定接受過官方的人口普查或經濟普查。這些調查、問卷經過篩選和處理之後,將會變成一系列數字和圖表,這就是統計過程,而統計對我們的工作、生活乃至政府決策都產生著直接的影響。本文,將對與統計學有關的「應用統計學」與「經濟統計學」兩個專業進行對比分析。
  • 高二學生初學導函數常犯錯誤匯總,早知道,早學會哦
    導函數初學者容易犯的錯誤匯總,教你輕鬆拿下導函數hello,大家好,這裡是尖子生數理化教育。我們知道,導函數是高考數學中必考的考點之一,高二新生學習導函數的時候往往會出現各種各樣的錯誤,這次課程咱們就將高二新生在學導函數中遇到的各種錯誤進行匯總和糾正,幫助大家輕鬆學好導函數。
  • Python程式設計師最常犯的10個錯誤,你中招了嗎?
    鑑於此,本文列出了Python開發人員常犯的10個小錯誤,資深程序猿也難免會中招哦。在Python2.x中,except Exception語句中變量e可用來把異常信息綁定到第二個可選參數上,以便進一步查看異常的情況。因此,在上述代碼中,except語句並沒有捕捉到IndexError異常;而是將出現的異常綁定到了參數IndexError中。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 乾貨|新聞寫作中常犯的十五種邏輯錯誤,對照自查!
    採編提示:記者對於一些生活中採訪到的事實、數據,要認真分析,在不明確或者沒有請教相關領域的專家幫助一起分析之前,一定要小心求證,切不可在羅列事實之後,直接推出「因果」關係,並以此作為報導的最終觀點。這樣,雖觀點是好的,但由於邏輯上存在「瑕疵」,因而報導本身是站不住腳的!
  • 數據分析必須要避開的坑:讓人懷疑人生的七大悖論
    數理統計學是數據分析的基礎理論,我們之前所有為數據分析所做的工作,比如梳理指標、篩選數據、可視化等等,都是為了我們能夠更好地找到數據之間的關係,利用統計學原理對這些關係進行界定和聯繫。但是在實際分析中,我們很可能會因為沒有避開數理統計中常見的「坑」,造成我們最終分析結果與實際偏差很大, 我主要總結了三個方面:錯把數理關係當成因果關係不同變量之間會存在悖論數據統計有偏差一、不要把數據統計關係當成因果關係我們先看三個例子:1、彩票悖論首先根據假設檢驗,如果原假設概率非常小,就可以拒絕原假設。