文獻解讀丨數據分析常見錯誤

2021-02-15 統計師

正文開始之前,先祝大家國慶快樂,7天長假和統計學習更配哦。

統計數據會說謊?除了有意為之,再者可能是因為沒有掌握分析要領,不知不覺就掉入分析思維陷阱,貽笑大方了。現以齊齊哈爾大學經濟與管理學院「吳佔坤」在《中國統計》上發表的文章進行解讀,看看常見的5種錯誤,提高對數據分析的認識。

1,缺乏對領域知識的了解

當你對一個領域不甚了解的時候,隨意進行數據分析,就可能出現錯誤推理。文中作者例舉了醫學雜誌的案例,如果父母在嬰兒房間內睡覺總是開著燈,嬰兒就會有高度近視,這時候會有人認為由於開燈造成嬰兒高度近似。然而進一步研究會發現,凡是父母高度近視的, 往往有給小孩開燈的習慣。

2,辛普森悖論

百度百科的解釋:辛普森悖論(Simpson's Paradox)亦有人譯為辛普森詭論,為英國統計學家E.H.辛普森(E.H.Simpson)於1951年提出的悖論,即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。

援引維基百科與科普寫作獎佳作獎作者林守德的向理性與直覺挑戰的頑皮精靈-綜觀詭譎的悖論等文:

「校長,不好了,有很多男生在校門口抗議,他們說今年研究所女生錄取率42%是男生21%的兩倍,我們學校遴選學生有性別歧視」,校長滿臉疑惑的問秘書:「我不是特別交代,今年要儘量提升男生錄取率以免落人口實嗎?」

秘書趕緊回答說:「確實有交代下去,我剛剛也查過,的確是有注意到,今年法學院錄取率是男性75%,女性只有49%;而商學院錄取率是男性10%,女性為5%。二個學院都是男生錄取率比較高,校長這是我作的調查報告。」

學院

女生

申請

女生

錄取

女生

錄取率

男生

申請

男生

錄取

男生

錄取率

合計

申請

合計

錄取

合計

錄取率

商學院

100

49

49%

20

15

75%

120

64

53.3%

法學院

20

1

5%

100

10

10%

120

11

9.2%

總計

120

50

42%

120

25

21%

240

75

31.3%

「秘書,你知道為什麼個別錄取率男皆大於女,但是總體錄取率男卻遠小於女嗎?」

此例這就是統計上著名的辛普森悖論(Simpson's Paradox)。

為了避免辛普森悖論出現,就需要斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。

3,先驗信息的誤導

在數據分析時,有效地利用先驗信息,可以使得結果更加準確,更加全面。然而錯誤的先驗信息不但不會起到正向作用,反而會起反作用。如「黃金周」期間商城對電器採取了打折促銷活動,然而發現效果並不明顯,找一個諮詢公司進行數據分析,可能會很快地從數據中得出效果不明顯的原因。比如,打折不夠低,沒有吸引力、消費者都去網購了,分流了很大訂單、消費者更多的去旅遊了,沒有去購物等各種原因。之所以會有五花八門的原因,是因為諮詢公司在以往的數據分析時經常會得出這樣的結論,分析數據之前,已經有了先入為主的結論。

4,以偏概全

該類錯誤常見抽樣調查中,查看結果時,需要反思抽樣過程是否隨機,是否具有代表性。

5,扭曲的結果展示

正確選擇和正確使用圖表,才能有效避免該類錯誤出現。觀察下圖,同一組數據在圖2和圖3展示不一樣的波動情況,明眼人一下子就能從坐標軸縱軸發現起始點和間距不相同。

下次當您開始數據分析時,需要多個「心眼兒」,免得鬧出笑話。

註:本文內容部分節選自《中國統計》2016年第9期,作者為吳佔坤,版權歸作者所有,此處僅供學習探討。

相關焦點

  • 必讀篇:5-Why分析法,7個常見的錯誤
    錯誤一:將5-Why分析法等同於5 Whys(也就是連問5個為什麼),湊也要湊5個為什麼解讀:5-Why是一種分析方法,通過不斷提問為什麼前一個事件會發生,來找到問題發生的根源,不一定就是5個Why,可能是1個Why就夠了,也可能是連問10個都沒有辦法找到根源。
  • 如何寫文獻綜述?| 克雷斯威爾五步文獻綜述法
    、選擇、比較、分類、分析和綜合的基礎上,研究者用自己的語言對某一問題的研究狀況進行綜合敘述的情報研究成果,從而揭示有關問題的新動態、新趨勢、新水平、新原理和新技術等等,為後續研究尋找出發點、立足點和突破口。
  • Excel公式運算中常見的錯誤類型及解決方法
    為了更高效地完成公式的設置,我們有必要對Excel公式運算出錯時常見的錯誤類型進行梳理。####錯誤在Excel中非常常見,但其實並不能當作是一種錯誤類型,是由於當前單元格寬度滿足不了數值的長度就會出現顯示不全的情況。
  • Excel中將「錯誤日期」轉換為標準格式的6個應用技巧解讀
    解讀:1、Text函數的作用給根據指定的代碼對指定的值進行格式設置,語法結構為:=Text(值,格式代碼)。2、代碼「00-00-00」為日期格式代碼。二、Excel日期轉換:「句號日期」。目的:將句號(。
  • 你應該知道的Excel常見錯誤值解析
    院長大大丨圖文Excel是提高office效率的利器,但是使用過程中稍不留神就會出現讓人頭疼的錯誤值,如#####! 等,此時,如果對Excel錯誤值不熟悉,可能就需要耗費較多時間去排查錯誤,反而拖慢了你的工作:好不容易做好的數據,竟然顯示是錯誤值,簡直崩潰!今天,院長大大為你收集了7個最常見的Excel錯誤值及其解決方法,讓你輕鬆解決Excel中的錯誤值問題。
  • 實踐反思 | 問卷分析中如何減少人為誤差
    四月主要負責了長期監控項目的定量分析,前後共完成三個報告的數據分析、報告製作,在實踐過程中也犯了一些錯誤,特此總結避免錯誤重演,也是希望能將工作流程清晰化以提高工作效率。預處理的常見操作包括剔除重複值、離群值、缺失值,以及充分利用問卷設計時埋下的矛盾點或回答明顯不認真(如連續在李科特量表題目選擇極端值)來剔除無效樣本。同理,清洗的數據是後續分析的基礎,所以數據清洗時一定要充分考慮到各種可能的潛在幹擾因素的影響,不要等到已經進行數據分析之後再折回篩選剔除,從頭再來的感覺真是一言難盡。
  • Excel工作表中的8個常見問題,你一定遇到過,附解決方法
    解讀:如果數字的長度超過了15位,是無法回復到原值的,15位以後的值被0替代。四、Excel工作表常見問題:顯示公式代碼。原因:單元格格式為文本類型。解讀方法:設置單元格格式為【常規】並重新輸入公式執行。五、Excel工作表常見問題:功能區不見了。
  • VLOOKUP函數常見錯誤類型及解決方法
    一、一般出現「#N/A」的錯誤,說明在數據表首列查不找到第一參數的值。這種錯誤值的處理一般有兩種方案:1)核實查找值是否拼寫錯誤;2)改成用通配符查詢:=VLOOKUP(A8&"*",A1:D5,2,0)
  • Vlookup函數最難的6個查找公式+12種常見錯誤
    ;ROW($2:$6)),B$9),$C$2:$C$6),2,)}二、Vlookup函數12種最常見錯誤一、函數參數使用錯誤。第1種:第2個參數區域設置錯誤之1。【例1】:如下圖所示,根據姓名查找齡時產生錯誤。
  • 關於人員流動的數據分析
    所以是很多HR每個月一定要分析的數據,今天我們來聊聊這個模塊!我們來舉個極端的例子:   假如部門月初10人,入職3人,離職9人,那我們來算下當月的離職率如果按照當月平均人數的公式來計算是什麼樣呢: 離職率=8/(10+4)/ 2=114%, 也就意味著離職率超過了100%,我們對離職率的定義來看,離職率應該不會超過100%,所以這個計算是錯誤的。
  • 你值得擁有的數據分析課程清單
    A:可以的,聯繫網易雲課堂的客服即可優惠只剩下最後2天了第一門:數據分析第一堂課   這門課的特點:系統性學習(理論+工具+實戰)、內容更接地氣(整合萬名初學者的難點梳理而成,有2位經驗豐富的實戰從業者合力而成)、通俗易懂(由淺入深
  • 我每天如何用Excel和Access搭配做數據分析
    以下都是個人做數據相關工作的實際體會:我在一家央企的銷售企業做數據分析大概一年多了,有一些心得體會,Excel的基本操作需要熟練掌握自不必說,數據透視表是Excel做數據分析的核心。很多回答已經講得很細很透,我不做過多展開。但我個人的體會,光掌握Excel做數據分析還不怎麼夠用,數據分析最難的部分是如何預處理數據。
  • 藏在Excel中的常見數學分析函數,你造嗎
    Excel是對數據進行分析、展現、處理的軟體,數學是研究空間位置、數量大小的學科,二者的交集十分精彩,今天我們來盤點下Excel中那些常用的數學分析函數
  • 加速度計的數據解讀
    我們對加速度計三個軸的輸出進行了描述:從上到下,依次是X,Y,Z三個軸上的加速度數據。讓我們分析一下,為什麼會產生這樣的輸出。首先看這個圖:我將圖中用三種顏色標識了三個區域,矩形框1-3標識區域1,2-6標識區域2,7標識區域3。
  • 萬能函數Aggregate實用技巧解讀!
    作用:返回一個數據列表或資料庫的合格。語法:=Aggregate(功能代碼、忽略代碼,數據區域)。2、忽略錯誤值求和。3、篩選或隱藏狀態下忽略錯誤值求和。【精彩推薦】【必須掌握的4類基礎函數公式——教師篇】【Excel經典函數組合實用技巧解讀!】【基礎高效的數據列印技巧都不掌握,那就真的Out了!】
  • Matlab導入excel數據方法及常見報錯處理
    ① num = xlsread(filename) 讀取名為 filename 的 Microsoft® Excel® 電子表格工作表中的第一張工作表,並在一個矩陣中返回數值數據
  • 利用SnowNLP快速進行評論數據情感分析
    上次課給大家介紹了文本關鍵詞提取的常用方法,本節課老shi將給大家講解自然語言處理的另一個重要應用——文本情感分析。
  • 如何發現Excel數據中的錯誤之異常值——萬一敲錯了小數點位置怎麼辦?
    相信很多同學都很了解,我們處理的數據中隱藏著很多錯誤,這些錯誤會導致我們後續的分析中產生錯誤的結果,後果很嚴重。
  • 如何將插入到word裡的Endnote參考文獻轉換為LATEX格式?
    所以為了更好發揮和使用Word的有點,一種常見的做法是先在Word裡寫好文章,最後再用LATEX排版。但是這樣做又會遇到一個問題:如何將插入到Word裡的Endnote參考文獻轉換為LATEX格式呢?如果簡單地複製粘貼,還需要在LATEX中將參考文獻的標號、字體加粗和傾斜等格式進行重新設定。如果參考文獻很多,這將是一個十分浩大繁瑣的過程。