數據分析必須要避開的坑:讓人懷疑人生的七大悖論

2020-12-13 數據分析不是個事兒

數理統計學是數據分析的基礎理論,我們之前所有為數據分析所做的工作,比如梳理指標、篩選數據、可視化等等,都是為了我們能夠更好地找到數據之間的關係,利用統計學原理對這些關係進行界定和聯繫。

但是在實際分析中,我們很可能會因為沒有避開數理統計中常見的「坑」,造成我們最終分析結果與實際偏差很大, 我主要總結了三個方面:

錯把數理關係當成因果關係不同變量之間會存在悖論數據統計有偏差

一、不要把數據統計關係當成因果關係

我們先看三個例子:

1、彩票悖論

首先根據假設檢驗,如果原假設概率非常小,就可以拒絕原假設。假設0.0001就是一個非常小的概率,組織一次公正的10000張彩票抽獎活動,按照之前的假設,1號彩票中獎的概率是0.0001,是要拒絕的,依次類推,我們可以拒絕所有的彩票,那麼就沒有彩票可中獎,但現實情況是總會有中獎的彩票,這是統計和邏輯不相符的一個例子。

2、無票入場者悖論

假設在一個有1000個座位的音樂廳舉辦一場音樂會,主辦單位只售出了499張票,但當音樂會開始的時候,1000個坐席卻都坐滿了,這時主辦單位有權向每個人收票錢,因為每個人無票入場的概率都是50.1%,這樣音樂廳雖然只有1000個座位,卻將會有1499張門票的收入,但實際情況並非如此。

3、生日悖論

先來看一個問題:如果一個班裡有23個同學,那麼他們當中至少有兩個人生日相同的概率是多少?

按照常識我們會覺得這個概率應該挺小的,畢竟一年365天,23個人撞期,還是挺小的,然而結果卻是50%,也就是說有50%的概率這23個人中有兩個人生日相同。

這裡的50%到底是什麼意思呢,是說只要是一個班裡有23個及以上的學生,就一定有一半的概率兩個人同一天生日嗎?

來,請回看我們這一節的標題:統計關係並不等於因果關係,這句話很重要,理解它更重要。

上面3個例子說明了以概率為依據做決策是不合邏輯的,然而邏輯和統計本身卻是大不相同,在邏輯上,一個命題只有對和錯兩種劃分,而在統計上,卻可以說成對的概率有50%,錯的概率為20%,就是這一點不確定性造就了以邏輯推理和統計為基礎所得決策上的不一致,或者說矛盾,這就是統計關係不等於因果關係。

在進行數據分析的時候,我們尤其要注意這個坑:比如當我們的數據顯示肺癌的人80%都是因為抽菸時,我們就不能說所有抽菸的人都會導致肺癌。

二、變量關係存在的兩個悖論

1、辛普森悖論

指當我們對兩個變量進行分組研究時,在分組中都佔優勢的一方,在總評中反而成為失勢的一方。

比較著名的當屬1973年加利福尼亞大學伯克利分校性別歧視的例子,男生錄取率為44%,女生錄取率為35%,根據這個數據有人就覺得該校有性別歧視的傾向,但如果每個院系分開來看錄取率的話,可以發現,A B D F四個院女生的錄取率都高於男生。這個悖論告訴我們一個簡單的統計數字不能完全描述其背後的複雜意義,和我們平時熟知的描述性統計分析有點矛盾哦,可以好好思索一下。

2、伯克森悖論

伯克森悖論,指的是兩個本來無關的變量之間體現出貌似強烈的相關關係。

如假設某學生的文化成績高那麼他的體育成績就不好,體育越好,文化成績就越差,這好像也成為了我們平時的一個認知,班上的尖子生好像體育成績都不怎麼好,這種現象是怎麼出現的呢?

假設學生要參加兩種類型的考試,即文化和體育課,其中任何一種類型的考試達90分以上就可以畢業,那麼畢業的學生要麼在文化考試中考到90分以上,或者在體育考試中考到90分以上,或者在兩門考試中都考到90分以上。通常情況下正常人只需要選擇一種類型的考試努力發揮到極致就好了,另一個沒關係對吧,因此會呈現出學生的文化成績和體育成績是負相關的關係。

伯克森悖論還可以用來解釋為什麼很多人都存在帥哥都是渣男的印象,還有顏值超高的小鮮肉演員演技不忍直視,這些現象。

三、統計偏差造成數據分析失誤

1、賭徒謬論

賭徒謬論是指,相信一個結果已經發生了,那麼再發生的機會就會很低。

比如一個賭徒在打賭硬幣是正面朝上或是背面朝上時的情景,前面5次的結果都是正面朝上,那麼下一次他覺得反面朝上的概率會更大,這就是賭徒謬論。為什麼說是謬論呢?因為高中的時候我們就學過扔硬幣這個問題的概率,每扔一次一枚硬幣是一個獨立的事件,正面朝上和反面朝上的概率相同都是0.5,不受前面扔了多少次的影響,也就是說雖然前面5次都是正常朝上,下一次仍是正面朝上的概率也還是0.5。

聊到這,可能有些人會不理解了,或者腦海裡依稀記得好像老師講過,扔一枚硬幣扔個1000次,正面朝上和反面朝上的次數都是接近一半的呀,能想到這裡的同學,恭喜你,已經入門了。

確實如此,但請看清楚前提:扔1000次,這就是大數定理,當我們大量重複某一相同實驗時,最後的結果會穩定在某一數值附近,但把大量重複事件的規律運用在少數的事情上就錯了。

2、倖存者偏差

指的是只能看到經過某種篩選而產生的結果,忽略了被篩選掉的關鍵信息。

在二戰期間,人們發現倖存的轟炸機中,機翼中彈的數量很多,而機身中彈的卻很少。因此人們認為我們應該加固飛機的機翼,其實不然,就是因為機翼中彈多還能飛回來,所以機翼中彈並沒有影響飛機返航;而機身中彈的少則說明了子彈打中機身對飛機的影響更大,導致飛機不能返航,在這個飛機問題中,只統計到了倖存下來的飛機,以此下結論,是不正確的。

現實生活中也有很多倖存者偏差的案例,比如感覺周圍都是本科以上的人,而實際上中國具備本科以上學歷的人,只佔總人口的3%。還有為什麼感覺知乎上應屆生人人都是月薪過萬,因為你看到的都是月薪過萬的人在答題,月薪低於1萬的都處於沉默狀態。

相關焦點

  • 學會七大悖論,不管財稅還是各大行業讓你的數據分析不踩坑
    統計學界,我總結了七個悖論數理統計學是數據分析的基礎理論,我們之前所有為數據分析所做的工作,比如梳理指標、篩選數據、可視化等等,都是為了我們能夠更好地找到數據之間的關係,利用統計學原理對這些關係進行界定和聯繫。
  • 《假面騎士時王》中的一個坑,涉及了時空悖論?且聽我分析分析!
    一旦涉及到時空之間的轉換和影響,就容易造成悖論。在劇情上其實是非常容易混亂或者邏輯不通,內容不連貫,圓不回來。《假面騎士時王》目前還在播放中,故事還沒有結束,所以有很多坑還沒補上。其中很多坑就是涉及到了時間悖論。我很期待到時候會有怎樣的解釋。通過時王的腰帶我們來分析作者挖的坑。在第一集,莊吾接過了黑沃茲給的時空驅動器。
  • 人生中的那些考試的「坑」,教你避開
    一路從小學讀到碩士,很多人都說:你們這樣的高學歷的,一定擅長考試!回憶我一路考試的過程,大大小小的考試,經歷了無數,但是我擅長考試嗎?不但不擅長,而且很恐懼考試,但是我始終認為高考是很重要的,考試或成或敗,都影響著人生的走向。哪些考試的坑,需要避免?
  • 母乳餵養,這些「坑」要避開
    【母乳餵養,這些「坑」要避開】民生視角媽媽的乳汁是最適合寶寶的食物,母乳中含有豐富的生物活性因子,是配方粉無法替代的。不過,聽起來簡單的母乳餵養,實操起來卻讓有的新手媽媽「壓力山大」。@健康浙江 提醒你,這些母乳餵養的「坑」,一定要避開
  • 三下數學:《面積》測試分析,這些方法要學會,這些「坑」要避開
    三下數學:《面積》測試分析,這些方法要學會,這些「坑」要避開。我們把小學六年分成三個階段,一二年級為小學低段,三四年級為中段,五六年級為高段。三年級是小學的一個臺階,中年級的開始,各方面都在成長,學習內容難度適中,這段時間是培養思維習慣和思考能力的最佳時期。孩子們在這段時間數學成績有波動和稍稍下滑都是正常現象。
  • 億聯網絡:財務數據好到讓人懷疑人生的公司
    它的財務數據好得讓很多人懷疑人生。它的收入幾乎來自海外市場,它的毛利率淨利率超高,它的絕大部分資產是理財產品,它沒有有息負債,它幾乎是躺著賺錢的生意模式;它自詡研發為其核心競爭力可投入卻不高,它採用經銷商模式主要經銷商在國外,銷售費用率還控制得非常低,它的業績在持續快速地增長。
  • 時間穿越的另一種解讀,可能我們可以避開時間悖論,不過有點奇葩
    時間穿越的另一種解讀,可能我們可以避開時間悖論,不過有點奇葩對於時間穿越,我們每個人都非常的期待。遙想當年看哆啦a夢的時候,我們非常羨慕他的時光機可以前往過去改變既定的事實。不過時間旅行在理論上存在著許多障礙,例如像自殺科學家悖論和外祖父悖論,始終讓我們離過去遙不可及。但是科學家是非常聰明的,他們提出了另一種時空穿越的解讀方式。可能我們能夠直接避開時間悖論,用另一種比較奇葩的方式來解決。光的本質雖然我們一直都在研究光,但是對於他的基本特質,我們還是比較陌生。
  • 有哪些考研需要避開的坑?
    那今天呢,我們就在擇校、心態、學習方法三個方面,講一下有哪些是需要避開的坑~而對於擇校而言,可以抱著衝一把的心態,但是在此之前我們首先要避開的就是 「自負」和「自卑」這兩個詞。自負會導致報考院校過好,即使分數並不低也難以見得在top前幾的高校中,穩穩上岸。
  • 《人鬼情》悲愴的女性體驗和人生悖論
    黃蜀芹的《人。鬼.情》是一部風格獨特、思想內涵深邃,具有較高藝術成就的電影,也是一部真正意義上的「女性主義"電影。影片根據著名女藝術家裴豔玲的真實人生經歷改編。影片將筆觸深入人物的內心世界,沿著人物的心理軌跡去呈現一位戲曲女演員的人生狀態和生命歷程,從而將一個女人從少女時代到中年時期各種獨特的生命體驗表現得淋漓盡致。主人公秋芸的成長,是一一個不斷否認自己性別但又不斷體味自己性別的過程,對應著「我是誰」這樣一個經典的人生追問。
  • 大數據應用於社會科學研究的價值與悖論
    儘管大數據這一概念提出很早,但從為社會科學界熟知,到迅速轉向反思與批判,卻僅僅經歷了短短幾年的時間。為什麼社會科學研究能夠迅速對大數據做出響應?大數據在社會科學研究中有哪些應用?大數據應用於社會科學研究體現出哪一些價值?而它在應用中又有哪些悖論使其不能解決社會科學研究所面臨的問題?本文試對以上問題進行分析。
  • 數據分析的坑,都在統計學裡埋過
    再舉個慄子,決定對一批數據取平均數還是中位數,這是統計,該怎麼利用,是分析。如《赤裸裸的統計學》中指出來的一樣,統計分析是:總結大量的數據做出正確的決定回答重要的社會問題認識並改善我們日常的行為模型坑一:統計指標各有利弊通過選擇合適的統計指標,來精準表達數據集的內容。
  • 日本移民千萬要避開以下七個坑!
    下面成都移民公司寶澤移民顧問就日本移民千萬要避開一下七個坑給大家講講日本移民的注意事項: 日本沒有居住要求 一些朋友可能聽說日本沒有移民監獄,或者你可以每年在日本登陸一次。因此,當顧客聽說自己至少應該合理地生活4個月時,他們感到震驚。
  • 3個極具智慧的星座,避開生活中的坑,不會輕易上當
    3個極具智慧的星座,避開生活中的坑,不會輕易上當 人生可謂處處都是坑,仿佛只要稍微在某個領域的弱一點,就很容易掉進坑裡,說多了都是眼淚,感覺生活在這世上步步都是艱難險阻。當然了,也有些人總是能夠憑著自己的智慧和機警,繞過這些坑,避開這些阻礙,來看看哪些星座總是這樣機智過人。
  • 5個機器學習悖論改變你對數據的看法
    最近,數據科學家Jesus Rodriguez總結了機器學習解決方案中最著名的5個悖論,或許能幫助你更深刻地理解AI中的數據,避免在處理數據的時候出現一些低級錯誤。Simpson悖論這個悖論是以英國數學家Edward H. Simpson的名字命名的。
  • 那些反直覺的統計學悖論(下)
    例如,在一個30人的小學班級中,兩人生日相同的概率可以達到70%。對於60人的大班,兩人生日相同的概率要大於99%。生日悖論其實並不是一種&34;,只是這個數學事實十分反直覺,故稱之為一個悖論。一年中有N=365天,設有n個人,要計算所有人的生日都不相同的概率,第一個人的生日是365選 365,第二個人是365選364,第三個人365選363……第n個人的生日是365選365-(n-1),因此所有人生日都不相同的概率為:
  • 每個人都應該好好梳理下自己的人生七大系統
    其實人跟公司一樣,我們都應該Develop yourself as a product(像運營產品一樣運營你自己)。 今天我好好梳理了下自己的人生七大系統:三大基本系統:工作系統、生活系統、情感系統;三大效率系統:學習系統、管理系統、財商系統;一個興趣系統。
  • 只要烏龜先跑,人就再也追不上了,這是一個有趣的悖論
    悖論不僅燒腦,而且非常有趣,更為重要的是悖論能夠推動人類文明的飛速發展,隨著科學的進步和技術的創新,在漫長的歷史長河之中,有很多悖論都已經無悖可論,當然,還有一些至今仍然無解。對於那些仍然無解的,我們在這裡不打算過多涉及,因為那會引起不必要的爭論。在這裡,我們只來看看一些有趣的悖論,比如人是否能夠追上烏龜?人是否能夠追上烏龜?
  • 張天愛不愧是腿精,當眾「光腳」測腿長,數據讓人懷疑人生
    張天愛不愧是腿精,當眾「光腳」測腿長,數據讓人懷疑人生!說到娛樂圈裡的女明星,大家肯定都是非常和喜愛的,在這個圈子當中最不缺的就是身材和顏值出眾的女藝人,但真正能夠讓大家記住的卻是非常少,例如柳巖、徐冬冬等人,這些女演員們都是以傲人的優勢讓大家記憶深刻的,但今天要為大家介紹的則是一位憑藉著自律讓大家記住的女明星,她的名字叫做張天愛。
  • 那些反直覺的統計學悖論(上)
    著名的數據專家塗子沛先生(著有《大數據》《數據之巔》《數文明》《數商》等)認為,&34;之&34;,更多的意義在於:人類可以&34;的數據在大量增加,通過這些數據的交換、整合和分析,人類可以發現新的知識,創造新的價值,帶來&34;、&34;、&34;和&34;。
  • 要想吃肯德基不被坑,顯得很「內行」,首先要避開點這4種食物
    要想吃肯德基不被坑,顯得很「內行」,首先要避開點這4種食物在肯德基避開這幾種食物不吃,工作人員會對你畢恭畢敬,因為覺得你是老闆派來視察工作的人員。肯德基和麥當勞作為兩家最早進入中國市場的洋快餐,可謂是藝高人膽大,成為了第一個吃螃蟹的人,賺的可謂是盆滿缽盈。想當年,麥當勞和肯德基可是高端餐飲的象徵,舒適乾淨的用餐環境,新鮮的食物,無微不至的服務,當然還有象徵著高端的高昂價格,都讓無數人趨之若鶩。那時還是孩子的我們,想想如果可以在肯德基請朋友吃飯,過生日,簡直是無法言語的幸福。