學會七大悖論,不管財稅還是各大行業讓你的數據分析不踩坑

2020-12-13 騰訊網

統計學界,我總結了七個悖論數理統計學是數據分析的基礎理論,我們之前所有為數據分析所做的工作,比如梳理指標、篩選數據、可視化等等,都是為了我們能夠更好地找到數據之間的關係,利用統計學原理對這些關係進行界定和聯繫。

但是在實際分析中,我們很可能會因為沒有避開數理統計中常見的「坑」,造成我們最終分析結果與實際偏差很大,這是為什麼呢?

接下來,我們為大家介紹7個悖論,來看看數據之美。

1、彩票悖論

首先根據假設檢驗,如果原假設概率非常小,就可以拒絕原假設。假設0.0001就是一個非常小的概率,組織一次公正的10000張彩票抽獎活動,按照之前的假設,1號彩票中獎的概率是0.0001,是要拒絕的,依次類推,我們可以拒絕所有的彩票,那麼就沒有彩票可中獎,但現實情況是總會有中獎的彩票,這是統計和邏輯不相符的一個例子。

2、無票入場者悖論

假設在一個有1000個座位的音樂廳舉辦一場音樂會,主辦單位只售出了499張票,但當音樂會開始的時候,1000個坐席卻都坐滿了,這時主辦單位有權向每個人收票錢,因為每個人無票入場的概率都是50.1%,這樣音樂廳雖然只有1000個座位,卻將會有1499張門票的收入,但實際情況並非如此。

3、生日悖論

先來看一個問題:如果一個班裡有23個同學,那麼他們當中至少有兩個人生日相同的概率是多少?

按照常識我們會覺得這個概率應該挺小的,畢竟一年365天,23個人撞期,還是挺小的,然而結果卻是50%,也就是說有50%的概率這23個人中有兩個人生日相同。

這裡的50%到底是什麼意思呢,是說只要是一個班裡有23個及以上的學生,就一定有一半的概率兩個人同一天生日嗎?

這三個告訴我們統計關係並不等於因果關係,這句話很重要,理解它更重要。

上面3個例子說明了以概率為依據做決策是不合邏輯的,然而邏輯和統計本身卻是大不相同,在邏輯上,一個命題只有對和錯兩種劃分,而在統計上,卻可以說成對的概率有50%,錯的概率為20%,就是這一點不確定性造就了以邏輯推理和統計為基礎所得決策上的不一致,或者說矛盾,這就是統計關係不等於因果關係。

在進行數據分析的時候,我們尤其要注意這個坑:比如當我們的數據顯示肺癌的人80%都是因為抽菸時,我們就不能說所有抽菸的人都會導致肺癌。

接下來讓我們看著兩個變量,

4、辛普森悖論

指當我們對兩個變量進行分組研究時,在分組中都佔優勢的一方,在總評中反而成為失勢的一方。

比較著名的當屬1973年加利福尼亞大學伯克利分校性別歧視的例子,男生錄取率為44%,女生錄取率為35%,根據這個數據有人就覺得該校有性別歧視的傾向,但如果每個院系分開來看錄取率的話,可以發現,A B D F四個院女生的錄取率都高於男生。這個悖論告訴我們一個簡單的統計數字不能完全描述其背後的複雜意義,和我們平時熟知的描述性統計分析有點矛盾哦,可以好好思索一下。

5、伯克森悖論

伯克森悖論,指的是兩個本來無關的變量之間體現出貌似強烈的相關關係。

如假設某學生的文化成績高那麼他的體育成績就不好,體育越好,文化成績就越差,這好像也成為了我們平時的一個認知,班上的尖子生好像體育成績都不怎麼好,這種現象是怎麼出現的呢?

假設學生要參加兩種類型的考試,即文化和體育課,其中任何一種類型的考試達90分以上就可以畢業,那麼畢業的學生要麼在文化考試中考到90分以上,或者在體育考試中考到90分以上,或者在兩門考試中都考到90分以上。通常情況下正常人只需要選擇一種類型的考試努力發揮到極致就好了,另一個沒關係對吧,因此會呈現出學生的文化成績和體育成績是負相關的關係。

伯克森悖論還可以用來解釋為什麼顏值超高的小鮮肉演員演技不忍直視,這些現象,因為在一定程度上他們只會讓自己努力把一個方面發展到極致。

6、賭徒謬論

賭徒謬論作為統計偏差造成數據分析失誤之一,它是指,相信一個結果已經發生了,那麼再發生的機會就會很低。

比如我們打賭硬幣是正面朝上或是背面朝上時的情景,前面5次的結果都是正面朝上,那麼下一次他覺得反面朝上的概率會更大,這就是賭徒謬論。

為什麼說是謬論呢?因為高中的時候我們就學過扔硬幣這個問題的概率,每扔一次一枚硬幣是一個獨立的事件,正面朝上和反面朝上的概率相同都是0.5,不受前面扔了多少次的影響,也就是說雖然前面5次都是正常朝上,下一次仍是正面朝上的概率也還是0.5。所以不管下次怎麼扔,正面反面朝上的機會還是一樣的,都是0.5。

聊到這,可能有些人會不理解了,或者腦海裡依稀記得好像老師講過,扔一枚硬幣扔個1000次,正面朝上和反面朝上的次數都是接近一半的呀,能想到這裡的同學,恭喜你,已經入門了。

確實如此,但請看清楚前提:扔1000次,這就是大數定理,當我們大量重複某一相同實驗時,最後的結果會穩定在某一數值附近,但把大量重複事件的規律運用在少數的事情上就錯了。

7、倖存者偏差

指的是只能看到經過某種篩選而產生的結果,忽略了被篩選掉的關鍵信息。

在二戰期間,人們發現倖存的轟炸機中,機翼中彈的數量很多,而機身中彈的卻很少。因此人們認為我們應該加固飛機的機翼,其實不然,就是因為機翼中彈多還能飛回來,所以機翼中彈並沒有影響飛機返航;而機身中彈的少則說明了子彈打中機身對飛機的影響更大,導致飛機不能返航,在這個飛機問題中,只統計到了倖存下來的飛機,以此下結論,是不正確的。

現實生活中也有很多倖存者偏差的案例,比如感覺周圍都是本科以上的人,而實際上中國具備本科以上學歷的人,只佔總人口的3%。還有為什麼感覺知乎上應屆生人人都是月薪過萬,因為你看到的都是月薪過萬的人在答題,月薪低於1萬的都處於沉默狀態。

所以弄清楚了這幾個悖論,是不是對你的數據分析幫助很大!快去學習吧!

相關焦點

  • 數據分析必須要避開的坑:讓人懷疑人生的七大悖論
    數理統計學是數據分析的基礎理論,我們之前所有為數據分析所做的工作,比如梳理指標、篩選數據、可視化等等,都是為了我們能夠更好地找到數據之間的關係,利用統計學原理對這些關係進行界定和聯繫。但是在實際分析中,我們很可能會因為沒有避開數理統計中常見的「坑」,造成我們最終分析結果與實際偏差很大, 我主要總結了三個方面:錯把數理關係當成因果關係不同變量之間會存在悖論數據統計有偏差一、不要把數據統計關係當成因果關係我們先看三個例子:
  • 經爾緯數據糜萬軍:電信行業大數據應用發展探討
    本次大會以「新資本 新技術 新格局」為主題,力邀工信部、通信發展司、電信研究院領導,IDC企業、電信運營商、網際網路企業、設備廠商等各行業精英齊聚一堂,共同把脈中國IDC行業未來發展之路。其中經爾緯數據技術有限公司總裁糜萬軍先生應邀出席了大會並發表精彩演講「電信行業大數據應用發展探討」。
  • 社交電商商業模式設計乾貨合集——行業常見踩坑之法律風險(下)
    上一期我們對社交電商行業中極易觸及傳銷紅線的商業模式設計部分作了分析說明,本期將從每一個電商從業者都不可忽視的廣告法和稅務層面進行講解,希望能夠幫助平臺合規經營,形成良性的生態循環鏈。上述三種均已被納入新廣告法的嚴厲監管之中,一旦被舉報投訴將面臨巨額罰款、停盤整頓的風險,所以電商從業者在產品功能性的宣傳上應持有相關技術憑證,在運用數據包裝產品時也應有官方大渠道的資料佐證,並且建議平臺在運營中使用第三方工具審查廣告文案是否合規。
  • 各大銀行最容易踩的坑,80%的人都不知道
    用卡過程,誰沒被幾家銀行坑過?關於各家信用卡的坑,少說8成的卡友都踩過,下面省唄君給大家盤點一下~ 1.分期手續費最坑 提名:中信、興業 分期業務是大家都會用到的,各家銀行的手續費略有不同,中信、興業算是行業裡手續費比較高的。同樣的期數,可能手續費就要高出不少。
  • 大數據應用於社會科學研究的價值與悖論
    儘管大數據這一概念提出很早,但從為社會科學界熟知,到迅速轉向反思與批判,卻僅僅經歷了短短幾年的時間。為什麼社會科學研究能夠迅速對大數據做出響應?大數據在社會科學研究中有哪些應用?大數據應用於社會科學研究體現出哪一些價值?而它在應用中又有哪些悖論使其不能解決社會科學研究所面臨的問題?本文試對以上問題進行分析。
  • 疫情期全員解鎖廚藝後,炊具行業大數據分析來了!
    而這些,不能憑空想像,更不能主觀臆斷……但我們想知道的答案,卻可以通過大數據得知! 國際市場近5年趨勢01 炊具類目分析我們在炊具行業的眾多類目下,我們挑選了排名靠前的七大分類進行深入分析,分別是Cookware Sets廚具套裝、Pots & Pans鍋碗瓢盆、Casseroles & Bakers砂鍋&麵包機
  • 《假面騎士時王》中的一個坑,涉及了時空悖論?且聽我分析分析!
    一旦涉及到時空之間的轉換和影響,就容易造成悖論。在劇情上其實是非常容易混亂或者邏輯不通,內容不連貫,圓不回來。《假面騎士時王》目前還在播放中,故事還沒有結束,所以有很多坑還沒補上。其中很多坑就是涉及到了時間悖論。我很期待到時候會有怎樣的解釋。通過時王的腰帶我們來分析作者挖的坑。在第一集,莊吾接過了黑沃茲給的時空驅動器。
  • 美術生踩過的畫室收費坑,這次我不允許你踩了
    很多人容易踩學費的坑。居心不良的畫室像渣男,讓人盲目。這是一筆巨款,是父母賺的血汗錢,不是你揮霍的資本。認真試學把學費交到真正適合你的畫室才能有一個良好的學習過程。不試學你怎麼知道合不合適。學畫畫就像談戀愛,從網上找信息單方面的一廂情願就像網戀被騙錢,所以試課很重要,去畫室看看聽聽,真聽真看才能有真感受。居心不良的畫室最像渣男,很會立人設。
  • 90%的人做亞馬遜代運營都會踩的坑!
    90%的人做亞馬遜代運營都會踩的坑! 做亞馬遜電商的90%的人都會踩這個坑,你看到自己身邊朋友做的都很好,那款產品賣得很好,他就把這款產品P個圖,寫個描述,然後就開始上架發貨開始售賣,那麼恭喜你,你已經成功踩坑第一:這個市場在哪裡,有沒有做過產品分析數據對比,在北美還是在德國還是在日本,如果和尚的廟裡都不要梳子
  • 公務員考試之路上,你完全可以不踩這些坑
    謝邀,人在江湖走誰還沒踩過幾個坑,不踩坑就上岸也好意思自稱公考大神?今天我就把我備考期間遇到的和沒遇到的各種坑都列出來,少踩一個坑就比別多一分備考的效率,就比別人在考場上多一分優勢。就說說我自己,別看我是一戰就上岸的,但是在備考的時候也是如履薄冰,小心翼翼攥著我身邊前輩們給我提點的備考之坑,即使如此還是踩中了幾個。
  • 選課不規劃,GPA跌宕起伏——美研申請這個「坑」你不要踩
    在上周的分享中,Nicky老師關於國內本科生如何做好專業職業摸索和規劃給出了詳實的建議,還沒看的同學建議點擊下方連結閱讀:專業不明確,就業沒想法——教你兩步避開這個美研申請「坑」學會怎麼繞過【專業方向不明確,未來就業沒想法】這個最大的坑後, Nicky老師繼續教大家怎麼避免
  • 年終總結:這一年踩過的坑
    踩坑,是項技術活。有的人踩坑,踩的七歪八扭,深淺不一。這種踩最後就只剩下坑。我呢,稍微踩的好點,踩的坑都圍繞著同一個基點:教育行業的產品經理。這個詞可以分成兩截理解:教育行業、產品經理。其實我真正想做的,還是產品經理。有的人說,那可以做AI產品經理啊,那完全是扯淡。AI本身不會成為一個行業,就像網際網路一樣,它一定是傳統行業的延伸。我自己呢,既然選擇了教育行業,就算入了賊坑。未來,即使AI+教育,這個行業需要的一定是深諳教育,能夠提出基於學科本身或傳授方式的解決方案的人,而不是只懂得AI的產品。而懂AI,不一定要懂實現它的算法。懂算法,不一定要懂實現算法的每一步代碼。
  • 騰訊HR:不會數據分析的應屆生,我們不收
    從大廠崗位JD就可以看得出,近50%的崗位需要具備「數據分析」能力,四大、諮詢、金融、快消、網際網路等各行業的職位也要求掌握SQL、Python等軟體,具備數據分析能力。也就是說,掌握數據分析能力=多50%崗位機會!
  • 遊戲行業的大數據分析應用
    《羅輯思維》有一期講,大數據其實核心不是大,而是全數據,是將你各種行為的數據匯總在一起,從而能通過數據看到你完整行為軌跡,進行分析。在日常生活中,比如買衣服,你看了什麼衣服,試穿了什麼衣服,你重複去買衣服,這些信息商家都是不知道的,而商家的建設就是要全,比如優衣庫做的你去試衣服的時候會進行記錄,比如很多商家做會員卡,也能起到收集這個信息的目的。
  • 諮詢顧問七大常用數據分析工具都打包給你了
    在當前乃至未來5年的職場中,將取代你的可能不是 AI ,而是比你「更懂」數據分析的同事。
  • 公告 |「文娛行業財稅法律專業委員會」正式成立​
    2020年9月18日下午,北京市影視娛樂法學會「文娛行業財稅法律專業委員會成立大會」於北京明稅律師事務所召開。學會文娛行業財稅法律專業委員會(以下簡稱「專委會」)首屆共選任委員16名,聚集了國內外華語文娛行業財稅法律領域的知名專家、行業領先職業經理人與律師。
  • 讓數據決策你的行為——拉勾網數據分析
    前言我們每天都在產生數據,出行,社交,購物,吃飯 等等,每一個行為伴隨著數據的產生,如果將這些數據收集起來,並加以處理分析便可以反過來影響你的行為。 舉個最簡單的例子在各大電商網站搜索自己想買的商品,這一過程就產生了數據,電商網站會記錄你所搜的商品數據,並稍作處理分析,基本就可以計算出你所需要購買的商品,然後計算最合適你的商品,並以廣告形式推送給你,最後你很有可能會從他推薦的商品中選一個付款,這個例子就形像的解釋了,你是如何產生數據,而後數據又是如何影響你的行為的。
  • 《中國大數據行業應用TOP Choice 2019》發布,掌門1對1實力上榜
    近日,第六屆世界網際網路大會在浙江省嘉興市桐鄉烏鎮順利召開,大會期間,DT大數據產業創新研究院院長、中關村大數據產業聯盟副秘書長陳新河隆重發布了七大榜單和兩個產業地圖,引起各界人士的廣泛關注。
  • 百望雲:借專票電子化助力酒店行業智慧財稅升級
    如何搭建一體化系統,通過電子發票實現企業財稅數位化管理?  百望雲研究院基於服務十五大行業,60萬家企業客戶的成功經驗,梳理出行業級解決方案,根據企業真實業務場景及需求,提供最貼切的解決方案,快速助力企業實現智慧財稅升級。  本期帶來《電子專票時代的酒店行業智慧稅務升級》。後續會有更多行業精彩案例及解決方案分享,歡迎持續關注。
  • 網際網路在線教育行業如何進行數據分析
    雖然疫情對剛需性的線上K12教培市場產生一定正向影響,但受制於諸多考試推遲或取消、出國留學受阻等原因,高等學歷教育和職業教育的線上市場規模增速出現下降,不過依然不影響在線教育行業穩定高速地發展。大數據時代,數據將成為公司的核心資產,而學習數據將成為核心中的核心,通過對現有教育O2O平臺分析來看,掌握不到學生的學習數據,擁有再多的投資再多的人脈,最終還是被淘汰。那麼,在線教育行業該如何進行數據分析,抓住數據核心價值呢?