統計學小例子

2020-12-18 夜遊民的閒聊時光

統計與概率論本身與數據分析的關聯度非常的高而且掌握的程度也可以很好的反映出從業者的投入程度。

接下來我們通過一些例子,來體驗概率論思維。

扔十次硬幣,真的會有五次朝上?

直覺上,我們知道拋硬幣正反兩面朝上的概率各一半,如果你真的現在去拋十次硬幣,真的有5次正面向上的情況出現麼?其實這種可能性只有1/4左右,顯然和大多數人的直覺完全不同了。

我們都知道,統計學的規律只有經過了大量隨機試驗才能得出,也才有意義。但是隨機試驗得到的結果,和我們用古典概率算出來的結論可能是兩回事。不僅你擲10次硬幣大部分時候不可能得到五次正面朝上的結果,你做其它隨機試驗也是如此。

再比如比如你擲12次骰子,大約只有30%的情況它正好有兩次六點朝上。這時你是否能講,有70%的可能性要否定六點朝上的概率是1/6這個結論呢?似乎也不是這樣的。

比如拋硬幣,每次正面朝上的概率是1/2,事件A是「正面朝上」,它出現的概率每次也是1/2。當然事件B就是反面朝上,每次的概率也是1/2。在一般情況下,出現A的概率是p,B的概率是1-p。這類試驗後來被稱為伯努利試驗。

好了,基本的設定講清楚了。我們來分析一下擲硬幣的問題。照理講,我們擲10次硬幣,正面朝上的次數應該是5次。但是如果你真的拿一個硬幣去試試,你會發現可能只有3次正面朝上,也可能4次正面朝上,甚至會出現沒有一次正面朝上的情況。

如果我們把從0次正面朝上,也就是說全部是背面朝上,到10次全是正面朝上的可能性都算出來,畫成一個折線圖,就是一個中間鼓起的曲線:

圖中可以看出,雖然5此正面向上的概率很大,但也僅有25%左右,造成試驗結果和理論值不一致的原因,是試驗十次數量太少,統計的規律性被試驗的隨機性掩蓋了。

對於這個現象我們來考慮兩家醫院,大醫院新生兒是45個,小醫院是15個,問哪一家意願新生男孩比例超過60%的天數多的可能性大?

答案是,小醫院的概率更大一些。

因為根據中心極限定理,大樣本的標準差比小樣本的低得多。

Y1~B(45,0.5),Y2~B(15,0.5),超過60%,也就是說Y1超過27,而Y2超過9,

我們用python來計算

即大醫院每日新生兒超過60%男孩的概率為6.7%,

即小醫院每日新生兒超過60%男孩的概率為15%。

大樣本比小樣本更加穩定,因為當基數足夠大的時候,每一個元素帶來的影響都會被稀釋掉,而當樣本量較小時,每個樣本的變化都會帶來較大的波動。

貝葉斯概率的理解

假設一種疾病的檢驗方法,如果被傳染,檢驗結果有99%為陽性,另一方面,未被傳染的患者有2%的可能也呈現陽性,問一名患者被監測陽性,患病的概率為多少。

事件A:患者得病

事件B:檢測結果呈陽性

P(A)=0.001,P(B|A)=0.99,P(B|~A)=0.02

P(A|B)=P(B|A)*P(A)/P(B)=P(B|A)*P(A)/(P(B|A)*P(B|~A)*P(~A))=0.99*0.001/(0.99*0.001+0.02*0.999)=4.72%

也就是說實際患病的概率5%.

Y以上,為學習所得,希望,對你有幫助。

相關焦點

  • 統計學知識大梳理(終極篇)
    學好統計學,讓你成為高富帥,迎娶白富美,走上人生巔峰,不是不可能,但可能性只有0.00001%。從統計學的角度,這是小概率事件。但是學好統計學的現實好處多多,我就隨便舉幾個例子給大家聽聽。學會看問題,懂得數字的意義。新聞報導上,各種各樣的數字隨處可見,如果你不想被各種數字矇騙,最好學點統計學。
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • StatQuest生物統計學專題 - p值
    statquest-II-1先看一下此例子中單尾檢驗和雙尾檢驗的含義,單尾檢驗是用於檢驗新療法是不是好於對照療法,而雙尾檢驗是用於檢驗新療法是「好於」、「壞於」還是「無統計學差異於」對照療法。單尾檢驗顯著性之所以高,是因為它不區分「壞於」和「無統計學差異」的情況。
  • 自由度統計學和計量經濟學
    統計學上的自由度是指當以樣本的統計量來估計總體的參數時,樣本中獨立或能自由變化的資料的個數,稱為該統計量的自由度。統計學上的自由度包括兩方面的內容:  首先,在估計總體的平均數時,由於樣本中的n個數都是相互獨立的,從其中抽出任何一個數都不影響其他數據,所以其自由度為n.
  • 數據分析:淺談統計學在生活中的應用,看完長見識了!
    現階段,隨著科學技術的快速發展,為了加強對自然社會各個領域現象的判斷和整理能力,將統計學應用在生活各個方面已經成為現階段的數理統計的一種便捷方法。   一、統計學的概念   統計學指的是調研人員通過一些列的手段對整理出來的數據信息進行整理分析,從而推斷出調研對象本質,甚至可以對未來的類似事情進行預判的一門綜合性學科。
  • 2020年自考《社會統計學》真題
    自考社會統計學是自考的一門公共課,小編整理了一些模擬試題及答案,供大家參考。點擊進入:自考報名有疑問、不知道如何選擇主考院校及專業、自考當地政策不了解,點擊立即報考諮詢》》2020年自考《社會統計學》真題一、填空題(本大題共10小題,每空1分,共10分)請在每小題的空格中填上正確答案。錯填、不填均無分。1.________是統計上特有的方法。
  • 說人話的統計學
    用高大上的統計學術語來說,這叫做集中趨勢(central tendency)。不必被術語嚇到,回想一下初中甚至小學時學過的最初級的統計學知識,其實不就是平均數(mean)嘛! 不錯,算術平均數(arithmatic mean)是對集中趨勢的最常用的描述。
  • 雙下降真實發生,UW教授用統計學解釋偏差-方差權衡,LeCun轉推
    本文通過一個統計學的例子,對偏差—方差權衡展開了形象的解讀。選自Twitter,作者:Daniela Witten,機器之心編譯,編輯:陳萍、杜偉8 月初,華盛頓大學統計學與生物統計學教授 Daniela Witten 在推特上發帖介紹了「偏差 - 方差權衡」與「雙下降」之間的關係。這個帖子一經發出便收穫了很多點讚與轉發。
  • 在英國愛丁堡大學就讀統計學是種怎樣的體驗?收割機留學解讀
    成績構成有兩種 (閉卷考試+平時作業成績) or (平時作業成績)舉個例子說,比如說Bayesian的話,第1個學期你是學理論知識,然後成績就是由閉卷考試和平時作業共同決定,大概是閉卷考試佔了90%,平時成績佔10%,第2個學期的時候就是讓你去編程,第2個學期這門課就叫做貝葉斯數據分析
  • 齊齊哈爾工程學院 畢莖娜:《衛生統計學》線上教學
    學校組織在線教學以來,我通過學習通、釘釘、QQ群信息化平臺,為健管181班學生講授了《衛生統計學》,並嘗試將黑龍江省大學生創新創業訓練計劃真實項目引入課程教學,努力踐行「新三中心」教育教學理念。一、課程定位《衛生統計學》是健康服務與管理專業的專業必修課,服務於專業人才培養方案中「培養從事具有健康監測、健康評估能力的高素質應用型人才」的目標,為學生在學校學習專業課程、畢業後從事公共衛生領域的研究和實際工作,打下必要的衛生統計學基礎。
  • 統計學課堂:有效分析數據——勞19級同學的幸運數字
    統計學 2020年9月30日上午,為了加深同學們對統計學的認識,張老師要求每位同學結合上節課的幸運數字,繪製表格。同學們積極參與,大顯身手。
  • 問答| 一致性評價所採取的統計學方法可靠嗎?
    問答 | 一致性評價所採取的統計學方法可靠嗎?問1.一致性評價所採取的統計學方法可靠嗎?換言之,重複100次試驗有90次得到上述結果,即認定兩製劑生物等效,但實際上還有10次可能沒有落在等效區間內,因而產生偏倚,但是這種偏倚從統計學上講並無意義,對藥效無顯著性影響。
  • 楊新洪「三要求」做好廣東百名統計學(專)家信心調查和創辦《統計...
    12月4日上午,省統計局局長楊新洪主持召開省統計專業委員會會議,研究廣東百名統計學(專)家信心調查和創辦《統計學家》內刊工作。局內委員、專員等10人參加會議。會議首先聽取了城鄉統計調查中心關於廣東百名統計學(專)家信心調查工作情況匯報;重點圍繞百名統計學(專)家的樣本範圍和對象、統計學家與統計專家的界定、樣本結構等內容和創辦《統計學家》期刊事項展開了激烈討論。
  • 統計學 5 個基本概念,你知道多少?
    從高的角度來看,統計學是一種利用數學理論來進行數據分析的技術。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統計學我們可以以更富有信息驅動力和針對性的方式對數據進行操作。所涉及的數學理論幫助我們形成數據的具體結論,而不僅僅是猜測。
  • 論文速遞-新冠死亡率的辛普森悖論,因果推斷的一個例子
    1)問題引入上圖是中國和義大利的新冠死亡率,圖中每個年齡段,中國的都大於義大利,但義大利的總死亡率卻比中國更高,這在統計學中被稱為辛普森悖論,指在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。對此,直接的解釋是,由於義大利的老齡化程度更高,所以總死亡率更高上圖是義大利和中國的人口比例對比。
  • 明德立人留學獨家揭秘:芝加哥大學統計學碩士錄取的重要細節!
    全面復盤芝加哥大學統計學碩士錄取的核心細節。國內某高校,託福100,無實習,拿下重磅offer?計算機知識是需要我們仔細思考的,如果打算申請統計學博士的同學,需要達到一定的計算機水平,那樣會在競爭TOP10名校申請裡,佔據優勢。短板也比較明顯,學生沒有接觸過big name的系統性科研,很多學生普遍都有這樣的問題。本科期間,其實是可以有機會拿到科研機會的(和老師做項目的),但本科生很難接觸到科研的核心內容,對科研的理解是不完整的。
  • 社工統計學雜記3:單變量、雙變量、多變量分析
    同樣,很多社工學人經常對統計學望而卻步,就是因為被各種名稱唬住了。今天熙子老師跟大家用簡單的語言,跟大家聊聊統計分析的基本概念:那就是單變量,雙變量及多變量分析。相關連結:社工統計學雜記 之 開篇語:公式其外,智慧其中社工統計學雜記 1: 開闢鴻蒙實證研究數據為先;經世濟國統計佐證萬策社工統計學雜記
  • 音樂教育和數學成績之間兩者之間存在顯著的統計學關聯
    他的新論文《音樂成就與閱讀和數學成就之間的關係的多層次模型》發表在《音樂教育研究》雜誌上,對1000多名以中學生為主的考察對象,顯示兩者之間存在顯著的統計學關聯。在論文最後,他們還建議教育系統和學校董事會考慮提高音樂教育的預算。
  • 數據分析中常犯的18個統計學錯誤,請務必跳過這些坑
    在數據分析的過程中我們經常會用到很多的統計學知識,但有很多統計學知識經常有人用錯,從而導致分析結果不盡如人意,今天就給大家列舉了18個容易錯的統計學知識點,建議大家收藏留著以後慢慢看:1. 變量之間關係可以分為兩類:函數關係:反映了事物之間某種確定性關係。
  • 【統計學】三大相關係數之斯皮爾曼相關係數(spearman correlation coefficient)
    斯皮爾曼相關係數是統計學中三大相關係數之一具有非常好的使用場景,對於解決我們生活中的排名類的問題時使用的比較多,其實大家更多的知道的相關係數是皮爾遜