公眾號後臺回復「圖書「,了解更多號主新書內容
作者:Keivan Chan
來源:97年陳伯伯
其實從中學就開始學習統計學了,畫直方圖,求平均值,找中位數等;大學也集中學過概率論和數理統計;
到了工作中,統計作為數據科學的基礎,想要從事這方面的工作,這始終是一個繞不過去的檻;
這次主要寫連載,一是主要為了鞏固數理統計的知識,二也是嘗試用簡單易懂系統的文字向感興趣的朋友介紹相關內容;
導讀:
在所有可觀察的現象中,可以從大的方面分為兩類——必然現象和隨機現象。
物理學中各種定律描述的基本上都是必然現象,比如物體會因為重力而從高處下落,某一時刻地球位於太陽系中的位置。這些現象的發生都是確定無疑的,如果我們完全認識了它們的內在規律,那麼在發生之前就是可以完全準確的預測出結果。
但是還有一類現象是不確定的。它的不確定性表現在,事先無法準確的預測其結果。唯一可以獲得這類現象的結果的辦法是等到它們發生之後。最典型的例子就是拋硬幣。拋一枚均勻的硬幣之前,已知結果只有正面和反面兩種,但是無法知道到底會是哪一面。比如說,跟喜歡的人表白;明天是否會下雨等。可以看到,這些現象單次發生的時候,是毫無規律可循的。
也正是有了這兩種現象,才讓這個世界既可以被認識,又不至於完全可以被預測。
但當我們在相同的條件下,大量重複(如果可以的話)做某件不確定的事,然後統計實驗結果,就有可能發現某種規律。還是拿拋硬幣來舉例,每次拋硬幣都不知道會得到正面還是反面,但如果有耐心將一枚均勻的硬幣拋20,000次(已經有多位著名的統計學家這麼做過了),然後統計一下正反面分別出現了多少次,就可以發現它們差不多都是10,000次,也就是差不多各佔50%。上面的拋硬幣的例子中,隨機現象(拋硬幣)在相同的條件下,大量重複試驗中呈現的規律性就叫做統計規律性。
《概率論與數量統計》就是研究隨機現象的統計規律的一門學科。
概率論研究的是隨機現象的模型(即概率分布);
數理統計是研究隨機現象的數據收集和處理;即包括數據的收集、整理、分析和建模,從而對隨機現象的某些規律進行預測或決策。
怎麼學習概率論與數量統計:
學思想:如何看待和處理隨機規律性;
學方法:建立統計模型;
學應用:模型的實際應用,也可以自己收集、尋找各種實例;
學軟體:掌握統計軟體的使用和結果分析。
隨機事件:在一定條件下,並不總是出現相同結果的現象成為隨機現象,三個特點:
可以在相同條件下重複進行;
事先知道所有可能出現的結果;
進行試驗前不知道哪個試驗結果會發生。
隨機實驗:對在相同條件下可以重複的隨機現象的觀測、記錄、實驗稱為隨機實驗;例如常出現的擲骰子,摸球,射擊,拋硬幣等。
樣本空間:隨機現象的一切可能基本結果組成的集合稱為樣本空間,一般即為S(大寫的S);S中的元素e稱為樣本點;
將樣本點的個數為有限個或可列個的情況歸為一類,稱為離散樣本空間;
將樣本點的個數為不可列個的情況歸為一類,稱為連續樣本空間;
隨機事件:隨機現象的某些樣本點組成的集合稱為隨機事件;簡稱事件;即事件是樣本空間的子集;
由樣本空間單個元素組成的子集稱為基本事件;
由樣本空間最大子集構成的事件稱為必然事件;
由樣本空間最小自己(即空集)構成的事件稱為不可能事件;
事件的相互關係:
事件的包含:A⊆B
事件的相等:A=B
事件的積(交):A∩B,AB
互斥事件(互不相容事件):不能同時出現
事件的和(並):A∪B
事件的差:A-B,A發生,B不發生
對立事件(逆事件):互斥,必需出現其中一個
事件的運算性質就是集合的性質
頻率:
頻率是0~1之間的一個實數,在大量重複試驗的基礎上給出了隨機事件發生可能性的估計。
頻率的穩定性:在充分多次試驗中,事件的頻率總在一個定值附近擺動,而且,試驗次數越多擺動越小。這個性質叫做頻率的穩定性。
概率:
概率的統計性定義:當試驗次數增加時,隨機事件A發生的頻率的穩定值p就稱為概率。記為P(A)=p
概率的公理化定義:設隨機試驗對於的樣本空間為S。對每一個事件A,定義P(A),滿足:
非負性:P(A) ≥ 0;
規範性:P(S) = 1;
可列可加性:A1, A2, ...兩兩互斥,及AiAj = ∅, i≠j, 則P(∪Ai) = ∑P(Ai)
(看不懂的調過即可)(從統計學定義理解即可)
條件概率:
P(A|B)表示在事件B發生的條件下,事件A發生的概率,相當於A在B中所佔的比例。此時,樣本空間從原來的完整樣本空間S縮小到了B
由於有了條件的約束(事件B),使得原來的樣本空間減小了。
圖1:a.條件概率的樣本空間;b.條件概率的計算公式
例:一個家庭中有兩個小孩,已知至少一個是女孩,問兩個都是女孩的概率是多少?
(假定生男生女是等可能的)
解:由題意,樣本空間為
S = {(兄, 弟), (兄, 妹), (姐, 弟), (姐, 妹)}
B = {(兄, 妹), (姐, 弟), (姐, 妹)}
A = {(姐, 妹)}
由於事件B已經發生,所以這時試驗的所有可能只有三種,而事件A包含的基本事件只佔其中的一種,所以有:
P(A|B) = 1/3,
即在已知至少一個是女孩的情況下,兩個都是女孩的概率為1/3。
在這個例子中,如果不知道事件B發生,則事件A發生的概率為P(A) = 1/4
這裡P(A) ≠ P(A|B),其原因在於事件B的發生改變了樣本空間,使它由原來的S縮減為新的樣本空間SB = B。
今天就這樣,白了個白~
數據森麟公眾號的交流群已經建立,許多小夥伴已經加入其中,感謝大家的支持。大家可以在群裡交流關於數據分析&數據挖掘的相關內容,還沒有加入的小夥伴可以掃描下方管理員二維碼,進群前一定要關注公眾號奧,關注後讓管理員幫忙拉進群,期待大家的加入。
管理員二維碼: