正態分布、卡方分布、t分布、F分布……都是什麼鬼

2021-02-07 午夜計程車


一、概率思維

1、概率模型是一種高度簡化的模型,甚至可能有點粗糙,但不影響他的應用含義。統計模型會丟失一定細節,但是可以讓使用對象以一種更簡便快捷的方式,了解一個事件的大致形象,因為對使用者來說,很多細節是無用的

2、比如用非常好的相機照一張高清照片,牛身上的每一根毛都被反映得很清晰;一個卡通畫家三五筆迅速勾勒了一頭牛,很多細節丟失了,但可以讓你立馬識別出來,他就是一頭牛而不是一隻雞或者一條魚。統計模型的作用正是如此


3、統計修養——你對於隨機變量X有沒有足夠的了解。如果足夠了解,可以幫助你構建科學的模型,否則將會遭遇挫折。經濟預測,絕對不能諮詢經濟學家,而應該求助企業家。因為經濟學家的預測是沒有成本的,比如滙豐七樓的某位經濟學家如果預測錯誤,不會有人懲罰他,反而可以賣報告賺錢。而企業家不能這樣,企業家對未來的預測將會影響自己企業的利潤,看錯了會有損失

4、箱子中有兩種顏色的球,紅色與黑色。一共有999個紅球,1個黑球。當我隨意抽出一個球恰好是紅球的概率是多少,答案很簡單1/1000。如果恰好發生了,你是相信是自己運氣好還是前提假設本身就是錯的?再進一步,如果恰好兩次都抽到紅球(而且每抽一次,都把球放回去),那又如何呢?這就是概率思維

5、概率思維所導出的決策,並不一定是百分百正確,但可以告訴你有多大可能性是正確的

6、無統計,何以營銷?!

 

二、泊松分布

7、泊松分布,也是關於X的離散分布,而且是無窮個樣本,1/2/3直到無窮大。而二項分布是有限的,如1到N,就是重複有限次的伯努利事件

8、泊松分布的概率函數P(X=x)=[λ^x×e^(-λ)/(x!)]

9、λ表示的是單位時間內的平均發生次數,如每天中午,顧客進入滙豐樓下的星巴克的次數。比如λ=15,現實就是,星巴克應該僱傭幾個服務員為提供服務。顧客進來多了,忙不過來,服務變差,面臨損失。進來少了,服務員和設備閒置,還是造成損失。所以要計算P(x),從而確定應該配置的服務員數量

10、當二項分布中的N(p)=λ,且令N無窮大,二項分布就會趨向於泊松分布

 

三、正態分布

11、對於連續隨機變量,單點事件概率為零。0和1之間,均等分布,落在某一具體數(包括有理數、無理數)的概率=0,即P[X=a,a∈[0,1] ]=0,但P[X≤a,a∈[0,1] ]=a,就可以算出其概率。

12、我無法告訴你它(正態分布)有多神奇,反正他就是一個創造世界的單細胞生物。你無法想像世界從一個細胞進化為一頭恐龍乃至人類和AI。只要你想通了這一些,那麼你對人世間的一切困擾和煩惱將會不屑一顧

13、如果你喜歡正態分布,他會使你產生一種皈依我佛或者哈利路亞的衝動。因為正態分布隱藏了宇宙的奧秘

14、故事1:希伯來文的聖經,隨機圈有意義的字(單詞),組成一個完整的句子,有很大的可能會獲得有意義的預測,似乎是一個可以兌現的預言。那麼如果那另外一本經典,比如《金瓶梅》,按照同樣的算法重複一遍,看看是不是能夠獲得一樣的結果

15、故事2:河流的實際流線長度與從起源點到出海口的直線距離,兩者與之比,比率是π。沒有人知道這是不是真的,但理論上確實可以算出來

16、故事3:完美數,某個數的除本身以外的所有約數之和等於其本身,這個數就稱為完美數。如,6=1+2+3,第二個完美數28=1+2+4+7+14。10的約數之和不足,稱為先天不足;2的約數之和超過,成為後天失調。還有一種情況,220和284,前者約數之和等於後者,後者約數之和等於前者,成為「愛的對號」

17、回歸主題:正態分布有兩個參數X~N(μ,σ²),μ是均值,σ²是方差,取值範圍-∞<X<+∞。很多現象符合正態分布,比如人的智商,中間多、兩頭少。但收入並不是正態分布,而是M型雙峰分布,也就是說,高收入和低收入人數多,而中產階級人數少,

18、當μ=0,σ²=1時,即X~N(0,1),就是標準正態分布

19、均值決定了圖形上峰值的左右位置;方差決定了分布圖形的陡峭程度,方差小則陡峭,局中度高,不確定性小,反之則平緩,集中度低,不確定性大。

這裡老師舉了兩個例子,全球變暖和優生學。開小差了,沒聽,自己腦補。但估計和主線劇情沒有什麼關係,扯淡成分居多

20、正態分布的特點:

(1)僅有兩個參數,且μ=0,σ²=1

(2)對於標準正態分布,有如下結論:P[-1<X<1]≈2/3,P[-2<X<2]≈95%,超過3個標準差的概率幾乎等於1

(3)對稱,x<-a和x>a概率相等,從圖形上來看就是-a和a的相反側面積相等

(4)若X和Y分別都服從正態分布,那麼,(aX+bY)也服從正態分布

21、怎麼樣把普通正態分布轉化為標準正態分布?Y服從正態分布,則先計算該組數據的期望μ及標準差σ,則新構成的這一組數據(Y-μ/σ)服從標準正態分布,即可以得出P[-1< Y-μ/σ<1]≈60%。不同參數的正態分布之間需要相互比較時,就需要按照上述方式轉換為標準正態分布

22、實際應用,某金融機構的1%的風險水平下資產損失為1億,即有1%的可能性會虧損1億元,1%就是即為風險值。金融機構的風險控制,一般管理左尾概率,右尾概率一般不去管它,因為右尾都是高興的事情

23、作業:上證指數月報酬率的分布,計算平均數、標準差。本課程的考核方式,不集中考試,每人寫一篇關於預測的PAPER,不分組不限主題不限字數

 

四、卡方分布、t分布、F分布

24、若X為標準正態分布,將其平方X²的分布就是卡方分布。因為-∞<x<+∞,但平方之後,0<x<+∞,卡方分布只有一個參數,即自由度,所以卡方分布是正態分布的親戚

25、若X/Y獨立,且分別都是標準正態分布,X²+Y²也是卡方分布,自由度為2。以此類推自由度為k的卡方分布,就是k個標準正態分布的平方之總和

26、自由度~用來幹嘛的?下次查查資料再說

27、卡方分布的特徵:恆正,分布在0軸的右邊;卡方分布的用途——方差分析,因為方差恆正


28、t分布:若X為標準正態分布X~N(0,1),Y為卡方分布Y~χ²,自由度=k,且X和Y獨立, X/(χ²/k)^(1/2)所構成的分布就是t分布,所以,卡方分布和正態分布結婚剩下的小孩就叫做t分布(等等,卡方和正態不是親戚麼?那麼t就是近親結婚的後代?媽蛋!)

29、t分布圖像類似正態分布,唯一不同在於「厚尾」,即P[X≤1.96]=0.975,而P [Y≤1.96]<0.975,圖像表現上,t分布兩端的尾巴與X軸的距離比正態分布更大,即概率比正態分布大

30、當自由度趨向於+∞時,t分布趨向於正態分布


31、F分布,若X~χ²,自由度為k1,Y~χ²,自由度為k2,(X/k1) / (Y/K2)所構成的分布,成為F分布,有兩個自由度,k1為分子自由度,k2為分布自由度。所以,如果說t分布是正態分布的兒子,那麼F分布就是正態分布的孫子

結語:上面的內容看不懂沒關係,下周五晚上記得來上課


PS:不對筆記內容正確性負責!!!

相關焦點

  • 連續型隨機變量概率分布— —卡方分布
  • Python進行單變量的樣本分布檢驗
    正態分布有兩個參數-均值和期望;分別樣本的均值和方差來估計。使用K-S test對x進行t分布和正態分布檢驗時,如果都不能拒絕(因為正態分布和t分布在中間的時候非常像,但是尾部有顯著差別)。每一塊理論上應該落多少個,其實就是二項分布,在中心極限定理中:本來有多少概率落在裡面,與實際落進去的有誤差的,這個誤差是受二項分布影響的,當二項分布數比較大的時候可以將他構造成一個正態分布,標準化後進行平方和,也就是每一塊理論上都有一個概率值落在裡面,但是和實際值有差別,這個差別我們認為是服從正態分布的。
  • Poisson分布,指數分布和Gamma分布
    Poisson分布隨機過程{N(t),t∈[0,∞)}稱為
  • 可靠性工程常用分布_二參數威布爾分布計算實例
    說到連續分布就自然會想到離散型分布,這裡順便總結分類下常用的離散型分布和連續型分布。1)離散型分布:二項分布,泊松分布;2)連續型分布:正態分布,對數正態分布,指數分布,威布爾分布,伽馬分布。關於威布爾分布,標準的威布爾分布有二參數和三參數兩種形式。這裡主要分析下兩種計算二參數威布爾分布形狀參數β,以及尺度參數η的方法(概率紙法,以及Excel計算法)。
  • 連續型隨機變量概率分布— —指數分布
    前一篇:連續型隨機變量概率分布——正態分布後一篇:連續型隨機變量概率分布——抽樣分布指數分布是連續型隨機變量的另一種概率分布
  • 離散型隨機變量概率分布— —泊松分布
  • Python+統計學 | 探索常用的數據分析統計分布
    本文用Python統計模擬的方法,介紹四種常用的統計分布,包括離散分布:二項分布和泊松分布,以及連續分布,指數分布和正態分布,最後查看人群的身高和體重數據所符合的分布。在NumPy中,不僅可以生成上述簡單的隨機數,還可以按照一定的統計分布生成相應的隨機數。這裡列舉了二項分布、泊松分布、指數分布和正態分布各自對應的隨機數生成函數,接下來我們分別研究這四種類型的統計分布。
  • 【Python+統計學】探索數據分析常用的統計分布
    本文用Python統計模擬的方法,介紹四種常用的統計分布,包括離散分布:二項分布和泊松分布,以及連續分布,指數分布和正態分布,最後查看人群的身高和體重數據所符合的分布
  • 【學術前沿】最新數據分析統計分布大匯總!
    在NumPy中,不僅可以生成上述簡單的隨機數,還可以按照一定的統計分布生成相應的隨機數。這裡列舉了二項分布、泊松分布、指數分布和正態分布各自對應的隨機數生成函數,接下來我們分別研究這四種類型的統計分布。
  • 阿富汗礦產資源分布
    一些矽卡巖型或與火成巖相關的礦床發育在巴達赫尚,法拉赫和坎大哈省,其中最大的是福爾莫拉礦床,它有3500萬噸金屬資源量,礦石品位47%~68%,伴有硫,磷,鎳和錳等。所有與火成巖有關的礦床已知共含有1.78億噸鐵金屬量,礦石品位都在47%~68%之間,並具有找到其他礦產資源的潛力。3.
  • 美國全球軍事基地的分布
    (部分)中歐基地群軍事基地分布|來源:作者自繪(部分)南歐基地群軍事基地分布|來源:作者自繪(部分)西歐基地群軍事基地分布|來源:作者自繪在二戰、韓戰、越南戰爭和海灣戰爭中,安德森空軍基地都是重型轟炸機部隊的駐地。
  • 第536期|​R語言之正態檢驗
    > 利用觀測數據判斷總體是否服從正態分布的檢驗稱為正態性檢驗
  • 高斯光束分布和特性詳解
    雷射束腰和分布 為了獲得高斯光束光學的精確原理和限制,有必要理解雷射束輸出的特性。在TEM(橫模和縱模為0)模式下,光是從雷射開始輻射,就像一個含有高斯橫截發光剖面的完美平面波,如下圖顯示。高斯形狀被雷射內部的尺寸或者某種光學序列的限制光圈在某個直徑處被截斷。為了指定和論述雷射光束的傳播特性,我們必須給它的直徑下一些定義。
  • 邊際分布曲線圖的繪製
    今天為大家介紹一種「組合型」圖表:邊際分布曲線圖(Marginal distributions
  • 世界氣候類型的分布
    德國氣候學家柯本以氣溫和降水兩個氣候要素為基礎,參照自然植被的分布對世界的氣候進行劃分,我國氣候學家在此基礎上加以適當修改,得到我們現在高中地理學習的11種基本的世界氣候類型。二、影響氣候的因素:氣壓帶和風帶是影響氣候形成的一個重要因素。
  • 【刨根問土】我國土壤質地分布及其原因
    一、紅壤1、分布紅壤是我國分布面積最大的土壤,它分布在長江以南的廣闊低山丘陵地區,包括江西,湖南的大部分地區,除此之外,在雲南,廣西,廣東,福建,臺灣的北部以及浙江,四川,安徽,貴州的南部都有紅壤的分布。
  • 安徽駱姓村落分布及堂號字輩
    安徽駱姓村落分布及堂號字輩安徽駱氏宗親會                 安徽駱姓人口眾多,地理分布較廣,遷徒來源複雜,譜系各不相同。新生的安徽駱氏宗親聯誼會成立後的頭等大事就是統計、了解全安徽的駱氏情況。
  • 10.7.2 重疊經驗累積分布函數圖
    〖例10-33〗根據例10-25的資料,試繪製最大極值分布的重疊經驗累積分布函數圖。
  • 世界三大宗教的分布和對比
    下面我們通過數據和圖片來簡單對比下世界三大宗教的區別及分布特點:信徒分布基督教:主要分布於歐洲、美洲、大洋洲、非洲撒哈拉沙漠以南伊斯蘭教:主要分布於西亞、北非,中亞、東南亞佛教:主要分布於東亞、東南亞綜述:歐洲、美洲、非洲南部以基督教為主;中亞、西亞、北非以伊斯蘭教為主;佛教則主要分布在東亞和東南亞,北美洲和澳大利亞也有不少分布。
  • 科普 | 從衛星雲圖識別天氣系統的分布
    例如,冷空氣南下的時候產生的雲系一般呈帶狀分布,颱風雲系一呈螺旋狀,高氣壓區上空一般沒有濃厚的雲系。一幅衛星雲圖好像是某種天氣系統的畫像根據衛星雲圖上各種雲系的分布就可以知道天氣系統的分布知道了天氣系統的分布也就容易推測未來各地的天氣情況了