一、概率思維
1、概率模型是一種高度簡化的模型,甚至可能有點粗糙,但不影響他的應用含義。統計模型會丟失一定細節,但是可以讓使用對象以一種更簡便快捷的方式,了解一個事件的大致形象,因為對使用者來說,很多細節是無用的
2、比如用非常好的相機照一張高清照片,牛身上的每一根毛都被反映得很清晰;一個卡通畫家三五筆迅速勾勒了一頭牛,很多細節丟失了,但可以讓你立馬識別出來,他就是一頭牛而不是一隻雞或者一條魚。統計模型的作用正是如此
3、統計修養——你對於隨機變量X有沒有足夠的了解。如果足夠了解,可以幫助你構建科學的模型,否則將會遭遇挫折。經濟預測,絕對不能諮詢經濟學家,而應該求助企業家。因為經濟學家的預測是沒有成本的,比如滙豐七樓的某位經濟學家如果預測錯誤,不會有人懲罰他,反而可以賣報告賺錢。而企業家不能這樣,企業家對未來的預測將會影響自己企業的利潤,看錯了會有損失
4、箱子中有兩種顏色的球,紅色與黑色。一共有999個紅球,1個黑球。當我隨意抽出一個球恰好是紅球的概率是多少,答案很簡單1/1000。如果恰好發生了,你是相信是自己運氣好還是前提假設本身就是錯的?再進一步,如果恰好兩次都抽到紅球(而且每抽一次,都把球放回去),那又如何呢?這就是概率思維
5、概率思維所導出的決策,並不一定是百分百正確,但可以告訴你有多大可能性是正確的
6、無統計,何以營銷?!
二、泊松分布
7、泊松分布,也是關於X的離散分布,而且是無窮個樣本,1/2/3直到無窮大。而二項分布是有限的,如1到N,就是重複有限次的伯努利事件
8、泊松分布的概率函數P(X=x)=[λ^x×e^(-λ)/(x!)]
9、λ表示的是單位時間內的平均發生次數,如每天中午,顧客進入滙豐樓下的星巴克的次數。比如λ=15,現實就是,星巴克應該僱傭幾個服務員為提供服務。顧客進來多了,忙不過來,服務變差,面臨損失。進來少了,服務員和設備閒置,還是造成損失。所以要計算P(x),從而確定應該配置的服務員數量
10、當二項分布中的N(p)=λ,且令N無窮大,二項分布就會趨向於泊松分布
三、正態分布
11、對於連續隨機變量,單點事件概率為零。0和1之間,均等分布,落在某一具體數(包括有理數、無理數)的概率=0,即P[X=a,a∈[0,1] ]=0,但P[X≤a,a∈[0,1] ]=a,就可以算出其概率。
12、我無法告訴你它(正態分布)有多神奇,反正他就是一個創造世界的單細胞生物。你無法想像世界從一個細胞進化為一頭恐龍乃至人類和AI。只要你想通了這一些,那麼你對人世間的一切困擾和煩惱將會不屑一顧
13、如果你喜歡正態分布,他會使你產生一種皈依我佛或者哈利路亞的衝動。因為正態分布隱藏了宇宙的奧秘
14、故事1:希伯來文的聖經,隨機圈有意義的字(單詞),組成一個完整的句子,有很大的可能會獲得有意義的預測,似乎是一個可以兌現的預言。那麼如果那另外一本經典,比如《金瓶梅》,按照同樣的算法重複一遍,看看是不是能夠獲得一樣的結果
15、故事2:河流的實際流線長度與從起源點到出海口的直線距離,兩者與之比,比率是π。沒有人知道這是不是真的,但理論上確實可以算出來
16、故事3:完美數,某個數的除本身以外的所有約數之和等於其本身,這個數就稱為完美數。如,6=1+2+3,第二個完美數28=1+2+4+7+14。10的約數之和不足,稱為先天不足;2的約數之和超過,成為後天失調。還有一種情況,220和284,前者約數之和等於後者,後者約數之和等於前者,成為「愛的對號」
17、回歸主題:正態分布有兩個參數X~N(μ,σ²),μ是均值,σ²是方差,取值範圍-∞<X<+∞。很多現象符合正態分布,比如人的智商,中間多、兩頭少。但收入並不是正態分布,而是M型雙峰分布,也就是說,高收入和低收入人數多,而中產階級人數少,
18、當μ=0,σ²=1時,即X~N(0,1),就是標準正態分布
19、均值決定了圖形上峰值的左右位置;方差決定了分布圖形的陡峭程度,方差小則陡峭,局中度高,不確定性小,反之則平緩,集中度低,不確定性大。
這裡老師舉了兩個例子,全球變暖和優生學。開小差了,沒聽,自己腦補。但估計和主線劇情沒有什麼關係,扯淡成分居多
20、正態分布的特點:
(1)僅有兩個參數,且μ=0,σ²=1
(2)對於標準正態分布,有如下結論:P[-1<X<1]≈2/3,P[-2<X<2]≈95%,超過3個標準差的概率幾乎等於1
(3)對稱,x<-a和x>a概率相等,從圖形上來看就是-a和a的相反側面積相等
(4)若X和Y分別都服從正態分布,那麼,(aX+bY)也服從正態分布
21、怎麼樣把普通正態分布轉化為標準正態分布?Y服從正態分布,則先計算該組數據的期望μ及標準差σ,則新構成的這一組數據(Y-μ/σ)服從標準正態分布,即可以得出P[-1< Y-μ/σ<1]≈60%。不同參數的正態分布之間需要相互比較時,就需要按照上述方式轉換為標準正態分布
22、實際應用,某金融機構的1%的風險水平下資產損失為1億,即有1%的可能性會虧損1億元,1%就是即為風險值。金融機構的風險控制,一般管理左尾概率,右尾概率一般不去管它,因為右尾都是高興的事情
23、作業:上證指數月報酬率的分布,計算平均數、標準差。本課程的考核方式,不集中考試,每人寫一篇關於預測的PAPER,不分組不限主題不限字數
四、卡方分布、t分布、F分布
24、若X為標準正態分布,將其平方X²的分布就是卡方分布。因為-∞<x<+∞,但平方之後,0<x<+∞,卡方分布只有一個參數,即自由度,所以卡方分布是正態分布的親戚
25、若X/Y獨立,且分別都是標準正態分布,X²+Y²也是卡方分布,自由度為2。以此類推自由度為k的卡方分布,就是k個標準正態分布的平方之總和
26、自由度~用來幹嘛的?下次查查資料再說
27、卡方分布的特徵:恆正,分布在0軸的右邊;卡方分布的用途——方差分析,因為方差恆正
28、t分布:若X為標準正態分布X~N(0,1),Y為卡方分布Y~χ²,自由度=k,且X和Y獨立, X/(χ²/k)^(1/2)所構成的分布就是t分布,所以,卡方分布和正態分布結婚剩下的小孩就叫做t分布(等等,卡方和正態不是親戚麼?那麼t就是近親結婚的後代?媽蛋!)
29、t分布圖像類似正態分布,唯一不同在於「厚尾」,即P[X≤1.96]=0.975,而P [Y≤1.96]<0.975,圖像表現上,t分布兩端的尾巴與X軸的距離比正態分布更大,即概率比正態分布大
30、當自由度趨向於+∞時,t分布趨向於正態分布
31、F分布,若X~χ²,自由度為k1,Y~χ²,自由度為k2,(X/k1) / (Y/K2)所構成的分布,成為F分布,有兩個自由度,k1為分子自由度,k2為分布自由度。所以,如果說t分布是正態分布的兒子,那麼F分布就是正態分布的孫子
結語:上面的內容看不懂沒關係,下周五晚上記得來上課
PS:不對筆記內容正確性負責!!!