「從第2章開始,直到第6章,我們都將處理單步不確定決策問題。」
到現在為止,我們都在研究已知概率分布參數或結構的情形,本章將學習如何通過數據擬合概率模型。
4.1 最大似然
嘗試找到最大化觀測數據似然的概率分布參數,如果θ代表分布的參數,那麼最大似然估計滿足:
其中,P(D|θ)是當參數賦值為θ時,概率分布模型滿足觀測數據D的概率。
最大似然一般有兩個難點:
選擇合理的概率模型;(假設數據D滿足獨立同分布:independently and identically distributed)
優化最大似然函數。(可以考慮最大 Log-似然,將乘變成加)
4.2 貝葉斯參數學習
最大似然很難處理數據量少的情形,貝葉斯估計引入了後驗概率,即已知D,θ的概率:
可以看作是下圖結構中的貝葉斯網絡,假設觀測值滿足獨立分布:
4.3 非參數學習
參數的數量隨著數據的大小同規模,常用的方法是核密度估計(kernel density estimation)。
給定n個觀測數據,核密度計算公式:
其中, φ是核函數,具有對稱性,其標準差被稱作帶寬(bandwidth),用於控制密度函數的平滑性:
4.4 處理缺失數據
我們收集到的數據往往存在缺失值,比如下圖A/B/C三個變量有6個缺失值:
一般有三種處理思路:
#參考文獻:
(1)Murphy K P. Machine learning: a probabilistic perspective[M]. MIT press, 2012.