現在機器學習中大家達成了一個共識: 如果你在用一個機器學習方法,而不懂其基礎原理和解釋性,這是一件非常可怕的事情。
統計強調推理,而機器學習則強調預測。執行統計信息時,需要推斷生成數據的過程。 當你進行機器學習時,你想知道用什麼樣的變量,以及預測未來會是什麼樣子。
以統計思想的視角,了解數據分布、評估各種結果的概率、理解數據生成過程、模型解釋性是關注的重點,而機器學習更多的關注的是預測的準確性,我們知道,模型的實際應用光有準確性是不夠的,人類到現在還沒有一個非常成功的機器(系統),工作的好卻不能解釋。所以機器學習中,統計思想的應用是非常重要的。
統計學與計算機學家之爭
原來統計是在統計系,機器學習是在計算機系,這兩個是不相來往的,而且互相都不認同對方的價值。專注於機器學習的計算機學家認為那些統計理論沒有用,不解決問題;而統計學家則認為計算機學家只是在重新建造輪子,沒有新意。
然而,隨著機器學習的迅猛發展,統計學家認識到計算機學家正在做出的貢獻,而計算機學家也認識到統計的理論和方法論的普遍性意義。
Boosting, SVM 和稀疏學習是機器學習界也是統計界,是近二十年來最活躍的方向,其實是二者相輔相成的結果。比如,SVM的理論其實很早被Vapnik等提出來了,但計算機界發明了一個有效的求解算法,而且後來又有非常好的實現代碼被陸續開源給大家使用,於是SVM就變成分類算法的一個基準模型。
機器學家通常具有強的計算能力和解決問題的直覺,而統計學家長於理論分析,具有強的建模能力,因此,兩者有很好的互補性。
所以兩者融合是必然的趨勢。
統計思想對機器學習的巨大貢獻
我們清楚的知道,機器學習在應用中迅猛發展,是人工智慧具體落地的主角,也是臺前英雄,而統計卻是幕後推動者。
機器學習是數據建模的計算機科學觀點,側重於算法方法和模型技能。統計學習是數據建模的數學視角,側重於模型參數的準確估計、模型有效性和擬合優度。機器學習由於過度關注預測準確性,缺乏完全發展的推理概念。
1)似乎沒有人認識到任何預測(參數估計等)都會受到隨機誤差和系統誤差(偏差)的影響。統計學家會接受這是預測中不可避免的一部分,並會嘗試估計錯誤。統計技術將嘗試找到具有最小偏差和隨機誤差的估計。
2)在機器學習中似乎沒有深入理解將模型應用於來自同一分布群體的新樣本限制,儘管我們有劃分訓練集、測試集。實際上,源於統計思想的交叉驗證和懲罰方法,指導在簡約性和模型複雜性之間達到權衡,早已是統計中非常廣泛的手段。而大部分機器學習從業者對這些指導原則似乎更為臨時。
所以,機器學習從業者必須保持開放的思維並利用方法,並從應用統計和統計學習的密切相關領域中理解術語,並在實際中充分應用統計思想,才能更好的將機器學習應用到實踐中。
正則化:統計中的懲罰思想
在機器學習中,我們在正則化和SVM中接觸到懲罰方法,沒學過統計的,會感覺很陌生,其實這是在統計中經常用的方法了。比如光滑樣條Smooth Spline通過對二階導數進行懲罰來控制擬合曲線的光滑程度;LASSO和Ridge regression回歸。
懲罰的核心目的是限制參數空間的大小以降低模型複雜度,懲罰本身反應我們對對應統計問題的某種先驗知識。懲罰有獨特的概率上的解釋,比如假設高斯噪聲的線性模型中,LASSO的L1懲罰相當於給回歸參數加上了一個Laplace prior,而嶺回歸Ridge regression中的L2懲罰則對應一般的normal prior。
在SVM的硬間隔支持向量機中,由於幾何間隔本身代表的是距離,是非負的,像上圖所示的紅色、綠色兩個噪聲點會使得整個問題無解。所以引入懲罰因子(鬆弛變量)這種統計學中的思想,使SVM有了容錯能力,更魯棒了。
線性回歸:隨機變量和離差平方和
機器學習之前,線性回歸其實已經是在統計學中用的最多的方法,所以如果我們理解線性回歸算法,如果以數據和擬合的機器學習視角來看問題,可能就覺得太簡單了,甚至理解的不那麼深刻;而從統計的視角來看,就會發現還不是那麼簡單,意義還很多,看看其統計思想:
1、隨機變量
Y= Xβ+ε
Y是 X的線性函數(部分)加上誤差項,線性部分反映了由於X的變化而引起的Y的變化,誤差項ε是隨機變量,一般是均值為零的高斯分布。反映了除X和Y之間的線性關係之外的隨機因素對Y的影響。是不能由X和Y之間的線性關系所解釋的變異性。所以理解了隨機變量,才能真正理解我們擬合優度目標。
2、離差平方和
總離差平方和反映因變量的n個觀察值與其均值的總誤差;回歸平方和反映自變量x的變化對因變量 y 取值變化的影響,或者說,是由於x與y之間的線性關係引起的y的取值變化,也稱為可解釋的平方和;殘差平方和反映除x以外的其他因素對 y 取值的影響,也稱為不可解釋的平方和注意:離差平方和公式可以由均值為零的隨機變量誤差來推導。
樸素貝葉斯:貝葉斯定理
樸素貝葉斯算法所體現的統計學思想就更多了:
①、貝葉斯定理;②特徵條件之間相互獨立的假設。
這涉及很多統計與概率論的相關概念:條件概率,聯合概率分布,先驗概率,後驗概率,獨立性。
交叉驗證:重採樣方法
交叉驗證本質上說是重採樣方法,其思想起源是統計學。交叉驗證準確度是可以解釋為與模型正確的概率相關的東西。
交叉驗證用在數據不是很充足的時候。
將樣本數據進行切分。在得到多組不同的訓練集和測試集,某次訓練集中的某樣本在下次可能成為測試集中的樣本,即所謂"交叉"。
支持向量機:統計學習理論
支持向量機的產生源於統計學習理論的突破。
統計學習理論是一種研究訓練樣本有限情況下的機器學習規律的學科。換句話說,統計學習理論中,學習的統計性能,即通過有限樣本能否學習得到其中的一些規律?
在統計學習理論產生之前,機器學習中統計學中關於估計的一致性、無偏性和估計方差的界等,以及分類錯誤率等漸近性特徵是實際應用中往往得不到滿足,而這種問題在高維空間時尤其如此。
由萬普尼克建立基於統計學習的機器學習理論,使用統計的方法,因此有別於歸納學習等其它機器學習方法。
(1)結構風險是為經驗風險與置信風險的和。
(2)儘管經驗風險最小化的歸納原則是一致的,但是一致性是在樣本數量趨向無窮大時得到了,在樣本點個數有限的情況下,僅僅用經驗風險來近似期望風險是十分粗糙的,結構風險則是期望風險的一個上界。
基於這個理論的支持向量機,數學基礎非常完備,閃爍著統計思想的火花,對機器學習的理論界以及各個應用領域都有極大的貢獻。
貝葉斯估計:足夠的觀察數據會讓分布更加真實
在貝葉斯估計中的統計思想有:
一個是貝葉斯定理
一個是觀察數據,足夠的觀察數據會讓估計更加符合數據的真實分布。
已經看到P(Θ)是先驗分布。它代表了我們對參數真實價值的信念,就像我們的分布代表了我們對出售冰淇淋概率的看法一樣。
左側的P(Θ|data)稱為後驗分布。這是在我們計算右側的所有內容並將觀察到的數據考慮在內之後表示我們對參數值的信念的分布。
P(data|Θ )是似然分布。一般是高斯分布(data;μ,σ)。
因此,我們可以通過使用我們提供的參數的先驗信念計算出後驗分布。
這是兩個觀察點下擬合的情況:
這是10個數據觀察點下的貝葉斯估計擬合的情況:
高斯過程:統計中高斯分布、貝葉斯定理、觀察數據、均值、方差的意義
分布:高斯分布是實際中廣泛的存在。
貝葉斯定理:從先驗概率,即對一些關於事件發生概率的猜測開始,然後你觀察當前事件發生的似然(可能性),並根據發生的事情更新你的初始猜測。 更新後,先驗概率稱為後驗概率。
所以要預測新數據點的y值,從概率的視角看,我們可以用條件概率來預測,即在歷史數據的X、Y值條件下,當前y的概率分布。
分布均值:對y*的最佳估計
GP建模中的關鍵假設是我們的數據可以表示為來自多元高斯分布的樣本,我們有
我們對條件概率p(y* | y)感興趣:"給定數據,y *的特定預測的可能性有多大?"。 這個條件概率仍然遵循高斯分布(推導過程略),所以有:
對y*的最佳估計是這種分布的平均值:
分布的方差:估計不確定性度量
我們估計的不確定性由方差給出: