深入剖析機器學習中的統計思想

2020-12-16 AI火箭營

現在機器學習中大家達成了一個共識: 如果你在用一個機器學習方法,而不懂其基礎原理和解釋性,這是一件非常可怕的事情。

統計強調推理,而機器學習則強調預測。執行統計信息時,需要推斷生成數據的過程。 當你進行機器學習時,你想知道用什麼樣的變量,以及預測未來會是什麼樣子。

以統計思想的視角,了解數據分布、評估各種結果的概率、理解數據生成過程、模型解釋性是關注的重點,而機器學習更多的關注的是預測的準確性,我們知道,模型的實際應用光有準確性是不夠的,人類到現在還沒有一個非常成功的機器(系統),工作的好卻不能解釋。所以機器學習中,統計思想的應用是非常重要的。

統計學與計算機學家之爭

原來統計是在統計系,機器學習是在計算機系,這兩個是不相來往的,而且互相都不認同對方的價值。專注於機器學習的計算機學家認為那些統計理論沒有用,不解決問題;而統計學家則認為計算機學家只是在重新建造輪子,沒有新意。

然而,隨著機器學習的迅猛發展,統計學家認識到計算機學家正在做出的貢獻,而計算機學家也認識到統計的理論和方法論的普遍性意義。

Boosting, SVM 和稀疏學習是機器學習界也是統計界,是近二十年來最活躍的方向,其實是二者相輔相成的結果。比如,SVM的理論其實很早被Vapnik等提出來了,但計算機界發明了一個有效的求解算法,而且後來又有非常好的實現代碼被陸續開源給大家使用,於是SVM就變成分類算法的一個基準模型。

機器學家通常具有強的計算能力和解決問題的直覺,而統計學家長於理論分析,具有強的建模能力,因此,兩者有很好的互補性。

所以兩者融合是必然的趨勢。

統計思想對機器學習的巨大貢獻

我們清楚的知道,機器學習在應用中迅猛發展,是人工智慧具體落地的主角,也是臺前英雄,而統計卻是幕後推動者。

機器學習是數據建模的計算機科學觀點,側重於算法方法和模型技能。統計學習是數據建模的數學視角,側重於模型參數的準確估計、模型有效性和擬合優度。機器學習由於過度關注預測準確性,缺乏完全發展的推理概念

1)似乎沒有人認識到任何預測(參數估計等)都會受到隨機誤差和系統誤差(偏差)的影響。統計學家會接受這是預測中不可避免的一部分,並會嘗試估計錯誤。統計技術將嘗試找到具有最小偏差和隨機誤差的估計。

2)在機器學習中似乎沒有深入理解將模型應用於來自同一分布群體的新樣本限制,儘管我們有劃分訓練集、測試集。實際上,源於統計思想的交叉驗證懲罰方法,指導在簡約性和模型複雜性之間達到權衡,早已是統計中非常廣泛的手段。而大部分機器學習從業者對這些指導原則似乎更為臨時。

所以,機器學習從業者必須保持開放的思維並利用方法,並從應用統計和統計學習的密切相關領域中理解術語,並在實際中充分應用統計思想,才能更好的將機器學習應用到實踐中。

正則化:統計中的懲罰思想

在機器學習中,我們在正則化和SVM中接觸到懲罰方法,沒學過統計的,會感覺很陌生,其實這是在統計中經常用的方法了。比如光滑樣條Smooth Spline通過對二階導數進行懲罰來控制擬合曲線的光滑程度;LASSO和Ridge regression回歸。

懲罰的核心目的是限制參數空間的大小以降低模型複雜度,懲罰本身反應我們對對應統計問題的某種先驗知識。懲罰有獨特的概率上的解釋,比如假設高斯噪聲的線性模型中,LASSO的L1懲罰相當於給回歸參數加上了一個Laplace prior,而嶺回歸Ridge regression中的L2懲罰則對應一般的normal prior。

在SVM的硬間隔支持向量機中,由於幾何間隔本身代表的是距離,是非負的,像上圖所示的紅色、綠色兩個噪聲點會使得整個問題無解。所以引入懲罰因子(鬆弛變量)這種統計學中的思想,使SVM有了容錯能力,更魯棒了。

線性回歸:隨機變量和離差平方和

機器學習之前,線性回歸其實已經是在統計學中用的最多的方法,所以如果我們理解線性回歸算法,如果以數據和擬合的機器學習視角來看問題,可能就覺得太簡單了,甚至理解的不那麼深刻;而從統計的視角來看,就會發現還不是那麼簡單,意義還很多,看看其統計思想:

1、隨機變量

Y= Xβ+ε

Y是 X的線性函數(部分)加上誤差項,線性部分反映了由於X的變化而引起的Y的變化,誤差項ε隨機變量,一般是均值為零的高斯分布。反映了除X和Y之間的線性關係之外的隨機因素對Y的影響。是不能由X和Y之間的線性關系所解釋的變異性。所以理解了隨機變量,才能真正理解我們擬合優度目標。

2、離差平方和

總離差平方和反映因變量的n個觀察值與其均值的總誤差;回歸平方和反映自變量x的變化對因變量 y 取值變化的影響,或者說,是由於x與y之間的線性關係引起的y的取值變化,也稱為可解釋的平方和;殘差平方和反映除x以外的其他因素對 y 取值的影響,也稱為不可解釋的平方和注意:離差平方和公式可以由均值為零的隨機變量誤差來推導。

樸素貝葉斯:貝葉斯定理

樸素貝葉斯算法所體現的統計學思想就更多了:

①、貝葉斯定理;②特徵條件之間相互獨立的假設。

這涉及很多統計與概率論的相關概念:條件概率,聯合概率分布,先驗概率,後驗概率,獨立性。

交叉驗證:重採樣方法

交叉驗證本質上說是重採樣方法,其思想起源是統計學。交叉驗證準確度是可以解釋為與模型正確的概率相關的東西。

交叉驗證用在數據不是很充足的時候。

將樣本數據進行切分。在得到多組不同的訓練集和測試集,某次訓練集中的某樣本在下次可能成為測試集中的樣本,即所謂"交叉"。

支持向量機:統計學習理論

支持向量機的產生源於統計學習理論的突破。

統計學習理論是一種研究訓練樣本有限情況下的機器學習規律的學科。換句話說,統計學習理論中,學習的統計性能,即通過有限樣本能否學習得到其中的一些規律?

在統計學習理論產生之前,機器學習中統計學中關於估計的一致性、無偏性和估計方差的界等,以及分類錯誤率等漸近性特徵是實際應用中往往得不到滿足,而這種問題在高維空間時尤其如此。

由萬普尼克建立基於統計學習的機器學習理論,使用統計的方法,因此有別於歸納學習等其它機器學習方法。

(1)結構風險是為經驗風險與置信風險的和。

(2)儘管經驗風險最小化的歸納原則是一致的,但是一致性是在樣本數量趨向無窮大時得到了,在樣本點個數有限的情況下,僅僅用經驗風險來近似期望風險是十分粗糙的,結構風險則是期望風險的一個上界。

基於這個理論的支持向量機,數學基礎非常完備,閃爍著統計思想的火花,對機器學習的理論界以及各個應用領域都有極大的貢獻。

貝葉斯估計:足夠的觀察數據會讓分布更加真實

在貝葉斯估計中的統計思想有:

一個是貝葉斯定理

一個是觀察數據,足夠的觀察數據會讓估計更加符合數據的真實分布。

已經看到P(Θ)是先驗分布。它代表了我們對參數真實價值的信念,就像我們的分布代表了我們對出售冰淇淋概率的看法一樣。

左側的P(Θ|data)稱為後驗分布。這是在我們計算右側的所有內容並將觀察到的數據考慮在內之後表示我們對參數值的信念的分布。

P(data|Θ )是似然分布。一般是高斯分布(data;μ,σ)

因此,我們可以通過使用我們提供的參數的先驗信念計算出後驗分布。

這是兩個觀察點下擬合的情況:

這是10個數據觀察點下的貝葉斯估計擬合的情況:

高斯過程:統計中高斯分布、貝葉斯定理、觀察數據、均值、方差的意義

分布:高斯分布是實際中廣泛的存在。

貝葉斯定理:從先驗概率,即對一些關於事件發生概率的猜測開始,然後你觀察當前事件發生的似然(可能性),並根據發生的事情更新你的初始猜測。 更新後,先驗概率稱為後驗概率

所以要預測新數據點的y值,從概率的視角看,我們可以用條件概率來預測,即在歷史數據的X、Y值條件下,當前y的概率分布。

分布均值:對y*的最佳估計

GP建模中的關鍵假設是我們的數據可以表示為來自多元高斯分布的樣本,我們有

我們對條件概率p(y* | y)感興趣:"給定數據,y *的特定預測的可能性有多大?"。 這個條件概率仍然遵循高斯分布(推導過程略),所以有:

對y*的最佳估計是這種分布的平均值:

分布的方差:估計不確定性度量

我們估計的不確定性由方差給出:

相關焦點

  • 機器翻譯思想提出71周年|破土而出的機器翻譯
    Artsouni)提出用機器進行語言翻譯的想法,並在1933年7月22日獲得了一項「機械腦」的專利。1933年,蘇聯發明家特洛揚斯基設計了用機械方法,把一種語言翻譯為另一種語言的機器,並在同年9月5日登記了他的發明。機器翻譯思想出現在二戰之後。
  • 統計思想
    決策理論還受到了有關人類決策中的啟發與偏見的心理學研究的影響。決策也是統計學的應用領域之一。在統計決策分析領域的領域中,重要的研究成果包括:貝葉斯優化、強化學習,這與工業中的 A/B 測試的實驗設計的復興以及許多工程應用中的在線學習有關。
  • 周亞:深入貫徹習近平法治思想 推動統計現代化行穩致遠
    周亞:深入貫徹習近平法治思想 推動統計現代化行穩致遠 2020-12-18 09:55 來源:澎湃新聞·澎湃號·政務
  • 馬建堂撰文:深入學習貫徹習近平總書記有關統計工作重要論述
    反覆學習、深入領會習總書記有關統計工作重要論述,我們深刻感到,習總書記精闢闡釋了統計事業的發展方向、擔負的責任使命、實踐的行動綱領,為新時期統計工作確立了思想基礎、發展目標和行為準則。,是當前統計系統一項重大而緊迫的政治任務,必須以更加堅決的態度、更加自覺的行動、更加有力的措施,將學習貫徹落實工作不斷引向深入。
  • 機器學習數學精華:4個角度輕鬆搞定概率統計
    三兩下就給整蒙了:大量的模型、交織的知識、複雜的概念、艱深的用法,面對紛繁複雜的前路,你還有勇氣邁向遠方機器學習的熱土嗎?本專欄重點剖析人工智慧算法應用中的核心概率圖模型與隨機過程思想方法,力圖彌合概率統計基本概念與人工智慧應用之間的巨大鴻溝
  • 如何自學機器學習?
    https://www.bilibili.com/video/av10590361https://www.bilibili.com/video/av9770302如果想進一步了解機器學習的最新進展,可以看https://www.bilibili.com/video/av46971639我真得真得非常喜歡他講的課,同時我認為你看完這些課之後會對機器學習(主要是深度學習部分,對,他幾乎不怎麼講統計學習
  • 深度學習在統計機器翻譯和會話中的應用 |微軟IJCAI2016演講PPT
    統計機器翻譯(SMT)包括:l  統計結果l  來源渠道模型l  翻譯模型l  語言模型l  對數線性模型l  評價指標:BLEU分數(越高越好基於短語的統計機器翻譯(SMT)將中文翻譯成英文編碼器-解碼器基礎方法是:一個編碼器RNN進行閱讀和將一個源句子編碼到固定長度的矢量中,一個解碼器RNN從編碼器矢量中輸出可變長度的翻譯,最後編碼器-解碼器RNNs聯合學習文本,優化目標可能性。
  • 深入了解那些知名的端到端機器學習平臺
    將一組機器學習解決方案轉變為端到端的機器學習平臺的,是一種運用了加速建模、自動化部署和確保生產中的可伸縮性和可靠性的技術的架構。筆者此前講過lean D/MLOps,數據和機器學習操作,因為沒有數據的機器學習操作是沒有意義的,所以端到端機器學習平臺需要進行整體構建。CI/CD基金會啟動了一個MLOps特別興趣小組(SIG)。
  • 【新書推薦】陳強《機器學習及R應用》
    編者薦語:  三年磨一劍,期待已久陳強老師的《機器學習及R應用》終於上市啦!本書對於機器學習的核心方法,進行了深入而詳細的介紹,並特別關注各學科常用的算法,無論是看似複雜的機器學習原理,還是分享機器學習匠心獨運,均為讀者帶來愉悅的閱讀體驗。  以下文章來源於計量經濟學及Stata應用,作者愛計量。
  • 案例剖析中深化教育實踐活動:解剖麻雀 舉一反三
    哈爾濱日報訊(本報記者)在群眾路線教育實踐活動中,哈市堅持把案例剖析作為深化活動的重要手段,要求全市各級領導班子和領導幹部緊密聯繫思想、工作和生活實際,認真剖析已經查找的「四風」典型案例,深入查擺問題,分析問題的產生根源、危害及教訓,從而找到深化整改的措施,確保教育實踐活動取得實效。
  • 《機器學習及R應用》詳細目錄
    (詳情點擊頁底「閱讀原文」)陳強老師的《機器學習及R應用》終於上市啦!目前已經開始在高等教育出版社的官方微店預售。掃描(或識別)下方二維碼,即可前往售書頁面。昨日推文引起極大反響,不少讀者想知道《機器學習及R應用》的目錄。
  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    機器之心整理參與:機器之心編輯部機器學習日益廣為人知,越來越多的計算機科學家和工程師投身其中。不幸的是,理論、算法、應用、論文、書籍、視頻等信息如此之多,很容易讓初學者迷失其中,不清楚如何才能提升技能。本文作者依據自身經驗給出了一套快速上手的可行方法及學習資源的分類匯總,機器之心在其基礎上做了增益,希望對讀者有所幫助。
  • 第三十一講 R-機器學習與回歸概述
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。
  • 統計學家範劍青:機器是怎麼學習金融的?
    在範劍青看來,人工智慧是機器學習的平方,讓機器自動學習機器算法、是機器學習的理想境界。而大數據賦能AI,從大數據相關的科學挑戰衍生的新興科學即為數據科學,他認為數據科學以應用為背景,其目的是想把大數據解決成智慧數據。 他指出,大數據=系統+分析+應用,機器學習=統計+優化+實現環境。
  • 統計學習方法-李航(1.1統計學習)讀書筆記
    統計學習方法的特點統計學習(statistical learning):關於計算機基於數據構建統計模型並運用模型對數據進行預測與分析的一門學科。又稱為統計機器學習(statistical machine learning)。
  • 深度學習與統計力學(I) :深度學習中的基礎理論問題
    事實上,統計力學和機器學習領域長期以來都有著豐富的強耦合相互作用的歷史,而統計力學和深度學習交叉點的最新進展表明,這些相互作用只會加深未來的發展。系列預告深度學習統計力學(I) :深度學習中的基礎理論問題深度學習統計力學(IV) :深層網絡的信號傳播和初始化深度學習統計力學(VI) :通過概率模型進行「深度想像」1 介紹深層神經網絡具有多個隱含層[1],在許多領域都取得了顯著的成功,從機器視覺[2]、語音識別[3]、自然語言處理[4]、強化學習[5],到神經科學[6、7]、心理學[8、
  • 深化思想認識 突出實踐導向 不斷把解放思想大討論引向深入
    要按照市委的部署要求,進一步深化思想認識,突出實踐導向,緊緊圍繞推動全面振興全方位振興目標,全面解放思想,增強內生動力,不斷把解放思想推動高質量發展大討論引向深入。要在「學」中解放思想,努力樹立新觀念。要學習習近平新時代中國特色社會主義思想,學習習近平總書記在深入推進東北振興座談會上的重要講話和考察我省的重要指示精神,努力在學懂弄通做實上下功夫。
  • 資源 | 20本機器學習與數據科學必讀書籍
    本書的目的是以原則性的方式介紹機器學習及其提供的算法範例。本書提供了機器學習的基礎知識,以及將這些原理轉化為實際算法的數學推導的說明。在介紹基礎知識之後,本書還涵蓋了以前教科書沒有提到的大量重要的課題。
  • 深入學習貫徹習近平法治思想和生態文明思想依法推進生態環境保護...
    深入學習貫徹習近平法治思想和生態文明思想依法推進生態環境保護工作再上新臺階生態環境部黨的十八大以來,以習近平同志為核心的黨中央站在關係黨的前途命運和國家長治久安的戰略全局高度,把全面依法治國擺在治國理政突出重要位置,納入「四個全面」戰略布局,
  • 哈師大研究生深入學習習近平新時代中國特色社會主義思想
    為深入學習宣傳貫徹黨的十九大精神,領會習近平新時代中國特色社會主義思想,增強研究生思想政治理論素養,日前,哈爾濱師範大學研究生深入學習宣傳習近平新時代中國特色社會主義思想專題研修班專題講座如期舉辦。孫豔春教授以《準確理解和把握新時代黨的建設總要求》為主題,圍繞正確認識新時代黨的建設新形勢、準確把握新時代黨的建設總要求和貫徹落實新時代黨的建設總要求三個方面,帶領廣大研究生深入學習習近平新時代中國特色社會主義思想。