斯坦福統計學習理論筆記:Percy Liang帶你搞定「賊難」的理論基礎

2021-02-21 機器之心

CS229T/STAT231 是由史丹福大學開設的統計學習理論課程,著重於對機器學習算法統計特性的理論理解,涉及機器學習算法何時起作用和原因、如何形式化算法從數據中學習的含義、如何使用數學思維來設計更好的機器學習方法等基本課題。今天要介紹由史丹福大學計算機系教授 Percy Liang 近期公布的 CS229T/STAT231 的學習筆記。

筆記地址:https://github.com/percyliang/cs229t/blob/master/lectures/notes.pdf

課程 topic

預備知識

筆記目錄

1 課程概述

1.1 這門課程是關於什麼的?

機器學習已成為許多應用領域中不可或缺的一部分,包括科學(生物學、神經科學、心理學、天文學等)和工程學(自然語言處理、計算機視覺、機器人學等)。但機器學習不是一種單一的方法;相反,它包含一系列看似完全不同的框架和範例,包括分類、回歸、聚類、矩陣分解、貝葉斯網絡、馬爾可夫隨機場等。本課程旨在揭示這些不同技術背後的共同統計學原理。

本課程是關於學習算法的理論分析。課程中介紹的許多分析技術(包括概率、線性代數和最優化的完美結合)值得研究,並且在機器學習之外也是有用的。

更深入的理論理解可以提供新的視角,並且可以幫助對現有算法進行修改和優化,也有助於提出新的算法。如果沒有理論提供的概念性分析,這些新算法可能很難發現。

理論依賴的假設可能同時太強(例如,數據服從獨立同分布條件)又太弱(例如,任何分布)。實際上,理論的目的不是為了簡化成只需插入數字的公式。相反,理論應該改變思維方式。

本課程分為四個部分:漸近性、一致性收斂、核方法和在線學習。我們將從非常強的假設(假設數據是高斯的、漸近的)轉變為非常弱的假設(假設數據可以對抗地在在線學習中生成)。在這方面,核方法有點不同;它更重要的在於提供表達能力,而不是統計學習。

1.2 漸近

給定基於一些未知參數向量θ*提取的數據,我們從數據中計算出θ hat,θ hat 和θ*有多接近?

對於簡單的模型例如高斯均值估計和固定設計的線性回歸,我們可以求出θ hat -θ*的閉式解。

對於大多數模型,例如 logistic 回歸,我們不能這樣做。但我們可以使用統計學中的常用工具即漸近分析。其基本思想是做泰勒級數展開以得到漸近正態性:即,sqrt(n)*(θ^−θ*) 的分布隨著樣本數量 n 的增加逼近於高斯分布。漸近的意義是即使θ hat 很複雜,我們也可以得到簡單的結果。

我們的大多數分析都將使用最大似然估計,這種估計具有很好的統計特性(它們具有所有估計量中最小的漸近方差)。但是對於大多數隱變量模型而言,最大似然在計算上很困難,並且需要進行非凸優化。這些優化問題通常由 EM 算法解決,只能保證收斂到局部最優。我們將展示矩方法(一種可以追溯到 Pearson(1894)的參數估計經典方法)如何解決這個問題,得到能夠產生全局最優解的有效算法(Anandkumar et al.,2012b)。

圖 1:在漸近分析中,我們研究當一個參數估計θ hat 接近真實參數θ*時,θ hat 的行為。

1.3 一致性收斂

漸進線提供了一個很好的初值分析,並且適用於許多場景。但它有兩個主要的缺點:它需要目標函數是平滑的;在漸進線開始逼近前無法確定要選擇多大的樣本數量 n。

一致性收斂提供了另一種視角,若考慮一個標準的監督學習問題:給定訓練集 (x, y),學習算法會從所有假設 H 中選擇一個最優的預測器 h : X → Y,然後我們在測試數據評估該預測器。現在有一個簡單的問題:訓練誤差 Lˆ(h) 和測試誤差 L(h) 之間的關係是什麼樣的?

圖 2:我們希望最小化期望風險 L 以獲得最優的 h*,但是我們實際上只能最小化經驗風險 L ^以獲得 h^。

對於固定的 h ∈ H,訓練誤差 Lˆ(h) 為獨立同分布隨機變量(每一個樣本的損失)的均值,它將收斂到測試誤差 L(h),且收斂率由 Hoeffding 不等式或中心極限定理決定。

但問題是我們假設基於訓練數據選擇一個最佳的假設,並不是使用固定的 h。具體而言,如果考慮經驗風險最小化(ERM),我們需要最小化訓練誤差,從而獲得最優的經驗預測器:

直觀而言,訓練誤差應該比測試誤差小,因此可靠性也低一些。我們可以使用一致性收斂將這一直觀理解形式化為:

這些泛化邊界在某種意義上是統計學習理論的核心。但是在這個過程中,我們可以發展出廣泛有用的不等式,它的應用範圍甚至超越了機器學習。

1.4 核方法

現在我們先繞過學習算法的誤差分析,並考慮我們到底應該學習什麼樣的模型。現實數據非常複雜,所以我們需要極具表達能力的模型。核方法提供了一種嚴格的數學框架,它可以構建複雜、非線性的模型,而且還只需要基於線性模型的機制。

核方法提供了另一種方法定義函數。我們一般定義一個半正定的核函數 k(x, x' ),它將捕捉 x 和 x'之間的相似性,並通過對比一組樣本而定義整個函數:

核方法允許我們構建複雜的非線性函數,例如高斯核函數和徑向基核函數等。它們是通用的方法,且能逼近任意連續的函數。而對於序列、樹型及圖等數據結構,我們可以定義核函數以利用動態規劃實現高效計算。

最後,核方法都是在函數層面上進行操作的,我們可以定義函數的整體空間為再生核希爾伯特空間(RKHS),它允許我們將函數視為向量並執行線性代數的計算規則。

事實證明,所有這三個概念都在描述相同的東西,它們之間相互有聯繫:

圖 3:核方法中的三個關鍵數學概念。

1.5 在線學習(Lecture 1)

真實世界是動態的,使用基於漸近和一致性收斂的早期分析會錯失某些重要性質。在線學習試圖以兩種方式解決這個問題:

目前為止,為了分析一個學習算法的誤差,我們必須假設訓練樣本是獨立同分布的。然而在實踐中,數據點可能是互相依賴的,甚至更糟,即它們可能是對抗生成的。

此外,我們目前考慮的都是批量學習設置,即拿到一個訓練集,學習一個模型,然後部署模型。但在實踐中,數據可能是以流的形式存在的,此時我們需要交替學習和預測。

圖 4:在線學習遊戲。

相關焦點

  • 從2019 AI頂會最佳論文,看深度學習的理論基礎
    最明顯的是近年舉行的 AI 頂會,我們可以看到很多獲獎論文都嘗試從更基礎、更深刻的角度為 DL 打下地基。本文將從 2019 年人工智慧頂會的獲獎論文出發,為你介紹深度學習的理論基礎到底是什麼樣的,當前又有哪些新發現。
  • 斯坦福復旦教練天團帶你搞定美國數模競賽
    由「有方博雅」教育推出的斯坦福復旦教練帶你搞定美國HiMCM數模競賽。美國高中數學建模競賽(HiMCM)是一項由美國數學及其應用聯合會(COMAP)主辦的國際性數學競賽活動,活動旨在使用數學理論與工具解決現實生活問題。
  • 米蘭科維奇循環從「假說」到「理論」​的百年浮沉
    米蘭科維奇循環從「假說」到「理論」的百年浮沉
  • 利用 SPSS 這樣做統計分析,想拿低分 SCI 都難!
    「早些年學過的《統計學》忘得差不多了,重新翻開書本,簡直是如墜霧裡,看不懂。」「這個回歸分析怎麼做?結果為什麼不符合預期?怎麼會沒有統計學意義?」「好像常用的統計方法就那麼幾種,結果一學就會,一會就錯,一錯就懵,套用公式不頂用。」產生這些問題的原因,很可能是提問者缺少系統的對理論的理解,以及缺少對理論的實踐操作。想做統計分析,首先要選擇好操作的軟體。
  • 「學習筆記」HTML基礎
    「學習筆記」HTML基礎前言    勤做筆記不僅可以讓自己學的紮實,更重要的是可以讓自己少走彎路。有人說:"再次翻開筆記是什麼感覺",我的回答是:"初戀般的感覺"。或許筆記不一定十全十美,但肯定會讓你有種初戀般的怦然心動。
  • 李宏毅機器學習完整筆記發布,AI 界「最熱視頻博主」中文課程筆記全開源
    「梯度下降」課程中的 PPT 。對比了不同梯度下曲線的形狀。「詞嵌入」課程中的PPT。展示了語義相似詞語在詞嵌入後呈現出的聚集關係。因為課程中乾貨滿滿,李宏毅老師的課程視頻也被稱為中文世界中最好的機器學習視頻。李老師以幽默風趣的上課風格讓很多晦澀難懂的機器學習理論變得輕鬆易懂,他將理論知識與有趣的例子結合在課堂上展現,並且對深奧的理論知識逐步推導,保證學習者能夠學習到問題的精髓所在。
  • 名校課件 | 史丹福大學CS229 - 機器學習課程
    EECS圈」整理出品,文章版權歸作者所有,轉載請在本公眾號後臺聯繫申請,「新工科EECS圈」對於違規侵權者保有法律追訴權。課程簡介由時任斯坦福計算機系副教授吳恩達 (Andrew Ng)主講,此課程廣泛介紹機器學習、數據挖掘與統計模式識別的知識。
  • 今日打卡|有意義學習理論
    第1題「參考答案」:D「題目解析」:建構主義在學習觀上強調學習的情境性、 社會互動性和主動建構,認為學生 「不是空著腦袋走進教室的」, 學生的學習是在已有經驗基礎上主動建構知識的過程, 因此, 學生是主動的建構者, 對知識意義的建構不能由教師取代,
  • 學會一個 SPSS 軟體,輕鬆搞定臨床統計方法實操
    丁香園攜手國家高級統計分析師武松老師專為醫學生及統計零基礎的初學者量身打造直播培訓課程《SPSS 統計分析直播培訓班》,幽默教學,口訣記憶,手把手教你搞定統計分析,學會 SPSS 軟體的統計分析實戰操作。
  • 「邏輯判斷-最強程度」解題思路:「4層程度」法與「蘋果理論」
    >4「列明結論」和「無視誘導」的重要性5 用模板題學習「4層程度」與「蘋果理論」一、「最強程度」題的本質是「程度」「最強程度題」是本公眾號對這種題型的命名。當不確定某個選項程度有多強時,使用「蘋果理論」(每個選項就相當於一個單獨拿出來的條件)就能派上用場了。下文將會詳細講述「蘋果理論」的應用。「蘋果理論」的核心是簡化條件。
  • 「好好學習」APP可以借鑑「得到」APP筆記功能的什麼?
    除特定形態的知識產品外,得到APP還基於用戶行為及學習規律為其提供多種輔助功能,完善其學習閉環。一方面,得到APP推出今日學習、學習記錄及知識清單(收藏、筆記、留言等)等工具型功能,通過對用戶站內收聽、瀏覽行為進行統計,幫助用戶梳理學習軌跡,管理學習進程,提升學習效率。
  • 要警惕理論學習筆記「代寫」的不正之風
    前不久,聽朋友聊天了解到,某檢查組到下屬單位檢查黨建工作,其中有項內容是查閱領導班子的理論學習筆記。5名班子成員的學習筆記洋洋灑灑,但仔細一看,筆記的字跡都差不多。追問之下,原來筆記是由辦公室代寫的。  「筆記的字跡都差不多」「筆記是由辦公室代寫的」,此類現象,在現實當中屢見不鮮,甚至是「情理之中」的事。
  • 一個鍊金術師的自述:為什麼深度學習的理論基礎不靠譜?
    關於深度學習,我們或許已經看到過很多優秀的介紹、課程和博客,但看完本文你會發現這是一篇「不一樣」的文章,它在質疑:深度學習,真的靠譜嗎?本文來自微信公眾號「駐波」(ID:  Science_in_Boston),作者:格利亞貓。撲克投資家基於多年積累的大量優質乾貨內容,於近日推出——撲克大宗產業&金融知識庫搜尋引擎。
  • 「教師招聘知識」教育理論中的人物(11)
    例如:老師告訴他們上課不要亂動,於是這個階段的孩子就坐的規規矩矩,一動不動,他們並不知道,只要不開小差,不影響學習,也可以換輕鬆地姿勢去坐。④思維具有可逆性。例如:問這個階段的孩子:「你是小紅的弟弟,你怎麼稱呼小紅?」這時候他就能回答出小紅是他的姐姐。
  • 華為18級架構師分享百萬級MySQL筆記,基礎+優化+架構一鍵搞定
    對於MySQL的使用,可能很多剛開始工作的開發人員還是挺陌生的,但要想學習又不知道從何開始,技術的落後自然會讓人感到焦慮。實際上,學習MySQL,找對方法就能輕鬆搞定。今天,特將華為大佬整理的「百萬級」MySQL筆記分享給你們,從基礎到優化再到架構,帶你輕鬆上手,一鍵搞定。百萬級MySQL筆記,完整PDF版,私信【666】即可獲取下載。
  • 督查學習筆記 抓實理論教育
    督查學習筆記 抓實理論教育 2020-09-10 17:58 來源:澎湃新聞·澎湃號·政務
  • 教育理論手寫筆記、教育基礎知識導圖 輔考教材系列叢書
    因為有不少同學問,這個教師資格和教師招聘,以及教育基礎知識與教育綜合知識,教育教學知識與能力和教育基礎知識之間的區別到底是啥。2.教育基礎知識與教育綜合知識,教育教學知識與能力和教育類公共基礎知識有啥區別?答:基本上沒有區別。為什麼,會出現這麼多名稱。行內規矩,不便多說....咱也不敢問。但這麼多年,靠傳道受業解惑吃飯的陸老師,說點真話,不違背良心和道義。
  • 乘風破浪的師兄師姐們也帶不動你的統計分析
    「師兄,我的文章終於到了大修階段了,可是,有位專家說我圖××裡面標註的差異顯著性分析明顯錯誤,我該怎麼辦呢?」
  • Reward|講講怎麼「學習」和「押題」
    理論:整理與寫過的這些還有吧,那麼目前還要再過一遍,針對真題及重點著重有選擇的去看自己在上網課時整理的電子筆記以及後期寫的理論答題,這是你們要做的,恐怕有些同學目前還沒有梳理清楚邏輯,那將會是一件很恐怖的事情,
  • PHP丨PHP基礎知識之條件語SWITCH判斷「理論篇」
    PHP丨PHP基礎知識之條件語IF判斷「理論篇」PHP丨PHP基礎知識之流程控制WHILE循環「理論篇」PHP丨PHP基礎知識之流程控制for循環「理論篇」