機器學習從入門到進階丨統計學習的關鍵概念

2020-12-11 騰訊網

在本系列的第一篇文章中,談及了數據科學的關鍵概念和過程。在這篇文章中,會更深入一點。首先,將定義什麼是統計學習(Statistical Learning )。然後,將深入到統計學習的關鍵概念,了解統計學習。

什麼是統計學習

根據維基百科,統計學習理論是從統計學和功能分析領域進行機器學習的框架。

機器學習是通過軟體應用程式實現統計學習技術的一種體現。

這在實踐中意味著什麼?統計學習是指讓我們能夠更好地理解數據的工具和技術。那麼理解數據意味著什麼?

在統計學習的背景下,有兩種類型的數據:

可以直接控制功能的獨立變量數據

不能直接控制功能的因變量數據

像因變量這樣無法控制的數據,則需要預測或估計。

更好的理解數據是通過獨立變量來更多地了解因變量。例如下面的例子:

假設想根據分配給電視、廣播和紙質廣告的不同預算來衡量銷售額。分配給不同渠道的廣告預算是可以控制的,但是無法控制的是它們將如何影響銷售。於是想用把無法控制的數據(銷售額)表達為可以控制的數據(廣告預算)的功能,揭開這種隱藏的關係。

統計學習則能夠揭示隱藏的數據關係,不論是依賴的還是獨立的數據之間的關係。

參數和模型

運營管理中著名的商業模式之一是ITO模型,即輸入-轉化-輸出(Input-Transformation-Output)模型。這很好理解,有一些輸入,這些輸入經歷一些轉化,然後生成了輸出。

統計學習也適用於類似的邏輯,有數據輸入,數據輸入後經歷轉化,然後生成需要預測或估計的輸出。

而上述的轉化引擎部分被稱之為模型,一些用來預估輸出的函數。

轉化過程是和數學相關的,用數學成分計算輸入數據來預估輸出,這些數學成分稱為參數

如下例:

是什麼決定了某人的收入?例如收入是由受教育程度和工作經驗決定的。那麼估計收入的模型可能是這樣的:

收入 = c + β0 受教育程度 + β1 經驗

其中,β0和β1是表示收入函數中教育和經驗的參數。而教育和經驗是可控的變量,這些可控變量具有不同的含義,它們被稱為獨立變量,也稱之為特徵。收入是不可控變量,它們被稱為目標

訓練與測試(Training and Testing)

當你準備一場考試的時候,都做些什麼呢?研究、學習、消化知識點、做筆記、不斷練習等。這些都是學習和準備未知測試的過程或者工具。

機器學習也使用類似的概念進行學習。數據一般是有限的,因此在使用數據時需要謹慎。模型的構建也需要進行驗證,而驗證的方法可以參考如下方式:

將數據集分割為兩部分;

使用其中一部分作為訓練數據,讓模型從中進行學習,也就是說這部分數據對模型來說是可見的、已知的。這部分數據集被稱為訓練數據

使用另一部分來測試模型,給予模型一部分未知的測試數據,來核查模型的性能。這部分數據稱為測試數據

在競爭性考試中,如果準備充分、歷史學習有效,那麼考試中的表現一般也是令人滿意的。同樣的,在機器學習中,如果模型很好地學習了訓練數據,那麼在測試數據上也應該有良好的表現。

一般情況下,在機器學習中,一旦模型在測試數據集上進行測試,就會評估模型的性能,根據它預估的輸出與實際值的接近程度來進行評估。

方差與偏差(Variance and Bias)

英國著名統計學家George Box曾經說:

「All models are wrong, but some are useful.」

「所有模型都是錯誤的,但其中一些是有用的。」

沒有哪個模型能夠達到100%的準確度,所有的模型都有些錯誤,這些錯誤可以從兩方面進行衡量:

偏差(Bias)

方差(Variance)

下面使用類比來解釋這兩個維度:

Raj,是一個七歲的孩子,剛剛接觸了乘法的概念。他已經掌握了1和2的乘法,接下來將挑戰3的,他非常興奮,開始了3的乘法練習,他寫下了如下的等式:

3 x 1 = 4

3 x 2 = 7

3 x 3 = 10

3 x 4 = 13

3 x 5 = 16

Raj的同學Bob也在練習3的乘法。他的計算結果看起來是這樣的:

3 x 1 = 5

3 x 2 = 9

3 x 3 = 18

3 x 4 = 24

3 x 5 = 30

讓我們從機器學習的角度來研究由Bob和Raj創建的乘法模型。

Raj的模型有一個無效的假設,他假設了乘法運算意味著需要在結果後面加1。這個假設引入了偏差誤差。假設是一致的,即將1加到輸出。這意味著Raj的模型低偏差

Raj的模型導致輸出始終與實際相距1。這意味著他的模型具有低方差

Bob的模型輸出結果毫無規律,他的模型輸出與實際值偏差很大。沒有一致的偏差模式。Bob的模型具有高偏差和高方差

上面的例子是對方差和偏差這一重要概念的粗略解釋。

偏差,是模型不考慮數據中的所有信息,而持續學習錯誤信息的傾向。

方差,是模型不考慮實際的數據情況,而持續學習隨機信息的傾向。

偏差 - 方差權衡(Bias-Variance Trade-Off)

有的人學習數學的方式是靠死記硬背,這些人能夠學習和記住數學問題,並且很好背誦出來。

但問題是,他們背下的問題和考試時遇到的問題是不一樣的,考試題是數學概念的泛化應用。顯然,靠死記硬背很難考好。

機器學習也是同樣的模式。如果模型對某一特定的數據集學習過多,並試圖將該模型應用在其他未知數據上,則可能具有很高的誤差。從給定的數據集中學習過多被稱為過擬合。此種情況下,模型難以有效地推廣應用於未知的數據。相反的,從給定的數據集中學習太少稱為欠擬合。此種情況下,模型表現太差,甚至無法從給定的數據中學習。

阿爾伯特·愛因斯坦簡潔地概括了這個概念。他說:

「Everything should be made as simple as possible, but not simpler.」 *

「凡事應儘可能簡單,但不應過於簡單。」

機器學習解決問題的方式是不斷努力尋找到一個恰當的平衡點,構建一個不過於複雜也不過於簡單、能夠泛化的、相對不準確但是有用的模型。

過擬合的模型會過於複雜,它在訓練數據上表現非常好,但是在測試數據上表現欠佳;

欠擬合的模型又過於簡單,它在訓練數據和測試數據上的表現都欠佳;

一個良好的模型是在過擬合和欠擬合之間找到平衡,它表現良好,簡單但不過於簡單。

這種平衡行為被稱為偏差 - 方差權衡

結語

統計學習是複雜機器學習應用的基石。本文介紹了統計學習的一些基礎和核心概念,請記住以下五大要點:

統計學習揭示依賴數據和獨立數據之間的隱藏關係;

模型是轉換引擎,參數是實現轉換的要素;

模型使用訓練數據進行學習,使用測試數據進行評估;

所有模型都是錯誤的,但有些是有用的;

偏差-方差權衡是一種平衡行為,以找到最優化模型、最佳點。

相關焦點

  • 機器學習從入門到進階丨假設檢驗
    在上一篇的文章中,我們討論了統計學習的關鍵概念——參數模型、訓練與測試、方差與偏差等等,今天我們再來看一看機器學習的基石概念之一假設檢驗。
  • 數據分析入門學習指南,零基礎小白都能輕鬆看懂
    該如何學習數據分析呢?其實,如果你打算成為一名數據分析師,如何出身並不重要,數據科學是一門應用學科,你需要系統提升數據獲取、數據分析、數據可視化、機器學習的水平。下面我就簡單提供一個數據分析入門的路徑。第一階段:Excel數據分析每一位數據分析師都脫離不開Excel。
  • 機器學習最佳統計書籍推薦
    幾乎每一個機器學習項目中都離不開統計方法。所以需要基礎的統計相關基礎知識和方法對機器學習和AI必不可少。我們說AI不是神話,AI是數學算法,說明紮實數學基礎是做AI的必須,而統計學知識尤其是如此。這意味著重要的是要牢固掌握統計學主要發現的基礎和相關統計方法的工作知識。
  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    機器學習主要需要的數學基礎就是微積分、線性代數、概率論,我們感覺只需要掌握大學中常見的高數、線性代數、概率論與數理統計三門課程,基本上概念的理解就沒什麼問題了。如果再學一點數值計算和最優化等,我們基本上就能理解機器學習的學習過程推導。機器學習方法建議(面向初學者)特徵工程開始機器學習的第一步是理解如何評估和改進數據集的質量。
  • 如何快速入門機器學習?(下)
    2.4 總結總結一下進階階段三個任務的目的:學習《統計學習方法》《西瓜書》:通過推公式加深對算法的理解,掌握算法細節;學習書本以外的常用算法:對書本內容的一個補充,學習和掌握目前比較流行的算法;打比賽:將算法學習從理論過渡到實踐,同時學習特徵工程。預計時間:這個時間波動會比較大,但無論花多長時間,這個階段能獲取到的知識都是非常多的。
  • 機器學習從入門到進階丨雙對數回歸模型
    接下來認識兩個數學概念——指數和對數。 ■指數 指數是一種具有兩個運算符的函數,底數(b)和指數(n)。其被定義為b^n,形式如下: f(x) = b^x 底數可以是任何的正數,歐拉數(e)是統計中常用的基數。 在幾何上,指數關係具有以下的結構:
  • 經典教材《統計學習導論》現在有了Python版
    這本書介紹了神經網絡、支持向量機、分類樹和 boosting、圖模型、隨機森林、集成方法、Lasso 最小角度回歸和路徑算法、非負矩陣分解和譜聚類等各類機器學習算法,可以幫助讀者了解機器學習算法全貌。但對於剛入門的小白來說,把這本經典教材啃下來難度還是相當大的,因為書中有大量的公式、矩陣推導,總長度達到 700 多頁。
  • 95後哈佛小哥撰寫從零開始的機器學習入門必備,書籍資源已開放
    機器之心報導作者:蛋醬、小舟機器學習怎麼入門最簡單?今年剛剛從哈佛大學統計專業畢業的 Danny Friedman 寫了一本「轉專業學生專用教材」,無基礎也可輕鬆入門,資源現已全部開放。說起機器學習入門書,大概有成百上千種選擇。這些書籍大多是由具備豐富研究經驗的學者撰寫的,涵蓋各種主題。俗話說「開卷有益」,但對於轉專業的初學者來說,這本新書或許更適合入門:近日,一位畢業於哈佛大學的小哥根據自己的機器學習入門經歷,撰寫了一本《從零開始的機器學習》。
  • 95後哈佛小哥撰寫《從零開始的機器學習》,入門必備,書籍資源已開放
    機器之心報導作者:蛋醬、小舟機器學習怎麼入門最簡單?今年剛剛從哈佛大學統計專業畢業的 Danny Friedman 寫了一本「轉專業學生專用教材」,無基礎也可輕鬆入門,資源現已全部開放。
  • 文科生如何入門機器學習:先看看這篇零基礎教程,再多算幾遍
    他寫的博客跳過了專業的部分,用儘量通俗幽默的方法來展現機器學習的入門知識。 知識是「算」出來的學習AI之前,首先就要摒棄原來文科的學習方法。在博客開頭,David就告誡初學者,學習數學、計算機知識不像看小說,不要指望一次就能理解,可能需要反覆閱讀和推演5次才能看懂。
  • 入門機器學習,照這個課程清單按順序學就對了
    機器之心整理參與:張倩、杜偉入門機器學習是一個循序漸進的過程,優質的學習資源和科學的學習路線缺一不可。在本文中,來自英偉達人工智慧應用團隊的計算機科學家 Chip Huyen 不僅列出了十大優質的免費機器學習課程資源,還將其串成了一條高效的學習路線。
  • 文科生如何入門機器學習:先看看這篇零基礎教程,再多算幾遍吧
    他寫的博客跳過了專業的部分,用儘量通俗幽默的方法來展現機器學習的入門知識。知識是「算」出來的學習AI之前,首先就要摒棄原來文科的學習方法。在博客開頭,David就告誡初學者,學習數學、計算機知識不像看小說,不要指望一次就能理解,可能需要反覆閱讀和推演5次才能看懂。
  • 李航《統計學習方法》第二版上線,6 年耕耘增加無監督學習
    統計學習即機器學習,是計算機及其應用領域的一門重要學科。此前,李航老師完成的《統計學習方法》是了解機器學習最好的教材之一,該書從 2005 年開始寫作一直到 2012 年完成,包含了眾多主要的監督學習算法與模型。最近,《統計學習方法》第二版正式發布,通過 6 年時間的努力,在第一版的基礎上又增加了無監督學習的主要算法與模型。
  • 【乾貨】為機器學習從業人員提供的貝葉斯學習核心路線
    貝葉斯統計是統計的一個分支,它的特點是把我們感興趣的量(比如統計模型的參數)看作隨機變量。給定觀察數據後, 我們對這些量的後驗分布進行分析從而得出結論。雖然貝葉斯統計的核心思想已歷經很多年了, 但貝葉斯的思想在過去近20年對機器學習產生了重大影響, 因為它在對真實世界現象建立結構化模型時提供了靈活性。
  • 如何入門Python與機器學習
    本文引用地址:http://www.eepw.com.cn/article/201710/365207.htm  「機器學習」在最近雖可能不至於到人盡皆知的程度,卻也是非常火熱的詞彙。機器學習是英文單詞「Machine Learning」(簡稱ML)的直譯,從字面上便說明了這門技術是讓機器進行「學習」的技術。
  • Python趣味打怪:147段簡單代碼完成從入門到大師
    不要害怕學習的過程枯燥無味,這裡有程式設計師jackzhenguo打造的一份中文Python「糖果包」:147個代碼小樣,60秒一口,營養又好玩,從Python基礎到機器學習盡皆囊括。入門簡單如十進位轉二進位,盡顯Python簡潔之美:In [1]: bin(10)Out[1]: '0b1010'冬天到了,就算沒有點亮手繪技能,也能用簡單幾行代碼繪出漫天雪花:例子是有趣的例子,教程也是正經教程,學習路徑清晰、系統,先一起來看看完整目錄:
  • 關於AI學習方法的思考——產品經理入門人工智慧
    也許你已經嘗試的找過書籍資料、網上課程或培訓機構,是不是並沒有發現成熟的AI產品經理入門學習方法?好了,今天這篇文章我將向您分享我(作為產品經理)對入門人工智慧學習方法上的一些思考。我是一名網際網路產品經理,也希望進入AI領域。目前為止,我已經用了2個月的業餘時間學習入門知識,但還不能算是入門,原因就是人工智慧領域的概念過於寬泛,技術門檻較高。
  • 機器學習入門必讀:6種簡單實用算法及學習曲線、思維導圖
    作者 | 盧譽聲來源 | 大數據DT(ID:hzdashuju)大部分的機器學習算法主要用來解決兩類問題——分類問題和回歸問題。在本文當中,我們介紹一些簡單但經典實用的傳統機器學習算法,讓大家對機器學習算法有一個基本的感性認識。有的人說機器學習入門並不難,有的人會覺得機器學習難以理解。那麼該如何去學習機器學習這種技術與方法呢?
  • 深度學習和機器學習的線性代數入門
    機器學習和深度學習建立在數學原理和概念之上,因此AI學習者需要了解基本數學原理。在模型構建過程中,我們經常設計各種概念,例如維數災難、正則化、二進位、多分類、有序回歸等。神經元是深度學習的基本單位,該結構完全基於數學概念,即輸入和權重的乘積和。至於Sigmoid,ReLU等等激活函數也依賴於數學原理。
  • Tensorflow 全網最全學習資料匯總之Tensorflow 的入門與安裝【2】
    本文將重點整理TensorFlow框架的入門和安裝教程。更多關於TensorFlow的深入介紹、應用項目以及各機器學習開源框架之間的對比等內容,請見雷鋒網的系列文章。《TensorFlow極速入門》連結:http://www.leiphone.com/news/201702/vJpJqREn7EyoAd09.html本文介紹了 graph 與 session 等基本組件,解釋了 rank 和 shape 等基礎數據結構概念,講解了一些 variable 需要注意的地方並介紹了