監督學習、非監督學習、強化學習都是什麼?終於有人講明白了

2021-02-13 大數據DT

導讀：本文帶你了解機器學習的分類——監督學習、非監督學習、強化學習。

作者：小川雄太郎

來源：大數據DT（ID：hzdashuju）

01 術語整理

本節概述機器學習及其三個分類（監督學習、非監督學習和強化學習）。首先，與機器學習相關的術語有人工智慧（Artificial Intelligence，AI）、機器學習（Machine Learning，ML）、強化學習、深度學習等，這裡對這些術語進行簡單的整理。

AI意味著人工智慧，其定義因研究人員而異。從廣義上講，它指「像人類一樣具有智能的系統和配備這種系統的機器人」。實現AI的方法之一是機器學習。

機器學習可以簡單地描述為「向系統提供數據（稱為訓練數據或學習數據）並通過數據自動確定系統的參數（變量值）」。相反，基於規則的系統是非機器學習系統的一個例子。在基於規則的系統中，由人類來清楚地定義分支條件的參數，例如實現代碼中所存在的if語句等。

另一方面，機器學習自動根據訓練數據確定代碼中的參數，以使系統運行良好。之所以稱為機器學習，正是因為系統能根據訓練數據計算和確定系統運行所需的參數。

強化學習是機器學習中的一種。機器學習可分為三大類：監督學習、非監督學習和強化學習。我們稍後會討論這三個分類，這裡只需要認識到強化學習是機器學習的一部分即可。

接下來是深度學習。深度學習是實現機器學習的算法之一。機器學習的算法包括邏輯回歸、支持向量機（Support Vector Machine，SVM）、決策樹、隨機森林和神經網絡等。深度學習是神經網絡中的一種。

最後是深度強化學習。深度強化學習是強化學習和深度學習的結合。

02 監督學習、非監督學習、強化學習

這裡對三種機器學習（監督學習、非監督學習和強化學習）分別進行介紹。

首先說明監督學習。

例如，「對郵政編碼中的手寫數字進行分類」是一種監督學習。郵政編碼分類系統將每個數字的手寫圖像分類為0～9中的一個。諸如0到9的數據的分類目標被稱為標籤或類。這種系統被稱為監督學習，因為給事先提供的訓練數據預先標記出了正確的標籤。換句話說，帶標籤的訓練數據成了系統的教師。

監督學習包括學習階段和推理階段。我們將以圖為例來解釋手寫數字的分類（見圖1.1）。

在學習階段，準備許多0到9的手寫數字圖像數據，這些數據作為訓練數據。訓練數據有一個標籤（0到9中的某個數值），根據標籤可以找到關於手寫數字圖像的正確答案信息，例如「此手寫數字圖像為1」。在學習階段，當將手寫數字圖像輸入系統時，調整（學習）系統的參數以儘量將輸入圖像分類為正確的標籤。在應用階段，將無標籤的未知手寫數字圖像數據輸入系統，圖像被分類為0到9中的某一個輸出標籤並給出結果。如果已經學習到正確的結果，當輸入未知的手寫數字圖像時，系統將輸出正確的數值標籤。除了手寫數字的分類之外，還可使用監督學習來對圖像、聲音和文本數據進行分類。此外，除了上面例子中提到的分類任務，監督學習也用於回歸等任務。接下來，介紹非監督學習。用一個詞表達非監督學習就是「分組」。它將大量數據中類似的數據分為一組（稱為聚類）。例如，「根據購買數據對客戶進行分組的系統」是非監督學習。根據購買歷史記錄的特徵對客戶進行分組，可以為每個組實施不同的銷售策略。我們使用圖來說明購買數據分析的例子（見圖1.2）。假設存儲了每個客戶過去一年的購買數量和每次平均消費金額的數據，並對此數據進行分析。根據這些數據，客戶可以分為兩組。A組（左上角）是以較低頻次購買高價商品的組，B組（右下角）是多次重複但每次消費金額較低的組。▲圖1.2 使用非監督學習根據購買數據對客戶分組的示例使用非監督學習進行分組將有助於了解每個客戶所屬的組，並針對每個組實施最佳銷售策略（儘管部分業務還需要更詳細的分析）。除了本例中提到的分組（聚類）以外，非監督學習也用於降維和推薦系統。最後，我們討論強化學習。強化學習是一種主要用於「時變系統控制規則構建」和「對戰博弈策略構建」的方法。例如，強化學習用於機器人的步行控制和圍棋對戰程序（見圖1.3）。▲圖1.3 強化學習示例（機器人步行控制和圍棋比賽系統）在我們熟悉的例子中，可能更容易想像一個孩子學會騎自行車的情形。當一個孩子學習騎自行車時，並沒有人去教其諸如牛頓力學等力學法則以及如何騎車的詳細方法，也不必通過觀看視頻來學習騎自行車。事實上，自己嘗試騎自行車，在多次失敗的過程中找到一種騎自行車的方法。強化學習正如學騎自行車的例子，它是一種學習方法，它在不知道控制對象的物理定律的情況下重複試錯，以學習到所希望的控制方法。強化學習中沒有帶標籤的數據作為訓練數據，但這並不意味著根本沒有監督信息。系統根據強化學習程序運行，在獲得所需結果時給出稱為獎勵的信號。例如，在機器人的步行控制中，可以走的距離就是獎勵。在圍棋的比賽程序中，贏或輸的結果就是獎勵。失敗時的獎勵是負值，也稱為懲罰。如果想通過監督學習來學習機器人的步行控制，就需要儘可能多的「如果腿的關節處於這個角度並且速度是某值，那麼就像這樣轉動電動機A」這樣的模式，並預先給出其正確的做法。然而，當機器人行走時，對於每個時刻變化的狀態，很難預先給出控制該電動機的正確做法。另一方面，在強化學習中，將行走距離作為獎勵提供給步行控制系統，並且重複試驗多次。這樣一來，強化學習系統會根據重複試驗和獲得的獎勵自行改變控制規則，以「如果之前的試驗中所做改變使我可以走得更遠，則這種改變是正確的」為基礎。因此，可以在不教導機器人如何行走的情況下讓機器人能漸漸行走更長的距離。即使在像圍棋這樣的對戰遊戲的策略構建中，也無須在每個階段將強者視為教師數據來進行教導，僅通過將成功或失敗作為獎勵來重複試驗即可。這樣做，強化學習系統會一點一點地改變遊戲方式並變得更強。學到的圍棋或將棋系統比設計者本人更強大，這一點通過強化學習可以很容易實現。只聽這個解釋，強化學習就像魔術，但在實踐中卻存在著種種困難。強化學習主要適用於「時變系統控制規則構建」和「對戰博弈策略構建」，本書以前者「系統控制」為目標任務，通過編寫相關程序來學習強化學習。關於作者：小川雄太郎，東京大學博士，曾在東京大學從事腦機能測量及計算論的神經科學研究。現就職於株式會社電通國際信息服務技術開發部，從事機器學習相關技術的研究開發。本文摘編自《邊做邊學深度強化學習：PyTorch程序設計實踐》，經出版方授權發布。推薦語：本書面向普通大眾，指導讀者以PyTorch為工具，在Python中實踐深度強化學習。讀者只需要具備一些基本的編程經驗和基本的線性代數知識即可讀懂書中內容，通過實現具體程序來掌握深度強化學習的相關知識。PPT | 讀書 | 書單 | 硬核 | 乾貨 | 講明白 | 神操作大數據 | 雲計算 | 資料庫 | Python | 可視化AI | 人工智慧 | 機器學習 | 深度學習 | NLP5G | 中臺 | 用戶畫像 | 1024 | 數學 | 算法 | 數字孿生

相關焦點

監督學習、非監督學習和強化學習

learning)、非監督學習(Unsupervised learning)與強化學習(Reinforcement learning)，不過在沒有任何概念的前提下，只看定義很難理解它們，我試著用教育孩子的方式來解釋，如果有什麼疏漏之處，歡迎大家指正。
機器學習三兄弟概念大揭秘:監督學習、非監督學習、強化學習

監督學習、非監督學習和強化學習描述了機器處理和利用數據學習的三種不同手段，根據不同的數據和任務人們採用不同的學習方式來從數據中凝練出知識，從而在生產生活中幫助人類。也許非監督學習可以讓我們從「教會機器去做什麼」發展到讓機器「自己學會去做什麼」。與監督學習不同，非監督學習並不需要完整的輸入輸出數據集，並且系統的輸出經常是不確定的。它主要被用於探索數據中隱含的模式和分布。非監督學習具有解讀數據並從中尋求解決方案的能力，通過將數據和算法輸入到機器中將能發現一些用其他方法無法見到的模式和信息。
3分鐘看懂深度學習,強化學習,監督式學習,非監督學習都是什麼鬼

第四範式授權轉載深度學習監督式學習非監督式學習強化學習到底都是什麼鬼呢？
監督學習,非監督學習,半監督學習三者的區別是什麼,舉出一個最有...

無監督學習：3 X 4 + 8 =? AI：等於 0 ？。。。。。。。。。AI：我發現了，數學題都是先乘法後加法！半監督學習：1 X 1 + 1 = ?學生在學習的過程中，自己對知識進行歸納、總結。無監督學習中，類似分類和回歸中的目標變量事先並不存在。要回答的問題是「從數據X中能發現什麼」。）半監督學習：家教，家教老師給學生講一兩道例題思路，然後給學生布置沒有答案的課後習題，讓學生課後自己完成。
為什麼說強化學習是針對優化數據的監督學習?

其中，諸如REINFORCE等通過計算不可微目標期望函數的梯度進行優化的算法被歸類為優化視角，而時序差分學習（TD-Learning）或Q-Learning等則是動態規劃類算法。雖然這些方法在近年來取得了很大的成功，但依然不能很好地遷移到新任務上。相較於這些強化學習方法，深度監督學習能夠很好的在不同任務之間進行遷移學習，因此我們不禁問：是否能將監督學習方法用在強化學習任務上？
比監督學習做的更好:半監督學習

在這個我們對半監督學習的探索中，我們會有：半監督學習簡介。什麼是半監督學習，它與其他學習方法相比如何，半監督學習算法的框架/思維過程是什麼？算法：Semi-Supervised GANs。與傳統GANs的比較，過程的解釋，半監督GANs的性能。用例和機器學習的未來。為什么半監督學習會有如此大的需求，哪裡可以應用。
什麼是無監督學習?

這時有人可能會想，難道有監督學習和無監督學習就是非黑即白的關係嗎？有沒有灰呢？Good idea。灰是存在的。二者的中間帶就是半監督學習（semi-supervised learning）。無監督學習方法在尋找數據集中的規律性，這種規律性並不一定要達到劃分數據集的目的，也就是說不一定要「分類」。比如，一組顏色各異的積木，它可以按形狀為維度來分類，也可以按顏色為維度來分類。（這一點比監督學習方法的用途要廣。如分析一堆數據的主分量，或分析數據集有什麼特點都可以歸於無監督學習方法的範疇），而有監督學習則是通過已經有的有標籤的數據集去訓練得到一個最優模型。
無監督學習、GAN和強化學習將構建機器學習的未來

監督學習模式轉變為無監督學習模式。絕大多數傳統機器學習的實現靠的是受監督的學習方式。換句話說，它們只有在使用大量標記的訓練數據訓練時才有用。雖然，受監督的學習方式效果不錯，但是，收集和標記大型數據集的過程非常耗時、昂貴，而且還容易出錯。當數據集的規模增加時，這些挑戰變得更加顯著。而另一方面，無監督的學習方式具有巨大的優勢，因為他們不需要大量的訓練數據集。
監督學習/無監督學習/半監督學習

監督學習：（數據有輸入有輸出），通過已有的一部分數據和輸出數據之間的相應關係，生成一個函數，將輸入映射到合適的輸出，在準確的說有監督學習就是訓練樣本中必須有標籤或者標記；無監督學習：（數據只有輸入），給定的訓練樣本中難以標註類別或者標註成本過高，這類沒有類別標註（未被標記）的訓練集建模模式稱為無監督學習
吳恩達《Machine Learning》精煉筆記 1:監督學習與非監督學習

今天帶來第一周課程的筆記：監督式學習和非監督式學習。主要內容：監督學習和無監督學習單變量線性回歸問題代價函數梯度下降算法1-1. 監督學習Supervised Learning利用監督學習預測波士頓房價（回歸問題）大多數情況下，可能會擬合直線有時候用二次曲線去擬合效果可能會更好的
機器學習實戰-監督學習、無監督學習

上一篇：機器學習實戰-特徵選擇之遞歸特徵消除最近兩天收到同學的私信，對於算法中的一些監督學習，無監督學習不是很了解，也不知道從何下手，本篇小編就來介紹一下這三者是什麼東西。監督學習裡面的訓練集合包含了輸入與輸出，代表著特徵值與標籤值。在一般情況下，用來訓練的訓練集的標籤都是由業務方來標記，在工作中，最常見的其實就是數據分類了，通過已有的訓練的樣本去訓練得到一個模型，我們會採用K折交叉驗證來進行調參，從而得到參數的局部最優解，再根據這個模型去預測數據。
重磅 | 伯克利《深度無監督學習》今日開課!雙語字幕獨家上線!

AI 研習社獲得官方授權，伯克利 CS 294-158 《深度無監督學習》中英字幕版，等了好久，今天終於正式上線啦！自監督學習的進步已經開始縮小監督表示學習和非監督表示學習之間的差距，本課程將涵蓋這些主題的理論基礎以及它們的新應用。論文涉及GAN、VAE、降噪、自回歸、強化學習、自監督學習等等，課程歷時15周完成。
DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能...

因此，無監督學習是實現強健的、通用的表示學習的重要基石。　　儘管無監督學習很重要，但無監督學習尚未得到類似監督學習的突破：從原始觀察中建模高級表示仍然難以實現。此外，並不總是很清楚理想的表示是什麼，以及是否可以在沒有對特定的數據模態進行額外的監督學習或專門化的情況下學習這樣的表示。
深度學習第56講:強化學習簡介與Q-Learning實例

從整個機器學習的任務劃分上來看，機器學習可以分為有監督學習、有監督和半監督學習以及強化學習，而我們之前一直談論的圖像、文本等深度學習的應用都屬於監督學習範疇。自編碼器和生成式對抗網絡可以算在無監督深度學習範疇內。最後就只剩下強化學習了。但是我們這是深度學習的筆記，為什麼要把強化學習單獨拎出來講一下呢？
Yann LeCun:用預測學習替代無監督學習

Perez、Yann LeCun編譯：王楠、劉小芹【新智元導讀】日前，Facebook AI 實驗室負責人、紐約大學教授 Yann LeCun 受邀在今年的 NIPS 大會發表主旨演講，暢談深度學習最近技術進展。
【深度】自監督學習,如何從數據困境中拯救深度學習?

然而監督式學習過於依賴大規模標註數據集，數據集的收集和人工標註需耗費大量的人力成本。自監督模型解決了這一難題，它能夠從大規模未標記數據中學習圖像特徵，而無需使用任何人工標註數據。每個深度學習實踐者都認同的一件事是：深度學習模型是數據低效的。
「半監督學習系列」2. 半監督學習概述

顧名思義，半監督學習介於非監督學習和監督學習之間。事實上，大多數半監督學習策略都是源於監督學習和非監督學習的某種拓展，以求包含這兩種範式所特有的附加信息。然而，遺憾的是，傳統的監督學習方法無法使用未標記的數據來訓練分類器。半監督學習很有吸引力，因為通過潛在地利用標記數據和非標記數據，它可以實現比監督學習更好的性能。從另一個角度來看，半監督學習使用更少的標記實例達到與監督學習相同的性能。這種方法減少了標註工作，從而降低了成本。我們後續將在第3、4、5、6章中介紹幾種計算模型。
【乾貨】監督學習與無監督學習簡介

當我們希望將輸入映射到輸出時，監督學習通常將其作為分類任務去完成，監督學習中的常用算法包括邏輯回歸，樸素貝葉斯，支持向量機，人工神經網絡和隨機森林。在回歸和分類任務中，目標都是找到輸入數據中的特定關係，以便我們有效地生成正確的輸出數據。
無監督學習的魅力

無監督學習是機器學習算法裡非常撲朔迷離的一個類別，負責解決這些「沒有真實值 (no-ground-truth) 」的數據。本文會講到，無監督學習到底是什麼，和機器學習的其他算法有何本質區別，用的時候有哪些難點，以及推薦閱讀的傳送門。最簡單的理解方式，就是把算法想像成考試。
華人博士提出原型對比學習,非監督學習效果遠超MoCo和SimCLR

大部分的進步都是由監督式學習 / 標籤模式驅動的，得到這麼好的性能很大程度上依賴於大量帶有人工注釋的標籤(例如 ImageNet)。然而，手工標註的成本是十分昂貴的，很難擴大規模。另一方面，網際網路上存在著幾乎無限量的未標記圖片。非監督式學習是唯一適合開發未標記數據這個大金礦的方法。首先，讓我們來談談兩個流行的非監督式學習算法學派: 聚類和對比學習。

監督學習、非監督學習、強化學習都是什麼?終於有人講明白了

相關焦點

監督學習、非監督學習和強化學習

機器學習三兄弟概念大揭秘:監督學習、非監督學習、強化學習

3分鐘看懂深度學習,強化學習,監督式學習,非監督學習都是什麼鬼

監督學習,非監督學習,半監督學習三者的區別是什麼,舉出一個最有...

為什麼說強化學習是針對優化數據的監督學習?

比監督學習做的更好:半監督學習

什麼是無監督學習?

無監督學習、GAN和強化學習將構建機器學習的未來

監督學習/無監督學習/半監督學習

吳恩達《Machine Learning》精煉筆記 1:監督學習與非監督學習

機器學習實戰-監督學習、無監督學習

重磅 | 伯克利《深度無監督學習》今日開課!雙語字幕獨家上線!

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能...

深度學習第56講:強化學習簡介與Q-Learning實例

Yann LeCun:用預測學習替代無監督學習

【深度】自監督學習,如何從數據困境中拯救深度學習?

「半監督學習系列」2. 半監督學習概述

【乾貨】監督學習與無監督學習簡介

無監督學習的魅力

華人博士提出原型對比學習,非監督學習效果遠超MoCo和SimCLR