GMIS 2017大會鄧力主題演講:無監督學習的最新進展

2021-02-23 機器之心

全球機器智能峰會（GMIS 2017），是全球人工智慧產業信息服務平臺機器之心舉辦的首屆大會，邀請了來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個 Session、32 場演講、4 場圓桌論壇、1 場人機大戰，兼顧學界與產業、科技巨頭與創業公司，以專業化、全球化的視角為人工智慧從業者和愛好者奉上一場機器智能盛宴。

5 月 27 日，機器之心主辦的為期兩天的全球機器智能峰會（GMIS 2017）在北京 898 創新空間順利開幕。中國科學院自動化研究所複雜系統管理與控制國家重點實驗室主任王飛躍為本次大會做了開幕式致辭，他表示：「未來，人工智慧將幫助人類戰勝各種困難」。大會第一天重要嘉賓「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智慧官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 數據科學部主任 Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智慧專家參與峰會，並在主題演講、圓桌論壇等互動形式下，從科學家、企業家、技術專家的視角，解讀人工智慧的未來發展。

上午，Citadel 首席人工智慧官鄧力發表了主題為《無監督學習的最新進展》的演講，他探討分享了無監督學習的優勢，並詳細介紹了隨機原始-對偶梯度方法（SPDG）與其優良的性能，下面我們將一起瀏覽鄧力老師的盛宴。

首先鄧力老師介紹了無監督學習的概念和強大之處，鄧力表明無監督的學習範式即是深度學習當中的一種範式。也就是我們不給系統提供一個非常具體的信號，你只是告訴它一些信息，讓它以無監督的方式自己學習，能夠很成功地學到你讓它學的東西。

鄧力今天跟大家介紹的一個無監督學習主流的觀點就是，以預測為中心的無監督的學習的範式，在這個範式裡面我們能夠直接完成機器學習的目標，無論是預測還是其他的任務。因為，我們能夠直接把輸入放到系統裡面，然後利用無監督學習的機制（機器自己學習），而不需要人類給它一些標籤、標識，利用這種範式就能做出一些非常優良的預測。

隨後鄧力為我們描繪了監督學習如何使用分類器處理標註問題。我們知道監督學習的特點就是有大量的標註數據集，而最新的監督模型總是表現得比無監督預訓練模型更好。那是因為，監督會允許模型能夠更好的編碼數據集上的特徵。只不過當模型應用在其他的數據集上時，監督的效果會衰減。

如下圖所示，鄧力首先展示的就是從成對輸入-輸出數據（監督學習）的分類模型。

鄧力老師表明監督學習，即給機器輸入、輸出一對數據，讓它自己去學習，這種情況下它肯定有一個映射了，一對輸入輸出就像一個老師，老師教給這個機器如何進行識別或預測。這個範式非常地成功，在人類已經將其應用到語言識別和機器翻譯等方面，最近由卷積神經網絡引起的高效圖像識別也是基於監督學習。這種範式十分成功，其算法都是用這種一對對映射的輸入輸出方式來訓練整個系統。

但是另一方面我們可以看到這種方法的成本十分巨大，我們需要給系統提供輸入和輸出成對的數據。語音識別還好一點，但是對於其他的應用（比如翻譯、醫療應用、圖像識別、視頻相關的任務和醫學影像方面的任務），那麼這種監督學習的訓練方法就太貴了，成本太高了。

在介紹了監督學習的解決方案後，鄧力老師緊接著帶我們概覽了一遍傳統的無監督學習算法。首先就是聚類這一大類，其又包含以下幾種方法：

K-均值聚類：該方法是一種通用目的的算法，聚類的度量基於樣本點之間的幾何距離（即在坐標平面中的距離）。集群是圍繞在聚類中心的族群，而集群呈現出類球狀並具有相似的大小。K-均值聚類是最流行的聚類算法，因為該算法足夠快速、簡單，並且如果你的預處理數據和特徵工程十分有效，那麼該聚類算法將擁有令人驚嘆的靈活性。

層次聚類：層次聚類最開始由一個數據點作為一個集群，隨後對於每個集群，基於相同的標準進行合併，重複這一過程直到只留下一個集群，因此就得到了集群的層次結構。次聚類最主要的優點是集群不再需要假設為類球形，另外其也可以擴展到大數據集。

其次主要介紹了密度估計類的模型，其中包括：

主題模型：即在機器學習和自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。直觀來講，如果一篇文章有一個中心思想，那麼一些特定詞語會更頻繁的出現。

生成對抗網絡：GAN 由兩個彼此競爭的深度神經網絡——生成器和判別器組成的。生成模型可以被看作是一隊偽造者，試圖偽造貨幣，不被人發覺，然而辨別模型可被視作一隊警察，努力監察假的貨幣。博弈中的競爭使得這兩隊不斷的改善方法，直到無法從真實的物品中辨別出偽造的。

變分自編碼器：VAE 是一類重要的生成模型，現在廣泛地用於生成圖像。與 GAN 不同的是，我們是知道圖像的密度函數（PDF）的，而 GAN 並不知道圖像的分布。

鄧力老師隨後探討了如果沒有輸入、沒有一個學習材料系統該怎樣學習，所以說機器還得需要一些學習材料，而又不需要人類提供那些成本非常昂貴的輸入輸出映射。那麼在這樣一個無監督學習裡，我們該怎樣訓練模型。

鄧力老師隨後表明，在這個世界上有充分的、多元的一些知識，我們可以把它整合到一個整體的知識體系中，然後將其提供給系統和機器。這是一個非常大膽的想法，怎麼把世界上既有的多元化信息分類到各個知識領域是一個有效而困難的問題。

無監督學習分類器

語言模型能從分離的語料庫中訓練，這樣就移除了成對數據（標註數據）的需求，也就不需要耗費大量人力進行標註。

鄧力老師是這樣做的，因為我們在這個實驗裡面使用的是語言模式的信息，既使是我們提供的序列作為輸入給這個機器，輸出還是不能給出一個明確的標籤，它只能給出一個非常泛泛的人類語言的標籤。所以我們用真實的語言作為機器學習的指導。雖然自然語言的數據可以是一個很困難的東西，但是我們可以單獨拿出來使用，不把自然語言和任何的手寫圖象進行配對。為此我們就極大地降低了訓練機器的成本。

上述問題可以形式化為以下最優化問題：

原始問題的成本函數即：

我們可以最優化這個目標函數，求出最優參數，然後就可以求出我們所需要的模型。所以鄧力老師跟大家來分享了一下這個成本函數，我們可以看到剛才已經講過了這個目標函數，最開始它是不好的，但是最後迭代以後它會越來越好。我們可以看到從網站裡面它跟你的數據訓練是不同的，所以這是很容易建造的，但是卻很難優化。

該成本函數存在的巨大問題，因為即使是線性模型也高度非凸性，因此我們很難對其優化，也不可能下降到全局最優解。

SPDG

在鄧力老師的演講中，非常重要的就是採用 SPDG 在沒有標註的情況下學習如何做預測。那麼我們一起來看看鄧力老師如何將前面我們形式化的原始問題轉化為極小極大對偶問題，並採用隨機梯度下降來求得最優參數。（註：以下參考自鄧力等人今年發表的論文：An Unsupervised Learning Method Exploiting Sequential Output Statistics）

為了正確地將隨機梯度下降應用到前面我們形式化問題所得到的損失函數，即最小化損失函數：

我們需要轉換該損失函數以保證其隨 t 的累和為對數損失。為此，我們首先需要引進凸共軛函數這一概念。給定一個凸函數 f(u)，那麼其凸共軛函數 f * (ν) 就定義為：

此外，也可以表示為：

若有函數 f(u) = − ln u，其中標量 u>0，那麼其共軛函數為 f* (ν) = −1 − ln(−ν)，其中標量 v<0。因此根據上式定義，我們的函數和共軛函數有以下關係：

其中，sup 由 max 替代，因為上確界是可以用最大化達到的。隨後我們可以將上面的函數代入最開始的損失函數中，而根據拉格朗日對偶性，原始問題的對偶問題是極大極小問題，因此求解原始問題就等價於求解以下極小極大問題（min-max problem）：

其中即 V 定義為所有對偶變量的集合。

Lt(θ, V ) 為第 t 個分量函數：

極小極大問題方程的最優解 (θ*，V*) 即稱之為函數 L(θ，V ) 的鞍點。一旦求得最優點 (θ*，V*)，我們就能保留原始變量θ*作為模型學到的參數。

隨機原始-對偶梯度方法（Stochastic primal-dual gradient method /SPDG）

在上式極小極大問題等價優化式中，我們先關於θ極小化 L(θ, V ) 和關於 V 極大化 L(θ, V ) 以求得最優解 (θ*，V*)。這樣求得的參數θ即原始問題的最優化解。我們更進一步注意到原始問題的等價式極小極大問題現在是分量函數 Lt(θ, V ), t = 1, . . . , T 從 1 到 T 的累和。

因此，關於θ的極小化和關於 V 的的極大化可以由隨機梯度下降解出，即 L(θ, V ) 關於原始變量θ執行隨機梯度下降、L(θ, V ) 關於對偶變量 V 執行隨機梯度下降。這樣重複迭代的方式，即隨機原始-對偶梯度（SPDG）方法。為了計算隨機梯度，我們先將 L(θ, V ) 的全批量梯度表示為：

為了計算隨機梯度，我們將每個樣本的平均值由各自的隨機抽樣分量（或其小批量均值）替代，如此迭代重複下去（其中 tm 為集合 {1, . . . , T} 中的均勻隨機變量）。在上述算法一中，我們使用小批量梯度概述了 SPDG 方法，其中梯度可以在 TensorFlow 實現中自動計算。此外，對偶變量的負約束（negative constraint）由於在極大極小問題中的內在 log-barrier而能被自動執行。因此，我們不需要獨立的方法來實現約束條件。

隨後，鄧力老師分析了對偶問題成本函數的損失表面，它表明對偶問題的損失表面具有更優良的性能，執行隨機梯度下降也能得到一個很好的最優解。

原始域具有崎嶇的損失表面（tough loss surface）和高障礙（high barriers）

原始-對偶域擁有平滑得多的損失表面

最後，鄧力老師總結了本場演講的精要信息點：

最後鄧力老師表明，無監督學習比監督學習更有趣，但是也更困難。我們可以使用更多的一些數據來進行學習，比如說像我剛才所說的 SPDG 方法，該方法不需要進行標記，但它可以直接進行學習來聽聲音的識別或者說做一些翻譯。這樣的一個線性的方式，我們也需要很多的發明來使無監督學習更加地有效。

鄧力說：「其實我們人類還是很有希望的，因為在未來有越來越多的技術以後，人類就可以有更多的價值。」他認為雖然監督學習很有希望，但未來的趨勢還是無監督學習。

點擊閱讀原文，查看機器之心 GMIS 2017 大會官網↓↓↓

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

相關焦點

2017世界移動大會-上海最新進展

擁有解耦表徵的無監督學習是不可能的!硬核ICML 2019最佳論文出爐

GTC20 | NVIDIA 首席科學家在 GTC 中國線上大會主題演講中介紹 AI 研究的最新進展

機器之心GMIS 2017圓滿閉幕,全面解讀前沿研究、產業落地及AI全球化

Facebook Yann LeCun最新演講: AI 研究的下一站是無監督學習(附完整視頻加37頁PPT)

GMIS 2017 | 伯克利教授Stuart Russell:人工智慧的過去、現在和未來

Facebook公布23場Connect 7大會主題演講安排

73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習

【無監督學習最新研究】簡單的「圖像旋轉」預測,為圖像特徵學習提供強大監督信號

梳理谷歌45篇入選CVPR論文,後附GAN主題演講PPT下載!

2018美國RSA大會專題 | 主題演講嘉賓陣容大曝光

【2018MWC上海】新增主題演講嘉賓名單全新出爐!

無監督學習的魅力

Connect 大會的主題 ---微軟大法好

盤點52個全球人工智慧和機器學習重要會議

【一文讀懂】機器學習最新主戰場遷移學習,從原理、方法到應用

谷歌I/O大會日程中英文對照版:這些關鍵演講你不能錯過!

GSMA公布2017年世界移動大會(MWC)最新細節

【NIPS 2017】英偉達、谷歌研究盤點,谷歌45篇論文、28個Workshop搶先看(論文下載)

【新版】AI World2017世界人工智慧大會終極指南:嘉賓演講與議程