GMIS 2017大會鄧力主題演講:無監督學習的最新進展

2021-02-23 機器之心

全球機器智能峰會(GMIS 2017),是全球人工智慧產業信息服務平臺機器之心舉辦的首屆大會,邀請了來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個 Session、32 場演講、4 場圓桌論壇、1 場人機大戰,兼顧學界與產業、科技巨頭與創業公司,以專業化、全球化的視角為人工智慧從業者和愛好者奉上一場機器智能盛宴。

5 月 27 日,機器之心主辦的為期兩天的全球機器智能峰會(GMIS 2017)在北京 898 創新空間順利開幕。中國科學院自動化研究所複雜系統管理與控制國家重點實驗室主任王飛躍為本次大會做了開幕式致辭,他表示:「未來,人工智慧將幫助人類戰勝各種困難」。大會第一天重要嘉賓「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智慧官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 數據科學部主任 Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智慧專家參與峰會,並在主題演講、圓桌論壇等互動形式下,從科學家、企業家、技術專家的視角,解讀人工智慧的未來發展。

上午,Citadel 首席人工智慧官鄧力發表了主題為《無監督學習的最新進展》的演講,他探討分享了無監督學習的優勢,並詳細介紹了隨機原始-對偶梯度方法(SPDG)與其優良的性能,下面我們將一起瀏覽鄧力老師的盛宴。

首先鄧力老師介紹了無監督學習的概念和強大之處,鄧力表明無監督的學習範式即是深度學習當中的一種範式。也就是我們不給系統提供一個非常具體的信號,你只是告訴它一些信息,讓它以無監督的方式自己學習,能夠很成功地學到你讓它學的東西。

鄧力今天跟大家介紹的一個無監督學習主流的觀點就是,以預測為中心的無監督的學習的範式,在這個範式裡面我們能夠直接完成機器學習的目標,無論是預測還是其他的任務。因為,我們能夠直接把輸入放到系統裡面,然後利用無監督學習的機制(機器自己學習),而不需要人類給它一些標籤、標識,利用這種範式就能做出一些非常優良的預測。

隨後鄧力為我們描繪了監督學習如何使用分類器處理標註問題。我們知道監督學習的特點就是有大量的標註數據集,而最新的監督模型總是表現得比無監督預訓練模型更好。那是因為,監督會允許模型能夠更好的編碼數據集上的特徵。只不過當模型應用在其他的數據集上時,監督的效果會衰減。

如下圖所示,鄧力首先展示的就是從成對輸入-輸出數據(監督學習)的分類模型。

鄧力老師表明監督學習,即給機器輸入、輸出一對數據,讓它自己去學習,這種情況下它肯定有一個映射了,一對輸入輸出就像一個老師,老師教給這個機器如何進行識別或預測。這個範式非常地成功,在人類已經將其應用到語言識別和機器翻譯等方面,最近由卷積神經網絡引起的高效圖像識別也是基於監督學習。這種範式十分成功,其算法都是用這種一對對映射的輸入輸出方式來訓練整個系統。

但是另一方面我們可以看到這種方法的成本十分巨大,我們需要給系統提供輸入和輸出成對的數據。語音識別還好一點,但是對於其他的應用(比如翻譯、醫療應用、圖像識別、視頻相關的任務和醫學影像方面的任務),那麼這種監督學習的訓練方法就太貴了,成本太高了。

在介紹了監督學習的解決方案後,鄧力老師緊接著帶我們概覽了一遍傳統的無監督學習算法。首先就是聚類這一大類,其又包含以下幾種方法:

K-均值聚類:該方法是一種通用目的的算法,聚類的度量基於樣本點之間的幾何距離(即在坐標平面中的距離)。集群是圍繞在聚類中心的族群,而集群呈現出類球狀並具有相似的大小。K-均值聚類是最流行的聚類算法,因為該算法足夠快速、簡單,並且如果你的預處理數據和特徵工程十分有效,那麼該聚類算法將擁有令人驚嘆的靈活性。

層次聚類:層次聚類最開始由一個數據點作為一個集群,隨後對於每個集群,基於相同的標準進行合併,重複這一過程直到只留下一個集群,因此就得到了集群的層次結構。次聚類最主要的優點是集群不再需要假設為類球形,另外其也可以擴展到大數據集。

其次主要介紹了密度估計類的模型,其中包括:

主題模型:即在機器學習和自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。直觀來講,如果一篇文章有一個中心思想,那麼一些特定詞語會更頻繁的出現。

生成對抗網絡:GAN 由兩個彼此競爭的深度神經網絡——生成器和判別器組成的。生成模型可以被看作是一隊偽造者,試圖偽造貨幣,不被人發覺,然而辨別模型可被視作一隊警察,努力監察假的貨幣。博弈中的競爭使得這兩隊不斷的改善方法,直到無法從真實的物品中辨別出偽造的。

變分自編碼器:VAE 是一類重要的生成模型,現在廣泛地用於生成圖像。與 GAN 不同的是,我們是知道圖像的密度函數(PDF)的,而 GAN 並不知道圖像的分布。

鄧力老師隨後探討了如果沒有輸入、沒有一個學習材料系統該怎樣學習,所以說機器還得需要一些學習材料,而又不需要人類提供那些成本非常昂貴的輸入輸出映射。那麼在這樣一個無監督學習裡,我們該怎樣訓練模型。

鄧力老師隨後表明,在這個世界上有充分的、多元的一些知識,我們可以把它整合到一個整體的知識體系中,然後將其提供給系統和機器。這是一個非常大膽的想法,怎麼把世界上既有的多元化信息分類到各個知識領域是一個有效而困難的問題。

無監督學習分類器

語言模型能從分離的語料庫中訓練,這樣就移除了成對數據(標註數據)的需求,也就不需要耗費大量人力進行標註。

鄧力老師是這樣做的,因為我們在這個實驗裡面使用的是語言模式的信息,既使是我們提供的序列作為輸入給這個機器,輸出還是不能給出一個明確的標籤,它只能給出一個非常泛泛的人類語言的標籤。所以我們用真實的語言作為機器學習的指導。雖然自然語言的數據可以是一個很困難的東西,但是我們可以單獨拿出來使用,不把自然語言和任何的手寫圖象進行配對。為此我們就極大地降低了訓練機器的成本。

上述問題可以形式化為以下最優化問題:

原始問題的成本函數即:

我們可以最優化這個目標函數,求出最優參數,然後就可以求出我們所需要的模型。所以鄧力老師跟大家來分享了一下這個成本函數,我們可以看到剛才已經講過了這個目標函數,最開始它是不好的,但是最後迭代以後它會越來越好。我們可以看到從網站裡面它跟你的數據訓練是不同的,所以這是很容易建造的,但是卻很難優化。

該成本函數存在的巨大問題,因為即使是線性模型也高度非凸性,因此我們很難對其優化,也不可能下降到全局最優解。


SPDG

在鄧力老師的演講中,非常重要的就是採用 SPDG 在沒有標註的情況下學習如何做預測。那麼我們一起來看看鄧力老師如何將前面我們形式化的原始問題轉化為極小極大對偶問題,並採用隨機梯度下降來求得最優參數。(註:以下參考自鄧力等人今年發表的論文:An Unsupervised Learning Method Exploiting Sequential Output Statistics)

為了正確地將隨機梯度下降應用到前面我們形式化問題所得到的損失函數,即最小化損失函數:

我們需要轉換該損失函數以保證其隨 t 的累和為對數損失。為此,我們首先需要引進凸共軛函數這一概念。給定一個凸函數 f(u),那麼其凸共軛函數 f * (ν) 就定義為:

此外,也可以表示為:

若有函數 f(u) = − ln u,其中標量 u>0,那麼其共軛函數為 f* (ν) = −1 − ln(−ν),其中標量 v<0。因此根據上式定義,我們的函數和共軛函數有以下關係:

其中,sup 由 max 替代,因為上確界是可以用最大化達到的。隨後我們可以將上面的函數代入最開始的損失函數中,而根據拉格朗日對偶性,原始問題的對偶問題是極大極小問題,因此求解原始問題就等價於求解以下極小極大問題(min-max problem):

其中即 V 定義為所有對偶變量的集合。

 Lt(θ, V ) 為第 t 個分量函數:

極小極大問題方程的最優解 (θ*,V*) 即稱之為函數 L(θ,V ) 的鞍點。一旦求得最優點 (θ*,V*),我們就能保留原始變量θ*作為模型學到的參數。

隨機原始-對偶梯度方法(Stochastic primal-dual gradient method /SPDG)

在上式極小極大問題等價優化式中,我們先關於θ極小化 L(θ, V ) 和關於 V 極大化 L(θ, V ) 以求得最優解 (θ*,V*)。這樣求得的參數θ即原始問題的最優化解。我們更進一步注意到原始問題的等價式極小極大問題現在是分量函數 Lt(θ, V ), t = 1, . . . , T 從 1 到 T 的累和。

因此,關於θ的極小化和關於 V 的的極大化可以由隨機梯度下降解出,即 L(θ, V ) 關於原始變量θ執行隨機梯度下降、L(θ, V ) 關於對偶變量 V 執行隨機梯度下降。這樣重複迭代的方式,即隨機原始-對偶梯度(SPDG)方法。為了計算隨機梯度,我們先將 L(θ, V ) 的全批量梯度表示為:

為了計算隨機梯度,我們將每個樣本的平均值由各自的隨機抽樣分量(或其小批量均值)替代,如此迭代重複下去(其中 tm 為集合 {1, . . . , T} 中的均勻隨機變量)。在上述算法一中,我們使用小批量梯度概述了 SPDG 方法,其中梯度可以在 TensorFlow 實現中自動計算。此外,對偶變量的負約束(negative constraint)由於在極大極小問題中的內在 log-barrier而能被自動執行。因此,我們不需要獨立的方法來實現約束條件。

隨後,鄧力老師分析了對偶問題成本函數的損失表面,它表明對偶問題的損失表面具有更優良的性能,執行隨機梯度下降也能得到一個很好的最優解。

原始域具有崎嶇的損失表面(tough loss surface)和高障礙(high barriers)

原始-對偶域擁有平滑得多的損失表面

最後,鄧力老師總結了本場演講的精要信息點:

最後鄧力老師表明,無監督學習比監督學習更有趣,但是也更困難。我們可以使用更多的一些數據來進行學習,比如說像我剛才所說的 SPDG 方法,該方法不需要進行標記,但它可以直接進行學習來聽聲音的識別或者說做一些翻譯。這樣的一個線性的方式,我們也需要很多的發明來使無監督學習更加地有效。

鄧力說:「其實我們人類還是很有希望的,因為在未來有越來越多的技術以後,人類就可以有更多的價值。」他認為雖然監督學習很有希望,但未來的趨勢還是無監督學習。

點擊閱讀原文,查看機器之心 GMIS 2017 大會官網↓↓↓

相關焦點

  • 2017世界移動大會-上海最新進展
    GSMA昨日公布了2017世界移動大會-上海的最新進展。本屆大會將於6月28日至7月1日在上海新國際博覽中心(SNIEC)舉行。
  • 擁有解耦表徵的無監督學習是不可能的!硬核ICML 2019最佳論文出爐
    值得關注的是,ETH Zurich、谷歌大腦等機構的論文《挑戰無監督學習中解耦表徵的一般假設》提出了一個與此前學界普遍預測相反的看法:對於任意數據,擁有相互獨立表徵(解耦表徵)的無監督學習是不可能的!在大會上,獲獎論文的部分作者也現場進行了演講。
  • GTC20 | NVIDIA 首席科學家在 GTC 中國線上大會主題演講中介紹 AI 研究的最新進展
    今天,NVIDIA 首席科學家 Bill Dally 在 GTC 中國線上大會主題演講中說道,NVIDIA 的研究人員致力於打造速度更快的 AI 晶片,並將其用於具有更高帶寬的系統,從而簡化編程。藉助 NVIDIA Jarvis,用戶可通過語音指令,利用 GauGAN 進行繪畫創作在主題演講視頻錄製的間隙,Dally 接受了採訪,表示對研究團隊在多個領域取得的開創性進展深感自豪。
  • 機器之心GMIS 2017圓滿閉幕,全面解讀前沿研究、產業落地及AI全球化
    和昨天一樣,今天同樣首先安排了兩場主題演講——Stuart Russell 的《人工智慧的過去、現在與未來》和楊強的《遷移學習研究與應用》。接下來,第四範式首席科學家、香港科技大學計算機科學與工程系主任楊強教授帶來了主題為《遷移學習最新進展》的演講。演講一開始,楊強教授就談到了霸佔新聞頭條好幾天的 AlphaGo。他說:「AlphaGo 看上去像神一樣的存在,好像是無懈可擊。」而我們如果從機器學習的角度來看,其有一個很嚴重的弱點,即 AlphaGo 沒有遷移學習的能力。
  • Facebook Yann LeCun最新演講: AI 研究的下一站是無監督學習(附完整視頻加37頁PPT)
    近日,LeCun在卡內基梅隆大學機器人研究所進行了一場 AI 技術核心問題與發展前景的演講。他在演講中提到三點乾貨:1. 無監督學習代表了 AI 技術的未來。2. 當前 AI 應用的熱點集中在卷積神經網絡。 3. 用模擬器提高無監督學習的效率是大勢所趨。
  • GMIS 2017 | 伯克利教授Stuart Russell:人工智慧的過去、現在和未來
    全球機器智能峰會(GMIS 2017),是全球人工智慧產業信息服務平臺機器之心舉辦的首屆大會,邀請了來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講
  • Facebook公布23場Connect 7大會主題演講安排
    根據官網公開的信息,本屆大會的演講嘉賓為35+,單元環節15+。值得一提的是,已經離開的約翰·卡馬克早前證實自己將繼續參加今年的開發者大會並發表主題演講,並表示「大會的所有一切都將預先錄製並加以後期潤色,但我會提供實況演講,以我一貫的風格進行」。
  • 73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習
    演講一開始,Hinton 先介紹了三種學習任務:監督學習、強化學習和無監督學習,並重點介紹了無監督學習的必要性。Hinton 從生物學的角度做出了詮釋。他指出,人類大腦有 10^14 個神經元突觸,而生命的長度僅有 10^9 秒,因此人類無法完全依賴監督學習方式完成所有神經元訓練,因而需要無監督學習的輔助。
  • 【無監督學習最新研究】簡單的「圖像旋轉」預測,為圖像特徵學習提供強大監督信號
    我們在各種無監督的特徵學習基準中,對我們的方法進行了詳盡的評估,並在所有這些基準中展示出了最先進的性能。具體來說,我們在這些基準中的結果展現了在無監督的表徵學習中,較之先前最先進的方法,我們的方法取得了巨大改進,從而顯著縮小了與監督特徵學習之間的差距。
  • 梳理谷歌45篇入選CVPR論文,後附GAN主題演講PPT下載!
    谷歌在今年的CVPR上表現強勢,有超過200名谷歌員工將在大會上展示論文或被邀請演講,45篇論文被接收。在計算機視覺領域,生成對抗網絡GAN無疑是最受關注的主題之一,本文一併帶來谷歌 Staff Research Scientist、GAN的提出人Ian Goodfellow在CVPR 2018上作關於GAN的演講的PPT。
  • 2018美國RSA大會專題 | 主題演講嘉賓陣容大曝光
    相比於Black Hat與DEF CON的高技術性(攻防技術),RSA的主題則更為廣泛,面向的觀眾更加多樣化。世平信息作為資深參會企業隆重推出RSA大會專題,讓你窩在家裡、上下班路上就能輕鬆吸收會議精華。今天我們先熱一熱身,看看今年的主題演講都有哪些大咖加盟以及哪些有趣的議題。
  • 【2018MWC上海】新增主題演講嘉賓名單全新出爐!
    摘要:GSMA近日宣布,多位來自移動生態的知名企業領導人將出席2018GSMA世界移動大會-上海並發表主題演講。
  • 無監督學習的魅力
    無監督學習是機器學習算法裡非常撲朔迷離的一個類別,負責解決這些「沒有真實值 (no-ground-truth) 」的數據。本文會講到,無監督學習到底是什麼,和機器學習的其他算法有何本質區別,用的時候有哪些難點,以及推薦閱讀的傳送門。最簡單的理解方式,就是把算法想像成考試。
  • Connect 大會的主題 ---微軟大法好
    今年 Connect 大會的主題是 Big possibilities. Bold technology.
  • 盤點52個全球人工智慧和機器學習重要會議
    2017 年的大會共設六大主題,涵蓋了人工智慧的主要前沿領域:自動駕駛、語音人工助手、自然語言處理、計算機視覺、物聯網和深度學習框架。大會演講將介紹人工智慧在硬體和軟體方面取得的最新進展、開創性研究和商業人工智慧的未來。2017 年的會議剛剛於 11 月 17 日於美國加州 Santa Clara 結束。下屆會議將在 2018 年 6 月 26-7 月 1 日在中國常熟、蘇州舉行。26. The AI World Forum
  • 【一文讀懂】機器學習最新主戰場遷移學習,從原理、方法到應用
    新智元327技術峰會暨頒獎盛典現場一律憑活動行二維碼入場,大會於3月27日 8:00 正式開始籤到,8:50會議開始,現場座位緊張請提前籤到入場。活動行在大會現場設有諮詢席位,但提前換二維碼節省籤到時間。請團購註冊的公司關注,務必提醒參會的同事們手機接收二維碼,如果不清晰可以列印出來,現場在籤到處換領大會嘉賓胸卡。
  • 谷歌I/O大會日程中英文對照版:這些關鍵演講你不能錯過!
    現將本次I/O大會的日程奉上,有需要的同學可以按需收看。註:由於大會節奏安排緊密,在同一時間段內會有多場會議同時舉行。 5月18日▎10:00AM-12:00AMKeynote keynote演示谷歌最新的創新與進展▎1:00PM-2:00PM
  • GSMA公布2017年世界移動大會(MWC)最新細節
    GSMA近日公布了2017年世界移動大會(2017 Mobile World Congress,MWC)的最新資訊,揭曉已確認參加的新增主旨演講嘉賓名單世界移動通信大會將於2017年2月27至3月2日在巴塞隆納Fira Gran Via舉行,Fira Montjuïc也將承辦部分活動。 1  已確認新增主旨演講嘉賓
  • 【NIPS 2017】英偉達、谷歌研究盤點,谷歌45篇論文、28個Workshop搶先看(論文下載)
    AI WORLD 2017 世界人工智慧大會11月8日在北京國家會議中心舉行,大會以「AI 新萬象,中國智能+」為主題,上百位AI領袖作了覆蓋技術、學術和產業最前沿的報告和討論,2000多名業內人士參會。
  • 【新版】AI World2017世界人工智慧大會終極指南:嘉賓演講與議程
    2017年AI 新生萬象,行業應用迎來爆發,中國的智能+也在政策、技術和資本等要素的推動下走上快軌道。作為AI垂直行業大會的收關之作,力圖展現全球人工智慧產業、學術和研究最新動態的新智元 AI World 2017 世界人工智慧大會籌備已經進入最後的衝刺階段。