深度學習在2016年都有哪些主要研究進展?(附開源平臺地址)| 盤點

2020-12-27 雷鋒網

在過去的幾年時間裡,深度學習(Deep Learning)一直都是機器學習社區的核心主題, 2016年也不例外。 

研究人員長久以來亟待解決的一個主要挑戰就是無監督學習(Unsupervised Learning)。Tryolabs 認為,2016 年對於這一領域來說是取得偉大突破的一年,主要原因是出現了大量的基於生成模型(Generative Models)的研究。此外,雷鋒網會介紹自然語言處理(NLP)技術在 2016 年所取得的創新,這些技術會是實現該目標的關鍵。除了回顧那些推動該領域快速向前發展做出突出貢獻(或有極大潛力)的進步,雷鋒網(公眾號:雷鋒網)也將關注相關組織機構和開源平臺的建設情況。

一、無監督學習

無監督學習是指不需要額外信息就能從原始數據中提取模式和結構的任務,這點和需要建立標籤的監督學習相反。

使用神經網絡解決這個問題的經典方法是自動編碼器。基本版本由多層感知器(MLP)組成,其中輸入和輸出層具有相同的大小,還有一個較小的隱藏層被訓練用於恢復輸入層。一旦經過訓練,隱藏層就能對應輸出可用於聚類,降維,改進監督分類甚至數據壓縮的數據表示。

而在其中,

1. 生成式對抗網絡(GANs)

最近一種基於生成模型的新方法出現了,名為「生成式對抗網絡」(GANs),它能夠使用模型來處理無監督學習問題。GANs 將是一場真正的革命,在相關的技術演講中,Yann LeCun(深度學習創始人之一)說 GANs 是過去 20 年裡機器學習最重要的想法。

儘管 GANs 早在 2014 年由 Ian Goodfellow 提出,但直到 2016 年,GANs 才開始展現出真正的潛能。今年提出的可助於訓練和優化架構(Deep Convolutional GAN)的改進技術修復了一些之前的限制,並且新的應用程式(詳見下文,部分相關應用名單)揭示了該項技術能夠如何的強大和靈活。

試想一位有野心的畫家想要偽造藝術作品(G),同時又有人以鑑別畫作真假謀生(D)。開始你先給D看一些畢卡索的藝術作品。然後G每次都畫一些作品嘗試著騙過D,讓他相信這些都是畢卡索的原作。開始時候G是成功的,但是隨著D越來越了解畢卡索的風格(通過看越來越多的作品),G再想騙過D就會變得困難起來,所以G就必須做得更好。隨著過程的繼續,不僅D變得非常擅長區分畢卡索的作品,而且G也變得非常善於模仿畢卡索的畫作。這就是GANs背後的設計思路。

技術上,GANs由兩個持續推動的網絡組成(因此稱為「對抗」):發生器(G)和鑑別器(D)。給定一組訓練示例(例如圖像),我們可以想像有一個離散基本分布(X)來管理它們。 通過使用GANs,G將產生輸出,同時D將判定它們是否來自於訓練集合的同一分布。

開始時,伴隨著一些噪聲Z,G開始工作,其產生的圖像是G(z)。D從真的分布和來自於G的假分布中提取圖像,並將它們分類為:D(x)和D(G(z))。

GAN是如何工作的

D和G都在同時學習,並且一旦G被訓練,它就能足夠了解訓練實例的分布,產生有非常相似屬性的新示例:

                  GAN生成的圖像

這些圖像由採用CIFAR-10訓練的GAN產生的。 如果你注意一下細節,你可以看到它們不是真實物體。 但是,通過捕捉某些確定的特徵屬性,可以使它們從遠處看起來很真實。

2. InfoGAN——數據集信息的描述模型

最近的進展延伸了GAN的思想,不僅可用於近似數據分布,也能學習可解釋的、有用的數據向量表示。這些期望的向量表示需要捕獲豐富的信息(與自動編碼器中相同),並且也需要是可解釋的,這意味著我們可以區分向量的某些部分,這些部分可使所生成的輸出中的存在特定類型的形狀變換。

OpenAI研究人員在8月提出的InfoGAN模型解決了這個問題。 簡而言之,InfoGAN能夠以無監督的方式生成包含有關數據集信息的表示。 例如,當被應用於MNIST數據集時,能夠推斷所生成樣本的數量類型(1,2,3,...),例如生成樣本的旋轉和寬度,均不需要人工標記數據。

3. 條件 GAN——先驗知識的引入

GAN的另一擴展是一類被稱為條件GAN(cGAN)的模型。 這些模型能夠輸入外部信息(類標籤,文本,另一個圖像)生成樣本,使用它強制G生成特定類型的輸出。 最近出現的一些應用程式是:

採用文本描述(由字符級的 CNN 或 LSTM 將其編碼為向量)作為外部信息,然後基於它生成圖像。詳見論文:Generative Adversarial Text to Image Synthesis(2016年6月)。

將輸入圖像映射到輸出圖像。詳見論文:Image-to-Image Translation with Conditional Adversarial Nets (2016年11月)。

它採用下採樣圖像(更少細節),生成器試圖將它們處理為更自然的視覺圖像。看過CIS的讀者應該知道我們在談論的話題。詳見論文:Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network (2016年11月)。

 你可以在這篇文章或 Ian Goodfellow 的演講中查看關於生成模型的更多信息。

二、自然語言處理(NLP)

為了能夠和機器流暢地對話,首先要解決幾個問題,例如:文本理解、提問回答和機器翻譯。

1. 語義理解

Salesforce MetaMind建立了一個稱為 Joint Many-Tasks(JMT)的新模型,目標是要創造出一個可以學習五個常見自然語言處理任務的模型:

  • 詞性標記(Part-of-speech tagging)

    對句子中的每個詞分配合適的詞性,比如說名詞、動詞、形容詞等。

  • 詞塊分析(Chunking)

    也稱作淺層句法分析(shallow parsing),涉及到一系列的任務,像是查找名詞或動詞詞組。

  • 依存句法分析(Dependency parsing)

    識別詞語之間的語法關係 (比如說形容詞修飾名詞)。

  • 語義關聯性(Semantic relatedness)

    衡量兩個句子之前的語義相關程度。結果採用一個實值分數來表示。

  • 文字蘊涵(Textual entailment)

    確定前提的句子是否包含一個假設語句。可能出現的句子類別有:蘊含、矛盾和中立。

這個模型背後的神奇之處是它具有端到端的可訓練性。 這意味著它允許不同層之間協同工作,從而改善低層任務(這些任務並不複雜),並從高層任務(更複雜的任務)中得到結果。 與舊的思路相比,這是一個新東西,舊想思路只能使用低層任務來改善高層任務。最終,該模型在除了詞性標記之外,均取得了很好的成績。

2. 智能應答

MetaMind 同樣提出了一個新的被稱為 Dynamic Coattention Network (DCN)的模型來解決問答問題,該模型建立在相當直觀的基礎之上。

想像一下,我要給你一段長文章,並且問你一些問題。 您喜歡先讀文章,然後被問問題,還是在開始閱讀之前被給出問題? 當然,提前知道問題,你就能有選擇的注意答案。 如果不這樣,你就不得不將注意力平均分配並且記下與可能的問題相關的每個細節。

DCN也做同樣的事情。 首先,它生成文檔的內部表示,基於文本並且由系統將要回答的問題做為約束條件,然後就是按照可能的回答列表迭代,直到收斂到最後的回答。

3. 機器翻譯

今年九月,谷歌發布了用於翻譯服務的新模型,谷歌神經網絡機器翻譯系統(Google Neural Machine Translation (GNMT)),這個系統是由如英-漢那樣獨立的語言對單獨訓練的。雷鋒網最近全文編譯了關於谷歌大腦的介紹,實際上就是對這個團隊研發過程的詳細解析。

在 11 月份,新的 GNMT 系統發布了。新的系統更進一步,通過單一模型便能實現多語言對互譯。現在 GNMT 系統與以前唯一不同之處就是它採用了能指定目標語的新型輸入方法。它同樣能夠進行 zero-shot translation,這就意味著它能夠翻譯一對沒有訓練過的語言。

GNMT 系統表明了基於多語言對的訓練要比單語言對的訓練效果好得多,這也證明了從一種語言對把「翻譯知識」遷移到另一種語言對是可行的。

三、開源平臺及組織

一些公司和企業已經建立起非營利性夥伴關係進而討論機器學習的未來,來確保這些令人印象深刻的技術在利於社區的前提下正確使用。

OpenAI 成立於2015年末,目的是建立學界和工業界之間的合作關係,並免費公開其研究成果。該組織於2016年開始首次發表它的研究結果(通過 InfoGAN 出版刊物、Universe 平臺、this one會議)。該組織的目標是確保人工智慧技術能面向儘可能多的用戶,而且通過研究進展的跟進,了解是否會出現超人工智慧。

另一方面,亞馬遜、DeepMind、谷歌、Facebook、IBM 和微軟還在人工智慧方面籤訂了合作關係,其目標是增強公眾對這一領域的理解,支持實踐活動和開發一個便於討論和參與的開放平臺。

該研究社區值得注意的一點是其開放性。你不僅可以在 ArXiv(或 ArXiv-Sanity)這類的網站上找到免費的幾乎相關的任何出版物,還能使用同樣的代碼復現他們的實驗。其中一個很有用的工具是 GitXiv,其將 arXiv 上的論文和它們對應的開源項目庫連結到了一起。

現在,開源工具已經遍布各處,並且被研究人員和企業廣泛使用和再次開發。雷鋒網整理了 2016 年最受歡迎的深度學習工具,並附網址如下:

四、最後的思考

現在正是參與到機器學習發展中的最佳時機。正如你所見到的,今年真是碩果纍纍的一年。該領域的研究發展得如此迅猛,即使想要緊跟最近的前沿趨勢都變成了一件難事。但是包括雷鋒網在內的所有人都應該感到幸運。只要願意,人人都可以接觸到人工智慧技術。

Via tryolabs

【招聘】雷鋒網堅持在人工智慧、無人駕駛、VR/AR、Fintech、未來醫療等領域第一時間提供海外科技動態與資訊。我們需要若干關注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優良的外翻編輯加入。 

簡歷投遞至 wudexin@leiphone.com,工作地 北京。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 深度| 從算法、硬體到研究社區,全面回顧2016年機器學習領域主要進展
    機器之心原創作者:微胖、吳攀人工智慧聖杯雖然遙遠,但這並不妨礙機器學習繼續在2016年高歌猛進,其中,深度學習仍是最亮眼的明星。機器學習的重大進展離不開三個核心內容:算法(或軟體)、硬體和數據。本文僅從算法(或軟體)、硬體角度梳理2016年機器學習領域(主要是深度學習)主要進展。
  • 2016AI巨頭開源IP盤點 50個最常用的深度學習庫
    Data Science Central網站主編、有多年數據科學和商業分析模型從業經驗的Bill Vorhies曾撰文指出,過去一年人工智慧和深度學習最重要的發展不在技術,而是商業模式的轉變——所有巨頭紛紛將其深度學習IP開源。 毋庸置疑,「開源浪潮」是2016年人工智慧領域不可忽視的一大趨勢,而其中最受歡迎的項目則是谷歌的深度學習平臺TensorFlow。
  • 深度學習論文TOP10,2019一季度研究進展大盤點
    過去的100多天裡,在深度學習領域,每天都有大量的新論文產生。所以深度學習研究在2019年開了怎樣一個頭呢?Open Data Science對第一季度的深度學習研究進行了盤點總結,推出了這一季度的十佳論文。一起來看看,TOP10都花落誰家吧。
  • 2016深度學習重大進展:從無監督學習到生成對抗網絡 | 網際網路數據...
    過去幾年,深度學習成為了機器學習社區的核心話題,2016 年更是如此。在 Tryo Labs 的這篇盤點文章中,作者回顧了對該領域貢獻最大(或有潛力的)的進展以及組織和社區如何保證這些技術能以一種使所有人都受益的方式被使用。
  • 從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀
    選自Statsbot 作者:Eduard Tyantov 機器之心編譯 2017 年只剩不到十天,隨著 NIPS 等重要會議的結束,是時候對這一年深度學習領域的重要研究與進展進行總結了傳統的方法是將該問題分成兩步解決:設計或學習視覺特徵、以及預測。最近的深度唇讀方法是可以端到端訓練的(Wand et al., 2016; Chung & Zisserman, 2016a)。目前唇讀的準確度已經超過了人類。
  • 機器之心年度盤點:2018年重大研究與開源項目
    機器之心原創作者:思源、劉曉坤2018 年即將結束,要問今年深度學習領域有什麼要關注的進展,恐怕首先想到的就是 Deepmind 的 BigGAN 和 Google這兩項進展有一些共同點:除了弱監督或無監督,那就是大,數據大,模型大,計算大,算法改動沒那麼大,主要靠計算。但是除了它們,今年還是有很多非常美的想法,例如強行解積分的強大流模型 Glow、基於圖結構的廣義神經網絡,以及擁有連續層級的神經常微分方程。
  • 2020年深度學習發展大盤點及對2021年深度學習的未來展望|極客雲算
    以下是對2020年發展中一些突出亮點的梳理與盤點及2021年對深度學習的未來展望。 OpenAI宣布將PyTorch作為其標準的深度學習框架 AI研究組織OpenAI宣布PyTorch為其新的標準深度學習框架。
  • 深度學習在無人駕駛汽車領域應用的研究進展
    1.1 國外無人駕駛汽車發展現狀   20 世紀 70 年代初,美國、英國、德國等發達國家便開始進行無人駕駛汽車的研究,經過近 40 年的發展,在可行性和實用化方面都取得了突破性的進展 [2]。
  • 深度|NIPS 2016最全盤點:主題詳解、前沿論文及下載資源(附會場趣聞)
    Yann LeCun 大會開幕主題演講上將 GAN 評價為「近 20 年來(該領域)最令人興奮的思想。」Goodfellow 清晰地描繪了 GAN 的概念及其目前的進展,還有一些小技巧和提示以及當前的研究前沿。他提到的更多的是使用 GAN 訓練的最新進展。
  • 2018 年度 GtiHub 開源項目 TOP 25:數據科學 & 機器學習
    你可以點擊下面的連結,前往查看完整榜單:這些文章的部分內容會和我盤點的 2018 年 AI 和 ML 領域最大突破文章有所重合,大家也可以前往以下地址閱讀這篇文章——它從根本上來說是一份盤點了該領域主要進展的榜單,我認為該領域的每個人都應該有所了解。作為額外福利,文中還有來自專家們的預測——大家應該都不想錯過吧。
  • Papers With Code:一文看盡深度學習這半年
    更有機會與李開復老師等大牛群內互動!同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。點擊文末「閱讀原文」立刻申請入群~編譯:嶽排槐來源:量子位追蹤深度學習這樣一個大熱領域的進展並不容易。
  • 阿里巴巴深度學習框架X-Deep Learning,要開源了
    、推薦、搜索等高維稀疏數據場景,以填補TensorFlow、PyTorch等現有開源深度學習框架主要面向圖像、語音等低維稠密數據的不足。 阿里媽媽研究人員介紹,XDL整體上跟TensorFlow和PyTorch是同級的,它們很好地解決了目前已有開源深度學習框架分布式運行能力不足,以及大規模稀疏特徵表徵學習能力不足的問題。 XDL 採用了「橋接」的架構設計理念。這種架構使得 XDL 跟業界的開源社區無縫對接。
  • 貝葉斯深度學習研究進展
    除了將貝葉斯方法用於深度神經網絡,貝葉斯深度學習還包括另外一個重要的內容——將深度神經網絡當作強大的函數擬合器,用於貝葉斯模型。這方面的工作也稱為深度貝葉斯學習(Deep Bayesian Learning),近期的典型研究進展為深度生成模型:一個簡單的隱變量(如均勻分布或標準高斯分布)經過適當的函數變換之後,可以建模複雜的數據分布,如圖4所示。
  • 2018年國外深度學習技術發展綜述
    從以上人工智慧的會議看,近年來人工智慧領域越來越關注深度學習,特別是深度學習中的強化學習技術。本文將主要闡述2018年國外深度學習技術的發展,以期提供有益的參考。基於TensorFlow,谷歌在2018年開源多款開發平臺或模型:2018年1月,谷歌推出機器學習產品Cloud AutoML,擁有視覺、自然語言處理、翻譯等多種服務;2018年10月,谷歌開源輕量級AutoML框架AdaNet,該框架基於TensorFlow,提供了一種通用框架,不僅能夠學習神經網絡架構,還能學習集成從而獲得更佳的模型,僅需少量的專家幹預便能自動學習高質量模型,在提供學習保證的同時也能保持快速
  • PaddlePaddle深度學習開源平臺:等待眾人划槳的中國AI大船
    Parallel Distributed Deep Learning書歸正傳,從2016年9月27日發布至今,PaddlePaddle也有一年多的時間了,而其前身是百度於2013年自主研發的深度學習平臺,且一直為百度內部工程師研發使用
  • 2018年最值得關注的10個機器學習開源項目
    AI 前線導讀:在這篇文章中,我們將花一點時間看一下 2018 年機器學習世界中發生的一些有趣的事情。我們列出了 Mybridge 排名的一些頂級開源項目、機器學習框架的主要進展,以及 2019 年還有哪些事情值得期待。
  • 深度學習的光環背後,都有哪些機器學習的新進展被忽視了?
    這十年裡我們目睹了 dropout、SGD+動量、殘差連接、預訓練等等深度學習技術的大爆發,見證了學術研究全面擁抱深度學習,也聽到了對深度學習不足之處的質疑之聲、感受到了很多人對非深度學習方法「復興」的期盼。reddit 上近期就出現了一個帖子,把網友們聚起來聊聊除了神經網絡之外的機器學習方法的新發展,以及可以和各種模型配合、不僅限於改善神經網絡的概念和模型。
  • AI 從業者該如何選擇深度學習開源框架
    編者按:本文內容來自微軟美國總部機器學習科學家彭河森博士在雷鋒網硬創公開課的分享,並由彭河森博士親自整理成文。正如程序語言一樣,深度學習開源框架同樣各有優劣和適用的場景,那麼 AI 從業者該如何有針對性地選擇這些平臺來玩轉深度學習?
  • 開源大咖齊聚2020啟智開發者大會 共探深度學習技術未來趨勢
    2020年12月2日,「OpenI/O 2020啟智開發者大會」在北京國家會議中心召開。大會以「啟智築夢 開源先行」為主題,立足於國際國內開源大環境和發展趨勢。開源領域頂尖專家學者和企業領軍人物共聚一堂,探討開源開放呈現出的新形勢、新格局、新機遇。百度飛槳全面參與,並承辦深度學習專場,展現了飛槳的最新技術進展及成果。
  • 2017年深度學習必讀31篇論文(附下載地址)
    本文長度為4100字,建議閱讀6分鐘本文為你盤點今年最值得關注的深度學習相關論文