深度學習在2016年都有哪些主要研究進展?(附開源平臺地址)| 盤點

2020-12-27 雷鋒網

在過去的幾年時間裡，深度學習（Deep Learning）一直都是機器學習社區的核心主題， 2016年也不例外。

研究人員長久以來亟待解決的一個主要挑戰就是無監督學習（Unsupervised Learning）。Tryolabs 認為，2016 年對於這一領域來說是取得偉大突破的一年，主要原因是出現了大量的基於生成模型（Generative Models）的研究。此外，雷鋒網會介紹自然語言處理（NLP）技術在 2016 年所取得的創新，這些技術會是實現該目標的關鍵。除了回顧那些推動該領域快速向前發展做出突出貢獻（或有極大潛力）的進步，雷鋒網(公眾號：雷鋒網)也將關注相關組織機構和開源平臺的建設情況。

一、無監督學習

無監督學習是指不需要額外信息就能從原始數據中提取模式和結構的任務，這點和需要建立標籤的監督學習相反。

使用神經網絡解決這個問題的經典方法是自動編碼器。基本版本由多層感知器（MLP）組成，其中輸入和輸出層具有相同的大小，還有一個較小的隱藏層被訓練用於恢復輸入層。一旦經過訓練，隱藏層就能對應輸出可用於聚類，降維，改進監督分類甚至數據壓縮的數據表示。

而在其中，

1. 生成式對抗網絡（GANs）

最近一種基於生成模型的新方法出現了，名為「生成式對抗網絡」（GANs），它能夠使用模型來處理無監督學習問題。GANs 將是一場真正的革命,在相關的技術演講中，Yann LeCun（深度學習創始人之一）說 GANs 是過去 20 年裡機器學習最重要的想法。

儘管 GANs 早在 2014 年由 Ian Goodfellow 提出，但直到 2016 年，GANs 才開始展現出真正的潛能。今年提出的可助於訓練和優化架構（Deep Convolutional GAN）的改進技術修復了一些之前的限制，並且新的應用程式（詳見下文，部分相關應用名單）揭示了該項技術能夠如何的強大和靈活。

試想一位有野心的畫家想要偽造藝術作品（Ｇ），同時又有人以鑑別畫作真假謀生（Ｄ）。開始你先給Ｄ看一些畢卡索的藝術作品。然後Ｇ每次都畫一些作品嘗試著騙過Ｄ，讓他相信這些都是畢卡索的原作。開始時候Ｇ是成功的，但是隨著Ｄ越來越了解畢卡索的風格（通過看越來越多的作品），Ｇ再想騙過Ｄ就會變得困難起來，所以Ｇ就必須做得更好。隨著過程的繼續，不僅Ｄ變得非常擅長區分畢卡索的作品，而且Ｇ也變得非常善於模仿畢卡索的畫作。這就是GANs背後的設計思路。

技術上，GANｓ由兩個持續推動的網絡組成（因此稱為「對抗」）：發生器（G）和鑑別器（D）。給定一組訓練示例（例如圖像），我們可以想像有一個離散基本分布（Ｘ）來管理它們。通過使用GANｓ，G將產生輸出，同時D將判定它們是否來自於訓練集合的同一分布。

開始時，伴隨著一些噪聲Ｚ，Ｇ開始工作，其產生的圖像是Ｇ（ｚ）。Ｄ從真的分布和來自於Ｇ的假分布中提取圖像，並將它們分類為：Ｄ（ｘ）和Ｄ（Ｇ（ｚ））。

GAN是如何工作的

D和Ｇ都在同時學習，並且一旦Ｇ被訓練，它就能足夠了解訓練實例的分布，產生有非常相似屬性的新示例：

　　　　　　　　　　　　　　　　　　GAN生成的圖像

這些圖像由採用CIFAR-10訓練的GAN產生的。如果你注意一下細節，你可以看到它們不是真實物體。但是，通過捕捉某些確定的特徵屬性，可以使它們從遠處看起來很真實。

2. InfoGAN——數據集信息的描述模型

最近的進展延伸了GAN的思想，不僅可用於近似數據分布，也能學習可解釋的、有用的數據向量表示。這些期望的向量表示需要捕獲豐富的信息（與自動編碼器中相同），並且也需要是可解釋的，這意味著我們可以區分向量的某些部分，這些部分可使所生成的輸出中的存在特定類型的形狀變換。

OpenAI研究人員在8月提出的InfoGAN模型解決了這個問題。簡而言之，InfoGAN能夠以無監督的方式生成包含有關數據集信息的表示。例如，當被應用於MNIST數據集時，能夠推斷所生成樣本的數量類型（1,2,3，...），例如生成樣本的旋轉和寬度，均不需要人工標記數據。

3. 條件 GAN——先驗知識的引入

GAN的另一擴展是一類被稱為條件GAN（cGAN）的模型。這些模型能夠輸入外部信息（類標籤，文本，另一個圖像）生成樣本，使用它強制G生成特定類型的輸出。最近出現的一些應用程式是：

採用文本描述(由字符級的 CNN 或 LSTM 將其編碼為向量)作為外部信息，然後基於它生成圖像。詳見論文：Generative Adversarial Text to Image Synthesis（２０１６年６月）。

將輸入圖像映射到輸出圖像。詳見論文：Image-to-Image Translation with Conditional Adversarial Nets (2016年11月)。

它採用下採樣圖像(更少細節)，生成器試圖將它們處理為更自然的視覺圖像。看過CIS的讀者應該知道我們在談論的話題。詳見論文：Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network (2016年11月)。

你可以在這篇文章或 Ian Goodfellow 的演講中查看關於生成模型的更多信息。

二、自然語言處理（NLP）

為了能夠和機器流暢地對話，首先要解決幾個問題，例如：文本理解、提問回答和機器翻譯。

1. 語義理解

Salesforce MetaMind建立了一個稱為 Joint Many-Tasks(JMT)的新模型，目標是要創造出一個可以學習五個常見自然語言處理任務的模型：

詞性標記(Part-of-speech tagging)
對句子中的每個詞分配合適的詞性，比如說名詞、動詞、形容詞等。
詞塊分析(Chunking)
也稱作淺層句法分析(shallow parsing)，涉及到一系列的任務，像是查找名詞或動詞詞組。
依存句法分析(Dependency parsing)
識別詞語之間的語法關係 (比如說形容詞修飾名詞)。
語義關聯性(Semantic relatedness)
衡量兩個句子之前的語義相關程度。結果採用一個實值分數來表示。
文字蘊涵(Textual entailment)
確定前提的句子是否包含一個假設語句。可能出現的句子類別有：蘊含、矛盾和中立。

這個模型背後的神奇之處是它具有端到端的可訓練性。這意味著它允許不同層之間協同工作，從而改善低層任務（這些任務並不複雜），並從高層任務（更複雜的任務）中得到結果。與舊的思路相比，這是一個新東西，舊想思路只能使用低層任務來改善高層任務。最終，該模型在除了詞性標記之外，均取得了很好的成績。

2. 智能應答

MetaMind 同樣提出了一個新的被稱為 Dynamic Coattention Network (DCN)的模型來解決問答問題，該模型建立在相當直觀的基礎之上。

想像一下，我要給你一段長文章，並且問你一些問題。您喜歡先讀文章，然後被問問題，還是在開始閱讀之前被給出問題？當然，提前知道問題，你就能有選擇的注意答案。如果不這樣，你就不得不將注意力平均分配並且記下與可能的問題相關的每個細節。

DCN也做同樣的事情。首先，它生成文檔的內部表示，基於文本並且由系統將要回答的問題做為約束條件，然後就是按照可能的回答列表迭代，直到收斂到最後的回答。

3. 機器翻譯

今年九月，谷歌發布了用於翻譯服務的新模型，谷歌神經網絡機器翻譯系統(Google Neural Machine Translation (GNMT))，這個系統是由如英-漢那樣獨立的語言對單獨訓練的。雷鋒網最近全文編譯了關於谷歌大腦的介紹，實際上就是對這個團隊研發過程的詳細解析。

在 11 月份，新的 GNMT 系統發布了。新的系統更進一步，通過單一模型便能實現多語言對互譯。現在 GNMT 系統與以前唯一不同之處就是它採用了能指定目標語的新型輸入方法。它同樣能夠進行 zero-shot translation，這就意味著它能夠翻譯一對沒有訓練過的語言。

GNMT 系統表明了基於多語言對的訓練要比單語言對的訓練效果好得多，這也證明了從一種語言對把「翻譯知識」遷移到另一種語言對是可行的。

三、開源平臺及組織

一些公司和企業已經建立起非營利性夥伴關係進而討論機器學習的未來，來確保這些令人印象深刻的技術在利於社區的前提下正確使用。

OpenAI 成立於2015年末，目的是建立學界和工業界之間的合作關係，並免費公開其研究成果。該組織於2016年開始首次發表它的研究結果(通過 InfoGAN 出版刊物、Universe 平臺、this one會議)。該組織的目標是確保人工智慧技術能面向儘可能多的用戶，而且通過研究進展的跟進，了解是否會出現超人工智慧。

另一方面，亞馬遜、DeepMind、谷歌、Facebook、IBM 和微軟還在人工智慧方面籤訂了合作關係，其目標是增強公眾對這一領域的理解，支持實踐活動和開發一個便於討論和參與的開放平臺。

該研究社區值得注意的一點是其開放性。你不僅可以在 ArXiv(或 ArXiv-Sanity)這類的網站上找到免費的幾乎相關的任何出版物，還能使用同樣的代碼復現他們的實驗。其中一個很有用的工具是 GitXiv，其將 arXiv 上的論文和它們對應的開源項目庫連結到了一起。

現在，開源工具已經遍布各處，並且被研究人員和企業廣泛使用和再次開發。雷鋒網整理了 2016 年最受歡迎的深度學習工具，並附網址如下：

四、最後的思考

現在正是參與到機器學習發展中的最佳時機。正如你所見到的，今年真是碩果纍纍的一年。該領域的研究發展得如此迅猛，即使想要緊跟最近的前沿趨勢都變成了一件難事。但是包括雷鋒網在內的所有人都應該感到幸運。只要願意，人人都可以接觸到人工智慧技術。

Via tryolabs

【招聘】雷鋒網堅持在人工智慧、無人駕駛、VR/AR、Fintech、未來醫療等領域第一時間提供海外科技動態與資訊。我們需要若干關注國際新聞、具有一定的科技新聞選題能力，翻譯及寫作能力優良的外翻編輯加入。

簡歷投遞至 wudexin@leiphone.com，工作地北京。

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

深度學習在2016年都有哪些主要研究進展?(附開源平臺地址)| 盤點

一、無監督學習

1. 生成式對抗網絡（GANs）

2. InfoGAN——數據集信息的描述模型

3. 條件 GAN——先驗知識的引入

二、自然語言處理（NLP）

1. 語義理解

2. 智能應答

3. 機器翻譯

三、開源平臺及組織

四、最後的思考

相關焦點

深度| 從算法、硬體到研究社區,全面回顧2016年機器學習領域主要進展

2016AI巨頭開源IP盤點 50個最常用的深度學習庫

深度學習論文TOP10,2019一季度研究進展大盤點

2016深度學習重大進展:從無監督學習到生成對抗網絡 | 網際網路數據...

從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀

機器之心年度盤點:2018年重大研究與開源項目

2020年深度學習發展大盤點及對2021年深度學習的未來展望|極客雲算

深度學習在無人駕駛汽車領域應用的研究進展

深度|NIPS 2016最全盤點:主題詳解、前沿論文及下載資源(附會場趣聞)

2018 年度 GtiHub 開源項目 TOP 25:數據科學 & 機器學習

Papers With Code:一文看盡深度學習這半年

阿里巴巴深度學習框架X-Deep Learning,要開源了

貝葉斯深度學習研究進展

2018年國外深度學習技術發展綜述

PaddlePaddle深度學習開源平臺:等待眾人划槳的中國AI大船

2018年最值得關注的10個機器學習開源項目

深度學習的光環背後,都有哪些機器學習的新進展被忽視了?

AI 從業者該如何選擇深度學習開源框架

開源大咖齊聚2020啟智開發者大會共探深度學習技術未來趨勢

2017年深度學習必讀31篇論文(附下載地址)

深度學習在2016年都有哪些主要研究進展?(附開源平臺地址)| 盤點

一、無監督學習

1. 生成式對抗網絡（GANs）

2. InfoGAN——數據集信息的描述模型

3. 條件 GAN——先驗知識的引入

二、自然語言處理（NLP）

1. 語義理解

2. 智能應答

3. 機器翻譯

三、開源平臺及組織

四、最後的思考

相關焦點

深度| 從算法、硬體到研究社區,全面回顧2016年機器學習領域主要進展

2016AI巨頭開源IP盤點 50個最常用的深度學習庫

深度學習論文TOP10,2019一季度研究進展大盤點

2016深度學習重大進展:從無監督學習到生成對抗網絡 | 網際網路數據...

從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀

機器之心年度盤點:2018年重大研究與開源項目

2020年深度學習發展大盤點及對2021年深度學習的未來展望|極客雲算

深度學習在無人駕駛汽車領域應用的研究進展

深度|NIPS 2016最全盤點:主題詳解、前沿論文及下載資源(附會場趣聞)

2018 年度 GtiHub 開源項目 TOP 25:數據科學 & 機器學習

Papers With Code:一文看盡深度學習這半年

阿里巴巴深度學習框架X-Deep Learning,要開源了

貝葉斯深度學習研究進展

2018年國外深度學習技術發展綜述

PaddlePaddle深度學習開源平臺:等待眾人划槳的中國AI大船

2018年最值得關注的10個機器學習開源項目

深度學習的光環背後,都有哪些機器學習的新進展被忽視了?

AI 從業者該如何選擇深度學習開源框架

開源大咖齊聚2020啟智開發者大會 共探深度學習技術未來趨勢

2017年深度學習必讀31篇論文(附下載地址)

開源大咖齊聚2020啟智開發者大會共探深度學習技術未來趨勢