2018年國外深度學習技術發展綜述

2021-02-13 戰略前沿技術

2018年12月，史丹福大學牽頭髮布了「人工智慧指數（AI Index）」2018年度報告。其中闡述，在大型會議方面，神經信息處理系統會議（Conference on Neural Information Processing Systems，NeurIPS，曾用名NIPS）、IEEE計算機視覺與模式識別會議（IEEE Conference on Computer Vision and Pattern Recognition，CVPR）和機器學習國際會議（International Conference on Machine Learning，ICML）是參與人數最多的三大人工智慧會議，其中NeurIPS和ICML參與人數增長最快（2018年與2012年相比，NeuRIPS增長3.8倍，ICML增長5.8倍）；小型會議的參會人數增長同樣有明顯增長，甚至比大型會議的增長更加明顯，其中最突出的是表徵學習國際會議（International Conference on Representation Learning，ICLR），其2018的參會人數達到了2012年的20倍。從以上人工智慧的會議看，近年來人工智慧領域越來越關注深度學習，特別是深度學習中的強化學習技術。本文將主要闡述2018年國外深度學習技術的發展，以期提供有益的參考。

深度強化學習是近年來人工智慧領域內最受關注的研究方向之一，並已在遊戲和機器人控制等領域取得了很多矚目的成果，其中值得關注的典型案例包括DeepMind攻破雅達利（Atari）遊戲的深度Q網絡（Deep Q-Network，DQN），在圍棋中獲得突破性進展的AlphaGo和AlphaGo Zero，以及在Dota 2對戰人類職業玩家的OpenAI Five。深度強化學習是深層神經網絡的一種形式，將深度學習的感知能力和強化學習的決策能力相結合，可以直接根據輸入的對象實施控制，是一種更接近人類思維方式的人工智慧方法。強化學習領域主要兩大問題：一是如何有效的與環境交互（如探索與利用、樣本效率等），二是如何有效地從經歷中學習（例如長期信用分配、稀疏獎勵信號等）。深度強化學習是開發業務應用程式中的通用技術之一，對於訓練模型，它所需要的數據更少；而且其中另一個優點在於可以通過模擬來訓練模型，這完全消除了傳統深度學習技術對標記數據的嚴重依賴。

2018年深度強化學習最引人注目的是DeepMind在2018年12月《科學（Science）》公開發表了AlphaZero完整論文，並登上其期刊封面，AlphaZero是AlphaGo和AlphaGo Zero的進化版本，依靠基於深度神經網絡的通用強化學習算法和通用樹搜索算法，已經學會了三種不同的複雜棋類遊戲，並且可能學會任何一種完美信息博弈的遊戲：在西洋棋中，AlphaZero訓練4小時超越了世界冠軍程序Stockfish；在日本將棋中，AlphaZero訓練2小時超越了世界冠軍程序Elmo；在圍棋中，AlphaZero訓練30小時超越了與李世石對戰的AlphaGo。《科學》期刊評價稱，「AlphaZero能夠解決多個複雜問題的單一算法，是創建通用機器學習系統，解決實際問題的重要一步」。2018年，歷時兩年開發完成的Alpha家族另一成員AlphaFold也被公開，能根據基因序列來預測蛋白質的3D結構，並在有著「蛋白質結構預測奧運會」美譽的蛋白質結構預測的關鍵性評價（Critical Assessment of Protein Structure Prediction，CASP）比賽中奪冠，被譽為「證明人工智慧研究驅動、加速科學進展重要裡程碑」和「生物學的核心挑戰之一上取得了重大進展」。AlphaFold使用兩種不同的方法，來構建完整的蛋白質結構預測，這兩種方法均依賴深度強化學習技術：第一種方法基於結構生物學中常用的技術，用新的蛋白質片段反覆替換蛋白質結構的片段，他們訓練了一個生成神經網絡來發明新的片段，用來不斷提高蛋白質結構的評分；第二種方法通過梯度下降法優化得分，可以進行微小的、增量的改進，從而得到高精度的結構。從2016年AlphaGo論文發表在《自然（Nature）》上，到今天AlphaZero登上《科學》，Alpha家族除了最新的AlphaFold之外，AlphaGo、AlphaGo Zero和AlphaZero已經全部刊登在頂級期刊《科學》和《自然》上。

2018年，谷歌在圍繞深度強化學習的研究與應用中取得多項開創性進展。2018年6月，谷歌大腦（Google Brain）提出了一個為強化學習環境構建的神經網絡模型「世界模型（World Models）」，「世界模型」可通過無監督的方式快速訓練，讓人工智慧在「夢境」中對外部環境的未來狀態進行預測，大幅提高了完成任務的效率；2018年8月，谷歌宣布推出一個新的基於Tensorflow的強化學習框架，稱為Dopamine，旨在為強化學習研究人員提供靈活性、穩定性和可重複性，這個強大的新框架有力地推動強化學習研究取得根本性的新突破；2018年10月，谷歌DeepMind開源了一個內部強化學習庫TRFL，用於在TensorFlow中編寫強化學習智能體，包含了DeepMind內部用於大量非常成功的智能體的關鍵算法組件，如DQN和IMPALA（Importance Weighted Actor Learner Architecture）等。

2018年9月，麻省理工學院和Google Cloud的研究人員提出AutoML模型壓縮技術，利用強化學習將壓縮流程自動化，完全無需人工，而且速度更快，性能更高。模型壓縮是在計算資源有限、能耗預算緊張的行動裝置上有效部署神經網絡模型的關鍵技術。在許多機器學習應用，例如機器人、自動駕駛和廣告排名等，深度神經網絡經常受到延遲、電力和模型大小預算的限制。該項研究能夠自動查找任意網絡的壓縮策略，以實現比人為設計的基於規則的模型壓縮方法更好的性能。

2018年10月，美國能源部旗下勞倫斯伯克利國家實驗室發布了新的研究項目，旨在將人工智慧應用到自動駕駛車輛中，從而使交通流更為順暢、節省車輛油耗並改善空氣品質。該機構還與加州大學伯克利分校開展合作，將深度強化學習技術用於訓練控制器，實現更加可持續的交通模式。

2018年6月，DeepMind聯合谷歌大腦（Google Brain）、麻省理工學院等機構將圖與深度神經網絡相結合，提出了一個全新的深度學習模塊「圖網絡（Graph Network）」，是對以前各種對圖進行操作的神經網絡方法的推廣和擴展。由於「圖網絡」主要採用神經網絡的方式對圖進行操作，因此它又可以稱為「圖神經網絡」。圖網絡具有強大的關係歸納偏置，為操縱結構化知識和生成結構化行為提供了一個直接的界面，由於其支持關係推理和組合泛化的優勢，「讓深度學習也能因果推理」，引起業界的廣泛關注。

圖網絡的框架定義了一類用於圖形結構表示的關係推理的函數，推廣並擴展了各種神經網絡方法，並為操作結構化知識和生成結構化行為提供了新的思路。圖網絡框架概括並擴展了各種的圖神經網絡、多層感知機神經網絡等，並支持從簡單的構建模塊來構建複雜的結構。圖網絡框架的主要計算單元是圖網絡模塊，即「圖到圖」模塊，它將圖作為輸入，對圖的結構執行計算，並返回圖作為輸出。圖網絡框架的模塊組織強調了可定製性，並能合成可以表達關係歸納偏置的新架構，其關鍵的設計原則可以概述為靈活的表徵、可配置的模塊內部結構以及可組合的多模塊框架。2018年10月，DeepMind開源了內部的Graph Nets庫，用於在TensorFlow中構建簡單而強大的關係推理網絡。

2018年度深度學習技術在自然語言處理領域最矚目的突破性進展是谷歌的BERT模型。2018年10月，谷歌發布的BERT（Bidirectional Encoder Representation from Transformers）模型，該模型被認為是自然語言處理領域「最強模型」，一經發布便引發了深度學習界持續而強烈的關注。BERT模型是一種對語言表徵進行預訓練的模型，經過大型文本語料庫（如維基百科）訓練後獲得的通用「語言理解」模型，該模型可用於多種自然語言處理下遊任務（如自動問答、情感分析等）。BERT模型之所以表現得比過往的方法要好，是因為它是首個用於進行自然語言處理預訓練的無監督、深度雙向系統。BERT模型是一種深度雙向Transformer模型，刷新了11種自然語言處理任務的最佳表現，包括斯坦福問答數據集（SQuAD）等。在描述該模型的論文發布之後不久，其研究團隊還開源了該模型的代碼，並發布了可供下載的模型版本，已經在大規模數據集上經過預訓練。BERT模型被廣泛認為是一個重大的進展，因為它可讓任何人都可以構建涉及自然語言處理的機器學習模型，並將這種強大工具用作其中的組件，這能節省從頭開始訓練語言處理模型所需的時間、精力、知識和資源。

多任務學習（Multi-Task Learning）是指讓單個智能體學習如何解決許多不同的任務，一直是人工智慧研究的長期目標，被認為是通往通用人工智慧（Artificial General Intelligence）的關鍵一環。關於通用人工智慧（也稱「強人工智慧」）的相關研究希望通過一個通用的數學模型，能夠最大限度概括智能的本質。目前對於「智能的本質」的比較主流的看法，是系統能夠具有通用效用最大化能力，即系統擁有通用歸納能力，能夠逼近任意可逼近的模式，並能利用所識別到的模式取得一個效用函數的最大化效益。

當前多任務學習存在的問題在於，強化學習智能體用來判斷成功的獎勵方案經常存在差異，導致他們把注意力集中在獎勵更高的任務上。為了解決這個問題，2018年9月，DeepMind開發了PopArt（Preserving Outputs Precisely while Adaptively Rescaling Targets），解決了不同遊戲獎勵機制規範化的問題，它可以玩57款雅達利電子遊戲（包括雅達利經典的「突出重圍（Breakout）」和「桌球（Pong）」遊戲），並且在所有57款遊戲中達到高於人類中間水平的表現。PopArt的工作機制是在機器對不同任務的學習數據進行加權之前，先對數據目標進行自動的「歸一化」調整，再將其轉換成原始數據輸出給機器。其優勢體現在如下兩個方面：機器對不同獎勵大小和頻率的多個任務進行更穩健、一致的學習；能夠有效增加機器學習智能體的數據效率，降低訓練成本。

近年來，多任務學習領域已經取得許多卓越的進步。隨著人工智慧研究向更複雜的現實世界領域發展，構建一個單一的強智能體（General Agent）來學習執行多重任務將變得至關重要，而不是構建多個專家智能體。到目前為止，這已經被證明是一項重大挑戰。

隨著深度學習在計算機視覺、自然語言處理等領域取得的成果越來越顯著，對深度學習的討論越來越多。谷歌、英偉達、臉書、微軟等科技巨頭在2018年圍繞深度學習推出一系列開源框架。

2018年，谷歌第二代人工智慧框架TensorFlow進行了多次重大改進，重點在於提高易用性和高效性，推出TensorFlow Hub、TensorFlow.js、TensorFlow Extended；提供Cloud TPU模塊與管道；提供新的分布式策略API；提供概率編程工具；集成Cloud Big Table等。目前TensorFlow在各類深度學習框架的對比中處於統治地位，谷歌宣布將於2019年發布TensorFlow 2.0版本。基於TensorFlow，谷歌在2018年開源多款開發平臺或模型：2018年1月，谷歌推出機器學習產品Cloud AutoML，擁有視覺、自然語言處理、翻譯等多種服務；2018年10月，谷歌開源輕量級AutoML框架AdaNet，該框架基於TensorFlow，提供了一種通用框架，不僅能夠學習神經網絡架構，還能學習集成從而獲得更佳的模型，僅需少量的專家幹預便能自動學習高質量模型，在提供學習保證的同時也能保持快速、靈活；2018年10月，DeepMind開源一個用於在TensorFlow環境中開發強化學習智能體的代碼庫TRFL，打包了許多有用的基礎組件，包含DeepMind自己用來開發DQN、DDPG以及IMPALA等知名強化學習技術的許多關鍵算法組件；2018年11月，圍繞稱為自然語言處理領域重大進展的BERT模型，谷歌開源了BERT模型TensorFlow代碼、BERT-Base與BERT-Large模型的預訓練檢查點、微調實驗結果的自動化復現TensorFlow代碼、預訓練數據生成和數據訓練的代碼。

2018年3月，英偉達（NVIDIA）推出了一個更新的、全面優化的軟體堆棧，還公布了其全球領先的深度學習計算平臺所取得的一系列重要進展，包括NVIDIA Tesla V100（最強大的數據中心GPU）的2倍內存提升，以及革命性的全新GPU互聯結構NVIDIA NVSwitch，它可使多達16個Tesla V100 GPU同時以2.4 TB /秒的速度進行通信，這一速度創下歷史新高（相較於半年前發布的上一代產品，其深度學習工作負載性能實現10倍提升）；同時，英偉達推出NVIDIA DGX-2，是其在深度學習計算領域取得的重大突破，這是首款能夠提供每秒兩千萬億次浮點運算能力的單點伺服器，具有300臺伺服器的深度學習處理能力，佔用15個數據中心機架空間，而體積則縮小60倍，能效提升18倍。2018年11月，英偉達發布了一個基於Python的遷移學習工具包（Transfer Learning Toolkit），打包了很多預訓練的模型，並提供多GPU支持，用戶還可以在工具包提供的原有神經網絡上，增加數據或者增加特徵，然後讓它們重新訓練以適應變化，該工具包主要面向智能視頻分析和醫學影像分析等兩種應用。

2018年6月，蘋果公司在WWDC2018上發布了Core ML 2，該框架是在蘋果產品上使用的高性能機器學習和深度學習框架，能幫助開發者快速地將多種機器學習模型融合到行動應用程式中，比初代Core ML提速逾30%；同時，蘋果還發布Create ML，支持計算機視覺、自然語言處理等機器學習任務模型開發，能直接在Mac上完成模型訓練。

2018年11月，由諸多矽谷科技巨頭聯合建立的人工智慧非營利組織OpenAI推出深度強化學習教育資源Spinning Up，一個旨在提供深度強化學習的項目。Spinning Up包括一系列重要的強化學習研究論文，理解強化學習所必需的術語表，以及一系列用於運行練習的算法。該項目的推出不僅是為了幫助人們了解強化學習是如何工作的，也是為了讓更多來自計算機科學領域之外的人參與進來，從而朝著OpenAI安全創建通用人工智慧的總體目標邁進。

2018年10月，Facebook發布開源移動端深度學習加速框架QNNPACK，可以成倍提升神經網絡的推理效率，幾乎比TensorFlow Lite快一倍；2018年12月，Facebook開源PyTorch 1.0穩定版，融合了Caffe2和ONNX支持模塊化、面向生產的功能，並保留了PyTorch 現有的靈活、以研究為中心的設計；同月，Facebook開源了一個基於PyTorch的深度學習框架PyText，旨在解決當前自然語言處理任務中時間緊且需要大規模部署之間的矛盾，能夠迅捷化構建和部署自然語言處理系統，該框架不僅能簡化流程更快部署，還能調取眾多預構建模型和程序方便大規模部署。

由史丹福大學主導發布的「AI Index」2018年度報告指出，在眾多深度學習開源框架中，TensorFlow的受歡迎程度在開發者中遙遙領先、穩步增長；排名緊隨其後的是Scikit-Learn和BVLC/Caffe，但是落後明顯。此外，根據Google Trends過去三年的統計數據可知，在全球範圍內計算機科學領域，TensorFlow、Keras、PyTorch、Caffe、Theano這五個深度學習框架在Google網頁搜索的熱度中，TensorFlow一直處於領先狀態且領先優勢巨大，Keras位居第二。

當前，深度學習技術在信息科學各領域已無處不在、並正成為各自領域的標準方法，正在對醫療、法律、工程和金融等關鍵領域產生重大影響。作為現階段人工智慧的核心技術之一，2018年深度學習技術在包括自然語言處理在內的多個研究領域均迎來裡程碑式進展，相關研究不斷突破小樣本（甚至零樣本）阻礙、不斷探索通用人工智慧初級形態。

一網打盡系列文章，請公號內回復以下關鍵詞查看：
創新發展：習近平 | 創新中國 | 創新創業 | 科技體制改革 | 科技創新政策 | 協同創新 | 科研管理 | 成果轉化 | 新科技革命 | 基礎研究 | 產學研 | 供給側熱點專題：軍民融合 | 民參軍 | 工業4.0 | 商業航天 | 智庫 | 國家重點研發計劃 | 基金 | 裝備採辦 | 博士 | 摩爾定律 | 諾貝爾獎 | 國家實驗室 | 國防工業 | 十三五 | 創新教育 | 軍工百強 | 試驗鑑定 | 影響因子 | 雙一流 | 淨評估 | 大學排名
預見未來：預見2016 |預見2020 | 預見2025 | 預見2030 | 預見2035 | 預見2045 | 預見2050
前沿科技：顛覆性技術 | 生物 | 仿生 | 腦科學 | 精準醫學 | 基因 | 基因編輯 | 虛擬實境 | 增強現實 | 納米 | 人工智慧 | 機器人 | 3D列印 | 4D列印 | 太赫茲 | 雲計算 | 物聯網 | 網際網路+ | 大數據 | 石墨烯 | 能源 | 電池 | 量子 | 超材料 | 超級計算機 | 衛星 | 北鬥 | 智能製造 | 不依賴GPS導航 | 通信 | 5G | MIT技術評論 | 航空發動機 | 可穿戴 | 氮化鎵 | 隱身 | 半導體 | 腦機接口 | 傳感器先進武器：中國武器 | 無人機 | 轟炸機 | 預警機 | 運輸機 | 直升機 | 戰鬥機 | 六代機 | 網絡武器 | 雷射武器 | 電磁炮 | 高超聲速武器 | 反無人機 | 防空反導 | 潛航器未來戰爭：未來戰爭 | 抵消戰略 | 水下戰 | 網絡空間戰 | 分布式殺傷 | 無人機蜂群 | 太空戰 | 反衛星 | 衛星 | 混合戰爭
領先國家：美國 | 俄羅斯 | 英國 | 德國 | 法國 | 日本 | 以色列 | 印度前沿機構：戰略能力辦公室 | DARPA | 快響小組 | Gartner | 矽谷 | 谷歌 | 華為 | 阿里 | 俄先期研究基金會 | 軍工百強前沿人物：錢學森 | 馬斯克 | 凱文凱利 | 任正非 | 馬雲 | 歐巴馬 | 川普專家專欄：黃志澄 | 許得君 | 施一公 | 王喜文 | 賀飛 | 李萍 | 劉鋒 | 王煜全 | 易本勝 | 李德毅 | 遊光榮 | 劉亞威 | 趙文銀 | 廖孟豪 | 譚鐵牛 | 於川信 | 鄔賀銓全文收錄：2018文章全收錄 | 2017文章全收錄 | 2016文章全收錄 | 2015文章全收錄 | 2014文章全收錄
其他主題系列陸續整理中，敬請期待……

2018年國外深度學習技術發展綜述

相關焦點

入門 | 獻給新手的深度學習綜述

國外深度學習研究評析

AI/機器學習2018年度進展綜述

超全深度學習細粒度圖像分析:項目、綜述、教程一網打盡

深度學習筆記 | 第16講:語音識別——一份簡短的技術綜述

超詳綜述 | 基於深度學習的命名實體識別

多Agent深度強化學習綜述(中文版),21頁pdf

李松林,楊爽 | 國外深度學習研究評析

深度圖生成模型綜述:5類模型及前景(附PDF下載)

2018年的一篇NER綜述筆記

科普丨一文看懂數字孿生—應用發展綜述(四)

深度學習超解析度最新綜述:一文道盡技術分類與效果評測

前沿綜述:細數2018年最好的詞嵌入和句嵌入技術

導航 | 國外深度學習研究評析

深度強化學習算法與應用研究現狀綜述

自動駕駛LiDAR點雲深度學習綜述

2018深度學習引用數最高的十大論文

深度學習2018下半年關鍵技術大盤點:模型、社區與框架

綜述|深度學習在SLAM定位與建圖中的應用(近250篇參考文獻)

深度學習預習資料：圖靈獎得主Yann LeCun《深度學習》春季課程

2018年國外深度學習技術發展綜述

相關焦點

入門 | 獻給新手的深度學習綜述

國外深度學習研究評析

AI/機器學習2018年度進展綜述

超全深度學習細粒度圖像分析:項目、綜述、教程一網打盡

深度學習筆記 | 第16講:語音識別——一份簡短的技術綜述

超詳綜述 | 基於深度學習的命名實體識別

多Agent深度強化學習綜述(中文版),21頁pdf

李松林,楊爽 | 國外深度學習研究評析

深度圖生成模型綜述:5類模型及前景(附PDF下載)

2018年的一篇NER綜述筆記

科普丨一文看懂數字孿生—應用發展綜述(四)

深度學習超解析度最新綜述:一文道盡技術分類與效果評測

前沿綜述:細數2018年最好的詞嵌入和句嵌入技術

導航 | 國外深度學習研究評析

深度強化學習算法與應用研究現狀綜述

自動駕駛LiDAR點雲深度學習綜述

​2018深度學習引用數最高的十大論文

深度學習2018下半年關鍵技術大盤點:模型、社區與框架

綜述|深度學習在SLAM定位與建圖中的應用(近250篇參考文獻)

深度學習預習資料：圖靈獎得主Yann LeCun《深度學習》春季課程

2018深度學習引用數最高的十大論文