雷鋒網 AI 科技評論按:近日,清華大學唐傑副教授及其學生丁銘結合其 Aminer 資料庫整理出 Deep Learning 模型最近若干年的重要進展,共有 4 條脈絡。雷鋒網獲其授權轉載,在此分享。
Track.1 CV/Tensor
1943 年出現雛形,1958 年研究認知的心理學家 Frank 發明了感知機,當時掀起一股熱潮。後來 Marvin Minsky(人工智慧大師)和 Seymour Papert 發現感知機的缺陷:不能處理異或迴路、計算能力不足以處理大型神經網絡。停滯!
1986 年 Hinton 正式地提出反向傳播訓練 MLP,儘管之前有人實際上這麼做。
1979 年,Fukushima 提出 Neocognitron,有了卷積和池化的思想。
1998 年,以 Yann LeCun 為首的研究人員實現了一個七層的卷積神經網絡 LeNet-5 以識別手寫數字。
後來 SVM 興起,這些方法沒有很受重視。
2012 年,Hinton 組的 AlexNet 在 ImageNet 上以巨大優勢奪冠,興起深度學習的熱潮。其實 Alexnet 是一個設計精巧的 CNN,加上 Relu、Dropout 等技巧,並且更大。這條思路被後人發展,出現了 VGG、GooLenet 等。
2016 年,青年計算機視覺科學家何愷明在層次之間加入跳躍連接,Resnet 極大增加了網絡深度,效果有很大提升。一個將這個思路繼續發展下去的是去年 CVPR Best Paper Densenet。CV 領域的特定任務出現了各種各樣的模型(Mask-RCNN 等),這裡不一一介紹。
2017 年,Hinton 認為反省傳播和傳統神經網絡有缺陷,提出 Capsule Net。但是目前在 CIFAR 等數據集上效果一半,這個思路還需要繼續驗證和發展。
Track.2 生成模型
傳統的生成模型是要預測聯合概率分布 P(x,y)。
RBM 這個模型其實是一個基於能量的模型,1986 年的時候就有,他在 2006 年的時候重新拿出來作為一個生成模型,並且將其堆疊成為 Deep Belief Network,使用逐層貪婪或者 Wake-Sleep 的方法訓練,不過這個模型效果也一般現在已經沒什麼人提了。但是從此開始 Hinton 等人開始使用深度學習重新包裝神經網絡。
Auto-Encoder 也是上個世紀 80 年代 Hinton 就提出的模型,此時由於計算能力的進步也重新登上舞臺。Bengio 等人又搞了 Denoise Auto-Encoder。
Max Welling 等人使用神經網絡訓練一個有一層隱變量的圖模型,由於使用了變分推斷,並且最後長得跟 Auto-encoder 有點像,被稱為 Variational Auto-encoder。此模型中可以通過隱變量的分布採樣,經過後面的 decoder 網絡直接生成樣本。
GAN 是 2014 年提出的非常火的模型,他是一個隱的生成模型,通過一個判別器和生成器的對抗訓練,直接使用神經網絡 G 隱式建模樣本整體的概率分布,每次運行相當於從分布中採樣。
DCGAN 是一個相當好的卷積神經網絡實現,WGAN 是通過維爾斯特拉斯距離替換原來的 JS 散度來度量分布之間的相似性的工作,使得訓練穩定。PGGAN 逐層增大網絡,生成機器逼真的人臉。
Track3 Sequence Learning
1982 年出現的 Hopfield Network 有了遞歸網絡的思想。1997 年 Jürgen Schmidhuber 發明 LSTM,並做了一系列的工作。但是更有影響力的是 2013 年還是 Hinton 組使用 RNN 做的語音識別工作,比傳統方法高出一大截。
文本方面 Bengio 在 SVM 最火的時期提出了一種基於神經網絡的語言模型,後來 Google 提出的 Word2Vec 也有一些反向傳播的思想。在機器翻譯等任務上逐漸出現了以 RNN 為基礎的 seq2seq 模型,通過一個 encoder 把一句話的語義信息壓成向量再通過 decoder 輸出,當然更多的要和 attention 的方法結合。
後來前幾年大家發現使用以字符為單位的 CNN 模型在很多語言任務也有不俗的表現,而且時空消耗更少。self-attention 實際上就是採取一種結構去同時考慮同一序列局部和全局的信息,Google 有一篇聳人聽聞的 Attention Is All You Need 的文章。
Track.4 Deep Reinforcement Learning
這個領域最出名的是 DeepMind,這裡列出的 David Silver 是一直研究 RL 的高管。
Q-Learning 是很有名的傳統 RL 算法,Deep Q-Learning 將原來的 Q 值表用神經網絡代替,做了一個打磚塊的任務很有名。後來有測試很多遊戲,發在 Nature。這個思路有一些進展 Double Dueling,主要是 Q-learning 的權重更新時序上。
DeepMind 的其他工作 DDPG、A3C 也非常有名,他們是基於 policy gradient 和神經網絡結合的變種(但是我實在是沒時間去研究)
一個應用是 AlphaGo 大家都知道,裡面其實用了 RL 的方法也有傳統的蒙特卡洛搜索技巧。Alpha Zero 是他們搞了一個用 Alphago 框架打其他棋類遊戲的遊戲,吊打。
雷鋒網註:
本文獲唐傑副教授授權轉自其微博。唐傑老師帶領團隊研發了研究者社會網絡 ArnetMiner 系統,吸引了 220 個國家 277 萬個獨立 IP 的訪問。AMiner 近期持續推出了 AI 與各領域結合的研究報告,可訪問 AMiner 官網了解更多詳情。
AMiner:
清華大學 AMiner 學術搜尋引擎,是一個以科研人員為中心,通過領先的語義分析和挖掘技術,提供在線實時的人才、科技評估報告的情報平臺。
系統自上線 10 年以來,匯集了全球 1.3 億科研人員,2.7 億篇論文,吸引了全球超過 220 個國家 800 萬個獨立 IP 的訪問,是除了谷歌 scholar 之外最大的學術搜索系統。為全球最大學術期刊出版社 Elsevier,以及 KDD、ICDM、WSDM 等 20 餘個重要國際會議提供審稿人推薦及語義信息服務。AMiner 項目獲 2013 年中國人工智慧學會科學技術進步一等獎,核心理論部分獲 2013 年中國電子學會自然科學二等獎、2017 年北京市科技進步一等獎。