小編按: 通信頭條團隊決定開始每周末推出深度長文和深度學習的內容,以便親粉們在如今這個已經完全碎片化的今天,必須要深度學習點東西,加強深度思考,深度琢磨,深度決定高度。小編上兩周已經推出了兩期,反響非常好,留言過千,討論話題非常熱烈。
本周奉送KK昨天在深圳的演講165頁PPT,信息超級大,小編認真研究PPT的裡面圖就是看了四個小時,本想翻譯成中文版,一是時間不能及時奉送給大家,二是還是保留原版的好。但是Yann LeCun 是卷積神經網絡的發明人,Facebook 人工智慧研究院的負責人的150頁的PPT,就有每頁的PPT翻譯,你英語好的話,也許看的更細。黑科技明天一期看來閱讀量不大,是不是這個不受歡迎,大家給點意見改進。
Yann LeCun 是卷積神經網絡的發明人,Facebook 人工智慧研究院的負責人。下文的 150 張 PPT,是 LeCun 對深度學習領域的全面而細緻的思考。LeCun 非常堅定看好無監督學習,認為無監督學習是能夠提供足夠信息去訓練數以十億計的神經網絡的唯一學習形式。
但 LeCun 也認為,這要做好非常難,畢竟世界是不可理解的。我們來看看 LeCun 在這 150 張 PPT 中,究竟給我們帶來什麼樣的驚喜。
Yann LeCun:150 PPT 全文
深度學習
作者Yann Le Cun
紐約大學,柯朗數學科學學院(CourantInstitute of Mathematical Science, NYU),
Facebook 人工智慧研究
我們需要複製大腦來開發智能機器嗎?
大腦是智能機器存在的依據
-鳥和蝙蝠是重於空氣飛行存在的依據
大腦
今天高速處理器
我們能夠通過複製大腦來開發人工智慧系統嗎?
電腦離大腦運算能力只有1萬次方差距嗎?很有可能是100萬次方:突觸是複雜的。1百萬次方是30年摩爾定律
最好從生物學裡獲取靈感;但是如果沒有了解基本原理,僅從生物學裡生搬硬造,註定要失敗。飛機是從飛鳥那裡獲取的靈感;他們使用了同樣的飛行基本原理;但是,飛機並不振翅飛翔,也沒有羽翼。
讓我們從自然裡汲取靈感,但不需要依葫蘆畫瓢
模仿自然是好的,但是我們也需要去了解自然。對於飛機而言,我們開發了空氣動力學以及可壓縮流體動力學,我們知道了羽毛和振翅不是關鍵。
1957年:感知機(第一臺學習機器)
具有適應性「突觸權重」的一個簡單的模擬神經元,計算輸入的加權總和,如果加權總和高於閾值,則輸出+1,反之則輸出-1。
感知機學習算法
通常的機器學習(監督學習)
設計一臺帶有可調節旋鈕的機器(與感知機裡的權重類似);選取一個訓練樣本,經機器運行之後,測量誤差;找出需要調整那個方向的旋鈕以便降低誤差;重複使用所有訓練樣本來進行操作,直到旋鈕穩定下來。
通常的機器學習(監督學習)
設計一臺帶有可調節旋鈕的機器;選取一個訓練樣本,經機器運行之後,測量誤差;調節旋鈕以便降低誤差;不斷重複直到旋鈕穩定下來;
機器學習=功能優化
這就如同行走在霧氣瀰漫的高山之中,通過往最陡的下坡方向行走來抵達山谷中的村莊;但是每一個樣本會給我們一個方向的噪聲預估,因此,我們的路徑是相當隨機的。
泛化能力:識別訓練中沒有察覺到的情況
訓練之後:用從未識別過的樣本來測試機器;
監督學習
我們能夠用諸如桌子、椅子、狗、貓及人等很多例子來訓練機器;但是機器能夠識別它從未看到過的桌子、椅子、狗、貓及人嗎?
大規模的機器學習:現實
數以億計的「旋鈕」(或「權重」),數以千計的種類;數以百萬計的樣本;識別每一個樣本可能需要進行數十億的操作;但是這些操作只是一些簡單的乘法和加法。
模式識別的傳統模式
模式識別的傳統模式(自50年代末開始),固定/設計特徵(或固定矩陣)+可訓練的分級器,感知機(康奈爾大學,1957年)
深度學習=整臺機器是可以訓練的
傳統的模式識別:固定及手工制的特徵萃取器;主流的現代化模式識別:無監督的中等級別特徵;深度學習:表現形式是分等級的及訓練有素的;
深度學習=學習分等級的表現形式
有超過一個階段的非線性特徵變換即為深度學習;在ImageNet上的特徵可視化的卷積碼淨訓練[來自蔡勒與宏泰2013(Zeiler & Fergus 2013)]
如果你覺得通信頭條的微信不錯,請長按以下二維碼關注。投稿、合作加小編微信 txttiao
可訓練的特徵等級
隨著抽象等級的增加,表現形式等級的增加;每一個階段是一種可訓練特徵的轉換;圖像識別:
像素→邊緣→紋理基元→主題→
部分→對象
字符→字→字組→從句→句子→故事
言語
例子→光譜段→聲音→... →電話→音素→字
淺度vs深度==查找表VS多步算法
「淺與寬」vs「深與窄」==「更多的內存」與「更多的時間」,查找表vs 算法;如果沒有一個指數大級別的查找表,幾乎很少有函數可以用兩步計算完成;通過指數係數,可以通過超過兩步運算來減少「存儲量」。
大腦如何解讀圖像?
在視覺皮層的腹側(識別)通路包含多個階段;視網膜- LGN - V1 - V2 - V4 - PIT - AIT....等等;
多層的神經網絡
簡單單位的多層級;每個單位計算一次輸入的加權總和;加權總和通過一個非線性函數;學習算法改變權重;
典型的多層神經網路架構
可以通過在網路中裝配模塊來發明複雜的學習機器;
線性模塊
輸出=W.輸入+B
ReLU 模塊(經校正過的線性單元)
輸出i=0 如果輸入i<0;
輸出i=輸入,如果其他情況;
成本模塊:平方距離
成本=||In1-In2||2
目標函數
L(Θ)=1/pΣk C(Xk,Yk,Θ)
Θ=(W1,B1,W2,B2,W3,B3)
通過裝配模塊來搭建網路
所有主要深度學習框架使用模塊(靈感源自SN/Lush, 1991),火炬7(Torch7), Theano, TensorFlow….
通過反向傳遞來計算斜率
鏈式法則的實際應用
推倒代數的斜率:
● dC/dXi-1 = dC/dXi . dXi/dXi-1
● dC/dXi-1 = dC/dXi . dFi(Xi-1,Wi)/dXi-1
推倒權重斜率:
● dC/dWi = dC/dXi . dXi/dWi
● dC/dWi = dC/dXi . dFi(Xi-1,Wi)/dWi
任何架構都可以工作?
允許任何的連接圖;
無迴路有向圖
循環的網絡需要「在時間上展開」
允許任何的模塊
只要對於相應的參數及其他非終端輸入是連續的,並且在幾乎所有位置都可以進行求倒。
幾乎所有的架構都提供自動求導功能;
Theano, Torch7+autograd,...
程序變成計算無迴路有向圖(DAGs)及自動求道
多層網絡的目標函數是非凸性的。
1-1-1網絡
– Y = W1*W2*X
目標函數:二次損失的恆等函數
一個例子:X=1,Y=1 L(W) = (1-W1*W2)^2
卷積網絡
(簡稱ConvNet或 CNN)
卷積網絡架構
多卷積
動畫:安德烈 .卡帕斯(Andrej Karpathy)網址:http://cs231n.github.io/convolutional-networks/
卷積性網絡(製造年代:1990年)
過濾器-tanh →匯總→過濾器-tanh →匯總→過濾器-tanh
胡貝爾和威塞爾(Hubel & Wiesel)的視覺皮層結構模型
簡單單元格用於檢測局部特徵,複雜單元格用於「匯總」位於視皮層附近的簡單單元格輸出產物,[福島(Fukushima)1982年][LeCun 1989, 1998年],[Riesenhuber 1999年]等等
總體架構:多步奏標準化→過濾器集→非線性→匯總
標準化:白度變化(自由選擇)
減法:平均去除率,高通過濾器
除法:局部標準化,標準方差
過濾器庫:維度擴大,映射到超完備基數
非線性:稀疏化,飽和度,側抑制機制等等
改正(ReLU),有效分量的減少,tanh,
匯總:空間或功能類別的集合
1993年LeNet1演示
多字符識別[馬坦等(Matan et al),1992年]
每一層是一個卷積
ConvNet滑動窗口+加權有限狀態機
ConvNet滑動窗口+加權FSM
支票讀取器(貝爾實驗室,1995年)
圖像轉換器網絡經訓練後讀取支票金額,用負對數似然損失來進行全面化訓練。50%正確,49%拒絕,1%誤差(在後面的過程中可以檢測到)1996年開始在美國和歐洲的許多銀行中使用,在2000年代初處理了美國約10%到20%的手寫支票。
人臉檢測[威能(Vaillantet al.)等。93、94年]
ConvNet被用於大圖像處理,多尺寸熱圖,候選者非最大化抑制,對256x256 圖像SPARCstation需要6秒時間
同步化人臉檢測及姿態預估
卷積網絡行人檢測
場景解析及標註
場景解析及標註:多尺度ConvNet架構
每個輸出可以看到大量的輸入背景,對全方位標註的的圖像進行訓練監督
方法1:在超像素區域進行多數表決
對RGB及深度圖像的場景解析及標註
場景解析及標註
無後期處理,一幀一幀,ConvNet在Virtex-6 FPGA 硬體上以每幀50毫秒運行,通過乙太網上進行通信的功能限制了系統性能
ConvNet用於遠距離自適應機器人視覺(DARPA LAGR 項目2005-2008年)
卷機網遠距離視覺
預處理(125毫秒),地平面估計,地平線對準,轉換為YUV+局部對比標準化,測量標準化後圖像「帶」不變量金字塔
卷積網絡架構
每3x12x25輸入窗口100個特徵;YUV圖像帶20-36像素高,36-500像素寬
卷機網絡視覺物體識別
在2000年代中期,ConvNets在物體分類方面取得了相當好的成績,數據集:「Caltech101」:101個類別,每個類別30個訓練樣本,但是結果比更「傳統」的計算機視覺方法要稍微遜色一些,原因是:
1. 數據集太小了;
2. 電腦太慢了;
然後,兩件事情發生了。。。
圖像網絡(ImageNet)數據集[Fei-Fei等,2012年]
120萬訓練樣本
1000個類別
快速及可編程通用目的GPUs
每秒可進行1萬億操作
極深度的ConvNet物體識別
1億到10億個連接,1000萬至10億個參數,8至20個分層
在GPU上進行極深度的ConvNets訓練
ImageNet前5大錯誤概率是
15%;
[Sermanet等2013年]
13.8%VGGNet [Simonyan, Zisserman 2014年]
7.3%
GoogLeNet[Szegedy等 2014年]
6.6%
ResNet [He et等2015年]
5.7%
極深度的ConvNet架構
小矩陣,沒有進行太多二次抽樣過程(斷片化二次抽樣)
矩陣:第一層(11x11)
第一層:3×9矩陣,RGB->96的特徵圖,11×11矩陣,4步
學習在行動
第一層過濾器如何學習?
深度學習=學習層次代表
具有超過一個階段的非線性特徵變換即為深度,ImageNet上特徵可視化卷積網絡學習 [蔡勒與宏泰2013年(Zeiler & Fergus)]
ImageNet:分類
給圖像中的主要對象取名,前5誤差率:如果誤差不是在前5,則視為錯誤。紅色:ConvNet,藍色:不是ConvNet
ConvNets對象識別及定位
分類+定位:多尺度滑動窗口
在圖像上應用convnet滑動窗口來進行多尺度的重要備;在圖像上滑動convnet是很便宜的。對於每一個窗口,預測一個分類及邊框參數。即使對象沒有完全在視窗內,convnet可以預測它所認為的對象是什麼。
結果:在ImageNet1K訓練前,微調的ImageNet檢測
Detection Example:檢測例子
Detection Example:檢測例子
Detection Example:檢測例子
Detection Example:檢測例子
深度面孔
[塞利格曼等(Taigman et al.) CVPR,2014年]
調準ConvNet矩陣學習
Facebook上使用自動標註
每天800萬張照片
矩陣學習與暹羅架構
Contrative目標函數,相似的對象應產出相距較近輸出產物,不相似對象應產出相距較遠輸出產物,通過學習和恆定的定位來減少維度,[喬普拉等,CVPR2005年][Hadsell等,CVPR2006年]
如果你覺得通信頭條的微信不錯,請長按以下二維碼關注。投稿、合作加小編微信 txttiao
人物識別與姿勢預測
圖像說明:生成描述性句子
C3D:3D ConvNet視頻分類
分割與局部化對象(DeepMask)
[Pinheiro, Collobert, Dollar ICCV 2015年]
ConvNet生成物件面部模型
DeepMask++ 建議
識別路線
訓練
通過8x4克卜勒(Kepler)GPUs與彈性平均隨機梯度下降算法(EASGD)運行2.5天後[張, Choromanska, LeCun,NIPS2015年]
結果
監控下的ConvNets製圖
使用ConvNets產生圖像
監控下的ConvNets製圖
繪製椅子,在特徵空間的椅子算法
ConvNets語音識別
語音識別與卷積網絡(紐約大學/IBM)
聲學模型:7層ConvNet。5440萬參數。
把聲音信號轉化為3000個相互關連的次音位類別
ReLU單位+脫離上一層級
經過GPU 4日訓練
語音識別與卷積網絡(紐約大學/IBM)
訓練樣本。
40 Mel頻率倒譜係數視窗:每10微秒40幀
語音識別與卷積網絡(紐約大學/IBM)
第一層卷積矩陣,9x9尺寸64矩陣
語音識別與卷積網絡(紐約大學/IBM)
多語言識別,多尺度輸入,大範圍視窗
ConvNets無處不在(或即將無處不在)
ConvNet晶片
目前NVIDIA,英特爾(Intel), Teradeep,Mobileye, 高通(Qualcomm)及三星(Samsung)正在開發ConvNet 晶片
很多初創公司:Movidius, Nervana等
在不久的將來,ConvNet將會駕駛汽車
NVIDIA:基於ConvNet技術的駕駛員輔助系統
驅動-PX2(Drive-PX2):駕駛員輔助系統的開源平臺( =150 Macbook Pros)
嵌入式超級計算機:42TOPS(=150臺MacBook Pro)
MobilEye:基於ConvNet技術的駕駛員輔助系統
配置於特斯拉(Tesla)S型和X型產品中
ConvNet連接組學[Jain, Turaga, Seung,2007年]
3DConvNet體積圖像,使用7x7x7相鄰體素來將每一個體素標註為「膜狀物」或「非膜狀物」,已經成為連接組學的標準方法
腦部腫瘤檢測
級聯輸入CNN架構,802,368 個參數,用30位患者來進行訓練,BRAT2013上顯示的結果狀況
預測DNA/ RNA - ConvNets蛋白質結合
「通過深度學習預測DNA- 與RNA-結合的蛋白質序列特異性」-2015年7月,自然生物技術,作者:B Alipanahi, A Delong, M Weirauch, BFrey
深度學習無處不在(ConvNets無處不在)
在臉書(Facebook)、谷歌(Google)、微軟(Microsoft)、百度、推特(Twitter)及IBM等上的許多應用程式。
為照片集搜索的圖像識別
圖片/視頻內容過濾:垃圾,裸露和暴力。
搜索及新聞源排名
人們每天上傳8億張圖片到臉書(Facebook)上面
(如果我們把Instagram,Messenger and Whatsapp計算在內,就是每天20億張圖片)
臉書(Facebook)上的每一張照片每隔2秒就通過兩個ConvNets
一個是圖像識別及標註;
另一個是面部識別(在歐洲尚未激活)
在不久的將來ConvNets將會無處不在:
自動駕駛汽車,醫療成像,增強現實技術,行動裝置,智能相機,機器人,玩具等等。
思考的向量
「鄰居的狗薩摩耶犬看起來好像西伯利亞哈士奇犬」思考的向量
「鄰居的狗薩摩耶犬看起來好像西伯利亞哈士奇犬」
嵌入的世界
iNSTAGRAM 嵌入視頻
用「思考的向量」來代表世界
任何一個物件、概念或「想法」都可以用一個向量來代表
[-0.2, 0.3, -4.2, 5.1, …..]代表「貓」的概念
[-0.2, 0.4, -4.0, 5.1, …..]代表「狗」的概念
這兩個向量是十分相似的,因為貓和狗用許多共同的屬性
加入推理來操控思考向量
對問題、回答、信息提取及內容過濾的向量進行比較
通過結合及轉化向量來進行推理、規劃及語言翻譯
內存存儲思考向量
MemNN (記憶神經網絡)是一個很好的例子
在FAIR, 我們想要「把世界嵌入」思考向量中來
文字能嵌入嗎?
[Bengio2003年] [Collobert與韋斯頓(Weston),2010年]
通過前後的文字來對該文字進行預測
文字能嵌入嗎?
[Bengio2003年] [Collobert與韋斯頓(Weston),2010年]
通過前後的文字來對該文字進行預測
語義屬性的合成
東京-日本=柏林-德國
東京-日本+德國=柏林
問答系統
問答系統
問答系統
LSTM網絡的語言翻譯
多層次極大LSTM遞歸模塊
讀入及編碼英語句子
在英文句末生成法語句子
與現有技術狀態的準確率極其相若
神經網絡如何記憶事物?
遞歸網絡不可以長久記憶事物
皮質只可以持續20秒記憶事物
我們需要「海馬」(一個獨立的記憶模塊)
LSTM [Hochreiter 1997年],寄存器
存儲網絡[韋斯頓(Weston)等,2014年](FAIR),聯想記憶
堆疊增強遞歸神經網絡[Joulin與Mikolov,2014年](FAIR)
NTM [DeepMind,2014年], 「磁帶」.
存儲/堆疊增強遞歸網絡
堆疊增強RNN
弱監控MemNN:
尋找可使用的存儲位置。
內存網絡[韋斯頓(Weston),喬普拉( Chopra),博爾德(Bordes ),2014年]
在網絡中加入短期內存
通往人工智慧的障礙物
(除計算能力以外),人工智慧的四項缺失部分
理論的深度認知學習
深度網絡中的目標函數幾何學是什麼?
為何ConvNet架構這麼好?[(馬拉)Mallat, 布魯納(Bruna), Tygert..]
代表/深度學習與推理、注意力、規劃及記憶的整合
很多研究集中在推理/規劃,注意力,記憶力及學習「算法」
內存增強的神經網絡「可求導的」算法
將監控、非監控及強化學習整合在單一的「算法」內
如果進展順利,波爾茲曼機將會十分有用處。
堆疊的什麼-哪裡自動編碼器,梯形網絡等
通過觀察及像動物及人類生活一樣來發現世界的結構及規律。
神秘的目標函數幾何學
深度網絡與ReLUs及最大匯總
線性轉換存儲棧最大離散操作器
ReLUs點位方法
最大匯總
從一層到另一層開關
深度網絡與ReLUs:目標函數是分段多項式函數
如果我們使用損失函數,增量則取決於Yk。
隨機係數的在w上的分段多項式
a lot:多項式的臨界點位隨機(高斯)係數在球面的分布[本阿魯斯等(Ben Arous et al.)]
高階球面自旋玻璃隨機矩陣理論
隨機矩陣理論
深度網絡與ReLUs:目標函數是分段多項式函數
從多個初始條件中訓練按比例縮小的(10x10)MNIST 2層網路。測量測試集的損失值。
強化學習,監督學習、無監督學習:學習的三種類型
學習的三種類型
強化學習
機器偶爾會對標量效果進行預測
樣本的一部分字節
監控學習
機器預測每個輸入的種類或數量
每個樣本10到1萬位
非監控學習
機器對任何輸入部分及任何可觀察部分進行預測
在視頻中預測未來鏡頭
每個樣本有數以百萬計的字節
機器需要預測多少信息?
強化學習(車釐子)
機器偶爾會對標量效果進行預測
樣本的一部分字節
監控學習(糖衣)
機器預測每個輸入的種類或數量
每個樣本10到1萬個字節
無監督學習(蛋糕)
機器對任何輸入部分及任何可觀察部分進行預測
在視頻中預測未來鏡頭
每個樣本有數以百萬計的字節
無監督學習是人工智慧的「黑箱」
基本所有動物及人類進行的學習都是無監督學習。
我們通過觀察了解世界的運作;
我們學習的世界是三維立體的
我們知道物體間可以獨立運動;
我們知道物體的恆久性
我們學習如何預測從現在開始一秒或一小時後的世界
我們通過預測性非監控學習來構建世界模型
這樣的預測模型讓我們有了「常識」的認知
無監督學習讓我們了解到世界的規律。
通過非監控學習而得到的常識
通過對世界預測模型的學習讓我們掌握了常識;
如果我們說:」Gérard拿起包離開房間」, 你能夠推測出:
Gérard起立,伸展手臂,向門口走去,打開門,走出去。
他以及他的包已經不會在房間裡
他不可能消失或飛了出去
非監控學習
以能量為基礎的非監控學習
能量函數:取數據流的最低值,取其他地方的最高值
如果是所需能量輸出,則向下按;
其他情況,則向上按;
生成對抗的網絡
拉普拉斯(Laplacian) GAN:拉埃甘(又名EYESCREAM)
學習生成圖像[丹頓等人(Denton et al.),NIPS2015年]
發生器產出拉普拉斯金字塔係數代表的圖像
鑑別器學習如何區分真假拉普拉斯圖像。
「EyeScream」
「EyeScream」/「LAPGAN」
發現規律
DCGAN:通過對抗訓練來生成圖像
[雷德福(Radford),梅斯(Metz),Chintala, 2015年]
輸入:隨機數字;
輸出:臥室
導航流
DCGAN:通過對抗訓練來生成圖像
用漫畫人物來訓練
人物之間的插入
面部代數(在DCGAN空間)
DCGAN:通過對抗訓練來生成圖像
[雷德福(Radford),梅斯(Metz),Chintala,2015年]
無監督學習:視頻預測
無監督學習是人工智慧的黑箱
無監督學習是能夠提供足夠信息去訓練數以十億計的神經網絡的唯一學習形式。
監督學習需要花費太多的標註精力
強化學習需要使用太多次的嘗試
但是我們卻不知道如何去進行非監控許誒下(甚至如何將其公式化)
我們有太多的想法及方法
但是他們並不能很好的運作
為何那麼難?因為世界本來就是不可預測的。
預測器產出所有未來可能的平均值-模糊圖像
ConvNet多尺度視頻預測
4到8框架輸入→無需匯總的ConvNet→1到8框架輸出
無法使用開方誤差:模糊預測
世界本來就是無法預測的,mse訓練預測未來可能情況的平均值:模糊圖像
ConvNet多尺度視頻預測
ConvNet多尺度視頻預測
ConvNet多尺度視頻預測
與使用LSTM的人[Srivastava等, 2015年]做比較
無監督學習預測
在「對抗訓練」中已經取得了一些成果
但是我們離一個完整的解決方案還相距甚遠。
預測學習
機器智能與人工智慧將會有很大不同
人工智慧會是什麼樣子呢?
人類和動物行為擁有進化過程與生俱來的驅動力
抗戰/飛行,飢餓,自我保護,避免疼痛,對社交的渴求等等
人類相互之間做錯誤的事情也是大部分因為這些驅動力造成的。
受威脅時的暴力行為,對物質資源及社會力量的渴求等等。
但是,人工智慧系統並沒有這些驅動力,除非我們在系統裡進行配置。
在沒有驅動力情況下,我們很難去對智能實體進行想像
儘管在動物世界裡我們有許多的例子。
我們如何調整人工智慧的「道德價值」使其與人類價值保持一致?
我們將建立一些基本的、不可改變的固有驅動力:
人類培訓師將會把使周圍人類開心及舒適的行為與獎勵聯繫起來。
這正是兒童(及社會性動物)如何學習在社會中變得講規矩
我們能夠預防不安全的人工智慧嗎?
是的,就如同我們防範存在潛在危險的飛機及汽車一樣
與人類同等級的人工智慧如何產生?
與人類同等級的人工智慧的出現不會是一個孤立「事件」。
它會是漸進式的
它也不會孤立發生
沒有任何機構可以在好的想法上面存在壟斷。
先進的人工智慧現在是一個科學性的問題,而不是一個技術性的挑戰。
建立無監督學習是我們最大的挑戰
個人的突破將會很快被複製
人工智慧研究是一個全球性的團體。
大部分好的點子來自學術屆
儘管另人最印象深刻的應用程式來自行業
區分智能與自主化是十分重要的
最智能的系統並不是自主化的。
結論
深度學習正在引領應用程式的浪潮
如今:圖像識別、視頻認知:洞察力正在運作
如今:更好的語言識別:語言識別正在運作
不久的將來:更好的語言理解能力,對話及翻譯將成為可能
深度學習與卷積網絡正在被廣泛使用
如今:圖像理解能力已經在臉書、谷歌、推特和微軟中被廣泛應用
不久的將來:汽車自動駕駛、醫療圖像分析,機器人的感知能力將成為可能
我們需要為嵌入式應用程式找到硬體(與軟體的)
對於數位相機、手機設備、汽車、機器人及玩具而言。。
我們離發明真正智能的機器還相距甚遠。
我們需要將推理與深度學習整合在一起。
我們需要一個很好的「情節化」(短期)內存。
我們需要為無監督學習找到好的理論原理做支撐。
如果你覺得通信頭條的微信不錯,請長按以下二維碼關注。投稿、合作加小編微信 txttiao