秦隴紀10彙編,關注後菜單項科學Sciences分類頁
(打賞後「閱讀原文」可下37k字12圖18頁PDF)
簡介:本文全方位介紹機器學習開創者、開闢機器學習子領域「深度學習」的「神經網絡之父」、「加拿大黑手黨」、人工智慧領域教父、谷歌大腦團隊神級人物、多倫多大學Vector Institute(向量學院)首席科學顧問、英國皇家學會FRS院士、美國人工智慧協會AAAI院士——Geoffrey Hinton傑弗裡·欣頓教授,國內媒體說的人工智慧三大奠基人Geoffrey Hinton、Yann LeCun與Yoshua Bengio之一。AI時代即將開啟,新來者猶可追趕。我們先了解一下這位業界教父傳記,再看一下Geoffrey Hinton深度學習技術,以及Hinton教授深度學習論文單。
來源:多倫多大學、Geoffrey Hinton個人主頁、維基百科Geoffrey Hinton、知乎、微信群公號等彙編,出處請看參考文獻。版權聲明:科普文章,公開資料©版權歸原作者所有。僅供學習研究,請勿用於商業非法目的。如出處有誤或侵權,請聯繫溝通、授權或刪除事宜,聯繫郵箱:DataSimp@126.com。
目錄
神經網絡之父Geoffrey Hinton傑弗裡·欣頓跨過人工智慧寒冬談深度學習[附深度學習論文表](19794字)1
1神經網絡之父Geoffrey Hinton傑弗裡·欣頓教授Biography傳記(7468字)1
2Geoffrey Hinton傑弗裡·欣頓跨過人工智慧寒冬談深度學習[17](11904字)8
3Geoffrey Hinton個人主頁上的深度學習論文列表[30篇](383字)15
參考文獻(569字)16
Appx(1030字).數據簡化DataSimp社區會議,譯文志願者17
【「數據簡化DataSimp、科學Sciences、知識簡化」公眾號希望聚集各專業領域一線研究員;研究技術時也傳播知識、專業視角解釋和普及科學現象和原理,展現自然社會生活之科學面;並在知識爆炸、信息爆炸的時代,做相應的力所能及的簡化工作。公眾號由秦隴紀發起,參與者約十人,尚未覆蓋各領域科普及簡化;空閒時間有限,每周只能發幾篇文章。期待大家參與~】
神經網絡之父Geoffrey Hinton傑弗裡·欣頓跨過人工智慧寒冬談深度學習[附深度學習論文表](19794字)
1神經網絡之父Geoffrey Hinton傑弗裡·欣頓教授Biography傳記(7468字)AI時代即將開啟,新來者猶可追趕。本文全方位介紹機器學習開創者、開闢機器學習子領域「深度學習」的「神經網絡之父」、「加拿大黑手黨」、人工智慧領域教父、谷歌大腦團隊神級人物、多倫多大學向量學院首席科學顧問、英國皇家學會FRS院士、美國人工智慧協會AAAI院士——Geoffrey Hinton傑弗裡·欣頓教授,國內媒體說的人工智慧三大奠基人Geoffrey Hinton、Yann LeCun與Yoshua Bengio之一。
圖1 神經網絡之父Geoffrey Hinton傑弗裡·欣頓
傑弗裡·埃佛勒斯(珠穆朗瑪峰)·欣頓(Geoffrey Everest Hinton),是1947年12月6日英國出生的加拿大認知心理學家和計算機科學家,愛丁堡大學人工智慧博士,目前是多倫多大學特聘教授,以他的人工神經網絡(artificial neural networks)而出名,被稱為「神經網絡之父」、「深度學習鼻祖」。[14]2012年,Hinton獲得加拿大基廉獎(Killam Prizes,有「加拿大諾貝爾獎」之稱的國家最高科學獎)。2013年,Hinton加入谷歌AI團隊,將神經網絡帶入應用一線、把他的成名作Back Propagation(反向傳播)算法應用到神經網絡與深度學習。「深度學習」從邊緣課題變成谷歌等網際網路巨頭核心技術,從而使得業界掀起一輪又一輪爭奪AI核心技術制高點的熱潮。[15]截至2015年,他的工作時間花在了谷歌和多倫多大學。[16]他是第一個證明了廣義反向傳播算法(BP算法Generalized Back Propagation Algorithm)訓練多層神經網絡的應用研究人員,是深度學習(deep learning)社區重要人物。[17][18][19]
1.1 傳記Biography簡介
Geoffrey Everest Hinton傑弗裡·埃佛勒斯[世界最高峰珠穆朗瑪峰]·欣頓[英格蘭人姓氏],1947年12月6日(今年70歲)[3],倫敦London溫布爾登Wimbledon出生,現在住在加拿大多倫多。研究領域:機器學習Machine learning,神經網絡Neural networks,人工智慧Artificial intelligence,認知科學Cognitive science,物體識別Object recognition[4]。機構:多倫多大學University of Toronto,谷歌Google,卡內基·梅隆大學Carnegie Mellon University,英國倫敦大學學院University College London。個人網站:www.cs.toronto.edu/~hinton/。
母校:劍橋的國王學院King's College,Cambridge(BA文學士),愛丁堡大學University of Edinburgh(PhD博士);畢業論文:放鬆及其在視覺中的作用Relaxation and its role in vision(1977);博士生導師:克里斯多福龍格-希金斯Christopher Longuet-Higgins[5][6][7]。
博士生(26名以上):①David Ackley[7],②Peter Brown,③Richard Szeliski,④Mark Derthick[8],⑤Kevin Lang,⑥Steven Nowlan,⑦David Plaut,⑧Sidney Fels[5],⑨Sue Becker,⑩Richard Zemel[5][9], Carl Rasmussen[5], Chris Williams, Brendan Frey[10], Radford M.Neal[11], Radek Grzeszczuk, Brian Sallans, Sageev Oore, Alberto Paccanaro, Yee Whye Teh[5], Ruslan Salakhutdinov[12], Ilya Sutskever[13], George Dahl, Navdeep Jaitly, 其他著名學生:Yann LeCun(postdoc),Zoubin Ghahramani(postdoc)。後續篇章專門介紹其博後Yann le Cun大神。
成名作:反向傳播B-P(Backpropagation可表示一種神經網絡算法,例如:B-P網絡),波爾茲曼機Boltzmann machine,深度學習Deep learning。
著名獎項:Fellow of the Royal Society<英>皇家學會FRS院士(1998)[14],美國人工智慧協會AAAI Fellow院士(1990),魯梅哈特獎Rumelhart Prize(2001),IJCAI Award for Research Excellence頂級優秀科研獎(2005),<美>電器和電子工程師學會Institute of Electrical and Electronic Engineers弗蘭克·羅森布拉特獎IEEE Frank Rosenblatt Award(2014),西班牙對外銀行基金會前沿知識獎BBVA Foundation Frontiers of Knowledge Award(2016)。
1.2 教育Education學習生涯
Geoffrey Hinton出生於溫布爾登,在布里斯托長大,上的是英國公立學校,他表示「我在學校數學不是特別好。我喜歡物理學和足球。」1960年代高中時,一個朋友告訴他,人腦的工作原理就像全息圖一樣。創建一個3D全息圖,需要大量記錄入射光被物體多次反射的結果,然後將這些信息存儲進一個龐大的資料庫中。大腦儲存信息的方式居然與全息圖如此類似,大腦並非將記憶儲存在一個特定的地方,而是在整個神經網絡裡傳播。Hinton為此深深的著迷。對Hinton來說是他人生的關鍵,也是他成功的起點。
但Hinton求學、最求他的AI理想之路很不平坦。Hinton先入克利夫頓大學,畢業後進入劍橋的國王學院攻讀物理和化學,但僅讀了一個月後就退學了。他談到:「我那時候18歲,第一次離開家自己生活。當時的工作十分繁重,周圍沒有任何女孩,我感到有些壓抑。」一年後,他再次申請攻讀建築學,結果到建築學上了一天課,他又轉而攻讀物理學和生理學,但發現物理數學太難又退學了。此後,他又改讀哲學,轉而把兩年的課壓到一年學習哲學。但因為與他的導師發生爭吵而告終。在回憶這段經歷的時候,Hinton表示「那一年對我來說受益良多。彼時我對哲學仿佛產生抗體,因而想了解思維是如何運轉的。」隨後,他研讀心理學,發現「心理學對意識也一無所知。」1967年-1970年,劍橋大學國王學院(King's College,Cambridge)實驗心理學榮譽學士(Bachelor of Arts in experimental psychology)畢業。[3]
他承認道:「我有一種教育上的多動症。」此後,Hinton並沒有繼續完成他的學業,而是退學後搬到了北倫敦的伊斯靈頓區成為一個包工木匠,那裡當時混亂不堪。他說道:「我做過一些貨架、懸吊門這些沒什麼特別的東西。人們都是靠做這類東西賺錢。」每個星期六早上,他都會去伊斯靈頓的埃塞克斯路圖書館,在他筆記本裡匆匆記下關於大腦工作原理的理論。[38]
這樣折騰了幾年Hinton回到學術界。當了一年木匠之後,1972年開始在愛丁堡大學(the University of Edinburgh)繼續他的神經網絡研究探索,攻讀愛丁堡大學Christopher Longuet-Higgins麾下人工智慧博士學位。Christopher Longuet-Higgins桃李滿天下,包括諾貝爾獎獲得者John Polanyi,多倫多大學化學家和理論物理學家Peter Higgs等。Hinton當時就認為神經網絡的概念會是大勢,但導師依然站在傳統的AI陣營裡。「每周我和導師都會發生激烈爭辯」Hinton說,「我一直堅持自己的想法,對導師說,『好吧,再給我六個月,我會證明給你看的』。然後六個月過去了,我會說『快了快了,再給我半年時間吧』。之後,我索性說『再給我五年吧』,人們都說,你已經做了五年,但它並不管用。最終,它還是奏效了。」
Hinton從未對神經網絡產生過懷疑「我從來沒有懷疑過,因為大腦一定是以某種形式工作,而且並不根據既定的編程」。1975年獲得由克里斯多福·朗吉特·希金斯(Christopher Longuet Higgins)指導的人工智慧博士(a PhD in artificial intelligence)。[5][20]
後來,他轉到美國匹茲堡的卡內基梅隆大學繼續進行他自己的研究,但很快意識到他所在院系及整個美國大部分AI研究工作是美國國防部(DoD)資助的。於是他毅然辭職抗議,並搬到基本無軍事資助的加拿大。他表示:「我離開時帶走了一美分硬幣,並用一臺施樂複印機將它放大,然後把它掛在了我的辦公室門上。但是我把其中的G改成了D——上面那句話就變成了in DoD we trust(我們信賴國防部)。」[38]
1.3 職業生涯Career經歷
博士畢業後,他在瑟賽克斯大學(the University of Sussex)、加利福尼亞大學聖地牙哥分校(the University of California, San Diego),卡內基梅隆大學(Carnegie Mellon University)工作過。[3]他曾是英國倫敦大學學院(University College London)計算神經科學部(Computational Neuroscience Unit)蓋茨比慈善基金會(the Gatsby Charitable Foundation)創始董事(the founding director)[3],目前[21],是多倫多大學(the University of Toronto)計算機科學系教授。他擔任機器學習加拿大研究主席(a Canada Research Chair in Machine Learning)。他是加拿大高等研究所(the Canadian Institute for Advanced Research)資助的「神經計算和自適應感知(Neural Computation and Adaptive Perception)」項目主任。2012年,Hinton曾在教育平臺Coursera上教授神經網絡(Neural Networks)免費在線課程。[22]2013年3月Hinton的公司DNN research公司被谷歌收購,他也加入了谷歌。他計劃把時間分配到他所在的大學的研究和在谷歌的工作」。[23]
Jan76-Sept 78研究員,蘇塞克斯大學認知研究項目,英國
Oct78-Sept 80訪問學者,加利福尼亞大學聖地牙哥分校認知科學項目,美國
Oct80-Sept 82科學主任(Scientific Officer),劍橋大學MRC應用心理學單位,英國
Jan82-June 82客座助理教授,加利福尼亞大學聖地牙哥分校心理學系,美國
Oct82-June 87助理教授那副教授,卡內基梅隆大學計算機科學系,美國
Jul 87-June 98教授,多倫多大學計算機科學系,加拿大
Jul 98-Sep 01計算神經科學部創始主任,倫敦大學,英國
Oct01-now教授,多倫多大學計算機科學系,加拿大
Mar 13-sep 16傑出研究員,谷歌公司(兼職)
Oct 16-now工程副總裁,Google(兼職)
在美國幾所學校輾轉後,1987年Hinton到多倫多大學任教,主要基於兩個考慮:首先是加拿大高級研究所的資助;另外則頗反戰傾向「我不想從美國軍方拿錢,美國研發AI的大部分資金來自軍方」。
1.4 研究領域Research簡述
Hinton教授是機器學習的開創者,使得計算機可以獨立模擬出程序、自己解決問題。特別重要的是,他從中開闢了機器學習子領域——深度學習:讓那些機器像一個蹣跚學步的孩子一樣,模仿大腦的神經網絡形式。這意味著計算機可以自動構建一層層智慧網絡。隨著近年強大處理技術的出現,這種深度學習框架經歷了巨大的變革,現已成為主流方法:從我們的智慧型手機中的語音識別模式,到圖像檢測軟體,再到亞馬遜為用戶推薦購買哪本圖書,全都離不開深度學習。
人工智慧寒冬:傳統概念AI依賴邏輯和規則給計算機編程。1960年代,人工智慧嘗試依然處於理論階段,遠未開始實踐。神經網絡的想法並不受待見,Hinton表示「傳統的思路無疑更受關注和信任」。1970年代導師都不看好的艱難時期,Hinton一直對神經網絡保持信心。1980年代,Hinton參與使用計算機模擬大腦的研究,這也便是如今所說「深度學習」概念。然而學術期刊因為不認可神經網絡這一理念而頻頻拒收論文,30多年漫長黑夜後,等到人工智慧黎明。他將神經網絡算法的演算過程與人腦思維方式相比擬,人工智慧寒冬後再一次為人所知,並像電一樣逐漸滲透入人們的生活。[33]
神經網絡翻身仗:過去幾年,隨著計算能力大幅提升,學術界觀念開始改變。2009年HintonHinton以及他兩個研究生D.Mohamed等,用神經網絡應用於語音的聲學建模,在小詞彙量連續語音識別資料庫TIMIT上,獲得了語音識別競賽勝利,隨後這項基於神經網絡的方法被應用於谷歌安卓手機上。2012年他的另兩個學生Alex Krizhevsky等,輕易地奪得ImageNet圖像識別大賽冠軍,達到了人類的水平,刷新了image classification記錄,在這次競賽中Alex所用的結構被稱為AlexNet。[34]
從2009年到2013五年間,隨著他學生還有無數研究者所做出的一系列貢獻,Hinton在深度學習所做的研究開始為人所知並接受,也被人們推舉為計算新時代領頭人。神經網絡現在幾乎涵蓋了所有的人工智慧算法,並藉助科技企業的各類應用傳播開來。
Hinton為解釋神經網絡如何工作,以翻譯程序為例,給計算機提供海量的單詞及片段。系統會對句子的含義進行理解,隨後輸入另一個神經網絡中,後者會輸出另一種語言的句子。在這個過程中,系統不會涉及編程或語言規則,此外,神經網絡甚至還能自行掌握主動句及被動句的區別。
神經網絡特點:「並沒有人告訴神經網絡這兩個概念是什麼,就像小孩一樣,你不會告訴他們『這個是主動,這個是被動。』過段時間,他們自然就明白了。神經網絡也是如此。」
Hinton的研究方法是基於神經網絡的機器學習、記憶方法、認知和符號處理。他在這些領域中撰寫或合著過200多篇同行評議的出版物。[4][24]他是最早使用廣義反向傳播算法(generalized back-propagation algorithm)訓練多層神經網絡(multi-layer neural networks)的研究人員之一,該神經網絡已廣泛應用於實際應用。他與大衛·艾克利(David Ackley)和特裡·賽傑諾斯基(Terry Sejnowski)一起,發明了波爾茲曼機(Boltzmann machines)[25]
他對神經網絡研究的其他貢獻包括分布式表徵(distributed representations)、時延神經網絡(time delay neural network)、專家混合(mixtures of experts)、亥姆霍茲機器(Helmholtz machines)和專家產品(Product of Experts)。2007年Hinton合著了一篇題為「圖像變換的無監督學習Unsupervised learning of image transformations」無監督學習論文。[26]在1992年9月和1993年10月Scientific American科學美國人雜誌Geoffrey Hinton文章中,可以找到他研究相關的可訪問介紹。
Hinton屬於神級存在:他被人們譽為「人工智慧(AI)教父」,而這項已經引發全球性變革的新技術背後,與其聰明才智密不可分。他帶過的學生陸續被矽谷挖走,分別在蘋果、Facebook和Google這類的科技巨頭公司裡領導著人工智慧領域的研究工作,而他自己也被Google聘請為公司副總裁,主管工程設計部門。
儘管在北美呆了多年,Geoffrey Hinton教授仍舊操著一口標準英式口音說「被稱為『教父』我感覺有一些難為情。」他笑著表示「我對我自己的數據有一種裡根式的篤信。」而正是Geoffrey Hinton對自己的工作成果不可動搖的信念,促使他從學術生涯多年的不得志走到了當前最熱門的AI前沿。
Hinton及其同事們的工作挖掘出了機器學習的無限潛力,他們也被其競爭對手戲稱為「加拿大黑手黨」。
近期,Geoffrey Hinton帶領谷歌大腦團隊推出了新作:通過給個體標籤建模來提高分類能力,同時也展示了通過採用這種標記方法我們提升了計算機輔助診斷糖尿病導致視網膜病變的準確度。谷歌大腦團隊提供了一種創新的方法,以處理那些數量巨大的、需要藉助專家來標記標籤的現實數據。
同時,Geoffrey Hinton所在的多倫多大學宣布成立一個專注於人工智慧研究的獨立研究機構——向量學院(Vector Institute)。他作為多倫多大學計算機系名譽教授被任命為首席科學顧問將在這裡開展人工智慧研究,執掌多倫多新募集1.8億美元資金的向量學院。Hinton所擔負起的,是吸引更多人才並致力於將多倫多建設成一個全球人工智慧的中心,以鞏固這座城市在人工智慧領域全球領導者的地位。
Hinton的這個團隊也會是Google Brain的一個延伸,而恰巧在去年底,Google早已宣布在蒙特婁開設了一個Google Brain的分部。Hinton博客自我介紹:I am an Engineering Fellow at Google where I manage Brain Team Toronto,which is a new part of the Google Brain Team and is located at Google's Toronto office at 111 Richmond Street.Brain Team Toronto does basic research on ways to improve neural network learning techniques.I am also the Chief Scientific Adviser of the new Vector Institute.介紹了他是Google多倫多腦科學團隊工程師,該團隊主要是做一下提高神經網絡性能的基礎研究。同時也是多倫多大學新成立的向量學院(Vector Institute)的首席科學顧問。
2017年Hinton一半時間在多倫多大學教書,一半時間在Google建設神秘的Google大腦。多倫多大學向量學院建成前,Hinton在多倫多大學及谷歌多倫多大學辦公室同時進行授課及研究工作。雖然做出了劃時代貢獻,但他工作場所卻依然簡單——谷歌多倫多市中心總部辦公室狹小而簡樸,根本沒有座椅,69歲的Hinton教授喜歡一直站著。桌子背後是一塊寫滿公式的白板,記者到訪的時候,甚至找不到一把多餘椅子。採訪中Hinton不願意多費口舌,但卻詳細描述神經網絡擁護者及傳統人工智慧支持者間的觀點爭論。[34]
Geoffrey Hinton教授有著所有英國學者的典型外貌特徵:一頭蓬亂的頭髮,皺巴巴的襯衫,像個不修邊幅的人。襯衫前口袋裡還插著一排原子筆,守著一個巨大且髒亂的白板,白板上寫滿了各種複雜難解的方程式。
儘管只要招聘到一名神經網絡教授,用於人工智慧研究的谷歌百萬級經費就會撥到多倫多大學,但大學卻遲遲沒有這樣做。傳統的高校學術機構獲得了大量的資源,也比之前有了更多的自由調配研究資金,目前研究者們似乎陷入了盲目追逐神經網絡的潮流。「如今神經網絡理論開始奏效,因而工業界及政府也開始將神經網絡當作人工智慧。以前整天嘲笑神經網絡的AI研究者們也樂在其中,並計劃從中分一杯羹。」Hinton教授在訪談期間喜歡摸鼻子(行為心理學上,這種行為有緩解個人情緒的作用。)他對川普做出了負面評論,又向旁邊的谷歌公關表示歉意。[35]
1.5 榮譽和獎勵Honours and awards及榮譽學位
2016年NEC公司C#和C語言獎;
2016年西班牙對外銀行基金會BBVA Foundation知識前沿獎Frontiers of Knowledge Award(2016),在信息和通信技術類「他的開創性的和極具影響力的工作」賦予機器學習的能力;
2016年IEEE/RSE傑姆斯·克拉克·麥克斯韋(James Clerk Maxwell Award)獎[31];
2016年,國家工程院(a foreign member of National Academy of Engineering)的外籍院士,在人工神經網絡及其應用、語音識別和計算機視覺中的理論和實踐貢獻。"For contributions to the theory and practice of artificial neural networks and their application to speech recognition and computer vision"[30];
2014年IEEE弗蘭克·羅森布拉特(Frank Rosenblatt medal)獎;
2013年謝布魯克大學(University of Sherbrooke)榮譽博士學位;
2012年加拿大基拉姆(Killam Prize)工程獎;
2010年格哈德·赫茨伯格(Gerhard Herzberg Gold Medal )加拿大理工科金獎[29];
2011年瑟賽克斯大學(University of Sussex)科學博士榮譽學位;
2005年International Joint Conference on Artificial Intelligence國際人工智慧聯合會議IJCAI卓越研究終身成就獎;
2001年英國愛丁堡大學(University of Edinburgh)科學博士榮譽學位;
2001年戴維E.魯梅哈特獎(The David E.Rumelhart Prize)首位獲獎者[27];
1998年IEEE神經網絡先鋒獎(Neural Networks Pioneer Award);
1992年ITAC/NSERC學術優秀獎;
1990年IEEE信號處理學會(Signal Processing Society)高級獎;
團體Fellowship如下:
2016美國國家工程院名譽外國成員Honorary Foreign Member of the US National Academy of Engineering;
2015名譽外國成員的西班牙真正的學術工程Honorary Foreign Member of the Spanish Real Academia de Ingenieria;
2014加拿大高級研究所傑出研究員Distinguished Fellow,Canadian Institute for Advanced Research;
2003美國藝術和科學院名譽外國成員Honorary Foreign Member of the American Academy of Arts and Sciences;
2003認知科學學會研究員Fellow of the Cognitive Science Society;
1998皇家學會研究員Fellow of the Royal Society(FRS)[14]FRS當選證書寫到:「Geoffrey E.Hinton is internationally distinguished for his work on artificial neural nets,especially how they can be designed to learn without the aid of a human teacher.This may well be the start of autonomous intelligent brain-like machines.He has compared effects of brain damage with effects of losses in such a net,and found striking similarities with human impairment,such as for recognition of names and losses of categorization.His work includes studies of mental imagery,and inventing puzzles for testing originality and creative intelligence.It is conceptual,mathematically sophisticated and experimental. He brings these skills together with striking effect to produce important work of great interest.[28]」;
1996加拿大皇家學會研究員Fellow of the Royal Society of Canada;
1991人,人工智慧促進協會Fellow,Association for the Advancement of Artificial Intelligence;
1987名,加拿大高級研究所(1987-1998年;2004-2014年)Fellow,Canadian Institute for Advanced Research(1987-1998;2004-2014)。
圖5 在2016年從左到右Russ Salakhutdinov,Richard S.Sutton,Geoffrey Hinton,Yoshua Bengio和Steve Jurvetson
統計時間截止到2016年11月,Hinton署名文章報告共計327篇!
1.6 Geoffrey Hinton家族及其Personal life個人生活
Geoffrey Hinton出生於戰後英國的溫布爾登,他們一家都流淌著飽含聰明才智的DNA:叔叔Colin Clark是著名經濟學家——發明GDP「國民生產總值」這個經濟學術語,曾曾祖父George Boole是著名邏輯學家——提出的布爾代數(Boolean algebra)奠定了現代計算機科學基礎。Hinton是布爾和外科醫生和著作家James Hinton的增增孫(the great-great-grandson)。[32]父親Howard Everest Hinton是英國昆蟲學家,喜歡研究甲殼蟲;[33]母親Margaret是一位數學教師。他的中間名來自另一個親戚George Everest。[34]
Hinton第一任妻子Ros在1994年因卵巢癌逝世,留下他獨自撫養照顧他們收養的兩個年幼的孩子。後來,他與其現任妻子Jackie再婚。據說Jackie現在被診斷出患有胰腺癌。
1.7 既擔心AI惡果、也期望AI未來
開啟人工智慧時代,將改變我們的生活方式、利益分配方式。這些改變,有好也有壞。Hinton的2個擔心:
一、相比人們對機器日益提升的智能程度擔憂,對人類而言,Hinton表示更為緊迫的威脅是殺手機器人的開發。為強調這一點,116家AI公司創始人聯合籤署請願書,呼籲禁止製作殺人機器人、當前研發「無人機群」等致命機器人武器。Hinton以前籤署過Campaign to Stop Killer Robots請願書,呼籲聯合國禁止使用會對生命產生威脅的AI武器。其中這樣寫道「我認為這一點是最為聳人聽聞的。而且不是發生於遙遠的未來,而是近在咫尺」。還鄭重地給英國國防部寫信闡述他對此的擔憂。他談到:「(英國國防部)回覆說現在還沒必要對此做出什麼處理,因為人工智慧技術的發展仍任重而道遠,而且不管怎麼說,它們還有可能會帶來很多益處。不過,他們肯定有能力做到這一點。」
二、他還擔心人工智慧會越來越多地被用於政府對平民的監視。他透露,曾因擔心所在研究會被安全部門濫用,拒絕了一份在加拿大相當於美國國家安全局董事會的工作邀約。關於「AI是否會取代人類」問題,Hinton表示人類確實需要對AI做出一些限制。
Hinton相信AI產生的效益會給人類帶來福音,尤其是在醫療和教育領域。AI成果將使醫學變得更加高效。他設想,沒多久,每個人都能100美元獲取自己基因圖譜(目前該項費用為1000美元)。對於放射科醫生而言,AI的發展並不是個好消息,Hinton認為X射線檢測工作可能很快就會被大量機器人取代。他預見,AI會在醫生診斷疾病或皮膚癌等領域發揮良好的作用,而且它也會成為人類的好幫手,提醒你準時參加午餐會見,並用常識觀察用戶的行為,如果你忘記了日程內容,它可能會打算打斷你手頭的事情。
大量工作崗位將會消失,Hinton認為,確保人們不會被經濟自動化浪潮拋下是政府和企業的工作和職責。他表示「一個分工明確的組織型社會,提高生產力將使每個人受益。問題不在於技術,而在於利益分配方式。」
大銀行、有限電視及其它公司正在採用AI分析銷售數據,並希望與客戶產生良好的互動。從Facebook離職回多倫多創立Integrate.ai的Steve Irvine就在做類似的事情。他表示「我認為再多的讚美也毫不為過,他在AI的低谷期也一直不離不棄,看起來就像一個瘋狂的科學家,而人們也從未預料到AI的今天會是如此……這些被我們談論了20、30年的事情正在發生著,我覺得於他而言,是一個非常好的回饋。在這個世界裡,他是當之無愧的教父。他的成功絕非一日之寒。」
即便是高瞻遠矚如Hinton,他也不知道人工智慧革命接下來會將我們帶向何處。他說「在這個領域,很難預測五年以後的事情,畢竟事情往往並不會像你期待的那樣如期而至。」[35]
不過可以確定的是,正如科研人員所知,人工智慧新世界的大門已經開啟,正在各領域開疆拓土!
2Geoffrey Hinton傑弗裡·欣頓跨過人工智慧寒冬談深度學習[17](11904字)
藉助深度學習、多處理層組成的計算模型可通過多層抽象來學習數據表徵(representations)這些方法顯著推動了語音識別、視覺識別、目標檢測以及許多其他領域(比如,藥物發現以及基因組學)的技術發展。利用反向傳播算法(backpropagation algorithm)來顯示機器將會如何根據前一層的表徵改變用以計算每層表徵的內部參數,深度學習發現了大數據集的複雜結構。深層卷積網絡(deep convolutional nets)為圖像、視頻和音頻等數據處理上帶來突破性進展,而遞歸網絡(recurrent nets)也給序列數據(諸如文本、語言)的處理帶來曙光。[35]本文是Hinton、LeCun、Bengio三巨頭權威科普深度學習,類似美國Jordon泰鬥分享的人工智慧研究的幾個技術方向(①機器學習,像聚類、分類、預測、維數縮減、優化等都是值得研究的方向;②規劃,找出問題最佳解;③人機互動,機器獨立工作,有效促進人機互動。),包括如何讓機器主動向人類學習,眾包來解決複雜問題,以及經濟學和博弈論模型等。
機器學習為現代生活諸多方面帶來巨大動力:從網頁搜索到社交網絡內容過濾再到電商網商推薦,在相機、智慧型手機等消費品中也越來越多見。機器學習系統被用來識別圖像中的物體、將語音轉為文本,根據用戶興趣自動匹配新聞、消息或產品,挑選相關搜索結果。這類被應用程式越來越多地採用的技術,叫做深度學習。
傳統機器學習技術在處理原始輸入的自然數據方面能力有限。幾十年來,建構模式識別或機器學習系統需要利用嚴謹的工程學和相當豐富的專業知識設計出一個特徵提取器,它能將原始數據(例如圖像像素值)轉化成適於內部描述或表徵的向量(vector),在提取器中,學習子系統(通常是一個分類器)可以檢測或分類輸入模式。
表徵學習(representation learning)是這樣一套學習方法:輸入原始數據後,機器能夠自動發現檢測或分類所需的表徵信息。深度學習是一種多層描述的表徵學習,通過組合簡單、非線性模塊來實現,每個模塊都會將最簡單的描述(從原始輸入開始)轉變成較高層、較為抽象的描述。通過積累足夠多的上述表徵轉化,機器能學習非常複雜的函數。就分類任務來說,更高層的表徵會放大輸入信號的特徵,而這對區分和控制不相關變量非常關鍵。比如,圖片最初以像素值的方式出現,第一特徵層級中,機器習得的特徵主要是圖像中特定方位、位置邊沿之有無。第二特徵層級中,主要是通過發現特定安排的邊緣來檢測圖案,此時機器並不考慮邊沿位置的微小變化。第三層中會將局部圖像與物體相應部分匹配,後續的層級將會通過把這些局部組合起來從而識別出整個物體。深度學習的關鍵之處在於:這些特徵層級並非出自人類工程師之手;而是機器通過一個通用general-purpose學習程序,從大量數據中自學得出。
某些根深蒂固的問題困擾了人工智慧從業者許多年,以至於人們最出色的嘗試都無功而返。而深度學習的出現,讓這些問題的解決邁出了至關重要的步伐。深度學習善於在高維度的數據中摸索出錯綜複雜的結構,因此能應用在許多不同的領域,比如科學、商業和政府。此外,除了圖像識別和語音識別,它還在許多方面擊敗了其他機器學習技術,比如預測潛在藥物分子的活性、分析粒子加速器的數據、重構大腦迴路、預測非編碼DNA的突變對基因表達和疾病有何影響等。也許,最讓人驚訝的是,在自然語言理解方面,特別是話題分類、情感分析、問答系統和語言翻譯等不同的任務上,深度學習都展現出了無限光明的前景。
在不久的將來,我們認為深度學習將取得更多成就,因為它只需要極少的人工參與,所以它能輕而易舉地從計算能力提升和數據量增長中獲得裨益。目前正在開發的用於深層神經網絡的新型學習算法和體系結構必將加速這一進程。
監督式學習
不管深度與否,機器學習最普遍的形式都是監督式學習supervised learning。比如說,我們想構造一個系統,它能根據特定元素對圖片進行分類,例如包含一棟房子、一輛車、一個人或一隻寵物。首先,我們要收集大量包含有房子、車、人或寵物的圖片,組成一個數據集data set,每張圖片都標記有它的類別。在訓練時,每當我們向機器展示一張圖片,機器就會輸出一個相應類別的向量。我們希望的結果是:指定類別的分數最高,高於其他所有類別。然而,如果不經過訓練,這將是不可能完成的任務。為此,我們通過一個目標函數來計算實際輸出與期望輸出之間的誤差或距離。接下來,為了減小誤差,機器會對其內部可調參數進行調整。這些可調參數常被稱為「權重」(weight),是實數,可看做定義機器輸入-輸出功能的「門把手」。在一個典型的深度學習系統中,可能存在著成千上億的可調權重及用以訓練機器的標記樣本。
為了正確地調整權重矢量weight vector,學習算法會計算出一個梯度矢量gradient vector。對每一個權重,這個梯度矢量都能指示出,當權重略微增減一點點時,誤差會隨之增減多少量。接著,權重矢量就會往梯度矢量的反方向進行調整。
從所有訓練範例之上,平均看來,目標函數objective function可被視為一片崎嶇的山地,坐落於由權重組成的高維空間。梯度矢量為負值的地方,意味著山地中最陡峭的下坡方向,一路接近最小值。這個最小值,也就是平均輸出誤差最小之處。
在實踐中,大多數業內人士都是用一種被稱為隨機梯度下降SGD-Stochastic Gradient Descent的算法(梯度下降Grident Descent是「最小化風險函數」以及「損失函數」的一種常用方法,「隨機梯度下降」是此類下的一種通過迭代求解的思路——譯者注)。每一次迭代包括以下幾個步驟:獲取一些樣本的輸入矢量input vector,計算輸出結果和誤差,計算這些樣本的平均梯度,根據平均梯度調整相應權重。這個過程在各個從整個訓練集中抽取的小子集之上重複,直到目標函數的平均值停止下降。它被稱做隨機Stochastic是因為每個樣本組都會給出一個對於整個訓練集training set的平均梯度average gradient的噪音估值noisy estimate。較於更加精確的組合優化技術,這個簡單的方法通常可以神奇地快速地找出一個權重適當的樣本子集。訓練過後,系統的性能將在另外一組不同樣本(即測試集)上進行驗證,以期測試機器的泛化能力generalization ability——面對訓練中從未遇過的新輸入,機器能夠給出合理答案。
很多當今機器學習的實際應用都在人工設定的特徵上使用線性分類linear classifiers。一個二元線性分類器two-class linear classifier可以計算出特徵向量的加權和weighted sum。如果「加權和」高於閾值,該輸入樣本就被歸類於某個特定的類別。
二十世紀六十年代以來,我們就知道線性分類只能將輸入樣本劃分到非常簡單的區域中,即被超平面切分的半空間。但是,對於類似圖像及語音識別等問題,要求輸入-輸出函數input–output function必須對輸入樣本的無關變化不敏感,比如,圖片中物體的位置,方向或者物體上的裝飾圖案,又比如,聲音的音調或者口音;與此同時「輸入-輸出函數」又需要對某些細微差異特別敏感(比如,一匹白色的狼和一種長得很像狼的被稱作薩摩耶的狗)。兩隻薩摩耶在不同的環境裡擺著不同姿勢的照片從像素級別來說很可能會非常地不一樣,然而在類似背景下擺著同樣姿勢的一隻薩摩耶和一隻狼的照片在像素級別來說很可能會非常相像。一個線性分類器linear classifier,或者其他基於原始像素操作的淺層shallow分類操作是無論如何也無法將後者中的兩隻區分開,也無法將前者中的兩隻分到同樣的類別裡的。這也就是為什麼「淺層」分類器classifiers需要一個可以出色地解決選擇性-恆常性困境selectivity–invariance dilemma的特徵提取器feature extractor——提取出對於辨別圖片內容有意義的信息,同時忽略不相關的信息,比如,動物的姿勢。我們可以用一些常規的非線性特徵來增強分類器classifiers的效果,比如核方法kernel methods,但是,這些常規特徵,比如高斯核Gaussian Kernel所找出來的那些,很難泛化generalize到與訓練集差別別較大的輸入上。傳統的方法是人工設計好的「特徵提取器」,這需要相當的工程技巧和問題領域的專業知識。但是,如果好的「特徵提取器」可以通過「通用學習程序General-Purpose learning procedure」完成自學習,那麼這些麻煩事兒就可以被避免了。這就是深度學習的重要優勢。
圖1 多層神經網路和反向傳播
a.一個多層神經網絡(如圖所示相互連接的點)能夠整合distort輸入空間(圖中以紅線與藍線為例)讓數據變得線性可分。注意輸入空間的規則網格(左側)如何轉被隱藏單元(中間)轉換的。例子只有兩個輸入單元、兩個隱藏單元和一個輸出單元,但事實上,用於對象識別和自然語言處理的網絡通常包含了數十或成千上萬個單元。(本節引用改寫自C.Olah的http://colah.github.io/.)
b.導數的鏈式法則告訴我們,兩個微小增量(即x關於y的增量,以及y關於z的增量)是如何構成的。x的增量Δx導致了y的增量Δy,這是通過乘以∂y/∂x來實現的(即偏導數的定義)。同樣,Δy的變化也會引起Δz的變化。用一個方程代替另一個方程引出了導數的鏈式法則the chain rule of derivatives,即增量Δx如何通過與∂y/∂x及∂z/∂x相乘使得z也發生增量Δz。當x,y和z都是向量時這一規律也同樣適用(使用雅克比矩陣)。
c.這個公式用於計算在包含著兩個隱層和一個輸出層的神經網絡中的前向傳輸,每個層面的逆向傳遞梯度都構成了一個模組。在每一層,我們首先計算面向每個單元的總輸入值z,即上一層的輸出單元的加權和;然後,通過將一個非線性函數f(.)應用於z來得出這個單元的輸出。為了簡化流程,我們忽略掉一些閾值項bias terms。在神經網絡中使用的非線性函數包含了近些年較為常用的校正線性單元(ReLU)f(z)=max(0,z),以及更傳統的sigmoid函數,比如,雙曲線正切函數,f(z)=(exp(z)−exp(−z))/(exp(z)+exp(−z))和邏輯函數f(z)=1/(1+exp(−z)).
d.該公式用於計算反向傳遞。在每一個隱藏層中,我們都會計算每個單元輸出的導數誤差,即上述層中上一層所有單元輸入的導數誤差的加權總和。然後,將關於輸出的導數誤差乘以函數f(z)的梯度gradient,得到關於輸入的導數誤差。在輸出層中,通過對成本函數進行微分計算,求得關於輸出單元的誤差導數。因此我們得出結論yl-tl如果對應於單元l的成本函數是0.5(yl-tl)2(注意tl是目標值)。一旦∂E/∂zk已知,那麼,就能通過yj∂E/∂zk調整單元j的內星權向量wjk。
圖2 卷積網絡的內部
一個典型的卷積網絡架構的每一層(水平)輸出(不是過濾器)應用到一個薩摩耶犬的圖像(圖2左下方,紅綠藍RGB輸入,下方右側)。每一個長方形圖片都是一張對應於學習到的輸出特徵的特徵地圖,這些特徵可以在圖片的各個位置被偵測到。信息流是從下往上的,低級的特徵充作導向性邊際檢測因子edge detectors,每個輸出圖像類都會被計算出一個分值。ReLU,整流線性單元。
深度學習架構由簡單模組多層堆疊而成,全部(或絕大部分)模組都從事學習,大部分會計算非線性的輸入輸出映射。堆疊架構中的每個模組都會轉換它的輸入,同時增強可選擇性和所呈現狀態的一致性。通過多個非線性層面(例如,深度5-20層),系統可以實現對於輸入數據的極其微小細節的敏感性功能---例如,區別開白色的狼和薩摩耶犬---並且對於較大的無關變量會不敏感(例如,主體周圍的環境、姿勢、光照條件和周圍物體。)
訓練多層架構的反向傳播算法
從最早的模式識別開始,研究者們就一直試圖用可訓練的多層網絡代替人工設計特徵,儘管這種解決方案很簡單,直到20世紀80年代中期,它才得到人們的廣泛認可。事實證明,多層架構可以通過簡單的隨機梯度下降法得以訓練。只要模組是由它們的輸入值及其內部權重構成的相對平滑的函數relatively smooth functions,人們就可以使用反向傳播算法來計算梯度。20世紀70至80年代,幾個不同的研究小組分別發現這一方法確實可行、有用。
計算一個目標函數關於一個多層堆疊模組的權重梯度的反向傳播過程,只不過是導數鏈式法則的一個實際應用。其中關鍵之處在於,關於模組輸入值的函數的導數(或梯度),可以藉助關於該模組的輸出值(或序列模組的輸入值)的梯度反向計算出來(圖1)。反向傳播方程可在所有模組中傳播梯度時被反覆應用,從頂部top(神經網絡產生預測的那一層)輸出開始,一直到底部bottom(被接收外部輸入的那一層)。這些梯度一經計算,就可直接計算出關於每個模組權重的梯度。
深度學習的許多應用,都會使用前饋神經網絡架構feedforward neural network architectures(圖1)——該架構可學習將一個固定大小的輸入映射到(例如,一幅圖像)到一個固定大小的輸出上(例如,每種分類的概率)。從一層到下一層,單元組計算其前一層輸入的加權總和,並通過一個非線性函數輸出結果。目前,最受歡迎的非線性函數是整流線性單元(ReLU),一個簡單的半波整流器f(z)=max(z,0)。在過去的幾十年裡,神經網絡使用的是更平滑的非線性,比如,tanh(z)或1/(1+exp(−z)),但ReLU在多層網絡中的學習速度通常更快,可允許在沒有無監督預訓練without unsupervised pre-training的情況下進行深度監督網絡訓練。不在輸入或輸出層中的單元通常被稱為隱層單元hidden units。隱層可被看作是以非線性方式變換輸入,從而使所有類別在最後一層變得線性可分linearly separable by the last layer(圖1)。
20世紀90年代末,神經網絡和反向傳播被機器學習社區大量遺棄,同時也被計算機視覺和語音識別領域忽略。人們普遍認為,學習有用的、多層級的、幾乎不靠先驗知識的特徵提取器並不現實可行。尤其是,人們通常認為簡單的梯度下降法會深陷局部極小的泥潭——在這種權重配置當中,除非進行大的改動,否則很難降低平均誤差。
實踐中,對大型網絡而言,局部極小几乎不構成問題。無論初始條件如何,系統基本總能得到質量非常相似的解決方案。最近的理論和實證研究結果均有力地表明,總的來說,局部極小不是一個嚴重問題。相反,解空間landscape充滿了大量梯度為0的鞍點saddle points,且在多數維度中表面向上彎曲,少數維度中表面向下彎曲。分析結果似乎表明,向下彎曲的鞍點在整體中佔比相對較小,但這些鞍點的目標函數值大多相近。因此,算法陷入這些鞍點(不能繼續尋優),無關緊要。
2006年前後,加拿大高級研究所CIFAR聚集了一批研究人員,他們重燃了人們對深度前饋網絡的興趣。這些研究人員引入無監督學習程序——無需標記數據便可創建特徵檢測器層。各層特徵檢測器的學習目標便是在下一層重構或模擬特徵檢測器(或原始輸入)的活動。利用這種重構學習目標來「預訓練pre-training」幾層複雜度遞增的特徵檢測器,深層網絡的權重可以被初始化為合理值。接著,最終層的輸出單元可被添加到網絡頂端,整個深度系統可被微調至使用標準的反向傳播。在識別手寫數字或檢測行人時,特別是當標記的數據量非常有限的時候,這一程序非常有效。
這種預訓練的方法的首次重要應用是在語音識別上,這之所以可行歸功於便於編程的GPUs的誕生,它讓研究人員可以用10到20倍的速度訓練神經網絡。2009年,這個方法被用來計算一段聲音採樣中提取短時係數窗口對應的一系列概率值,這些概率值反映出由窗口中幀表示語音各個段落的可能性。在小詞彙表的標準語音識別測試上,這種方法的訓練效果打破紀錄,很快它又發展到打破大詞彙表的標準語音測試紀錄。
到2012年,2009年以來的各種深度網絡一直的得到多個主要語音研究小組持續開發並被布局在安卓手機上。對於較小數據集來說,無監督預訓練有助於防止過擬合overfitting,當標註數據樣本小number of labelled examples is small或需要遷移in a transfer setting——有很多源領域的標註數據樣本但缺少目標領域的標註數據樣本——的時候,深度網絡的泛化generalization效果顯著提升。深度學習重新獲得認識,人們發現,預訓練階段只是小規模數據集的必需品。
然而,還有一種特殊類型的深度前饋網絡deep feedforward network,不僅更易訓練而且泛化能力要比那些相鄰兩層完全相連的神經網絡強大很多。這就是卷積神經網絡ConvNet。在神經網絡「失寵」的日子裡,卷積神經網絡在實踐運用中獲得許多成功,最近已被計算機視覺領域廣泛採用。
卷積神經網絡
卷積神經網絡最初是用來處理多維數組數據,比如,一張由三個2D數組組成、包含三個彩色通道像素強度的彩色圖像。大量的數據模式都是多個數組形式:1D用來表示信號和序列信號包括人類語言;2D用來表示圖片或聲音;3D代表視頻或有聲音的圖像。卷積神經網絡利用自然信號特徵的核心理念是:局部連接local connections,權重共享,池化pooling和多網絡層的使用。
典型的卷積神經網絡的架構(圖二)包括一系列階段:最初的幾個階段由卷積層和池化層組成,卷積層的單元被組織到特徵圖feature map中,每個單元通過一組被稱作濾波器filter bank的權值被連接到前一層的特徵圖的局部數據塊。接下來,得到的局部加權和會傳遞至一個非線性函數,例如ReLU。同一個特徵圖中的所有單元共享相同的濾波器,不同特徵圖使用不同濾波器。採用這種架構有兩方面的原因。首先,在諸如圖像這樣的數組數據中,數值與附近數值之間通常是高度相關的,容易生成易被探測到的局部特徵motif。其次,圖像和其他類似信號的局部統計特徵通常又與位置無關,易言之,出現在某處的某個特徵也可能出現在其他任何地方,因此,不同位置的單元會共享同樣的權值並且可以探測相同模式。數學上,由一個特徵圖完成的過濾操作是一個離線的卷積,卷積神經網絡由此得名。
和卷積層用來探測前一層中特徵之間的局部連接不同,池化層的作用則是對語義相似的特徵進行合併。由於構成局部主題的特徵之間的相對位置關係不是一成不變的,可以通過粗粒度檢測每個特徵的位置來實現較可靠的主題識別。一個池化層單元通常會計算一個或幾個特徵圖中一個局部塊的最大值,相鄰的池化單元則會移動一列或一行從小塊讀取輸入,這種設計不僅減少了數據表徵需要的維數,而且也能對數據小規模的偏移、扭曲保持不變。兩到三個卷積層,非線性層和池化層被疊加起來,後面再加上更多的卷積和全連接層。在卷積神經網絡的反向傳播算法和在一般深度網絡上一樣簡單,能讓所有濾波器中的權值得到訓練。
多數自然信號都是分級組合而成,通過對較低層信號組合能夠獲得較高層的信號特徵,而深度神經網絡充分利用了上述特性。在圖像中,線條組合形成圖案,圖案形成部件,部件組成物體。類似的層次結構存在於由聲音到電話中的語音及文本形成過程,音素組成音節,音節組成單詞,單詞組成句子。當輸入數據在前一層中的位置有變化的時候,池化操作讓這些特徵表示對變化具有魯棒性。
卷積神經網絡中的層次的卷積和匯聚的靈感直接來源於視覺神經科學中的簡單細胞和複雜細胞的經典概念,並且其整體架構讓人想起視覺皮層腹側通路的LGN-V1-V2-V4-IT層次結構。當向卷積神經網絡模型和猴子同時展示相同的畫面時,卷積神經網絡的高級單元被激活,解釋了猴子顳下皮層隨機設置的160個神經元的變化。卷積神經網絡有著神經認知機的基礎,兩者的體系結構有些類似,但是,卷積神經網絡沒有諸如反向傳播的那種端對端的監督學習算法。原始的1D卷積神經網絡被稱為「延時神經網絡time-delay neural net」,用於識別語音和簡單的單詞。
早在20世紀90年代初,卷積網絡就已有非常廣泛的應用,最開始延時神經網絡被用在語音識別和文檔閱讀上。文本閱讀系統使用了受過訓練的延時神經網絡以及一個實現了語言約束的概率模型。到20世紀90年代末,該系統能夠讀取美國超過十分之一的支票。隨後,微軟發明了許多基於卷積神經網絡的光學字符識別和手寫識別系統。卷積神經網絡在20世紀90年代初就被嘗試用於包括臉、手、面部識別的自然圖像目標檢測中。
使用深層卷積網絡進行圖像識別
從21世紀初開始,卷積神經網絡就被成功用於檢測、分割和物體識別以及圖像各區域。這些應用都使用了豐富的標籤數據,比如,交通標誌識別、生物圖像(特別是神經連結組學方面)分割、面部探測、文本、行人和自然圖像中的人體的檢測。近些年來,卷積神經網絡的一項重要成功應用就是人臉識別。
值得注意的是,圖像可以在像素級別上被標記,這樣就能被用於諸如自主移動機器人autonomous mobile robots和無人駕駛汽車等技術中。像Mobileye和NVIDIA這些公司正在將這些基於卷積神經網絡的方法應用於即將面世的汽車視覺系統中。其他重要的應用程式涉及到自然語言理解和語音識別。
儘管取得了這些成就,但在2012年ImageNet競爭之前,卷積神經網絡在很大程度上並未獲得主流計算機視覺和機器學習團體的青睞。當深層卷積網絡被應用於來源於包含1000個不同類型約100萬個圖像的數據集中,它們取得了驚人的成果,錯誤率僅是當時最佳方法的一半。該成功源於高效利用了GPUs和ReLUs、一項新的被稱為『dropout』的正規化技術regularization technique以及分解現有樣本產生更多訓練樣本的技術。成功給計算機視覺領域帶來一場革命。如今,卷積神經網絡幾乎覆蓋所有識別和探測任務,在有些任務中,其表現接近人類水平。最近一個令人震驚的例子,利用卷積神經網絡結合遞歸網絡模塊來生成圖像標題image captions(如圖3)。
圖3 從圖像到文本
將遞歸神經網絡RNN生成的標題作為額外輸入,深度卷積神經網絡CNN會從測試圖片中提取表徵,再利用訓練好的RNN將圖像中高級high-level表徵「翻譯成」標題(上圖)。當RNN一邊生成單詞(黑體所示),一邊能將注意力集中在輸入圖像的不同位置(中間和底部;塊狀越亮,給予的注意力越多)的時候,我們發現,它能更好地將圖像「翻譯成」標題。
當前的卷積神經網絡由10~20層ReLUs,數百萬個權值及數十億個連接組成。兩年前,訓練如此龐大的網絡可能需要數周時間,而隨著硬體、軟體和算法並行化algorithm parallelization的進步,訓練時間已經縮短至幾個小時。
卷積神經網絡的視覺系統良好表現促使包括谷歌、Facebook、微軟、IBM、雅虎、推特和Adobe在內的多數主要科技公司以及數量激增的創業公司開始啟動研發項目,部署基於卷積神經網絡的圖像識別產品和服務。
卷積神經網絡易於在晶片或現場可編程門列陣FPGA中得以高效實現。為了實現智慧型手機、相機、機器人和無人駕駛汽車上的實時視覺應用,NVIDIA、Mobileye、因特爾、高通和三星等許多公司都正在開發卷積神經網絡晶片。
分布式表徵和語言處理
深度學習理論顯示,與不適用分布式表徵的經典學習算法相比,深度網絡有兩處異常明顯的優勢。這些優勢源於節點權重the power of composition以及底層數據生成分布具有適當的組成結構。第一,學習分布式表徵能夠將通過訓練而學習獲得的特性值泛化為新的組合(例如,n元特徵有2n組合可能)。第二,深度網絡中的表徵層相互組合帶來了另一個指數級優勢的潛力(指數性的深度)。
多層神經網絡的隱藏層學會以一種易於預測目標輸出的方式來再現網絡輸入。一個很好的示範就是訓練多層神經網絡根據局部文本中的前述語句預測下一個詞。文本的每個詞表示成網絡中的N分之一向量,也就是說,每個成分的值為1,餘下的為0。在第一層中,每個字創建一個不同模式的激活或單詞向量(如圖4所示)。在語言模型中,網絡中的其他層學習如何將輸入的單詞向量轉化成輸出單詞向量來預測下一個單詞,也能用來預測詞彙表中單詞作為文本中下一個單詞出現的概率。正如學習分布表徵符號文本最初展示的那樣,網絡學習了包含許多激活節點active components、且每一個節點都可被解釋成一個單詞獨立特徵的單詞向量。這些語義學特徵並沒有在輸入時被清晰表現出來。而是在學習過程中被發現的,並被作為將輸入與輸出符號結構化關係分解為微規則micro-rules的好方法。當詞序列來自一個大的真實文本語料庫,單個微規則並不可靠時,學習單詞向量也一樣表現良好。當網絡被訓練用於預測新文本中的下一個詞時,一些單詞向量非常相似,比如Tuesday和Wednesday,Sweden和Norway。這種表徵被稱為分布式表徵,因為它們的元素(特性)並非相互排斥,且它們構造信息與觀測到的數據變化相對應。這些單詞向量由所習得的特性組成,這些特性並非由科學家們事先決定而是由神經網絡自動發現。現在,從文本中習得的單詞向量表徵被非常廣泛地使用於自然語言應用。
表徵問題是邏輯啟發與神經網絡啟發認知範式爭論的核心問題。在邏輯啟發範式中,一個符號實體表示某一事物,因為其唯一的屬性與其他符號實體相同或者不同。它並不包含與使用相關的內部結構,而且為理解符號含義,就必須與審慎選取的推理規則的變化相聯繫。相比之下,神經網絡使用大量活動載體big activity vectors、權重矩陣和標量非線性,實現一種快速「直覺」推斷,它是輕鬆常識推理的基礎。
在介紹神經語言模型前,語言統計模型的標準方法並沒有使用分布式表徵:它是基於計算短符號序列長度N(稱為N-grams,N元文法)出現的頻率。N-grams可能出現的次數與VN一致,這裡的V指的是詞彙量的大小,考慮到詞彙量大的文本,因此需要更龐大的一個語料庫。N-grams把每一個詞作為一個原子單位,因此它不能在語義緊密相關的單詞序列中,一概而論,但是,神經語言模型可以實現上述功能,因為它們將每個單詞與真實特徵值的向量關聯起來,並且語義相關的單詞在該向量空間中更為貼近。(如圖4)。
圖4 已完成學習的單詞向量的可視化展現
(...略,完整版請看PDF,或下期)
深度學習的未來
無監督學習促進了人們重燃對深度學習的興趣,但是,有監督學習的成功蓋過了無監督學習。雖然我們沒有關注這方面的評論,但是,從長遠來看,我們還是期望無監督學習能夠變得更加重要。(因為)人類和動物的學習方式大多為無監督學習:我們通過觀察世界來發現它的結果,而不是被告知每個對象的名稱。
人類視覺是一個智能的、基於特定方式的利用小或大解析度的視網膜中央窩與周圍環繞區域對光線採集成像的活躍的過程。我們希望機器視覺能夠在未來獲得巨大進步,這些進步來自於那些端對端的訓練系統,併集合卷積神經網絡(ConvNets)和遞歸神經網絡(RNNs),利用強化學習來決定走向。結合了深度學習和強化學習的系統尚處在嬰兒期,但是,在分類任務上,它們已經超越了被動視覺系統,並在嘗試學習操作視頻遊戲方面,產生了令人印象深刻的結果。
未來幾年,理解自然語言會是深度學習產生巨大影響的另一個領域。我們預測,當它們學習了某時刻選擇性地加入某部分的策略,那些使用遞歸神經網絡(RNNs)的系統將會更好地理解句子或整個文檔。
最終,人工智慧的重大進步將來自將表徵學習與複雜推理結合起來的系統。儘管深度學習和簡單推理已經用於語音和手寫識別很長一段時間了,我們仍需要通過大量向量操作的新範式替換基於規則的字符表達操作。
3Geoffrey Hinton個人主頁上的深度學習論文列表[30篇](383字)
略,詳情看參考文獻[1]
參考文獻(569字)
[1]University of Toronto..Geoffrey E.Hinton.[EB/OL]http://www.cs.toronto.edu/~hinton/,2017-09-04.
[2]Wikipedia.Geoffrey Hinton.[EB/OL]https://en.wikipedia.org/wiki/Geoffrey_Hinton,2017-08-30.
[3]HINTON,Prof.Geoffrey Everest.ukwhoswho.com.Who's Who.2015(onlineOxford University Pressed.).A&C Black,an imprint of Bloomsbury Publishing plc.(subscription required)
[4]Geoffrey Hintonpublications indexed byGoogle Scholar
[5]Geoffrey Hintonat theMathematics Genealogy Project
[6]Geoffrey E.Hinton's Academic Genealogy
[7]Gregory,R.L.;Murrell,J.N.(2006)."Hugh Christopher Longuet-Higgins.11 April 1923--27 March 2004:Elected FRS 1958".Biographical Memoirs of Fellows of the Royal Society.52:149.doi:10.1098/rsbm.2006.0012.
[8]Derthick,Mark(1988).Mundane reasoning by parallel constraint satisfaction.proquest.com(PhD thesis).Carnegie Mellon University.OCLC243445686.
[9]Zemel,Richard Stanley(1994).A minimum description length framework for unsupervised learning.proquest.com(PhD thesis).University of Toronto.OCLC222081343.
[10]Frey,Brendan John(1998).Bayesian networks for pattern classification,data compression,and channel coding.proquest.com(PhD thesis).University of Toronto.OCLC46557340.
[11]Neal,Radford(1995).Bayesian learning for neural networks.proquest.com(PhD thesis).University of Toronto.OCLC46499792.
(...略,完整版請看PDF,或下期)
[34]Smith,Craig S.(23 June 2017)."The Man Who Helped Turn Toronto Into a High-Tech Hotbed".The New York Times.Retrieved 27 June 2017.
[35]機器之心.Nature重磅:Hinton、LeCun、Bengio三巨頭權威科普深度學習.[EB/OL]http://www.dataguru.cn/article-7593-1.html,2015-07-16.
[36]圖靈之心.機器學習大牛系列之Geoffrey Hinton[EB/OL]https://baijiahao.baidu.com/s?id=1563484076788916,2017-04-02.
[37]奕欣.「神經網絡之父」Geoffrey Hinton:寒冬之下的孤勇.[EB/OL]https://www.leiphone.com/news/201704/uPFYz5Wvpgf7tSlI.html,2017-04-13.
[38]陶婧婕.從「神經網絡之父」到「人工智慧教父」|Geoffrey Hinton的傳奇人生那才叫精彩.[EB/OL]http://www.cnetnews.com.cn/2017/0828/3097419.shtml,2017-08-29.
[x]秦隴紀.數據科學與大數據技術專業概論;人工智慧研究現狀及教育應用;純文本數據神經網絡訓練;大數據簡化之技術體系[EB/OL].數據簡化DataSimp(微信公眾號)http://www.datasimp.org,2017-06-06.
機器與未來息息相關。戰爭鍛造出控制論一度成為預見未來的智能自動工具。《機器崛起——遺失的控制論歷史》探討了將控制交於機器,與機器交互或通過機器進行交互的含意。該書給予當下熱門概念——人工智慧的清晰歷史脈絡,以戰爭視角,從人機互動到人機共生、從自動化到人工智慧、從機器崛起到機器隕落……章標題:1戰爭中的控制與通信(人機互動界面),2控制論(機器智能),3自動化,4有機體(人機互動的主體),5文化(人-機類比,潛意識),6空間(賽博空間),7無政府主義(加密無政府主義),8戰爭(控制論戰爭是自動化),9機器隕落(控制論戰爭迎來機器的隕落)。致謝、參考文獻略。
維納教授提出Sybernetics控制論,已滲入生活方方面面:網際網路、機器人、VR(1961年就實現了p123)、電子貨幣,種種新鮮事物,無論多麼具有顛覆性,而我們卻渾然不知。回顧這段歷史,不是懷舊,而是尋找通往未來的線索。機器能把人類從骯髒、重複的勞動中解放嗎?能把人類從類似交通擁堵之類的事務中解脫出來,使得工作、生活和遊戲更加社會化、互聯化,更加安全和放心嗎?
[贈書]【德】託馬斯·瑞恩《機器崛起——遺失的控制論歷史》機械工業出版社2017年5月首發。「科學Sciences」公號(文末可掃)前期《機器崛起:遺失的控制論歷史、人工智慧前傳》文末留言,點讚最多5位讀者將獲贈《機器崛起》機械工業出版社活動贈書一書。09月09日23:55結束,9月10號周日統計結果、通過公眾號回復功能,聯繫獲獎讀者的郵寄地址。歡迎數據簡化DataSimp、科學Sciences、知識簡化任一公號關注者,及其它讀者熱情參與。
Appx(1030字).數據簡化DataSimp社區會議,譯文志願者
信息社會之數據、信息、知識、理論越來越多,遠遠超越個人認知學習能力、時間、精力。必須行動起來,解決這個問題。主要方法是數據簡化(Data Simplification):簡化減少知識、媒體、社會數據,應對大數據時代的數據爆炸、信息爆炸、知識爆炸,使信息、數據、知識越來越簡單,符合人與設備正常負荷。數據簡化2017年會議(DS2017)聚焦數據簡化技術等主題。數據簡化技術(Data Simplification techniques)是對各類數據從採集、處理、存儲、閱讀、分析、邏輯、形式等方面做簡化,應用於信息系統、大數據、自然語言處理、知識工程,數學統計,結構化資料庫、機器學習技術、生物數據、信息系統、物理空間表徵等領域。請關注公眾號「數據簡化DataSimp」、網站http://www.datasimp.org並投稿;通過DataSimp論文投稿網站https://easychair.org/cfp/DS2017或會議網站http://cfp.datasimp.org/ds2017提交電子版(最好有PDF格式)論文。
「數據簡化DataSimp」社區志願者工作:①至少一篇高質量原創投稿,正式成為數據簡化DataSimp社區成員;②翻譯美歐數據科學技術論文,IT大數據、人工智慧、編程開發技術文章;③設計黑白靜態和三彩色動態社區S圈型LOGO圖標。
投稿、加入數據簡化DataSimp社區,請公號留言或加微信QinlongGEcai(備註:姓名-單位-職務-手機號)。社區詳情訪問www.datasimp.org,或閱讀公號文章:數據簡化DataSimp社區及學會簡介。
Data Simplification/Sciences PublicAccounts——DataSimp@163.com,2017.9.9Sat, Xi'an, Shaanxi, China.
LIFE
Life begins at the end of your comfort zone.——Neale Donald Walsch
THE DAY
The strength of purpose and the clarity of your vision,along with the tenacity to pursue it,is your underlying driver of success.——Ragy Tomas
主編:秦隴紀(bf80),IT科普者;數據簡化DataSimp、科學Sciences、知識簡化新媒體,www.DataSimp.org社區(籌技術、期刊)創始人;研究方向:大數據、人工智慧、知識工程,數據挖掘與簡化、信息抽取、教育技術、知識庫構建。歡迎數據、智能、知識、語言處理等領域研究者加入「數據簡化DataSimp」社區;貢獻數據採集、處理、分析、簡化、應用各環節開原始碼。
【「數據簡化DataSimp、科學Sciences、知識簡化」公眾號希望聚集各專業領域一線研究員;研究技術時也傳播知識、專業視角解釋和普及科學現象和原理,展現自然社會生活之科學面;並在知識爆炸、信息爆炸的時代,做相應的力所能及的簡化工作。公眾號由秦隴紀發起,參與者約十人,尚未覆蓋各領域科普及簡化;空閒時間有限,每周只能發幾篇文章。期待大家參與~】
長按下圖「識別圖中二維碼」關注技術微信公眾號:數據簡化DataSimp(搜名稱也行,關注後菜單有文章分類頁連結):
關注科普公眾號:科學Sciences(搜名稱也行,關注後有文章分類頁菜單):
關注「知識簡化」知識教育公號:
(轉載請寫出處:秦隴紀10「數據簡化DataSimp、科學Sciences、知識簡化」匯譯編,投稿反饋郵箱QinDragon@qq.com。歡迎傳媒、技術夥伴投稿、加入數據簡化社區!)
普及科學知識,分享到朋友圈