【AI WORLD 2017世界人工智慧大會倒計時 18 天】
大會早鳥票已經售罄,現正式進入全額票階段。還記得去年一票難求的AI WORLD 2016盛況嗎?今年,即將於2017年11月8日在北京國家會議中心舉辦的AI World 2017世界人工智慧大會上,我們請到曠視科技Face++首席科學家、曠視研究院院長孫劍博士,騰訊優圖實驗室傑出科學家賈佳亞教授,以及矽谷知名企業家、IEEE Fellow Chris Rowen,共論人臉識別等前沿計算機視覺技術。想現場感受頂級科學家的風採和CMU的學風與氛圍,或者是現場向他們請教技術問題?點擊文末閱讀原文,馬上參會!
搶票連結:http://www.huodongxing.com/event/2405852054900?td=4231978320026
大會官網:http://www.aiworld2017.com
作者:聞菲
【新智元導讀】DeepMind迄今最強棋手AlphaGo Zero橫空出世,其中一個重要組成部分是出自華人團隊的深度殘差網絡ResNet。新智元採訪了深度殘差網絡ResNet作者之一,曠視科技Face++首席科學家孫劍博士。孫劍認為,AlphaGo Zero技術提升足夠偉大,但在真實技術落地過程中還有著眾多局限。孫劍分享了他的最新工作——更小更好的神經網絡,以及他的人才觀。在採訪中,孫劍還談到,人臉識別遠遠沒有被解決,「全世界的視覺研究人員一起來做都不夠」。
2017年10月19日,DeepMind團隊發表了迄今最強版本的AlphaGo——AlphaGo Zero,其中一個重要模塊是出自華人團隊的深度殘差網絡ResNet。就此背景,新智元採訪了深度殘差網絡ResNet作者之一,曠視科技Face++首席科學家孫劍博士。孫劍認為,AlphaGo Zero技術提升足夠偉大,但在真實技術落地過程中還有著眾多局限,並指出未來的主流深度學習技術還將會圍繞大數據訓練模式的方式展開。在採訪中,孫劍還談了人臉識別遠遠沒有被解決,「全世界的研究人員一起來做都不夠」。
「AlphaGo Zero的搜索過程簡化了很多,例如把以前系統中的兩個網絡合併成一個網絡,將深度殘差網絡的輸入做最簡化。」孫劍博士在談到本次AlphaGo Zero的技術特點時說:「把19x19棋局圖像直接送給神經網絡,讓神經網絡看著棋盤做決策,這個非常簡潔。」
孫劍表示,本次AlphaGo Zero的提升主要有兩個核心要素,一個是啟發式搜索,一個是深度殘差神經網絡,而這兩者又實現了完美結合。其中,啟發式搜索的思想非常樸素,是個針對問題設計的一個高級定製版蒙特卡洛數搜索算法;而深度殘差神經網絡則讓簡單的搜索算法極大地提升了效率。
深度殘差神經網絡(ResNet)在2015年由孫劍在微軟領導的視覺團隊率先提出,並在當年的ImageNet以及MS COCO兩大學術競賽中包攬五項冠軍。ResNet一個重要的突破是實現了152層的網絡深度,這讓一些非常複雜的函數做映射時的效率與有效性得到了極大的提升。結合了ResNet的強大網絡使AlphaGo Zero能夠快速、準確地學習每一子的落子概率和對整個棋局進行判斷。
「AlphaGo Zero的偉大之處是第一次讓機器可以不通過任何棋譜,在只告訴規則的前提下,完全從隨機開始,而且只在一臺有TPU的單機上運行,不到3天就超越柯潔版的水平,最終成為圍棋大師,這種無師自通的學習模式在AI整個發展上是具有裡程碑意義的。」孫劍博士講到AlphaGo Zero的技術意義時說。「但是,這種『無師自通』在很多AI落地中也存在一些局限,因為嚴格講,圍棋規則和判定棋局輸贏也是一種監督信號。因此,說人類無用,或者說機器可以自己產生認知,都沒有準確地理解AlphaGo Zero。」
雖然在技術上令人驚豔,但在很多AI行業落地中,所謂的無師自通或者弱監督學習在短期還是無法成為主流。目前人工智慧落地解決的很多事情,實際上都是在模擬人類的某一種技能,讓機器應用這一技能去完成任務,而這需要海量的數據與更多的信號輸入。以曠視Face++所擅長的人臉識別為例,人臉識別是人類特有的一種能力,與演化和後天習得有關,把這種能力輸出給機器,就需要人的監督信號。所以,在今後很長一段時間內,監督學習依然是AI研究與AI商業化的主流方向。
對於這次ResNet被AlphaGo Zero論文引用,孫劍顯然非常開心,還特意發了朋友圈。「這次應用在AlphaGo Zero中的ResNet殘差神經網絡,曾獲得了CVPR2016的最佳論文獎,我也非常高興這個技術可以應用在AlphaGo Zero系統中,而這個應用過程其實並不需要我們直接接觸,而是一種研究成果的交流。」
加入曠視以後,孫劍的研究和交流步伐也沒有停下。他現在是曠視的首席科學家,同時也是曠視研究院的院長。雖然在採訪中,「商業化」、「場景」、「落地」等非常「創業公司」的詞常常出現在孫劍的論述中。但是,孫劍認為,在創業公司做研究和在大企業做研究實際並沒有什麼不同。「做研究很大的一個點就是,別人都往那邊走的時候,你要看看別的方向做不做。」孫劍說。
這樣做的一個結果,是曠視研究院在今年7月提出的ShuffleNet,ShuffleNet專門為了移動應用而生,在設備提供的計算量很小的時候也能快速響應。「卷積神經網絡在設計空間有幾個重要的維度,比如深度、卷積核個數,卷積核大小以及特徵圖,每一層的計算複雜度完全取決於這幾個參數。」孫劍說:「我們目前得出的結論是:一個網絡的真正性能,主要取決於其計算複雜度。如果新的網絡結構沒有大的變化,基本是計算力決定這個網絡性能有多好。」
為了適應移動端的計算力,ShuffleNet在結構上繼承了殘差網絡(ResNet)的設計思想,並在此基礎上做出了一系列改進來提升模型的效率:首先,使用逐通道卷積替換原有的3x3卷積,降低卷積操作抽取空間特徵的複雜度;將原先結構中前後兩個1x1逐點卷積分組化,並在兩層之間添加通道重排操作,進一步降低卷積運算的跨通道計算量。
ShuffleNet的主要吸引力在於,它使用的是任何人都可以在任何深度學習框架中輕鬆實現的簡單、標準的操作(分組化卷積 + channel shuffling)。這對於許多應用都非常有用,事實證明,ShuffleNet發布後也得到同行的廣泛應用。任何人都能用,而且易於使用、容易實施,能快速改進性能,這正是我們需要的研究,這樣的研究在未來也將變得愈發重要。
除了像ShuffleNet這樣通過網絡設計的方式把計算量降下來,曠視在去年還發表了一項工作DoReFaNet,走的低精度的路子,把內部的數表示從浮點型,切換到定點或者更低位的表示,它可以是網絡中的權重,也可以是網絡中的特徵。DoReFaNet訓練中的梯度用Low-bits表示,「因為這個網絡的權重、激活,以及梯度分別用一位、兩位、以及四位來表示,所以我們研究院就叫這個網絡DoReFa-Net。」
在今年的ICCV上,孫劍和曠視的研究人員Yihui He,以及ResNet的另一位作者孫翔雨(以前也在微軟亞洲研究院,現在和孫劍一起加盟曠視)合作,也有一篇論文發表,題為《加速極深神經網絡的特徵剪枝》(Channel Pruning for Accelerating Very Deep Neural Networks),繼續在降低計算量的這一方向上發力。
剪枝(Pruning)這種方法,是在網絡訓練好以後,把裡面冗餘度最大的表示(Channel)去掉,重新訓練網絡,這樣網絡體積比以前小,而精度跟原來一樣甚至更好;當然精度也有可能稍稍降低一點,但都在產品應用可以接受的範圍內。
孫劍介紹說,現在的神經網絡分支比較多且零碎,以前的剪枝方法已經不再適用。「我們這個方法第一次對新的現代深度神經網絡做有效剪枝的方法,剪枝能夠和低精度、ShuffleNet結合在一起,實現更小、更經濟的網絡。」
孫劍說,這是他們的一個基礎研究,並沒有局限於人臉或圖像識別。作者在論文中寫道,我們剪枝過的VGG-16通過5倍加速實現了最先進的結果,同時只增加了0.3%的誤差。更重要的是,我們的方法能夠加速ResNet,Xception等現代網絡,分別只有1.4%、1.0%的精度損失,這是非常重要的。
曠視研究院在今年的CVPR有5篇文章發表,2018年的CVPR截稿時間是11月,大家也在積極準備。不過,曠視研究院對發文章的數量沒有要求,「我從來不鼓勵數量,我看的是質量,」孫劍說:「我以前寫論文也沒有特別多,但哪怕只有一篇文章,能夠被用在像AlphaGo這樣的系統上,那就有20倍的效果。」
現在,孫劍到公司每天第一件事情,就是去網上看有沒有新的、有意思的論文發表出來。曠視內部也有論文討論小組,大家會把看到的論文或者自己的實現/復現發到群裡面。孫劍每周都會跟每一個小組進行非常深入的研究,將他以前做研究的思路和方法分享給大家,供年輕人參考,營造積極創新的氛圍。「我每天都會問自己,我應該做什麼事情,讓大家都有清晰的目標,讓大家能夠發揮自己的潛力去做這些事情。」孫劍說,而這就是他認為他自己最核心的任務。
「如果說我有KPI,那麼我的KPI就是在曠視研究院把創新的環境做好,讓年輕人在這裡能夠發揮最大的潛力來做創新,把這個組織越做越強,越做越大,」孫劍說:「而這樣做附帶的效果,就是公司的產品從研究中實現更強大的競爭力和生命力,公司整體也能得到更好的商業回報。」
現在,曠視研究院一共有80多人,分布在北京、西雅圖、南京等城市,目前還有至少2個分部正在籌建中。孫劍說,曠視研究院還將繼續擴大,「隨著公司的發展成比例擴大」。對於人才選擇,孫劍給出了幾個標準:首先,數學一般好就行,其次,編程能力要很好,最後,潛力要很大。孫劍解釋說,深度學習現在還是一個實驗性的科學,很多的結論都是從實驗中得來,因此需要快速做出東西來迭代,這對編程能力提出了很高要求,而要能夠很好地運行系統,數學裡線性代數學很好就可以了。
曠視研究院現在有基本任務組(分類、檢測、圖像分割、視頻分析)、硬體組、平臺組、引擎組,在第二輪面試的時候都會與孫劍直接會面。除了(校園)招聘,挖掘實力人才加盟也是曠視的一條道路,而這裡孫劍本人的名望、實力和影響力無疑也是主要的吸引因素。最典型的例子,就是孫劍邀請到前Adobe首席科學家王珏,後者於今年5月加盟曠視,帶領曠視在西雅圖的研究院。
「我跟王珏博士認識了很多年,每次開會都會遇到,我們非常了解彼此的工作,我非常欣賞王珏博士的工作——PhotoShop裡好幾個非常創新的功能都是出自王珏之手,他也發表了很多高質量的SIGGRAPH論文,他的風格其實跟我很類似,我們彼此都很認可。」孫劍說。
王珏博士在Adobe工作了9年,2016年萌生尋找新環境繼續挑戰自己的想法。當時,王珏博士收到了包括谷歌、Facebook、騰訊、阿里等許多公司的邀請。最終成功招攬到他的是曠視。「我去找他,他非常爽快就答應了。」孫劍笑著說:「我就請他吃了碗面。」
對於人臉識別,孫劍認為正臉光照好的情況下,計算機已經超越人類,現在的問題是解決在極端情況下的用例,包括靜態和動態,包括光照、角度、化妝、髮型……最終,人臉識別其實是識別人的問題,那麼就要做到從背影也能識別出你是誰。這也是人工智慧解決小樣本學習、抽象和自適應能力的一個核心問題。
在研究院的各種方向中,孫劍還特別提到了曠視自己原創的深度學習引擎MegBrain,它早於TensorFlow開發,相當於曠視內部的TensorFlow,也是創業公司中唯一自我研發並全員使用的深度學習引擎。孫劍說,曠視對於計算引擎的演進非常重視,現在MegBrain已經開發到7.0、8.0的版本。「用了MegBrain,大家都不想再用其他引擎」,而擁有自己的原創引擎,大幅加速了曠視自己的產品創新和競爭力。
現在曠視的研究氛圍很自由,但領域十分聚焦,也即圖像和視頻理解,關注其中的文字、人物、車輛,對應曠視的產品和服務。這比起學術界和大公司研究院來似乎沒有那麼自由,但孫劍對此並不擔心,因為「問題足夠大」。
他認為人臉識別這個問題遠遠沒有被解決,而視覺是人工智慧裡最重要的問題之一,人類有90%的信息都是從視覺進來的。視覺裡的問題,「大到把全世界的視覺研究員都聯合到一起,在我看來都是不夠的。」孫劍說。
11月8日,在新智元AI World 2017世界人工智慧大會上,孫劍將發表演講,聚焦人臉識別等視覺前沿技術和問題,為我們帶來計算機視覺最新技術和應用的精彩分享。
孫劍博士目前在曠視科技(Face++)擔任首席科學家、曠視研究院院長。2003年畢業於西安交通大學人工智慧與機器人研究所,畢業後加入微軟亞洲研究院 ( Microsoft Research Asia),任職首席研究員。自2002年以來在 CVPR, ICCV, ECCV, SIGGRAPH, PAMI 五個頂級學術會議和期刊上發表學術論文 100+ 篇,Google Scholar 引用 25,000+次,H-index 60,兩次獲得 CVPR Best Paper Award (2009, 2016)。孫劍博士於2010被美國權威技術期刊 MIT Technology Review 評選為「全球35歲以下傑出青年創新者」。
孫劍博士帶領的團隊於2015年獲得圖像識別國際大賽五項冠軍 ( ImageNet分類,檢測和定位,MS COCO 檢測和分割),其團隊開發出來的「深度殘差網絡」和「基於區域的快速物體檢測」技術已經被廣泛應用在學術和工業界。同時孫劍帶領的團隊的研究成果也廣泛被應用在微軟 Windows, Office, Bing, Azure, Surface, Xbox 等多條產品線上。目前孫劍博士正在帶領曠視科技的研究團隊推進計算機視覺技術的進步和探索其在工業和商業上的實踐。
點擊文末閱讀原文,馬上參會!
【AI WORLD 2017世界人工智慧大會倒計時 18 天】點擊圖片查看嘉賓與日程。
大會門票銷售火熱,搶票連結:http://www.huodongxing.com/event/2405852054900?td=4231978320026
AI WORLD 2017 世界人工智慧大會購票二維碼: