創見微信號:tech2ipo_editor
*本文首發TECH2IPO/創見,作者Judy,轉載請註明出處
ImageNet 是什麼?
ImageNet 是視覺識別領域一年一度的「奧賽」,此項競賽對計算機深度學習影響深遠,任何在 ImageNet 上取得的技術進步都會給其它計算機視覺問題帶來重要影響。ImageNet——大規模視覺識別挑戰的識別任務之一便是對 1000 類、120 萬張網際網路圖像進行分類。
作為當下計算機視覺領域最受關注的挑戰,ImageNet 已經成為了衡量深度學習技術發展的重要指標:大量研究表明利用深度模型在競賽中學習得到的特徵可以被廣泛應用到其它數據集和各種計算機視覺的問題;而由 ImageNet 訓練得到的深度學習模型,更是推動計算機視覺領域發展的強大引擎。
2012 年,Hinton 所帶領的深度學習小組在 ImageNet 比賽中完勝其他參賽團隊,在計算視覺領域引起了轟動,掀起了深度學習的熱潮。從 2012 到 2014,ImageNet 的記錄也被深度學習不斷刷新。
DeepID-Net 團隊:我們的徵途就是挑戰巨人
在科技界,微軟、谷歌、Facebook、百度等巨頭對於研發的狂熱追逐舉世皆知,ImageNet 大規模視覺挑戰也是其角力的重要戰場。在這個戰場之上,由於工業界搶佔了數據和計算資源上的先機,世人普遍認為學術界很難在深度學習特別是像 ImageNet 這樣大規模的挑戰中與之抗衡。
ImageNet 視覺挑戰中飛機、汽車、人 3 個類別的樣圖
物體檢測是 ImageNet 視覺挑戰中最難的任務,它要求從四萬張圖像中準確檢測到 200 類物體的具體位置,並且一幅圖像往往包含多個不同類別的物體。2013 年 ImageNet 挑戰中最高的檢測率只有 22.6%。
而在 2014 年的 ImageNet 大規模物體檢測任務比賽中,谷歌更是組織了包括 2013 年的冠軍成員在內的強大團隊,並以 43.9% 的成績贏得比賽。在谷歌身後,香港中文大學由歐陽萬裡、王曉剛、和湯曉鷗教授帶領的 DeepID-Net 團隊首次參賽便以 40.7% 的優異戰績位居第二名。
湯曉鷗(前排左五)、王曉剛(前排右三)教授帶領的 DeepID 和 DeepID-Net 團隊
幾個月後,DeepID-Net 團隊更是將此項成績大幅提高至 50.3%,一舉超越谷歌,達到全球最高的檢測率。這一成果發表在 2015 年國際計算機視覺與模式識別大會 (CVPR) 上,是目前世界上在 ImageNet 挑戰中最高記錄。在 ImageNet 這樣一個記錄被不斷刷新的舞臺上,包括 DeepID-Net 在內的眾多學術精英團隊與工業巨無霸的競逐愈發引人注目。而在此之前,湯曉鷗和王曉剛教授帶領的 DeepID 團隊在 LFW 人臉識別挑戰上也有過戰勝 Facebook,並在全世界首次實現人臉識別算法超越人眼識別準確率的經歷。
DeepID-Net 團隊的取勝之匙:把比賽帶入技術創新的節奏
ImageNet 的物體檢測挑戰對技術能力要求極高:200 類物體在顏色、紋理、形狀、長寬比、形變等方面差異巨大;即便屬於同一類別,光線、角度、遮擋、部件變形扥因素也使得物體間存在顯著的差異。這些都要求通過深度學習得到的特徵表達具有強大的視覺描述能力,能夠區分眾多的物體類別和複雜背景,同時對類內變化具有魯棒性。
另外關鍵挑戰是運算數據所需要的超大計算量和漫長的測試周期。按照原有流程,基於單卡 NVIDIA Tesla K40 GPU 在 ImageNet 完成一次完整的訓練和測試大概需要三周。但對於網際網路巨頭們來說,基於大規模的 CPU/GPU 集群,會使這個周期大大縮短。谷歌的 GoogLeNet 採用了超過二十層的網絡結構,有大量需要手工設定的網絡參數。這些研究工作都需要強大的計算資源作為支撐。
正是 GPU 硬體的快速發展使得學術科研小組從事此類研究成為了可能。DeepID-Net 團隊的研發是基於有限的 NVIDIA Tesla K40 GPU 卡。DeepID-Net 團隊認為,過分依賴數據和計算資源,反而會放鬆對技術先進性的追求。想要在幾個月內趕超行業巨頭,就必須在物體檢測的整個流程和模型本身進行不斷的創新。
他們創造性的將深度模型的各層和傳統物體檢測系統的各個關鍵步驟建立對應關係,而不是簡單的將深度模型看成黑盒子。這種對應關係可以啟發人們利用計算機視覺的領域知識改進深度模型。
·DeepID-Net 團隊在卷積網絡的基礎上提出了新的形變層。通過形變層,不同類物體可以共享部件模型和形變模型,有效的處理由於物體形變、遮擋和姿態變化帶來的類內變化。
·針對物體檢測任務,提出新的特徵預訓練策略,使得深度學習得到的特徵對物體的位置和大小更加敏感,從而對物體的定位更加準確。
·將圖像全局的上下文信息有效的融入到物體檢測中。
·通過早期拒絕負樣本和集成流程中的若干步驟,將訓練和測試的周期縮短到原來的 1/3,大大加快了研發速度。
這些創新都使得基於深度學習的物體檢測的準確率和訓練效率有了大幅的提升。
大衛挑戰歌利亞,不只是競爭
結果恰如世人所看到的那樣,DeepID-Net 團隊在 ImageNet 上的成功表明,通過技術上的不斷創新,學術界仍可和網際網路巨頭在深度學習領域一爭高下。在這背後,DeepID-Net 團隊則證明了深度學習不僅僅是數據和計算資源的堆砌,其在理論和算法上都有著巨大的發展空間,而這恰恰是眾多學術精英團隊的優勢所在。
IEEE 模式分析與機器智能彙刊 (PAMI) 的前主編 Rama Chellappa 引用《聖經》故事形象的評價 DeepID-Net 團隊的工作,「你們與谷歌的競賽令我感到著迷。你們是牧羊人大衛,谷歌是巨人歌利亞。」大衛和歌利亞都有各自的優勢。我們也希望這樣的競爭持續進行下去,眾多來自學術界和工業界的團隊通過各自的努力,從不同的方面推動深度學習和計算機視覺技術的進步,不斷將人工智慧推上新的高峰。