中國北京,2015年12月16日——有著計算機視覺領域「奧賽」之稱的ImageNet,堪稱計算機視覺發展的風向標,其中每一項競賽成果都對學界和業界有著深遠的影響。在美國東部時間2015年12月10日結束的第六屆ImageNet圖像識別大賽上,由香港中文大學多媒體實驗室歐陽萬裡教授和SenseTime(商湯科技)閆俊傑等多位科學家聯合組成的CUvideo團隊在視頻物體檢測競賽中取得了檢測數量、檢測準確率兩項世界第一的成績。SenseTime與AMAX中國聯合研發的SenseBox並行計算平臺為CUvideo團隊提供了卓越穩定的性能支持。
ImageNet 2015 港中文領隊教授 歐陽萬裡
ImageNet 2015 SenseTime (商湯集團)領隊科學家閆俊傑
CU-Video:視頻物體檢測難度最高創新算法領跑世界
ImageNet 堪稱計算機視覺發展的風向標,其中每一項競賽成果都對學界和業界有著深遠的影響。作為當下計算機視覺領域最受關注的挑戰,ImageNet 已經成為了衡量深度學習技術發展的重要指標:大量研究表明利用深度模型在競賽中學習得到的特徵可以被廣泛應用到其它數據集和各種計算機視覺的問題;而由ImageNet訓練得到的深度學習模型,更是推動計算機視覺領域發展的強大引擎。
在 ImageNet 競賽中,每隔一段時間就會增加一項學術和工業界公認的最難的任務。2013年曾新增加了圖像中的物體檢測任務,當年最好的算法只達到了22.6%的準確率。本次 ImageNet 競賽新增的視頻物體檢測是難度更高的檢測任務。2015年7月,在接受鳳凰網採訪時,香港中文大學多媒體實驗室王曉剛教授曾表示,「計算機視覺在視頻領域還有大量的工作要做,但視頻相比圖像要更為複雜,信息量也更大,難度將提升一個數量級別。」
SenseTime的原創圖像物體檢測技術可以以毫秒級的速度識別出圖片中的人類、動物、家具、食物、車輛等物體。
此次參加 ImageNet,CUvideo團隊首次向世界證明了港中文多媒體實驗室和SenseTime在這個高難度領域的卓越實力。結果顯示,CUvideo團隊所開發的視頻物體檢測系統結合了DeepID-Net 和 Faster RCNN 兩種系統,在30種檢測任務中取得了28種的勝利,總體準確度高達68%,在數量和準確度兩項比拼中均以壓倒性優勢擊敗了來自伊利諾伊香檳大學、香港科技大學、中國人民大學、東京大學、韓國國家科學院等團隊,達到了世界第一的水平。
在其他ImageNet 檢測任務中,CUimage和CUvideo團隊取得了四個世界第二和四個世界第三的成績,在多個任務中力壓谷歌、因特爾、高通、騰訊等工業界巨頭的研究團隊,保持了團隊一以貫之的業內領軍地位。
團隊穩定且優異的表現來源於深厚的技術積累。縱觀 ImageNet 比賽發展史,「物體檢測」項目是 ImageNet 裡最具挑戰性的任務,由於難度較大,在2013年時,計算機的檢測率只有 22.6%。到2014年,谷歌以 43.9% 的檢測率贏得比賽,而由香港中文大學歐陽萬裡、王曉剛和湯曉鷗教授帶領的DeepID-Net 團隊首次參加 ImageNet 大規模物體檢測任務比賽便以 40.7% 的優異戰績位居第二名。幾個月後,DeepID-Net 團隊將此成績大幅提高至 50.3%,達到了全球最高的檢測率。這一成果以論文形式發表在2015年國際計算機視覺與模式識別大會(CVPR)上,是當時世界上在 ImageNet 挑戰中最高記錄。
王曉剛教授認為,大公司團隊可能會通過增加計算資源嘗試更多的網絡結構和參數組合,不斷提升成績,而CUvideo和CUimage團隊通過創新、優化模型和流程,可以達到同等的甚至更好的研究成果;在學術團隊與SenseTime這樣的公司團隊合作的過程中,雙方更可以取長補短,整合資源,衝擊更好的成績。
SenseTime:將計算機視覺「內功」與市場緊密結合
作為一家專注於算法開發的計算機視覺公司,SenseTime賦予了計算機視覺感知和認知的能力,讓計算機能像人一樣獲取、分析、理解各種視覺信息,並與自然界進行交互。為此,SenseTime始終致力於聯合高等院校的精英人才,共同實現推陳出新、顛覆傳統的目標。SenseTime CEO 徐立曾對媒體表示:「人工智慧最核心是大腦,深度學習就是造這個大腦,因此真正懂得如何製造深度學習神經網絡很關鍵。目前國內從事核心技術的企業還不多,大部分企業是在做應用。」
SenseTime核心研發團隊成員均來自國內外名校、微軟、谷歌等科研院所。隨著算法的逐漸成熟,SenseTime與工業界的合作也愈發緊密,現已與多家機構在科研、商業領域開展合作,小米、華為、京東、銀聯、美圖、科大訊飛、Nvidia等均是其合作夥伴。
剛剛從韓國國家科學院(KAIST)加盟SenseTime的戴宇榮教授在接受《科技日報》採訪時就表示,科技公司與高校實驗室的合作能讓世界領先的技術真正為世人所熟知、應用,同時還能夠通過整合公司資源加速核心技術的開發,對工業界和學術界都大有裨益。
此次與港中文多媒體實驗室組隊參加視頻物體檢測比賽,SenseTime展示了在此全新領域世界領先的研發實力,表明了對於此領域市場前景的強大信心。
應用:研發、應用並肩前行計算機視覺引爆全新市場機遇
近幾年,計算機技術日趨成熟,多種基於深度學習的人工智慧算法已進入實用階段。港中文多媒體實驗室和SenseTime合作開發的計算機視覺產品正在潛移默化中改變著諸多生活應用場景:
SenseTime市場負責人表示:在安防、交通等領域,計算機可以從一群人中迅速識別出特定的個體,找到特定的車輛等關鍵信息,從而進行視頻智能分析和對有效信息的結構化數據提取;在網際網路金融領域,圖像檢測是遠程開戶、刷臉支付等應用背後最為關鍵的核心技術;而在更廣闊的商業領域,此次 ImageNet 著重推出的視頻中物體檢測技術將有機會徹底顛覆網際網路視頻行業:以網際網路廣告為例,企業可以利用這項技術以視頻內容本身為依據植入相關廣告,減少廣告對內容的影響,更加智能、精準地推送廣告信息。
從最為基本的視覺感知出發,輔以不斷完善的領先技術,計算機視覺產業仍有無窮的市場潛力可以挖掘。
在未來,SenseTime將與港中文多媒體實驗室等世界領先的科研機構合作,依託領先的技術內功,完成更多極具挑戰的任務,拓展更為廣闊的計算機視覺應用市場。
而在開拓視覺應用市場的同時,SenseTime也很早就意識到可靠的硬體對於應用支持的重要性。因此SenseTime早已著眼與提供視覺應用整體解決方案,與老牌高性能計算解決方案提供商AMAX合作開發針對SenseTime視覺識別應用而優化的並行計算平臺。此次獲獎的團隊採用的正是與AMAX中國聯合研發的SenseBox並行計算平臺。