港中大湯曉鷗教授團隊超越谷歌,破網際網路物體檢測世界紀錄

2021-02-13 創見

創見微信號:tech2ipo_editor

*本文首發TECH2IPO/創見,作者Judy,轉載請註明出處

ImageNet 是什麼?

ImageNet 是視覺識別領域一年一度的「奧賽」,此項競賽對計算機深度學習影響深遠,任何在 ImageNet 上取得的技術進步都會給其它計算機視覺問題帶來重要影響。ImageNet——大規模視覺識別挑戰的識別任務之一便是對 1000 類、120 萬張網際網路圖像進行分類。

作為當下計算機視覺領域最受關注的挑戰,ImageNet 已經成為了衡量深度學習技術發展的重要指標:大量研究表明利用深度模型在競賽中學習得到的特徵可以被廣泛應用到其它數據集和各種計算機視覺的問題;而由 ImageNet 訓練得到的深度學習模型,更是推動計算機視覺領域發展的強大引擎。

2012 年,Hinton 所帶領的深度學習小組在 ImageNet 比賽中完勝其他參賽團隊,在計算視覺領域引起了轟動,掀起了深度學習的熱潮。從 2012 到 2014,ImageNet 的記錄也被深度學習不斷刷新。

DeepID-Net 團隊:我們的徵途就是挑戰巨人

在科技界,微軟、谷歌、Facebook、百度等巨頭對於研發的狂熱追逐舉世皆知,ImageNet 大規模視覺挑戰也是其角力的重要戰場。在這個戰場之上,由於工業界搶佔了數據和計算資源上的先機,世人普遍認為學術界很難在深度學習特別是像 ImageNet 這樣大規模的挑戰中與之抗衡。


ImageNet 視覺挑戰中飛機、汽車、人 3 個類別的樣圖

物體檢測是 ImageNet 視覺挑戰中最難的任務,它要求從四萬張圖像中準確檢測到 200 類物體的具體位置,並且一幅圖像往往包含多個不同類別的物體。2013 年 ImageNet 挑戰中最高的檢測率只有 22.6%。

而在 2014 年的 ImageNet 大規模物體檢測任務比賽中,谷歌更是組織了包括 2013 年的冠軍成員在內的強大團隊,並以 43.9% 的成績贏得比賽。在谷歌身後,香港中文大學由歐陽萬裡、王曉剛、和湯曉鷗教授帶領的 DeepID-Net 團隊首次參賽便以 40.7% 的優異戰績位居第二名。


湯曉鷗(前排左五)、王曉剛(前排右三)教授帶領的 DeepID 和 DeepID-Net 團隊

幾個月後,DeepID-Net 團隊更是將此項成績大幅提高至 50.3%,一舉超越谷歌,達到全球最高的檢測率。這一成果發表在 2015 年國際計算機視覺與模式識別大會 (CVPR) 上,是目前世界上在 ImageNet 挑戰中最高記錄。在 ImageNet 這樣一個記錄被不斷刷新的舞臺上,包括 DeepID-Net 在內的眾多學術精英團隊與工業巨無霸的競逐愈發引人注目。而在此之前,湯曉鷗和王曉剛教授帶領的 DeepID 團隊在 LFW 人臉識別挑戰上也有過戰勝 Facebook,並在全世界首次實現人臉識別算法超越人眼識別準確率的經歷。

DeepID-Net 團隊的取勝之匙:把比賽帶入技術創新的節奏

ImageNet 的物體檢測挑戰對技術能力要求極高:200 類物體在顏色、紋理、形狀、長寬比、形變等方面差異巨大;即便屬於同一類別,光線、角度、遮擋、部件變形扥因素也使得物體間存在顯著的差異。這些都要求通過深度學習得到的特徵表達具有強大的視覺描述能力,能夠區分眾多的物體類別和複雜背景,同時對類內變化具有魯棒性。

另外關鍵挑戰是運算數據所需要的超大計算量和漫長的測試周期。按照原有流程,基於單卡 NVIDIA Tesla K40 GPU 在 ImageNet 完成一次完整的訓練和測試大概需要三周。但對於網際網路巨頭們來說,基於大規模的 CPU/GPU 集群,會使這個周期大大縮短。谷歌的 GoogLeNet 採用了超過二十層的網絡結構,有大量需要手工設定的網絡參數。這些研究工作都需要強大的計算資源作為支撐。

正是 GPU 硬體的快速發展使得學術科研小組從事此類研究成為了可能。DeepID-Net 團隊的研發是基於有限的 NVIDIA Tesla K40 GPU 卡。DeepID-Net 團隊認為,過分依賴數據和計算資源,反而會放鬆對技術先進性的追求。想要在幾個月內趕超行業巨頭,就必須在物體檢測的整個流程和模型本身進行不斷的創新。

他們創造性的將深度模型的各層和傳統物體檢測系統的各個關鍵步驟建立對應關係,而不是簡單的將深度模型看成黑盒子。這種對應關係可以啟發人們利用計算機視覺的領域知識改進深度模型。

·DeepID-Net 團隊在卷積網絡的基礎上提出了新的形變層。通過形變層,不同類物體可以共享部件模型和形變模型,有效的處理由於物體形變、遮擋和姿態變化帶來的類內變化。

·針對物體檢測任務,提出新的特徵預訓練策略,使得深度學習得到的特徵對物體的位置和大小更加敏感,從而對物體的定位更加準確。

·將圖像全局的上下文信息有效的融入到物體檢測中。

·通過早期拒絕負樣本和集成流程中的若干步驟,將訓練和測試的周期縮短到原來的 1/3,大大加快了研發速度。

這些創新都使得基於深度學習的物體檢測的準確率和訓練效率有了大幅的提升。

大衛挑戰歌利亞,不只是競爭

結果恰如世人所看到的那樣,DeepID-Net 團隊在 ImageNet 上的成功表明,通過技術上的不斷創新,學術界仍可和網際網路巨頭在深度學習領域一爭高下。在這背後,DeepID-Net 團隊則證明了深度學習不僅僅是數據和計算資源的堆砌,其在理論和算法上都有著巨大的發展空間,而這恰恰是眾多學術精英團隊的優勢所在。

IEEE 模式分析與機器智能彙刊 (PAMI) 的前主編 Rama Chellappa 引用《聖經》故事形象的評價 DeepID-Net 團隊的工作,「你們與谷歌的競賽令我感到著迷。你們是牧羊人大衛,谷歌是巨人歌利亞。」大衛和歌利亞都有各自的優勢。我們也希望這樣的競爭持續進行下去,眾多來自學術界和工業界的團隊通過各自的努力,從不同的方面推動深度學習和計算機視覺技術的進步,不斷將人工智慧推上新的高峰。


相關焦點

  • 人工智慧「世界盃」360奪冠,刷新谷歌微軟保持的「世界記錄」!
    在本屆大賽中,360人工智慧團隊最終奪得冠軍,並且刷新了此前谷歌、微軟、牛津大學等機構保持數年的世界紀錄。      ImageNet大規模視覺識別挑戰賽被譽為計算機視覺乃至整個人工智慧發展史上的裡程碑式的賽事。本屆比賽共吸引了來自中美英等7個國家的25支頂尖人工智慧團隊參賽。賽事共包括物體定位(識別)、物體檢測、視頻物體檢測三大類任務。
  • 騰訊馬化騰、商湯科技湯曉鷗等六位大佬深度解讀人工智慧的過去...
    Kobilka 教授;騰訊董事會主席兼執行長馬化騰先生;美國國家科學院院士、中國科學院外籍院士、史丹福大學、清華大學教授張首晟教授;北京大學校務委員會副主任、理學部主任、生命科學學院講席教授饒毅教授;中國科學院深圳先進技術研究院副院長、香港中文大學教授、商湯科技聯合創始人湯曉鷗教授 人工智慧變的這麼熱,有四方面的原因 想要在某一領域取得重大突破,是一件容易的事情嗎?
  • 網易未來大會未來科技人物候選人湯曉鷗
    湯曉鷗,現任香港中文大學信息工程系教授、工程學院傑出學人,兼任中國科學院深圳先進技術研究院副院長。1990年於中國科學技術大學獲得學士學位,1991年於美國羅切斯特大學獲得碩士學位,1996年於麻省理工學院(MIT)獲得博士學位,於香港中文大學信息工程系任教授。2005-2007年於微軟亞洲研究院,擔任視覺計算組主任。2008年12月起在深圳先進技術研究院多媒體集成技術研究室任主任和研究員。
  • 雙周動態|三大運營商5G套餐用戶數或破億;NBA為球員配備號稱能預測新冠的戒指;谷歌提出新算法識別霧中物體;區塊鏈之家正式上線
    谷歌DeepMind新方法提升精度 15年前,隨著李飛飛對數據集研究的開始,世界最大的圖像識別數據集ImageNet誕生,隨著時間推移,人們將算法識別正確率提升到超越人類水平,它的規模和難度凸顯了機器學習領域的裡程碑式成就。但Google和DeepMind的科學家卻認為,已有的ImageNet有些落伍了。
  • 【今日關注】呂糧山豬創「蛋白質含量最高的豬肉」世界紀錄
    7月21日,「呂糧山豬」福布斯世界紀錄認證發布會在省城舉行。「呂糧山豬」獲得福布斯世界紀錄認證北京申報中心認證,創「蛋白質含量最高的豬肉」世界紀錄。福布斯世界紀錄認證官Michel Yen.現場宣布:「呂糧山豬」經專業檢測機構譜尼測試檢測,豬後腿蛋白質含量20.2克/100克,五花肉蛋白質含量20.4克/100克,五花肉蛋白質含量超市面豬肉2.6倍。
  • 港中大(深圳)特聘教授獲2020年諾貝爾經濟學獎
    2019年9月,保羅·米爾格羅姆教授接受港中大(深圳)高等金融研究院「能源市場與能源金融實驗室」顧問委員會主席聘書。難得的是,羅伯特·威爾遜教授也是保羅·米爾格羅姆教授的論文導師,至今為止,羅伯特·威爾遜教授本人還有他的3位學生都摘取了諾獎,是經濟學界的傳奇。   而保羅·米爾格羅姆教授與深圳淵源更深。他是香港中文大學(深圳)高等金融研究院特聘教授,曾在2019年9月造訪深圳,在中國能源市場與能源金融研討會上發表主旨演講。
  • 港中大(深圳):建設高水平大學 培養國際化創新人才
    以培養未來人才為目標打造一流大學 從一片荒蕪的草地和幾幢破舊廠房改造的啟動校區起步,如今,港中大(深圳)已擁有5大學院、4個書院、6大研究院,其中有3個以諾貝爾獎得主領銜的研究院,17個本科生專業、18個研究生專業,與100多所世界名校展開的深度合作項目超180個。2020年,港中大(深圳)招生錄取分數線已連續5年位居廣東省第一。
  • David Patterson教授公開宣布加入谷歌TPU團隊,好戲才剛剛開場
    但是谷歌也沒閒著,雷鋒網(公眾號:雷鋒網)AI科技評論了解到,計算機架構方面的重量級人物,加州伯克利大學的David Patterson教授已經公開宣布了自己加入谷歌TPU團隊的消息。另外,雖然谷歌TPU團隊已經有多人集體出走自行成立公司做晶片研發,但這另一方面也表明了TPU會作為獨立的一項商品走上計算硬體市場。好戲才剛剛開場。
  • 恐怖的超越!半程馬拉松世界紀錄被破,新成績整整快了20秒
    恐怖的超越!半程馬拉松世界紀錄被破,新成績整整快了20秒
  • 又逆天了.PASCAL VOC目標檢測中,海康奪冠並刷新世界紀錄
    」的時候,又傳出一則新聞——海康威視在PASCAL VOC目標檢測中奪冠並刷新世界紀錄。附新聞:海康威視在PASCAL VOC目標檢測中奪冠刷新世界紀錄近日,海康威視參與PASCAL VOC視覺識別競賽,其中目標檢測任務成績mAP性能達到87.9,刷新了世界記錄,排名第一名,領先第二名4.1個點。評測中,海康威視20類目標中的19類結果在所有的算法中均處於領先地位。
  • 從未被超越——瘋狂的劉翔,世界紀錄製造者
    打破世界青年紀錄2002年7月,劉翔再創佳績,在瑞士國際田聯110欄比賽中,劉翔以13秒23的成績打破了塵封24年的世界青年紀錄,一鳴驚人。平世界紀錄、破奧運紀錄摘金2004年雅典奧運會,劉翔登上人生巔峰,110欄決賽,劉翔以12秒91的成績率先衝過終點,平該項目世界紀錄,破奧運紀錄,成為中國田徑歷史第一人。
  • 應悅寄語應悅,張翔祝福張翔,港中大新生的這些緣分太奇妙!
    今年,港中大(深圳)共錄取內地本科生1300餘人,研究生近1000人。大學在迎新報到註冊日裝飾一新,喜迎新生註冊報到現場,校長徐揚生教授用三句話寄語新生。經管學院首屆本科畢業生應悅(右)與2020級新生應悅(左)合影有趣的是,港中大(深圳)今年的新生還與學長、學姐演繹出很多奇妙的緣分。8月15日,一封來自港中大(深圳)的錄取通知書到達浙江省寧波鎮海中學的應悅同學手中,同錄取通知書一起到來的,還有一位同名同姓的學姐——來自港中大(深圳)經管學院首屆畢業生應悅,這位應悅學姐也來自浙江寧波,畢業於寧波效實中學。
  • 谷歌研發AI算法控制無人氣球運動 建空中網際網路
    谷歌研發AI算法控制無人氣球運動,建空中網際網路一隻漂浮在平流層的巨型氣球,在人工智慧的幫助下,穩穩地待在原地數周。12月3日,學術期刊《自然》發表了一項來自谷歌團隊的研究,顯示人工智慧控制器能讓平流層的氣球一連數周待在原地。這項研究結果意味著,深度強化學習向現實世界應用邁進了難得的一步,提高了全自動環境監測成為現實的可能性。
  • 喜訊 中大iGEM團隊勇奪全球總決賽金牌!
    本次iGEM全球總決賽,中國大陸及香港、澳門共有62支隊伍參賽,僅中大iGEM團隊獲得單項獎,這是中大iGEM團隊自參賽以來又一次在總決賽中獲得大陸參賽高校的最好成績。其中,軟體隊以冠軍身份獲得軟體類全球唯一的最高獎——最佳軟體項目獎(Best Software Project),並斬獲總決賽金牌。
  • 人工智慧「世界盃」落幕,360為何能力壓谷歌微軟奪冠?
    據悉在本次挑戰賽中,360人工智慧研究院與新加坡國立大學(NUS)團隊合作提出的「DPN 雙通道網絡+基本聚合」深度學習模型均取得了最低的定位錯誤率,分別為0.062263和0.061941,刷新世界紀錄,力壓一直在此項任務中保持世界領先地位的谷歌、微軟、牛津大學等諸強奪冠。
  • 谷歌研發AI算法控制無人氣球運動,建空中網際網路
    12月3日,學術期刊《自然》發表了一項來自谷歌團隊的研究,顯示人工智慧控制器能讓平流層的氣球一連數周待在原地。這項研究結果意味著,深度強化學習向現實世界應用邁進了難得的一步,提高了全自動環境監測成為現實的可能性。
  • 【ECCV 2018】谷歌AI超大規模圖像競賽,中國團隊獲目標檢測冠軍
    獲獎技術採用了FPN,cascade-rcnn等最新的檢測算法,並面向複雜實際場景數據集對算法進行了改進,模型性能實現了大幅提升。眼睛是人類接觸外部世界的第一感官,對於機器而言,計算機視覺技術就是它們的「眼睛」。
  • 今天,她在宜昌打破全國紀錄,超越世界紀錄!
    國家集訓隊(浙江)楊倩,以253.3環成績破全國紀錄,原紀錄為252.8環;同時,楊倩也超越了>252.9環的女子10米氣步槍決賽世界紀錄。