微軟亞洲研究院王井東:下一代視覺識別的通用網絡結構是什麼樣的...

2021-01-10 網易

  

  

  高解析度網絡,重新定義新一代視覺識別通用網絡結構。

  2020 年 8 月 7 日,第五屆全球人工智慧與機器人峰會(CCF-GAIR 2020)在深圳正式開幕。

  CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦。

  作為中國最具影響力和前瞻性的前沿科技活動之一,CCF-GAIR 大會已經度過了四次精彩而又輝煌的歷程。

  在大會第二天的「視覺智能城市物聯」專場上,微軟亞洲研究院首席研究員王井東分享了其在新一代視覺識別網絡結構上的研究成果。

  王井東介紹,目前學界的網絡結構都是圍繞分類任務而發明,除了分類以外,在計算機視覺裡面還有其它的重要任務,比如圖像分割、人臉關鍵點的檢測、人體姿態估計、目標檢測等等。

  王井東首先分享了分類網絡結構學習高解析度表徵的方式,是通過上採樣的方法。包括兩個步驟,第一個步驟是分類的網絡架構,表徵空間尺度開始比較大,然後慢慢變小;第二個步驟,通過上採樣的方法逐步從低解析度恢復高解析度。這樣的方法獲得的特徵空間精度較弱。

  而王井東團隊研發的高解析度網絡架構(HRNet)沒有沿用以前的分類架構,也不是從低解析度恢復到高解析度,自始至終維持高解析度。

  他們讓高中低解析度不停地交互,使得高解析度可以拿到低解析度語義性比較強的表徵,低解析度可以拿到高解析度的空間精度比較強的表徵,不停地融合,最終取得更強的高解析度表徵。

  在人體姿態、分割、人臉關鍵點檢測、目標檢測等任務中,HRNet從參數量、計算量以及最終結果看,高解析度結構都非常有優勢。HRNet在人體姿態估計的任務上,已經成為標準的方法;在分割任務上,由於其更好的性能,也被大家廣泛使用。

  以下是王井東大會現場全部演講內容,雷鋒網AI掘金志作了不改變原意的整理及編輯:

  非常榮幸能夠在這裡跟大家分享我們的工作,今天我報告的題目是「高解析度網絡,一種面向視覺識別的通用網絡結構」。

  在計算機視覺裡面,視覺識別是一個非常重要的領域,這裡面我列舉了幾種代表性的研究課題:圖像分類、目標檢測、圖像分割、人臉關鍵點的檢測和人體關鍵點的檢測。

  從2012年以來,隨著AlexNet橫空出世,深度神經網絡在計算機視覺領域成為主流的方法。2014年,谷歌發明出了GoogleNet,牛津大學發明了VGGNet,2015年微軟發明了ResNet,2016年康奈爾大學和清華大學發明了DenseNet,以上都是圍繞分類任務而發明的網絡結構。

  除了分類以外,在計算機視覺裡面還有其它的任務,比如說圖像分割、人臉關鍵點的檢測、人體姿態估計等等。

  下一代的網絡結構是什麼樣的?是否適用於更為廣泛的視覺識別問題?

  

  在解答這些問題之前,我們先了解分類網絡、我們為什麼提出這樣的問題,以及現在的分類網絡存在的問題。

  LeNet-5分類網絡是1998年發明的一種網絡結構(如上圖),包括一系列減小空間大小的過程,具體來講就是把空間從大的特徵變成小的特徵,然後通過變換的向量,最後進行分類。

  前面提到的幾個結構,包括GoogleNex、VGGNet、ResNet等等,都是通過這種方式,逐步減小空間的大小,最終得到一個低解析度的表徵。低解析度的表徵在圖像分類任務中是足夠的,因為在圖像分類裡面,只需要給一個全局的標籤,而不需要詳細的空間信息,我們稱之為空間粗粒表徵的學習。

  

  但是在其它任務中,比如檢測,我們需要知道檢測框的空間位置,比如分割,我們需要每個像素的標籤,在人臉和人體的關鍵點的檢測中,我們需要關鍵點的空間位置,這樣一系列的任務實際上需要空間精度比較高的表徵,我們稱之為高解析度表徵。

  

  目前業內學習高解析度表徵有幾個原則,一般是以分類的網絡架構作為主幹網絡,在此基礎上學習一些高解析度的表徵。

  學習高解析度表徵,有一種叫上採樣的方法。包括兩個步驟,第一個步驟是分類的網絡架構,表徵開始比較大,然後慢慢變小;第二個步驟,通過上採樣的方法逐步從低解析度恢復高解析度。

  

  常見的網絡架構,比如U-Net,主要應用在醫學圖像,SegNet主要是用於計算機視覺領域,這幾個結構看起來很不同,其實本質都一樣。

  

  如此一來,解析度開始高,然後降低了,然後升高。在這個過程中,先失去了空間精度,然後慢慢恢復,最終學到的特徵空間精度較弱。

  

  為了解決這個問題,我們提出了一種新型的高解析度表徵學習方法,簡稱為HRNet。HRNet可以解決前面提到的從AlexNet到DenseNet都存在的問題,我們認為下一個網絡結構是HRNet。

  

  HRNet與以前的網絡結構不同,它不是從分類任務出發,它可以解決更廣泛的計算機視覺問題。

  我們的目的是學習一個空間精度強的表徵,我們設計的HRNet不是沿用以前的分類結構,也不是從低解析度恢復到高解析度,而是從零開始,自始至終都維持高解析度,可以學到空間解析度較強的表徵。

  

  這個結構是如何設計?作為對比,我們先分析分類的網絡結構原理。

  在下圖的例子裡,有高解析度的卷積(箭頭代表卷積等的計算操作,這些框是表徵),有中等解析度的卷積,最終得到低解析度的表徵。

  

  分類網絡中,這三路是串聯的,現在我們把這三路並聯,最終拿到一個高解析度的表徵。

  

  大家也許會有疑問,三路是獨立的,除了輸入的相關聯之外,其它的都不產生關係,這樣會損失什麼?在低解析度方面,它可以學習到很好的語義信息,在高解析度裡,它的空間精度非常強,這三路之間的信息沒有形成互補。

  我們採用的方法,是讓三路不停地交互,使得高解析度可以獲得低解析度語義信息較強的表徵,低解析度可以獲得高解析度的空間精度較強的表徵,不停地融合,最終取得更強的高解析度表徵。

  

  簡單來講,以前的高解析度是通過升高、降低再升高獲得,我們通過將不同解析度的卷積由串聯變成並聯,自始至終保持高解析度,並且還加入不同解析度之間的交互,使得高解析度表徵和低解析度表徵的變強,獲得對方的優勢特徵,最終獲得非常強的高解析度表徵。

  

  以上是設計方法,下面看看我們設計的網絡例子。

  HRNet實際上固定了它的深度,把這個結構分成若干個模塊,每個模塊是由若干個可重複的組織設計出來的。比如第三個部分,它由4個模塊形成。

  如何變化這個網絡結構適應不同的需求?

  我們採用變化寬度的方式。與ResNet比,這個結構中的寬度小很多,比如之前ResNet的寬度是256,HRNet的寬度是32-48。正因為這樣的設計,我們最終得到的參數和計算複雜度與ResNet的結果是可比的。

  

  下面了解下HRNet在不同任務中的實驗性能。

  人體姿態估計中,每個圖片中人數很多,我們的任務是要找出每個人的關鍵點,並區分不同人的關鍵點。

  

  做法有兩種,一種是自上而下(Top-Down),首先使用一種檢測器,把人檢測出來,然後每個人單獨做關鍵點的檢測。另外一種是自下而上(Bottom-Up),直接檢測關鍵點,然後進行一些聚類的操作,把不同人再分開來。

  我們看看自上而下的方法的結果,下圖左邊是基於ResNet的方法,右邊是HRNet的方法,比較的指標是關鍵點位置尋找準確與否。我們的結果是74.9%,結果要好於ResNet,同時參數量上,ResNet是68.5,我們是28.5。通過進一步加寬HRNet網絡結構後,可以進一步提高結果。

  這個方法自從2019年在CVPR發表以來,已經成為在人體姿態構建裡一個標準的網絡,一些文章或者比賽都會採用HRNet架構。

  

  在分割任務中。採用街景分割的例子,街景分割在自動駕駛、無人駕駛、輔助駕駛中都非常重要。

  

  以一個非常重要的數據集Cityscapes validation比較,其中,mIoU是衡量分割好壞的一個非常重要的指標,從下圖看到,HRNet-W40的結果優於其他方法,而體現計算量的GFLOPS指標中,HRNet是三位數,其他方法大多為四位數,HRNet計算量更小。在參數量、計算量上,HRNet的過程和最終結果都具有優勢,將網絡結構規模變大後,優勢進一步提高。

  

  Cityscapes Test數據集的結果看,HRNet的表現也是最好的。

  

  在今年4月份之前,我們在Cityscapes分割的榜單中排名第一。5月份,英偉達的一個新方法排名第一,了解過他們的方法後,發現它最終的結果是基於HRNet,再加上它的模塊,從這個角度看,說明HRNet的影響力在分割任務上逐步變大。

  

  人臉的關鍵點檢測應用非常多,娛樂、短視頻中的美顏功能,都需要人臉關鍵點的檢測,定位出眼睛、鼻子等位置。

  

  下圖展示的是在一個最新數據集上的結果,人臉關鍵點上有98個點,在測試數據集上,指標衡量的是預測的點與人工標註的點之間的差距,HRNet的數值比之前的都小,差距最小。除此之外還列出了6種不同複雜條件,比如人臉姿態的變化、表情的變化、光照、是否化妝、是否遮擋,圖片清晰程度,一系列的情況下,我們的結果都比以前的方法好。

  

  下面再看我們的方法用在目標檢測任務上。我們需要把物體框出來,同時要預測框中的物體種類。

  

  在最流行的Faster R-CNN框架裡,我們用HRNet和ResNet的方法進行對比,為保證公平,分成4組,在每組參數量和計算量可比的情況下進行對比。

  前三組在Faster R-CNN上比較,最後一個在Cascade R-CNN上比較,藍色數值表示預測的整體好壞情況,從結果看,HRNet都遠優於ResNet。除此以外,HRNet有非常好的高解析度表徵,在大量存在的小物體上更有優勢。

  

  實體分割中Instance Segmentation,需要表徵出物體的輪廓,而不僅僅是一個框,我們在Mask R-CNN中和ResNet對比,我們的表現有提高,尤其在小物體上體現更加明顯。當然,僅僅在Mask框架裡做不能說明問題,所以我們也在發表的研究論文裡列舉其他的方法,結果都比ResNet的表現好,這裡不一一列舉。

  

  

  HRNet出來時,有人懷疑是否其參數量、計算量變大,事實上,我們並沒有增加參數量和計算量,或者說增加網絡結構的複雜度來提升性能,比如上圖中,各項參數中兩者計算量差不多,但是結果是HRNet更好。

  

  

  下面我們看看分類。在視覺領域,預訓練非常重要,它需要幫網絡進行初始化,通過遷移學習應用到其他領域,或者給網絡結構做更好的初始化以幫助優化。

  當初我們做這個網絡結構的目的是為了提出一個高解析度表徵,以幫助分類以外的任務。後來發現,在同等參數量和計算量基礎上,HRNet的結果比ResNet好。

  

  2012年以來AlexNet、GoogleNet、VGGNet、ResNet、DenseNet等是為了做分類任務,HRNet除了可以做分類任務,且性能很好,還可以做分割、檢測、識別等等各種任務,面部檢測、行人的檢測、高空圖像識別,衛星圖象識別,也都有很好的效果。

  

  HRNet去年10月推出後,被很多比賽的參賽者使用。比如去年ICCV keypoint and densepose比賽中,幾乎所有參賽選手都使用了HRNet,谷歌、商湯糰隊用HRNet做panoptic segmentation 和 openimage instance segmentation比賽,也取得了最好的效果。

  

  最近大家對網絡結構搜索了解較多,既然有了搜索,為什麼還要有網絡結構設計?網絡結構設計實際上是為搜索提供了一個空間,這也是非常重要的。今年CVPR上的一篇來自谷歌的文章,它的出發點與HRNet非常相似,認為以前的網絡都是通過空間變大然後變小再恢復,這樣對一些識別和檢測任務非常不友好,他設計一個NAS的算法,來解決這個問題。

  

  網絡結構除了以上所述HRNet一系列東西之外,還有很多非常重要的研究,比如怎麼利用人的常識幫助網絡設計,怎麼設計輕量化網絡,怎麼與計算機硬體聯繫一起。

  

  計算機視覺中,怎麼為具體的任務設計網絡結構的研究也非常多。我給大家簡單介紹一下我們在ECCV 2020和CVPR 2020的關於Head Architecture Design的工作,主要研究如何把人的常識加進設計中。

  

  這裡給大家講一下語義分割,語義分割要預測每個像素點的標籤。深度學習在該領域內的應用非常廣泛,FCN是一個標準方法,一個圖像經過一個網絡結構,最後預測像素點的標籤。由於每個像素點本身沒有標籤,它的標籤來自對周圍信息的判斷,所以通常會加上上下文的信息。

  在介紹我們的方式之前,大家可以了解下以前的方法。

  以前的方法主要是Spatial context(空間上下文)比如有PPM、ASPP,它是在像素點周圍有規律地選出一些像素點,以求得當前像素點表徵,進而進行標註,我們把它稱為空間式。

  

  我們的方法是Object context(對象上下文),它的出發點非常簡單,正如前面提到,像素點本身沒有標籤,標籤來自於這個像素點所在的物體,比如下圖紅色的點,這個位置很難有標籤,它的標籤來自於這個車。運用這個出發點,我們思考路徑是:能不能拿到這個紅色像素點所在的物體特徵,來幫助表達這個紅色的像素點。基於這個出發點,我們提出了OCR方法。

  

  OCR的方法涉及雞生蛋還是蛋生雞的問題。我們事先並不知道分割,是先估計一個粗略的分割,有一個當前的表達,比如下圖,取紅色像素點的特徵,把它輸入到模塊裡,得到紅色像素點當前的特徵和其它的若干特徵(K object regions),然後把這些特徵經過變換,算出它們之間的相似度,根據相似度,經過加權池化(weighted pooling),然後得到像素點的表徵,根據這個表徵以及以前的表徵一起進行預測。

  

  從數據看,HRNet+OCR的方法的結果為82.5,這是發表文章時業界最好的結果。

  

  另外簡短介紹一下自下而上姿態預測(Bottom-Up Pose Estimation)中的工作。

  它不需要人體的檢測就可以直接預測人體的關鍵點。

  其中有個關於人體大小不一的問題,以前的方法沒有確切的解決方式,我們提出「高解析度特徵金字塔」的方法。把圖形輸入到HRNet中做一個表徵,從小的特徵中分辨大的,從大的特徵裡面分辨小的,這個方法的結果表現也是非常好。

  

  

  

  最後簡單總結一下,我講的主要是HRNet,作為一個通用的網絡結構,給大家展示了在視覺分割、檢測、人體關鍵點、人臉關鍵點的預測等任務,一系列的結果都比ResNet好,目前已經成為一個標準的方法之一。除此以外,我們基於具體任務的網絡結構設計,比如加上OCR的方法、高解析度特徵金字塔(Higher-Resolution FeaturePyramid)的方法取得的效果都非常好。

  

  我們也提供了代碼。

  

  第三屆「中國人工智慧安防峰會」9月5日正式啟幕

  

  

相關焦點

  • 微軟亞洲研究院常務副院長郭百寧:計算機視覺的黃金時代到了
    「1998 年微軟亞洲研究院建院的時候我們第一個成立的組就是視覺計算組,那時候計算機視覺應用非常少,很冷門」,微軟亞洲研究院常務副院長郭百寧博士對極客公園說道,他同時也是計算機視覺領域的頂尖科學家,「當時圖形學火了很多年,現在輪到計算機視覺火了。」
  • 微軟亞洲研究院梅濤:計算機視覺發展仍有巨大空間,視頻理解難於...
    計算機視覺是人工智慧的一個應用領域,其主要功能是識別圖像中的內容。部分創業公司以計算機視覺為發力點,尋找適合自己的場景,希望在商業落地上有所突破。對於投資人與創業者來說,計算機視覺作為一個技術壁壘較高的領域,其發展程度與應用領域是最能吸引大家關注的。為此健一會專門請到了微軟亞洲研究院資深研究員梅濤,請他向大家介紹目前計算機視覺的發展水平與實際應用情況。
  • 微軟識花:精細物體識別是怎麼做到的
    這時候,你可以默默掏出「微軟識花」應用,深藏功與名。微軟亞洲研究院推出最新款智能識別應用——一位可以隨身攜帶的植物專家「微軟識花」,可以幫你破解花的秘密。拿出手機,打開App,拍張照片,一鍵識別,隨手解救好奇心。微軟識花應用所能識別的花卉覆蓋了中國的絕大多數花卉。
  • 二十一世紀的計算 | 微軟亞洲研究院洪小文54頁PPT講述人工智慧和...
    | 計算機視覺識別先說計算機視覺識別,過去微軟亞洲研究院在計算機視覺領域有著世界領先的研究成果,在去年的另外,當時微軟亞洲研究院的研究員們在當時的ImageNet挑戰賽中使用了一種前所未有,深度高達152層的殘差神經網絡。
  • 微軟亞洲研究院訪問西安交大
    5月13日,微軟亞洲研究院常務副院長趙峰、副院長宋羅蘭一行訪問西安交大。鄭南寧校長在科學館107會見來賓。鄭南寧校長介紹了學校國際合作交流、網絡公開課、書院等相關情況。雙方就信息技術發展、人文教育、本科生培養、國際交流等問題進行討論和交流,並暢想了未來合作發展模式及內容。
  • 北大、微軟亞洲研究院:高效的大規模圖神經網絡計算
    新智元報導 來源:arXiv編輯:肖琴【新智元導讀】第一個支持圖神經網絡的並行處理框架出現了!北京大學、微軟亞洲研究院的研究人員近日發表論文,提出NGra,這是第一個支持大規模GNN的系統。近日,北京大學、微軟亞洲研究院的多位研究人員在arXiv上發布了一篇新論文,提出了解決這些問題的有效方案。
  • 學界| 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的...
    原標題:學界 | 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的卷積模型 選自CVPR 2017 參與:Smith、路雪、蔣思源
  • 大會直擊|微軟亞洲研究院劉鐵巖:深度學習成功的秘密
    根據微軟亞洲研究院劉鐵巖教授的現場精華整理,全部內容已經經由劉教授確認。劉鐵巖博士,微軟亞洲研究院首席研究員,美國卡內基梅隆大學(CMU)客座教授。劉博士的研究興趣包括:人工智慧、機器學習、信息檢索、數據挖掘等。他的先鋒性工作促進了機器學習與信息檢索之間的融合,被國際學術界公認為「排序學習」領域的代表人物,他在該領域的學術論文已被引用近萬次。
  • 微軟研究院大咖張正友:什麼是人臉表情識別技術?大牛講堂
    雷鋒網按:本文作者張正友博士,現任微軟研究院視覺技術組高級研究員,是世界著名的計算機視覺和多媒體技術的專家,ACM Fellow,IEEE Fellow。他在立體視覺、三維重建、運動分析、圖像配準、攝像機自標定等方面都有開創性的貢獻。他發明的平板攝像機標定法在全世界被普遍採用,被稱之為「張氏標定法」。
  • 微軟亞洲研究院(MSRA)研究員林欽佑博士來訪
    2017年10月20日,應哈爾濱工業大學社會計算與信息檢索研究中心邀請,微軟亞洲研究院(MSRA)知識計算(Knowledge Computing
  • 微軟亞洲研究院/工程院 交大訪問日程
    出訪人員: 沈向洋 博士 微軟亞洲研究院院長 首席科學家 張益肇 博士 微軟亞洲工程院 副院長 李航   博士 微軟亞洲研究院自然語言組 研究員 校友 鄭海濤 博士 微軟亞洲研究院無線網絡組 研究員 校友 黨映農 博士 微軟亞洲研究院多通道用戶界面組 副研究員 校友 鄒靜   碩士 微軟亞洲研究院高校關係部 高校合作專員
  • 微軟亞洲研究院在西安交大設立「微軟小學者」獎學金
    日前,微軟亞洲研究院與西安交大籤署合作協議,面向學校基礎學科拔尖人才培養試驗班、錢學森實驗班和少年班學生設立「微軟小學者」獎學金項目,獲獎者除獲5000元獎學金外,還將參加當年的微軟暑期夏令營。首批「微軟小學者」獎學金評選近日揭曉,曹彬、竇竟銘、馬賢忠3位同學獲獎,同時,韓思陽等5名同學獲得參加2013年微軟暑期夏令營的機會。
  • 沈向洋揮別微軟,但微軟人的中國故事沒有劇終
    在技術突破層面,沈向洋也帶領人工智慧與研究事業部取得了不少進展: 2016年,微軟的深度神經殘差網絡(ResNet)的圖像識別準確率在 ImageNet 測試中已經達到 96%,相當於一位斯坦福研究生的識別水準; 2017年,微軟在 Switchboard 語音識別基準測試中的錯誤率已經降低至 5.1%,已經可以達到人類專業速記員的水準。
  • 微軟亞洲研究院發布「微礦Qlib」:AI量化投資開源平臺
    【環球網科技綜合報導】12月11日報導,近日,微軟亞洲研究院正式發布了業內首個 AI 量化投資開源平臺「微礦 Qlib」。據了解,與傳統量化投資工具不同,Qlib 涵蓋了量化投資的全過程,而且從底層構造開始就專為 AI 而打造。
  • 計算機學院博士生與微軟亞洲研究院合作論文獲「2020年國際語音...
    >  南開新聞網訊(通訊員 楊徵路)日前,在國際語音交流協會主辦的2020年國際語音會議上,南開大學計算機學院博士生王程一與微軟亞洲研究院合作論文《基於偵察網絡的低延遲端到端實時語音識別系統》獲得最佳學生論文提名(第一作者單位為南開大學)。
  • 微軟全球資深副總裁Peter Lee和我們聊了聊微軟神秘部門NExT
    微軟這個神秘而低調的部門,從不主動尋求曝光,卻常有項目被 CEO Satya Nadella 掛在嘴邊;它不僅有微軟亞洲研究院(MSRA)及其合作實驗室做其科研後盾,還有微軟工程院的諸多工程師「大牛」隨時待命,把成員們的奇思異想變成現實。
  • 微軟亞洲研究院獲計算機學會首個傑出貢獻獎
    【搜狐IT消息】 中國計算機學會近日向微軟亞洲研究院頒發了首度設立的「傑出貢獻獎」,以表彰和感謝其長期以來對中國計算機人才培養及中國計算機產業發展所做出的不懈努力和卓越貢獻。同時獲此殊榮的還有方正集團。
  • AI+系列|對話鄧力:AI浪潮下 弄潮者能做什麼?
    說到人工智慧,就不得不提到微軟的研究院。在微軟的七大研究院中,成立最早的雷德蒙研究院已經有25年的歷史,而在當時,人工智慧就已經成為這個研究院的研究領域之一。早在1999年底,身為加拿大滑鐵盧大學正教授的鄧力就加入了微軟總部雷德蒙研究院,並憑藉自己深厚的學術功底在2014年初成為該研究院深度學習技術中心研發部門負責人,隨後在2016年初出任微軟人工智慧首席科學家。
  • 華人AI界痛失「一代宗師」,計算機視覺之父黃煦濤先生去世
    大數據文摘出品美東時間2020年4月25日夜間,華人計算機視覺一代宗師Thomas S.Huang(黃煦濤)在去世,享年84歲。由於他在圖像處理、模式識別等計算機視覺領域作出的開創性貢獻,黃煦濤也被華人計算機界譽為「計算機視覺之父」。
  • MSRA視頻理解新突破,實現199層三維卷積神經網絡
    然而目前視頻識別的相關研究多數使用的是基於圖像的卷積神經網絡(如微軟研究院在 2015 提出的殘差神經網絡 ResNet)來學習視頻特徵,這種方法僅僅是對單幀圖像的 CNN 特徵進行融合,因此往往忽略了相鄰的連續視頻幀間的聯繫以及視頻中的動作信息。目前,視頻專用的深度神經網絡還很缺乏。