下一個視覺「殺手級應用」來了,依圖行人重識別ReID性能創紀錄

2020-12-14 騰訊網

機器之心報導

機器之心編輯部

人臉識別之後的下一個風口是什麼?

對於這個問題,業界似乎早已有了共識。從 AI 的人臉識別能力超越人類以來,學術界和產業界的目光逐漸轉向另一個更具科研意義和應用價值的課題——行人重識別(Person Re-identification,ReID)。

近日,依圖科技在 ReID 領域取得新突破,其提出的技術刷新了全球工業界三大權威數據集業內最優成績(SOTA),算法性能達到業界迄今最高標準,極大拓展了算法和應用的邊界。

註:YITU 算法結果是在不利用時空信息,不進行重排再優化,即: Re-ranking 等條件下取得的。

還記得 2018 年底依圖進軍智能語音,隨即在中文語音識別領域創下識別精度的新紀錄。2019 年 5 月推出全球首顆雲端視覺 AI 晶片,而且「發布即商用」。在一些技術領域中,依圖將行業水平推上了新的高點,並加速了技術的產業化落地。

這背後的關鍵是什麼?

行人重識別(ReID),人臉識別後的「殺手級應用」

在交通運輸、工業製造和城市規劃等實際場景下,99% 的圖像都是不含人臉的——即使出現了人臉部分也極其模糊,僅有幾個像素大小,這時候人臉識別的作用較為有限。

行人重識別(ReID,也稱「行人再識別」),是指在多攝像設備網絡下對行人進行檢索,利用步態動作、身體特徵等更為全面的信息來識別人物,無論單獨使用還是與人臉識別相結合,都能發揮更大的應用價值。

除了智能零售、智慧交通、智能城市等經常提及的應用場景,ReID 技術的應用也將使日常生活更加便捷:遊樂園更易尋找走失兒童、寵物/家庭機器人可以憑背影準確識別主人或顧客並提供相應服務。

然而,由於 ReID 需要從不同攝像機拍攝的圖像或視頻中找出同一個人物,而這些攝像機所覆蓋的範圍彼此並不重疊,導致缺乏連貫的信息,而且不同畫面中人物的姿態、行為甚至外觀(比如: 正身、側身、背身)會發生較大變化,不同時間、場景的光照、背景和遮擋物各不相同(背景中常還有體型、衣著相似的其他人物幹擾),攝像機的解析度也有高有低,人物在畫面中出現的位置有遠有進, 這些都對 ReID 技術提出了極大的挑戰。

深度優化 ReID 算法框架,AutoML 取代人工算法調優

面對這種情況,依圖深度優化了 ReID 算法框架,顯著提升了算法效率,通過結合 AutoML 等前沿技術,進一步創新性地實現了模型參數的自動搜索與迭代,突破了依賴算法研究員手工設計與調優的傳統算法開發流程,在降低人力成本的同時,使得算法的泛化性能更強。

此次依圖自研算法在業界最具影響力的三大 ReID 數據集 Market1501、DukeMTMC-ReID、CUHK03 上,將衡量算法性能的兩大關鍵指標「首位命中率」(Rank-1 Accuracy)及「平均精度均值」(Mean Average Precision,mAP)6 項數據全部提升,充分顯示了依圖的技術實力,進一步穩固了中國 AI 在該任務下領跑地位。

需要指出,首位命中率高,只意味著算法能夠在眾多圖像中準確找出最容易識別或者說匹配的那張,並不能反應模型的真實能力,尤其是應對複雜場景的表現。

因此,評價 ReID 算法性能時需要結合 mAP 值,它反映的是系統的綜合檢索性能。mAP 值越高,說明系統的實用性越好,既能查得全也能查得準,能夠較好地應對多遮擋、光線暗、畫面模糊等情況。

自研 AI 晶片 QuestCore 助力,加速世界領先 ReID 算法商業化落地

除了算法性能,限制 ReID 應用大規模商業化落地的另一大原因,是現有的攝像機等終端設備沒有足夠強的算力。可以說,算力的缺乏一直是 AI 商業化落地的痛點。

依圖在 2017 年自研雲端 AI 晶片 QuestCore(求索),並於 2019 年 5 月「發布即商用」。QuestCore 是全球首顆雲端視覺 AI 晶片,提供強大算力,單路攝像頭功耗不到 1W。

依圖研發人員針對本次提出的算法做了進一步優化, 依託依圖自研 AI 晶片, 在僅憑穿著、步態特徵的條件下,已能將 ReID 做到 2017-2018 年人臉識別的精度。如此高的精度,不僅加速了行人重識別的大規模商業化落地,更解鎖了新的應用場景,為用戶提供更為全面與極致的體驗。

2017 年,以蘋果 FaceID 為代表的人臉識別商業化應用開始在全球範圍內普及。如今,刷臉支付、刷臉乘車已經滲透到我們的日常生活。有理由期待,世界級的 ReID 算法,加上依圖自研 AI 晶片, 業界期待的下一個計算機視覺領域「殺手級應用」即將到來。

本文為機器之心報導,轉載請聯繫本公眾號獲得授權。

------------------------------------------------

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

相關焦點

  • 富蘭克林的風箏:ReID產業化拉開的計算視覺新序幕
    無數科幻電影都告訴我們,當走在路上的自己被電腦錄入,出行軌跡就有可能被隨時偵查到……顯然,這並不是因為人工智慧(人臉識別)技術太強大,而是因為它還不夠強大,至少在大眾應用層面是如此。舉個例子,想要在精準識別與個人隱私之間達到平衡,行人重識別(Person Re-identification,簡稱ReID)就是一個非常有用的計算視覺技術。
  • 可微圖學習&弱監督,中山大學提出新型行人重識別方法和史上最大...
    相比普通的行人重識別方法,該方法不需要高昂的人工標註成本,並且幾乎不增加計算複雜度也能達到領先的模型性能。正是因為標註的簡單,一個大型行人重識別數據集也誕生了,即 SYSU-30k。SYSU-30k 數據集包含 30,000 個行人身份類別,約是 CUHK03 和 Market-1501 的 20 倍。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...
    ECCV (European Conference on Computer Vision,即歐洲計算機視覺國際會議)是國際頂尖的計算機視覺會議之一,每兩年舉行一次。隨著人工智慧的發展,計算機視覺的研究深入和應用迅速發展,每次舉行都會吸引大量的論文投稿,而今年ECCV的投稿量更是ECCV 2018的兩倍還多,創下歷史新高。
  • 「視覺+X」時代,一起探尋下一個殺手級應用丨CCF-GAIR 2020
    如果說人工智慧是第四次工業革命的驅動力,計算機視覺則最有可能衍生出這次工業革命中的殺手級應用。「計算機視覺是機器智能和企業變革最重要的元素之一。」美國史丹福大學計算機科學系教授李飛飛曾說,過去十年間,人類在對象識別和圖像標註等基礎視覺領域取得了重大進展。而視覺智能的下一個階段,可以稱之為:「視覺+X」時代。換句話說,日常生活、企業變革將建立在計算機視覺與機器學習等領域相結合的基礎之上。
  • 全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選
    全球計算機視覺頂級會議CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於2020年6月14日-19日在美國西雅圖召開。本屆大會總共錄取來自全球論文1470篇,騰訊優圖實驗室入選17篇。
  • 國內首個手機AR實景駕駛導航上線,能識別車輛行人,搜狗地圖出品
    無需額外購買昂貴的設備,只需一臺手機,一個App,即可體驗。視覺感知技術+導航傳統導航定位,是以GPS為主,並使用陀螺儀、加速度計等傳感器來提升精度。但在這種精度下,車道級定位目前在技術上是比較難以實現的。
  • 什麼是 PlayStation VR 的殺手級應用?
    什麼是 PlayStation VR 的殺手級應用? 沒人能在親自體驗那種 「在場感」 前說服你購買一臺 VR 頭顯,PlayStation 的相關負責人同樣這樣認為。
  • 騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等...
    本次AAAI 騰訊優圖實驗室共入選了11篇論文,涉及動作識別、人群密度估計、人臉安全等領域,展現了騰訊在計算機視覺領域的技術實力。大量實驗表明,所提出的FCA在真實環境下提高了SR模型的性能,以高保真度和合理的感知度獲得了最先進的結果,從而為實際SR應用提供了一種新穎有效的框架。
  • 萬字長文詳解騰訊優圖 CVPR 2019 入選論文
    相對於有監督行人重識別(RE-ID)方法,無監督 RE-ID 因其更佳的可擴展性受到越來越多的研究關注,然而在非交疊的多相機視圖下,標籤對(pairwise label)的缺失導致學習鑑別性的信息仍然是非常具有挑戰性的工作。
  • 騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域
    本次AAAI 騰訊優圖實驗室共入選了11篇論文,涉及動作識別、人群密度估計、人臉安全等領域,展現了騰訊在計算機視覺領域的技術實力。大量實驗表明,所提出的FCA在真實環境下提高了SR模型的性能,以高保真度和合理的感知度獲得了最先進的結果,從而為實際SR應用提供了一種新穎有效的框架。
  • CMOS傳感器在3D視覺、感測和度量中的應用
    3D視覺能提高機器人/機器系統在工業自動化應用的自主性和效率,提供2D視覺不能比擬的高精度質量檢測,反向工程和物件度量等關鍵能力。另一方面,視覺系統導向機器人的應用正在增長中,這一技術需要3D視覺來實現更好的遙距導向、障礙物辨識和精確移動。
  • 蘋果AR主管:輕應用才是殺手級的AR體驗
    而蘋果的AR眼鏡自然瞄準消費級,但是以目前消費級AR硬體市場來看,除了Facebook有那麼一丟丟可能會影響蘋果產品節奏外,否則AR眼鏡依然是一個「長期演進的、過於理想化」的硬體。讓移動AR更強大蘋果AR部門主管Mike Rockwell表示:從幫助人們生活的角度來看,AR具備有很大的潛力,無論是基於現有硬體,還是未來的硬體設備。
  • 性能超越谷歌!依圖團隊提出新一代移動端網絡架構MobileNeXt
    【新智元導讀】AIoT的時代即將來臨,移動端智能應用呈爆發式增長,但是大型神經網絡在移動端的性能制約了AI在移動端的推廣。最近,依圖團隊發表在ECCV的一篇論文,提出了新一代移動端神經網絡架構MobileNeXt,大大優於谷歌的MobileNet、何愷明團隊提出的ResNet等使用倒殘差結構的模型,為移動端算力帶來了新的突破。
  • 計算機視覺盤點 五大CV企業成行業關注重點
    人臉識別攝像頭、考勤機都是目前常見的人臉識別技術具體應用場景,甚至包括我們的智慧型手機,幾乎都運用到了這一技術。目前,人臉識別市場應用已經形成了軟體與硬體相結合的完善產品服務,並逐步向著軟硬一體化方向發展。本文匯總了當前國內Top5計算機視覺企業,相信計算機視覺在未來幾年也將會出現井噴式的發展。
  • 人工智慧開啟視覺處理新篇章:如何更好的理解這個世界
    現在,人工智慧視覺處理已從數據中心迅速發展到邊緣,最新的專用集成電路(ASIC)和片上系統(SoC)IP正在圍繞一個主題發展,即從視覺信息的預處理,到傳統的計算機視覺算法,然後再用神經網絡進行邊緣推理,產生對象檢測、識別以及適當的動作,是包括計算機視覺深度學習在內的多種機器學習的總稱。
  • 界面預言家|5G時代,「殺手級」變革遠比你想像的更精彩
    當一項技術面向大眾商用,人們最在乎的無疑是它具體應用在哪些方面。中國工程院院士餘少華曾總結過前幾代移動通信的標誌性應用和設備:2G時代的主要業務是語音服務和簡訊;3G終端是智慧型手機,主要業務有彩鈴、彩信、可視電話等數據業務;4G使用最多的應用是微信、支付寶、定位服務等。那5G時代的殺手級應用又是什麼?
  • 應用、算法、晶片,「三位一體」淺析語音識別
    IBM、微軟、百度等公司在語音識別方面,使用組合模型,不斷提升語音識別性能。微軟基於6個不同的深度神經網絡構成的聲學模型以及4個不同的深度神經網絡構成的語言模型,取得了超越人類的識別準確率。科大訊飛則基於深度全序列卷積神經網絡語音識別框架,取得了實用級的識別性能。雲知聲、捷通華聲、思必馳等智能語音創業公司亦在不斷打磨自己的識別引擎,並能夠把自己的技術落地到產業中。
  • 依阿華級戰列艦主炮左右開弓同時開火 視覺衝擊力無以倫比
    這是美海軍依阿華級"新澤西"號(BB-62)戰列艦,進行主炮左右開弓同時開火的壯觀場景,406毫米口徑的主炮開火所產生視覺衝擊力是無以倫比的,可惜現在看不到了,已成絕版!這是美軍艦載直升機飛行員等人在空中觀摩"新澤西"號左右開弓的壯觀景象,並拍照留念。
  • 淺談計算機視覺中的圖像標註
    更進一步的說,計算機視覺是一門研究如何使機器「看」的科學,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。計算機視覺的應用非常廣泛,從自動駕駛汽車和無人機到醫療診斷技術和面部識別軟體,計算機視覺的應用是巨大的和革命性的。
  • 淺談計算機視覺中的圖像標註_易車網
    更進一步的說,計算機視覺是一門研究如何使機器「看」的科學,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。計算機視覺的應用非常廣泛,從自動駕駛汽車和無人機到醫療診斷技術和面部識別軟體,計算機視覺的應用是巨大的和革命性的。