業界首個!大規模多相機通用物品場景數據集MessyTable

2021-01-11 AI 科技評論

作者 | 商湯、南洋理工大學

編輯 | 陳大鑫

眾所周知巧婦難為無米之炊,在如今深度學習大行其道的時代,一個數量大、質量好的數據集猶如一塊璞玉,就等著算法去雕刻。

今天介紹的就是來自商湯與新加坡南洋理工大學聯合製作的大規模多相機通用物品場景數據集MessyTable,MessyTable包括5500+ 手工設計的場景,共計5萬多張圖片和120萬個密集標註的檢測框,其對應論文已被ECCV 2020接收。

針對現實生活中多相機系統應用的難點,如相似相同的物品、密集遮擋、大角度差等問題,我們設計了大量真實、有趣又極富挑戰的場景:圍繞著混亂的餐桌(Messy Table)部署了多個視角的相機,其任務是關聯不同相機視角中的實例。看似簡單任務卻要求算法能夠分辨細微的外觀差別、從鄰近的區域獲取線索以及巧妙地使用幾何約束等。我們同時提出了利用多相機場景下周圍信息的新算法。我們希望MessyTable不僅可以作為極富挑戰的基線為後續研究指明方向,也可以作為高度真實的預訓練源為算法落地開闢道路。

MessyTable

圖1:MessyTable中的一個場景示例(只可視化了4個視角中的5個物體)

本文我們以7次問答的方式總結了我們的工作:

問題1:MessyTable與現有的ReID和跟蹤有什麼關係?問題2:MessyTable有哪些挑戰?問題3:MessyTable的規模有多大?問題4:MessyTable有哪些設計上的考量?問題5:各種算法在MessyTable上的表現如何?問題6:多相機關聯還沒有解決的問題和下一步的研究方向有什麼?問題7:我可以怎麼使用 MessyTable?

1

MessyTable與現有的ReID和跟蹤有什麼關係?

答:

ReID和跟蹤本質上都可以理解為實例的關聯,往往需要利用外觀信息等。MessyTable雖然主要是為了多相機場景中實例的關聯的研究,但是它包含的分辨細微的外觀差別、密集遮擋、大角度差等挑戰都是和其它實例關聯共通的。我們希望MessyTable在服務多相機這個特定場景之外,成為一個實例關聯任務通用的數據集,成為新算法的測試場。

2

MessyTable有哪些挑戰?

答:

主要的挑戰有:

1、相機之間有大角度差,實例的外觀在不同視角中差別很大(如圖1的Instance ID為5的罐頭);

2、部分(圖2a)甚至完全(圖2b)遮擋,為依靠外觀信息的關聯算法增加了困難;

3、相似(圖2c)或相同(圖2d)的物體,因此僅僅使用類似傳統ReID的基於外觀的算法是不足夠的;

4、物體的堆疊(圖2e/f)貼近現實生活中的混亂程度,使用傳統的單應性矩陣投影等方法無法解決。

圖2:MessyTable中的各種挑戰:a)部分遮擋;b)完全遮擋;c)相似物體;d)相同物體;e)和f)複雜的堆疊

3

MessyTable的規模有多大?

答:

我們在表1中與其它類似的多相機數據集的規模的對比。MessyTable包括5500+ 手工設計的場景,共計5萬多張圖片和120萬個密集標註的檢測框,每個檢測框都有一個Instance ID(同一個物體在不同視角下的Instance ID相同)。

表1:MessyTable與類似多相機數據集的規模對比

4

MessyTable有哪些設計上的考量?

答:

我們主要有三個設計:場景難度等級、多相機的設置以及通用物品的選擇。

場景難度等級:我們將MessyTable的場景設計為三個難度等級。越困難的場景中有更多的遮擋、相似相同的物體以及更多物體處於共享視野之外。詳見圖3。

圖3:a)三個難度等級的場景示例;b)更難場景有更多的實例;c)更難場景有更少的實例出現在共享視野;d)更難場景有更多相同物體的實例

多相機的設置:為了研究相機相對角度對關聯表現的影響,我們設置了9個相機以及567個不同的相機部署方案,產生了2萬多對相對相機位置。詳見圖4。

圖4:a)相機在空間中的均勻分布(投影至1號相機);b)採集中的相機布置;c)相對相機角度的分布有極大的多樣性

通用物品的選擇:我們挑選了120種餐桌上常見的物體:60種超市商品、23種果蔬、13種面點以及24種餐具,包括多種大小、顏色、紋理和材料。在圖5中我們統計了這些物體的出現頻率,在圖6中我們羅列了完整的物體清單。

圖5:120種物體的出現頻率

圖6:全物體清單

5

各種算法在MessyTable上的表現如何?

答:

我們測試了多種算法基線(見表2)。單應性投影(Homographic projection)並不意外地表現很差,因為其關鍵的物體都在同一平面的假設在複雜場景中不成立;基於SIFT關鍵點提取的傳統方法效果也不好,因為無紋理的物體上關鍵點極少;基於深度學習的Patch-Matching的方法如MatchNet、 Deep-Compare及DeepDesc效果一般,而基於Triplet結構的基線表現有較大幅度的提升,但也受限於無法區分相似相同的物體;

表2:各算法基線在MessyTable上的表現顯示結合外觀信息、周圍信息、幾何信息的算法取得最好的效果

我們發現除了外觀信息,周圍信息非常重要。因此我們提出將檢測框之外的信息包括進來。我們將這個操作稱之為Zoom-out。但是我們發現直接在Triplet網絡上加上Zoom-out效果不好,於是我們觀察人類的行為:一個人只有當物體本身的特徵信息不足時,才會從周邊尋求線索。因此,我們提出ASNet(圖7),它有外觀特徵分支和周圍特徵分支,並使用一個lambda係數來平衡兩個分支(公式1)。當物體的外觀信息相似時,Lambda的設計(公式2)使網絡分配更大的權重給周圍信息分支。

圖7:Appearance-Surrounding Network (ASNet)

ASNet顯著地提升了關聯的表現。圖8的特徵圖的可視化顯示了ASNet學會了從實例周圍獲取線索,而直接使用Zoom-out仍然專注於實例本身。

圖8:直接使用Zoom-out仍然專注於實例本身(只在中心存在一個高響應區域),但ASNet學會了從實例周圍獲取線索(在實例周圍仍有多個高響應區域)

我們同時還發現在ASNet的基礎上增加一個基於對極幾何的軟約束可以繼續提升表現,證明幾何信息是和外觀信息、周圍信息相得益彰的。

6

多相機關聯還沒有解決的問題和下一步的研究方向有什麼?

答:

需要指出的是,儘管同時使用了外觀信息、周圍信息和特徵信息,目前的算法在複雜場景和大相機角度差的情況下表現仍不盡人意。

在圖9中,我們比較了四個較強算法在不同相機角度差的情況的表現,發現三個衡量指標都在相機角度差變大的情況下迅速變差。

圖9:相機角度差越大,關聯的表現越差;衡量指標:a)AP;b)FPR-95;c)IPAA-80

在表3中,我們測試了模型在三個難度的子數據集上的表現。越難的子集有的遮擋、相同的物體、更少的出現在共享視野的物體,因此模型的表現也更差。

表3:場景越困難,關聯的表現較差

更多的失敗例子(圖10)包括當相同的物體被擺放在一起或者堆疊起來,造成相似的周圍信息以及幾何軟約束的懲罰。

圖10:更多的失敗例子

以上的這些目前算法的不足給我們提出了三個重要的研究方向:

1) 如何提取更強的外觀、周圍以及幾何信息?

2) 如果更好地融合這些信息?

3) 有沒有其它信息我們可以利用?

7

我可以怎麼使用 MessyTable?

答:

MessyTable有兩個主要的作用:作為一個高指向性的基線和作為一個實例關聯的預訓練源。對於前者,在MessyTable上表現更好的算法,在其它多相機數據集上也有更好的表現;對於後者,在MessyTable上預訓練的模型在其它數據集上的表現比在ImageNet上預訓練的表現更好。值得注意的是,我們測試的其它三個數據集甚至包括車輛、行人等與MessyTable中的通用物品差別較大的類別。詳見表4。

表4:MessyTable可以作為一個高指向性的基線和作為一個實例關聯的預訓練源

結語:

我們希望MessyTable在實例關聯這個領域中促進新穎算法的研究以及發掘新的問題。更多的細節請見我們的項目主頁。

相關焦點

  • 百度發布全球首個大規模隱變量對話模型PLATO
    百度於去年10月公布的通用領域對話生成預訓練模型PLATO,最近已正式被ACL 2020接收。PLATO是業界首個基於隱空間(Latent Space)的端到端預訓練對話生成模型。據悉,該模型利用隱向量來表示對話的潛在方向,從而達到對話內容豐富度和流暢度的顯著提升。
  • PLATO:百度發布首個大規模隱變量對話模型
    PLATO 是業界首個基於隱空間(Latent Space)的端到端的預訓練對話生成模型。據悉,該模型利用隱向量來表示對話的潛在方向,從而達到對話內容豐富度和流暢度的顯著提升。針對具體的對話任務,基於PLATO可以用少量數據訓練得到非常流暢的對話系統。
  • 論文翻譯|多魚眼相機的全景SLAM
    ,以實現從魚眼鏡頭到等效理想幀相機的高精度校準,這保證了從魚眼鏡頭圖像到相應全景圖像的精確轉換.其次我們開發了全景相機模型、具有特定反向傳播誤差函數的相應束調整以及線性姿態初始化算法.第三,實現的基於特徵的SLAM由初始化、特徵匹配、幀跟蹤和閉環等幾個特定的策略和算法組成,以克服跟蹤寬基線全景圖像序列的困難.我們在超過15公裡軌跡的大規模彩信數據集和14000幅全景圖像以及小規模公共視頻數據集上進行了實驗
  • ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集
    論文:VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research論文連結:https://arxiv.org/pdf/1904.03493.pdf這篇論文介紹了一個新型大規模多語視頻描述數據集
  • 阿里雲開源EasyTransfer:業界首個面向NLP場景深度遷移學習框架
    機器之心發布機器之心編輯部阿里雲正式開源了深度遷移學習框架 EasyTransfer,本文詳細介紹了 EasyTransfer 框架的核心功能近日,阿里雲正式開源了深度遷移學習框架 EasyTransfer,這是業界首個面向 NLP 場景的深度遷移學習框架。
  • 阿里開源首個DL框架,新型XDL幫你搞定大規模稀疏數據
    「高維稀疏數據的數據處理、模型計算以及在線服務一直是深度學習應用於業界的一個核心挑戰區。阿里媽媽第一代的 基於深度學習的 CTR 模型研製與大規模線上部署都是 XDL 支撐的,我們將其中對業界有貢獻的部分提供給用戶,希望做出對大家有增量的東西。」靖世這樣描述 XDL 開源的初衷。而現有框架在處理高維稀疏數據的「痛點」究竟在哪裡?使用的模型有什麼不同?
  • 阿里AI 實現首個實時翻譯直播,將大規模用於雙 11
    今日(21)日消息,阿里完成全球首個多語言實時翻譯的電商直播,通過AI實現環境降噪,解決口音不標準及口語化語言風格等問題,可實時將中文直播內容精準翻譯成英語、俄語、西班牙語等語言,該技術將大規模應用於2020年雙11活動。
  • 阿里開源首個移動AI項目,淘寶同款推理引擎
    這是阿里開源的首個移動AI項目,已經用於阿里手機淘寶、手機天貓、優酷等20多個應用之中。覆蓋直播、短視頻、搜索推薦、商品圖像搜索、互動營銷、權益發放、安全風控等場景。在IoT等行動裝置場景下,也有若干應用。阿里表示,在iOS、Android的CPU、GPU性能上,MNN已經普遍領先業界。
  • 業界首個Wi-Fi 6 AP產品性能測試解讀
    業界首個Wi-Fi 6 AP產品性能測試解讀   什麼是Wi-Fi 6   2018 年 10 月 4 日,Wi-Fi聯盟正式宣布將下一代Wi-Fi技術802.11ax更名為Wi-Fi 6。
  • 大規模3D數據集ScanNet:讓機器人理解真實世界
    Angela  Dai 是史丹福大學的一名博士生,在 CVPR 上有一個 Spotlight talk,主要介紹 ScanNet,一個擁有標註過 3D 室內場景重構信息的大規模 RGB-D 數據集。她最初的想法是,推動數據匱乏的機器學習算法的發展,特別是在 3D 數據上。3D 數據包含更多信息,比如比如大小和物體之間的距離。但
  • 眼控科技EM-VEHICLE高質量交通數據集問世
    據眼控科技人工智慧研究院消息,全國首個道路交通車輛檢測、追蹤及跨鏡識別EM-VEHICLE基準數據集於近期正式發布,填補了國內多目標多相機道路交通車輛追蹤任務數據集的空白。基於公司業務需求,並為了解決上述問題,眼控科技人工智慧研究院道路交通事業部創建了一個高質量的車輛數據集——EM-VEHICLE基準數據集。該基準數據集包含多個子數據集,能夠用於訓練模型完成道路交通監管領域車輛檢測、車輛分類、多目標單相機(MTSC)追蹤、多目標多相機(MTMC)追蹤、視頻車輛跨鏡識別(Video-based Vehicles ReID)等多項任務。
  • 根植於工業級大規模深度學習應用場景的PaddlePaddle
    首先,在當時還沒有什麼工業界的深度學習框架,也就是百度在深度學習應用剛起步時就意識到了建設通用框架的重要性;另一個是並行分布式,深度學習的威力依賴大數據,工業級的深度學習必須有大規模訓練的支持,百度在深度學習框架構建之初就定位了它的分布式訓練能力。而對於百度而言,深度學習的應用確實和大數據、強算力下的大規模訓練密切相關。
  • URP 系列教程 | 多相機玩法攻略
    今天,我們一起來學習一下 URP 中多相機的玩法。Unity 中的攝像機的工作方式就像現實世界中的相機一樣:它捕獲三維空間中對象的視圖,並將其顯示在二維的平面上。相對於 Unity 默認的渲染管線,Unity 通用渲染管線(URP)中的攝像機會有什麼不同之處呢?
  • 2018機器閱讀理解競賽獲獎名單出爐 百度數據集點亮行業創想
    作為最大的中文搜尋引擎,百度在數據方面具有得天獨厚的優勢。2017年底,全球規模最大的「BROAD」百度AI公開數據集計劃(Baidu Research Open-Access Dataset)正式啟動,百度面向公眾開放包括室外場景理解數據集、視頻精彩片段數據集、閱讀理解數據集3個數據集。
  • 論文回顧|[ICDAR 2019] DeepSignDB:大規模聯機籤名數據集
    The DeepSignDB On-Line Handwritten Signature Biometric Database」所貢獻的一個大規模聯機籤名數據集。長期以來,在聯機籤名認證任務中,存在籤名數據難以獲取的難題,這對深度學習方法的應用帶來了很大的挑戰。這篇文章最大的貢獻在於,作者整合了以往多個非公開可獲取的聯機籤名數據集(圖1),作為單一數據集DeepSignDB向學界免費公開。
  • 大數據處理架構系列二:大規模並行處理資料庫MPP
    一、MPP架構定義為了提高計算性能,MPP架構將RDB的單伺服器升級成為了多伺服器,在遇到性能瓶頸時,擴展伺服器也很容易實現,不需要花費太多的維護成本,首先看一下MPP架構的標準定義:MPP(MassivelyParallelProcessing),即大規模並行處理
  • 阿里完成全球首個多語言實時翻譯的電商直播 通過AI實現環境降噪
    阿里完成全球首個多語言實時翻譯的電商直播 通過AI實現環境降噪 來源:IT之家 • 2020-10-21 17:29:30
  • 淺析大規模多語種通用神經機器翻譯方法
    儘管多語言NMT已經存在大量的研究,然而,識別語言之間的共性以及針對現實場景下的大規模多語言模型等,仍然存在問題和挑戰。一、Multilingual Machine Translation 多語言機器翻譯的最理性的目標是通過單一模型能夠翻譯任意一個語言對。
  • 體系實力做堅實後盾 揭秘上汽通用汽車首次大規模OTA升級
    值得一提的是,這是上汽通用汽車首次針對車載互聯繫統啟動大規模OTA升級,可以說在智能網聯方面邁出了關鍵一步,更體現了其深厚的技術儲備以及強大的體系競爭力。上汽通用汽車首次大規模OTA遠程升級眾所周知,OTA升級即Over The Air「空中」升級,可以理解為一種遠程無線升級技術。
  • R語言-data.table-數據處理
    data.table 包數據處理data.table 包數據處理前言基礎介紹基本格式i j by 使用讀取數據行篩選列篩選總結