業界首個!大規模多相機通用物品場景數據集MessyTable

2021-01-11 AI 科技評論

作者 | 商湯、南洋理工大學

編輯 | 陳大鑫

眾所周知巧婦難為無米之炊，在如今深度學習大行其道的時代，一個數量大、質量好的數據集猶如一塊璞玉，就等著算法去雕刻。

今天介紹的就是來自商湯與新加坡南洋理工大學聯合製作的大規模多相機通用物品場景數據集MessyTable，MessyTable包括5500+ 手工設計的場景，共計5萬多張圖片和120萬個密集標註的檢測框，其對應論文已被ECCV 2020接收。

針對現實生活中多相機系統應用的難點，如相似相同的物品、密集遮擋、大角度差等問題，我們設計了大量真實、有趣又極富挑戰的場景：圍繞著混亂的餐桌（Messy Table）部署了多個視角的相機，其任務是關聯不同相機視角中的實例。看似簡單任務卻要求算法能夠分辨細微的外觀差別、從鄰近的區域獲取線索以及巧妙地使用幾何約束等。我們同時提出了利用多相機場景下周圍信息的新算法。我們希望MessyTable不僅可以作為極富挑戰的基線為後續研究指明方向，也可以作為高度真實的預訓練源為算法落地開闢道路。

MessyTable

圖1：MessyTable中的一個場景示例（只可視化了4個視角中的5個物體）

本文我們以7次問答的方式總結了我們的工作：

問題1：MessyTable與現有的ReID和跟蹤有什麼關係？問題2：MessyTable有哪些挑戰？問題3：MessyTable的規模有多大？問題4：MessyTable有哪些設計上的考量？問題5：各種算法在MessyTable上的表現如何？問題6：多相機關聯還沒有解決的問題和下一步的研究方向有什麼?問題7：我可以怎麼使用 MessyTable？

MessyTable與現有的ReID和跟蹤有什麼關係？

答：

ReID和跟蹤本質上都可以理解為實例的關聯，往往需要利用外觀信息等。MessyTable雖然主要是為了多相機場景中實例的關聯的研究，但是它包含的分辨細微的外觀差別、密集遮擋、大角度差等挑戰都是和其它實例關聯共通的。我們希望MessyTable在服務多相機這個特定場景之外，成為一個實例關聯任務通用的數據集，成為新算法的測試場。

MessyTable有哪些挑戰？

答：

主要的挑戰有：

1、相機之間有大角度差，實例的外觀在不同視角中差別很大（如圖1的Instance ID為5的罐頭）；

2、部分（圖2a）甚至完全（圖2b）遮擋，為依靠外觀信息的關聯算法增加了困難；

3、相似（圖2c）或相同（圖2d）的物體，因此僅僅使用類似傳統ReID的基於外觀的算法是不足夠的；

4、物體的堆疊（圖2e/f）貼近現實生活中的混亂程度，使用傳統的單應性矩陣投影等方法無法解決。

圖2：MessyTable中的各種挑戰：a）部分遮擋；b）完全遮擋；c）相似物體；d）相同物體；e）和f）複雜的堆疊

MessyTable的規模有多大？

答：

我們在表1中與其它類似的多相機數據集的規模的對比。MessyTable包括5500+ 手工設計的場景，共計5萬多張圖片和120萬個密集標註的檢測框，每個檢測框都有一個Instance ID（同一個物體在不同視角下的Instance ID相同）。

表1：MessyTable與類似多相機數據集的規模對比

MessyTable有哪些設計上的考量？

答：

我們主要有三個設計：場景難度等級、多相機的設置以及通用物品的選擇。

場景難度等級：我們將MessyTable的場景設計為三個難度等級。越困難的場景中有更多的遮擋、相似相同的物體以及更多物體處於共享視野之外。詳見圖3。

圖3：a）三個難度等級的場景示例；b）更難場景有更多的實例；c）更難場景有更少的實例出現在共享視野；d）更難場景有更多相同物體的實例

多相機的設置：為了研究相機相對角度對關聯表現的影響，我們設置了9個相機以及567個不同的相機部署方案，產生了2萬多對相對相機位置。詳見圖4。

圖4：a）相機在空間中的均勻分布（投影至1號相機）；b）採集中的相機布置；c）相對相機角度的分布有極大的多樣性

通用物品的選擇：我們挑選了120種餐桌上常見的物體：60種超市商品、23種果蔬、13種面點以及24種餐具，包括多種大小、顏色、紋理和材料。在圖5中我們統計了這些物體的出現頻率，在圖6中我們羅列了完整的物體清單。

圖5：120種物體的出現頻率

圖6：全物體清單

各種算法在MessyTable上的表現如何？

答：

我們測試了多種算法基線（見表2）。單應性投影（Homographic projection）並不意外地表現很差，因為其關鍵的物體都在同一平面的假設在複雜場景中不成立；基於SIFT關鍵點提取的傳統方法效果也不好，因為無紋理的物體上關鍵點極少；基於深度學習的Patch-Matching的方法如MatchNet、 Deep-Compare及DeepDesc效果一般，而基於Triplet結構的基線表現有較大幅度的提升，但也受限於無法區分相似相同的物體；

表2：各算法基線在MessyTable上的表現顯示結合外觀信息、周圍信息、幾何信息的算法取得最好的效果

我們發現除了外觀信息，周圍信息非常重要。因此我們提出將檢測框之外的信息包括進來。我們將這個操作稱之為Zoom-out。但是我們發現直接在Triplet網絡上加上Zoom-out效果不好，於是我們觀察人類的行為：一個人只有當物體本身的特徵信息不足時，才會從周邊尋求線索。因此，我們提出ASNet（圖7），它有外觀特徵分支和周圍特徵分支，並使用一個lambda係數來平衡兩個分支（公式1）。當物體的外觀信息相似時，Lambda的設計（公式2）使網絡分配更大的權重給周圍信息分支。

圖7：Appearance-Surrounding Network (ASNet)

ASNet顯著地提升了關聯的表現。圖8的特徵圖的可視化顯示了ASNet學會了從實例周圍獲取線索，而直接使用Zoom-out仍然專注於實例本身。

圖8：直接使用Zoom-out仍然專注於實例本身（只在中心存在一個高響應區域），但ASNet學會了從實例周圍獲取線索（在實例周圍仍有多個高響應區域）

我們同時還發現在ASNet的基礎上增加一個基於對極幾何的軟約束可以繼續提升表現，證明幾何信息是和外觀信息、周圍信息相得益彰的。

多相機關聯還沒有解決的問題和下一步的研究方向有什麼?

答：

需要指出的是，儘管同時使用了外觀信息、周圍信息和特徵信息，目前的算法在複雜場景和大相機角度差的情況下表現仍不盡人意。

在圖9中，我們比較了四個較強算法在不同相機角度差的情況的表現，發現三個衡量指標都在相機角度差變大的情況下迅速變差。

圖9：相機角度差越大，關聯的表現越差；衡量指標：a）AP；b）FPR-95；c）IPAA-80

在表3中，我們測試了模型在三個難度的子數據集上的表現。越難的子集有的遮擋、相同的物體、更少的出現在共享視野的物體，因此模型的表現也更差。

表3：場景越困難，關聯的表現較差

更多的失敗例子（圖10）包括當相同的物體被擺放在一起或者堆疊起來，造成相似的周圍信息以及幾何軟約束的懲罰。

圖10：更多的失敗例子

以上的這些目前算法的不足給我們提出了三個重要的研究方向：

1）如何提取更強的外觀、周圍以及幾何信息？

2）如果更好地融合這些信息？

3）有沒有其它信息我們可以利用？

我可以怎麼使用 MessyTable？

答：

MessyTable有兩個主要的作用：作為一個高指向性的基線和作為一個實例關聯的預訓練源。對於前者，在MessyTable上表現更好的算法，在其它多相機數據集上也有更好的表現；對於後者，在MessyTable上預訓練的模型在其它數據集上的表現比在ImageNet上預訓練的表現更好。值得注意的是，我們測試的其它三個數據集甚至包括車輛、行人等與MessyTable中的通用物品差別較大的類別。詳見表4。

表4：MessyTable可以作為一個高指向性的基線和作為一個實例關聯的預訓練源

結語：

我們希望MessyTable在實例關聯這個領域中促進新穎算法的研究以及發掘新的問題。更多的細節請見我們的項目主頁。

業界首個!大規模多相機通用物品場景數據集MessyTable

相關焦點

百度發布全球首個大規模隱變量對話模型PLATO

PLATO:百度發布首個大規模隱變量對話模型

論文翻譯|多魚眼相機的全景SLAM

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

阿里雲開源EasyTransfer:業界首個面向NLP場景深度遷移學習框架

阿里開源首個DL框架,新型XDL幫你搞定大規模稀疏數據

阿里AI 實現首個實時翻譯直播,將大規模用於雙 11

阿里開源首個移動AI項目,淘寶同款推理引擎

業界首個Wi-Fi 6 AP產品性能測試解讀

大規模3D數據集ScanNet:讓機器人理解真實世界

眼控科技EM-VEHICLE高質量交通數據集問世

根植於工業級大規模深度學習應用場景的PaddlePaddle

URP 系列教程 | 多相機玩法攻略

2018機器閱讀理解競賽獲獎名單出爐百度數據集點亮行業創想

論文回顧|[ICDAR 2019] DeepSignDB:大規模聯機籤名數據集

大數據處理架構系列二:大規模並行處理資料庫MPP

阿里完成全球首個多語言實時翻譯的電商直播通過AI實現環境降噪

淺析大規模多語種通用神經機器翻譯方法

體系實力做堅實後盾揭秘上汽通用汽車首次大規模OTA升級

R語言-data.table-數據處理

業界首個!大規模多相機通用物品場景數據集MessyTable

相關焦點

百度發布全球首個大規模隱變量對話模型PLATO

PLATO:百度發布首個大規模隱變量對話模型

論文翻譯|多魚眼相機的全景SLAM

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

阿里雲開源EasyTransfer:業界首個面向NLP場景深度遷移學習框架

阿里開源首個DL框架,新型XDL幫你搞定大規模稀疏數據

阿里AI 實現首個實時翻譯直播,將大規模用於雙 11

阿里開源首個移動AI項目,淘寶同款推理引擎

業界首個Wi-Fi 6 AP產品性能測試解讀

大規模3D數據集ScanNet:讓機器人理解真實世界

眼控科技EM-VEHICLE高質量交通數據集問世

根植於工業級大規模深度學習應用場景的PaddlePaddle

URP 系列教程 | 多相機玩法攻略

2018機器閱讀理解競賽獲獎名單出爐 百度數據集點亮行業創想

論文回顧|[ICDAR 2019] DeepSignDB:大規模聯機籤名數據集

大數據處理架構系列二:大規模並行處理資料庫MPP

阿里完成全球首個多語言實時翻譯的電商直播 通過AI實現環境降噪

淺析大規模多語種通用神經機器翻譯方法

體系實力做堅實後盾 揭秘上汽通用汽車首次大規模OTA升級

R語言-data.table-數據處理

2018機器閱讀理解競賽獲獎名單出爐百度數據集點亮行業創想

阿里完成全球首個多語言實時翻譯的電商直播通過AI實現環境降噪

體系實力做堅實後盾揭秘上汽通用汽車首次大規模OTA升級