作者 | 商湯、南洋理工大學
編輯 | 陳大鑫
眾所周知巧婦難為無米之炊,在如今深度學習大行其道的時代,一個數量大、質量好的數據集猶如一塊璞玉,就等著算法去雕刻。
今天介紹的就是來自商湯與新加坡南洋理工大學聯合製作的大規模多相機通用物品場景數據集MessyTable,MessyTable包括5500+ 手工設計的場景,共計5萬多張圖片和120萬個密集標註的檢測框,其對應論文已被ECCV 2020接收。
針對現實生活中多相機系統應用的難點,如相似相同的物品、密集遮擋、大角度差等問題,我們設計了大量真實、有趣又極富挑戰的場景:圍繞著混亂的餐桌(Messy Table)部署了多個視角的相機,其任務是關聯不同相機視角中的實例。看似簡單任務卻要求算法能夠分辨細微的外觀差別、從鄰近的區域獲取線索以及巧妙地使用幾何約束等。我們同時提出了利用多相機場景下周圍信息的新算法。我們希望MessyTable不僅可以作為極富挑戰的基線為後續研究指明方向,也可以作為高度真實的預訓練源為算法落地開闢道路。
MessyTable
圖1:MessyTable中的一個場景示例(只可視化了4個視角中的5個物體)
本文我們以7次問答的方式總結了我們的工作:
問題1:MessyTable與現有的ReID和跟蹤有什麼關係?問題2:MessyTable有哪些挑戰?問題3:MessyTable的規模有多大?問題4:MessyTable有哪些設計上的考量?問題5:各種算法在MessyTable上的表現如何?問題6:多相機關聯還沒有解決的問題和下一步的研究方向有什麼?問題7:我可以怎麼使用 MessyTable?
1
MessyTable與現有的ReID和跟蹤有什麼關係?
答:
ReID和跟蹤本質上都可以理解為實例的關聯,往往需要利用外觀信息等。MessyTable雖然主要是為了多相機場景中實例的關聯的研究,但是它包含的分辨細微的外觀差別、密集遮擋、大角度差等挑戰都是和其它實例關聯共通的。我們希望MessyTable在服務多相機這個特定場景之外,成為一個實例關聯任務通用的數據集,成為新算法的測試場。
2
MessyTable有哪些挑戰?
答:
主要的挑戰有:
1、相機之間有大角度差,實例的外觀在不同視角中差別很大(如圖1的Instance ID為5的罐頭);
2、部分(圖2a)甚至完全(圖2b)遮擋,為依靠外觀信息的關聯算法增加了困難;
3、相似(圖2c)或相同(圖2d)的物體,因此僅僅使用類似傳統ReID的基於外觀的算法是不足夠的;
4、物體的堆疊(圖2e/f)貼近現實生活中的混亂程度,使用傳統的單應性矩陣投影等方法無法解決。
圖2:MessyTable中的各種挑戰:a)部分遮擋;b)完全遮擋;c)相似物體;d)相同物體;e)和f)複雜的堆疊
3
MessyTable的規模有多大?
答:
我們在表1中與其它類似的多相機數據集的規模的對比。MessyTable包括5500+ 手工設計的場景,共計5萬多張圖片和120萬個密集標註的檢測框,每個檢測框都有一個Instance ID(同一個物體在不同視角下的Instance ID相同)。
表1:MessyTable與類似多相機數據集的規模對比
4
MessyTable有哪些設計上的考量?
答:
我們主要有三個設計:場景難度等級、多相機的設置以及通用物品的選擇。
場景難度等級:我們將MessyTable的場景設計為三個難度等級。越困難的場景中有更多的遮擋、相似相同的物體以及更多物體處於共享視野之外。詳見圖3。
圖3:a)三個難度等級的場景示例;b)更難場景有更多的實例;c)更難場景有更少的實例出現在共享視野;d)更難場景有更多相同物體的實例
多相機的設置:為了研究相機相對角度對關聯表現的影響,我們設置了9個相機以及567個不同的相機部署方案,產生了2萬多對相對相機位置。詳見圖4。
圖4:a)相機在空間中的均勻分布(投影至1號相機);b)採集中的相機布置;c)相對相機角度的分布有極大的多樣性
通用物品的選擇:我們挑選了120種餐桌上常見的物體:60種超市商品、23種果蔬、13種面點以及24種餐具,包括多種大小、顏色、紋理和材料。在圖5中我們統計了這些物體的出現頻率,在圖6中我們羅列了完整的物體清單。
圖5:120種物體的出現頻率
圖6:全物體清單
5
各種算法在MessyTable上的表現如何?
答:
我們測試了多種算法基線(見表2)。單應性投影(Homographic projection)並不意外地表現很差,因為其關鍵的物體都在同一平面的假設在複雜場景中不成立;基於SIFT關鍵點提取的傳統方法效果也不好,因為無紋理的物體上關鍵點極少;基於深度學習的Patch-Matching的方法如MatchNet、 Deep-Compare及DeepDesc效果一般,而基於Triplet結構的基線表現有較大幅度的提升,但也受限於無法區分相似相同的物體;
表2:各算法基線在MessyTable上的表現顯示結合外觀信息、周圍信息、幾何信息的算法取得最好的效果
我們發現除了外觀信息,周圍信息非常重要。因此我們提出將檢測框之外的信息包括進來。我們將這個操作稱之為Zoom-out。但是我們發現直接在Triplet網絡上加上Zoom-out效果不好,於是我們觀察人類的行為:一個人只有當物體本身的特徵信息不足時,才會從周邊尋求線索。因此,我們提出ASNet(圖7),它有外觀特徵分支和周圍特徵分支,並使用一個lambda係數來平衡兩個分支(公式1)。當物體的外觀信息相似時,Lambda的設計(公式2)使網絡分配更大的權重給周圍信息分支。
圖7:Appearance-Surrounding Network (ASNet)
ASNet顯著地提升了關聯的表現。圖8的特徵圖的可視化顯示了ASNet學會了從實例周圍獲取線索,而直接使用Zoom-out仍然專注於實例本身。
圖8:直接使用Zoom-out仍然專注於實例本身(只在中心存在一個高響應區域),但ASNet學會了從實例周圍獲取線索(在實例周圍仍有多個高響應區域)
我們同時還發現在ASNet的基礎上增加一個基於對極幾何的軟約束可以繼續提升表現,證明幾何信息是和外觀信息、周圍信息相得益彰的。
6
多相機關聯還沒有解決的問題和下一步的研究方向有什麼?
答:
需要指出的是,儘管同時使用了外觀信息、周圍信息和特徵信息,目前的算法在複雜場景和大相機角度差的情況下表現仍不盡人意。
在圖9中,我們比較了四個較強算法在不同相機角度差的情況的表現,發現三個衡量指標都在相機角度差變大的情況下迅速變差。
圖9:相機角度差越大,關聯的表現越差;衡量指標:a)AP;b)FPR-95;c)IPAA-80
在表3中,我們測試了模型在三個難度的子數據集上的表現。越難的子集有的遮擋、相同的物體、更少的出現在共享視野的物體,因此模型的表現也更差。
表3:場景越困難,關聯的表現較差
更多的失敗例子(圖10)包括當相同的物體被擺放在一起或者堆疊起來,造成相似的周圍信息以及幾何軟約束的懲罰。
圖10:更多的失敗例子
以上的這些目前算法的不足給我們提出了三個重要的研究方向:
1) 如何提取更強的外觀、周圍以及幾何信息?
2) 如果更好地融合這些信息?
3) 有沒有其它信息我們可以利用?
7
我可以怎麼使用 MessyTable?
答:
MessyTable有兩個主要的作用:作為一個高指向性的基線和作為一個實例關聯的預訓練源。對於前者,在MessyTable上表現更好的算法,在其它多相機數據集上也有更好的表現;對於後者,在MessyTable上預訓練的模型在其它數據集上的表現比在ImageNet上預訓練的表現更好。值得注意的是,我們測試的其它三個數據集甚至包括車輛、行人等與MessyTable中的通用物品差別較大的類別。詳見表4。
表4:MessyTable可以作為一個高指向性的基線和作為一個實例關聯的預訓練源
結語:
我們希望MessyTable在實例關聯這個領域中促進新穎算法的研究以及發掘新的問題。更多的細節請見我們的項目主頁。