CVPR 2021 最新數據集匯總!

2021-12-19 計算機視覺life

點擊上方「計算機視覺life」,選擇「星標」

快速獲得最新乾貨

作者:Shwetank Panwar

一些新發布的數據集可以提供一個窗口,通過這些數據集可以了解試圖解決的問題的複雜程度。公共領域中新發布的數據集可以很好地代表理解計算機視覺的發展以及有待解決的問題的新途徑。

本文簡要總結了一些CVPR 2021 上發表的數據集論文,並通讀了論文以提取一些重要的細節。

1. The Multi-Temporal Urban Development SpaceNet Dataset

數據集論文:https://paperswithcode.com/paper/the-multi-temporal-urban-development-spacenet

下載地址:https://registry.opendata.aws/spacenet/

新的 SpaceNet 數據集包含每個月拍攝的建築區域的衛星圖像。目標是在空間時間序列的幫助下在全球範圍內跟蹤這種建築活動。

由於其解決非常困難的全局問題的方法,這是 CVPR 中最有趣的數據集論文。該數據集試圖使用衛星圖像分析解決量化一個地區城市化的問題,這對於沒有基礎設施和財政資源來建立有效的民事登記系統的國家來說是一個巨大的幫助。

該數據集主要是關於使用在 18 到 26 個月的時間跨度內捕獲的衛星圖像跟蹤世界各地大約 101 個地點的建築。隨著時間的推移,有超過 1100 萬條注釋帶有單個建築物和施工現場的獨特像素級標籤。

A.) 與 COCO 數據集對象相比,帶注釋的對象的大小非常小 B.) 在此數據集中,每張圖像的標籤數量太高。C.) 像雲這樣的遮擋(這裡)會使跟蹤探測變得困難。D.) Spacenet 數據集中單個圖像中的帶注釋對象。

所有這些可能使它聽起來像是一個更具挑戰性的對象分割和跟蹤問題。為了清楚起見,每幀大約有 30 多個對象。此外,與普通視頻數據不同,由於天氣、光照和地面季節性影響等原因,幀之間幾乎沒有一致性。這使得它比視頻分類數據集(如 MOT17 和斯坦福無人機數據集)更加困難。

雖然這可能是一個難題,但解決它對於全球福利來說是值得的。

2. Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset, Benchmarks and Challenges

數據集論文:https://arxiv.org/abs/2009.03137

下載地址:

https://github.com/QingyongHu/SensatUrban

Sensat Urban 數據集的整體圖,包括英國約克市的連續區域,擴展到 3 平方公裡。

今年的會議重點討論了 3D 圖像處理及其相應的方法。因此,這個名為 Sensat Urban 的數據集也不足為奇,只是這個攝影測量 3D 點雲數據集比迄今為止可用的任何開源數據集都要大。它覆蓋超過7.6公裡。涵蓋約克、劍橋和伯明罕的城市景觀廣場。每個點雲都被標記為 13 個語義類之一。

該數據集有可能推動許多有前途的領域的研究,如自動化區域測量、智慧城市和大型基礎設施規劃和管理。

Sensat Urban 數據集中的不同分割類別。

在論文中,他們還對點雲中的顏色信息進行了實驗,並證明了在色彩豐富的點雲上訓練的神經網絡能夠在測試集上更好地泛化。這實際上為該領域未來應用的發展提供了重要方向。

3.Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions

數據集論文:https://arxiv.org/abs/2105.04489

來自 MIT 音頻字幕數據集的一些樣本 [左] 在數據集中結合視聽信息的提議架構 [右]

這是今年另一個最受歡迎的數據集,因為它對圖像字幕和視頻摘要問題採用了略有不同的方法。通常,對於此類任務,我們有像 COCO 這樣的數據集,其中包含圖像及其隨附的文本標題。雖然這種方法已被證明是有前途的,但我們經常忘記,在口語方面對我們的視覺體驗進行了很多豐富的總結。

該數據集構建了一個包含 50 萬個描述各種不同事件的短視頻音頻描述的語料庫。然而,他們並沒有止步於展示一個很棒的數據集,他們還提供了一個優雅的解決方案來使用自適應平均邊距(AMM)方法來解決視頻/字幕檢索問題。

4.Conceptual 12M : Pushing Web-Scale Image-Text Pre-training to recognise Long-Tail visual concepts

數據集論文:https://arxiv.org/abs/2102.08981

來自Conceptual  12M 數據集的一些圖像標題對。雖然 alt-text 本身的信息量並不大,但它對於學習視覺概念的更廣義的文本表示非常有幫助。

最近,由於預訓練transformer和 CNN 架構的性能提升,模型預訓練獲得了極大的歡迎。通常,我們希望在一個類似的數據集上訓練模型。然後使用遷移學習在下遊任務上利用模型。

到目前為止,唯一可用的用於預訓練的大規模數據集是用於視覺+語言任務的 CC-3M 數據集,有 300 萬個字幕。現在,谷歌研究團隊通過放寬數據抓取的限制,將該數據集擴展到 1200 萬個圖像字幕對--Conceptual 12M。

更有趣的是生成數據集的方法。在數據集管理期間使用 Google Cloud Natural Language API 和 Google Cloud Vision API 過濾任務對於任何未來的數據集管理任務來說都是一個很好的教訓。

使用 12M 數據集,圖像字幕模型能夠學習長尾概念,即數據集中非常具體且罕見的概念。訓練方法的結果令人印象深刻,並在下面進行了可視化。

在概念 12M 數據集上預訓練的神經圖像標題模型的預測示例很少。

5. Euro-PVI:密集城市中心的行人車輛交互

數據集論文:

https://openaccess.thecvf.com/content/CVPR2021/supplemental/Bhattacharyya_Euro-PVI_Pedestrian_Vehicle_CVPR_2021_supplemental.pdf

實時車輛-行人行為示例。預測行人將採取什麼樣的軌跡來響應接近的車輛對於構建全自動自動駕駛汽車至關重要。

雖然有很多關於完全自主的自動駕駛系統的討論,但事實仍然是,它是一個非常困難的問題,需要同時實時解決多個問題。關鍵部分之一是使這些自主系統了解行人對其存在的反應,在密集環境中預測行人軌跡是一項具有挑戰性的任務。

因此,Euro-PVI 數據集旨在通過在行人和騎自行車者軌跡的標記數據集上訓練模型來解決這個問題。早些時候,斯坦福無人機、nuScenes 和 Lyft L5 等數據集專注於附近車輛的軌跡,但這只是自主系統完整畫面的一部分。

Euro-PVI通過交互時的視覺場景、交互過程中的速度和加速度以及整個交互過程中的整體坐標軌跡等信息,提供了一個全面的交互圖。

Euro-PVI 數據集包含有關行人車輛交互的豐富信息,例如場景中所有參與者的視覺場景、速度和加速度。

所有這些信息都必須由經過訓練的模型映射到相關的潛在空間。為了解決潛在空間中軌跡和視覺信息的聯合表示問題,同一篇論文還提出了 Joint-B-VAE 的生成架構,這是一種經過訓練的變分自動編碼器,用於對參與者的軌跡進行編碼並將其解碼為未來的合成軌跡。

ground truth,Trajectron++ 預測的軌跡和聯合 B-VAE 的預測軌跡(在同一數據集論文中提出)

原文連結:

https://medium.com/@shwetank.ml/datasets-cvpr-2021-problems-that-shouldnt-be-missed-6128d07c59c3

獨家重磅課程!

1、VIO課程:VIO滅霸:ORB-SLAM3源碼詳解,震撼上線!

2、圖像三維重建課程(第2期):視覺幾何三維重建教程(第2期):稠密重建,曲面重建,點雲融合,紋理貼圖

3、重磅來襲!基於LiDAR的多傳感器融合SLAM 系列教程:LOAM、LeGO-LOAM、LIO-SAM

4、系統全面的相機標定課程:單目/魚眼/雙目/陣列 相機標定:原理與實戰

5、視覺SLAM必備基礎(第2期):視覺SLAM必學基礎:ORB-SLAM2源碼詳解

6、深度學習三維重建課程:基於深度學習的三維重建學習路線

7、雷射定位+建圖課程:雷射SLAM怎麼學?手把手教你Cartographer從入門到精通!

全國最棒的SLAM、三維視覺學習社區↓

技術交流微信群

歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計算攝影、檢測、分割、識別、醫學影像、GAN算法競賽等微信群,請添加微信號 chichui502 或掃描下方加群,備註:」名字/暱稱+學校/公司+研究方向「。請按照格式備註,否則不予通過。添加成功後會根據研究方向邀請進入相關微信群。請勿在群內發送廣告,否則會請出群,謝謝理解~

投稿、合作也歡迎聯繫:simiter@126.com

掃描關注視頻號,看最新技術落地及開源方案視頻秀 ↓

—   版權聲明  —

本公眾號原創內容版權屬計算機視覺life所有;從公開渠道收集、整理及授權轉載的非原創文字、圖片和音視頻資料,版權屬原作者。如果侵權,請聯繫我們,會及時刪除。

相關焦點

  • CVPR2019| 05-14更新8篇論文及代碼合集(含手勢姿態估計/人臉/數據集等)
    同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。點擊文末「閱讀原文」立刻申請入群~前段時間,計算機視覺頂會CVPR 2019 公布了接收結果,極市也對此做了相關報導:1300篇!CVPR2019接收結果公布,你中了嗎?。
  • CVPR2019最全整理:全部論文下載,Github源碼匯總、直播視頻、論文解讀等
    同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。點擊文末「閱讀原文」立刻申請入群~CVPR 由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,在機器學習領域享有盛名。今年的 CVPR 將於 6 月 16 日-20 日於美國加州的長灘市舉行。
  • CVPR2019無人駕駛相關論文
    同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。點擊文末「閱讀原文」立刻申請入群~CVPR2019 accepted list ID已經放出,極市已將目前收集到的公開論文總結到github上(目前已收集210篇),後續會不斷更新,歡迎關注,也歡迎大家提交自己的論文:https://github.com/extreme-assistant/cvpr2019
  • CVPR2019| 南開大學、Facebook等13篇CVPR論文及源碼推薦(顯著性檢測/實例分割/人臉識別/視頻動作識別等)
    同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。點擊文末「閱讀原文」立刻申請入群~前段時間,計算機視覺頂會CVPR 2019 公布了接收結果,極市也對此做了相關報導:1300篇!CVPR2019接收結果公布,你中了嗎?。
  • 【數據集合集】最全最新——智能交通和無人駕駛相關數據集
    數據集擁有從波士頓和新加坡收集的1000個「場景」的信息,包含每個城市環境中都有的最複雜的一些駕駛場景。該數據集由140萬張圖像、39萬次雷射雷達掃描和140萬個3D人工注釋邊界框組成,是迄今為止公布的最大的多模態3D 無人駕駛數據集。3. ApolloCar3D:
  • 元氣騎士 2021最新兌換碼匯總
    聲明:本文素材均來源於網絡,如有侵權聯繫刪除                                                     元氣騎士2021最新禮包碼大全 2021最新兌換碼匯總。
  • Papers With Code新增數據集檢索功能:3000+經典數據集,具備多種過濾功能
    Papers with Code 現在已經集成了 3044 個機器學習數據集,點點滑鼠就能檢索需要的數據集。在機器學習中,數據集佔據了重要的一部分。研究人員除了需要開發先進的算法外,其實數據集的建立才是最基礎也是最重要的部分。在過往的研究中,機器學習從業者也建立了許多可用的數據集。
  • 盤點 | CVPR 2019,先來看看有哪些不容錯過的有意思的tutorials
    來自圖像分類、檢測、分割等視覺理解領域的大牛將為我們呈現最新的研究成果。研究人員們將探討近年來在圖像和視頻中實例級別的視覺理解及其最新進展,內容將覆蓋目前視覺識別任務家族中的絕大多數最新進展,包括圖像分類、視頻分類、目標檢測、行為檢測、實例分割、語義分割、全景分割和位置估計等方面的方法和原理
  • 機器學習數據集匯總(附下載地址)
    大學公開數據集(Stanford)69G大規模無人機(校園)圖像數據集【Stanford】http://cvgl.stanford.edu/projects/uav_data/人臉素描數據集【CUHK】http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html自然語言推理(文本蘊含標記
  • CVPR2019| 05-20更新17篇點雲相關論文及代碼合集
    同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。點擊文末「閱讀原文」立刻申請入群~前段時間,計算機視覺頂會CVPR 2019 公布了接收結果,極市也對此做了相關報導:1300篇!CVPR2019接收結果公布,你中了嗎?。
  • 【CVPR2020來啦】不容錯過的29個教程Tutorial !(附Slides下載連結)
    我們將回顧在計算機視覺中分析數據和模型的可視化、解釋和解釋方法方面的最新進展。本教程的主題是通過闡明機器學習解釋性的動機、典型的方法、未來的趨勢以及由此產生的解釋性的潛在工業應用,從而實現在新興的機器學習解釋性主題上建立一個共識。
  • 匯總 | SLAM、重建、語義相關數據集大全
    本文我們匯總了公開數據集
  • CVPR2019| 05-07更新14篇論文及代碼合集(1篇oral,含目標檢測/視頻分割/目標跟蹤等)
    同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。點擊文末「閱讀原文」立刻申請入群~前段時間,計算機視覺頂會CVPR 2019 公布了接收結果,極市也對此做了相關報導:1300篇!CVPR2019接收結果公布,你中了嗎?。
  • 【入門必備】史上最全的深度學習資源匯總,速藏!
    學習資源匯總Torch深度學習教程:https://github.com/clementfarabet/ipam-tutorials/tree/master/th_tutorials計算機視覺深度學習教程:https://sites.google.com/site/deeplearningcvpr2014/自然語言處理深度學習教程:http:/
  • CVPR 引用量最高的10篇論文!何愷明ResNet登頂,YOLO佔據兩席!
    這個排名是依據過去五年發表研究的數據(覆蓋2015-2019年發表的文章),並包括截止2020年6月在谷歌學術中被索引的所有文章的引用量。眾所周知,CV領域的三大頂會就是:CVPR、ICCV和ECCV。本文就來盤點CVPR 2015-2019年引用量最高的10篇論文。
  • 各類App集卡瓜分紅包活動匯總 除夕開獎
    點擊↑↑↑藍字 關注 全民淘福利  ID: qmtaocom 各類App集卡瓜分紅包活動匯總 除夕開獎前面發了很多App
  • CVPR 2021 論文大盤點-圖像修復篇
    實驗表明,與傳統的圖像修復算法相比,所提出的方法在真實世界的數據集和基於顯示器的對齊數據集上都取得了卓越的定量性能和更高的感知質量。在三個基準數據集(包括CelebA-HQ、Places2和ImageNet)上進行的廣泛實驗表明,所提出的方法在質量和多樣性方面都有優勢。
  • Microsoft學術知識圖譜RDF大型數據集
    該數據集基於Microsoft Academic Graph,並根據Open Data Attributions許可進行許可。此外還為210萬篇有代表性的科學論文提供實體嵌入。(例如,將MAG知識圖與RDF中的數字圖書館集合相結合),更容易進行數據集成數據分析和知識發現(例如,衡量論文和作者的受歡迎程度;推薦論文、研究人員和地點;以及研究主題及方法和數據集時間序列分析)
  • 23個CVPR 2020收錄的新數據集,都在這裡了!
    本文旨在從數據集的角度,對CVPR 2020部分論文進行整理,相信很多同學並不知道這些新數據集,也許能給你的科研帶來一點幫助。數據集方向涵蓋:目標檢測、分割、目標跟蹤、場景文本檢測&識別、行為識別等方向。
  • Papers With Code 新增數據集索引功能:覆蓋數據集3000+,數百任務、多種語言一網打盡!
    page=1據Papers with Code的官方推特介紹,這次能夠索引的數據集規模達到了3000+,而且提供按任務和模式查找的功能,能夠比較數據集的使用情況,瀏覽基準.如上,此次數據集索引共支持的模式包括圖像(1066個),文本(830個),視頻(342個),音頻(173個)、3D(93)、圖形(70)等等共38種模式。