第 16 屆歐洲計算機視覺大會(ECCV)於周日拉開帷幕,成為一個完全在線的會議。在會議開幕式,ECCV 組委會宣布了會議論文提交統計和最佳論文。普林斯頓大學的兩位研究人員為開發一種新的光流端到端可訓練模型而獲得最佳論文獎。
近日,ECCV 2020 五項大獎均已出爐,分別是最佳論文獎、最佳論文提名獎、Koenderink 獎、Mark Everingham 獎、Demo 獎。
ECCV 的全稱是 European Conference on Computer Vision(歐洲計算機視覺國際會議) ,兩年一次,與 ICCV 和 CVPR 並稱計算機視覺三大會議。
ECCV 2020 收到了創紀錄的 5150 份提交材料,是 2018 年上一次會議的兩倍。今年共有 1360 篇論文錄取率被削減至 26%。有 104 個口頭報告和 160 個焦聚點,將在 16 個現場問答環節中呈現。
讓我們來看一看各項獎的詳情吧!
獲獎論文:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
作者: Zachary Teed and Jia Deng
機構:普林斯頓大學
簡介:介紹了一種新的光流深網絡體系結構——遞歸全對場變換(RAFT)。RAFT提取每像素特徵,為所有像素對構建多尺度4D相關體,並通過一個循環單元迭代更新流場,該單元執行相關體積的查找。木筏達到了最先進的性能。在KITTI上,RAFT的F1全系誤差為5.10%,比公布的最佳結果(6.10%)減少了16%。在 Sintel(最終焊道)上,RAFT獲得的終點誤差為2.855像素,比最佳發布結果(4.098 像素)減少了30%。此外,RAFT算法具有較強的跨數據集泛化能力,在推理時間、訓練速度、參數計數等方面具有較高的效率。
論文連結:https://www.aminer.cn/pub/5e7dcebb91e0115bf014c4c9/
Zachary Teed,普林斯頓大學鄧嘉門下的一名博士生,是普林斯頓視覺與學習實驗室的一名成員。Zachary Teed 目前的研究重點是從視頻進行 3D 重建;包括運動,場景流和 SLAM 中的結構。在此之前,他曾獲得聖路易斯華盛頓大學的計算機科學學士學位,並在那裡獲得了 Langsdorf 獎學金和 McKevely 研究獎。
鄧嘉 2006 年本科畢業於清華大學計算機系,2012 年於普林斯頓大學獲計算機科學博士學位, 2014 起任密西根大學計算機科學系助理教授。2018 年鄧嘉在密西根大學的時候獲得了美國斯隆研究獎。他是李凱和李飛飛教授的學生,ImageNet 首篇文章的第一作者。 他現在在普林斯頓大學視覺與學習實驗室任助理教授,主要研究方向為計算機視覺和機器學習,即通過感知、認知和學習相結合來實現人類層面的視覺理解。
獲獎論文:Towards Streaming Image Understanding
作者:Mengtian Li, Yu-Xiong Wang, and Deva Ramanan
機構:卡內基梅隆大學、阿爾戈 AI
簡介:具體化感知是指一個自主的主體感知其所處環境的能力,從而能夠(重新)行動。代理的響應在很大程度上取決於其處理管道的延遲。雖然過去的工作已經研究了算法在延遲和準確度之間的權衡,但是還沒有一個明確的指標來比較不同的方法沿著Pareto最優的延遲精度曲線。
作者指出了標準離線評估和實時應用程式之間的一個差異:當一個算法完成對特定圖像幀的處理時,周圍的世界已經發生了變化。為了達到這些目的,作者提出了一種方法,將延遲和準確度統一到一個用於實時在線感知的指標中,我們稱之為「流式準確性」。此度量背後的關鍵見解是在每個時刻聯合評估整個perception堆棧的輸出,迫使堆棧考慮在進行計算時應忽略的流數據量。更廣泛地說,基於這個度量,作者引入了一個元基準,它系統地將任何圖像理解任務轉換為流圖像理解任務。針對城市視頻流中的目標檢測和實例分割,提出了一種具有高質量和時間密集注釋的數據集。
本文提出的解決方案及其實證分析證明了許多令人驚訝的結論:
(1)在帕累託最優延遲精度曲線上存在一個使流媒體準確性最大化的最佳「最佳點」(sweet spot)
(2)異步跟蹤和未來預測自然而然地成為流媒體圖像的內部表示形式理解
(3)動態調度可以用來克服時間混疊,產生一個矛盾的結果,即延遲有時被閒置和「無所事事」最小化。
論文連結:https://www.aminer.cn/pub/5ec7a32791e0118397f3ee4d/
論文第一作者 Mengtian Li 是一位來自卡內基梅隆大學機器人研究所的博士生,曾獲得南京大學學士學位。他的研究興趣是計算機視覺和機器學習,特別對資源受限的深度學習和推理感興趣。
獲獎論文:NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
作者: Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng
機構:加州大學伯克利分校、谷歌研究中心、加州大學聖地牙哥分校
簡介:本文提出了一種通過使用稀疏輸入視圖集優化底層連續體積場景函數來獲得合成複雜場景新視圖的最新結果的方法。作者的算法使用一個完全連接(非卷積)的深網絡來表示場景,其輸入是一個連續的5D坐標(空間位置(x,y,z)和觀察方向(θ,φ)),其輸出是該空間位置的體積密度和視景相關的發射輻射。本文通過查詢沿相機光線的5D坐標來合成視圖,並使用經典的體繪製技術將輸出的顏色和密度投影到圖像中。因為體繪製是自然可微的,所以優化表現的唯一輸入是一組已知相機姿勢的圖像。作者描述了如何有效地優化神經輻射場,以渲染具有複雜幾何和外觀的真實感場景的新視圖,並展示了優於先前神經渲染和視圖合成的結果。
論文連結:https://www.aminer.cn/pub/5e7495c591e0111c7cee14ef/
Koenderink 獎是來表彰十年對計算機視覺領域做出巨大貢獻的經典論文。今年 Koenderink 獎授予以下兩篇論文:
獲獎論文:Improving the Fisher Kernel for Large-Scale Image Classification
簡介:Fisher 內核(FK)是一個通用框架,它結合了生成和區分方法的優點。在圖像分類的背景下,FK 被證明超越了計數統計,擴展了流行的視覺單詞包(BOV)。然而,在實踐中,這種豐富的代表性還沒有顯示出它優於 BOV。
在第一部分中,作者展示了在原始框架的基礎上,通過一些動機良好的修改,可以提高 FK 的準確性。在 PASCAL VOC 2007 上,將平均精度(AP)從 47.9% 提高到 58.3%。同樣,作者在 CalTech 256 上展示了最先進的精確度。一個主要的優點是這些結果只使用 SIFT 描述符和無代價線性分類器獲得。有了這種表示法,現在可以在更大範圍內探索圖像分類。
在第二部分中,作為一個應用,作者比較了兩個豐富的標記圖像資源來學習分類器:ImageNet 和 flickrgroups。在一項涉及數十萬個訓練圖像的評估中,作者發現在 Flickr 組中學習的分類器表現得出奇地好(儘管它們並不是用於此目的),而且它們可以補充在更仔細注釋的數據集上學習的分類器。
論文連結:https://www.aminer.cn/pub/53e99d57b7602d9702610216/
獲獎論文:Brief:Binary robust independent elementary featueres
簡介:作者建議使用二進位字符串作為一個有效的特徵點描述符,稱之為 BRIEF。本文表明,即使使用相對較少的比特,它仍然具有很高的分辨力,並且可以通過簡單的強度差分測試來計算。此外,可以使用漢明距離來評估描述符相似度,這是非常有效的計算,而不是像通常所做的 L2 範數。因此,BRIEF 的構建和匹配都非常快。作者將其與標準基準測試中的 SURF 和 U-SURF 進行了比較,結果表明它產生了相似或更好的識別性能,而運行時間只需其中一個的一小部分。
論文連結:https://www.aminer.cn/pub/53e9b87fb7602d970444e7a2/
Mark Everingham獎
Mark 獎的設立是為了紀念在 2012 去世的 Mark Everingham,他在 The PASCAL Visual Object Classes (VOA)數據集做出主要貢獻,也是該比賽項目的發起人。同時,Mark 獎的設立也是為了激勵後來者在計算機視覺領域做出更多貢獻。
今年第一位獲得 PAMI Mark Everingham 獎的是 Antonio Torralba 和多數據集的合作者,為了表彰他們持續了十多年定期發布新的數據集和創建這些數據集的新方法。 這些數據集包含 Tiny images,SUN/SUN-3D,MIT-Places,創建數據集新方法的工具包括 LabelMe,它們已經在視覺領域影響深遠。
今年第二位獲得 PAMI Mark Everingham 獎的是 COLMAP SFM 和 MVS 軟體庫的提出人 Johannes Schonberger,以表彰他為 3D 重建圖像提出的一個開源的端到端 pipeline,並為之提供的支持、開發與編寫文檔。這些軟體庫已經變成了運動結構和立體多視圖的參考軟體。
PAMI Mark Everingham 獎是一個社區驅動的獎,可以按如下方式提供候選人名單。
Demo獎
獲獎論文:Inter-Homines: Distance-Based Risk Estimation for Human Safety
簡介:作者建議在風險監控區域內,通過攝像頭對風險進行監控。本文的系統在人與人之間,通過分析視頻流,實時評估監控區域內的傳染風險:它能夠在三維空間中定位人,計算人際距離,並通過構建監控區域的動態地圖來預測風險水平。在公共和私人擁擠的區域內,人與人之間既可以在室內也可以在室外工作。該軟體適用於工業 PC 上已安裝的攝像頭或低成本攝像頭,並配備額外的嵌入式 edge AI 系統進行臨時測量。在人工智慧方面,我們基於最先進的計算機視覺算法,通過單應變換,開發了一個魯棒的管道,用於在地平面上進行實時人的檢測和定位;它是人檢測器和姿勢估計器的結合。在風險建模方面,我們提出了一個時空動態風險估計的參數模型,該模型經流行病學家驗證,可以通過預測現場的風險水平,對社會距離預防措施的接受程度進行安全監測。
論文連結:https://www.aminer.cn/pub/5f16d3ab91e011b48ae94499/
Demo獎提名一:《FingerTrack:Continous 3D Hand Pose Tracking》
Demo獎提名二:《Object Detection Kit:Identifying Urban Issues in Real-time》
Demo提名獎一的手指跟蹤器
更多精彩會議請移步 AMiner 會議智圖開放平臺 ECCV 2020 專題,其內容包括論文、作者、華人學者、一作華人學生、論文 PPT 和視頻等多維分析服務,是參會學者的會議智能助理。
頂會專題連結:https://www.aminer.cn/conf/eccv2020