CVPR 2021本周正式召開啦,作為計算機視覺領域最重要的學術會議,大會的最佳論文自然是領域學者們關注的重要風向標。
就在上周,CVPR官方公布了入圍的32篇最佳論文候選名單,其中華人一作佔據了16篇,國內北大、騰訊、商湯等學校機構上榜。
那麼最終哪些論文摘得榮譽呢?今天凌晨,也就是大會首日,官方公布了結果:
其中最佳論文獎和最佳學生論文獎1篇,最佳學生論文提名3篇,最佳論文提名2篇。
在這7篇文章裡,有4篇是華人一作,我們還看到了熟悉的大神何愷明的名字。
7篇獲獎論文最佳論文獎GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields
這篇論文來自德國蒂賓根大學的兩位學者。
摘要:
這篇文章提出,將複合三維場景表示納入生成模型,會導致更可控的圖像合成。將場景表示為複合生成神經特徵場,能使我們能夠從背景中解開一個或多個對象以及單個對象的形狀和外觀,同時從非結構化和非定位的圖像集合中學習,而無需任何額外的監督。
本文將這種場景表示與神經渲染pipeline相結合,可以生成快速逼真的圖像合成模型。實驗所證明的,該模型能夠解開單個物體,並允許在場景中平移和旋轉它們,並改變相機視角。
論文地址:
https://arxiv.org/abs/2011.12100
原始碼:
https://github.com/autonomousvision/giraffe
今年何愷明獲得了最佳論文提名,這篇論文就是:
Exploring Simple Siamese Representation Learning
摘要:
在本文中,作者發現,Simple Siamese網絡即使不使用以下任何一種方式,也可以學習有意義的表示:(i)負樣本對,(ii)大batch,(iii)動量編碼器。
實驗表明,坍塌解決方案確實存在於損失和結構上,但停止梯度操作在防止崩塌方面發揮著至關重要的作用。作者給出了停止梯度含義的假設,並進一步展示了驗證它的概念驗證實驗。
「SimSiam」方法在ImageNet和下遊任務上取得了有競爭力的結果。作者希望這個簡單的baseline將激勵人們重新思考SimSiam架構在無監督表示學習中的作用。
另外,何愷明表示,不久後將提供論文代碼。
本文的第一作者是Xinlei Chen,本科畢業於浙江大學,之後在卡內基梅隆大學獲得博士學位,現在與何愷明一樣同在Facebook AI研究院工作。
論文地址:
https://arxiv.org/abs/2011.10566
原始碼:
https://github.com/facebookresearch/simsiam
另一篇獲得提名的是來自明尼蘇達大學的兩位學者。
Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos
摘要:
學習穿戴人體幾何的一個關鍵挑戰在於,ground truth數據的可用性有限,這導致3D人體重建在應用於現實世界圖像時的性能下降。
本文通過利用新的數據資源來應對這一挑戰:一些社交媒體舞蹈視頻,這些視頻跨越了不同的外觀、服裝風格、表演和身份。每段視頻都描繪了一個人身體和衣服的動態運動,同時缺乏3D ground truth幾何。
為了利用這些視頻,作者提出了一種使用局部變換的新方法,將人預測的局部幾何形狀從圖像扭曲到另一個圖像的局部幾何。這種方法是端到端可訓練的,從而產生高保真深度估計,預測忠實於輸入真實圖像的精細幾何形狀。實驗證明,該方法在真實和渲染圖像上都優於最先進的人類深度估計和人類形狀恢復方法。
論文地址:
https://arxiv.org/abs/2103.03319
Task Programming: Learning Data Efficient Behavior Representations
作者來自加州理工和西北大學。
摘要:
要進行專業領域知識的深入分析,通常是準確注釋訓練集是必需的,但從領域專家那裡獲得這些既繁瑣又耗時。這個問題在自動行為分析中非常突出。
為了減少注釋工作量,本文提出了TREBA:一種基於多任務自監督學習的注釋-行為分析樣本高效軌跡嵌入方法。該方法中的任務可以由領域專家通過「任務編程」的過程高效地進行工程化。通過交換數據注釋時間來構建少量編程任務,可以減少領域專家的總工作量。
本文在兩個領域的三個數據集中給出了實驗結果指出,該方法減少了多達10倍的注釋負擔,而不影響與SOTA方法相比的準確性。
值得一提的是,論文第一作者Jennifer J. Sun目前就讀於加州理工學院,本科就讀於多倫多大學,GPA是4.0。
論文地址:
https://arxiv.org/abs/2011.13917
原始碼:
https://github.com/neuroethology/TREBA
Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling
論文來自北卡大學教堂山分校。
這篇文章主要研究了視頻問答(VQA)問題。
作者提出了一個通用框架ClipBERT,通過使用稀疏的採樣,在每個訓練步驟中只使用一個或幾個視頻中稀疏的採樣短片,從而為視頻和語言任務提供負擔得起的端到端學習。
論文地址:
https://arxiv.org/abs/2102.06183
原始碼:
https://github.com/jayleicn/ClipBERT
Binary TTC: A Temporal Geofence for Autonomous Navigation
論文來自英偉達和加州大學聖芭芭拉分校。
本文研究的問題與自動駕駛技術有關,即接觸時間(TTC),這是物體與觀察者平面碰撞的時間,是路徑規劃的有力工具,它可能比場景中物體的深度、速度和加速度提供信息更多。
TTC有幾個優點,包括只需要一臺單目、未校準的相機。然而,每個像素的回歸TTC並不簡單,大多數現有方法對場景進行了過度簡化的假設。本文通過一系列更簡單的二元分類來估計TTC來應對這一挑戰。這是第一個能夠以足夠高的幀速率提供TTC信息的方法。
論文地址:
https://arxiv.org/abs/2101.04777
Real-Time High-Resolution Background Matting
論文來自華盛頓大學。
這篇文章提出了一種實時高解析度替換視頻背景的方法,能夠在4K解析度下以30fps運行。
主要挑戰是計算高質量的阿爾法啞光,保留頭髮級別的細節,同時實時處理高解析度圖像。為了實現這一目標,作者使用兩個神經網絡;一個基網絡計算低解析度的結果,該結果再通過第二個在選擇性補丁上以高解析度運行的網絡來改進。
與之前方法相比,該方法可以產生更高的質量結果,同時在速度和解析度方面都顯著提高。
該項目代碼在GitHub上已經收穫3.7k星。
論文地址:
https://arxiv.org/abs/2012.07810
原始碼:
https://github.com/PeterL1n/BackgroundMattingV2
除了最佳論文相關獎項外,今年大會還頒發了PAMITC獎,包括Longuet-Higgins獎、年輕研究者獎以及首屆Thomas Huang紀念獎。
獲得Longuet-Higgins獎的兩篇論文分別是:
《Real-time human pose recognition in parts from single depth image》
《Baby talk: Understanding and generating simple image descriptions》
獲得年輕研究者獎的是來自FAIR的Georgia Gkioxari和來自MIT的Phillip Isola。
去年計算機視覺領域先驅學者黃煦濤去世,為了紀念他,CVPR決定從今年開始頒發Thomas Huang紀念獎。
第一屆Thomas Huang紀念獎的獲獎者是MIT計算機教授Antonio Torralba,今年他共有4篇論文入選CVPR。
本屆CVPR簡介由於受新冠疫情影響,今年的CVPR仍在線上以虛擬會議形式舉行。
今年CVPR共有7039篇有效投稿,接收論文1661篇。
在CVPR召開之際,各大科技公司也陸續曬出了自己成績單,谷歌發布超過70篇,Facebook發布了52篇。
國內科技公司近年來在CVPR上發表的論文也與國外巨頭看齊,如商湯發表66篇、華為諾亞方舟實驗室發表30篇,曠視發表22篇,騰訊優圖發表20篇,快手發表14篇。
當然,本屆CVPR相關的workshop和turotial等活動還在進行,感興趣的讀者可訪問下方連結持續關注~
參考連結:
http://cvpr2021.thecvf.com/node/141
http://cvpr2021.thecvf.com/node/329
— 完 —
本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。
歡迎關注AI行業、智能汽車、自動駕駛的小夥伴加入社群,不容錯過智能汽車行業發展&技術進展:
點這裡👇關注我,記得標星哦~
一鍵三連「分享」、「點讚」和「在看」
科技前沿進展日日相見~