ECCV 2020最佳論文講了啥?作者為ImageNet一作、李飛飛高徒鄧嘉

2021-01-15 量子位

蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI

作為計算機視覺三大頂會之一,備受矚目的ECCV 2020(歐洲計算機視覺國際會議)最近公布了所有獎項。

其中,最佳論文獎被ImageNet一作、李飛飛高徒鄧嘉及其學生摘得。

這篇名為《RAFT: Recurrent All-Pairs Field Transforms for Optical Flow》的論文,究竟講了啥?

一起來學習一下。

視頻中的「光流預測」

在解讀這篇論文前,先來大致回顧一下論文涉及的領域,即光流預測。

光流預測是什麼

在計算機視覺中,光流是一個有關物體運動的概念,指在一幀視頻圖像中,代表同一目標的像素點到下一幀的移動量,用向量表示。

根據光流的亮度恆定假設,同一物體在連續的幀間運動時,像素值不變(一隻小鳥不會在運動時突然變成鴨或者飛機)。

所以這個運動的過程,就像是光的「流動」過程,簡稱光流,預測光流的過程,就被稱之為光流預測。

應用上,光流通常會用於視頻中的目標跟蹤,例如TLD算法。

此外,光流還可以作為視覺裡程計和SLAM同步定位,以及視頻動作識別和視頻插幀等。

先前光流預測法的缺陷

根據是否選取圖像稀疏點(特徵明顯,梯度較大),可以將光流預測分為稀疏光流和稠密光流,如下圖左和右。

其中,稀疏光流會選取圖像稀疏點進行光流估計;而在稠密光流裡,為了表示方便,會使用不同的顏色和亮度表示光流的大小和方向。

針對這兩種方法,目前有傳統預測和基於深度學習的兩種經典算法。

1、傳統方法:稀疏光流估計算法

求解光流預測算法前,首先要知道孔徑問題。

如圖,從圓孔中觀察移動條紋的變化,發現條紋無論往哪個方向移動,從圓孔來看,移動的變化都是一致的。

例子再通俗一點,看看髮廊的旋轉燈,燈上的條紋看起來總在往上走(其實沒有)。

其中一種傳統的Lucas-Kanade算法,是求解稀疏光流的方法,選取了一些可逆的像素點估計光流,這些像素點是亮度變化明顯(特徵明顯)的角點,藉助可逆相關性質,預測光流方向。

2、深度學習方法:FlowNet

FlowNet是CNN用於光流預測算法的經典例子。

在損失設計上,對於每個像素,損失定義為預測的光流值和真值(groundtruth)之間的歐氏距離,稱這種誤差為EPE,全稱End-Point-Error。

當然,說到這裡,不得不提一句光流預測的經典數據集FlyingChairs(飛椅)。

為了模擬目標的多種運動方式,飛椅數據集將虛擬的椅子疊加到背景圖像中,並將背景圖和椅子用不同的仿射變換,得到對應的另一張圖。

△ 畫風有點像玩個錘子

這個數據集也成為許多光流預測網絡必備的數據集之一。

然而,上述基於深度學習的經典光流預測算法,存在著幾個缺點,無論怎麼優化,這些缺點都會因為框架自身而一直存在。

但在RAFT,這個全稱光流循環全對場變換的框架中,過往的3大缺點都被一一解決了:

突破局限,三點創新

第一,先前的框架普遍採用從粗到細的設計,也就是先用低解析度估算流量,再用高解析度採樣和調整。

相比之下,RAFT以高解析度維護和更新單個固定的光流場。

這種做法帶來了如下幾個突破:低解析度導致的預測錯誤率降低,錯過小而快速移動目標的概率降低,以及超過1M參數的訓練通常需要的迭代次數降低。

第二,先前的框架包括某種形式上的迭代細化,但不限制迭代之間的權重,這就導致了迭代次數的限制。

例如,IRR使用的FlowNetS或PWC-Net作為循環單元,前者受網絡大小(參數量38M)限制,只能應用5次迭代,後者受金字塔等級數限制。

相比之下,RAFT的更新運算是周期性、輕量級的:這個框架的更新運算器只有2.7M個參數,可以迭代100多次。

第三,先前框架中的微調模塊,通常只採用普通卷積或相關聯層。

相比之下,更新運算符是新設計,由卷積GRU組成,該卷積GRU在4D多尺度相關聯向量上的表現更加優異。

光流預測的效果

話不多說,先上RAFT光流預測的效果圖。

這是在Sintel測試集上的效果展示,最左邊是真值,最右邊是RAFT預測的光流效果,中間的VCN和IRR-PWC是此前效果較好的幾種光流預測框架。

可以看出,相較於中間兩個框架的預測效果,RAFT的預測不僅邊界更清晰,而且運動的大小和方向準確(看顏色)。

此外,在KITTI數據集上的預測效果也非常不錯。

圖左的幾輛小車被清楚地預測了出來,而圖右中,駕駛方向不同的車輛也能用不同的顏色(紅、藍)區分標記。

不僅小視頻,在1080p的高解析度視頻(DAVIS數據集)中,光流預測的效果也非常不錯。

有意思的是,在訓練參數(下圖橫軸)幾乎沒有明顯增加的情況下,RAFT在一系列光流預測框架中,EPE誤差(下圖縱軸)做到了最小。

由上圖可見,團隊同時推出了5.3M參數量和1.0M輕量級的兩個框架,EPE誤差效果均非常好。

從效果來看,在KITTI數據集上,RAFT的F1-all誤差是 5.10%,相比此前的最優結果(6.10%)減少了16%;在Sintel數據集上,RAFT只有2.855像素的端點誤差(End-Point-Error),相比先前的最佳結果(4.098 像素)減少了30%。

不僅推理效率高,而且泛化能力強,簡直就是光流預測中各方面超越SOTA的存在。

那麼,RAFT的框架究竟是怎麼設計的呢?

高性能端到端光流網絡架構

從圖中可見,RAFT框架主要由三個部分構成:特徵編碼器、相關聯層(correlation layer)和基於GRU的更新運算器。

其中,特徵編碼器主要用來從輸入的2張圖中提取每個像素的特徵,期間也包括一個上下文編碼器,專門用來提取圖1的特徵。

至於相關聯層,則構建了一個4D的W×H×W×H相關聯向量,用於表示所有特徵向量對的點積(內積)。當然,這個4D向量的後2維會被多尺度採樣,用於構建一系列多尺度向量。

下圖是構建相關聯向量的方法,從圖中可見,作者將用了幾個2D片段來描述一整個4D向量。

在圖1的一個特徵向量中,構建了圖2中所有向量對的點積,從而生成了一個4D的W×H×W×H向量(其中,圖2的每個像素產生一個2D的響應圖)。

這樣,就能用大小為{1,2,4,8}的卷積核對向量進行平均採樣了。

而更新操作器,則通過光流預測,來重複更新光流,以展現這一系列多尺度向量的向量值。

總結歸納一下,RAFT的框架流程分為三步,對每個像素提取特徵,計算所有像素對的相關性,高效迭代更新光流場。

目前,RAFT框架已經放出了GitHub的項目連結,想要學習代碼、或者復現的小夥伴們,可以戳文末傳送門~

作者介紹

這篇論文的第一作者是Zachary Teed。

Zachary Teed目前在普林斯頓大學讀博,是視覺與學習實驗室的一名成員,導師為鄧嘉。目前的主要研究方向為視頻3D重建,包括運動、場景流和SLAM中的結構。

此前,他曾獲聖路易斯華盛頓大學的計算機科學學士學位,並在那裡取得了Langsdorf 獎學金和 McKevely研究獎。

而論文二作,則是普林斯頓大學計算機科學系助理教授鄧嘉。

鄧嘉曾於2006年本科畢業於清華大學計算機系,隨後赴美國普林斯頓大學讀博。

2007 年,李飛飛回到他的母校普林斯頓大學任職後便開始啟動 ImageNet 項目,李凱教授作為支撐,將鄧嘉介紹到李飛飛的實驗組中,2012 年鄧嘉於普林斯頓大學獲計算機科學博士學位。

這並非他第一次獲ECCV最佳論文獎。

2014 年,鄧嘉就曾憑藉論文《Large-Scale Object Classification Using Label Relation Graphs》獲得當年的ECCV最佳論文獎,並且是該研究的第一作者。

除此之外,他也是ImageNet論文的第一作者。

傳送門

論文連結:https://arxiv.org/abs/2003.12039

項目連結:https://github.com/princeton-vl/RAFT

相關焦點

  • 浙大畢業,李飛飛高徒朱玉可加盟UTAustin,曾獲ICRA2019最佳論文
    機器之心報導機器之心編輯部李飛飛的又一位得意門生走向了教學崗位:昨天,剛剛畢業的斯坦福博士朱玉可(Yuke Zhu)宣布即將在 2020 年秋季加入德克薩斯大學奧斯汀分校(The University of Texas at Austin)任助理教授。
  • ECCV 2020 目標檢測論文大盤點(49篇論文)
    作者單位:國科大, 華為, 華中科大, 鵬城實驗室論文:https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/492_ECCV_2020_paper.php代碼:https://github.com/Duankaiwen/CPNDetTIDE
  • ECCV 2020 論文大盤點-光流篇
    Recurrent All-Pairs Field Transforms for Optical Flow』獲得 ECCV 2020 最佳論文獎(附相關視頻)。下載包含這些論文的 ECCV 2020 所有論文:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow作者 | Zachary Teed, Jia Deng單位 | 普林斯頓大學論文 | https://arxiv.org/abs/2003.12039代碼 | https:
  • 最佳論文最佳學生論文一作均為華人,清華最高產機構
    大數據文摘出品史上最難的的CVPR2020終於來了!由於疫情影響,今年原定於6.14開始的線下討論會改成位於西雅圖的線上會議。在剛剛結束的CVPR 2020 開幕式上,悉數公布了本屆CVPR最佳論文、最佳學生論文等獎項。值得一提的是,兩個獎項的論文一作均為華人。
  • ECCV 2020 論文匯總:遙感與航空影像處理識別
    中遙感與航空影像相關論文,總計 5 篇。下載包含這些論文的 ECCV 2020 所有論文:衛星圖像,圖像合成Synthesis and Completion of Facades from Satellite Imagery作者 | Xiaowei Zhang, Christopher May, Daniel Aliaga單位 | 普渡大學論文 | https://www.ecva.net
  • 李飛飛入選美國國家醫學科學院,她用AI改變了醫療
    、公共衛生等事業作出重大貢獻的個人,華人AI女神李飛飛入選。在慶祝團隊的文章登上Nature,李飛飛在朋友圈感慨道。 然而成功不是一蹴而就的,這些光輝頭銜下,李飛飛從來都是一個執著而且專注的人。 博士畢業後,李飛飛進入史丹福大學的AI實驗室,深入研究計算機視覺識別。
  • 人物丨李飛飛當選美國醫學科學院院士!用AI照亮醫療黑暗空間
    AI科技評論作者李飛飛在名單公布之後在推特上致謝:美國國家醫學科學院給予李飛飛的入選理由是論文被《Nature》收錄後,李飛飛在朋友圈透露,這篇論文是兩代博士生、10幾位本科/碩士/博士/博士後,以及近10位斯坦福醫學院醫生和教授,歷經8年心血共同打造而成。
  • 李飛飛莊小威入選美國國家醫學科學院,王辰院士當選國際成員
    李飛飛莊小威入選美國國家醫學科學院,王辰院士當選國際成員 澎湃新聞記者 王心馨 2020-10-20 18:11 來源:澎湃新聞
  • 莊小威、王辰、劉如謙、李飛飛等當選美國醫學科學院院士
    2020年10月19日,美國國家醫學科學院(NAM)增選100位新院士,其中90名常規成員和10名國際成員。新增後,NAM院士總數超過2200人,其中國際院士為175人。李飛飛博士是史丹福大學計算機科學系的首位「紅杉資本教授」,也是史丹福大學「以人為本人工智慧研究院」的聯席院長。
  • 李飛飛團隊最新研究,真實場景中識別物體具體屬性
    這就是李飛飛團隊新研究。我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。而最近,李飛飛團隊的最新研究——Learning Physical Graph Representations from Visual Scenes,就一舉解決了這個問題。
  • CIKM 2020最佳論文出爐!NUS和RMIT同獲最佳長論文獎
    作者 | 陳大鑫  10月19日-10月23日,第29屆國際計算機學會信息與知識管理大會(CIKM 2020)在線上召開,官網:https://www.cikm2020.org/ 。  以下介紹這兩篇最佳長論文。
  • ACM MM 2020大獎項出爐!南開獲最佳論文獎,西安交大獲最佳學生論文獎
    作者 | 陳大鑫剛剛!第28屆ACM國際多媒體會議(ACM MM)最佳論文獎、最佳學生論文獎、最佳demo獎、 最佳開源軟體獎在內的所有多媒體領域大獎都已出爐。其中最佳論文的一作是來自南開大學Hongru Liang,最佳學生論文的一作是來自西安交大的Wenbo Zheng。
  • 深動科技首席科學家+ECCV論文一作閉門交流會
    本周三晚8點,深動科技聯合創始人&首席科學家楊奎元的Talk 已在TechBeat火熱開播,還沒看的小夥伴快點擊 複習~北京時間11月3日(周二)晚8點,將門-TechBeat社區將邀請楊奎元及其在ECCV 2020工作的一作同學與大家進行線上的閉門交流活動,對他們幾何和語義信息提取在自動駕駛中的運用
  • Google第一女神李飛飛,從洗碗工,蛻變成為首席科學家
    她就是谷歌公司級別最高的華裔主管——李飛飛。李飛飛是誰?她曾經只是一個普通的鄰家妹子。1976年,李飛飛生在北京,成長在美麗的四川。父母都是知識分子,兒童時代的李飛飛有著一個不錯的出身和家庭環境。滿懷工程師和科學家抱負的父親,帶著他們一家三口移民到了美國。理想很豐滿,但現實卻很骨感。到了美國後的一家三口,因為語言障礙問題,一下子陷入了窘境。
  • 2020最佳AI論文,都在這裡了
    儘管2020年發生了很多事情,研究者們仍然為人工智慧技術的進步做出了大量重要的貢獻。位於蒙特婁的 AI 內容創作者 Louis Bouchard (他的 YouTube 帳號叫 What's AI) 匯總了一份2020年最值得關注的 AI 論文名單(https://github.com/louisfb01/Best_AI_paper_2020 )。
  • 奧斯卡最佳影片《寄生蟲》講了個啥,李現都看好它,劇情細思極恐
    這可以說是電影行業最高榮譽的一個獎了,其中有一個獎是最佳影片,能得到這個獎是一件很不容易的事,像《辛德勒的名單》、《肖申克的救贖》其實都曾經獲得過這個獎。最近第92屆奧斯卡的獲獎電影已經公布,它就是韓國導演奉俊昊拍攝的《寄生蟲》。
  • 李飛飛、鄧中翰入選美國工程院院士,多位華人上榜
    李飛飛教授因提出 ImageNet 以及在機器學習、視覺理解等領域的貢獻而被我們所知。李飛飛在 2018 年當選 ACM Fellow,其 ImageNet 論文在 CVPR 2019 獲經典論文獎。2016 年 11 月,李飛飛加入谷歌雲團隊,成為當時谷歌雲人工智慧團隊領導者。
  • NeurIPS2020論文:新一代算法鑑黃師,中科院碩士一作
    今年的AI頂會NeurIPS 2020,阿里安全團隊一篇名為《啟發式領域適應》(Heuristic Domain Adaptation)的論文入選。針對複雜任務和場景,遷移學習的魯棒性與可擴展性主要體現為如何更好地提取領域不變特徵。目前,這項成果主要用於內容安全識別,如直播或動漫人物及白描場景下是否涉黃等。但阿里安全資深算法專家華棠認為,遷移學習的特性,使得這套原理框架可以移植到其他諸多領域,比如在線教育、文娛行業等等。
  • 華人一作獲最佳論文獎,第四大視覺頂會BMVC大獎出爐!
    作者 | 陳大鑫近日,BMVC 2020最佳論文獎、最佳論文獎亞軍、最佳學生論文獎、最佳學生論文獎亞軍、最佳工業論文獎等五項大獎出爐。其中最佳論文獎四位作者當中包含一作在內有三位是加利福尼亞大學戴維斯分校以及英偉達公司的國人/華人學生。
  • 李飛飛團隊新研究,場景中識別物體屬性,連表面紋理都識別出來了
    這就是李飛飛團隊新研究。我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。而最近,李飛飛團隊的最新研究——Learning Physical Graph Representations from Visual Scenes,就一舉解決了這個問題。