37 篇!Facebook 今年被 CVPR 收錄的論文都說了啥?

2020-12-03 雷鋒網

雷鋒網AI 科技評論按:CVPR 2019 已於 6 月 16 日至 20 日在美國加利福利亞州長灘市盛大舉辦,吸引了超過萬人參加,雷鋒網 AI 科技評論的記者也前往現場為大家帶來了精彩的大會報導。作為工業界的學術實力幹將之一,Facebook AI 研究院在本次大會上的成果也備受矚目。而 Facebook AI 研究院也對自己今年的戰績進行了統計:共有 37 篇論文被收錄,其中包括 15 篇 Oral 論文。下面就讓我們一起來看看這些成果吧。

Oral 論文一覽

《2.5D 視覺聲音》

2.5D Visual Sound

作者:Ruohan Gao,Kristen Grauman雙聲道音頻為聽者提供了 3D 的聽覺感受,讓人對場景有豐富的感知體驗。然而,雙聲道錄音幾乎是不可實現的,即使能實現也需要相當水平的專業知識和設備。我們建議利用視頻將普通的單聲道音頻轉換成雙聲道音頻,其關鍵思想是,視覺幀揭示了重要的空間線索:儘管單聲道音頻在完成過程中明顯缺乏這些空間線索,但它們與空間線索緊密相連。我們的多模態方法可以從未經標註的視頻中還原空間線索與單聲道音頻的這一聯繫。我們設計了一個深卷積神經網絡,通過注入有關目標和場景配置的視覺信息,將單聲道(單通道)原聲解碼成對應的雙聲道。我們將輸出結果稱之為 2.5D 視覺聲音——視覺流幫助平面的單通道音頻「提升」到空間化的聲音。除了生成聲音,我們的神經網絡自監督表徵學習也顯示出對聲源分離的作用。

相關視頻演示連結:http://vision.cs.utexas.edu/projects/2.5D_visual_sound/論文地址:https://research.fb.com/publications/2-5d-visual-sound/《多語句視頻描述的對抗性推理》

Adversarial Inference for Multi-Sentence Video Description

作者:Jae Sung Park,Marcus Rohrbach,Trevor Darrell,and Anna Rohrbach儘管圖像標註工作取得了顯著進展,但由於視頻數據的複雜性,視頻描述仍處於起步階段,而為長視頻生成多語句描述則更具挑戰性。其中主要的挑戰包括生成視頻描述的流暢性和連貫性,以及它們與視頻的相關性。近年來,為了改進圖像標註模型,研究者們探索了基於強化和對抗學習的方法,但這兩種方法都存在著許多問題,例如 RL 存在的可讀性差、冗餘度高問題,以及GANs 存在的穩定性問題。在本文中,我們建議在推理過程中應用對抗性技術,設計一種有助於更好地生成多語句視頻描述的鑑別器。此外,我們發現多鑑別器採用的「混合」設計(即每個鑑別器針對視頻描述的某一方面)能夠實現更好的效果。具體而言,我們通過解耦鑑別器從三個標準方面進行評估:(1)視頻的視覺相關性;(2)語言的多樣性和流暢性(3)語句之間的連貫性。我們的方法在通常使用的 ActivityNet Captions 數據集進行自動和人工評估的結果都顯示,可以得到更準確、更多樣、更連貫的多語句視頻描述。

論文地址:https://research.fb.com/publications/adversarial-inference-for-multi-sentence-video-description/《魯棒可視問答的循環一致性》

Cycle-Consistency for Robust Visual Question Answering

作者:Meet Shah,Xinlei Chen,Marcus Rohrbach,and Devi Parikh儘管多年來,可視化回答取得了顯著的進展,但今天的 VQA 模型的魯棒性仍有許多不足之處。我們引入了一種新的評估協議和相關數據集(VQARephrasings),並證明了最先進的 VQA 模型對問題中存在的語言變化是相當脆弱的。VQA- rephrasings 包含三個人為提供的 rephrasings(改述),用於解決來自 VQA v2.0 驗證數據集的 4 萬個圖像中的 4 萬個問題。為了提高 VQA 模型的魯棒性,我們提出了一個使用循環一致性的與模型無關的框架。具體來說,我們訓練一個模型,不僅用來回答問題,而且還用來生成以特定答案為前提條件的問題,這樣的話,針對生成問題預測的答案與原始問題的真實答案相同。在不使用額外標註的情況下評估 VQA-Rephrasings 數據集,我們的方法在問題的表述變化方面比最先進的 VQA 模型具有更顯著的魯棒性。此外,在標準 VQA 和在挑戰 VQA v2.0 數據集的可視化問題生成任務上,我們的方法比其他當前最先進的方法的表現都要更好。

論文地址:https://research.fb.com/publications/cycle-consistency-for-robust-visual-question-answering/《DeepSDF:學習用於形狀表徵的連續符號距離函數》

DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation

作者:Jeong Joon Park,Peter Florence,Julian Straub,Richard Newcombe,and Steven Lovegrove計算機圖形學、3D 計算機視覺和機器人領域的研究者已經提出了多種方法來表示用於 3D 幾何的渲染和重建。這些方法在保真度、有效性和壓縮能力方面進行權衡。本論文引入了 DeepSDF,即一個用於形狀類別表徵的學到的連續符號距離函數(SDF),它能夠基於局部和帶噪聲的 3D 輸入數據實現高質量形狀表徵、插值和補充。比如 DeepSDF 的分類作用,就是通過連續體積場來表示形狀的表面:場中點的大小表示到表面邊界的距離,同時標記(-)和(+)分別表示該區域是在形狀區域內還是在形狀區域外,因此我們的表徵隱式地將形狀邊界編碼為學習到的函數的零水平集(zero-level-set),同時顯式地將空間分類表示為形狀內部/外部區域。雖然經典的 SDF 能夠以解析或離散體素的形式表示單個形狀的表面,但 DeepSDF 可以表示形狀的完整類別。此外,該方法在學習 3D 形狀表徵和補充方面展示出了最先進的性能,和之前的研究相比,模型尺寸減小了一個數量級。

論文地址:https://arxiv.org/pdf/1901.05103.pdf《使用網絡規模近鄰搜索的對抗性圖像的防禦》

Defense Against Adversarial Images Using Web-Scale Nearest-Neighbor Search

作者:Abhimanyu Dubey,Laurens van der Maaten,Zeki Yalniz,Yixuan Li,and Dhruv Mahajan大量最近的研究表明,卷積網絡對敵方圖像不具有魯棒性:通過擾動數據分布中的樣本而產生的圖像,以最大限度地減少擾動示例的損失。在這篇論文中,我們假設對抗性幹擾將圖像從圖像流形中移開,因為沒有物理過程可以產生對抗性圖像。這一假設表明,一個能夠成功防禦對抗性圖像的機制應讓圖像設計回歸到圖像流形上。我們研究了這種防禦機制,通過對包含數百億圖像的網絡級圖像資料庫進行近鄰搜索來模擬未知圖像流形設計。對 ImageNet 防禦策略的經驗評估表明在攻擊環境中該策略非常有效,即敵對方無法訪問圖像資料庫。我們還提出了兩種新的攻擊方法來破壞近鄰防禦,並給出了近鄰防禦失效的條件。我們進行了一系列的消融實驗,這表明在防禦系統的魯棒性和精確性之間存在著權衡,大型圖像資料庫(包含數億圖像)對於獲得良好的性能至關重要,仔細構建圖像資料庫對於抵禦為規避防禦而定製的攻擊非常重要。

論文地址:https://arxiv.org/pdf/1903.01612.pdf《具有點雲感知的逼真環境中的具身問答》

Embodied Question Answering in Photorealistic Environments with Point Cloud Perception

作者:Erik Wijmans,Samyak Datta,Oleksandr Maksymets,Abhishek Das,Georgia Gkioxari,Stefan Lee,Irfan Essa,Devi Parikh,Dhruv Batra為了幫助彌合網際網路視覺風格問題與具身感知的視覺目標之間的差距,我們以一個大規模的導航任務為例——在逼真環境(MatterPort3D)中具身問答[1]。我們深入研究使用 3D 點雲、RGB 圖像或其組合的導航策略。我們對這些模型的分析揭示了幾個關鍵的發現。我們發現,兩個看似簡單的導航基線(僅向前導航和隨機導航)都是強大的導航者,並且由於具身問答所採用的評估設置的特定選擇,它們也很難被超越。我們發現了一種新的損失加權方法,我們稱之為拐點加權法,在用行為克隆訓練循環導航模型時非常重要,並且能夠用這種技術完成基線。我們發現點云為學習障礙規避提供了比 RGB 圖像更豐富的信號,這有助於推動研究者使用(並繼續研究)3D 深度學習模型進行實體導航。

論文地址:https://research.fb.com/publications/embodied-question-answering-in-photorealistic-environments-with-point-cloud-perception/《基於場景補全的 RGB-D 掃描的極端相對姿態估計》

Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion

作者:Zhenpei Yang,Jeffrey Z. Pan,Linjie Luo,Xiaowei Zhou,Kristen Grauman,and Qixing Huang在相同的底層環境下,評估兩次 RGB-D 掃描之間的相對剛性姿態是計算機視覺、機器人學和計算機圖形學中的一個基本問題。大多數現有的方法只允許有限的相對姿態變化,因為它們在輸入掃描之間有相當大的重疊。我們引入了一種新的方法,在輸入掃描之間很少甚至沒有重疊的情況下,將範圍擴展到極端相對姿態。關鍵思想是推斷出關於底層環境更完整的場景信息,並與完成的掃描相匹配。特別地,我們的方法不是只對每個單獨的掃描執行場景補全,而是在相對姿態估計和場景補全之間進行切換。這使得我們可以在後期迭代中利用來自兩個輸入掃描的信息來執行場景補全,從而為場景補全和相對姿態估計帶來更好的結果。在基準數據集上的實驗結果表明,相對於最先進的相對姿態估計方法,我們的方法有較大的改進。特別是,我們的方法在相對姿態估計甚至在非重疊掃描之間實現了令人興奮的結果。

論文地址:https://arxiv.org/pdf/1901.00063.pdf《FBNET:基於可微神經網絡架構搜索的硬體感知的有效卷積網絡設計》

FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search

作者:Bichen Wu,Xiaoliang Dai,Peizhao Zhang,Yanghan Wang,Fei Sun,Yiming Wu,Yuandong Tian,Peter Vajda,Yangqing Jia,and Kurt Keutzer給行動裝置設計又準又快的卷積網絡是非常具有挑戰的,因為設計空間太大了。因此,之前的神經網絡架構搜索(NAS)方法計算量太大。卷積架構優化依賴的因素有解析度和目標設備等。然而,用現有的方法一個一個去重新設計代價太高。並且,之前的方法主要集中在減少 FLOPs,但是 FLOP 計數並不總是能反映實際延時。基於這些情況,我們提出了一種可微神經架構搜索(DNAS)框架,使用基於梯度的方法去優化卷積網絡結構,避免像之前的方法那樣去窮舉和單獨訓練結構。FBNets(Facebook-伯克利-網),是 DNAS 的一種分支模型,超越了人工設計的和自動生成的當前最先進模型。FBNet-B 在 ImageNet 數據集上達到了 74.1% 的 top-1 準確率,在三星 S8 手機上實現了 295M 的 FLOPs 以及 23.1ms 的延時,也就說與 MobileNetV2-1.3 相比,FBNet-B 在準確率差不多的情況下將 FLOPs 減少了 2.4 倍,將響應速度提高了 1.5 倍。儘管 FBNet-B 比 MnasNet[20] 具有更高的準確性和更低的延遲,但我們還評估出 FBNet-B 的搜索成本比 MnasNet 低 420 倍,僅為 216 GPUhours。針對不同解析度和通道大小的搜索,FBNets 比 MobileNetV2 的準確率高了 1.5% 至 6.4%。最小的 FBNet 網絡在一臺三星 S8 上達到了 50.2% 的準確率和 2.9ms 的延時(每秒 345 幀)。通過使用在三星上優化的 FBNet,iPhone-X-優化模型在 iPhone X 上搜索速度提高了 1.4 倍。

FBNet 模型原始碼:https://github.com/facebookresearch/mobile-vision論文地址:https://research.fb.com/publications/fbnet-hardware-aware-efficient-convnet-design-via-differentiable-neural-architecture-search《實現貼切的視頻描述》

Grounded Video Description

作者:Luowei Zhou,Yannis Kalantidis,Xinlei Chen,Jason J. Corso,Marcus Rohrbach視頻描述是視覺和語言理解中最具挑戰性的問題之一,因為視頻和語言都具有很大的可變性。因此,模型通常會簡化識別的難度,生成基於先驗但不一定基於視頻的可信語句。本次研究中,我們通過使用視頻的某個幀中對應的邊框來標註語句中的每個名詞短語,從而明確讓生成的語句與視頻中的顯示畫面掛鈎。我們的數據集 ActivityNet- Entities 增強了這一具有挑戰性的 ActivityNet Captions 數據集,其包含 15.8 萬個邊框標註,其中每個標註都以名詞短語為基礎。這樣的話,就能使用這些數據訓練視頻描述模型,並且非常重要的是,這些數據可以評估該模型對所描述的視頻的合理性或「真實性」。為了生成合理的說明,我們提出了一種能夠利用這些邊框標註的新的視頻描述模型。我們證明了該模型在前述數據集上的有效性,同時也顯示出該模型能用於基於 Flickr30k Entities 數據集的視頻描述。本次研究在視頻描述、視頻片段描述和圖像描述方面實現了最先進的性能,並展示了我們的模型生成的語句,與視頻中顯示的畫面匹配得更貼切。

代碼連結:https://github.com/facebookresearch/grounded-videodescription數據集連結:https://github.com/facebookresearch/activityNet-Entities論文地址:https://research.fb.com/publications/grounded-video-description/《接縫材料和照明估計的反向路徑跟蹤》

Inverse Path Tracing for Joint Material and Lighting Estimation

作者:Dejan Azinovic,Tzu-Mao Li,Anton Kaplanyan,Matthias Niessner現代計算機視覺算法給三維幾何重建帶來了顯著的進步。然而,照明和材料重建的研究仍然較少,目前材料和照明模型的方法假設非常簡單。本文介紹了一種利用可逆的光傳輸模擬來聯合估計室內場景中物體和光源材料性質的新方法——反向路徑跟蹤。我們假設一個粗略的幾何掃描,以及相應的圖像和相機姿態。本次工作的關鍵貢獻是,讓模型能夠精確並同步檢索光源和基於物理的材料屬性(如漫反射、鏡面反射、粗糙度等),以便在新的條件下編輯和重新渲染場景。為此,我們引入了一種新的優化方法,使用可微蒙特卡羅渲染器來計算關於未知照明和材料屬性估計的導數。該方法使用定製的隨機梯度下降對物理正確的光傳輸和材料模型進行了聯合優化。

論文地址:https://research.fb.com/publications/inverse-path-tracing-for-joint-material-and-lighting-estimation/《用於詳細視頻理解的長期特徵庫》

Long-Term Feature Banks for Detailed Video Understanding

作者:Chao-Yuan Wu,Christoph Feichtenhofer,Haoqi Fan,Kaiming He,Philipp Krhenbühl,Ross Girshick為了理解世界,我們人類需要不斷地將現在與過去聯繫起來,並將事件置於語境中。在本文中,我們使現有的視頻模型也能做到這一點。我們提出了長期特徵庫(Long-Term Feature Bank)的方法,即在整個視頻範圍內提取支持性的信息,用以增強最先進的視頻模型——這些模型此前只能查看 2-5 秒的短片段。我們的實驗表明,使用長期特徵庫擴充 3D 卷積網絡可以在三個具有挑戰性的視頻數據集上產生最先進的結果:AVA,EPIC-Kitchens 和 Charades。目前,相關代碼可在網上獲取。

論文地址:https://arxiv.org/pdf/1812.05038.pdf《全景 FPN 網絡》

Panoptic Feature Pyramid Networks

作者:Alexander Kirillov,Ross Girshick,Kaiming He,Piotr Dollar最近引入的全景分割任務使該領域的研究者對統一實例分割任務(對象類)和語義分段任務(材料類)產生了興趣。然而,當前用於該聯合任務的最先進方法使用單獨的和不相似的網絡,來進行實例分割和語義分割,而無法讓兩個任務之間共享計算。在這項工作中,我們的目標是在架構層面統一這些方法,為這兩個任務設計單一網絡。我們的方法是使用共享的特徵金字塔網絡(FPN)主框架來支持 Mask R-CNN(一種熱門的實例分割方法)。令人驚訝的是,該簡單基線不僅在實例分割方面仍然有效,而且還產生了一種輕量級、表現最佳的語義分割方法。在本次工作中,我們對具有 FPN 的 Mask R-CNN 的最小擴展版本進行了詳細研究,我們將其稱為 Panopific FPN,並證明對於這兩個任務而言,它是穩健且準確的基線。鑑於其有效性和概念簡單性,我們希望我們的方法可以作為一個強大的基線,並有助於未來的全景分割研究。

論文地址:https://ai.facebook.com/blog/improving-scene-understanding-through-panoptic-segmentation/《用於單目性能跟蹤的高保真人臉模型的自監督適應》

Self-Supervised Adaptation of High-Fidelity Face Models for Monocular Performance Tracking

作者:Jae Shin Yoon,Takaaki Shiratori,Shoou-I Yu,and Hyun Soo Park數據捕獲和人臉建模技術的改進使我們能夠創建高保真的真實人臉模型。但是,驅動這些真實的人臉模型需要特殊的輸入數據,例如 3D 網格和未展開的紋理。此外,這些人臉模型需要在受控實驗室環境下獲得乾淨的輸入數據,這與野外採集的數據顯著不同。所有這些限制使得在日用相機跟蹤中使用高保真模型很困難(所有這些限制使得日用相機在使用高保真模型進行追蹤變得具有挑戰性)。在本文中,我們提出了一種自監督的域適應方法,能夠讓日用相機拍攝到的高逼真人臉模型變成動畫格式。我們的這一方法首先通過訓練一個可以直接從單個二維圖像驅動人臉模型的新網絡來規避對特殊輸入數據的需求;然後,在假設人臉在連續幀上的外觀是一致的前提下,基於「連續幀紋理一致性」進行自監督域適應,我們克服了實驗室與非控制環境之間的領域不匹配問題,避免了對照明或背景等新環境建模的必要性,例如調整照明或背景。實驗表明,在不需要任何來自新領域的標記數據的情況下,我們能夠讓手機攝像頭中的高保真人臉模型執行複雜的面部運動。

論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Yoon_Self-Supervised_Adaptation_of_High-Fidelity_Face_Models_for_Monocular_Performance_Tracking_CVPR_2019_paper.pdf《微密集 DensePose:從稀少的標註和運動線索中進行精細學習》

Slim DensePose: Thrifty Learning from Sparse Annotations and Motion Cues

作者:Natalia Neverova,James Thewlis,Riza Alp Güler,Iasonas Kokkinos,Andrea VedaldiDensePose 通過將圖像像素密集地映射到人體表面坐標,取代了傳統的地標探測器。然而,這種強大的功能帶來了極大的標註成本,因為管理模型需要為每個人體姿態實例手工標註數百個點。因此,在這項工作中,我們尋找方法來顯著減少 DensePose 標註,從而提出更有效的數據收集策略。特別地,我們證明了如果在視頻幀中收集標註,通過使用動作線索可以使它們的效果成倍增加。為了探索這個想法,我們引入了 DensePose-Track,這是一組視頻數據集,其中所選的幀是以傳統的 DensePose 方式進行標註。然後,基於 DensePose 映射的幾何特性,利用視頻動態及時傳送真實有效的標註,並從 Siamese 方差約束中學習。在對各種數據注釋和學習策略進行了詳盡的經驗評估之後,我們證明這樣做可以在強基線上顯著提高姿態估計結果。然而,儘管最近的一些研究工作提出了這樣的建議,但我們發現,僅通過對孤立幀應用幾何變換來合成運動模式的效果要差得多,而從視頻中提取運動線索的效果更好。

論文地址:https://research.fb.com/publications/slim-densepose-thrifty-learning-from-sparse-annotations-and-motion-cues/《精確到每一縷頭髮的多視圖頭髮捕捉》

Strand-Accurate Multi-View Hair Capture

作者:Giljoo Nam,Chenglei Wu,Min H. Kim,Yaser Sheikh頭髮由於其微小的尺度結構和大量的重合遮擋,是最具挑戰的重建對象之一。在本文中,我們提出了第一種方法,以精確到每一縷頭髮的方法來捕獲高保真度的頭髮幾何結構。我們的方法分三個階段來實現。第一階段,我們提出了一種新的採用立體傾斜支撐線的多視圖方法來解決不同視角之間的頭髮對應問題。詳細來說,我們提出了一個新的成本函數,它由顏色一致性項和幾何項組成,將每個頭髮像素重建為一個三維線,其通過合併所有深度圖,可以得到一個點雲以及每個點的局部線方向。第二階段,我們提出了一種新的基於均值漂移的髮絲重構方法,將噪聲點數據轉換為一組髮絲。最後,我們使用多視圖幾何約束來精細到沒一縷髮絲,從而拉長短頭髮並恢復缺失的頭髮,從而顯著地提高重建完整性。我們在合成數據和實際採集數據上對這一方法進行了評估,結果表明我們的方法可以在亞毫米精度下重建每一縷髮絲。

論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Nam_Strand-Accurate_Multi-View_Hair_Capture_CVPR_2019_paper.pdfPoster 論文一覽

3D Human Pose Estimation in Video with Temporal Convolutions and Semisupervised Training

作者:Dario Pavllo,Christoph Feichtenhofer,David Grangier,Michael Auli代碼連結:https://github.com/facebookresearch/VideoPose3D論文地址:https://research.fb.com/publications/3d-human-pose-estimation-in-video-with-temporal-convolutions-and-semi-supervised-training/Activity Driven Weakly Supervised Object Detection

作者:Zhenheng Yang,Dhruv Mahajan,Deepti Ghadiyaram,Ram Nevatia,Vignesh Ramanathan代碼連結:https://github.com/facebookresearch/astmtAttentive Single-Tasking of Multiple Tasks

作者:Kevis-Kokitsi Maninis,Ilija Radosavovic,and Iasonas Kokkinos代碼及模型連結:https://github.com/facebookresearch/astmtChamNet: Towards Efficient Network Design Through Platform-Aware Model Adaptation

作者:Xiaoliang Dai,Peizhao Zhang,Bichen Wu,Hongxu Yin,Fei Sun,Yanghan Wang,Marat Dukhan,Yunqing Hu,Yiming Wu,Yangqing Jia,Peter Vajda,Matt Uyttendaele,Niraj K. Jha論文地址:https://research.fb.com/publications/chamnet-towards-efficient-network-design-through-platform-aware-model-adaptation/DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition

作者:Zheng Shou,Xudong Lin,Yannis Kalantidis,Laura Sevilla-Lara,Marcus Rohrbach,Shih-Fu Chang,Zhicheng Yan論文地址:https://research.fb.com/publications/dmc-net-generating-discriminative-motion-cues-for-fast-compressed-video-action-recognition/Engaging Image Captioning via Personality

作者:Kurt Shuster,Samuel Humeau,Hexiang Hu,Antoine Bordes,Jason Weston論文地址:https://research.fb.com/publications/engaging-image-captioning-via-personality/Feature Denoising for Improving Adversarial Robustness

作者:Cihang Xie,Yuxin Wu,Laurens van der Maaten,Alan Yuille,Kaiming He代碼連結:https://github.com/facebookresearch/ImageNet-Adversarial-Training論文地址:https://research.fb.com/publications/feature-denoising-for-improving-adversarial-robustnessGraph-Based Global Reasoning Networks

作者:Yunpeng Chen,Marcus Rohrbach,Zhicheng Yan,Shuicheng Yan,Jiashi Feng,Yannis Kalantidis論文地址:https://research.fb.com/publications/graph-based-global-reasoning-networks/Improved Road Connectivity by Joint Learning of Orientation and Segmentation

作者:Anil Batra,Suriya Singh,Guan Pang,Saikat Basu,C.V. Jawahar,Manohar Paluri論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Batra_Improved_Road_Connectivity_by_Joint_Learning_of_Orientation_and_Segmentation_CVPR_2019_paper.pdfInverse Cooking: Recipe Generation from Food Images

作者:Amaia Salvador,Michal Drozdzal,Xavier Giro-i-Nieto,Adriana Romero代碼及模型:https://github.com/facebookresearch/inversecooking.論文地址:https://research.fb.com/publications/inverse-cooking-recipe-generation-from-food-imagesKernel Transformer Networks for Compact Spherical Convolution

作者:Yu-Chuan Su,Kristen Grauman論文地址:https://research.fb.com/publications/kernel-transformer-networks-for-compact-spherical-convolution/Large-Scale Weakly Supervised Pretraining for Video Action Recognition

作者:Deepti Ghadiyaram,Matt Feiszli,Du Tran,Xueting Yan,Heng Wang,Dhruv Mahajan論文地址:https://research.fb.com/publications/large-scale-weakly-supervised-pre-training-for-video-action-recognition/LBS Autoencoder: Self-Supervised Fitting of Articulated Meshes to Point Clouds

作者:Chun-Liang Li,Tomas Simon,Jason Saragih,Barnabás Póczos,Yaser Sheikh論文地址:https://arxiv.org/abs/1904.10037Less Is More: Learning Highlight Detection fromVideo Duration

作者:Bo Xiong,Yannis Kalantidis,Deepti Ghadiyaram,Kristen Grauman論文地址:https://arxiv.org/abs/1903.00859LVIS: A Data Set for Large Vocabulary Instance Segmentation

作者:Agrim Gupta,Piotr Dollár,Ross GirshickLVIS 連結:http://www.lvisdata set.orgMulti-Target Embodied Question Answering

作者:Licheng Yu,Xinlei Chen,Georgia Gkioxari,Mohit Bansal,Tamara Berg,Dhruv Batra論文地址:https://arxiv.org/pdf/1904.04686.pdfNon-Adversarial Image Synthesis with Generative Latent Nearest Neighbors

作者:Yedid Hoshen,Jitendra Malik論文地址:https://arxiv.org/pdf/1812.08985v1.pdfPanoptic Segmentation

作者:Alexander Kirillov,Kaiming He,Ross Girshick,Carsten Rother,Piotr Dollár論文地址:https://research.fb.com/publications/panoptic-segmentation/Reducing Uncertainty in Undersampled MRI Reconstruction with Active Acquisition

作者:Zizhao Zhang,Adriana Romero,Matthew J. Muckley,Pascal Vincent,Lin Yang,Michal Drozdzal論文地址:https://research.fb.com/publications/reducing-uncertainty-in-undersampled-mri-reconstruction-with-active-acquisition/StereoDRNet: Dilated Residual StereoNet

作者:Rohan Chabra,Julian Straub,Chris Sweeney,Richard Newcombe,Henry Fuchs論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Chabra_StereoDRNet_Dilated_Residual_StereoNet_CVPR_2019_paper.pdfThinking Outside the Pool: Active Training Image Creation for Relative Attributes

作者:Aron Yu,Kristen Grauman論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Yu_Thinking_Outside_the_Pool_Active_Training_Image_Creation_for_Relative_CVPR_2019_paper.pdfTowards VQA Models That Can Read

作者:Amanpreet Singh,Vivek Natarajan,Meet Shah,Yu Jiang,Xinlei Chen,Dhruv Batra,Devi Parikh,Marcus Rohrbach代碼連結:https://github.com/facebookresearch/pythia論文地址:https://research.fb.com/publications/towards-vqa-models-that-can-read/via https://ai.facebook.com/blog/facebook-research-at-cvpr-2019/雷鋒網

相關焦點

  • 華人問鼎CVPR!最佳論文最佳學生論文一作均為華人,清華最高產機構
    根據本次Accept list接收情況來看,本次共接收文章1470篇(有效提交總數為5865篇),接受率為22%,比2018年的29.6%和2019年的25%都有下降,堪稱CVPR史上最嚴的收稿會。由於疫情,本次會議需要線上舉行,項目主席Ce Liu很期待參會註冊人數能有較大增長,今年的註冊者,已經超過2018年參會註冊人數。
  • 1300篇!CVPR 2019錄取結果公布,7篇新鮮好文推薦
    篇論文被接收,接受率為25.2%。 今年CVPR的接收論文ID公布了!你是否上榜了呢?sle=true#gid=0 據統計,今年共計1300篇論文被CVPR 2019 接收,相比去年被接收論文數量增加了32.8%。今年的接收率為25.2%。
  • 300篇 CVPR 2019 Oral 論文精選匯總,值得一看的 CV 論文都在這裡
    CVPR 2019 即將在美國長灘召開今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇,其中 Oral 論文近 300 篇。為了方便社區開發者和學術青年查找和閱讀高價值論文,AI 研習社從入選的 Oral 論文中,按應用方向挑選了部分精華論文,貼在本文。
  • CVPR 2020論文收錄揭曉:百度22篇論文入選 涵蓋全視覺領域
    近日,計算機視覺領域「奧斯卡」CVPR 2020官方公布論文收錄結果,伴隨投稿數量激增,接收率開始經歷了一個持續下降的過程。今年,在6656篇有效投稿中,共有1470篇論文被接收,接收率為22%左右,相較去年25%的入選率,同比下降3%。在論文接收率下降的同時,中國科技企業被錄取論文數量卻不降反增,百度作為AI代表企業今年中選22篇,比去年的17篇增加了5篇。
  • 國際學術權威CVPR收錄多篇聯發科論文
    該會議收錄的論文代表了AI視覺領域最新的發展趨勢和領先的技術水平,獲選單位均為全球一流大學、研究機構以及頂尖企業,如牛津大學、麻省理工學院、微軟亞洲研究院、Google、Facebook等。CVPR會議一向重視突破性的創新,堪稱AI視覺界的「奧林匹克」,2020年CVPR的論文入選率僅有22%,在激烈的技術角逐下能獲選實屬不易。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    雷鋒網 AI 科技評論按:作為計算機視覺領域的頂級學術會議,CVPR 2019 近期公布了最終論文接收結果,引來學界密切關注。據悉,CVPR 2019 今年一共獲得 5165 篇有效提交論文,最終抉出了 1300 篇接收論文,接收率達到 25.2% 。
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    ,共有6篇論文獲得四項榮譽。雷鋒網(公眾號:雷鋒網) AI 科技評論對6篇獲獎論文做了簡要介紹如下。CVPR最佳論文本屆CVPR共有兩篇最佳論文,其中就有一篇來自蘋果。Kutulakos論文地址:http://openaccess.thecvf.com/content_cvpr_2017/papers/Sheinin_Computational_Imaging_on_CVPR_2017_paper.pdf 論文簡介:夜晚的風景隨著交流電照明一起跳動。
  • 深睿醫療5篇論文被MICCAI2019收錄,展示在醫療AI領域的卓越創新能力
    隨著人工智慧在各個領域的蓬勃發展,今年MICCAI論文投稿數量再創歷史新高,相比去年增長了70%,遵循MICCAI對學術交流的深度和質量要求,今年僅收錄了540篇,錄取率僅31%,收錄的論文代表了最前沿的圖像計算和計算機輔助領域的前沿技術,是醫學影像分析領域的前沿熱點風向標,引領該領域的未來發展方向。
  • 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選
    本屆大會總共錄取來自全球論文1299篇。中國團隊表現不俗,此次,騰訊公司有超過58篇論文被本屆CVPR大會接收,其中騰訊優圖實驗室25篇、騰訊AI Lab33篇,相比過去兩年成績大幅提升。作為計算機視覺領域級別最高的研究會議,CVPR2019錄取論文代表了計算機視覺領域在2019年最新和最高的科技水平以及未來發展潮流。
  • 四篇入選oral,深睿醫療8篇科研論文被國際學術會議IEEE CVPR、ISBI...
    ,其中4篇為oral,這些論文代表了計算機視覺領域尤其是醫療影像方向國際前沿的科研進展。CVPR 2020本次收錄四篇科研論文,其中三篇為oral。從IEEE CVPR 2020公布的論文接收結果來看,在6656篇有效投稿中有1470篇論文被接收,接收率僅為22%,相比去年又降低3個百分點,oral按照往年經驗,一般只有5-7%,競爭越發激烈。
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    作為領域內具有權威性的會議,今年的 CVPR 共收到有效提交論文 2680 篇,其中 2620 篇論文經過完整評議,最終總計 783 篇被正式錄取(佔總提交數的 29%)。被接收的論文中,71 篇將進行長口頭演講,144 篇進行短亮點演講。 華人不僅佔據了論文作者的半壁江山,國內眾多人工智慧公司也已摩拳擦掌要在 CVPR 大會上大顯身手了。
  • 全球計算機視覺頂會 CVPR 連續三年收錄騰訊優圖論文 2019 收錄 25...
    本屆大會總共錄取來自全球論文 1299 篇。中國團隊表現不俗,此次,騰訊公司有超過 58 篇論文被本屆 CVPR 大會接收,其中騰訊優圖實驗室 25 篇、騰訊 AI Lab33 篇,相比過去兩年成績大幅提升。作為計算機視覺領域級別最高的研究會議,CVPR2019 錄取論文代表了計算機視覺領域在 2019 年最新和最高的科技水平以及未來發展潮流。
  • 商湯科技44篇論文入選CVPR 2018
    速途網5月10日消息,全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and PatternRecognition,即IEEE國際計算機視覺與模式識別會議) 即將於六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文979篇。
  • Github 上打星超過 1 萬的可復現頂會論文項目
    3)Focal Loss for Dense Object Detection針對密集物體檢測的焦點損失方案打星數:18356收錄頂會:ICCV論文連結:://github.com/facebookresearch/Detectron簡介:論文提出基於區域的完全卷積網絡,以實現準確、有效的物體檢測任務。
  • 一周AI大事盤點:谷歌利用AI預測風力發電量,騰訊論文被CVPR收錄
    過去的一周中AI領域都發生了哪些重大事件?AI應用範圍又新增了哪些領域?行業大咖又發表了哪些不同的觀點?菜鳥智能語音助手入選全球十大突破性技術2月28日消息,美國科學雜誌《麻省理工科技評論》評選出2019年「全球十大突破性技術」,將「流利對話的AI助手」作為今年十大突破性技術之一。菜鳥智能語音助手技術成功入選。2018年該媒體曾報導稱,阿里巴巴的AI語音助手可以完成複雜的人類對話功能,甚至可讀懂人類的潛在意圖,顯示出阿里巴巴已經擁有比谷歌更好的AI語音技術。
  • 被ACL 2020收錄11篇NLP論文?百度:小意思,見慣了
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • 知網本科論文檢測會不會收錄論文?
    其實對於知網本科論文檢測會不會收錄論文這個問題,同學們在理解上有些誤區。>知網是不會收錄提交檢測的論文的,除非作者將論文發布到了能被知網收錄的期刊上。一般知網收錄的優秀本科論文是由導師提交到圖書館,再由圖書館統一整理後提交給知網,然後知網系統還會評估篩選進行收錄的,並不是什麼本科論文都會被知網收錄。
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    本屆大會總共錄取來自全球論文1299篇。中國團隊表現不俗,此次,騰訊公司有超過58篇論文被本屆CVPR大會接收,其中騰訊優圖實驗室25篇、騰訊AI Lab33篇,相比過去兩年成績大幅提升。作為計算機視覺領域級別最高的研究會議,CVPR2019錄取論文代表了計算機視覺領域在2019年最新和最高的科技水平以及未來發展潮流。
  • CVPR現場直擊:一文盡覽最頂級的CV+學術盛會!| CVPR 2017
    這些指標中,收錄的論文數量和參會人數,特別能反映出一個學術會議的影響力。下圖是 CVPR 的官方論文收錄增長趨勢:可以看出,從 2003 年到現在有一個十分穩定的增長趨勢。今年的增長數量逾 100 篇,大幅超過往屆。
  • 商湯科技入選 CVPR 2018 的 44 篇論文,都研究什麼?