SfM-Net: Learning Structure Motion from Video 視頻無監督學習 代碼

2021-01-18 CreateAMind

We propose SfM-Net, a geometry-aware neural network for motion estimation in videos that decomposes frame-to-frame pixel motion in terms of scene and object depth, camera motion and 3D object rotations and translations. Given a sequence of frames, SfM-Net predicts depth, segmentation, camera and rigid object motions, converts those into a dense frame-to-frame motion field (optical flow), differentiably warps frames in time to match pixels and back-propagates. The model can be trained with various degrees of supervision: 1) self-supervised by the re-projection photometric error (completely unsupervised), 2) supervised by ego-motion (camera motion), or 3) supervised by depth (e.g., as provided by RGBD sensors). SfM-Net extracts meaningful depth estimates and successfully estimates frame-to-frame camera rotations and translations. It often successfully segments the moving objects in the scene, even though such supervision is 



https://arxiv.org/abs/1704.07804




https://github.com/waxz/sfm_net



相關焦點

  • 【CVPR Oral】視頻跟蹤新思路,完全無需手工標註
    [導讀]本文介紹一篇CVPR 2019 Oral的工作,作者來自CMU、UC伯克利,論文提出採用無監督學習的創新視頻跟蹤思路
  • 運用sklearn進行線性判別分析(LDA)代碼實現
    學習之後可以對數據降維處理兩種實現方法進行對比:無監督的PCA技術:主成分分析PCA數據降維原理及python應用(葡萄酒案例分析)有監督的LDA技術:LDA線性判別分析原理及python應用(葡萄酒案例分析)二、定義分類結果可視化函數這個函數與上一篇文章 運用sklearn進行主成分分析(PCA)代碼實現 裡是一樣的,plot_decision_region
  • 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    目前最常用的模型是 word2vec 和 GloVe,它們都是基於分布假設(在相同的上下文中出現的單詞往往具有相似的含義)的無監督學習方法。儘管此後有一些研究(https://arxiv.org/abs/1805.04032)通過引入語義或者句法的監督信息來增強這些無監督方法,但是純粹的無監督學習方法在 2017 年到 2018 年得到了令人關注的提升,最著名的是「FastText」(word2vec 的一種拓展)以及「ELMo」(目前最先進的基於上下文的詞嵌入技術)。
  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    9 無監督學習Jaderberget al.(2017) 提出了無監督的強化輔助學習(UNREAL),通過共享一個共同的表徵(representation),並在通常的累積獎勵之外最大化偽獎勵功能,從而提高學習效率。UNREAL 通過學習大量的可能訓練信號而受益,特別是當外部獎勵信號很少被觀察到時。
  • ...深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附論文)
    9 無監督學習Jaderberget al.(2017) 提出了無監督的強化輔助學習(UNREAL),通過共享一個共同的表徵(representation),並在通常的累積獎勵之外最大化偽獎勵功能,從而提高學習效率。UNREAL 通過學習大量的可能訓練信號而受益,特別是當外部獎勵信號很少被觀察到時。
  • 人工智慧的下半場,一定少不了自監督學習
    考慮到無標籤數據(例如,免費的文本、網絡上所有的圖像)的數據量遠遠超過了數量有限的人為標記的數據集,如果不使用這些無標籤數據是一種極大的浪費。然而,無監督學習是很困難的,而且相較於監督式學習往往要低效得多。如果我們可以在不花費成本的情況下為無標籤數據打上標籤,並且以有監督的方式訓練無監督數據,那會怎麼樣呢?
  • 「深度學習實戰項目分享」視頻三維人體姿態的動態學習
    本文為譯文,外文素材來源於GitHub,經本人翻譯後首發於此,其中略有增刪修改,僅供大家學習交流參考。如有學習需要,請大家到GitHub原始庫連結進行clone學習。在這項工作中,我們提出了一個框架,通過簡單但有效的圖像特徵時間編碼,可以類似地從視頻中學習人類3D動態的表示。在測試時,通過視頻,學習的時間表示可以恢復平滑的3D網格預測。我們的模型可以從單個圖像中恢復當前的3D網格以及3D過去和未來的運動。我們的方法旨在使其能夠以半監督的方式從具有2D姿勢注釋的視頻中學習。但是,帶標籤的數據總是有限的。另一方面,網際網路上每天都有數百萬的視頻上傳。
  • 阿里文娛資深算法專家:視頻物體分割算法的三個方向與最新應用
    目前,CV 學術界在視頻物體分割方面的研究主要分為三個方向:半監督視頻物體分割 (Semi-supervised video object segmentation)交互式視頻物體分割 (Interactive video object segmentation)無監督視頻物體分割(Un-supervised video object segmentation)
  • 一種用於SLAM/SFM的深度學習特徵點 SuperPoint
    雖然過去了挺久,但是仍然是經典,值得學習這篇文章設計了一種自監督網絡框架,能夠同時提取特徵點的位置以及描述子。相比於patch-based方法,本文提出的算法能夠在原始圖像提取到像素級精度的特徵點的位置及其描述子。
  • 一行命令跑評測,港中文MMLab開源自監督表徵學習代碼庫
    自監督表徵學習發展迅速,但也存在諸多問題。近日,香港中文大學多媒體實驗室(MMLab)和南洋理工大學的研究者開源了一套統一的自監督學習代碼庫 OpenSelfSup。前言近幾個月來自監督表徵學習領域獲得了顯著突破,特別是隨著 Rotation Prediction、DeepCluster、MoCo、SimCLR 等簡單有效的方法的誕生,自監督表徵學習大有超越有監督表徵學習的趨勢。
  • Bengio主辦 ‖ 2017蒙特婁大學DL+ML暑期班課程(視頻)
    深度學習通過建立分布式表示,通過監督、無監督或強化學習,來發現大型數據集中錯綜複雜的結構。深度學習暑期學校(DLSS)旨在為研究生、工業工程師和研究人員進階,他們已經擁有機器學習的一些基礎知識(可能但不一定是深度學習),並希望更多地了解這個快速增長的研究領域。
  • BYOL:輕鬆進行自監督學習
    自監督學習在深度學習中,經常遇到的問題是沒有足夠的標記數據,而手工標記數據耗費大量時間且人工成本高昂。基於此,自我監督學習成為深度學習的研究熱點,旨在從未標記樣本中進行學習,以緩解數據標註困難的問題。子監督學習的目標很簡單,即訓練一個模型使得相似的樣本具有相似的表示,然而具體實現卻困難重重。經過谷歌這樣的諸多先驅者若干年的研究,子監督學習如今已取得一系列的進步與發展。
  • DRL:強化學習——實例
    強化學習和監督學習、無監督學習的區別RL解決什麼問題RL如何解決問題實例視頻openAI and DeepMind馬爾科夫時序差分(Temporal-Difference)分類Model-freeModel-base基於概率基於價值回合更新單步更新在線學習 on-Policy離線學習 off-PolicyQ-learningQ-learning 實例Q-learning 算法更新
  • 小白學數據:教你用Python實現簡單監督學習算法
    監督學習作為運用最廣泛的機器學習方法,一直以來都是從數據挖掘信息的重要手段。即便是在無監督學習興起的近日,監督學習也依舊是入門機器學習的鑰匙。當然了,如果你已經熟練掌握監督學習,也不妨快速瀏覽這篇教程,檢驗一下自己的理解程度~什麼是監督學習?
  • Spatiotemporal Multiplier Networks for Video Action Recognition
    Related work Historically:HOF,MBH,trajectories,HOG3D,Cubiods,SOEs More recently: unsupervised learning, makes use of a combination of hand-crafted and learned features
  • 遙感圖像處理中的深度學習專題 《中國科學:信息科學》英文版
    過去幾年來, 遙感圖像處理相關的深度學習研究快速增長, 包括高光譜遙感圖像、合成孔徑雷達(SAR)圖像等處理、分類、參數反演及目標檢測識別. 除了遙感數據的高解析度、高維度和大尺寸之外, 該領域還存在一些特殊的挑戰, 如不同傳感器及其不同工作模式的複雜性和特殊性, 隱含在遙感數據中的獨特物理屬性, 信息反演的物理原理等.
  • 代碼詳解:使用NumPy,教你9步從頭搭建神經網絡
    全文共2875字,預計學習時長20分鐘或更長+1 ==len(layers_dim): # if output layerdZ =get_dZ_from_loss(y, y_hat, metric)else:dZ = np.multiply(np.dot(neural_net[layer_index+1].W.T,dZ),get_dactivation(neural_net[layer_index
  • 一個超乾貨的3D視覺學習社區
    基於深度學習的點雲分割算法有哪些?精度如何?常用的點雲分類算法有哪些?準確率如何?怎麼測量點雲的體積?如何測量點雲擬合平面的面積?您好,請問有有關3D點雲的缺陷檢測和點雲補全的資料嗎?想問下有沒有三維雷射雷達點雲配準拼接的代碼工程之類的?現在有沒有對於sfm或者slam之後得到的點雲進行補全處理的工作啊?你好,請問點雲表面重建有哪些方法呀?