機器之心 & ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周的重要論文包括上海交大與 MIT 的聯合項目 SwingBot 以及華盛頓大學升級版背景摳圖 background matting 方法。
目錄:
SwingBot: Learning Physical Features from In-hand Tactile Exploration for Dynamic Swing-up Manipulation
Point Transformer
Canonical Capsules: Unsupervised Capsules in Canonical Pose
Network Representation Learning Based Recommender Systems
Real-Time High-Resolution Background Matting
A Theory of Abstraction in Reinforcement Learning
Disentangled Information Bottleneck
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:SwingBot: Learning Physical Features from In-hand Tactile Exploration for Dynamic Swing-up Manipulation
作者:Chen Wang、Shaoxiong Wang、Branden Romero、Filipe Veiga、Edward Adelson
論文連結:http://gelsight.csail.mit.edu/swingbot/IROS2020_SwingBot.pdf
摘要:人類善於利用手指觸覺來感知物體的物理特性(包括質量、重心、轉動慣量、表面摩擦等),從而完成高難度的控制任務。在不遠的將來,機器人也會擁有觸覺分析能力。在剛剛結束的機器人頂會 IROS 2020 上,上海交大 & MIT 聯合項目 SwingBot 為我們展示了如何讓機器人通過觸覺傳感器來學習感知物體複雜的物理特性(tactile exploration),從而完成一個高難度的甩筆任務(in-hand object swing-up)。
該項目通過對多種觸覺探索動作的信息融合,讓機器人端到端的去學習概括手中物體的物理特性,並依靠這個物理特徵來實現高難度的手上控制任務(in-hand swing-up)。
多觸覺探索動作的信息融合模型。
GelSight 觸覺傳感器動圖展示。
將物體上甩至相對於傳感器 90 度的角度位置。
推薦:該工作也摘得 IROS 2020 大會的最佳論文獎項。
論文 2:Point Transformer
作者:Hengshuang Zhao、Li Jiang、Jiaya Jia、Philip Torr、Vladlen Koltun
論文連結:https://arxiv.org/pdf/2012.09164v1.pdf
摘要:自注意力網絡已經徹底改變了自然語言處理,並在圖像分類和目標檢測等圖像分析任務中取得了令人矚目的進步。受此成功啟發,來自牛津大學、香港中文大學和英特爾實驗室的研究者深入分析了自注意力網絡在三維點雲處理中的應用。他們設計了點雲的自注意力層,並使用這些層來構造諸如語義場景分割、對象組件分割和對象分類等任務的自注意力網絡。本文提出的 Point Transformer 設計改進了以往跨領域和跨任務的研究工作。
Point transformer 層示意圖。
用於語義分割(上)和分類(下)的 Point transformer 網絡。
Point Transformer 可以作為對象分類、各類 3D 點雲理解任務的骨幹網絡。
推薦:論文一作 Hengshuang Zhao 為牛津大學博士後研究生。
論文 3:Canonical Capsules: Unsupervised Capsules in Canonical Pose
作者:Weiwei Sun、Andrea Tagliasacchi、Boyang Deng、Geoffrey Hinton、Kwang Moo Yi 等
論文連結:https://arxiv.org/abs/2012.04718
摘要:理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。近來,研究人員試圖將這些方法擴展到 3D 點雲問題上,但無監督 3D 學習領域卻進展寥寥。
近日,包括 Weiwei Sun、Andrea Tagliasacchi、Geoffrey Hinton 等來自英屬哥倫比亞大學、谷歌研究院、多倫多大學的研究者提出了用於 3D 點雲的無監督膠囊網絡。具體而言,研究者通過排列等變(permutation-equivariant)的注意力計算對象的膠囊分解,並通過訓練成對的隨機旋轉對象來自監督該過程。本研究的核心思想是將注意力掩模聚合為語義關鍵點,並使用它們來監督滿足膠囊不變性或等方差的分解。這不僅可以訓練語義上一致的分解,還能夠學習以對象為中心的推理的規範化操作。在這種情況下,既不需要分類標籤,也不需要手動對齊的訓練數據集進行訓練。
框架。
定量分析的結果,本文方法在對齊和未對齊的設置下均取得了 SOTA 的性能結果。
定性分析的結果,研究者給出了基於分解的 3D 點雲重建方法以及 3D-PointCapsNet [58]、AtlasNetV2 [13] 的重建結果。
推薦:Hinton 對此表示:在不受監督的情況下找到一個對象的自然組件以及這些組件的內在參照系是學習將解析圖像轉換為局部整體層級結構的重要一步。如果以點雲開始,則可以做到。
論文 4:Network Representation Learning Based Recommender Systems
作者:王鴻偉
論文連結:https://www.ccf.org.cn/Focus/2020-12-03/717578.shtml
摘要:近年來,網絡特徵學習(network representation learning)逐漸成為機器學習中的一 個熱門的研究方向。網絡特徵學習試圖為一個網絡中的每一個節點學習得到一個低維表 示向量,同時保持其原有的結構信息。由於推薦系統中天然存在著大量的網絡結構,因 此,將網絡特徵學習與推薦系統相結合,用網絡特徵學習的方法去處理推薦系統中的相 關特徵,可以有效地增強推薦系統的學習能力,提高推薦系統的精確度和用戶滿意度, 從而為現實生活中的各類網際網路應用提供更優良的用戶體驗,進而減輕信息爆炸帶來的 負面影響,提升整體經濟效率。本文的主題為基於網絡特徵學習的個性化推薦系統。
預測微博用戶對名人的情感所使用的三個網絡結構示意圖。從左到右分別為:(a)情感網絡 (交互圖);(b)社交網絡;(c)知識圖譜。
將一個網絡通過特徵學習得到不同粒度的特徵表示的示意圖。
本文組織結構。
推薦:上海交通大學博士論文探討基於網絡特徵學習的個性化推薦系統。
論文 5:Real-Time High-Resolution Background Matting
作者:Shanchuan Lin、Andrey Ryabtsev、Soumyadip Sengupta、Brian Curless 等
論文連結:https://arxiv.org/pdf/2012.07810.pdf
摘要:背景替換是電影特效中的關鍵一環,在 Zoom、Google Meet 和 Microsoft Teams 等視頻會議工具中得到廣泛應用。除了增加娛樂效果之外,背景替換可以增強隱私保護,特別是用戶不願在視頻會議中向他人分享自身位置以及環境等細節時。而這面臨著一項關鍵挑戰:視頻會議工具的用戶通常無法獲得電影特效背景替換所使用的綠幕或其他物理條件。
為了使用戶更方便地替換背景,研究人員陸續開發了一系列摳圖方法。今年 4 月份,華盛頓大學研究者提出了 background matting 方法,不在綠幕前拍攝也能完美轉換視頻背景,讓整個世界都變成你的綠幕。但是,這項研究無法實現實時運行,只能以低幀率處理低解析度下(512×512)的背景替換,有很多需要改進的地方。
八個月過去,這些研究者推出了 background matting 2.0 版本,並表示這是一種完全自動化、實時運行的高解析度摳圖方法,分別以 30fps 的幀率在 4k(3840×2160)和 60fps 的幀率在 HD(1920×1080)圖像上實現 SOTA 結果。
架構圖。
不同方法在真實圖像上的定性比較結果。
這位小哥將自己亂糟糟的房間背景替換成了下雪場景。
推薦:單塊 GPU 實現 4K 解析度每秒 30 幀,華盛頓大學實時視頻摳圖再升級,毛髮細節到位。
論文 6:A Theory of Abstraction in Reinforcement Learning
作者:David Abel
論文連結:https://david-abel.github.io/thesis.pdf
摘要:布朗大學 David Abel 在其博士論文中提出了強化學習中的抽象理論。具體而言,他首先提出了執行抽象過程的函數的三個需求,分別是保留近似最優行為的表徵;高效地學習和構建;減少規劃或學習時間。然後提出了一系列新的算法和分析,以闡明智能體如何根據這些需求來學習抽象。
抽象過程。
MDP 中不同形式的抽象。
利用狀態抽象(state abstraction)的終身強化學習。
推薦:強化學習中的抽象理論。
論文 7:Disentangled Information Bottleneck
作者:Ziqi Pan、Li Niu、Jianfu Zhang、Liqing Zhang
論文連結:https://arxiv.org/pdf/2012.07372.pdf
摘要:現有的有監督解耦方法,比如把中間表徵解耦成種類相關的表徵和種類無關的表徵,大多基於交換生成的經驗性框架,缺乏理論指導,無法保證種類相關表徵中不包含種類無關的信息。在本文中,來自上海交通大學的研究者嘗試建立信息瓶頸(Information Bottleneck, IB)和有監督解耦之間的聯繫,為有監督解耦提供理論指導。
研究者給出了關於優化目標的最大化壓縮一致性的性質定義。
研究者驗證了所提方法在 IB 平面(橫軸代表 I(X;T),縱軸代表 I(T;Y))上的表現行為。
通過可視化結果,本文方法可以較好地展示出解耦效果。
推薦:有監督解耦與信息壓縮相結合,上交新型信息瓶頸算法實現良好的泛化、魯棒性能。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:
本周 10 篇 NLP 精選論文是:
1. Pre-Training Transformers as Energy-Based Cloze Models. (from Quoc V. Le, Christopher D. Manning)
2. Reinforced Multi-Teacher Selection for Knowledge Distillation. (from Jian Pei)
3. A Lightweight Neural Model for Biomedical Entity Linking. (from Gaël Varoquaux)
4. Show or Tell? Demonstration is More Robust to Changes in Shared Perception than Explanation. (from Thomas L. Griffiths)
5. R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic Matching. (from Meng Wang)
6. Improving Zero Shot Learning Baselines with Commonsense Knowledge. (from Erik Cambria)
7. Clinical Temporal Relation Extraction with Probabilistic Soft Logic Regularization and Global Inference. (from Kai-Wei Chang)
8. Learning to Rationalize for Nonmonotonic Reasoning with Distant Supervision. (from Yejin Choi)
9. Improving Task-Agnostic BERT Distillation with Layer Mapping Search. (from Qun Liu)
10. Learning from the Best: Rationalizing Prediction by Adversarial Information Calibration. (from Thomas Lukasiewicz)
本周 10 篇 CV 精選論文是:
1. Reconstructing Hand-Object Interactions in the Wild. (from Jitendra Malik)
2. Human Mesh Recovery from Multiple Shots. (from Jitendra Malik)
3. Uncertainty-Aware Deep Calibrated Salient Object Detection. (from Richard Hartley)
4. D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations. (from Ming-Hsuan Yang, Ling Shao)
5. Neural Radiance Flow for 4D View Synthesis and Video Processing. (from Joshua B. Tenenbaum)
6. EventHands: Real-Time Neural 3D Hand Reconstruction from an Event Stream. (from Hans-Peter Seidel, Christian Theobalt)
7. FMODetect: Robust Detection and Trajectory Estimation of Fast Moving Objects. (from Jiri Matas, Marc Pollefeys)
8. PanoNet3D: Combining Semantic and Geometric Understanding for LiDARPoint Cloud Detection. (from Martial Hebert)
9. Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation. (from Ruigang Yang, Dinesh Manocha)
10. SAfE: Self-Attention Based Unsupervised Road Safety Classification in Hazardous Environments. (from Dinesh Manocha)
本周 10 篇 ML 精選論文是:
1. Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation. (from Bernhard Schölkopf)
2. Convex Potential Flows: Universal Probability Distributions with Optimal Transport and Convex Optimization. (from Aaron Courville)
3. NeurIPS 2020 Competition: Predicting Generalization in Deep Learning. (from Samy Bengio, Isabelle Guyon)
4. EarthNet2021: A novel large-scale dataset and challenge for forecasting localized climate impacts. (from Markus Reichstein)
5. Masksembles for Uncertainty Estimation. (from Pascal Fua)
6. Mitigating bias in calibration error estimation. (from Jonathon Shlens)
7. Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without Sharing Private Information. (from Tong Zhang, Dimitris N. Metaxas)
8. Validate and Enable Machine Learning in Industrial AI. (from Eric P. Xing)
9. Learning Accurate Long-term Dynamics for Model-based Reinforcement Learning. (from Kristofer S. J. Pister)
10. Interactive Weak Supervision: Learning Useful Heuristics for Data Labeling. (from Eric Xing)
原標題:《7 Papers & Radios | 甩筆機器人獲IROS 2020最佳論文獎;UW實時高解析度背景摳圖》
閱讀原文