甩筆機器人獲IROS 2020最佳論文獎;UW實時高解析度背景摳圖

2020-12-22 澎湃新聞

機器之心 & ArXiv Weekly Radiostation

參與:杜偉、楚航、羅若天

本周的重要論文包括上海交大與 MIT 的聯合項目 SwingBot 以及華盛頓大學升級版背景摳圖 background matting 方法。

目錄:

SwingBot: Learning Physical Features from In-hand Tactile Exploration for Dynamic Swing-up Manipulation

Point Transformer

Canonical Capsules: Unsupervised Capsules in Canonical Pose

Network Representation Learning Based Recommender Systems

Real-Time High-Resolution Background Matting

A Theory of Abstraction in Reinforcement Learning

Disentangled Information Bottleneck

ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)

論文 1:SwingBot: Learning Physical Features from In-hand Tactile Exploration for Dynamic Swing-up Manipulation

作者:Chen Wang、Shaoxiong Wang、Branden Romero、Filipe Veiga、Edward Adelson

論文連結:http://gelsight.csail.mit.edu/swingbot/IROS2020_SwingBot.pdf

摘要:人類善於利用手指觸覺來感知物體的物理特性(包括質量、重心、轉動慣量、表面摩擦等),從而完成高難度的控制任務。在不遠的將來,機器人也會擁有觸覺分析能力。在剛剛結束的機器人頂會 IROS 2020 上,上海交大 & MIT 聯合項目 SwingBot 為我們展示了如何讓機器人通過觸覺傳感器來學習感知物體複雜的物理特性(tactile exploration),從而完成一個高難度的甩筆任務(in-hand object swing-up)。

該項目通過對多種觸覺探索動作的信息融合,讓機器人端到端的去學習概括手中物體的物理特性,並依靠這個物理特徵來實現高難度的手上控制任務(in-hand swing-up)。

多觸覺探索動作的信息融合模型。

GelSight 觸覺傳感器動圖展示。

將物體上甩至相對於傳感器 90 度的角度位置。

推薦:該工作也摘得 IROS 2020 大會的最佳論文獎項。

論文 2:Point Transformer

作者:Hengshuang Zhao、Li Jiang、Jiaya Jia、Philip Torr、Vladlen Koltun

論文連結:https://arxiv.org/pdf/2012.09164v1.pdf

摘要:自注意力網絡已經徹底改變了自然語言處理,並在圖像分類和目標檢測等圖像分析任務中取得了令人矚目的進步。受此成功啟發,來自牛津大學、香港中文大學和英特爾實驗室的研究者深入分析了自注意力網絡在三維點雲處理中的應用。他們設計了點雲的自注意力層,並使用這些層來構造諸如語義場景分割、對象組件分割和對象分類等任務的自注意力網絡。本文提出的 Point Transformer 設計改進了以往跨領域和跨任務的研究工作。

Point transformer 層示意圖。

用於語義分割(上)和分類(下)的 Point transformer 網絡。

Point Transformer 可以作為對象分類、各類 3D 點雲理解任務的骨幹網絡。

推薦:論文一作 Hengshuang Zhao 為牛津大學博士後研究生。

論文 3:Canonical Capsules: Unsupervised Capsules in Canonical Pose

作者:Weiwei Sun、Andrea Tagliasacchi、Boyang Deng、Geoffrey Hinton、Kwang Moo Yi 等

論文連結:https://arxiv.org/abs/2012.04718

摘要:理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。近來,研究人員試圖將這些方法擴展到 3D 點雲問題上,但無監督 3D 學習領域卻進展寥寥。

近日,包括 Weiwei Sun、Andrea Tagliasacchi、Geoffrey Hinton 等來自英屬哥倫比亞大學、谷歌研究院、多倫多大學的研究者提出了用於 3D 點雲的無監督膠囊網絡。具體而言,研究者通過排列等變(permutation-equivariant)的注意力計算對象的膠囊分解,並通過訓練成對的隨機旋轉對象來自監督該過程。本研究的核心思想是將注意力掩模聚合為語義關鍵點,並使用它們來監督滿足膠囊不變性或等方差的分解。這不僅可以訓練語義上一致的分解,還能夠學習以對象為中心的推理的規範化操作。在這種情況下,既不需要分類標籤,也不需要手動對齊的訓練數據集進行訓練。

框架。

定量分析的結果,本文方法在對齊和未對齊的設置下均取得了 SOTA 的性能結果。

定性分析的結果,研究者給出了基於分解的 3D 點雲重建方法以及 3D-PointCapsNet [58]、AtlasNetV2 [13] 的重建結果。

推薦:Hinton 對此表示:在不受監督的情況下找到一個對象的自然組件以及這些組件的內在參照系是學習將解析圖像轉換為局部整體層級結構的重要一步。如果以點雲開始,則可以做到。

論文 4:Network Representation Learning Based Recommender Systems

作者:王鴻偉

論文連結:https://www.ccf.org.cn/Focus/2020-12-03/717578.shtml

摘要:近年來,網絡特徵學習(network representation learning)逐漸成為機器學習中的一 個熱門的研究方向。網絡特徵學習試圖為一個網絡中的每一個節點學習得到一個低維表 示向量,同時保持其原有的結構信息。由於推薦系統中天然存在著大量的網絡結構,因 此,將網絡特徵學習與推薦系統相結合,用網絡特徵學習的方法去處理推薦系統中的相 關特徵,可以有效地增強推薦系統的學習能力,提高推薦系統的精確度和用戶滿意度, 從而為現實生活中的各類網際網路應用提供更優良的用戶體驗,進而減輕信息爆炸帶來的 負面影響,提升整體經濟效率。本文的主題為基於網絡特徵學習的個性化推薦系統。

預測微博用戶對名人的情感所使用的三個網絡結構示意圖。從左到右分別為:(a)情感網絡 (交互圖);(b)社交網絡;(c)知識圖譜。

將一個網絡通過特徵學習得到不同粒度的特徵表示的示意圖。

本文組織結構。

推薦:上海交通大學博士論文探討基於網絡特徵學習的個性化推薦系統。

論文 5:Real-Time High-Resolution Background Matting

作者:Shanchuan Lin、Andrey Ryabtsev、Soumyadip Sengupta、Brian Curless 等

論文連結:https://arxiv.org/pdf/2012.07810.pdf

摘要:背景替換是電影特效中的關鍵一環,在 Zoom、Google Meet 和 Microsoft Teams 等視頻會議工具中得到廣泛應用。除了增加娛樂效果之外,背景替換可以增強隱私保護,特別是用戶不願在視頻會議中向他人分享自身位置以及環境等細節時。而這面臨著一項關鍵挑戰:視頻會議工具的用戶通常無法獲得電影特效背景替換所使用的綠幕或其他物理條件。

為了使用戶更方便地替換背景,研究人員陸續開發了一系列摳圖方法。今年 4 月份,華盛頓大學研究者提出了 background matting 方法,不在綠幕前拍攝也能完美轉換視頻背景,讓整個世界都變成你的綠幕。但是,這項研究無法實現實時運行,只能以低幀率處理低解析度下(512×512)的背景替換,有很多需要改進的地方。

八個月過去,這些研究者推出了 background matting 2.0 版本,並表示這是一種完全自動化、實時運行的高解析度摳圖方法,分別以 30fps 的幀率在 4k(3840×2160)和 60fps 的幀率在 HD(1920×1080)圖像上實現 SOTA 結果。

架構圖。

不同方法在真實圖像上的定性比較結果。

這位小哥將自己亂糟糟的房間背景替換成了下雪場景。

推薦:單塊 GPU 實現 4K 解析度每秒 30 幀,華盛頓大學實時視頻摳圖再升級,毛髮細節到位。

論文 6:A Theory of Abstraction in Reinforcement Learning

作者:David Abel

論文連結:https://david-abel.github.io/thesis.pdf

摘要:布朗大學 David Abel 在其博士論文中提出了強化學習中的抽象理論。具體而言,他首先提出了執行抽象過程的函數的三個需求,分別是保留近似最優行為的表徵;高效地學習和構建;減少規劃或學習時間。然後提出了一系列新的算法和分析,以闡明智能體如何根據這些需求來學習抽象。

抽象過程。

MDP 中不同形式的抽象。

利用狀態抽象(state abstraction)的終身強化學習。

推薦:強化學習中的抽象理論。

論文 7:Disentangled Information Bottleneck

作者:Ziqi Pan、Li Niu、Jianfu Zhang、Liqing Zhang

論文連結:https://arxiv.org/pdf/2012.07372.pdf

摘要:現有的有監督解耦方法,比如把中間表徵解耦成種類相關的表徵和種類無關的表徵,大多基於交換生成的經驗性框架,缺乏理論指導,無法保證種類相關表徵中不包含種類無關的信息。在本文中,來自上海交通大學的研究者嘗試建立信息瓶頸(Information Bottleneck, IB)和有監督解耦之間的聯繫,為有監督解耦提供理論指導。

研究者給出了關於優化目標的最大化壓縮一致性的性質定義。

研究者驗證了所提方法在 IB 平面(橫軸代表 I(X;T),縱軸代表 I(T;Y))上的表現行為。

通過可視化結果,本文方法可以較好地展示出解耦效果。

推薦:有監督解耦與信息壓縮相結合,上交新型信息瓶頸算法實現良好的泛化、魯棒性能。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:

本周 10 篇 NLP 精選論文是:

1. Pre-Training Transformers as Energy-Based Cloze Models. (from Quoc V. Le, Christopher D. Manning)

2. Reinforced Multi-Teacher Selection for Knowledge Distillation. (from Jian Pei)

3. A Lightweight Neural Model for Biomedical Entity Linking. (from Gaël Varoquaux)

4. Show or Tell? Demonstration is More Robust to Changes in Shared Perception than Explanation. (from Thomas L. Griffiths)

5. R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic Matching. (from Meng Wang)

6. Improving Zero Shot Learning Baselines with Commonsense Knowledge. (from Erik Cambria)

7. Clinical Temporal Relation Extraction with Probabilistic Soft Logic Regularization and Global Inference. (from Kai-Wei Chang)

8. Learning to Rationalize for Nonmonotonic Reasoning with Distant Supervision. (from Yejin Choi)

9. Improving Task-Agnostic BERT Distillation with Layer Mapping Search. (from Qun Liu)

10. Learning from the Best: Rationalizing Prediction by Adversarial Information Calibration. (from Thomas Lukasiewicz)

本周 10 篇 CV 精選論文是:

1. Reconstructing Hand-Object Interactions in the Wild. (from Jitendra Malik)

2. Human Mesh Recovery from Multiple Shots. (from Jitendra Malik)

3. Uncertainty-Aware Deep Calibrated Salient Object Detection. (from Richard Hartley)

4. D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations. (from Ming-Hsuan Yang, Ling Shao)

5. Neural Radiance Flow for 4D View Synthesis and Video Processing. (from Joshua B. Tenenbaum)

6. EventHands: Real-Time Neural 3D Hand Reconstruction from an Event Stream. (from Hans-Peter Seidel, Christian Theobalt)

7. FMODetect: Robust Detection and Trajectory Estimation of Fast Moving Objects. (from Jiri Matas, Marc Pollefeys)

8. PanoNet3D: Combining Semantic and Geometric Understanding for LiDARPoint Cloud Detection. (from Martial Hebert)

9. Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation. (from Ruigang Yang, Dinesh Manocha)

10. SAfE: Self-Attention Based Unsupervised Road Safety Classification in Hazardous Environments. (from Dinesh Manocha)

本周 10 篇 ML 精選論文是:

1. Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation. (from Bernhard Schölkopf)

2. Convex Potential Flows: Universal Probability Distributions with Optimal Transport and Convex Optimization. (from Aaron Courville)

3. NeurIPS 2020 Competition: Predicting Generalization in Deep Learning. (from Samy Bengio, Isabelle Guyon)

4. EarthNet2021: A novel large-scale dataset and challenge for forecasting localized climate impacts. (from Markus Reichstein)

5. Masksembles for Uncertainty Estimation. (from Pascal Fua)

6. Mitigating bias in calibration error estimation. (from Jonathon Shlens)

7. Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without Sharing Private Information. (from Tong Zhang, Dimitris N. Metaxas)

8. Validate and Enable Machine Learning in Industrial AI. (from Eric P. Xing)

9. Learning Accurate Long-term Dynamics for Model-based Reinforcement Learning. (from Kristofer S. J. Pister)

10. Interactive Weak Supervision: Learning Useful Heuristics for Data Labeling. (from Eric Xing)

原標題:《7 Papers & Radios | 甩筆機器人獲IROS 2020最佳論文獎;UW實時高解析度背景摳圖》

閱讀原文

相關焦點

  • 機器人也能「甩筆」,擁有觸覺分析能力,上交&MIT獲IROS 2020最佳...
    在不遠的將來,機器人也會擁有觸覺分析能力。在剛剛結束的機器人頂會 IROS 2020 上,上海交大 & MIT 聯合項目 SwingBot 為我們展示了如何讓機器人通過觸覺傳感器來學習感知物體複雜的物理特性(tactile exploration),從而完成一個高難度的甩筆任務(in-hand object swing-up)。該工作也摘得此次大會的最佳論文獎項。
  • 快訊|上交&MIT能「甩筆」的機器人獲IROS 2020最佳論文獎;藉助AI...
    機器人也能「甩筆」,擁有觸覺分析能力,上交&MIT獲IROS 2020最佳論文獎  在不遠的將來,機器人也會擁有觸覺分析能力。在剛剛結束的機器人頂會 IROS 2020 上,上海交大 & MIT 聯合項目 SwingBot 為我們展示了如何讓機器人通過觸覺傳感器來學習感知物體複雜的物理特性(tactileexploration),從而完成一個高難度的甩筆任務(in-hand object swing-up)。
  • 磁性球體機器人獲頂會IROS最佳論文獎,中國內地高校十年首次
    目前,他在該校的機器人與人工智慧實驗室讀博二,導師是實驗室執行副主任林天麟教授。林天麟教授是IEEE高級會員,師從中國工程院院士徐揚生教授。前不久,梁冠琪作為第一作者的論文獲得了IEEE智慧機器人與系統國際會議(IROS)的機器人機構設計(Robot Mechanism and Design)最佳論文獎。
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎
    【新智元導讀】KDD 2020最佳論文新鮮出爐!最佳學生論文、最佳論文亞軍均被華人學生(一作)摘得,來看看這些論文出自誰之手吧!KDD Best Paper 終於來了!受疫情影響,今年第26屆國際數據挖掘頂會 ACM SIGKDD 於8月23日-27日以虛擬線上方式召開。
  • ACCV 2020最佳論文等三項大獎出爐!華為諾亞獲最佳學生論文獎
    ACCV 2020 共錄用論文 255 篇,官方提供所有論文開放下載。官網連結:http://accv2020.kyoto/截止目前,大會已經公布了最佳論文獎、最佳學生論文獎、最佳應用論文獎等三項大獎,其中帝國理工和華為諾亞方舟合作獲得了最佳學生論文獎。以下AI科技評論就帶大家讓我們一起來看看這三項大獎吧 !
  • 摳圖只精細到頭髮絲還不夠,Adobe新方法能處理6000*6000的高解析度圖像
    這種方法在圖像摳圖領域實現了 SOTA 結果。但是,由於硬體限制,這些方法在實際的摳圖應用中可能會失敗,因為現實世界中需要摳圖的輸入圖像大多具備很高的解析度。近日,來自伊利諾伊大學香檳分校(UIUC)、Adobe 研究院和俄勒岡大學的研究者提出了一種名為 HDMatt 的新方法,這是首個處理高解析度輸入圖像的深度學習摳圖方法。
  • 單塊GPU實現4K每秒30幀,實時視頻摳圖再升級,毛髮細節到位
    版本,為用戶提供了更自然更快速的實時背景替換效果。為了使用戶更方便地替換背景,研究人員陸續開發了一系列摳圖方法。今年 4 月份,華盛頓大學研究者提出了 background matting 方法,不在綠幕前拍攝也能完美轉換視頻背景,讓整個世界都變成你的綠幕。但是,這項研究無法實現實時運行,只能以低幀率處理低解析度下(512×512)的背景替換,有很多需要改進的地方。
  • 單塊GPU實現4K每秒30幀,實時視頻摳圖再升級毛髮細節到位
    實時運行、使用單塊英偉達 RTX 2080 TI GPU 即可以實現 HD 60fps 和 4K 30fps 的速度,那個「讓整個世界都變成你的綠幕」的摳圖方法 Background Matting 發布了 2.0 版本,為用戶提供了更自然更快速的實時背景替換效果。
  • 10月份喜訊~211之太原理工大學斬獲一二三等獎及優秀獎最佳論文獎
    2項/煉鐵單項獎三等獎5項、2020年度國家智慧財產權試點高校、第5屆維護工程國際學術會議最佳論文獎/主旨演講獎、第五屆全國高校青年教師教學競賽工科組二等獎/思政組三等獎、4項第二批新工科研究與實踐項目等。
  • UC伯克利摘最佳論文、HuggingFace獲最佳demo,EMNLP2020獎項公布
    機器之心報導編輯:魔王、杜偉、小舟剛剛,正在進行中的 EMNLP 2020 大會公布了一系列獎項,其中最佳論文獎由加州大學伯克利分校的研究者獲得,愛丁堡大學華人博士生 Yanpeng Zhao 為一作的論文獲得了最佳論文榮譽提名獎(共 4 篇論文獲此獎項)。另外,本屆大會的最佳 Demo 獎由大家非常熟悉的 Hugging Face 團隊摘得。
  • ECCV 2020最佳論文講了啥?作者為ImageNet一作、李飛飛高徒鄧嘉
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI作為計算機視覺三大頂會之一,備受矚目的ECCV 2020(歐洲計算機視覺國際會議)最近公布了所有獎項。其中,最佳論文獎被ImageNet一作、李飛飛高徒鄧嘉及其學生摘得。
  • 大三生獲最佳短論文獎,清華狂攬信息檢索頂會SIGIR2020多個獎項
    昨日,大會公布了最佳論文等獎項。來自清華大學的研究人員獲得最佳論文榮譽提名獎、最佳短論文獎獎項。ACM SIGIR 是信息檢索領域的頂級學術會議,今年是第 43 屆。據統計,SIGIR 2020 會議共收到投稿 1180 篇,接收 340 篇,接收率為 28.8%。
  • 高糊視頻秒變4K,Facebook發布低解析度視頻實時渲染算法
    PULSE是針對低解析度圖像進行還原的,而就在PULSE問世不久後,一個針對模糊視頻進行實時高解析度渲染的算法問世了。前幾天,Facebook公布了一項在即將舉行的SIGGRAPH 2020會議上展示的新論文,提出了一種新的神經網絡算法神經超採樣。
  • 貝爾科教旗下智慧機器人獲2020年德國紅點最佳設計獎
    億歐7月2日消息,近日,德國紅點官網正式公布2020年大賽獲獎作品,貝爾科教集團旗下兩款智慧機器人教育產品「Mabot」和「Thunbot」獲獎,其中Mabot獲得紅點最佳設計獎(Red Dot:Best of the Best),Thunbot獲得紅點獎(Red Dot)。
  • 太極二作李子懋獲SIGGRAPH最佳博士論文獎,華人連續三年獲此殊榮
    機器之心報導參與:魔王、蛋醬、杜偉剛剛,頂級計算圖形學機構 ACM SIGGRAPH 頒發了 2020 年最佳博士論文獎。MIT CSAIL 博士後研究員、太極(Taichi)論文第二作者李子懋(Tzu-Mao Li)獲得該獎項。
  • Wonder Painter斬獲CES 2020最佳產品獎
    美國時間1月7日-1月10日,2020國際消費電子展(CES)在拉斯維加斯舉行。大會圍繞智能家居、智慧城市、汽車、機器人、VR/AR等眾多主題展開。會議期間,諸多海外媒體對參會企業給與報導,更有海外各大科技媒體,以及海外孵化機構對創新企業或者產品進行獎項評選。
  • 一文看盡2020年度最「出圈」AI論文合集
    該算法可以將模糊的圖像轉換成高解析度的圖像——它可以把一個超低解析度的16x16圖像,轉換成1080p高清晰度的人臉。Joo, Pifuhd: Multi-level pixel-aligned implicit function for high-resolution 3d human digitization, 2020. arXiv:2004.00452 [cs.CV].這個技術,可以根據2D圖像來重建3D高解析度的人。
  • AI視頻摳圖有多強?無需綠幕也可達影視級效果!
    你能看出公路背景和大海背景的視頻,哪一個是AI合成的嗎?連撩起的頭髮都看不出一點破綻。而且就算瘋狂跳舞也沒有影響合成效果。再來看下它背後的摳圖細節,不僅精確到了頭髮,甚至還包括浮起的碎發。。。。。。動態效果也是如此,瘋狂甩頭也能實時捕捉細節。這項超強AI摳圖神器來自香港城市大學和商湯科技聯合研究團隊,論文一作還是一位在讀博士生張漢科。接下來,我們來看下它背後的技術原理。
  • ECCV 2018 最佳論文名單公布,何愷明再添一項論文獎
    最佳論文獎(Best Paper Award,一篇)Implicit 3D Orientation Learning for 6D Object Detection from RGB Images為了消除這種限制,作者們在這篇論文中提出了一種新的 GAN 條件限定方式,它基於的是動作單元(Action Units)的標註,而動作單元標註就可以在一個連續的流形中描述足以定義人類表情的解剖學面部動作。通過這種方法,作者們得以控制每一個動作單元的激活程度,並且組合多個多個動作單元。
  • 邵陽學院教師獲英國皇家昆蟲學會最佳論文獎
    湖南日報·新湖南客戶端11月23日訊(通訊員 劉運喜)近日,從英國皇家昆蟲學會(Royal Entomological Society)獲悉,邵陽學院城鄉建設學院園林專業教師李曉紅副教授發表於《Agricultural and Forest Entomology》(《農業與森林昆蟲學》)的論文《Domestication of