機器之心
機器之心 & ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周的重要論文有微軟麻將 AI 研究團隊公布 Suphx 所有技術細節,以及港中文聯合商湯科技推出的特徵級通用時序金字塔網絡。
目錄:
Background Matting: The World is Your Green Screen
Suphx: Mastering Mahjong with Deep Reinforcement Learning
A mountable toilet system for personalized health monitoring via the analysis of excreta
Weakly-Supervised Reinforcement Learning for Controllable Behavior
Evolving Normalization-Activation Layers
Temporal Pyramid Network for Action Recognition
Tracking Objects as Points
ArXiv Weekly Radiostation:NLP、CV、ML更多精選論文(附音頻)
論文 1:Background Matting: The World is Your Green Screen
作者:Soumyadip Sengupta、Vivek Jayaram、Ira Kemelmacher-Shlizerman 等
論文連結:https://arxiv.org/pdf/2004.00626.pdf
摘要:綠幕是影視劇中摳圖、換背景的利器,但如果不在綠幕前拍攝,我們還能完美地轉換背景嗎?華盛頓大學的研究者最近就上傳了這樣一份論文,不在綠幕前拍攝也能完美轉換視頻背景,讓整個世界都變成你的綠幕。
在論文中,研究者提出了一種創建蒙版(matting)的新方法。多數現有的蒙版方法都需要以綠幕為背景,或者手工創建一個三元圖(trimap)。當然,也有些自動方法不需要三元圖,但效果會很差。本文提出的這個蒙版方法也不需要三元圖,但摳圖、換背景效果要更好。當然,達到這麼好的效果是有條件的。除了原始圖像/視頻之外,研究者還要求拍攝者多拍一張不帶人物的背景圖。這一過程要比創建三元圖節省很多時間。
研究者用對抗損失訓練了一個深度網絡,用來預測蒙版。他們首先利用帶有 ground truth 的合成數據訓練了一個具有監督損失的蒙版網絡。為了在不加標記的情況下縮小合成圖像與真實圖像的差距,他們在第一個網絡的指導下訓練了另一個蒙版網絡,並通過一個判別器來判斷合成圖像的質量。研究者在諸多圖像和視頻上測試了他們提出的新方法,發現這一方法顯著優於之前的 SOTA。
文中方法概覽。
表 2:在 10 個真實世界視頻中的用戶研究結果(固定攝像機)。
表 3:在 10 個真實世界視頻上的用戶研究(手持相機)。
推薦:從作者給出的 demo 可以看出,他們的方法效果非常驚豔,即使視頻中的人瘋狂甩頭髮也沒有影響合成效果。本文已被 CVPR 2020 大會接收。
論文 2:Suphx: Mastering Mahjong with Deep Reinforcement Learning
作者:Junjie Li、 Sotetsu Koyamada、Hsiao-Wuen Hon 等
論文連結:https://arxiv.org/pdf/2003.13590.pdf
摘要:在去年 8 月底的世界人工智慧大會上,時任微軟全球執行副總裁的沈向洋正式對外宣布了微軟亞洲研究院研發的麻將 AI「Suphx」。近日,關於 Suphx 的所有技術細節已經正式公布。繼圍棋、德州撲克、Dota、星際爭霸之後,微軟亞洲研究院的「Suphx」創造了 AI 在遊戲領域的另一跨越性突破——麻將。Suphx 代表著 AI 系統在麻將領域取得的最好成績,它也是首個在國際知名專業麻將平臺「天鳳」上榮升十段的 AI 系統,其實力超越了該平臺與之對戰過的 99.9% 的人類選手。
不久前,微軟麻將 AI 研究團隊在 arXiv 上首次公開發布了 Suphx 的論文,而 Suphx 背後的更多技術細節也隨之公開。
Suphx 的決策流程圖。
表 4:Suphx 與其他 AI/人類玩家的對比。
Suphx 保留了一張安全牌來平衡攻與守。一般來說,人類玩家可能會把紅框裡的那張牌打出去,但 Suphx 卻留它在手,打了藍框裡的那張牌。這樣可能會和牌慢一些,但可以為之後的出牌提供更大的靈活性。
推薦:讀者可進一步了解 Suphx 背後的技術細節以及工作流程。
論文 3:A mountable toilet system for personalized health monitoring via the analysis of excreta
作者:Seung-min Park、Daeyoun D. Won、Sanjiv S. Gambhir 等
論文連結:https://www.nature.com/articles/s41551-020-0534-9
摘要:世界上沒有兩片相同的雪花,「菊花」亦然。至少,史丹福大學的一篇論文是這麼說的。在這篇論文中,研究者發明了一種「菊紋識別」智能馬桶,可以利用深度學習技術識別你的「菊紋」和便便,從而達到健康監測的目的。目前,該論文已經在《Nature Biomedical Engineering》期刊上發表。
這個馬桶圈裡安裝了四個攝像頭:一個糞便攝像頭(stool camera)、一個「菊花」攝像頭(anus camera)和兩個尿流攝像頭(uroflow camera)。顧名思義,這些攝像頭分別用來監測排便者的糞便、「菊花」和尿液。除此之外,馬桶圈上還安裝有一系列傳感器和試紙,可以記錄人坐在馬桶上的時間、分析尿液裡的成分。該馬桶的工作原理可以概括為:尿液和糞便樣本都通過視頻採集,然後通過一組算法進行處理,這些算法可以區分正常的尿液(流速、時間、流量)、糞便特徵和不正常的特徵。試紙則用於測量某些分子特徵,包括白細胞計數、血液汙染、特定水平的蛋白質等,這些指標可以反映一系列疾病,從感染到膀胱癌再到腎衰竭。論文作者表示,該馬桶目前已經可以測量 10 種不同的生物標記。
基於計算機視覺的小便監測與流量測量。
使用 CNN 進行糞便分析(為避免引起讀者不適,此處僅截取了部分圖片,內容詳見論文)。
推薦:深度學習三巨頭之一、圖靈獎獲得者 Yann LeCun 看完之後一臉認真地說,「卷積網絡正在馬桶上落地,為人類謀福祉。」
論文 4:Weakly-Supervised Reinforcement Learning for Controllable Behavior
作者:Lisa Lee、Benjamin Eysenbach、 Chelsea Finn 等
論文連結:https://arxiv.org/pdf/2004.02860.pdf
摘要:在本文中,來自卡內基梅隆大學、谷歌大腦和史丹福大學的研究者展示了弱監督如何以最小負擔為智能體提供有用信息,以及智能體在環境中學習時是如何利用這些監督的。他們探索一種在目標條件(goal-conditioned)RL 設置中使用弱監督的方法。研究者提出的弱監督智能體不需要通過探索和學習來達到每個目標狀態,而只需學會沿著有意義的變化軸達到相應狀態,忽略那些與解決人為設定任務無關的狀態維度。重要的是,研究者提出通過弱監督來處理此類約束,而不是列舉目標或任務及其相應獎賞值。
這項研究的主要貢獻是弱監督控制(weakly-supervised control,WSC),這是一個將弱監督引入 RL 的簡單框架。研究者的方法學習了一個有語義意義的表示空間,智能體可以使用該表示空間生成自己的目標、獲取距離函數並執行定向的探索。實驗結果表明,學習非糾纏表示可以加快強化學習在多種操作任務上的學習速度,並提高其相應泛化能力。研究者同時也驗證了 WSC 能夠產生可解釋的潛在策略,其中潛在目標直接與環境的可控特徵保持一致。
在不同複雜度的視覺操縱任務上,文中提出的方法使用弱監督來指導探索和加速學習。
弱監督控制框架,分為兩個階段,第一階段式基於智能體觀察結果的弱監督表示學習;第二階段是在解糾纏空間(disentangled space)中的自監督控制。
在視覺目標條件任務上,WSC、RIG、HER 和 SkewFit+pred 四種目標條件 RL 方法的性能隨迭代次數的變化情況。可以看到,研究者提出的弱監督控制較 HER、RIG 和 SkewFit 三種 SOTA 目標條件 RL 方法學習得更快,在環境複雜度增加的情況下尤為如此。
推薦:這篇論文通過弱監督學習生成有語義意義的表徵空間,加快 RL 的學習速度與泛化性能。
論文 5:Evolving Normalization-Activation Layers
作者:Hanxiao Liu、Andrew Brock、 Quoc V. Le 等
論文連結:https://arxiv.org/pdf/2004.02967.pdf
摘要:批歸一化和激活函數是深度神經網絡的重要組成部分,二者的位置常常重合。以往的神經網絡設計中通常對二者分別進行設計,而最近谷歌大腦和 DeepMind 研究人員合作提出了一種新方案:將二者統一為一個計算圖,從低級原語開始進行結構進化。研究者利用層搜索算法發現了一組全新的歸一化-激活層 EvoNorms。這些層中的一部分獨立於批統計量(batch statistics)。
實驗證明,EvoNorms 不僅在包括 ResNets、MobileNets 和 EfficientNets 在內的多個圖像分類模型上效果顯著,它還能很好地遷移到 Mask R-CNN 模型(進行實例分割)和 BigGAN(用於圖像合成)。
搜索空間的原語。
層搜索算法的工作流程。將每個產生突變的層與 K 個架構配對,從頭開始訓練以得到 K 個多目標錦標賽選擇算法的性能分數。
EvoNorm-B0 的計算圖。
推薦:值得關注的是,在多種情況下,EvoNorms 的性能顯著優於基於 BatchNorm 和 GroupNorm 的層。
論文 6:Temporal Pyramid Network for Action Recognition
作者:Ceyuan Yang、Yinghao Xu、 Bolei Zhou 等
論文連結:https://arxiv.org/pdf/2004.03548.pdf
摘要:在這篇論文中,來自港中文和商湯科技的研究者提出了一個特徵級的通用時序金字塔網絡(Temporal Pyramid Network,TPN),其中 TPN 有兩個基本組件,即特徵來源和融合,它們形成了骨幹網絡的特徵層級(feature hierarchy),因此可以捕獲不同速度下的動作實例。與其他具有挑戰性的基準相比,TPN 在幾個動作識別數據集上也顯示出了更高的持續改進。
具體來說,當配備 TPN 時,具有密集採樣的 3D ResNet-50 在 Kinetics-400 驗證集上獲得 2% 的增益。進一步的分析還表明,TPN 在視覺節奏呈現較大差異的動作類別中獲得了大部分改進,從而驗證其有效性。
類內/類間視覺時序變化。
TPN 框架。
TPN 在 Kinetics-400 驗證集上與當前 SOTA 方法的對比。
推薦:該網絡的亮點在於,它能夠以即插即用的方式靈活地集成到 2D 或 3D 骨幹網絡中。
論文 7:Tracking Objects as Points
作者:Xingyi Zhou、Vladlen Koltun、Philipp Krahenbuhl
論文連結:https://arxiv.org/pdf/2004.01177.pdf
摘要:傳統的跟蹤是在時空中跟隨興趣點。隨著強大深度網絡的興起,情況發生了變化。如今,跟蹤的主流方式是先執行目標檢測再進行時序關聯,也叫做檢測-跟蹤法(tracking-by-detection)。但是這種方法也有缺點,近日來自德克薩斯奧斯汀分校和英特爾研究院的研究人員提出一種同時檢測與跟蹤的方法,並將其跟蹤器命名為 CenterTrack。
具體而言,該方法對一對圖像應用檢測模型,並利用前一幀的檢測結果。給定最小輸入,CenterTrack 可以定位目標,並預測它們和前一幀的關聯。CenterTrack 就是這麼簡單、在線(不窺探未來)、實時。從效果上來看,CenterTrack 在 MOT17 數據集上以 22 FPS 運行,達到了 67.3% 的 MOTA 值,在 KITTI 跟蹤基準上以 15 FPS 運行,取得了 89.4% 的 MOTA 值,在這兩個數據集上均取得了新的當前最優結果。
研究者通過跟蹤中心點來跟蹤目標。學習兩個連續幀之間目標中心點的二維偏移量,並基於中心點的距離將它們關聯起來。
在 MOT17 測試集上的評估結果。
在 MOT17、KITTI、nuScenes 數據集上的控制變量研究。
推薦:與當前 SOTA 方法相比,文中提出的方法更加簡單、快速和準確。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:
本周 10 篇 NLP 精選論文是:
1. SelfORE: Self-supervised Relational Feature Learning for Open Relation Extraction. (from Xuming Hu, Lijie Wen, Yusong Xu, Chenwei Zhang, Philip S. Yu)
2. Class-Agnostic Continual Learning of Alternating Languages and Domains. (from Germán Kruszewski, Ionut-Teodor Sorodoc, Tomas Mikolov)
3. Stylistic Dialogue Generation via Information-Guided Reinforcement Learning Strategy. (from Yixuan Su, Deng Cai, Yan Wang, Simon Baker, Anna Korhonen, Nigel Collier, Xiaojiang Liu)
4. Prototype-to-Style: Dialogue Generation with Style-Aware Editing on Retrieval Memory. (from Yixuan Su, Yan Wang, Simon Baker, Deng Cai, Xiaojiang Liu, Anna Korhonen, Nigel Collier)
5. Satirical News Detection with Semantic Feature Extraction and Game-theoretic Rough Sets. (from Yue Zhou, Yan Zhang, JingTao Yao)
6. Improving BERT with Self-Supervised Attention. (from Xiaoyu Kou, Yaming Yang, Yujing Wang, Ce Zhang, Yiren Chen, Yunhai Tong, Yan Zhang, Jing Bai)
7. Semantics of the Unwritten. (from He Bai, Peng Shi, Jimmy Lin, Luchen Tan, Kun Xiong, Wen Gao, Jie Liu, Ming Li)
8. Asking and Answering Questions to Evaluate the Factual Consistency of Summaries. (from Alex Wang, Kyunghyun Cho, Mike Lewis)
9. Error-correction and extraction in request dialogs. (from Stefan Constantin, Alex Waibel)
10. MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices. (from Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, Denny Zhou)
本周 10 篇 CV 精選論文是:
1. Fingerprint Presentation Attack Detection: A Sensor and Material Agnostic Approach. (from Steven A. Grosz, Tarang Chugh, Anil K. Jain)
2. It Is Not the Journey but the Destination: Endpoint Conditioned Trajectory Prediction. (from Karttikeya Mangalam, Harshayu Girase, Shreyas Agarwal, Kuan-Hui Lee, Ehsan Adeli, Jitendra Malik, Adrien Gaidon)
3. Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood Estimation. (from Ke Li, Shichong Peng, Tianhao Zhang, Jitendra Malik)
4. Inclusive GAN: Improving Data and Minority Coverage in Generative Models. (from Ning Yu, Ke Li, Peng Zhou, Jitendra Malik, Larry Davis, Mario Fritz)
5. Attentive Normalization for Conditional Image Generation. (from Yi Wang, Ying-Cong Chen, Xiangyu Zhang, Jian Sun, Jiaya Jia)
6. Differential 3D Facial Recognition: Adding 3D to Your State-of-the-Art 2D Method. (from J. Matias Di Martino, Fernando Suzacq, Mauricio Delbracio, Qiang Qiu, Guillermo Sapiro)
7. Deformation-Aware 3D Model Embedding and Retrieval. (from Mikaela Angelina Uy, Jingwei Huang, Minhyuk Sung, Tolga Birdal, Leonidas Guibas)
8. End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection. (from Rui Qian, Divyansh Garg, Yan Wang, Yurong You, Serge Belongie, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger, Wei-Lun Chao)
9. LUVLi Face Alignment: Estimating Landmarks' Location, Uncertainty, and Visibility Likelihood. (from Abhinav Kumar, Tim K. Marks, Wenxuan Mou, Ye Wang, Michael Jones, Anoop Cherian, Toshiaki Koike-Akino, Xiaoming Liu, Chen Feng)
10. Context-Aware Group Captioning via Self-Attention and Contrastive Features. (from Zhuowan Li, Quan Tran, Long Mai, Zhe Lin, Alan Yuille)
本周 10 篇 ML 精選論文是:
1. Embedding Java Classes with code2vec: Improvements from Variable Obfuscation. (from Rhys Compton, Eibe Frank, Panos Patros, Abigail Koay)
2. Granular Computing: An Augmented Scheme of Degranulation Through a Modified Partition Matrix. (from Kaijie Xu, Witold Pedrycz, Zhiwu Li, Mengdao Xing)
3. Learning from Imperfect Annotations. (from Emmanouil Antonios Platanios, Maruan Al-Shedivat, Eric Xing, Tom Mitchell)
4. Evolving Normalization-Activation Layers. (from Karen Simonyan, Quoc V. Le)
5. Leveraging Multi-Source Weak Social Supervision for Early Detection of Fake News. (from Kai Shu, Guoqing Zheng, Yichuan Li, Subhabrata Mukherjee, Ahmed Hassan Awadallah, Scott Ruston, Huan Liu)
6. Guessing What's Plausible But Remembering What's True: Accurate Neural Reasoning for Question-Answering. (from Haitian Sun, Andrew O. Arnold, Tania Bedrax-Weiss, Fernando Pereira, William W. Cohen)
7. Normalizing Flows with Multi-Scale Autoregressive Priors. (from Shweta Mahajan, Apratim Bhattacharyya, Mario Fritz, Bernt Schiele, Stefan Roth)
8. pAElla: Edge-AI based Real-Time Malware Detection in Data Centers. (from Antonio Libri, Andrea Bartolini, Luca Benini)
9. Repulsive Mixture Models of Exponential Family PCA for Clustering. (from Maoying Qiao, Tongliang Liu, Jun Yu, Wei Bian, Dacheng Tao)
10. CURL: Contrastive Unsupervised Representations for Reinforcement Learning. (from Aravind Srinivas, Michael Laskin, Pieter Abbeel)
原標題:《7 Papers & Radios | 微軟亞研麻將AI「Suphx」技術細節;港中文、商湯動作識別時序金字塔網絡》
閱讀原文