機器之心 & ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周的重要論文有谷歌等研究機構用神經光傳輸為照片二次打光的探索,以及沈向洋等從建模、學習和推理三方面展開的神經 NLP 綜述。
目錄:
Spatial Images from Temporal Data
Deep Face Recognition: A Survey*
Temporal Constraint Networks
Progress in Neural NLP: Modeling, Learning, and Reasoning
Neural Light Transport for Relighting and View Synthesis
Development and Application of the Latest generation Against the Network of GAN
Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文
論文 1:Spatial Images from Temporal Data
作者:Alex Turpin、Gabriella Musarra、Valentin Kapitany 等
連結:https://www.osapublishing.org/optica/abstract.cfm?uri=optica-7-8-900
摘要:想像一下,你閉著眼睛朝一隻動物大吼,然後根據回聲就能判斷這隻動物是貓是狗。聽起來是不是很不可思議?
來自英國格拉斯哥大學計算科學學院的研究者最近就做了一項類似的成像技術。他們通過計算光反射到一個簡單探測器所需的時間,來獲得場景的 3D 圖像。當然,僅僅依靠光提供的信息是不夠的,這項被稱為「時域成像」(temporal imaging)的新技術還藉助機器學習方法,從噪聲中挖掘模式。
這項研究採取了一種不同的方法,通過基於包含目標檢索圖像類型的數據集的先驗知識提供額外信息,並且為這一目標訓練了一種監督式機器學習算法。
基於單點時間分辨傳感器的 3D 成像。
該系統在不同情況下從時間直方圖恢復 3D 圖像的性能。
推薦:這項研究登上光學期刊 Optica。
論文 2:Deep Face Recognition: A Survey
作者:Mei Wang、Weihong Deng
連結:https://arxiv.org/pdf/1804.06655.pdf
摘要:在這篇論文中,來自北京郵電大學的研究者對深度人臉識別進行了全面的綜述。
首先,他們總結了當前深度人臉識別方法中提出的不同網絡結構和損失函數;其次,概述了兩類人臉處理方法,「一對多增強」和「多對一歸一化」;最後,研究者深入分析了跨因素場景、異質場景、多媒體場景和行業場景,並對未來的發展方向進行了展望。
深度人臉識別方法的發展歷程。
深度人臉識別的架構。
推薦:兩位作者均來自北京郵電大學模式識別實驗室。
論文 3:Temporal Constraint Networks
作者:Rina Dechter、Itay Meiri、Judea Pearl
連結:http://ftp.cs.ucla.edu/pub/stat_ser/r113-L-reprint.pdf
摘要:這篇論文將基於網絡的約束滿足方法進行擴展,使其包含連續變量,從而為處理時間約束提供了框架。在這個叫做時間約束滿足問題(TCSP)的框架中,代表時間點和時間信息的變量由一組一元和二元約束進行表示,每一個指定一組時間間隔。該框架的獨特特徵在於允許處理度量信息,即評估不同事件之間的時間差。
該論文對簡單時間問題(STP)和通用時間問題進行區分,前者對任意一對時間點至多認可一個間隔約束(interval constraint)。該研究表明,包含 Vilain 和 Kautz 點代數主要部分的 STP 可以在多項式時間內解決。對於通用 TCSP,該研究展示了一種執行三個推理任務的分解機制,並提出了多種能夠改善效率的技術。此外,這篇論文還研究了路徑相容算法在預處理時間問題上的適用性,展示了其終止,限制了其複雜度。
示例 1.1 可表示為有向約束圖。
交集和組合運算。
距離圖。
推薦:貝葉斯網絡之父 Judea Pearl 的這篇舊論文獲得了由 AI 頂級國際期刊 AIJ 頒發的 2020 年經典論文獎.
論文 4:Progress in Neural NLP: Modeling, Learning, and Reasoning
作者:Ming Zhou、Nan Duan、Shujie Liu、Heung-Yeung Shum
連結:https://www.sciencedirect.com/science/article/pii/S2095809919304928
摘要:在這篇論文中,包括沈向洋在內的幾位研究者對基於神經網絡的神經語言處理框架進行了綜述,落腳點分別為建模、學習和推理。文章最後,研究者展望了神經語言處理的未來發展方向。
與上下文無關的詞嵌入方法。
基於 RNN 的上下文感知詞嵌入方法。
基於自注意力的上下文感知詞嵌入方法。
推薦:本文被《Engineering》期刊接收。
論文 5:Neural Light Transport for Relighting and View Synthesis
作者:XIUMING ZHANG、SEAN FANELLO、 YUN-TA TSAI 等
連結:https://arxiv.org/pdf/2008.03806.pd
摘要:場景的光傳輸(LT)描述了場景在不同布光和視角方向下的樣子,對場景 LT 的全面了解有助於在任意布光條件下合成新的視圖。
這篇論文探討了基於圖像的 LT 採集,主要用於光照平臺設置中的人體。研究者提出了一種半參數方法,以學習嵌入到已知幾何特性的紋理圖集空間中的 LT 的神經表示,並將所有非漫射和全局 LT 建模為殘差,並將其添加到物理精確的漫反射基底渲染中。
NLT 方法的模型架構。
在使用平行光的二次打光任務上,NLT、其他方法與真值圖像的效果對比。
NLT 方法可能無法生成複雜光傳輸效果的真實視圖,如脖子上所戴項鍊的視圖。
推薦:在基於圖像的 Relighting 場景下,人物的打光效果隨著背景圖像的變換而不斷調整。
論文 6:Development and Application of the Latest generation Against the Network of GAN
作者:陳亮、吳攀、劉韻婷、劉曉陽、楊佳明、姜餘
連結:http://dziy.cbpt.cnki.net/WKA/WebPublication/paperDigest.aspx?paperID=76215a4a-3131-4b6e-9afd-1af245c41ff1
摘要:近年來,生成式對抗網絡(generative adversarial nets, GAN)迅速發展,已經成為當前機器學習領域的主要研究方向之一。GAN 來源於零和博弈的思想, 其生成器和鑑別器對抗學習,獲取給定樣本的數據分布, 生成新的樣本數據。對 GAN 模型在圖片生成、異常樣本檢測和定位、文字生成圖片以及圖片超解析度等多方面進行了大量的調查研究,並在這些 GAN 的應用所取得的實質性進展進行了系統的闡述。對 GAN 的提出背景與研究意義、理論模型與改進結構,以及其主要應用領域進行了總結。通過對 GAN 在各方面的應用分析,對 GAN 的不足以及未來發展方向進行綜述。
推薦:這篇論文的作者分別來自瀋陽理工大學和瀋陽師範大學。
論文 7:Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets
作者:Tian Chen、Shijie An、Yuan Zhang 等
連結:https://arxiv.org/pdf/2007.11256.pdf
摘要:深度是實現 3D 場景理解的重要信息,快手 Y-tech 利用自研的單目深度估計技術獲得了高質量的深度信息,並將模型部署到移動端,結合 Y-tech 已有的多項技術研發了 3DPhoto、混合現實等多種新玩法。這些黑科技玩法不限機型,可讓用戶在手機上無門檻的實時體驗,給用戶帶來全新的視覺體驗和交互方式的同時,可幫助用戶更好的進行創作。
這項研究主要探究了如何更好的利用三維空間的結構性信息提升單目深度估計精度,此外還針對複雜場景構建了一個新的深度數據集 HC Depth,包含六種挑戰性場景,有針對性地提升模型的精度和泛化性。
網絡模型結構。
空間注意力機制模塊的可視化。
在 NYUv2 數據集上的可視化實驗對比。
推薦:該論文已被 ECCV 2020 收錄,論文代碼和模型即將在 GitHub 上開源,作者也將在 8 月 23-28 日的 ECCV 大會線上展示他們的工作。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:
本周 10 篇 NLP 精選論文是:
1. ConvBERT: Improving BERT with Span-based Dynamic Convolution. (from Shuicheng Yan)
2. Antibody Watch: Text Mining Antibody Specificity from the Literature. (from Maryann E. Martone)
3. Efficient MDI Adaptation for n-gram Language Models. (from Dan Povey, Sanjeev Khudanpur)
4. Taking Notes on the Fly Helps BERT Pre-training. (from Tie-Yan Liu)
5. Word meaning in minds and machines. (from Gregory L. Murphy)
6. Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing. (from Jianfeng Gao)
7. Trove: Ontology-driven weak supervision for medical entity classification. (from Nigam H. Shah)
8. Evaluating Automatically Generated Phoneme Captions for Images. (from Mark Hasegawa-Johnson)
9. Generalized Word Shift Graphs: A Method for Visualizing and Explaining Pairwise Comparisons Between Texts. (from Peter Sheridan Dodds)
10. COVID-19 therapy target discovery with context-aware literature mining. (from Nada Lavra)
本周 10 篇 CV 精選論文是:
1. Learning Long-term Visual Dynamics with Region Proposal Interaction Networks. (from Jitendra Malik)
2. Disentangling Human Error from the Ground Truth in Segmentation of Medical Images. (from Frederik Barkhof, Daniel C. Alexander)
3. End-to-end Birds-eye-view Flow Estimation for Autonomous Driving. (from Wolfram Burgard)
4. CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations. (from Leonidas J. Guibas)
5. Weakly-Supervised Semantic Segmentation via Sub-category Exploration. (from Ming-Hsuan Yang)
6. Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty Regularization. (from Ming-Hsuan Yang)
7. Learning to Factorize and Relight a City. (from Alexei A. Efros, Noah Snavely)
8. Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary Instructions. (from Xiaogang Wang)
9. AR-Net: Adaptive Frame Resolution for Efficient Action Recognition. (from Aude Oliva, Kate Saenko)
10. Noisy Student Training using Body Language Dataset Improves Facial Expression Recognition. (from Vikas Kumar)
本周 10 篇 ML 精選論文是:
1. Bloom Origami Assays: Practical Group Testing. (from Bernhard Scholkopf)
2. A Survey on Concept Factorization: From Shallow to Deep Representation Learning. (from Yan Zhang, Shuicheng Yan)
3. Whole MILC: generalizing learned dynamics across tasks, datasets, and populations. (from Vince D. Calhoun)
4. Generative Ensemble-Regression: Learning Stochastic Dynamics from Discrete Particle Ensemble Observations. (from George Em Karniadakis)
5. Learning-based Computer-aided Prescription Model for Parkinson's Disease: A Data-driven Perspective. (from Yang Gao, Dinggang Shen)
6. Communication-Efficient and Distributed Learning Over Wireless Networks: Principles and Applications. (from Mérouane Debbah)
7. Graph Wasserstein Correlation Analysis for Movie Retrieval. (from Tong Zhang, Jian Yang)
8. The Strategic Perceptron. (from Avrim Blum)
9. Robust Reinforcement Learning using Adversarial Populations. (from Pieter Abbeel, Alexandre Bayen)
10. Privacy Enhancing Machine Learning via Removal of Unwanted Dependencies. (from Sun-Yuan Kung)