7 Papers|谷歌等用神經網絡給照片打光,沈向洋等神經語言處理綜述

2021-01-10 機器之心Pro

機器之心 & ArXiv Weekly Radiostation

參與:杜偉、楚航、羅若天

本周的重要論文有谷歌等研究機構用神經光傳輸為照片二次打光的探索,以及沈向洋等從建模、學習和推理三方面展開的神經 NLP 綜述。

目錄:

Spatial Images from Temporal Data

Deep Face Recognition: A Survey*

Temporal Constraint Networks

Progress in Neural NLP: Modeling, Learning, and Reasoning

Neural Light Transport for Relighting and View Synthesis

Development and Application of the Latest generation Against the Network of GAN

Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets

ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文

論文 1:Spatial Images from Temporal Data

作者:Alex Turpin、Gabriella Musarra、Valentin Kapitany 等

連結:https://www.osapublishing.org/optica/abstract.cfm?uri=optica-7-8-900

摘要:想像一下,你閉著眼睛朝一隻動物大吼,然後根據回聲就能判斷這隻動物是貓是狗。聽起來是不是很不可思議?

來自英國格拉斯哥大學計算科學學院的研究者最近就做了一項類似的成像技術。他們通過計算光反射到一個簡單探測器所需的時間,來獲得場景的 3D 圖像。當然,僅僅依靠光提供的信息是不夠的,這項被稱為「時域成像」(temporal imaging)的新技術還藉助機器學習方法,從噪聲中挖掘模式。

這項研究採取了一種不同的方法,通過基於包含目標檢索圖像類型的數據集的先驗知識提供額外信息,並且為這一目標訓練了一種監督式機器學習算法。

基於單點時間分辨傳感器的 3D 成像。

該系統在不同情況下從時間直方圖恢復 3D 圖像的性能。

推薦:這項研究登上光學期刊 Optica。

論文 2:Deep Face Recognition: A Survey

作者:Mei Wang、Weihong Deng

連結:https://arxiv.org/pdf/1804.06655.pdf

摘要:在這篇論文中,來自北京郵電大學的研究者對深度人臉識別進行了全面的綜述。

首先,他們總結了當前深度人臉識別方法中提出的不同網絡結構和損失函數;其次,概述了兩類人臉處理方法,「一對多增強」和「多對一歸一化」;最後,研究者深入分析了跨因素場景、異質場景、多媒體場景和行業場景,並對未來的發展方向進行了展望。

深度人臉識別方法的發展歷程。

深度人臉識別的架構。

推薦:兩位作者均來自北京郵電大學模式識別實驗室。

論文 3:Temporal Constraint Networks

作者:Rina Dechter、Itay Meiri、Judea Pearl

連結:http://ftp.cs.ucla.edu/pub/stat_ser/r113-L-reprint.pdf

摘要:這篇論文將基於網絡的約束滿足方法進行擴展,使其包含連續變量,從而為處理時間約束提供了框架。在這個叫做時間約束滿足問題(TCSP)的框架中,代表時間點和時間信息的變量由一組一元和二元約束進行表示,每一個指定一組時間間隔。該框架的獨特特徵在於允許處理度量信息,即評估不同事件之間的時間差。

該論文對簡單時間問題(STP)和通用時間問題進行區分,前者對任意一對時間點至多認可一個間隔約束(interval constraint)。該研究表明,包含 Vilain 和 Kautz 點代數主要部分的 STP 可以在多項式時間內解決。對於通用 TCSP,該研究展示了一種執行三個推理任務的分解機制,並提出了多種能夠改善效率的技術。此外,這篇論文還研究了路徑相容算法在預處理時間問題上的適用性,展示了其終止,限制了其複雜度。

示例 1.1 可表示為有向約束圖。

交集和組合運算。

距離圖。

推薦:貝葉斯網絡之父 Judea Pearl 的這篇舊論文獲得了由 AI 頂級國際期刊 AIJ 頒發的 2020 年經典論文獎.

論文 4:Progress in Neural NLP: Modeling, Learning, and Reasoning

作者:Ming Zhou、Nan Duan、Shujie Liu、Heung-Yeung Shum

連結:https://www.sciencedirect.com/science/article/pii/S2095809919304928

摘要:在這篇論文中,包括沈向洋在內的幾位研究者對基於神經網絡的神經語言處理框架進行了綜述,落腳點分別為建模、學習和推理。文章最後,研究者展望了神經語言處理的未來發展方向。

與上下文無關的詞嵌入方法。

基於 RNN 的上下文感知詞嵌入方法。

基於自注意力的上下文感知詞嵌入方法。

推薦:本文被《Engineering》期刊接收。

論文 5:Neural Light Transport for Relighting and View Synthesis

作者:XIUMING ZHANG、SEAN FANELLO、 YUN-TA TSAI 等

連結:https://arxiv.org/pdf/2008.03806.pd

摘要:場景的光傳輸(LT)描述了場景在不同布光和視角方向下的樣子,對場景 LT 的全面了解有助於在任意布光條件下合成新的視圖。

這篇論文探討了基於圖像的 LT 採集,主要用於光照平臺設置中的人體。研究者提出了一種半參數方法,以學習嵌入到已知幾何特性的紋理圖集空間中的 LT 的神經表示,並將所有非漫射和全局 LT 建模為殘差,並將其添加到物理精確的漫反射基底渲染中。

NLT 方法的模型架構。

在使用平行光的二次打光任務上,NLT、其他方法與真值圖像的效果對比。

NLT 方法可能無法生成複雜光傳輸效果的真實視圖,如脖子上所戴項鍊的視圖。

推薦:在基於圖像的 Relighting 場景下,人物的打光效果隨著背景圖像的變換而不斷調整。

論文 6:Development and Application of the Latest generation Against the Network of GAN

作者:陳亮、吳攀、劉韻婷、劉曉陽、楊佳明、姜餘

連結:http://dziy.cbpt.cnki.net/WKA/WebPublication/paperDigest.aspx?paperID=76215a4a-3131-4b6e-9afd-1af245c41ff1

摘要:近年來,生成式對抗網絡(generative adversarial nets, GAN)迅速發展,已經成為當前機器學習領域的主要研究方向之一。GAN 來源於零和博弈的思想, 其生成器和鑑別器對抗學習,獲取給定樣本的數據分布, 生成新的樣本數據。對 GAN 模型在圖片生成、異常樣本檢測和定位、文字生成圖片以及圖片超解析度等多方面進行了大量的調查研究,並在這些 GAN 的應用所取得的實質性進展進行了系統的闡述。對 GAN 的提出背景與研究意義、理論模型與改進結構,以及其主要應用領域進行了總結。通過對 GAN 在各方面的應用分析,對 GAN 的不足以及未來發展方向進行綜述。

推薦:這篇論文的作者分別來自瀋陽理工大學和瀋陽師範大學。

論文 7:Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets

作者:Tian Chen、Shijie An、Yuan Zhang 等

連結:https://arxiv.org/pdf/2007.11256.pdf

摘要:深度是實現 3D 場景理解的重要信息,快手 Y-tech 利用自研的單目深度估計技術獲得了高質量的深度信息,並將模型部署到移動端,結合 Y-tech 已有的多項技術研發了 3DPhoto、混合現實等多種新玩法。這些黑科技玩法不限機型,可讓用戶在手機上無門檻的實時體驗,給用戶帶來全新的視覺體驗和交互方式的同時,可幫助用戶更好的進行創作。

這項研究主要探究了如何更好的利用三維空間的結構性信息提升單目深度估計精度,此外還針對複雜場景構建了一個新的深度數據集 HC Depth,包含六種挑戰性場景,有針對性地提升模型的精度和泛化性。

網絡模型結構。

空間注意力機制模塊的可視化。

在 NYUv2 數據集上的可視化實驗對比。

推薦:該論文已被 ECCV 2020 收錄,論文代碼和模型即將在 GitHub 上開源,作者也將在 8 月 23-28 日的 ECCV 大會線上展示他們的工作。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:

本周 10 篇 NLP 精選論文是:

1. ConvBERT: Improving BERT with Span-based Dynamic Convolution. (from Shuicheng Yan)

2. Antibody Watch: Text Mining Antibody Specificity from the Literature. (from Maryann E. Martone)

3. Efficient MDI Adaptation for n-gram Language Models. (from Dan Povey, Sanjeev Khudanpur)

4. Taking Notes on the Fly Helps BERT Pre-training. (from Tie-Yan Liu)

5. Word meaning in minds and machines. (from Gregory L. Murphy)

6. Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing. (from Jianfeng Gao)

7. Trove: Ontology-driven weak supervision for medical entity classification. (from Nigam H. Shah)

8. Evaluating Automatically Generated Phoneme Captions for Images. (from Mark Hasegawa-Johnson)

9. Generalized Word Shift Graphs: A Method for Visualizing and Explaining Pairwise Comparisons Between Texts. (from Peter Sheridan Dodds)

10. COVID-19 therapy target discovery with context-aware literature mining. (from Nada Lavra)

本周 10 篇 CV 精選論文是:

1. Learning Long-term Visual Dynamics with Region Proposal Interaction Networks. (from Jitendra Malik)

2. Disentangling Human Error from the Ground Truth in Segmentation of Medical Images. (from Frederik Barkhof, Daniel C. Alexander)

3. End-to-end Birds-eye-view Flow Estimation for Autonomous Driving. (from Wolfram Burgard)

4. CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations. (from Leonidas J. Guibas)

5. Weakly-Supervised Semantic Segmentation via Sub-category Exploration. (from Ming-Hsuan Yang)

6. Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty Regularization. (from Ming-Hsuan Yang)

7. Learning to Factorize and Relight a City. (from Alexei A. Efros, Noah Snavely)

8. Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary Instructions. (from Xiaogang Wang)

9. AR-Net: Adaptive Frame Resolution for Efficient Action Recognition. (from Aude Oliva, Kate Saenko)

10. Noisy Student Training using Body Language Dataset Improves Facial Expression Recognition. (from Vikas Kumar)

本周 10 篇 ML 精選論文是:

1. Bloom Origami Assays: Practical Group Testing. (from Bernhard Scholkopf)

2. A Survey on Concept Factorization: From Shallow to Deep Representation Learning. (from Yan Zhang, Shuicheng Yan)

3. Whole MILC: generalizing learned dynamics across tasks, datasets, and populations. (from Vince D. Calhoun)

4. Generative Ensemble-Regression: Learning Stochastic Dynamics from Discrete Particle Ensemble Observations. (from George Em Karniadakis)

5. Learning-based Computer-aided Prescription Model for Parkinson's Disease: A Data-driven Perspective. (from Yang Gao, Dinggang Shen)

6. Communication-Efficient and Distributed Learning Over Wireless Networks: Principles and Applications. (from Mérouane Debbah)

7. Graph Wasserstein Correlation Analysis for Movie Retrieval. (from Tong Zhang, Jian Yang)

8. The Strategic Perceptron. (from Avrim Blum)

9. Robust Reinforcement Learning using Adversarial Populations. (from Pieter Abbeel, Alexandre Bayen)

10. Privacy Enhancing Machine Learning via Removal of Unwanted Dependencies. (from Sun-Yuan Kung)

相關焦點

  • 用神經網絡給照片補光,這項研究實現了鬼片效果(膽小勿入)
    機器之心報導編輯:魔王、杜偉、小舟打光是圖像處理過程中的重要步驟,打光的好壞可能會影響整體效果的展示。打光方法也各有不同,MIT、谷歌等的一項新研究另闢蹊徑,通過神經光傳輸方法進行圖像的二次打光和視圖合成,實現了相當不錯的效果。
  • 專欄| 神經網絡架構搜索(NAS)綜述(附AutoML資料推薦)
    機器之心專欄作者:大俊本文是一篇神經網絡架構搜索綜述文章,從 Search Space、Search Strategy、Performance Estimation Strategy 三個方面對架構搜索的工作進行了綜述,幾乎涵蓋了所有近幾年的優秀工作。
  • 7 Papers|MIT學神開源微分太極;北大等提出沒有乘法的神經網絡
    二值網絡、加法網絡和卷積網絡在 CIFAR-10 與 CIFAR-100 數據集上的效果。ImageNet 上的分類結果。推薦:深度學習對算力要求太高,怎麼簡化計算複雜度呢?北大、華為諾亞方舟實驗室等提出完全用加法代替乘法,用 L1 距離代替卷積運算,從而顯著減少計算力消耗。
  • 從經典結構到改進方法,神經網絡語言模型綜述
    選自arXiv作者:Kun Jing、Jungang Xu機器之心編譯參與:Geek AI、張倩作為自然語言處理(NLP)系統的核心組成部分,語言模型可以提供詞表徵和單詞序列的概率化表示。神經網絡語言模型(NNLM)克服了維數的限制,提升了傳統語言模型的性能。
  • 圖神經網絡前沿綜述:動態圖網絡
    本文首發自集智斑圖,完整論文資料清單請掃碼獲取: 動態網絡模型在靜態網絡的基礎上增加了時間維度,使其能同時表徵複雜系統的結構和時序信息,在生物、醫藥、社交網絡等領域被廣泛使用。另外,雖然圖神經網絡(GNN)在靜態複雜網絡的數據挖掘中披荊斬棘,但大多工作都不能處理這額外的時間維度。
  • 中科院計算所研究團隊提出圖神經網絡加速晶片設計
    《中國計算機學會通訊》(CCCF)近日刊發了中科院計算所特別研究助理嚴明玉、研究員範東睿以及研究員葉笑春共同撰寫的綜述文章《圖神經網絡加速晶片:人工智慧「認知智能」階段起飛的推進劑》。文章披露,該團隊提出了圖神經網絡加速晶片設計「HyGCN」。相關論文也先後在計算機體系結構國際會議上發表。
  • Hinton谷歌大腦最新研究:1370億參數超大規模神經網絡
    論文提出了一個超大規模的神經網絡——稀疏門控混合專家層(Sparsely-Gated Mixture-of-Experts layer,MoE)。MoE 包含上萬個子網絡,每個網絡的參數更是高達 1370 億個之多。通過靈活控制部分網絡,新的技術在大規模語言建模和機器翻譯基準測試中,花費很小的計算力實現了性能的顯著提升。
  • 什麼是人工神經網絡(ANN)?
    人工神經網絡的靈感來自其生物學對應物。大腦的許多功能仍然是個謎,但是我們知道的是,生物神經網絡使大腦能夠以複雜的方式處理大量信息。大腦的生物神經網絡由大約1000億個神經元組成,這是大腦的基本處理單元。神經元通過彼此之間巨大的連接(稱為突觸)來執行其功能。人腦大約有100萬億個突觸,每個神經元約有1,000個。
  • 中科院計算所提出全球首款圖神經網絡加速晶片設計
    近日,《中國計算機學會通訊》(CCCF)刊發了中科院計算所特別研究助理嚴明玉博士、研究員範東睿以及研究員葉笑春共同撰寫的綜述文章《圖神經網絡加速晶片:人工智慧「認知智能」階段起飛的推進劑》。文章披露,為更好地支持認知智能的發展,該團隊提出了國際首款圖神經網絡加速晶片設計 HyGCN。
  • 神經網絡結構搜索系列(一):賦予機器自主設計模型「能力」,一文...
    作者 | 李垠橋單位 | 小牛翻譯 / 東北大學自然語言處理實驗室李垠橋,東北大學自然語言處理實驗室 2018級博士生,研究方向:神經網絡結構搜索、機器翻譯、模型加速等,在ijcai、nlpcc、中文信息學報等會議、雜誌發表學術論文若干。
  • 硬剛無限寬神經網絡後,谷歌大腦有了12個新發現
    作者 | 青暮、陳大鑫編輯 | 陳彩嫻各位煉丹師平時「煉丹」時最多跑過多深的神經網絡呢?152層,256層,還是更多層?那各位跑過最寬的神經網絡又有多寬呢?可能一層撐死有10個或20個神經元?對第二個問題,谷歌的回答是:我可以跑無限寬的神經網絡。
  • 模仿人腦視覺處理,助力神經網絡應對對抗性樣本
    今天,深度神經網絡已經成為許多計算機視覺應用的關鍵組成部分,從照片和視頻編輯器到醫療軟體和自動駕駛汽車。神經網絡大致模仿了大腦的結構,已經更接近於像人類一樣看待世界。但是它們還有很長的路要走,而且它們在人類永遠不會犯錯的情況下也會犯錯。這些情況,通常被稱為對抗性樣本,以令人困惑的方式改變了人工智慧模型的行為。對抗性的機器學習是當前人工智慧系統的最大挑戰之一。
  • 【GNN】從圖(Graph)到圖卷積(Graph Convolution):漫談圖神經網絡模型 (一)
    從圖(Graph)到圖卷積(Graph Convolution):漫談圖神經網絡模型 (二)從圖(Graph)到圖卷積(Graph Convolution):漫談圖神經網絡模型 (三)筆者最近看了一些圖與圖卷積神經網絡的論文,深感其強大,但一些Survey或教程默認了讀者對圖神經網絡背景知識的了解,對未學過信號處理的讀者不太友好。
  • 7 Papers|周志華等NeuralPS2019接收論文;網易用GAN建遊戲角色
    Siddhivinayak Kulkarni論文地址:https://arxiv.org/ftp/arxiv/papers/1908/1908.11863.pdf摘要:在當今時代,生成對抗網絡(GAN)在促進無監督學習取得進展的過程中發揮了至關重要的作用。從文本或其他圖像的圖像合成示例來看,這些對抗網絡的性能較傳統方法有了極大的提升。
  • 中科院計算所研究人員再獲進展 向圖神經網絡加速時代再進一步
    中新網北京1月9日電 (記者 張素)「『HyGCN』寓意向圖神經網絡的加速說『Hi』,也寓意圖神經網絡加速的時代即將開啟。」中國科學院計算技術研究所特別研究助理嚴明玉近日在受訪時說。「GCN」即圖卷積神經網絡的英文縮寫,這是圖神經網絡的一個分支。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。
  • 陽光學院打造「語用神經網絡機器翻譯」系統
    中國教育在線訊 隨意打開一個英文網頁,複製相關內容到「語用神經網絡機器翻譯」系統裡,不一會兒就能準確翻譯出中文,而且詞語和語法邏輯均順暢可讀。近日,在陽光學院外國語與海外教育學院召開的「語料庫與語用神經網絡機器翻譯研究」專家論證會上,陽光學院「語言與智能研究團隊」演示了該系統的操作,由該團隊自主打造的「語用神經網絡機器翻譯」系統得到了與會專家的高度評價。與會專家表示:「該系統在國內傳統語言學學界是首創,對處理專業性大批量快速翻譯項目等具有實踐應用和推廣價值」。
  • 從特徵檢測器到視覺轉換器:卷積神經網絡的時代到此結束了嗎?
    轉換器最初是為自然語言處理任務而設計的,主攻神經網絡機器翻譯。後來,谷歌研究院的阿列克謝·多索維斯基(Alexey Dosovitskiy)、盧卡斯·拜爾(Lucas Beyer)等人撰寫了一篇題目為《一幅圖像值得16x16個字符:大規模用於圖像識別的轉換器》的論文,提出了一種名為視覺轉換器(ViT)的架構,該架構可通過轉換器處理圖像數據。
  • 圖神經網絡加速晶片進入倒計時 全球首款商用圖神經網絡加速IP核...
    嚴明玉介紹說,「Zero」寓意著團隊從0號「認知智能」晶片開始,期望實現機器與人類在智能上的「零差距」;「G」和」U」取圖處理單元(Graph Unit)之義,代表滿足圖神經網絡特殊算力需求的計算單元,而「C」則表示計算單元賦予機器認知智能(Cognitive Intelligence)。
  • 【Nature 重磅】谷歌 DeepMind 發布可微分神經計算機 DNC,深度學習推理能力或大幅提升
    【新智元導讀】谷歌 DeepMind 團隊設計了一種叫做可微分神經計算機(DNC)的神經網絡模型,結合神經網絡與可讀寫的外部存儲器,能夠像神經網絡那樣通過試錯或樣本訓練進行學習,又能像傳統計算機一樣處理數據,相關論文今天在 Nature 發表。DNC 能理解家譜、在沒有先驗知識的情況下計算出倫敦地鐵兩站之間的最快路線,還能解決拼圖迷宮。