機器之心
機器之心 & ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周的重要論文包括谷歌提出的擴展型 BERT 架構 Tapas,以及 GCN 作者的博士論文。
目錄:
SYNTHESIZER: Rethinking Self-Attention in Transformer Models
Interactive Video Stylization Using Few-Shot Patch-Based Training
Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking
How to Train Your Energy-Based Model for Regression
TAPAS: Weakly Supervised Table Parsing via Pre-training
memeBot: Towards Automatic Image Meme Generation
Deep Learning with Graph-Structured Representations
ArXiv Weekly Radiostation:NLP、CV、ML更多精選論文(附音頻)
論文 1:SYNTHESIZER: Rethinking Self-Attention in Transformer Models
作者:Yi Tay、Dara Bahri、Che Zheng 等
論文連結:https://arxiv.org/pdf/2005.00743v1.pdf
摘要:眾所周知,點積自注意力(dot product self-attention)對於 SOTA Transformer 模型是至關重要且不可或缺的。但有一個疑問,點積自注意力真的這麼重要嗎?
在本文中,來自谷歌研究院的幾位作者研究了點積自注意力機制對於 Transformer 模型性能的真正重要點和貢獻。通過一系列實驗,研究者發現(1)隨機對齊矩陣(random alignment matrice)的執行效果出人意料地好;(2)從 token-token(查詢 - 鍵)交互中學習注意力權重並不是那麼重要。基於此,研究者提出了 Synthesizer,這是一個無需 token-token 交互即可學習合成注意力權重的模型。
本研究提出的 Synthesizer 模型架構圖。
在 WMT』14 英語 - 德語、WMT』14 英語 - 法語機器翻譯任務以及 10 億語言建模(LM1B)任務上的 NMT 和 LM 效果對比。
在摘要式歸納(CNN / 每日郵報)和對話生成(PersonalChat)任務上歸納和對話效果對比。
推薦:本研究提出的 Synthesizer 在 MT、語言建模、摘要式歸納、對話生成以及多任務語言理解等一系列任務上的性能均媲美於最原始的(vanilla)Transformer 模型。
論文 2:Interactive Video Stylization Using Few-Shot Patch-Based Training
作者:Ondřej Texler、David Futschik、Daniel Sýkora 等
論文連結:https://ondrejtexler.github.io/res/Texler20-SIG_patch-based_training_main.pdf
摘要:在本文中,捷克理工大學和 Snap 公司的研究者提出了一種用於關鍵幀視頻風格化的學習方法,藉助這種學習方法,藝術家可以將風格從少數選定的關鍵幀遷移至序列其他部分。這種學習方法的主要優勢在於最終的風格化在語義上有意義,也就是說,運動目標(moving object)的特定部分根據藝術家的意圖進行風格化處理。
與以往的風格遷移方法相比,本研究提出的學習方法既不需要任何冗長的預訓練過程,也不需要大型訓練數據集。研究者展示了在僅使用少數風格化範例且隱式保持時序一致性的情況下,如何從零開始訓練外觀轉換網絡。由此得出的視頻風格化框架支持實時推理、並行處理以及任意輸出幀的隨機訪問。
此外,這種學習方法還可以合併多個關鍵幀中的內容,同時不需要執行顯式混合操作。研究者驗證了這種學習方法在各種交互場景中的實用性,在這些場景中,用戶在選定關鍵幀中繪畫,並且繪畫風格可以遷移至已有的記錄序列或實時視頻流中。
利用本研究中學習方法的風格化序列範例。
具有關鍵幀的視頻風格化設置。
完整幀訓練方法與本研究中少樣本 Patch 訓練方法的效果比較。
推薦:本研究中少樣本 Patch 訓練方法的亮點在於它可以在與幀無關的模式下運行,這對當前嚴重依賴隨機訪問和並行處理的專業視頻編輯工具非常有利。
論文 3:Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking
作者:Hongjun Wang、Guangrun Wang、Liang Lin 等
論文連結:https://arxiv.org/pdf/2004.04199.pdf
摘要:在本文中,來自中山大學、廣州大學和暗物智能科技的研究者們通過提出以一種學習誤排序的模型來擾亂系統輸出的排序,從而檢驗當前性能最佳的 re-ID 模型的不安全性。
由於跨數據集的可遷移性在 re-ID 域中至關重要,因此作者還通過構建新穎的多級網絡體系結構進行半黑盒式攻擊,該體系結構將不同級別的特徵金字塔化,以提取對抗性擾動的一般和可遷移特徵。該體系可以通過使用可微分的採樣來控制待攻擊像素的數量。為了保證攻擊的不顯眼性,研究者還提出了一種新的感知損失,以實現更好的視覺質量。
在四個最大的 re-ID 基準數據集(即 Market1501、CUHK03、DukeMTMC 和 MSMT17)上進行的廣泛實驗不僅顯示了該方法的有效性,而且還為 re-ID 系統的魯棒性提供了未來改進的方向。
Market-1501 和 CUHK03 上 AlignedReID 被攻擊前後的 Rank-10 結果。綠色代表正確匹配。紅色代表錯誤匹配。
整體架構圖。
多階段判別器圖示。
推薦:本文的亮點在於將將 SOTA 行人再識別系統精度降至 1.4%,並已被 CVPR 大會接收為 Oral 論文。
論文 4:How to Train Your Energy-Based Model for Regression
作者:Fredrik K. Gustafsson、Martin Danelljan、 Thomas B. Schon 等
論文連結:https://arxiv.org/pdf/2005.01698v1.pdf
摘要:近年來,基於能量的模型(Energy-based Model,EBM)在計算機視覺領域越來越流行。雖然這些模型通常用於生成圖像建模,但最近的研究已經將 EMB 應用於回歸任務(Regression Task),並在目標檢測和視覺跟蹤領域實現 SOTA。但是訓練 EBM 不是一件簡單的事情。另外,生成式建模(Generative Modeling)可以利用多種多樣的方法,但將 EBM 應用於回歸任務沒有獲得充分的研究。因此,如何訓練 EBM 實現最佳的回歸性能目前尚不清楚。
在本文中,來自瑞典烏普薩拉大學和蘇黎世聯邦理工學院的研究者對這些問題展開了詳實研究,提出了一種噪聲對比估計(Noise Contrastive Estimation, NCE)的簡單高效擴展,並與 1D 回歸和目標檢測任務上的 6 種流行方法進行了性能對比。對比結果表明,本研究提出的訓練方法應被認為實最佳。研究者還將他們的方法應用到視覺跟蹤任務上,在 5 個數據集上實現新的 SOTA。
對於邊界框回歸等任務,本研究提出以噪聲對比估計的簡單高效擴展(文中表示為 NCE+)來訓練基於能量的模型(EBM)。
1D 回歸實驗訓練方法的 D_KL 和訓練成本對比。
圖左:用於 1D 回歸實驗的四種表現最佳方法的詳細比較;圖右:COCO-2017 Val 數據集上,用於目標檢測實驗的四種表現最佳方法的詳細比較。四種方法均分別為 ML-IS、KLD-IS、NCE 和本研究提出的 NCE+。
推薦:本研究中的跟蹤器在 LaSOT 目標跟蹤數據集上實現了 63.7% 的 AUC,在 TrackingNet 目標跟蹤數據集上實現了 78.7% 的 Success。
論文 5:TAPAS: Weakly Supervised Table Parsing via Pre-training
作者:Jonathan Herzig、Paweł Krzysztof Nowak、Julian Martin Eisenschlos 等
論文連結:https://arxiv.org/pdf/2004.02349.pdf
摘要:谷歌在本文中提出了一種擴展型的 BERT 架構。該架構可對問題與表格數據結構進行聯合編碼,最終得到的模型可直接指向問題答案。並且,這種新方法所創建的模型適用於多個領域的表格。
要想得到優良的模型,優質的數據自然是不可或缺的。谷歌首先使用了數百萬個維基百科表格對模型進行預訓練,然後又在三個學術級表格問答數據集上進行實驗,結果表明新方法的準確度表現極具競爭力。不僅如此,谷歌開源了模型訓練和測試代碼,還公開分享了他們在維基百科數據上得到的預訓練模型。
本研究提出的 Tapas 模型以及對於問題 「排名前二的總天數(total number of days for the top two)」 的示例模型輸出。
問題 「查詢(query)」 的編碼以及使用 Tapas 特定嵌入的簡單表格。
表格(左)與對應的問題示例(右)。問題 5 是會話式。
推薦:谷歌的這篇論文將 BERT 模型應用到了基於表格的問答場景中,為弱監督式的表格解析性能帶來了顯著提升。
論文 6:memeBot: Towards Automatic Image Meme Generation
作者:Aadhavan Sadasivam、Kausic Gunasekar、Yezhou Yang 等
論文連結:https://arxiv.org/pdf/2004.14571v1.pdf
摘要:近日,來自美國亞利桑那州立大學的研究者對 meme 圖生成方法進行了改進提升。在這篇論文中,研究者提出了一種根據給定的輸入語句來生成匹配圖片的方法。這是一項很有挑戰性但有趣的 NLP 任務。通過對 meme 圖生成機制的深入了解,研究者決定將 meme 圖生成與自然語言翻譯相結合。
在自然語言翻譯工作中,為了將輸入的語句轉換為目標語言,必須對語句的完整含義進行解碼,分析其含義,然後將源語句的含義編碼為目標語句。類似地,此處也可以通過將源語句的含義編碼為一對圖像和標題,傳達與源語句相同的含義或情感,從而將語句翻譯成「梗」。受到這種方法的啟發,研究者提出了一種端到端的編碼 - 解碼模型「memeBot」,面向任意給定的語句來生成 meme 圖。同時在訓練的過程中,他們製作出了首個大型 meme 圖字幕數據集。
memeBot 示意圖。
memeBot 模型架構圖。對於給定輸入序列,通過結合模板選擇模塊(template selection module)選擇的和標籤生成 transformer(caption generation transformer)生成的表情包標籤來創建新的表情包。
附錄 A:實驗中所用 meme 字幕數據集包括的模版和圖像。
推薦:在製作沙雕表情包這件事上,AI也略勝一籌。
論文 7:Deep Learning with Graph-Structured Representations
作者:Thomas Kipf
論文連結:https://pure.uva.nl/ws/files/46900201/Thesis.pdf
摘要:近日,GoogleAI 大腦團隊研究科學家、GCN 作者、阿姆斯特丹大學機器學習博士生 Thomas Kipf 宣布其博士論文《深度學習圖結構表徵》(Deep Learning with Graph-Structured Representations)可以下載了。在論文中,作者提出了利用結構化數據進行機器學習的新方法,這些方法主要基於結構化表示以及圖表示的神經網絡模型計算,由此當從具有顯式和隱式模塊結構的數據學習時可以提升泛化性能。
GCN 作者 Thomas Kipf 宣布公開其博士論文(178 頁)。
論文部分目錄。
推薦:這篇博士論文涵蓋了深度學習領域的一系列新興主題,如圖卷積網絡和結構發現等。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:
本周 10 篇 NLP 精選論文是:
1. A Survey on Dialog Management: Recent Advances and Challenges. (from Yinpei Dai, Huihua Yu, Yixuan Jiang, Chengguang Tang, Yongbin Li, Jian Sun)
2. Topological Sort for Sentence Ordering. (from Shrimai Prabhumoye, Ruslan Salakhutdinov, Alan W Black)
3. Exploring Controllable Text Generation Techniques. (from Shrimai Prabhumoye, Alan W Black, Ruslan Salakhutdinov)
4. CODA-19: Reliably Annotating Research Aspects on 10,000+ CORD-19 Abstracts Using Non-Expert Crowd. (from Ting-Hao 'Kenneth' Huang, Chieh-Yang Huang, Chien-Kuang Cornelia Ding, Yen-Chia Hsu, C. Lee Giles)
5. AdapterFusion: Non-Destructive Task Composition for Transfer Learning. (from Jonas Pfeiffer, Aishwarya Kamath, Andreas Rücklé, Kyunghyun Cho, Iryna Gurevych)
6. Extracting Headless MWEs from Dependency Parse Trees: Parsing, Tagging, and Joint Modeling Approaches. (from Tianze Shi, Lillian Lee)
7. Soft Gazetteers for Low-Resource Named Entity Recognition. (from Shruti Rijhwani, Shuyan Zhou, Graham Neubig, Jaime Carbonell)
8. Cross-lingual Entity Alignment for Knowledge Graphs with Incidental Supervision from Free Text. (from Muhao Chen, Weijia Shi, Ben Zhou, Dan Roth)
9. TORQUE: A Reading Comprehension Dataset of Temporal Ordering Questions. (from Qiang Ning, Hao Wu, Rujun Han, Nanyun Peng, Matt Gardner, Dan Roth)
10. Structured Tuning for Semantic Role Labeling. (from Tao Li, Parth Anand Jawale, Martha Palmer, Vivek Srikumar)
本周 10 篇 CV 精選論文是:
1. The AVA-Kinetics Localized Human Actions Video Dataset. (from Ang Li, Meghana Thotakuri, David A. Ross, João Carreira, Alexander Vostrikov, Andrew Zisserman)
2. Adversarial Training against Location-Optimized Adversarial Patches. (from Sukrut Rao, David Stutz, Bernt Schiele)
3. Streaming Object Detection for 3-D Point Clouds. (from Wei Han, Zhengdong Zhang, Benjamin Caine, Brandon Yang, Christoph Sprunk, Ouais Alsharif, Jiquan Ngiam, Vijay Vasudevan, Jonathon Shlens, Zhifeng Chen)
4. StereoGAN: Bridging Synthetic-to-Real Domain Gap by Joint Optimization of Domain Translation and Stereo Matching. (from Rui Liu, Chengxi Yang, Wenxiu Sun, Xiaogang Wang, Hongsheng Li)
5. Dual-Sampling Attention Network for Diagnosis of COVID-19 from Community Acquired Pneumonia. (from Xi Ouyang, Jiayu Huo, Liming Xia, Fei Shan, Jun Liu, Zhanhao Mo, Fuhua Yan, Zhongxiang Ding, Qi Yang, Bin Song, Feng Shi, Huan Yuan, Ying Wei, Xiaohuan Cao, Yaozong Gao, Dijia Wu, Qian Wang, Dinggang Shen)
6. CONFIG: Controllable Neural Face Image Generation. (from Marek Kowalski, Stephan J. Garbin, Virginia Estellers, Tadas Baltrušaitis, Matthew Johnson, Jamie Shotton)
7. Self-Supervised Human Depth Estimation from Monocular Videos. (from Feitong Tan, Hao Zhu, Zhaopeng Cui, Siyu Zhu, Marc Pollefeys, Ping Tan)
8. Occlusion resistant learning of intuitive physics from videos. (from Ronan Riochet, Josef Sivic, Ivan Laptev, Emmanuel Dupoux)
9. Multi-Head Attention with Joint Agent-Map Representation for Trajectory Prediction in Autonomous Driving. (from Kaouther Messaoud, Nachiket Deo, Mohan M. Trivedi, Fawzi Nashashibi)
10. Enhancing Geometric Factors in Model Learning and Inference for Object Detection and Instance Segmentation. (from Zhaohui Zheng, Ping Wang, Dongwei Ren, Wei Liu, Rongguang Ye, Qinghua Hu, Wangmeng Zuo)
本周 10 篇 ML 精選論文是:
1. Partially-Typed NER Datasets Integration: Connecting Practice to Theory. (from Shi Zhi, Liyuan Liu, Yu Zhang, Shiyin Wang, Qi Li, Chao Zhang, Jiawei Han)
2. Time Dependence in Non-Autonomous Neural ODEs. (from Jared Quincy Davis, Krzysztof Choromanski, Jake Varley, Honglak Lee, Jean-Jacques Slotine, Valerii Likhosterov, Adrian Weller, Ameesh Makadia, Vikas Sindhwani)
3. Successfully Applying the Stabilized Lottery Ticket Hypothesis to the Transformer Architecture. (from Christopher Brix, Parnia Bahar, Hermann Ney)
4. Interpreting Rate-Distortion of Variational Autoencoder and Using Model Uncertainty for Anomaly Detection. (from Seonho Park, George Adosoglou, Panos M. Pardalos)
5. Physics-informed neural network for ultrasound nondestructive quantification of surface breaking cracks. (from Khemraj Shukla, Patricio Clark Di Leoni, James Blackshire, Daniel Sparkman, George Em Karniadakiss)
6. Bullseye Polytope: A Scalable Clean-Label Poisoning Attack with Improved Transferability. (from Hojjat Aghakhani, Dongyu Meng, Yu-Xiang Wang, Christopher Kruegel, Giovanni Vigna)
7. Plan2Vec: Unsupervised Representation Learning by Latent Plans. (from Ge Yang, Amy Zhang, Ari S. Morcos, Joelle Pineau, Pieter Abbeel, Roberto Calandra)
8. Demand-Side Scheduling Based on Deep Actor-Critic Learning for Smart Grids. (from Joash Lee, Wenbo Wang, Dusit Niyato)
9. APo-VAE: Text Generation in Hyperbolic Space. (from Shuyang Dai, Zhe Gan, Yu Cheng, Chenyang Tao, Lawrence Carin, Jingjing Liu)
10. EDD: Efficient Differentiable DNN Architecture and Implementation Co-search for Embedded AI Solutions. (from Yuhong Li, Cong Hao, Xiaofan Zhang, Xinheng Liu, Yao Chen, Jinjun Xiong, Wen-mei Hwu, Deming Chen)
原標題:《7 Papers & Radios | GCN大佬公開博士論文;谷歌提出擴展型BERT架構》
閱讀原文