機器之心&ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周的重要論文有 MIT 學神胡淵鳴等開源的自動微分版太極以及北大、華為諾亞方舟實驗室等主張以加法運算代替深度神經網絡中的乘法運算。此外,機器之心聯合由楚航、羅若天發起的 ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括 NLP、CV、ML 領域各 10 篇精選,並提供音頻形式的論文摘要簡介。
目錄:
AdderNet: Do We Really Need Multiplications in Deep Learning?DeepFakes and Beyond: A Survey of Face Manipulation and Fake DetectionDiffTaichi: Differentiable Programming for Physical SimulationOptimization for deep learning: theory and algorithmsAudio-based automatic mating success prediction of giant pandasKnowledge Consistency between Neural Networks and BeyondQ-BERT: Hessian Based Ultra Low Precision Quantization of BERTArXiv Weekly Radiostation:NLP、CV、ML更多精選論文(附音頻)
論文 1:AdderNet: Do We Really Need Multiplications in Deep Learning?
作者:Hanting Chen、Yunhe Wang、Chunjing Xu 等論文連結:https://arxiv.org/pdf/1912.13200v2.pdf
摘要:和加法運算相比,乘法運算在計算複雜度上要高很多。在深度學習中,被廣泛使用的卷積運算相當於是衡量輸入特徵和卷積濾波器之間相似度的交叉相關計算。在這一過程中需要很大規模的浮點乘法,因此很多研究都在考慮將乘法運算換成等價的加法運算。近日,北大、華為諾亞方舟實驗室等的研究者提出了一個名為 AdderNets 的網絡,用於將深度神經網絡中,特別是卷積神經網絡中的乘法,轉換為更簡單的加法運算,以便減少計算成本。
在 AdderNets 中,研究者採用了 L1 正則距離,用於計算濾波器和輸入特徵之間的距離,並作為輸出的反饋。為了取得更好的性能,研究者構建了一種特殊的反向傳播方法,並發現這種幾乎完全採用加法的神經網絡能夠有效收斂,速度與精度都非常優秀。從結果來看,AdderNets 在 ResNet-50 上 對 ImageNet 數據集進行訓練後,能夠取得 74.9% 的 top-1 精確度和 91.7% 的 top-5 精確度,而且在卷積層上不使用任何乘法操作。這一研究引起了深度學習社區的熱議。
AdderNet 和 CNN 的特徵可視化。
二值網絡、加法網絡和卷積網絡在 CIFAR-10 與 CIFAR-100 數據集上的效果。
ImageNet 上的分類結果。
推薦:深度學習對算力要求太高,怎麼簡化計算複雜度呢?北大、華為諾亞方舟實驗室等提出完全用加法代替乘法,用 L1 距離代替卷積運算,從而顯著減少計算力消耗。
論文 2:DeepFakes and Beyond: A Survey of Face Manipulation and Fake Detection
作者:Ruben Tolosana、Ruben Vera-Rodriguez、Julian Fierrez 等論文連結:https://arxiv.org/pdf/2001.00179v1.pdf
摘要:大規模公共數據集的免費獲取和深度學習技術(尤其是 GAN)的快速發展,導致以假亂真的內容大量出現,在假新聞時代這些偽造內容對社會產生了一定的影響。本文對人臉圖像操縱技術進行了全面的綜述,包括 DeepFake 方法以及檢測此類操縱技術的方法。具體而言,本文綜述了四種人臉操縱類型:人臉合成、換臉(DeepFakes)、人臉屬性操縱和人臉表情操縱。
對於每種人臉操縱類型,本文詳細介紹了其相關的人臉操縱技術、現有的公共資料庫以及用於評估人臉操縱檢測方法的重要基準,包括對這些評估結果的總結。在本文提及的多個可用資料庫中,FaceForensics++ 是最常用於檢測人臉身份轉換(即「換臉」)和人臉表情操縱的資料庫之一,基於該數據集的操縱檢測準確率在 90-100% 範圍內。此外,本文還討論了該領域的發展趨勢,並對正在進行的工作進行了展望,如近期宣布的 DeepFake 檢測挑戰賽(DFDC)。
根據操縱的級別,人臉操縱技術可分為四類:人臉合成、換臉、人臉屬性操縱和人臉表情操縱,上圖為每種人臉操縱類別的真假圖像示例。
推薦:這是一篇不錯的人臉操縱和檢測技術綜述文章,結構和邏輯清晰,希望能夠幫助大家一覽該領域的發展過程。
論文 3:DiffTaichi: Differentiable Programming for Physical Simulation
作者:Yuanming Hu、Luke Anderson、Tzu-Mao Li 等論文連結:https://arxiv.org/pdf/1910.00935.pdf
摘要:去年 5 月,機器之心報導了 MIT 華人學神胡淵鳴等開源的計算機圖形庫——太極。近日,這位作者聯合其他研究者推出了自動微分版本的太極——微分太極。這一框架可以基於太極實現自動微分,在物理模擬優化方面有很高的性能和靈活性。
太極原本是用於計算機圖形計算和模擬的,為什麼要開發為微分框架呢?這是因為使用可微模擬器進行物理控制器優化,相比 model-free 的強化學習算法,可以提升 1 到 4 個量級的收斂速度。微分太極是基於太極項目的,它能夠使用源碼轉換的方式,對模擬步驟生成梯度。模擬程序由一個輕量的 tape 進行記錄,並以降序方式返回核的梯度,實現端到端反向傳播。
左:微分太極可以和神經網絡控制器及物理模擬模塊無縫結合,並向控制器或初始化轉臺參數更新梯度。模擬過程通常有 512 到 2048 個時間步,每個時間步達到 1000 次並行運算;右:10 個基於微分太極構建的微分模擬器。
自動微分架構。左:微分太極系統。白色部分為來自太極語言的重用架構,藍色為微分程序的擴展部分。右:Tape 記錄了核的運行,在反向傳播時以降序方式重放(replay)梯度核。
推薦:本篇論文已被 ICLR 2020 接收,也意味著太極從計算機圖形學進入了機器學習的領域。
論文 4:Optimization for deep learning: theory and algorithms
作者:Ruoyu Sun論文連結:https://arxiv.org/pdf/1912.08957.pdf
摘要:深度學習優化方法都有哪些?其理論依據是什麼?最近,來自伊利諾伊大學香檳分校(UIUC)的研究者孫若愚就此主題寫了一篇長達 60 頁的綜述論文。
這篇文章首先討論了梯度爆炸/消失問題以及更通用的譜控制問題,並討論了一些實際解決方案,如初始化和歸一化方法。其次,本文綜述了神經網絡訓練過程中使用的一般優化方法,如 SGD、自適應梯度方法和分布式方法,還介紹了這些算法的現有理論結果。最後,本文綜述了關於神經網絡訓練的全局問題的研究,包括糟糕的局部極小值上的結果、模式連接(mode connectivity)、彩票假設和無限寬度分析。
成功訓練神經網絡的幾項主要的設計選擇(已具備理論理解)。它們對算法收斂的三個方面產生影響:實現收斂、實現更快收斂、獲得更好的全局解。這三項相互關聯,這裡只是大致的分類。
本文將優化問題劃分為三部分:收斂、收斂速度和全局質量。
推薦:本篇論文詳細講述了用於訓練神經網絡的優化算法和理論。
論文 5:Audio-based automatic mating success prediction of giant pandas
作者:WeiRan Yan、MaoLin Tang、Qijun Zhao 等論文連結:https://arxiv.org/abs/1912.11333
摘要:我們都知道,大熊貓是地球上最瀕危的物種之一,但我們並不清楚它為什麼會瀕危。據研究表明,大熊貓成為瀕危物種主要是因為繁殖艱難,而繁殖難的問題主要源於「性冷淡」。熊貓的繁殖季節時間非常短,一年 365 天中,最佳交配時間僅有 1 天。更令人惆悵的是,雄性熊貓每天將大把的時間用來吃飯和睡覺,壓根注意不到異性,所以生育率一直很低。
傳統上,認定大熊貓的發情與確認交配結果(即是否交配成功)是基於它們的荷爾蒙分泌情況來評估的,這種方法操作非常複雜,而且無法實時獲得結果。近期的研究表明,處於繁殖季節的大熊貓會有特殊的發聲行為,這為分析大熊貓的交配成功情況提供了新的機會。
受近段時間語音識別方法快速發展的啟發以及計算機技術在野生動植物保護方面的應用,四川大學、成都大熊貓繁育研究基地和四川省大熊貓科學研究院的研究者提出根據大熊貓的發聲情況來自動預測其交配的成功率。為此,他們將這個問題定義成了一個語音情緒識別(SER)問題。他們沒有使用人工定義的特徵和發聲類型,而是使用了深度網絡來學習不同的發聲特徵,自動預測交配成功率。
基於大熊貓發聲行為的自動交配成功率預測能更好地協助大熊貓繁殖。
CGANet 架構主要包含卷積模塊、GRU 模塊和注意力模塊。
CGANet、FLDA 和 SVM 在準確率(acc)、F1 分數、召回率(recall)、精度和曲線下面積(auc)5 項指標上的效果對比。可以看出,本文提出的 CGANet 架構的效果均為最佳。
推薦:大熊貓交配叫聲暗藏玄機,川大學者用音頻 AI 預測大熊貓何時懷上寶寶。
論文 6:Knowledge Consistency between Neural Networks and Beyond
作者:Ruofan Liang、Tianlin Li、Longfei Li、Quanshi Zhang論文連結:https://arxiv.org/pdf/1908.01581.pdf
摘要:深度神經網絡(DNN)已經在很多任務中表現出了強大的能力,但目前仍缺乏診斷其中層表徵能力的數學工具,如發現表徵中的缺陷或識別可靠/不可靠的特徵。由於數據洩漏或數據集發生變化,基於測試準確率的傳統 DNN 評測方法無法深入評估 DNN 表徵的正確性。
因此,在本論文中,來自上海交大的研究者提出了一種從知識一致性的角度來診斷 DNN 中層網絡表徵能力的方法。即,給定兩個為同一任務訓練的 DNN(無論二者架構是否相同),目標是檢驗兩個 DNN 的中間層是否編碼相似的視覺概念。該研究實現了:(1)定義並量化了神經網絡之間知識表達的不同階的一致性;(2)對強弱神經網絡中層知識進行分析;(3)對中層特徵的診斷,在不增加訓練樣本標註的前提下進一步促進神經網絡分類準確率;(4)為解釋神經網絡壓縮和知識蒸餾提供了一種新的思路。
知識一致性。
知識一致性算法可以有效的去除與目標應用無關的冗餘特徵分量,進一步提升目標應用的性能。
推薦:本文介紹了上海交通大學張拳石團隊的一篇ICLR 2020 接收論文,提出了一種對神經網絡特徵表達一致性、可靠性、知識盲點的評測與解釋方法。
論文 7:Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT
作者:Sheng Shen、Zhen Dong、Jiayu Ye 等論文連結:https://arxiv.org/pdf/1909.05840.pdf
摘要:在本文中,研究者介紹了一個用於計算 Hessian 信息的全新可擴展框架,以解決二階信息計算速度很慢的問題。此外,他們表示在訓練期間也可以使用 Hessian 信息,且開銷很少。與 ImageNet 上基於一階方法訓練 ResNet18 的時間相比,研究者採用的方法可提速 3.58 倍。
推薦:這篇論文已被 AAAI 2020 大會接收,作者之一 Zhewei Yao 是加州大學伯克利分校 BAIR、RISELab(前 AMPLab)、BDD 和數學系博士。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:
10 NLP Papers
21:07來自機器之心Pro
本周 10 篇 NLP 精選論文是:
1. Multiplex Word Embeddings for Selectional Preference Acquisition. (from Hongming Zhang)
2. REST: A thread embedding approach for identifying and classifying user-specified information in security forums. (from Michalis Faloutsos)
3. A Neural Approach to Discourse Relation Signal Detection. (from Yang Liu)
4. Improving Entity Linking by Modeling Latent Entity Type Information. (from Chin-Yew Lin)
5. Learning Bilingual Word Embeddings Using Lexical Definitions. (from Kai-Wei Chang)
6. Stance Detection Benchmark: How Robust Is Your Stance Detection?. (from Iryna Gurevych)
7. Leveraging Prior Knowledge for Protein-Protein Interaction Extraction with Memory Network. (from Zhuang Liu)
8. Binary and Multitask Classification Model for Dutch Anaphora Resolution: Die/Dat Prediction. (from Marie-Francine Moens)
9. Paraphrase Generation with Latent Bag of Words. (from John P. Cunningham)
10. Adapting Deep Learning for Sentiment Classification of Code-Switched Informal Short Text. (from Asim Karim)