7 Papers|MIT學神開源微分太極;北大等提出沒有乘法的神經網絡

2020-12-10 機器之心Pro

機器之心&ArXiv Weekly Radiostation

參與:杜偉、楚航、羅若天

本周的重要論文有 MIT 學神胡淵鳴等開源的自動微分版太極以及北大、華為諾亞方舟實驗室等主張以加法運算代替深度神經網絡中的乘法運算。此外,機器之心聯合由楚航、羅若天發起的 ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括 NLP、CV、ML 領域各 10 篇精選,並提供音頻形式的論文摘要簡介。

目錄:

AdderNet: Do We Really Need Multiplications in Deep Learning?DeepFakes and Beyond: A Survey of Face Manipulation and Fake DetectionDiffTaichi: Differentiable Programming for Physical SimulationOptimization for deep learning: theory and algorithmsAudio-based automatic mating success prediction of giant pandasKnowledge Consistency between Neural Networks and BeyondQ-BERT: Hessian Based Ultra Low Precision Quantization of BERTArXiv Weekly Radiostation:NLP、CV、ML更多精選論文(附音頻)

論文 1:AdderNet: Do We Really Need Multiplications in Deep Learning?

作者:Hanting Chen、Yunhe Wang、Chunjing Xu 等論文連結:https://arxiv.org/pdf/1912.13200v2.pdf

摘要:和加法運算相比,乘法運算在計算複雜度上要高很多。在深度學習中,被廣泛使用的卷積運算相當於是衡量輸入特徵和卷積濾波器之間相似度的交叉相關計算。在這一過程中需要很大規模的浮點乘法,因此很多研究都在考慮將乘法運算換成等價的加法運算。近日,北大、華為諾亞方舟實驗室等的研究者提出了一個名為 AdderNets 的網絡,用於將深度神經網絡中,特別是卷積神經網絡中的乘法,轉換為更簡單的加法運算,以便減少計算成本。

在 AdderNets 中,研究者採用了 L1 正則距離,用於計算濾波器和輸入特徵之間的距離,並作為輸出的反饋。為了取得更好的性能,研究者構建了一種特殊的反向傳播方法,並發現這種幾乎完全採用加法的神經網絡能夠有效收斂,速度與精度都非常優秀。從結果來看,AdderNets 在 ResNet-50 上 對 ImageNet 數據集進行訓練後,能夠取得 74.9% 的 top-1 精確度和 91.7% 的 top-5 精確度,而且在卷積層上不使用任何乘法操作。這一研究引起了深度學習社區的熱議。

AdderNet 和 CNN 的特徵可視化。

二值網絡、加法網絡和卷積網絡在 CIFAR-10 與 CIFAR-100 數據集上的效果。

ImageNet 上的分類結果。

推薦:深度學習對算力要求太高,怎麼簡化計算複雜度呢?北大、華為諾亞方舟實驗室等提出完全用加法代替乘法,用 L1 距離代替卷積運算,從而顯著減少計算力消耗。

論文 2:DeepFakes and Beyond: A Survey of Face Manipulation and Fake Detection

作者:Ruben Tolosana、Ruben Vera-Rodriguez、Julian Fierrez 等論文連結:https://arxiv.org/pdf/2001.00179v1.pdf

摘要:大規模公共數據集的免費獲取和深度學習技術(尤其是 GAN)的快速發展,導致以假亂真的內容大量出現,在假新聞時代這些偽造內容對社會產生了一定的影響。本文對人臉圖像操縱技術進行了全面的綜述,包括 DeepFake 方法以及檢測此類操縱技術的方法。具體而言,本文綜述了四種人臉操縱類型:人臉合成、換臉(DeepFakes)、人臉屬性操縱和人臉表情操縱。

對於每種人臉操縱類型,本文詳細介紹了其相關的人臉操縱技術、現有的公共資料庫以及用於評估人臉操縱檢測方法的重要基準,包括對這些評估結果的總結。在本文提及的多個可用資料庫中,FaceForensics++ 是最常用於檢測人臉身份轉換(即「換臉」)和人臉表情操縱的資料庫之一,基於該數據集的操縱檢測準確率在 90-100% 範圍內。此外,本文還討論了該領域的發展趨勢,並對正在進行的工作進行了展望,如近期宣布的 DeepFake 檢測挑戰賽(DFDC)。

根據操縱的級別,人臉操縱技術可分為四類:人臉合成、換臉、人臉屬性操縱和人臉表情操縱,上圖為每種人臉操縱類別的真假圖像示例。

推薦:這是一篇不錯的人臉操縱和檢測技術綜述文章,結構和邏輯清晰,希望能夠幫助大家一覽該領域的發展過程。

論文 3:DiffTaichi: Differentiable Programming for Physical Simulation

作者:Yuanming Hu、Luke Anderson、Tzu-Mao Li 等論文連結:https://arxiv.org/pdf/1910.00935.pdf

摘要:去年 5 月,機器之心報導了 MIT 華人學神胡淵鳴等開源的計算機圖形庫——太極。近日,這位作者聯合其他研究者推出了自動微分版本的太極——微分太極。這一框架可以基於太極實現自動微分,在物理模擬優化方面有很高的性能和靈活性。

太極原本是用於計算機圖形計算和模擬的,為什麼要開發為微分框架呢?這是因為使用可微模擬器進行物理控制器優化,相比 model-free 的強化學習算法,可以提升 1 到 4 個量級的收斂速度。微分太極是基於太極項目的,它能夠使用源碼轉換的方式,對模擬步驟生成梯度。模擬程序由一個輕量的 tape 進行記錄,並以降序方式返回核的梯度,實現端到端反向傳播。

左:微分太極可以和神經網絡控制器及物理模擬模塊無縫結合,並向控制器或初始化轉臺參數更新梯度。模擬過程通常有 512 到 2048 個時間步,每個時間步達到 1000 次並行運算;右:10 個基於微分太極構建的微分模擬器。

自動微分架構。左:微分太極系統。白色部分為來自太極語言的重用架構,藍色為微分程序的擴展部分。右:Tape 記錄了核的運行,在反向傳播時以降序方式重放(replay)梯度核。

推薦:本篇論文已被 ICLR 2020 接收,也意味著太極從計算機圖形學進入了機器學習的領域。

論文 4:Optimization for deep learning: theory and algorithms

作者:Ruoyu Sun論文連結:https://arxiv.org/pdf/1912.08957.pdf

摘要:深度學習優化方法都有哪些?其理論依據是什麼?最近,來自伊利諾伊大學香檳分校(UIUC)的研究者孫若愚就此主題寫了一篇長達 60 頁的綜述論文。

這篇文章首先討論了梯度爆炸/消失問題以及更通用的譜控制問題,並討論了一些實際解決方案,如初始化和歸一化方法。其次,本文綜述了神經網絡訓練過程中使用的一般優化方法,如 SGD、自適應梯度方法和分布式方法,還介紹了這些算法的現有理論結果。最後,本文綜述了關於神經網絡訓練的全局問題的研究,包括糟糕的局部極小值上的結果、模式連接(mode connectivity)、彩票假設和無限寬度分析。

成功訓練神經網絡的幾項主要的設計選擇(已具備理論理解)。它們對算法收斂的三個方面產生影響:實現收斂、實現更快收斂、獲得更好的全局解。這三項相互關聯,這裡只是大致的分類。

本文將優化問題劃分為三部分:收斂、收斂速度和全局質量。

推薦:本篇論文詳細講述了用於訓練神經網絡的優化算法和理論。

論文 5:Audio-based automatic mating success prediction of giant pandas

作者:WeiRan Yan、MaoLin Tang、Qijun Zhao 等論文連結:https://arxiv.org/abs/1912.11333

摘要:我們都知道,大熊貓是地球上最瀕危的物種之一,但我們並不清楚它為什麼會瀕危。據研究表明,大熊貓成為瀕危物種主要是因為繁殖艱難,而繁殖難的問題主要源於「性冷淡」。熊貓的繁殖季節時間非常短,一年 365 天中,最佳交配時間僅有 1 天。更令人惆悵的是,雄性熊貓每天將大把的時間用來吃飯和睡覺,壓根注意不到異性,所以生育率一直很低。

傳統上,認定大熊貓的發情與確認交配結果(即是否交配成功)是基於它們的荷爾蒙分泌情況來評估的,這種方法操作非常複雜,而且無法實時獲得結果。近期的研究表明,處於繁殖季節的大熊貓會有特殊的發聲行為,這為分析大熊貓的交配成功情況提供了新的機會。

受近段時間語音識別方法快速發展的啟發以及計算機技術在野生動植物保護方面的應用,四川大學、成都大熊貓繁育研究基地和四川省大熊貓科學研究院的研究者提出根據大熊貓的發聲情況來自動預測其交配的成功率。為此,他們將這個問題定義成了一個語音情緒識別(SER)問題。他們沒有使用人工定義的特徵和發聲類型,而是使用了深度網絡來學習不同的發聲特徵,自動預測交配成功率。

基於大熊貓發聲行為的自動交配成功率預測能更好地協助大熊貓繁殖。

CGANet 架構主要包含卷積模塊、GRU 模塊和注意力模塊。

CGANet、FLDA 和 SVM 在準確率(acc)、F1 分數、召回率(recall)、精度和曲線下面積(auc)5 項指標上的效果對比。可以看出,本文提出的 CGANet 架構的效果均為最佳。

推薦:大熊貓交配叫聲暗藏玄機,川大學者用音頻 AI 預測大熊貓何時懷上寶寶。

論文 6:Knowledge Consistency between Neural Networks and Beyond

作者:Ruofan Liang、Tianlin Li、Longfei Li、Quanshi Zhang論文連結:https://arxiv.org/pdf/1908.01581.pdf

摘要:深度神經網絡(DNN)已經在很多任務中表現出了強大的能力,但目前仍缺乏診斷其中層表徵能力的數學工具,如發現表徵中的缺陷或識別可靠/不可靠的特徵。由於數據洩漏或數據集發生變化,基於測試準確率的傳統 DNN 評測方法無法深入評估 DNN 表徵的正確性。

因此,在本論文中,來自上海交大的研究者提出了一種從知識一致性的角度來診斷 DNN 中層網絡表徵能力的方法。即,給定兩個為同一任務訓練的 DNN(無論二者架構是否相同),目標是檢驗兩個 DNN 的中間層是否編碼相似的視覺概念。該研究實現了:(1)定義並量化了神經網絡之間知識表達的不同階的一致性;(2)對強弱神經網絡中層知識進行分析;(3)對中層特徵的診斷,在不增加訓練樣本標註的前提下進一步促進神經網絡分類準確率;(4)為解釋神經網絡壓縮和知識蒸餾提供了一種新的思路。

知識一致性。

知識一致性算法可以有效的去除與目標應用無關的冗餘特徵分量,進一步提升目標應用的性能。

推薦:本文介紹了上海交通大學張拳石團隊的一篇ICLR 2020 接收論文,提出了一種對神經網絡特徵表達一致性、可靠性、知識盲點的評測與解釋方法。

論文 7:Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

作者:Sheng Shen、Zhen Dong、Jiayu Ye 等論文連結:https://arxiv.org/pdf/1909.05840.pdf

摘要:在本文中,研究者介紹了一個用於計算 Hessian 信息的全新可擴展框架,以解決二階信息計算速度很慢的問題。此外,他們表示在訓練期間也可以使用 Hessian 信息,且開銷很少。與 ImageNet 上基於一階方法訓練 ResNet18 的時間相比,研究者採用的方法可提速 3.58 倍。

推薦:這篇論文已被 AAAI 2020 大會接收,作者之一 Zhewei Yao 是加州大學伯克利分校 BAIR、RISELab(前 AMPLab)、BDD 和數學系博士。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:

10 NLP Papers

21:07來自機器之心Pro

本周 10 篇 NLP 精選論文是:

1. Multiplex Word Embeddings for Selectional Preference Acquisition. (from Hongming Zhang)

2. REST: A thread embedding approach for identifying and classifying user-specified information in security forums. (from Michalis Faloutsos)

3. A Neural Approach to Discourse Relation Signal Detection. (from Yang Liu)

4. Improving Entity Linking by Modeling Latent Entity Type Information. (from Chin-Yew Lin)

5. Learning Bilingual Word Embeddings Using Lexical Definitions. (from Kai-Wei Chang)

6. Stance Detection Benchmark: How Robust Is Your Stance Detection?. (from Iryna Gurevych)

7. Leveraging Prior Knowledge for Protein-Protein Interaction Extraction with Memory Network. (from Zhuang Liu)

8. Binary and Multitask Classification Model for Dutch Anaphora Resolution: Die/Dat Prediction. (from Marie-Francine Moens)

9. Paraphrase Generation with Latent Bag of Words. (from John P. Cunningham)

10. Adapting Deep Learning for Sentiment Classification of Code-Switched Informal Short Text. (from Asim Karim)

相關焦點

  • MIT學神開源微分太極;北大等提出沒有乘法的神經網絡
    機器之心機器之心&ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文有 MIT 學神胡淵鳴等開源的自動微分版太極以及北大、華為諾亞方舟實驗室等主張以加法運算代替深度神經網絡中的乘法運算
  • 計算機圖形也能自動可微:MIT學神的微分太極框架開源
    機器之心機器之心報導參與:一鳴、杜偉去年5月,機器之心報導了 MIT 華人學神胡淵鳴等開源的計算機圖形庫——太極。近日,這位作者聯合其他研究者推出了自動微分版本的太極——微分太極。
  • 計算機圖形自動可微:MIT學神微分太極框架開源,論文被ICLR接收
    機器之心報導參與:一鳴、杜偉去年5月,機器之心報導了 MIT 華人學神胡淵鳴等開源的計算機圖形庫——太極。近日,這位作者聯合其他研究者推出了自動微分版本的太極——微分太極。這一框架可以基於太極實現自動微分,在物理模擬優化方面有很高的性能和靈活性。這意味著太極從計算機圖形學進入了機器學習的領域。目前,一作胡淵鳴已在 GitHub 上開源了基於這一框架完成的 10個 物理模擬器,項目登上了 GitHub 熱榜。而微分太極論文也已被 ICLR2020 接收。
  • 華為開源只用加法的神經網絡:實習生領銜打造,效果不輸傳統CNN
    曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI沒有乘法的神經網絡,你敢想像嗎?無論是單個神經元的運算還是卷積運算,都不可避免地要使用乘法。然而乘法對硬體資源的消耗遠大於加法。如果不用乘法,全部改用加法應該可以讓運算速度大大提升。去年年底,來自北京大學、華為諾亞方舟實驗室、鵬城實驗室的研究人員將這一想法付諸實踐,他們提出了一種只用加法的神經網絡AdderNet(加法器網絡)。一作是華為諾亞方舟實習生,正在北大讀博三。
  • DeepMind可微分神經計算機DNC開源 內部架構原理首次曝光
    DNC 結合了神經網絡自動學習和傳統計算機可讀寫存儲數據的能力,被認為是目前最接近數字計算機的神經計算系統。此次正式開源,想必會吸引眾多開發人員和研究者參與改進。DeepMind 不久前將內部深度學習框架 Sonnet 也進行了開源,而 DNC 需要使用 TensorFlow 和 Sonnet 一起進行訓練。DeepMind 的雙重開源,相信會加速神經網絡「記憶」相關的發展。
  • 「神經常微分方程」提出者之一:如何利用深度微分方程模型處理連續...
    在 NeruIPS 2018 獲獎論文中,陳天琦、David Duvenaud 等人將二者相結合,進行架構創新,提出一類新型深度神經網絡「神經常微分方程」(ODEnet)。它不拘於對已有架構的修修補補,而是完全從另外一個角度考慮如何以連續的方式藉助神經網絡對數據建模。
  • 把CNN裡乘法全部去掉會怎樣?華為提出移動端部署神經網絡新方法
    最近,我們又看到華為的另一篇論文,這一次沒有用加法替代乘法,而是用「按位移位」和「按位取反」來取代乘法運算。深度學習模型,尤其是深度卷積神經網絡(DCNN),在多個計算機視覺應用中獲得很高的準確率。但是,在移動環境中部署時,高昂的計算成本和巨大的耗電量成為主要瓶頸。
  • 把CNN裡的乘法全部去掉會怎樣?華為提出移動端部署神經網絡新方法
    最近,我們又看到華為的另一篇論文,這一次沒有用加法替代乘法,而是用「按位移位」和「按位取反」來取代乘法運算。 使用了卷積移位和全連接移位的神經網絡架構族即 DeepShift 模型。DeepShift 模型可以在不使用乘法的情況下實現,且在 CIFAR10 數據集上獲得了高達 93.6% 的準確率,在 ImageNet 數據集上獲得了 70.9%/90.13% 的 Top-1/Top-5 準確率。
  • 員工竊取前東家算法,還拿到 PyTorch 開源?Facebook 被 MIT 教授...
    2019 年 7 月,茲拉特斯基離開神經魔法,加入 Facebook,並表示不會涉及到此前參與的編譯器工作。神經魔法也選擇信任他,因為有相關的保密協議,同時預期的工作內容也並不涉及編譯器相關工作。結果證明這種信任是錯誤的。不到 6 個月後,2019 年 12 月,Facebook 向世界宣布並開源了一個編譯器,可以通過調查揭示,這其中包括了和神經魔法相同的專有算法。
  • 谷歌推出開源 Python 庫「Tangent」,支持前向模式自動微分
    雷鋒網 AI科技評論消息,日前,Google Research Blog 推出開源 Python 庫「Tangent」。據介紹,這個庫與現有的機器學習庫相比,存在諸多優勢,可以大大改善了用戶的使用體驗。雷鋒網 AI科技評論編譯整理如下:Tangent 是一個全新的免費開源 Python 庫,可以用於自動微分。
  • 太極二作李子懋獲SIGGRAPH最佳博士論文獎,華人連續三年獲此殊榮
    其次,論文的另一項貢獻是提出了一個領域特定的自動微分編譯器,它基於 Halide 程式語言構建,用於微分圖像處理算法。該編譯器只需研究人員付出很少的編程努力,即可以高性能自動生成複雜圖像處理算法的梯度。這就為使用靈活構造塊開發高效準確的數據驅動圖像處理算法開闢了新的路徑,與深度學習中常用的粗粒度算子形成鮮明對比。
  • CIKM投稿數量1700篇,圖神經網絡成熱門方向,最佳論文紛紛進行圖研究
    而另一方面,柱狀圖的高低則能夠反映研究者的興趣點,顯然data mining、機器學習和深度神經網絡仍然佔據高位,而資料庫、網頁挖掘等則相對小眾。在本次會議中,圖神經網絡成為最大的熱點,相關的tutorial及報告也往往成為參與人員趨之若鶩的重點內容。大會程序主席崔鵬告訴AI科技評論:「從第一天講習班的情況來看,只要涉及到圖,聽的人都比較多。現在大家對深度學習已經基本無感了,但圖神經網絡是一個值得研究方向,是深度學習的下一波研究。」
  • Facebook AI發明會算高數的神經網絡,表現碾壓MATLAB
    他們訓練了一套神經網絡來執行必要的符號推理和數學運算,首次實現了數學表達式的微分和積分。這項成果是邁向更強大的數學推理工具的重要一步,也是利用神經網絡的新方法。在發現和識別規律上,神經網絡可以有很好的表現,因此我們用它來執行面部識別、物體識別和自然語言識別等任務。
  • 7Papers|斯坦福學者造出機器鴿;港科大等提出學生情緒分析新系統
    針對這些問題,來自北航、愛奇藝等機構的研究者提出了耦合知識蒸餾的輕量級視頻顯著區域檢測方法。輕量級視頻顯著區域檢測的難點在於模型泛化能力不足,時域空域線索結合難,影響方法的檢測性能。研究者提出了一種輕量級的網絡架構 UVA-Net,並利用耦合知識蒸餾的訓練方法提高視頻顯著區域檢測性能。
  • 華為深度學習框架MindSpore正式開源:自動微分不止計算圖
    MindSpore 開源社區:https://www.mindspore.cn/MindSpore 代碼:https://gitee.com/mindspore從整體上來說,MindSpore 搭建神經網絡會以「單元」為中心,其中單元是張量和運算操作的集合。
  • 「國產」CG程式語言太極問世,模擬3D大部分連GPU都不用
    新的CG程式語言就是可微分編程DiffTaichi(太極),可以通過蠻力的梯度下降有效地優化神經網絡控制器,而不必使用強化學習。這款可微分編程來源於胡淵鳴同學之前的工作。最後胡同學將工作推進了一步,這才提出了前文所說的可微分編程DiffTaichi。據一人客了解,胡同學創建了10個不同的物理模擬器,包括彈性柔體、剛體、流體、光線折射、碰撞幾個常見物理環境,並根據現有基準對其性能進行基準測試。其中大部分模型都可以在2到3個小時內實現,而且大部分都不需要GPU。
  • 硬核兒童節禮物:MIT學神、「太極」作者胡淵鳴送你一門計算機課程
    如果你對計算機圖形學感興趣,相信你可能見過下邊這些圖:這兩個效果圖都來自一個叫「太極(Taichi)」的項目,創建者是麻省理工學院博士生胡淵鳴。目前,該項目的 star 量已經過萬。太極是一種用於計算機圖形應用的高性能程式語言,它嵌入在 Python 中,其即時編譯器可以將計算密集型任務分散到多核 CPU 和大規模並行 GPU 中。上面的效果圖就是利用「太極」做出的 demo 展示。此外,胡淵鳴還用「太極」寫過「冰雪奇緣」特效,只用了 99 行代碼,知乎點讚過萬。
  • 學界| MIT將生物學機制引入神經網絡,新模型或揭開抑制神經元功能
    多年以來,Lynch 的團隊在自組織網絡(ad hoc networks)的交流和資源分配上開展研究,自組織網絡是一種組織成員不斷離開和再次加入的網絡。直到最近,團隊開始使用網絡分析工具來研究生物學現象。「計算機網絡的行為(或者其他設備如手機)與生物系統之間有密切的對應關係,」Lynch 談到。
  • LSTM、GRU與神經圖靈機:詳解深度學習最熱門的循環神經網絡
    門:具體來說,為了緩解輸入和輸出權重衝突以及幹擾,我們引入了一個乘法輸入門單元來保護存儲的記憶內容免受不相關輸入的幹擾,還引入了一個乘法輸出門單元來保護其它單元免受存儲中當前不相關記憶內容的幹擾。事實已經說明,之前的工作中所使用的許多長時間滯後任務可以通過簡單的隨機權重猜測得到比提出的算法更快的解決。LSTM 循環神經網絡最有意思的應用出現在語言處理領域。更全面的描述可參閱 Gers 的論文 :F. Gers 和 J.
  • 7 Papers | 谷歌量子霸權論文;13項NLP任務奪冠的小模型ALBERT
    此外還有北大等的論文。推薦:本文是北大和 Momenta 的一篇論文,借用 LSTM 的門控制思想對神經網絡進行剪枝,是一種新穎的剪枝方法,讀者朋友可借鑑。論文 5:Deep Learning For Symbolic Mathematics摘要:神經網絡在解決統計或擬合問題時較計算和解決符號數據更為優秀。在本文中,研究者表明,神經網絡在解決一些複雜的數學問題上表現很好,例如符號積分和解決微分方程。