機器之心&ArXiv Weekly Radiostation
參與:杜偉,楚航,羅若天
本周既有港科大、哈工程等機構提出的觀察課堂學生情緒變化、注意力集中程度的 EmotionCues 系統,也有斯坦福學者製作的半生物半機械羽毛翅膀的「鴿子機器人」。
目錄:
EmotionCues: Emotion-Oriented Visual Summarization of Classroom Videos
Ultrafast Video Attention Prediction with Coupled Knowledge Distillation
DeepShift: Towards Multiplication-Less Neural Networks
Pose-Assisted Multi-Camera Collaboration for Active Object Tracking
Soft biohybrid morphing wings with feathers underactuated by wrist and finger motion
AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates
Escaping from saddle points on Riemannian manifolds
ArXiv Weekly Radiostation:NLP、CV、ML更多精選論文(附音頻)。
論文 1:EmotionCues: Emotion-Oriented Visual Summarization of Classroom Videos
作者:Haipeng Zeng、Xinhuan Shu、Yanbang Wang 等
論文連結:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8948010
摘要:近日,一篇有關課堂監控技術的論文刊登在《IEEE Transactions on Visualization and Computer Graphics》上。在論文中,來自香港科技大學、哈爾濱工程大學等機構的研究者提出了一種名為 EmotionCues 的系統。該系統主要關注如何記錄學生面部表情,並據此來分析學生在課堂上的情緒變化、注意力集中程度。
作者之一、香港科技大學計算機教授屈華民介紹說,這個系統「為教師提供了一種更快速、更方便去衡量學生在課堂上參與度的方法。」這項研究的初衷是「善意」的:依靠該系統去監控學生在課堂上的情緒反饋,判斷學生在什麼時候開始感到無聊,什麼時候注意力更加集中,以此來提醒老師該如何改善課堂內容、提高授課質量。
整個系統的工作流程,包括數據處理和視覺探索兩大階段。
研究者設計了一個摘要視圖,讓老師可以看到學生情感的靜態和動態演變數據。圖(a)顯示的是學生的情感檔案,用於展示學生的情感分布(靜態摘要);圖(b)顯示的是學生的情感變化曲線(動態摘要)。
情感變化的可視化圖示。
推薦:港科大、哈工程的研究者開發的這種用 AI 攝像頭記錄、分析學生情感變化的系統,不僅能知道學生什麼時候開始走神,還能具體看到每個學生一整節課的「心路歷程」。
論文 2:Ultrafast Video Attention Prediction with Coupled Knowledge Distillation
作者:Kui Fu、eipei Shi、Yafei Song 等
論文連結:https://arxiv.org/pdf/1904.04449.pdf
摘要:由於傳統的高精度視頻顯著區域檢測模型往往對計算能力和存儲能力有較高要求,處理速度較慢,造成了資源的浪費。因此,視頻顯著區域檢測需要解決如下兩個問題:1)如何降低模型的計算量和存儲空間需求,提高處理效率?2)如何從視頻中提取有效時空聯合特徵,避免準確率下降?針對這些問題,來自北航、愛奇藝等機構的研究者提出了耦合知識蒸餾的輕量級視頻顯著區域檢測方法。輕量級視頻顯著區域檢測的難點在於模型泛化能力不足,時域空域線索結合難,影響方法的檢測性能。
研究者提出了一種輕量級的網絡架構 UVA-Net,並利用耦合知識蒸餾的訓練方法提高視頻顯著區域檢測性能。這種輕量級的網絡架構在視頻注意力預測方向的性能可與 11 個最新模型相媲美,而其存儲空間僅佔用 0.68 MB,在 GPU,CPU 上的速度分別達到 10,106FPS,404FPS,比之前的模型提升了 206 倍。
本文提出的耦合知識蒸餾方法的總體架構圖,包含空間教師流、時序教師、學生流和時空流。訓練分為兩步:知識蒸餾和時空聯合優化。
MobileNet V2 卷積塊和 CA-Res 卷積塊詳細流程圖。
本文提出的網絡架構與其他 6 種控制變量模型在 AVS1K 數據集上的各指標結果對比。
推薦:基於耦合知識蒸餾的超高速視頻顯著區域檢測算法與現有的國際高水平方法相比,計算精度與 11 種國際高水平方法相當,並且該技術已經應用到愛奇藝圖片搜索、視頻素材檢索等方向,對愛奇藝很多業務具有啟發意義。
論文 3:DeepShift: Towards Multiplication-Less Neural Networks
作者:Mostafa Elhoushi、Farhan Shafiq、Ye Henry Tian 等
論文連結:https://arxiv.org/pdf/1905.13298.pdf
摘要:深度學習模型,尤其是深度卷積神經網絡(DCNN),在多個計算機視覺應用中獲得很高的準確率。但是,在移動環境中部署時,高昂的計算成本和巨大的耗電量成為主要瓶頸。而大量使用乘法的卷積層和全連接層正是計算成本的主要貢獻者。
華為的這篇論文提出了解決該問題的新方法,即引入兩種新型運算:卷積移位(convolutional shift)和全連接移位(fully-connected shift),從而用按位移位(bitwise shift)和按位取反(bitwise negation)來取代乘法。使用了卷積移位和全連接移位的神經網絡架構族即 DeepShift 模型。DeepShift 模型可以在不使用乘法的情況下實現,且在 CIFAR10 數據集上獲得了高達 93.6% 的準確率,在 ImageNet 數據集上獲得了 70.9%/90.13% 的 Top-1/Top-5 準確率。
研究者將多種著名 CNN 架構的卷積層和全連接層分別進行卷積移位和全連接移位轉換,並進行了大量實驗。實驗結果表明,有些模型的 Top-1 準確率下降程度低於 4%,Top-5 準確率下降程度低於 1.5%。
模型在 MNIST 驗證集上的準確率。
模型在 CIFAR10 驗證集上的評估結果。
模型在 ImageNet 數據集上的結果。
推薦:機器之心之前報導過北大、華為諾亞等合著的一篇論文,探討了不用乘法用加法能不能做深度學習。最近,我們又看到華為的另一篇論文,這次沒有用加法替代乘法,而是用「按位移位」和「按位取反」來取代乘法運算。
論文 4:Pose-Assisted Multi-Camera Collaboration for Active Object Tracking
作者:Jing Li、Jing Xu、Fangwei Zhong 等
論文連結:https://arxiv.org/abs/2001.05161
摘要:對相機進行智能控制從而實現目標追蹤是一項非常具有挑戰性的任務。由於環境的複雜性,相機所接收到的視覺信息常常是不完美的,比如環境中存在的障礙物對目標極容易造成遮擋,目標距離遠的情況下形態變得不夠清晰,相似的背景容易導致目標的混淆等等。傳統的方法只靠視覺信息做追蹤,在視覺信息質量不夠高的情況下很容易導致相機追蹤的失敗。
因此在本文中,來自北大、上交等機構的研究者提出引入相機姿態的多相機協同合作機制進行監控場景下的目標追蹤。通過對比不同測試環境上的實驗結果,本文證實了這種合作機制的有效性和可拓展性。
文中多相機協同追蹤系統演示圖。
多相機協同追蹤系統架構圖。
3D 園林和城市環境中的實驗對比結果。
推薦:對於監控場景下的多相機主動追蹤任務,本文提出的這種多相機協同追蹤系統可以在視覺信息不完善的情況下保證追蹤性能,得出了優於以往方法的結果。在全新測試環境(Garden/UrbanCity)上的結果展示了本文方法可以有效地拓展到更多場景。
論文 5:Soft biohybrid morphing wings with feathers underactuated by wrist and finger motion
作者:Eric Chang、Laura Y. Matloff、Amanda K. Stowers、David Lentink
論文連結:https://robotics.sciencemag.org/content/5/38/eaay1246
摘要:千百年來,人類從未停止過追求如鳥類一般自由飛翔。憑藉著一對靈活的羽毛翅膀,鳥類可以在天空中飛行,飛越海洋和大陸。一百多年前,人類受鳥類啟發發明了飛機,依靠堅硬的機翼和螺旋槳來飛向既定的方向。但傳統機翼的缺陷也很明顯:它既會給你想要的升力,也會產生你不需要的阻力。飛機誕生之後,人類仍然在追求對鳥類飛行進行更精確的模擬。
近日,《Science》和《Science Robotics》雜誌分別刊登了來自史丹福大學的兩篇論文,在這兩項研究中,研究者揭示了鳥類是如何通過調整翅膀形狀來控制飛行的。他們為一個叫做「PigeonBot」的飛行機器人裝上一款半生物半機械的「可變形翅膀」。
史丹福大學研究者研發的人造翅膀。
鴿子機器人羽翼主體包含四部分:肱骨、橈骨、尺骨和前肢。
鴿子機器人整體羽翼架構包含一個螺旋槳驅動的儀錶板和一個欠驅動的真實羽毛變形翼。
推薦:研究團隊稱,這款鴿子機器人的機動性更強,並且也能夠承受更高的風速。目前,PigeonBot 只是一款原型。這項研究對於改進現有飛行器的機翼設計非常有啟發意義。
論文 6:AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates
作者:Ning Liu、Xiaolong Ma、Zhiyuan Xu 等
論文連結:https://arxiv.org/abs/1907.03141
摘要:近年來,隨著深度神經網絡模型性能不斷刷新,模型的骨幹網絡參數量愈發龐大,存儲和計算代價不斷提高,從而導致難以部署在資源受限的嵌入式平臺上。
滴滴 AI Labs 與美國東北大學王言治教授研究組合作,聯合提出了一種基於 AutoML 思想的自動結構化剪枝的算法框架 AutoCompress,能自動化的去尋找深度模型剪枝中的超參數,去除模型中不同層的參數冗餘,替代人工設計的過程並實現了超高的壓縮倍率。從而滿足嵌入式端上運行深度模型的實時性能需求。
文中 AutoCompress 框架示意圖。
在 VGG-16 上基於 CIFAR-10 數據集的權重剪枝對比結果。
在 ResNet-18 (NISP 和 AMC 結果為 ResNet-50) 上基於 CIFAR-10 數據集的權重剪枝對比結果。
推薦:與其他方法相比,AutoCompress 的效果超過各種神經網絡壓縮方法與框架。這一研究使得高效率,高精度地獲取深度神經網絡高壓縮率模型成為可能,並且得到的高效神經網絡模型可以在嵌入式移動系統中實現實時推理運算。
論文 7:Escaping from saddle points on Riemannian manifolds
作者:Yue Sun、Nicolas Flammarion、Maryam Fazel
論文連結:https://arxiv.org/pdf/1906.07355.pdf
摘要:「優化」通常指將函數最大化或最小化,而函數的集合通常表示遵循約束條件的可選擇範圍。我們可以對比集合內不同的函數選擇,來確定哪個函數是「最優」的。另一方面,學習是模型迭代地學習最小化某個誤差函數或者最大化某個獎勵函數的過程。拿用於分類任務的簡單線性回歸為例,誤差函數是模型輸出和數據真值輸出之間的均方差,學習過程即找出線性函數 y = a^Tx + b 的係數 a_i 和 b_i,以最小化 y(模型輸出)和 y(真值輸出)間的誤差。
例如,學習(即優化)通常使用梯度下降算法通過反向傳播來迭代進行。在每一次迭代中,係數 a_i 和 b_i 都是(所有可能 a_i 和 b_i 值集合中的)一個選擇,算法將學習到能夠最小化誤差函數的下一組係數。因此,模型的學習過程歸根結底還是優化問題。
本文則深入探索了優化問題的細節,這對理解機器學習的底層數學知識非常重要。
算法 1:擾動黎曼梯度下降算法。
論文作出了多項假設,前兩個假設關於 f,最後一個假設關於 M。
推薦:該論文研究了受限優化問題,即對滿足多個流形約束條件和一些關於 f(x) 假設的函數 f(x) 執行最小化。該研究證明,只要函數和流形具備恰當的平滑度,則擾動黎曼梯度下降算法能夠避開鞍點。
ArXiv Weekly Radiostation
本周 10 篇 NLP 精選論文是:
1. Joint Reasoning for Multi-Faceted Commonsense Knowledge. (from Gerhard Weikum)
2. A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation. (from Minlie Huang)
3. Bi-Decoder Augmented Network for Neural Machine Translation. (from Yueting Zhuang, Deng Cai)
4. FGN: Fusion Glyph Network for Chinese Named Entity Recognition. (from Zhenyu Xuan)
5. Language Models Are An Effective Patient Representation Learning Technique For Electronic Health Record Data. (from Nigam H. Shah)
6. Robust Speaker Recognition Using Speech Enhancement And Attention Model. (from Thomas Hain)7. ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training. (from Ruofei Zhang)8. Lexical Sememe Prediction using Dictionary Definitions by Capturing Local Semantic Correspondence. (from Maosong Sun)9. CLUENER2020: Fine-grained Name Entity Recognition for Chinese. (from Cong Yu)10. Learning to Multi-Task Learn for Better Neural Machine Translation. (from Gholamreza Haffari)
本周 10 篇 CV 精選論文是:
1. 180-degree Outpainting from a Single Image. (from Alan Bovik)
2. Learning multiview 3D point cloud registration. (from Leonidas J. Guibas)
3. Visual Question Answering on 360{\deg} Images. (from Ming-Hsuan Yang)
4. CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency. (from Ming-Hsuan Yang)
5. Learning Transformation-Aware Embeddings for Image Forensics. (from Kevin Bowyer)
6. Video Coding for Machines: A Paradigm of Collaborative Compression and Intelligent Analytics. (from Wen Gao)
7. Single Image Dehazing Using Ranking Convolutional Neural Network. (from Jia Li, Xiaogang Wang)
8. Few-shot Action Recognition via Improved Attention with Self-supervision. (from Philip H. S. Torr)
9. Rethinking Class Relations: Absolute-relative Few-shot Learning. (from Philip H. S. Torr)
10. Unifying Training and Inference for Panoptic Segmentation. (from Philip H.S. Torr)
本周 10 篇 ML 精選論文是:
1. Smart Data based Ensemble for Imbalanced Big Data Classification. (from Salvador García, Francisco Herrera)
2. Symplectic networks: Intrinsic structure-preserving networks for identifying Hamiltonian systems. (from George Em Karniadakis)
3. Lipschitz Lifelong Reinforcement Learning. (from Michael L. Littman)
4. Stochastic Recursive Gradient Descent Ascent for Stochastic Nonconvex-Strongly-Concave Minimax Problems. (from Tong Zhang)
5. On the Convex Behavior of Deep Neural Networks in Relation to the Layers' Width. (from Lior Wolf)
6. Unsupervised Learning of the Set of Local Maxima. (from Lior Wolf)
7. A Formal Approach to Explainability. (from Lior Wolf)
8. Disentanglement by Nonlinear ICA with General Incompressible-flow Networks (GIN). (from Carsten Rother)
9. HumBug Zooniverse: a crowd-sourced acoustic mosquito dataset. (from Stephen Roberts)
10. Autoencoding undirected molecular graphs with neural networks. (from Jeppe Johan Waarkj r Olsen)