當隨機採樣遇見插值,微軟亞研提出節省推理計算量的新範式

2021-01-10 機器之心Pro

機器之心專欄

作者:張拯

同一張圖像的不同區域空間冗餘度是不一樣的,背景部分的冗餘度往往低於人物區域。如何利用這種特性來節省模型推理的計算量呢?在一篇 ECCV 2020 Oral 論文中,來自微軟亞洲研究院等機構的研究者提出了一種隨機採樣與插值相結合的新方法,可以有效降低節省推理的計算量。

近年來,隨著深度學習的不斷發展,視覺領域出現了越來越多的高精度模型,但這些模型所需的計算量也越來越大。因此,如何在推理階段避免冗餘的計算在近年來成為研究熱點。

為了解決這一問題,研究者提出了一系列相關算法,如模型剪枝(Model Pruning)、模型量化(Model Quantization)、提前終止(Early Stopping)和利用特徵響應稀疏性(Activation Sparsity)等方法。

在本文中,來自微軟亞洲研究院視覺計算組、清華大學以及中國科學技術大學的研究者們提出了一種利用圖像的空間冗餘特性來節省計算量的新範式——利用隨機採樣與插值來進行動態推理。在實驗部分,研究者在物體檢測(COCO2017)與語義分割(Cityscapes)兩種任務上驗證了該方法的有效性。

論文地址:https://arxiv.org/abs/2003.08866

方法介紹

圖像的空間冗餘是指:在圖像中,空間上相鄰的的位置對應的特徵與內容通常也較為相似,因此,某一位置的特徵可以通過其臨近區域其他位置的特徵進行插值得到。這種特性在自然圖像裡十分常見,是自然圖像的一種內稟屬性。

利用這種特性降低計算量在計算機視覺領域並不罕見,如通過縮小輸入圖片的尺寸,或在主幹網絡中通過 Pooling 或 Stride Conv 來降低特徵圖的解析度就是兩種常見的方法,而這兩種方法均可以被看作在空間上進行均勻採樣 (Uniform Sampling) 。

但是,圖像冗餘在空間上並不是均勻分布的,如 Fig. 1(a) 所示,人物、路燈等區域的冗餘度較低,而地面、背景牆等區域的冗餘度較高。因此,在空間中進行均勻採樣並不能充分利用空間的冗餘特性。更好的方式應當是自適應地決定採樣位置。

提前中止法(Early Stopping)與利用特徵響應稀疏性(Activation Sparsity)的方法均可被視為實現自適應採樣的不同方式。在這些方法中,每個位置都對應一個分數,代表該位置的重要程度。如果分數大於一個閾值,該位置就會被採樣。我們稱這類採樣方法為確定性採樣(Deterministic Sampling),如 Fig. 2 (b) 左圖所示。然而,由於空間冗餘特性的存在,鄰近的位置得分往往接近,因此,在確定性採樣中,一片相鄰的區域經常同時被採樣到或者同時不被採樣到(如 Fig. 1 (b) 所示)。

本文提出使用隨機採樣(Stochastic Sampling)與插值相結合的方法來節省計算量。在隨機採樣中,每個位置的分數僅代表其被採樣到的概率。分數越高,其被採樣的概率越大,反之亦然。因此,對於一個擁有相同分數的區域,只要其概率不是 1,則僅會有一部分位置被採樣到(如 Fig. 2 (b) 右圖所示)。而未被採樣到的位置,其特徵可以藉助鄰近被採樣到的點通過插值來近似。通過這種方法,可以在獲得與確定性採樣相似精度的情況下,使用更少的採樣點進行計算(如 Fig. 1 (c) 所示),或使用一樣多的採樣點取得更高的精度(如 Fig. 1(d) 所示)。

按照上述分析,本文提出了隨機採樣 - 插值網絡(如 Fig. 2(a) 所示)。該網絡包含採樣模塊、稀疏卷積與插值模塊三個部分。

採樣模塊

本文使用二類的 Gumbel-Softmax 來模擬離散採樣的過程,其定義如下:

其中π表示採樣概率,由一個3×3卷積和 Sigmoid 函數輸出,g表示噪音項,這是 Gumbel-Softmax 隨機性的根源。如果去掉噪音項g,則 Gumbel-Softmax 退化為一個確定性採樣方法。τ則是溫度項,當溫度較高時,M是一個可微的連續函數,而當溫度較低時,M退化為一個二值函數。溫度項的初始值在訓練開始時被設為 1,然後隨著訓練輪數的增加指數級下降,在訓練結束時,τ接近於 0。通過這種方式,掩模M既可以在訓練的中前期被充分訓練,又能在訓練後期使得M接近於一個二值化掩膜,從而保持與推理階段一致的行為。同時,為了激勵網絡產生稀疏的採樣掩膜,本文引入稀疏損失函數(Sparse Loss),其定義如下:

將其與下遊任務的損失函數結合,就可以得到最終的目標損失函數:

其中,γ是稀疏損失的權重,通過調整γ我們可以獲得不同程度的稀疏性。

插值模塊

在使用採樣模塊生成採樣掩膜M後,我們可以利用稀疏卷積來得到稀疏的特徵圖Y_S,再通過插值模塊對Y_S進行補全,得到完整的特徵圖Y^*。然而,補全特徵所需要的最優插值形式是一個開放性問題。本文探索了三種不同的插值函數:RBF Kernel、Plain Convolution 以及 Average Pooling,並在實驗中發現 RBF Kernel 表現優於其他兩種函數,因此本文將其作為默認的插值方法。

同時,由於空間冗餘具有局部性,因此我們可以使用滑動窗來實現高效的插值。為了避免在滑動窗內沒有採樣點的情況,本文額外使用了一個等間距均勻採樣,但高度稀疏的掩膜M_grid與網絡學習到的掩膜M_sample通過如下方式結合,得到最終使用的掩膜M:

利用這個技術,儘管最終性能並不受太多影響,但網絡的訓練過程可以變得更加穩定。

與 Residual Block 進行集成

隨機採樣 - 插值網絡可以被很容易地集成到常見的網絡架構中,在此,本文以 Residual Block 作為例子進行介紹。如 Fig.3 所示,有三種不同的集成方法,作者通過實驗發現 Fig.3 (b) 的效果最好,因此使用其作為默認設定。

實驗與分析

消融實驗

本文在 COCO2017 物體檢測數據集上對其關鍵設計進行了驗證。不同插值函數對結果的影響如 Table.1 所示:在 mAP 相當的情況下,RBF Kernel 使用了更少的計算量。Table. 2 則比較了去掉插值模塊對結果的影響。其對應的兩個基線模型:對未採樣區域的特徵進行補零(Fill Zeros)或使用復用特徵(Reuse Feature)均明顯劣於本文所提出的插值方法。Table. 3 則研究了 Grid Prior 對結果的影響。

在物體檢測與語義分割中與其他方法的比較

Fig.4 中展示了本文所提出的方法與其他方法在 Speed-accuracy trade-off 下的比較。相比於基於均勻採樣的方法(即縮小輸入圖片的尺寸),該方法效果提升十分顯著。而與其他確定性採樣方法相比,該方法也具有明顯的優勢。

在圖像分類問題中與其他的方法進行比較

Table. 4 展示了圖像分類中該方法與其他方法的比較。總的來說,本文所提出的方法在圖像分類中並無顯著優勢。作者猜測,這是因為圖像分類專注於獲取全局表示(Global Feature Representation),因此僅需保留一部分重要的區域就可以獲得良好的性能,重構整個特徵圖對分類任務並無必要。通過將插值模塊移除,作者發現性能的確沒有顯著的變化,也驗證了該猜想。

CPU 上的實際加速

作者還驗證了該方法在 CPU 上的實際加速比。為了展示在不同硬體條件下的情況,作者使用了 Workstation(E5-2650 v2) 以及 Laptop(I7-6650U) 兩種不同的測試環境,結果如 Table. 5 所示。可以看到,該方法的實際加速比與理論加速比仍然具有較大的差距,但是在 Laptop 下的加速比要好於 Workstation,這也說明該方法也許更適合在低資源情況下應用,如移動端以及邊緣計算設備。

與 Model Pruning 的兼容性

本文所提出的方法利用了圖像的空間冗餘特性,其機制與現有基於模型結構化的加速方法正交,因此兩類技術理論上應該相互兼容,作者也對此進行了驗證,結果如 Table 6 所示。可以看到,本文所提出的方法在不同的 Prune Ratio 上的表現均好於 Baseline,證明了該方法與 Model Pruning 技術的兼容性。

相關焦點

  • 一種不同於雙線性插值的上採樣方法
    Introduction 在之前的語義分割方法中,雙線性插值通常作為其最後一步來還原特徵圖的解析度,由於非線性差值不能建立起每個像素的預測之間的關係,因此為了得到精細的結果,對特徵圖的解析度要求較高,同時帶來了巨額的計算量。
  • 微軟亞研院提出通用預訓練模型MASS
    5月10日消息,微軟亞洲研究院的研究員在ICML 2019上提出了一個全新的通用預訓練方法MASS(Masked Sequence to Sequence Pre-training),在序列到序列的自然語言生成任務中全面超越BERT和GPT。在微軟參加的WMT19機器翻譯比賽中,MASS幫助中-英、英-立陶宛兩個語言對取得了第一名的成績。
  • 微軟《第四範式:數據密集型科學發現》中文版發布
    本書擴展了開創性計算機科學家、圖靈獎獲得者、微軟研究院技術院士吉姆•格雷(Jim Gray)的思想,基於e-Science提出了科學研究的第四範式:以大數據為基礎的數據密集型科學研究(Data-intensive Science)以及學術交流。該書從地球環境、健康醫療、科學的基礎架構以及學術交流等四大部分,對數據密集型科學研究願景進行了探討,就如何充分利用科學發展的第四範式提供了深刻見解。
  • 港城大提出任意比例的上採樣方法, 實現自由三維點雲稠密重建
    這一領域的研究人員一直致力於利用軟體的計算手段來代替硬體,從稀疏的低解析度的點雲中獲取稠密的高解析度的點雲結果。  3D點雲上採樣問題通常被視為圖像超分辨在三維領域的對應問題,人們從圖像超分辨領域借鑑了很多技術處理這一領域的問題。但由於點雲與生俱來的非規則性和非均勻性,這些基於規則圖像的方法無法發揮出應有的能力。
  • 計算機視覺「新」範式:Transformer|NLP和CV能用同一種範式來表達嗎?
    Deformable DETR將DETR中的attention替換成Deformable Attention,使DETR範式的檢測器更加高效,收斂速度加快10倍。Deformable DETR提出的Deformable Attention可以可以緩解DETR的收斂速度慢和複雜度高的問題。
  • 一文讀懂貝葉斯推理問題:MCMC方法和變分推斷
    貝葉斯推理問題這一部分提出了貝葉斯推理問題,討論了一些計算困難,並給出了LDA算法的例子。LDA算法是一種具體的主題建模機器學習技術,能夠反映貝葉斯推理問題。統計推斷旨在根據可觀察到的事物來了解不可觀察到的事物。
  • 計算社會科學:一種新研究範式
    時隔10年,這些學者再次在Science政策論壇發表文章,反思計算社會科學研究領域的不足和問題,同時提出若干建議。作為一個嶄新的研究領域,通過「10年回首」的方式進行自我反思,清理研究領域所面臨的若干問題,對於學科未來的發展很有必要。本文試圖通過回顧計算社會科學過去十多年的相關實證分析,對計算社會科學研究方法領域存在的若干爭論進行分析,以呈現此領域在當前所面臨的若干挑戰。
  • 一種FFT插值正弦波快速頻率估計算法
    對被噪聲汙染的正弦波信號進行頻率估計是信號參數估計中的經典問題,目前國內外已提出不少方法。文獻給出了在高斯白噪聲中對正弦波信號頻率進行最大似然估計算法,該算法能夠達到卡拉美-羅限(CRB),但計算量大,實現困難。
  • 華中大提出新型採樣與重建算法, 提升稀疏深度稠密補全任務性能
    稀疏深度補全的任務主要是補充出缺失的點,並儘可能精確地計算出這些點的深度。先前開發的算法主要利用的是隨機採樣來獲取稀疏深度,但這與雷射雷達等傳感器的工作機制不符,其採集的深度點取決於機械電子結構,有著一定的規律性。  另外絕大多數的重建算法,包括深度學習算法,都在使用規則的、標準的旋轉不變性的核來處理圖像,但顯然不同鄰域信息對於深度重建的重要性是不同的。
  • 2020開年解讀:NLP新範式凸顯跨任務、跨語言能力,語音處理落地開花
    今天,我們將探索自然語言處理(Natural Language Processing,NLP)範式的新發展,以及微軟亞洲研究院在語音識別與合成領域的創新成果。 圖1:NLP 範式的變遷 目前,主流的自然語言處理範式是以 BERT 為代表的「預訓練+微調」的新自然語言處理研究和應用範式,其基本思想是將訓練大而深的端對端的神經網絡模型分為兩步。
  • 微軟亞研:對深度神經網絡中空間注意力機制的經驗性研究
    採樣點上方的顏色條表示其內容特徵。當圖中存在內容特徵或相對位置時,表明該項將它們用於注意力權重計算。注意力機制使神經網絡能夠更多地關注輸入中的相關部分。自然語言處理(NLP)中最先研究了注意力機制,並開發了 Encoder-Decoder 模塊以幫助神經機器翻譯(NMT),當給定一個 query(例如,輸出句子中的目標詞),計算其輸出時,會依據 query 對某些 key 元素(例如,輸入句子中的源詞)進行優先級排序。後來空間注意力模塊被提出,用於建模句子內部的關係,此時 query 和 key 都來自同一組元素。
  • 日本研究員提出​圖模型新方法,助力化學合成新分子
    From:Preferred Network 編譯:T.R尋找擁有特殊藥理特性的新分子在研發新藥的過程中十分重要
  • 微軟亞研重新評估,提出極簡算子PosPool
    中科大和微軟亞研的研究人員進行了系統性評估,並提出了無需可學參數的新型 3D 點雲算子 PosPool。近些年湧現了很多不同的 3D 點雲網絡和算子,它們在常見基準評測集上的性能逐步提升,但是由於各種網絡採用不同的局部算子、整體網絡結構和實現細節,人們對該領域的實質進步一直缺乏準確地評估。
  • 如何在 FPGA 上實現雙線性插值的計算?
    那麼C男生直男程度為3,那麼他女朋友每周的生氣程度是可以根據A和B的情況被計算出來的。由於他的直男程度是A和B的中間值,所以在A和B中間插值的結果為5千。如果C的直男程度向B的方向移動,則他女朋友生氣的次數會更多。回到本文想討論的雙線性插值的話,計算出一個點數值需要這個點周圍4個點的數值。將單線性插值升維成雙線性插值後,計算一個點的情況如下圖所示。
  • Android OpenCV(五十一):圖像插值
    INTER_CUBIC = 2,   // 雙三次插值法          INTER_AREA = 3,    // 使用像素區域關係進行重採樣          INTER_LANCZOS4 = 4, // 8x8像素鄰域的Lanczos插值插值方法最近鄰插值(INTER_NEAREST)
  • 美國西北大學新系統在智力測試中超越75%民眾,人類的推理能力也不...
    近日,美國西北大學的科研團隊研發了一個全新的計算模型,在瑞文氏標準推理測試中達到或超越了75%美國普通大眾的表現。被媒體譽為人工智慧史上的又一裡程碑。要知道,根據2016年的數據顯示,一般18歲成年人的平均智商為97,6歲兒童的平均智商為55.5,相比之下谷歌人工智慧系統的智商則為47.3,微軟小冰是24.5。人工智慧的智商還不及6歲兒童的平均水平。
  • DeepMind的最新研究結合了神經網絡和隨機過程的優點提出神經過程...
    DeepMind的最新研究結合了神經網絡和隨機過程的優點提出神經過程模型 李倩 發表於 2018-07-09 09:04:12 函數逼近是機器學習中許多問題的核心,DeepMind的最新研究結合了神經網絡和隨機過程的優點
  • AAAI 2019 | 自動機器學習計算量大!這種多保真度優化技術是走向...
    機器之心編輯作者:Yi-Qi Hu, Yang Yu, Wei-Wei Tu, Qiang Yang, Yuqiang Chen , Wenyuan Dai參與:路雪自動機器學習一直以來都以計算量大而著稱,貝葉斯優化等以高效著稱的方法也都沒能很好解決此問題,機器學習開發者很多還是依賴於經驗與直觀理解進行手動調參。
  • 一種採樣隨機Clifford算子的簡單方法
    這篇文章提出了一種可以均勻隨機採樣Clifford算子的方法,相比於此前的採樣算法,該方法實現更為簡單,且可以直接生成Clifford
  • 納米級邏輯機將超越現有二進位計算範式
    不同於如今計算機中電晶體對二進位轉換範式的依賴,新的納米級邏輯機能從物理上模擬問題,並利用在納米量級上物理系統固有的隨機性,而這種隨機性再之前通常被看做是一種缺點。左圖為原子的四種狀態,對應著右圖迷宮中的四個房間。隧穿電子隨機進出原子的性質就像人在迷宮的不同房間之間走動一樣,能用來優化某些迷宮問題的解決方案。