阿里達摩院實習生立功!何愷明Mask R-CNN精度提升,一半輸入數據量...

2020-12-06 和訊科技

  乾明 十三 發自 凹非寺

  量子位 報導 | 公眾號 QbitAI

  輸入的數據量更小,深度神經網絡在圖像分類/分割任務上的精度反而提升了。

  這就是阿里達摩院提出的提出的圖像分析新方法:「頻域學習」(Learning in the Frequency Domain)。

  核心要義,是省略圖像壓縮/解壓縮中計算量最大的步驟,直接利用頻域特徵來進行圖像推理,減少系統中模塊之間的數據傳輸量,從而提升系統性能。

  更難得可貴的是,如此成果出自同學少年——阿里達摩院實習生之手,已被CVPR 2020接收。

  他們在ImageNet分類任務上測試了方法的有效性:

  輸入數據相同的情況下,ResNet-50和MobileNetV2分別實現了1.41%和0.66%的top-1精度改進。

  即使只有一半大小的輸入數據,ResNet-50的top-1精度仍然能夠提高1%。

  不僅僅是圖像分類,在COCO數據集上,只使用一半大小的輸入數據,「頻域學習」的方法就能提升何愷明Mask R-CNN的圖像分割結果。

  對於當前端側高效部署人工智慧算法的需求來說,輸入數據量更小,但讓深度神經網絡精度更高的「頻域學習」方法,無疑是提供了一個新思路。

  為什麼要在頻域上學習?

  計算資源和內存是有限制的,大多數卷積神經網絡模型,只能接受低解析度的RGB圖像(例如,224x224)。

  因此,總是要經過一個壓縮的過程,傳統圖像分析系統的基本框架如下。

  圖像輸入(In)通常是RGB的空間域信號,在編碼端經過RGB-to-YCbCr的轉化、離散餘弦變換(DCT)、量化(Quantization), 以及熵編碼(Entropy coding),得到壓縮後用來傳輸的信號。

  Y表示亮度,Cb、Cr分別表示藍色和紅色的濃度偏移量成份。

  這個信號傳輸到解碼端,經過對應的熵解碼(Entropy decoding)、反量化(dequantization)、逆離散餘弦變換(IDCT)、YCbCr-to-RGB轉化得到原圖像的重建圖像。

  但這樣的過程,不可避免地會出現信息丟失和精度降低。

  此前有學者提出過解決辦法,比如用學習任務感知的縮小網絡來減少信息丟失,但這些網絡通常基於特定任務,需要額外的計算,並不利於實際應用。

  那有沒有一種方法,過濾掉空間域冗餘的信息,來節省解碼端到推理引擎間的數據帶寬呢?

  這就是達摩院「頻域中學習」解決的核心問題。

  他們提出在頻域,即離散餘弦變換域(DCT)中重塑高解析度圖像,而不是在空間域調整它們的大小,然後將重新形成的DCT係數提供給卷積神經網絡模型進行推理,從而解決了這些問題。

  同時,這個方法幾乎不需要修改現有的卷積神經網絡模型,還是以RGB圖像作為輸入。達摩院的研究人員認為,它可以作為常規的數據預處理管道的替代品。

  整體上來看,「頻域學習」由數據預處理管道和一個輸入數據大小剪枝方法組成。

  節省計算量:用頻域信息進行機器學習

  第一個可以改進的地方,就是節省計算量。

  還是以上圖為例,在整個圖像分析系統中,除去最後的圖像推理引擎,前期的壓縮、傳輸、解壓縮的瓶頸在於其中的DCT和IDCT模塊,因為這兩個變換是矩陣變換,而其他的操作基本都是基於點的操作。

  若是能夠減少,甚至省略這兩個模塊,將會對圖像分析系統的前半部分帶來極大的性能提升。

  也就是說,輸入到神經網絡的數據,將不再是RGB顏色空間,而是YCbCr顏色空間。

  以Y通道為例,假設圖像壓縮標準中默認的8x8作為塊的尺寸(blocksize)。那麼,對於每一個塊(block),就會得到64個DCT的信號,對應了64個不同的頻率分量。

  若原始圖像的尺寸是W x H,那麼將會有W/8 x H/8 個DCT信號組成的塊。每個塊中相同位置的頻率分量可以組成一個尺寸為W/8 x H/8的特徵圖片(feature map),這樣就會產生8x8=64個特徵圖片。

  同樣的對於Cb和Cr通道,也可以各自產生64個特徵圖片,共計64x3=192個,如下圖所示。

  接下來就是讓特徵圖片的尺寸和神經網絡的尺寸吻合。

  以ResNet-50為例,通常接受的圖片輸入尺寸為224x224,經過一次卷積層(stride=2)和池化之後,網絡的特徵圖尺寸為56x56,和產生的頻率信號特徵圖尺寸吻合。

  可以將192個56x56的頻域特徵圖,全部或者部分直接接在ResNet-50的第一個殘差塊(Residue Block)之前,從而達到不改變ResNet-50的結構,卻實現從頻域做機器識別的目的,如下圖所示。

  值得注意的是,由於做了8x8的DCT變換,實際輸入的圖片大小為448x448,是標準ResNet-50輸入的兩倍。

  節省帶寬:頻域信息重要性提取

  節省帶寬也是性能提高的方法,因為某些頻率通道對推斷準確性具有更大的影響。

  所以,只保留那些最重要的頻率通道,並將它們傳輸到GPU/AI加速器進行推理,是可行的。

  這一步是通過在機器學習中添加gate的方法,來學習每一個特徵圖片的重要性。

  在訓練中,不僅能得出用於圖像推理的神經網絡中的權重,同時每一個特徵圖的重要性也被確定。

  現在擁有了選擇重要的頻率通道的方式。有兩種方案來減少從圖像解碼模塊到圖像推理引擎的數據帶寬,分別是動態(Dynamic)方式和靜態(Static)方式。

  所謂動態方式,就是每一個頻率分量的選擇開關由當前輸入的圖像決定,這種方法可以自適應每一次圖像推理(inference)的不同輸入。

  而靜態方式,就是通過訓練(training)得到最重要的一些頻率分量。

  這種靜態方式在推理的時候無需選擇開關的網絡,不僅可以節省圖像解碼模塊到圖像推理引擎的帶寬,還可以在編碼模塊中忽略不重要的頻率分量,進而減少圖像編碼的計算量、延時,以及網絡傳輸的帶寬。

  他們提出的實驗結果表明,靜態方式下,輸入數據量減少87.5%,CNN 模型仍能保持相同的精度。

  總的來說,就是利用頻域特徵來進行圖像推理,從而省略頻域到空間域的轉換,因為這個轉換是圖像壓縮/解壓縮中計算量最大的步驟。

  同時可以在頻域選擇重要的信息,進一步減少系統中模塊之間的數據傳輸量,從而提升整個系統的性能。

  所以結果如何?

  精度更高,輸入數據量卻減少

  實驗主要在圖像分類和實例分割——兩個極具代表性的機器學習任務進行。

  在圖像分類任務中,採用ImageNet(ILSVRC-2012)作為數據集,ResNet-50和MobileNetV2作為CNN模型。

  經過訓練,得到了一張不同頻率分量重要性的熱力圖,描述了對應192個頻率分量的重要性程度。

  可以看出,Y(亮度)通道的重要性高於Cb和Cr通道,同時低頻分量的重要性高於高頻分量。

  這樣,就可以利用「頻域學習」方法,一次訓練了解如何分配帶寬資源。

  從結果可以看出,與基線 ResNet-50相比,使用所有頻率通道時,Top-1準確率提高了1.4% 。

  值得注意的是,DCT-48和 DCT-24分別選擇了48和24個頻率通道,輸入數據大小分別相當於基線 ResNet-50的一半。

  對於只有一半輸入數據大小的 DCT-24來說,Top-1的精度仍然提高了約1% 。

  再用MobileNetV2作為基準CNN模型,採用同樣的原理做實驗,得到結果如下:

  選擇32和24個頻率通道時,Top-1準確率分別提高了0.664% 和0.58% 。

  對於實例分割任務,採用了COCO數據集,並使用Mask RCNN作為深度神經網絡結構,訓練得到的192個頻率分量的熱力圖如下:

  實驗結果表明,當輸入數據大小相等(DCT-48)或較小(DCT-24)時,該方法優於基於RGB的Mask R-CNN 基線。

  DCT-48,可以提升大約0.8%的精度(37.3%到38.1% 以及 34.2%到35.0%)。DCT-24,即輸入數據大小減少一半的情況,讓bbox AP 和 Mask AP的性能分別提高了0.4。

  應用到COCO數據集中,實際分割圖像是這樣的:

  阿里達摩院實習生領銜新研究

  這一成果,一共有6名研究人員參與,他們分別來自阿里達摩院和亞利桑那州立大學。

  論文的第一作者名為Kai Xu,文章的主要工作是他在阿里達摩院計算技術實驗室作為研究實習生時完成的,他正在亞利桑那州立大學的讀博。

  2011年,他本科畢業於山東大學電機及電子工程專業,2014年在電子科技大學獲得碩士學位,2015年,前往亞利桑那州立大學攻讀博士學位。

  他的指導教授名為Fengbo Ren,2008年本科畢業於浙江大學,之後在加州大學洛杉磯分校獲得了碩士和博士學位。2015年1月開始在亞利桑那州立大學任教,也是論文作者之一。

  Kai Xu的研究,集中在學習圖像和視頻的表徵方面,致力於處理圖像/視頻壓縮,重建和理解任務。從2016年以來,他已經在各個學術會議,比如ECCV、CVPR等發表了11篇論文,獲得了7項專利。

  在2019年6月進入達摩院實習之前,他還曾在三星美國研究機構實習過。在達摩院,他的研究方向是發掘計算機視覺領域的高效算法。

  除了Kai Xu和Fengbo Ren,其他4名研究人員Minghai Qin, Fei Sun, Yuyao Wang和Yen-Kuang Chen 均來自阿里達摩院計算技術實驗室,其中Yen-Kuang Chen是IEEE Fellow。

  這個馬雲寄予厚望的研究機構,正逐步爆發出越來越大的能量,並在吸引更多的人才加入。Kai Xu和他們提出的「頻域學習」,就是最新的代表之一。

  接下來,他們的研究目標是對視頻壓縮系統做同樣的嘗試。他們認為,視頻壓縮標準中包含了幀間運動預測/補償和幀內預測,對應的頻域信息會有比較大的差別。

  瞄準何愷明的實習生們

  越來越多的「實習生」,在人工智慧的前沿研究中現出身影,也將成為人工智慧領域發展的驅動型力量。

  比如字節跳動的實習生王鑫龍(阿德萊德大學在讀博士生),提出了實例分割新方法SOLO,引入「實例類別」的概念,把實例分割問題轉化為分類問題,在一些指標上,性能還要超過何愷明提出的Mask R-CNN。

  還有地平線的一名實習生黃釗金(華中科技大學碩士生),也曾提出過性能優於何愷明提出的Mask R-CNN的方案,並被CVPR 2019收錄。

  也許你已經發現了其中的規律,他們的目標都是何愷明的Mask R-CNN,都提出了相應的優化與改進方案。

  一方面,Mask R-CNN在圖像分割領域的確是高山級別的存在,但另一方面,誰說沒有致敬的意思呢?

  說不定,過幾年,這些實習生中就會出現另一個何愷明呢~

  傳送門

  論文地址:

  https://arxiv.org/pdf/2002.12416.pdf

  作者系網易新聞·網易號「各有態度」籤約作者

本文首發於微信公眾號:量子位。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

(責任編輯:王治強 HF013)

相關焦點

  • 在多目標識別方面,maskr-cnn已經取得了一些進展
    maskr-cnn是業界首款實用的全卷積神經網絡模型,為計算機視覺中的多目標識別與自動對焦,開創性的成為計算機視覺發展的新方向。無論是基於計算機視覺的自動對焦系統、模式識別系統,還是圖像識別,maskr-cnn都是有標誌性意義的。它強調平滑準確的計算輸入、檢測框和定位點,訓練過程與特徵提取過程採用多級感受野融合技術進行自動優化提高目標解析度及精度,以及做出精度更高的語義推理判斷。
  • .| 深度學習理論與實戰:提高篇(14)——​Mask R-CNN代碼簡介
    TRAIN_ROIS_PER_IMAGE = 32 # 每個epoch的數據量 STEPS_PER_EPOCH = 100 # 每5步驗證一下。最後是image_reference函數,它的輸入是image_id,輸出是正確的分類。
  • 經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...
    R-CNN 優缺點分析  優點:R-CNN 對之前物體識別算法的主要改進是使用了預先訓練好的卷積神經網絡來抽取特徵,有效的提升了識別精度。  缺點:速度慢。對一張圖像我們可能選出上千個興趣區域,這樣導致每張圖像需要對卷積網絡做上千次的前向計算。
  • 潮科技行業入門指南 | 深度學習理論與實戰:提高篇(14)——Mask R...
    = results[0] visualize.display_instances(image, r['rois'], r['masks'], r['class_ids'], class_names, r['scores'])檢測結果r包括rois(RoI)、masks(
  • Mask R-CNN官方實現「又」來了!基於PyTorch,訓練速度是原來2倍
    它支持Faster R-CNN、Mask R-CNN、RetinaNet等等,相比Facebook的Detecron有5%到20%的性能提升。這個模型還在2018年的COCO Detection競賽中拿下了冠軍。那麼今天Facebook發布的Mask R-CNN Benchmark相比前兩者有哪些優點呢?
  • FAIR最新視覺論文集錦:FPN,RetinaNet,Mask 和 Mask-X RCNN(含代碼...
    master/configs/12_2017_baselines   Keras - https://github.com/matterport/Mask_RCNN/   PyTorch - https://github.com/soeaver/Pytorch_Mask_RCNN/   MXNet - https://github.com/TuSimple/mx-maskrcnn
  • 阿里達摩院又新出了哪些「黑科技」?
    但GPS僅能提供米級精度的絕對定位,若要將精度提升到釐米級,業界通用的解決方案是藉助RTK(載波相位差分技術),而RTK通常需要搭配高精慣導使用,存在成本高昂、無法克服衛星信號不穩或丟失等問題。阿里達摩院自動駕駛實驗室負責人介紹,主流的多源融合定位技術分為鬆耦合和緊耦合兩類,前者對傳感器數據的處理結果進行融合;後者先對傳感器原始數據作融合,再進行集中式計算,效果更好,難度也更高。
  • 【ICCV2017視覺盛宴概況】何愷明博士包攬最佳論文和最佳學生論文獎!Facebook成大贏家!
    R-CNN》作者:Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick論文地址:https://research.fb.com/publications/mask-r-cnn
  • 從R-CNN到YOLO,一文帶你了解目標檢測模型(附論文下載)
    要想進一步了解,可以查看以下PPT和筆記:http://www.image-net.org/challenges/LSVRC/2013/slides/r-cnn-ilsvrc2013-workshop.pdfhttp://www.cs.berkeley.edu/~rbg/slides/rcnn-cvpr14-slides.pdf
  • 輕鬆學Pytorch –Mask-RCNN圖像實例分割
    Pytorch中使用Mask-RCNN實現實例分割,是基於torchvision的預訓練模型庫,首先需要下載預訓練模型,並檢查是否可以支持GPU推理,相關的代碼如下:model = torchvision.models.detection.maskrcnn_resnet50_fpn(pretrained=True)model.eval
  • 阿里達摩院、之江實驗室又新出了哪些「黑科技」?
    但GPS僅能提供米級精度的絕對定位,若要將精度提升到釐米級,業界通用的解決方案是藉助RTK(載波相位差分技術),而RTK通常需要搭配高精慣導使用,存在成本高昂、無法克服衛星信號不穩或丟失等問題。阿里達摩院自動駕駛實驗室負責人介紹,主流的多源融合定位技術分為鬆耦合和緊耦合兩類,前者對傳感器數據的處理結果進行融合;後者先對傳感器原始數據作融合,再進行集中式計算,效果更好,難度也更高。
  • 經典解讀 | Cascade R-CNN詳細解讀
    連結 | https://zhuanlan.zhihu.com/p/42553957源碼連結:https://github.com/zhaoweicai/cascade-rcnn文章提出的cascade結構的效果是驚豔的,幾乎對於任意的R-CNN(Faster rcnn,FPN,R-FCN等)都可以帶來2到4個點的AP提升!!!而且實現十分簡單,已使用Pytorch在Pascal VOC上復現論文。此外,本篇文章的實驗講解部分對於理解R-CNN網絡有很大的幫助,建議詳細閱讀。   0. 本篇解析的內容結構   1. 簡單回顧R-CNN結構
  • 先理解Mask R-CNN的工作原理,然後構建顏色填充器應用
    該特徵圖將作為下一個階段的輸入。代碼提示:主幹網絡在 resnet_graph() 函數中。代碼支持 ResNet50 和 ResNet101。特徵金字塔網絡(FPN)來源:Feature Pyramid Networks for Object Detection上述的主幹網絡還可以進一步提升。
  • Mask R-CNN原始碼終於來了,還有它背後的物體檢測平臺
    如果要在本地圖像上運行,只需要使用infer_simple.py工具,運行:python2 tools/infer_simple.py \ --cfg configs/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml \ --output-dir /tmp/detectron-visualizations
  • 阿里達摩院提出基於頻域信息的機器學習方法
    值得注意的是,由於我們做了8x8的DCT變換,我們實際輸入的圖片大小為448x448,是標準ResNet-50輸入(224x224)的兩倍。正因為我們提高了輸入圖片在空間域的解析度,我們在後續的實驗中可以得到更好的識別精度。
  • 獨家| 阿里達摩院大牛任小楓離任:一波三折轉入高德地圖
    機器之心消息,經機器之心聯繫多方知情人士確認,阿里達摩院前視覺實驗室負責人任小楓已經離開阿里達摩院,轉入高德地圖,擔任高德地圖首席科學家。2014 年,高德被阿里全資收購,現作為阿里巴巴的全資子公司。目前,阿里達摩院官網仍顯示任小楓為其機器實驗室負責人。
  • ...規模集成Transformer模型,阿里達摩院如何打造WMT 2018機器翻譯...
    原標題:專訪 | 大規模集成Transformer模型,阿里達摩院如何打造WMT 2018機器翻譯獲勝系統 機器之心原創 作者:思源 阿里達摩院機器智能實驗室的陳博興博士和司羅教授向機器之心介紹了阿里在機器翻譯領域的布局應用,以及如何通過對標準的 Transformer 模型進行改進和優化,而獲得更為優秀的神經機器翻譯系統。
  • 阿里達摩院發布十大科技趨勢:模塊化讓造芯像搭積木一樣簡單
    剛剛,阿里達摩院2020十大科技趨勢發布,涵蓋人工智慧、晶片製造、量子計算、工業網際網路、機器協作、區塊鏈、隱私保護、雲計算等多個領域,勾勒新一年科技走向。阿里達摩院解讀稱,依照傳統方法, 設計一個系統晶片(System on Chip),需要從不同的IP供應商購買IP,包括軟核IP或硬核IP,再結合自家研發的模塊,通過大量時間的驗證和軟體開發,集合成一個SoC,然後在某個製造工藝節點上完成晶片設計和生產的完整流程。
  • 美國重量級科學家,投身於我國阿里達摩院,舉家搬遷至中國?
    此次馬裡奧·賽格德受到阿里邀請,加入了阿里達摩院,就是看中了我國強大的經濟實力和阿里達摩院匯聚的科學家,他在那裡一定會有更多成果問世。