PaddleSeg圖像分割庫再添新武器,新增壓縮部署方案FLOPs降低51%

2020-12-05 百度AI

相信很多人都看過電影《變形金剛》中大黃蜂變身的跑車飛馳在公路之上,可是大家有沒有仔細想過,大黃蜂是怎麼知道馬路中間是黃實線還是黃虛線,到底能不能壓線,能不能掉頭呢?要知道差一點沒分清楚,那就是200塊錢罰3分的下場。

說到這裡那些了解圖計算機視覺的小夥伴們應該就會想到這個領域的核心研究方向之一的圖像分割技術(Image Segmentation)。

什麼是圖像分割?

圖像分割是一種將圖像分成若干個特定的、具有獨特性質的區域並提取出感興趣目標的技術和過程。從數學角度來看,圖像分割是將圖像劃分成互不相交的區域的過程。

如圖1所示,隨著人工智慧的發展,圖像分割技術已經在交通控制、醫療影像和工業用表識別等多個領域獲得了廣範的應用。為了讓廣大開發者可以方便快捷的將圖像分割技術應用到自己的業務中,飛槳開發了一整套圖像分割模型庫,這就是我們接下來要介紹的 PaddleSeg。

什麼是 PaddleSeg?

早在2019年秋季的時候飛槳就已經正式發布了圖像分割模型庫 PaddleSeg,這是一款如同工具箱般便捷實用的圖像分割開發套件,該套件具有模塊化設計、豐富的數據增強、高性能、工業級部署四大特點:

模塊化設計:支持 U-Net、DeepLabv3+、ICNet 和 PSPNet 等多種主流分割網絡,結合預訓練模型和可調節的骨幹網絡,可以滿足不同性能和精度的要求;PaddleSeg 提供了不同的損失函數,如 Dice Loss、BCE Loss 等類型,通過選擇合適的損失函數,可以強化小目標和不均衡樣本場景下的分割精度。豐富的數據增強:基於百度視覺技術部的實際業務經驗,內置10+種數據增強策略,可結合實際業務場景進行定製組合,提升模型泛化能力和魯棒性。高性能:PaddleSeg 支持多進程 IO、多卡並行、跨卡 Batch Norm 同步等訓練加速策略,結合飛槳開源框架的顯存優化功能,可以大幅度減少分割模型的顯存開銷,更快完成分割模型訓練。工業級部署:全面提供服務端和移動端的工業級部署能力,依託飛槳高性能推理引擎和高性能圖像處理,開發者可以輕鬆完成高性能的分割模型部署和集成。並且通過 Paddle Lite,用戶可以在行動裝置或者嵌入式設備上完成輕量級、高性能的人像分割模型部署。

正因為上述特點,用戶僅需要少量代碼或指令就可以根據使用場景從 PaddleSeg 中選擇並組合出合適的圖像分割方案,從而更快捷高效地開發出從訓練到部署的全流程圖像分割應用。

如今 PaddleSeg 升級了!

為了不斷追求卓越,此次隨著飛槳開源框架升級到1.7版本,PaddleSeg 再度重磅出擊。如圖2所示,如今的 PaddleSeg 無論在性能上,還是在模型豐富度上都做出了提升!

新增高精度圖像分割模型 HRNet

HRNet(High-Resolution Net)模型最大的特點就是可以使圖像在整個處理過程中保持高解析度特徵,這和大多數模型所使用的從高解析度到低解析度網絡(high-to-low resolution network)產生的低解析度特徵中恢復高解析度特徵有所不同。

如圖3所示,HRNet 以高解析度子網開始作為第一階段,逐個添加由高到低解析度子網以形成更多階段,同時並行連接多解析度子網絡。在整個過程中反覆交換並行多解析度子網絡中的信息來進行重複的多尺度融合。在像素級分類、區域級分類和圖像級分類任務中,都證明了這些方法的有效性。

這樣的網絡結構特點使得 HRNet 網絡能夠學習到更豐富的語義信息和細節信息,因此 HRNet 在人體姿態估計、語義分割和目標檢測領域都取得了顯著的性能提升。如下表所示,基於 Cityscapes 數據驗證集進行測評,HRNet 的分割精度最高。

新增實時語義分割模型 Fast-SCNN

Fast-SCNN 是一個面向實時的快速語義分割模型,其網絡結構如圖4所示,主要包含了四個部分,分別是學習下採樣模塊、全局特徵提取模塊、特徵融合模塊和最後的分類器模塊。在雙分支的結構基礎上,Fast-SCNN 使用了大量的深度可分離卷積和逆殘差(inverted-residual)模塊,並且使用特徵融合構造金字塔池化模塊(Pyramid Pooling Module)來融合上下文信息。這使得 Fast-SCNN 在保持高效的情況下能學習到豐富的細節信息。

Fast-SCNN 最大的特點是「小快靈」,即該模型在推理計算時僅需要較小的 FLOPs,就可以快速推理出一個不錯的結果。如下表所示,在不需要預訓練模型的情況下,輸入尺寸為(1024,2048)的圖片推理時, PaddleSeg 實現的 Fast-SCNN 的 FLOPs 僅為7.21 G,推理時間只需要6.28 ms,而在基於 Cityscapes 驗證數據集進行評測時,其 mIoU 評價能夠達到0.6964,可見 Fast-SCNN 不僅速度快,而且效果良好。

分割模型壓縮方案助力模型部署

FLOPs 減少51%

在某些場景中,語義分割模型在實際部署時,可能會由於耗時、體積等多方面因素導致模型無法滿足要求。此時模型壓縮通常是解決內存佔用和速度問題的有效手段。飛槳模型壓縮工具 PaddleSlim 為 PaddleSeg 提供了多種分割模型的壓縮方案,保障 PaddleSeg 可以順利部署成功。

以 L1 Pruning 裁剪方案為例,該方案通過裁剪掉卷積核來減小模型體積並降低模型計算複雜度,是一種常用的有效裁剪方案。其原理如下所示。

以圖5為例,ni 是第 i 個卷積層的輸入通道數,wi 和 hi 是輸入特徵圖的寬和高。卷積層將輸入維度為 Xi 的特徵圖轉化為維度為 Xi+1 的輸出特徵圖,且該特徵圖可以直接當作下一個卷積層的輸入。該卷積核的維度為

卷積層的加乘操作次數為

如果將圖中的第一個卷積核裁剪掉,則對應的一個特徵圖通道就沒有了,這樣將減少如下圖示運算:

同時由於此處輸出通道數的減少,將會連鎖導致下一層的卷積通道維度的縮減,又減少了

次運算。這是因為當圖中第一個卷積層的卷積核被剪掉以後,第二層保留的卷積核參數不僅是在卷積核個數這個維度上縮減了,還和第一個卷積層剪掉的卷積核個數有關,因此第一層卷積核的裁剪會間接導致了第二層卷積核在通道維度的縮減。

那麼如何確定哪些卷積核可以被裁剪呢?其具體過程如下:

對每個卷積核(ni × h × w)計算 h 和 w 維度的 L1 範數,從而得到通道維度上的特徵(ni × 1)。對得到的特徵(ni × 1)進行排序,這個排序就可以看成是通道維度上的特徵重要性排序。最後根據排序的結果和需要被裁剪的卷積核比例,裁剪掉排序中比較靠後的不重要的卷積核。

如下表所示,實驗表明在 Cityscapes 數據集上,使用 PaddleSlim 對 Fast-SCNN 模型進行裁剪,能夠確保在模型精度幾乎無損的情況下,減少51%的 FLOPs(每秒浮點運算次數),可以有效的提高運算速度。

如果您想詳細了解更多飛槳的相關內容,請參閱以下文檔。您還可以加入官方 QQ 群,將遇到許多志同道合的深度學習同學。

相關焦點

  • 技術公開課實錄:圖像分割庫PaddleSeg深度解析與應用
    本期是由百度飛槳資深研發工程師為大家帶來圖像分割庫PaddleSeg深度解析與應用,敬請觀看。視頻關鍵知識點Notes:PaddleSeg四個特點:一是豐富的數據增強;二是模塊化的設計;三是在高性能優化;四是工業級部署。
  • 圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀
    圖像壓縮挑戰賽中,圖鴨科技所提出的算法 TucodecSSIM 奪得了 MS-SSIM 和 MOS 兩項指標的冠軍,算法 TucodecPSNR 奪得了 PSNR 指標的冠軍,算法 TucodecPSNR40dB 則奪得高碼點圖像壓縮 Transparent Track 的冠軍。
  • 百度飛槳發布工業級圖像分割利器PaddleSeg
    機器之心發布機器之心編輯部近日,飛槳官方發布了工業級圖像分割模型庫 PaddleSeg,給開發者帶來誠意滿滿的三重超值驚喜:①一次性開源 15 個官方支持的圖像分割領域主流模型,大禮包帶來大滿足。②多卡訓練速度比對標產品快兩倍,工業級部署能力,時間節省超痛快。
  • 天才高中生參與斯坦福新研究:在圖像壓縮上,人類比算法強!
    新智元報導 來源:techxplore、arXiv編輯:大明、金磊在13種不同類型的高解析度圖像上呈現真人壓縮的結果表明,「真人」壓縮方案在13個圖像中的10個比WebP自動壓縮器表現出了更高的性能。數據收集實驗首先創建一個原始圖像的數據集,這些圖像並未在網絡上公開。原始圖像的創建以非原始圖片的精確副本實現,以防產生過於瑣碎的編碼。
  • 海量武器庫再添新裝備《掠奪者》全新破滅武器登場
    海量武器庫再添新裝備《掠奪者》全新破滅武器登場 來源:www.18183.com作者:糾結的烏龜時間:2017-02-16 分享到: 《Raven:掠奪者》今日迎來重大更新,全新破滅武器登場,強勢屬性縱橫掠奪戰場!
  • 基於小波變換的圖像壓縮算法改進研究
    改進方案包括使用正交小波基Z97替代小波變換,使用排除法減少對重要係數的掃描次數,使用多種掃描順序替換單一的「Z」字型掃描等。仿真實驗結果表明,改進的方案提高了圖像壓縮效率,改善了重構圖像的質量。本文在分析傳統的嵌入式小波零樹壓縮編碼的基礎上,分別針對小波變換階段、零樹構造階段和掃描階段提出了改進方案。仿真實驗結果表明,改進的方案提高了圖像壓縮效率,改善了重構圖像的質量。
  • 一場深度學習引發的圖像壓縮革命
    其主要採用 DCT(Discrete Cosine Transform)技術,將圖像信號在頻率域上進行變換,分離出高頻和低頻信息,然後再對圖像的高頻部分(即圖像細節)進行壓縮,以達到壓縮圖像數據的目的。JPEG2000 作為 JPEG 的升級版,同時支持有損壓縮和無損壓縮,壓縮率比 JPEG 高約 30% 左右。
  • 基於FPGA的無損圖像壓縮系統設計
    編者按:  摘要:本文簡要介紹了圖像壓縮的重要性和常用的無損圖像壓縮算法,分析了快速高效無損圖像壓縮算法(FELICS)的優勢,隨後詳細分析了該算法的編碼步驟和硬體實現方案,最後公布了基於該方案的FPGA性能指標。
  • 你不了解的卷積神經網絡:新一代圖像視頻壓縮技術
    在低壓縮比情形下(比如壓縮比小於 10:1),傳統的 JPEG 圖像質量有可能比 JPEG2000 好。JPEG2000 在高壓縮比的情形下,優勢才開始明顯。整體來說,JPEG2000 相比於傳統 JPEG,仍有很大技術優勢,通常壓縮性能可提高 20% 以上。當壓縮比達到 100:1 時,JPEG 壓縮的圖像已經嚴重失真並開始難以識別了,而 JPEG2000 的圖像仍可識別。
  • 未來武器,空間壓縮武器
    1000公裡壓縮到1米,空間壓縮時間壓縮讓距離變短改變物理常識,形成一個新的世界,一發炮彈直接可以打到美國戰鬥機速度提高上千倍,只要是武器一分鐘全球旅行,用在民用領域上班可以在北京下班可以到四川老家,任何地點三分鐘解決我們都知道空氣是有阻力的
  • Array Networks為陝西地稅部署負載均衡解決方案
    Array Networks為陝西地稅部署負載均衡解決方案 近日,Array Networks為陝西地稅的稅務系統成功部署了伺服器負載均衡解決方案,使得陝西省地方稅務網絡不再因為用戶訪問量過大而無法及時處理大量並發訪問,實現了系統的網絡優化,大大提升了系統的運行效率和用戶應用體驗,同時還為系統的數據提供了高度的安全保障
  • 多光譜可見光遙感圖像壓縮系統設計
    摘要:為了實現多光譜可見光遙感圖像高質量壓縮的要求,提出以JPEG2000壓縮標準為理論,將FPGA與專用壓縮晶片ADV212相結 合的空間遙感圖像壓縮方法。
  • 生化Z添新變異 CSOL2新角色、新系列武器魅力出擊
    ­  8月17日,《反恐精英Online(微博)2》將迎來暑期檔又一次更新,各種精彩新內容等你前來嘗鮮!生化Z戰場再添黑科技,新變異「黑洞」或成控場神技。同時,兩款帥氣男性角色健治、喬聯袂登場,還有紫水晶新刀及新系列皮膚武器「漢白玉」加入戰場,趕緊一起來看看吧!
  • CVPR 2018 圖像壓縮挑戰賽結果出爐,騰訊音視頻實驗室壓縮性能第一
    比賽
  • 阿里AI再獲圖像識別冠軍,可將深度學習算法壓縮100倍
    DoNews 7月30日消息(記者 趙晉傑)在CVPR 2019的低功耗圖像識別挑戰賽(LPIRC ,Low-Power Image Recognition Challenge)上,阿里AI獲得在線圖像分類任務第一名。這也意味著,阿里AI識別百萬圖像的算法,在手機上也能跑起來了。
  • 基於小波變換的JPEG2000圖像壓縮編碼系統的仿真與
    但由於有損壓縮的原因,傳統JPEG在許多對圖像質量要求較高的應用場合無法勝任。與傳統JPEG基於離散餘弦變換不同,JPEG2000基於離散小波變換,它不僅在壓縮性能方面明顯優於JPEG,還具有很多JPEG無法提供或無法有效提供的新功能,比如,同時支持有損和無損壓縮、大幅圖像的壓縮、漸進傳輸、感興趣區編碼、良好的魯棒性、碼流隨機訪問等。一個典型的JPEG2000的壓縮過程如圖1所示。
  • 基於運動補償和幀內編碼實現視頻圖像的無損壓縮
    本文結合實例,提出實用的圖像壓縮編碼方案。關鍵詞: 視頻圖像;小波變換;運動補償;壓縮編碼引言圖像壓縮是圖像處理中一個最重要的環節,而對視頻圖像的壓縮與復原更是其中的關鍵技術。本文針對「公路安全線軋壓監測系統」實例,介紹一種實用可行的無損圖像壓縮方案。
  • 一種基於小波變換的圖像壓縮方法與實現
    解決問題的根本就是必須要對圖像信息進行壓縮處理,在保證一定圖像質量的基礎上,能用儘可能少的信息量表示重構的原始圖像,即用最少的信息還原出最近似原始圖像的重構圖像。圖像壓縮技術在20世紀60年代後開始發展起來,80年代小波變換的理論被提出後,圖像壓縮技術備受關注並成為熱門的研究技術。
  • 74KB圖片也高清,谷歌用神經網絡打造圖像壓縮新算法
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI還在為圖像加載犯愁嗎?最新的好消息是,谷歌團隊採用了一種GANs與基於神經網絡的壓縮算法相結合的圖像壓縮方式HiFiC,在碼率高度壓縮的情況下,仍能對圖像高保真還原。
  • 今日Paper|可視問答模型;神經風格差異轉移;圖像壓縮系統;K-SVD...
    通過實驗,這篇論文給出了如何優化以降低複雜性和如何優化以實現當前最佳VQA性能的提升這兩個方面的建議。根據這些損失,可通過在字體中添加或刪除字體樣式來生成新字體。基於各種輸入字體組合的實驗結果,這篇論文還討論了所提方法的局限性和未來的工作。