超多,超快,超強!百度飛槳發布工業級圖像分割利器PaddleSeg

2020-12-05 機器之心Pro

機器之心發布

機器之心編輯部

近日,飛槳官方發布了工業級圖像分割模型庫 PaddleSeg,給開發者帶來誠意滿滿的三重超值驚喜:①一次性開源 15 個官方支持的圖像分割領域主流模型,大禮包帶來大滿足。②多卡訓練速度比對標產品快兩倍,工業級部署能力,時間節省超痛快。③揭秘包攬了 CVPR2019 LIP 挑戰賽人體解析任務大滿貫的三冠王 ACE2P 預測模型關鍵技術,帶你一步體驗世界領先水平效果。

1. PaddleSeg 重磅發布

飛槳的新產品 PaddleSeg 全新上線,重點針對圖像分割領域,面向開發者提供了完備且易用的工業級分割模型庫。

是的,你沒有看錯,真正經得起考驗的【真. 工業級】的分割模型庫。

據介紹,PaddleSeg 已經在百度無人車、AI 開放平臺人像分割、小度 P 圖和百度地圖等多個產品線上應用或實踐,在工業質檢行業也已經取得了很好的效果。

飛槳官方提供的 PaddleSeg 全景圖如下圖所示:

2. 圖像分割是什麼?

圖像語義分割通過給出每一個圖像中像素點的標籤,實現圖像中像素級別的語義分割,它是由圖像處理到圖像分析的關鍵步驟。

就像下圖中所看到的那樣,可以對車輛、馬路、人行道等實例進行分割和標記!

相比於傳統的圖像分類任務,圖像分割顯然更難更複雜,

但是,圖像分割是圖像理解的重要基石,在自動駕駛、無人機、工業質檢等應用中都有著舉足輕重的地位。

3. PaddleSeg 三重驚喜

3.1. 一次性開源 15 個圖像分割領域主流模型,大禮包帶來大滿足

PaddleSeg 對所有內置的分割模型都提供了公開數據集下的預訓練模型,

全面覆蓋了 DeepLabv3+、ICNet、U-Net 等圖像分割領域的主流模型實現,並且內置了 ImageNet、COCO、CityScapes 等數據集下的 15 個預訓練模型,

滿足不同場景下的不同精度需求和性能需求!

15 個預訓練模型,請參考 https://github.com/PaddlePaddle/PaddleSeg/blob/master/docs/model_zoo.md

其中,最重要的三種模型介紹如下:

(1)支持 U-Net 模型:輕量級模型,參數少,計算快

U-Net 起源於醫療圖像分割,整個網絡是標準的 Encoder-Decoder 網絡,特點是參數少,計算快,應用性強,對於一般場景的適應度很高。U-Net 的網絡結構如下:

(2)支持 DeepLabv3+模型 :PASCAL VOC SOTA 效果,支持多種 Backbone

DeepLabv3+是 DeepLab 系列的最後一篇文章,其前作有 DeepLabv1,DeepLabv2, DeepLabv3。在最新作中,DeepLab 的作者通過 Encoder-Decoder 進行多尺度信息的融合,同時保留了原來的空洞卷積和 ASSP 層,其骨幹網絡使用了 Xception 模型,提高了語義分割的健壯性和運行速率,在 PASCAL VOC 2012 dataset 取得新的 state-of-art performance,即 89.0mIOU。DeepLabv3+的網絡結構如下:

在 PaddleSeg 當前實現中,支持兩種分類 Backbone 網絡的切換:

MobileNetv2:適用於移動端部署或者對分割預測速度有較高要求的場景,PaddleSeg 還提供從 0.5x 到 2.0x 不同 DepthMultiplier 的模型。Xception:DeepLabv3+原始實現的 backbone 網絡,兼顧了精度和性能,適用於服務端部署。PaddleSeg 提供了 41/65/71 三種不同深度的預訓練模型。

(3)支持 ICNet 模型:實時語義分割,適用於高性能預測場景

ICNet(Image Cascade Network)主要用於圖像實時語義分割。相較於其它壓縮計算的方法,ICNet 既考慮了速度,也考慮了準確性。ICNet 的主要思想是將輸入圖像變換為不同的解析度,然後用不同計算複雜度的子網絡計算不同解析度的輸入,然後將結果合併。ICNet 由三個子網絡組成,計算複雜度高的網絡處理低解析度輸入,計算複雜度低的網絡處理解析度高的網絡,通過這種方式在高解析度圖像的準確性和低複雜度網絡的效率之間獲得平衡。ICNet 的網絡結構如下:

3.2. 多卡訓練速度比對標產品快兩倍,工業級部署能力,時間節省超痛快

在速度方面,PaddleSeg 也提供了多進程的 I/O、優秀的顯存優化策略,性能方面得以大大提升。

PaddleSeg 的單卡訓練速度是對標產品的 2.3 倍,多卡訓練速度是對標產品的 3.1 倍。

與對標產品相比,PaddleSeg 在訓練速度、GPU 利用率、顯存開銷和 Max Batch Size 等方面都有著非常顯著的優勢。詳細的對比數據如下圖:

測試環境與模型:

GPU: Nvidia Tesla V100 16G * 8 CPU: Intel(R) Xeon(R) Gold 6148Model: DeepLabv3+ with Xception65 backbone

配套的,PaddleSeg 提供了優秀的工業級部署,包括:

高性能 C++預測庫:支持 Windows 跨平臺兼容,支持 Operator 算子融合、TensorRT 加速、MKL-DNN 等計算圖優化。Paddle Serving 服務化部署:支持高並發預測,支持單服務多模型,還支持模型熱更新和 A/B Test。

Paddle Serving 的架構圖如下:

不僅在 Paddle Serving 上可以應用,PaddleSeg 提供的模型還可以通過 Paddle Lite 完成移動端部署,可以很好的適配企業級的業務應用。

特別值得一提的是,考慮到在實際的企業場景中(如互娛場景等),往往存在標註成本高、標註數據少的問題,訓練數據相對於整個樣本空間的佔比是非常小的。此時就很有必要採取數據增強策略,對訓練集進行擴充。

PaddleSeg 內置了 10 餘種數據增強策略,可以有效地幫助企業進行數據集擴充,顯著提升模型的魯棒性。

使用 PaddleSeg 進行數據增強的流程如下:

3.3. 提供包攬 CVPR2019 LIP 挑戰賽人體解析任務大滿貫三冠王 ACE2P 模型,帶你一步體驗世界領先水平效果。

CVPR2019 LIP 挑戰賽中,百度公司實力爆棚,提出的 ACE2P 模型,包攬全部三個人體解析任務的第一名,實至名歸的大滿貫三冠王。

看完感覺不明覺厲,帶你了解一下:

LIP 是什麼:

LIP(Look Into Person) 是人體解析領域重要的 benchmark,其中人體解析 (Human Parsing) 是細粒度的語義分割任務,旨在將圖像中的人體分割為多個區域,每個區域對應指定的類別,如面部等身體部位或上衣等服裝類別。由於類別的多樣性與複雜性,比單純的人體分割更具有挑戰性。

具體的 LIP 又分為三個方向,分別是:

Single-Person Human Parsing TrackMulti-Person Human Parsing Track Video Multi-Person Human Parsing Track

ACE2P 是什麼

全稱是 Augmented Context Embedding with Edge Perceiving。

ACE2P 為人體部件分割模型,目的在於分割出圖像中的人體部件和服裝等部位。該模型通過融合底層特徵、全局上下文信息和邊緣細節,端到端訓練學習人體解析任務。本次發布的模型為 backbone 為 ResNet101 的單一模型,

網絡結構圖如下:

CVPR2019 LIP Parsing 的三項榜單全部被百度的 ACE2P 霸榜。

ACE2P 冠軍預測模型在 PaddleHub 版本的快速體驗命令行直接使用:

更多內容:https://paddlepaddle.org.cn/hubdetail?name=ace2p&en_category=ImageSegmentation

4. 實際應用效果怎麼樣?

說了這麼多,PaddleSeg 實際效果怎麼樣,我們用案例說話。

4.1. 應用場景一:工業質檢

飛槳與國內稀土永磁零件質檢領軍企業合作,基於 PaddleSeg 模型庫,對精密零件的質檢工作進行了 AI 賦能升級。

傳統的工作方式下,質檢工人每天需要 8~12 小時在亮光下目視檢查直徑 45mm 以內零件的質量,工作強度非常大,對視力也有很大的損害。

目前,基於 PaddleSeg 內置 ICNet 模型實現的精密零件智能分揀系統,誤收率已低於 0.1%。對於 1K*1K 解析度的彩色圖像,預測速度在 1080Ti 上達到了 25ms,單零件的分揀速度比用其他框架實現的快 20%。PaddleSeg 已幫助工廠達到:生產成本平均降低 15%,工廠效益平均提升 15%。同時,交付質量也大幅提升,投訴率平均降低 30%

4.2. 應用場景二:地塊分割

分割技術在農業領域也有著廣泛的應用,地塊分割便是其中一個場景。

傳統的地塊分割方法,是基於衛星拍攝的遙感影像,依賴於大量擁有遙感專業背景的技術人員使用專業軟體來進行分析的。

衛星遙感影像數據存在畫幅巨大、肉眼解析度低的問題,對技術人員的專業要求能力很高,並且人工標註需要大量的重複勞動,非常費時費力和枯燥無味。

如果基於圖像分割技術,開發一款地塊智能分割系統,快速自動地獲知農耕用地邊境及面積,就可以更加有效地進行農作物產量預估和農作物分類,輔助農業決策。

目前,基於 PaddleSeg 內置模型 DeepLabv3 實現的地塊智能分割系統,面積提取準確率已達到了 80% 以上,這對作物長勢、作物分類、成熟期預測、災害監測、估產等工作都起到了高效的輔助作用,大大節省了人力成本。

4.3. 應用場景三:車道線分割

車道線分割,是圖像分割在自動駕駛領域的一個重要應用。

車道線分割的難點主要有兩個:

一個是準確度。由於涉及到車輛行駛的安全性,車道線分割對準確度的要求非常非常高的。另一個是實時性。在車輛高速行駛的過程中,必須快速地、實時地提供車道線分割結果。

準確而快速的車道線分割,能夠實時地為車輛提供導航和車道定位指引,提高車輛行駛的安全性,目前正在百度無人車應用實踐。

PaddleSeg 實測效果:

4.4. 應用場景四:人像分割

不僅在工業場景下,在 C 端互娛領域,短視頻人像特效、證件照智能摳圖、影視後期處理等場景下,都需要對人像進行分割。

有了這個技術,一寸照片換底色,藍色、白色、紅色輕鬆切換。

基於 PaddleSeg 實現的人像分割模型,mIoU 指標已經達到了 0.93 以上,並且已經在百度 AI 開放平臺上線,合作企業高達 60 餘家,是真正的產業利器。

5. 技術乾貨:LIP 人體部件分割關鍵技術點揭秘

5.1. 修改網絡結構,引入擴張卷積(Dilation convolution),提升 1.7 個點

將 ResNet 的 7x7 的卷積層換成了 3 個 3x3 的卷積層,增加網絡深度,加固網絡的底層特徵。

使用 stride=2 的卷積層替換掉網絡中所有的池化層,讓下採樣過程變得可學習在 Renset 結構的 stage=5 中加入了 dilation,擴大網絡的感受野,增加網絡的有效作用區域,使得模型特徵更加魯棒加入了 pyramid pooling 結構,保證了一個全局的 context 信息的提取。

5.2. 引入了 Lovasz loss,提升 1.3 個點

Lovasz loss 是一個多類的 IOU loss,是針對分割的評價指標 IOU 專門設計的 loss,更加適合分割任務Lovasz loss 配合 cross entroy loss 使用,整體的效果提升了 1.3 個點

5.3. 定製化的學習方式,提升 0.8 個點

在實踐的過程中我們發現學習方法對最終的效果影響也比較大,所以我們針對任務定製化了學習的方法。

在開始學習的時候我們先使用 warmup 的學習策略,使得一開始時模型的優化更加容易收斂,替換掉常用的 poly 學習策略,引入 cosine decay 的方法,使得在訓練快結束時學習率不至於過小,而導致網絡不能收斂到最佳值。整個過程學習率曲線可視化如下:

5.4. 加入 edge 模塊,提升 1.4 個點

加入 edge detection 模塊,加深不同 part 之間的骨架特徵,減少類間誤分割.將 edge 模塊的特徵與 seg 的特徵融合,使得不同任務之間的效果能夠相互提升。具體如下:

6. 代碼實戰體驗

為了更好的體驗分割庫的效果,避免因為軟硬體環境導致的各種問題,我們採用了 AIStudio 一站式實訓開發平臺作為體驗環境,通過完整的人像分割的實例教程來熟悉 PaddleSeg 的使用

本教程使用 DeepLabv3+ xception 的網絡結構進行人像分割。

DeepLabv3+是 DeepLab 語義分割系列網絡的最新作,其前作有 DeepLabv1,DeepLabv2, DeepLabv3, 在最新作中,DeepLab 的作者通過 encoder-decoder 進行多尺度信息的融合,同時保留了原來的空洞卷積和 ASSP 層,其骨幹網絡使用了 Xception 模型,提高了語義分割的健壯性和運行速率,在 PASCAL VOC 2012 dataset 取得新的 state-of-art performance,89.0mIOU。

整個網絡結構如下:

Xception 是 DeepLabv3+原始實現的 backbone 網絡,兼顧了精度和性能,適用於服務端部署。

傳送門:https://aistudio.baidu.com/aistudio/projectdetail/110669關於 AIStudio 的使用可以參考:https://aistudio.baidu.com/aistudio/projectdetail/39212

項目代碼內容都是經過研發人員細心優化並封裝好頂層邏輯,可以讓開發者最快方式體驗 PaddleSeg 的效果,以下代碼內容供參考核心流程及思路,實際體驗建議開發者完整 Fork 項目並點擊全部運行即可。

6.1. 模型訓練

第一步:解壓預訓練模型

%cd ~/PaddleSeg/!mkdir pretrain!unzip -q -o ~/data/data11874/xception65_pretrained.zip -d pretrain

第二步:解壓訓練數據,

%cd ~/PaddleSeg/!mkdir data!unzip -q -o ~/data/data11874/humanseg_train.zip -d data

第三步:開始訓練,其中配置參數「cfg」用於 指定 yaml 配置文件路徑, 模型的配置文件位於 configs 文件夾下的.yaml 文件,「use_gpu」用於是否啟用 gpu, 由於 cpu 訓練過慢,不建議使用 cpu 進行訓練

%cd ~/PaddleSeg/!cp ~/work/humanseg.yml configs/!python ./pdseg/train.py --cfg ./configs/humanseg.yml --use_gpu

6.2. 模型預測和可視化

預測可視化 參數「--vis_dir」用於指定預測結果圖片存放位置

%cd ~/PaddleSeg/!python ./pdseg/vis.py --cfg ./configs/humanseg.yml --vis_dir ./visual --use_gpu

6.3. 實際效果

將分割前後的數據顯示出來

這裡,可以任選測試集的數據也可以自己上傳數據來測試實際的分割結果。

image_path = "./data/humanseg/test_images/f4963c23694e919b153546c95e3479675a5a13bd.jpg"mask_path = "./visual/visual_results/f4963c23694e919b153546c95e3479675a5a13bd.png"display([image_path, mask_path], 0)

效果不錯呦,趕快用起來吧

更多詳情

歡迎加入官方 qq 群:796771754官網地址:https://www.paddlepaddle.org.cn項目地址:https://github.com/PaddlePaddle/PaddleSeg

相關焦點

  • 技術公開課實錄:圖像分割庫PaddleSeg深度解析與應用
    為了讓更多的開發者了解飛槳的最近技術進展,特別組織了系列技術稿件,視頻來源於2019 WaveSummit秋季深度學習開發者峰會上的技術公開課。本期是由百度飛槳資深研發工程師為大家帶來圖像分割庫PaddleSeg深度解析與應用,敬請觀看。
  • PaddleSeg圖像分割庫再添新武器,新增壓縮部署方案FLOPs降低51%
    從數學角度來看,圖像分割是將圖像劃分成互不相交的區域的過程。如圖1所示,隨著人工智慧的發展,圖像分割技術已經在交通控制、醫療影像和工業用表識別等多個領域獲得了廣範的應用。為了讓廣大開發者可以方便快捷的將圖像分割技術應用到自己的業務中,飛槳開發了一整套圖像分割模型庫,這就是我們接下來要介紹的 PaddleSeg。
  • 基於複數神經網絡首發量子機器學習開發工具 「量槳」,飛槳布局...
    百度首席技術官、深度學習技術及應用國家工程實驗室主任王海峰在峰會上分享到:「時代契機為飛槳的發展提供了最好的機遇,飛槳將與產業緊密融合,與開發者並肩前行。」(圖:百度首席技術官王海峰)百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜正式對外發布飛槳最新的全景圖,包含飛槳開源深度學習平臺和飛槳企業版兩部分。
  • 23個系列分類網絡,10萬分類預訓練模型,這是飛槳PaddleClas百寶箱
    機器之心機器之心發布機器之心編輯部如何訓練出優秀的圖像分類模型?飛槳圖像分類套件 PaddleClas 來助力。今天咱們來聊聊計算機視覺領域最核心的技術之一——圖像分類。
  • 全球AI作業系統暗戰:百度飛槳為中國深度學習撐起天空
    本次會議,百度AI技術平臺體系執行總監、深度學習技術及應用國家工程實驗室副主任吳甜為人工智慧領域展示了重磅升級的「飛槳產業級深度學習開源開放平臺」,及其四大領先技術,並首度發布《百度大腦AI技術成果白皮書》10月20日,第六屆世界網際網路大會2019年度領先科技成果大獎揭曉,百度飛槳入選網際網路領先科技成果。
  • 百度飛槳用AI打破「次元壁」,WAVE SUMMIT+2020體驗穿越動漫世界
    (圖:顏值穿越器現場體驗)  「變禿」了,但也變強了!  「哇,這個有點多啊,我會的可多了,你隨便考考我看看嘛。」  這個萌萌的虛擬二次元助手「度曉曉」的顏值、智商都夠在線。幾番交流後,體驗者們都對度曉曉讚不絕口。
  • 超快超強雷射及其科學應用發展趨勢研究
    圖1 超快超強雷射的應用三、超快超強雷射國內外研究現狀(一)超快雷射及其科學應用1.為了研究更複雜豐富的超快動力學過程,多參量光場精密調控和多波長飛秒超快雷射也獲得了發展。國內較多研究團隊直接採用商用進口的飛秒雷射器,疊加非線性效應來拓展波長等參量。在光場精密調控和多波長飛秒超快雷射方面,上海光學精密機械研究所、上海科技大學、西安交通大學等機構完成了系列研究。
  • 超快雷射風口來臨,盤點全球超快雷射企業—中國篇
    隨著超短脈衝啁啾放大技術(CPA)的出現使雷射的強度得到大大提高,超快雷射出現在人們的視線之中,它具備獨特的超短脈衝、超強特性,超快雷射能夠聚焦到超細微空間區域,同時具有極高峰值功率和極短的雷射脈衝,加工過程中不會對所涉及的空間範圍的周圍材料造成影響,從而做到了加工的「超精細」,超快
  • 深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別
    圖像分割計算機視覺任務的核心是分割(Segmentation)處理,它將整幅圖片分割成可被標記和分類的像素組。在此基礎上,語義分割(Semantic Segmentation)則更進了一步,它試圖從語義上去理解一幅圖像中每個像素扮演的角色。比如:一個圖像中出現的是一隻貓還是汽車,還是其它類別的事物。
  • 從語音、視覺、語義到算法,百度大腦 5.0 全方位升級
    2019 年 7 月 3 日下午,百度 AI 開發者大會的百度大腦分論壇舉行。在上午的主論壇上,百度首席技術官王海峰正式發布百度大腦5.0。百度大腦 5.0 在算法突破、計算架構升級的基礎上,實現AI算法、計算架構和應用場景的融合創新,成為軟硬一體AI大生產平臺。下午百度大腦分論壇上,相關業務負責人分別詳細介紹百度大腦各能力具體的進展。
  • 智東西晚報:賽靈思推首款面向太空和衛星應用晶片 飛槳發布量子...
    3、飛槳發布量子機器學習開發工具量槳5月20日消息,在今天上午的WAVE SUMMIT 2020深度學習開發者峰會上,百度CTO王海峰宣布了飛槳的全新發布與重磅升級:飛槳版圖全新升級,包含飛槳開源深度學習平臺和飛槳企業版兩部分。它將聚焦於滿足旺盛的產業智能化需求和快速增長的AI生產規模。
  • 戰略研究丨超快超強雷射及其科學應用發展趨勢研究
    二、超快超強雷射應用與發展需求分析超快超強雷射在相關前沿基礎科學研究中的應用拓展,亟需進一步提升雷射參數,探索利用雷射脈衝的其他參量來將超快和超強前沿基礎科學研究推進到更為深入的物質層次。根據前沿科學研究目標的差異,未來領域應用與發展的需求集中在以下兩部分。
  • 工業級光纖收發器常見接入形態有哪些?
    光纖收發器具有通信速率高、傳輸快、抗幹擾性能強等優點,那麼,在工業級的應用當中,工業光纖收發器常見接入網絡的方式有哪些呢?接下來我們就跟隨飛暢科技的小編一起來看看吧!鏈形骨幹網是可以提供圖像、語音、數據及實時監控綜合傳輸的多媒體網絡。
  • 不用再找換臉教程了,飛槳PaddleGAN給你一鍵式體驗
    現在,飛槳核心框架Paddle Fluid v1.5宣布開源了PaddleGAN圖像生成庫,為用戶提供易上手的、一鍵式可運行的GAN模型。飛槳(PaddlePaddle)致力於讓深度學習技術的創新與應用更簡單。
  • 一鍵啟動在線推理服務,輕鬆實現在線部署,這有個「煉丹」利器
    機器之心發布機器之心編輯部本文詳細介紹了如何使用百度 Paddle Serving 來實現高效的服務化部署。常見的深度學習模型開發流程需要經過問題定義、數據準備、特徵提取、建模、訓練幾個過程,以及最後一個環節——將訓練出來的模型部署應用到實際業務中。
  • 百度全功能AI開發平臺BML自動超參搜索技術全面解析
    BML自動超參搜索的實現:系統架構BML自動超參搜索功能基於百度自研自動超參搜索服務,服務運行過程如下圖所示,依靠百度智能雲CCE算力,支持多自動搜索任務並發。為了提供一個「好用」的自動超參搜索服務,架構實現時在並發搜索效率提升和系統容錯方面著重進行了考慮。
  • 乾貨速遞,百度BML自動超參搜索技術原理揭秘與實戰攻略!
    BML自動超參搜索的實現:系統架構  BML自動超參搜索功能基於百度自研自動超參搜索服務,服務運行過程如下圖所示,依靠百度智能雲CCE算力,支持多自動搜索任務並發。為了提供一個「好用」的自動超參搜索服務,架構實現時在並發搜索效率提升和系統容錯方面著重進行了考慮。
  • 飛槳閃耀2019百度雲智峰會,軟硬結合助力產業智能化
    AI加速器性能提升了近30倍,兼容飛槳深度學習框架,針對圖像、語音、NLP等AI能力專門優化,使得中國的AI跑在自主可控的AI晶片上;企業級AI開發平臺——百度機器學習BML4.0,全面涵蓋從數據到模型再到服務的AI全流程,支撐端、邊、雲一體化,內置飛槳深度學習框架,集成超過70個飛槳自研模型,超過60個高性能算子。
  • 助力超快,共享未來!
    在「新型光纖、光纖設備和光纖放大器」專題論壇中,烽火通信產品經理曾凡球應邀發表了《光子晶體光纖在超快光纖雷射器中的應用》的演講,與參會同仁共話超快光纖技術及發展趨勢,分享了烽火在超快領域高端應用的研發及製造成果。