技術公開課實錄:圖像分割庫PaddleSeg深度解析與應用

2021-01-11 飛槳深度學習學院

導讀:飛槳(PaddlePaddle)致力於讓深度學習技術的創新與應用更簡單。為了讓更多的開發者了解飛槳的最近技術進展,特別組織了系列技術稿件,視頻來源於2019 WaveSummit秋季深度學習開發者峰會上的技術公開課。

本期是由百度飛槳資深研發工程師為大家帶來圖像分割庫PaddleSeg深度解析與應用,敬請觀看。

視頻關鍵知識點Notes:

PaddleSeg四個特點:一是豐富的數據增強;二是模塊化的設計;三是在高性能優化;四是工業級部署。

01 豐富的數據增強

PaddleSeg提供10餘種數據增強的策略,有效的訓練數據,大幅度提升模型的魯棒性,開發者可以根據實際的場景進行靈活組合,根據實際場景進行選用,讓整個分割模型應用泛化能力更強。

02 模塊化的設計

整個PaddleSeg開發套件都是模塊化設計的,無論是數據增強模塊裡面的多種增強算法,主幹網絡的多種Backbone模塊選擇,都可以讓開發者更好的根據實際業務場景需求使用。分割網絡包含了目前的4種主流網絡:醫療領域常見的U-Net,經典的DeepLabV3,面向實時場景的分割模型ICNet等。同時對於損失函數的模塊化設計,也可以更好的提升各個分類場景下的分割精度,例如小目標分割的效果。

03 高性能

PaddleSeg在性能優化方面開展了很多工作。包括訓練速度提升、GPU利用率提升以及顯存性能優化。同時支持較新的FP16混合精度的訓練。特別的,對於動態的Loss Scaling,在不損失精度的情況下,性能可以有30%的提升。PaddleSeg在英偉達特斯拉V100卡上,單卡訓練速度是對標產品的2.3倍,多卡上是對標產品的3.1倍。

04 工業級部署

根據產業的需求,PaddleSeg開發了高性能的C++預測庫。在多線程計算優化、算子硬體加速方面,而且依託於真實的項目實踐驗證做了大量優化工作,真正滿足工業級部署需求。

05 應用場景和案例介紹

5.1電池隔膜產品質檢任務

此任務的挑戰是,分割目標非常小、類別不均勻、預測性能要求高,不能拖慢流水線的速度。通過PaddleSeg實現方案最終IoU做到了0.82。預測速度在200×200的圖上小於2.5毫秒,保證生產效率不會受影響。

5.2工業精密零件質檢智能分揀

選用了ICNet,在800×800、1000×1000的大圖分割速度約25毫秒,誤收率小於0.1%,對比其他框架速度快20%左右。

5.3人像分割

PaddleSeg開放了人像分割的預訓練模型,mIoU可以做到0.93,適用於證件照片、人像特效、替換照片視頻背景等分割任務。

06 後續規劃

PaddleSeg後續開放方向:一是視頻級別分割,做到如人體特效、天空分割、實時的語義分割等;二是圖像分割解決方案。三是高性能的端側部署,與PaddleSlim打通,支持模型壓縮,並與Paddle Lite整合,讓開發者能夠更方便的部署到端上。

相關焦點

  • 深度解析音頻檢測背後的技術 | 雷鋒網公開課
    本期雷鋒網(公眾號:雷鋒網)硬創公開課,我們邀請了極限元智能科技聯合創始人馬驥為大家解讀關於音頻審核背後的技術。今年,相關部門已經針對這些亂象加大了打擊力度,因此基於網際網路直播平臺的有害信息檢測成為重中之重。以圖像識別技術為基礎如何進行鑑黃?
  • 深度解析音頻檢測背後的技術|硬創公開課
    本期雷鋒網硬創公開課,我們邀請了極限元智能科技聯合創始人馬驥為大家解讀關於音頻審核背後的技術。嘉賓介紹馬驥:極限元智能科技聯合創始人,曾先後就職於中科院軟體研究所、華為技術有限公司,獲得多項關於語音及音頻領域的專利,資深軟體開發工程師和網絡安全解決方案專家,擅長從用戶角度分析需求,提供有效的技術解決方案,具有豐富的商業交流和項目管理經驗。
  • 百度飛槳發布工業級圖像分割利器PaddleSeg
    ③揭秘包攬了 CVPR2019 LIP 挑戰賽人體解析任務大滿貫的三冠王 ACE2P 預測模型關鍵技術,帶你一步體驗世界領先水平效果。1. PaddleSeg 重磅發布飛槳的新產品 PaddleSeg 全新上線,重點針對圖像分割領域,面向開發者提供了完備且易用的工業級分割模型庫。
  • PaddleSeg圖像分割庫再添新武器,新增壓縮部署方案FLOPs降低51%
    說到這裡那些了解圖計算機視覺的小夥伴們應該就會想到這個領域的核心研究方向之一的圖像分割技術(Image Segmentation)。什麼是圖像分割?圖像分割是一種將圖像分成若干個特定的、具有獨特性質的區域並提取出感興趣目標的技術和過程。
  • 深度學習新星:GAN的基本原理、應用和走向 | 雷鋒網公開課
    如果讀者想獲得關於本次公開課的PPT,可前往雷鋒網旗下微信公眾號【AI科技評論】,關注後回復「馮佳時PPT」獲得下載地址。近年來,基於數據而習得「特徵」的深度學習技術受到狂熱追捧,而其中GAN模型訓練方法更加具有激進意味:它生成數據本身。
  • 指靜脈識別技術的源起、應用與發展深度解析
    在2019年,指靜脈識別技術在支付、安防、地鐵、門鎖、消費電子等領域均有創新性的應用,如日立製作所和東芝推出「刷手指」支付服務、廣州地鐵推出指靜脈識別過閘機、格力推出指靜脈智能鎖、小米有品上架多親指靜脈識別私密箱等。本文將從技術原理、發展歷程及門鎖領域應用三個方面對當前最火熱的指靜脈識別進行深度解析。
  • 深度解析3D攝像頭技術與應用報告
    我們通常接觸的普通攝像頭只是二維的,沒有深度的,也就是每一個景象都是平面的連續播放。這樣的攝像頭是無法人們提供身臨其境的感受的!而3D攝像頭在二維圖像的基礎上增加了對拍攝對象的深度測量,即三維的位置及尺寸信息,從而形成三維圖像,其「看到」的景象和眼睛所看到的景深是類似的。
  • 多視圖幾何三維重建技術背後的原理解析與實踐
    三維重建是計算機視覺研究的重要內容之一,是根據單視圖或者多視圖的圖像重建三維信息的過程。早期的三維重建更多的是通過在相機進行預標定、或相機按照特定軌跡運動的情況下進行重建,這樣的三維重建只能實現靜止和已知環境下的三維重建,具有一定的應用局限性。
  • 深度解析音頻檢測背後的技術
    以圖像識別技術為基礎如何進行鑑黃?在直播的時候,每個直播間會間隔一秒或幾秒採集一個關鍵幀,關鍵幀會發送到圖像識別引擎,引擎根據圖像的顏色、紋理等等特徵來對敏感圖像進行過濾,這一過程會檢測肢體輪廓等關鍵特徵信息,然後對檢測圖像特徵與特徵庫模型裡面的特徵相似度進行匹配,給予待測圖像色情、正常、性感等不同維度的權重值,以權重值最高的作為判定結果輸出。
  • ARXIV:深度學習在金融領域中的應用 | 唧唧堂論文解析
    :R&F;審校編輯 | 悠悠 本文是針對《Deep Learning for Financial Applications : A Survey(深度學習在金融領域中的應用)》的一篇論文解析,其作者為Ahmet Murat Ozbayoglua, Mehmet Ugur Gudeleka和Omer Berat Sezer。
  • 一文探討可解釋深度學習技術在醫療圖像診斷中的應用
    本文重點關注可解釋深度學習方法在醫療圖像診斷中的應用。由於醫學圖像自有的特點,構建用於醫療圖像分析的可解釋深度學習模型與其它領域中的應用是不同的。本文依託於綜述性文章[1],首先回顧了可解釋性方法的主要分類以及可解釋深度學習在醫療圖像診斷領域中應用的主要方法。然後,結合三篇文章具體分析了可解釋深度學習模型在醫療圖像分析中的應用。
  • AI 從業者該如何選擇深度學習開源框架丨雷鋒網公開課
    上面我們提到的不少平臺是專門為深度學習研究和應用進行開發的,不少平臺對分布式計算、GPU 等構架都有強大的優化,能否用這些平臺/軟體做其他事情?比如有些深度學習軟體是可以用來求解二次型優化;有些深度學習平臺很容易被擴展,被運用在強化學習的應用中。哪些平臺具備這樣的特點?這個問題可以涉及到現今深度學習平臺的一個方面,就是圖像計算和自動化求導。
  • 詳解:智能醫學影像分析的前沿與挑戰 | 雷鋒網公開課
    楊士霆,畢業於臺灣長庚大學電機工程研究所博士班,主攻醫學影像處理與應用。研究領域涉及醫學影像處理,生物醫學資訊,醫用光學,類神經與模糊理論,功能性磁振造影,醫學物理與生醫統計。曾在臺灣林口長庚醫院,寧波杜比醫療負責影像算法開發工作,現任職於北京雅森科技發展公司,擔任高級算法研究員。
  • 人加智能CEO李嘉俊:雙目立體視覺感知技術及應用創新|公開課預告
    雙目立體視覺是通過兩臺位置相對固定的相機同時對場景進行成像,利用三角測距原理,根據成像視差來計算深度信息,是3D成像重要實現技術路徑之一,原理簡單、成本低、適用範圍廣,在安防、零售、自動駕駛、機器人等領域得到了廣泛的應用。
  • 奧比中光加速布局TOF技術 Real World超級公開課打造技術新平臺
    2020年7月2日,奧比中光「Real World超級公開課」第三期課程再次登場。此次特聘專家級講師圍繞《ToF系統設計與分析》專題課程,與來自全國行業人士與相關高校學生在B站直播live同臺進行深度探討。
  • 黃浴:基於深度學習的超解析度圖像技術發展軌跡一覽
    作者 | 黃浴轉載自知乎導讀:近年來,使用深度學習技術的圖像超解析度(SR)取得了顯著進步。本文中,奇點汽車自動駕駛首席科學家黃浴對基於深度學習技術的圖像超解析度技術進行了一次全面的總結,分析了這門技術近年來的發展軌跡。
  • 2018 公開課盤點企業篇:十家企業帶你看 AI 的實際應用成果及人才...
    然而在實際部署的時候,許多場景例如無人駕駛,安防等對設備在功耗、成本、散熱性等方面都有額外的限制,導致了無法大規模應用深度學習解決方案。全球矚目的人工智慧創業企業之一地平線在晶片方面就有許多可以值得分享的研發成果和技術經驗。對此,AI 研習社邀請到了地平線的初創人員黃李超來公開課上進行分享。
  • 「科技長城」公開課瘋狂輸出技術乾貨,網友表示一定「三連」!
    2020年9月23日,"科技長城"系列公開課正式啟動,第一講登陸網易新聞客戶端。長城汽車檸檬平臺動力工程師張凡和長城汽車檸檬平臺架構工程師孫喜冬做客直播間,為公眾深度剖析"長城·檸檬"核心技術,讓用戶領略"科技長城"新面貌。同時長城汽車也為參與直播的網友準備了精美禮品,以抽獎形式發放。
  • 3D深度傳感ToF技術的基本原理解析
    飛行時間(ToF)相機憑藉更小的外形尺寸、更寬的動態感測範圍,以及在多種環境下工作的能力,成為首選的深度傳感方法。雖然ToF技術已在科學和軍事領域應用多年,但隨著21世紀初圖像傳感技術的進步,才得到更加普遍的應用。性能的變革意味著,包括 ADI ToF 技術在內的探測技術,已被應用到智慧型手機、消費電子和遊戲設備中,未來將不僅限於消費市場。
  • 一場深度學習引發的圖像壓縮革命
    WEBP 採用一種基於 VP8 編碼(已於 2010 年 5 月開源)的圖片壓縮器,利用預測編碼技術,達到減少數據量、加速網絡傳輸的目的。而 TNG 一改傳統的這些編碼技術,轉而乘上深度學習這艘大船。據圖鴨科技 CEO 武俊敏介紹,他們從 16 年 8 月開始對 TNG 技術進行研發,歷經傳統算法和深度學習算法兩個階段。最初,他們在 H.265(HEVC)基礎上進行研究,但 H.265 已經是當時最優秀的編碼方法之一,基於這項技術進行傳統研發的新思路並不多。此時,另一條路擺在他們眼前,那就是深度學習。