如何用百度大腦EasyDL零售版實現貨架拼接

2020-11-26 IT168

  在快消行業的商品識別需求場景中,快消品牌商的業務代表在終端門店拜訪銷售時,需對商品陳列規範進行審查。傳統做法需要人工統計,耗費時間長,人力成本高,且數據真實性無法保障。快消品牌商為了對訪銷過程進行精細化管理,開始使用SFA、DMS等工具進行數位化轉型,並探索利用AI技術對現有的數位化訪銷實現「降本、增效、動銷」,推動其規模化落地,最終拉動業績增長。

  EasyDL是基於百度飛槳框架PaddlePaddle推出的面向企業打造的一站式AI開發平臺,包括經典版、專業版、零售版三款產品,面向不同人群、不同場景需求,提供高效進行AI模型開發部署的平臺產品。其中百度EasyDL零售版圍繞零售快消品行業的數位化訪銷場景,提供了核心的商品檢測識別模型及配套服務能力,包括定製商品檢測服務、標準商品檢測服務和貨架拼接服務。標準商品檢測服務提供無需訓練即可直接使用的商品檢測API,支持識別數千種常見飲品和日化用品;定製商品檢測服務,提供易操作的定製模型頁面,用戶僅需要五步便可以定製新的商品識別模型。標準和定製商品檢測服務都支持返回商品的名稱、品牌、規格和商品在圖中的位置,可用於輔助統計完整貨架上的商品排面、貨架佔比、商品分銷等陳列指標。由於一些門店內的貨架較長,需要對多張貨架局部圖片進行拼接,才能統計完整貨架上的商品陳列指標,因此自動實現貨架拼接並智能識別商品,成為快消品行業陳列審核效率提升的重要環節。為了滿足這一需求,百度EasyDL零售版推出了貨架拼接服務。

  百度飛槳EasyDL零售版貨架拼接服務支持將多個貨架的局部圖片或視頻,組合為完整貨架圖片;同時支持使用定製的或標準的商品檢測服務對局部貨架圖片進行商品檢測,並在拼接好的完整貨架圖中輸出商品檢測結果,其中包含SKU的名稱和數量,適用於需要在長貨架進行商品檢測的業務場景,並且支持雲服務調用、離線SDK部署或生成APP。下面,我們來看看貨架拼接服務的使用方式和具體實現細節。

  1、百度飛槳EasyDL貨架拼接服務結構總覽

  上圖是貨架拼接服務的整體結構總覽圖,用戶可以通過三種方式使用與體驗:1)直接調用雲服務API;2)使用離線部署SDK;3)生成體驗APP。

  在雲服務API方式中,為了方便用戶對需拼接的貨架圖片進行上傳、查詢等動作,我們提供了6個API接口,分別為:創建任務、上傳圖片、開始任務、查詢結果、終止任務和任務列表。其中,在查詢結果這個API中,根據任務狀態的進度不同,共有六種可能的任務狀態,包括:Created(已創建)、Queued(排隊中)、Running(正在拼接)、Success(拼接成功)、Failure(拼接失敗)、Terminated(已終止)。下圖為任務狀態的轉換圖:

  離線SDK是將API進行封裝後,支持用戶快速部署到多種硬體環境中離線使用,滿足各類無網絡環境或需要高並發返回預測結果的場景使用。

  當用戶完成模型發布後,在貨架拼接服務的頁面上可以選擇生成體驗APP,下載到手機進行使用。體驗APP支持用戶拍攝貨架視頻,APP會自動對視頻進行抽幀獲取局部貨架圖片。如果用戶尚未發布一個模型但想要體驗APP的使用,也可以通過https://ai.baidu.com/easydl/app/1001/vas/img-stitch 申請邀測權限,步驟如下:

  整個貨架拼接流程中使用的關鍵模塊和功能包括:

  1)Task Manager: 任務信息管理服務,提供了6個通用的API,管理貨架拼接任務的meta數據、完成用戶對任務的各種操作,對用戶數據鑑權等;

  2)Daemon Scheduler:後臺守護進程,負責掃描和調度可執行的貨架拼接離線任務;對任務進行流控管理;任務執行異常檢查等;

  3)DagTask Scheduler:基於有向無環圖(DAG)調度和執行任務。由於貨架拼接離線任務流程較為複雜,可以分為若干個子任務,部分子任務可並行執行,通過DAG的方式來組織和運行整體離線任務,可以提升任務的運行效率,後面會詳細介紹離線任務的完整結構。

  2、百度飛槳EasyDL貨架拼接離線任務實現詳解

  接下來,一起了解下離線任務是如何實現的。貨架拼接服務支持用戶上傳從上到下、橫向拍攝的多個視頻或者多組局部貨架圖片,貨架拼接任務會先後進行橫向和縱向的貨架圖片拼接,獲取完整的貨架大圖;另外由於用戶在百度EasyDL平臺訓練商品檢測模型使用的往往是貨架的局部圖片,因此需要使用局部圖片調用API進行商品檢測,並根據拼接參數將檢測框的位置校準的拼接大圖上。整個流程可拆分為以下5個子任務:

  1) 調用用戶指定的定製或者標準的商品檢測模型服務對局部貨架圖片進行商品檢測,獲取商品名稱和在局部圖片上的檢測框位置信息。

  2) 對每一組從左到右拍攝的局部貨架圖片,獲得一張拼接的完整貨架圖片。

  3) 經過步驟2,獲取N組貨架圖片橫向拼接後生成的大圖,對N張大圖進行縱向的圖片拼接,獲得最終完整的貨架完整大圖。

  4) 對於每一組從左到右拍攝的圖片,通過步驟2會得到的一組拼接參數,使用這組參數計算,對這組圖片的商品檢測框的位置進行相應的平移、旋轉、拉伸等,將檢測框橫向校準到拼接大圖上的相應位置,並對重疊較多的檢測框進行去重。

  5) 類似與步驟4,通過步驟3產生的拼接參數,對步驟4橫向校準後的商品檢測框,再次做縱向的位置校準,得到商品在最終大圖上的位置。

  整個流程總體可以組織如下所示的DAG:

  從上圖可以發現,在任務開始階段,子任務1和2沒有依賴的關係,可並行運行;在子任務2成功後,任務3即可運行,無需等待子任務1的結果;通過DAG方式可以使得子任務局部並行運行,加快整體拼接任務的處理速度。 另外,貨架圖片拼接子任務通過容器化的方式運行,避免對部署環境的依賴,提升可擴展性;通過調度資源工具,避免GPU、CPU等資源的搶佔衝突,提升拼接任務的可靠性。

  3、百度飛槳EasyDL貨架拼接算法詳解

  縱觀整個貨架拼接離線任務,其中較為核心的還是貨架拼接算法,算法的設計決定了拼接任務的速度、可靠性以及結果的準確性等。下面,將對貨架拼接算法進行詳細介紹。

  3.1、貨架拼接算法

  貨架拼接算法本質上是屬於圖像拼接算法的範疇,在圖像拼接算法中,目前主要有三種不同的方法:1)全局對齊方法,以一個單應性矩陣來對齊圖像,通過求解相機參數對圖像進行變換和融合,輸出拼接圖像;2)空域變化繪製方法,將圖像劃分為密集的網格,每個網格都用一個單應性矩陣對齊,然後對每個網格進行優化變形,採用全局對齊類似的方法對網格圖像進行拼接;3)縫合線主導方法,以匹配圖像之間的縫合線為主導,不用嚴格去對齊整個重疊區域,而是只對齊縫合線附近的區域,通過縫合線實現圖像的拼接。

  而對於貨架拼接的場景來說,拍攝圖片的方式一般都是手機端平移拍攝,存在拍攝的角度比較隨意、拍攝距離近、需要拼接的圖片數量比較多的問題。而在上述的圖像拼接算法中,全局對齊方法要求各次拍攝時相機的光心近乎重合,即拍攝時相機只能做純旋轉運動,對拍攝方式的要求很高。空域變化繪製方法和縫合線主導方法對匹配的特徵內點的數量和質量要求較高,而且需要調整更多的超參數,計算量較大,拼接速度慢,無法用於大量圖片的拼接任務。因此,上述幾種圖像拼接的方法都無法很好地解決貨架拼接場景存在的問題,不能直接用於貨架拼接。

  針對上述貨架拼接場景存在的問題,我們在全局對齊方法的基礎上對拼接算法進行了優化。首先,針對平移拍攝角度比較隨意的問題,在進行貨架圖像拼接之前,我們對輸入的貨架圖像進行水平矯正,將所有圖像都矯正到相同的拍攝視角下,這樣可以有效減小拍攝角度對拼接效果的影響,拼接效果有了很大提升。其次,當輸入的貨架圖片數量較多時,為了減小拼接難度,提高拼接的效率,我們自動對輸入的貨架圖片進行分組,將大量圖片的單次拼接分解成少量圖片的多次並行拼接,可以有效降低拼接時間。

  在分組拼接的過程中,我們採用與全局對齊類似的方法對單個分組的貨架圖片進行拼接,通過貨架圖像之間的匹配、變換和融合,得到每個分組的拼接圖片。之後對多個分組的拼接圖片進行合併,輸出整個貨架的拼接圖片和拼接參數。貨架拼接算法的整體流程如下:

  3.2、SKU檢測框合併去重

  SKU檢測框合併去重整體流程圖:

  對於在相鄰圖片重疊部分的SKU,其在兩張圖片上都會被檢測出來,因此我們需要對這部分SKU進行合併和去重,去除相同的SKU。具體步驟如下:

  1)將每張圖片上檢測到的SKU檢測框坐標根據貨架拼接的參數進行變換,將單張圖片上的SKU檢測框坐標轉換成拼接圖片上的SKU檢測框坐標。

  2)對於當前圖片上的每個SKU檢測框,當與其他某個SKU檢測框之間有重疊部分,且重疊部分的交並比(IOU)大於某一個閾值時,判定這兩個SKU檢測框屬於同一個檢測框。

  3)根據這兩個SKU檢測框的坐標以及置信度進行合併去重,得到最終的SKU檢測框坐標。

  4)當對所有圖片上的SKU檢測框都進行合併去重後,統計拼接圖片上的每一個種類的SKU檢測框的數量,可以得到整個貨架上SKU的種類以及數量,輸出整個貨架上SKU的統計信息。

  以上為百度飛槳EasyDL零售版貨架拼接服務架構和算法詳解的全部內容,為了全面助力快消品牌商對訪銷過程進行精細化管理,圍繞快速消費品企業在線下渠道中的銷量邏輯,百度大腦推出了基於AI技術的數位化訪銷解決方案,在EasyDL零售版的基礎上,還提供翻拍識別、門臉識別和門店拜訪行程規劃等AI能力,幫助品牌商有效提升一線業務人員人效,最終實現銷量的增長。

  目前已有多家零售快消品牌商和服務商在實際業務中使用百度EasyDL零售版,提升終端門店管理與執行的效率和效果,準確地洞察商品在貨架上的真實信息,讓數據分析更高效精準,有效縮短決策時長,從而實現市場運營與決策的智能化。

  如有興趣,欲了解詳情,請訪問官網。https://ai.baidu.com/easydl/retail


相關焦點

  • 百度大腦這樣思考:模仿人類大腦神經網絡
    目前,百度公司就有這樣一個叫做「百度大腦」的項目,用計算機加上深度學習等人工智慧技術去模擬人腦的思維,這個機器大腦到底是如何思考的?讓我們一起來看看。   這個大數據引擎是如何運轉的?與人類思考一樣,大數據引擎對數據的搜索分析及預測也通過一個機器大腦——百度大腦來實現。這個「大腦」用計算機模擬人腦神經網絡,包括模擬人腦學習分析的能力,從而通過多層的學習模型和海量的訓練數據進行數據智能分析,然後做出預測。
  • 2019百度AI開發者大會前夕,解讀百度大腦的半年「豹變」
    這種智能垃圾箱的背後,是百度大腦的AI技術。北京分形科技使用百度大腦EasyDL制化訓練及服務平臺,識別準確率高達99%。今年上半年,我看到了太多AI技術在各行各業落地的例子,其中很多應用的背後都有一個大明星:百度大腦。技術豹變:世界領先的AI平臺如何煉成2014年,百度第一次披露「百度大腦」。
  • 李彥宏:人工智慧就是「百度大腦」
    ,李彥宏認為,網際網路的增長不能再用人口驅動,移動網際網路的快速發展正在逐漸遠離。李彥宏表示,過去五六年間,百度花了很大的精力投入到人工智慧的研發當中,人工智慧就是「百度大腦」。三四年前,百度大腦就相當於兩三歲孩子的智能。但是人腦和電腦還是有很大區別的,而百度大腦主要有人工智慧的算法、計算能力和數據這三大板塊。其中人工智慧算法由超大規模神經網絡、萬億級參數、錢一樣本和遷移特徵訓練組成。計算能力由數十萬臺伺服器以及中國最大GPU集群組成。
  • 真的了解字符串拼接嗎?用Python拼接字符串的常用方法及性能分析
    大家選擇自己熟悉的掌握並使用即可,不需要全部進行記憶(留下大腦空間記點別的東西……)。常見的字符串拼接方式「+」操作符拼接「+」操作符連接字符串是Python中比較經典的字符串拼接方式。可以使用「+」將兩個字符串直接進行拼接。同時,它可以自主判斷是進行加法操作還是拼接字符串操作,當對字符串和數值型數據(整形、浮點型)進行拼接時,會拋出TypeError異常。
  • 做關於美的傳播者:百度大腦圖像技術支持B612咔嘰實現美顏新玩法
    先後兩次通過百度大腦AI能力實現油畫風與漫畫風濾鏡,可以說B612咔嘰從創意到落地「快速調用,一步到位」,「穩準快」地為用戶創造「分享美麗」的新玩法。百度大腦圖像技術的11項「圖像效果增強」能力事實上,基於領先的深度學習技術,百度大腦在圖像技術中可實現多種圖像效果增強。
  • 自研晶片+自主AI框架,百度CTO王海峰攜百度大腦6.0亮相
    剛剛,百度用AI技術帶我們體驗了一把「穿越」的感覺,面對20年前的自己。今天「百度世界大會」首次與「央視新聞」合作,總臺央視主持人康輝和百度創始人、董事長兼CEO李彥宏、百度CTO王海峰,「5個人」進行了一次特殊的對話。明明只有康輝、李彥宏和王海峰三人,為何會變成「5個人」的對話呢?
  • 護航百度大腦 百度AI安全版圖亮相百度世界大會2020
    以「萬物智能」為主題,一年一度的百度世界2020大會於9月15日正式揭幕。在百度大腦分論壇上,百度副總裁馬傑發表了題為「智能為腦,安全為本」的主題演講,系統闡述了百度大腦在AI安全領域一系列能力布局和最新進展。
  • 日均調用量超100億次 百度大腦正在用語音喚醒一個AI時代
    在當天舉行的百度大腦語音能力引擎論壇上,百度大腦語音引擎全新發布和升級了14大產品內容,包括基於百度鴻鵠語音晶片的4款硬體模組、開發板及3大場景解決方案,升級了語音自訓練平臺、呼叫中心語音解決方案等。來自家電、農業、醫療等行業的合作夥伴代表也在現場分享了百度大腦語音技術賦能的成果。
  • 人民日報創作大腦背後的AI支撐:百度大腦智能創作平臺技術解密
    12月24日,人民日報舉辦"2020智慧媒體高峰論壇",發布人民日報"創作大腦",百度公司提供技術支持,助力智能編輯部建設,開啟智能媒體新時代。人民日報"創作大腦"具備直播智能拆條、在線視頻快編、圖片智能處理、智能字幕製作、可視化大數據、智能寫作、新聞轉視頻、實時新聞監測等18項重點功能,是集輕應用平臺、智慧媒體雲、知識社區、開放生態於一身的一站式智能創作平臺,能夠為媒體機構提供全媒體生態智能解決方案。人民日報"創作大腦"背後,是百度智能雲提供領先的雲+AI技術支持,尤其是來自百度大腦智能創作平臺的支持。
  • 百度世界2020 |百度智能雲攜手泉州水務集團,打造水務大腦,迎接...
    (9月15日,泉州水務集團副總經理蘇湘華在百度世界2020智能雲分論壇上分享泉州水務和百度在工業網際網路的合作故事)   泉州水務集團是泉州市屬國有大型獨資企業之一,定位為泉州市水資源產業綜合開發利用平臺。目前有原水、城鄉供水、排水、環保科技、工程服務、清潔能源、股權投資和水務大腦八大業務板塊。
  • 央視網、國美、縱橫文學齊上陣:百度大腦開放日分享NLP技術應用
    活動現場,央視網、國美零售、縱橫文學的相關技術負責人也登臺演講,闡述企業如何借力百度大腦開放的NLP技術能力,實現自身業務的智能化演變。    開發者NLP需求與日俱增 百度大腦致力降低技術門檻  據介紹,百度大腦經過多年深耕,形成了完整的語言與知識技術布局,以知識圖譜為基礎,實現語言理解與語言生成能力,並進一步形成深度問答、對話系統、智能創作、機器翻譯等功能
  • 從谷歌AutoML到百度EasyDL,AI大生產時代,調參師不再是剛需
    2018 年 4 月,百度宣布全面開放EasyDL,基於百度飛槳在深度學習領域深厚的技術積累,EasyDL 開始走上快車道。 作為百度大腦推出的零門檻AI開發平臺,EasyDL 支持面向各行各業有定製 AI 需求的企業用戶及開發者使用。
  • 「百度大腦」 放大招了!
    內置百度自研 AutoDL 技術,只需少量數據就能訓練出高精度模型。同時,EasyDL 提供圍繞 AI 服務開發的端到端的一站式 AI 開發和部署平臺,包括數據上傳、數據標註、訓練任務配置及調參、模型效果評估、模型部署。
  • ThinkPad T431s零售版與終結者版圖評賞析
    ThinkPad T431s零售版與終結者版圖評賞析 觸控板依舊 ThinkPad T431s零售版與終結者版圖評賞析
  • 盤點三大行業倉儲貨架如何選擇,總結太細緻了!
    貨架使用室外粉噴塗,即使放在室外不影響貨架壽命。如果油桶大小不一,則可以使用對貨物的規格、品類、承重要求較低的託盤式貨架,只要按最大規格和承重設計即可,貨物可實現100%自由揀選,對重型貨物的存儲很友好。若是輕型貨物則可使用不挑安裝場地的擱板式貨架存儲。【醫藥行業】醫藥行業中的藥物、發醫用儀器、和醫藥配套產品等存儲都要用到倉儲貨架。
  • 百度大腦給英文原版閱讀軟體91Reading裝上「耳朵」
    那麼如何讓學生隨時隨地都能收穫公正、客觀的反饋呢?K12英文原版閱讀產品91Reading在接入百度大腦語音技術後,實現了「閱+讀」一體化的語言學習模式,為這一問題提供了「科技範」十足的答案。可以說百度大腦的AI技術不僅激活了91Reading的產品,同時也為業務未來發展提供了強勁動力。
  • AI晶片、框架、語言與知識、量子計算……百度大腦6.0發布
    百度大腦分論壇上,百度集團副總裁吳甜詳解百度大腦6.0,闡述了百度如何聚焦人工智慧領域的前沿突破,來打造這一產品。吳甜表示,百度大腦6.0的升級,瞄定的是國家戰略與政策角度中「推動網際網路、大數據、人工智慧和實體經濟深度融合」的需求,往推動「新基建」、助力產業升級轉型的方向發力,承擔著「AI新型基礎設施」的重要角色。
  • 李彥宏:百度大腦「智商」已相當於兩三歲小孩
    劉佳  當BAT中的騰訊、阿里正在圍繞移動入口廣撒投資網「買未來」時,看似「掉隊」的百度,卻在從技術裡「謀未來」。  「百度內部有個『百度大腦』的項目,用技術模擬人腦思維,現在大約已經相當於2~3歲孩子的智力水平。
  • 我真知道大腦是如何認知的
    其實大腦的認知原理,我很早的時候就推理出來了。這問題,就一個最關鍵點,哪個關鍵點?我們電腦的記憶,是圖像拼接,然後形成影像,什麼叫圖像拼接:就比如你去超市,用照相機,一張照片一張照片的曝光,然後這些照片串聯,就成了一個影像,這個影像,就是電腦的影像記憶,就像小時候的膠捲電影那樣的,那個叫圖片拼接。