海深科技CEO戴劍彬博士:詳解商品識別在零售行業的應用

2020-11-27 聯商網linkshop

化繁為簡，是科技發展的核心目的之一，在零售行業，消費和運營流程的簡化、人員結構的優化，在一次次的技術變革中獲得不斷的突破。

近幾年，人工智慧圖像識別技術帶動新零售經歷了新一輪升級，其中極具科技感與未來感的人臉識別技術開始深入我們的生活。而在智慧零售的背後，圖像識別的另一個分支——商品識別技術可能並不為人熟知，但卻同樣承載著線下零售數位化的重任。

9月3日晚，智東西公開課邀請到在商品識別領域有豐富經驗的海深科技創始人、CEO戴劍彬博士，就商品識別在零售行業的應用，進行了詳細講解，並現場解答眾多相關從業者在實際應用中遇到的難題。

以下為課程內容實錄。

一、圖像識別的應用場景，以及對零售行業的變革

1.以圖搜圖，拍照購物

說到圖像識別，大家可能馬上能想到以圖搜圖的方式，也就是「拍照購」。這個想法出現的很早，在零幾年的時候就有很多公司開始做這方面的嘗試。

美國矽谷的snaptell，他們早在零六年的時候就開始做拍照購物的應用場景，他們做的大部分是一些書籍和CD類的簡單物品識別，2009年被Amazon收購。2015年Amazon收購了另一家做圖像識別相關的華人公司Orbeus。到2016年後，像Google、Pinterest、Instagram，都開發了一些類似的功能。

國內，淘寶是比較早開始涉及這個領域的。2014年，淘寶自己開始研發了拍立淘的功能，而另一家電商巨頭——京東，在2017年上線的「拍照購」採用的是海深科技的算法。同時海深科技還服務了小紅書、搜狗圖像搜索等一些一線的網際網路企業。

2.貨架排面管理

貨架排面管理的需求主要來自品牌方，以前會有巡店的業務需求。比如商品擺到貨架上，需要知道佔了多大的排面，是不是整齊擺放，以前是派員工巡店，後來是通過拍照的方式。現在出現了很多眾包公司，專門幫助品牌方拍攝門店的照片。

照片收到後如何處理是一個問題，如果以人力來處理這些照片效率很低，無法及時反饋，所以在這樣的場景下，商品識別技術有很大的應用需求。眾包公司負責拍照的人差異很大，拍照的方式、用的相機、照片的像素都不一樣，回傳圖片後審核，可能一周後發現有不符合要求的門店，需要再次跑到店裡去解決。如果能在拍照後，實時通過圖像識別知道這個結果，對眾包的人員來說，是非常高效和節省成本的方式。

這個領域有一家公司叫TRAX，他們用的是一個機器人來巡店，這是一家目前有一定規模的公司，總部在新加坡，核心研發人員是以色列的，與以色列的幾個學校在聯合做這個項目。國內目前也有一些同行在做類似的自動貨架拍攝的相關項目。

3.無人超市

說到無人超市，Amazon Go是近幾年都很火的。當然，Amazon Go用到的核心技術不止是圖像識別，更不止於商品識別。他們採取了很多手段，包括他們稱之為smart shelf，是採用了重力感應技術，也有紅外技術，頂部是攝像頭用來跟拍店裡的用戶，也做了很多Re-ID的工作。

Amazon Go的方案成本非常高，核心難點是人與貨的關聯。圖像識別的一個核心技術就是Re-ID——人的跟蹤，他們用了一些像紅外技術這樣的輔助手段來探測手的位置，用重量感應來判斷商品是否被拿起來，然後後攝像頭來跟蹤人的位置。

我們也在研發類似的技術，目前在與百聯合作嘗試落地，但總體還是一個計算量非常大而且成本很高的項目。但是Amazon Go具體核心算法是怎麼做的，我們也只能是一些猜測，他們做了這麼長時間，很多技術細節都是很值得研究的。Amazon Go是一個開放性的環境，雖然做了很多定製性的優化，但整個店面環境以及與人的交互，實際問題是非常難解決的。

4.無人零售櫃

現在出現了一些無人零售櫃，跟無人超市相比，是一個更小的單元，環境是更可控的。從應用場景來看，很多人會跟以前傳統的販賣機Vending Machine去比較，其實在我的理解下它是一個新的形態，更像一個小的便利店，但是是一個更靈活的形態，商品的品類和擺放也會更自由，這是跟傳統販賣機最大的區別。

現在無人零售櫃的技術實現有靜態圖像和動態視覺兩種，海深科技採用的是靜態的方案，就是在關門之後拍照，跟關門前的圖片進行對比，確認用戶拿走哪些商品。因為這個方案用的是雲端服務，所以成本會比較低。而動態視頻無論是線上傳輸還是本地計算，都會產生更高的成本，而且準確率無法保證。

5.無人結算臺

目前我們還在做的另一個設備，是無人結算臺。這樣的產品也有幾家公司在做，我們的不同點是，它是一個半封閉的場景，周圍的環境影響會更小，在技術實現上會更有優勢。目前的深度學習模型的泛化能力還是比較有限的，我們會通過一些物理手段，或者其他技術手段來對環境做一些控制，會更有利於技術實現，或者是效率、準確率的提升。

無人結算臺的商業化落地還在探索階段，並且還是會有一些限制。比如說很大的商品，都沒有辦法放到這個結算臺上，當然也沒有辦法做結算。未來的結算會以什麼樣的方式，是人工的，還是需要把商品放在一個設備裡，還是像Amazon Go這樣的完全無感知的結算方式，我們都不知道。當然，從長遠來看，Amozon Go的方式肯定是一個方向，但是短期內商業化落地是非常困難的，最大的問題就是過高的成本。

6.線下數位化

在線上，所有的用戶信息是數位化的，比如購物時，瀏覽過什麼商品，點擊、停留時長、購買等等信息都是有記錄的。這方面今日頭條號稱是做的最好的，給用戶的內容推薦相對比較精準。對電商來說，這樣的數位化數據可以幫助優化運營策略，是很重要的一個方面。

在線下，用戶信息的數位化是很困難的。最早的時候，線下數位化是用探針的方式來做。探針最大的問題就是精度，定位不準確，即使是用兩三個點來共同定位，也只能簡單定位人的位置，誤差還是比較大。

2017年開始，很多公司開始通過視頻分析用戶的行為，來做線下數位化。有一家海外數一數二的連鎖店希望跟我們合作，去做用戶路徑跟蹤、人與物的交互分析。這有點像Amazon Go的技術，但是他們需要做到結算，這樣的線下數位化只是做數據分析。

除此之外，線下還有兩個很大的需求就是防盜和員工管理。防盜的需求比較清晰，員工管理其實也很重要，比如員工與客戶溝通的熱情，甚至員工的異常行為等等。

做線下數位化的原因是什麼呢？其實無人店的核心不是有人和無人，而是強制的會員制。Costaco為什麼這麼火爆，他做的最好的就是明確的用戶定位+會員制，然後只服務於這個群體。無人店通過強制的會員制，去繪製用戶畫像，對他進行精準定位，然後可以打通線上和線下，以定製化的服務來優化商品、提高客單價。我覺得這是零售行業的趨勢，也是線下數位化的意義。

二、商品識別的技術難點

1.人臉識別難還是商品識別難

首先這個問題不是很科學，任何一個問題都可以變得容易，也可以很難。人臉識別一般是比較配合的，像第一個圖，相對來說難度會比較低，現在方案也比較成熟。那如果大街上，下著雨，半遮著臉，距離很遠，清晰度很低，這樣識別難度就很大了。那如果是看著後腦勺希望把人識別出來，就顯然不太合理。

商品識別也是類似，一個商品擺在面前來區分是比較容易的，但實際的場景中就會很困難。比如第二張圖的排面，這還是我們做過的項目裡相對容易的，因為擺的很整齊。第三張圖的難度就很大了，這是一個非常極端的例子。農夫山泉和可樂都是紅色的蓋子，飲料的顏色是不同的，但左下角只露出了一個蓋子，就非常難識別了。所以人臉識別和商品識別哪個更難這個問題，需要從不同的角度來看待。

2.準確率 = 70%*數據+30%*算法

提升識別準確率，核心是兩個部分，數據和算法。我們都非常關注的算法層面，可能只佔30%的比例，數據可能要佔70%。

3.目標檢測往往是更難的

目標檢測其實比識別更難，大部分的時間我們花在做目標檢測上。零售行業的排面檢測相對要求還不會特別高，多一個小一個框不會構成大的問題。但比如像我們智能櫃的場景，商品識別是用來做結算的，要求100%準確，特別是密集擺放的情況下，難度就很高。

實際的場景中除了密集擺放，還會有傾倒重疊的情況出現。像下圖中的重疊，我們目前能夠識別，但如果出現一個商品比較長，另一個商品完全覆蓋把商品截成兩段，人可以通過聯想知道是同一個商品，但是機器會識別為兩個商品。

再比如說商店的排面，上圖左上角的牛奶只露出了不到1/20，商品識別很可能會出錯，所以這不能只依靠商品識別來做。人會通過推理來判別，那麼商品識別中也許可以增加近似的技術手段來優化整個方案。

4.物體的重識別Re-ID

一般物體的識別，我們更多的解決的是一個攝像頭下的商品識別，還有一個常見但更複雜的場景，就是在更大的區域下，可能需要兩個攝像頭協同拍攝，每張圖分別拍到一部分，兩張圖還有重合的部分。如何在這樣的情況下精準地識別，我們團隊去年花了整整一年的時間，解決了這個問題。

很多人馬上想到的是把兩張圖進行拼接，但實際拼不起來，商品有高有矮，兩張圖也是不同的角度。實際要如何解決呢？其實跟人的推理方法是一樣的。首先我們比較確定的是一些邊緣的信息，比如兩張圖分別有哪些靠近邊緣，找到一些關鍵點，也就是說，哪些商品在兩張圖裡是同一個。簡單地說，人是如何理解這兩個畫面，那麼讓算法也近似地去理解。

三、智能零售解決方案工程化落地關鍵

1.數據標註的優化

之前也提到，數據的重要程度非常高，如何提升數據質量，採集、標註數據策略的優化，在什麼場景下做採集，都是非常重要的方面。而後期，當數據達到一定量的時候，如何實現數據工程化高效採集，也成為需要考慮的方面。

數據的採集沒有捷徑，高質量的數據一定需要花費很多時間。同時，優質的數據採集和標註平臺，也是非常重要的。一個優質的數據平臺的開發，本身就可以成為一個獨立的產品。

我們也嘗試過3D建模，成本相抵會更低，可以迅速把準確率提升到90%，甚至95%以上，但是要達到99%以上接近100%的水平，3D建模是不夠的，還是需要採集更多有效的數據。

2.場景限定與優化

現在深度學習的能力其實還是有限，泛化能力還比較弱，只針對一些限定的場景會有比較好的結果。就像之前我們提到兩個例子，一個是Amazon Go，一個是我們的智能櫃，整體的環境還是定製化的。比如外界的燈光、陽光造成的光線差異，攝像頭的更換導致的色差，都會是影響結果的原因。

因而目前的商業落地，場景的限定與優化是比較重要的，在深度學習還沒有達到一定強度的時候，外界的輔助手段可能是提升效果的重要輔助方式，場景、算法、應用、硬體都需要協同配合。

3.數據共享

圖像識別能有今天的發展，很大程度上受益於李飛飛教授主持的ImageNet大量標註圖片數據集，可以說是現在所有圖像識別最根本的基礎。

同樣的道理，由於商品種類的繁多性，靠一個公司或者團體的能力，很難提升算法的泛化能力，也就是單一算法只能適用於非常有限的場景，很難形成規模化效應。其實我們這個行業也是類似，在數據層面其實可以合作共贏的方式來推進整個行業的良性發展，數據共享和算法開放將會成為人工智慧發展的一個重要趨勢。

海深科技CEO戴劍彬博士:詳解商品識別在零售行業的應用

相關焦點

商品識別成AI新浪潮,海深科技CEO戴劍彬博士道出技術實情

可信賴的人工智慧,海深科技將攜第二代G-BOX亮相廣州新零售展

深耕零售行業,零號元素賦能智慧零售

零號元素安利英:20年零售老兵如何轉戰智慧零售

AI如何加速數據智能與零售行業深入融合研究【白皮書】

碼隆科技入選機器之心三十大最佳AI應用案例

如何建立零售行業的數據分析模型?

GAIE現場|匯納科技AI+X多行業應用亮相深圳人工智慧展

CVPR 2019 商品識別大賽結果發布,京東AI研究院摘得桂冠

漢朔科技:用電子價籤助力零售發展

零號無人便利店開業業界首發物品識別結算臺

眼神科技 - 專訪眼神科技CEO周軍:生物識別的未來是人臉、虹膜...

自動販賣機VS無人門店:誰是真正的零售新風口?

深蘭科技方林博士:結伴學習讓機器懂審美

人臉識別技術與應用沙龍暨「航天天宮平臺發布會」圓滿落幕

京東零售集團CEO徐雷:提升單位時空裡的濃度和溫度

人臉識別行業分析

商品+量子=騙子!量子技術研究院博士教你識別量子騙局!

復旦EMBA邀分眾傳媒陳巖,談科技在營銷細分領域的應用

服裝零售的十字路口:煥然重生還是黯然離場?

海深科技CEO戴劍彬博士:詳解商品識別在零售行業的應用

相關焦點

商品識別成AI新浪潮,海深科技CEO戴劍彬博士道出技術實情

可信賴的人工智慧,海深科技將攜第二代G-BOX亮相廣州新零售展

深耕零售行業,零號元素賦能智慧零售

零號元素安利英:20年零售老兵如何轉戰智慧零售

AI如何加速數據智能與零售行業深入融合研究【白皮書】

碼隆科技入選機器之心三十大最佳AI應用案例

如何建立零售行業的數據分析模型?

GAIE現場|匯納科技AI+X多行業應用亮相深圳人工智慧展

CVPR 2019 商品識別大賽結果發布,京東AI研究院摘得桂冠

漢朔科技:用電子價籤助力零售發展

零號無人便利店開業 業界首發物品識別結算臺

眼神科技 - 專訪眼神科技CEO周軍:生物識別的未來是人臉、虹膜...

自動販賣機VS無人門店:誰是真正的零售新風口?

深蘭科技方林博士:結伴學習讓機器懂審美

人臉識別技術與應用沙龍暨「航天天宮平臺發布會」圓滿落幕

京東零售集團CEO徐雷:提升單位時空裡的濃度和溫度

人臉識別行業分析

商品+量子=騙子!量子技術研究院博士教你識別量子騙局!

復旦EMBA邀分眾傳媒陳巖,談科技在營銷細分領域的應用

服裝零售的十字路口:煥然重生還是黯然離場?

零號無人便利店開業業界首發物品識別結算臺