化繁為簡,是科技發展的核心目的之一,在零售行業,消費和運營流程的簡化、人員結構的優化,在一次次的技術變革中獲得不斷的突破。
近幾年,人工智慧圖像識別技術帶動新零售經歷了新一輪升級,其中極具科技感與未來感的人臉識別技術開始深入我們的生活。而在智慧零售的背後,圖像識別的另一個分支——商品識別技術可能並不為人熟知,但卻同樣承載著線下零售數位化的重任。
9月3日晚,智東西公開課邀請到在商品識別領域有豐富經驗的海深科技創始人、CEO戴劍彬博士,就商品識別在零售行業的應用,進行了詳細講解,並現場解答眾多相關從業者在實際應用中遇到的難題。
以下為課程內容實錄。
一、圖像識別的應用場景,以及對零售行業的變革
1.以圖搜圖,拍照購物
說到圖像識別,大家可能馬上能想到以圖搜圖的方式,也就是「拍照購」。這個想法出現的很早,在零幾年的時候就有很多公司開始做這方面的嘗試。
美國矽谷的snaptell,他們早在零六年的時候就開始做拍照購物的應用場景,他們做的大部分是一些書籍和CD類的簡單物品識別,2009年被Amazon收購。2015年Amazon收購了另一家做圖像識別相關的華人公司Orbeus。到2016年後,像Google、Pinterest、Instagram,都開發了一些類似的功能。
國內,淘寶是比較早開始涉及這個領域的。2014年,淘寶自己開始研發了拍立淘的功能,而另一家電商巨頭——京東,在2017年上線的「拍照購」採用的是海深科技的算法。同時海深科技還服務了小紅書、搜狗圖像搜索等一些一線的網際網路企業。
2.貨架排面管理
貨架排面管理的需求主要來自品牌方,以前會有巡店的業務需求。比如商品擺到貨架上,需要知道佔了多大的排面,是不是整齊擺放,以前是派員工巡店,後來是通過拍照的方式。現在出現了很多眾包公司,專門幫助品牌方拍攝門店的照片。
照片收到後如何處理是一個問題,如果以人力來處理這些照片效率很低,無法及時反饋,所以在這樣的場景下,商品識別技術有很大的應用需求。眾包公司負責拍照的人差異很大,拍照的方式、用的相機、照片的像素都不一樣,回傳圖片後審核,可能一周後發現有不符合要求的門店,需要再次跑到店裡去解決。如果能在拍照後,實時通過圖像識別知道這個結果,對眾包的人員來說,是非常高效和節省成本的方式。
這個領域有一家公司叫TRAX,他們用的是一個機器人來巡店,這是一家目前有一定規模的公司,總部在新加坡,核心研發人員是以色列的,與以色列的幾個學校在聯合做這個項目。國內目前也有一些同行在做類似的自動貨架拍攝的相關項目。
3.無人超市
說到無人超市,Amazon Go是近幾年都很火的。當然,Amazon Go用到的核心技術不止是圖像識別,更不止於商品識別。他們採取了很多手段,包括他們稱之為smart shelf,是採用了重力感應技術,也有紅外技術,頂部是攝像頭用來跟拍店裡的用戶,也做了很多Re-ID的工作。
Amazon Go的方案成本非常高,核心難點是人與貨的關聯。圖像識別的一個核心技術就是Re-ID——人的跟蹤,他們用了一些像紅外技術這樣的輔助手段來探測手的位置,用重量感應來判斷商品是否被拿起來,然後後攝像頭來跟蹤人的位置。
我們也在研發類似的技術,目前在與百聯合作嘗試落地,但總體還是一個計算量非常大而且成本很高的項目。但是Amazon Go具體核心算法是怎麼做的,我們也只能是一些猜測,他們做了這麼長時間,很多技術細節都是很值得研究的。Amazon Go是一個開放性的環境,雖然做了很多定製性的優化,但整個店面環境以及與人的交互,實際問題是非常難解決的。
4.無人零售櫃
現在出現了一些無人零售櫃,跟無人超市相比,是一個更小的單元,環境是更可控的。從應用場景來看,很多人會跟以前傳統的販賣機Vending Machine去比較,其實在我的理解下它是一個新的形態,更像一個小的便利店,但是是一個更靈活的形態,商品的品類和擺放也會更自由,這是跟傳統販賣機最大的區別。
現在無人零售櫃的技術實現有靜態圖像和動態視覺兩種,海深科技採用的是靜態的方案,就是在關門之後拍照,跟關門前的圖片進行對比,確認用戶拿走哪些商品。因為這個方案用的是雲端服務,所以成本會比較低。而動態視頻無論是線上傳輸還是本地計算,都會產生更高的成本,而且準確率無法保證。
5.無人結算臺
目前我們還在做的另一個設備,是無人結算臺。這樣的產品也有幾家公司在做,我們的不同點是,它是一個半封閉的場景,周圍的環境影響會更小,在技術實現上會更有優勢。目前的深度學習模型的泛化能力還是比較有限的,我們會通過一些物理手段,或者其他技術手段來對環境做一些控制,會更有利於技術實現,或者是效率、準確率的提升。
無人結算臺的商業化落地還在探索階段,並且還是會有一些限制。比如說很大的商品,都沒有辦法放到這個結算臺上,當然也沒有辦法做結算。未來的結算會以什麼樣的方式,是人工的,還是需要把商品放在一個設備裡,還是像Amazon Go這樣的完全無感知的結算方式,我們都不知道。當然,從長遠來看,Amozon Go的方式肯定是一個方向,但是短期內商業化落地是非常困難的,最大的問題就是過高的成本。
6.線下數位化
在線上,所有的用戶信息是數位化的,比如購物時,瀏覽過什麼商品,點擊、停留時長、購買等等信息都是有記錄的。這方面今日頭條號稱是做的最好的,給用戶的內容推薦相對比較精準。對電商來說,這樣的數位化數據可以幫助優化運營策略,是很重要的一個方面。
在線下,用戶信息的數位化是很困難的。最早的時候,線下數位化是用探針的方式來做。探針最大的問題就是精度,定位不準確,即使是用兩三個點來共同定位,也只能簡單定位人的位置,誤差還是比較大。
2017年開始,很多公司開始通過視頻分析用戶的行為,來做線下數位化。有一家海外數一數二的連鎖店希望跟我們合作,去做用戶路徑跟蹤、人與物的交互分析。這有點像Amazon Go的技術,但是他們需要做到結算,這樣的線下數位化只是做數據分析。
除此之外,線下還有兩個很大的需求就是防盜和員工管理。防盜的需求比較清晰,員工管理其實也很重要,比如員工與客戶溝通的熱情,甚至員工的異常行為等等。
做線下數位化的原因是什麼呢?其實無人店的核心不是有人和無人,而是強制的會員制。Costaco為什麼這麼火爆,他做的最好的就是明確的用戶定位+會員制,然後只服務於這個群體。無人店通過強制的會員制,去繪製用戶畫像,對他進行精準定位,然後可以打通線上和線下,以定製化的服務來優化商品、提高客單價。我覺得這是零售行業的趨勢,也是線下數位化的意義。
二、商品識別的技術難點
1.人臉識別難還是商品識別難
首先這個問題不是很科學,任何一個問題都可以變得容易,也可以很難。人臉識別一般是比較配合的,像第一個圖,相對來說難度會比較低,現在方案也比較成熟。那如果大街上,下著雨,半遮著臉,距離很遠,清晰度很低,這樣識別難度就很大了。那如果是看著後腦勺希望把人識別出來,就顯然不太合理。
商品識別也是類似,一個商品擺在面前來區分是比較容易的,但實際的場景中就會很困難。比如第二張圖的排面,這還是我們做過的項目裡相對容易的,因為擺的很整齊。第三張圖的難度就很大了,這是一個非常極端的例子。農夫山泉和可樂都是紅色的蓋子,飲料的顏色是不同的,但左下角只露出了一個蓋子,就非常難識別了。所以人臉識別和商品識別哪個更難這個問題,需要從不同的角度來看待。
2.準確率 = 70%*數據+30%*算法
提升識別準確率,核心是兩個部分,數據和算法。我們都非常關注的算法層面,可能只佔30%的比例,數據可能要佔70%。
3.目標檢測往往是更難的
目標檢測其實比識別更難,大部分的時間我們花在做目標檢測上。零售行業的排面檢測相對要求還不會特別高,多一個小一個框不會構成大的問題。但比如像我們智能櫃的場景,商品識別是用來做結算的,要求100%準確,特別是密集擺放的情況下,難度就很高。
實際的場景中除了密集擺放,還會有傾倒重疊的情況出現。像下圖中的重疊,我們目前能夠識別,但如果出現一個商品比較長,另一個商品完全覆蓋把商品截成兩段,人可以通過聯想知道是同一個商品,但是機器會識別為兩個商品。
再比如說商店的排面,上圖左上角的牛奶只露出了不到1/20,商品識別很可能會出錯,所以這不能只依靠商品識別來做。人會通過推理來判別,那麼商品識別中也許可以增加近似的技術手段來優化整個方案。
4.物體的重識別Re-ID
一般物體的識別,我們更多的解決的是一個攝像頭下的商品識別,還有一個常見但更複雜的場景,就是在更大的區域下,可能需要兩個攝像頭協同拍攝,每張圖分別拍到一部分,兩張圖還有重合的部分。如何在這樣的情況下精準地識別,我們團隊去年花了整整一年的時間,解決了這個問題。
很多人馬上想到的是把兩張圖進行拼接,但實際拼不起來,商品有高有矮,兩張圖也是不同的角度。實際要如何解決呢?其實跟人的推理方法是一樣的。首先我們比較確定的是一些邊緣的信息,比如兩張圖分別有哪些靠近邊緣,找到一些關鍵點,也就是說,哪些商品在兩張圖裡是同一個。簡單地說,人是如何理解這兩個畫面,那麼讓算法也近似地去理解。
三、智能零售解決方案工程化落地關鍵
1.數據標註的優化
之前也提到,數據的重要程度非常高,如何提升數據質量,採集、標註數據策略的優化,在什麼場景下做採集,都是非常重要的方面。而後期,當數據達到一定量的時候,如何實現數據工程化高效採集,也成為需要考慮的方面。
數據的採集沒有捷徑,高質量的數據一定需要花費很多時間。同時,優質的數據採集和標註平臺,也是非常重要的。一個優質的數據平臺的開發,本身就可以成為一個獨立的產品。
我們也嘗試過3D建模,成本相抵會更低,可以迅速把準確率提升到90%,甚至95%以上,但是要達到99%以上接近100%的水平,3D建模是不夠的,還是需要採集更多有效的數據。
2.場景限定與優化
現在深度學習的能力其實還是有限,泛化能力還比較弱,只針對一些限定的場景會有比較好的結果。就像之前我們提到兩個例子,一個是Amazon Go,一個是我們的智能櫃,整體的環境還是定製化的。比如外界的燈光、陽光造成的光線差異,攝像頭的更換導致的色差,都會是影響結果的原因。
因而目前的商業落地,場景的限定與優化是比較重要的,在深度學習還沒有達到一定強度的時候,外界的輔助手段可能是提升效果的重要輔助方式,場景、算法、應用、硬體都需要協同配合。
3.數據共享
圖像識別能有今天的發展,很大程度上受益於李飛飛教授主持的ImageNet大量標註圖片數據集,可以說是現在所有圖像識別最根本的基礎。
同樣的道理,由於商品種類的繁多性,靠一個公司或者團體的能力,很難提升算法的泛化能力,也就是單一算法只能適用於非常有限的場景,很難形成規模化效應。其實我們這個行業也是類似,在數據層面其實可以合作共贏的方式來推進整個行業的良性發展,數據共享和算法開放將會成為人工智慧發展的一個重要趨勢。