當前,大數據、物聯網、人工智慧、雲計算等智能技術手段已經逐步成熟,並迎來「核聚變」發展態勢,萬物互聯、萬物互通的時代悄然而至,創新驅動發展,「智能 +」成了新引擎。
2019 年 8 月 17 日,「雲中生智,探索基於機器學習的 AI 業務優化實踐」京東雲開發者社區技術沙龍在南京舉辦,來自京東及英特爾的六位技術專家為參會者帶來了一場知識盛宴,他們是:
京東雲高級架構師 陳勇
京東雲資深雲計算布道師 宗婷婷
京東人工智慧業務部研究員 於偉
京東雲高級架構師 馬廷衛
英特爾物聯網事業部 VPU 平臺應用工程師 張星
京東人工智慧業務部算法工程師 陳東東
本期技術沙龍聚焦「機器學習」與「計算機視覺」,揭秘京東 AI 在智慧零售、智慧物流、智慧金融等領域的生態布局與解決方案,講解京東拍照購、以圖搜圖、智能鑑黃等技術的實現原理, Intel 如何有效將 AI 部署到邊緣端。同時,展示基於容器技術的開發測試流水線的最佳實踐。
今年,京東雲將智能產業創新聚焦南京,將京東雲智能產業華東區域總部落戶在南京,並在南京正式發布「產業創新雲」。「產業創新雲」(以下簡稱「產創雲」)是基於京東自有的人工智慧、物聯網、雲計算等技術能力,圍繞容器、開發測試流水線、微服務等雲原生技術構建的一站式支撐平臺。
來自京東雲的高級架構師陳勇及京東雲高級架構師馬廷衛,現場介紹了產創雲平臺的價值及支持政策,並為開發者解讀產創雲容器集群及資源管理,解讀基於容器的 DevOps 的開發測試流水線最佳實踐。
產創雲從全雲化的技術架構上提供了 IaaS 資源、PaaS 平臺以及 SaaS 應用,並將京東的區塊鏈、AI、IoT 相關的技術整合在此,開發者可以基於相關的技術,通過 SDK 在平臺上開發自己的產品。除此之外,產創雲圍繞產業鏈的研、採、供、銷、服五個階段,圍繞產品創新、產業孵化、產業加速、規模銷售,還有持續運營、可循環的幾個階段,助力創新企業發展,打造智能產業集群。
在產創雲的平臺架構設計上,京東雲設計了三個中心,包括數據的接入、技術的接入,中間圍繞軟體的生命周期,從軟體前期的需求、設計再到測試,再到部署。
為了幫助企業節約開發、測試、部署的時間,完成持續集成和部署,京東雲設計了基於容器的 CI/CD 的開發測試流水線,藉助 Kubernetes 集群服務,創建以容器為單位的開發測試部署流程,簡化了環境搭建的步驟,提高了資源利用效率和開發測試部署的速度,降低了遷移的成本。
大數據、區塊鏈、人工智慧、信息安全以及雲計算被認為是數字經濟時代的五項核心技術。五大技術相互融合,共同推動數字新經濟的高速度高質量發展。在此趨勢下,京東作為以技術驅動、數據智能為核心的科技企業,堅定地朝著技術轉型,致力於打造一個包括智能零售、智能金融、智能保險、智能城市、智能醫療等在內的全球領先的智能商業體。
京東雲資深雲計算布道師宗婷婷,在現場為開發者解讀了京東 AI 在各個產業的生態布局、京東 AI 各類落地場景和解決方案,並提供京東雲對 AI 開發者的支持方案。
宗婷婷認為,在五項核心技術中,雲計算在數字經濟時代裡面承擔了整個產業的作業系統的角色,它是承載一切資源、能力、基礎和連接的大的業務平臺。而京東超級電商成就了超級雲,超級雲反過來又輔助超級電商。
在此基礎上,依託於京東集團範零售豐富的場景、洞察能力和技術沉澱,京東將具有產業屬性的 AI 能力全盤輸出,賦能夥伴,成就客戶。
智能零售分為兩大部分:線上零售和線下零售。線上零售圍繞京東商城,包括以圖搜圖、拍照購、AI 審核、智能客服等方案。其中,智能客服作為京東非常成功的線上場景,提供一整套的解決方案,包括客服人工的智能處理,後臺的各種客服大腦、大數據分析等一系列的服務。
比如有一個客戶想要發起一次客服活動,首先要進行前臺的預判,通過描述事情的嚴重程度和類型,結合客戶本身的資料,以及購物的數據,智能客服會進行預判,決定把你分到人工客服還是 AI 輔助,還是完全 AI 客戶。
智能供應鏈是零售企業的核心,決定了企業的競爭能力。傳統模式下,採銷人員要依靠數據和自身的經驗完成商品選擇、採購計劃制定、價格制定、庫存管理等複雜工作。隨著電商規模的迅速擴大,如果不能進行精準高效的供應鏈管理,不僅會降低零售企業的競爭力,更會造成包括上遊製造企業在內的行業效率降低。京東從消費者洞察作為原點,藉助大數據和人工智慧技術的應用,融合過去 14 年的零售經驗積累,與各方合作夥伴一起,打造敏捷、智慧、開放的智能零售供應鏈。
京東的智物能流是一個完整的體系,無人倉解決進貨、揀貨、包裝等環節,無人車主攻城市環境下的最後一公裡配送,無人機則鎖定鄉村配送。
無人倉作為全新一代智能物流技術,其核心特色體現為數據感知、機器人融入和算法指導生產,可以全面改變目前倉儲的運行模式,極大提升效率並降低人力消耗。從商品入庫、存儲揀貨、包裝、分揀、裝車的環節都無需人力參與,搬運機器人成了無人倉的主角。京東於 2017 年在上海打造中小型無人倉,單倉的產能超過 20 萬單。2018 年進入無人倉設備的常態化和規模化應用的一年,大量的智慧化設備在物流的倉庫開始應用。
除此之外,京東擁有多場景無人智能產品,如末端配送機器人、巡檢機器人、幹支線自動駕駛貨車、服務機器人等。作為智慧物流體系的重要一環,末端的京東配送機器人自 2017 年在人大、清華、浙大、長安幾所高校就開始進行配送實驗,未來還會在全國各地的封閉式園區、校園,類似於生態城這種開放式的城市道路配送,並邁向普通社會化道路,解決城市配送最後一公裡難題。
京東智能金融服務將傳統的風控體系智能化,依託京東龐大的用戶和交易量數據以及關聯外部合作夥伴洞察資源,在註冊、登錄、營銷、交易等多個核心場景建立標籤和策略,其全魔方產品,能夠實現對申請欺詐、信用欺詐、帳戶盜用、洗錢、羊毛黨、虛假交易及黑產等行為的防範。
在保險方面,京東安聯已經嘗試利用大數據及人工智慧,來改變傳統核保理賠的方式。另外,京東安聯將逐步使用 AI 機器人替代傳統客服,一個機器人的成本相當於人工成本的 10 分之一,AI 技術部署算法越多,它的學習能力越強,成本也就越低。
同時京東安聯也正在嘗試通過一系列的技術手段,優化保險交易的各個環節,使產品更簡單易懂,流程變得更為順暢。
作為人工智慧最火熱的細分領域之一,無論是智慧零售還是智慧物流,都離不開計算機視覺技術的應用。來自京東人工智慧業務部研究員於偉,在現場以京東智慧零售場景為基礎,向開發者解讀人工智慧在視覺領域的技術原理,並介紹了京東拍照購、以圖搜圖、商品識別、智能鑑黃等計算機視覺技術的最佳實踐。
如下圖所示,京東現有計算機視覺技術的概覽可以分成五部分,由上至下分別為,文字識別、人體、人臉、視頻和圖像。
在智慧零售中,依靠領先的視覺算法、海量的有效數據、穩定的服務架構,京東計算機視覺技術在多模態購物、內容審核、創新應用、 Neuhub 開放平臺四個場景中得到了成功的運用案例。
首先是多模態購物——拍照購,拍照購的應用場景分為京東雲 APP 及拍照購小程序,作為幫助導購的索引以 SDK 的形式快速集成到其他的應用當中。
其中,拍照購主要面臨商品形變、商品拍攝角度不同、商品包裝不同、商品狀態不同、商品類別不同等技術挑。計算機視覺技術的目的就是要消除目標商品與拍攝商品的不一致性,將不同場景下的相應商品對應起來。拍照購的框架分為線上及線下兩部分,涉及商品主體完整度判別、商品清晰度判別以及優質透底圖的判別等步驟。
除此之外,拍照購可自動定位圖像的商品主體,給出商品主體框坐標、檢測置信度、類別等信息,覆蓋裙裝、上衣、下衣、鞋子、數碼、食品、美妝、圖書、藥品、綠植等 24 個品類,並支持多商品主體檢測,可輸出多個商品主體,區分不同商品主體的顯著性。
內容審核的出發點主要是為了規避公安系統的風險事件的發生,提高圖片質量,提高用戶體驗,以及降低人工成本。
智能鑑黃,可以自動識別黃圖、性感、低俗和正常圖片,是圖片內容合規審核的重要組成部分,減少人工成本,提高審核效率,具體流程如下圖所示。
依託電商場景海量豐富的數據,京東的智能鑑黃準確率高達 99%,可根據業務自身進行配置,自定義閾值,靈活度高,可支持對電商,社交,視頻等多場景進行安全審核。
與上述方法類似,京東的內容審核場景還包括特定人物識別、刀具槍枝審核、牛皮鮮識別以及不適圖識別等場景。
4 將人工智慧部署到邊緣設備, 英特爾® Movidius™ VPU 全解讀計算機視覺和深度學習正在成為我們日常生活中的數十億設備的標配。讓設備具備類似於人類的視覺與智能,是計算領域的下一波重大進步。英特爾® Movidius™ VPU 可以有效的將人工智慧技術部署到物聯網設備邊緣端。
來自英特爾物聯網事業部 VPU 平臺應用工程師張星,為開發者介紹了 Myriad X 和第二代神經計算棒,解讀了英特爾® Movidius™ VPU 特性、能力以及應用場景,並分享英特爾邊緣計算產品的最佳實踐案例。
Myriad X 是英特爾 Movidius 最新一代的 VPU ,它是一款低功耗的 SoC ,可以用在高能效圖象處理、計算機視覺和深度學習的設備裡面,包括服務機器人、監控攝像頭、可穿戴設備、無人機、AR-VR 頭盔和智能家居設備等。相比上一代產品 Myriad 2,Myriad X 多了一個神經計算引擎 (Neural Compute Engine) ,這是一個集成在晶片上的 DNN 加速器。有了這個加速器,深度學習推斷吞吐量可以達到 1 TOPS ,也就是每秒超過 1 萬億次運算,理論峰值可以達到 4 TOPS 。英特爾 Movidius VPU 的微小尺寸和優越的每瓦特計算性能極大的滿足了廣大用戶對計算機視覺和深度學習在終端設備上的需求。
當下,大部分開發者已經有了經過訓練的網絡模型,但是由於推理平臺能力有限,只能把網絡模型的一部分放到推理平臺之上,又或者想要提升終端性能但不知道該如何選型,以及目前使用的人工智慧框架不被英特爾的產品支持,無法導入到 Movidius 或者 FPGA 平臺。
而 OpenVINO 正是為解決如上問題所推出的,它是一個高性能計算機視覺和深度學習視覺應用開發的工具套件,能夠支持英特爾平臺的各種加速器,包括 CPU 、 GPU 、 FPGA 以及 Movidius 的 VPU 等,支持異構計算,並可幫助開發者把已經訓練好的網絡模型部署到目標平臺之上進行推理操作。
隨後,張星向開發者介紹了英特爾第二代神經計算棒——NCS2。英特爾 NCS2 基於英特爾 Movidius Myriad X 視覺處理單元 ( VPU ),並得到英特爾 OpenVINO 工具包的支持,與上一代神經計算棒相比性能更優,能夠以可負擔的成本加快深度神經網絡推理應用的開發。同時,英特爾 NCS2 支持深度神經網絡測試、調整和原型製作,可以幫助開發者進入實際應用的量產階段。近年來,京東不斷運用深度學習、度量學習等 AI 領域知識優化自身電商平臺,讓其從冷冰冰的系統不斷成長為越來越懂用戶的智能購物助手。
來自京東人工智慧業務部算法工程師陳東東,在現場展示了機器學習在人貨匹配中的核心應用,包括用戶需求預測、用戶及商品網絡相似度學習,用戶商品匹配學習,並對度量學習基本方法及其在電商平臺的應用進行介紹。
人貨匹配模型是指在一個確定場景任務下,計算用戶與商品的匹配程度 。經典的應用場景包括智能廣告投放、智能客服調度、用戶需求預測等。
假設需要預測一位用戶是否會購買產品。方案一為利用客戶的歷史數據做 0/1 分類,但是該方案沒有考慮到商品的特點;方案二在方案一的基礎上將用戶的歷史行為數據結合商品的屬性做一個分類,但是該方法在開始的時候就將用戶和商品進行了特徵的串聯,由於用戶和商品來自不同的空間,所以直接串聯是不太合適的,於是京東 AI 將方案二進一步優化,在同一個公共子空間計算用戶和商品的匹配程度。
如下圖所示,假設分別對用戶和商品通過兩個深度神經網絡投影到一個公共子空間下,而後訓練數據通過一些簡單的距離計算方式判別用戶和商品之間的匹配程度。當模型訓練過後,把距離通過一個 F 函數,F 函數將距離轉化為 0 到 1 的概率,用這個值表示用戶對商品的購買概率。再基於這個概率構造一個損失函數,這樣訓練完模型之後,就可以得到對購買概率的一個預測值。
與前兩種方法相比,京東 AI 的方案可以使得 Embedding 有意義 ,可以加入商品相似度的信息,利用用戶的加購、收藏等更多的標記信息,同時能對新品表示出更好的泛化能力。
那麼相似的商品是如何學習的呢?
如下圖所示,假設已經事先知道商品 X 和 Y 之間是比商品 X 和 Z 更相似,也就是 X 和 Y 之間的距離比 X 和 Z 更小。這種情況下,京東同時把三個商品通過共享權重的深度網絡,得到三個向量,然後直接在得到的 Embedding 的空間去約束它們之間的距離關係。這就要求 X 和 Y 相似商品之間的距離至少比 X 和 Z 的距離小於 Margin β,基於這樣的 Margin loss 去加入到約束裡面,更好的學習網絡 I。
可能有人會問了,如果我已經知道兩個商品是相似的,為什麼還要重複的再加一個網絡去學習?這裡有一個很重要的一點,如果來的是一個新的品類,你並不知道這個新的品類和哪些商品是相似的,如果你學習了這樣的網絡,把這個新品通過這個網絡就可以很好的得到它的 Embedding ,就可以計算它和原來的相似性。
度量學習也叫作相似度學習。度量學習旨在學習一個恰當的相似性(距離)度量,使相同類別樣本之間的相似度增大(或距離減小),不同類別樣本之間的相似度減小(或距離增大),從而實現提高分類器的判別能力、改善匹配及聚類性能等目的。而深度度量學習則是利用深度神經網絡去學習距離度量的表示。
深度度量學習主要關注兩個問題:損失函數如何設計以及怎樣對樣本進行採樣。
首先看一下損失函數的問題。深度度量學習裡面最基本的一類是 Contrastive-style loss ,如下圖所示,用兩個集合表示,一個是 S 一個是 D ,兩個樣本,一個 i 一個 j ,通過共享權重的DNN得到它們的表示函數,在轉換之後的空間計算它們之間的距離。
雖然看起來是比較簡單的 loss ,但是這裡面產生了大量的變體。第一類變體主要集中於 DIJ 怎麼去計算,最基本的是用歐式距離計算 DIJ ,還有曼哈頓距離、餘弦距離,或者卡方距離計算 DIJ 。
Triplet-style loss 它的輸入是針對三元組,在變換之後的空間裡面要求兩個相對更近的商品之間的距離,比兩個沒有那麼近的距離小於一個 margin α ,基於這樣的 loss 去求網絡的參數。
在分享最後,陳東東向開發者介紹了當前度量學習的熱點——如何更好地擴展度量空間。他認為,一種是生成虛擬樣本,雖然沒有見過測試集樣本,但是可以基於已有的訓練集生成更多的樣本,可採用生成式的方法生成樣本,也可以用幾何的方法生成樣本;另一種是集成學習的方法,可通過輸入數據、輸出標記、模型參數生成多樣性,擴展度量空間。
此次活動吸引了 200 名開發者的到場參與,大家從雲計算、人工智慧、 IT 運維等專業領域,暢談智能時代的熱點和產業趨勢,並高度評價此次活動。
當下,京東雲作為京東集團各項技術能力的重要輸出窗口,正以全新的視角為合作夥伴提供開放、賦能的平臺,並開放 23 個 AI 接口,秉承合作共贏的態度,與開發者一起,攜手邁向 AI 新未來,點擊閱讀原文即可 0 元試用京東 AI 接口~