2014年,費越和何安莉夫婦在矽谷創立了凌感科技。起因是他們發現:儘管大眾對於手勢的理解還停留在『簡單命令式手勢』的認知階段,還停留在一些採用了這種手勢的電視、汽車和手機裡,但作為未來人機互動中不可缺少的部分,自然手勢的機會已然來了。
在費越看來,這和iPhone出現之前的觸控交互類似:當時的智慧型手機不是基於按鍵(Nokia的智能終端),就是基於壓力筆的屏幕(Windows CE),因為用戶覺得不友好,所以只有少數人在使用。但當iPhone帶有基於觸控螢幕的,無需學習的觸控交互出現後,智慧型手機立刻爆發。並很快主導了整個手機領域,甚至滲透覆蓋了其它領域,從汽車、電子廣告牌,到各種設備。
「新的3D骨骼手勢,類似iphone的自然觸摸,現在就是它處於爆發的臨界點,Edge of Tomorrow(明日邊緣)」,費越對此無比確定。
在費越的介紹中,自然手勢技術不但更加精準、穩定,還可以讓用戶隨心所欲地用最高效直覺的方式交互,從而能夠控制下一代汽車中先進的多媒體信息娛樂系統。
而凌感科技手勢識別技術的核心,是通過對手部22個關鍵點,26個自由度的追蹤,通過深度學習等算法,對手部骨骼進行識別,實現雙手自然交互。所以,它對關節追蹤會更加精準、穩定,通過深度學習還可以識別雙手遮擋的動作。
除汽車外,目前,凌感科技手勢識別技術還應用到AR/VR眼鏡、手機、IOT、智能生產等領域。未來,也將在其他領域探索更多應用場景。
在當下正在發生的汽車產業變革中,費越相信凌感科技的自然手勢交互可以幫助下一代汽車具有劃時代的信息娛樂能力,從而徹底實現「信息就在指尖之上」的自由體驗。
他始終認為,人類是生活在一個三維的世界中,人類和世界最自然的交互是三維的,因此人類與電子世界最自然的交互,也應該是三維的,所以「未來手勢將會是三維人機互動中的不可缺少的一部分」。基於這樣的相信,在整個大勢爆發之前,他和凌感科技願意最早跳到時代的洪流中,去推動這些事情的發生。
當初基於何種判斷,創立了uSens凌感科技?相比已經出現在現在量產車使用的上一代手勢技術,自然手勢技術究竟有什麼不同,又是如何實現的?汽車產業在進行怎樣的變革?凌感科技的機會又是什麼?在獲得大眾汽車「叩響明天」直覺科技創新大賽的獎項後,凌感科技的費越與36氪進行了深入的交流。
(以下問答內容經過36氪編輯整理)
談創業初衷以及自然手勢的特點:可以控制下一代汽車中的多媒體信息娛樂系統。
36氪:當初基於何種判斷,創立了凌感科技?
費越:首先是我和何安莉的一個觀察,就是計算機所發生的革命性的變化,都是由人機互動的變化產生的。人機互動中,45%靠語音,剩下的55%則靠非語音的手勢、肢體、面部表情等動作來交互,因此手勢在未來自然的人機互動中將會是不可缺少的重要的組成部分。所以,2014年,我和何安莉一起在矽谷創立了凌感科技。初衷是向更自然的人機互動方向邁進,讓計算機更懂人,為用戶創造更具沉浸感的自然三維人機互動新體驗,同時希望我們的技術能賦能到多個領域,從AR/VR到智能汽車,再到手機、機器人等等。現在通過精準的26自由度3D手部骨骼追蹤技術,凌感科技已經成為中國唯一一家能夠覆蓋所有Camera模組的車載手勢識別技術供應商,同時還提供DMS、OMS,在車載領域具有豐富的經驗。
36氪:相比已經出現在現在量產車使用的上一代手勢技術,自然手勢技術究竟有什麼不同,又是如何實現的?
費越:我們的自然手勢技術不但更加精準、穩定,而且可以讓用戶隨心所欲的用最高效直覺的方式交互,並能夠控制下一代汽車中的先進豐富的多媒體信息娛樂系統。
實現的過程從外部環境看,起決定性作用的是摩爾定律。2013年之後的GPU計算能力,2018年的移動晶片計算能力,都達到了深度學習所需的計算能力。
深度學習的基礎研究領域也取得了一系列進展。 2013年之後,整體的智能設備也開始超越智慧型手機形態,向更加「沉浸式」的方向發展。不管是無人機,機器人,還是 VRAR,都是把智能設備一步步的更加人性化,更加沉浸化。即使是傳統的智慧型手機和汽車,也在向更加非接觸,更加人性、沉浸化方向發展。
從內部來說,凌感手勢識別技術的核心是通過對手部22個關鍵點,26個自由度的追蹤,通過深度學習等算法,對手部骨骼進行識別,實現雙手自然交互。相比「簡單手型控制」方案,凌感科技的手勢識別技術對關節追蹤會更加精準、穩定,還通過深度學習可以識別雙手遮擋的動作。
談實現26自由度3D手部骨骼追蹤技術的障礙:方法論、速度和硬體
36氪:我們公司是如何做到精準的26自由度3D手部骨骼追蹤技術的?中間最大障礙是什麼?
費越:我們在2014年已經初步實現了基於計算機視覺的機器學習的精準的指尖3D跟蹤和基本的3D骨骼識別。但是發現基於傳統計算機視覺,有其局限性:
1. 無法覆蓋全部自由的動作情況;2.無法應對信息不全的情況,比如有些手指被手掌遮擋,看不到,一部分手被另一隻手遮擋;3.無法應對複雜的背景,各種膚色、光照等。所以2015年,我們開始全面轉向用深度學習來做手勢,攻克了上述這幾個問題。據我們所知,我們是比世界上其它工業界和學術界都早使用深度學習實現3D手部骨骼識別。學術界比較成熟的論文是2016年之後,工業界,比如Oculus Quest上發布的手勢識別是2017年開始使用深度學習的。
36氪:這個過程中,我們又是如何解決速度和硬體障礙的?
費越:我們從2015年開發自己的深度學習執行庫,對深度學習的運算單元全部做了Neon和彙編優化,並發明了新的優化方式,所以可以比目前通用的移動端優化的深度學習執行庫比如Tensorflow Lite, Caffe等要快2倍以上。也就是說我們在2017年的產品就已經做到在Qualcomm 820級別的SOC上達到>50FPS。
硬體方面,一方面是特種硬體的生產,一方面是如何讓算法適應不同的硬體。在VR方面,手勢方面用戶體驗的要求極高,需要低延遲 (<20ms),高精度(能夠1:1的呈現手的各種動作,誤差<5mm),大範圍 (120°以上,需要超過VR顯示部分的視角)這幾個需求用市面上的普通相機無法達到。 用特種相機,比如TOF,Structured Light也都無法達到。我們從2014年就開發特種相機,基於雙目IR global shutter sensor,來達到延遲和精度方面的要求,並使用特別的廣角鏡頭,達到了操作範圍方面的需求。產品在2016年實現了量產。
從2017年開始,我們逐步實現了對各種camera的全面支持,包括單IR camera, 多IR camera, 單 RGB camera, TOF camera等。無論哪種camera形態,我們都能夠提供3D骨骼識別,26DOF。目前還沒有任何公司做到對所有硬體形態實現的3D骨骼識別。在廉價的單IR,單RGB camera上做到3D skeleton尤其困難。而我們通過獨有的深度學習技術和三維動力學技術實現了。
36氪:在汽車領域,凌感科技的機會是什麼?汽車產業又在進行怎樣的變革?
費越:汽車產業正在進行一場深遠的變革。自動駕駛和共享汽車成為發展的兩個主要方向,其帶來的是對乘車體驗的顛覆:一方面,信息娛樂系統可以變得越來越豐富和智能化,原因是輔助駕駛和自動駕駛技術讓用戶可以從100%大腦投入到駕駛工作的束縛中脫離開來,所以現在汽車的屏幕越來越大,信息越來越豐富。 但只靠語音已經不能讓用戶全面的體驗這種新的系統。就像iPhone, iPad,人主要還是靠手眼結合的方式和大屏進行交互,只有少部分時間用SiRi。而觸摸,因為屏幕變得很大,位置較遠,用戶已無法直接觸摸到屏幕,手臂運動無法覆蓋全部屏幕的尺寸。我們的最新手勢交互技術正解決了這一問題。它具有高精度和高自由度的手部動作解析能力,極小的延遲,並同時具有大的空間覆蓋能力。它可以幫助下一代汽車具有劃時代的信息娛樂能力,做到「信息就在指尖之上」的自由體驗。
另一變化趨勢是,汽車變得越來越人性化,更加「懂得」用戶。目前的車靠的是主動的語音交互,用戶主動和車「說話」。 下一代的車,將更加智能,直接「讀懂用戶的心」。靠的是基於計算機視覺的被動交互,車可以知道用戶的情緒狀態,和行為狀態。用戶是緊張還是興奮,還是低落,還是想睡覺休息?是在開會還是娛樂,還是休息?最終目的是做到「人車一體」的體驗。我們在手勢基礎上擴展的面部識別和肢體識別正是讓汽車能夠讀懂用戶的情緒和行為。讓汽車讀懂我的心,自動適應我的狀態。
談當下業務重點以及未來探索 :手勢將會是三維人機互動中的不可缺少的一部分
36氪:公司當下發展的業務重點是什麼?
費越:我們始終認為人類是生活在一個三維的世界中,人類和世界最自然的交互是三維的,因此人類與電子世界最自然的交互,也應該是三維的,未來手勢將會是三維人機互動中的不可缺少的一部分,因此手勢識別仍然是公司當下發展的業務重點。目前,凌感科技手勢識別技術目前已經應用於許多領域,比如:AR/VR眼鏡、汽車、手機、IOT、智能生產等領域。未來這幾個領域仍然是公司發展的重點,除此以外,凌感科技將探索更多應用場景在其他領域。
36氪:目前凌感科技的客戶有哪些?未來,凌感科技的手勢追蹤技術還將向哪些領域探索?
目前,uSens凌感科技的手勢識別技術已經非常成熟並且已經商用在多個領域,合作的客戶大部分是其所在領域的頭部企業。在VR/AR領域,凌感科技的客戶有OPPO、HTC、Qualcomm等;在手機IOT領域,凌感科技的客戶有展訊、聯發科、OPPO等;在工業自動化領域,客戶有戴姆勒奔馳;在汽車領域,客戶有小鵬,拜騰,東風等十多家汽車公司,合作包括量產階段和POC階段。未來,凌感科技將會繼續在現在已落地的領域深耕,希望能做的更好更精準,給用戶帶來更加自然的交互體驗。除此之外,凌感科技在未來還將與客戶一起開拓其他行業領域的應用落地和使用場景,例如教育和醫療等行業。