沒有實體辦公室,依靠AR技術實現全息會議
不必再做低頭族,超輕量AR眼鏡呈現所有虛擬界面
無需再想像歷史,雅典衛城破損的神廟便可恢復如初
……
這些科幻電影頻頻出現的畫面,正在描繪一幅完整的AR時代生活畫卷。
隨著人工智慧領域第三次浪潮推進,前沿科技不斷落地,以往許多難以攻克的難題如今迎刃而解,科幻電影中的種種場景,正在逐漸成為現實。
悉見科技就是這樣一家聚焦於混合現實的AI公司。就在8月,悉見科技剛剛公布了其混合現實大腦xarc.ai,完成了其「雲、軟體、硬體」的產品架構。基於此架構,悉見科技將通過空間智能引擎及室內外高精地圖,實現物理世界的數字拷貝及混合現實交互。
最近,悉見科技創始人兼CEO劉洋在由中國計算機學會、中國圖象圖形學學會、IEEE Computer Society等舉辦的「第8屆國際虛擬實境與可視化會議」及「中國虛擬實境大會」上,受邀出席並演講。在演講中,劉洋對人工智慧領域的未來作出了判斷和預測,並首度完整闡述了悉見科技混合現實大腦xarc.ai的系統架構及商業價值。
以下為核心觀點提煉。
【人工智慧的三次浪潮】
人工智慧是人類終極願望和本質訴求的階段性產物,一共經歷了三次浪潮。
第一次浪潮:從二十世紀五十到七十年代以邏輯主義(符號主義、邏輯推理、定理證明)為核心;
第二次浪潮:八十年代到二十世紀末以連接主義(知識工程、專家系統、神經系統)為核心;
第三次浪潮:以2006年Hinton提出的深度學習技術、以及2012年ImageNet競賽在圖像識別領域帶來的突破為標誌性起點的第三次浪潮,不僅在技術上取得重大突破,在商業界也因其可以解決具體問題,而呈現出欣欣向榮的發展態勢。
【第三次浪潮中的三次發展】
如果繼續深入了解第三次人工智慧浪潮,會發現隨著算法與算力的快速發展與數據的指數級累積,從2005年左右開始:
首先出現了以文本與語音為數據的一維智能公司,如Google、百度、科大訊飛等;
隨後以圖片和視頻為數據的二維智能公司,如曠視、商湯、雲從等也嶄露頭角;
生活在三維空間中的我們,自然期待更多優秀的三維智能企業出現。在自動駕駛和機器人行業已經出現不少佼佼者,如Waymo、drive.ai、蔚來汽車等,用三維視覺與高精度圖服務賦能給汽車和機器人,解放人在通勤和工程作業中的勞動力。
但我們所工作和生活中的絕大場景,如辦公室、商場、景區、展館等,無法用昂貴笨重的毫米波雷達等設備解決空間計算問題,這就需要消費級的三維智能技術,也是悉見的創立初衷。目前,我們正向三維智能時代邁進。
【三維智能時代的技術基礎】
上文提到的三維智能時代的技術核心不是憑空產生的,而是多學科交叉融合產生的化學反應,包括計算機視覺Computer Vision領域的幾何算法、計算機圖形學Computer Graphics、和人工智慧Artificial Intelligence中Deep Learning、神經網絡的發展,其他還包含晶片技術的發展、雲計算的發展、異構計算的發展等等。
如果用一個詞來總結髮展趨勢,就是「融合」,包括傳統幾何算法與深度學習方法的融合、多傳感器的融合、軟體雲服務與硬體的融合(包括算法的硬體化/晶片化)、以及與具體應用的結合,比如AR/VR/MR、AGV、自動駕駛、機器人等等。
【三維智能時代的三大特徵】
在三維視覺與空間計算驅動的三維智能時代,有三大特徵,一是物理世界的數位化,二是數字世界的物理化,三是混合現實的智能化。
· 物理世界數位化
物理世界數位化很容易理解。有一種說法,網際網路和移動網際網路的下一代是物聯網,萬物互聯。我們通過各種各樣的傳感器,將工作和生活的場景進行量化和數位化。
智能家居就是一個非常典型的場景,智能檯燈、智能開關、智能音箱、智能監控、智能電視、智能路由器、智能空調、智能窗簾,人們通過各種各樣的傳感器,把物理的場景進行採集和數位化,同步到雲端。
不僅如此,我們也在對自身進行量化和數位化,智能手環、智能手錶、智能眼鏡、智能指環、智能衣服,我們跑步、走路、心跳、睡眠、體重等等,都在產生大量的數據,我們通過這些數字,來炫耀或優化自己的物理身體。
還有一種逐漸從工業界滲透到生活中的非常重要的物理世界數位化手段,統稱三維建模:包括用專業設備進行的超大規模三維重建、中小規模的三維重建、以及遊戲動畫影視行業的CG建模,已經能達到以假亂真的地步,有人稱這位CR,Cinema Reality,影視級真實。
· 數字世界物理化
通過物理世界的數位化,我們獲得了非常龐大的數字世界。從網頁,Google、百度的索引資料庫,到每個企業的業務數據。
我們在用什麼樣的方式跟數字世界打交道、我們如何感知和反饋數字世界?這就是數字世界的物理化的意義。
人有視覺、聽覺、觸覺、嗅覺、味覺,人類感知世界的方式都是通過感官獲取到生物信號經由大腦的主觀詮釋,當物理刺激同時對不同感官進行刺激時人就會信以為真,所以要讓人類感知數字世界,傳感器的協同反饋非常重要。
例如電影《頭號玩家》,電影中的角色在玩遊戲時都有很強的代入感,因為電影所描繪的未來遊戲體驗,綜合反饋了三種以上甚至四種五種感知的協同反饋。未來遊戲不僅可以得到視覺聽覺的反饋,通過特製服裝,還可以體會到觸感,當玩家被攻擊時會有痛感刺激。但這些還停留在科幻電影中的想像。
在現實世界,我們和數字世界交互、建立物理和數字連結的方式還很簡單,以PC和手機為主。掃福字、掃紅包就是很典型的體驗,通過圖片和平面的掃描,把數字世界的相關信息激活,通過手機屏幕顯示出來。
因為技術的限制,我們從微信、微博、頭條、美團、滴滴,到抖音、快手、愛奇藝,跟數字世界打交道都是通過五寸的小屏幕。得到數字世界反饋的我們,卻也變成了「低頭族」,反倒大大減少了與物理世界的聯繫,冷落了身邊的人和事。
從行業發展看,智慧型手機行業經過十年的發展到達了平臺期、存量期。在微創新、同質化的環境下,基於觸屏的手機交互已經沒有太大創新空間,千篇一律「齊劉海」的設計之下,實際上是物理世界與數字之間難以打破的壁壘。
· 混合現實智能化
打破物理世界與數字世界之間的壁壘,能夠同時對視覺和聽覺沉浸式反饋,就是混合現實智能化,也就是三維視覺和空間計算要解決的問題。
具體到技術層面,需要解決以下四個問題。
第一個是三維感知。當一個人到達一個全新地方,第一件事做的就是三維感知,機器學習同樣需要如此,對三維場景中物體表面紋理和形狀的數字採樣以及深度估計。這裡涉及到了多傳感器的快速標定、多目視覺和慣導融合、多傳感器融合比如雷達、全景相機等、還有基於事件相機的SLAM。
第二件事,當我們對周圍空間進行感知後,要確定與環境之間的實時動態關係,這就是位姿感知。對相機或物體在三維空間中的位置和朝向的計算和實時追蹤,也就是我們常說的六自由度重定位、VIO、SLAM、Sematic SLAM等等。
第三件事,是上文提到的三維重建,對三維場景或物體的形狀和表觀模擬以及運動估計和動態重建,這裡的課題包括地圖構建和持久化、地圖優化、多地圖對齊和融合、通過SLAM進行稀疏3D重建、SFM(Structure From Motion,從運動恢復結構)、結合深度數據的稠密3D重建、深度學習優化的3D重建等等。
第四件事,進一步的目標,就是三維理解,你要知道這個場景中哪裡是桌子、哪裡是椅子、哪裡又是人,所以要做平面語義分割、3D語義分割、動態的目標分割與追蹤、實時的語義內容檢索以及對位姿感知的反饋優化。
【悉見混合現實大腦xarc.ai】
悉見在探索三維智能的過程中,也發布了相應的混合現實大腦平臺xarc.ai。
在這個過程中我們總結出了一套系統架構,可以高效的解決各行業對三維視覺和空間計算的需求,總共分為五層,從下到上分別是物理層(Physical Layer)、數字層(Digital Layer)、引擎層(Engine Layer)、終端層(Device Layer)、應用層(Application Layer)。
物理層就是我們的真實世界,
數字層是對真實世界的數位化採集和重建,
引擎層是三維混合現實數據存儲、檢索、渲染和交互的驅動平臺,
終端層是用戶與數字層交互的入口設備和計算平臺,
應用層是跑在混合現實系統上的所有應用,就像手機裡安裝的各種各樣的APP。
在數字層,我們提供高精地圖採集專業設備,可以做到釐米級到毫米級的精度、十萬平米每天的高效率,而且支持端到端的定位網絡生成和上千種物體的智能識別。
在引擎層我們提供了整套的自動化建圖工具、混合現實場景編輯工具以及適配多種設備的終端SDK。
在終端層我們已經研發和量產了多款AR和AI眼鏡,包括去年量產的首款45°視場角、166g最輕亮雙目AR眼鏡一體機X1系列、今年量產的第二代強性能AI眼鏡XMAN系列用NPU進行人臉識別、車牌識別、空間定位、以及即將發布的代號M消費級AI眼鏡。同時悉見自主研發視覺加速晶片XVPU也對我們各代硬體設備的智能化和小型化起到了關鍵的作用。
【結語】
隨著摩爾定律、庫茲威爾定律下算力與數據的指數級增長,傳統計算機視覺算法與深度學習相結合加速了奇點臨近。
目前悉見接收到了多個行業的、萬億級三維視覺需求的快速增長。我們認為,如同PC時代和智慧型手機時代,各行業及消費級應用生態會隨著基礎技術平臺和工具的完善快速豐富起來,悉見將與更多合作夥伴,一起迎接三維智能時代的到來。
責任編輯: WY-BD