悉見劉洋:三維理解與重建是智能交互時代的基石

2021-01-09 TOM資訊

沒有實體辦公室,依靠AR技術實現全息會議

不必再做低頭族,超輕量AR眼鏡呈現所有虛擬界面

無需再想像歷史,雅典衛城破損的神廟便可恢復如初

……

這些科幻電影頻頻出現的畫面,正在描繪一幅完整的AR時代生活畫卷。

隨著人工智慧領域第三次浪潮推進,前沿科技不斷落地,以往許多難以攻克的難題如今迎刃而解,科幻電影中的種種場景,正在逐漸成為現實。

悉見科技就是這樣一家聚焦於混合現實的AI公司。就在8月,悉見科技剛剛公布了其混合現實大腦xarc.ai,完成了其「雲、軟體、硬體」的產品架構。基於此架構,悉見科技將通過空間智能引擎及室內外高精地圖,實現物理世界的數字拷貝及混合現實交互。

最近,悉見科技創始人兼CEO劉洋在由中國計算機學會、中國圖象圖形學學會、IEEE Computer Society等舉辦的「第8屆國際虛擬實境與可視化會議」及「中國虛擬實境大會」上,受邀出席並演講。在演講中,劉洋對人工智慧領域的未來作出了判斷和預測,並首度完整闡述了悉見科技混合現實大腦xarc.ai的系統架構及商業價值。

以下為核心觀點提煉。

【人工智慧的三次浪潮】

人工智慧是人類終極願望和本質訴求的階段性產物,一共經歷了三次浪潮。

第一次浪潮:從二十世紀五十到七十年代以邏輯主義(符號主義、邏輯推理、定理證明)為核心;

第二次浪潮:八十年代到二十世紀末以連接主義(知識工程、專家系統、神經系統)為核心;

第三次浪潮:以2006年Hinton提出的深度學習技術、以及2012年ImageNet競賽在圖像識別領域帶來的突破為標誌性起點的第三次浪潮,不僅在技術上取得重大突破,在商業界也因其可以解決具體問題,而呈現出欣欣向榮的發展態勢。

【第三次浪潮中的三次發展】

如果繼續深入了解第三次人工智慧浪潮,會發現隨著算法與算力的快速發展與數據的指數級累積,從2005年左右開始:

首先出現了以文本與語音為數據的一維智能公司,如Google、百度、科大訊飛等;

隨後以圖片和視頻為數據的二維智能公司,如曠視、商湯、雲從等也嶄露頭角;

生活在三維空間中的我們,自然期待更多優秀的三維智能企業出現。在自動駕駛和機器人行業已經出現不少佼佼者,如Waymo、drive.ai、蔚來汽車等,用三維視覺與高精度圖服務賦能給汽車和機器人,解放人在通勤和工程作業中的勞動力。

但我們所工作和生活中的絕大場景,如辦公室、商場、景區、展館等,無法用昂貴笨重的毫米波雷達等設備解決空間計算問題,這就需要消費級的三維智能技術,也是悉見的創立初衷。目前,我們正向三維智能時代邁進。

【三維智能時代的技術基礎】

上文提到的三維智能時代的技術核心不是憑空產生的,而是多學科交叉融合產生的化學反應,包括計算機視覺Computer Vision領域的幾何算法、計算機圖形學Computer Graphics、和人工智慧Artificial Intelligence中Deep Learning、神經網絡的發展,其他還包含晶片技術的發展、雲計算的發展、異構計算的發展等等。

如果用一個詞來總結髮展趨勢,就是「融合」,包括傳統幾何算法與深度學習方法的融合、多傳感器的融合、軟體雲服務與硬體的融合(包括算法的硬體化/晶片化)、以及與具體應用的結合,比如AR/VR/MR、AGV、自動駕駛、機器人等等。

【三維智能時代的三大特徵】

在三維視覺與空間計算驅動的三維智能時代,有三大特徵,一是物理世界的數位化,二是數字世界的物理化,三是混合現實的智能化。

· 物理世界數位化

物理世界數位化很容易理解。有一種說法,網際網路和移動網際網路的下一代是物聯網,萬物互聯。我們通過各種各樣的傳感器,將工作和生活的場景進行量化和數位化。

智能家居就是一個非常典型的場景,智能檯燈、智能開關、智能音箱、智能監控、智能電視、智能路由器、智能空調、智能窗簾,人們通過各種各樣的傳感器,把物理的場景進行採集和數位化,同步到雲端。

不僅如此,我們也在對自身進行量化和數位化,智能手環、智能手錶、智能眼鏡、智能指環、智能衣服,我們跑步、走路、心跳、睡眠、體重等等,都在產生大量的數據,我們通過這些數字,來炫耀或優化自己的物理身體。

還有一種逐漸從工業界滲透到生活中的非常重要的物理世界數位化手段,統稱三維建模:包括用專業設備進行的超大規模三維重建、中小規模的三維重建、以及遊戲動畫影視行業的CG建模,已經能達到以假亂真的地步,有人稱這位CR,Cinema Reality,影視級真實。

· 數字世界物理化

通過物理世界的數位化,我們獲得了非常龐大的數字世界。從網頁,Google、百度的索引資料庫,到每個企業的業務數據。

我們在用什麼樣的方式跟數字世界打交道、我們如何感知和反饋數字世界?這就是數字世界的物理化的意義。

人有視覺、聽覺、觸覺、嗅覺、味覺,人類感知世界的方式都是通過感官獲取到生物信號經由大腦的主觀詮釋,當物理刺激同時對不同感官進行刺激時人就會信以為真,所以要讓人類感知數字世界,傳感器的協同反饋非常重要。

例如電影《頭號玩家》,電影中的角色在玩遊戲時都有很強的代入感,因為電影所描繪的未來遊戲體驗,綜合反饋了三種以上甚至四種五種感知的協同反饋。未來遊戲不僅可以得到視覺聽覺的反饋,通過特製服裝,還可以體會到觸感,當玩家被攻擊時會有痛感刺激。但這些還停留在科幻電影中的想像。

在現實世界,我們和數字世界交互、建立物理和數字連結的方式還很簡單,以PC和手機為主。掃福字、掃紅包就是很典型的體驗,通過圖片和平面的掃描,把數字世界的相關信息激活,通過手機屏幕顯示出來。

因為技術的限制,我們從微信、微博、頭條、美團、滴滴,到抖音、快手、愛奇藝,跟數字世界打交道都是通過五寸的小屏幕。得到數字世界反饋的我們,卻也變成了「低頭族」,反倒大大減少了與物理世界的聯繫,冷落了身邊的人和事。

從行業發展看,智慧型手機行業經過十年的發展到達了平臺期、存量期。在微創新、同質化的環境下,基於觸屏的手機交互已經沒有太大創新空間,千篇一律「齊劉海」的設計之下,實際上是物理世界與數字之間難以打破的壁壘。

· 混合現實智能化

打破物理世界與數字世界之間的壁壘,能夠同時對視覺和聽覺沉浸式反饋,就是混合現實智能化,也就是三維視覺和空間計算要解決的問題。

具體到技術層面,需要解決以下四個問題。

第一個是三維感知。當一個人到達一個全新地方,第一件事做的就是三維感知,機器學習同樣需要如此,對三維場景中物體表面紋理和形狀的數字採樣以及深度估計。這裡涉及到了多傳感器的快速標定、多目視覺和慣導融合、多傳感器融合比如雷達、全景相機等、還有基於事件相機的SLAM。

第二件事,當我們對周圍空間進行感知後,要確定與環境之間的實時動態關係,這就是位姿感知。對相機或物體在三維空間中的位置和朝向的計算和實時追蹤,也就是我們常說的六自由度重定位、VIO、SLAM、Sematic SLAM等等。

第三件事,是上文提到的三維重建,對三維場景或物體的形狀和表觀模擬以及運動估計和動態重建,這裡的課題包括地圖構建和持久化、地圖優化、多地圖對齊和融合、通過SLAM進行稀疏3D重建、SFM(Structure From Motion,從運動恢復結構)、結合深度數據的稠密3D重建、深度學習優化的3D重建等等。

第四件事,進一步的目標,就是三維理解,你要知道這個場景中哪裡是桌子、哪裡是椅子、哪裡又是人,所以要做平面語義分割、3D語義分割、動態的目標分割與追蹤、實時的語義內容檢索以及對位姿感知的反饋優化。

【悉見混合現實大腦xarc.ai】

悉見在探索三維智能的過程中,也發布了相應的混合現實大腦平臺xarc.ai。

在這個過程中我們總結出了一套系統架構,可以高效的解決各行業對三維視覺和空間計算的需求,總共分為五層,從下到上分別是物理層(Physical Layer)、數字層(Digital Layer)、引擎層(Engine Layer)、終端層(Device Layer)、應用層(Application Layer)。

物理層就是我們的真實世界,

數字層是對真實世界的數位化採集和重建,

引擎層是三維混合現實數據存儲、檢索、渲染和交互的驅動平臺,

終端層是用戶與數字層交互的入口設備和計算平臺,

應用層是跑在混合現實系統上的所有應用,就像手機裡安裝的各種各樣的APP。

在數字層,我們提供高精地圖採集專業設備,可以做到釐米級到毫米級的精度、十萬平米每天的高效率,而且支持端到端的定位網絡生成和上千種物體的智能識別。

在引擎層我們提供了整套的自動化建圖工具、混合現實場景編輯工具以及適配多種設備的終端SDK。

在終端層我們已經研發和量產了多款AR和AI眼鏡,包括去年量產的首款45°視場角、166g最輕亮雙目AR眼鏡一體機X1系列、今年量產的第二代強性能AI眼鏡XMAN系列用NPU進行人臉識別、車牌識別、空間定位、以及即將發布的代號M消費級AI眼鏡。同時悉見自主研發視覺加速晶片XVPU也對我們各代硬體設備的智能化和小型化起到了關鍵的作用。

【結語】

隨著摩爾定律、庫茲威爾定律下算力與數據的指數級增長,傳統計算機視覺算法與深度學習相結合加速了奇點臨近。

目前悉見接收到了多個行業的、萬億級三維視覺需求的快速增長。我們認為,如同PC時代和智慧型手機時代,各行業及消費級應用生態會隨著基礎技術平臺和工具的完善快速豐富起來,悉見將與更多合作夥伴,一起迎接三維智能時代的到來。

 

責任編輯: WY-BD

相關焦點

  • 人工智慧即將帶領我們進入下一個時代?
    今天和大家分享的主題是:「三維視覺與空間計算,是智能交互時代的基石」。接下來你將聽到的是啟示今後二十年人工智慧發展方向的重要信息。三維視覺和空間計算是什麼?三維視覺和空間計算是人工智慧領域最重要的分支,旨在通過計算機視覺與計算機圖形學及深度學習等相關算法與多種三維特徵傳感器結合,解決人或機器對三維空間的感知、重建與理解以及與空間的實時相對關係的確定。三維視覺是智能交互時代的基石,建立了人與物理世界、人與數字世界以及數字世界與物理世界穩定統一的絕對聯繫。
  • 人類首次發現蛇琥珀 中國地大參與重建骨骼三維結構
    人類首次發現蛇琥珀 中國地大參與重建骨骼三維結構_荊楚網 人類首次發現蛇琥珀 中國地大參與重建骨骼三維結構 2018-07-19 11:00
  • 走進交互感知技術:在幻境和現實中穿梭
    2015年,我們發現VR交互產品只有手柄,使用起來無法完全識別人的手部動作。我們便打算研發一款可以在虛擬實境中手勢交互的產品,於是萌生了創業的想法並很快獲得了第一筆天使投資」黃昌正說道。發展至今,幻境科技已成為一家能提供手勢自然交互整體解決方案的高新技術企業,團隊專注於研發手勢識別、動作捕捉、人工智慧等產品,涉及虛擬實境、智能穿戴、輔助駕駛、文化娛樂、智能醫療等多個行業和領域。
  • 基於三維視頻融合的監控分析系統
    然而,由於案件數目的不斷增加,以及數以萬計的攝像頭所產生的海量視頻數據已經對公安刑偵部門的案件處理能力造成巨大的壓力,如何從這些視頻數據中快速,自動和智能地提取,處理與理解場景中的關鍵信息,從而有效地應用於社會安全事件的解決已成為目前公安系統和城市管理部門最為關心的問題之一。
  • 智邦國際新一代ERP系統:三維一體化破解智能轉型...
    在這個智能應用、智能連接無處不在的智能時代,數據爆炸、極速變化已是常態。企業管理也隨之面臨著來自內部、外部、線上、線下等更多的機遇和挑戰。如何更好的藉助智能化,降本提效,升級管理,為經營決策提供實時精準的數據,為未來發展提供全面完整的資源,成為每個企業未來需要一直關注的重點。
  • 前瞻智能家居產業全球周報第39期:蘋果或建智能家居團隊,三維家...
    三維家發布「一體兩翼」計劃,攜手躺平共建家居行業新生態近日,三維家舉辦C輪融資暨新戰略發布會,創始人蔡志森發布「一體兩翼」計劃,表示將與躺平設計家(阿里旗下智能家居平臺iHome)全面合作,共同構建家居產業F2B2C生態,三維家由原來的「設計工具」向「全渠道銷售解決方案服務商」戰略升級。
  • 飛天神女劉洋
    2月10日晚上,是讓河南人自豪和驕傲的一個夜晚,其中,這自豪來自於我們的河南好閨女、中國第一位飛上太空的女航天員劉洋。    在當晚的央視「感動中國」2013年度人物頒獎典禮上,劉洋所在的中國載人航天英雄集體,榮獲「感動中國」2013年度人物特別獎,飛天神女劉洋再次成為家鄉人民熱議的「明星人物」。
  • OPPO小布助手2.0到來,升級 AI 性能,語音交互更智能
    在這萬物互聯的時代,人工智慧技術蓬勃發展,人機之間的智能交互愈發受到群眾的青睞,而語音助手更是成了這其中繞不開的話題。但是目前存在的語音助手,大部分並不十分「智能」,存在功能不多、語音識別不準、語音喚醒困難等種種問題,給用戶的體驗並不友好。
  • 愛奇藝奇遇VR發布CV頭手6DoF交互技術 新品將對標Quest2
    DoNews1月6日消息(記者 翟繼茹)在昨日剛剛宣布完成數億元B輪融資之後,愛奇藝VR宣布正式發布國內首個計算機視覺技術(CV)頭手6DoF VR交互技術「追光」,並面向全球VR遊戲開發者啟動「哥倫布計劃」。
  • 徐曉冬:鍛造協同領導力,讓企業找到屬於時代的「大陸」
    大量案例表明,無法實現「共同價值、戰略決策、制度模式」三維協同的組織,可能有一時的強盛,但最終只能面對崩潰的結局——正是「基石不牢,地動山搖」。,找到屬於時代的「大陸」。其次,「價值善」是指企業基於自身「善」基因、在新時代提煉和凝聚出符合時代意義的「共同價值」,回答「我是誰」的問題,並通過戰略決策與制度模式不斷進行價值驗證,通過激勵和創新,在商業組織中發揮三維協同的最大效能。
  • 數據隱私的重建:重構人機互動中的「知情同意」
    事實上,正如二維空間的生命永遠無法看到三維的捷徑(「蟲洞」)一樣,網絡法的盲區恰恰在於忽略了「技術維度」。最近,世界經濟論壇與斯坦福法學院將知情同意置於「人機互動」的背景下,激發出前所未有的創造性思維,從而對信息收集、使用、保留和披露的各個方面重新設計框架。
  • 愛奇藝奇遇VR發布CV頭手6DoF交互技術 同時啟動"哥倫布計劃"
    1月6日,愛奇藝奇遇VR在京召開主題為"誰與爭鋒"的VR技術發布會,正式發布國內首個CV(計算機視覺技術)頭手6DoF VR交互技術——追光,並面向全球VR遊戲開發者啟動"哥倫布計劃"。愛奇藝智能CEO熊文表示,"面向未來,我們將繼續加大自主技術創新力度,並在內容生態方面持續投入,為讓中國VR技術引領下一代計算平臺貢獻自身的力量。"CV頭手6DoF VR交互技術方案——追光人機互動是影響VR產品體驗的關鍵因素。
  • 智能音箱走完過渡期,行業巨頭「屏幕為王」時代來臨
    這些數據肯定不準,我們只需要知道:5G時代,很多你想得到想不到的設備,都會互聯互通,都會成為智能設備。智慧型手機、智能平板、智能電視、智能音箱、智能手錶/手環,只是序曲。 2、設備重塑用戶體驗的第一步,一定要靠「交互」。智能設備「智能」屬性的體現首先就是智能交互能力,因為交互是用戶與機器的觸點,是決定用戶體驗的關鍵。
  • 三維掃描儀原理
    導讀:在我們的日常生活中隨處可見掃描儀,這是一種將圖像文字等平面材料轉換為圖片格式的一種儀器,而三維掃描儀的作用在於偵查並分析立體結構某物體的形狀及結構,接下來就讓我們來細細品味一下三維掃描儀是如何來完成這一功能的吧
  • 諾斯頓測量|人體三維掃描技術及應用領域
    在科技飛速發展的今天很多人工智慧逐漸出現給我們的生活帶來了很多的便利三維雷射掃描技術便是這個時代科技的產物對於人體三維掃描技術很多人半知半解今天小編就來為大家講解人體三維掃描技術的應用人體三維三維人體掃描技術與傳統的身體形態測量方法相比,具有速度快、精度高、非接觸測量等優點。
  • 智能AI小O語音助手全新升級,情感化交互關愛每一個你
    智能AI小O語音助手全新升級,情感化交互關愛每一個你 隨著車聯網的日益普及與雲計算等技術的迭代升級,車已經不再只是被看作為一個交通工具,更多地,車被認為是人的第二空間。
  • 什麼是三維動畫?看完你就知道了!
    相信很多人在一聽到三維動畫腦子裡就會想到《玩具總動員》《功夫熊貓》《冰河世紀》還有詹姆斯.卡梅隆導演的《阿凡達》這些精彩紛呈3D影片,從廣義上來講,這些影片都屬於三維動畫的範疇,裡面的一些畫面也是用三維技術製作而成的,所以都可以稱之為三維動畫。
  • ...布局智能交互、智能駕駛和智能服務 車企將佔據競爭「制高點」
    [摘要]對於車企而言,想要佔領智能網聯汽車的競爭制高點,需在智能交互、智能駕駛和智能服務三方面均有所布局。 他表示,在過去十年間,汽車數位化的特徵漸漸開始並越趨明顯,汽車正加速成為一個移動的智能終端,未來汽車功能的定義、差異化的實現,性能的提升皆由算法/軟體迭代來完成。 在「軟體定義汽車」的大趨勢下,智能網聯汽車發展路徑最初呈現了三種不同的發展模式。
  • 光學位置追蹤系統:大場地、多人互動虛擬實境交互系統
    虛擬實境技術(Virtual Reality )又稱VR,囊括計算機、電子信息、仿真技術於一體,模擬產生一個三維空間的虛擬世界,提供使用者關於視覺、聽覺、觸覺等感官的模擬,讓使用者如同身歷其境一般。由北京創想智控自主研發的IMVR光學位置追蹤系統是一個具有工業級智能攝像機及人工智慧光學追蹤和識別的系統;是一個大場地、多人互動商用虛擬實境交互系統,可滿足任意尺寸的VR空間中人與虛擬場景的交互、人與人的交互等。
  • 【服貿會探展】3D貓、智能影像生產 朝陽展區開啟「沉浸式」互動新...
    9月7日,記者探訪了位於文化服務專題展區12號展館內的朝陽展區,其以「北京朝陽·國家文化產業創新實驗區——新時代、新動能、新機遇、新發展」為參展主題,重點突出全國文化中心核心區建設新成果、文化科技融合新技術、文化消費新業態三大特色,採取「線上+線下」相結合的展示模式,全面展示朝陽區全國文化中心核心區建設和文化產業高質量發展的新亮點新成就。