編輯導讀:AR界面作為一個觸點,實現了人和機器雙方的聯結,進行了信息的交流和轉化。作為一名AR設計師,要對硬體和軟體的技術有所了解,才能實現AR智能化發展。本文作者列舉了AR設計師需要了解的6個技術點,與你分享。
和屏幕UI一樣,AR界面本身並不等於我們所要探索的自然交互方式,它只是一個觸點。通過這個觸點,機器與人實現了雙方的聯結,進行信息的交流和轉化。
為了實現人機間更自然的交互方式,在我們所看到的AR界面背後,需要許許多多包括硬體和軟體層面的關鍵技術來支持它實現智能化發展。作為AR領域的設計師,自然需要對這些技術術語及基本原理有所了解,才能更好的發揮自己的專長,賦能技術更早的面向應用層面和生產層面。
這篇文章,我主要以設計師的角度來理解和分享這些技術術語,確保我們在設計的時候對AR界面下的基本技術和通識概念有所了解。
一、FOV
Field of view的縮寫,是AR設計中所設計對象的顯示區域,在之前的文章裡我也有介紹過。它可以理解為屏幕UI設計裡的手機屏幕、電腦屏幕,如果使用視頻流式的顯示方案兩者區別不大,如果使用光學顯示方案區別就會比較大。大家一般在網上所看到的AR應用視頻,其實都是視頻流顯示方案的效果,和真實帶上光學式AR眼鏡的感覺是完全不同的。
光學方案下AR設計中的屏幕沒有固定的物理尺寸,大小主要由設備裡的光學儀器能夠顯示出來的視角場範圍決定,距離越遠,虛擬物體能顯示的範圍越大。這個距離是可以由設計定義的,但由於設備和人眼等限制問題,在設計中並不是越遠越好。
現在的光學技術所能提供的虛擬顯示區域並不大,以比較先進的50°FOV視場角為例,1080P屏幕在1.5m距離的顯示大小,換算成真實世界尺寸大概為1.16×0.51m。
二、手勢
對於頭戴式設備來說,手勢操作是一種理想的交互方式。它作為物理世界裡本來存在的自然交互方式,對物體的抓取,移動等,有不可置疑的體驗優勢。但要在AR的世界裡實現這樣的交互,首先必須要滿足用戶使用手勢的手是在機器的識別FOV範圍內的,否則它無法被機器所識別,也無法做出反饋。
需要注意的是,這裡的FOV與上面的顯示FOV不是同一個FOV,是指另外一個硬體(TOF相機)的FOV。
總的來說,我們在加入手勢交互的時候,要了解對應設備與手勢有關的效度,精度和準度,以輔助我們形成更完整的設計方案。效度就是指手勢在什麼條件下是有效的,起作用的。一般來說,現在的TOF相機的FOV都不太大,很容易跟丟或認錯手勢的運動。精度是指設備可以識別到什麼程度的手勢,比如是否能區分一隻手指和兩隻手指的區別。準度是指設備對此手勢的判讀是否準確無誤,錯誤或與其他手勢混淆的概率是多少。
三、SLAM
Simultaneous localization and mapping的縮寫,是一種同步定位與地圖構建的技術。即是讓設備知道兩個問題:我所處的環境是什麼樣子的?以及我在哪的問題。最早用於機器人領域,現在在多個人工智慧領域都有所運用。
圖片來源:Hololens 網站
由於這門技術還屬於正在發展中的一項技術,具體的實現方式也會各有不同,一般是通過設備的相機、傳感器等輸入設備,經過計算得出自身定位坐標和地圖構建。由於依賴於相機等輸入設備來進行實時計算,對AR設備來說,用戶使用時的位置和姿態會影響其輸入,網絡延遲造成的丟幀現象也會影響其輸入,實際的環境和光線強弱造成的曝光現象也會影響其輸入,在設計的時候考慮到這些情況,就可以在用戶使用的時候做出引導或反饋性的設計,來更好的提升技術限制所帶來的用戶體驗問題。
四、3DOF VS 6DOF
這兩個術語其實可以歸類於SLAM技術下,和經過SLAM技術所得出的坐標位置有關。DOF就是自由度的意思,也就是3個軸向和6個軸向的問題,關係到設備在人機互動中可以支持到的程度。
3種平移自由度(3DOF)+3種旋轉自由度 = 6種自由度(6DOF)。
圖片來源:https://www.sohu.com/a/418784025_230122
五、物體識別
相較於SLAM是讓設備(機器)回答「我在哪,我來去何方?」的問題,我理解物體識別是讓機器回答 「他是什麼?」 的問題。在維基百科裡的解釋是「計算機視覺及影像處理中的術語,指的是讓計算機去分析一張圖片或者一段視頻流中的物體,並標記出來。這需要給神經網絡大量的物體數據去訓練它,這樣才能進行識別。」
怎麼理解這段話呢?簡單的說,如果把機器比作小孩子,當我們需要小孩子去認識三維世界一個叫蘋果的東西,首先需要給與他真實的蘋果或大量的蘋果照片去告訴他這就是蘋果,也就是上面所說的大量物體數據,這樣在新遇見一個蘋果的時候,他才能準確的認知到這是蘋果。機器也是一樣。
圖片來源:公司內部培訓資料
是否能正確的識別出這個物體,除了之前輸入的數據以外,還受限於物體本身是否易於識別,這個物體的背後是否有過多幹擾,當時環境的光線是否過於明亮或昏暗等。
由於技術難易程度的不同,使用視頻流顯示方案比使用光學顯示能獲得更精準和快速的識別效果。如果是需要穩定度更高的工業應用,可以更多的考慮視頻流顯示方案。
六、特徵點
這個術語可以看做SLAM和物體識別所衍生出來的技術術語,我們知道,SLAM和物體識別都需要依賴於攝像機的輸入,它相當於機器的眼睛。而在機器看來,一副生動的圖像其實是由無數的像素點構成的,每一個像素都可以翻譯成0~256的RGB數值,當某一個像素點和周圍的像素點數值特別不一樣的時候,這個點就成為了值得機器去關注的一個特殊的點,它可能代表某個物體的邊緣位置,或者某個空間的轉角界限。
這個特殊的點,就是特徵點。
當你要定義一個虛擬界面屬於A類和B類的時候(《AUI中的四種分類模式》),可以提前考慮這個場景或者物體的特徵點是否足夠穩定和相對不變,在機器的性能、算法、環境,甚至用戶本身的使用條件下,設計效果圖裡的理想狀態所出現的概率有多大,是否能滿足產品所定義的場景應用等。
在以「人」為核心設計界面的同時,對基本的技術術語有所了解,不僅更方便與研發溝通,也更了解當前技術下所能達到的設計邊界,從而更好的探索AR領域下的人機自然交互。AR界面本身只是一個觸點,它並不等於智能化,要實現更好的人機互動,就必須依賴於背後更多技術的綜合應用。
本文由 @林影落 原創發布於人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基於 CC0 協議