無需鍵盤的自然輸入!Facebook分享Quest研究成果

2020-10-23 映維網

映維網 2020年10月22日)構建能夠幫助大家保持聯結的產品是Facebook Reality Labs(FRL)的一個重要宗旨。在過去數年間,團隊分享了在機器感知,逼真虛擬化身,甚至是腦機接口方面的進展。在上個月,FRL Research的首席科學家麥可·亞伯拉什在Facebook Connect大會談到了AR眼鏡的發展之路。

在下面這篇博文中,這家公司將介紹研究人員是如何為Quest「解鎖」同類產品中的首款手部追蹤解決方案,並分享關於文本輸入的研究進展。下面是映維網的具體整理:

手部追蹤是FRL Research眾多旨在提升技術交互親民的研究課題之一。從VR頭顯到AR眼鏡,我們正在構建下一個能夠讓更多人受益的計算平臺。手部追蹤技術提供了最為熟悉自然的人機互動方式,從而為更多的人打開了沉浸式計算的大門。

當Oculus Touch控制器於2016年底面世時,它通過手部臨在開創了一個消費虛擬實境的新時代:在虛擬環境中,你的雙手與你同在。

手部追蹤是FRL Research眾多旨在提升技術交互親民度的研究課題之一。

為了構建更為自然的交互設備,FRL將Touch控制器作為基礎。這款設備操作舒適,並且配備了先進的傳感器,可提供逼真的雙手臨場感,能夠使虛擬實境中最基本的交互(如抓住門把手)感覺更為真實。然而,儘管Touch控制器存在大量的優點,但它無法復刻V字手勢或鍵盤操作的效率。對於自然地做事,目前沒有任何其他方式能夠比擬人手。與生俱來的本能,強大的適應性,以及被億萬人理解,雙手一直都在幫助我們完成日常任務、創造性工作、以及介於兩者之間的所有事情。可以說,雙手是大多數活動的理想輸入。但當FRL Research於五年多前開始為VR探索手部追蹤的時候,業內尚未出現消費者質量的裸手追蹤。團隊面臨的挑戰是從零開發這項技術,並通過創建一個基於人手的新界面來讓虛擬實境變得更加親民。令人感到欣慰的是,我們取得了成功。

我們將通過兩篇論文來介紹具體的實現過程,以及手部追蹤的進一步潛力。在本周舉行的UIST 2020大會中(一個關於用戶界面軟體和技術的研討會),FRL Research首次提出了一種不使用物理鍵盤進行接觸式文本鍵入的新方法。我們演示了可以作用於任何表面的手部追蹤提供了媲美傳統鍵盤打字的效率和熟悉度。在SIGGRAPH 2020(一個關於計算機圖形學的年度大會),FRL的研究人員分享了他們是如何通過移動計算的眾多突破為Quest實現手部追蹤。今天,每一臺Quest頭顯都搭載了現成的手部追蹤功能。

使用基於標記的手部追蹤系統,FRL Research演示了如何在平面實現接觸式文本鍵入。這向我們展示了將手部追蹤用於文本輸入的潛力。

1. 無需鍵盤的自然文本鍵入

作為正在進行的手部追蹤研究的其中一環,FRL Research不斷探索新的實驗性文本輸入形式,因為這對交流和生產力而言都是一項關鍵任務。在本周舉行的UIST 2020大會中,團隊提出了一種不使用物理鍵盤進行接觸式文本鍵入的新方法。這種解決方案使用了基於標記的手部追蹤系統,把相關的手部追蹤數據作為輸入,並將其直接解碼為用戶希望輸入的文本。儘管項目尚處於研究階段的早期,但這次演示說明了手部追蹤在生產力場景中的潛力。

相關論文:Decoding Surface Touch Typing from Hand-Tracking
相關論文:Online Optical Marker-based Hand Tracking with Deep Labels

為了支持無需物理鍵盤的接觸式文本鍵入,並考慮無法從單個物理按鍵獲得觸覺反饋的缺點,研究小組必須合理化於隨機平面發生的非明確文本鍵入模式。團隊採用了來自自動語音識別的統計解碼技術。語音識別主要使用聲學模型來預測音頻幀中的音素,而團隊則使用運動模型來預測手部運動中的鍵入行為。

當在純平面使用雙手進行接觸式本文鍵入操作時,被試平均每分鐘能夠輸入73個字詞,未糾錯誤率為2.4%。這實現了同一被試操作物理鍵盤的類似速度和精度。

結合語言模型,系統能夠判斷理解用戶的非明確文本鍵入,並預測用戶希望輸入的內容。利用這種新方法,當在純平面使用雙手進行接觸式本文鍵入操作時,被試平均每分鐘能夠輸入73個字詞,未糾錯誤率為2.4%。這實現了同一被試操作物理鍵盤類似的速度和精度。

這一令人驚訝的結果促使研究人員探究為什麼手部追蹤比其他物理方法更為有效,比如說沒有物理鍵盤的平板電腦或智慧型手機的文本鍵入。研究小組發現,手部追蹤技術在分離手指和手指移動軌跡方面有著獨特的優勢,而這正是當今平板電腦和智慧型手機的電容式感應系統所缺失的信息。

儘管在平面進行接觸式文本鍵入的行為動作並不明確,但研究人員使用一個運動模型來預測人們希望鍵入的內容。手部追蹤可以分離手指和手指移向虛擬按鍵的軌跡。對於這種信息,今天的智慧型手機和平板電腦無法追蹤捕獲。

2. Oculus Quest的手部追蹤

儘管手部追蹤的潛力巨大,但虛擬空間中實現如同現實世界一樣的雙手操作令人望而生畏。在SIGGRAPH 2020的的分享中,研究人員描述了在Oculus Quest中實現雙手臨在的眾多問題。

相關論文:MEgATrack: Monochrome Egocentric Articulated Hand-Tracking for Virtual Reality
延伸閱讀:Facebook論文詳細分享Oculus Quest手部追蹤技術細節

第一個問題是「有效量積」,亦即能夠追蹤雙手的容積範圍。如果沒有足夠的有效量積,你的雙手會在視場中消失,並中斷用戶交互。第二個問題是追蹤卡頓,它會產生不自然的手部運動。卡頓是目前一個未被充分研究的手部追蹤領域。目前大多數基準數據集都基於靜止幀,而不是流體運動。第三個問題是硬體資源需求。過去的研究主要集中在具有強大GPU的高端PC。但初代Quest的性能要比常見的高端PC低兩個數量級。

早期的實驗只使用兩個前置攝像頭的重疊覆蓋區間,但Quest會丟失用戶雙手。四個攝像頭通過增加區間(或有效量積)來實現雙手的流暢追蹤。在四個攝像頭視覺覆蓋的範圍內,Quest可以「看到」並處理視覺信息。

FRL的手部追蹤解決方案利用了Oculus Quest的四個攝像頭來提供最大的有效量積。最初的計劃只是使用兩個攝像頭,但研究人員注意到,即便在顯示屏的視場內,雙手都有可能會消失。使用四個攝像頭能夠大大增加追蹤容積,但這同時帶來了一個新的計算機視覺挑戰:從四個不同的來源獲取視覺數據並實時拼接在一起。在任何給定的時間,你的雙手都可能位於一個或多個攝像頭的視場內。當你的手移動時,它可以離開一個攝像頭的視場並進入另一個攝像頭的視場。FRL的研究人員不得不建立一個當雙手遊離於攝像頭視場之間時依然能夠實現追蹤的框架,並建立一個新的框架將它們拼合在一起。

流暢的和無卡頓的手部追蹤取決於所有四個Quest前置攝像頭的視覺數據。研究人員開發了一個框架來整合所有數據,而它甚至能應對手從一個攝像頭視場切換到另一個攝像頭視場的情況。

最後一個技術障礙是Quest的移動處理器,而它需要將有限的性能資源分給遊戲和應用的運行。問題的答案來自於建立高效的神經網絡架構。多年來,研究團隊在根據特定移動處理器(如驍龍835和Hexagon DSP)定製神經網絡設計方面取得了重大進展。研究小組同時利用手部運動的規律性來預測手部接下來的移動位置,從而減少了神經網絡的評估。總的來說,這一系列的優化意味著初代Quest的手部追蹤在日常使用中只消耗7%的電池電量。

為了保持手部運動的流暢性和真實性,研究人員另外開發了一個手部關鍵點估計網絡。傳統的系統是從一系列靜止圖像中預測關鍵點,比如指尖。但根據單一靜態圖像預測手部會導致攝像頭之間的卡頓和非一致結果。所以,研究人員提出不如允許網絡訪問先前預測的關鍵點。對於這種設計方面的改變,研究人員證明了他們的網絡能夠成功地追蹤在圖像邊界部分可見的手部。通過使用這些新的、暫時的信息來調節網絡,研究小組在不犧牲準確性的前提下顯著減少了卡頓(這兩者都是構建逼真手部追蹤的基本要素)。

3. 今天的手部追蹤

我們仍處於構建更自然的設備交互方式的早期階段。但在今年,我們已經看到開發者利用Quest的裸手追蹤,並為社區帶來了一系列不可思議的體驗。《Waltz of the Wizard》允許玩家用手指快速釋放魔法和釀造魔藥。對於榮獲艾美獎的交互式體驗《The Line》,用戶可以通過使用雙手操縱旋鈕、開關等物件來增強故事感。

我們一直致力於幫助人們進一步利用技術的力量,而手部追蹤只是我們正在探索的其中一種方法。儘管我們已經取得了進展,但我們仍處於漫長道路的開始。尋找更好的做事方式需要進一步的研究和創造性的靈感。所以,我們對FRL Research已經取得的裡程碑感到興奮,但我們對未來的發展更為興奮。

原文連結:https://yivian.com/news/79194.html

相關焦點

  • Facebook正在開發一種使用VR鍵盤的輸入方法
    這不僅僅是因為VR缺少軟體插件和大多數工作應用,鍵盤部分才是真正令人沮喪的部分。為此,Facebook正在研究一種完全繞過實體鍵盤、用手追蹤的方法。Facebook Reality Labs的最新研究項目在Symposium on User Interface and Software Technology(用戶界面和軟體技術研討會
  • Facebook AI的DETR,一種基於Transformer的目標檢測方法
    為簡化起見,Facebook AI的研究人員提出了DETR,這是一種解決物體檢測問題的創新高效方法。facebookresearch/detr/blob/colab/notebooks/detr_demo.ipynb這個新模型非常簡單,你無需安裝任何庫即可使用它。
  • 韓國科學技術院為VR研究基於人工智慧的隱形鍵盤
    (映維網 2019年08月12日)韓國科學技術院的研究人員最近開發出一種基於人工智慧的隱形鍵盤界面。據介紹,它能夠按照你開始鍵入文本的雙手擺放位置來自動定位。 行業每年都會為開發更優秀的外設而投入數十億美元的研發和市場研究資金。但自滑鼠和鍵盤問世以來,情況並沒有發生太大的改變。
  • 在Word 2010文檔中輸入鍵盤沒有的符號
    用Word 2010編輯文檔過程中,經常需要輸入一些符號,有些符號鍵盤上有,可以直接輸入,有些符號鍵盤上沒有,應該怎樣輸入呢?
  • 耐心測試:你能忍受多久的鍵盤輸入延遲?
    在信息互聯時代相信很多人從小就開始接觸計算機,鍵盤滑鼠是他們暢遊網際網路世界的重要輸入工具。近日Monica Dinculescu上線了名為「How annoying is too annoying」輸入延時測試頁面,可以讓用戶測試自己的耐心,看看能夠承受從按下鍵盤字母到屏幕上顯示出來的延時時間。在一下又一下的鍵盤敲擊中我們都會摸索出最適合自己、能最快輸入的打字方式。
  • 當鍵盤能聽懂人話,咪鼠語音鍵盤KB1評測:語音打字+實時翻譯
    考慮到我自己經常休息日一個人在書房碼字,於是入手了一款咪鼠智能語音鍵盤來提升打字效率,抽空也來和大家分享下這款普通而不平常的鍵盤。開箱曬物:傳統造型+四鍵賦能咪鼠智能語音鍵盤KB1發布於12月4號,算是一款剛出爐的新品,除了傳統鍵盤外,其還具有語音打字、語音翻譯、語音控制、OCR智能截圖、一鍵打開計算器等智能功能,受眾人群主要是都市白領、外貿從業者。
  • ...Facebook | 網際網路數據資訊網-199IT | 中文網際網路數據研究資訊...
    我大致翻譯下:google circles vs facebook friends list(google圈子 vs facebook朋友列表)Google圈子因為操作簡便,採用html5,可以直接拖拽朋友到一個圈子中,而facebook好友列表則相對操作比較複雜
  • 在紙上列印出的防水鍵盤
    科學家們推出了一種新的印刷工藝,幾可將任何紙或紙板變成防水鍵盤。您可將其摺疊起來放在口袋裡,並且使用時無需電源。該技術利用了一種特殊塗層。塗層具有抗液體和灰塵的功能,可在紙上列印出多個電路層,而各層之間不會出現任何汙跡。然後,在紙張或紙板的另一側,使用標準墨水列印指出壓力點(按鈕)。電路層可以滿足通用鍵盤的任何需求,從數字小鍵盤到音量控制。
  • Facebook AI 正在升維突破:教AI像人類一樣理解三維世界
    Facebook AI近日在首爾國際計算機視覺大會(ICCV)上演示了他們在這個領域的最新研究成果,同時也在博客和 arxiv 上發布了技術簡介和論文,表現驚豔,研究成果之一還獲得了 ICCV 最佳論文提名。
  • 學習facebook廣告之前,你應該有的基本認知(3)
    本文是《學習facebook廣告之前,你應該有的基本認知》第三篇,也是完結篇。我們主要給大家講講傳統的網絡廣告(listing ads)和facebook廣告的區別,從而讓大家加深對facebook廣告的理解,從而為以後操作facebook廣告奠定一個良好的基礎。
  • 無需軟體!IKBC時光機機械鍵盤加入RGB燈效
    臺灣沃特斯VortexGear旗下機械鍵盤品牌IKBC日前發布了F系列時光機產品,擁有獨特的按鍵計時動態背光模式,並採用德國原廠Cherry櫻桃軸。F-RGB時光機鍵盤擁有三面專屬調色板,按下ESC鍵即可呼出,通過空格鍵切換任意一面中的任意顏色,還可以在RGB調色模式下通過F1-F3鍵單獨調節當前背光的RGB顏色值。
  • 蘋果新VR頭顯專利:外殼搭載觸控屏,配投影機可實現虛擬鍵盤
    3月20日消息,美國專利商標局發布了一項與VR頭顯相關的蘋果專利,專利中指出了多種與設備的交互方式,包括顯示屏支持觸控、通過額外投影設備實現觸控式虛擬鍵盤等。蘋果在專利中寫到,通常當用戶沒有佩戴VR頭顯時無法與之交互或進行任何操作,為了解決這一問題,這款頭顯的外殼將配備輸入和輸出元件,包括按鈕、鍵盤、觸控傳感器、觸控顯示屏等。也就是說,你可以用手觸碰頭顯前蓋進行操作,不戴頭顯時,也可以從外面看到頭顯內的畫面。這種交互方式,可作為手柄或手勢的輔助方案。同時,用戶摘下頭顯進行操控時,與其他人的交流也不會受到幹擾。
  • 谷歌Android鍵盤被發現屏蔽了「中國病毒」自動輸入建議
    導語:據外媒報導,谷歌悄然更新了移動鍵盤應用依靠的「緊急髒話(Emergency Bad Words)」列表,現在它新增了一些新冠病毒(COVID-19)相關的術語。
  • 英國人:為啥我們發明的英文鍵盤,中國人可以一上手就輸入漢字?
    比如今天要講的電腦鍵盤就是一個科技產物,然而它實際上是外國人發明的,一位英國人對此發表過這樣的言論:「為啥我們發明的英文鍵盤,中國人可以一上手就輸入漢字?」那麼大家是否有想過這個問題呢?你知道答案嗎?事實上,鍵盤的功能是非常多樣的,這也是因為計算機功能的強大。
  • 第966期:Vision Quest
    點擊上方VOA英語每日一聽,右上選擇分享右下點
  • 炫酷流光、RGB燈效,不僅僅在機械鍵盤上,這款輸入法上也存在
    目前來看,遊戲外設市場也是相當大的一部分市場,而在遊戲外設當中最惹人注目的就是鍵盤,尤其是機械鍵盤。機械鍵盤和普通鍵盤相比,從結構來說,機械鍵盤的每一顆按鍵都有一個單獨的開關來控制閉合,這個開關也被稱為「軸」,依照微動開關的分類,機械鍵盤可分為傳統的茶軸、青軸、白軸、黑軸、紅軸以及Romer-G和光軸。
  • iPhone 11 使用系統自帶鍵盤的 6 個小技巧
    如果你覺得自帶的輸入法還不夠好用,不妨再看看如下幾個小技巧,提升輸入效率,讓信息內容更豐富~1.Emoji 表情在鍵盤左下角可直接點擊 Emoji 表情,長按臉部可選擇不同膚色,下次再使用這個表情的時候,會優先使用你上次選擇的膚色。
  • 我校國家脈衝強磁場科學中心羅永康團隊研究成果在《自然》刊發!
    9月23日,《自然》(Nature)雜誌在線刊發了國家脈衝強磁場科學中心羅永康教授題為「Constraints>Sr2RuO4 from 17O NMR」的論文。Maeno, 1994),長期被認為是具有奇對稱、自旋三重態配對、拓撲性質等特性的非常規超導體的典型代表,羅永康等人在前期研究中(Phys. Rev.
  • PC輸入法界的清流 訊飛輸入法跨屏輸入能否一戰封神
    從訊飛輸入法的使用界面看,真正打造一款高效輸入工具。這款輸入法只保留作為一個輸入法所該有的功能,比如每日輸入字數統計、手速記錄、語音輸入節省時間數,還能登陸輸入法帳號以同步個人數據和手機端詞庫,不論是設置界面還是狀態欄風格都十分簡潔。
  • Facebook開源物體識別工具Detectron,加速計算機視覺研究
    Detectron 支持的算法為計算機視覺關鍵任務(比如實例分割)提供了直觀的模型,並在近年來社會上取得的視覺感知系統的巨大成果中發揮了關鍵作用。我們希望通過開源Detectron平臺,讓我們的研究儘可能開放,並加速全球實驗室的研究。隨著其發布,研究人員能使用FAIR人員每天使用的同一軟體平臺,重現我們的研究結果。