人機互動新突破:百度發布主動多模態交互技術

2020-12-23 量子位

近年來服務機器人逐漸進入商場、餐館、銀行、機場等場所,給人們提供了簡單的諮詢、導航等服務。 然而,由於多數服務機器人僅能被動響應用戶的請求,同時,大多數賓客不了解服務機器人的功能,甚至可能不知道它能否正常工作,這種情況下很多人不會選擇貿然去諮詢服務機器人。這種現象導致多數時候服務機器人難以起到實際作用,且使用和交互的頻率非常低,變成「移動平板電腦」。 如果服務機器人能主動關注工作區域的場景,針對有潛在需求的訪客,在客戶主動請求之前,就能發起交互,既能給人賓至如歸的感受,又能主動讓用戶了解到服務機器人的功能,使得機器人更加智能化,人性化,提升賓客體驗。

為此,百度的工程師們率先在小度機器人(DuRobot)上開展了一項技術革新。小度機器人落地於百度公司各個辦公大廈大堂,提供迎賓諮詢、引領講解、互動娛樂等功能,是百度對外迎賓的重要一環。這項技術的目的在於讓小度機器人能理解當前場景,發掘用戶潛在意圖,主動發起第一步交互。雖然主動交互也在學術界已經有一些初步的工作,主要通過距離傳感器、攝像頭等設備感知行人意圖,按照預設的交互規則,發起簡單的、寬泛的交互,比如簡單問候「你好」和握手等等。但這些交互模式通常非常有限(比如小於10種)。為了使得機器人能夠更加理解場景的細節,帶來更加智能、友好、和自然化的交互體驗,百度提出了全新的「基於視覺記號和Transformer模型的人機主動交互系統」(TransFormer with Visual Tokens for Human-Robot Interaction,簡稱TFVT-HRI).這套系統不僅能觀察場景主動發起交互和引導,其交互的動作更是包含千餘種多模態動作,使其能夠像人類一樣表現出自然的主動問候。 接下來讓我們跟著demo視頻,看看小度機器人的新技能吧。

2.工作原理解釋

百度提出的TFVT-HRI框架,是業內首次嘗試將主動交互擴展到集表情、動作、豐富話術於一體的多模態交互模式。通過目標檢測器,將可能對主動交互產生影響的相關物體,提取為涵蓋視覺以及相對空間信息的視覺標記(visual tokens),然後利用Transformer網絡學習一段時間內visual tokens之間的關係,從而實現對交互主體的時空建模,預測該交互主體是否有潛在交互意願,當前幀合適的多模態動作是什麼。

該工作以小度機器人為主體,構建數據採集、模型訓練、端上嵌入式設備部署一套完整的主動交互解決方案。小度機器人工作的真實環境(通常是公共場所,大堂等)十分複雜,各種各樣的光照環境也給計算機視覺技術為基礎的主動交互計算帶來很大挑戰。為此,百度在多個大堂採集了不同場景的視頻片段,標註其中合適的觸發時間點,以及合適觸發的多模態動作。共計標註了上千小時的視頻片段,其中包含了3800個需要發起主動交互的場景。數據和交互專家們標註了超過1000組多模態動作組合,同時使用採樣技術獲得足量負樣本,輔助訓練。

TFVT-HRI框架包含三個模塊:Visual Token提取器、多模態動作表徵、基於Transformer的交互決策模型,如下圖所示。TFVT-HRI框架首先以Yolo作為視覺特徵提取器,提取了每幀圖像中的多個物體和人物的區域,並結合了位置信息生成表示(a)。接下來,多幀連續信息,通過Transformer模型進行編碼(b)。通過這種方式,模型不僅僅能獲取圖像中每一個物體隨時間運動的軌跡,人物的表情和動作變化,還能獲取到人物之間的互動關係,對於場景的理解起到了至關重要的作用。另一方面,我們將專家標註的多模態動作進行編碼,其中,語言利用百度的大規模語義理解模型ERNIE進行編碼,動作則利用Embedding表示(c)。這種編碼方式在語言上具有很好的泛化和理解能力。模型最終需要決策是否發起主動交互,以及選擇的主動交互的種類。

3.效果評估

該項目由於使用視頻流作為輸入,輸出多模態動作ID,這樣的做法和當前的視頻動作識別十分類似,因此百度採樣目前最優的視頻動作識別模型R(2+1D)+ig65m作為基線模型和TFVT-HRI進行對比。該基線模型使用65M社交網絡視頻數據做預訓練,並且利用收集的數據集finetune。考慮到多模動作的合適性很難自動化評估,百度採用了採樣真機部署模型,真人體驗問卷調查的方式評估動作的合適性,這樣自動化評估指標只注重多模動作觸發的時機的合適性,因而使用精準率、召回率、F1等指標。從下表可以看出,基線模型由於缺少交互對象時空建模能力,在全新的測試集上精準率顯著低於TFVT-HRI模型。

基於Paddle Inference,將模型部署到機器人的嵌入式運算設備Jetson AGX後發現,TFVT-HRI模型可以達到6.25FPS,而基線模型(使用輕量版本)只有1.89FPS,考慮到基線模型延遲明顯,嚴重影響用戶體驗,在用戶實驗部分,百度團隊主要對比了不使用主動交互的傳統模式。

有30名新入職員工參加了我們的用戶問卷實驗,他們之前全都沒有體驗過小度機器人,避免了主觀印象的影響。問卷涵蓋了情緒指標:效價(Valence)和喚醒度(Arousal);態度指標:整體舒適程度、自然程度、友好和智能程度。

獨立樣本T檢驗(Independent-Samples T Test)結果顯示:兩組被試在效價(t(28)=1.218,p=0.233>0.05)和喚醒度(t(28)=1.906,p=0.067>0.05)均不存在顯著差異。將Valence-Arousal數據映射到社會心理學中常用的Russel情感極坐標模型,可以發現兩種交互系統都能給用戶帶來偏向『激動』(EXCITED)的正向情緒。

雖然兩種模式喚起的用戶情緒無顯著差異,但在其他主觀指標上,兩種交互系統差異明顯。Levene』 Test表明,除了「智能的」之外,其他變量方差齊性(homogeneity of variance)的假設成立,因此我們對「整體舒適度」、「自然的」、「 友好的」進行了獨立樣本T檢驗,對「智能的」進行了t'檢驗。 結果顯示,兩組被試對「整體舒適度」(t(28)=2.141,p=0.041<0.05)、「智能的」(t' (24.679)=2.225,p=0.035<0.05)、「自然的」(t(28)=2.354,p=0.026<0.05)和「友好的」(t(28)=2.705,p=0.012<0.05)評分均存在顯著差異,TFVT-HRI框架的評分顯著高於被動交互組。

據悉,百度的這項新技術已經全面落地於小度機器人,並且在統計數據上取得了顯著的效果。以小度機器人服務的某大堂為例,10月用戶對比去年成功Query查詢量從1070個提升到5077個,平均有效服務時間從3.109% 提升到9.268%,提升十分顯著。

3.總結

作為小度機器人進化的第一步,百度提出的TFVT-HRI主動交互框架使用visual tokens和Transformer對交互主體進行時空建模,理解他們的行為、意圖,然後引導機器人主動發出包含表情、動作、豐富話術的多模態交互,帶給用戶更加舒適、自然、友好的體驗。目前該框架專注於主動發起第一次交互,後續百度也在探索引入用戶反饋機制,實現在線學習,強化學習,以及更大的交互動作空間。百度該技術也已經開源於PaddleRobotics庫,致力於向機器人行業輸出高質量的AI和深度學習解決方案。

— 完 —

相關焦點

  • 百度發布AI互動設計新成果:人機互動越來越「有意思」
    百度已然成為中國人工智慧的領軍者,擁有者巨大的影響力和號召力。在人工智慧技術中,互動設計被認為是至關重要的一環。在這一領域,百度每年發布的新成果,被視為行業的風向標而備受矚目。會上發布了多項最新AI互動設計成果,不僅包含全新升級的小度交互系統,更有AI互動設計助力產業智能化的最新探索。同時,三款基於百度自然情感交互系統NIRO開發的軟硬一體化創新機器人也在現場首次亮相。在過去兩年,百度設計打造了中國AI互動設計領域最強大而完整的戰車,其中最重要的突破和進展是基於深度學習的人因工程研究發展。
  • 視聽整合:人機互動界面的新方向
    近年來,隨著人工智慧的蓬勃發展,機器智能在不斷進步,機器視覺、語音識別、動作控制等領域實現了重大突破,並開始廣泛滲透到金融、客服、醫療、無人駕駛等行業。當前,雖然有許多關於大腦對多模態信號敏感性的研究,但視聽整合視角下人機互動的相關研究相對較少。本文試探索視聽整合新方法,開發人機互動界面的新潛能。
  • 智能經濟時代人機互動三大趨勢
    12月8日,百度集團執行副總裁沈抖發表題為「想像破界:智能經濟重塑移動互聯」主題演講。過去10年,智慧型手機普及帶來移動網際網路飛速發展,造就了一批新興企業。隨著移動網際網路紅利消失殆盡,人工智慧被公認為移動網際網路之後最大的機會,準確把握人工智慧時代的產業走向,對企業在下一個十年的發展尤為重要。
  • 機器閱讀理解快速迭代,人機互動場景持續落地
    主要應用場景包括:智能車聯網數字座艙場景:在智能車聯網數字座艙場景下,深思考基於多模態深度語義理解與人機對話引擎(iDeepWise.ai),提供具備智能車聯網數字座艙內外的多模態信息(語音、文本、視覺)感知與理解、v2x信息感知與理解、終端多模態深度語義理解AI DPU晶片邊緣計算等三大核心能力的
  • 百度大腦5.0實現史上最大升級 發布遠場語音交互晶片「鴻鵠」
    近日的百度開發者大會上,百度首席技術官王海峰正式發布百度大腦5.0,並在下午的百度大腦分論壇,公布了其在AI算法、計算架構和應用場景各方面的新進展。 對於落地應用正在端側呈現出巨大需求,百度大腦語音團隊研發出一款針對遠場語音交互打造的晶片——百度鴻鵠晶片。
  • 語言學運用、LSTM+DSSM算法、多模態情感交互
    其中語音識別與語音合成技術相對比較成熟,但中文的語義理解由於漢語自身的複雜性(諸如分詞、歧義、缺乏形態變化、結構鬆散等),技術難度較大,也被很多業內人士譽為人工智慧皇冠上的明珠,也是能否實現高質量人機互動的關鍵。
  • 軟硬兼施領跑人機互動 驀然認知多維度解決交互難題
    驀然認知CEO戴帥湘認為,在全新的AI歷史機遇下,驀然認知要主動承擔起兩個使命:通過一系列AI核心技術讓機器更好地認識世界;利用AI創造更自然、高效的交互方式,助力傳統產業智能化升級。我們正好就是可以做到軟硬體結合,讓AI技術落地。」戴帥湘認為,新的交互方式會讓更多硬體設備變得智能,車裡、家裡、辦公區內的設備都會變的智能。讓一切更智能,這也是驀然認知的使命。眾裡尋他千百度,驀然回首,那人卻在燈火闌珊處。「我們之所以叫『驀然』,和『百度』是有關係的。百度是搜素引擎,搜索一個東西你自己挑選,而我們做的是決策引擎,幫你找到信息並篩選出來。」
  • 人機互動作品集,一定要展現技術嗎?
    一句話裡甚至連一個「one of」都沒有,展現了CMU作為人機互動專業世界頭把交椅的豪氣和自信。隨著互動設計變得越來越被人們熟知,互動設計相關的行業待遇又極其誘人,近年來申請與科技行業關係密切的HCI人機互動的小夥伴也越來越多了,不僅僅是來自計算機技術專業和設計專業背景的同學,包括本科為心理學、商科、理工科等的同學也越來越多。
  • 阿里巴巴和清華大學成立聯合實驗室 推動人機互動研發 |新京報財訊
    清華大學美術學院教授徐迎慶為實驗室主任,阿里巴巴人機自然交互實驗室負責人傅利民為聯合主任。未來機器將具備「五感」,更「懂人」據介紹,成立的自然交互體驗聯合實驗室,初期探索方向是,下一代人機自然交互技術。
  • 德國漢堡科學院院士張建偉:人工智慧交互的未來是多模態共享模式 |...
    我們現在面臨的是一個人類社會生態的新平衡,加上新材料、新計算、新的能源的供應,使得全系統的創新裡有了新的動能。未來的少人化工廠、老人的服務護理、虛擬社區的交互,私人定製的服務等等,都是人工智慧和機器人發展的方向。機器人和人工智慧除了在製造、交通方面的應用,在醫療、農業、智能建造和教育方面都有巨大的應用潛力。
  • 《AI交互與智能客服的變革與發展》報告發布:智能客服將推動經營...
    12月17日,機器之心《AI交互與智能客服的變革與發展》研究報告發布,以對話式AI技術為核心的新一代智能客服正逐步走向成熟。報告分析了當前以人力為主的客服中心,正在經歷從在線客服、客服機器人到對話式AI智能客服的轉型升級過程。
  • 人機互動的內容有哪些_人機互動主要研究什麼
    友好人機互動界面的開發離不開好的交互模型與設計方法。因此,研究人機互動界面的表示模型與設計方法,是人機互動的重要研究內容之一。   可用性分析與評估(Usability and Evaluation)   可用性是人機互動系統的重要內容,它關係到人機互動能否達到用戶期待的目標,以及實現這一目標的效率與便捷性。
  • 情感計算是人機互動核心?談深度學習在情感分析中的應用
    由於情感在人類信息溝通中的意義重大,所以情感計算是實現人性化的人機互動過程中必不可少的部分,情感識別與理解技術也是人機互動的基礎性技術之一。在此基礎上,「需求分析」、「深度用戶建模」、 「情感表達」、「人性化交互體驗」等更深入的互動設計才能成為可能。
  • 專欄 | 情感計算是人機互動核心?談深度學習在情感分析中的應用
    由於情感在人類信息溝通中的意義重大,所以情感計算是實現人性化的人機互動過程中必不可少的部分,情感識別與理解技術也是人機互動的基礎性技術之一。在此基礎上,「需求分析」、「深度用戶建模」、「情感表達」、「人性化交互體驗」等更深入的互動設計才能成為可能。拿深度建模來說,通過和人聊天,AI 可以用情感分析對實體進行高效率的自動化標註,實現專屬的情感詞典。
  • 百度打造AI互動設計「戰車」
    7月4號上午的百度AI互動設計論壇給出了百度的答案,除了打造智能家居實驗室、發布進階版機器人交互模型NIRO2.0和公共服務機器人NIRO-Max,百度打出AI與互動設計的組合拳,為百度大腦、機器人等AI產品的商業化落地提供了一種全新的路徑。
  • 人機互動新技術:超聲波成像感知手部動作!
    導讀最近英國布裡斯託大學的最新研究成果顯示:未來智能手錶等可穿戴設備可採用超聲波成像感知手部動作,這為智能設備的人機互動又增添了一種新方法。然而,為了讓用戶有一個良好的體驗,人機互動技術顯得十分關鍵。可是,相對於智慧型手機等大顯示屏的設備,智能手錶的顯示屏面積較小,這就為用戶的人機交體驗帶來很大障礙,交互的舒適度顯著降低,操作難度也大大增加。
  • 月交互次數突破50億次 小度攜手合作夥伴掘金AI時代
    北京時間2月28日,百度公布了截至2019年12月31日的第四季度及全年未經審計的財務報告,第四季度,百度實現營收289億元人民幣。其中,作為百度軟硬體一體化戰略重要載體的小度也再次交出了亮眼的成績單。財報顯示,小度助手月交互次數突破50億次,同比增長3倍。
  • 前景專業|人機互動(HCI)
    後來,人機互動的重心擴展到遊戲、學習教育、商業、健康與醫療應用、應急規劃與響應,以及協作與社區支持系統等領域。如今,人機互動的跨學科性體現在計算機科學與行為科學的交叉領域。人機互動的目標是創建一套易於用戶操作的安全有效系統,這個概念看似並不複雜,但卻需要綜合計算機科學、認知科學及人因工程學等領域的技術。人機互動領域的研究員通常做些什麼事?
  • 竹間智能翁嘉頎:人機互動技術探索 | AI 研習社 60 期猿桌會
    現階段利用 NLP 、NLU 技術,以及機器學習方式,慢慢脫離關鍵詞的束縛,可以更聰明的去理解用戶意圖以做出正確的回應。再下一步是否能脫離一問一答的回應方式?是否機器人能主動的跟人產生互動?沒有情緒情感的機器人真的算是智慧機器人嗎?情緒情感又有哪些可能的應用?近日,在雷鋒網 AI 研習社公開課上,竹間智能 CTO 翁嘉頎分享了人機互動技術探索。
  • 科技早聞:天貓精靈發布AliGenie5.0人機互動系統,微信上線粵語語音...
    一、天貓精靈發布AliGenie5.0人機互動系統9月17日,天貓精靈在雲棲大會發布了首個全場景人機互動系統AliGenie5.0。據了解,AliGenie5.0首次將唇動、手勢、語音語義等多種形態的信息輸入融合在一起,可通過多模態感知的方式理解人類的交流意圖,並直接給出反饋。