小米詳解多模態融合交互:打破了智慧型手機的點觸式交互方式

2020-12-03 愛集微APP

集微網11月26日消息,前不久,大家期待小愛同學5.0在MIDC大會上正式發布,一共帶來五大升級,其中之一就是擁有了更智能統一的「多模態融合交互」能力,對該能力,小米進行了詳細解釋。

所謂的多模態融合交互,其實就是擁有各種傳感器的智能設備,除了能聽(耳)會說(嘴)外,同時還能利用攝像頭(眼)觀察、利用底盤雲臺(腳)移動等,從而全面的理解用戶意圖,和用戶進行溝通,滿足用戶的需求。

圖片來源:微博

小米認為多模態融合交互模擬了人與人之間的交互方式,使交互無門檻、更自然、更切合用戶意圖,更懂人。這一交互方式打破了傳統的鍵盤輸入和智慧型手機的點觸式交互方式,符合「機器人」類產品的形態特點和用戶期待,定義了下一代智能產品和人的專屬交互模式。

小米透露之所以打造多模態融合交互,初衷是希望小愛同學能有更自然的交互、更懂用戶的需求。當小愛同學被喚醒後,既有鍵盤輸入,又可以語音輸入,還可以使用攝像頭的視覺能力。用戶可以根據場景隨時切換採取哪個交互方式進行輸入,例如不方便講話的時候就用鍵盤輸入,去爬山想知道路邊是什麼花的時候可以調出小愛同學拍一張照片。

(校對/零叄)

相關焦點

  • 雲計算和大數據重點專項項目成果「多模態自然人機互動神經系統...
    中國科學院軟體研究所和中國醫學科學院北京協和醫院在國家重點研發計劃「雲計算和大數據」重點專項項目「雲端融合的自然交互設備和工具」的支持下,將自然人機互動技術與神經系統疾病臨床診斷方法結合,研製了
  • 一口氣發布三款產品,科大訊飛打開汽車多模態交互的大門
    為了完成這一理念,飛魚OS MATE 2021要以生態服務為基礎,依靠大數據算法與知識圖譜,融合語音、視覺、音效、氛圍燈等多模態交互手段,為用戶提供場景化、個性化、情感化的服務,打造了出行生態服務的場景連接器,構建了舒適易用的駕乘體驗。
  • 百度景鯤:小度,智能交互新物種
    會上,百度公司副總裁、百度智能生活事業群組總經理景鯤從新價值、新邊界、新格局詮釋了承載AI技術的小度,正不斷打破舊邊界開拓新場景,逐漸演變成AI新物種。用戶價值即產品帶來的便捷性,小度為用戶提供的價值,或者說小度的業務之本就建立在人機互動基礎之上。每一次科技浪潮都是由人機互動的變革而推動的,而人機互動的變革會催生出新的作業系統,給用戶帶來無與倫比的新價值。用戶從藉助滑鼠鍵盤從電腦獲取信息,到手機觸屏,再到利用小度助手實現語音對話,交互方式更加自然,使用門檻越來越低。越來越多的用戶接觸和使用AI語音交互,推動著新的時代變革。
  • 看看智能人機互動前沿論壇怎麼說
    」,介紹了Intel在機器人領域利用多模態的感知融合、基於個性化知識圖譜的時空智能和場景中的持續學習技術構成了具備情境感知智能的機器人交互技術框架,並提出機器智能朝著具備環境理解、記憶和自適應的交互能力發展的趨勢,並定義其為未來機器人4.0時代的重要研究方向。
  • 中國電子學會智能人機互動專家委員會成立
    北京商報訊(記者 姚倩)9月6日,在2020年中國國際服務貿易交易會「2020智能科技與產業發展論壇」上,中國電子學會智能人機互動專家委員會成立。有關學術組織的成立可以不斷積累和匯聚智能人機互動領域學科帶頭人、核心專家,開展學術與技術交流、科技諮詢、科學普及等工作。資料顯示,人機互動是連接人類智能和機器智能的橋梁,是實現人機混合智能的關鍵要素,智能人機互動技術旨在將可穿戴設備作為載體,通過多模態交互手段和融合識別算法,實現人機之間更加自然、高效、對等的交互協同。
  • 新一代OPPO AR眼鏡亮相 交互方式更豐富
    在去年舉行的未來科技大會上,OPPO面向5G時代推出包括智能手錶、智能耳機、5GCPE、AR眼鏡在內的多款智能終端產品,向外界展現前沿科技預研與儲備的實力。其中,作為大會聚焦點之一,OPPO推出的AR眼鏡藉助TOF深度傳感器、SLAM算法等先進的元器件和技術,能夠實現無界的AR操作體驗,同時結合衍射光波導顯示技術、融合人工智慧技術所帶來的手勢識別、語音識別等交互方式,帶來了全方位、自由的交互體驗。
  • Rokid發布全新一代MR眼鏡 首次闡釋「未來交互」理念
    圖源:RokidRokid 創始人兼 CEO 祝銘明指出,人工智慧時代的交互發生了質的變化,「傳統人機互動,通過簡單的指令輸入,機器輸出結果,造成了人與真實世界的割裂。未來的交互平臺,將是能實現人、虛擬世界和真實世界三個對象的融合交互。」
  • 空鼠按鍵語音三合一交互,這樣玩電視更方便
    對於智能電視來說,交互方式一直是廠商們在努力研發的方向。傳統的遙控器按鍵對於智能電視是種非常麻煩的交互方式,如何更好地提升操控體驗,是各個廠商比拼技術實力的關鍵點。除了傳統遙控器的按鍵式遙控,彩電廠商們近些年來還開發了空鼠操控、觸摸板操控,以及語音操控、手勢體感控制、多屏互動操控等等新的交互方式。
  • 滑鼠、鍵盤退場,智能硬體掀起交互革命-虎嗅網
    它可以隨時記錄運動情況和睡眠時間,形成一種「被動交互」。用戶除了可以在App查看數據和報表,還會收到任務完成的通知郵件。鬧鈴、任務完成和突破50公裡之後,則會震動提醒。GoogleGlass:智能硬體開拓者GG,也需要用戶通過敲擊、滑動、長按來啟動或者喚醒它,需要與手機這個網絡樞紐連接。不過它多了兩樣交互:GoogleNow語音和視覺交互。
  • 快手科技李巖:多模態技術在產業界的應用與未來展望
    李巖在演講中表示,多模態技術有兩大應用方向,一是會改變人機互動的方式,二是將使信息分發更加高效;視頻本身就是一個多模態的問題,而快手則擁有海量的多模態數據,多模態的研究對於快手來說是非常重要的課題;目前快手已經在語音識別與合成、智能視頻配樂、通過 2D 圖像驅動 3D 建模特效、視頻精準理解等領域對多模態技術進行研發應用。
  • 百度智能語音交互技術重磅迭代
    他表示,百度語音交互技術持續迭代升級,已發展成為基於深度學習技術的端到端的語音識別和語音合成技術。在語音識別層面,百度推出端到端信號聲學一體化建模的技術,語音合成方面,最新的Meitron和單人千面合成個性化技術亮相。同時交出了百度語音技術最新成績單:日均調用量超過155億次,廣泛應用在移動端、智能家居、和語音IoT等場景,智能語音產業化成果豐碩。
  • 專訪雲圖裴麗群:智能家居已相對成熟,「屏」是全場景交互核心
    童輝在發布會上說雲圖要「為智能家居中產用戶打造奔馳級品質與服務」,簡單地說,智能家居市場有了小米有了OV有了華為,卻沒有蘋果,這是雲圖的卡位。「現在這個市場環境,再做一個小米一定死路一條,再去複製歐瑞博也沒什麼意義,你不可能跟著別人的路徑去做一個相對成熟的市場。」裴麗群直言。
  • 多模態數據融合:方法、挑戰和展望
    本文整理了數據融合中的一個比較全面(但肯定不是詳盡的)挑戰列表。作者將重點放在使用多種儀器、測量設備或採集技術觀察現象或系統的設置上。在這種情況下,每個採集框架被表示為一個模態,並且與一個數據集相關聯。整個設置,其中一個人可以訪問從多個模態獲得的數據,被稱為多模態。
  • 深思考楊志明:多模態語義理解能推動人工智慧大規模落地|2019 WISE...
    深思考專注語義理解15年的時間,目前在多模態語義理解方面取得了一些進展,在智慧營銷、智能終端落地了相關技術。對於多模態語義理解的AI落地,他們又有怎樣的見解和經驗分享?以下是深思考CEO AI算法科學家楊志明的演講實錄,36氪編輯整理:各位大家上午好!
  • 京東姚霆:推理能力,正是多模態技術未來亟需突破的瓶頸!
    以學術研究帶動產業落地,正是姚霆所帶領的團隊要做的事,在多模態技術研究上,這支團隊一直嘗試多模態領域有所突破,比如近期該實驗室在視覺與語言方向提出了一個全新的高階注意力機制(X-linear Attention Block),首次將其融入至圖像描述生成任務中,主要的技術創新是打破了傳統注意力機制中一階的特徵交互限制,通過所設計的高階注意力機制可以靈活地捕捉不同模態間高階乃至無窮階的特徵交互
  • 虛擬實境VR人機互動中的輸入和輸出技術探討
    VR中輸出技術的發展與傳統的桌面顯示設備類似,視覺仍然是VR中輸出信息的主要模態,但也有不同於桌面顯示設備的需求,如解析度及像素密度、近眼顯示、視場角(Field of view,FOV)等。另外,為了增強沉浸感、提高VR交互的自然性,對於VR環境中其他模態(聽覺、觸覺)的信息呈現也有區別於傳統桌面顯示設備的需求。
  • 計算機行業投資報告:語音交互將成為物聯網時代的主流交互方式
    )搜狗地圖推出智能副駕,全語音支持車內場景對話; (6) 國務院印發《新一代人工智慧發展規劃》 。  簡評: 語音交互逐步泛化,生態打造最具價值  巨頭紛紛入局智能音箱,瞄準的是智能語音助手承載的下一代作業系統的巨大價值。音箱熱的背後,是整個語音交互產業鏈技術上達到商業應用拐點之後巨頭對於交互方式變革的期待和下一代作業系統的勢在必得。音箱更多是一個目前被亞馬遜證明能夠實現規模商用的承載硬體,核心還在於支撐這類智能硬體人機互動的智能語音助手。
  • 交互方式的系統總結:如何讓App擁有一個有趣的「靈魂」?
    然而,在微信的拍攝功能中,就將拍照和攝像完美地融合在了一個按鈕中。其實拍照和攝像本質上不都一樣,只不過一個是瞬間另一個是長時間罷了。而這恰恰不正是對應著點擊和長按這兩個交互方式嗎?這樣別出心裁的互動設計,通過一個按鈕就將兩個操作行為巧妙結合在了一起,減少了用戶的操作步驟,實在是妙!
  • 交互流程中的三大重點
    隨著網際網路的快速發展,產品的視覺層也基本成熟,而如今越來越多人更加關注的用戶體驗。一個產品的體驗甚至可以直接決定了整個產品失敗與否,大部分優秀的體驗設計都是存在細節中,我們甚至不會很直接地發現他,但是當一個產品體驗不好的時候,我們隨時都會感覺到。互動設計越來越被人們重視,甚至連我也將交互掛著嘴上,朗朗上口。
  • 聚焦多模態自然語言處理等AI技術,京東智聯雲亮相NLPCC 2020
    在本次國際自然語言處理與中文計算會議 (NLPCC 2020)上,  京東智聯雲舉辦了第一屆「多模態自然語言處理研討會」。該研討會邀請了多位學術大咖進行學術分享,吸引了自然語言處理、多模態、圖像處理等多領域眾多學者參與。會中,各位學者就跨語言跨模態信息處理、多模態預訓練、AI與藝術、視覺與語言交互、多模態對話系統等領域的研究熱點和技術應用展開討論,反響熱烈。