天貓精靈AliGenie 5.0系統體驗:喚醒語音助手不再靠喊話

2020-12-16 騰訊網

你應該看過那個視頻吧:有人跑到蘋果店裡大喊一聲「嘿,Siri」,一瞬間幾十上百個Siri齊聲「在呢,什麼事」,那環繞立體聲效堪比杜比全景聲!

幹這事的人無疑是為了搞笑,但也無形中戲謔了一把所謂人工智慧語音助手的一個不足,那就是必須要喊喚醒詞才能進行對話或下達指令。需要喚醒詞喚醒的語音助手們,似乎成了天經地義,但這事現在就被顛覆了。

9月17日,天貓精靈在雲棲大會發布了首個全場景人機交流系統AliGenie 5.0,首次將人臉喚醒、唇動喚醒、手勢操控、語音交互等多種形態的交互方式融合在一起。

簡單地說就是,我不需要再喊一聲「天貓精靈」,直接就能跟機器對話了,有時候做減法比做加法更難,AliGenie 5.0省掉的這一步對於人機互動來說是革命性的。

多模態喚醒首次大規模應用落地

AliGenie升級到5.0後,將唇動、手勢、語音語義等多種形態的交互信息融合在一起,這也就是人機互動領域常說的多模態。

模態,雖然不是我們的日常用語,但從字面意思上其實很容易理解。正如我們有視覺、聽覺、嗅覺和觸覺等,傳遞出的信息就有視頻、圖像、語音、手勢、姿態等,每種形式可以稱作一種模態。

多模態融合的人機互動一直是人工智慧研究的熱門領域,但此前更多停留在學術研究層面。而AliGenie 5.0系統已同步落地到天貓精靈今年的三款秋季新品上:天貓精靈CC10電池版家庭智慧屏(以下簡稱CC10電池版),天貓精靈CC MINI智能時鐘屏以及IN糖2智能時鐘音箱。其中,CC10電池版將率先上線多模態喚醒功能,並在10月中旬逐步升級覆蓋CC帶屏系列產品。

這是多模態喚醒首次大規模應用在消費電子產品上,不管是對阿里公司,還是整個人機互動技術領域來說,它都具有重要意義。這或許也意味著,很快你對手機、智能音箱乃至整個智能家居發號施令的方式要全面變革了。

當然,變革的前提是,天貓精靈AliGenie 5.0系統所帶來的多模態喚醒體驗像它們宣稱的那樣好。我已對CC10電池版搭載的多模態喚醒功能體驗了一段時間,可以說它確實刷新了我對智能音箱這類產品的使用認知,這種感受不能說是顛覆性,卻新穎又熟悉。

就像在跟身旁同事說話

新穎和熟悉本是兩個矛盾的詞,但用在CC10電池版的交互體驗上很合適。之所以說新穎是因為,居然我不需要先喊一聲「天貓精靈」,它就能直接回應我。

舉個例子,我平時把CC10電池版放在辦公桌一側,寫稿子時想要聽歌了,把頭一轉向它,左下角的天貓精靈便提示「已人臉喚醒,我正在聽……」,幾乎就是同時,我對它說「播放音樂」,然後就開始放歌了,整個過程就像跟旁邊工位的同事對話一樣,根本不需要多費口舌喊聲「天貓精靈」。

這也是我說它「熟悉」的原因,你想想和它對話就跟旁邊同事聊天一樣,自然的交流,能不熟悉嗎?

升級到AliGenie5.0後,CC10電池版還支持多種手勢隔空操控,比如對屏幕豎大拇指就能收藏當前播放內容,做個「噓」的手勢,就可以馬上讓天貓精靈靜音,這種很「擬人化」的交流方式讓交互感受更順暢了。

使用過程中我還發現,從側過臉到講出指令,或者舉手做「噓」的手勢,到CC10電池版接收指令做出反應,中間並沒有太多等待時間,整個響應過程是一氣呵成的,這當中也離不開多模態喚醒的作用。

據介紹,天貓精靈的算法專家通過融合視覺識別能力、語音識別能力以及上下文語義,把視覺和語音信息通過深度學習的方式進行融合然後輸入到機器「大腦」,進而做出綜合性決策,讓機器「能聽、會看」。

也就是說,開啟多模態喚醒功能後,在盯著機器張嘴說話時,天貓精靈會自動識別出我的唇動、眼神朝向、表情動作,接收語音信息的同時就能直接給出對應的反饋了。

使用CC10電池版的時候,我也發現,如果我對著CC10電池版時沒有講話,而旁邊的同事在講話,它也不會被誤喚醒,因為這時機器接收到的聲音和圖像信息沒有匹配。而當我在說話的時候,它接收到我的嘴唇動作和聲音是匹配的信息,就會被喚醒並識別指令。

我們在對未來人工智慧的暢想中,並不希望看到喚醒-接受指令這種機械的方式,而是全面「擬人化」的交流。當不需要再喊出「天貓精靈」的喚醒詞,就能跟CC10電池版自然交互時,我發現這個智能助手是真的懂我了。

讓每個人無差別享受AI

根據天貓精靈數據,在家庭生活場景下,結合人臉、唇動喚醒和語音自然對話,多模態識別的準確率超過99%。從CC10電池版在我辦公桌旁的這段時間來看,近距離的唇動喚醒成功率是很高的,即使是人聲更嘈雜的辦公室環境,它也沒有被其他人的語音誤喚醒的情況出現。

事實上,多模態喚醒相比單一的語音喚醒詞能夠更好降低誤喚醒率。在各家智能助手發展的過程中,為了語音喚醒成功率這個指標,算法會把語音感知的靈敏度調整得很高。過高的靈敏度很容易捕捉到漢語裡某些發音相似的音節,因此哪怕是一家人日常閒聊,電視裡播放新聞,乃至三更半夜時,音箱裡的語音助手們都可能突然說話,讓人莫名其妙。

在免喚醒的對話情景下,天貓精靈需要融合嘴唇、語音的動態信息識別,能夠幫助機器過濾掉90%以上的環境背景幹擾信息,反而能夠做到比特定的喚醒詞更高的準確率,同時大大降低誤喚醒率。

唇動喚醒的方式也是此次天貓精靈AliGenie 5.0系統的首創,先提取人講話時的唇動關鍵特徵點,經過唇動的分析,當圖像序列和音頻序列能成功匹配時,繼而結合上下文語義綜合判斷出用戶與機器對話的行為意圖,最終喚醒設備。

搭載AliGenie 5.0的CC10電池版,根據生活中常見的「近場、中場、遠場」三類人機互動情景,可以綜合調動多種交互信息來確認我們的交流意圖。近場也就是1米左右的交互情景下,唇動喚醒無疑是最自然的。1-1.5米左右的中場距離下,模擬人們打招呼的形式,對著機器揮手說話即可喚醒,此時也不需要喊出「天貓精靈」。

更遠距離時,直接通過「天貓精靈」喚醒詞下指令也是最擬人化的體驗,未來,天貓精靈還將利用聲紋識別技術來辨別聲音來源的方向、位置,讓語音喚醒的反饋更精準。雖然真實生活場景中,還會受到人臉距離、光線等因素的影響,但AliGenie 5.0在人機互動上無疑已開始一段新的徵程。

有了多模態識別的能力,經過一段時間的訓練,未來人工智慧助手能把人和聲音及聲音方向、手勢動作都「對號入座」,在一個家庭空間中,可以真正認識、分辨出每一位家庭成員,熟知每個人的生活習慣和喜好,並且在任一位置都能與家庭成員自然交流,它與理想中的未來智能助手的樣子已越來越接近了。

許多科幻電影描繪的未來生活,人工智慧化身成一個不折不扣的管家,不再是被動的接受命令,而是通過用戶的私人喜好與定製化需求主動提供服務。這個過程的建立就是通過自然語言的交流實現的,之所以它看起來如此美好,正是因為自然交流對於人來說幾乎沒有學習成本。

家庭裡的成員構成複雜多樣,與機器的自然交流還意味著它可以讓所有人無差別使用最新技術。語音對話、唇動喚醒、眼神手勢交流融合的自然交互方式,意味著在技術層面,降低了人們觸達前沿科技的門檻。

網購、行動支付、網約車、外賣,還有人人都離不開的健康碼,技術讓許多人生活變得越來越便利,但有的人卻因為種種原因無法享受到,這不是人或者技術的錯,在改變的過程中,技術需要輔助人們適應變化,而不是跟人對立起來,造成所謂的「淘汰」。

天貓精靈AliGenie 5.0將多模態喚醒的落地,其實就是做了一件看起來簡單但偉大的事:用跟人一樣打交道的模式,為更多人提供前沿科技帶來的便利,讓每個人無差別享受AI。

相關焦點

  • 天貓精靈發布AliGenie5.0人機互動系統,推出「多模態喚醒」模式
    9月17日,天貓精靈在雲棲大會發布了首個全場景人機互動系統AliGenie5.0,將視覺、語音、觸覺等多種形態的交互方式融合在一起,能更精準地感知物理世界,深入理解使用者的意圖。當天發布的三款新產品也全部搭載了AliGenie5.0,提供了唇動喚醒、揮手喚醒等多種「擬人化」的喚醒方式。天貓精靈事業部總經理庫偉表示,從AliGenie5.0開始,天貓精靈將開始以服務為中心,應用微內核、多模態交互等技術,構建全場景智能化。據悉,該系統同步面向開發者、智能家居合作夥伴開放。
  • 天貓精靈發布AliGenie5.0人機互動系統 業內首創「多模態喚醒」
    (記者文雪梅)天貓精靈17日在雲棲大會發布了首個全場景人機互動系統AliGenie5.0,將視覺、語音、觸覺等多種形態的交互方式融合在一起,能更精準地感知物理世界,深入理解使用者的意圖。當天發布的三款新產品也全部搭載了AliGenie5.0,提供了唇動喚醒、揮手喚醒等多種「擬人化」的喚醒方式。天貓精靈事業部總經理庫偉表示,從AliGenie5.0開始,天貓精靈將開始以服務為中心,應用微內核、多模態交互等技術,構建全場景智能化。據悉,該系統同步面向開發者、智能家居合作夥伴開放。
  • 天貓精靈發布AliGenie5.0人機互動系統 可通過唇動、揮手喚醒,人機...
    來源:金融界網站9月17日,天貓精靈在雲棲大會發布了首個全場景人機互動系統AliGenie5.0,將視覺、語音、觸覺等多種形態的交互方式融合在一起,能更精準地感知物理世界,深入理解使用者的意圖。當天發布的三款新產品也全部搭載了AliGenie5.0,提供了唇動喚醒、揮手喚醒等多種「擬人化」的喚醒方式。 天貓精靈事業部總經理庫偉表示,從AliGenie5.0開始,天貓精靈將開始以服務為中心,應用微內核、多模態交互等技術,構建全場景智能化。據悉,該系統同步面向開發者、智能家居合作夥伴開放。
  • 天貓精靈發布3款新品 搭載全新AliGenie5.0系統可唇動、揮手喚醒
    【TechWeb】9月17日消息,天貓精靈在雲棲大會發布了首個全場景人機互動系統AliGenie5.0,及三款新產品CC10電池版、CCMINI以及第二代IN糖,三款產品全部搭載AliGenie5.0,提供唇動喚醒、揮手喚醒等多種喚醒方式。
  • 天貓精靈發布AliGenie5.0人機互動系統 支持唇動、揮手等多模態...
    鳳凰網科技訊 9月17日消息 在阿里巴巴的雲棲大會上,天貓精靈事業部發布了首個全場景人機互動系統AliGenie5.0,融合了視覺、語音、觸覺等多種形態的交互方式。同時也發布的三款新產品——配備了10吋智能屏及大容量電池的天貓精靈CC10電池版、4吋智能屏產品天貓精靈CC MINI,以及第二代IN糖都搭載了該交互系統。
  • 天貓精靈發布AliGenie5.0人機互動系統業內首創「多模態喚醒」
    鈦媒體9月17日消息,天貓精靈在雲棲大會上發布了全場景人機互動系統AliGenie5.0,將視覺、語音、觸覺等多種形態的交互方式融合在一起,能更精準地感知物理世界,深入理解使用者的意圖,讓人與機器的交流像和朋友一樣自然流暢。
  • 阿里AliGenie 5.0首創多模態喚醒:唇動即可喚醒天貓精靈
    9月17日,阿里巴巴在雲棲大會上發布了全場景人機互動系統「AliGenie 5.0」,將視覺、語音、觸覺等多種形態的交互方式融合在一起,可以讓設備更精準地感知物理世界、更深入地理解用戶意圖,人與機器的交流可以像人與人之間一樣自然流暢。
  • 重新喚醒天貓精靈
    而相對於新品而言,真正凝聚天貓精靈這段時間戰鬥力的是其背後全新的AliGenie 5.0系統。多模態交互,不再只是用喚醒詞喚醒智能音箱……,今年AliGenie 5.0系統強調的新技能看似全無新意,卻又內藏玄機。甚至可以說,這樣的新技能其實讓從智能語音技術衍生而來的天貓精靈開始顯得有點早熟。
  • 科技早聞:天貓精靈發布AliGenie5.0人機互動系統,微信上線粵語語音...
    一、天貓精靈發布AliGenie5.0人機互動系統9月17日,天貓精靈在雲棲大會發布了首個全場景人機互動系統AliGenie5.0。據了解,AliGenie5.0首次將唇動、手勢、語音語義等多種形態的信息輸入融合在一起,可通過多模態感知的方式理解人類的交流意圖,並直接給出反饋。
  • 動動嘴、揮揮手就能喚醒,可「多模態喚醒」的天貓精靈來了
    【大河報·大河財立方】(記者 丁洋濤)不用先喊「天貓精靈」四個字才能喚醒的「貓」來了。9月17日,天貓精靈在雲棲大會發布了首個全場景人機互動系統AliGenie5.0,它首次將視覺、語音、觸覺等多種形態的交互方式融合在一起,能更精準地感知使用者的意圖。
  • 動動唇揮揮手就能喚醒天貓精靈,這些新功能會讓人機交流更順暢嗎?
    記者 | 林北辰從今以後,你可以用揮手「喚醒」天貓精靈了。9月17日,阿里巴巴一年一度的雲棲大會上,天貓精靈作為阿里雲的重點項目之一,對外公布更新了新版系統,並發布三款新品。本次發布的全場景人機互動系統被命名為「AliGenie5.0」,該系統在硬體端上線的同時,也面向開發者和智能家居合作夥伴開放。根據天貓精靈事業部總經理庫偉的說法,從AliGenie5.0開始,天貓精靈將開始以服務為中心,應用微內核、多模態交互等技術,構建全場景智能化。
  • 天貓精靈發布唇動及揮手喚醒 支持房產汽車等領域合作產品
    樂居財經訊 嚴明會 9月17日,阿里巴巴人工智慧實驗室AI智能產品天貓精靈在雲棲大會發布了首個全場景人機互動系統AliGenie5.0,將視覺、語音、觸覺等多種形態的交互方式融合在一起,提供了唇動喚醒、揮手喚醒等多種「擬人化」的喚醒方式。
  • 天貓精靈簡潔改版:讓「閒聊機器人」回歸「智能助手」
    好消息是,從12月18日開始天貓精靈全系列智能音箱機型陸續全面改版。其核心就是減少「話癆」屬性,對話時長平均縮短5秒,AI服務的效率提升翻倍;新增「提醒管理」功能,對訂閱服務進行統一管理,可謂直擊用戶核心需求,大幅提升了人機互動中最重要的「自然體驗」。這些升級對於我來說真的非常的實用,所以我也替大家第一時間進行了體驗。
  • HiFi級晶片,天貓精靈X5智能語音音箱,給你一個不一樣的聽覺體驗
    而這次,當我體驗到了天貓精靈X5之後,果斷留下了這款天貓新品,究竟是怎麼回事呢?讓我們一起來看看這款天貓精靈X5吧。作為天貓精靈X1的"大哥",X5自然是要比X1在品質、硬體、功能各個方面都有了新的升級,產品包裝包含主機、說明書、適配器等。
  • 天貓精靈CC10電池版體驗
    9月18日,天貓精靈在雲棲大會上發布了全場景人機互動系統AliGenie5.0,將視覺、語音、觸覺等多種形態的交互方式融合在一起,能更精準地感知物理世界,深入理解使用者的意圖,讓人與機器的交流像和朋友一樣自然流暢。
  • 天貓精靈CC10體驗:支持語音購物 智能看得見
    天貓精靈的聲學團隊中引進了通過飛利浦和哈曼認證的5位『金耳朵』,並且建立了專業聲學消音室、混響室,從而保證天貓精靈的音質更出色。  常規功能演示視頻:  用語音實現購物  天貓精靈CC10背靠天貓平臺,因此也加入了語音購的功能,將支付寶和淘寶帳號與天貓精靈CC10綁定之後,只需語音告知需要購買的商品,天貓精靈可以直接幫你推薦你需要的產品,動動嘴就可以下單了。
  • 天貓精靈怎麼喚醒
    確保天貓精靈處於開啟狀態以及連接網絡成功。喚醒時只需對著天貓精靈說【天貓精靈】,它就會有回應。如果你想要聽音樂,可以對天貓精靈說:【天貓精靈,我要聽歌】。建議喚醒環境相對安靜,要讓天貓精靈感知到喚醒的聲音。具體介紹如下:
  • 「孵化10個米家」,天貓精靈要做更多人的家庭助手
    奧維雲網數據顯示,2020年一季度中國智能音箱市場銷量為884.4萬臺,同比增長23.0%,天貓精靈、小米和百度三大品牌總共的銷售份額佔比高達93.7%,其中天貓精靈以35.5%的市場份額位列第一。「我們的核心目標是把天貓精靈打造成懂你的家庭助手。我們希望天貓精靈能成為用戶的健康助手、娛樂助手、智能家居助手、教育助手、生活服務助手和信息助手。」庫偉說道。這次推出的四款產品均在以往產品的基礎上做了升級。
  • 天貓精靈妙物TWS真無線藍牙耳機:支持AI語音交互?絕了
    隨著科技技術的飛速發展,人工智慧交互體驗在我們生活中已經變的十分常見了,在眾多的AI交互體驗當中,支持語音交互的智能音箱應該是最為常見的,不過今天筆者並不是要和大家分享智能音箱產品,而是要和大家分享一款支持語音操控的智能耳機「天貓精靈妙物TWS真無線藍牙耳機」。那麼這款產品表現的到底怎麼樣呢?接下來就讓我們一起來了解一下吧!
  • 如何使用BMW車載天貓精靈?
    天貓精靈僅支持普通話喚醒,如您無法喚起或想禁用此功能,請到車輛互聯駕駛系統中調整設置,具體操作如下:1)進入我的座駕-設置2)通用設置-個人助理-語言設置3)喚醒詞-勾選」使用你好寶馬開始語音對話」以開啟語音對話功能