從數據角度全面解析,智能語音交互產品該怎樣確定「喚醒詞」

2020-12-25 36kr

本文來自百度人工智慧互動設計院微信公眾號:百度AI互動設計院,原題目《拿什麼名字喚醒你?我的智能小夥伴》。

「小度小度,我想聽周杰倫的新歌《等你下課》。」 「小度小度,幫我打開臥室的燈。」 「小度小度,定一個明早七點半的鬧鈴。」 

和很多智能語音交互產品一樣,當你使用搭載DuerOS系統的智能音箱的時候,需要多次這樣叫出它的名字——「小度小度」,才能讓它更好的為我們服務。但是什麼樣的名字才是好名字?什麼樣的名字順口悅耳人人喜愛?產品經理想叫A,其他同事想叫B,到底應該叫什麼好呢? 

本篇文章將從數據的角度,科學的告訴你,智能語音交互產品該「叫」什麼名字。 

一、什麼是「喚醒詞」以及它為什麼重要?

1. 「喚醒」和「喚醒詞」

在討論名字之前,我們首先對語音交互過程中的一些定義做一個簡單的介紹。 

語音交互的過程,和我們平時與人交流的方式非常相似。比如某天中午你正坐在辦公室看到窗外陰天,你擔心接下來會不會下雨,於是你向正在低頭辦公的同事喊了一聲「小明」,小明聽到了抬頭看你表示在聽,你接著問「今天會下雨麼?」小明打開手機查了一下今天的天氣預報,然後回答你說「天氣預報說下午3-4點有雷陣雨」。 

在百度AI互動設計院的研究地圖中,語音交互流程被劃分為五個環節 – 喚醒、響應、輸入、理解、反饋。其中喚醒是每一次用戶與語音產品交互的第一個接觸點,因此喚醒環節的體驗在整個語音交互流程中至關重要,它的體驗好壞將直接影響用戶對產品的「第一印象」。

我們知道,儘管是「智能」的語音交互產品,機器仍然沒有我們人類聰明。對於目前市面上常見的語音交互產品來說,一個眼神或者一個動作還不能引起它的注意,因此需要定義一個將產品從待機狀態切換到工作狀態的詞語,們稱這種詞為「喚醒詞」。 

還記得我們剛剛提到的「問天氣」的例子嗎?我們通過呼喊「小明」的名字,來引起他的注意,而對於智能語音交互產品,我們也需要通過叫出「名字」,也就是喚醒詞來激活設備。以智能音箱產品為例,「小度小度」是喚醒渡鴉raven H的喚醒詞,「Hey Google」是喚醒Google Home的喚醒詞,「Alexa」是喚醒Echo的喚醒詞。

2. 「喚醒詞」對用戶體驗的影響

百度AI互動設計院基於大量的對智能語音交互產品用戶測試的經驗,發現影響語音喚醒體驗的因素包含兩個維度——輸入和輸出。輸入環節的影響因素包括喚醒詞、喚醒方式,輸出環節的影響因素包括喚醒響應速度、喚醒反饋方式、喚醒成功率和誤喚醒率。為了確定影響語音喚醒體驗的主要因素,我們通過問卷調查的方法對其重要性進行了研究。調查結果發現,對於用戶來說,喚醒詞是語音喚醒輸入環節中較為重要的影響因素,且一個好的喚醒詞,會直接影響喚醒率。 

而目前,關於喚醒詞設計的關鍵因素還未進行科學的研究。鑑於此,本期我們以喚醒詞為對象進行研究,希望能夠對喚醒詞的設計提供理論和數據上的支持。 

另外,我們將在後續的文章中,為大家陸續呈現關於影響語音喚醒體驗的更多研究,敬請關注。 

二、怎樣設計一個好的「喚醒詞」? 

針對喚醒詞,我們先後通過以下兩個實驗進行了研究。

實驗一:現有喚醒詞組合方式研究

實驗二:喚醒詞語音要素研究

下面我們對每個實驗的結論進行逐一詳述: 

實驗一:現有喚醒詞組合方式研究

首先,我們對市場上各類語音交互設備喚醒詞的組合方式進行拆解,發現喚醒詞均是在一個簡單「名字」的基礎上加以變化而構成,此外,「名字」本身也具備不同的構成方式。在實驗中,我們為用戶提供了不同組合方式的喚醒詞,由用戶根據其個人喜好程度在5點量表上進行評價(1-非常不喜歡、2-不喜歡、3-一般、4-喜歡、5-非常喜歡)。

實驗結果表明,不同組合方式下,用戶的喜好程度不同: 

1)在以「名字」為基礎的不同組合方式中,「名字+名字」的疊詞式組合方式最受用戶喜歡,而「品牌+名字」的組合方式最不被用戶喜歡。

2)另外,就「名字」本身而言,「小+字」的名字最受用戶喜歡。這點也與漢語人名命名習慣相符,《漢語人名用字的統計分析(鄭淑花,2010)》顯示,「小」字在人名命名十大常用字之中。

實驗二:喚醒詞語音要素研究

音節是聽覺上最容易分辨出來的語音單位,也是最自然的語音單位,漢字中一個漢字讀音就是一個音節,每個基本音節都是由聲調、聲母和韻母三個部分構成。

理想條件下,我們希望對喚醒詞每一音節的聲調、聲母、韻母進行研究,但是由於音節數的增加,研究變量數將大幅度增長,導致我們無法通過一次實驗來完成。另外,通過文獻查閱,我們發現人們在起漢語人名時,會將尾音節的發音情況列入考量,同時,漢語人名/寵物名統計研究中也多見其對尾音節發音情況的統計。 

因此,綜合文獻和前文實驗的結論,本次實驗中我們以喚醒詞尾音節為研究對象,選取「小+字」的構詞結構,變換尾音節,進行喚醒詞的發音偏好實驗。同時為避免用戶受漢字本身字義的影響,實驗中用戶看到的喚醒詞均為標有聲調的拼音。在實驗中,我們要求用戶根據其個人喜好程度在5點量表上對喚醒詞進行評價(1-非常不喜歡、2-不喜歡、3-一般、4-喜歡、5-非常喜歡)。

實驗結果表明:

1)聲調方面,用戶最喜歡陰平(1聲);另外相較「仄聲」(3聲上聲、4聲去聲統稱為「仄」),用戶更加喜歡「平聲」(1聲陰平、2聲陽平統稱為「平」)。

2)聲母方面,用戶更加喜歡尾音聲母為零聲母,而包含了z、c、s的舌尖前音最不被用戶所喜歡。 

3)韻母方面,從韻母發音時的開口口型來看,用戶更喜歡開口口型較大的齊齒呼和開口呼;另外從韻母結構來看,音節韻母為單韻母的詞最受用戶的喜歡。

三、小結 

本文主要圍繞智能語音交互設備的喚醒詞展開研究,從喚醒詞組合方式和語音要素兩個方面探討了影響用戶體驗的因素,我們發現: 

1)現有喚醒詞組成方式方面:

§  在以「名字」為基礎的不同組合方式中,「名字+名字」的疊詞式組合方式最受用戶喜歡,而「品牌+名字」的組合方式最不被用戶喜歡;

§  就「名字」本身而言,「小+字」的名字最受用戶喜歡。

2)語音要素方面:

§  聲調:用戶最喜歡陰平,同時相較「仄聲」,用戶更加喜歡「平聲」;

§  聲母:用戶更加喜歡尾音聲母為零聲母,而包含了z、c、s的舌尖前音最不被用戶所喜歡;

§  韻母: 按照韻母發音時的口型開口情況來看,用戶更喜歡開口口型較大的齊口呼和開口呼;另外按照韻母結構來看,音節韻母為單韻母的詞最受用戶的喜歡。 

基於本文的研究,相信你已經掌握了如何構造一個好的喚醒詞的方法了吧?以下是我們結合收集的用戶自定義喚醒詞及本文研究結論,為喚醒詞作出的分類,供讀者們應用參考。


需要注意的是,本文是從用戶視角出發,對喚醒詞進行了科學的研究和探討,但是實際在設計喚醒詞時,需要考慮的因素還有很多,如:喚醒詞是否過於常見導致語音設備容易被誤喚醒,喚醒詞與品牌之間是否具有關聯。另外,受當前語音技術的限制,現有的喚醒詞多以4音節詞居多,但未來隨著語音技術的進步,喚醒詞的長度存在變短的趨勢,在設計喚醒詞時還應考慮其可優化的空間等等。 

特別註明:由於實驗設定的條件和樣本數量等限制因素,本次實驗研究結論或許不能代表所有智能產品用戶在家居環境的全部感受,但希望通過我們的研究和探索,可以為語音交互中喚醒環節的設計提供支持和依據,幫助打造自然和極致的語音交互體驗。

未來,我們還將繼續圍繞AI互動設計各個環節、體驗要素開展更多研究,不斷拓展人工智慧互動設計領域的研究地圖,也歡迎感興趣的同學一起交流、探討。

相關焦點

  • 科普文:智能音箱的喚醒詞是怎樣誕生的?
    本文是來自百度AI 互動設計院(微信:gh_8d606ce3c1a5)的投稿,他們通過實驗的方式、從數據角度,分析這些喚醒詞的特徵,告訴你,智能語音交互產品該「叫」什麼名字。雷鋒網對文章作了不改變原意的編輯。 一、什麼是「喚醒詞」以及它為什麼重要? 1.
  • 語音交互:從語音喚醒(KWS)聊起
    生活中應用的最好,就應該是智能音箱了,每個品牌的智能音箱都有自己的名字,我們通過音箱的名字喚醒她,和她進行交互,控制家電。其次就是手機,目前大部分手機都配有手機助手,從蘋果最早的siri到現在的「小愛同學」,讓我們實現了即使不觸碰手機,也可以實現一些操作。還有一些服務類型的機器人,也會用到語音喚醒。
  • 京東智能雲語音服務開放平臺上線「喚醒」全新語音交互未來
    而叮咚的家庭入口布局也真正完成了從交互、內容到服務的全面布局。叮咚靈動版搭載最新的人工智慧語音交互界面(AIUI)打破了現有語音交互模式,可實現單次喚醒多次對話的全新體驗。發布會上京東集團CTO張晨表示:「京東作為一家以技術驅動的公司,正在積極布局人工智慧領域,而叮咚可以很好的擴展京東自身的服務,例如用戶可通過語音完成購物,這將會成為京東購物的新入口。」
  • AI產品經理需要了解的語音交互評價指標
    本文主要從5大方面具體介紹了現在行業內對語音交互系統的常見評價指標,分別是語音識別、自然語言處理、語音合成、對話系統和整體用戶數據指標。enjoy~最近,在飯糰「AI產品經理大本營」裡,有團員提問:如何制定針對自然語言語音交互系統的評價體系?有沒有通用的標準?例如在車載環境中,站在用戶角度,從客觀,主觀角度的評價指標?
  • 超全面的語音交互知識總結:從原理、場景到趨勢 | 人人都是產品經理
    2019年全球語音交互市場規模達到13億美元,預計2025年全球語音交互市場規模將69億美元,目前以廣泛應用到智能家居、車載語音、智能客服等行業和場景。筆者從事語音交互產品一年有餘,針對語音交互的概念定義、優劣勢、適用場景和產品、未來發展等進行梳理總結。
  • 智能語音交互應該如何設計?
    編輯導語:隨著亞馬遜、小米、阿里巴巴等大公司都推出了智能語音產品,智能語音互動設計成為了一個值得探索的領域。語音交互如何設計才能達到更自然的交互反饋、更好的傳達情感,這是目前需要解決的問題。對於用戶來說,希望能與智能產品建立親切的信任感,越相處越好用。AI時代,深知我者,才能久居我心。
  • 智能音箱專業級評測:語音交互/聲音性能/拆機分解三方面深度解析
    此次評測以中電三所下屬國家廣播電視產品質量監督檢驗中心、北京中電慧聲科技有限公司、三所科技創新中心語音與智能聲學實驗室為技術支持,針對智能音箱交互性水平、聲性能、拆機分析三大方面展開了深度評測。智能音箱須具備擴聲、語音交互、信息傳輸以及智能化附加功能。
  • 2018最值得期待的創新廣告產品之「小米電視智能語音霸屏廣告」
    與傳統電視不同,OTT 設備具備可聯網與可交互的雙重特性,霸屏廣告便是在 OTT 設備上的一種創新性的可交互的廣告形式。在不打斷用戶操作路徑的前提下,通過智能語音喚醒、遙控器點擊的交互方式來品牌信息的衝擊性展現,是下一代電視互動廣告形式的有效探索。
  • 四大智能電視語音交互大戰:這樣的才能叫智能!
    智能家居與智能語音的結合更具有天然的入口和優勢,有數據預估,2018 年的智能家居市場規模將突破 1600 億。我們都知道智能語音的載體目前最有代表性的產品是智能音箱,不過國內的智能音箱市場雖然熱鬧,但是銷量並不樂觀,這與國內用戶的家居場景習慣關係很大,而同樣擁有智能語音功能的智能電視則擁有更紮實的用戶基礎。
  • 大象聲科AI單麥抗噪語音交互模組性能展示!
    該模組只用一顆麥克風,即可快速實現語音識別、對話交互、語音技能、語音控制等功能,不受限於噪聲類型,能夠輕鬆實現對用戶指令的精準識別。軟硬一體化的解決方案,助力品牌廠商快速實現順暢自然的智能語音交互體驗。快來看看大象聲科AI單麥抗噪語音交互模組在噪聲環境下的喚醒打斷性能吧!
  • 蘋果點燃戰火,語音交互下半場主角為何會是智能耳機?
    作為智能語音助手,當 Siri 依附於 iPhone 時,人們習慣性的拿起手機進行觸控交互,因為大部分場景中,使用觸控方式都非常直觀,可當你的手機放在兜裡,正戴著 AirPods 跑步/開車時,Siri 就可以顯現出自己的能力,只需要簡單的敲擊喚醒,Siri 可以立刻為你記錄信息或者提供導航,這種操作會極大拓展耳機的使用場景,來自 NPD 的研究報告指出:「自 2016
  • 各路大咖共探:智能語音技術如何與家電產品深度融合?
    為推動語音識別及交互技術在家電領域的融合發展,廣東省智能家電創新中心積極籌劃搭建「家電智能語音產業協同創新平臺」,平臺匯聚國內外智能家電語音產業鏈各環節的代表企業/機構專家,互通有無加快技術演進,促進合作共贏,助力語音識別及交互技術在智能家電領域的持續健康發展。
  • 全景AI交互 康佳全面屏AI智能語音電視LED55U5
    【天極網家電頻道】隨著科技進步,智能家電越來越多,在品牌眾多的市場,如何挑選一款好的產品呢?拿電視來說,消費者在挑選的時候又需要智能化,又需要能語音操控,高清畫質,要求一多價格自然也不低了。真正可以智能互動操控的55寸電視價格動輒4000以上,那麼到底有沒一款既有顏色性價比又真正智能的電視呢?
  • 百度CoDriver 智能後視鏡體驗:語音交互是核心競爭力
    比如騰訊在前兩年做過 OBD,後來做 ADAS、智能車機,而阿里和後視鏡廠商也合作過 YunOS 系統的智能後視鏡和車機產品。 昨天,百度用「智能汽車事業群」刷了大家的屏,他們重新梳理了汽車業務架構,以更清晰的形象示人。 其中,車聯網仍然是百度汽車業務裡面一個重要的組成部分。
  • 雲知聲闖關科創板:營收增速放緩智能語音交互產品佔比下降
    智能語音交互產品營收佔比下降 業務轉向智慧物聯解決方案根據云知聲招股書援引的灼識諮詢數據,我國人工智慧語音市場規模從2015年9.4億元增長至2019年148.0億元,年均複合增長率接近100%。目前全球智能語音行業的市場參與者分為兩類,包括網際網路科技巨頭谷歌、蘋果、亞馬遜、百度以及智能語音技術公司Nuance、Cerence、科大訊飛、思必馳等。雲知聲的主營業務包括提供智能語音交互產品、智慧物聯解決方案、人工智慧技術服務三大部分。
  • 語音識別的痛點在哪,從交互到精準識別如何做? | 雷鋒網公開課
    它由一套由雲和客戶端相結合服務框架構成,包括音視頻前端信號處理、雲+端相配合交互引擎、內容和知識平臺以及接口、用戶個性化系統等。平臺具備開放性,第三方可進行靈活配置、業務擴展、內容對接等。以前的語音交互產品,包括訊飛在內,大家提供的都是單點的能力,比如語音合成、語音喚醒、語音識別、語義理解,另外還有人臉識別、聲紋識別等。
  • 小度智能音箱23億語音交互背後的價值演變
    和許多黑科技的誕生一樣,有了美好遠景的語音交互成了幾代「程式設計師」的奮鬥方向。特別是深度學習技術在2010年引入到語音識別領域後,蘋果Siri、Google Now、百度語音、微軟Cortana等「語音助手」類產品應運而生,有問有答的人機對話逐漸成為現實,哪怕機器還處於被動接受人類輸入大量數據階段,不能深層次理解人的意思。
  • 支持「免喚醒」,TCL V8全場景AI電視成未來語音交互引領者!
    與此同時,AI電視也給我們的生活帶來了顯而易見的改變,拿電視的操控方式來說,現在的電視已經從傳統的遙控器控制,演變成了手機遙控、語音操控等等,其中語音控制電視的方式更是成為了目前各大廠商旗艦產品的重要賣點。那麼,未來電視又會有怎樣的發展呢?
  • 一顆晶片解決所有語音交互,百度做了一項改變行業的技術革新
    4月20日,百度旗下人工智慧品牌小度發布了新款無屏智能音箱——小度智能音箱 2 紅外版。據百度官方介紹,該音箱搭載了百度首款針對遠場語音交互研發的鴻鵠晶片,性能上有三大提升:1)在語音識別上錯誤率平均降低30%;2)高噪聲下首次喚醒率提升10%以上,且達到家居場合使用的超低誤報要求;3)平均工作功耗僅 100mw左右,待機功耗下降90%。
  • 關於語音交互,你不得不知的技術知識
    語音交互的系統構成語音交互面臨的困難自然語言處理的關鍵技術具體場景語音交互實現的技術原理一、語音交互的構成語音交互一般包括三個模塊:語音識別 ASR(Automatic Speech Recognition),主要工作是將聲音信息轉化為文字。