語音交互:從語音喚醒(KWS)聊起

2020-12-17 人人都是產品經理

編輯導語:隨著手機的逐漸智能化,越來越多的手機只要聽到指令就會幫助主人完成一些任務,這就是語音喚醒功能。本文作者圍繞語音喚醒功能,從其應用有哪些、工作原理是什麼、怎樣訓練一個喚醒模型、如何測試等方面展開了詳細地討論。

「Hi siri」、「天貓精靈」、「小愛同學」,我們生活中常常會叫到這些名字,讓她們來幫我們完成一些指令,這個過程就像叫某人幫你做某事的感覺。

而這個叫名字的過程,就是我們今天要聊的語音喚醒。

一、什麼是語音喚醒

語音交互前,設備需要先被喚醒,從休眠狀態進入工作狀態,才能正常的處理用戶的指令。

把設備從休眠狀態叫醒到工作狀態就叫喚醒,我們常見的有觸摸喚醒(鎖屏鍵),定時喚醒(鬧鐘),被動喚醒(電話)等,而語音喚醒就是——通過語音的方式將設備從休眠狀態切換到工作狀態。

語音喚醒(keyword spotting):在連續語流中實時檢測出說話人特定片段。

可能有長得好看的同學就要問了,我讓他一直保持工作狀態不可以嗎?

工作狀態的設備會一直處理自己收到的音頻信息,把不是和自己說話的聲音也當作有效信息處理,就會導致亂搭話的情況。而語音喚醒就成功的避開了這個問題,在只有用戶叫名字的時候工作,其他時間休眠。

其實到底是否需要語音喚醒這個能力,也是看場景的,有些廉價的玩具,就是通過按住按鈕進行語音交互的。

二、語音喚醒的應用有哪些

語音喚醒目前的應用範圍比較窄,主要是應用在語音交互的設備上面,用來解決不方便觸摸,但是又需要交互的場景。

生活中應用的最好,就應該是智能音箱了,每個品牌的智能音箱都有自己的名字,我們通過音箱的名字喚醒她,和她進行交互,控制家電。

其次就是手機,目前大部分手機都配有手機助手,從蘋果最早的siri到現在的「小愛同學」,讓我們實現了即使不觸碰手機,也可以實現一些操作。

還有一些服務類型的機器人,也會用到語音喚醒。

不過一般機器人會採用多模態的喚醒能力,他會結合語音喚醒、人臉喚醒、觸摸喚醒、人體喚醒等多個維度的信息,在合適的時候進入工作狀態。

三、語音喚醒的工作原理是什麼

語音喚醒能力主要依賴於語音喚醒模型(下稱「喚醒模型」),是整個語音喚醒核心。

喚醒模型主要負責在聽到喚醒詞後馬上切換為工作狀態,所以必須要實時監測,才能做到聽到後及時反饋。由於需要實時響應,以及喚醒模型對算力要求不高等方面原因,一般喚醒模型是做在本地的(區別於雲端的ASR識別)。

這就是我們即使沒有聯網,你叫「小愛同學」,她也會答應你的原因。

喚醒模型的算法經過了三個階段的發展:

1. 基於模板匹配

用模板匹配的方法來做喚醒模型,一般會把喚醒詞轉換成特徵序列,作為標準模板。

然後再把輸入的語音轉換成同樣的格式,使用DTW (dynamic time warping)等方法,計算當前音頻是否和模版匹配,匹配則喚醒,不匹配則繼續休眠。

簡單理解就是找到喚醒詞的特徵,根據特徵制定觸發條件,然後判斷音頻內容是否滿足觸發條件。

2. 基於隱馬爾可夫模型

用隱馬爾可夫模型來做喚醒模型,一般會為喚醒詞和其他聲音分別建立一個模型,然後將輸入的信號(會對音頻信息進行切割處理)分別傳入兩個模型進行打分,最後對比兩個模型的分值,決定是該喚醒,還是保持休眠。

簡單理解就是分別對喚醒詞和非喚醒詞作了一個模型,根據兩個模型的結果對比,決定是否喚醒。

3. 基於神經網絡

用神經網絡來做喚醒模型,可以分為多種:

  1. 有將模版匹配中的特徵提取,改為神經網絡作為特徵提取器;
  2. 也有在隱馬爾可夫模型中,某個步驟使用神經網絡模型的;
  3. 還有基於端到端的神經網絡方案。

凡是用到神經網絡原理的,都可以說是基於神經網絡的方案。

其實喚醒模型工作原理很簡單,就是一直在等一個信號,等到這個信號就切換到工作狀態,只是判斷信號的內部邏輯不同而已。

四、如何訓練一個喚醒模型

一般訓練語音喚醒模型大概需要四個步驟,包括:

1. 定義喚醒詞

首先我們需要定義一個喚醒詞:

定義喚醒詞也是有講究的,一般會定義3-4個音節的詞語作為喚醒詞。像我們常見的「天貓精靈」、「小愛同學」、「小度小度」,全部都是4個音節,由於漢語的發音和音節的關係,你也可以簡單的把音節理解為字數。

喚醒詞字數越少,越容易誤觸發;字數越多,越不容易記憶——這也是一般定義在4個字的原因。

另外這3-4個字要避開一些常見的發音,避免和其他發音出現競合,要不然會頻繁的誤喚醒。

一般喚醒詞會做這樣一個處理,就是喚醒詞中的連續3個字也可以喚醒,比如你喊「小愛同」,同樣可以喚醒你的小愛同學。這是為了提高容錯率所做設定的規則。

2. 收集發音數據

然後就需要收集這個喚醒詞的發音,理論上來說發音人越多、發音場景越豐富,訓練的喚醒效果越好。

一般按照發音人數和聲音時長進行統計,不同的算法模型對於時長的依賴不一樣。基於端到端神經網絡的模型,一個體驗良好的喚醒詞可能需要千人千時,就是一千個人的一千個小時。

收集喚醒詞發音的時候,一定要注意發音的清晰程度,有時候甚至要把相近的音也放到訓練模型中,防止用戶發音問題導致無法進行喚醒。

如果用戶群體龐大,甚至考慮該喚醒詞在各種方言下的發音。

3. 訓練喚醒模型

數據都準備好了,就到了訓練模型的階段了,這裡常見的算法有:

  1. 基於模板匹配的KWS
  2. 基於馬爾可夫模型的KWS
  3. 基於神經網絡的方案

這三種方案對比如下:

4. 測試并迭代

最後就是測試並上線,一般分為性能測試和效果測試,性能測試主要包括響應時間、功耗、並發等,這個一般交給工程師來解決。

產品會更關注效果測試,具體的效果測試我們會考慮喚醒率、誤喚醒率這兩個指標,後面的測試環節我們會詳細測試的流程和指標。

產品上線後,我們就可以收集用戶的喚醒數據,喚醒詞的音頻數據就會源源不斷。我們需要做的就是對這些喚醒音頻進行標註、收集badcase,然後不斷的進行訓練,再上線,就是這麼一個標註、訓練、上線的循環過程。

直到邊際成本越來越高的時候,一個好用的喚醒模型就形成了。

五、語音喚醒怎麼測試

語音喚醒測試最好是可以模擬用戶實際的使用場景進行測試,因為不同環境可能實現的效果不一樣。比如:常見各個廠商說自己的喚醒率99%,很可能就是在一個安靜的實驗室環境測試的,這樣的數字沒有任何意義。

這裡說到的場景主要包括以下幾點:周圍噪音環境、說話人聲音響度、以及說話距離等。

測試的條件約束好,我們就要關心測試的指標了,一般測試指標如下:

1. 喚醒率

喚醒詞被喚醒的概率,喚醒率越高,效果越好,常用百分比表示。

在模擬用戶使用的場景下,多人多次測試,重複的叫喚醒詞,被成功喚醒的比就是喚醒率。喚醒率在不同環境下,不同音量喚醒下,差別是非常大的。

用25dB的喚醒詞測試,在安靜場景下,3米內都可以達到95%以上的喚醒率,在65-75dB噪音場景下(日常交談的音量),3米內的喚醒率能夠達到90%以上就不錯了。

所以看到各家喚醒率指標的時候,我們要意識到是在什麼環境下測試的。

2. 誤喚醒率

非喚醒詞被喚醒的概率,誤喚醒率越高,效果越不好,常用24小時被誤喚醒多少次表示。

在模擬用戶使用的場景下,多人多次測試,隨意叫一些非喚醒詞內容,被成功喚醒的比就是誤喚醒率。

如果誤喚醒率高,就可能出現你在和別人說話,智能音箱突然插嘴的情況。

3. 響應時間

用戶說完喚醒詞後,到設備給出反饋的時間差,越快越好。

純語音喚醒的響應時間基本都在0.5秒以內,加上語音識別的響應時間就會比較長,我們下章再討論。

4. 功耗

喚醒系統的耗電情況,對於電池供電的設備,越低越好。

一般插電使用的音箱還好,對功耗的要求不是很嚴格。但是像手機、兒童玩具等產品,由於是電池供電,對功耗的要求較高。

siri是iphone4s就有的語音助手,但直到iphone6s的時候,才允許不接電源下直接通過語音喚醒siri,當時就是考慮功耗的原因。

六、語音喚醒的其他內容

1. 喚醒後的反饋

我們通過喚醒詞喚醒設備後,需要一個及時的反饋,來提醒我們喚醒成功,這就要考驗產品的設計功力了。

一般會有兩個可感知的層面上進行提示,一個是聽覺方面,一個是視覺方面(暫不考慮震動)。

聽覺方面的反饋,又分為兩種:

  1. 一種是語言回復
  2. 一種是聲音提示

語音回復一般常見的有「在的」、「嗯嗯」、「來了」等,都是一些簡短的回覆,表示已經聽到。這幾句TTS的內容需要仔細打磨,反覆調試,才能達到一個理想的效果,建議不要超過1秒。

聲音提示往往是在語音回復之後,提示用戶可以進行語音交互了,一般都是一個簡短的音效,之後就開始收音了。

視覺方面的反饋,也可以分為兩種:

  1. 一種是燈效反饋
  2. 一種是屏幕反饋

燈效反饋常見於智能音箱的產品上面,他們沒有屏幕,但是也需要在視覺上提示用戶,一般不同顏色的燈效,表示機器不同的狀態,是有明確的產品定義的。

屏幕反饋可以做的事情就比較多了,可以根據自己產品的需求,設計提示的強度,是彈出浮窗,還是彈出頁面,根據不同的應用場景來設計,這裡就不展開討論了。

還有一種情況,中間是不需要反饋的,比如「天貓精靈,打開燈」這樣一氣呵成的喚醒+交互,我們只需要執行相應的指令,並給出最後執行結果的反饋即可。

2. 自定義喚醒詞

隨著語音交互的普及,逐漸衍生出一些個性化的需求,大家開始給自己的設備起一個專屬的名字,這就是自定義喚醒詞。

自定義喚醒詞一般會打包成一個輸入框提供給用戶,用戶只需要在框內按照我們的提示填寫內容即可,在這裡我們可能需要注意以下幾點:

  1. 喚醒詞要有明確的字數限制,比如3-6個字;
  2. 需要檢測填寫的喚醒詞是否含有多音字,並進行提示,或支持注音修改;
  3. 是否替換默認喚醒詞,有時需要新加的喚醒詞替代默認喚醒詞,有時可能是並存的;
  4. 自定義喚醒詞的質量要高,就是前面說過的,相鄰的音節要規避,音節要清晰。

3. 功耗和喚醒率的權衡

還有一個技術上面的問題,就是喚醒的效果要在功耗之間達到一個平衡。

一般在電池供電的產品上,需要有專門控制語音喚醒的獨立硬體,來平衡效果和功耗,達到一個相對理想的水平。

4. 喚醒模型的動態調整

之前就聽說過亞馬遜音箱半夜被周圍噪音誤喚醒,然後給一些莫名其妙的回覆。想想晚上睡著了,然後音箱突然自言自語,想想就比較恐怖。

為了應對這種問題,我們可以動態調整音箱的喚醒閾值,比如正常的閾值是0.9以上進行喚醒,那麼晚上可以根據應用場景,設置為0.8以上喚醒,具體還要看場景和模型的效果。

七、總結

整個過程需要先定義喚醒詞,再根據實際場景選擇模型,收集數據,最後上線迭代。

隨著產品的用戶越來越多,訓練數據越來越大,整個喚醒模型進入一個正向循環,再考慮支持自定義喚醒詞的能力。

語音喚醒作為語音交互的前置步驟,主要負責判斷什麼時候切換為工作狀態,什麼時候保持休眠狀態,而這個判斷依據就是語音信息。

 

本文由 @我叫人人 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相關焦點

  • 語音交互:先從麥克風陣列聊起
    隨著智能音箱、智能家居等智能硬體的普及,語音交互熱度也不斷飆升。想要了解語音交互,第一步是了解麥克風陣列,本文從概念、分類、作用幾個方面對麥克風陣列展開了說明,與大家分享。語音交互從亞馬遜音箱(Echo)誕生的那一刻,就逐步走進了人們的視野,越來越多的人開始接觸到語音交互的設備。
  • 聊一聊語音交互以及語音助手
    我最早感受到語音交互的魅力是在16年,當時在做全屋智能的產品經理,公司調研產品買了一臺亞馬遜的echo,第一次體驗到遠場的語音交互,很驚豔,遠場語音交互技術給了居家場景太多的想像空間。後來國內陸續出了小愛同學、天貓精靈、小度音箱… 我基本都是第一時間買回了家。
  • 京東智能雲語音服務開放平臺上線「喚醒」全新語音交互未來
    而叮咚的家庭入口布局也真正完成了從交互、內容到服務的全面布局。叮咚靈動版搭載最新的人工智慧語音交互界面(AIUI)打破了現有語音交互模式,可實現單次喚醒多次對話的全新體驗。發布會上京東集團CTO張晨表示:「京東作為一家以技術驅動的公司,正在積極布局人工智慧領域,而叮咚可以很好的擴展京東自身的服務,例如用戶可通過語音完成購物,這將會成為京東購物的新入口。」
  • 從數據角度全面解析,智能語音交互產品該怎樣確定「喚醒詞」
    一、什麼是「喚醒詞」以及它為什麼重要? 1. 「喚醒」和「喚醒詞」 在討論名字之前,我們首先對語音交互過程中的一些定義做一個簡單的介紹。  語音交互的過程,和我們平時與人交流的方式非常相似。 在百度AI互動設計院的研究地圖中,語音交互流程被劃分為五個環節 – 喚醒、響應、輸入、理解、反饋。其中喚醒是每一次用戶與語音產品交互的第一個接觸點,因此喚醒環節的體驗在整個語音交互流程中至關重要,它的體驗好壞將直接影響用戶對產品的「第一印象」。
  • 語音交互丨要把語音搜索放APP,攏共分幾步?
    ,我們總結了語音搜索嵌入APP的幾步走——喚醒、輸入、識別、執行,探索傳統界面交互方式如何融合、甚至是遷移至語音交互等未來的交互方式。這篇文章我從入口、喚醒方式、頁面層級方式來分析喚醒階段的設計。語音交互有著解放雙手雙眼、高效、自然、學習成本低等優勢,正被越來越多地應用到面向普通用戶的產品和服務中。但由於準確率、用戶的使用習慣等的限制,視覺界面需要實時配合,提供一定的引導提示與反饋,以保證語音交互的易學性、可用性,保證用戶使用過程中有控制感和信任感、體驗良好。
  • 語音交互中的話術設計原則 — 百度DuerOS 喚醒之旅workshop分享
    11月18日,第7期百度DuerOS喚醒之旅workshop在北京中關村的一家眾創空間舉行;12月9日,第8期百度DuerOS 喚醒之旅workshop在上海徐匯區的華鑫科技園舉行。兩地將近300名開發者充滿期待和熱情到達現場參與學習和交流。
  • 支持「免喚醒」,TCL V8全場景AI電視成未來語音交互引領者!
    筆者認為,雖然目前的電視都已經實現了「語音控制」,但這並不是未來「AI電視」的發展方向。基於目前市面上各品牌語音交互的設計來看,當下大多數智能電視的語音操作都需要頻繁喚醒交互。以某品牌舉例,當你看電影時,要先喊出「xx同學,我想看xxx」,「xx同學,播放第幾集」,「xx同學,調節音量」……用遙控器幾秒鐘就能完成的事,在語音交互下反而花了更長的時間。因此在同一層面來說,「電視+語音控制」還會有更多的發展空間,未來電視的樣子應該將語音交互簡單化、便捷化。而TCL開創的免喚醒語音技術,正是最好的證明。
  • 智能語音交互應該如何設計?
    編輯導語:隨著亞馬遜、小米、阿里巴巴等大公司都推出了智能語音產品,智能語音互動設計成為了一個值得探索的領域。語音交互如何設計才能達到更自然的交互反饋、更好的傳達情感,這是目前需要解決的問題。對於用戶來說,希望能與智能產品建立親切的信任感,越相處越好用。AI時代,深知我者,才能久居我心。
  • 大象聲科AI單麥抗噪語音交互模組性能展示!
    大象聲科AI單麥抗噪語音交互模組,集合了大象聲科領先的AI智能降噪、回聲消除、語音喚醒等AI語音交互核心技術。
  • 百度大腦遠場語音開發套件評測—快速上手,超讚語音交互體驗
    ,5 米內有效拾音,支持遠場喚醒、遠場識別、語音合成能 力,使語音開發評估更簡便、更高效。測試結果:經過上述的語音識別測試,可以發現,本套件在5米內可以達到比較良好的喚醒、識別效果,超過5米後,喚醒、識別效果下降比較明顯。
  • Spotify 正在開發語音助手,語音交互在音頻內容平臺上可以大有所為
    外媒爆料稱,Spotify 正在開發語音助手,並以「Hey Spotify」作為喚醒詞。從 @wongmjane 在 twitter 上分享的截屏來看,Spotify APP 中顯示了一個新的「語音」子菜單,用戶可以在其中授權 Spotify APP 使用麥克風的權限。開啟後,Spotify 就能監聽「Hey Spotify」喚醒詞。
  • 聊一聊麥克風陣列技術:語音交互應該選用怎樣的方案?深度
    消費級麥克風陣列的興起得益於語音交互的市場火熱,主要解決遠距離語音識別的問題,以保證真實場景下的語音識別率。這涉及了語音交互用戶場景的變化,當用戶從手機切換到類似Echo智能音箱或者機器人的時候,實際上麥克風面臨的環境就完全變了,這就如同兩個人竊竊私語和大聲嘶喊的區別。前幾年,語音交互應用最為普遍的就是以Siri為代表的智慧型手機,這個場景一般都是採用單麥克風系統。
  • 聊一聊麥克風陣列技術:語音交互應該選用怎樣的方案?|深度
    消費級麥克風陣列的興起得益於語音交互的市場火熱,主要解決遠距離語音識別的問題,以保證真實場景下的語音識別率。這涉及了語音交互用戶場景的變化,當用戶從手機切換到類似Echo智能音箱或者機器人的時候,實際上麥克風面臨的環境就完全變了,這就如同兩個人竊竊私語和大聲嘶喊的區別。
  • AI產品經理需要了解的語音交互評價指標
    本文主要從5大方面具體介紹了現在行業內對語音交互系統的常見評價指標,分別是語音識別、自然語言處理、語音合成、對話系統和整體用戶數據指標。enjoy~最近,在飯糰「AI產品經理大本營」裡,有團員提問:如何制定針對自然語言語音交互系統的評價體系?有沒有通用的標準?例如在車載環境中,站在用戶角度,從客觀,主觀角度的評價指標?
  • 一顆晶片解決所有語音交互,百度做了一項改變行業的技術革新
    AI 科技評論對其背後技術做了詳細分析,認為這主要得益於在他們在語音交互方面提出的兩大「端到端一體化」創新,1)在軟體層面。目前智能音箱領域流行的語音交互方案為:先語音增強,後語音識別。這種過程把語音交互分割成了兩個獨立的過程,在優化過程中往往目標不一致。
  • 9.基於snowboy實現ROS中的語音喚醒
    0x00 語音交互系統簡介在前面的課程中介紹了如何使用snowboy來進行喚醒詞檢測,但是前面的代碼都是單獨的一個程序
  • 語音交互新升級 京東叮咚mini2智能音箱體驗 - 泡泡網
    最近,我們收到一款京東叮咚mini2 智能音箱,主打智能語音交互與家居控制,不過體積如此小巧的智能音箱能否滿足大家日常的使用呢?一起來看看我們今天的體驗文章吧!下面就是京東叮咚mini2智能音箱主體,有點像我們之前接觸過的智能語音助手,在它的機身頂部有4枚按鍵,分別為喚醒鍵、靜音鍵、音量+鍵、音量-鍵,同時在音箱頂部還分布有6個麥克風收音孔,可以實現6米遠場喚醒。
  • 語音識別的痛點在哪,從交互到精準識別如何做? | 雷鋒網公開課
    它由一套由雲和客戶端相結合服務框架構成,包括音視頻前端信號處理、雲+端相配合交互引擎、內容和知識平臺以及接口、用戶個性化系統等。平臺具備開放性,第三方可進行靈活配置、業務擴展、內容對接等。以前的語音交互產品,包括訊飛在內,大家提供的都是單點的能力,比如語音合成、語音喚醒、語音識別、語義理解,另外還有人臉識別、聲紋識別等。
  • 百度CoDriver 智能後視鏡體驗:語音交互是核心競爭力
    後視鏡的功能很多,但是我比較看重的的是導航、音頻、語音交互這幾大功能的使用體驗,當然更重要的是當他們配合在一起使用的時候,到底怎麼樣。「你好,善領」是語音功能的喚醒詞,喚醒它之後,就可以進行導航、音樂、電話等功能的語音操作。 這個後視鏡基本實現了自然語音交互,不需要完全按照規定的指令操作,例如,當你想表達「導航到 XXX」的意思時,你可以用多種表述方式去說出目的地,沒有一個死板的規定告訴你必須怎麼說。
  • 蘋果點燃戰火,語音交互下半場主角為何會是智能耳機?
    作為智能語音助手,當 Siri 依附於 iPhone 時,人們習慣性的拿起手機進行觸控交互,因為大部分場景中,使用觸控方式都非常直觀,可當你的手機放在兜裡,正戴著 AirPods 跑步/開車時,Siri 就可以顯現出自己的能力,只需要簡單的敲擊喚醒,Siri 可以立刻為你記錄信息或者提供導航,這種操作會極大拓展耳機的使用場景,來自 NPD 的研究報告指出:「自 2016