超全面的語音交互知識總結:從原理、場景到趨勢 | 人人都是產品經理

2020-12-11 人人都是產品經理

2019年全球語音交互市場規模達到13億美元，預計2025年全球語音交互市場規模將69億美元，目前以廣泛應用到智能家居、車載語音、智能客服等行業和場景。筆者從事語音交互產品一年有餘，針對語音交互的概念定義、優劣勢、適用場景和產品、未來發展等進行梳理總結。

1. 什麼是語音交互？

語音交互（VUI）指的是人類與設備通過自然語音進行信息的傳遞。一次完整的語音交互需要經歷ASR→NLP→Skill→TTS的流程：

（1）ASR

用於將聲學語音進行分析，並得到對應的文字或拼音信息。語音識別系統一般分訓練和解碼兩階段：

訓練即通過大量標註的語音數據訓練數學模型，通過大量標註的文本數據訓練語言模型；
解碼，即通過聲學和語言模型將語音數據識別成文字。

聲學模型可以理解為是對發生的建模，它能夠把語音輸入轉換成聲學表示的輸入，更準確的說是給出語音屬於某個聲學符號的概率。語言模型的作用可以簡單理解為消解多音字問題，在聲學模型給出發音序列之後，從候選的文字序列中找出概率最大的字符串序列。

（2）NLP

用於將用戶的指令轉換為結構化的、機器可以理解的語言。NLP的工作邏輯是：將用戶的指令進行Domain（領域）→Intent（意圖）→Slot（詞槽）三級拆分。

以「幫我設置一個明天早上8點的鬧鐘」為例：該指令命中的領域是「鬧鐘」，意圖是「新建鬧鐘」，詞槽是「明天8點」。這樣，就將用戶的意圖拆分成機器可以處理的語言。

（3）Skill

也即AI時代的APP。Skill的作用就是：處理NLP界定的用戶意圖，做出符合用戶預期的反饋。

（4）TTS

即語音合成，從文本轉換成語音，讓機器說話。TTS業內普遍使用兩種做法：一種是拼接法，一種是參數法。

拼接法即從事先錄製的大量語音中，選擇所需的基本發音單位拼接而成。優點是語音的自然度很好，缺點是成本太高，費用成本要上百萬。參
數法指使用統計模型來產生語音參數並轉化成波形。優點是成本低，一般價格在20萬~60萬不等，缺點是發音的自然度沒有拼接法好。但是隨著模型的不斷優化，現在參數法的效果已經非常好了，因此業內使用參數法的越來越多。

2. 語音交互有哪些優劣勢？

PART 1: 語音交互的優勢

優勢1：信息傳遞效率高

百度語音開放平臺的研究結果顯示，相比於傳統的鍵盤輸入，語音輸入方式在速度及準確率方面更具優勢。利用語音輸入英語和普通話的速度分別是傳統輸入方式的3.24倍和3.21倍，信息傳遞效率進一步可拆分為4類：

檢索高效：針對複雜的輸入詞，尤其是在輸入方式不便的場景下，語音交互更高效。例如電視場景下進行電影搜索。
跨空間便捷：遠場語音交互可以跨3~5米進行交流，針對需要跨空間的操作，語音交互更高效，例如：智能家居控制。
跨場景便捷：語音交互的潛在好處時可以根據說話內容自動判斷意圖場景，在需要頻繁跨場景交互的場景下語音交互更高效。
支持組合指令：語音交互可以一次性下達多條指令，然後分別執行，在需要支持多意圖同時傳遞的場景下語音交互更高效。假設你今晚想要看一部電影，你可以選擇說：「播放劉德華的電影電影要四星以上並且是免費觀看的。」

優勢2：解放雙手和雙眼

通過語言交互可以將手和眼睛空起來處理其他事情，在需要多感官協同的場景下效率更高。例如：車載場景通過語音點播音樂，醫療場景醫生在溝通病情的同時記錄病歷，工業場景在雙手佔用的同時下達指令。

優勢3：使用門檻低

非文字使用者友好：人類是先有語音再有文字，每個人都會說話但有一部分人不會寫字，針對老人、小孩、失明的人群，無法使用文字交互，語音交互會為其帶來極大的便利。
學習成本低：語音交互更自然，在非複雜場景下，語音交互比界面交互更自然，上手成本更低。

優勢4：傳遞聲學信息

聲紋識人：通過聲紋可以進行身份判斷，並且可以在下達指令的同時進行身份判斷，效率更高。同時聲音還可以判斷性別、年齡層、情緒等信息。
聲音傳遞情感：聲音交互可以傳遞情感，因此在有情感訴求的場景下，聲音是一個很好的選擇。

PART 2：語音交互的劣勢

劣勢1：信息接收效率低

語音輸出是線性的，當別人說話時，你可能得等全部說完後才能理解，無法像文字一樣可以跳過閱讀；語音交互也會增加用戶的記憶負擔，尤其是面臨多項選擇並且選項內容較長時。

因此它無法同時輸出很多內容，在接受信息和多選擇交互時，視覺具有更大的優勢，聲音的效率不高。總結來講，語音交互針對單向指令是更有效的，而雙向交互不是很有效。

劣勢2：嘈雜環境下語音識別精度降低

語音識別需要清晰的識別出人聲，包括將人聲和環境聲進行分離，將人聲和人聲進行分離。嘈雜環境使得人聲的提取變得非常困難，尤其是針對遠場語音交互，噪音的問題更加突出。

目前業內普遍使用麥克風陣列硬體和相關算法來優化該問題，但是無法完全解決，例如遠場安靜環境下語音識別準確率能達到95%，但是在嘈雜環境下僅能達到80%出頭。但是隨著技術的進度，嘈雜環境下的遠場語音識別準確度也肯定會逐步完提升。

劣勢3：公開環境下語音交互具有心理負擔

語音交互的心理障礙是用戶不能預設和預先判斷。在同一情況下，不同的人可能會產生完全不同的行為和期望。這給設計者帶來了很大的麻煩，也給用戶帶來了不確定性。從心理體驗來看，沒有多少人願意對著機器說話，因為有可能會得到毫無感情甚至是錯誤的反應

3. 語音交互適合什麼場景和設備？

我們判斷什麼場景和設備適合增加語音交互，根據語音交互的優劣勢分析，得出以下加分項和減分項，為了簡單起見，每個得分享賦予相同的權重，然後計算綜合得分，將適用程度劃分為高、中、低3檔，分別記2、1、0分。

原則1：每個設備類型僅考慮起本身的功能，不考慮因為入口性質附加的額外功能，例如智能音箱，現在除了音箱屬性，被賦予了天氣、智能家居等其他屬性。未來形態下家庭語音入口會分布式的，智能音箱被賦予的生活助手的角色也會被剝離。

原則2：設備的功能考量時會考慮現在還不具備但是以後會延展的相關功能，例如冰箱，支持查詢冰箱內的物品情況。

加分項：

需要複雜的信息輸入：輸入指令不能被窮舉，則得分最高，如果僅簡單的輸入指令，則得分低；
使用對象雙手或雙眼被佔用；
使用對象為非文字使用者：如果使用人群裡老人、小孩和失明人群較多，則得分高，反之得分低；
需要跨短距離空間的操作：如果有實體按鍵，則得分高，如果可遠程遙控則得分次之，而且皆無，則不得分；
原信息輸入的工具比較受限：輸入方式的便利程度觸屏>遙控>按鈕；
需要跨意圖指令輸入：如果需要同時或者相繼發出不同意圖的指令則得分高，反之得分低；
使用頻次：基本每天都要使用得分最高，每周3次左右次之，低於每周一次不得分；
設備與聲音的關聯度：如果設備本身就是播放多媒體內容的得分高，其他的不得分；
需要聲音傳遞額外信息：例如聲紋、發音評測。

減分項：

環境私密程度低：例如辦公場景；
環境嘈雜：例如商場場景；
涉及到多層次交互（觸屏可彌補）：例如點外賣；
涉及到多條目選擇（觸屏可彌補）：例如購物；
涉及到重要/隱私信息傳達（屏幕可彌補）：例如取款機。

下表為各的場景和設備適合語音化的得分：

（1）家居場景

家庭環境比較封閉和私密，並且噪音少，是實現語音交互的很好環境。

電視：機頂盒視為和電視同類，電視本身普及率及使用頻次高，生態內容豐富使得其操作相對複雜，但又受限於遙控器這種低效的輸入方式，使得電視成為最適合進行語音改造的設備，但是受囿於價格昂貴，嘗鮮門檻高，所以改造的節奏相對較慢，但是新一代的電視語音化肯定是不可阻擋的趨勢。
平板：市面上目前流行的帶屏音箱，更合適的說法應該是語音平板。
音箱：音箱因為其低廉的成本（無需屏幕和視頻資源）而率先引爆市場。
燈：雖然指令簡單，但是因其操作頻繁且需要起身走到面前操作，跨空間成本高，使得燈具被語音化的訴求也較高。但是燈最適合的語音化是本地離線指令，也即通過「開燈」、」關燈」本地直接識別並控制燈具，無需加喚醒詞，也無需先傳到雲端，雲端處理完再傳到本地，更簡潔更快速。
空調：空調因此相對高頻的使用和較為複雜的指令，和燈具類似具備一定的語音化必要。
冰箱：基本沒有語音化必要，除非冰箱承載的功能做了極大延展，例如冰箱增加屏幕，同時作為餐廳的電視使用，那麼其語音化的必要性與電視一致。
洗衣機：基本沒有語音化必要。

（2）車載場景

隨著車聯網和智能汽車的興起，越來越多的功能被搭載在車機上。層出不窮的功能和日趨複雜的界面形成了對駕駛者注意力的爭奪，新的矛盾由此誕生。車載語音技術的獨特優勢——幫助駕駛者降低對車內設備的操作依賴，增加駕駛安全係數。

車載場景相對比較私密，但是噪音相比家庭場景較高，尤其是當開窗之後風噪更大。但是因為開車時手和眼睛都被佔用，語音成為交互的最佳選擇，如接聽電話、開關車窗、廣播音樂、路線導航等語音指令，這就使得駕駛更加安全，可以更專注於路況。

車載常用語音功能如下：

（3）醫療場景

病歷錄入：語音識別在醫療中的應用主要集中在直接將語音轉成結構化電子病歷，方便醫生隨時查閱，大大減輕了工作量。可以為醫生節省手寫病歷的時間，同時也可以為醫患糾紛提供材料佐證。

語音識別技術已經在以美國為首的西方國家成功運用到醫院放射科、病理科、急診室等部門中，臨床中使用語音識別錄入的比例已達到20%以上，並能夠明顯降低醫生工作強度，提高工作效率，降低了醫院日常運作成本。醫療業務營收佔全球最大的語音技術公司Nuance全部營收的50%。

（4）企業場景

智能客服：智能客服分為語音呼叫中心和在線客服兩塊來看。在客戶服務行業，當用戶請求接入後，先由智能客服機器人解答80%的常見問題，剩下20%複雜問題再由真人專家客服來回答解決。智能客服機器人創造的整套流程已經完全改變了整個客服行業的勞動力結構和工作方式。

目前，中國大約有500萬全職客服，以年平均工資6萬計算，再加上硬體設備和基礎設施，整體規模約4000億人民幣。按照40-50%的替代比例，並排除場地、設備等基礎設施以及甲方預算縮減，大概會有200-300億規模留給智能客服公司。
AI對企業服務市場的變革並不僅限於客服場景，以企業和用戶溝通為橋梁和入口，智能客服公司可以延伸到營銷、銷售等重要的企業服務外部場景，從交互方式、流程優化、數據分析等角度推動企業外部服務的全面智能化，從而釋放100-200億的原有營銷、銷售等市場規模。
除了取代部分人工的客服機器人，AI也在變革企業傳統的線下客服交互方式。隨著智能設備、物聯網的普及，各種設備也將成為企業服務客戶的入口和新興場景，智能客服公司、尤其是AI公司有機會在千億智能設備交互市場中分得200-300億規模。

（5）教育場景

語音平板：在少兒教育場景，語音可以發揮的空間會非常大，一方面少兒的文字學習還沒有非常完善，因此在信息錄入和互動方面，語言是更低門檻的交互選擇，另一方面，語音可以進行中英文發音的測評和糾正，對少兒的學習成長價值更大。

互動語言學習：針對語言發音，進行實時評測和糾正，提升學習效果；
互動動畫：在動畫中插入場景化語音交互，寓教於樂，提升少兒的沉浸感。

（6）出行場景

智能耳機：搭配工具來進行語音交互會使得私密性更強而且更加方便。耳機作為本身就是穿戴中的一種產品，攜帶方便，決定了它有更多自然的使用場景，耳機這樣私人且私密化很強的產品，無論人們是在上班通勤、戶外運動還是在旅行時也能保持更高的使用率，戴在耳朵上的耳機，離人的語言器官很近，當你和耳機進行語音交互的時候，更像是和朋友交談。

使用耳機來與手機的語音交互模式連接時，是不是也可以使用一些動作來喚醒它，例如：去敲擊耳機，通過這類動作去喚醒可能會比喊它更加的自然，即使在公共場合也會避免尷尬出現。

（7）機器人

語言交互是人類日常最常用的交互方式，機器人自然要集成語音交互的功能。機器人分為消費級機器人和商戶級機器人，消費級機器人使用語音傳遞情感和提升交互效率，商戶級機器人使用語音傳遞品牌感和提升服務效率。

（8）安全與鑑權

聲紋：是無感知的身份識別，聲紋識別的理論基礎是每一個聲音都具有獨特的特徵，通過該特徵能將不同人的聲音進行有效的區分。

美國研究機構已經表明在某些特點的環境下聲紋可以用來作為有效的證據。並且美國聯邦調查局對2000例與聲紋相關的案件進行統計，利用聲紋作為證據只有0.31%的錯誤率。目前利用聲紋來區分不同人這項技術已經被廣泛認可，並且在各個領域中都有應用。

聲紋常常應用於刑偵破案、罪犯跟蹤、國防監聽、個性化應用等等，說話人確認技術常常應用於證券交易、銀行交易、公安取證、個人電腦聲控鎖、汽車聲控鎖、身份證、信用卡的識別等。

4. 語音交互與其他交互方式的融合？

語音交互有著信息接收效率低、嘈雜環境識別精度低、公開環境心理負擔的劣勢，因此在很多場景下純語音交互很受限，但是這些交互方式是可以通過其他交互進行彌補的。

毋庸置疑，在接下來的幾年內肯定會有更多不同結合方式的產品出現。

（1）語音輸入/視覺化輸出

近些年，市面上有許多產品合入了語音輸入，其中有很多是有顯示屏的產品。在這些產品上，我們允許用戶語音輸入，而用界面顯示輸出的信息。

語音智能電視也是一個很好的例子。它們沒有能夠支持複雜輸入的硬體設備，而本身又有足夠多的功能足以支撐自然語義查詢。比如通過語音直接說「播放流浪地球」，要比用遙控器上的十字箭頭方便多了。

語音智能屏幕是另外一個例子，從18年下半年語音智能屏幕開始流行，主要針對老人和小孩的人群，對老人的價值在於可以通過語音交互，搜索想看的影視內容，對兒童的價值，在於語音溝通、影視播控以及聲音的評測。

實際上，那些有複雜功能，需要複雜輸入，而這些輸入都可以用語音命令代替，同時返回的結果不適合機讀出來的系統，都適合使用語音作為輸入方式，而用視覺作為輸出方式。

（2）混合模式

許多設備都在朝著混合模式的方向發展，它們會將語音、物理輸入和屏幕、語音輸出結合。導航app就是一個將這些交互手段結合的典型例子。

用戶能夠觸控拖動地圖來查看，用物理按鍵或虛擬鍵盤輸入。當駕車時，可以通過直接說目的地名稱來開啟導航，用這種方式用戶可以不用將目光移向屏幕或用手來操作。語音輸出可以輸出導航的命令指示，而例如周圍道路擁堵狀況等較為難以描述的信息可以使用屏幕顯示。

這是一種很好的輸入輸出結合方式，每種交互方式都將自己的優勢發揮出來。整個導航系統會根據用戶需求和信息的複雜程度來選擇信息的呈現方式，一方面，用戶在特定場景下可以不用手眼就能操作，而同時用戶也能選擇在另一些場景下使用屏幕。

但這種方式的設計還很少見，因為上述的方式是基於對用戶的使用方式有深刻理解的基礎上的。導航系統在汽車內使用語音還是一個比較明顯的場景，但不是所有的產品都有一個明確的使用環境，所以判斷什麼情況下使用語音交互是比較困難的。

5. 語音交互的未來

雖然目前的語音識別技術已經能夠讓機器聽懂大部分人類的聲音，但離「賈維斯」這種假想的超級智能助理的交互能力還很遠，語音識別技術的發展方向將從識別到感知認知。

趨勢1：免喚醒交互

遠場語音交互，出於意圖識別考慮，增加喚醒詞作為對話開始的條件，但是喚醒詞也無形中增加了溝通的成本。尤其是在一些多輪次交互方案中，例如：你想看電影，主流程需要「我要看電影」-「播放第3個」-「全屏」-「快進3分鐘」，如果每次都要喚醒，用戶體驗很差，部分情況反而不如遙控器效率高。因此在特定多流程場景下迫切需要免喚醒交互。

趨勢2：離線語音識別

離線語音識別指的是在本地直接進行指令的識別和處理，而無需連接到雲端，好處是一方面無需喚醒詞，另一方面無需聯網，速度快。針對燈、空調、電視等設備，採用離線指令識別體驗更好，例如直接對設備說「開燈」和「關燈」可以快速實現檯燈的開和關。

趨勢3：多通道交互

IOT時代家庭的聯網設備越來越多，但是體驗提升有限，直到IOT有了語音AI的加持，徹底宣告AIOT時代的到來，通過語音設備可以控制聯網設備，進一步促進了家庭智能設備的滲透和覆蓋，2018年中國智能音箱銷售量約2200萬臺，隨著家庭智能設備的越來越多，用戶的需求也逐步出現新的特徵。

第1：需求往往都是非單一任務，而是多任務聚合；
第2：需要多設備之間的聯動；
第3：服務狀態可以持續性遷移，無論是跨時間還是空間。

多通道交互就是綜合使用多種輸入通道和輸出通道，用最恰當的方式傳遞服務，滿足用戶需求。

通俗一點講，多模態互動就是將智能設備的通道進行註冊和管理，根據用戶的需求，給不同的通道分配相應的任務，以期用最恰當的方式去滿足用戶需求。例如：將智能音箱和電視作為一個系統進行多通道交互，可以綜合使用它們5個輸入和輸出通道。舉個最簡單的例子：當我問音箱天氣的時候，可以將天氣的圖形通過電視進行顯示和播報，更用戶更直觀的體驗。

MCUI在家庭場景落地的最典型案例，就是智能音箱和機頂盒的組合，可以實現帶屏智能音箱的所有功能，並且體驗更佳。

一方面成本更低，一個無屏音箱100元以內，帶屏智能音箱需要500元左右。
另一方面大屏觀看體驗更佳，針對兒童教育場景，大屏不容易造成近視，並且父母的可管控型更強，因此智能音箱+機頂盒的產品體驗，以後一定會成為主流。

參考資料：Laura Klein，面對智能化的未來，設計師你準備好了麼（語音交互篇）

作者：Jason，微信公眾號：Smart_Byte。

本文由@Jason 原創發布於人人都是產品經理，未經許可，禁止轉載

題圖來自Unsplash, 基於CC0協議

超全面的語音交互知識總結:從原理、場景到趨勢 | 人人都是產品經理

1. 什麼是語音交互？

2. 語音交互有哪些優劣勢？

PART 1: 語音交互的優勢

PART 2：語音交互的劣勢

3. 語音交互適合什麼場景和設備？

4. 語音交互與其他交互方式的融合？

5. 語音交互的未來

趨勢1：免喚醒交互

趨勢2：離線語音識別

趨勢3：多通道交互

相關焦點

AI產品經理需要了解的語音交互評價指標

2020年互動設計的9個趨勢

系統總結:AI產品經理知識體系

2019年,UI設計趨勢 | 人人都是產品經理

互動設計師:如何進行複雜需求的加減設計法 - 人人都是產品經理

語音交互:從語音喚醒(KWS)聊起

聊一聊語音交互以及語音助手

超全面的交互自學指南

超全面的交互自學指南 - 視覺同盟(VisionUnion.com)

產品設計的 7 個步驟 - 人人都是產品經理

雲知聲闖關科創板:營收增速放緩智能語音交互產品佔比下降

智能語音交互應該如何設計?

語音交互:先從麥克風陣列聊起

語音互動設計(一):VUI發展及特徵

L192-產品經理的互動設計基礎課(PPT)v2

語音合成 TTS|AI 產品經理需要了解的 AI 技術概念

關於AI學習方法的思考——產品經理入門人工智慧

人人都是產品經理

互動設計|知識體系以及技能總覽

互動設計常識—設計常用模型分析(一) - 人人都是產品經理