一文讀懂,語音互動設計流程

2020-12-06 人人都是產品經理

隨著智能音箱的迅速發展，大家對智能語音產品的需求也變得越來越多，本文給大家詳解語音互動設計的全流程，一起來看看~

一、VUI的現狀

隨著智能音箱的迅速發展，谷歌（Google Home）、亞馬遜（echo）天貓精靈、小愛音箱……智能產品的井噴式增長，人們對智能語音產品的需求也越來越多，也越來越高，智能音箱對人們的生活的影響也越來越深，自然孕育而生一些新的職業需求，比如：VUI（語音互動設計師Voice User Interfaces Designer），語音體驗設計師VUE（Voice User Experience Designer），但其實VUI和VUE的分界線是很模糊的，這裡不做多敘述。

國際的一些大公司已經做了很好的示範了，比如：亞馬遜，谷歌等等，都會有設立專門的職位，做一些專門的研究，當然近期國內的相關招聘也會看到有相關的職位，且薪資不低。那麼接下來會個大家詳細的分享VUI（語音互動設計師Voice User Interfaces）。

二、VUI起源/歷史

1. VUI的第一個時期

20世紀50年代，貝爾實驗室建立了一個單人語音數字系統；

20世紀90年代，誕生了第一個可行的非特定人的語音識別系統。

交互式語音應答IVR系統的出現，代表了VUI的以一個重要時期。

2. VUI的第二個時期

也就是我們現在所處的的時期。

我們的現狀，我們正處於下一階段的初期階段，我們手機已經可以用語音處理很多事情了，但是還有很多事情是無法處通過語音完成的。

3. VUI的一些優勢和局限性

（1）優勢

速度：顯而易見的是速度變快了，國內的語音，語音轉文字的技術已經很大程度上提高了人們效率；
釋放雙手：比如你在開車的時候，你可以直接對著你的手機語音助手說，嘿XX，麻煩你幫我做XXX；
直覺性：說話是每個人的天性（當然排除特出情況）；
同理心：語音包含了語氣、音量、音調、語速，這些特徵包含了大量的感知信息，能夠讓你感知到對方在表達些什麼。

（2）局限性

環境：對環境的要求比較高，在公共場合，人多的地方不利於語音的接受和錄入；
不適應：還是有很多用戶不喜歡，不適應對著語音設備說話的；
喜歡打字：就是喜歡打字的一些用戶，打字從某個方面能夠帶給他一些愉悅；
隱私：這個就很容易理解了，每個人都不希望自己的隱私被別人知道。

三、VUI設計師是什麼（是做什麼的）？

需要思考，在系統和終端用戶間，從開始到結束的整個個對話過程；
用戶研究是不可少的；
負責設計，產品原型和產品描述；
需要了解底層技術的優缺點；
分析數據的能力。

從項目的發布階段到發布階段都扮演著非常重要的角色。

當然很多人看到上面5條可能會有點怵，其實也並不是需要全部都需要會，也可以專門負責其中的一個鏈條、節點，比如：用戶研究、數據分析……

四、VUI的基本設計原則

1. 對話式設計

定義：簡單來說就是我問你答

目前我們使用的智能設備基本只能支持單輪對話，但這樣並不是人們習慣的對話方式。一輪以上的對話，才是符合用戶心理預期的。

請大家回憶下自己使用智能音箱的一些場景體驗，舉個例子（天貓精靈）：

用戶：天貓精靈，明天我有鬧鐘麼？
天貓：您明天沒有鬧鐘呢
用戶：那可以幫我設定一個麼？
天貓：…..

你會發現，智能音箱這個時候像是失憶了一般，毫無反應，顯然這並不是我們想要的一個交互。從用戶社交屬性來說，人們溝通的方式一直都是一輪以上對話式的，並不是單輪式的。一般來說，我們要做到讓用戶決定對話要持續多久，很顯然，你有親身體驗過的話，能做到多輪對話的比較少。

插一個題外話，最近天貓精靈更新了遊戲語音的玩法，算是踏進一步了吧，雖然不是很棒的體驗，但起碼跨進了多一步，相信未來會越來越棒的。那對話式是如何設計出來呢？大致是怎麼樣的一個流程呢？

2. 設計工具

這裡說的設計工具並不是說是一個具體的工具，更多是指一個方法論。

示例對話：

定義：示例對話字面意思就是演示舉例對話，它看起來像一個電影腳本，像兩個人一起在對話
特點：是整個設計對話過程的關鍵方法。成本較低，簡單易操作
用法：把要做成一件事情的場景用文字寫出來，然後大聲讀出來，你會發現書寫和口語化的還是有很多區別的，甚至是有些奇怪的，這時候你會發現有很多可以改進的地方，所以你會看到一些招聘都會有這一項對應的要求，甚至是要求一些事有話劇功底，有劇本寫作相關經驗優先。
作用：它能夠讓你在投入開始研發之前，知道你的設計效果是如何。

3. 視覺原型

雖然是語音交互，但是還是離不開GUI的，它可以結合示例對話，將用戶體驗可視化。示例對話和原型組成了我們產品的故事板，GUI+VUI是用戶一套完整的體驗，所以，VUI和GUI在早期階段就開始合作，這樣對用戶體驗會更加流暢。

4. 流程圖

也叫做呼叫流程圖，一般來說我們的流程圖需要包括用戶使用中所有可能存在的分支，但這樣下來會有千萬條複雜的情況，流程圖就會很亂，也很難梳理，所以我們採用分組的方法。

具體的分類的方法可以根據分成多組（日曆功能、搜索功能，電話……），也可以根據不同的目的進行分組。

流程圖的使用到的工具就非常多了，這裡就不一一列舉了。

那大概我們設計完成了一組示例對話之後，我們就要對一些細節進行細緻的研究，比如：確認。

五、如何進行確認

用戶語音的確認
非語言式確認
通用確認
視覺的確認

1. 用戶語音的確認

最重要的是用戶語音的確認，分為顯性確認和隱形確認。

顯性確認即：比較重要，強制用戶確認信息。比如：天貓精靈你能幫我一份奶茶麼？查到附近XXX奶茶，使用優惠後的價格是XX元，你要來一份麼？
隱形確認：即不需要用戶確認消息，比如：用戶：XX你能幫我設定明天10點的鬧鐘麼？好的，已經幫你設定好明天早上10點的鬧鐘。

1.1 那麼如何去判定什麼時候用隱性確認和顯性確認呢？

那麼下面就要介紹一下三級置信度。

系統將在一定的閥值內作出明確的形式確認信息，而這個閥值我們設定為三個等級。

1.2 置信度？

就是智能音箱能識別到聲音的清晰度。

用易懂的話說就是人與人之間溝通的語言接受的清晰度，當然聽不清對方說什麼話的時候時候一般會發起詢問，或者直接說，對不起，我沒有聽清，你可以再說一遍嗎？

1.3 三級置信度

比如：幫我再買一份外賣。

當置信度大於80%，使用隱性確認：好了已經幫你在訂了一份外賣。
當置信度為45~79%，使用顯性確認：您是想再多訂一份外賣是嗎？
當置信度小於45%：對不起，我沒有聽清您的講話，您想買些什麼？

2. 只用隱形確認

智能語音音箱能夠非常清晰的識別到你說的內容的時候，可以直接用隱形確認，這樣帶來的體驗流暢感舒服很多。

3. 非語言式

比如說，燈光花幾秒才能，那麼只是讓系統先恢復好了或者知道的來讓用戶知道後面發生什麼。還有加一些特定的音效，來代表特定某一個意思。

4. 有趣的通用確認

就是說智能語音音箱不會單獨的回答你是和否，會主動會詢問您一些的問候，通過這樣情感化的一些設計，將能夠讓用戶感到更加的溫暖和舒服。

那我們前面講到了那麼多的一些確認策略，那我們接下來再說一下對話式的標識，因為是讓用戶了解交談進展以及進展情況的重要方式。

5. 對話式的標識

它包括了以下三個方面：

時間線：開始，進行中，結束。
接收回執：謝謝，知道了，好的。了解了。
積極反饋：哇，你這個消息真的很棒。

那對話式對話作用是什麼呢？是讓用戶了解交談進展以及進展情況的重要方式。能夠更好的追蹤到用戶的使用過程中的一種路徑方法。

大家會發現我們很多時候智能語音設備並不是每次都能夠快速，精準接受識別我們的信息的。出錯率相對來說是比較高的，下面大概說下語音識別的出現錯誤異常的幾種情況。

六、語音出現錯誤異常和解決方法

錯誤異常的幾種情況：

未檢測到語音；
檢測到語音，但沒有識別；
檢測到語音，但沒有識別；
部分語音識別錯誤。

1. 未檢測到語音

未檢測到語音有大概兩種情況：一是用戶說了，系統沒有接收到；二是用戶沒說。

主要說下用戶說了，系統沒有接收到的情況，建議採取兩種解決方式：

第一種前面我們說到的三級置信度，我們採取直接詢問，「對不起，我沒有聽清你說的話，你能再說一遍麼？」
第二種是採取什麼也不做。

1.1 那什麼情況下使用詢問呢？

用戶必須回復後，系統才能繼續進行任務；
你的系統只是支持語音；
沒有其他回複方式了。

1.2 什麼情況下更適合使用什麼也不做呢？

用戶還有其他選擇（比如手機界面課、通過一個按鍵操作）；
什麼也不做，不會中斷對話；
有視覺信息可以提示用戶做出明確的選擇。

2. 檢測到語音，但沒有識別

處理方式和未檢測到語音基本是一直的，這裡就帶過了。

3. 檢測到語音，但沒有識別

出現這種情況的原因一般是兩點：

系統程序沒有針對這種情況的回覆；
程序中寫了錯誤的回覆。

解決方法：這裡我們就要通過測試來發現具體是哪個環節出了問題了，通過數據的收集分析能夠找到具體的答案。

4. 部分識別錯誤

大概就是這樣的場景，天貓精靈，嗯……我想……嗯，好的，為您帶來一首XXX的歌曲。

解決方法：這個還是需要技術的介入，可以通過使用N-Best列表（可以通過這個列表規避二次錯誤）和鎮適用固件後相應的數據分析來構建此問題的解決方法。

說完了錯誤異常處理以及解決方式，我們接下來說下延遲和消除歧義。

5. 延遲

在交互一般用戶等待的時間是7秒（現在可能是5秒），當你詢問等待回答的時間超過這個閾值，用戶就會懷疑是不是系統出問題了，甚至煩躁。

解決方法：一是通過「請稍等」讓用戶知道你在運作和查找；二是非語言提示，比如：音效等等。

6. 消除歧義

很多時候用戶提供的信息只有一部分，再加上中文的多層含義的特殊性，消除歧義對用戶體驗的的提升有重要作用。

比如：問地名的天氣，中國很多鎮區的地名都是一樣的。

鼓樓：

河南省_開封市_鼓樓區
福建省_福州市_鼓樓區
江蘇省_南京市_鼓樓區
江蘇省_徐州市_鼓樓區

解決方法：還是可以採用置信度的方式去判別，如果很確定就直接回答，要麼就多輪詢問確定。

7. 幫助功能

最後的模塊說下幫助功能，也是至關重要的，能夠在一定程度上消除用戶的「恐慌」。所以，在我們VUI中設計對應的幫助是非常有必要的，比如：詢問智能語音設備你能幹什麼呢？它會告訴你他能做些什麼？比如：我的設備怎麼樣連結你的藍牙。APP：好的，長按……

七、語音交互的幾點原則

應該是省時、高效的
簡短的
能夠被隨時打斷
能夠連結上下文語境

1. 應該是省時、高效的

和視覺界面交互其實是差不多的，用戶是非常不願意花很多時間達到他想要完成的任務的。越高效，越短時間，用戶的體驗會更加愉悅。

2. 簡短的

只需要告訴用戶主要關鍵信息即可，不要過於冗餘。舉個簡單的例子：購物APP的商品表現形式，一般都是把名稱和價格放在主要的位置，把詳情放進下一級頁面。採用儘可能簡短的表現形式，讓用戶直接獲取到他想要的，當然這對用戶的了解和洞察都要需要經驗的積累和感知的

3. 能夠被隨時打斷

舉個例子，用戶：明天的天氣怎麼樣？

APP：明天XXX地方的天氣19℃，小雨，適合穿…….

用戶可能只是想知道天氣而已，這時候我們是需要做到可以被用戶打斷，而不是「執拗」的把話說完，如果一直說下去，不允許用戶打斷，用戶的請求沒有被回應，這時候用戶會產生反感心理。

4. 能夠連結上下文語境

這是目前很多智能語音設備體驗上沒有那麼好的地方，也就是前面說的，可以進行多輪對話，當然如果要設定多輪對話，中間的交互情況將會比現在更佳龐大，需要考慮的可能性也會更佳複雜。

語音互動設計的前半部分設計流程基本已經概述完了，主要說了VUI的起源，一些VUI中用到的一些方法論，設計工具，一些異常情況的處理，和VUI設計的幾點原則。下面將會和大家聊下用戶測試和預發布、確認發布……

八、用戶測試

語音用戶界面的測試其實和視覺界面測試的方法有一些相同的地方，但也有一些差異。

一般來說，在開始測試之前呢，還是需要做用戶調研的，大概分為以下幾個步驟：

1. 了解需求（用戶用例背景研究）

做用戶研究和訪談之前，我們要先搞清楚，這個利益方的需求是什麼，業務需求，用戶訴求是什麼，我們的產品能夠給用戶帶來什麼？能夠給他們解決什麼問題？最後我們要確定我們的目標用戶，然後進行訪談和調研。（大體的方法，詳細可以去看一下阿里提出的五導家加方法論）

2. 制定設計研究方案

2.1 給目標用戶制定，任務流程

就是給每一個受訪的用戶，一個特定的任務流程，但很多時候我們並不是只是測試一個任務，會有很多任務，那就會涉及到任務排序的問題。還有最好的方法是採用拉丁方陣設計，這樣的話不必通過出現所有可能的排斥方式來試驗。

那麼設定好這次任務之後呢，我們就要進行招募受試人員了。

2.2 招募受試人員

需要注意以下幾點：

要在目標用戶裡抽取測試用戶；
人數大概控制在5~12人，可用性專家Jakob Nielseb提出效果一般控制在5-8人左右為最佳。

對於小公司招募測試用戶可能會相對比較困難，成本相對來說會比較高，當然是可以招募你身邊的朋友和公司的同事來協助你的，但最好避開項目的直接核心人員。

那麼在目前人員完成之後呢，我們大概會進行一些進行中的一些測試，比如說：我們做一些提問。

請問這裡會涉及到一個方法，我們在互動設計裡面叫它為用戶體驗地圖。

3. 用戶體驗地圖

我會給到用戶一些任務的體驗流程，然後根據他的一些反饋，通過語言、表情，然後繪製出用戶體驗地圖，從而判斷出用戶在這個任務流程中，得到了一些體驗感受，找到可能存在問題的所在節點，然後進行修改。

下面說下在訪談中需要注意的點，如何進行訪談。

4. 訪談需要注意的點

那麼在口頭提問的過程中，我們需要注意些什麼呢？

提問不要有一些語句上的偏袒，不要出現故意引導，比如說你喜歡這個功能嗎？這樣提問是不太合理的。最好提問是，你用完這個功能之後，你是什麼樣的一個感受？或者說你覺得怎麼樣？
要注意引導用戶得出具體的結論。而不是用戶說大概，可能我覺得應該是等等之類的詞。要有具體的例子，不要一個抽象的結果。
少用為什麼開頭，會讓受訪者覺得你是在質疑他，或者說故意的，刁難他。比如說受訪者說，語音天氣詢問功能特別難用，能夠簡單說一下你的使用場景嗎？他是在什麼情況下讓你感覺到難用？描述我們需要更加具體化一些，而不是籠統的，抽象的。

5. 可用性測試（用戶調研）

目的是測試工作流程和易用性，但是在語音交互過程中，識別問題往往會阻礙用戶完成任務。最好是找幾位測試用戶，嘗試找出主要的識別問題，然後修復它。

可用性測試大概分為幾類：

（1）遠程測試（電話/視頻訪談）

優點：

更容易找到符合特徵的用戶。
成本較低，只需要遠程即可，不需要支付其他額外的支出，比如說來到你約定地方差旅費。
會更加自然，更貼近真實情景。
用戶心理負擔沒有那麼大會比較自在。
可以沒有測試主持人。
條件允許的話，最好使用視頻通話，這樣我們可以錄製影像，後期方便我們去觀察用戶的表情和反應，以得出更加正確的測試結果。

缺點：沒有辦法實時跟進參與人員的反應。

（2）攔訪

這種測試方式是非常有難度的。意味著我們要去到公共場合去攔截受訪者，然後讓他參與到你這個測試當中，因為人與人的戒備心理，所以很多人都會拒絕你，如果你想提高成功率，最好準備一些小禮品或者其他的小獎勵，這樣有助於你提高攔訪的成功率。

當然你也很有可能得到的結果，會有一些偏差，受訪者會出於某些目的而回答你的一些問題，有可能並不是出於真心的。所以呢，這裡不是很建議大家用這種方法。

（3）測試完成

測試完之後，我們需要進行我們的結果分析和統計。

測試衡量的一些指標，我們大概分為5個關鍵指標：準確性、響應速度、認知速度，清晰度、友好度和聲音。

（4）注意事項

這裡需要注意的點是，一定先要預先設定好，確定每項任務完成的標誌是什麼。不然後期對結果的一個標準很難去統計，會比較混亂。

我們需要總結這是用戶對問題的回答及完成任務率錯誤數量和類型等等，從中找出用戶的痛點，用戶的一些幹擾點。按任務出錯時，用戶是否能夠自己解決呢？等等，具體需要得出的一些結論，要根據自己想要測試的一些目的來定。

在這樣我們就完成了整個可用性測試的流程。

6. 預測試

發布之前需要做一次與測試，可以權重沒有那麼高，但也是關鍵的一步。

7. 識別測試

最重要的還是識別測試，這關係著整個產品的體驗問題，整體的測試流程需要用三級置信度和N-Best列表，以及後臺的表格相結合，找出相對應的問題節點，並且修復它。

8. 負載測試

你得清楚明白你的設備，最多的承載量，不然流量一進來，伺服器就崩潰了，這樣的體驗是極其差的。

9. 效果的評估

你還得去做效果的評估。在試運行開始之前，你需要制定目標，然後看是否達到這個目標，這個效果大概是什麼樣的？是否達到預期？任務的完成率也是非常關鍵的一個成功指標。

10. 試運行→發布

最後到達發布階段。為了產品的穩妥起見，我們還是會進行一次試運行。

11. 迭代

條件允許的話，重複上面一次的用戶調研的方法，然後得出一些現階段的一些問題。我們需要實時跟蹤系統的故障並快速的改進，這是我們非常需要要做到的。

總結

大概全部的語音交互流程就說到這裡了，我們簡單的回顧下：

語音互動設計的起源
語音互動設計的設計原則-示例對話
確認原則/糾錯方法-三級置信度
可用性測試
發布

那語音互動設計的未來點在那裡？設計師的機會在哪裡？

戰略選擇：世界一直都是存在不確定性的，如何能夠應對呢？

眼界和選擇。

這裡延伸下梁寧在《產品思維30講》裡面說到的點線面的戰略選擇的問題，她大概說了這樣的例子：比如有一對雙胞胎，2010年一起大學畢業，一個進入了騰訊，一個進入了報社。7年之後呢，騰訊的那位如果不出意外應該是年薪百萬，而且滿街都是獵頭在挖，投資人在挖，只要出來創業就給錢。而去了報社的那位呢，報社的情況我們今天肯定了解整個產業都沉淪了，曾經他寄託理想的整個產業都沒有了，其實一切都需要重來。

在這個時候並不是說雙胞胎他們的個人的素質有問題，或者是他們的能力點有問題，點是沒有問題的，也不是他們分別跟隨的領導，比如說我們就跟老大，他們的老大的能力點和個人操守也都是沒有問題的，但是問題在哪裡？

問題是說這兩個單位所附著的經濟體，一個是在快速崛起，一個是在快速崩潰。你努力工作的公司收益，遠遠不如你在2010年以前或者2013年以前，比如說買騰訊的股票，或者是說你買一套北上廣的房子，

我們本身是一個點，我們這個點需要附著在整個整個快速崛起的「線」上，戰略的選擇，眼界的層面顯得尤為重要，和努力一樣重要，甚至往往有時候選擇比努力更重要，但選擇也是努力累計的結果。

我們設計師如何做出順應這個迅速崛起的經濟體的選擇，也是我們當下的機會，我們能看到什麼機會，我們要附著到什麼樣的線上，在當下職業邊界愈發模糊的時代，我們能力和眼界的提升，可以做到從容的應對未來的種種變故。

那麼同樣，隨之AI的發展，5G的到來，我們的很多工作方式都有可能被顛覆，語音互動設計的將會是一片藍海，雖然現在有諸多的桎梏，但這是趨勢，是快速崛起的趨勢。設計師工作你能想像未來沒有顯示器麼？沒有臃腫的主機麼？等等，未來都有可能會發生，而這一切也正在發生…..

無論世界如何變幻，未來可期，我們在路上…..

參考文獻：

《Designing Voice User Interfaces》（語音用戶界面設計）
《U一點料1/2》
《產品思維30講》-梁寧

作者：木七木七，歡迎交流~

本文由 @木七木七原創發布於人人都是產品經理。未經許可，禁止轉載

題圖來自 Pixabay，基於 CC0 協議

一文讀懂,語音互動設計流程

一、VUI的現狀

二、VUI起源/歷史

1. VUI的第一個時期

2. VUI的第二個時期

3. VUI的一些優勢和局限性

三、VUI設計師是什麼（是做什麼的）？

四、VUI的基本設計原則

1. 對話式設計

2. 設計工具

3. 視覺原型

4. 流程圖

五、如何進行確認

1. 用戶語音的確認

2. 只用隱形確認

3. 非語言式

4. 有趣的通用確認

5. 對話式的標識

六、語音出現錯誤異常和解決方法

1. 未檢測到語音

2. 檢測到語音，但沒有識別

3. 檢測到語音，但沒有識別

4. 部分識別錯誤

5. 延遲

6. 消除歧義

7. 幫助功能

七、語音交互的幾點原則

1. 應該是省時、高效的

2. 簡短的

3. 能夠被隨時打斷

4. 能夠連結上下文語境

八、用戶測試

1. 了解需求（用戶用例背景研究）

2. 制定設計研究方案

3. 用戶體驗地圖

4. 訪談需要注意的點

5. 可用性測試（用戶調研）

6. 預測試

7. 識別測試

8. 負載測試

9. 效果的評估

10. 試運行→發布

11. 迭代

總結

相關焦點

未來已來(一):語音交互,人機互動的新時代

語音交互:從語音喚醒(KWS)聊起

百度地圖分析報告:語音交互功能詳析

空鼠按鍵語音三合一交互,這樣玩電視更方便

思必馳技術分享:車載語音交互的需求及挑戰

賈躍亭語音指令秀英文 展示法拉第未來車載語音交互功能

一文看懂語音技術商業化邏輯:對品牌意味著什麼

一文讀懂電容傳感器

「會說話的人,一開口就贏了」——語音交互中的機器話術研究

一文讀懂MEMS傳感器(必須收藏)

互動設計的最後一公裡(一)——動效設計

一文讀懂磁傳感器(必須收藏)

語音識別的痛點在哪,從交互到精準識別如何做? | 雷鋒網公開課

一文讀懂試驗設計(DOE),解決複雜問題

全球頂尖科學雜誌:阿里AI語音技術超越谷歌,可讀懂人類潛藏意圖

汽車人機互動設計,業內人士是怎麼看的?

NFC卡片+語音交互,KOMO是一款給孩子的教育機器人

信息維度與互動設計原理

一文讀懂RRU關鍵技術

交互流程中的三大重點

賈躍亭語音指令秀英文展示法拉第未來車載語音交互功能