「會說話的人,一開口就贏了」——語音交互中的機器話術研究

2021-01-08 雷鋒網

「如果機器在某些現實的條件下，能夠非常好地模仿人回答問題，讓提問者在相當長時間裡誤認它不是機器，那麼機器就可以被認為是能夠思維的。」

—— 阿蘭·圖靈

「一個人的成功，約有15%取決於技術知識，85%取決於口才藝術。」

—— 戴爾·卡耐基

雷鋒網(公眾號：雷鋒網)按：「與機器像和人一樣對話」大概是人類對人工智慧最初的設想，也是人類希望在人工智慧領域實現的目標。本篇文章轉載自百度人工智慧互動設計院，著重於語音交互中的機器話術研究。

以下為正文內容：

在不少科幻電影或小說裡，人工智慧可以和人自然交流，甚至可以談情說愛（如電影《her》中的薩曼莎）。但我們不得不承認，現實和理想差距很大。現在的人工智慧雖然已經「可以說話」，但大多數都「不會說話」，我們經常可以聽到「這個問題我還理解不了，如果你想……，可以這樣對我說……」。

為了教會機器「像人一樣說話」，人們在語音識別、自然語言理解、語音合成等諸多方面進行了大量探索，但這些探索主要集中在技術維度，而對機器話術涉獵較少。

在漢語中，「術」有技藝、方法之意，話術即指說話的技藝和方法。和技術相比，話術更偏藝術和人性。賈伯斯說「只有技術是不夠的——技術與人文藝術結合、與人性結合，才能帶來讓我們內心喜愛的結果」。因此，我們本次從用戶視角出發，嘗試從藝術和人性的角度對話術進行探索。

研究主要包含以下內容：

話術設計研究：我們如何做的

話術設計原則：用戶關注什麼？哪個更重要

話術設計建議：原則如何指導話術設計

一、話術設計研究：我們如何做的？

當下的話術研究多從研究者視角出發，原則主要源自研究者的日常觀察、哲學思辯和專業判斷。本次，我們從用戶視角出發來探討話術，研究過程如下：

1. 案頭研究

我們對人與人的對話結構和對話原則進行了系統梳理，特別推薦Grice的「合作原則」（出自《邏輯與會話》演講，1967）和索振羽的「得體原則」（出自《語用學教程》第二版，2014）。這一步至關重要，它加深了我們對「對話」的理解，這些原則也成為我們設計實驗話術時的重要參考依據。

2. 對話場景設計

為覆蓋儘可能多的場景，我們系統梳理了語音交互的典型場景，如聽音樂、問天氣、家居控制、生活服務等。同時，每個場景下也細分了機器的不同狀態，如是否聽清、能否識別、是否有能力滿足等。

3. 具體話術設計

對話場景梳理清晰後，我們針對每個場景設計實驗所需話術。話術來源主要有二，一是主流語音交互產品的現有話術，二是研究者基於人與人的對話原則撰寫而成的話術。

4. 話術實驗

上述準備完成後，進入正式實驗階段。在實驗中，我們創設了各類場景（具體場景見「對話場景設計」部分），並且模擬了真實的人機對話過程（所有實驗話術均轉為語音合成音進行播報），要求用戶基於真實體驗對不同場景下每類話術的喜好度進行評價。

同時，我們使用了「參與式設計」，以「假如你是機器，你會如何回答」為起點，引導用戶更深地參與到話術設計中，共同探討實驗話術以及更為理想的表達方式。這一過程使我們獲得了大量源自用戶的鮮活話術，也使我們能從更豐富的角度挖掘用戶構建話術的原則、方法與技巧。

5. 設計原則提煉與驗證

基於案頭研究和實驗發現，我們提煉了初步的設計原則。之後，要求用戶對原則的可理解性、全面性、適用性等進行評估。經過多輪評估，我們不斷調整原則，最終獲得了現在的話術設計原則。

二、話術設計原則：用戶關注什麼？哪個更重要？

我們發現，在用戶心中，好的話術要兼顧理性和感性原則。理性原則體現在「機器的話是有用的」，話術應該是以目標為中心、準確、簡潔的；感性原則強調「對話過程令人愉悅」，話術應該是自然、友好、有個性的。

同時，我們要求用戶基於自身體驗對各原則的重要性進行了1-10級評價，其中1分代表非常不重要，10分代表非常重要，分數越高，重要性越高。

結果發現，現階段，用戶更看重理性原則，尤其是以目標為中心，準確，而自然、友好等感性原則暫居相對次要的位置。

此外，我們也梳理了不同原則下的具體評估指標，這些指標代表在該原則下，用戶在對話中具體的關注點。不同指標的重要性有所不同，詳見下表。

三、話術設計建議：原則如何指導話術設計？

接下來，我們一起看看上述這些原則如何指導具體的機器話術設計。

1. 以目標為中心原則

以目標為中心是用戶最為看重的原則。用戶非常重視效率（閒聊場景除外），他們希望機器的回覆與自己的需求高相關，可以快速達成心中所想。

同時，用戶表示在語音交互中，需要更多「引導」，尤其需要了解機器當下和未來狀態。語音看不見摸不著，我們無法像在圖形用戶界面（GUI）中那樣——通過導航條判斷所在的位置，看到按鈕可以判斷是否點擊等。如果缺少必要的引導，用戶在語音交互中很容易迷茫，產生各類負面情緒。

因此，話術設計時，必須遵循以目標為中心原則，做好引導，讓用戶可以通過聲音「看到」通往需求的路徑。基於此原則，設計話術時可考慮以下幾條建議：

建議1：優先回應用戶的核心意圖

圍繞用戶最關心的問題優先給出適合的回應。

建議2：清楚傳達機器當前的情況

如果因為各種原因無法直接滿足用戶需求時，應及時告知，避免用戶困惑。

建議3：澄清目標，不輕易終結對話

對話過程中，引導用戶不斷澄清目標，不輕易做話題的終結者。

建議4：告訴用戶接下來怎麼做

不能清晰識別用戶意圖時，可主動詢問用戶有可能的意圖，引導用戶完成目標。

建議5：提供相關替代方案

在無法直接滿足用戶時，可考慮提供相關度較高的替代方案，間接滿足用戶。

2. 準確原則

用戶認為表達準確是最基本的原則。表述不準確可能導致用戶誤解、無法判斷機器所要傳達的真正含義，使對話脫離正軌甚至無法進行。

基於準確原則，設計話術時可考慮以下建議：

建議1：避免表述有歧義

表述的含義要確定，不要說讓用戶「這樣理解可以，那樣理解也可以」的話。口語中最常見的歧義是同音歧義，即語音相同帶來的歧義。以下兩類同音歧義，話術設計時需要注意：

建議2：避免表述過於籠統模糊

表述要儘可能具體明確，避免過於籠統模糊。

我們來看下面一個案例，研究中，面對第一種話術，大多數用戶表示「有點懵」，「是給音箱起名字，還是告訴音箱自己的名字？不知道該怎麼回答」。而第二種話術則明確指出是「音箱對自己的稱呼」。

3. 簡潔原則

在研究中，用戶多次提到「不喜歡這個話術，太囉嗦了，能不能揀重點說」，「說太多了，壓根沒記住啊」，這些抱怨體現了用戶對簡潔的重視。

用戶如此重視簡潔是必然的。語音是一維線性的，只能一個字一個字的聽完，無法快進，不能後退。哪怕信息不相關、無意義，用戶都無法略過。這些冗餘信息既浪費用戶時間，也會增加用戶的煩躁情緒。

更重要的是，大腦能處理的語音信息量有限，一旦超出會給人的工作記憶造成負擔。長期以來，神奇數字7±2被認為是工作記憶的容量，但近期這一標準遭到質疑，普遍認為這一估計偏高。有研究者（Mastin，2010）認為這一數字可能是4±1。

基於此原則，設計話術時可考慮以下幾條建議：

建議1：表述簡單明了，不囉嗦

傳遞必要信息前提下，保持話術簡潔。

建議2：避免信息量過大，一次提供的選項不超過三個

單次交互提供的信息量不要過大，以免給用戶造成認知和記憶負擔。

4. 自然原則

在研究中，聽到某些話術，用戶紛紛表示「這太生硬了，一點都不自然」，「這明顯就是機器說的話，人怎麼可能這麼說呢」。用戶希望話術可以貼近生活，儘可能自然。

這是非常好理解的。在人機語音交互中，人類最想使用的肯定是自然語言。口頭語言是人類最擅長，使用門檻最低的自然語言，人類使用口頭語言進行交流的歷史已跨越十萬年。與之相比，書面語言的發展不過五千年，計算機語言更是剛剛萌芽。因此，設計話術時，可參考漢語口頭語言的特點，營造「自然感」。

基於此原則，設計話術時可考慮以下幾條建議：建議1：措辭口語化

日常對話中，我們會使用豐富多彩的重疊詞（如看看、馬上馬上）、語氣詞（如吧、呢、哈）、感嘆詞（如哎！天！）、惟妙惟肖的象聲詞（如噗通、呼啦）、填補詞（如嗯，呃），也會妙用各種副語言，如「哼哼」之類的鼻化音、笑聲、顫音等等。話術設計中，可以參考這些口語化的表達。

尤其注意，話術設計時要儘可能避免專業術語、技術名詞、晦澀用語等。

建議2：句式自然，可使用話語標記

口語中句子多短小，結構簡單。語言學研究發現，口語中長句佔比僅19%，短句佔比達到81%（超過7個實詞的單句為長句，反之為短句。實詞指具有實際含義且能單獨充當句子成分的詞）。話術設計時可考慮這一特點，儘可能使用短句。

另外，口語對話中會使用「話語標記語」做句子之間的過渡，話術設計時也可參考。常見的話語標記有：「首先…然後…最後」之類的序列標記；「開始」、「以後」之類的時間標記；「這」、「那」之類的指示詞等。

建議3：增加措辭多樣性

使用同義詞為固定的答案增加多樣性，比如表示確認的時候，可以隨機呈現「ok」、「收到」、「好的」、「沒問題」等等。這些同義詞可以增加對話活力，讓對話更自然。

5. 友好原則

研究中，我們發現，用戶很反感機器以「高人一等」的姿態說話，尤其反感被機器指責。高人一等的話語和指責會讓用戶覺得「不忿」、「挫敗」，甚至會喪失對機器的「信任」。

人是社會性動物。日常交往中，我們更喜歡對我們友好、喜歡我們的人，而傾向遠離那些不夠友善的人。判斷對方是否友善，語音是最直觀的線索。在人機語音交互中，我們同樣能根據機器的應答判斷其是否友好。因此，話術設計時要重視友好。

基於此原則，話術設計時可考慮以下幾條建議：

建議1：錯誤歸為機器，而非人

錯誤發生時，從機器的角度說明出錯原因。

建議2：避免要求用戶按照特定的方式表達

尊重用戶的說話方式，不要試圖教給用戶怎麼說話

建議3：體現「關注用戶需求」的服務態度

即使不能滿足用戶需求，也要體現出努力幫助用戶的態度。

6. 有個性原則

必須強調，話術體現的個性必須與產品人設保持一致，比如冷靜成熟的產品人設就不太適合嗲嗲說話撒嬌賣萌的話術。

本次我們發現，用戶對「幽默」的話術接受度較高。在人際交往中，幽默能提升他人對自己的印象，讓人感覺親密並能幫助人們緩解壓力。語用學研究也發現，只要適合特定場景，幽默話語的交際效果是最佳的。

不過，幽默具有明顯的文化和群體差異，「甲之蜜糖，乙之砒霜」，設計話術時需特別注意。

建議1：遇到難題時，可考慮使用幽默話術回應

遇到無法實現的功能時，通過幽默話術回應用戶，調節氛圍。

建議2：娛樂話題的表述可以更加活潑有趣

討論一些娛樂話題或閒聊時，話術可以考慮增添更多趣味元素。

四、小結

本文從用戶視角出發，闡述了機器話術設計的6大普適性原則，以及如何基於這些原則設計話術。我們定義的設計原則及提供的設計建議如下：

雷鋒網註：圖片來自百度研究院

話術研究具有挑戰性。話術與對話場景、對象，產品本身的人設、特性，系統語音識別、語義理解能力等均具有密切關係。但這不妨礙我們通過參與式的用戶研究探索話術設計的普適性原則。所謂「深根固柢」，這些原則是機器話術設計時的基礎與根基，有助於我們打造更自然和極致的語音對話體驗。

我們也以此研究為契機，開始探索在AI時代，在機器話術這個領域，如何將技術和藝術、人性結合，希望能帶來讓用戶內心真正喜歡的體驗。

雷鋒網認為機器話術作為一個充滿藝術特色又與人性密不可分的主題，還有著許多未知且充滿魅力的方面值得探索。

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

「會說話的人,一開口就贏了」——語音交互中的機器話術研究

相關焦點

思必馳技術分享:車載語音交互的需求及挑戰

未來已來(一):語音交互,人機互動的新時代

語音識別的痛點在哪,從交互到精準識別如何做? | 雷鋒網公開課

語音交互:從語音喚醒(KWS)聊起

一文讀懂,語音互動設計流程

AI產品經理需要了解的語音交互評價指標

為什麼孩子不愛聽父母說話?因為一開口,他們就錯了

聲音好聽的人,一開口就贏了!

Siri不只是語音助手:標誌計算機交互重大變化

會說話的人,語用學都掌握得不賴

賈伯斯僅憑一句話就挖走百事可樂總裁:有的人,在開口之前就贏了

小度音箱等第一方硬體交互次數首次亮相,23億詮釋語音交互價值

盤點麥克風技術及市場,遠場語音交互如何選型麥克風?

AI助力語音克隆,人和自己「對話」的障礙在哪?

賈伯斯靠一句話就挖走百事可樂總裁,成為經典廣告,一開口就贏了

科學網—語音及語言信息處理國家工程實驗室在中科大成立

智能語音前沿技術——發音檢錯糾錯和語音轉換

FinTech時代商業銀行智能語音識別技術應用與發展

一文看懂語音合成:真能跟Siri戀愛?模擬人類語言暗藏哪些商機

這是一場革新：小鵬全場景語音交互體驗，真正自然，基於自研