「會說話的人,一開口就贏了」——語音交互中的機器話術研究

2021-01-08 雷鋒網

「如果機器在某些現實的條件下,能夠非常好地模仿人回答問題,讓提問者在相當長時間裡誤認它不是機器,那麼機器就可以被認為是能夠思維的。」

—— 阿蘭·圖靈

 

「一個人的成功,約有15%取決於技術知識,85%取決於口才藝術。」

—— 戴爾·卡耐基

 

雷鋒網(公眾號:雷鋒網)按:「與機器像和人一樣對話」大概是人類對人工智慧最初的設想,也是人類希望在人工智慧領域實現的目標。本篇文章轉載自百度人工智慧互動設計院,著重於語音交互中的機器話術研究。

以下為正文內容:

在不少科幻電影或小說裡,人工智慧可以和人自然交流,甚至可以談情說愛(如電影《her》中的薩曼莎)。但我們不得不承認,現實和理想差距很大。現在的人工智慧雖然已經「可以說話」,但大多數都「不會說話」,我們經常可以聽到「這個問題我還理解不了,如果你想……,可以這樣對我說……」。

為了教會機器「像人一樣說話」,人們在語音識別、自然語言理解、語音合成等諸多方面進行了大量探索,但這些探索主要集中在技術維度,而對機器話術涉獵較少。 

在漢語中,「術」有技藝、方法之意,話術即指說話的技藝和方法。和技術相比,話術更偏藝術和人性。賈伯斯說「只有技術是不夠的——技術與人文藝術結合、與人性結合,才能帶來讓我們內心喜愛的結果」。因此,我們本次從用戶視角出發,嘗試從藝術和人性的角度對話術進行探索。 

研究主要包含以下內容:

話術設計研究:我們如何做的

話術設計原則:用戶關注什麼?哪個更重要

 話術設計建議:原則如何指導話術設計

一、話術設計研究:我們如何做的?

當下的話術研究多從研究者視角出發,原則主要源自研究者的日常觀察、哲學思辯和專業判斷。本次,我們從用戶視角出發來探討話術,研究過程如下:

1. 案頭研究

我們對人與人的對話結構和對話原則進行了系統梳理,特別推薦Grice的「合作原則」(出自《邏輯與會話》演講,1967)和索振羽的「得體原則」(出自《語用學教程》第二版,2014)。這一步至關重要,它加深了我們對「對話」的理解,這些原則也成為我們設計實驗話術時的重要參考依據。 

2. 對話場景設計

為覆蓋儘可能多的場景,我們系統梳理了語音交互的典型場景,如聽音樂、問天氣、家居控制、生活服務等。同時,每個場景下也細分了機器的不同狀態,如是否聽清、能否識別、是否有能力滿足等。

 3. 具體話術設計

對話場景梳理清晰後,我們針對每個場景設計實驗所需話術。話術來源主要有二,一是主流語音交互產品的現有話術,二是研究者基於人與人的對話原則撰寫而成的話術。

4. 話術實驗

上述準備完成後,進入正式實驗階段。在實驗中,我們創設了各類場景(具體場景見「對話場景設計」部分),並且模擬了真實的人機對話過程(所有實驗話術均轉為語音合成音進行播報),要求用戶基於真實體驗對不同場景下每類話術的喜好度進行評價。

同時,我們使用了「參與式設計」,以「假如你是機器,你會如何回答」為起點,引導用戶更深地參與到話術設計中,共同探討實驗話術以及更為理想的表達方式。這一過程使我們獲得了大量源自用戶的鮮活話術,也使我們能從更豐富的角度挖掘用戶構建話術的原則、方法與技巧。 

5. 設計原則提煉與驗證

基於案頭研究和實驗發現,我們提煉了初步的設計原則。之後,要求用戶對原則的可理解性、全面性、適用性等進行評估。經過多輪評估,我們不斷調整原則,最終獲得了現在的話術設計原則。

二、話術設計原則:用戶關注什麼?哪個更重要?

我們發現,在用戶心中,好的話術要兼顧理性和感性原則。理性原則體現在「機器的話是有用的」,話術應該是以目標為中心、準確、簡潔的;感性原則強調「對話過程令人愉悅」,話術應該是自然、友好、有個性的。

同時,我們要求用戶基於自身體驗對各原則的重要性進行了1-10級評價,其中1分代表非常不重要,10分代表非常重要,分數越高,重要性越高。

結果發現,現階段,用戶更看重理性原則,尤其是以目標為中心,準確,而自然、友好等感性原則暫居相對次要的位置。

此外,我們也梳理了不同原則下的具體評估指標,這些指標代表在該原則下,用戶在對話中具體的關注點。不同指標的重要性有所不同,詳見下表。

 

三、話術設計建議:原則如何指導話術設計?

接下來,我們一起看看上述這些原則如何指導具體的機器話術設計。 

1. 以目標為中心原則

以目標為中心是用戶最為看重的原則。用戶非常重視效率(閒聊場景除外),他們希望機器的回覆與自己的需求高相關,可以快速達成心中所想。

同時,用戶表示在語音交互中,需要更多「引導」,尤其需要了解機器當下和未來狀態。語音看不見摸不著,我們無法像在圖形用戶界面(GUI)中那樣——通過導航條判斷所在的位置,看到按鈕可以判斷是否點擊等。如果缺少必要的引導,用戶在語音交互中很容易迷茫,產生各類負面情緒。

因此,話術設計時,必須遵循以目標為中心原則,做好引導,讓用戶可以通過聲音「看到」通往需求的路徑。基於此原則,設計話術時可考慮以下幾條建議:

建議1:優先回應用戶的核心意圖

圍繞用戶最關心的問題優先給出適合的回應。

建議2:清楚傳達機器當前的情況

如果因為各種原因無法直接滿足用戶需求時,應及時告知,避免用戶困惑。

建議3:澄清目標,不輕易終結對話

對話過程中,引導用戶不斷澄清目標,不輕易做話題的終結者。

建議4:告訴用戶接下來怎麼做

不能清晰識別用戶意圖時,可主動詢問用戶有可能的意圖,引導用戶完成目標。

 

建議5:提供相關替代方案

在無法直接滿足用戶時,可考慮提供相關度較高的替代方案,間接滿足用戶。

2. 準確原則

用戶認為表達準確是最基本的原則。表述不準確可能導致用戶誤解、無法判斷機器所要傳達的真正含義,使對話脫離正軌甚至無法進行。

基於準確原則,設計話術時可考慮以下建議: 

建議1: 避免表述有歧義

表述的含義要確定,不要說讓用戶「這樣理解可以,那樣理解也可以」的話。口語中最常見的歧義是同音歧義,即語音相同帶來的歧義。以下兩類同音歧義,話術設計時需要注意:

建議2:避免表述過於籠統模糊

表述要儘可能具體明確,避免過於籠統模糊。

我們來看下面一個案例,研究中,面對第一種話術,大多數用戶表示「有點懵」,「是給音箱起名字,還是告訴音箱自己的名字?不知道該怎麼回答」。而第二種話術則明確指出是「音箱對自己的稱呼」。

3. 簡潔原則

在研究中,用戶多次提到「不喜歡這個話術,太囉嗦了,能不能揀重點說」,「說太多了,壓根沒記住啊」,這些抱怨體現了用戶對簡潔的重視。

用戶如此重視簡潔是必然的。語音是一維線性的,只能一個字一個字的聽完,無法快進,不能後退。哪怕信息不相關、無意義,用戶都無法略過。這些冗餘信息既浪費用戶時間,也會增加用戶的煩躁情緒。

更重要的是,大腦能處理的語音信息量有限,一旦超出會給人的工作記憶造成負擔。長期以來,神奇數字7±2被認為是工作記憶的容量,但近期這一標準遭到質疑,普遍認為這一估計偏高。有研究者(Mastin,2010)認為這一數字可能是4±1。

基於此原則,設計話術時可考慮以下幾條建議: 

建議1:表述簡單明了,不囉嗦

傳遞必要信息前提下,保持話術簡潔。

建議2:避免信息量過大,一次提供的選項不超過三個

單次交互提供的信息量不要過大,以免給用戶造成認知和記憶負擔。

4. 自然原則

在研究中,聽到某些話術,用戶紛紛表示「這太生硬了,一點都不自然」,「這明顯就是機器說的話,人怎麼可能這麼說呢」。用戶希望話術可以貼近生活,儘可能自然。

這是非常好理解的。在人機語音交互中,人類最想使用的肯定是自然語言。口頭語言是人類最擅長,使用門檻最低的自然語言,人類使用口頭語言進行交流的歷史已跨越十萬年。與之相比,書面語言的發展不過五千年,計算機語言更是剛剛萌芽。因此,設計話術時,可參考漢語口頭語言的特點,營造「自然感」。 

基於此原則,設計話術時可考慮以下幾條建議:建議1:措辭口語化

日常對話中,我們會使用豐富多彩的重疊詞(如看看、馬上馬上)、語氣詞(如吧、呢、哈)、感嘆詞(如哎!天!)、惟妙惟肖的象聲詞(如噗通、呼啦)、填補詞(如嗯,呃),也會妙用各種副語言,如「哼哼」之類的鼻化音、笑聲、顫音等等。話術設計中,可以參考這些口語化的表達。

尤其注意,話術設計時要儘可能避免專業術語、技術名詞、晦澀用語等。

建議2:句式自然,可使用話語標記

口語中句子多短小,結構簡單。語言學研究發現,口語中長句佔比僅19%,短句佔比達到81%(超過7個實詞的單句為長句,反之為短句。實詞指具有實際含義且能單獨充當句子成分的詞)。話術設計時可考慮這一特點,儘可能使用短句。

另外,口語對話中會使用「話語標記語」做句子之間的過渡,話術設計時也可參考。常見的話語標記有:「首先…然後…最後」之類的序列標記;「開始」、「以後」之類的時間標記;「這」、「那」之類的指示詞等。

 建議3:增加措辭多樣性

使用同義詞為固定的答案增加多樣性,比如表示確認的時候,可以隨機呈現「ok」、「收到」、「好的」、「沒問題」等等。這些同義詞可以增加對話活力,讓對話更自然。

5. 友好原則

研究中,我們發現,用戶很反感機器以「高人一等」的姿態說話,尤其反感被機器指責。高人一等的話語和指責會讓用戶覺得「不忿」、「挫敗」,甚至會喪失對機器的「信任」。

人是社會性動物。日常交往中,我們更喜歡對我們友好、喜歡我們的人,而傾向遠離那些不夠友善的人。判斷對方是否友善,語音是最直觀的線索。在人機語音交互中,我們同樣能根據機器的應答判斷其是否友好。因此,話術設計時要重視友好。

基於此原則,話術設計時可考慮以下幾條建議:

建議1:錯誤歸為機器,而非人

錯誤發生時,從機器的角度說明出錯原因。

建議2:避免要求用戶按照特定的方式表達

尊重用戶的說話方式,不要試圖教給用戶怎麼說話

建議3:體現「關注用戶需求」的服務態度

即使不能滿足用戶需求,也要體現出努力幫助用戶的態度。

6. 有個性原則

必須強調,話術體現的個性必須與產品人設保持一致,比如冷靜成熟的產品人設就不太適合嗲嗲說話撒嬌賣萌的話術。

本次我們發現,用戶對「幽默」的話術接受度較高。在人際交往中,幽默能提升他人對自己的印象,讓人感覺親密並能幫助人們緩解壓力。語用學研究也發現,只要適合特定場景,幽默話語的交際效果是最佳的。

不過,幽默具有明顯的文化和群體差異,「甲之蜜糖,乙之砒霜」,設計話術時需特別注意。

建議1:遇到難題時,可考慮使用幽默話術回應

遇到無法實現的功能時,通過幽默話術回應用戶,調節氛圍。

建議2:娛樂話題的表述可以更加活潑有趣

討論一些娛樂話題或閒聊時,話術可以考慮增添更多趣味元素。

四、小結

本文從用戶視角出發,闡述了機器話術設計的6大普適性原則,以及如何基於這些原則設計話術。我們定義的設計原則及提供的設計建議如下:

雷鋒網註:圖片來自百度研究院

話術研究具有挑戰性。話術與對話場景、對象,產品本身的人設、特性,系統語音識別、語義理解能力等均具有密切關係。但這不妨礙我們通過參與式的用戶研究探索話術設計的普適性原則。所謂「深根固柢」,這些原則是機器話術設計時的基礎與根基,有助於我們打造更自然和極致的語音對話體驗。

我們也以此研究為契機,開始探索在AI時代,在機器話術這個領域,如何將技術和藝術、人性結合,希望能帶來讓用戶內心真正喜歡的體驗。

雷鋒網認為機器話術作為一個充滿藝術特色又與人性密不可分的主題,還有著許多未知且充滿魅力的方面值得探索。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 思必馳技術分享:車載語音交互的需求及挑戰
    導航中的快捷交互:導航對於車載系統來說是絕對核心的功能,然而目前大部分導航還沒能實現語音控制,或者只實現了「語音查找目的」等簡單的功能,而在VUI中,駕駛員說:「我要去XXX地方」,機器應該立即反應並規劃路線,告訴駕駛員距離、預估時間等信息。在
  • 未來已來(一):語音交互,人機互動的新時代
    如今,語音界面無處不在,我們可以在智慧型手機、電視、智能家居和其他一系列產品中接觸到它。語音交互功能正快速的滲入我們的日常生活中,它的高速發展表明這項技術即將成為傳統圖形界面交互方式之外的另一種選擇,甚至有可能完全代替後者。
  • 語音識別的痛點在哪,從交互到精準識別如何做? | 雷鋒網公開課
    首先來看下語音喚醒,喚醒是人機互動的主要觸發方式,就像你要和一個人說話,就得首先喊一下這個人的名字,才能開始進行交流。而在交流的過程中,如果有其他人喊你呢,你也是需要響應的,需要支持持續喚醒。機器被喚醒後,就需要知道說話人的方位,這樣機器才可以做出更友好的響應,比如轉身,移動等。
  • 語音交互:從語音喚醒(KWS)聊起
    一、什麼是語音喚醒語音交互前,設備需要先被喚醒,從休眠狀態進入工作狀態,才能正常的處理用戶的指令。把設備從休眠狀態叫醒到工作狀態就叫喚醒,我們常見的有觸摸喚醒(鎖屏鍵),定時喚醒(鬧鐘),被動喚醒(電話)等,而語音喚醒就是——通過語音的方式將設備從休眠狀態切換到工作狀態。語音喚醒(keyword spotting):在連續語流中實時檢測出說話人特定片段。可能有長得好看的同學就要問了,我讓他一直保持工作狀態不可以嗎?
  • 一文讀懂,語音互動設計流程
    國際的一些大公司已經做了很好的示範了,比如:亞馬遜,谷歌等等,都會有設立專門的職位,做一些專門的研究,當然近期國內的相關招聘也會看到有相關的職位,且薪資不低。那麼接下來會個大家詳細的分享VUI(語音互動設計師Voice User Interfaces)。
  • AI產品經理需要了解的語音交互評價指標
    enjoy~最近,在飯糰「AI產品經理大本營」裡,有團員提問:如何制定針對自然語言語音交互系統的評價體系?有沒有通用的標準?例如在車載環境中,站在用戶角度,從客觀,主觀角度的評價指標?站在純產品體驗角度,很多人會以為識別率應該等於「句子識別正確的個數/總的句子個數」,即「識別(正確)率等於96%」這種,實際工作中,這個應該指向「SER(句錯誤率,Sentence Error Rate)」,即「句子識別錯誤的個數/總的句子個數」。不過據說在實際工作中,一般句錯誤率是字錯誤率的2~3倍,所以可能就不怎麼看了。
  • 為什麼孩子不愛聽父母說話?因為一開口,他們就錯了
    當孩子還是一個尚在襁褓中的嬰兒時,許多父母都會認為自己的孩子真是可愛極了,也不太費事。但是孩子長大到能說話、能走路的年紀時,父母們就開始頭疼了,因為孩子開始變得有自己的堅持,即使是錯誤的事情,孩子也不一定能夠將父母的話聽進去。
  • 聲音好聽的人,一開口就贏了!
    事實上不止電影中的赫本,在這個全民社交的年代,現在的人加微信,誰不是先看頭像,再看朋友圈,最後聽第一條語音判定對方是什麼樣的人而聲音好聽的人,不僅可以獲得更好的社會關係,還能得到更好的職業發展,甚至最終改變你的人生。
  • Siri不只是語音助手:標誌計算機交互重大變化
    它可以說是一款無處不在的作業系統,將會把蘋果及其產品產品引向未來。奔向語音控制Siri的變化不只是iPhone系統甚至蘋果本身的進化史。它們標誌著個人計算的重大變化,如同從DOS轉向滑鼠,從滑鼠轉向觸控屏。像DOS這樣基於命令提示符的作業系統對於新手來說操作難度極大。
  • 會說話的人,語用學都掌握得不賴
    幸虧我機靈:「你TM喝果汁也會醉?」 語用 同一句話,文字和語法結構完全相同,在不同的語境中卻可能產生不同的含義,或者說是「言下之意」「弦外之音」。
  • 賈伯斯僅憑一句話就挖走百事可樂總裁:有的人,在開口之前就贏了
    會說話的人,開口就贏了!史蒂夫·賈伯斯,就是這樣一位「先發影響力」高手,他一開口,就挖走了百事可樂的總裁。大約在1983年,賈伯斯特別鍾意百事可樂的總裁約翰·斯卡利,希望挖走他,與自己共事。從賈伯斯的這兩句話中,不難看出他對人類心理的探測深度,他早就知道人們對「便利」的需求,因此才會說「想要改變人們使用計算機的方式」。
  • 小度音箱等第一方硬體交互次數首次亮相,23億詮釋語音交互價值
    對於第一個命題,諸如IDC、Canalys等市場研究機構已經在季度銷量報告中給出了答案。第二個命題似乎也不是什麼新鮮話題,幾年前就出現了對語音交互價值的討論,但這一次似乎又有所不同。在「智能音箱大戰」的洪荒之力下,智能音箱正在以千萬級的季度出貨量走進一線城市到偏遠鄉鎮的家庭,「語音交互」不再是什麼陌生詞彙。
  • 盤點麥克風技術及市場,遠場語音交互如何選型麥克風?
    智能語音交互市場的火熱逐漸輻射到產業鏈的供應商,其中最直接受益就是作為聲音的傳感設備——麥克風。特別是麥克風陣列的興起,未來可以讓麥克風廠家的銷量翻倍增長。在此之前,由於受制於智慧型手機和平板電腦的增長速度下滑,樓氏、歌爾和瑞聲的股票相繼在2016年中旬左右創下了低谷。2017年的語音交互局勢趨於明朗,資本市場專注研究智能語音交互的投資機構也明顯多了起來。
  • AI助力語音克隆,人和自己「對話」的障礙在哪?
    最近爆出的百度Deep Voice技術,則是通過深度學習技術實現「語音克隆」的,通過真實語音的訓練,能在「聽」的過程中學會每個人說話時字詞、音位和句子的發音特點,並通過模仿這個人聲音中的情感和語調,「說」出全新的語句;「一聽一說」之間,整個過程基本不用人工幹預,深度學習技術可以自行完成所有工作。
  • 賈伯斯靠一句話就挖走百事可樂總裁,成為經典廣告,一開口就贏了
    哈嘍大家好,我是你們的小編陳三,很開心又和大家見面了,說到賈伯斯我們都非常熟悉了,可以說是智慧型手機之父,作為美國的發明家,也是蘋果公司的創始人,他絕對是一個跨時代的領軍人物,不論是手機業還是IT業,賈伯斯都是屈指可數的人才,至今都是很多人勵志的對象,賈伯斯的一生也不是那麼平順,充滿了坎坷
  • 科學網—語音及語言信息處理國家工程實驗室在中科大成立
    「中文語音技術應由中國人做到最好」
  • 智能語音前沿技術——發音檢錯糾錯和語音轉換
    如果學習者在反覆練習過程中不能及時發現具體的錯誤細節,會降低學習效率和興趣,甚至反覆錯誤發音,產生錯誤的肌肉記憶。這個問題,在學術研究上被稱為「錯誤發音檢測及診斷」。為了解決這個問題,在過去的十多年中,世界上的許多頂級科研機構都投入了大量的人力物力,其中最具影響力的包括香港中文大學,清華大學,臺灣大學,美國麻省理工大學,新加坡資訊通信研究院,微軟亞洲研究院,IBM等等。
  • FinTech時代商業銀行智能語音識別技術應用與發展
    2.語音識別的分類  按照說話人的不同,語音識別技術分為兩類:一是特定人語音識別,它用來對特定人的說話內容進行識別,同時基於說話人的聲紋信息,應用聲紋鑑別技術,實現基於聲音的身份識別;二是非特定人語音識別,通過採集大量語音數據來進行訓練建模,實現非特定人的語音識別,可以被任何說話人使用,更符合實際需要,通常要難於針對特定人的語音識別任務。
  • 一文看懂語音合成:真能跟Siri戀愛?模擬人類語言暗藏哪些商機
    他做了一個布滿孔洞的空箱,空箱連接著一個奇異形狀的鼓風機,鼓風機被壓動後將使得內置的簧片振動,這一過程模擬了人類的發聲,也確實發出了聲音,而這也成就了人類最早的語音合成機械之一。讓機器更像人類,是無數科學家的夢想。這樣的夢想被多方位的推進,從機器的外形上、內核的思考運算上,以及對外表達的說話上。如今,電子設備取代了空盒子,算法則比簧片更能夠協調發聲。
  • 這是一場革新:小鵬全場景語音交互體驗,真正自然,基於自研
    在我看來,它一定是語音交互的便利性。在車內,語音交互的價值是極高的,因為它作為一種交互手段,車主無需將視線離開道路,手也不用鬆開方向盤。語義打斷:語音對話中,有效指令可隨時打斷小P進行下一個步驟。語義拒識:小P傾聽時,不是對小P說的指令,小P不會執行。可見即可說:界面中出現的按鈕,都可以通過語音控制小P來點擊。雙音區鎖定:主駕語音喚醒只聽主駕、副駕說話不識別,反之亦然。