AI產品經理需要了解的語音交互評價指標

2020-12-11 人人都是產品經理

本文主要從5大方面具體介紹了現在行業內對語音交互系統的常見評價指標,分別是語音識別、自然語言處理、語音合成、對話系統和整體用戶數據指標。enjoy~

最近,在飯糰「AI產品經理大本營」裡,有團員提問:如何制定針對自然語言語音交互系統的評價體系?有沒有通用的標準?例如在車載環境中,站在用戶角度,從客觀,主觀角度的評價指標?

上周,我在專屬微信群內拋出了這個問題,當晚,胡含、我偏笑、豔龍等朋友就分享了不少乾貨心得;最近幾天,在飛豔同學的協助整理下,我又補充了一些信息,最終形成這篇文章,以饗大家。

一、語音識別ASR

語音識別(Automatic Speech Recognition),一般簡稱ASR,是將聲音轉化為文字的過程,相當於人類的耳朵。

1、識別率

純引擎的識別率,以及不同信噪比狀態下的識別率(信噪比模擬不同車速、車窗、空調狀態等),還有在線/離線識別的區別。

實際工作中,一般識別率的直接指標是「WER(詞錯誤率,Word Error Rate)」

定義:為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換、刪除或者插入某些詞,這些插入、替換或刪除的詞的總個數,除以標準的詞序列中詞的總個數的百分比,即為WER。

公式為:

  • Substitution——替換
  • Deletion——刪除
  • Insertion——插入
  • N——單詞數目

3點說明:

  1. WER可以分男女、快慢、口音、數字/英文/中文等情況,分別來看。
  2. 因為有插入詞,所以理論上WER有可能大於100%,但實際中、特別是大樣本量的時候,是不可能的,否則就太差了,不可能被商用。
  3. 站在純產品體驗角度,很多人會以為識別率應該等於「句子識別正確的個數/總的句子個數」,即「識別(正確)率等於96%」這種,實際工作中,這個應該指向「SER(句錯誤率,Sentence Error Rate)」,即「句子識別錯誤的個數/總的句子個數」。不過據說在實際工作中,一般句錯誤率是字錯誤率的2~3倍,所以可能就不怎麼看了。

2、語音喚醒相關的指標

先需要介紹下語音喚醒(Voice Trigger,VT)的相關信息。

(1)語音喚醒的需求背景

近場識別時,比如使用語音輸入法時,用戶可以按住手機上siri的語音按鈕,直接說話(結束之後鬆開);近場情況下信噪比(Signal to Noise Ratio, SNR)比較高,信號清晰,簡單算法也能做到有效可靠。

但是在遠場識別時,比如在智能音箱場景,用戶不能用手接觸設備,需要進行語音喚醒,相當於叫這個AI(機器人)的名字,引起ta的注意,比如蘋果的「Hey Siri」,Google的「OK Google」,亞馬遜Echo的「Alexa」等。

(2)語音喚醒的含義

簡單來說是「喊名字,引起聽者(AI)的注意」。如果語音喚醒判斷結果是正確的喚醒(激活)詞,那後續的語音就應該被識別;否則,不進行識別。

(3)語音喚醒的相關指標

  • a. 喚醒率。叫AI的時候,ta成功被喚醒的比率。
  • b. 誤喚醒率。沒叫AI的時候,ta自己跳出來講話的比率。如果誤喚醒比較多,特別比如半夜時,智能音箱突然開始唱歌或講故事,會特別嚇人的……
  • c. 喚醒詞的音節長度。一般技術上要求,最少3個音節,比如「OK Google」和「Alexa」有四個音節,「Hey Siri」有三個音節;國內的智能音箱,比如小雅,喚醒詞是「小雅小雅」,而不能用「小雅」——如果音節太短,一般誤喚醒率會比較高。
  • d. 喚醒響應時間。之前看過傅盛的文章,說世界上所有的音箱,除了Echo和他們做的小雅智能音箱能達到1.5秒,其他的都在3秒以上。
  • e. 功耗(要低)。看過報導,說iPhone 4s出現Siri,但直到iPhone 6s之後才允許不接電源的情況下直接喊「Hey Siri」進行語音喚醒;這是因為有6s上有一顆專門進行語音激活的低功耗晶片,當然算法和硬體要進行配合,算法也要進行優化。

以上a、b、d相對更重要。

(4)其他

涉及AEC(語音自適應回聲消除,Automatic Echo Cancellation)的,還要考察WER相對改善情況

二、自然語言處理NLP

自然語言處理(Natural Language Processing),一般簡稱NLP,通俗理解就是「讓計算機能夠理解和生成人類語言」。

1、準確率、召回率

附上之前文章《AI產品經理需要了解的數據標註工作入門》中,分享過的一段解釋:

  • 準確率:識別為正確的樣本數/識別出來的樣本數
  • 召回率:識別為正確的樣本數/所有樣本中正確的數

舉個慄子:全班一共30名男生、20名女生。需要機器識別出男生的數量。本次機器一共識別出20名目標對象,其中18名為男性,2名為女性。則

  • 精確率=18/(18+2)=0.9
  • 召回率=18/30=0.6

再補充一個圖來解釋:

2、F1值(精準率和召回率的調和平均數)

模型調優後追求F1值提升,準確率召回率單獨下降在一個小區間內,整體F1值的增量也是分區間看(F1值在60%內,與60%以上肯定是不一樣的,90%以上可能只追求1%的提升)。

P是精準率,R是召回率,Fa是在F1基礎上做了賦權處理:Fa=(a^2+1)PR/(a^2P+R)

三、語音合成TTS

語音合成(Text-To-Speech),一般簡稱TTS,是將文字轉化為聲音(朗讀出來),類比於人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音,都是由TTS來生成的,並不是真人在說話。

主觀測試(自然度),以MOS為主:

  1. MOS(Mean Opinion Scores),專家級評測(主觀);1-5分,5分最好。
  2. ABX,普通用戶評測(主觀)。讓用戶來視聽兩個TTS系統,進行對比,看哪個好。

客觀測試:

  1. 對聲學參數進行評估,一般是計算歐式距離等(RMSE,LSD)。
  2. 對工程上的測試:實時率(合成耗時/語音時長),流式分首包、尾包,非流式不考察首包;首包響應時間(用戶發出請求到用戶感知到的第一包到達時間)、內存佔用、CPU佔用、3*24小時crash率等。

四、對話系統

對話系統(Dialogue System),簡單可以理解為Siri或各種Chatbot所能支持的聊天對話體驗。

1、用戶任務達成率(表徵產品功能是否有用以及功能覆蓋度)

(1)比如智能客服,如果這個Session最終是以接入人工為結束的,那基本就說明機器的回答有問題。或者重複提供給用戶相同答案等等。

(2)分專項或分意圖的統計就更多了,不展開了。

2、對話交互效率

比如用戶完成一個任務的耗時、回復語對信息傳遞和動作引導的效率、用戶進行語音輸入的效率等(可能和打斷,One-shot等功能相關);具體定義,各個產品自己決定。

3、根據對話系統的類型分類,有些區別。

(1)閒聊型

  • CPS(Conversations Per Session,平均單次對話輪數)。這算是微軟小冰最早期提出的指標,並且是小冰內部的(唯一)最重要指標;
  • 相關性和新穎性。與原話題要有一定的相關性,但又不能是非常相似的話;
  • 話題終結者。如果機器說過這句話之後,通常用戶都不會繼續接了,那這句話就會給個負分。

(2)任務型

  • 留存率。雖然是傳統的指標,但是能夠發現用戶有沒有形成這樣的使用習慣;留存的計算甚至可以精確到每個功能,然後進一步根據功能區做歸類,看看用戶對哪類任務的接受程度較高,還可以從用戶的問句之中分析發出指令的習慣去針對性的優化解析和對話過程;到後面積累的特徵多了,評價機制建立起來了,就可以上強化學習;比如:之前百度高考,教考生填報志願,就是這麼弄的;
  • 完成度(即,前文提過的「用戶任務達成率」)。由於任務型最後總要去調一個接口或者觸發什麼東西來完成任務,所以可以計算多少人進入了這個對話單元,其中有多少人最後調了接口;
  • 相關的,還有(每個任務)平均slot填入輪數或填充完整度。即,完成一個任務,平均需要多少輪,平均填寫了百分之多少的槽位slot。對於槽位的介紹,可詳見《填槽與多輪對話 | AI產品經理需要了解的AI技術概念》。

(3)問答型

  • 最終求助人工的比例(即,前文提過的「用戶任務達成率」相關);
  • 重複問同樣問題的比例;
  • 「沒答案」之類的比例。

整體來說,行業一般PR宣傳時,會更多的提CPS。其他指標看起來可能相對太瑣碎或不夠高大上,但是,實際工作中,可能CPS更多是面向閒聊型對話系統,而其他的場景,可能更應該從「效果」出發。比如,如果小孩子哭了,機器人能夠「哭聲安慰」,沒必要對話那麼多輪次,反而應該越少越好。

4、語料自然度和人性化的程度

目前對於這類問題,一般是使用人工評估的方式進行。這裡的語料,通常不是單個句子,而是分為單輪的問答對多輪的一個session。一般來講,評分範圍是1~5分

  • 1分或2分:完全答非所問,以及含有不友好內容或不適合語音播報的特殊內容;
  • 3分:基本可用,問答邏輯正確;
  • 4分:能解決用戶問題且足夠精煉;
  • 5分:在4分基礎上,能讓人感受到情感及人設。

另外,為了消除主觀偏差,採用多人標註、去掉極端值的方式,是當前普遍的做法。

五、整體用戶數據指標

常規網際網路產品,都會有整體的用戶指標;AI產品,一般也會有這個角度的考量。

1、DAU(Daily Active User,日活躍用戶數,簡稱「日活」)

在特殊場景會有變化,比如在車載場景,會統計「DAU佔比(佔車機DAU的比例)」。

2、被使用的意圖豐富度(使用率>X%的意圖個數)。

3、可嘗試通過用戶語音的情緒信息和語義的情緒分類評估滿意度

尤其對於生氣的情緒檢測,這些對話樣本是可以挑選出來分析的。比如,有公司會統計語音中有多少是罵人的,以此大概了解用戶情緒。還比如,在同花順手機客戶端中,拉到最底下,有個一站式問答功能,用戶對它說「怎麼登錄不上去」和說「怎麼老是登錄不上去」,返回結果是不一樣的——後者,系統檢測到負面情緒,會提示轉接人工。

結語

本篇分享,介紹了現在行業內對語音交互系統的常見評價指標,一方面,是提供給各位AI產品經理以最接地氣的相關信息;另一方面,也是希望大家基於這些指標,打造出更好的產品體驗效果。

#專欄作家#

黃釗(hanniman),圖靈機器人-人才戰略官,人人都是產品經理專欄作家,前騰訊產品經理,微信公眾號/知乎/在行/飯糰「hanniman」。5年人工智慧實戰經驗,8年網際網路行業背景。「人工智慧產品經理」概念的推動者,被AI同行廣泛傳播的200頁PPT《人工智慧產品經理的新起點》的作者。關注人機互動(特別是語音交互)在手機、機器人、智能汽車、智能家居、AR/VR等前沿場景的可行性和產品體驗。

本文原創發布於人人都是產品經理,未經許可,不得轉載

相關焦點

  • 語音合成 TTS|AI 產品經理需要了解的 AI 技術概念
    在文中,作者替大家收集了很多線上/線下的相關信息後,提煉出的AI產品經理「最必要」了解的TTS技術知識和行業現狀TTS(Text-To-Speech,語音合成),目前是一個「小而美」的AI領域,但我個人覺得非常有意思,感覺TTS在未來會被行業真正重視起來,並且會出現做得不錯的創業公司
  • 「最燃的AI崗位是哪個?」「AI產品經理啊!」
    相應地,AI科學家或工程師就會依照需求和指標,來獲取他們需要的訓練數據集,開發出靠譜的人工智慧系統。他們被賦予了更多的職責,需要做更多的思考。圖靈機器人副總裁、前騰訊產品經理黃釗在一次分享上說:從常規網際網路PM到AIPM,各方面的能力和素質都需要跨越式升級。
  • AI語音二三事:你需要了解這些AI 語音對話技術
    語音交互是未來的方向,而智能音箱則是語音交互落地的第一代產品。一、語音交互流程簡介AI 對話所需要的技術模塊有 4 個部分,分別為:自動語音識別(Automatic Speech Recognition, ASR)自然語言理解(Natural Language Understanding, NLU)自然語言生成
  • 關於AI學習方法的思考——產品經理入門人工智慧
    下面我僅從【現有產業+機器學習】角度提出我對AI產品經理可能工作內容的幾點思考:觀點一:AI產品經理需要了解技術現狀這一觀點上,我認為目前AI技術相對是不夠成熟的,那麼了解好技術可能實現的能力範圍,技術本身所需要的成本還有當前存在的技術瓶頸,可能是AI產品經理需要具備的基礎。
  • L192-產品經理的互動設計基礎課(PPT)v2
    ,最開始是應邀給部門內部的產品經理做一個互動設計的簡單培訓,但由於責任心爆炸,寫著寫著就寫成了一門課程……這門課程主要內容解決三件事情:互動設計是什麼?:案例練習參考答案《產品經理的互動設計基礎課》最底層的戰略層和範圍層是產品經理主要思考的範圍,他會去定義產品的目標、功能以及具體的內容,然後交由互動設計師去做界面的框架和交互流程,最後由視覺設計師去做表層的華麗展示效果。
  • 超全面的語音交互知識總結:從原理、場景到趨勢 | 人人都是產品經理
    2019年全球語音交互市場規模達到13億美元,預計2025年全球語音交互市場規模將69億美元,目前以廣泛應用到智能家居、車載語音、智能客服等行業和場景。筆者從事語音交互產品一年有餘,針對語音交互的概念定義、優劣勢、適用場景和產品、未來發展等進行梳理總結。
  • 語音交互:從語音喚醒(KWS)聊起
    而語音喚醒就成功的避開了這個問題,在只有用戶叫名字的時候工作,其他時間休眠。其實到底是否需要語音喚醒這個能力,也是看場景的,有些廉價的玩具,就是通過按住按鈕進行語音交互的。二、語音喚醒的應用有哪些語音喚醒目前的應用範圍比較窄,主要是應用在語音交互的設備上面,用來解決不方便觸摸,但是又需要交互的場景。
  • AI產品經理需要了解的數據知識:餘弦相似度
    本文概括介紹了餘弦相似度是什麼、如何應用以及案例說明,目的是希望我們產品經理在設計相關跟相似度功能或是利用相似性功能解決某一業務的場景時能利用上餘弦相似度,並希望您讀完對自己在設計相關推薦業務、搜索業務、識別業務時能有更深層次的理解。
  • 聊一聊語音交互以及語音助手
    關注並將「人人都是產品經理」設為星標每天早 07 : 45 按時送達隨著科技的不斷發展,如今語音助手也頻繁的出現在我們的日常生活中,比如手機的語音助手、智能音箱等等,語音助手的出現也很大程度上提高的一些效率問題;本文作者分享了關於語音交互的理解,我們一起來看一下。
  • 公開課|想成為產品經理?1小時學習原型設計&互動設計知識
    很多想成為產品經理的小夥伴,想知道精美炫酷的APP界面是如何通過原型設計和互動設計做出來的。本次公開課,我們將帶大家了解原型設計&互動設計基礎知識。什麼是原型設計?先註冊登錄APP——瀏覽外賣商家——點擊菜單詳情——加入購物車——填寫收貨信息——付款——等待收貨——確認收貨——評價——完成。可見,用戶利用互聯產品滿足一個目的,是需要通過一步步的行為來完成的(點擊、滑動、輸入等),互動設計就是設計這些行為,讓用戶知道自己在哪,能去哪,怎麼去。
  • 聲智科技揭秘:為什麼小米AI音箱交互體驗更好?
    同時,小米的小愛mini音箱自發布後更是一周之內銷量破百萬,自此,小米一家就擁有了小米AI音箱和小愛mini音箱兩款過百萬銷量的產品。目前,小米AI音箱依然保持著國內語音交互體驗評價更好的優勢。很多人都會好奇這一點,為什麼售價只有299元的小米AI音箱會贏得用戶口碑?
  • 語音交互:先從麥克風陣列聊起
    隨著智能音箱、智能家居等智能硬體的普及,語音交互熱度也不斷飆升。想要了解語音交互,第一步是了解麥克風陣列,本文從概念、分類、作用幾個方面對麥克風陣列展開了說明,與大家分享。語音交互從亞馬遜音箱(Echo)誕生的那一刻,就逐步走進了人們的視野,越來越多的人開始接觸到語音交互的設備。
  • 一文讀懂,語音互動設計流程
    隨著智能音箱的迅速發展,大家對智能語音產品的需求也變得越來越多,本文給大家詳解語音互動設計的全流程,一起來看看~需要思考,在系統和終端用戶間,從開始到結束的整個個對話過程;用戶研究是不可少的;負責設計,產品原型和產品描述;需要了解底層技術的優缺點;分析數據的能力。從項目的發布階段到發布階段都扮演著非常重要的角色。當然很多人看到上面5條可能會有點怵,其實也並不是需要全部都需要會,也可以專門負責其中的一個鏈條、節點,比如:用戶研究、數據分析……
  • 語音交互時代,UX設計該怎麼做?
    一定程度上,它反映語音技術的提升,以及其功能向數碼產品的生態系統逐漸的滲透。(1)什麼是語音交互?語音交互(VUI)本質上是通過語音輸入來理解用戶需求,並對其進行反饋的交互模式。不過目前有一個比較明顯的轉變是:語音交互會往「多模態界面」方向發展,與單純語音交互的產品(Amazon Echo 和 Google home)。相比來說,多模式的交互在屏幕展現信息方面更有優勢,這也應證了互動設計的下一步是實現無縫的交互體驗。對於網頁設計師來說,需要了解以下三方面的關鍵內容:
  • AI產品經理需要了解的線性代數通識
    上一篇為大家介紹了《AI產品經理需要了解的概率論通識:4個概念3個問題》,本篇文章中,筆者將為你介紹AI產品經理需要了解的線性代數通識,一起來看看吧。羅素在自傳中這樣寫道:「我 11 歲時,我開始學習歐幾裡得幾何學,哥哥做我的老師,這是我生活中的一件大事,就像初戀一樣令人陶醉。
  • 不是產品經理,需要鍛鍊產品思維嗎?
    導語:提到產品思維,自然而然的,大家都認為這是產品經理必備的思維方式。那麼,不是產品經理,需要鍛鍊產品思維嗎?答案是肯定的,產品思維並不是產品經理所獨有的思維,而是對於用戶和產品需求的思考。產品是核心,不論是技術、設計還是運營,工作內容的本質都是如何將產品更好地帶給用戶。
  • 從數據角度全面解析,智能語音交互產品該怎樣確定「喚醒詞」
    和很多智能語音交互產品一樣,當你使用搭載DuerOS系統的智能音箱的時候,需要多次這樣叫出它的名字——「小度小度」,才能讓它更好的為我們服務。但是什麼樣的名字才是好名字?什麼樣的名字順口悅耳人人喜愛?產品經理想叫A,其他同事想叫B,到底應該叫什麼好呢?  本篇文章將從數據的角度,科學的告訴你,智能語音交互產品該「叫」什麼名字。
  • 產品經理AI指北(二):AI產品經理的六頂思考帽
    通過上一篇文章中對分析拉勾上的AI產品經理招聘數據,我們已經了解到關於AI產品經理的市場需求情況,以及企業對於產品經理的崗位職責及要求。今天我們重點來共同聊聊,AI產品經理需要在思維方式上的準備工作。說起AI(人工智慧)我們不得不提到機器學習和深度學習,那麼二者究竟是怎樣的關係呢?
  • 語音互動設計(一):VUI發展及特徵
    1.2 VUI的第二個時期我們現在所處第二時期的初期,目前很多像siri、Google這類集成了視覺和語音信息的APP,以及Amazon Echo這類純語音的設計產品,逐步發展並成為主流[1]。隨著語音識別技術、AI技術、網際網路技術的發展,我們已經可以在手機設備中用語音處理很多事情,但還有很多事情目前無法通過語音完成,需要我們探索。
  • AI 產品經理入門與勸退指南
    本文總結了 AI 產品經理入門前的必備須知,以及入門 AI 產品經理前需要建立的初步認知框架。01「人工智慧是未來,而未來已至。」這種論調已經普及開了,可謂是深入人心。產品經理設計AI產品的核心是什麼?產品經理在設計AI產品時,要能夠平衡概率最優和成本投入。產品經理需要判斷能滿足用戶需求的概率是多少、用戶接收的最低標準是什麼、超出用戶預期的標準是什麼,依據這些判斷去決定產品研發的投入策略。不要追求完美,因為產品的商業化成功才是第一位。