AI產品經理需要了解的語音交互評價指標

2020-12-06 人人都是產品經理

本文主要從5大方面具體介紹了現在行業內對語音交互系統的常見評價指標,分別是語音識別、自然語言處理、語音合成、對話系統和整體用戶數據指標。enjoy~

最近,在飯糰「AI產品經理大本營」裡,有團員提問:如何制定針對自然語言語音交互系統的評價體系?有沒有通用的標準?例如在車載環境中,站在用戶角度,從客觀,主觀角度的評價指標?

上周,我在專屬微信群內拋出了這個問題,當晚,胡含、我偏笑、豔龍等朋友就分享了不少乾貨心得;最近幾天,在飛豔同學的協助整理下,我又補充了一些信息,最終形成這篇文章,以饗大家。

一、語音識別ASR

語音識別(Automatic Speech Recognition),一般簡稱ASR,是將聲音轉化為文字的過程,相當於人類的耳朵。

1、識別率

純引擎的識別率,以及不同信噪比狀態下的識別率(信噪比模擬不同車速、車窗、空調狀態等),還有在線/離線識別的區別。

實際工作中,一般識別率的直接指標是「WER(詞錯誤率,Word Error Rate)」

定義:為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換、刪除或者插入某些詞,這些插入、替換或刪除的詞的總個數,除以標準的詞序列中詞的總個數的百分比,即為WER。

公式為:

  • Substitution——替換
  • Deletion——刪除
  • Insertion——插入
  • N——單詞數目

3點說明:

  1. WER可以分男女、快慢、口音、數字/英文/中文等情況,分別來看。
  2. 因為有插入詞,所以理論上WER有可能大於100%,但實際中、特別是大樣本量的時候,是不可能的,否則就太差了,不可能被商用。
  3. 站在純產品體驗角度,很多人會以為識別率應該等於「句子識別正確的個數/總的句子個數」,即「識別(正確)率等於96%」這種,實際工作中,這個應該指向「SER(句錯誤率,Sentence Error Rate)」,即「句子識別錯誤的個數/總的句子個數」。不過據說在實際工作中,一般句錯誤率是字錯誤率的2~3倍,所以可能就不怎麼看了。

2、語音喚醒相關的指標

先需要介紹下語音喚醒(Voice Trigger,VT)的相關信息。

(1)語音喚醒的需求背景

近場識別時,比如使用語音輸入法時,用戶可以按住手機上siri的語音按鈕,直接說話(結束之後鬆開);近場情況下信噪比(Signal to Noise Ratio, SNR)比較高,信號清晰,簡單算法也能做到有效可靠。

但是在遠場識別時,比如在智能音箱場景,用戶不能用手接觸設備,需要進行語音喚醒,相當於叫這個AI(機器人)的名字,引起ta的注意,比如蘋果的「Hey Siri」,Google的「OK Google」,亞馬遜Echo的「Alexa」等。

(2)語音喚醒的含義

簡單來說是「喊名字,引起聽者(AI)的注意」。如果語音喚醒判斷結果是正確的喚醒(激活)詞,那後續的語音就應該被識別;否則,不進行識別。

(3)語音喚醒的相關指標

  • a. 喚醒率。叫AI的時候,ta成功被喚醒的比率。
  • b. 誤喚醒率。沒叫AI的時候,ta自己跳出來講話的比率。如果誤喚醒比較多,特別比如半夜時,智能音箱突然開始唱歌或講故事,會特別嚇人的……
  • c. 喚醒詞的音節長度。一般技術上要求,最少3個音節,比如「OK Google」和「Alexa」有四個音節,「Hey Siri」有三個音節;國內的智能音箱,比如小雅,喚醒詞是「小雅小雅」,而不能用「小雅」——如果音節太短,一般誤喚醒率會比較高。
  • d. 喚醒響應時間。之前看過傅盛的文章,說世界上所有的音箱,除了Echo和他們做的小雅智能音箱能達到1.5秒,其他的都在3秒以上。
  • e. 功耗(要低)。看過報導,說iPhone 4s出現Siri,但直到iPhone 6s之後才允許不接電源的情況下直接喊「Hey Siri」進行語音喚醒;這是因為有6s上有一顆專門進行語音激活的低功耗晶片,當然算法和硬體要進行配合,算法也要進行優化。

以上a、b、d相對更重要。

(4)其他

涉及AEC(語音自適應回聲消除,Automatic Echo Cancellation)的,還要考察WER相對改善情況

二、自然語言處理NLP

自然語言處理(Natural Language Processing),一般簡稱NLP,通俗理解就是「讓計算機能夠理解和生成人類語言」。

1、準確率、召回率

附上之前文章《AI產品經理需要了解的數據標註工作入門》中,分享過的一段解釋:

  • 準確率:識別為正確的樣本數/識別出來的樣本數
  • 召回率:識別為正確的樣本數/所有樣本中正確的數

舉個慄子:全班一共30名男生、20名女生。需要機器識別出男生的數量。本次機器一共識別出20名目標對象,其中18名為男性,2名為女性。則

  • 精確率=18/(18+2)=0.9
  • 召回率=18/30=0.6

再補充一個圖來解釋:

2、F1值(精準率和召回率的調和平均數)

模型調優後追求F1值提升,準確率召回率單獨下降在一個小區間內,整體F1值的增量也是分區間看(F1值在60%內,與60%以上肯定是不一樣的,90%以上可能只追求1%的提升)。

P是精準率,R是召回率,Fa是在F1基礎上做了賦權處理:Fa=(a^2+1)PR/(a^2P+R)

三、語音合成TTS

語音合成(Text-To-Speech),一般簡稱TTS,是將文字轉化為聲音(朗讀出來),類比於人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音,都是由TTS來生成的,並不是真人在說話。

主觀測試(自然度),以MOS為主:

  1. MOS(Mean Opinion Scores),專家級評測(主觀);1-5分,5分最好。
  2. ABX,普通用戶評測(主觀)。讓用戶來視聽兩個TTS系統,進行對比,看哪個好。

客觀測試:

  1. 對聲學參數進行評估,一般是計算歐式距離等(RMSE,LSD)。
  2. 對工程上的測試:實時率(合成耗時/語音時長),流式分首包、尾包,非流式不考察首包;首包響應時間(用戶發出請求到用戶感知到的第一包到達時間)、內存佔用、CPU佔用、3*24小時crash率等。

四、對話系統

對話系統(Dialogue System),簡單可以理解為Siri或各種Chatbot所能支持的聊天對話體驗。

1、用戶任務達成率(表徵產品功能是否有用以及功能覆蓋度)

(1)比如智能客服,如果這個Session最終是以接入人工為結束的,那基本就說明機器的回答有問題。或者重複提供給用戶相同答案等等。

(2)分專項或分意圖的統計就更多了,不展開了。

2、對話交互效率

比如用戶完成一個任務的耗時、回復語對信息傳遞和動作引導的效率、用戶進行語音輸入的效率等(可能和打斷,One-shot等功能相關);具體定義,各個產品自己決定。

3、根據對話系統的類型分類,有些區別。

(1)閒聊型

  • CPS(Conversations Per Session,平均單次對話輪數)。這算是微軟小冰最早期提出的指標,並且是小冰內部的(唯一)最重要指標;
  • 相關性和新穎性。與原話題要有一定的相關性,但又不能是非常相似的話;
  • 話題終結者。如果機器說過這句話之後,通常用戶都不會繼續接了,那這句話就會給個負分。

(2)任務型

  • 留存率。雖然是傳統的指標,但是能夠發現用戶有沒有形成這樣的使用習慣;留存的計算甚至可以精確到每個功能,然後進一步根據功能區做歸類,看看用戶對哪類任務的接受程度較高,還可以從用戶的問句之中分析發出指令的習慣去針對性的優化解析和對話過程;到後面積累的特徵多了,評價機制建立起來了,就可以上強化學習;比如:之前百度高考,教考生填報志願,就是這麼弄的;
  • 完成度(即,前文提過的「用戶任務達成率」)。由於任務型最後總要去調一個接口或者觸發什麼東西來完成任務,所以可以計算多少人進入了這個對話單元,其中有多少人最後調了接口;
  • 相關的,還有(每個任務)平均slot填入輪數或填充完整度。即,完成一個任務,平均需要多少輪,平均填寫了百分之多少的槽位slot。對於槽位的介紹,可詳見《填槽與多輪對話 | AI產品經理需要了解的AI技術概念》。

(3)問答型

  • 最終求助人工的比例(即,前文提過的「用戶任務達成率」相關);
  • 重複問同樣問題的比例;
  • 「沒答案」之類的比例。

整體來說,行業一般PR宣傳時,會更多的提CPS。其他指標看起來可能相對太瑣碎或不夠高大上,但是,實際工作中,可能CPS更多是面向閒聊型對話系統,而其他的場景,可能更應該從「效果」出發。比如,如果小孩子哭了,機器人能夠「哭聲安慰」,沒必要對話那麼多輪次,反而應該越少越好。

4、語料自然度和人性化的程度

目前對於這類問題,一般是使用人工評估的方式進行。這裡的語料,通常不是單個句子,而是分為單輪的問答對多輪的一個session。一般來講,評分範圍是1~5分

  • 1分或2分:完全答非所問,以及含有不友好內容或不適合語音播報的特殊內容;
  • 3分:基本可用,問答邏輯正確;
  • 4分:能解決用戶問題且足夠精煉;
  • 5分:在4分基礎上,能讓人感受到情感及人設。

另外,為了消除主觀偏差,採用多人標註、去掉極端值的方式,是當前普遍的做法。

五、整體用戶數據指標

常規網際網路產品,都會有整體的用戶指標;AI產品,一般也會有這個角度的考量。

1、DAU(Daily Active User,日活躍用戶數,簡稱「日活」)

在特殊場景會有變化,比如在車載場景,會統計「DAU佔比(佔車機DAU的比例)」。

2、被使用的意圖豐富度(使用率>X%的意圖個數)。

3、可嘗試通過用戶語音的情緒信息和語義的情緒分類評估滿意度

尤其對於生氣的情緒檢測,這些對話樣本是可以挑選出來分析的。比如,有公司會統計語音中有多少是罵人的,以此大概了解用戶情緒。還比如,在同花順手機客戶端中,拉到最底下,有個一站式問答功能,用戶對它說「怎麼登錄不上去」和說「怎麼老是登錄不上去」,返回結果是不一樣的——後者,系統檢測到負面情緒,會提示轉接人工。

結語

本篇分享,介紹了現在行業內對語音交互系統的常見評價指標,一方面,是提供給各位AI產品經理以最接地氣的相關信息;另一方面,也是希望大家基於這些指標,打造出更好的產品體驗效果。

#專欄作家#

黃釗(hanniman),圖靈機器人-人才戰略官,人人都是產品經理專欄作家,前騰訊產品經理,微信公眾號/知乎/在行/飯糰「hanniman」。5年人工智慧實戰經驗,8年網際網路行業背景。「人工智慧產品經理」概念的推動者,被AI同行廣泛傳播的200頁PPT《人工智慧產品經理的新起點》的作者。關注人機互動(特別是語音交互)在手機、機器人、智能汽車、智能家居、AR/VR等前沿場景的可行性和產品體驗。

本文原創發布於人人都是產品經理,未經許可,不得轉載

相關焦點

  • 關於AI學習方法的思考——產品經理入門人工智慧
    下面我僅從【現有產業+機器學習】角度提出我對AI產品經理可能工作內容的幾點思考:觀點一:AI產品經理需要了解技術現狀這一觀點上,我認為目前AI技術相對是不夠成熟的,那麼了解好技術可能實現的能力範圍,技術本身所需要的成本還有當前存在的技術瓶頸,可能是AI產品經理需要具備的基礎。
  • AI產品經理的定義和分類
    例如,雖然「AI產品經理」是2016才開始被行業提及,但我在2012年設計「語音助手」app的時候,確實已經在接觸語音識別、語義理解等AI概念和技術細節了。 作為一個新職位概念,「AI產品經理」的定義和分類,是網際網路產品經理以及AI從業者都非常關心的。本文,我將嘗試提出自己的觀察和總結,拋磚引玉,希望能促進行業對「AI產品經理」有更多的重視和思考。
  • AI產品經理需要了解的數據知識:餘弦相似度
    本文概括介紹了餘弦相似度是什麼、如何應用以及案例說明,目的是希望我們產品經理在設計相關跟相似度功能或是利用相似性功能解決某一業務的場景時能利用上餘弦相似度,並希望您讀完對自己在設計相關推薦業務、搜索業務、識別業務時能有更深層次的理解。
  • 語音交互:從語音喚醒(KWS)聊起
    而語音喚醒就成功的避開了這個問題,在只有用戶叫名字的時候工作,其他時間休眠。其實到底是否需要語音喚醒這個能力,也是看場景的,有些廉價的玩具,就是通過按住按鈕進行語音交互的。二、語音喚醒的應用有哪些語音喚醒目前的應用範圍比較窄,主要是應用在語音交互的設備上面,用來解決不方便觸摸,但是又需要交互的場景。
  • 獵戶星空發布首款AI產品「小雅」遠場語音交互系統
    據了解,獵戶星空AI生態鏈上的第一款產品,小雅AI音箱是一款技術和產品結合的智能硬體,市場價為999元,首批預售價699元,發貨時間為7月29日。據介紹,作為獵戶星空全鏈路自研的遠場語音交互系統,「小雅」擁有行業領先的語音技術,智能硬體廠商可以藉助小雅輕鬆實現最人性化的語音交互體驗。
  • 人臉識別:AI產品經理需要了解的CV通識
    最近整理了CV方向的一些產品基礎知識,我的上一篇文章《看AI產品經理如何介紹「計算機視覺」(基於實戰經驗和案例)》算是這個系列的第一篇;本文是本系列下的第二篇,主要針對人臉識別進行梳理。後續還會有多目標跟蹤、OCR等方向的內容。
  • 一文讀懂,語音互動設計流程
    一、VUI的現狀隨著智能音箱的迅速發展,谷歌(Google Home)、亞馬遜(echo)天貓精靈、小愛音箱……智能產品的井噴式增長,人們對智能語音產品的需求也越來越多,也越來越高,智能音箱對人們的生活的影響也越來越深,自然孕育而生一些新的職業需求,比如:VUI(語音互動設計師Voice User Interfaces
  • 產品經理必備技能:定義數據指標
    數據分析是產品經理的一項基本技能,然而每次想好好學習下,資源不是7天精通Excel就是20天進階SQL,甚至於Python必知必會……工欲善其事必先利其器,確實沒錯,但工具需要思維來指揮。而數據指標的定義,是培養數據思維要闖的第一道關。作為一隻數據小白,分享一點定義數據指標的心得,有問題老鐵們請斧正。1、激活,如何定義一個激活?
  • 未來已來(一):語音交互,人機互動的新時代
    如今,語音界面無處不在,我們可以在智慧型手機、電視、智能家居和其他一系列產品中接觸到它。語音交互功能正快速的滲入我們的日常生活中,它的高速發展表明這項技術即將成為傳統圖形界面交互方式之外的另一種選擇,甚至有可能完全代替後者。
  • AI產品經理的入門必修課(4)——知識圖譜
    編輯導語:通過知識圖譜,不僅可以將網際網路的信息表達成更接近人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式;本文作者分享了關於AI產品經理的知識圖譜簡介以及利用,我們一起來了解一下。
  • 盤點麥克風技術及市場,遠場語音交互如何選型麥克風?
    那麼,這就有必要深入了解一下麥克風這個行業以及技術的趨勢。什麼是麥克風?有哪些種類和指標參考?麥克風作為業界通俗的一種叫法,是英文Microphone的音譯名稱,國內的稱呼亂一些,有時候也簡單稱作話筒,香港和臺灣地區也會稱作微音器、拾音器。
  • 百度地圖分析報告:語音交互功能詳析
    註:本文是筆者為求職所做的分析,目的在於了解手機地圖行業格局、發展趨勢。2.競品簡介2.1百度地圖百度地圖是百度公司提供的電子地圖服務,於2005年推出,現已覆蓋209個國家和地區,全球POI(地圖興趣點) 總數達1.4億,室內圖覆蓋超過4,000座大型購物中心。產品定位為「世界很複雜,百度更懂你」「科技讓出行更簡單」。
  • AI產品經理的入門必修——概念篇
    編輯導語:隨著各行各業的豐富,產品經理的崗位職責也越來越細緻;如今科技發展迅速,AI人工智慧已經開始深入生活中,AI產品經理也需要掌握一定的技能;本文作者分享了關於AI產品經理的學習概念分享,我們一起來看一下。經過近幾年來的發展,產品經理的崗位職責劃分的越來越細,對能力的要求也越來越高。
  • 思必馳技術分享:車載語音交互的需求及挑戰
    AIOS的3.0版本,通過這次技術分享,也讓大家了解了一下語音交互系統對車載領域的重要性。在語音操作剛剛興起的時候,算法十分簡陋,識別率低且只能完成及其簡單的操作,這樣完全不能稱之為「智能」,在思必馳技術分析沙龍的現場,思必馳產品總監張巖在現場提到了一個VUI的概念,也就是語音交互界面(Voice User Interface),這個概念說白了就是把二維的屏幕操作界面變成了由語音系統構成的操作組織。
  • 「會說話的人,一開口就贏了」——語音交互中的機器話術研究
    本篇文章轉載自百度人工智慧互動設計院,著重於語音交互中的機器話術研究。以下為正文內容:在不少科幻電影或小說裡,人工智慧可以和人自然交流,甚至可以談情說愛(如電影《her》中的薩曼莎)。但我們不得不承認,現實和理想差距很大。
  • AI產品經理需要了解的概率論通識:4個概念3個問題
    我認為AI產品經理應該學一些概率知識,是否理解概率,直接決定一個人對AI智能的了解程度。現階段的自然語音處理,圖像識別,等都已不是專家系統,而是以數學為基礎,以概率論為方法,以算法為模型的最優解決方案。下面就了解一下幾個概率論概念:一、概率論概念1.
  • 各路大咖共探:智能語音技術如何與家電產品深度融合?
    9月23日,由廣東省智能家電創新中心主辦,中國電器科學研究院股份有限公中國電研和CVC威凱承辦的「第一屆語音識別及交互技術研討會(閉門會議)」在廣州順利召開。,生態鏈上諸如聲學、ASR、晶片、電控設計、工業設計等環節割裂,未能有效融合發展,加之尚無統一的技術規範和測試評價手段,導致產品良莠不齊,阻礙了消費市場的健康發展。
  • AI產品經理的必修課:系統化思維
    產品經理要養成一個習慣,精確定義身邊的所有問題,一些現象到底是什麼?哪怕友情,溝通,都可以定義。定義的標準就是可以在任何一個場景可以復現。iPhone帶來的多點觸控的輸入方式給UI及互動設計帶來了革命性的變化,而這也是iPhone用戶體驗好的源頭。產品經理對用戶體驗的決定權就好比一個導購把產品高價賣給了老人。產品經理的設計能力可以左右用戶體驗,但根本上是由輸入輸出設備決定的。老式觸控螢幕是單點觸控,滑鼠也是單點,體驗特別像PC,單點沒有好到可以代替鍵盤,因為滑鼠配鍵盤是最好體驗。所以單點觸控螢幕最後不如iPhone。
  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    ., 2018))比賽上,京東 AI 研究院語音語言實驗室提出的 EL-QA 模型(Single Model)登頂 QuAC Leaderboard,全部三項指標均獲得第一名。其中,在 F1-Measure(又稱為 F1-Score) 指標上達到 74.6,大幅拉近了機器與人類在該任務上的水平差距。
  • 小度音箱等第一方硬體交互次數首次亮相,23億詮釋語音交互價值
    和許多黑科技的誕生一樣,有了美好遠景的語音交互成了幾代「程式設計師」的奮鬥方向。  特別是深度學習技術在2010年引入到語音識別領域後,蘋果Siri、Google Now、百度語音、微軟Cortana等「語音助手」類產品應運而生,有問有答的人機對話逐漸成為現實,哪怕機器還處於被動接受人類輸入大量數據階段,不能深層次理解人的意思。