AI語音二三事:你需要了解這些AI 語音對話技術

2020-12-14 人人都是產品經理

機器學習以及自然語言處理技術的進步,開啟了人與人工智慧進行語音交互的可能,人們透過對話的方式獲取信息、與機器進行交互,將不再只是存在科幻情結當中。語音交互是未來的方向,而智能音箱則是語音交互落地的第一代產品。

一、語音交互流程簡介

AI 對話所需要的技術模塊有 4 個部分,分別為:

  1. 自動語音識別(Automatic Speech Recognition, ASR)
  2. 自然語言理解(Natural Language Understanding, NLU)
  3. 自然語言生成(Natural Language Generation, NLG)
  4. 文字轉語音(Text to Speech, TTS)

以叮咚開發文檔中的語音交互流程圖來看Ai 對話技術的主要路徑:

從上圖中可以看到,用戶與設備之間的交互,主要是採用語音方式處理和完成的。

二、語音交互流程設計

一次完整的語音交互流程,成功的語音對話,通常是有以下幾個階段。

1.交互流程的核心—意圖

所謂意圖,表示用戶在使用應用時所做的動作(譬如:問一個問題或發送一條指令),這些意圖代表了應用的核心功能。

如果應用成功地識別了用戶意圖,則需要在完成業務動作後,將結果反饋給用戶;如果應用無法識別用戶意圖,則需要給用戶友好的提示,指導用戶使用。

  • 用戶:七星彩的開獎時間是什麼時候?
  • Ai:體育彩票七星彩每周二、周四和周日開獎。

2. 如何識別意圖—語義解析

對語音識別結果進行分析理解,簡單來說就是將用戶語音輸入映射到機器指令。它可能定義了一組包含指定的單詞或短語的語法結構,用戶通過說出滿足這種結構的語句,來調用意圖。

用戶:我要{聽} {周杰倫}的{稻香}

Ai:稻香.mp3

3.如何處理意圖—雲端交互

調用意圖的結構化請求,向伺服器請求處理後做出反饋響應。 通俗來講該流程主要處理用戶的請求,解決用戶問題的答案。

4.上下文意圖的處理-對話管理

在用戶進行自然對話時,可能會因為表達事情的復

度、時間、地點、效率等,產生具有脈絡的對話過程,所有的對話元素會編織在一個連貫的線性對話中。

用戶:明天北京天氣如何?

Ai:明天北京天氣晴,溫度16到23度

用戶:後天呢?{後天北京天氣如何?}

Ai:後天北京天氣晴,溫度17到28度

5,語言合成模塊 – 組織語言

根據解析模塊得到的內部表示,在對話管理機制的作用下生成自然語言句子。 同時將生成模塊生成的句子轉換成語音輸出。(把回答的機器語言再轉換成 口語語言)

三、 中文自然語言處理的關鍵技術

1、詞法分析

詞法分析包括詞形和詞彙兩個方面。一般來講,詞形主要表現在對單詞的前綴、後綴等的分析,而詞彙則表現在對整個詞彙系統的控制。在中文全文檢索系統中,詞法分析主要表現在對漢語信息進行詞語切分,即漢語自動分詞技術。通過這種技術能夠比較準確的分析用戶輸入信息的特徵,從而完成準確的搜索過程。它是中文全文檢索技術的重要發展方向。

2、句法分析

句法分析是對用戶輸入的自然語言進行詞彙短語的分析,目的是識別句子的句法結構,實現自動句法分析過程。其基本方法有線圖分析法、短語結構分析、完全句法分析、局部句法分析、依存句法分析等。

3、語義分析

語義分析是基於自然語言語義信息的一種分析方法,其不僅僅是詞法分析和句法分析這樣語法水平上的分析,而是涉及到了單詞、詞組、句子、段落所包含的意義。其目的是從句子的語義結構表示言語的結構。中文語義分析方法是基於語義網絡的一種分析方法。語義網絡則是一種結構化的,靈活、明確、簡潔的表達方式。

4、語用分析

語用分析相對於語義分析又增加了對上下文、語言背景、環境等的分析,從文章的結構中提取到意象、人際關係等的附加信息,是一種更高級的語言學分析。它將語句中的內容與現實生活的細節相關聯,從而形成動態的表意結構。

5、語境分析

語境分析主要是指對原查詢語篇以外的大量「空隙」進行分析從而更為正確地解釋所要查詢語言的技術。這些「空隙」包括一般的知識,特定領域的知識以及查詢用戶的需要等。它將自然語言與客觀的物理世界和主觀的心理世界聯繫起來,補充完善了詞法、語義、語用分析的不足。

四、 Ai對話目前存在的問題

人機對話過程中,用戶難免會出現表達失誤的情況,導致機器對用戶語言理解出現偏差,在這時,糾錯機制對機器而言則非常重要,如缺少這個機制,用戶需要花費相當長的時間將其意圖解釋清楚,相應的用戶體驗也會十分糟糕。另一方面,雖然可以很好的識別語音,但是卻不能理解你的對話目的,語義理解上有偏差。

當前,包括Alexa在內的國內外智能音箱之所以沒有表現的那麼智能,出現了「人工智障」的嘲笑也是因為在以上兩方面沒有處理太好。

因此語音交互最終需要解決的關鍵問題是歧義消解問題,和未知語言現象的處理問題

五、 智能語音助手背後的生態服務

Amazon Echo 的勝利在於其語音助手 Alexa 掌握的無數技能,Google Assistant 以及Google Home之所以被人看好是在於其 Android 後發優勢所具備的開放性。

智能語音助手類的產品要想在中國落地開花,它不僅僅是簡單的語音識別那麼簡單,還有集成服務,一整套的中文生態、內容、服務等配套設施,是一種涵蓋很多基礎能力的生態系統。

未來基於語音交互的語義技能,必須要能夠達到幾萬、幾十萬甚至上百萬種的時候,才能促使語音交互時代作業系統真正走向成熟,未來語音交互產品的形態和樣式也將越來越豐富。

讓我們期待未來Ai語音交互的蓬勃發展,期待未來對技術的無限挑戰!

 

本文由 @ Baolan 原創發布於人人都是產品經理。未經許可,禁止轉載。

題圖來自PEXELS,基於CC0協議

相關焦點

  • 從小愛同學談對AI語音助手的整體認識
    二、AI語音助手的現狀——拼場景場景一:連接硬體生態由於語音交互核心環節上的一系列技術突破及人工智慧公司提供的ToB解決方案,AI語音助手開始逐漸在技術層面上滿足人們的基本要求。 語音識別技術(ASR)的接口,用的是思必馳、Nuance 與搜狗的(現在小米似乎是在自研)。 自然語言理解(NLP)等關於語義方面的技術,由小米大腦親自來做。 前端的麥克風陣列以及降噪方案,是由聲智科技提供的。 語音合成技術,是由獵戶星空提供的。
  • 語音合成 TTS|AI 產品經理需要了解的 AI 技術概念
    在文中,作者替大家收集了很多線上/線下的相關信息後,提煉出的AI產品經理「最必要」了解的TTS技術知識和行業現狀TTS(Text-To-Speech,語音合成),目前是一個「小而美」的AI領域,但我個人覺得非常有意思,感覺TTS在未來會被行業真正重視起來,並且會出現做得不錯的創業公司
  • AI產品經理需要了解的語音交互評價指標
    實際工作中,一般識別率的直接指標是「WER(詞錯誤率,Word Error Rate)」定義:為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換、刪除或者插入某些詞,這些插入、替換或刪除的詞的總個數,除以標準的詞序列中詞的總個數的百分比,即為WER。公式為:
  • 領先語音體驗,探析博泰車聯網擎AI語音技術
    我們今天從博泰車聯網擎AI語音技術為切入,深入了解在車載語音使用場景下,一整套完整語音解決方案的技術魅力。在網關接入服務過程中,採用websocket通訊協議,只需要在建立連接時進行一次權限校驗,減少重複的權限校驗,降低伺服器負載;減少傳輸延時和消耗,在弱網環境下還可以切換為壓縮傳輸格式,能夠在很大程度上保障服務的可用性。
  • ai語音助手測試結果出爐,谷歌智商領先蘋果
    打開APP ai語音助手測試結果出爐,谷歌智商領先蘋果 發表於 2017-10-12 17:58:20   近幾年,AI語音助手的款式層出不窮,相對於其他不知名的語音助手,蘋果和谷歌都取得了不錯的成就,通過幾項測試,AI語音助手終於有了成績。
  • 技術貼 | AI-語音處理理論與應用
    本文帶大家了解AI-語音處理理論與應用語音處理中的基礎知識及應用、掌握語音處理的基本步驟、掌握語音處理的主要技術、了解語音處理的難點與展望等知識點
  • 搜狗AI交互技術顛覆語音背後,超強T4助力AI+語音猛衝行業領先
    如今,搜狗作為國產AI+語音領域顛覆傳統語音行業領先者之一,AI語音技術具有高識別率、高準確率、低時延和多模態融合等優勢,已廣泛應用到教育、商務、旅遊等多個應用場景,並已深入你我身邊的千家萬戶中。據了解,基於英偉達強大的GPU算力支持,目前搜狗語音的日均請求量已達十億以上。二、英偉達GPU+超大規模推理平臺,助力搜狗AI語音兩大創新方向而在搜狗強大AI交互技術過程中,英偉達T4和Tensor RT為搜狗實現算力突破,創新行業提供了強勁的技術支持。
  • 微軟開放多項AI技術,小娜與Alexa「合體」丨AI Daily
    1、7 月起,Drive.ai 將在德州提供無人計程車服務由吳恩達擔任董事的無人車初創公司 Drive.ai 昨日宣布: 2018 年 7 月起將在德克薩斯州弗裡斯科(Firsco)提供無人計程車服務。Drive.ai 將與弗裡斯科運輸管理協會合作,共同運營該項目。
  • 【法語語音】ai是發[e]還是[ɛ],這是個問題
  • 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人...
    近日,他們又將多人語音識別和說話人分類問題融合在了同一個網絡模型中,在模型性能上取得了重大的突破。對於自動理解人類音頻的任務來說,識別「誰說了什麼」(或稱「說話人分類」)是一個關鍵的步驟。例如,在一段醫生和患者的對話中,醫生問:「你按時服用心臟病藥物了嗎?」患回答道:「Yes」。這與醫生反問患者「Yes?」的意義是有本質區別的。
  • 對話深思考CEO楊志明:從AI技術走到用戶需求
    專攻多模態深度語義理解,推出深思考大腦(iDeepWise.ai)4.0「AI技術的發展會經歷感知、識別、理解、決策四個階段。」8月初,深思考推出了「多模態深度語義理解」深思考大腦(iDeepWise.ai)4.0,憑藉此項技術,深思考近日在中文語義理解與人機互動領域最高水平的SMP2018-ECDT賽事中獲得冠軍,蟬聯2017、2018兩屆冠軍。
  • 微軟語音 AI 技術與微軟聽聽文檔小程序實踐|AI ProCon 2019
    語音AI技術跟移動開發是非常有關係的。大家平時開車時不方便用手輸入,可以用語音輸入,開車時想聽一些東西,完全可以用文字轉語音的技術去聽這些內容。基於這些考慮,微軟語音AI和微軟聽聽小程序合作做了些嘗試,今天給大家分享這裡面的故事。趙晟微軟語音AI的技術突破微軟在30多年前開辦微軟研究院時,已開始投入大量的人力物力在語音和語言上。
  • 「MyBuddy.ai」獲 100 萬美元...
    MyBuddy.ai 是一家教育語音技術公司,成立於2017年,總部位於美國舊金山,由 Dima Plotnikov、Dmitry Stavisky 和 Ivan Crewkov 聯合創立,旨在幫助兒童通過語音遊戲的方式來練習英語口語。
  • 語音識別技術的發展及難點分析
    語音識別技術的發展 與機器進行語音交流,讓它聽明白你在說什麼。語音識別技術將人類這一曾經的夢想變成了現實。語音識別就好比「機器的聽覺系統」,該技術讓機器通過識別和理解,把語音信號轉變為相應的文本或命令。
  • 百度的語音識別技術或將超越谷歌和蘋果
    但是,現在他終於忍不住披露了更出色的語音識別技術,這是智慧型手機時代引人關注的關鍵領域。 具體來說,Deep Speech在車內或人群中等嘈雜環境下比其他語音識別系統的表現更出色。當然,關鍵是讓語音識別技術在現實世界中真正發揮作用。
  • AI語音翻譯造假?科大訊飛董事長回應AI語音翻譯三大質疑
    「這次誤解是對會議服務的分工溝通了解不清造成的,我們已經委託會議主辦方進行溝通,希望儘快向社會公眾消除誤解。」記者登陸IEID會議官網發現,本次會議主辦方為中國工程院、上海市人民政府以及工業和信息化部。劉慶峰表示,正在溝通會議主辦方牽頭單位中國工程院就此事進行澄清。  疑問二:科大訊飛翻譯水準到底如何?
  • 【AI2+AI】語音計算器APP
    他們如何理解你對他們說的話並了解你的請求?如何恰當而有意義地回應你?在這個項目中,你來挑戰創建自己的第一個語音用戶界面(VUI),構建一個可以執行基本算術操作的使用語音來驅動的計算器。1.項目簡介這個人工智慧項目呈現語音用戶界面(VUI)的基本感覺,並教你如何設計一個簡單的人工智慧系統,(這個系統)可以理解用戶的請求:用戶以語音方式出計算題,機器作出適當的反應。這樣一個語音驅動的人工智慧系統可以在各種情況下提供幫助,比如為視障人士和老年人 設計 輔助技術 時。
  • Jeff Dean親筆盤點谷歌AI 2019:日均2篇論文,縱橫16大方向
    我們可以很容易看到美麗的圖像,聽到喜歡的歌曲,或與親人交談、然而,全球有超過十億人無法用這些方式了解世界。機器學習技術可以通過將這些視聽信號轉換成其他信號,為殘障人士服務。Google提供的AI助手技術有:Lookout幫助盲人或視力低下的人識別其周圍環境信息。
  • 華為首次投資國內AI公司,多模態深度語義理解技術成競逐焦點?
    該公司最突出的技術是「多模態深度語義理解引擎(iDeepwise.ai)與人機互動技術」,該引擎技術可同時理解文本、視覺圖像等多模態非結構化數據背後的深度語義,其中以「長文本的機器閱讀理解技術、自由跨域的多輪人機對話技術、對多種模態信息的語義理解技術」三大技術,搶佔了市場的先發優勢。
  • Racetrack.ai推出自動化通訊助手Marvin
    有了機器學習技術,辦事效率會大大提高。企業尋求自動化解決方案以降低人力成本,提高生產效率,構建強大的系統。科技通常可以涵蓋所有這些需求的答案,一個不斷發展的自動化技術還能將解決方案上升到另一個層次。由於數位化是為顧客服務的,因此科技的超個性化也隨之產生。聊天機器人正面向著不同的消費者領域。