發表於 2019-07-31 10:16:14
語音助手能和人類進行深度交談的背後,離不開自然語言處理(NLP)和自然語言生成(NLG)這兩種基礎技術。機器學習的這兩個分支使得語音助手能夠將人類語言轉換為計算機命令,反之亦然。
NLP指在計算機讀取語言時將文本轉換為結構化數據的過程。簡而言之,NLP是計算機的閱讀語言。可以粗略地說,在NLP中,系統攝取人語,將其分解,分析,確定適當的操作,並以人類理解的語言進行響應。NLP結合了計算機科學、人工智慧和計算語言學,涵蓋了以人類理解的方式解釋和生成人類語言的所有機制:語言過濾、情感分析、主題分類、位置檢測等。
自然語言處理由自然語言理解(NLU)和自然語言生成(NLG)構成。NLG是計算機的「編寫語言」,它將結構化數據轉換為文本,以人類語言表達。即能夠根據一些關鍵信息及其在機器內部的表達形式,經過一個規划過程,來自動生成一段高質量的自然語言文本。
對於「AI語音識別」,每一個「語音識別」都是APP,這個APP裡面內置著我們常用字的「標準發音字庫「,同時,為了讓軟體能否識別我們「不標準的發音」,軟體還需要AI程式語言對我們不標準的發音做評分,然後做比對,最後選擇評分最高的那一個「標準發音」作為我們「不標準發音」的字庫!
語音識別系統本質上是一種模式識別系統,包括特徵提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:
語音識別系統構建過程整體上包括兩大部分:訓練和識別。訓練通常是離線完成的,對預先收集好的海量語音、語言資料庫進行信號處理和知識挖掘,獲取語音識別系統所需要的「聲學模型」和「語言模型」;而識別過程通常是在線完成的,對用戶實時的語音進行自動識別。自動語音識別技術有三個基本原理:首先語音信號中的語言信息是按照短時幅度譜的時間變化模式來編碼;其次語音是可以閱讀的,即它的聲學信號可以在不考慮說話人試圖傳達的信息內容的情況下用數十個具有區別性的、離散的符號來表示;第三語音交互是一個認知過程,因而不能與語言的語法、語義和語用結構割裂開來。
第一步,把幀識別成狀態(難點)。
第二步,把狀態組合成音素。
第三步,把音素組合成單詞。
一般來說,一套完整的語音識別系統其工作過程分為7步:
①對語音信號進行分析和處理,除去冗餘信息。
②提取影響語音識別的關鍵信息和表達語言含義的特徵信息。
③緊扣特徵信息,用最小單元識別字詞。
④按照不同語言的各自語法,依照先後次序識別字詞。
⑤把前後意思當作輔助識別條件,有利於分析和識別。
⑥按照語義分析,給關鍵信息劃分段落,取出所識別出的字詞並連接起來,同時根據語句意思調整句子構成。
⑦結合語義,仔細分析上下文的相互聯繫,對當前正在處理的語句進行適當修正。
1.語境理解提供個性化回應:目前而言,市場上的智能助理大多缺乏語境理解。
2.語音區分:語音助理或將通過區分語音,提供更多個性化體驗。
3.不僅是手機:Amazon Alexa副總裁Steve Rabuchin表示:「我們希望客戶可以隨時隨地訪問Alexa,這意味著客戶可以通過語音遙控他們的汽車、冰箱、恆溫器、燈具以及家中內外的各種設備。「
4.搜索行為的變化:語音搜索一直是熱門話題。但語音的可見性將是巨大的挑戰。
5.語音通知:在移動應用營銷方面,語音智能也提出了新的挑戰-用戶參與度和維護度。
6.信息安全問題:隨著語音支付越來越方便,更多用戶選擇語音支付。支持智能語音的智能家居設備等也涉及大量用戶隱私和用戶習慣,其安全性也成為用戶關注的焦點。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴