智能語音機器人工作原理解析,淺談VAD技術

2021-01-08 靈聲機器人

如今智能語音設備或者機器人很多,如智慧型手機(例如Cortana,Siri,Ok Google,...),個人助理(例如Google Home,Amazon Echo,...),交互式語音應答(銀行,應答機, ......),語音機器人(電話機器人、客服機器人、電銷機器人,……),在生活中很常見,表現都讓人驚喜。同時他們工作原理也大致相同。

一般智能語音助理或語音機器人工作原理大致如下:

第一階段:語音到文本的過程。信號源→設備(捕獲音頻輸入)→增強音頻輸入→檢測語音→轉換為其他形式(如文本)

第二階段:響應過程。處理文本(如用NLP處理文本,識別意圖)→操作響應。

在檢測語音過程中,就包括分辨是否為語音信號,該過程會通過指定的頻率對模擬信號進行採樣,將模擬聲波轉換為數字數據。這一過程很重要,是否成功地識別語音。如果生成數字數據都是錯誤的,那麼後期的處理響應那肯定是錯的。這也是影響智能語音助理或語音機器人識別率的重要因素。

在這個過程,用於語音處理的技術是語音活性檢測 (Voice activity detection,VAD),目的是檢測語音信號是否存在。 VAD技術主要用於語音編碼和語音識別。它可以簡化語音處理,也可用於在音頻會話期間去除非語音片段:可以在IP電話應用中避免對靜音數據包的編碼和傳輸,節省計算時間和帶寬。

文本將與大家分享VAD技術,首先講兩個概念:

信噪比(縮寫為SNR或S / N)是科學和工程中使用的一種度量,它將所需信號的電平與背景噪聲電平進行比較。SNR定義為信號功率與噪聲功率之比,通常以分貝表示。比率高於1:1(大於0 dB)表示信號多於噪聲。

窗口,研究信號源,我們將其分成滑動窗口或僅窗口。

能量檢測器

能量檢測器對於高SNR信號是有效的,但是當SNR下降直到它在1以下變得無效時失去效率。它也不能將語音與諸如衝擊噪聲(將筆放在桌子上),打字,空調或任何噪聲之類的噪聲區分開來。比人聲更響亮或更響亮。

波形和頻譜分析

在波形和頻譜分析中,語音活動檢測利用語音的已知特徵。在該方法中應用VAD比基於能量的解決方案更加計算密集,但是能夠更好地檢測非平穩噪聲和低SNR場景中的噪聲。對於濁音音素,聲帶的振動產生諧波豐富的聲音,具有50到250 Hz之間的明顯音調。所有元音,但也有一些輔音,表現出這種諧波結構,因此是語音的特徵。代表諧波結構的特徵是語音的可靠指標。然而,單獨使用基於諧度或基於音調的特徵不能預期無聲語音部分(例如一些摩擦音)被檢測到。此外,音樂或其他諧波噪聲分量可能被誤解為語音。總的來說,對信號的倒譜的分析可以揭示信號能量的來源。同樣的,基於該共振峰結構,也是語音識別系統的重要特徵。人類聲道中的可變腔允許揚聲器形成不同的音素。強調諧振(或共振峰)頻率,導致頻譜包絡的特徵形狀。平滑很重要,在一個對話中,一個人只有50%的時間在說話,並且存在大量非活動幀。諸如[p] [t] [k] [b]之類的音是靜音,並且靜音部分可能不會被算法識別為語音,這將影響自動語音識別系統的性能。解決方案如下:要被視為語音,必須至少有3個連續的窗口標記語音(192ms)。它可以防止短暫的噪音被視為語音。要被認為是沉默,必須至少連續3個窗口標記為靜音。它可以防止過多的語音切入影響語音節奏。如果窗口被認為是語音,則前3個窗口和3個窗口被認為是語音。它可以防止在句子開頭和結尾丟失信息。基於統計分析

MFCC,FBANK,PLP是最常用的語音識別功能。有數學運算的連接,旨在通過保持最相關的數據來減少和壓縮信息的數量。

在「信號源→設備(捕獲音頻輸入)→增強音頻輸入→檢測語音」過程中,語音成功採樣識別為數字數據,是後期語言處理的前提,在檢測中文面臨更大挑戰,斷句、語氣、語調等因素直接影響識別率。

相關焦點

  • 智能語音助手的原理_預測智能語音助手的未來
    打開APP 智能語音助手的原理_預測智能語音助手的未來 發表於 2019-07-31 10:16:14    語音助手能和人類進行深度交談的背後,離不開自然語言處理(NLP)和自然語言生成(NLG)這兩種基礎技術。
  • 語音識別技術原理全面解析
    語音識別技術正逐步成為計算機信息處理技術中的關鍵技術,語音技術的應用已經成為一個具有競爭性的新興高技術產業。  1、語音識別的基本原理  語音識別系統本質上是一種模式識別系統,包括特徵提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:    未知語音經過話筒變換成電信號後加在識別系統的輸入端,首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,並抽取所需的特 徵,在此基礎上建立語音識別所需的模板。
  • 機器人的工作原理,非常詳細的解析!
    高級機器人會以更精巧的方式運用這一原理。機器人專家們將開發新的程序和傳感系統,以便製造出智能程度更高、感知能力更強的機器人。如今的機器人可以在各種環境中大展身手。較為簡單的移動型機器人使用紅外或超聲波傳感器來感知障礙物。
  • 智能語音技術中麥克風陣列的原理
    所以DingDong在嘈雜環境下,也能準確識別語音指令。  通過麥克風陣列波束形成進行語音增強示意圖  從20世紀60年代開始,Boll等研究者先後提出了針對使用一個麥克風的語音增強技術,稱為單通道語音增強。
  • 西寧送餐機器人的結構和工作原理
    西寧送餐機器人的結構和工作原理 ,「m3f03」 西寧送餐機器人的結構和工作原理甚至還有迎賓待客這種比較有挑戰性的功能。,綜合實力雄厚,具備多年大數據云計算智能語音研發背景,科研級系統研究經驗,並與中科院聲學所,科大訊飛,在語音及人工智慧領域有深度戰略合作。
  • 小靈靈智能語音機器人體驗評測報告
    之前一直有關注了一款人工智慧產品——小靈靈智能語音機器人。10月底終於買了一臺,廢話不多說了,直奔主題,我們來看看這個智能產品!外觀篇現在市面上的智能語音機器人都是一個圓筒的形狀,但是小靈靈智能語音機器人的形狀好像廣州「小蠻腰」的形狀,上半部分是種白色的材料
  • 聊天機器人的技術原理和未來的發展
    它是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智慧裡面有很多先進的技術,自然語言處理、語音識別、計算機視覺等,下面,我們首先來了解一下自然語言處理技術以及其典型應用。二、自然語言處理應用——聊天機器人自然語言處理(NLP)是計算機科學,人工智慧,語言學關注計算機和人類語言之間的相互作用的領域。核心技術有機器翻譯、聊天對話等,主要的應用有搜尋引擎、問答系統等。
  • 一文帶你全面熟悉智能語音之麥克風陣列技術的原理
    一文帶你全面熟悉智能語音之麥克風陣列技術的原理 佚名 發表於 2017-12-13 14:06:22  麥克風陣列(Microphone Array
  • 國內智能語音行業分析報告
    語音識別、圖像識別和機器人視覺、生物識別等目前最火熱的領域,主要解決的是感知智能的需求,就是使得人工智慧能夠感知周圍的世界,能夠「聽見」或者「看到」。自然語言理解、智能會話、智能決策、人機互動等技術更加側重的是認知智能的領域,解決「聽懂」、「看懂」,並且根據學習到的知識對人類的要求或者周圍的環境做出反應的能力。
  • 解密語音機器人四大核心技術,助900萬商家開啟「雲促銷」
    北京有限元科技自主研發的得助智能·曉得語音機器人,基於人工智慧、雲計算等技術,高效代替人工完成客戶篩選任務,將銷售從簡單重複的工作中解放出來,大幅降低人工成本、提升內部協作效率。相較於傳統電話機器人,曉得機器人具備產品推廣、意向客戶挖掘、聯動銷售跟進等多重優勢。
  • 掃地機器人工作原理是什麼
    它是將移動機器人技術和吸塵器技術有機地融合在一起,實現自主移動清掃地面垃圾的功能。家用智能掃地機器人大部分製造成扁園形,通過遙控器和機內電腦晶片自主操控,還可預約清掃。那麼問題來了,掃地機器人工作原理是什麼呢?
  • ZLG深度解析:語音識別技術
    語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發為大家介紹語音識別的方案及詳細設計過程。語言作為人類的一種基本交流方式,在數千年歷史中得到持續傳承。近年來,語音識別技術的不斷成熟,已廣泛應用於我們的生活當中。語音識別技術是如何讓機器「聽懂」人類語言?
  • 智能送餐機器人使用維護的注意事項
    他們的出現不僅可以代替人類做一些繁瑣的工作,今天我們就來介紹一下迎賓接待機器人的各種功能。實際上,在技術上,餐飲已經可以做更多的高端智慧機器人,例如在機器人手臂上增控為主體,這樣它就可以實現平板的功能,而不僅僅是只把盤子的運動帶到木偶上。
  • 機器人核心部件諧波減速機的結構以及工作原理解析
    打開APP 機器人核心部件諧波減速機的結構以及工作原理解析 佚名 發表於 2019-10-31 08:33:07 工業機器人廣泛應用於汽車製造
  • 幾次嘗試聊天機器人後,Facebook 也要開發智能語音助理
    Facebook 也在研發智能語音助理了。 據 CNBC,研發團隊由 Oculus 研究團隊負責人 Ira Snyder 領導,團隊在華盛頓州的雷特蒙市辦公,這裡也是 Oculus 的辦公地點。智能語音助理項目從 2018 年初就開始進行了。 CNBC 還援引知情人士消息稱,研發團隊一直在聯繫智能音箱供應鏈中的供應商。晚些時候,Facebook 向科技媒體 The Verge 確認了在研發智能語音助理的消息,說會用在公司開發的 AR、VR 產品上,如 Oculus 、Portal 視頻聊天硬體設備等。
  • 一起聊聊:「AI」智慧型電話營銷機器人的產品特徵
    產品特徵某品牌電話機器人:一款主動外呼的電話機器人,也就是常說的電銷系統。自然人聲應答,可以與用戶進行多輪預設場景的語音交流。在過程中實現客戶介紹產品,能夠一定程度上的代替人工坐席,成功完成外呼工作。產品功能智能語音交互;多線路輪詢;可是話術配置;數據畫像;智能插話/打斷;客戶管理;通話報告;真實語音;計劃外呼。
  • 矽基資訊 || 矽基智能語音硬核產品上線,智能交互平臺進入「樂高"模式
    矽基智能為什麼要把ASR、TTS和語音克隆作為獨立的AI服務?自成立以來矽基智能一直專注於AI智能交互技術的研發和商業應用,旗下的「矽語智能外呼機器人」、「矽語協呼機器人」、「矽語數字人」等產品,依賴核心架構平臺DUIX的支撐,在三年的商用過程中,系統經受住多個行業用戶的大規模商用的考驗,架構得到不斷完善,語音交互性能得到不斷訓練和提升,贏得市場和客戶的青睞。
  • 基於Julius的機器人語音識別系統構建
    語音識別技術的發展,使得這一理想得以實現,把語音識別技術與機器人控制技術相結合,正成為目前研究的熱點,不但具有較好的理論意義,而且有較大的實用價值。   語音識別技術應用於機器人系統大多是針對特定的環境,設計出語音命令來進行控制的。
  • FinTech時代商業銀行智能語音識別技術應用與發展
    3.語音識別技術原理  傳統語音識別技術的基本過程如圖1所示,主要包括如下內容。  二、智能語音識別技術在商業銀行中的應用  隨著語音識別技術與文本挖掘、自然語言處理等技術的不斷融合,在以商業銀行為代表的金融領域,語音識別技術呈現出巨大的應用價值潛力。
  • 智能大廳迎賓機器人
    隨著人們逐漸從資訊時代進入AI人工智慧時代,智能大廳迎賓機器人也經常出現在銀行、展會、酒店、活動甚至婚禮現場等公共場合。這種智能大廳迎賓機器人的出現不僅可升級服務,提升服務質量,還可代替人工從事繁瑣重複的工作,今天就著重介紹今甲智能大廳迎賓機器人各項功能。