什麼是自動語音識別?

2020-12-14 讀芯術

全文共2019字，預計學習時長6分鐘

來源：dy.163

Siri 、Alexa 等虛擬助手的出現，讓自動語音識別系統得到了更廣泛的運用與發展。

自動語音識別(ASR)是一種將口語轉換為文本的過程。該技術正在不斷應用於即時通訊應用程式、搜尋引擎、車載系統和家庭自動化中。

儘管所有這些系統都依賴於略有不同的技術流程，但這些所有系統的第一步都是相同的：捕獲語音數據並將其轉換為機器可讀的文本。

但 ASR 系統如何工作？它如何學會辨別語音？

本文將簡要介紹自動語音識別。我們將研究語音轉換成文本的過程、如何構建ASR 系統以及未來對ASR技術的期望。

那麼，我們開始吧！

ASR 系統：它們如何運作？

因此，從基礎層面來看，我們知道自動語音識別看起來如下：

音頻數據輸入，文本數據輸出。

但是，從輸入到輸出，音頻數據需要變成機器可讀的數據。這意味著數據通過聲學模型和語言模型進行發送。這兩個過程是這樣的：

聲學模型確定了語言中音頻信號和語音單位之間的關係，而語言模型將聲音與單詞及單詞序列進行匹配。

這兩個模型允許 ASR 系統對音頻輸入進行概率檢查，以預測其中的單詞和句子。然後，系統會選出具有最高置信度等級的預測。*

*有時語言模型可以優先考慮某些因其他因素而被認為更有可能的預測。

因此，如果通過 ASR 系統運行短語，它將執行以下操作：

· 進行聲音輸入：「嘿 Siri，現在幾點了？」

· 通過聲學模型運行語音數據，將其分解為語音部分。

· 通過語言模型運行該數據。

· 輸出文本數據：「嘿 Siri，現在幾點了？」

在這裡，值得一提的是，如果自動語音識別系統是語音用戶界面的一部分，則 ASR 模型將不是唯一在運行的機器學習模型。許多自動語音識別系統都與自然語言處理 (NLP) 和文本語音轉換 (TTS) 系統配合使用，以執行其給定的角色。

也就是說，深入研究語音用戶界面本身就是個完整的話題。要了解更多信息，請查看此文章。

那麼，現在知道了 ASR 系統如何運作，但需要構建什麼？

來源：sina

關鍵是數據。

建立 ASR 系統：數據的重要性

來源：pexels

優秀的 ASR 系統應該具有靈活性。它需要識別各種各樣的音頻輸入（語音樣本），並根據該數據做出準確的文本輸出，以便做出相應的反應。

為實現這一點，ASR 系統需要的數據是標記的語音樣本和轉錄形式。比這要複雜一些（例如，數據標記過程非常重要且經常被忽略），但為了讓大家明白，在此將其簡化。

ASR 系統需要大量的音頻數據。為什麼？因為語言很複雜。對同一件事有很多種講述方式，句子的意思會隨著單詞的位置和重點而改變。還考慮到世界上有很多不同的語言，在這些語言中，發音和單詞選擇可能會因地理位置和口音等因素而不同。

哦，別忘了語言也因年齡和性別而有所不同！

考慮到這一點，為 ASR系統提供的語音樣本越多，它在識別和分類新語音輸入方面越好。從各種各樣的聲音和環境中獲取的樣本越多，系統越能在這些環境中識別聲音。通過專門的微調和維護，自動語音識別系統將在使用過程中得到改進。

因此，從最基本的角度來看，數據越多越好。的確，目前進行的研究和優化較小數據集相關，但目前大多數模型仍需要大量數據才能發揮良好的性能。

幸運的是，得益於數據集存儲庫和專用的數據收集服務，音頻數據的收集變得越發簡單。這反過來又增加了技術發展的速度，那麼，接下來簡單了解一下，未來自動語音識別能在哪些方面大展身手。

ASR 技術的未來

來源：info.ad.hc360

ASR 技術已融身於社會。虛擬助手、車載系統和家庭自動化都讓日常生活更加便利，應用範圍也可能擴大。隨著越來越多的人接納這些服務，技術將進一步發展。

除上述示例之外，自動語音識別在各種有趣的領域和行業中都發揮著作用：

· 通訊：隨著全球手機的普及，ASR系統甚至可以為閱讀和寫作水平較低的社區提供信息、在線搜索和基於文本的服務。

· 改善可訪問性：通過提供對應用程式的免提訪問以及對電視、電影和商務會議的自動字幕，自動語音識別系統還能幫助傷殘人士。

· 軍事技術：在美國、法國和英國，軍事項目一直在測試和評估戰鬥機的 ASR 系統。這包括設置射頻、命令自動駕駛系統和控制飛行顯示等任務。

當然，這些只是 ASR 如何支持和改善生活的幾個例子，在下一個十年中，除了新穎的應用外，還可能會有更多的改善。

希望看完本文後，你能收穫 ASR 系統的工作原理、如何構建它們以及未來的期望。

如果你有任何評論或想法，歡迎積極踴躍留言喲~

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載，請後臺留言，遵守轉載規範

相關焦點

transcosmos上線運用語音識別和意圖識別算法的「電話自動受理服務」

儘管選擇在線聊天等非語音渠道進行諮詢的顧客不斷增加，但是電話、官網(PC)等傳統渠道的利用率依然居高不下。因此，為了降低電話受理業務的人工成本、提高業務受理效率，transcosmos開發了基於語音識別和意圖識別算法的「電話自動受理服務」。　　該服務平臺採用語音識別和意圖識別算法的語音對話引擎「BEDOREVoiceConversation」(＊1)。
語音識別技術概述

（Speech Recognition）是以語音為研究對象，通過語音信號處理和模式識別讓機器自動識別和理解人類的語音。除了傳統語音識別技術之外，基於深度學習的語音識別技術也逐漸發展起來。本文對廣義的自然語言處理應用領域之一的語音識別進行一次簡單的技術綜述。概述自動語音識別（Automatic Speech Recognition， ASR），也可以簡稱為語音識別。語音識別可以作為一種廣義的自然語言處理技術，是用於人與人、人與機器進行更順暢的交流的技術。
Nuance語音識別技術

語音識別概述本文引用地址：http://www.eepw.com.cn/article/268339.htm　　語音識別技術，Automatic Speech Recognition，簡稱ASR，是一種讓機器聽懂人類語言的技術。語言是人類進行信息交流的最主要、最長用、最直接的方式。
語音識別流程梳理

語音識別（speech recognition）技術，也被稱為自動語音識別（英語：Automatic Speech Recognition, ASR
語音識別的技術原理是什麼?

漢語一般直接用全部聲母和韻母作為音素集，另外漢語識別還分有調無調，不詳述。狀態：這裡理解成比音素更細緻的語音單位就行啦。通常把一個音素劃分成3個狀態。語音識別是怎麼工作的呢？實際上一點都不神秘，無非是：把幀識別成狀態（難點）。把狀態組合成音素。把音素組合成單詞。如下圖所示：
語音識別技術

什麼叫自然語音交互，為什麼喚醒詞都需要四個字以上，為什麼方言也能識別，喚醒詞和後面的語音識別有什麼區別，這期的內容給你精彩答案。看到了吧，這個就是比較失敗的語音識別的例子，這個沒有處理好的原因就是語音轉文字這裡就出了問題，把135識別成133去了，這裡的數字最容易識別錯誤，稍後看了下面的內容你就知道一個大概是什麼原因了。
語音識別技術的發展及難點分析

同時，語音識別在研究思路上也發生了重大變化，由傳統的基於標準模板匹配的技術思路開始轉向基於統計模型的技術思路。此外，業內有專家再次提出了將神經網絡技術引入語音識別問題的技術思路。上世紀90年代以後，在語音識別的系統框架方面並沒有什麼重大突破。但是，在語音識別技術的應用及產品化方面出現了很大的進展。
ASR(語音識別)評測學習

希望對測試小夥伴有所幫助~~(●—●)1、語音識別（Automatic Speech Recognition，ASR）語音識別，也被稱自動語音識別，所要解決的問題是讓機器能夠「聽懂」人類的語音，將語音中包含的文字信息「提取」出來，相當於給機器安裝上「耳朵」，使其具備「能聽」的功能。
語音識別基礎:(一)語音是什麼

1.1 大音希聲假設我們已經知道了聲音是什麼。我們可以找到很多描述聲音的詞語，如「抑揚頓挫」、「餘音繞梁」。當我們在腦海中搜刮這類詞語時，描述對象總繞不過這兩個：人的聲音和物的聲音。人的聲音，就是語音；物的聲音，多數想到的是音樂。這樣的選擇源於人的先驗預期：語音和音樂才最可能有意義，有意義的才去關注。
剪映app在哪怎麼添加字幕自動識別視頻中語音轉為字幕教程

剪映APP添加字幕的方法　　1、其實給視頻添加字幕的方法並不算複雜，而且「剪映」APP還為大家提供了自動識別字幕的功能，可以將視頻中的語音自動識別製作為字幕。　　3、素材導入完畢之後，我們需要點擊底端的「文本」按鈕，然後從喚起的列表裡使用自動識別字幕，或者手動添加文本作為字幕。
語音識別技術簡史

本篇文章將從技術和產業兩個角度來回顧一下語音識別發展的歷程和現狀，並分析一些未來趨勢，希望能幫助更多年輕技術人員了解語音行業，並能產生興趣投身於這個行業。語音識別，通常稱為自動語音識別，英文是Automatic Speech Recognition，縮寫為 ASR，主要是將人類語音中的詞彙內容轉換為計算機可讀的輸入，一般都是可以理解的文本內容，也有可能是二進位編碼或者字符序列。
語音識別 2019 指南

轉載聲明：本文轉載自【巧克力工廠的查理】微信搜索【巧克力工廠的查理】即可關注《A 2019 Guide for Automatic Speech Recognition》基於計算機的語音處理和識別被稱為語音識別
旺旺集團語音識別總機系統

這些日益突出的問題，迫切需要一種解決辦法，既能夠讓用戶能夠快速查詢分機號碼，而且公司的號碼本又能夠自動隨員工的流動而更新。　　在此背景下，上海基立訊信息科技有限公司為旺旺集團總部開發並安裝了「旺旺集團語音識別總機系統」。
深度神經網絡——中文語音識別

這個過程主要採用了 3 種技術，即自動語音識別（automatic speech recognition，ASR）、自然語言處理（natural language processing，NLP）和語音合成（speech synthesis，SS）。語音識別技術的目的是讓機器能聽懂人類的語音，是一個典型的交叉學科任務。2.
一文看懂語音識別

語音識別是什麼？他有什麼價值，以及他的技術原理是什麼？本文將解答大家對語音識別的常見疑問。語音識別技術（ASR）是什麼？機器要與人實現對話，那就需要實現三步：語音識別已經成為了一種很常見的技術，大家在日常生活中經常會用到：蘋果的用戶肯定都體驗過 Siri ，就是典型的語音識別微信裡有一個功能是」文字語音轉文字」，也利用了語音識別最近流行的智能音箱就是以語音識別為核心的產品
語音識別現狀與工程師必備技能

，在安靜環境、標準口音、常見詞彙上的語音識別率已經超過95%，完全達到了可用狀態，這也是當前語音識別比較火熱的原因。隨著技術的發展，現在口音、方言、噪聲等場景下的語音識別也達到了可用狀態，但是對於強噪聲、超遠場、強幹擾、多語種、大詞彙等場景下的語音識別還需要很大的提升。當然，多人語音識別和離線語音識別也是當前需要重點解決的問題。學術界探討了很多語音識別的技術趨勢，有兩個思路是非常值得關注的，一個是就是端到端的語音識別系統，另外一個就是G.E.
您好,語音識別了解一下(文末評論有獎)

語音識別也被稱為自動語音識別，其目標是將人類語音中的詞彙內容轉換為計算機可讀的輸入，例如按鍵、二進位編碼或者字符序列。簡單來講，即是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術，因此，常有人將其比作「機器的聽覺系統」。作為一門交叉學科，語音識別技術所涉及的領域十分廣泛，其中包括：信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。
玩人工智慧的你必須知道的語音識別技術原理

語音識別是以語音為研究對象，通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別是一門涉及面很廣的交叉學科，它與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都有非常密切的關係。
語音識別算法有哪些_語音識別特徵提取方法

語音識別算法有哪些_語音識別特徵提取方法網絡整理發表於 2020-04-01 09:24:49 　　語音識別算法有哪些　　本文列舉了幾種不同的語音識別算法
應用、算法、晶片,「三位一體」淺析語音識別

2017年9月，亞馬遜發布了多款Echo二代產品，相比一代在音質上有明顯的提升，且Echo Plus具備更加強大的家居控制功能，能夠自動搜索到附件的智能家居設備，並進行控制。在我國的語控電視、語控空調、語控照明等智能語控家電市場，科大訊飛、雲知聲、啟英泰倫做了深入布局。科大訊飛聯合京東發布叮咚音箱，並於2016年推出訊飛電視助理，打造智能家居領域的入口級應用。

什麼是自動語音識別?

相關焦點

transcosmos上線運用語音識別和意圖識別算法的「電話自動受理服務」

語音識別技術概述

Nuance語音識別技術

語音識別流程梳理

語音識別的技術原理是什麼?

語音識別技術

語音識別技術的發展及難點分析

ASR(語音識別)評測學習

語音識別基礎:(一)語音是什麼

剪映app在哪怎麼添加字幕 自動識別視頻中語音轉為字幕教程

語音識別技術簡史

語音識別 2019 指南

旺旺集團語音識別總機系統

深度神經網絡——中文語音識別

一文看懂語音識別

語音識別現狀與工程師必備技能

您好,語音識別了解一下(文末評論有獎)

玩人工智慧的你必須知道的語音識別技術原理

語音識別算法有哪些_語音識別特徵提取方法

應用、算法、晶片,「三位一體」淺析語音識別

剪映app在哪怎麼添加字幕自動識別視頻中語音轉為字幕教程