本文帶大家了解AI-語音處理理論與應用語音處理中的基礎知識及應用、掌握語音處理的基本步驟、掌握語音處理的主要技術、了解語音處理的難點與展望等知識點。
首先,先看一個語音小場景~
比如,如今在網絡上訂票可以通過語音進行交互;會分為這麼幾步:
1.客戶說:「我要訂一張從北京到杭州的機票。」
2.機器識別到語音輸入
3.通過語音識別的模塊,將語音轉換成語言,即轉換成文本「我要訂一張從北京到杭州的機票。」
4.對話管理模塊對文本進行理解,結合上下文,生成一個動作action,這個動作決定了機器到底是確定還是不確定;比如說你沒有說機票的時間,對話管理模塊就會根據這個情況生成一個動作比如說「時間不確定」
5.語音合成模塊接收到這個動作「時間不確定」,來生成人能理解的語言,比如說「請問您要定哪一天的機票?」這樣一個文本。
6.語音合成模塊接收到語言生成模塊生成的文本,通過語音的方式和人交互,通過語音合成技術將文本轉換成語音「請問您要訂哪一天的機票的?」返回給客戶
語音的小場景是跟傳統的GUI進行比對,傳統的GUI是通過界面化的方式來跟人進行交互,但是語音是通過VUI方式進行交互。
語音處理介紹
• 語音信號處理(Speech Signal Processing)簡稱語音處理,是用以研究語音發聲過程、語音信號統計特性、語音自動識別、機器合成以及語音感知等各種處理技術的總稱。
• 由於現代的語音處理技術都以數字計算為基礎,並藉助微處理器、信號處理器或通用計算機加以實現,因此也稱數字與因信號處理。
• 簡單來講,語音處理技術就是通過語音到它的某些特徵之間的轉換這個過程中所涉及到的一系列技術,這個特徵可以是數字特徵(頻率、時長)、文本特徵(代表的具體文字)
語音處理介紹
• 語音信號處理的研究起源於對對發音器官的模擬。
• 1939年美國H.杜德萊(H.Dudley)展出了一個簡單的發音過程模擬系統,以後發展為聲道的數字模型。利用該模型可以對語音信號進行各種頻譜及參數的分析,進行通信編碼或數據壓縮的研究,同時也可基於此合成語音信號,實現機器的語音合成。
• 語言信息主要包含在語音信號的參數之中,因此準確而迅速地提取語言信號的參數是進行語音信號處理的關鍵。
語音識別
• 語音識別技術就是讓機器通過識別和理解把語音信號轉變為相應的文本或命令的技術。
• 語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。
語音識別發展史
• 1952年,貝爾研究所研究成功了世界上第一個能識別10個英文數字發音的試驗系統;
• 1970年以後,在小詞彙和孤立詞的識別方面取得了實質性進展;
• 1980年以後,孤立詞轉向連接詞(識別一句話)識別;
• 1987年12月,李開復開發出世界上第一個「非特定人連續語音識別系統」,用統計方法提升了語音識別率;
• 1990年以後,大詞彙量連續語音識別得到優化;
• 1997年,IBM Viavoice首個語音聽寫產品問世;
• 2010年,Google Voive Action支持語音操作與搜索;
• 2011年初,微軟的DNN在語音搜索任務上取得成功,科大訊飛將DNN首次成功應用到中文語音識別領域;
• 2011年10月,蘋果iPhone 4S自帶的語音助手Siri一炮走紅;
• 2013年,Google發布Google Glass,蘋果發布iWatch都嵌入語音交互功能;
• 趨勢:
• 語音識別任務越來越複雜
• 用到的模型越來越複雜
• 技術從實驗室走入生活
語音識別任務處理流程
1.得到語音文件(mp3、wav……)
2.將語音文件進行還原
3.還原後進行預處理,滿足一定數據要求
4.通過聲學模型、分幀、聲學特徵提取得到語言模型、單詞、文本文件
5.對於現代的語音識別的任務來說,有些過程是合併在一起的,成為一個end-to-end的形式
語音識別的應用
• 語音打字機:說一句話快速翻譯出來;搜狗聽寫
• 語音搜索:購物網站購物可以通過語音搜索
• 語音撥號
• 語音助手
語音合成
• 語音合成,又稱文語轉換(Text-To-Speech TTS)技術,能將任意文字信息轉化為相應語音朗讀出來。
• 語音合成涉及聲學、語言學、數位訊號處理、計算機科學等多個學科技術,是中文信息處理領域的一項前沿技術。
• 為了合成出高質量的語言,除了依賴於各種規則,包括語義學規則、詞彙規則、語音學規則外,還必須對文字的內容有很好的理解,這也涉及到自然語言理解的問題。
語音合成應用場景
大部分都和語音識別相結合,語音識別通過人向機器傳輸信息,語音合成通過機器向人傳輸信息;比如:
• 服務機器人
• 客服系統
• 智慧家具
• 出行導航
• 閱讀軟體
語音合成系統
• 一個完整的語音合成系統過程是先將文字序列轉換成音韻序列,再由系統根據音韻序列生成語音波形。其中:
• 第一步涉及語言學處理,例如分詞、字音轉換等,以及一整套有效的音律控制規則;
• 第二步需要先進的語音合成技術,能按要求實時合成出高質量的語音流。
• 語音合成技術的研究已有兩百多年的歷史,但真正具有實用意義的近代語音合成技術是隨著計算機技術和數位訊號處理技術的發展而發展起來的,主要是讓計算機能夠產生高清晰度、高自然度的連續語音。
語音合成處理流程
1.拿到文本文件
2.對文本進行分析
文本歸一化:把縮寫的詞完整化
語音分析:分詞
韻律分析:這句話代表什麼情緒、代表什麼角色
3.語音內部表示
4.波形合成
5.形成完整的波形文件
6.對波形文件進行評估看是否滿足需求
文本分析
• 語音識別中的文本分析主要的工作是把文本數據轉換成語音內部表示(Phonemic Internal Representation)。具體內容包括:
• 文本歸一化:對形形色色的自然文本數據進行預處理或者歸一化,包括句子的詞例還原,非標準詞,同形異義詞排歧等;
• 語音分析:文本歸一化之後的下一步就是語音分析,具體方法包括通過大規模發音詞典,字位-音位轉換規則;
• 韻律分析:分析文本中的平仄格式和押韻規則,這裡主要包含三方面的內容,包括:韻律的機構,韻律的突顯度,音調。
語音合成方法
• 在語音合成技術的發展過程中,早期的研究主要是採用參數合成方法,後來隨著計算機技術的發展又出現了波形拼接的合成方法。
• 參數合成
• 在語音合成技術的發展中,早期的研究主要是採用參數合成方法。值得提及的是Holmes的並聯共振峰合成器(1973)和Klatt的串/並聯共振峰合成器(1980),只要精心調整參數,這兩個合成器都能合成出非常自然的語音。但準確提取共振峰參數比較困難,合成語音的音質難以達到實用要求。
• 波形拼接
• 自八十年代末期至今,語言合成技術又有了新的進展,特別是基音同步疊加(PSOLA)方法的提出(1990),使基於時域波形拼接方法合成的語音的音色和自然度大大提高,自然度比以前基於LPC方法或共振峰合成器的自然度要高,並且基於PSOLA方法的合成器結構簡單,易於實時實現,有很大的商用前景。
課程諮詢 :400-1024-400
歡迎添加,了解騰科課程體系介紹,可獲取學習資源。
官方微博:騰科教育官微
官網:www.tk-edu.com
全國統一熱線:400-1024-400