淺談自然場景中的語音情感識別技術

2021-01-12 我是天邊飄過一朵雲

語音是人類最基本、最便捷的交流工具,承載了複雜信息的語音信號不僅可以反映語義內容,還能夠傳遞說話人內在的情感狀態。語音情感識別是 建立在對語音信號的產生機制深入研究與分析的基礎上,對語音中反映個人情感信息的一些特徵參數進行提取,並利用這些參數採用相應的模式識別方法確定語音情感狀態的技術。這是人機互動領域的一個重要研究方向。語音情感識別系統主要包括語言處理和情感處理兩個重要部分。語音處理是指對輸入的語音信號進行處理並提取語音情感特徵參數;情感處理是指對隱藏在語句中的情感信息進行識別。

語音情感識別本質上是一個典型的模式分類或回歸問題,因此模式識別領域中的諸多算法都曾用於語音情感識別,包括混合高斯模型、支持向量機和隱馬爾可夫模型等。雖然傳統機器學習算法取得不少進展,但由於資料庫的限制,以及這些方法對於大數據的擬合能力較弱,所以目前實現的情感認知水平離人們的期望還相距較遠。深度學習在近幾年蓬勃發展,各種不同的網絡結構和算法被相繼提出,並在包括情感識別在內的多個領域得到成熟應用。很大程度上,它們的成功歸結於深度神經網絡可以學到輸入數據的一個層次非線性特徵表示。常用的深度神經網絡模型有深度信念網絡、自動編碼器、深度神經網絡、卷積神經網絡、循環神經網 絡以及對抗網絡等。基於深度學習的情感識別方法 具有更強的非線性建模能力,在一定程度上提升了情感識別的性能。近年來,基於注意力機制和記憶模型的情感識別方法也得到了廣泛關注,這類方法能夠通過全局上下文信息自動學習不同幀對於情感 識別的重要性得到相匹配的權重係數,更加符合情 感感知的規律,進一步提高了語音情感識別的性能。雖然語音情感識別在近年來不斷取得突破,但是仍然存在著如下問題和挑戰:(1)語音情感數據匱乏,如何在低資源情況下提升語音情感識別的性能,是一個比較具有挑戰性的工作;(2)在人機互動過程中,情感表達往往具有時序性和個性化的特性,如何利用這些信息提升語音情感識別的性能,也是目前研究的熱點問題之一。

針對語音情感數據匱乏的問題,先前很多方法採用無監督學習來提取有效的語音情感特徵。無監督學習是指數據在沒有情感標籤的情況下,通過一些無監督學習算法自動去發現數據中的層次結構和內在分布,從而更好地對原有數據進行編碼,以期獲得對原有數據更好的模擬表徵。許多典型的無監督學習網絡被用來提取魯棒的深層次語音情感特徵,包括深度信念網絡、自編碼器、降噪編碼器、變分自編碼器和對抗自編碼器等。

深度信念網絡是一種概率生成的網絡模型,通過訓練其神經元間的權重,可以讓整個神經網絡按照最大概率來生成訓練數據。深度信念網絡的每一個隱含層都代表對輸入模式的一種中間表示。一個神經元代表輸入數據的一個特徵,神經元與神經元之間的連接關係表示這些特徵之間的聯繫,這些特徵和連接關係的總和構成了對輸入數據的一種抽象表示,採用這種方式把一個複雜的輸入模式簡單化,最終得到一個簡單的輸出。深度信念網絡是由多層的限制玻爾茲曼機堆疊而成。限制玻爾茲曼機有一個可視層和一個隱層,層間存在連接,但層內的單元間沒有連接。隱層單元被訓練去捕捉在可視層表現出來的高階數據的相關性。由於深度學習的優勢首先在深度信念網絡上體現出來,因此深度信念網絡也最早被用來提取有效的情感特徵。研究者將情感數據輸入到深度信念網絡的隱含層單元中訓練學習,並將音頻和視頻信號分別輸入到各自的隱含層中,組合其輸出到下一層,學習到最終的多模態情感特徵。

自動編碼器是一種非常典型的無監督神經網絡模型。它可以學習到輸入數據的隱含特徵,這個過程被稱為編碼。同時用學習到的新特徵可以重構出原始輸入數據,稱為解碼。從直觀上看,自動編碼器可以用於特徵降維,類似主成分分析,但是比主成分分析的性能更強,這是由於神經網絡模型可以提取更有效的特徵表示。許多研究者利用自動編碼器提取語音情感特徵,通過將語音情 感數據輸入到自編碼器中,利用重建損失函數進行訓練,目的是得到更低維度的編碼向量,去除冗餘信息,更好地對原始數據進行表徵。

相比於自編碼器,降噪自編碼器在輸入中加入了一定的噪聲,具有更強的噪聲魯棒性。研究者基於降噪編碼器構建了模型,強調獲得情感相關的特徵表示,去除情感無關的信息。模型的輸入為乾淨的語音,在加入噪聲後送到兩個隱藏層,一個表示中性無情感信息,另一個表示情感相關的信息,將二者融合起來得到重建的輸入。這個模型將情感信息從輸入信號中剝離出來,以獲得更好的特徵表示。

自編碼器的目的是生成中間隱層特徵向量,從而更好地重建輸入信號。另外一些更先進的算法是為了生成與輸入數據具有相同分布的數據,如變分自編碼器和對抗自編碼器。研究者對這些網絡結構進行了統一的分析,發現變分自編碼器和對抗自編碼器能取得比降噪編碼器更好的性能,主要原因是在特徵學習中,它們更強調對語音情感數據的內在結構進行建模。針對情感數據匱乏的問題,有研究者提出了基於無監督表徵學習的語音情感識別框架。具體而言,傳統方法採用無監督學習將其他領域的知識用於語音情感識別,從而緩解低資源的問題。

相關焦點

  • 場景AI時代來臨 情感識別技術已應用於反欺詐領域
    人工智慧技術的發展已經從技術實現層面向應用實施層面轉換,情感識別在各行業中的應用場景廣闊,該領域已經吸引包括微軟、谷歌、Facebook、Intel等世界巨頭及其他業內人士的高度關注。但礙於實際應用場景的複雜性和專業性,AI技術需要基於應用場景進行優化並配合其他技術形成「解決方案」才能實施,這對企業或機構在AI技術能力和目標應用領域的專業度兩方面都提出了很高要求。
  • 語音識別技術簡史
    但是,我們一般理解的語音識別其實都是狹義的語音轉文字的過程,簡稱語音轉文本識別( Speech To Text, STT )更合適,這樣就能與語音合成(Text To Speech, TTS )對應起來。語音識別是一項融合多學科知識的前沿技術,覆蓋了數學與統計學、聲學與語言學、計算機與人工智慧等基礎學科和前沿學科,是人機自然交互技術中的關鍵環節。
  • 排名 語音識別_語音識別技術排名 - CSDN
    經過半個世紀的發展,語音識別技術在2011年之後迎來了黃金髮展時期:前微軟研究院俞棟和鄧力研究員首次將DNN在大詞彙量語音識別上成功應用,基於神經網絡的語音識別技術迅速成為了研究和產業上的投入密集地,在工業界Google和國內的訊飛成為了最早上線基於DNN的語音識別系統的兩家公司。經過接近10年的發展,語音識別技術取得了空前的進步,在多個場景下已經達到了實用水平。
  • ZLG深度解析:語音識別技術
    語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發為大家介紹語音識別的方案及詳細設計過程。語言作為人類的一種基本交流方式,在數千年歷史中得到持續傳承。近年來,語音識別技術的不斷成熟,已廣泛應用於我們的生活當中。語音識別技術是如何讓機器「聽懂」人類語言?
  • 百度大腦產品上新&技術升級:圖像處理、智能寫作平臺、語音識別
    百度大腦一月一次的最新技術&產品盤點來了。在這裡,與百度大腦一起成長,見證 AI 的力量。您可以從 PC 端訪問百度 AI 開放平臺(ai.baidu.com)申請邀測,或使用最新產品。新開放 AI 技術能力語音識別語音識別極速版支持60秒內音頻使用 REST API 方式進行調用,簡單易用。
  • FinTech時代商業銀行智能語音識別技術應用與發展
    (3)現代語音識別系統開發應用階段  近些年,隨著大數據和深度學習技術的發展,深度學習方法逐漸被引入到語音識別系統中,相較於傳統的語音識別技術,識別性能獲得了顯著提升。  目前,市場上的語音識別系統大多基於深度神經網絡模型進行建模,大幅提升了各種應用場景下語音識別的準確度和可靠性,使語音識別技術進入了新的應用階段。
  • 智能語音識別技術入門系列(上)
    本系列文章開始,我們將一起探索自動識別、語言處理技術所包含的核心算法、模型及未來的發展趨勢。本篇文章我們主要討論語音識別的基本概念。並理解語音識別技術的流程。(一) 自動語音識別技術ASR自動語音識別,簡稱ASR。
  • 從不溫不火到炙手可熱:語音識別技術簡史
    但是,我們一般理解的語音識別其實都是狹義的語音轉文字的過程,簡稱語音轉文本識別( Speech To Text, STT )更合適,這樣就能與語音合成(Text To Speech, TTS )對應起來。語音識別是一項融合多學科知識的前沿技術,覆蓋了數學與統計學、聲學與語言學、計算機與人工智慧等基礎學科和前沿學科,是人機自然交互技術中的關鍵環節。
  • 靈雲語音合成:多種產品形態滿足各種應用場景需求
    近日,捷通華聲推出搭載最新引擎的靈雲語音合成技術,聲線細膩、情感豐富、語速真實。得益於核心引擎的深度學習化與高音質聲碼器,最新靈雲語音合成技術的合成效果得到全面提升。
  • 情感識別的國內外研究現狀之調研
    儘管韻律、音質、頻譜這三類特徵均對情感識別起到不同程度的貢獻,但是他們在不同語料下的作用不盡相同。通常頻譜類特徵在自然情感識別下較為魯棒,而韻律和音質類特徵在表演語料條件下較為魯棒,對情感識別結果貢獻較大。近年來,神經網絡提取優良特徵參數的能力越來越受到關注。深度語音情感特徵是基於語音信號或者頻譜圖,並通過語音情感識別相關任務學習到的深度特徵。
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    (百度語音首席架構師賈磊)  具體來說,多情感朗讀是指通過MEITRON技術,合成的語音可以注入不同的情感,韻律遷移是指同一個人的聲音可以講出不同風格的文本,音色轉換是指可以用少量語音就可以合成一個人的專屬音庫。
  • 這是一場革新:小鵬全場景語音交互體驗,真正自然,基於自研
    全場景語音」功能,在當時就讓我覺得非常驚豔。這些特性,其實就是「全場景語音」中的幾項基礎功能:連續對話:持續傾聽無須重複喚醒,每25秒最多達10語義打斷:語音對話中,有效指令可隨時打斷小P進行下一個步驟。語義拒識:小P傾聽時,不是對小P說的指令,小P不會執行。可見即可說:界面中出現的按鈕,都可以通過語音控制小P來點擊。雙音區鎖定:主駕語音喚醒只聽主駕、副駕說話不識別,反之亦然。
  • 語音識別的痛點在哪,從交互到精準識別如何做? | 雷鋒網公開課
    、語音合成、聲紋、喚醒等多項產品研發,同時負責人機互動解決方案AIUI的開發,致力於把核心技術更好的產品化,使人與機器的交流像人與人之間一樣簡單,自然。AIUI是把麥克風陣列、前端聲學處理、語音喚醒、端點檢測、語音識別、語義理解、語音合成等技術在整個交互鏈上進行深度融合的系統。而且AIUI還支持了全雙工、多輪交互等新特性,並在單點技術上進行突破和演進,包括聲源定位與追蹤、持續在線,有效人聲智能檢測、基於用戶意圖的動態語音端點檢測、支持上下文交互的語義理解、基於對話場景自適應的語音識別等。
  • 百度智能語音交互技術重磅迭代
    他表示,百度語音交互技術持續迭代升級,已發展成為基於深度學習技術的端到端的語音識別和語音合成技術。在語音識別層面,百度推出端到端信號聲學一體化建模的技術,語音合成方面,最新的Meitron和單人千面合成個性化技術亮相。同時交出了百度語音技術最新成績單:日均調用量超過155億次,廣泛應用在移動端、智能家居、和語音IoT等場景,智能語音產業化成果豐碩。
  • 語音識別技術原理全面解析
    語音識別技術正逐步成為計算機信息處理技術中的關鍵技術,語音技術的應用已經成為一個具有競爭性的新興高技術產業。而計算機在識別過程中要根據語音識別的模型,將計算機中存放的語音模板與輸入的語音信號的特徵進行比較,根據一定 的搜索和匹配策略,找出一系列最優的與輸入語音匹配的模板。然後根據此模板的定義,通過查表就可以給出計算機的識別結果。顯然,這種最優的結果與特徵的選 擇、語音模型的好壞、模板是否準確都有直接的關係。
  • 語音識別原理及其語音識別系統分類
    一、語音識別原理語言交流是人類一種天然的溝通模式。從兒童時代開始我們對語言的相關學習都是自發的,語言交流始終貫穿於我們的生活。它是那麼的自然以至於我們根本沒有發現這是一種多麼複雜的現象。人類希望能與機器進一步溝通,從而方便生產與生活,而在語音信號的傳輸過程中,我們不規則的語言行為方式會被背景噪聲和回聲,以及電特性(如話筒等電子設備)進一步扭曲。這一切可變性的聲音來源語音識別更加繁瑣複雜。
  • 指紋人臉語音,生物識別技術大對比
    而第三種生物識別技術帶來的是人與行為之間的驗證環,還有另一個好處就是方便。 了解了生物技術後,還要摘掉影響最終用戶體驗的三點因素: 1)硬體產品質量是圖像輸入質量的關鍵因素 2)生物識別算法決定了生物識別驗證的結果,同時也是速度和性能的重要影響因素 3)實用性 生物識別技術都有各自優勢和限制,現階段指紋是應用最為廣泛和成熟的一種技術,也是生物識別應用的起點。
  • 語音識別在生活中的七個經典應用
    語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。 語音識別技術主要包括特徵提取技術、模式匹配準則及模型訓練技術三個方面。
  • 智能語音機器人工作原理解析,淺談VAD技術
    在檢測語音過程中,就包括分辨是否為語音信號,該過程會通過指定的頻率對模擬信號進行採樣,將模擬聲波轉換為數字數據。這一過程很重要,是否成功地識別語音。如果生成數字數據都是錯誤的,那麼後期的處理響應那肯定是錯的。這也是影響智能語音助理或語音機器人識別率的重要因素。
  • 揭秘語音識別背後的技術,GPU集群+DNN算法
    智能語音目前主要依靠深度學習的技術實現,作為機器學習的一個重要分支,深度學習在於建立、模擬人腦進行分析學習的神經網絡,使得機器能從大量歷史數據中學習規律,從而對新的樣本做智能識別或對未來做預測,以達到具有人類一樣的思考能力