語音是人類最基本、最便捷的交流工具,承載了複雜信息的語音信號不僅可以反映語義內容,還能夠傳遞說話人內在的情感狀態。語音情感識別是 建立在對語音信號的產生機制深入研究與分析的基礎上,對語音中反映個人情感信息的一些特徵參數進行提取,並利用這些參數採用相應的模式識別方法確定語音情感狀態的技術。這是人機互動領域的一個重要研究方向。語音情感識別系統主要包括語言處理和情感處理兩個重要部分。語音處理是指對輸入的語音信號進行處理並提取語音情感特徵參數;情感處理是指對隱藏在語句中的情感信息進行識別。
語音情感識別本質上是一個典型的模式分類或回歸問題,因此模式識別領域中的諸多算法都曾用於語音情感識別,包括混合高斯模型、支持向量機和隱馬爾可夫模型等。雖然傳統機器學習算法取得不少進展,但由於資料庫的限制,以及這些方法對於大數據的擬合能力較弱,所以目前實現的情感認知水平離人們的期望還相距較遠。深度學習在近幾年蓬勃發展,各種不同的網絡結構和算法被相繼提出,並在包括情感識別在內的多個領域得到成熟應用。很大程度上,它們的成功歸結於深度神經網絡可以學到輸入數據的一個層次非線性特徵表示。常用的深度神經網絡模型有深度信念網絡、自動編碼器、深度神經網絡、卷積神經網絡、循環神經網 絡以及對抗網絡等。基於深度學習的情感識別方法 具有更強的非線性建模能力,在一定程度上提升了情感識別的性能。近年來,基於注意力機制和記憶模型的情感識別方法也得到了廣泛關注,這類方法能夠通過全局上下文信息自動學習不同幀對於情感 識別的重要性得到相匹配的權重係數,更加符合情 感感知的規律,進一步提高了語音情感識別的性能。雖然語音情感識別在近年來不斷取得突破,但是仍然存在著如下問題和挑戰:(1)語音情感數據匱乏,如何在低資源情況下提升語音情感識別的性能,是一個比較具有挑戰性的工作;(2)在人機互動過程中,情感表達往往具有時序性和個性化的特性,如何利用這些信息提升語音情感識別的性能,也是目前研究的熱點問題之一。
針對語音情感數據匱乏的問題,先前很多方法採用無監督學習來提取有效的語音情感特徵。無監督學習是指數據在沒有情感標籤的情況下,通過一些無監督學習算法自動去發現數據中的層次結構和內在分布,從而更好地對原有數據進行編碼,以期獲得對原有數據更好的模擬表徵。許多典型的無監督學習網絡被用來提取魯棒的深層次語音情感特徵,包括深度信念網絡、自編碼器、降噪編碼器、變分自編碼器和對抗自編碼器等。
深度信念網絡是一種概率生成的網絡模型,通過訓練其神經元間的權重,可以讓整個神經網絡按照最大概率來生成訓練數據。深度信念網絡的每一個隱含層都代表對輸入模式的一種中間表示。一個神經元代表輸入數據的一個特徵,神經元與神經元之間的連接關係表示這些特徵之間的聯繫,這些特徵和連接關係的總和構成了對輸入數據的一種抽象表示,採用這種方式把一個複雜的輸入模式簡單化,最終得到一個簡單的輸出。深度信念網絡是由多層的限制玻爾茲曼機堆疊而成。限制玻爾茲曼機有一個可視層和一個隱層,層間存在連接,但層內的單元間沒有連接。隱層單元被訓練去捕捉在可視層表現出來的高階數據的相關性。由於深度學習的優勢首先在深度信念網絡上體現出來,因此深度信念網絡也最早被用來提取有效的情感特徵。研究者將情感數據輸入到深度信念網絡的隱含層單元中訓練學習,並將音頻和視頻信號分別輸入到各自的隱含層中,組合其輸出到下一層,學習到最終的多模態情感特徵。
自動編碼器是一種非常典型的無監督神經網絡模型。它可以學習到輸入數據的隱含特徵,這個過程被稱為編碼。同時用學習到的新特徵可以重構出原始輸入數據,稱為解碼。從直觀上看,自動編碼器可以用於特徵降維,類似主成分分析,但是比主成分分析的性能更強,這是由於神經網絡模型可以提取更有效的特徵表示。許多研究者利用自動編碼器提取語音情感特徵,通過將語音情 感數據輸入到自編碼器中,利用重建損失函數進行訓練,目的是得到更低維度的編碼向量,去除冗餘信息,更好地對原始數據進行表徵。
相比於自編碼器,降噪自編碼器在輸入中加入了一定的噪聲,具有更強的噪聲魯棒性。研究者基於降噪編碼器構建了模型,強調獲得情感相關的特徵表示,去除情感無關的信息。模型的輸入為乾淨的語音,在加入噪聲後送到兩個隱藏層,一個表示中性無情感信息,另一個表示情感相關的信息,將二者融合起來得到重建的輸入。這個模型將情感信息從輸入信號中剝離出來,以獲得更好的特徵表示。
自編碼器的目的是生成中間隱層特徵向量,從而更好地重建輸入信號。另外一些更先進的算法是為了生成與輸入數據具有相同分布的數據,如變分自編碼器和對抗自編碼器。研究者對這些網絡結構進行了統一的分析,發現變分自編碼器和對抗自編碼器能取得比降噪編碼器更好的性能,主要原因是在特徵學習中,它們更強調對語音情感數據的內在結構進行建模。針對情感數據匱乏的問題,有研究者提出了基於無監督表徵學習的語音情感識別框架。具體而言,傳統方法採用無監督學習將其他領域的知識用於語音情感識別,從而緩解低資源的問題。