人的情感狀態(如緊張、激動、恐慌、愉快、憤怒等)往往伴隨著人體的多個生理或行為特徵的變化,某些生理或行為特徵的變化也可能起因於多種情感狀態。由於情感特徵很複雜,難以準確描述一個人的情感狀態。目前,學術界關於情感的表示並沒有一個十分統一的認識,也沒有一個定性和定量的測量評價標準,其主要的表示方法可以分為離 散情感模型和維度情感模型兩大類。離散情感模型 將情感按照多種分類方法進行分類,可以將情感類別分為開心、悲傷、驚訝等;同時,可以由任何一個情感類別或多個情感類別的組合來描述。維度情感模型將不同的情感維度的組合對應不同的維度情感空間,每個情感維度應具有取值範圍,情感維度 數值可位於該取值範圍內的任意位置。任何情感都可以通過一組數值進行表示,這組數值代表了這個情感在維度情感空間中的位置。
情感識別的研究重點就是通過各類傳感器獲取 由人類情感引起的生理指標或者行為特徵發出的信號(例如語音、面部表情、手勢、姿態、腦電波、脈搏等),以建立可計算的情感模型。在具體的研究中,多模態(主要是音頻和視頻)情感識別往往備 受青睞,但如何抽取有效的特徵參數並運用恰當的模型來表達這些特徵參數和情感之間的關聯性,是亟待解決的一個關鍵問題。
關於情感語音的聲學特徵分析主要圍繞韻律、頻譜和音質特徵。研究者已經發現很多聲學特徵與情感狀態有關,如持續時間、語速、基音頻率、共振峰、強度、Mel頻率倒譜係數(MFCC)等。研究人員將它們表示為固定維數的特徵向量,其中的各個分量為各聲學參數的統計值,包括平均值、方差、最大或最小值、變化範圍等。儘管韻律、音質、頻譜這三類特徵均對情感識別起到不同程度的貢獻,但是他們在不同語料下的作用不盡相同。通常頻譜類特徵在自然情感識別下較為魯棒,而韻律和音質類特徵在表演語料條件下較為魯棒,對情感識別結果貢獻較大。近年來,神經網絡提取優良特徵參數的能力越來越受到關注。深度語音情感特徵是基於語音信號或者頻譜圖,並通過語音情感識別相關任務學習到的深度特徵。但是由於情感數據集的匱乏,目前應用比較廣泛的是通過語音事件檢測或者語音情感識別等任務,採用在大規模的訓練數 據學習到的深度語音特徵作為語音情感特徵,比如VGGish和wav2vec。
在視頻情感識別中,局部二值模式(Local Binary Pattern, LBP)、局部相位量化特徵(Local Phase Quantization, LPQ)、Gabor 特徵被廣泛應用於靜態圖像的情感識別工作中;時序信息為情感識別提供了關鍵信息,許多基於上述特徵的時空特徵, 如LBP-TOP(LBP from Three Orthogonal Planes)、 LPQ-TOP在基於視頻的情感識別中廣泛應用。計算機視覺中常用的方向梯度直方圖(Histogram of Oriented Gradient, HOG)描述子、尺度不變特徵變 換(Scale-Invariant Feature Transform,SIFT)描述子、詞袋模型(Bag of Words,BoW)和 Gist描述子均在情感識別工作中有所涉及。另一類是基於深度神經網絡的深度情感特徵。深度情感特徵避免了繁瑣的圖片預處理以及特徵提取,相較於傳統方法在情感識別相關任務上的表現更好,對光照、姿態、遮擋物等情感識別魯棒性更高。深度情感特徵主要從人臉情感識別數據集上訓練的模型中進行抽取,比如目前應用廣泛的深度特徵是從人臉情感識別數據集(比如 FER+)上訓練的VGGNet、DenseNet等神經網絡模型中抽取,並在主流的情感競賽中取得了不錯的結果。
多模態信息的分析方法有很多,從信息融合層次來看,多模態信息融合的方法主要有決策層融合和特徵層融合,也有一些學者將這兩個融合方式混合使用。決策層融合方式操作方便靈活,允許各個模態採用最適合的機器學習算法進行單獨建模。特徵層融合的通常做法是將各個通道的特徵相串聯,組合成一個長的特徵向量,然後再將該特徵向量放入機器學習算法進行分類或是回歸輸出。最新的認知神經科學表明,大腦在整合多感官信息時存在多階段融合的現象,受此啟發,研究者提出了多階段多模態情感融合方法。首先訓練一個單模態模型,然後將其隱含狀態與另一個模態特徵拼接再訓練雙模態模型,以此類推得到多模態模型。這種建模方法在每個階段只關注多模態信息的一個子集,然後綜合考慮所有模態信息得到預測結果。多模態情感融合的關鍵在於實現了跨模態之間的有效整合以獲得多模態信息的互補,從而比單模態情感識別具有更大的優勢。
情感是一個時序變化的行為,其演變都會經歷一定的時間,因此需要考慮情感信息的前後依賴性。傳統的動態模型如隱馬爾科夫模型和條件隨機場,由於其可以對時序上下文信息建模的內在屬性,取得了比靜態模型更好的識別性能。然而這些模型考慮的前後時序信息較短,因此取得的效果有限。基於深度學習的情感識別系統具有更強的非線性建模能力,在情感識別領域取得了廣泛應用;但是經典的基於卷積神經網絡(Convolutional Neural Networks,CNN)和長短期記憶網絡(Long Short-Term Memory,LSTM)的模型在建模過程中對於每一幀預測情感的貢獻度是相同的,這種假設存在著不合理性;針對這種問題引入注意力機制,通過全局上下文信息自動學習不同幀對於情感識別的重要性得到相匹配的權重係數,可以實現更有針對性的 情感建模,顯著提高情感識別的性能。
近年來,情感計算技術與美學的結合得到了廣泛的關注,目前廣受歡迎的智能體如微軟小冰、賢二機器僧等,能夠針對客戶進行適度的情感分析,並根據分析結果進行對話。這種情感分析的基礎就 是「情感計算」。麻省理工學院(MIT)計算機專家 羅莎琳·皮卡德(Rosalind Picard)提出,人們可以利用計算機強大的儲存、搜索和運算能力,來計算和分析與情感相關的外在表現,如面部表情、心跳 速率、皮膚溫度等生理特徵。除此之外,情感計算還可以分析藝術家在作品中留下的能體現情感的相 關痕跡,如色彩、形狀、線條、文本等。在分析過程中,需要藉助美學家、藝術理論家對藝術品和藝術家的情感分析,這就是美學參與到人工智慧研究的實例之一。同樣,情感計算也給美學家提供了一種思路,即藝術家在創作時的情感也許可以量化研究和分析。
情感識別計算在諸多領域得到了應用。在人機互動場景中(如微軟小冰),自動感知用戶的情感 狀態並做出相應的反應以提高對話質量;在智能客服領域,客戶的情感狀態變化可以反映出客服人員的服務質量,當檢測到客戶出現生氣等負向情緒時,可以切換到更有經驗的客服人員,節省了大量的人力和物力;在智能教育領域,通過分析教師的情緒 以及學生的上課狀態,能更加智能地提高教師的教學質量和學生的上課效率;在醫療領域,通過分析病人的情感和心理壓力的變化來檢測可能出現的一些心理和精神的異常點,可以為醫生做診斷提供輔助。