網際網路用戶所創造的「內容」正在迅猛增長,從不同渠道湧現的文本、圖像和視頻等不同類型的媒體數據以及用戶信息更加緊密混合。它們正在以一種新的形式,更為形象綜合地表達語義、主題和事件。針對當前媒體數據呈現出的特點進行深入研究已成為學術熱點,多種類型媒體數據依賴共存,各種平臺和應用的數據來源廣泛,個體和群體參與數據產生的用戶交互史無前例。
谷歌的前任研究主管皮特·諾文(Perter Norvig)博士曾在2010年《自然》雜誌上發表文章《2020願景》(2020 Visions),指出今後10年(2010-2020),文本、圖像、視頻等數據以及用戶交互信息和各種傳感器信息將混合在一起,從搜索角度看,搜尋引擎對檢索結果進行的是內容綜合而非數據羅列,這也將是谷歌今後面臨的巨大挑戰。我國也同樣重視「跨媒體」研究,國家科技部於2011年11月啟動了973計劃項目「面向公共安全的跨媒體計算理論與方法」,對「跨媒體」的表達建模、語義學習、挖掘推理和搜索排序等核心問題開展了理論研究。目前,媒體計算需要重點解決的兩個難點是消除「異構鴻溝」和「語義鴻溝。
傳統的媒體計算研究方法主要從手工構建的底層特徵出發,利用機器學習方法填補異構鴻溝和語義鴻溝。與傳統方法不同深度學習是通過將無監督逐層預訓練與有監督微調(fine-tuning)有機結合,實現端到端方式的特徵學習。其基本動機是構建多層網絡來學習隱含在數據內部的關係,從而使學習得到的特徵具有更強的表達力和泛化能力。在大規模數據上進行的實驗表明:通過深度學習得到的特徵表示在自然語言處理(詞向量學習)、知識圖譜構建、圖像分類和語音識別等領域表現出良好的性能。例如谷歌研究組在2014年大規模視覺識別挑戰賽(ImageNet Large Scale Visual Recognition Challenge,ILSⅤRC)中採用改進的卷積神經網絡GoogLeNet,將圖像識別準確率提升到93.3%;基於區域的卷積神經網絡(Convolution Neural Network,CNN)在精細度語義理解上取得了顯著進展;通過利用具有長短時記憶(Long Short-Term Memory,LSTM)特點的循環神經網絡(recurrent neural network),學術界(史丹福大學、加州大學伯克利分校和多倫多大學等)以及工業界(谷歌、微軟和百度等)均開展了「自然語言描述圖像內容和圖文檢索等相關研究。
通常,在媒體語義理解過程中可獲取不同類型的媒體數據,如:新聞報導包含了文字和文字對應的圖像,視頻包含了視覺和聽覺信息。不同類型的媒體數據從不同側面反映了高層語義,因此多模態語義學習需要對不同模態的信息進行整合。1976年,麥格克(McGurk)等人驗證了人類對外界信息的認知是基於不同感官信息而形成的整體性理解,任何感官信息的缺乏或不準確,都將導致大腦對外界信息的理解產生偏差,這個現象被稱為「McGurk現象」。McGurk現象揭示了大腦在進行感知時,不同感官會被無意識地自動結合在一起對信息進行處理。更為重要的是,後繼的神經系統科學研究也表明,在大腦皮層的顳上溝和腦頂內溝等部位,不同感官信息的處理神經相互交融,人腦生理組織結構決定了其認知過程是對外界多種感官信息進行的融合處理。為了利用不同類型的媒體數據,傳統基於淺層模型的多模態語義學習大多採用前期融合或後期融合方法:前期融合是將不同媒體特徵混合在一起,在特徵級上進行融合處理;後期融合是對不同媒體特徵處理後,再通過線性加權等方法對結果進行融合。
由於深度學習具有通過逐層抽象來形成良好特徵的能力,因此可利用該方法來形成不同類型數據的聯合特徵表示。具體方法有深度典範相關分析(Deep Caconical Correlation Analysis,Deep CCA)、多模態深度學習以及多模態玻爾茲曼機等。這些方法的基本思路是通過不同的深層模型(如CNN或Autoencoder等)對不同類型數據進行逐層學習,將學習得到的結果進行合併,以得到多模態聯合特徵表示,最後要求多模態聯合特徵能有效重建原始不同類型數據或表達相關語義概念。為了得到更好的深層模型,一般在深層模型的最頂端設計反映不同類型數據相互耦合的損失函數(如要求不同類型數據學習得到的特徵相似等)來對模型進行優化反饋。
將深度學習應用於語義概念識別和理解時,有兩種方法:(1)將深度學習得到的特徵表示直接輸入給判別分類模型(如支持向量機等);(2)通過softmax函數或回歸函數對輸人數據、隱含層和輸出層(語義標籤)之間的概率分布進行建模,然後基於互信息熵最小或間隔距離最大等準則對模型進行優化。
有人的理論研究結果表明:在機器學習中,如果對模型本身的假設產生偏差,則會影響學習結果。因此,如何合理引入數據本身所具有的先驗知識和結構線索,來構造和微調深層模型使之更好地處理多模態數據,是一個亟待解決的問題。因此,一些研究開始在生成式深層模型或區別式深層模型中引入數據本身所具有的先驗結構,以提升特徵學習的泛化能力和區別能力。有人在卷積神經網絡輸出端引入層次化概念樹來促進關聯語義所具有的共享特徵的學習,有人通過非參貝葉斯假設來提高判別性語義特徵學習的靈活度。為了進一步學習圖像視覺對象和文本實體之間存在的組合語義,有人基於排序優化框架提出了多模態深度組合語義學習方法,不僅保持了多模態數據之間的局部相關性,也保持了其全局關聯性。