深度學習用於多模態語義學習簡述

2020-12-24 我是天邊飄過一朵雲

網際網路用戶所創造的「內容」正在迅猛增長,從不同渠道湧現的文本、圖像和視頻等不同類型的媒體數據以及用戶信息更加緊密混合。它們正在以一種新的形式,更為形象綜合地表達語義、主題和事件。針對當前媒體數據呈現出的特點進行深入研究已成為學術熱點,多種類型媒體數據依賴共存,各種平臺和應用的數據來源廣泛,個體和群體參與數據產生的用戶交互史無前例。

谷歌的前任研究主管皮特·諾文(Perter Norvig)博士曾在2010年《自然》雜誌上發表文章《2020願景》(2020 Visions),指出今後10年(2010-2020),文本、圖像、視頻等數據以及用戶交互信息和各種傳感器信息將混合在一起,從搜索角度看,搜尋引擎對檢索結果進行的是內容綜合而非數據羅列,這也將是谷歌今後面臨的巨大挑戰。我國也同樣重視「跨媒體」研究,國家科技部於2011年11月啟動了973計劃項目「面向公共安全的跨媒體計算理論與方法」,對「跨媒體」的表達建模、語義學習、挖掘推理和搜索排序等核心問題開展了理論研究。目前,媒體計算需要重點解決的兩個難點是消除「異構鴻溝」和「語義鴻溝。

傳統的媒體計算研究方法主要從手工構建的底層特徵出發,利用機器學習方法填補異構鴻溝和語義鴻溝。與傳統方法不同深度學習是通過將無監督逐層預訓練與有監督微調(fine-tuning)有機結合,實現端到端方式的特徵學習。其基本動機是構建多層網絡來學習隱含在數據內部的關係,從而使學習得到的特徵具有更強的表達力和泛化能力。在大規模數據上進行的實驗表明:通過深度學習得到的特徵表示在自然語言處理(詞向量學習)、知識圖譜構建、圖像分類和語音識別等領域表現出良好的性能。例如谷歌研究組在2014年大規模視覺識別挑戰賽(ImageNet Large Scale Visual Recognition Challenge,ILSⅤRC)中採用改進的卷積神經網絡GoogLeNet,將圖像識別準確率提升到93.3%;基於區域的卷積神經網絡(Convolution Neural Network,CNN)在精細度語義理解上取得了顯著進展;通過利用具有長短時記憶(Long Short-Term Memory,LSTM)特點的循環神經網絡(recurrent neural network),學術界(史丹福大學、加州大學伯克利分校和多倫多大學等)以及工業界(谷歌、微軟和百度等)均開展了「自然語言描述圖像內容和圖文檢索等相關研究。

通常,在媒體語義理解過程中可獲取不同類型的媒體數據,如:新聞報導包含了文字和文字對應的圖像,視頻包含了視覺和聽覺信息。不同類型的媒體數據從不同側面反映了高層語義,因此多模態語義學習需要對不同模態的信息進行整合。1976年,麥格克(McGurk)等人驗證了人類對外界信息的認知是基於不同感官信息而形成的整體性理解,任何感官信息的缺乏或不準確,都將導致大腦對外界信息的理解產生偏差,這個現象被稱為「McGurk現象」。McGurk現象揭示了大腦在進行感知時,不同感官會被無意識地自動結合在一起對信息進行處理。更為重要的是,後繼的神經系統科學研究也表明,在大腦皮層的顳上溝和腦頂內溝等部位,不同感官信息的處理神經相互交融,人腦生理組織結構決定了其認知過程是對外界多種感官信息進行的融合處理。為了利用不同類型的媒體數據,傳統基於淺層模型的多模態語義學習大多採用前期融合或後期融合方法:前期融合是將不同媒體特徵混合在一起,在特徵級上進行融合處理;後期融合是對不同媒體特徵處理後,再通過線性加權等方法對結果進行融合。

由於深度學習具有通過逐層抽象來形成良好特徵的能力,因此可利用該方法來形成不同類型數據的聯合特徵表示。具體方法有深度典範相關分析(Deep Caconical Correlation Analysis,Deep CCA)、多模態深度學習以及多模態玻爾茲曼機等。這些方法的基本思路是通過不同的深層模型(如CNN或Autoencoder等)對不同類型數據進行逐層學習,將學習得到的結果進行合併,以得到多模態聯合特徵表示,最後要求多模態聯合特徵能有效重建原始不同類型數據或表達相關語義概念。為了得到更好的深層模型,一般在深層模型的最頂端設計反映不同類型數據相互耦合的損失函數(如要求不同類型數據學習得到的特徵相似等)來對模型進行優化反饋。

將深度學習應用於語義概念識別和理解時,有兩種方法:(1)將深度學習得到的特徵表示直接輸入給判別分類模型(如支持向量機等);(2)通過softmax函數或回歸函數對輸人數據、隱含層和輸出層(語義標籤)之間的概率分布進行建模,然後基於互信息熵最小或間隔距離最大等準則對模型進行優化。

有人的理論研究結果表明:在機器學習中,如果對模型本身的假設產生偏差,則會影響學習結果。因此,如何合理引入數據本身所具有的先驗知識和結構線索,來構造和微調深層模型使之更好地處理多模態數據,是一個亟待解決的問題。因此,一些研究開始在生成式深層模型或區別式深層模型中引入數據本身所具有的先驗結構,以提升特徵學習的泛化能力和區別能力。有人在卷積神經網絡輸出端引入層次化概念樹來促進關聯語義所具有的共享特徵的學習,有人通過非參貝葉斯假設來提高判別性語義特徵學習的靈活度。為了進一步學習圖像視覺對象和文本實體之間存在的組合語義,有人基於排序優化框架提出了多模態深度組合語義學習方法,不僅保持了多模態數據之間的局部相關性,也保持了其全局關聯性。

相關焦點

  • 多模態深度學習:用深度學習的方式融合各種信息
    我們對世界的體驗是多模態的 —— 我們看到物體,聽到聲音,感覺到質地,聞到氣味,嘗到味道。模態是指某件事發生或經歷的方式,當一個研究問題包含多個模態時,它就具有多模態的特徵。為了讓人工智慧在理解我們周圍的世界方面取得進展,它需要能夠同時解釋這些多模態的信號。
  • 多模態深度學習綜述:網絡結構設計和模態融合方法匯總
    一、簡介從2010年開始,深度學習方法為語音識別,圖像識別和自然語言處理領域帶來了巨大的變革。這些領域中的任務都只涉及單模態的輸入,但是最近更多的應用都需要涉及到多種模態的智慧。多模態深度學習主要包含三個方面:多模態學習表徵,多模態信號融合以及多模態應用,而本文主要關注計算機視覺和自然語言處理的相關融合方法,包括網絡結構設計和模態融合方法(對於特定任務而言)。二、多模態融合辦法多模態融合是多模態研究中非常關鍵的研究點,它將抽取自不同模態的信息整合成一個穩定的多模態表徵。
  • 華為首次投資國內AI公司,多模態深度語義理解技術成競逐焦點?
    據被投企業官網介紹,成立於2015年的深思考人工智慧,是一家專注於類腦人工智慧與深度學習核心科技的AI公司。該公司最突出的技術是「多模態深度語義理解引擎(iDeepwise.ai)與人機互動技術」,該引擎技術可同時理解文本、視覺圖像等多模態非結構化數據背後的深度語義,其中以「長文本的機器閱讀理解技術、自由跨域的多輪人機對話技術、對多種模態信息的語義理解技術」三大技術,搶佔了市場的先發優勢。
  • 多模態學習分析:通過多模態數據分析與接口實現學習的未來
    摘要基於項目的學習已進入一系列正式化和非正式化的學習環境。然而,系統地評估這些環境仍然是一項重大挑戰。傳統的評估側重於學習結果,似乎與基於項目的學習以過程為導向的目標不一致。多模態界面和多模態學習分析在評估開放性學習環境中的學習方面有很大的前景。
  • 北京大學提出RGB-D語義分割新網絡,多模態信息融合
    儘管在RGB語義分割方面已經取得了重大進展,但是直接將互補深度數據輸入到現有的RGB語義分割框架中或僅將兩種模態簡單地集成在一起可能會導致性能下降。將兩種數據更好地融合關鍵挑戰在於兩個方面:(1)RGB和深度模態之間的顯著變化。
  • ECCV2020 | 北京大學提出RGB-D語義分割新網絡,多模態信息融合
    儘管在RGB語義分割方面已經取得了重大進展,但是直接將互補深度數據輸入到現有的RGB語義分割框架中或僅將兩種模態簡單地集成在一起可能會導致性能下降。將兩種數據更好地融合關鍵挑戰在於兩個方面:(1)RGB和深度模態之間的顯著變化。
  • 基於深度學習的語義分割綜述
    近年來,由於深度學習模型在視覺應用中的成功,已有大量的工作致力於利用深度學習模型開發圖像分割方法。本文全面回顧了撰寫本文時的文獻,涵蓋了語義和實例級分割的大量開創性工作,包括完全卷積像素標記網絡、編碼器-解碼器架構、多尺度和基於金字塔的方法、遞歸網絡,視覺attention模型,以及生成對抗模型。
  • 【ICCV2017論文技術解讀】阿里-基於層次化多模態LSTM的視覺語義聯合嵌入
    ICCV2017論文:《基於層次化多模態LSTM的視覺語義聯合嵌入》(Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding)近年來, 隨著深度學習技術的快速發展
  • 鄧力、何曉冬深度解讀:多模態智能未來的研究熱點
    作者 | 鄧力、何曉冬編輯 | 叢末基於深度學習的機器學習方法已經在語音、文本、圖像等單一模態領域取得了巨大的成功,而同時涉及到多種輸入模態的多模態機器學習研究有巨大的應用前景和廣泛的研究價值,成為了近年來的研究熱點。
  • 阿里iDST ICCV 2017錄用論文詳解:基於層次化多模態LSTM的視覺語義...
    阿里巴巴在今年的 ICCV 2017上有多篇論文入選。本文是阿里iDST與西安電子科大、西安交大等合作的 ICCV 2017 論文解讀《基於層次化多模態LSTM的視覺語義聯合嵌入》(Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding),雷鋒網AI科技評論做了不改動原意的編輯。
  • 語義分割的經典學習方法和深度學習方法綜述
    語義分割和實例分割之間的比較本文將探討一些使用經典和基於深度學習的方法來執行語義分割的方法。此外,還將討論常用的損失函數的選擇和應用。深度學習方法深度學習極大地簡化了執行語義分割的管道,並產生了令人印象深刻的質量結果。在本節中,我們將討論用於訓練這些深度學習方法的流行模型體系結構和損失函數。1.模型架構全卷積網絡(FCN)是用於語義分割的最簡單、最流行的架構之一。
  • 基於深度學習的語義分割技術講解
    由於所有的像素都要考慮到,因此語義圖像分割任務也被視為是稠密預測的一種。在此,要區別一下實例分割(具體可參考著名的MaskRCNN模型),實例分割常常與目標檢測系統相互結合,用於檢測和分割場景中同一對象的多個實例。基於深度學習的語義分割方法:用卷積神經網絡分類(全卷積網絡),與普通網絡不同的是,分類層是卷積層,普通網絡為全連接層。
  • 深思考楊志明:多模態語義理解能推動人工智慧大規模落地|2019 WISE...
    深思考專注語義理解15年的時間,目前在多模態語義理解方面取得了一些進展,在智慧營銷、智能終端落地了相關技術。對於多模態語義理解的AI落地,他們又有怎樣的見解和經驗分享?以下是深思考CEO AI算法科學家楊志明的演講實錄,36氪編輯整理:各位大家上午好!
  • UNIMO:百度提出統一模態學習方法,同時解決單模與多模任務
    由此,百度提出了一種綜合模態學習方法,可以同時使用大量文本和圖像的單模數據進行學習,利用圖形對的多模數據比較模態聯想,通過事前訓練獲得綜合語義表達。在各種理解和生成的下遊工作中,超過了ViLBERT、Oscar等多模式事前培訓模式和RoBERTa、UniLM等文本事前培訓模式。1.綜合模態學習方法。近年來,事前訓練技術在計算機視覺和自然語言處理領域備受關注。
  • 今日Paper | 模態平衡模型;組合語義分析;高表達性SQL查詢;多人...
    因此這篇論文鼓勵維護兩個模型,即僅圖像模型和圖像-歷史聯合模型,並將它們的互補能力結合起來以形成更平衡的多峰模型。這篇論文通過集成和共有參數的共識落差融合,提出了兩種方法用於這兩個模型的集成,並且在2019年視覺對話挑戰賽上取得了出色的成績。
  • CVPR2020論文解讀:三維語義分割3D Semantic Segmentation
    有許多多模態數據集,但大多數UDA方法都是單模態的。在這項工作中,我們探索如何從多模態學習,並提出跨模態UDA(xMUDA),其中我們假設存在二維圖像和三維點雲進行三維語義分割。這是一個挑戰,因為這兩個輸入空間是異構的,並且可能受到域移動的不同影響。在xMUDA中,模態通過相互模仿相互學習,脫離分割目標,防止強模態採用弱模態的錯誤預測。
  • CCCF專欄 | 自然語言處理中的深度學習:評析與展望
    人也不能解釋自己是如何進行感知和認知處理的,深度神經網絡未必能夠解釋自己的決策過程。深度學習用於自然語言處理自然語言處理的問題從機器學習的角度可以歸結為五大類,分別是分類、匹配、轉換、結構預測、序列決策過程,如表1所示。深度學習使這五大類任務的正確率都有很大提升,特別是匹配和轉換[5]。我們還不知道人是如何進行語言處理的。
  • Pytorch深度學習實戰教程(一):語義分割基礎與環境搭建
    三、數據集常見的語義分割算法屬於有監督學習,因此標註好的數據集必不可少。公開的語義分割數據集有很多,目前學術界主要有三個benchmark(數據集)用於模型訓練和測試。第一個常用的數據集是Pascal VOC系列。
  • 語言學運用、LSTM+DSSM算法、多模態情感交互
    隨著深度學習在自然語言處理中的運用,訓練數據的質量也成為了智能客服開發的關鍵。特別是服務於金融、電商等垂直行業的智能客服,相關領域的對話訓練數據的質量直接決定了深度學習模型的訓練質量。深度學習的運用也成為區別新一代智能客服區與傳統以關鍵詞、模版為核心的問答機器人的關鍵。   另一方面,客服知識庫是智能客服的核數據,它存儲了所有的問題和相應的答案。
  • 筆記 | 深入理解深度學習語義分割
    點上方藍字計算機視覺聯盟獲取更多乾貨作者:王博Kings、Sophia本文內容概述王博Kings最近的語義分割學習筆記總結引言:最近自動駕駛項目需要學習一些語義分割的內容,所以看了看論文和視頻做了一個簡單的總結。