深度學習用於多模態語義學習簡述

2020-12-27 我是天邊飄過一朵雲

網際網路用戶所創造的「內容」正在迅猛增長,從不同渠道湧現的文本、圖像和視頻等不同類型的媒體數據以及用戶信息更加緊密混合。它們正在以一種新的形式,更為形象綜合地表達語義、主題和事件。針對當前媒體數據呈現出的特點進行深入研究已成為學術熱點,多種類型媒體數據依賴共存,各種平臺和應用的數據來源廣泛,個體和群體參與數據產生的用戶交互史無前例。

谷歌的前任研究主管皮特·諾文(Perter Norvig)博士曾在2010年《自然》雜誌上發表文章《2020願景》(2020 Visions),指出今後10年(2010-2020),文本、圖像、視頻等數據以及用戶交互信息和各種傳感器信息將混合在一起,從搜索角度看,搜尋引擎對檢索結果進行的是內容綜合而非數據羅列,這也將是谷歌今後面臨的巨大挑戰。我國也同樣重視「跨媒體」研究,國家科技部於2011年11月啟動了973計劃項目「面向公共安全的跨媒體計算理論與方法」,對「跨媒體」的表達建模、語義學習、挖掘推理和搜索排序等核心問題開展了理論研究。目前,媒體計算需要重點解決的兩個難點是消除「異構鴻溝」和「語義鴻溝。

傳統的媒體計算研究方法主要從手工構建的底層特徵出發,利用機器學習方法填補異構鴻溝和語義鴻溝。與傳統方法不同深度學習是通過將無監督逐層預訓練與有監督微調(fine-tuning)有機結合,實現端到端方式的特徵學習。其基本動機是構建多層網絡來學習隱含在數據內部的關係,從而使學習得到的特徵具有更強的表達力和泛化能力。在大規模數據上進行的實驗表明:通過深度學習得到的特徵表示在自然語言處理(詞向量學習)、知識圖譜構建、圖像分類和語音識別等領域表現出良好的性能。例如谷歌研究組在2014年大規模視覺識別挑戰賽(ImageNet Large Scale Visual Recognition Challenge,ILSⅤRC)中採用改進的卷積神經網絡GoogLeNet,將圖像識別準確率提升到93.3%;基於區域的卷積神經網絡(Convolution Neural Network,CNN)在精細度語義理解上取得了顯著進展;通過利用具有長短時記憶(Long Short-Term Memory,LSTM)特點的循環神經網絡(recurrent neural network),學術界(史丹福大學、加州大學伯克利分校和多倫多大學等)以及工業界(谷歌、微軟和百度等)均開展了「自然語言描述圖像內容和圖文檢索等相關研究。

通常,在媒體語義理解過程中可獲取不同類型的媒體數據,如:新聞報導包含了文字和文字對應的圖像,視頻包含了視覺和聽覺信息。不同類型的媒體數據從不同側面反映了高層語義,因此多模態語義學習需要對不同模態的信息進行整合。1976年,麥格克(McGurk)等人驗證了人類對外界信息的認知是基於不同感官信息而形成的整體性理解,任何感官信息的缺乏或不準確,都將導致大腦對外界信息的理解產生偏差,這個現象被稱為「McGurk現象」。McGurk現象揭示了大腦在進行感知時,不同感官會被無意識地自動結合在一起對信息進行處理。更為重要的是,後繼的神經系統科學研究也表明,在大腦皮層的顳上溝和腦頂內溝等部位,不同感官信息的處理神經相互交融,人腦生理組織結構決定了其認知過程是對外界多種感官信息進行的融合處理。為了利用不同類型的媒體數據,傳統基於淺層模型的多模態語義學習大多採用前期融合或後期融合方法:前期融合是將不同媒體特徵混合在一起,在特徵級上進行融合處理;後期融合是對不同媒體特徵處理後,再通過線性加權等方法對結果進行融合。

由於深度學習具有通過逐層抽象來形成良好特徵的能力,因此可利用該方法來形成不同類型數據的聯合特徵表示。具體方法有深度典範相關分析(Deep Caconical Correlation Analysis,Deep CCA)、多模態深度學習以及多模態玻爾茲曼機等。這些方法的基本思路是通過不同的深層模型(如CNN或Autoencoder等)對不同類型數據進行逐層學習,將學習得到的結果進行合併,以得到多模態聯合特徵表示,最後要求多模態聯合特徵能有效重建原始不同類型數據或表達相關語義概念。為了得到更好的深層模型,一般在深層模型的最頂端設計反映不同類型數據相互耦合的損失函數(如要求不同類型數據學習得到的特徵相似等)來對模型進行優化反饋。

將深度學習應用於語義概念識別和理解時,有兩種方法:(1)將深度學習得到的特徵表示直接輸入給判別分類模型(如支持向量機等);(2)通過softmax函數或回歸函數對輸人數據、隱含層和輸出層(語義標籤)之間的概率分布進行建模,然後基於互信息熵最小或間隔距離最大等準則對模型進行優化。

有人的理論研究結果表明:在機器學習中,如果對模型本身的假設產生偏差,則會影響學習結果。因此,如何合理引入數據本身所具有的先驗知識和結構線索,來構造和微調深層模型使之更好地處理多模態數據,是一個亟待解決的問題。因此,一些研究開始在生成式深層模型或區別式深層模型中引入數據本身所具有的先驗結構,以提升特徵學習的泛化能力和區別能力。有人在卷積神經網絡輸出端引入層次化概念樹來促進關聯語義所具有的共享特徵的學習,有人通過非參貝葉斯假設來提高判別性語義特徵學習的靈活度。為了進一步學習圖像視覺對象和文本實體之間存在的組合語義,有人基於排序優化框架提出了多模態深度組合語義學習方法,不僅保持了多模態數據之間的局部相關性,也保持了其全局關聯性。

相關焦點

  • 深思考楊志明:多模態語義理解能推動人工智慧大規模落地|2019 WISE...
    深思考專注語義理解15年的時間,目前在多模態語義理解方面取得了一些進展,在智慧營銷、智能終端落地了相關技術。對於多模態語義理解的AI落地,他們又有怎樣的見解和經驗分享?以下是深思考CEO AI算法科學家楊志明的演講實錄,36氪編輯整理:各位大家上午好!我給大家分享一下我們深思考人工智慧在多模態深度語義理解這個領域我們的一些進展,以及對多模態深度語義理解落地的一些經驗。
  • 使用深度學習融合各種來源的信息
    打開APP 使用深度學習融合各種來源的信息 AI公園 發表於 2021-01-08 14:40:35 導讀 使用深度學習融合各種來源的信息
  • 深度學習行人重識別綜述與展望,TPAMI 2021 最新文章
    Closed-world 概括為大家常見的標註完整的有監督的行人重識別方法,Open-world 概括為多模態數據,端到端的行人檢索,無監督或半監督學習,噪聲標註和一些 Open-set 的其他場景。四種主要的Re-ID特徵學習方法全局特徵學習:利用全身的全局圖像來進行特徵學習,常見的改進思路有Attention 機制,多尺度融合等;局部特徵學習:利用局部圖像區域(行人部件或者簡單的垂直區域劃分)來進行特徵學習,並聚合生成最後的行人特徵表示;輔助特徵學習:利用一些輔助信息來增強特徵學習的效果,如語義信息(比如行人屬性等)、視角信息(行人在圖像中呈現的不同方位信息)、域信息(比如每一個攝像頭下的數據表示一類域
  • 光學精密工程 | 實例特徵深度鏈式學習全景分割網絡
    它以殘差網絡結合特徵金字塔(Panoptic Feature Pyramid Network,PFPN)作為網絡主幹,而後承接掩模結構用於生成實例掩模,實現分割功能。由於Mask RCNN結構與語義分割配合、融合關係的不同導致全景分割算法的差異。
  • 深度圖像識別ISDA-深層網絡的隱式語義數據擴增方法
    PGRednc本文提出了一種用於訓練深度圖像識別網絡的隱式語義數據擴增(ISDA)算法。ISDA 是高效的,因為它不需要訓練/推斷輔助網絡或顯式地生成額外的訓練樣本。我們的方法是由最近的工作所做的有趣的觀察所驅動的,這些觀察表明網絡中的深層特徵通常是線性化的[9,10]。
  • 一文探討可解釋深度學習技術在醫療圖像診斷中的應用
    本文重點關注可解釋深度學習方法在醫療圖像診斷中的應用。由於醫學圖像自有的特點,構建用於醫療圖像分析的可解釋深度學習模型與其它領域中的應用是不同的。本文依託於綜述性文章[1],首先回顧了可解釋性方法的主要分類以及可解釋深度學習在醫療圖像診斷領域中應用的主要方法。然後,結合三篇文章具體分析了可解釋深度學習模型在醫療圖像分析中的應用。
  • 人工智慧在醫學影像中的應用研究——超聲跨模態影像分析
    此後,多模態學習算法不斷發展,並逐漸細分為幾個研究方向,分別是多模態表示學習、模態轉換、模態對齊、多模態融合以及協同學習等。該模塊的輸入是來自主模態流的特徵,而輸出是權重熱圖,用於指導主模態和輔助模態的信息選擇,其結構示意圖如下: 實驗結果證明,該方法比傳統的多層特徵融合性能有進一步提升。 超聲多模態影像 超聲檢查有著無創、便捷、低成本的特點, 在我國是乳腺疾病的最基本且最重要的篩查手段,發揮著重要的臨床價值。
  • 環球網「報名大廳」:如何用深度學習做自然語言處理?安博特邀專家...
    機器學習(Machine Learning)是一門專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能的學科。深度學習(deep learning)是機器學習的分支,是一種以人工神經網絡為架構,對數據進行表徵學習的算法。
  • 「看不見」的圖深度學習=流形學習 2.0?
    編譯 | Mr Bear校對 | 青暮如今引領風潮的圖深度學習與曾經風靡一時的流形學習有何關係?請看本文娓娓道來。圖神經網絡利用關係的歸納偏置獲取以圖的形式存在的數據。然而,在很多情況下,我們並沒有現成的可用的圖。那麼,在這種情況下,是否還仍然還可以應用圖深度學習呢?
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍打破語言藩籬,重建巴別塔是人類的遠古夢想,如今全球化語境下,更是一種當務之急。如何做到多語言交流和跨語義理解,也是人工智慧的"聖杯"課題。然而,這些系統的構建往往依賴於海量數據,使用單一語言訓練而無法直接應用於多語言,這對於數據稀少的小語種(比如布列塔尼語、冰島語)無疑挑戰巨大。如何用一個單一的語言算法或模型,理解多種語言,搭建起交流的橋梁,正是ERNIE-M 的研究目標。當前,多語言語義理解的相關研究已經展開,主要是通過單一語言的語料分別學習不同語言的語義,再使用雙語語料對齊不同語言的語義。
  • 客服機器人中的深度語義技術與應用探索(附視頻+PPT)| 雷鋒網公開課
    這其中的關鍵便涉及到自然語言處理中的」深度語義技術「。針對這個問題,本期雷鋒網(公眾號:雷鋒網)硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解,在客服機器人領域的深度語義技術和應用探索。嘉賓介紹:
  • 百度研究院2021年十大科技趨勢預測:生物計算迎爆發、無監督學習...
    數字人、虛擬人將大批量出現,並在服務行業大放異彩   讓機器像人一樣具備理解和思考的能力,需要融合語言、語音、視覺等多模態的信息。結合知識圖譜和深度學習技術的知識增強的跨模態深度語義理解,讓AI具備持續學習的能力,像人一樣「活到老學到老」。   以此為基礎,結合3D建模、情緒識別、智能推薦等多種技術打造的數字人、虛擬人可以看、聽、說,還能與人自然交流。
  • 迪士尼研發深度語義面部模型,讓表情更豐富
    近期,迪士尼和麻省理工學院的研究人員合作研發了一種基於深度神經網絡的語義面部模型,用於快速製造多個具有細節特徵的人物頭像,該論文《深度語義面部模型(Semantic Deep Face Models)》發表至3D視覺國際會議。
  • 入選AAAI 2020,全新視頻語義分割和光流聯合學習算法問世
    打破現有方法局限現有的視頻語義分割方法,是利用前後幀的語義信息預測運動軌跡來分割,這種方法面臨兩大挑戰:準確率低。商湯在研究中改進了這些不足,提出了一個光流和語義分割聯合學習的框架。本文的方法使用Temporal consistent constraint(時序一致性約束)為多幀的特徵之間添加隱式約束,在不增加耗時的前提下利用更多數據學習到更魯棒的特徵。
  • 機器人懂點「常識」,找東西快多了:CMU打造新型語義導航機器人
    採用Mask RCNN訓練探索策略如下圖所示,策略的實現被分成了三步:學習、訓練、測試。首先,採用Mask RCNN對圖像從上至下進行目標預測,用於訓練探索策略,後者負責生成目標檢測和場景分割所需的訓練數據。對訓練數據進行標記後,數據會被用於微調和評估目標檢測及場景分割的效果。
  • AAAI 2020論文:商湯科技發布新視頻語義分割和光流聯合學習算法
    在這篇文章中,作者提出了一個新穎的光流和語義分割聯合學習方案。語義分割為光流和遮擋估計提供了更豐富的語義信息,而非遮擋的光流保證了語義分割的像素級別的時序一致性。作者提出的語義分割方案不僅可以利用視頻中的所有圖像幀,而且在測試階段不增加額外的計算量。
  • 資料| 神經網絡與深度學習(邱錫鵬)
    特別是最近這幾年,得益於數據的增多、計算能力的增強、學習算法的成熟以及應用場景的豐富,越來越多的人開始關注這個「嶄新」的研究領域:深度學習。深度學習以神經網絡為主要模型,一開始用來解決機器學習中的表示學習問題。但是由於其強大的能力,深度學習越來越多地用來解決一些通用人工智慧問題,比如推理、決策等。
  • 另闢蹊徑,中科院自動化所等首次用圖卷積網絡解決語義分割難題
    來自中科院自動化所和北京中醫藥大學的研究者另闢蹊徑,提出用圖卷積網絡解決語義分割問題。論文連結:https://arxiv.org/pdf/2001.00335.pdf使用深度學習執行語義分割在圖像像素分類方面取得了巨大進步。
  • 2020年深度學習發展大盤點及對2021年深度學習的未來展望|極客雲算
    深度學習框架作為AI底層工具,對個人而言是進入深度學習世界的一把鑰匙,掌握深度學習框架並不等於理解了深度學習,要在AI開發中有所作為,關鍵還是要真正理解框架背後的技術、實踐和生態。隨著近年來的人工智慧發展,2020年深度學習依然是發展最快的領域之一,直奔未來工作。其發展是多方面的,而且是多方位的。