多模態深度學習:用深度學習的方式融合各種信息

2021-02-19 深度學習衝鴨



我們對世界的體驗是多模態的 —— 我們看到物體,聽到聲音,感覺到質地,聞到氣味,嘗到味道。模態是指某件事發生或經歷的方式,當一個研究問題包含多個模態時,它就具有多模態的特徵。為了讓人工智慧在理解我們周圍的世界方面取得進展,它需要能夠同時解釋這些多模態的信號。

例如,圖像通常與標籤和文本解釋相關聯,文本包含圖像,以更清楚地表達文章的中心思想。不同的模態具有非常不同的統計特性。


雖然結合不同的模態或信息類型來提高效果從直觀上看是一項很有吸引力的任務,但在實踐中,如何結合不同的噪聲水平和模態之間的衝突是一個挑戰。此外,模型對預測結果有不同的定量影響。在實踐中最常見的方法是將不同輸入的高級嵌入連接起來,然後應用softmax。

多模態深度學習的例子,其中使用不同類型的神經網絡提取特徵

這種方法的問題是,它將給予所有子網絡/模式同等的重要性,這在現實情況中是非常不可能的。

所有的模態對預測都有相同的貢獻


我們採用子網絡的加權組合,以便每個輸入模態可以對輸出預測有一個學習貢獻(Theta)。

我們的優化問題變成-

對每個子網絡給出Theta權值後的損失函數。

將權值附加到子網後預測輸出。


把所有的都用起來!

準確性和可解釋性

我們在兩個現實多模態數據集上得到了SOTA:

Multimodal Corpus of Sentiment Intensity(MOSI) 數據集 —— 有417個標註過的視頻,每毫秒標註的音頻特徵。共有2199個標註數據點,其中情緒強度定義為從strongly negative到strongly positive,線性尺度從- 3到+3。

模態包括:

1、文本

2、音頻

3、語言

每種模態對情緒預測的貢獻量

Transcription Start Site Prediction(TSS)數據集 —— Transcription是基因表達的第一步,在這一步中,特定的DNA片段被複製到RNA (mRNA)中。Transcription起始位點是transcription開始的位置。DNA片段的不同部分具有不同的特性,從而影響其存在。我們將TSS分為三個部分:

上遊DNA

下遊DNA

TSS位置

我們取得了前所未有的改善,比之前的最先進的結果3%。使用TATA box的下遊DNA區域對這一過程影響最大。



!重磅!【深度學習衝鴨技術交流二群】微信交流群已成立

額外贈送福利資源!南京大學《模式識別》PPT,2020最新版《神經網絡與深度學習》中文版pdf,李航老師《統計學習方法》(第2版)課件分享,周志華《機器學習》西瓜書手推筆記(V2.8)

獲取方式:申請進入群後點開群公告即可領取下載連結


投稿或交流學習,備註:暱稱-學校(公司)-方向,申請進入深度學習衝鴨技術交流群。
方向有很多:機器學習,深度學習,python,目標檢測、目標跟蹤、圖像分割、OCR、姿態估計、去噪、人臉檢測&識別等。

相關焦點

  • 使用深度學習融合各種來源的信息
    打開APP 使用深度學習融合各種來源的信息 AI公園 發表於 2021-01-08 14:40:35 導讀 使用深度學習融合各種來源的信息
  • 深度學習用於多模態語義學習簡述
    與傳統方法不同深度學習是通過將無監督逐層預訓練與有監督微調(fine-tuning)有機結合,實現端到端方式的特徵學習。其基本動機是構建多層網絡來學習隱含在數據內部的關係,從而使學習得到的特徵具有更強的表達力和泛化能力。在大規模數據上進行的實驗表明:通過深度學習得到的特徵表示在自然語言處理(詞向量學習)、知識圖譜構建、圖像分類和語音識別等領域表現出良好的性能。
  • 多模態深度學習綜述:網絡結構設計和模態融合方法匯總
    一、簡介從2010年開始,深度學習方法為語音識別,圖像識別和自然語言處理領域帶來了巨大的變革。這些領域中的任務都只涉及單模態的輸入,但是最近更多的應用都需要涉及到多種模態的智慧。多模態深度學習主要包含三個方面:多模態學習表徵,多模態信號融合以及多模態應用,而本文主要關注計算機視覺和自然語言處理的相關融合方法,包括網絡結構設計和模態融合方法(對於特定任務而言)。二、多模態融合辦法多模態融合是多模態研究中非常關鍵的研究點,它將抽取自不同模態的信息整合成一個穩定的多模態表徵。
  • 鄧力、何曉冬深度解讀:多模態智能未來的研究熱點
    這本特刊從五十多篇投稿中精選匯集了10篇高水平論文,涉及跨文本、圖像、視頻、語音等多模態的各種多元互補的深度學習算法。論文主要關注於結合文本和圖像的多模態任務,尤其是近年來一些側重數學模型和訓練方法的相關研究工作。論文主要選取了表徵學習、信息融合和具體應用三個角度來分析多模態視覺與語言信息處理領域的核心問題和應用場景,具體來說:學習輸入特徵的更好的表徵是深度學習的核心內容。
  • 北京大學提出RGB-D語義分割新網絡,多模態信息融合
    除了從視覺提示中利用各種上下文信息外,深度數據最近還被用作RGB數據的補充信息,從而提高了分割精度。深度數據通過為2D視覺信息提供3D幾何形狀,自然地補充了RGB信號,這對於照明的變化是穩定的,並有助於更好地區分各種對象。
  • ECCV2020 | 北京大學提出RGB-D語義分割新網絡,多模態信息融合
    除了從視覺提示中利用各種上下文信息外,深度數據最近還被用作RGB數據的補充信息,從而提高了分割精度。深度數據通過為2D視覺信息提供3D幾何形狀,自然地補充了RGB信號,這對於照明的變化是穩定的,並有助於更好地區分各種對象。
  • ECCV 2020 Oral | TCGM:基於資訊理論的半監督多模態學習框架
    論文連結:https://arxiv.org/abs/2007.06793比起僅僅利用單個模態的數據,融合多個模態的數據信息能夠訓練出更加準確且魯棒的分類器。比如,模型可以用X光圖片、臨床指標等數據來預測病人的身體情況。但是在實際中,多模態的精標註數據十分昂貴,往往只能在每個模態上獲取少量標註數據。
  • 深度學習如何學習直觀物理學
    作者利用多模態變分自動編碼器(Multimodal Variational Autoencoders,MVAE)來學習一個能夠編碼所有模態的共享潛在表示。作者進一步證明,這個嵌入空間可以編碼有關物體的關鍵信息,如形狀、顏色和相互作用力,這是對直觀物理進行推斷所必需的。動態交互的預測結果可以表示為一個自監督問題(Self-supervision problem),在給定框架下生成目標視覺和觸覺圖像。
  • 華為首次投資國內AI公司,多模態深度語義理解技術成競逐焦點?
    據被投企業官網介紹,成立於2015年的深思考人工智慧,是一家專注於類腦人工智慧與深度學習核心科技的AI公司。該公司最突出的技術是「多模態深度語義理解引擎(iDeepwise.ai)與人機互動技術」,該引擎技術可同時理解文本、視覺圖像等多模態非結構化數據背後的深度語義,其中以「長文本的機器閱讀理解技術、自由跨域的多輪人機對話技術、對多種模態信息的語義理解技術」三大技術,搶佔了市場的先發優勢。
  • 深度學習基於攝像頭和雷射雷達融合的3-D目標檢測
    與其他多視圖方法不同,裁剪的圖像特徵不直接饋送到檢測頭,而是被深度信息掩蓋以過濾掉3D邊框外的部分。圖像和BEV特徵的融合具有挑戰性,因為它們來自不同的視角。這裡引入了一種新檢測頭,不僅可以從融合層提供檢測結果,還可以從每個傳感器通道提供檢測結果。因此,可以用不同視圖標記的數據訓練目標檢測器,以避免特徵提取器的退化。
  • 多模態學習分析:通過多模態數據分析與接口實現學習的未來
    摘要基於項目的學習已進入一系列正式化和非正式化的學習環境。然而,系統地評估這些環境仍然是一項重大挑戰。傳統的評估側重於學習結果,似乎與基於項目的學習以過程為導向的目標不一致。多模態界面和多模態學習分析在評估開放性學習環境中的學習方面有很大的前景。
  • ACL 第一天:Tutorial鍾愛深度學習,唯一一個workshop關注女性群體|...
    早上的三個 tutorial 分別是自然語言處理於精準醫療的應用、多模式機器學習及深度學習於語義合成的研究;下午的三個 tutorial 則分別為深度學習在對話系統上的應用;深度學習在多詞表達與組合的研究、以及眾包問題的探討
  • 百度CTO王海峰:深度學習的核心東西是深度學習框架
    早期文字識別更多用規則,然後引入一些機器學習的技術,那時候一個文字識別過程很複雜,比如一個典型的OCR系統要分六步,從區域檢測、行分割、字分割等等處理下來才能識別出來一些文字。用了深度學習技術以後,縮減為兩步,一個檢測一個識別,當然依託的是大數據的技術。深度學習技術在OCR進一步的演進變成了端到端的識別系統,實現了多任務聯合訓練,端到端的聯合學習,包括特徵的互用和互補。
  • 談深度學習在情感分析中的應用
    撰稿:竹間智能自然語言與深度學習小組 情感計算在人機互動中的作用 在談論情感計算之前,先來說說情感本身在人類信息溝通中的意義。作為大腦運行資源的調配者,情感狀態的不同會導致大腦計算和分配資源的方式有巨大差異,思維執行路徑也會完全不同。另外,人類進化使其情感判斷的準確性不斷提高,不斷的正向反饋也使得我們越來越依賴用識別對方情感的方法來判斷其行為傾向,甚至已經成為自動運行的認知方式了。
  • 深度學習架構
    深度學習並非一種單一的方法,而是一類算法和拓撲結構,可用於解決多種問題。雖然深度學習的確不是什麼新事物,但它正呈現出爆炸性增長趨勢,原因在於深層神經網絡的交織和用 GPU 來加速其執行。此外,大數據也推動了這一增長。由於深度學習依賴於監督型學習算法(即用示例數據訓練神經網絡並基於成效予以賦分的算法),因而數據越多就越有利於構建相應的深度學習結構。
  • 鍾秉林:信息技術與教育教學深度融合是大勢所趨
    來源標題:鍾秉林:信息技術與教育教學深度融合是大勢所趨以「在線教育新常態——從學習革命到質量革命」為主題的2020中國國際遠程與繼續教育大會日前在北京召開。國務院學位委員會委員、國家教育諮詢委員會委員、國家教育考試指導委員會委員鍾秉林指出,信息技術與教育教學深度融合是大勢所趨,要主動適應信息科技創新帶來的教育形態和就業市場的變革。
  • 貝葉斯深度學習研究進展
    在真實環境下,由於隨機噪聲、信息缺失等因素,數據存在普遍的不確定性,例如,開放環境下的無人駕駛車輛在路測時會面臨路況、交通、行人等各種未知的隨機因素。在某些情況下,甚至會出現惡意的噪聲,例如,在一張圖片中加上少量的對抗噪聲,雖然人眼無法察覺視覺效果上的區別,但足以讓主流的深度神經網絡產生誤判[3]。
  • 深度學習的學習歷程
    作者 | mileistone來源 | https://zhuanlan.zhihu.com/p/34524772已獲作者授權,請勿二次轉載我剛入門深度學習的時候,看了各種深度學習相關的資料,花書、cs231n、neural networks and deep learning、cs224d等等。
  • 多任務學習與深度學習
    很早以前,腦科學研究人員一直試圖通過模擬這種方式,在計算機視覺方面取得成功,指導最近深度學習的興起,才有了一點點的突破。隨著神經網絡研究工作的進步和在單任務上面取得的卓越成果,使得研究人員也開始大力在多任務上面進行研究和學習。
  • 谷歌翻譯要大逆轉 深度融合學習功能
    (原標題:谷歌翻譯要大逆轉 深度融合學習功能) 【