【一個深度學習模型解決所有問題】谷歌MultiModel通吃文本、圖像、翻譯

2021-03-06 新智元

來源： arXiv

作者：文強

【新智元導讀】我們能夠製作出一個統一的深度學習模型，讓這個模型解決多個領域的許多不同問題嗎？谷歌研究人員提出了一個多模式適用的架構 MultiModel，用單一的一個深度學習模型，學會文本、圖像和翻譯這些不同領域的 8 種不同任務，朝「一個模型解決所有問題」邁出了重要一步。

我們能夠製作出一個能解決多領域不同問題的統一深度學習模型嗎？

在深度學習研究領域，多任務適用模型（multi-task model）是一個由來已久的課題。

此前已經有研究表明，多模式適用學習（multi-modal learning）能夠在非監督學習中，提升習得的表徵，還能夠被當做先驗知識解決不相關的任務。

但是，還沒有人提出能夠在同一時間解決多個任務的多模式適用模型（competitive multi-task multi-modal model）。

今天，谷歌研究人員用他們上傳到 arXiv 網站的論文《用一個模型學會所有問題》（One Model to Learn Them All），朝解決這一任務邁出了積極的一步。

他們提出了一個多模型適用的架構 MultiModel，用單一的一個深度學習模型，學會各個不同領域的多種不同任務。

實驗結果，谷歌研究人員提出的模型在所有上述任務中都取得了良好的結果——雖然具體到一項任務，結果並不是當前最佳的。

MultiModel：1 個模型同時解決 8 個不同領域的問題

具體說，谷歌研究員同時在以下 8 個任務上訓練 MultiModel：

（1）WSJ 語料庫

（2）ImageNet 數據集

（3）COCO 圖說生成數據集

（4）WSJ 語義解析數據集

（5）WMT 英-德翻譯語料庫

（6）與（5）相反：德-英翻譯語料庫

（7）WMT 英-法翻譯語料庫

（8）與（7）相反：德-法翻譯語料庫

圖1：MulitModel 能夠完成不同領域不同任務。其中，紅色表示語言相關的任務，藍色表示分類相關的任務。

圖1 展示了從模型直接解碼得到的一些結果。從上圖可見，MultiModel 能夠生成述說、為圖像分類、完成從法語到德語的翻譯，並且構建語義分析樹。

表1 展示了模型在聯合訓練 8 個不同任務和分別單獨訓練時取得的不同結果。可見，聯合訓練的結果相比單獨會稍微低一些。

Modality Net：多模式適用模型的關鍵中間量

儘管 MultiModel 只是完成「統一模型」的第一步，谷歌研究人員表示，他們從這項工作中得出了兩大關鍵：

要使用不同類型的輸入數據訓練模型，需要一些子網絡，這些子網絡能將輸入轉化到聯合表徵空間上。這些子網絡被稱為 「模式網」（modality net），因為它們分別對應具體的模式（比如圖像、語音、文本），並決定了外部領域和統一表徵之間的轉變（transformation）。

論文作者設計讓 modality net 擁有以下特徵：①計算效率最高（computationally minimal），②促進 heavy 特徵提取，③確保主要的計算都發生在模型中與領域無關的地方。

由於模型是自回歸的，modality net 需要先轉變為輸入進入統一的表徵空間，之後再轉變為輸出。因此，作者表示，在設計上有兩個關鍵的地方：

MultiModel 由多個部分構成，比如不同的卷積層、注意力機制和混合專家層。每個部分此前都沒有在其他任務上訓練過。例如，卷積層此前沒有處理過文本或語音任務；混合專家層也沒有處理過圖像或語言相關的任務。

作者發現，每個單獨的模塊對於相應的任務而言都十分重要，比如注意力機制在解決與翻譯相關的任務時，遠比在處理圖像任務中重要。

MultiModel 架構：MultiModel 架構由幾個 modality net、1 個編碼器，1 個 I/O mixer，以及 1 個自回歸解碼器構成。其中，編碼器和解碼器都包含有卷積層、注意力機制和稀疏門控混合專家層這 3 種計算單元（block），因此能夠解決不同領域的多種問題。

但是，這個模塊的存在並不會損害整體的性能，比如存在注意力機制，並不會降低整個架構處理圖像任務的性能。

實際上，在實驗中，注意力機制和混合專家層都稍微提升了 MultiModel 在處理 ImageNet 數據集的性能——按理說，圖像任務並不怎麼用到注意力機制和混合專家層（見下）。

摘要

深度學習在語音識別、圖像分類、翻譯等多個領域取得了豐碩的成果。但是，對於每個問題，研發出一個能很好地解決問題的深度模型，需要對架構進行研究和長時間的調整。我們提出了一個單一的模型，在跨多個領域的許多問題上取得了良好的結果。需要指出，這單一的一個模型在 ImageNet、多語種翻譯任務、圖說生成（COCO 數據集）、語音識別語料庫和英語語義解析任務上，同時進行訓練。我們的模型架構來自多個域，包含卷積層、注意力機制和稀疏門控層。這些計算單元（block）中，每一個對於訓練任務的一小部分而言都至關重要。有趣的是，即使某個單元對某個任務而言並非必要，我們觀察到添加這個單元並不會影響整體性能，在大多數情況下，還能提高完成各項任務的性能。我們還表明，具有較少數據的任務主要受益於與其他任務的聯合訓練，而大規模任務的性能只會稍微降低。

MultiModel 的架構示意圖

論文地址：https://arxiv.org/pdf/1706.05137.pdf

相關焦點

用深度學習(CNN RNN Attention)解決大規模文本分類問題 - 綜述和...

近來在同時做一個應用深度學習解決淘寶商品的類目預測問題的項目，恰好碩士畢業時論文題目便是文本分類問題，趁此機會總結下文本分類領域特別是應用深度學習解決文本分類的相關的思路、做法和部分實踐的經驗。業務問題描述：淘寶商品的一個典型的例子見下圖，圖中商品的標題是「夏裝雪紡條紋短袖t恤女春半袖衣服夏天中長款大碼胖mm顯瘦上衣夏」。
谷歌地圖重大升級用深度學習實時更新街景-谷歌地圖,升級,深度...

上圖為同一標識的四種不同視角自然環境中的文本識別在計算機視覺和機器學習上是一個非常具有挑戰性的問題。傳統的光學字符識別（OCR）系統主要側重於從掃描的文檔中提取文本。在自然場景中由於視覺偽影，如失真、閉塞、定向模糊、雜亂的背景或不同的角度給提取文本提升了難度。谷歌從2008年開始致力於解決這一問題，使用神經網絡模糊了街景圖像中的臉和車牌，以保護谷歌用戶的隱私。
從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀

傳統的方法是將該問題分成兩步解決：設計或學習視覺特徵、以及預測。最近的深度唇讀方法是可以端到端訓練的（Wand et al., 2016; Chung & Zisserman, 2016a）。目前唇讀的準確度已經超過了人類。
詳解谷歌發布的跨領域通用模型MultiModel,這是要一統江湖啊!(附paper)

▍摘要深入學習在語言識別，圖像分類，翻譯等多個領域產生了巨大的成果。但是對於以上問題，讓深層次的模型能夠很好地涉及對架構的研究還需要長時間的調整。我們提出了一個單一的模型，在跨越多個領域的許多問題上產生了良好的結果。
深度學習應用於機器翻譯的魔力

但我們都知道，高中生一直在使用谷歌翻譯...嗯... 協助他們的西班牙語作業15年。這不是舊聞嗎？事實證明，在過去兩年中，深度學習完全改寫了我們的機器翻譯方法。對語言翻譯幾乎一無所知的深度學習研究人員正在將相對簡單的機器學習解決方案放在一起，這些解決方案擊敗了世界上最好的專家構建的語言翻譯系統。
阿里AI Labs王剛:谷歌一個模型解決所有問題是不現實的

王剛博士認為，谷歌的「一個模型解決所有的問題」是不現實的。他表示人工智慧新硬體和降低智能終端成本、生物認知啟發、量子力學和量子計算機與深度學習的結合是個人感興趣的方向，除了最後一項，其他都是實驗室目前正在研發的。他談到了學術界和工業界研發過程的區別，並介紹了阿里的 AI 人才計劃。
谷歌大腦顛覆深度學習混亂現狀,要用單一模型學會多項任務

本篇論文是谷歌大腦（Google Brain）與多倫多大學合作的最新論文。谷歌大腦團隊曾經負責研發了AlphaGo與TensorFlow框架等產品，其實力自然不消多說。而這一次谷歌大腦團隊更是向當前深度學習架構繁多、應用領域不一等混亂現狀發出挑戰，霸氣提出了通過單一模型聯合學習多項任務。
深度學習未來三大範式:混合學習、成分學習和簡化學習

這種學習範式試圖去跨越監督學習與無監督學習邊界。由於標籤數據的匱乏和收集有標註數據集的高昂成本，它經常被用於商業環境中。從本質上講，混合學習是這個問題的答案。我們如何才能使用監督學習方法來解決或者連結無監督學習問題？例如這樣一個例子，半監督學習在機器學習領域正日益流行，因為它能夠在很少標註數據的情況下對有監督的問題表現得異常出色。
重磅||谷歌又放大招,一個神經網絡學習一切!

這篇最近預發表在Arxiv上的論文說，深度學習挺好，但是每解決一個問題都得建一個模型，還要花好長時間調參、訓練，太討厭了。於是，他們搞出了一個在各種領域的很多問題上效果都不錯的模型MultiModel。
【深度】從經典深度學習模型探討圖像識別新方向

ImageNet競賽任務是：讓研究人員創建一個模型，對給定的圖像進行分類。過去的幾年裡，深度學習技術極大推進了這場比賽，甚至超越了人類的表現。今天我們要回顧一下這方面的進展，從而了解深度學習是如何推動其發展的，了解我們可以從中學到什麼，以及我們走到哪一步。
深度給默片配音、自動生成手寫體,盤點8個最具啟發意義的深度學習應用(附論文)

，包括為黑白圖像上色，自動手寫體生成，自動生成字幕，還有自動玩遊戲等等說深度學習已經達到了先進水平顯然是很誇張的，因為我們還有很多問題沒有解決。因為有些問題是我一直都認為在短時間內沒法解決的。以下是 8 個應用的具體內容：1.黑白圖像的自動著色所謂圖像著色就是為黑白照片上色。傳統的方法是通過人工手動上色，因為圖像太複雜了。深度學習可以使用照片中對象和它的周邊對象的特徵來對照片上色，這種方式很類似於人類的處理方式。
谷歌圖像識別神經網絡製造幻景

【靜點評】今天讀到一篇文章，講的是深度學習在語音識別和智能翻譯方面的應用，微軟的一位研究員把機器比喻成一個嬰兒，學習的過程跟嬰兒很接近。【騰訊科技】原標題：製造幻景：谷歌圖像識別神經網絡讓人大跌眼鏡谷歌的圖像識別神經網絡不但可以識別圖像，而且可以製造出人意料的奇幻景象。機器有什麼夢想？谷歌新發布的一些機器識別圖像為我們給出了一個可能的答案：將不同的景物合成一種奇幻風景。
深度學習的端到端文本OCR:使用EAST從自然場景圖片中提取文本

這篇文章是關於在自然場景圖像中進行文本識別的光學字符識別（OCR）。我們將了解為什麼這是一個棘手的問題，用於解決的方法，以及隨之而來的代碼。But Why Really?在這個數位化的時代，存儲、編輯、索引和查找數字文檔中的信息比花幾個小時滾動列印/手寫/列印的文檔要容易得多。
2016深度學習重大進展:從無監督學習到生成對抗網絡 | 網際網路數據...

過去幾年，深度學習成為了機器學習社區的核心話題，2016 年更是如此。在 Tryo Labs 的這篇盤點文章中，作者回顧了對該領域貢獻最大（或有潛力的）的進展以及組織和社區如何保證這些技術能以一種使所有人都受益的方式被使用。
OpenCV+深度學習預訓練模型,簡單搞定圖像識別 | 教程

而OpenCV最近一次版本更新，為我們帶來了更好的深度學習支持，在OpenCV中使用預訓練的深度學習模型變得非常容易。pyimagesearch網站今天發布了一份用OpenCV+深度學習預訓練模型做圖像識別的教程，量子位編譯整理如下：最近，OpenCV 3.3剛剛正式發布，對深度學習（dnn模塊）提供了更好的支持，dnn模塊目前支持Caffe、TensorFlow、Torch、PyTorch等深度學習框架。
文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型

就像人類有視覺、嗅覺、聽覺一樣，AI也有自己「眼鼻嘴」，而為了研究的針對性和深入，科學家們通常會將其分為「計算機視覺」、「自然語言處理」、「語音識別」等研究領域，分門別類地解決不同的實際問題。每一個研究領域也可以被稱為一種模態，通常來說，多模態學習（MultiModal Learning）就是在不同的模態間構建聯繫，讓AI學會「通感」。
文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型

就像人類有視覺、嗅覺、聽覺一樣，AI也有自己「眼鼻嘴」，而為了研究的針對性和深入，科學家們通常會將其分為「計算機視覺」、「自然語言處理」、「語音識別」等研究領域，分門別類地解決不同的實際問題。每一個研究領域也可以被稱為一種模態，通常來說，多模態學習（MultiModal Learning）就是在不同的模態間構建聯繫，讓AI學會「通感」。
從冷戰到深度學習:一篇圖文並茂的機器翻譯史

計算語言學先驅 Frederick Jelinek 曾經開玩笑地說：「每次我炒掉一個語言學家，語音識別器的表現就會上升一點。」除了提升準確度，基於短語的翻譯在選擇所要學習的雙語文本上提供了更多選擇。對於基於詞的翻譯，源文本之間的準確匹配是至關重要的，這就排除了讓任何文學翻譯或自由翻譯。基於短語的翻譯則可以從中學習。為了提升翻譯質量，研究者甚至開始解析不同語言的新聞網站。
今日Paper|TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測解決...

目錄REFORMER：一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN：基於多級特徵融合的條件GAN水下圖像顏色校正具有文本指導的圖像到圖像的翻譯論文名稱：Image-to-Image Translation with Text Guidance作者：Li Bowen /Qi Xiaojuan /Torr Philip H. S.
圖像分類:一個更魯棒的場景分類模型

，解決圖片的角度、尺度、和光照的多樣性問題。如何根據圖像的視覺內容為圖像賦予一個語義類別（例如，教室、街道等）是圖像場景分類的目標，也是圖像檢索、圖像內容分析和目標識別等問題的基礎。但由於圖片的尺度、角度、光照等因素的多樣性以及場景定義的複雜性，場景分類一直是計算機視覺中的一個挑戰性問題。本次任務從400萬張網際網路圖片中精選出8萬張圖片，分屬於80個日常場景類別，例如航站樓、足球場等。每個場景類別包含600-1100張圖片。

【一個深度學習模型解決所有問題】谷歌MultiModel通吃文本、圖像、翻譯

相關焦點

用深度學習(CNN RNN Attention)解決大規模文本分類問題 - 綜述和...

谷歌地圖重大升級 用深度學習實時更新街景-谷歌地圖,升級,深度...

從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀

詳解谷歌發布的跨領域通用模型MultiModel,這是要一統江湖啊!(附paper)

深度學習應用於機器翻譯的魔力

阿里AI Labs王剛:谷歌一個模型解決所有問題是不現實的

谷歌大腦顛覆深度學習混亂現狀,要用單一模型學會多項任務

深度學習未來三大範式:混合學習、成分學習和簡化學習

重磅||谷歌又放大招,一個神經網絡學習一切!

【深度】從經典深度學習模型探討圖像識別新方向

深度 給默片配音、自動生成手寫體,盤點8個最具啟發意義的深度學習應用(附論文)

谷歌圖像識別神經網絡製造幻景

深度學習的端到端文本OCR:使用EAST從自然場景圖片中提取文本

2016深度學習重大進展:從無監督學習到生成對抗網絡 | 網際網路數據...

OpenCV+深度學習預訓練模型,簡單搞定圖像識別 | 教程

文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型

文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型

從冷戰到深度學習:一篇圖文並茂的機器翻譯史

今日Paper|TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測解決...

圖像分類:一個更魯棒的場景分類模型

谷歌地圖重大升級用深度學習實時更新街景-谷歌地圖,升級,深度...

深度給默片配音、自動生成手寫體,盤點8個最具啟發意義的深度學習應用(附論文)