來源: arXiv
作者:文強
【新智元導讀】我們能夠製作出一個統一的深度學習模型,讓這個模型解決多個領域的許多不同問題嗎?谷歌研究人員提出了一個多模式適用的架構 MultiModel,用單一的一個深度學習模型,學會文本、圖像和翻譯這些不同領域的 8 種不同任務,朝「一個模型解決所有問題」邁出了重要一步。
我們能夠製作出一個能解決多領域不同問題的統一深度學習模型嗎?
在深度學習研究領域,多任務適用模型(multi-task model)是一個由來已久的課題。
此前已經有研究表明,多模式適用學習(multi-modal learning)能夠在非監督學習中,提升習得的表徵,還能夠被當做先驗知識解決不相關的任務。
但是,還沒有人提出能夠在同一時間解決多個任務的多模式適用模型(competitive multi-task multi-modal model)。
今天,谷歌研究人員用他們上傳到 arXiv 網站的論文《用一個模型學會所有問題》(One Model to Learn Them All),朝解決這一任務邁出了積極的一步。
他們提出了一個多模型適用的架構 MultiModel,用單一的一個深度學習模型,學會各個不同領域的多種不同任務。
實驗結果,谷歌研究人員提出的模型在所有上述任務中都取得了良好的結果——雖然具體到一項任務,結果並不是當前最佳的。
具體說,谷歌研究員同時在以下 8 個任務上訓練 MultiModel:
(1)WSJ 語料庫
(2)ImageNet 數據集
(3)COCO 圖說生成數據集
(4)WSJ 語義解析數據集
(5)WMT 英-德翻譯語料庫
(6)與(5)相反:德-英翻譯語料庫
(7)WMT 英-法翻譯語料庫
(8)與(7)相反:德-法翻譯語料庫
圖1:MulitModel 能夠完成不同領域不同任務。其中,紅色表示語言相關的任務,藍色表示分類相關的任務。
圖1 展示了從模型直接解碼得到的一些結果。從上圖可見,MultiModel 能夠生成述說、為圖像分類、完成從法語到德語的翻譯,並且構建語義分析樹。
表1 展示了模型在聯合訓練 8 個不同任務和分別單獨訓練時取得的不同結果。可見,聯合訓練的結果相比單獨會稍微低一些。
儘管 MultiModel 只是完成「統一模型」的第一步,谷歌研究人員表示,他們從這項工作中得出了兩大關鍵:
要使用不同類型的輸入數據訓練模型,需要一些子網絡,這些子網絡能將輸入轉化到聯合表徵空間上。這些子網絡被稱為 「模式網」(modality net),因為它們分別對應具體的模式(比如圖像、語音、文本),並決定了外部領域和統一表徵之間的轉變(transformation)。
論文作者設計讓 modality net 擁有以下特徵:①計算效率最高(computationally minimal),②促進 heavy 特徵提取,③確保主要的計算都發生在模型中與領域無關的地方。
由於模型是自回歸的,modality net 需要先轉變為輸入進入統一的表徵空間,之後再轉變為輸出。因此,作者表示,在設計上有兩個關鍵的地方:
MultiModel 由多個部分構成,比如不同的卷積層、注意力機制和混合專家層。每個部分此前都沒有在其他任務上訓練過。例如,卷積層此前沒有處理過文本或語音任務;混合專家層也沒有處理過圖像或語言相關的任務。
作者發現,每個單獨的模塊對於相應的任務而言都十分重要,比如注意力機制在解決與翻譯相關的任務時,遠比在處理圖像任務中重要。
MultiModel 架構:MultiModel 架構由幾個 modality net、1 個編碼器,1 個 I/O mixer,以及 1 個自回歸解碼器構成。其中,編碼器和解碼器都包含有卷積層、注意力機制和稀疏門控混合專家層這 3 種計算單元(block),因此能夠解決不同領域的多種問題。
但是,這個模塊的存在並不會損害整體的性能,比如存在注意力機制,並不會降低整個架構處理圖像任務的性能。
實際上,在實驗中,注意力機制和混合專家層都稍微提升了 MultiModel 在處理 ImageNet 數據集的性能——按理說,圖像任務並不怎麼用到注意力機制和混合專家層(見下)。
摘要
深度學習在語音識別、圖像分類、翻譯等多個領域取得了豐碩的成果。但是,對於每個問題,研發出一個能很好地解決問題的深度模型,需要對架構進行研究和長時間的調整。我們提出了一個單一的模型,在跨多個領域的許多問題上取得了良好的結果。需要指出,這單一的一個模型在 ImageNet、多語種翻譯任務、圖說生成(COCO 數據集)、語音識別語料庫和英語語義解析任務上,同時進行訓練。我們的模型架構來自多個域,包含卷積層、注意力機制和稀疏門控層。這些計算單元(block)中,每一個對於訓練任務的一小部分而言都至關重要。有趣的是,即使某個單元對某個任務而言並非必要,我們觀察到添加這個單元並不會影響整體性能,在大多數情況下,還能提高完成各項任務的性能。我們還表明,具有較少數據的任務主要受益於與其他任務的聯合訓練,而大規模任務的性能只會稍微降低。
MultiModel 的架構示意圖
論文地址:https://arxiv.org/pdf/1706.05137.pdf