一種利用兩個輕型的卷積神經網絡來學習獲取任意遷移矩陣的方法

2021-01-15 電子發燒友
一種利用兩個輕型的卷積神經網絡來學習獲取任意遷移矩陣的方法

李倩 發表於 2018-08-31 11:16:03

藝術風格轉換算得上是AI最有趣的應用之一了,你可以將梵谷的名畫風格添加到自己的照片中,也可以個自己的頭像來一幅映像派的油畫。它同時處理風格圖像和內容圖像來進行合成,使得生成的結果在保持了內容的前提下獲得了風格圖像的質感與美學特徵。但目前的算法模型實現比較龐大,同時會消耗很大的計算資源,在一定程度上限制了人工智慧對於美的創造。

近日,來自英偉達的研究人員與加州大學默塞德分校的研究人員們共同提出了一種新的風格遷移算法,不僅大幅提高了風格遷移的效率,同時實現了任意圖片的風格轉換,這使得AI對於圖像的創造邁向了更廣闊的天地。

對於提供的隨機圖片,這一算法可以將參考圖片中的任意風格進行抽取並基於內容圖片進行合成輸出。近來的任意風格轉換算法主要通過內容圖片特徵與預先計算得到的轉化矩陣相乘。但這些算法十分消耗計算,同時合成的圖像有時也不盡如人意。為了解決這些問題,研究人員們從理論上得到了遷移矩陣的表達形式,並給出了一種利用兩個輕型的卷積神經網絡來學習獲取任意遷移矩陣的方法,這種基於學習的遷移矩陣可以通過不同層次的風格損失來控制,在保持內容圖像的情況下靈活地結合多層次風格。同時,算法的實現具有很高的效率。

這一工作的主要貢獻在於以下三個方面:

1.提出了一種線性遷移的通用方法,其優化過程同時可以最小化風格重建損失;

2.提出了一種速度高達140fps的遷移矩陣學習方法,可靈活的在單一遷移矩陣中結合多層次風格,並在遷移過程中保持內容特徵;

3.基於上述靈活性,這一方法可以廣泛用於包括美學風格遷移、視頻圖像實際風格遷移以及領域遷移等很多任務中。

在這一研究中,研究人員提出的模型包括兩個前向卷積網絡、一個對稱的編碼、解碼圖像重建結構以及遷移學習模塊和損失模塊等四個部分。

其中編碼器和解碼器主要用於重建輸入的圖像,事先訓練好後就固定下來作為網絡的基礎用於後續的訓練過程。(編碼器用於抽取輸入圖像中的特徵,分別對內容和風格圖像提取特徵圖Fc,Fs,而解碼器則用於從抽取重建圖像。)

遷移模塊主要包含了兩個小卷積網絡,用於從前面的編碼器輸出中抽取特徵,並輸出遷移矩陣T. 隨後圖像遷移通過內容圖像與遷移矩陣的線性乘法來實現,隨後利用解碼其重建合成圖像。在網絡的最後,一個與訓練並固定的VGG-19網絡用於計算多層次的風格損失以及內容損失。整個網絡是純粹的前向傳播卷積神經網絡,對於GPU的運算十分友好,可以實現高達140fps的高效率風格遷移。

在網絡中,只有藍色的壓縮和解壓模塊,以及綠色的遷移單元是可以學習的,而其他的模塊都是固定的。

研究人員先從理論上探討了風格轉換、學習轉換矩陣的模型、高效計算的模型以及無損風格轉換的表達。對於風格轉換來說,其目標就是最小化遷移後的特徵Fc和期望的虛擬特徵phis之間的中心協方差,所以風格損失函數可以寫為下面的形式:

但絕對值中的兩項差為0時可以實現最小化。同時可以利用線性約束和分解計算出風格遷移矩陣T,

其主要用內容和特徵圖像的特徵的協方差決定的。為了計算出T,需要選擇合適的模型來進行學習。

T矩陣是由內容和風格圖像共同決定的,研究人員認為一種可能的方法便是利用神經網絡同時將輸入的兩張圖像轉換為C*C的T矩陣輸出。在這一工作中,主要利用了兩個相互隔離的CNNs來實現。為了獲取這一輸出,其輸入包含了三種不同的形式:內容和風格圖像、內容和風格特徵圖、內容和風格特徵圖的協方差。下圖是三種不同輸入的情況下的風格轉換結果,可以看到將編碼器特徵圖的協方差作為全連接輸入進行風格遷移的效果更好:

研究人員選擇了利用協方差來生成C*C的中間矩陣,隨後得到T矩陣。首先T矩陣與輸入的維數不相干,並在不同解析度下保持一致。同時需要全連接層在卷積的頂部進行處理。利用協方差作為模型的輸出將對更一般地風格遷移得到更好的結果。

為了實現高效的模型,研究人員們將以往算法中耗時的矩陣分解工作用前向網絡代替,將耗時的計算從GPU中移除。研究顯示T可以通過CNNs模塊和一個全連接層方便的訓練得到。同時利用學習的方法得到了包含多層次特徵單個T矩陣。T可以通過與不同風格重建損失的結合來實現豐富的表達。

基於線性遷移的風格轉換還具有較強的內容保留特性,通過這種特性和淺層自編碼器,可以實現較好的無失真圖像遷移。保證了在風格遷移的過程中內容圖像的內容不會產生畸變。

在深入研究了各個方面後,研究人員按照前述的架構構建了神經網絡,並在不同任務上進行了驗證。其數據集來自於MS-COCO和WikiArt進80000張圖像。利用Pytorch在TitanXP上訓練需要約2小時。下圖是本文提出算法與不同算法的比較結果:

其中視頻和照片的實際場景風格遷移,將拍攝到的圖像遷移到期望的場景中區,具有十分廣闊的應用,這將會生成更為有效的濾鏡和產品。

研究人員表示這將給內容生產者提供更多的創意,並將在實際生活中產生更多有趣的應用,將周圍的場景實時渲染成期望的樣子。

最後,研究人員們還驗證了這種方法在不同領域間遷移的有效性。通過將Cityscapes中的圖像作為風格圖,GTA遊戲場景數據中的圖作為內容圖,並利用在Cityscapes上訓練的PSPNet來進行語義風格。研究結果顯示,進行風格遷移後的圖像具有比原圖更好的語義分割效果。

這也為低成本獲取語義分割數據集訓練提供了可行的手段。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 深度學習入門:淺析卷積神經網絡
    至今已有數種深度學習方法,如卷積神經網絡(CNN)、自編碼神經網絡(包括Auto encoder和Sparse Coding)和深度置信網絡(DBN),並在各個領域中取得了極好的效果。圖像分類是從固定的一組分類中分配輸入圖像一個標籤的任務,在本案例中,我們將以Fashion-MNIST圖像數據集為例,了解並使用不同的神經網絡模型來對其進行分類,並比較不同網絡的預測效果。本案例的學習分為三個部分,首先是目標問題的數據集介紹,了解數據背景是解決問題的重要前提;接著,我們會介紹基本的邏輯回歸模型,在此基礎上引入本案例的核心——卷積神經網絡。
  • 利用二維卷積神經網絡進行乳腺癌分類
    利用二維卷積神經網絡進行乳腺癌分類Submitted on 7 Jul 2020 (v1), last revised 29 Jul 2020對有臨床記錄的癌症/非癌症患者的分類需要高的敏感性和特異性來進行可接受的診斷試驗。然而,目前最先進的分類模型——卷積神經網絡(CNN),卻不能用於以一維格式表示的臨床數據。CNN被設計用於處理一組二維矩陣,這些矩陣的元素與相鄰元素有一定的相關性,比如圖像數據。
  • 聯邦學習 OR 遷移學習?No,我們需要聯邦遷移學習
    1.3、聯邦遷移學習(FTL)FTL 的目的是在保護隱私的前提下,利用遷移學習克服數據或標籤的不足的問題。FTL 將 FL 的概念加以推廣,以實現在任何數據分布、任何實體上均可以進行協同建模、以學習全局模型。它不僅可以應用於兩個樣本的空間,還可以應用於兩個不同的數據集。
  • 卷積神經網絡的卷積到底是什麼
    卷積神經網絡是一種特殊的神經網絡結構,是自動駕駛汽車、人臉識別系統等計算機視覺應用的基礎,其中基本的矩陣乘法運算被卷積運算取代。 歷史 卷積神經網絡最初是由福島核電站在1980年引入的,當時名為Neocognitron。
  • 自動駕駛汽車利用卷積神經網絡學習人類決策
    對於自動駕駛汽車而言,也許有一種更好的學習駕駛的方法——觀察人類。據外媒報導,澳大利亞迪肯大學的研究人員發現,藉助改進的視覺校正系統,自動駕駛汽車可以通過觀察人類操作員來學習。
  • YJango的卷積神經網絡——介紹
    PS:YJango是我的網名,意思是我寫的教程,並不是一種網絡結構。。關於卷積神經網絡的講解,網上有很多精彩文章,且恐怕難以找到比斯坦福的CS231n還要全面的教程。 所以這裡對卷積神經網絡的講解主要是以不同的思考側重展開,通過對卷積神經網絡的分析,進一步理解神經網絡變體中「因素共享」這一概念。注意:該文會跟其他的現有文章有很大的不同。
  • 遷移學習怎麼做?遷移成分分析 (TCA) 方法簡介
    王晉東 (不在家),中國科學院計算技術研究所博士生,目前研究方向為機器學習、遷移學習、人工智慧等。之前整理總結遷移學習資料的時候有網友評論,大意就是現在的類似資料大全的東西已經太多了,想更深入地了解特定的細節。從這篇文章開始我將以《小王愛遷移》為名寫一系列的介紹分析性的文章,與大家共享遷移學習中的代表性方法、理論與自己的感想。
  • 神經風格遷移指南(第一部分)
    - 第一部分神經風格遷移學說在本系列中,我們會從神經風格的基礎開始,你將從中學到一種自下而上(從基礎開始)的方法。目前,實現這一目標的先決條件如下: Python基本理解卷積神經網絡的工作原理.如果你對這些知識(卷積神經網絡)不是很了解,我們建議你看一下這篇文章卷積神經網絡.那麼,風格遷移是什麼意思呢?在過去幾年裡,有一些APP湧現出來,例如Prisma等等,可以把照片風格化,看起來就像是一幅畫一樣。這些為你提供非常多漂亮的藝術風格,就像是梵谷所畫的《星夜》。
  • 卷積神經網絡超詳細總結
    1)網絡結構**卷積神經網絡整體架構:**卷積神經網絡是一種多層的監督學習神經網絡,隱含層的卷積層和池採樣層是實現卷積神經網絡特徵提取功能的核心模塊。該網絡模型通過採用梯度下降法最小化損失函數對網絡中的權重參數逐層反向調節,通過頻繁的迭代訓練提高網絡的精度。
  • 使用TensorFlow構建卷積神經網絡CNN
    深度學習的最新進展使得計算機視覺應用的飛躍:從我們的手機解鎖方式到更安全的自動駕駛汽車。卷積神經網絡(CNN)是計算機視覺應用背後的架構。本文將闡述CNN和計算機視覺的基礎,例如卷積運算,填充,跨步卷積和池化層。
  • 卷積神經網絡理解(一):濾波器的意義
    這兩個特徵即對特定特徵的選擇和通過前饋連接增大空間不變性構成了卷積神經網絡的人工視覺基礎。計算機視覺領域中有一個比賽叫做ImageNet挑戰賽,相當於計算機視覺的年度諾貝爾。2012年,Alex Krizhevsky憑藉卷積神經網絡獲得那一年的冠軍,他把圖片分類誤差從原來的26%降低到15%,這在計算機視覺領域引起了不小的轟動。
  • 「範例卷積神經網絡」和信息最大化
    我們在案例中只使用了一個數量適中的訓練圖像集,「範例卷積神經網絡」恰恰利用了這一點,把數據分布表示為一個經驗分布(離散有限可能性的分布)。假設我們離散了分布,使之變得不連續,那麼「範例卷積神經網絡」就能夠被推導成為「種子圖像」和其表徵之間的互信息的一個下界。
  • 深度學習下的醫學圖像分析(二)
    在系列的第三部分,我們將利用Kaggle的肺癌資料庫,重新查看肺癌DICOM圖像中的關鍵內容和信息,並且利用Kera開發一個肺癌預測模型。在了解「卷積神經網絡」之前,我們要先知道什麼是「卷積」。何為「卷積」?維基百科對「卷積」的定義是:一個關於兩個函數的數學運算。
  • 用TensorFlow和Keras構建卷積神經網絡
    卷積神經網絡是過去十年中深度學習成為一大熱點的部分原因。今天將使用TensorFlow的eager API來訓練圖像分類器,以辨別圖像內容是狗還是貓。人工神經網絡在許多領域都展現出了其強大功能,最近已經應用到很多行業中。
  • 給卷積神經網絡動動刀:加法網絡探究
    卷積神經網絡(CNN)在計算機視覺任務中有著廣泛的應用,然而它的運算量非常巨大,這使得我們很難將CNN直接運用到計算資源受限的行動裝置上。為了減少CNN的計算代價,許多模型壓縮和加速的方法被提出。其中AdderNet就是一種從新角度對模型進行加速的方法,以往的模型加速方法通過減少CNN的參數,AdderNet通過重新定義卷積計算,將卷積中的乘法替換為了加法。我們知道,乘法的計算代價要遠遠大於加法,AdderNet通過這種方式減少了計算量。
  • 卷積神經網絡數學原理解析
    密集連接的神經網絡結構 當我們根據一組有限的人工設計的特徵來解決分類問題時,這種方法很有效。例如,我們根據足球運動員在比賽期間的統計數據來預測他的位置。然而,當處理照片時,情況變得更加複雜。當然,我們可以將每個像素的像素值作為單獨的特徵,並將其作為輸入傳遞給我們的密集網絡。
  • 表徵圖數據,絕不止圖神經網絡一種方法
    雖然現在深度神經網絡在物體識別、圖像分類和自然語言處理領域都取得了巨大的成功。然而,「設計出最優的神經網絡,學習並輸出任意的圖」仍然是一個熱門的研究課題。本文是一篇出自倫敦大學學院的圖表徵學習綜述,詳細介紹了圖核、卷積、圖神經網絡、圖嵌入、概率模型共五類圖表徵學習方法的起源與發展,並對圖數據表徵學習方法的最新進展和未來發展方向進行總結和討論。
  • 表徵圖數據絕不止圖神經網絡一種方法
    近年來,圖神經網絡掀起了將深度學習方法應用於圖數據分析的浪潮。不過其作為一門古老的認識世界的方法論,人們對於圖表徵技術的研究從很早以前就開始了。雖然現在深度神經網絡在物體識別、圖像分類和自然語言處理領域都取得了巨大的成功。然而,「設計出最優的神經網絡,學習並輸出任意的圖」仍然是一個熱門的研究課題。
  • 深度學習入門教程:手把手帶你用Numpy實現卷積神經網絡(一)
    後面我們將通過一系列文章介紹如何用Numpy從零實現一個可以訓練的CNN簡易網絡,同時對深度學習(CNN)的相關基礎知識進行一些複習,也希望能夠給正在入門的同學一些簡單的歸納。>常見的trick的實現,例如dropout, batchnorm, residual絕大部分的同學入門深度學習,第一個接觸的應該就是LeNet,我們也將以此為例子介紹卷積神經網絡的基本組件。
  • 反思卷積神經網絡:圖像角度泛化上的困難重重
    在無噪聲且結果可預測的數據集環境下,所設計出的算法和方法很可能不符合現實情況而導致表現不佳。 事實也確實如此。卷積神經網絡特別容易產生"對抗性"輸入,或對輸入進行小改動,而這些改動會有意或無意地幹擾神經網絡正常工作。