NAS-DIP: 基於神經架構搜索的自監督圖像補全算法

2021-01-22 網易

  From: Arxiv;編譯: T.R

  與先前使用大規模監督數據進行訓練的算法不同,Deep Image Prior(DIP)利用隨機初始化的神經網絡模型和退化後的圖像進行自監督迭代,在無需大規模數據進行訓練的情況下,就能有效實現圖像去噪、超分辨和補全等任務。神經網絡可以有效捕捉自然圖像中的先驗信息,優先對圖像中的低頻部分進行學習,逐步修復圖像,得到令人滿意的結果。

  但在實際應用過程中,如何選擇適合的網絡結構、如何確定最優的學習迭代次數,這依然需要進行進一步研究。為了獲取更好的網絡架構和學習參數,來自維吉尼亞理工的研究人員們提出了一種基於神經網絡架構搜索(NAS)的方式,在更為豐富的結構空間中尋找到能夠捕捉更強圖像先驗的結構。

  文末有實習生招聘,有需求的同學們不要錯過!

  NAS-DIP

  DIP可以利用退化後的圖像和未經訓練的模型處理圖像超分辨、去噪和補全等圖像修復問題。這種思想為圖像修復提供了獨特的思路,但如何選擇適合的網絡結構依然有待研究。

  

  在這一工作中,研究人員提出了利用NAS的方式來尋找可以捕捉更強圖像先驗的網絡架構,將搜索空間拓展到了上採樣模式和更為豐富的特徵skip連接模式中去。具體來講,這一工作首先利用基於強化學習的RNN控制器,在一系列配對圖像上尋找最優的網絡結構,而後在測試階段隨機初始化學習到的最佳結構,來對退化後的圖像進行處理,實現圖像修復。下圖展示了該工作與監督學習、DIP的比較,以及整個算法的流程。

  

  左圖展示了基於配對圖像進行監督學習的圖像修複方法(上)和原始的DIP模型架構(下);右圖則是本文提出的方法,上半部分利用了基於RNN控制器的NAS算法在配對數據集上進行最佳網絡架構搜索,下半部分則在得到的最佳網絡上對待修復圖像進行處理。

  NAS-DIP的處理流程包括了兩個階段。在上圖的右上部分可以看到,NAS-DIP首先利用基於RNN控制器的強化學習搜索算法來從搜索空間中進行學習,利用數據集中退化圖像與GT間的PSNR作為監督信號來獲取先驗最佳的網絡結構(藍色部分)。在網絡結構搜索完成後,在最優架構上運行DIP算法即可。

  本研究充分探索了解碼器中的上採樣結構以及編解碼器之間的跳接層連接方式,並在他們構成的網絡結構空間中進行搜索。下圖展示了不同參數構成的上採樣結構,涵蓋了特徵上採樣算法、特徵轉換、卷積核尺寸、擴充比例和激活函數等五種不同的結構參數。

  

  上採樣部分的搜索空間

  整個上採樣操作被解構為了特徵圖空間解析度的提升和特徵轉換(transform)兩個過程。其中改變空間解析度的操作主要有雙線性上採樣、雙三次上採樣、最鄰近插值、depth-to-space以及步長為二的反卷積構成。而對於特徵轉換的操作主要有:2D卷積、連續通道加和、可分離卷積、depth-wise卷積和identity操作。為了獲得更為靈活的搜索空間,這些操作在訓練過程中都包含可學習參數,包括卷積核尺寸、膨脹率以及激活函數的選擇等(包含ReLU、LeakyReLU、SELU和PReLU等)。通過上採樣空間的分解、可以更加靈活地對網絡空間進行搜索。

  針對編解碼器間的連接,研究人員提出了跨尺度的殘差連接結構。與U-Net在相同尺度特徵層上的連接不同,這種跨尺度的連接可以有效融合多尺度信息。下圖顯示了兩種不同的跨尺度連接方式,左圖在U-Net的基礎上添加了隨機跨尺度連接,而右圖則在一定的約束下進行跨尺度連接(兩個低層、一個平層、一個高層連接),這在保持搜索有效性的基礎上使得搜索空間大幅度減小。

  

  編解碼器間的跨尺度連接

  此外,工作還提出了漸進式的上採樣操作,將4X的上採樣分解為了兩個上採樣操作。一種方式是利用兩個連續的上採樣操作來實現、另一種方式是在對應尺寸的特徵圖上利用權值共享的上採樣操作。

  

  將上採樣操作進行分解,以便實現跨尺度連接。在上採樣後,所有的特徵圖在相同尺度上進行融合,而後作為解碼器下一層級的輸入。

  值得一提的是,在DIP對圖像進行修復的過程中,何時停止優化、迭代次數如何設置還沒有充分的研究。最優的迭代次數與網絡結構密切相關,由於在NAS訓練過程中存在GT結果,可以由此進行統計來得到最佳的停止條件。這樣在運行搜索到網絡的測試過程就能利用最佳停止條件來控制網絡的輸出結果了。

  實驗結果

  研究人員從DIV2K中隨機選取了100張圖像來構造訓練NAS算法的訓練集,針對不同的任務在V100上訓練了3-5天。下表展示了這種搜索算法在圖像超分辨、補全任務上與其他算法的性能比較。

  

  可以看到,這種方法在Learning free方法的比較中得到了較好的結果,同時也十分接近基於監督學習的算法,在圖像超分辨上取得了非常好的效果。同樣在補全和去噪等任務上也超過了原始的DIP算法。下圖展示了基於神經架構搜索的DIP方法在超分辨領域得到了很好的結果。

  

  這一算法同時還可以有效修復圖像去霧的結果,下面展示了針對有霧圖像的修復,可以看到這一算法有效修復了其中的細節並提升了圖像中的對比度。

  

  如果希望了解更多細節,可以參考論文原文和作者的實驗代碼:

  論文連結:https://link.springer.com/chapter/10.1007/978-3-030-58523-5_26

  代碼連結: https://github.com/zhangdan94/NAS-DIP-pytorch

  
ref:

  https://zhuanlan.zhihu.com/p/58038288
https://zhuanlan.zhihu.com/p/242222614
https://www.zhihu.com/question/263404981

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • ICML 2020|提升神經網絡架構搜索穩定性,UCLA提出新型NAS算法
    機器之心專欄作者:陳相寧可微網絡架構搜索能夠大幅縮短搜索時間,但是穩定性不足。為此,UCLA 基於隨機平滑(random smoothing)和對抗訓練(adversarial training),提出新型 NAS 算法。可微網絡架構搜索(DARTS)能夠大幅縮短搜索時間,但是其穩定性受到質疑。
  • CVPR 2019 神經網絡架構搜索進展綜述
    (註:「博士生下降」英文為Grad Student Descent,簡單而言就是「找一個博士生,讓他不斷調參,直到算法工作」。這種說法歪曲自深度學習的Gradient Descent算法,僅作調侃)現在呢,我很想驕傲地宣布——「天天調參的鬼日子結束了!」——但是還為時過早。手動調參尋找神經網絡架構依然是個有趣的工作,尤其是對於那些帶了很多學生的導師而言(開玩笑啦~)。
  • 谷歌大腦提出NAS-FPN:一種學會自動架構搜索的特徵金字塔網絡
    標檢測也能用神經架構搜索,這是一個自動搜索的特徵金字塔網絡。神經架構搜索已經在圖像識別上展現出很強的能力,不論是可微架構搜索的速度,還是基於強化學習搜索的準確度,很多時候自動架構搜索已經超越了我們手動設計的版本。與此同時,學習視覺的特徵表示是計算機視覺中的一個基本問題。不論是圖像分類還是目標檢測,抽取圖像特徵才是最首要的。
  • 華中大提出新型採樣與重建算法, 提升稀疏深度稠密補全任務性能
    傳感器層面的限制讓人們逐漸將目光轉向了算法上,譬如稀疏的深度圖通常可以從低成本的雷射雷達或SLAM中獲取,如果有高性能的深度補全算法就能獲得令人滿意的結果。  稀疏深度補全的任務主要是補充出缺失的點,並儘可能精確地計算出這些點的深度。
  • 比可微架構搜索DARTS快10倍,第四範式提出優化NAS算法
    機器之心發布 作者:Quanming Yao ,Ju Xu,Wei-Wei Tu,Zhanxing Zhu 神經架構搜索一直被認為是高算力的代表,儘管可微架構搜索的概念非常吸引人,但它目前的效率與效果仍然不盡人意
  • AutoML新進展:用進化算法發現神經網絡架構
    除了基於學習的方法(例如強化學習)之外,我們想知道是否可以使用我們的計算資源以前所未有的規模進行圖像分類器的編程演化。我們能否以最少的專家參與達成解決方案,今天的人工進化神經網絡能有多好的表現呢?我們通過兩篇論文來解決這些問題。  在ICML 2017上發表的「圖像分類器的大規模演化」中,我們用簡單的構建模塊和初始條件建立了一個演化過程。
  • 怎樣設計最優的卷積神經網絡架構?|NAS原理剖析
    密集連接塊(DenseNet)一個寬網絡上的跳過連接(ResNext)神經架構搜索NAS是一種尋找最優神經網絡架構的算法。絕大多數NAS算法工作原理類似。首先,定義一組適用於我們網絡的「構建塊」。然後,嘗試以不同的方式組合這些「構建快」進行訓練。
  • 基於神經網絡算法 羊毛_基於pso算法和bp算法訓練神經網絡 - CSDN
    圖神經網絡是用於圖結構數據的深度學習架構,將端到端學習與歸納推理相結合,業界普遍認為其有望解決深度學習無法處理的因果推理、可解釋性等一系列瓶頸問題,是未來 3 到 5 年的重點方向。2019 年圖神經網絡有哪些研究成果值得關注?2020 年它又將朝什麼方向發展?讓我們一起來一探究竟。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    Motivation深度學習技術已經成為當前人工智慧領域的一個研究熱點,其在圖像識別、語音識別、自然語言處理等領域展現出了巨大的優勢,並且仍在繼續發展變化。自 Google 提出 Cloud AutoML,NAS(Neural Architecture Search,神經網絡架構搜索)也取得重大進展,但更多的是在圖像分類和自然語言處理方面的應用。
  • 74KB圖片也高清,谷歌用神經網絡打造圖像壓縮新算法
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI還在為圖像加載犯愁嗎?最新的好消息是,谷歌團隊採用了一種GANs與基於神經網絡的壓縮算法相結合的圖像壓縮方式HiFiC,在碼率高度壓縮的情況下,仍能對圖像高保真還原。
  • 計算機視覺(圖像)技術:視覺圖像搜索綜述
    如果做大規模的、數據量非常大的圖像搜索我個人認為用倒排的方法來做比較合適。深度學習用在圖片搜索當中:  深度學習出來之後可以讓我們去按照自己所想要達到的目標去學習一個神經網絡通過這個神經網絡去抽取圖像的特徵。實際上搜索跟識別是密不可分的尤其是在做大規模圖像搜索時識別、檢測必不可少。
  • MATLAB比較圖像的相似度-圖像搜索算法
    關注我們獲得更多精彩內容一、圖像相似度計算相關原理通過圖片進行搜索相似圖標的算法實現是:利用感知「感知哈希算法」,就是每一張圖片都按照某種桂林生成唯一的「標識」,通過對「標識」進 比較,那麼可以判斷兩張照片是相似以及相似程度。
  • Serverless 架構下 Python 輕鬆搞定圖像分類
    簡介: 本文將會通過一個有趣的 Python 庫,快速將圖像分類的功能搭建在雲函數上,並且和 API 網關結合,對外提供 API 功能,實現一個 Serverless 架構的「圖像分類 API」。前言圖像分類是人工智慧領域的一個熱門話題。通俗解釋就是,根據各自在圖像信息中所反映的不同特徵,把不同類別的目標區分開來的圖像處理方法。
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    從最早的閾值化[3]、基於直方圖的分組、區域生長[4]、k-means聚類[5]、分水嶺[6]等算法,到更先進的主動輪廓[7]、圖割[8]、條件和馬爾科夫隨機域[9]、稀疏[10]-[11]等算法,文獻中已經出現了許多圖像分割算法。
  • 比無所不能的DIP更強大的圖像恢復方法:DeepRED
    選自arXiv作者:Gary Mataev、Michael Elad、Peyman Milanfar參與:高璇、Chita此前,深度圖像先驗(DIP)被證明可以在不用學習的情況下解決圖像去噪、去水印、超解析度問題。但這一方法與最先進的替代方法相比,效果並不理想。
  • 基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度
    基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度 李倩 發表於 2018-06-04 15:46:49 基於視覺的自動駕駛系統需要基於單目攝像頭獲取的圖像
  • 神經結構搜索在機器翻譯中的應用
    1、背景近年來,深度學習在圖像和語言處理領域應用得越來越廣泛,但是性能優異的網絡都是人為根據大量的經驗去精心設計的,於是基於機器自己設計的神經結構搜索成了最近熱門的一個研究課題。神經結構搜索(Neural architecture search,NAS)主要是利用機器,在設定好的搜索空間中按照給定的搜索策略,利用評價標準得到最優的模型[2]。目前結構搜索按策略分主要為三種,1)強化學習,2)進化算法,3)梯度計算。
  • CVPR 2020 Oral |神奇的自監督場景去遮擋
    自然場景理解是一項具有挑戰性的任務,尤其是遇到圖像中的物體互相遮擋的時候。現有的場景理解只能解析可見的部分。在本文中,來自香港中文大學、商湯、南洋理工大學的研究者提出了一種自監督的場景去遮擋方法,旨在恢復潛在的遮擋順序並補全被遮擋對象的不可見部分,其效果可媲美全監督的方法。目前,該論文已被 CVPR 2020 接收為 Oral 論文。
  • 解讀| 如何用進化方法優化大規模圖像分類神經網絡?
    論文:圖像分類器的大規模進化(Large-Scale Evolution of Image Classifiers)https://arxiv.org/pdf/1703.01041.pdf摘要:神經網絡已被證明可以有效地解決難題,但它們的架構設計起來頗具挑戰性,即便只是圖像分類問題也如此。
  • 今日Paper|3D門控遞歸融合;雙注意力GAN;通用目標檢測器;無監督域...
    目錄用於語義場景完成的3D門控遞歸融合用於大姿態人臉正面化的雙注意力GANUniversal-RCNN:基於可轉移圖R-CNN的通用目標檢測器用於圖像深度估計的無監督域自適應嵌套命名實體識別的神經分層模型用於語義場景完成的3D門控遞歸融合論文名稱:3D Gated Recurrent