機器之心發布
作者:牛力
近日,計算機視覺頂會 CVPR 2020 接收論文結果公布,從 6656 篇有效投稿中錄取了 1470 篇論文,錄取率約為 22%。本文介紹了上海交通大學被此頂會接收的一篇論文《Deep Image Harmonization via Domain Verification》。
圖像合成 (image composition) 是圖像處理的常用操作,把前景從一張圖上剪貼下來粘貼到另一張圖上,獲得一張合成圖。合成圖可以用來獲取感興趣的目標圖像,也可以用於數據增廣,有著廣泛的應用的前景。但通過這種方式得到的合成圖存在諸多問題,比如前景的大小或位置不合理、前景和背景看起來不和諧等等。我們的工作側重於解決合成圖中前景和背景不和諧的問題。具體來說,在合成圖中,前景和背景是在不同的拍攝條件 (比如時刻、季節、光照、天氣) 下拍攝的,所以在亮度色澤等方面存在明顯的不匹配問題。圖像和諧化 (image harmonization) 旨在調整合成圖中的前景,使其與背景和諧。
傳統的圖像和諧化方法一般是從背景或者其他圖片轉移顏色信息到前景上,但這樣無法保證調整之後的前景看起來真實並且與背景和諧。近年來,已經有少量的工作嘗試用深度學習做圖像和諧化,但成對的合成圖和真實圖極難獲得。如果沒有成對的合成圖和真實圖,深度學習的訓練過程缺乏足夠強的監督信息,合成圖和諧化之後的結果也沒有 ground-truth 用於評測。截至目前還沒有公開的大規模圖像和諧化資料庫,我們構建並公布了由四個子資料庫組成的圖像和諧化資料庫。並且,我們提出了域驗證 (domain verification) 的概念,嘗試了基於域驗證的圖像和諧化算法。
資料庫和代碼已公布: https://github.com/bcmi/Image_Harmonization_Datasets論文地址: https://arxiv.org/abs/1911.13239我們構建資料庫的方法仿照 [1] 中的策略,具體來說,給定一張真實圖,選擇一個前景進行調整使其和背景不和諧,得到一張人造的合成圖。這種構建資料庫的方式可以產生大規模成對的訓練數據用以訓練深度學習模型。但是 [1] 沒有公布其構建的資料庫,並且 [1] 建庫的方式在合成圖的合理性和多樣性上存在明顯不足。對前景進行調整使其和背景不和諧並不困難,簡單的改變前景亮度即可快速生成大量的合成圖。然而,如果要保證合成圖的合理性和多樣性並且接近實際的應用場景,則非常困難。因此,我們構建了一個 [1] 中資料庫的增廣增強版本,共包含 73,146 對合成圖和真實圖的資料庫。我們的資料庫包含四個子資料庫:HCOCO, HAdobe5k, HFlickr, Hday2night,其中 Hday2night 是 [1] 中沒有的子資料庫。Hday2night 的合成圖更接近真實的合成圖,因此相比較其他三個子資料庫有特殊的參考價值。我們針對產生合成圖的種種問題,用兩輪自動篩選和逐張人工篩選保證最終保留圖片的質量。我們對最終的資料庫做了全面細緻的分析,包括不同的前景比例、不同的前景調整方法、不同的語義種類對圖像和諧化資料庫以及圖像和諧化算法結果的影響,詳見論文的補充材料。接下來,我們從每個子資料庫選兩個例子展示我們的資料庫。如下圖所示,我們對真實圖片 (real image) 的前景 (mask 對應的區域) 進行調整,得到合成圖 (synthesized composite)。可以看出在合成圖中,前景雖然真實,但是和背景明顯違和,整張圖看起來不真實。圖像和諧化的任務是調整合成圖的前景,使其與背景和諧。
域 (domain) 是一個非常寬泛的概念,在不同的應用任務中被賦予了不同的含義。圍繞域 (domain) 相關的應用也吸引了越來越多研究者的興趣,比如域適應 (domain adaptation)、域泛化 (domain generalization)、域分類 (domain classification)、域翻譯 (domain translation) 等等。最近很多流行的圖像到圖像翻譯 (image-to-image translation) 的方法比如 pix2pix, cycleGAN, MUNIT, DRIT 等都屬於域翻譯的範疇。域翻譯的一個經典應用是把白天的風景圖轉化成夜景圖,其中白天 (daytime) 和夜晚 (night) 可以當作兩個域 (domain)。類似的,我們把每一種拍攝條件(比如時刻、季節、光照、天氣)當作一個域 (domain),因此真實圖片存在無窮多個可能的域。真實圖的前景和背景是在相同的拍攝條件下拍攝的,因此屬於相同的域。合成圖的前景和背景可能是在不同的拍攝條件下拍攝的,因此屬於不同的域。我們不知道合成圖中前景和背景的域標籤 (domain label), 只需要把前景遷移到和背景相同的域。因此圖像和諧化 (image harmonization) 可以看成是特殊場景下的域翻譯 (domain translation)。據此,我們提出了域驗證 (domain verification) 的概念,即判斷前景和背景是否屬於同一個域,並設計了域驗證鑑別器(domain verification discriminator),用於拉近和諧後的前景和背景的域。我們的整體網絡結構如下圖所示。
我們生成器的結構基於 UNet 實現,但是增加了類似於 [2] 中的注意力機制 (attention block)。另外,我們引入了兩個鑑別器,第一個鑑別器是生成對抗網絡(GAN)裡面標準的鑑別器,作用於整張圖片,使得生成圖片的數據分布和真實圖片的數據分布接近。第二個鑑別器就是我們提出的域驗證鑑別器,使得生成圖中前景和背景的域儘可能接近。具體來說,我們首先用部分卷積 (partial convolution) 分別提取前景和背景的域表徵。部分卷積最早應用於圖像填充 (image inpainting),在這裡用來提取形狀不規則的前景和背景的域表徵,可以避免其他區域的信息洩露和默認填充方法的幹擾。基於前景和背景的域表徵,我們提出了域驗證損失 (domain verification loss)。我們的域驗證損失雖然最終包裝成了對抗損失 (adversarial loss) 的形式,但本質上是基於前景和背景域表徵相似度的驗證損失 (verification loss)。在我們構建的資料庫上,我們比較了我們的方法、傳統的圖像和諧化方法和基於深度學習的圖像和諧化方法。實驗結果表明我們的方法優於現有的方法。可視化結果的比較見下圖,我們比較了之前的圖像和諧化深度學習方法 DIH 和 S2AM,也比較了我們不用域驗證鑑別器(domain verification discriminator)的方法。
並且,我們還在 [1] 提供的 99 張真實合成圖上進行用戶主觀評測(user study), 結果表明我們的方法優於現有的方法。關於量化指標,因為有 ground-truth 的真實圖,我們可以定量評測生成圖的效果。我們沿用 [1] 的 MSE 和 PSNR, 同時也提出了只考慮前景的 fMSE,因為對於前景比例較小的合成圖,轉換之後的前景誤差可能會被背景的重構誤差淹沒。我們也嘗試了其他的量化指標比如 SSIM、LPIPS 等等,但是由於合成圖和真實圖在結構和語義層面非常接近,我們觀察發現這些量化指標並不十分可靠。所以,我們最終只用了定量指標 MSE/fMSE、PSNR 和用戶主觀評測的指標 B-T score。關於我們方法的技術細節和全部的實驗結果,請參見論文正文和補充材料。歡迎大家關注我們的資料庫和方法,關注圖像和諧化領域。
參考文獻:
[1] Tsai, Yi-Hsuan, et al.「Deep image harmonization.」In CVPR, 2017.
[2] Cun, Xiaodong and Pun, Chi-Man.「Improving the harmony of the composite image by spatial-separated attention module.」, TIP, 2019.