點擊下方卡片,關注「新機器視覺」公眾號
視覺/圖像重磅乾貨,第一時間送達
地址:https://zhuanlan.zhihu.com/p/376423478
01
遷移學習現在很火,在人工智慧各個領域都有廣泛應用。遷移學習是一個大家族,按照遷移對象可以分為不同域 (domain) 之間的遷移,不同種類 (category) 之間的遷移,不同模型 (model) 之間的遷移,不同模態 (modality) 之間的遷移,不同任務 (task) 之間的遷移等等。具體來說,不同域之間的遷移包括域適應 (domain adaptation) , 域泛化 (domain generalization) 等。不同種類之間的遷移包括零樣本學習 (zero-shot learning) ,少樣本學習 (few-shot learning) 等。不同模型之間的遷移主要包括知識蒸餾 (knowledge distillation)。不同模態之間的遷移包括多視圖學習 (multi-view learning) , 特權信息學習 (learning using privileged information) 等。不同任務之間的遷移包括多任務學習 (multi-task learning) ,自監督學習 (self-supervised learning) 等。自監督學習可以看成是其中某些任務不需要人工標註的多任務學習。我對上述研究方向多多少少都有所涉獵,博士期間主要做域適應、域泛化、多視圖學習、特權信息學習等, 博士後期間轉向做零樣本學習,入職上交之後繼續做零樣本學習、開始做少樣本學習、自監督學習等,其中兩個重點研究的方向是零樣本語義分割和少樣本圖像生成,感興趣的話可以看一下我之前的公眾號文章。
02
後來,我因為陰差陽錯進入到圖像合成這個領域,意識到遷移學習和圖像合成之間的內在關聯,便把研究方向從遷移學習擴展到圖像合成。
圖像合成 (image composition) 是指把一張圖片的前景剪切下來,粘貼到另外一張背景圖片上,得到一張合成圖。但是得到的合成圖可能會有很多問題,比如前景和背景顏色光照不一致,前景的位置大小不合理等,這些都會讓合成圖看起來不真實,影響合成圖的質量。圖像合成的問題定義非常簡潔,但是涉及到的子問題卻包羅萬象,這也是圖像合成問題的迷人之處。在遷移學習中,
域適應和域泛化旨在解決不同域之間的不一致性,零樣本學習和少樣本學習旨在解決不同種類之間的不一致性。而圖像合成旨在解決合成圖中前景和背景之間的不一致性。圖像合成可以拆分成若干子問題,分別解決不同方面的不一致性。1. 前景和背景可能是在不同拍攝環境下拍攝的,顏色光照不和諧,需要用圖像和諧化 (image harmonization) 技術對前景進行調整,使其和背景看起來和諧。2. 新加的前景可能會對背景產生影響,比如陰影反光等,需要為前景物體添加合理的陰影或者反光 (shadow/reflection generation)。3. 前景的位置大小可能不合理,需要為前景找到合適的位置大小 (object placement)。4. 前景和背景的透視可能不一致,需要對前景進行幾何變換 (spatial transformation)。上述四個子問題,前兩者旨在解決外觀上的不一致性,後兩者旨在解決幾何上的不一致性。之前的相關工作致力於解決其中一個或者多個子問題,但是非常零散,不成系統,並且沒有統一的數據集,不利於圖像合成領域的發展。我之所以對圖像合成這個領域感興趣主要有以下幾點原因:1. 第一次看到圖像和諧化任務,我就覺得它和域翻譯 (domain translation) 有關係,屬於我熟悉的遷移學習領域。2. 之前和Versa 初創公司合作過,他們致力於做手機版的photoshop, 圖像合成是他們的一大業務,圖像和諧化這個功能需求也是他們提出來的。3. 我個人是Adobe的粉絲,大一的時候花了大量時間研究photoshop, 愛好藝術設計和合成圖製作。出於上述原因,我就開始做圖像合成這方面的研究,但是這個方向比較小眾,可能不會有high citation/impact, 並且不太好吹牛。之前寫基金本子也都是從遷移學習的角度寫,因為比較好吹牛。寫本子的時候可以說遷移學習能夠改變世界,但是很難說圖像合成能夠改變世界。所以現在從事圖像合成方面的研究,像是在建造一個橋頭堡,進可攻,退可守,一旦做不下去了就退回到遷移學習的大本營,畢竟這個大家族還有很多東西可以深挖。相比較圖像合成,圖像生成的關注度要高很多,但圖像生成的精細程度有時候很難滿足人的需求,比如想生成一隻特定的貓,即使在生成器裡加很多條件信息 (conditional information),也未必能夠生成完全符合預期的貓。但是如果已經有一張理想的貓的圖片,就可以把貓摳出來和背景圖片結合,經過圖像合成技術的處理得到一張高質量的合成圖。因此,圖像合成在一定程度上填補了精細化圖像生成的空白。圖像合成在工業界也有一些應用,比如虛擬社交、海報設計、廣告圖片生成等等。我們已經和一些公司建立了合作關係,也在試圖和更多公司建立合作關係。接下來,分別從圖像和諧化、前景陰影生成、前景擺放幾方面簡單介紹一下。
下面提到的資料庫和方法都可以在我們實驗室的GitHub主頁上https://github.com/bcmi找到。03
圖像和諧化圖像和諧化旨在對合成圖的前景進行顏色光照的調節,使其和背景和諧。比如下面這張合成圖,前景和背景看起來非常不和諧,我們需要用圖像和諧化的技術對前景進行調整,得到一張和諧的合成圖。我們公布了圖像和諧化領域首個大規模數據集iHarmony4, 通過對真實圖片的前景物體做調整的方式得到成對的前景不和諧和前景和諧的圖片。在iHarmony4公布之前,做圖像和諧化的工作很少,但最近感覺做圖像和諧化的工作逐漸多起來了。我們在後續圖像和諧化研究的過程中發現了iHarmony4資料庫的一些不足,也打算修正這些不足,發布一個升級版的iHarmony4。我們從域翻譯 (domain translation) 的角度考慮圖像和諧化任務,先後提出了基於域驗證 (domain verification) 的DoveNet和基於背景引導的域翻譯 (background-guided domain translation) 的BargainNet. 我們把不同的拍攝環境(季節、天氣、時間)當作不同的域,因此有無數種可能的域,並且每張圖片沒有明確的域標籤。合成圖中的前景和背景屬於不同的域,我們需要對前景做域翻譯,把前景轉換到背景所屬的域。BargainNet和DoveNet相比,方法更簡潔,訓練更穩定,並且可以預測一張合成圖的不和諧程度。這是一個非常實用的功能,給定一張合成圖,如果預測出來的和諧程度很高,就沒必要再做圖像和諧化了。DoveNet和BargainNet的想法很好,但說實話性能已經不是SOTA了,刷性能還是得靠調參和魔改網絡結構。如果大家想做圖像和諧化任務,可以多看看圖像增強 (image enhancement) 和圖像填充 (image inpainting) 的論文,借(抄)鑑(抄)他們的方法。另外,我們也基於3D軟體生成渲染圖片,通過插件控制生成同一場景在不同拍攝環境下的一組圖片,然後交換組內圖片的前景,構建基於渲染圖片的數據集RHHarmony。目前,RHHarmony只包含了人物前景,我們正在構建其他種類前景的渲染圖片數據集。
其實,圖像合成的很多問題都可以用真實圖片和渲染圖片兩條腿走路,打通真實世界和虛擬世界的壁壘。前景陰影生成前景物體陰影生成旨在對合成圖中新加的前景物體根據背景的光照環境添加合理的陰影。之前有相關工作比如ARShadowGAN基於渲染圖片做的,在3D環境中插入一個新物體,用渲染技術生成陰影,根據這種方式得到成對的前景沒有陰影和前景有陰影的圖片。但是該工作公布的資料庫前景和背景非常簡單,缺乏變化,和真實複雜場景相距甚遠。我們嘗試用他們的資料庫和方法為真實圖片的前景物體生成陰影,完全不work。所以我們仿照iHarmony4資料庫的構建方式,給有陰影的真實圖片人工去除陰影,得到成對的前景有陰影和前景沒有陰影的圖片,構建了DESOBA數據集。
前景位置擺放前景物體擺放旨在為前景物體尋找合適的位置大小。在尋找合適位置大小的時候需要考慮諸多因素,比如物體大小是否合適,是否出現在應該出現的地方,和其它物體的遮擋關係是否合理,有沒有受力支撐,透視是否合理等等。因為需要考慮的因素很多,前景物體擺放實際上是一個很複雜的問題。我們定義了前景物體擺放三個層級的任務。
第一個層級的任務是給定一張合成圖,判斷前景的位置大小是否合理,這是一個二分類問題。第二個層級的任務是給定一個前景物體和一張背景圖,得到一張合理的合成圖,這是一個生成問題,或者說是搜索問題。第三個層級的任務是給定一個前景物體和一張背景圖,得到所有合理的合成圖。但是得到所有合理的合成圖不太現實,可以降低要求,得到儘可能多的合理的合成圖。有意思的是第一層級的任務都很少有人做。我們構建了一個判斷前景物體擺放是否合理的數據集OPA, 包含幾萬張合成圖和每張合成圖的合理性標籤。關於第二層級和第三層級的任務,之前也有方法比如ST-GAN做過,但是局限於特殊的簡單場景,我們嘗試用他們的方法做真實的複雜場景,完全不work,所以這個領域還有非常大的研究空間。
構圖評估在前景物體擺放的任務中,如果已經滿足了合理性的要求,我們可以提出更高的要求,不僅要合理,而且要美觀,這個時候就需要考慮一些視覺平衡因素或者構圖法則。
在擺放前景物體的時候,不僅位置大小要合理,而且希望得到的合成圖在構圖方面比較美觀,這就涉及到美學評估的問題。為了專門研究構圖問題,我們找了美術專業的學生為接近一萬張圖片的構圖質量進行打分,公布了構圖評分CADB數據集。 我們不僅需要給出構圖評分,而且要提供具有可解釋性的評分依據。
04
https://bcmi.sjtu.edu.cn/~niuli/download/From_Transfer_Learning_to_Image_Composition.pdf上述介紹的內容都可以在這個slides 裡面找到,並且這個slides有更多的插圖和細節描述。歡迎關注圖像合成領域,歡迎關注我們實驗室的工作,謝謝!
—版權聲明—
僅用於學術分享,版權屬於原作者。
若有侵權,請聯繫微信號:yiyang-sy 刪除或修改!