從遷移學習到圖像合成

2021-12-19 新機器視覺

點擊下方卡片,關注「新機器視覺」公眾號

視覺/圖像重磅乾貨,第一時間送達

地址:https://zhuanlan.zhihu.com/p/376423478

01

遷移學習現在很火,在人工智慧各個領域都有廣泛應用。遷移學習是一個大家族,按照遷移對象可以分為不同域 (domain) 之間的遷移,不同種類 (category) 之間的遷移,不同模型 (model) 之間的遷移,不同模態 (modality) 之間的遷移,不同任務 (task) 之間的遷移等等。具體來說,不同域之間的遷移包括域適應 (domain adaptation) , 域泛化 (domain generalization) 等。不同種類之間的遷移包括零樣本學習 (zero-shot learning) ,少樣本學習 (few-shot learning) 等。不同模型之間的遷移主要包括知識蒸餾 (knowledge distillation)。不同模態之間的遷移包括多視圖學習 (multi-view learning) , 特權信息學習 (learning using privileged information) 等。不同任務之間的遷移包括多任務學習 (multi-task learning) ,自監督學習 (self-supervised learning) 等。自監督學習可以看成是其中某些任務不需要人工標註的多任務學習。我對上述研究方向多多少少都有所涉獵,博士期間主要做域適應、域泛化、多視圖學習、特權信息學習等, 博士後期間轉向做零樣本學習,入職上交之後繼續做零樣本學習、開始做少樣本學習、自監督學習等,其中兩個重點研究的方向是零樣本語義分割和少樣本圖像生成,感興趣的話可以看一下我之前的公眾號文章。

02

 後來,我因為陰差陽錯進入到圖像合成這個領域,意識到遷移學習和圖像合成之間的內在關聯,便把研究方向從遷移學習擴展到圖像合成。圖像合成 (image composition) 是指把一張圖片的前景剪切下來,粘貼到另外一張背景圖片上,得到一張合成圖。但是得到的合成圖可能會有很多問題,比如前景和背景顏色光照不一致,前景的位置大小不合理等,這些都會讓合成圖看起來不真實,影響合成圖的質量。圖像合成的問題定義非常簡潔,但是涉及到的子問題卻包羅萬象,這也是圖像合成問題的迷人之處。在遷移學習中,域適應和域泛化旨在解決不同域之間的不一致性,零樣本學習和少樣本學習旨在解決不同種類之間的不一致性。而圖像合成旨在解決合成圖中前景和背景之間的不一致性。圖像合成可以拆分成若干子問題,分別解決不同方面的不一致性。1. 前景和背景可能是在不同拍攝環境下拍攝的,顏色光照不和諧,需要用圖像和諧化 (image harmonization) 技術對前景進行調整,使其和背景看起來和諧。2. 新加的前景可能會對背景產生影響,比如陰影反光等,需要為前景物體添加合理的陰影或者反光 (shadow/reflection generation)。3. 前景的位置大小可能不合理,需要為前景找到合適的位置大小 (object placement)。4. 前景和背景的透視可能不一致,需要對前景進行幾何變換 (spatial transformation)。上述四個子問題,前兩者旨在解決外觀上的不一致性,後兩者旨在解決幾何上的不一致性。之前的相關工作致力於解決其中一個或者多個子問題,但是非常零散,不成系統,並且沒有統一的數據集,不利於圖像合成領域的發展。我之所以對圖像合成這個領域感興趣主要有以下幾點原因:1. 第一次看到圖像和諧化任務,我就覺得它和域翻譯 (domain translation) 有關係,屬於我熟悉的遷移學習領域。2. 之前和Versa 初創公司合作過,他們致力於做手機版的photoshop, 圖像合成是他們的一大業務,圖像和諧化這個功能需求也是他們提出來的。3. 我個人是Adobe的粉絲,大一的時候花了大量時間研究photoshop, 愛好藝術設計和合成圖製作。出於上述原因,我就開始做圖像合成這方面的研究,但是這個方向比較小眾,可能不會有high citation/impact, 並且不太好吹牛。之前寫基金本子也都是從遷移學習的角度寫,因為比較好吹牛。寫本子的時候可以說遷移學習能夠改變世界,但是很難說圖像合成能夠改變世界。所以現在從事圖像合成方面的研究,像是在建造一個橋頭堡,進可攻,退可守,一旦做不下去了就退回到遷移學習的大本營,畢竟這個大家族還有很多東西可以深挖。相比較圖像合成,圖像生成的關注度要高很多,但圖像生成的精細程度有時候很難滿足人的需求,比如想生成一隻特定的貓,即使在生成器裡加很多條件信息 (conditional information),也未必能夠生成完全符合預期的貓。但是如果已經有一張理想的貓的圖片,就可以把貓摳出來和背景圖片結合,經過圖像合成技術的處理得到一張高質量的合成圖。因此,圖像合成在一定程度上填補了精細化圖像生成的空白。圖像合成在工業界也有一些應用,比如虛擬社交、海報設計、廣告圖片生成等等。我們已經和一些公司建立了合作關係,也在試圖和更多公司建立合作關係。接下來,分別從圖像和諧化、前景陰影生成、前景擺放幾方面簡單介紹一下。下面提到的資料庫和方法都可以在我們實驗室的GitHub主頁上https://github.com/bcmi找到。

03

圖像和諧化圖像和諧化旨在對合成圖的前景進行顏色光照的調節,使其和背景和諧。比如下面這張合成圖,前景和背景看起來非常不和諧,我們需要用圖像和諧化的技術對前景進行調整,得到一張和諧的合成圖。我們公布了圖像和諧化領域首個大規模數據集iHarmony4, 通過對真實圖片的前景物體做調整的方式得到成對的前景不和諧和前景和諧的圖片。在iHarmony4公布之前,做圖像和諧化的工作很少,但最近感覺做圖像和諧化的工作逐漸多起來了。我們在後續圖像和諧化研究的過程中發現了iHarmony4資料庫的一些不足,也打算修正這些不足,發布一個升級版的iHarmony4。我們從域翻譯 (domain translation) 的角度考慮圖像和諧化任務,先後提出了基於域驗證 (domain verification) 的DoveNet和基於背景引導的域翻譯 (background-guided domain translation) 的BargainNet. 我們把不同的拍攝環境(季節、天氣、時間)當作不同的域,因此有無數種可能的域,並且每張圖片沒有明確的域標籤。合成圖中的前景和背景屬於不同的域,我們需要對前景做域翻譯,把前景轉換到背景所屬的域。BargainNet和DoveNet相比,方法更簡潔,訓練更穩定,並且可以預測一張合成圖的不和諧程度。這是一個非常實用的功能,給定一張合成圖,如果預測出來的和諧程度很高,就沒必要再做圖像和諧化了。DoveNet和BargainNet的想法很好,但說實話性能已經不是SOTA了,刷性能還是得靠調參和魔改網絡結構。如果大家想做圖像和諧化任務,可以多看看圖像增強 (image enhancement) 和圖像填充 (image inpainting) 的論文,借(抄)鑑(抄)他們的方法。另外,我們也基於3D軟體生成渲染圖片,通過插件控制生成同一場景在不同拍攝環境下的一組圖片,然後交換組內圖片的前景,構建基於渲染圖片的數據集RHHarmony。目前,RHHarmony只包含了人物前景,我們正在構建其他種類前景的渲染圖片數據集。其實,圖像合成的很多問題都可以用真實圖片和渲染圖片兩條腿走路,打通真實世界和虛擬世界的壁壘。前景陰影生成前景物體陰影生成旨在對合成圖中新加的前景物體根據背景的光照環境添加合理的陰影。之前有相關工作比如ARShadowGAN基於渲染圖片做的,在3D環境中插入一個新物體,用渲染技術生成陰影,根據這種方式得到成對的前景沒有陰影和前景有陰影的圖片。但是該工作公布的資料庫前景和背景非常簡單,缺乏變化,和真實複雜場景相距甚遠。我們嘗試用他們的資料庫和方法為真實圖片的前景物體生成陰影,完全不work。所以我們仿照iHarmony4資料庫的構建方式,給有陰影的真實圖片人工去除陰影,得到成對的前景有陰影和前景沒有陰影的圖片,構建了DESOBA數據集。前景位置擺放前景物體擺放旨在為前景物體尋找合適的位置大小。在尋找合適位置大小的時候需要考慮諸多因素,比如物體大小是否合適,是否出現在應該出現的地方,和其它物體的遮擋關係是否合理,有沒有受力支撐,透視是否合理等等。因為需要考慮的因素很多,前景物體擺放實際上是一個很複雜的問題。我們定義了前景物體擺放三個層級的任務。第一個層級的任務是給定一張合成圖,判斷前景的位置大小是否合理,這是一個二分類問題。第二個層級的任務是給定一個前景物體和一張背景圖,得到一張合理的合成圖,這是一個生成問題,或者說是搜索問題。第三個層級的任務是給定一個前景物體和一張背景圖,得到所有合理的合成圖。但是得到所有合理的合成圖不太現實,可以降低要求,得到儘可能多的合理的合成圖。有意思的是第一層級的任務都很少有人做。我們構建了一個判斷前景物體擺放是否合理的數據集OPA, 包含幾萬張合成圖和每張合成圖的合理性標籤。關於第二層級和第三層級的任務,之前也有方法比如ST-GAN做過,但是局限於特殊的簡單場景,我們嘗試用他們的方法做真實的複雜場景,完全不work,所以這個領域還有非常大的研究空間。構圖評估在前景物體擺放的任務中,如果已經滿足了合理性的要求,我們可以提出更高的要求,不僅要合理,而且要美觀,這個時候就需要考慮一些視覺平衡因素或者構圖法則。在擺放前景物體的時候,不僅位置大小要合理,而且希望得到的合成圖在構圖方面比較美觀,這就涉及到美學評估的問題。為了專門研究構圖問題,我們找了美術專業的學生為接近一萬張圖片的構圖質量進行打分,公布了構圖評分CADB數據集。 我們不僅需要給出構圖評分,而且要提供具有可解釋性的評分依據。

04

 https://bcmi.sjtu.edu.cn/~niuli/download/From_Transfer_Learning_to_Image_Composition.pdf上述介紹的內容都可以在這個slides 裡面找到,並且這個slides有更多的插圖和細節描述。歡迎關注圖像合成領域,歡迎關注我們實驗室的工作,謝謝!

—版權聲明—

僅用於學術分享,版權屬於原作者。

若有侵權,請聯繫微信號:yiyang-sy 刪除或修改!

相關焦點

  • 基於同質區和遷移學習的高光譜圖像半監督分類
    而我們獲得的許多有標記樣本的遙感圖像可能不滿足這個條件,直接用於構建待分類遙感圖像的分類器效果不是很理想,若重新標記新的數據來訓練模型以適應新的數據分布,代價太高且費時費力。針對這一問題,本文提出了一種基於同質區和遷移學習的半監督高光譜圖像分類方法。
  • 【芥末翻】從2D圖像到3D實境, 是什麼阻礙了幼兒的遷移學習?
    但這項研究同樣指出,兒童在電視屏幕上學到的很少,而從真實的演示中學到的較多,至少在三歲以前是這樣,這被稱為「視頻缺陷效應」。此文獻綜述的目的有以下幾點:(1)回顧梳理兒童幼年時期在2D圖像和3D實物之間進行遷移學習的各種情境;(2)運用Hayne(2004)發展性表徵靈活理論,將記憶加工發展性理論融合到媒體的遷移學習中。
  • CVPR2020 | 讓合成圖像更真實,上交大提出基於域驗證的圖像和諧化
    圖像合成 (image composition) 是圖像處理的常用操作,把前景從一張圖上剪貼下來粘貼到另一張圖上,獲得一張合成圖。合成圖可以用來獲取感興趣的目標圖像,也可以用於數據增廣,有著廣泛的應用的前景。
  • CVPR 2020|合成圖像更真實,上交大提出基於域驗證的圖像和諧化
    圖像合成 (image composition) 是圖像處理的常用操作,把前景從一張圖上剪貼下來粘貼到另一張圖上,獲得一張合成圖。合成圖可以用來獲取感興趣的目標圖像,也可以用於數據增廣,有著廣泛的應用的前景。但通過這種方式得到的合成圖存在諸多問題,比如前景的大小或位置不合理、前景和背景看起來不和諧等等。
  • 遷移學習理論與實踐
    顧名思義,遷移學習就是利用數據、任務或模型之間的相似性,將在舊的領域學習過或訓練好的模型,應用於新的領域這樣的一個過程。從這段定義裡面,我們可以窺見遷移學習的關鍵點所在,即新的任務與舊的任務在數據、任務和模型之間的相似性。在很多沒有充分數據量的特定應用上,遷移學習會是一個極佳的研究方向。正如圖9.1中吳恩達所說,遷移學習會是機器學習在未來五年內的下一個驅動力量。遷移學習到底在什麼情況下使用呢?
  • 盤點 | 對比圖像分類五大方法:KNN、SVM、BPNN、CNN和遷移學習
    近日,Shiyu Mou 在 Medium 上發表了一篇文章,對五種用於圖像分類的方法(KNN、SVM、BP 神經網絡、CNN 和遷移學習)進行了實驗比較,該研究的相關數據集和代碼也已經被發布在了 GitHub 上。
  • 深度學習在圖像處理中的應用趨勢及常見技巧
    目前為止,圖像處理已成為深度學習中重要的研究領域,幾乎所有的深度學習框架都支持圖像處理工具。當前深度學習在圖像處理領域的應用可分為三方面:圖像處理(基本圖像變換)、圖像識別(以神經網絡為主流的圖像特徵提取)和圖像生成(以神經風格遷移為代表)。本文第一部分介紹深度學習中圖像處理的常用技巧,第二部分淺析深度學習中圖像處理的主流應用,最後對本文內容進行簡要總結。
  • 聯邦學習 OR 遷移學習?No,我們需要聯邦遷移學習
    圖 1 示出了經典機器學習技術和遷移學習技術的學習過程之間的區別。可以看出,經典機器學習技術試圖從零開始學習每一個任務,而遷移學習技術則是在目標任務的高質量訓練數據較少的情況下,將前一個任務的知識轉移到目標任務上。
  • 對比圖像分類五大方法:KNN、SVM、BPNN、CNN 和遷移學習
    近日,Shiyu Mou 在 Medium 上發表了一篇文章,對五種用於圖像分類的方法(KNN、SVM、BP 神經網絡、CNN 和遷移學習)進行了實驗比較,該研究的相關數據集和代碼也已經被發布在了 GitHub 上。
  • 今日Paper|TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測解決...
    目錄REFORMER:一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正 具有文本指導的圖像到圖像的翻譯 論文名稱:Image-to-Image Translation with Text Guidance作者:Li Bowen /Qi Xiaojuan /Torr Philip H. S.
  • 使用PyTorch進行遷移學習
    知識轉移發生在一個領域的專家到一個面對新領域的新手。神經網絡和卷積神經網絡就是從零開始學習的例子。這兩個網絡都從給定的一組圖像中提取特徵(對於與圖像相關的任務),然後根據這些提取的特徵將圖像分類到各自的類中。這就是遷移學習和預訓練的模型非常有用的地方。讓我們在下一節中了解一下後一個概念。什麼是預訓練模型?如何選擇正確的預訓練模型?在你將要從事的任何深度學習項目中,預訓練的模型都是非常有用的。
  • ImageNet圖像合成獲最優結果!
    圖像合成是計算機視覺中的一個重要問題。谷歌大腦的Ian Goodfellow等人在他們的最新研究中提出「自注意力生成對抗網絡」(SAGAN),將自注意力機制引入到卷積GAN中,作為卷積的補充,在ImageNet多類別圖像合成任務中取得了最優的結果。圖像合成(Image synthesis)是計算機視覺中的一個重要問題。
  • 今日Paper | TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測...
    REFORMER:一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯>解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正 基於跨模態自我注意網絡學習的視頻問題生成   REFORMER:一個高效的TRANSFORMER結構論文名稱
  • 【乾貨】楊強:從機器學習到遷移學習 GAITC 演講(附PPT)
    它突出的一點叫做端到端的學習,就是說我們在這裡看到一個計算機的遊戲,這個遊戲的影像是輸入端,輸出端就是你要進行的下一個動作。這個動作是正確還是不正確,到最後會獲得一個反饋,這個反饋不一定是現在得到,也許是後面幾步得到的。這一點和我們剛剛講的深度學習在圖像上面的應用,就大不一樣。就更加複雜,更加契合人的行為,所以強化學習也是下一個突破。
  • 開發者分享 | 基於最新版本MindSpore的圖像和文本分類遷移學習
    MindSpore社區在7月剛剛為大家獻上全新的1.3版本,本篇文章的作者李響緊跟官方發布版本的速度為大家分享了基於MindSpore 1.3的學習教程,大家一起來看看吧~基於MindSpore 1.3 的圖像分類遷移學習作者基於 MindSpore1.3 開發圖像分類遷移學習(下面是關鍵步驟的解釋說明)
  • 入門 | 簡述遷移學習在深度學習中的應用
    遷移學習是一種機器學習方法,就是把為任務 A 開發的模型作為初始點,重新使用在為任務 B 開發模型的過程中。深度學習中在計算機視覺任務和自然語言處理任務中將預訓練的模型作為新模型的起點是一種常用的方法,通常這些預訓練的模型在開發神經網絡的時候已經消耗了巨大的時間資源和計算資源,遷移學習可以將已習得的強大技能遷移到相關的的問題上。
  • 神經渲染最新進展與算法(一):語義圖像合成
    語義圖像合成是神經渲染技術的重要分支。在生成對抗網絡等深度學習方法基礎上,語義圖像合成近兩年取得了許多令人印象深刻的進展,比如GauGAN等。本文簡單介紹了神經渲染,著重分析了語義圖像合成的一些最新應用。本文還分析了語義圖像合成的最新算法實現結構、新型算子及計算特徵。通過深入理解神經渲染相關技術,我們也期望能借鑑和吸收其中的創新思路,應用到物理仿真等AI融合科學計算領域。
  • 5個最新圖像合成GAN架構解讀:核心理念、關鍵成就、商業化路徑
    本文總結了5個最近推出的用於圖像合成的GAN架構,對論文從核心理念、關鍵成就、社區價值、未來商業化及可能的落地應用方向對論文進行解讀,對創業者、開發者、工程師、學者均有非常高的價值。多域圖像到圖像翻譯的統一生成網絡。
  • DeepMind端到端對抗語音合成
    該研究提出了一種叫做 COSPAR 的算法,它可以將合作學習應用於下肢外骨骼操作時對人類偏好的適應,並在模擬和真人實驗中進行了測試。研究者表示,未來計劃將 COSPAR 用於優化規模更大的步態參數,但可能需要集成該算法與更多可用於高維特徵空間學習的技術。這一方法還可以擴展到預計算步態庫以外的數據,進而生成全新的步態或者控制器設計。
  • 無需GPU,只用OpenCV和Python實現圖像和視頻的風格遷移
    編者按:在這篇教程中,作者Adrian Rosebrock將教你如何用OpenCV、Python和深度學習技術對圖像和實時視頻進行神經風格遷移。