圖像也能做情感遷移?羅切斯特大學團隊提出計算機視覺新任務

2021-01-11 澎湃新聞

機器之心報導

編輯:魔王

圖像風格遷移?語音情感遷移?不,是圖像情感遷移。

計算機視覺領域中有很多任務,如目標檢測、圖像轉換、風格遷移等,但你聽說過「圖像情感遷移」嗎?

羅切斯特大學羅傑波教授團隊提出了這項研究任務 [1]。與其他計算機視覺任務相比,圖像情感遷移更有挑戰性,需要對圖像中的每個物體進行不同的情感遷移。該研究提出一種靈活有效的物體級圖像情感遷移框架和新模型 SentiGAN,實驗證明該框架可以有效執行物體級圖像情感遷移。

什麼是圖像情感遷移?

圖像情感遷移是一個待探索的新型研究任務。與圖像轉換、圖像風格遷移和面部表情遷移任務相比,圖像情感遷移關注更高級更抽象的對圖像整體外觀和感覺的修改,而不改變其場景內容。如圖 1a 所示,將渾濁的海水變得清澈並給海鳥著色後,原本傳遞中性或消極情感的圖像變得積極溫暖,而圖像中的內容並未被更改。

與圖像轉換和圖像風格遷移相比,該研究認為圖像情感遷移更具挑戰性。其中一個難點在於對不同類別的物體進行情感遷移時需要使用不同的規則。這有別於風格遷移,後者可以將一種繪畫風格統一添加給圖像中的所有物體。如圖 1 所示,要讓輸入圖像具備積極情感,應把海水遷移成清澈的藍色,海鳥遷移成彩色的。這兩種操作不是基於同一張參考圖像,否則就會像圖 1b 和 1c 那樣不真實。

解決方案

為了解決這一挑戰,該研究提出了一種有效框架,可以在物體級別執行圖像情感遷移。整個過程可分為兩步:

1. 給定一張輸入圖像,該框架利用圖像描述生成模型和語義分割模型檢測所有物體,找出其像素級掩碼。結合使用兩個模型的目的是,維護高質量的物體掩碼,同時大幅擴大物體集的範圍。

2. 對於輸入圖像中每一個檢測出的物體,使用包含同樣物體的參考圖像進行情感遷移。該設計成功地解決了前述問題,並使框架保持強大的靈活性,例如用戶可以給輸入圖像中的每一個物體賦予不同的情感。此外,它還可以使用戶無需提供參考圖像,直接輸入想要賦予每一個檢測出物體的情感詞彙即可執行情感遷移(如對鳥輸入「colorful」、對天空輸入「sunny」、對山輸入「magnificent」)。有了物體和情感詞彙,系統就可以自動檢索對應的參考圖像,並執行情感遷移。

該框架的整體性能由第二步決定,即目標級情感遷移。這裡可以直接應用風格遷移模型,但是情感遷移任務需要遷移後的圖像看起來自然,不需要局部模式(如紋理)的顯式遷移,而這正是風格遷移模型的固有元素。因此,研究人員轉而利用多模態圖像轉換模型,如 MUNIT 和 DRIT。它們可以分離內容和風格信息,為輸入圖像保存更多基於內容的元素。只需要對這些雙領域映射模型做簡單的修改,就可以使其適用於情感遷移任務,而這並不會明顯限制輸入和遷移圖像的域。

但是,使用以上模型仍然存在缺陷。首先,MUNIT 和 DRIT 最初是為圖像級變換任務設計的,它們在細粒度物體級遷移任務上表現不好。第二個問題與情感遷移的本質有關。相比於輪廓、紋理和繪畫風格,圖像情感更敏感,往往與基於顏色的元素有關,如對比度、飽和度、亮度和主色。

理想情況下,我們希望模型能夠將輸入圖像的這些元素完全遷移為參考圖像。現有的多模態模型通常將視覺表示分解為內容碼和風格碼。遷移即通過自適應實例歸一化 (AdaIN),將參考圖像 / 物體的風格碼注入輸入圖像 / 物體的內容碼。但是,如下圖 2 所示,具備不同內容碼的物體即使使用相同的風格碼,得到的整體色彩分布仍然大不相同。這表明,現有模型無法充分將色彩信息和內容碼分離開,因而導致不完全的顏色遷移。

為解決以上缺陷,該研究提出了一種新方法 Sentiment-aware GAN (SentiGAN)。對於第一種缺陷,該研究創建了對應的物體級損失函數,與圖像級損失一起訓練模型。對於第二種缺陷,其解決方案基於以下觀察:額外遷移內容碼全局信息可以更好地遷移輸入物體的顏色信息。同時,研究人員還通過維護空間信息來阻止其他內容信息(如紋理)的改變。為此,他們使用有效的約束,使遷移物體的內容碼與參考物體的內容碼全局接近,但與輸入物體的內容碼局部接近。這些約束通過訓練過程中的內容分離損失和推斷過程中的內容對齊步驟來實現。該研究表明這兩種方法具備互補性,能夠顯著提高情感遷移的性能。

該研究提出的圖像風格遷移框架如下圖 3 所示:

框架原理如下:

給定輸入圖像,首先執行物體掩碼提取來提取物體和對應的掩碼;然後使用圖像描述生成和圖像語義分割來獲取所有物體和高質量掩碼;最後,使用 SentiGAN 逐個物體地執行情感遷移。

核心組件 SentiGAN 的架構如下圖所示:

實驗

研究人員創建了三個任務來評估圖像情感遷移模型的性能。這三個任務均基於 50 張選自測試集的輸入圖像,這些圖像具備精確的物體掩碼和相對中性或模糊的情感信息(方便向積極或消極情感方向遷移)。

任務 1:粗粒度情感遷移

第一個任務旨在衡量模型在執行圖像粗粒度情感遷移時的性能。研究人員訓練一個圖像情感二分類模型來用於預測提取測試集中的典型積極圖像和典型消極圖像。對於每一張輸入圖像,不同的情感遷移模型可從十組採樣的積極參考圖像和十組採樣的消極參考圖像中,對輸入圖像進行情感遷移。圖像情感分類模型對於各個情感遷移模型得到的遷移圖形評估結果參見下表 1:

從表 1 中可以看出,SentiGAN 獲得了最高的平均真正率和真負率。這表明,SentiGAN 可以有效執行圖像粗粒度情感遷移。

此外,研究人員還請五位志願者從 SentiGAN 輸出的 500 張遷移圖像對(積極圖像和消極圖像)中選擇積極圖像。如表 2 所示,選擇正確的概率為 72.4%,這表明情感遷移效果可以被用戶觀察到。圖 5 展示了 SentiGAN 輸出的情感遷移示例。

任務 2:驗證物體級情感遷移的效果

第二個任務是驗證物體級情感遷移的效果。

研究人員令 SentiGAN 執行三種遷移策略——物體 級遷移、全局遷移、非對應物體的物體級遷移,並生成 50 組遷移圖像。令五位志願者在每組中選擇最真實的圖像,每人負責 50 組。如表 3 所示,對於大多數組,志願者認為目標級情感遷移生成的圖像最真實,這與圖 7 示例表現一致。

任務 3:遷移圖像與參考圖像間的情感一致性

第三個任務是評估遷移圖像和參考圖像之間的情感一致性(sentiment consistency)。研究者對每個輸入圖像收集了不同模型預測的遷移圖像,並請五位志願者從中選擇出一或多個與參考圖像最具情感一致性的遷移圖像。

如下表 4 所示,SentiGAN 獲得了最高的選中率,而且大幅領先,這表明它在遷移參考圖像的情感中實現了最優性能。示例參見圖 6。

羅傑波教授團隊還提出了一種基於全局的圖像情感遷移方法 [2],感興趣的讀者可查看原論文。

參考文獻

[1] Image Sentiment Transfer

Authors: Tianlang Chen, Wei Xiong, Haitian Zheng, Jiebo Luo. 2020 ACM Multimedia Conference. arXiv: 2006.11337.

[2] Global Image Sentiment Transfer

Authors: Jie An, Tianlang Chen, Songyang Zhang, Jiebo Luo. 2020 International Conference on Pattern Recognition. arXiv:2006.11989.

11 月 14 日,DevRun 開發者沙龍華為雲即將登陸上海。華為雲技術大咖將帶領開發者玩轉 ModelArts,並解讀華為雲 IoT 服務與 AI 如何實現互通;聚焦華為雲 ModelArts 和 IoT 智能設備,為開發者帶來一場乾貨滿滿的技術盛宴。掃描二維碼,參與報名。

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com喜歡此內容的人還喜歡

原標題:《圖像也能做情感遷移?羅切斯特大學團隊提出計算機視覺新任務》

閱讀原文

相關焦點

  • 國內外有名的計算機視覺團隊和大牛匯總
    近年來,其團隊在不確定性數據,sensor network方面也發表了一系列有名文章。李教授為人師表,教書育人都做得了最好,在圈內是讓人稱道的好老師和好學者。唐傑:http://keg.cs.tsinghua.edu.cn/jietang/,清華大學副教授,是圖挖掘方面的專家。
  • 4個計算機視覺領域常用遷移學習模型
    但是這些教程的主要功能是為你在現實場景中實現做準備。現在,如果你計劃建立一個利用深度學習的人工智慧系統,你要麼(i)有一個非常大的預算用於培訓優秀的人工智慧研究人員,或者(ii)可以從遷移學習中受益。什麼是遷移學習?
  • 在知識爆炸的時代,「知識遷移學習方法」你get了嗎?
    在過去二、三十年中,知識遷移已在包括文本挖掘、語音識別、計算機視覺、評價系統等諸多領域獲得成功,並在許多實際場景中取得良好應用。如百科文檔到博客文本、搜索圖像到網頁頁面、書籍評價到電影評價等一系列不同領域間知識的提煉、轉換與映射,均從屬於知識遷移理論。 心理學認為,知識遷移是反映人類心理認知過程的一種概念;是人類學習的一種方法;通過一種學習影響另一種學習。
  • 今日Paper|小樣本學習;視覺情感分類;神經架構搜索;自然圖像摳像等
    以下是今日的精選內容——目錄基於深度學習的步行者慣性導航:方法、數據集和設備推理用於視覺情感分類的多源域自適應用多尺度自監督表徵提高小樣本學習的表現from=leiphonecolumn_paperreview0117這篇論文考慮的是視覺情感分類問題。視覺情感分類任務的現有域自適應方法通常是針對單源場景。在這種場景中,模型從充分標註好的源領域數據學習完畢後,遷移到只有較寬鬆標註或無標註數據的目標領域。
  • CVPR18最佳論文演講:研究任務之間的聯繫才是做遷移學習的正確姿勢
    相比於我們看慣了的為各種任務刷分的研究,這篇論文可謂是一股計算機視覺領域的春風。CVPR 2018 期間雷鋒網 AI 科技評論作為唯一註冊媒體進行現場報導,也參加聆聽了這篇論文的現場演講。演講者為論文第一作者 Amir R. Zamir,他是斯坦福和 UC 伯克利大學的博士後研究員。
  • 一文帶你讀懂計算機視覺
    原文連結:https://towardsdatascience.com/learning-computer-vision-41398ad9941f最近,我已經閱讀了很多與計算機視覺相關的資料並做了大量實驗
  • 計算機視覺:從入門到精通,極限剖析圖像識別學習算法
    如何做好計算機視覺的研究工作,迎接更廣闊的未來職業發展,能夠上手應用,編寫屬於自己的神經網絡和計算機視覺應用?
  • 快速掌握計算機視覺大部分領域,學習人臉圖像是唯一選擇
    文末有驚喜筆者是從傳統圖像算法開始進入計算機視覺行業的,那一批人基本上都是從人臉圖像和文本圖像開始學,而如今很多計算機視覺從業者卻從來沒有接觸過人臉圖像相關的算法,或許真的是時代變了吧。但筆者想說的是,如果你想快速系統地串聯計算機視覺領域的知識,人臉圖像應該是唯一選擇,沒有其他類型的圖像可以覆蓋底層圖像特徵,目標檢測與跟蹤,圖像分類和檢索,圖像濾波,圖像分割,三維重建,風格遷移等方向,並且能夠做到相互融合從而進行工業界落地。如果你還不知道人臉圖像能做什麼,不如看一看上面的1分鐘視頻,然後我們接下來細看到底都有些什麼。
  • 2018最具突破性計算機視覺論文Top 10
    由於計算機視覺和圖像生成對於AI應用的重要性和普及性,本文中,我們總結了2018年最重要的10篇視覺相關的研究。這篇論文介紹了球形CNN的基本構建塊。我們提出了利用廣義傅立葉變換(FFT)進行快速群卷積(互相關)的操作。
  • 風格遷移新方法:微軟與上海交大提出深度圖像類比技術
    據研究者稱,這種名為 Deep Image Analogy 的技術相比最近的其他研究可以得到更好的風格遷移效果,並適用於多種不同的圖像轉換任務。摘要我們提出了一種在圖片中進行視覺風格轉移的新技術,可以讓圖片進行外觀上的轉換,但保留感知上相似的紋理結構。我們的技術可以在兩個輸入圖像之間找到有意義的對應關係。
  • 基於人臉識別的計算機模型揭示了大腦是如何迅速產生豐富視覺圖像
    當前,由麻省理工大學(Massachu-setts Institute of Technology,MIT)一些認知科學家領導的團隊已經研究出了一種模型,該模型能夠具有類似人類視覺系統從圖像中快速生成詳細場景的能力,並且它還對大腦是如何做到這一點的也提供了一些見解。
  • 科大訊飛奪冠2019年度計算機視覺頂級會議CVPR和ICDAR多項評測
    )在近期舉辦的計算機視覺頂級會議CVPR 2019和文檔分析與識別頂級會議ICDAR 2019上的多項評測任務中獲得冠軍: 1.這一系列的佳績標誌著科大訊飛在計算機視覺領域的積累日益深厚,始終保持著較高的水平和探索的步伐。
  • 計算機視覺新手指南
    計算機視覺技術已經通過不同的電子商務領域以及相機應用程式進入了我們的手機。 想一想當機器能夠像人眼一樣準確地看到周圍環境時,機器還有什麼是不可以做的。人眼是一個複雜的結構,它可以理解複雜的環境現象。同樣的,可以讓機器能夠看到事物並使其具有足夠的能力去理解它們所看到的內容,從而進一步對其進行分類,這項工作仍然是非常艱巨。
  • 計算機視覺基於圖像的三維重建入門介紹
    在介紹三維重建之前先來講一下基於傳統幾何的計算機視覺相關的學習路線。入門書籍有《視覺SLAM十四講從理論到實踐》《計算機視覺-算法與應用》《計算機視覺中的多視幾何》入門視頻教程有浙江大學譚平教授的計算機視覺課程https://www.bilibili.com/video/BV124411W775高翔博士的視覺SLAM十四講從理論到實踐https
  • 【新智元乾貨】計算機視覺必讀:目標跟蹤、圖像分類、人臉識別等
    本文以計算機視覺的重要概念為線索,介紹深度學習在計算機視覺任務中的應用,包括網絡壓縮、細粒度圖像分類、看圖說話、視覺問答、圖像理解、紋理生成和風格遷移、人臉識別、圖像檢索、目標跟蹤等。網絡壓縮(network compression)儘管深度神經網絡取得了優異的性能,但巨大的計算和存儲開銷成為其部署在實際應用中的挑戰。
  • 淺談計算機視覺中的圖像標註_易車網
    什麼是計算機視覺?計算機視覺被認為是機器學習和人工智慧發展的重要領域之一。簡而言之,計算機視覺是人工智慧研究領域,致力於賦予計算機看世界和視覺解釋世界的能力。更進一步的說,計算機視覺是一門研究如何使機器「看」的科學,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。計算機視覺的應用非常廣泛,從自動駕駛汽車和無人機到醫療診斷技術和面部識別軟體,計算機視覺的應用是巨大的和革命性的。
  • 計算機視覺、機器視覺、圖像處理以及人工智慧技術
    而在這些應用場景中,視覺技術的地位可謂是非常重要。談到視覺技術,我們一般會想到攝像頭。然而,攝像頭只是視覺技術體系中的輸入端,採集圖像或視頻信息。而這些圖像或視頻信息需要利用專用的視覺技術處理之後,才能給用戶提供有用的信息。我們常聽說的視覺技術分為三類:計算機視覺、機器視覺、圖像處理。通過百度百科我們可以了解到,「計算機視覺是使用計算機及相關設備對生物視覺的一種模擬。
  • 計算機視覺英雄傳 第十四回
    Malik生於1960年,1980年本科畢業後留學斯坦福,師從偉大的計算機視覺先驅者之一Thomas O.Binford,並於1985年獲得博士學位。1986年,Malik入職加州大學伯克利分校,同時任職於伯克利的計算機科學系、生物工程系和認知與視覺科學團隊。2002-2006 期間擔任計算機科學系主任。
  • 奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新算法
    機器之心發布機器之心編輯部近日,在國際頂級的計算機視覺競賽 Pattern Analysis, Statistical Modeling and Computational Learning(PASCAL VOC)挑戰賽目標檢測 comp4 賽道上,創新奇智 (AInnovation) 研發的 AInnoDetection 目標檢測算法在 20
  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    自然語言與視覺的次元壁正在被打破。這不,OpenAI 最近連發大招,提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。OpenAI 的新工作引起了 AI 圈的一陣歡呼。