GAN進階版:一鍵實現圖像視頻卡通化

2021-01-20 騰訊網

相信大家對將照片卡通化的圖像處理功能都不陌生,通過軟體後臺對所選照片進行一定處理,將原圖變成了一張具有卡通風的圖片。市面上已有不少具備卡通化功能的軟體以及app,很多都可以「一鍵」輕鬆生成用戶想要的效果,方便處理使用。

目前該技術又迎來了新一輪的進步,只需一鍵上傳你拍攝的圖像或視頻,就可以在很短時間內將它卡通化。其核心技術來自CVPR 2020的投稿論文,其中提出了用白盒卡通表徵實現圖像卡通化。這項工作利用生成對抗網絡(GAN)框架來學習提取的表示並將圖像卡通化,已在GitHub獲得1400個Stars。作者稱,他們還計劃很快將開源所有代碼。下一步,他們的目標是通過將模型移植來適應實時視頻推理。

圖像卡通化挑戰重重

卡通相信大家都不陌生,從小時候的動畫片開始發展至今,已經成了一種流行的藝術形式,且廣泛應用於各種場景。現代卡通動畫工作流程允許藝術家使用各種資源來創作內容。通過將真實世界的圖片轉換為可用的卡通場景素材,創造了一些著名的漫畫,該過程被稱為圖像卡通化。

但是圖像卡通化聽起來簡單,實現起來可不容易。各種卡通風格需要基於特定任務或者先驗知識才能開發可用的算法。例如,某些卡通工作流程更加關注全局調色板主題,但是線條的清晰度卻是次要問題。而在其他一些工作流程中,稀疏和乾淨的色塊在藝術表達中起著主導作用,但是主題卻相對較少強調。

這些變量因素給黑盒模型帶來了不小的挑戰。例如,當面對不同用例中藝術家的不同需求時,僅靠更改訓練數據集是無濟於事的。因此有了用於圖像卡通化的CartoonGAN網絡,其中提出了一種具有新穎邊緣損失的GAN框架,並在某些情況下取得了良好的效果。但是,使用黑盒模型直接擬合訓練數據會降低其通用性和風格化質量,在某些情況下會導致較差的效果。

Joey doesn't share food 視頻卡通化效果

進階版GAN優化卡通質量

在該論文中,作者提出了一種基於GAN的白盒可控的圖像卡通化框架,該框架可以從真實圖像中生成高質量的卡通化圖像。輸入圖像被分解為三個卡通表徵:輪廓表徵,結構表徵和紋理表徵。然後使用相應的圖像處理模塊來提取用於網絡訓練的三個表徵,並且通過調整損失函數中每個表徵的權重來控制輸出風格。最後通過廣泛的定量和定性實驗驗證了文中方法的性能。同時消融實驗也證明了每個特徵表示的作用。

作者通過對人們繪畫的行為和不同風格的卡通形象進行了大量的觀察,並諮詢了少數幾位卡通藝術家,將圖像分解為幾種卡通表徵方式,並將它們列出如下:

第一步:提取一個帶權重的低頻內容表示圖片的輪廓特徵(surface representation)。這個低頻內容保留了邊緣/紋理等細節。這與藝術家畫卡通時通常先描繪形狀類似。

第二步:針對輸入圖像,提取一個分割圖,並且在每個分割區域上使用一個自適應的色彩算法來生成結構表徵(structure representation)。這是模仿畫卡通畫時,邊界清晰且色塊稀疏的膠片(celluloid)風格。

第三步:紋理表徵(texture representation)是用來保持繪畫細節和邊緣的。將輸入圖像轉換為僅保留相對像素強度的圖像,然後引導網絡獨立地學習高頻紋理細節。這與藝術家素描與上色是獨立的兩個過程類似。

結果表明,該方法可以生成色彩和諧,令人愉悅的藝術風格,清晰銳利的邊緣以及明顯更少的偽影。

目前該方法在圖像視頻卡通化中的應用已經在Cartoonize軟體上投入使用,以後極有機會推廣至更多平臺,這無疑是卡通愛好者的福音。AI通過不斷的加強從而為人類帶來新的體驗已經不是新鮮事了,期待它為我們帶來的一個新的動畫世界。

部分素材來源:網絡

相關焦點

  • 基於字節跳動聯名 AI 論文 開發者推出可將視頻、圖片一鍵卡通化...
    前段時間,有人根據一篇字節跳動聯名的 AI 論文,做了個可將視頻、圖片一鍵卡通化的 Web 端應用 Cartoonize。  Cartoonize  Cartoonize 現在已經開源,使用非常簡單,只要上傳需要轉換的圖片、視頻即可。Cartoonize 轉換可以很好地還原原圖細節,下面是人像、風景、食物等實景的轉化圖。
  • 核心基於字節跳動聯名論文,可將視頻、圖片一鍵卡通化的開源工具
    前段時間,有人根據一篇字節跳動聯名的 AI 論文,做了個可將視頻、圖片一鍵卡通化的 Web 端應用 Cartoonize。
  • 百度全民小視頻「一鍵動漫」背後:AI成短視頻賽道關鍵力量
    這兩天,朋友圈忽然颳起了一股「二次元」風,各種動漫小視頻頻頻亮相,朋友圈玩得不亦樂乎。起初我並沒有太在意,畢竟無論是抖音的大頭娃娃動漫特效,還是快手的動漫臉,雖然有趣但稍顯呆板。但後來發現,這次的動漫效果似乎不一樣,不僅能夠1: 1 生成二次元虛擬人像效果,並且一顰一笑之間惟妙惟肖,卡通化視頻也很流暢。
  • 當專業動畫師用GAN幫自己「偷懶」,幾分鐘就完成了幾周的工作
    當時,這位專業動畫師一接觸到AI,就看中了AI搞藝術的「本事」——用GAN將一個視頻中的人物動畫化,只需要幾分鐘。也就是說,如果遷移學習強度越大,人物就會越接近卡通化,而遷移學習強度越小,人物就越接近真實形象。
  • 圖像生成器丨用GAN生成辛普森家族
    這個模型可以基於給定的數據集生成無數的相似圖像樣本。為了實現這個機器學習模型,我們將啟動生成對抗網絡(GANs)並且將包含有「辛普森家族」圖像特徵的數據作為輸入。在這篇文章的最後,你將會熟悉GANs背後的基礎知識,而且你也可以建立一個你自己的生成模型。
  • GAN模型生成山水畫,騙過半數觀察者,普林斯頓大學本科生出品
    作者 | 高衛華出品 | AI科技大本營近年來,基於生成對抗網絡GAN模型,圖像生成領域實現了許多有趣的應用,尤其是在繪畫創作方面。英偉達曾在2019年提出一款名叫GauGAN的神經網絡作圖工具,可以利用GAN將語意分割圖轉換為逼真的圖像,即使不擅長作畫的用戶,也能有機會享受到作畫的樂趣,將粗糙的塗鴉變成照片級的寫實作品。通過100 萬張圖片的訓練結果,該工具的神經網絡技術能夠根據對真實圖像的了解,填充所有細節和紋理,以及反射、陰影和顏色,自動生成寫實的美麗風景圖。
  • 繼AI換臉之後,「一鍵去馬賽克」軟體出現,還原視頻「本來面目」
    繼AI換臉之後,「一鍵去馬賽克」軟體出現,還原視頻「本來面目」自從網際網路進入我們的日常生活,關於網絡隱私的討論就沒有中斷過。儘管網際網路給我們帶來了許多便利,但許多應用程式在我們不知情的情況下收集了我們的一些信息。
  • 想一鍵實現可鹽可甜的漫畫特效?別著急,百度AI來安排!
    這麼說吧,微博超話#尋找最美漫畫臉#被大家閱讀了1.8億次,還有8萬條海量評論一同蓋樓,使用二次元特效拍攝製作的短視頻累計播放量2487萬,甚至上了熱搜。實際上這些可鹽可甜的二次元自拍並非來自真人畫手,而是在人工智慧技術的幫助下一鍵生成的。點開特效,手機中的自己就從3D變成2D,不僅保留了五官、臉型等個性特徵,而且還可以跟隨動作、表情的改變實時變化,輕鬆變身漫畫世界的主人公。
  • 單張圖像就可以訓練GAN!Adobe改良圖像生成方法 | 已開源
    試試從單個圖像入手吧。  去年穀歌就提出了SinGAN,是第一個拿GAN在單幅自然圖像學習的非條件生成模型(ICCV 2019最佳論文)。  而最近,來自Adobe和漢堡大學的研究人員,對這個方法做了改進,探討了幾種讓GAN在單幅圖像提高訓練和生成能力的機制。  研究人員將改進的模型稱作ConSinGAN。
  • 萬字綜述之生成對抗網絡(GAN)
    VAE 則沒有那麼直觀,VAE 通過約束隱變量 z 服從標準正態分布以及重構數據實現了分布轉換映射 X=G(z)。生成式模型對比1. 自回歸模型通過對概率分布顯式建模來生成數據;2. VAE 和 GAN 均是:假設隱變量 z 服從某種分布,並學習一個映射 X=G(z) ,實現隱變量分布 z 與真實數據分布 Pdata(x) 的轉換;3.
  • 基於圖像增強的去霧快速算法的FPGA實現
    摘要:基於圖像增強方法,本文提出了一種使用亮度映射的圖像去霧快速算法。此算法通過調整室外多霧場景圖像的對比度,提高了霧中物體的辨識度。算法的複雜度低、處理延遲小,實時性高,利於FPGA的實現。實現時不需外存儲器,延時為ns級,並提供了強度調節接口,以適應較廣的應用環境。
  • 萬字長文解讀GAN:從基本概念、原理到實際應用
    關於 WGAN 的理論推導和解釋比較複雜,不過代碼實現非常簡單。具體來說 [3]:上述第三點,在 WGAN 的後來一篇工作 WGAN-GP 中,將梯度截斷替換為了梯度懲罰。3.1.5 視頻生成通常來說,視頻有相對靜止的背景和運動的前景組成。VideoGAN 使用一個兩階段的生成器,3D CNN 生成器生成運動前景,2D CNN 生成器生成靜止的背景。
  • 全民小視頻「一鍵動漫」刷屏,20歲的百度越來越年輕
    2019年ZAO App的刷屏,體現出AI與短視頻加速結合的趨勢。2020年新年伊始,百度旗下短視頻平臺全民小視頻推出的「一鍵動漫」功能,同樣有刷屏的潛力。「一鍵動漫」基於人臉識別和機器視覺技術,自動將真人短視頻轉化成二次元虛擬形象短視頻,用戶可將其分享到社交網絡,或者用來製作拜年視頻發給親朋好友。
  • 一鍵轉發視頻文字語音軟體
    應用內包含: 1.視頻轉發:一鍵轉發朋友圈視頻,讓你省時更省力,和更多朋友分享日常生活,分享朋友圈的點點滴滴 2.圖片轉發:一鍵轉發朋友圈圖片,一鍵克隆朋友圈的圖片,讓做微商的朋友省事省力 3.克隆朋友圈:普通微信人群一鍵克隆朋友圈好與朋友分享生活;微商朋友一鍵克隆朋友圈好與上家對接 4.圖片水印:添加屬於自己的水印圖片
  • 數據不夠,Waymo用GAN來湊:用生成圖像在仿真環境中訓練模型
    為了實現逼真的雷射雷達等傳感器建模,就需要大量的手動操作,想要獲得足夠多、足夠複雜的數據,可得多費不少功夫。數據不夠,無人車標杆Waymo決定用GAN來湊。通過SurfelGAN合成圖像完成上面的步驟,模擬場景仍存在幾何形狀和紋理不完美的問題。這時候,GAN模塊就上場了。訓練設置了兩個對稱的編碼-解碼生成器,從Sufel圖像到真實圖像的GS→I,以及反過來從真實圖像到Sufel圖像的GI→S。
  • 全民小視頻推出「一鍵動漫」功能:拍視頻可生成二次元動漫
    日前,百度旗下短視頻平臺全民小視頻上線了「一鍵動漫」新功能。依託於百度的人臉識別和視頻理解AI技術,該功能可以為用戶自動生成非常個性的二次元虛擬形象視頻。該功能一上線就受到了廣大年輕用戶的歡迎,大家紛紛在社交媒體上發布自己的二次元視頻,不少用戶還使用該功能拍攝了專屬定製的拜年視頻,準備用二次元形象視頻給親朋好友拜年。「一鍵動漫」新功能的使用方法也很簡單。下載最新版本的全民小視頻,進入拍攝界面後,點擊頁面上的「一鍵動漫」圖標即可啟動該功能。
  • 真的可以一鍵消除馬賽克?宅男狂喜,但不是真的
    現在與以往不同,很多美圖App都加入了「一鍵AI修圖」功能,省去了傳統PS修圖複雜的操作流程。 這不是最厲害的,近日有網友利用AI技術開發了一款「一鍵去除馬賽克」的軟體,發布沒多久,這款軟體便迅速躥紅網絡。如此神奇的技術,它到底是怎麼實現的呢?
  • 有什麼軟體能將照片和視頻變成動漫風?武漢開發的動漫GAN可以實現
    由武漢大學和湖北工業學院組成的中國研究團隊開發的「 AnimanGAN:一種用於照片動畫的新型輕量級GAN 」是一項將現實世界中拍攝的圖片高速轉換為類似動漫圖像的技術。通過使用深度學習的輕量級框架,您可以創建看起來像動漫的高質量圖像,例如宮崎駿和新海誠的圖像。
  • 中國首次實現量子優越性;華為諾亞等預訓練圖像處理Transformer
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要研究包括首次實現中國量子優越性的量子計算原型機「九章」以及華為諾亞、北京大學等聯合提出的預訓練圖像處理 Transformer。
  • 什麼是本機號碼一鍵登錄?APP本機號碼一鍵登錄如何實現?
    三大運營商推出一鍵登錄的服務後,由於其便捷性和安全性都好於傳統簡訊驗證碼,越來越多的APP註冊登錄環節都在使用本機號碼一鍵登錄驗證方式。本文主要介紹了本機號碼一鍵登錄特點以及實現方法。一、什麼是本機號碼一鍵登錄?