照片秒變卡通風,小視科技AI團隊開源人臉卡通化算法模型

2021-02-24 小視科技

卡通畫一直以幽默、風趣的藝術效果和鮮明直接的表達方式為大眾所喜愛。近年來,隨著多部動漫電影陸續成為現象級爆款,越來越多的人開始在社交網絡中使用卡通畫作為一種表意的文化載體。

在這個過程中,以表情包和定製頭像的興起為例,人們開始嘗試以融入個人特徵和個性想法的卡通畫來實現信息的精準傳播。且傳播主體不再局限於傳統動畫製作公司,而是以大眾為主體的娛樂化傳播。

因此,人們對於定製卡通畫的需求與日俱增。然而高質量的卡通畫需要有經驗的畫師精心繪製,從線稿設計到色彩搭配,整個流程耗時費力,對於大眾而言購買成本較高。

小視科技AI團隊近期上線的「AI卡通秀」小程序能夠自動實現真實世界照片的卡通風格轉變,效果精美自然。為增加行業內交流,促進技術層面的共同提升,該團隊現已開源卡通化模型和數據。

地址:https://github.com/minivision-ai/photo2cartoon


圖1 「AI卡通秀」小程序卡通風格化效果


圖像卡通風格渲染是一項具有挑戰性的任務,其目的是將真實照片轉換為卡通風格的非真實感圖像,同時保持原照片的語義內容和紋理細節。現有的圖像卡通風格渲染的方法主要分成兩大類:

一是利用傳統圖像處理技術的方法。該方法只能處理紋理內容簡單的圖片,因為這些方法本質上是圖像濾波和邊緣增強的結合,效果受圖像內容的影響很大,泛化能力較差。

二是基於深度神經網絡的方法。此方法通常難以在轉換圖像全局風格和保持圖像局部的細節語義內容之間取得良好的平衡,易導致風格化程度不足或者丟失圖像中的語義細節,產生人工痕跡(Artifacts)。


卡通圖像往往有清晰的邊緣,平滑的色塊和經過簡化的紋理,與其他藝術風格有很大區別。使用傳統圖像處理技術生成的卡通圖無法自適應地處理複雜的光照和紋理,效果較差;基於風格遷移的方法無法對細節進行準確地勾勒。數據獲取難度大。繪製風格精美且統一的卡通畫耗時較多、成本較高,且轉換後的卡通畫和原照片的臉型及五官形狀有差異,因此不構成像素級的成對數據,難以採用基於成對數據的圖像翻譯(Paired Image Translation)方法。照片卡通化後容易丟失身份信息。基於非成對數據的圖像翻譯(UnpairedImage Translation)方法中的循環一致性損失(Cycle Loss)無法對輸入輸出的id進行有效約束。基於上述分析,研究人員提出了一種基於生成對抗網絡的卡通化模型,只需少量非成對的訓練數據,就能獲得漂亮的結果。卡通風格渲染網絡是本方法提出的解決方案核心,它主要由特徵提取、特徵融合和特徵重建三部分組成。整體框架由圖2所示。特徵提取部分包含堆疊的Hourglass模塊、下採樣模塊和殘差模塊。Hourglass模塊常用於姿態估計,它能夠在特徵提取的同時保持語義信息位置不變。本方法採用堆疊的Hourglass模塊,漸進地將輸入圖像抽象成易於編碼的形式。4個殘差模塊編碼特徵並提取統計信息用於後續的特徵融合。特徵融合部分使用研究人員提出的Soft-AdaLIN(Soft Adaptive Layer-Instance Normalization),先將輸入圖像的編碼特徵統計信息和卡通特徵統計信息相融合,再以AdaLIN的方式反規範化解碼特徵,使卡通畫結果更好地保持輸入圖像的語義內容。
不同於原始的AdaLIN,這裡的「Soft」體現在不直接使用卡通特徵統計量來反規範化解碼特徵,而是通過可學習的權重來加權平均卡通特徵和編碼特徵的統計量,並以此對規範化後的解碼特徵進行反規範化。編碼特徵統計量提取自特徵提取部分中各Resblock的輸出特徵,卡通特徵統計量通過全連接層提取自CAM(Class Activation Mapping)模塊輸出的特徵圖。加權後的統計量為:其中為特徵重建部分中各Resblock提取的解碼特徵,為channel-wise均值、標準差,為layer-wise均值、標準差,用於調整InstanceNorm和Layer Norm的比重,為防止除零的常數。特徵重建部分負責從編碼特徵生成對應的卡通圖像。特徵重建部分採用與特徵提取部分對稱的結構,通過解碼模塊、上採樣模塊和Hourglass模塊生成卡通畫結果。       除了常規的Cycle Loss和GAN Loss,研究人員還引入了ID Loss,使用預訓練的人臉識別模型來提取輸入真人照和生成卡通畫的id特徵,並用餘弦距離來約束,使卡通畫的id信息與輸入照片儘可能相似。其中,為輸入的真實圖像,為生成的卡通圖像,為預訓練的人臉特徵提取模型用於提取512維的id特徵。實驗所用的卡通圖像數據共204張,人臉照片數據共820張,均收集自網際網路。由於實驗數據有限,為了降低訓練難度,我們將數據處理成固定的模式。首先檢測圖像中的人臉及關鍵點,根據關鍵點旋轉校正圖像,並按統一標準裁剪,再將裁剪後的頭像輸入人像分割模型去除背景,流程如圖3所示。https://github.com/minivision-ai/photo2cartoon
       為了更好地展示實驗效果,小視科技推出基於此技術的「AI卡通秀」微信小程序。該小程序能實時將用戶自拍轉換為卡通風格,並提供濾鏡和動圖合成功能。

團隊採用少量定製的卡通圖像素材進行訓練,保留了卡通畫風格的同時,在五官細節的勾勒上效果遠好於其他同類算法,這也意味著該算法可以更好地還原人像本身的可辨識信息。

得益於深度神經網絡渲染算法的泛化能力,算法在不同人群、光線、背景、表情、姿態等多種變量下都具有出色的魯棒性,最終模型能夠較為穩定地生成精美的卡通肖像。圖6 同類軟體效果對比,第一張為真實照片,第二張為「卡通秀」生成結果,後三張為同類軟體效果

              

點擊下方「閱讀全文」,了解卡通化模型和數據詳情

相關焦點

  • 中國AI開源再進擊!商湯升級AI算法開放體系,開放超600種預訓練模型
    商湯也將大量自研的新算法成果貢獻到代碼庫中,分享給業界,加快商業落地的步伐。 同時,對於商湯自身而言,這種與學術界同仁互利共榮的方式,既加快商湯自身創新與加快落地進程,也提高商湯在AI生態的影響力。 例如某個大客戶曾要求商湯糰隊在一兩個月的時間內,交付60多個精度和工程化要求非常高的模型。
  • 小視科技推出極致輕量級模型人臉識別sdk,支持活體檢測
    近日,小視科技正式發布定製化解決方案——極致輕量級模型人臉識別sdk,該模型專為低算力設備 (如用 A7、A9等晶片設備) 設計,旨在保持低算力設備人臉識別的識別精度和速度。小視科技極致輕量級模型設計借鑑了主流輕量級網絡比如MobileFaceNet的分組卷積結構、ShuffleNetV2的通道Shuffle結構和GhostNet的Ghost模塊等模塊,結合Attention機制對網絡結構進行搜索,針對諸如A7、A9等低算力設備,在網絡的量級和模型的精度之間做到了很好的權衡。
  • AI無間道!清華團隊推出AI安全平臺,欺騙頂尖人臉算法後又修復漏洞
    其中,機器視覺作為AI時代的基礎技術,其背後的AI算法一直是各科技巨頭和創業公司共同追逐的熱點。然而,這些主流應用場景的背後,往往也藏著由技術性缺陷導致的算法安全風險。例如,在一些訓練數據無法覆蓋到的極端場景中,自動駕駛汽車可能出現匪夷所思的決策,導致乘車人安全風險。
  • FaceNet 人臉識別模型- 彭于晏和鄧超人臉像嗎
    FaceNet 模型特點該模型的主要特點在損失函數,使得所有同類人臉特徵向量的歐式距離要小於非同一人臉間的歐式距離
  • 秒變「迪士尼在逃公主」,這款一鍵切換「漫畫臉」AI,因效果太過...
    接下來,經過人臉微調的圖像會進入Blend Model的處理階段。在這裡,由於StyleGAN 的結構,模型中的不同層以不同的方式影響生成人物的外觀。低解析度層決定頭部姿態和人臉形狀,高解析度層則控制光線和紋理等細節。
  • 武漢大學開源口罩人臉識別數據集,AI「讀心術」直譯腦電波
    01口罩抗疫,技術護航武漢大學開源口罩人臉識別數據集除了模擬口罩人臉數據集,該團隊還構建了全球首個公開的真實口罩人臉識別樣本集 RMFD,含525人的5千張口罩人臉、9萬張正常人臉。同時,為了擴充數據多樣性,該團隊開發了一個精準戴口罩軟體程序,通過給公開數據集中的人臉戴上口罩,構建了1萬人、50 萬張人臉的模擬口罩人臉數據集。
  • 給照片穿上「隱身衣」,最強人臉識別算法也失靈!業界推出最新AI工具Fawkes,幫你保護照片隱私數據
    此前,美國面部識別公司便創建了一個約有30 億張圖像的超大容量人臉資料庫,而這些數據均從 Facebook,Venmo,YouTube 等社交媒體平臺抓取而來。無處不在的面部識別技術和未經授權的數據獲取已經對個人隱私造成了嚴重威脅。面對這些威脅,芝加哥大學Sand Lab團隊提出了一種新的解決思路——或許我們可以為照片添加一層「隱身衣」!
  • AI居上,小視向下|小視科技執行總裁周守業接受雷鋒網專訪
    小視據此構建了一套ADAMS(AI+Device+AIoT應用服務平臺+Solution)架構體系,分別是算法、智能硬體、平臺和解決方案,採取平臺+生態擴展思路,架構的任一層面均對外開放合作,定位於「可快速定製算法的、易被集成的、高開放性的AI公司」。  有人說,在愈加健全的開源算法平臺下,AI門檻降低,算法優勢減弱。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    >>查看詳情ai.baidu.com/tech/face/darkcircles 人臉 3D 虛擬形象生成能力開放邀測根據用戶上傳的自拍圖,生成臉型、五官分布相似的人臉模型基底人臉與人體識別 H5 端人臉實名認證解決方案升級新增身份證風控能力,鑑別用戶上傳的身份證照片是否為翻拍、PS 偽造所得;新增人臉合成圖鑑別能力,鑑別用戶上傳的人臉照片是否為 PS、人臉融合圖片,業務安全等級更進一步。
  • Facebook開源算法代碼庫,輕鬆復現前沿視頻理解模型
    近日,FAIR視頻團隊在 ICCV 相關研討會上開源了視頻識別檢測代碼庫 PySlowFast,並同時發布了預訓練的模型庫。同時,該團隊表示,他們還將實時將他們的前沿工作添加至此代碼庫。
  • 2塊錢就能買上千張人臉照片?央視曝光AI黑產,產業鏈太驚人了
    這些,都是央視新聞最近曝光的人臉識別背後的黑色產業內幕。捆綁了AI技術的公民隱私洩露風險,普通人該怎麼避害?遏制如此猖獗的違法行為,在技術和立法兩方面,各有什麼進展?用你的臉,刷你的卡買賣人臉信息的「產業鏈」稍後再談,先了解一下不法分子如何利用人臉圖像實施犯罪。
  • 光影研究室揭秘AI黑科技:火爆網絡的「童話臉」是怎樣煉成的?
    (原標題:光影研究室揭秘AI黑科技:火爆網絡的「童話臉」是怎樣煉成的?)為了更好地還原用戶的面部特徵以及情緒張力的表達,團隊將五官和神態捕捉都十分靈動的3D卡通風格作為研發方向之一,並在權衡卡通化的趣味性和真實摹寫的用戶體驗後,最終打造了童話臉特效。據團隊介紹,童話臉風格屬於卡通畫風格中的一種。卡通畫裡有不同分類,如寫實風,卡通風,日韓風,歐美風,中國風。但在技術實現層面,不同的風格意味著模型要學習紋理和形變的困難指數不一樣。
  • 黑科技:3D人臉建模可以多簡單?一張照片就搞定!
    完成3D人臉建模,只需要一張肖像照,這種從平面世界直接穿越到3D空間的魔幻操作,就是知象光電團隊帶來的黑科技給你的surprise。利用3DfacePro進行人臉三維建模,無需再進行繁瑣的3D掃描,只需導入照片信息,便可一鍵生成模型。並且其恢復出的3D人臉模型有著非常精準的輪廓尺寸和逼真的色彩。
  • 秒變「迪士尼在逃公主」:一鍵切換 「漫畫臉」AI 效果太過逼真
    接下來,經過人臉微調的圖像會進入 Blend Model 的處理階段。在這裡,由於 StyleGAN 的結構,模型中的不同層以不同的方式影響生成人物的外觀。低解析度層決定頭部姿態和人臉形狀,高解析度層則控制光線和紋理等細節。
  • 10萬點人臉關鍵點跟蹤,重新定義工業級人臉3D重建
    20 年之後,在眾多研究者不斷推動下 2D 人臉對齊問題已經徹底解決了,算法也已經白菜化,隨便在 github 都有大量的精度不錯的開源項目。與此同時,在 1998 年有兩位研究人員又開闢了一條新賽道,他們提出了 3D 對齊算法,將人臉對齊推向了一個全新的維度,這套方法目前已經成為現在工業界主流的算法流程,現在工業界習慣上把它叫做 3DMM,雖然並不嚴謹,但我們姑且沿用這樣一個定義,3DMM 計算結果是在人臉上擬合併投影出一個 3D 點雲,它的應用就非常豐富了,美顏、表情捕捉、通過照片生成一張人臉等等都用了類似的技術
  • 勇奪NTIRE大賽冠軍,騰訊優圖RealSR超解析度算法開源了!
    近日,騰訊優圖實驗室提出一種新的圖像超解析度算法RealSR並開源。該算法在CVPR-NTIRE-2020真實圖像超分比賽中以明顯優勢獲得雙賽道冠軍。GitHub地址如下: https://github.com/Tencent/Real-SR 01 賽事介紹 在2020年的NTIRE真實圖像超分比賽中,騰訊優圖團隊
  • GAN進階版:一鍵實現圖像視頻卡通化
    相信大家對將照片卡通化的圖像處理功能都不陌生,通過軟體後臺對所選照片進行一定處理,將原圖變成了一張具有卡通風的圖片。市面上已有不少具備卡通化功能的軟體以及app,很多都可以「一鍵」輕鬆生成用戶想要的效果,方便處理使用。
  • AI「居上」,小視「向下」
    小視據此構建了一套ADAMS(AI+Device+AIoT應用服務平臺+Solution)架構體系,分別是算法、智能硬體、平臺和解決方案,採取平臺+生態擴展思路,架構的任一層面均對外開放合作,定位於「可快速定製算法的、易被集成的、高開放性的AI公司」。有人說,在愈加健全的開源算法平臺下,AI門檻降低,算法優勢減弱。
  • 騰訊光影研究室揭秘AI黑科技:火爆網絡的「童話臉」是怎樣煉成的
    為了更好地還原用戶的面部特徵以及情緒張力的表達,團隊將五官和神態捕捉都十分靈動的3D卡通風格作為研發方向之一,並在權衡卡通化的趣味性和真實摹寫的用戶體驗後,最終打造了童話臉特效。據團隊介紹,童話臉風格屬於卡通畫風格中的一種。卡通畫裡有不同分類,如寫實風,卡通風,日韓風,歐美風,中國風。但在技術實現層面,不同的風格意味著模型要學習紋理和形變的困難指數不一樣。
  • 一個照片「隱身衣」,讓微軟曠視人臉識別系統100%失靈|開源
    其實,算法已經悄悄給右邊的照片加上了微小的修改。但就是這樣肉眼根本看不出來的擾動,就能100%騙過來自微軟、亞馬遜、曠視——全球最先進的人臉識別模型!所以意義何在?如此一來,即使你在網絡上的照片被非法抓取,用這些數據訓練出來的人臉模型,也無法真正成功識別你的臉。給照片穿上「隱身衣」這項研究的目的,是幫助網友們在分享自己的照片的同時,還能有效保護自己的隱私。