卡通畫一直以幽默、風趣的藝術效果和鮮明直接的表達方式為大眾所喜愛。近年來,隨著多部動漫電影陸續成為現象級爆款,越來越多的人開始在社交網絡中使用卡通畫作為一種表意的文化載體。
在這個過程中,以表情包和定製頭像的興起為例,人們開始嘗試以融入個人特徵和個性想法的卡通畫來實現信息的精準傳播。且傳播主體不再局限於傳統動畫製作公司,而是以大眾為主體的娛樂化傳播。
因此,人們對於定製卡通畫的需求與日俱增。然而高質量的卡通畫需要有經驗的畫師精心繪製,從線稿設計到色彩搭配,整個流程耗時費力,對於大眾而言購買成本較高。
小視科技AI團隊近期上線的「AI卡通秀」小程序能夠自動實現真實世界照片的卡通風格轉變,效果精美自然。為增加行業內交流,促進技術層面的共同提升,該團隊現已開源卡通化模型和數據。
地址:https://github.com/minivision-ai/photo2cartoon
圖1 「AI卡通秀」小程序卡通風格化效果
圖像卡通風格渲染是一項具有挑戰性的任務,其目的是將真實照片轉換為卡通風格的非真實感圖像,同時保持原照片的語義內容和紋理細節。現有的圖像卡通風格渲染的方法主要分成兩大類:
一是利用傳統圖像處理技術的方法。該方法只能處理紋理內容簡單的圖片,因為這些方法本質上是圖像濾波和邊緣增強的結合,效果受圖像內容的影響很大,泛化能力較差。
二是基於深度神經網絡的方法。此方法通常難以在轉換圖像全局風格和保持圖像局部的細節語義內容之間取得良好的平衡,易導致風格化程度不足或者丟失圖像中的語義細節,產生人工痕跡(Artifacts)。
卡通圖像往往有清晰的邊緣,平滑的色塊和經過簡化的紋理,與其他藝術風格有很大區別。使用傳統圖像處理技術生成的卡通圖無法自適應地處理複雜的光照和紋理,效果較差;基於風格遷移的方法無法對細節進行準確地勾勒。
數據獲取難度大。繪製風格精美且統一的卡通畫耗時較多、成本較高,且轉換後的卡通畫和原照片的臉型及五官形狀有差異,因此不構成像素級的成對數據,難以採用基於成對數據的圖像翻譯(Paired Image Translation)方法。
照片卡通化後容易丟失身份信息。基於非成對數據的圖像翻譯(UnpairedImage Translation)方法中的循環一致性損失(Cycle Loss)無法對輸入輸出的id進行有效約束。基於上述分析,研究人員提出了一種基於生成對抗網絡的卡通化模型,只需少量非成對的訓練數據,就能獲得漂亮的結果。
卡通風格渲染網絡是本方法提出的解決方案核心,它主要由特徵提取、特徵融合和特徵重建三部分組成。整體框架由圖2所示。
特徵提取部分包含堆疊的Hourglass模塊、下採樣模塊和殘差模塊。Hourglass模塊常用於姿態估計,它能夠在特徵提取的同時保持語義信息位置不變。本方法採用堆疊的Hourglass模塊,漸進地將輸入圖像抽象成易於編碼的形式。4個殘差模塊編碼特徵並提取統計信息用於後續的特徵融合。
特徵融合部分使用研究人員提出的Soft-AdaLIN(Soft Adaptive Layer-Instance Normalization),先將輸入圖像的編碼特徵統計信息和卡通特徵統計信息相融合,再以AdaLIN的方式反規範化解碼特徵,使卡通畫結果更好地保持輸入圖像的語義內容。
不同於原始的AdaLIN,這裡的「Soft」體現在不直接使用卡通特徵統計量來反規範化解碼特徵,而是通過可學習的權重來加權平均卡通特徵和編碼特徵的統計量,並以此對規範化後的解碼特徵進行反規範化。編碼特徵統計量提取自特徵提取部分中各Resblock的輸出特徵,卡通特徵統計量通過全連接層提取自CAM(Class Activation Mapping)模塊輸出的特徵圖。加權後的統計量為:其中為特徵重建部分中各Resblock提取的解碼特徵,為channel-wise均值、標準差,為layer-wise均值、標準差,用於調整InstanceNorm和Layer Norm的比重,為防止除零的常數。
特徵重建部分負責從編碼特徵生成對應的卡通圖像。特徵重建部分採用與特徵提取部分對稱的結構,通過解碼模塊、上採樣模塊和Hourglass模塊生成卡通畫結果。 除了常規的Cycle Loss和GAN Loss,研究人員還引入了ID Loss,使用預訓練的人臉識別模型來提取輸入真人照和生成卡通畫的id特徵,並用餘弦距離來約束,使卡通畫的id信息與輸入照片儘可能相似。其中,為輸入的真實圖像,為生成的卡通圖像,為預訓練的人臉特徵提取模型用於提取512維的id特徵。實驗所用的卡通圖像數據共204張,人臉照片數據共820張,均收集自網際網路。由於實驗數據有限,為了降低訓練難度,我們將數據處理成固定的模式。首先檢測圖像中的人臉及關鍵點,根據關鍵點旋轉校正圖像,並按統一標準裁剪,再將裁剪後的頭像輸入人像分割模型去除背景,流程如圖3所示。
https://github.com/minivision-ai/photo2cartoon 為了更好地展示實驗效果,小視科技推出基於此技術的「AI卡通秀」微信小程序。該小程序能實時將用戶自拍轉換為卡通風格,並提供濾鏡和動圖合成功能。
團隊採用少量定製的卡通圖像素材進行訓練,保留了卡通畫風格的同時,在五官細節的勾勒上效果遠好於其他同類算法,這也意味著該算法可以更好地還原人像本身的可辨識信息。
得益於深度神經網絡渲染算法的泛化能力,算法在不同人群、光線、背景、表情、姿態等多種變量下都具有出色的魯棒性,最終模型能夠較為穩定地生成精美的卡通肖像。
圖6 同類軟體效果對比,第一張為真實照片,第二張為「卡通秀」生成結果,後三張為同類軟體效果
點擊下方「閱讀全文」,了解卡通化模型和數據詳情