【新智元導讀】你想像中的「怪獸」是什麼樣的?長著老虎的身體、恐龍的腦袋?還是有著貓的爪子、鷹的翅膀?谷歌的一個研究團隊推出了一款名為 Chimera Painter 畫圖工具,使你可以將生物的頭、爪、耳朵、爪子等隨意組合,然後一鍵生成一隻屬於你自己的「怪獸」。
「亞古獸進化,暴龍獸!」
隨著一聲召喚,一隻萌萌的數碼寵獸變身為體型巨大的數碼戰鬥獸。
相信很多80、90後的同學都對這一部《數碼寶貝》印象深刻,童年他們也曾幻想能夠擁有一隻屬於自己的數碼獸。
而現在,谷歌的一個 Chimera Painter 畫圖工具,或許可以圓了你童年的夢。
通過Chimera Painter ,你可以在體統提供或者自己上傳的生物輪廓上進行「怪物創作」,點擊「轉換」按鈕後,系統便會生成一個屬於你自己的3D效果的「怪獸」。
強大的「怪獸製造器」背後,還是GAN
谷歌的研究團隊創建了一個數字卡片遊戲原型,這個原型的概念是把生物組合成新的混合體(怪獸),然後這些混合體(怪獸)可以互相「戰鬥」。
在這個遊戲中,玩家可以從真實世界的動物卡片(比如,美西螈或鯨魚)開始,然後將它們組合起來,使它們變得更加「誇張」(可怕的美西螈-鯨魚嵌合體)。
這為演示圖像生成模型提供了一個創造性的環境,因為可能的嵌合體的數量需要一種方法來快速設計大量可以自然結合的藝術元素,同時仍然保留原始生物可識別的視覺特徵。
研究團隊的目標是在用戶輸入的指導下創建高質量的生物卡片圖像,因此在用戶反饋的指導下,嘗試使用生成對抗網絡(GANs)來創建適合幻想卡片遊戲原型的生物圖像。
GAN 將兩個卷積神經網絡組合在一起: 一個生成器網絡用於創建新圖像,另一個判別器網絡用於確定這些圖像是否是來自訓練數據集(在這種情況下,是用戶創建的圖像)的樣本。
研究團隊使用了一種稱為 條件 GAN 的變體,其中生成器接受一個單獨的輸入來指導圖像生成過程。有趣的是,這個方法嚴格偏離了其他GAN的工作,後者通常專注於照片寫實。
為了訓練 GANs,研究團隊創建了一個全彩色圖像數據集,其中包含單種生物的輪廓,這些輪廓改編自3D 生物模型。這種生物的輪廓描述了每種生物的形狀和大小,並提供了一張分割地圖來識別身體的各個部分。
模型的任務是生成多物種嵌合體,基於藝術家提供的輪廓,經過模型訓練,得到表現最好的模型之後被納入到 Chimera Painter。
圖:生成的卡片藝術集成到卡片遊戲,原型顯示基本的生物
通過結構生成生物,語義細節也逼真
使用GAN生成生物的一個問題是,渲染圖像的細微或低對比度部分時,可能會失去空間連貫性,儘管這些對人類具有很高的感知重要性。這樣的例子包括眼睛,手指,甚至在具有相似紋理的重疊身體部位之間進行區分。
GAN 生成的圖像顯示不匹配的身體部位
生成嵌合體需要一個新的非攝影幻想風格的數據集,該數據集必須具有獨特的特徵,例如戲劇性的視角,構圖和照明。現有的插圖存儲庫不適合用作訓練ML模型的數據集,因為它們可能會受到許可限制,樣式衝突或缺少此任務所需的多樣性。
為了解決這個問題,研究團隊開發了一種新的用戶主導的半自動化方法,用於從3D生物模型創建ML訓練數據集,這使得團隊能夠進行大規模工作並根據需要快速迭代。
在此過程中,用戶將創建或獲取一組3D生物模型,每種所需的生物類型(例如鬣狗或獅子)都應建立一個模型。然後,用戶製作了兩組紋理,並使用虛擬引擎將其疊加在3D模型上——一組具有全彩色紋理(左圖),另一組每個身體部位(例如頭,耳朵,脖子, 等),稱為「細分地圖」(右圖)。
然後在訓練中將第二部分身體部位細分提供給模型,以確保GAN了解到各種生物特定於身體部位的結構,形狀,紋理和比例。
實例數據集訓練圖像及其配對分割圖
這些3D生物模型都被放置在一個簡單的3D場景中,同樣使用了虛幻引擎。然後,一組自動化的腳本將採用這個3D場景,並在不同的姿勢、視點和每個3D生物模型的縮放級別之間進行插值,創建全彩色圖像和分割地圖,形成 GAN 的訓練數據集。
使用這種方法,研究團隊為每個3D 生物模型生成了10,000多張圖片 + 分割圖對,與手動生成這些數據相比,用戶們節省了數百萬小時的時間(每張圖片大約20分鐘)。
感知損失+Fine-Tuning,讓怪物更「怪」
GAN 具有許多可以調整的超參數,導致輸出圖像的質量不同。為了更好地了解該模型的哪個版本比其他版本更好,向用戶提供這些模型生成的不同生物類型的樣本,並將其歸納為幾個最佳示例。
該研究團隊收集了有關這些示例中存在的所需特徵的反饋,例如深度感,有關生物紋理的樣式以及面部和眼睛的真實感等。
此信息不僅用於訓練模型的新版本,而且能在模型生成成千上萬的生物圖像之後,從每種生物類別(例如瞪羚,山貓,大猩猩等)中選擇最佳的圖像。
使用條件 GAN 創建生成的嵌合體
研究團隊通過關注感知損失對GAN進行了優化。該損失函數組件(也用於Stadia的Style Transfer ML中)使用從單獨的卷積神經網絡(CNN)提取的特徵來計算兩幅圖像之間的差異,該卷積神經網絡之前已經對ImageNet數據集中的數百萬張照片進行了訓練。
從CNN的不同層提取特徵,並對每個特徵施加權重,這會影響特徵對最終損耗值的貢獻,這些權重對於確定最終生成的圖像的外觀至關重要。
使用不同的感知損失重量生成的恐龍-蝙蝠嵌合體
這是由GAN訓練產生的一些生物,它們具有不同的感知損失權重,展示了模型可以處理的一小部分輸出和姿勢。
使用不同模型生成的生物
谷歌的該團隊希望,這些GAN模型和Chimera Painter演示工具可以激發人們新的藝術創作思路——使用機器學習作為畫筆時,可以創建什麼?
參考連結:
https://ai.googleblog.com/2020/11/using-gans-to-create-fantastical.html