銅靈 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
半個世紀前拍攝的黑白老舊電影,現在迎來了人生的「第二春」。
在AI的幫助下,這些只有黑白灰三色的視頻片段,已經變成了彩色的。
在Facebook的F8大會上,國外技術小哥Jason Antic展示了一種叫DeOldify的AI模型,這種技術為老電影上色效果堪稱驚豔。
不信?直接看效果:
比如,1960年的美國驚悚恐怖電影《驚魂記》:
用AI上色後的毫不違和,人臉部分的妝容也不彆扭:
黑白電影時代的幽默大師卓別林,第一次在鏡頭下有了顏色:
89年前的美國電影Reefer Madness,就這樣被輕鬆還原了:
輸入黑白灰,輸出紅綠藍,這個AI模型開始大火。Jason Antic小哥的推特收穫了近800贊,推特網友直呼「Amazing!!!」、「very cool」、「wow」。
不過,這還不是DeOldify模型的全部實力。
在線試玩
除了視頻,DeOldify還能處理老舊的黑白照片和圖像。
比如1936年Dorothea Lange的攝影作品《移民母親》:
1920年在臥室放鬆的瑞典婦女:
1911年的Thanksgiving Maskers:
1941年在農場的Lemuel Smith先生及其夫人以及他們年幼的孩子們:
1890年代末的挪威新娘:
1880年吸食鴉片的中國人:
以上這些畫作的上色,均由DeOldify完成。無論是人像還是場景,或是綠油油的田園景象,這隻AI上色畫師的處理都自然完美。
好消息是,這個為圖像上色的模型現在還有了demo,你也能在線試玩了。
試玩地址:
https://colorize.cc/
操作也非常簡單,傳入一張黑白圖像,輸入自己的郵箱地址,不一會兒就能收到上了色的版本。
高效的NoGAN
上色大師DeOldify是怎麼做出來的?
作者小哥表示,這背後是一套名為NoGAN的架構。他自稱這是一種奇怪,但是非常高效的圖像到圖像的訓練方法。
這種深度學習模型借鑑了當前多種主流技術方法,包括:
自注意生成對抗網絡(Self-Attention Generative Adversarial Network)
生成器是一個預訓練的Unet,小哥進行了一個非常簡單的轉換過程,將其修改成了具有譜歸一化和自注意力。
相關研究:https://arxiv.org/abs/1805.08318
兩個時間尺度更新規則
也就是說這是一個一對一的生成/辨別迭代,並且具有更高的辨別器學習率。這種修改能夠確保辨別器在生成器訓練前被「捕獲」。
相關研究:https://arxiv.org/abs/1706.08500
生成器的損失分為兩部分
一是基於VGG16的基本感知損失(或特徵損失),這讓生成模型更偏向於輸入生成圖像。二是來自辨別器的損失,因為僅單一模仿輸入並不能帶來很好的生成結果,可能會出現一些棕色/綠色/藍色的簡單堆疊來欺騙檢測。
所以需要意識到,生成對抗網絡的本質就是學習損失函數。
NoGAN
重頭戲來了,NoGAN是一種新型的GAN訓練方法,能用來解決此前GAN訓練過程中的關鍵問題。
NoGAN的相關論文雖然還沒有放出,但小哥在Github中大致介紹了NoGAN的特點。
此前,訓練模型的大部分時間都用在了預訓練生成器和critic這一部分,但NoGAN可以花費最少的時間直接進行訓練。
這種方法的訓練流程為:
先用常規方法訓練具有特徵損失的生成器,接下來從中生成圖像,並把辨別器當成一個二元分類器,區分輸出圖像和真實圖像之間的差距。對於辨別器來說有一個拐點,在拐點附近生成圖像質量最佳。為了找到這個拐點,小哥也只能通過數次嘗試,沒有巧方法。
NoGAN訓練還有一個關鍵問題,可以在最初GAN訓練後,用相同的方式對生成的圖像重複進行預訓練。
傳送門
Github地址:https://github.com/jantic/DeOldify/blob/master/README.md