擊上方藍字CG世界關注我們
「 感知CG · 感觸創意 · 感受藝術 · 感悟心靈 」
中國很有影響力影視特效CG動畫領域自媒體
我們之前好像介紹過將低解析度視頻利用AI處理後變成高解析度技術的文章,依稀記得是去年時候。但那個只是讓解析度提高,而物體的細節其實還是相對粗糙的。今天介紹這個新技術是讓模糊的,變清晰,把視頻中物體細節也能補回來的技術,聽起來是不是很厲害?一起來看看厲害在哪裡。
這是一篇論文,論文名字叫《Learning Temporal Coherence via Self-Supervision for GAN-based Video Generation 》翻譯過來大致意思是《基於自我監督學習時間相干性的GAN視頻生成》簡稱「TecoGAN」。看著很複雜的樣子,其實它的作用描述起來很簡單,就是將輸入的一個劣質視頻,通過這個技術分析它,然後輸出一個高解析度的清晰視頻。
別說視頻哈,就是對於一幅靜止圖像來說這也是是一個非常難問題。之前在AI技術不如今天這樣發達的時候,基本是通過手工製作的技術來處理的,這種局限性可想而知了。本來畫面都看不清,你手動製作技術如何修復的更好呢?還有就是效率問題等等吧。
那有了今天這個TecoGAN正好就都解決了。除了圖片,這種技術而且還可以很好地處理視頻。
那麼這個算法是如何實現的呢?打個比方哈,當我們看見一個模糊的角色眼睛時,眼睛反射的物體可能有綠色的,藍色組成。把這個描述說給一個人,那麼立馬會理解這個描述說的是另一個人的眼睛,大致就知道了在現實中應該是什麼樣子。但是對於電腦呢?如果我們有一個學習算法,也可以以這樣的思維方式思考和觀察同一個視頻的粗略和精細版,學習後,你給它個模糊的視頻時,就會給你創建一個超高解析度且細節到位的視頻呢,這就是TecoGAN技術發生的過程,明白了麼?
看下面這個動圖,其中給它提供很少的視頻畫面信息,而它能夠為其添加大量的細節。
當然了,研究超高解析度這個領域技術的大有人在。那麼和這個TecoGAN相比好在哪裡呢?我們拿其他技術和這個技術實現的效果來對比下就知道了。
下面這張圖是用來測試的一張模糊圖片。
下面這張是原高清圖,這裡把它作為基準參考,然後我們把這張圖藏起來,分別使用不同的技術進行解析處理。
這裡我們對比下,結果很明顯,TecoGAN完勝!以前的方法很難解決區域的細節問題,而TecoGAN卻能很好的還原,幾乎與參考一樣。
好多細節全部都添加進去了,真的很強啊
其實,generativecontainarial networks,GANs(生成對抗性網絡)在學習複雜分布(如自然圖像)方面取得了極大的成功。然而,對於序列生成,由於時間變化所帶來的困難,直接應用沒有精心設計約束的GANs通常會隨著時間的推移而產生強烈的偽影。特別是,條件視頻生成任務是一個非常具有挑戰性的學習問題,其中生成器不僅要學習表示目標域的數據分布,而且還要學習將輸出分布隨時間的變化與條件輸入相關聯。它們的中心目標是忠實地再現目標域的時間動態,而不是求助於瑣碎的解決方案。
針對這種狀況幾位研究人員提出了一種新的對抗性學習方法,用於監督空間內容和時間關係的循環訓練方法。將這種方法應用於兩個視頻相關的任務,它們提供了本質上不同的挑戰:視頻超解析度(VSR)和未成對視頻翻譯(UVT)。在沒有真實標準運動的情況下,時空對抗損失和遞歸結構使模型能夠產生真實的結果,同時保持生成的結構隨時間保持一致。
以上這個論述是摘自論文中的,比較學術,不懂也沒關係。前面我描述的懂了,就可以了。
每次論文解析,大家都會異口同聲的說,只是論文又不能用。哎?話不要說的太死!今天這個就可以操作玩一下。但是這裡我就不講過程了,大家自己去試試吧。
https://github.com/thunil/TecoGAN
這個連結裡有原始碼,和使用過程,就是需要懂編程的能快點看懂。此外硬體要求必須具有CUDA的Nvidia GPU才可以,Emmm只能幫到這裡了,其他大傢伙自己玩吧。
論文作者:Mengyu Chu、You Xie、Laura Leal-Taixe、Nils Thuerey。
論文地址:https://arxiv.org/pdf/1811.09393.pdf
參考視頻:https://www.youtube.com/watch?v=MwCgvYtOLS0