智東西(公眾號:zhidxcom)編 | 董溫淑
智東西6月18日消息,近日,中國科學院北京分院的研究團隊研發出一個AI人像生成模型。該模型可以依據簡筆畫生成逼真的人臉肖像。
利用這一模型,沒有繪畫經驗的人也可以很容易地得到逼真圖像。除了用於娛樂,在未來,這個模型或能幫助執法人員進行嫌疑人畫像。
這項研究發表在學術網站arXiv上,論文標題為《深度人臉畫像:從草圖深度生成人臉圖像(DeepFaceDrawing: Deep Generation of Face Images from Sketches)》。今年七月份,這項技術將在計算機圖形學頂會SIGGRAPH會議上展出。
論文連結:https://arxiv.org/pdf/2006.01047.pdf
研究項目官網:http://geometrylearning.com/DeepFaceDrawing/
一、給人臉「分區」,逐塊推理出逼真圖像
現有的「從圖像生成圖像」的技術已經可以實現快速輸出結果。但是,現有解決方案對輸入圖像的要求較高,只有以專業素描畫像等逼真度較高的圖像作為輸入時,才能生成逼真的人臉肖像。
在這種模型中,輸出結果的質量直接受到輸入圖像的影響,即輸出結果受到輸入圖像的「硬約束」。
為了解決這一問題,中國科學院北京分院的研究團隊設計出一種「從局部到全局(local-to-global)」的「軟約束(softconstraint)」方法。總的來說,這一方法基於一個深度學習框架,分為兩步進行。
首先,研究人員把簡筆畫輸入模型。模型依據簡筆畫,推理出人臉上各個器官的「布局」情況。這一步中,模型採用隱式建模(implicitly model)方法建立人臉圖像的形狀空間模型,並學習人臉關鍵部位的特徵嵌入。
模型將人臉分成左眼、右眼、鼻子、嘴唇、臉型這5個關鍵「組件」。
然後,模型依據臉部的「布局」情況,從簡筆畫「倒推」出逼真的人臉圖像。這一步中,模型依據人臉組件樣本的特徵向量,從輸入簡筆畫的相應部分,推理出潛在的人臉組件流形(Manifold)。
對於每一個關鍵部位,模型隱式定義了一個潛在流形。研究人員假設底層組件的流形是局部線性的。模型運行經典的局部性嵌入算法,將簡筆畫人臉特徵的組件投影到其組件流形上。
為了改善信息流,研究人員應用另一個深層神經網絡,使其在上述兩步之間輸出中間結果。這個深層神經網絡通過多通道特徵映射,學習從嵌入組件特徵到逼真圖像的映射結果。
二、60位參與者打分1302次,證實模型輸出結果更逼真
模型搭建好後,研究人員使模型在一臺搭載了一個英特爾i7-7700 CPU和一個NVIDIA GTX 1080Ti GPU、擁有16GB內存的電腦上運行,用17000張簡筆畫和照片進行訓練。訓練結束後,研究人員對模型進行了評估。
研究人員首先用線條不同的簡筆畫作為輸入。結果顯示,不同的線條會導致輸出圖像擁有不同的細節,但輸出圖像其他部分大體上沒有變化。
比如,在下圖中,簡筆畫鼻子部位的線條變化導致輸出圖像整個臉部的光線出現了變化。
然後,研究人員選用現有的全局檢索(global retrieval)模型和組件級檢索(component-level retrieval)模型與本項研究中的「從局部到全局」模型進行了對比。結果顯示,「從局部到全局」模型返回的樣本最接近輸入組件草圖。
▲a-全局檢索模型輸出結果,b–局部檢索模型輸出結果,c-「從局部到全局」模型輸出結果
為了使評估結果更加精確,研究人員進行了一項用戶調查。研究人員選用22張抽象層次不同、粗糙度不同的簡筆畫作為輸入,分別用全局檢索模型、組件級檢索模型、「從局部到全局」模型輸出結果。
共有60名參與者(39男21女,年齡介乎18至32歲)參加了用戶調查。研究人員向每個參與者展示4張照片,其中1張為簡筆草圖、3張為模型輸出的合成圖像。
▲向每個參與者展示4張圖像(左–全局檢索模型輸出結果,中–局部檢索模型輸出結果,右-「從局部到全局」模型輸出結果)
研究人員共得到1320個主觀評價。對這些評價結果的統計結果顯示,參與者普遍認為「從局部到全局」模型的輸出結果更加準確、圖像質量也更高。
輸出結果準確性方面,「從局部到全局」模型平均得分為4.85,局部檢索模型平均得分為4.23,全局檢索模型平均得分為5.37。
輸出結果圖像質量方面,「從局部到全局」模型平均得分為5.50,局部檢索模型平均得分為4.68,全局檢索模型平均得分為3.65。
▲左-輸出結果圖像質量分數,右-輸出結果準確性分數
三、局限性:易出現不兼容問題,缺乏少數族裔樣本
評估結果顯示,「從局部到全局」模型能根據一張人臉簡筆畫,輸出仿真度較高的人臉圖像。但是,論文指出,這一模型還有一些局限性。
將人臉簡筆畫「分區」的方法優勢在於靈活度較高,但也可能帶來各個組件不兼容的問題。這個問題對於眼睛來說尤其明顯。模型「分區」考慮左右眼的策略可能導致輸出圖像的眼睛不對稱。
▲模型輸出結果出現了眼睛不同色的問題
根據論文,引入對稱損失(symmetryloss)或明確規定輸出結果中的眼睛必須來自同一樣本可解決這一問題。
▲明確規定輸出結果中的眼睛必須來自同一樣本
另外,在用於訓練的17000張簡筆畫和照片中,大部分是白種人、南美人的臉,缺乏少數族裔樣本。因此,模型對少數族裔樣本的畫像結果可能會出現失真等問題。
結語:人臉合成技術的價值超出預期
本項研究中,中國科學院北京分院的研究團隊採用「從局部到全局」的方法,設計出一個AI人像生成模型。該模型可以依據一張人臉簡筆畫,輸出逼真的人臉畫像。
根據論文,在未來,研究人員計劃引入側臉簡筆畫、在簡筆畫中增加隨機噪聲等,通過增加訓練數據的規模,使模型輸出圖像結果更準確。
另外,「從局部到全局」模型的官網信息指出,研究人員將很快推出該模型的代碼。這意味著在不久的將來,我們將能看到這個模型的實際應用。
近些年來,基於生成對抗網絡(GAN)的Deepfake技術多次被曝出濫用醜聞,引起了很大爭議。學界和業界一度談Deepfake而「色變」,致力於找出能規避其風險的解決方案。比如,如臉書、亞馬遜網絡服務及其他機構聯合發起了「Deepfake鑑別挑戰」項目。
同樣用到生成對抗網絡,這次中科院團隊研發的模型可以利用簡筆畫生成逼真人像,這既顯示出了現在人臉合成技術的厲害之處,也啟示我們人臉合成技術的價值比想像的更加豐富和超出預期。
參考信源:Engadget、arXiv