基於深度學習的人臉自動美妝與深度哈希算法

2020-11-30 雷鋒網

雷鋒網(公眾號:雷鋒網)按:本文作者朱鵬飛,天津大學機器學習與數據挖掘實驗室副教授,碩士生導師。分別於2009和2011年在哈爾濱工業大學能源科學與工程學院獲得學士和碩士學位,2015年於香港理工大學電子計算學系獲得博士學位。目前,在機器學習與計算機視覺國際頂級會議和期刊上發表論文20餘篇,包括AAAI、IJCAI、ICCV、ECCV以及IEEE Transactions on Information Forensics and Security等。

IJCAI16會議介紹:

國際人工智慧聯合會議( International Joint Conference on Artificial Intelligence,IJCAI )是聚集人工智慧領域研究者和從業者的盛會,也是人工智慧領域中最主要的學術會議之一。1969 年到 2015 年,該大會在每個奇數年舉辦,現已舉辦了 24 屆。隨著近幾年來人工智慧領域的研究和應用的持續升溫,從 2016 年開始,IJCAI 大會將變成每年舉辦一次的年度盛會;今年是該大會第一次在偶數年舉辦。第 25 屆 IJCAI 大會於 7 月 9 日- 15 日在紐約舉辦。

導讀:

本屆會議的舉辦地在繁華喧囂的紐約時代廣場附近,正映襯了人工智慧領域幾年來的火熱氛圍。此次大會包括7場特邀演講、4場獲獎演講、551篇同行評議論文的presentation,41場workshop、37堂tutorial、22個demo等。深度學習成為了IJCAI 2016的關鍵詞之一,以深度學習為主題的論文報告session共計有3個。本期我們從中選擇了兩篇深度學習領域的相關論文進行選讀,組織了相關領域的博士研究生,介紹論文的主要思想,並對論文的貢獻進行點評。

Makeup Like a Superstar Deep Localized Makeup Transfer Network

在人臉分割的應用中,美妝是一個受眾較廣的問題。給出一張素顏正面照,如果能夠給出其最適合的化妝風格並將其渲染到這張素顏臉上,可以讓女孩子們更方便地找到適合的風格。中科院信工所劉偲博士等人的論文所解決的問題就是完成一個功能更完善的人臉自動美妝應用,不僅能夠給素顏的圖片上妝,而且可以為用戶推薦最適合的妝容,達到更高的用戶滿意度。

文章採用端到端的方法完成風格推薦、五官提取、妝容遷移這三個步驟,同時在損失函數中還考慮平滑性與臉部對稱性的約束,最終達到了state-of-the-art效果,本文方法的整體框架如下:

核心方法:

首先風格推薦,是從已上妝人臉資料庫中挑選與當前素顏人臉最相近的圖片。具體方法是選取與當前人臉特徵的歐氏距離最小者作為推薦結果,該特徵即網絡輸出的feature map。

然後是五官提取。五官提取是採用全卷積網絡做圖像分割實現face parsing,而已上妝資料庫還要多一個眼影的部分,對於素顏圖片則沒有眼影部分的問題,因此要根據眉眼特徵點定位給出眼影區域。由於妝容分割的部分相對於背景更重要,網絡輸出loss選擇的是加權交叉熵,

權重為使驗證集上F1 score最大的權重值。另一方面,資料庫中的臉都為正面,具有對稱性,因此加上了對稱性的先驗約束,具體方法為在輸出每個像素點的類別概率預測值後,將這個值與它的對稱點再取均值作為最終輸出:

最後是妝容遷移。本文中的妝容包括粉底(對應面部),唇彩(對應雙唇),眼影(對應雙眼)。眼影的遷移比較特殊,因為它不是直接改變雙眼的部分,文章針對此設計了一個loss:

意指給需要的人臉上妝後眼影部分與推薦的帶妝人臉眼影的特徵的L2 Norm (該特徵為從五官提取部分用到的FCN第一層卷積特徵conv1-1)。類似的,對面部、上唇與下唇的loss: 

不同的是它計算了conv1-1,conv2-1, conv3-1, conv4-1, conv5-1層特徵的相似度。最後給出的使這個loss最小的A(即最終給出的妝後人臉)滿足以下條件:

其中Rl、Rr表示左眼右眼眼影的loss,Rf表示臉部粉底的loss,Rup、Rlow表示上唇下唇唇彩的loss,Rs表示結構的loss(計算公式與眼影loss相同,但Sb、Sr中元素值都為1)。人臉妝容的平滑性可以通過以下公式進行進一步約束:

本文用end-to-end深度卷積神經網絡學習出妝前妝後面部特徵部位的對應關係,並進行妝容的遷移,流程較為簡單,在考慮了人臉結構對稱性和平滑性約束後達到了理想的效果,部分實驗結果如下:

Feature Learning based Deep Supervised Hashing with Pairwise Labels

在信息檢索中,哈希學習算法將圖像/文本/視頻等複雜數據表示成一串緊緻的二值編碼(只由0/1或者±1構成的特徵向量),從而實現時間、空間高效的最近鄰搜索。在哈希學習算法中,給定一個訓練集,目標是學到一組映射函數,使得訓練集中的數據經過映射後,相似的樣本被映射到相似的二值編碼(二值編碼的相似性用Hamming距離度量)。

南京大學李武軍組的這篇文章中,作者提出了一種使用pairwise label進行哈希學習的方法。通常的圖像標籤指示的可能是圖像中的物體屬於哪個類別,或者圖像所描繪的場景屬於哪個類別,而這裡的pairwise label則是基於一對圖像定義的,指示的是這一對圖像是否相似(通常可以根據這一對圖像是否屬於同一類別定義它們是否相似)。具體來說,對於一個資料庫中的第i,j兩幅圖像,sij=1代表這兩個圖像相似,sij=0代表這兩個圖像不相似。

具體到這篇文章,作者使用了上圖所示的網絡結構,網絡的輸入為成對的圖像,以及相應的pairwise label。該網絡結構中包含了共享權值的兩路子網絡(這種結構被稱為Siamese Network),每路子網絡處理一對圖像中的一張。在網絡的後端,根據得到的樣本的二值編碼和pairwise label,作者設計了損失函數來指導網絡的訓練。

具體來說,理想情況下,網絡前端的輸出應該是只由±1構成的二值向量,在這種情況下,兩個樣本的二值編碼向量的內積事實上是等價於Hamming距離的。基於這個事實,作者提出了如下的損失函數,希望用樣本二值編碼之間的相似性(內積)去擬合pairwise label(logistic regression):

在實際中,如果想讓網絡前端輸出為只由±1構成的二值向量,則需要在網絡中插入量化操作(如sign函數)。但是,因為量化函數在定義域上要麼導數為0,要麼不可導,因此在訓練網絡的時候無法使用基於梯度的算法,因此作者提出將網絡前端的輸出進行鬆弛,不再要求輸出是二值的,轉而通過在損失函數中增加一個正則項的方法,對網絡輸出進行約束:

其中U表示鬆弛後的「二值編碼」,其餘定義與J1相同。

在訓練的時候,J2中的第一項可以直接根據圖像對的標籤和Ui計算得到,第二項需要對Ui進行量化得到bi後再計算。利用上述損失函數訓練好網絡後,當查詢樣本出現時,只需要將圖像通過網絡,並對最後一個全連接層的輸出進行量化,即可得到樣本的二值編碼。

本文中的部分實驗結果如下,文章提出的方法取得了state-of-the-art的性能,即使和使用了CNN特徵作為輸入的一些非深度哈希方法相比,在性能上也有比較顯著的優勢:

總體來說,本文提出的方法通過聯合學習圖像特徵和哈希函數,在圖像檢索任務上取得了顯著的性能提升。但是由於文中使用的pairwise label在描述一對樣本的時候只有相似、不相似兩種可能,相對比較粗糙,因此不可避免地限制了本文方法的適用場合。作者在後續的工作中可能會考慮使用更加靈活的監督信息形式來擴展方法的通用性。

參與人員:

胡藍青  中科院計算所VIPL研究組博士研究生

尹肖貽  中科院計算所VIPL研究組博士研究生

劉昊淼  中科院計算所VIPL研究組博士研究生

劉    昕  中科院計算所VIPL研究組博士研究生

雷鋒網註:本文由深度學習大講堂授權雷鋒網發布,如需轉載請註明作者和出處,不得刪減內容。 

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 基於深度學習的人臉識別技術全解
    基於幾何特徵的方法符合人們對人臉特徵的認識,另外,每幅人臉只存儲一個特徵,所以佔用的空間比較小; 同時,這種方法對光照引起的變化並不會降低其識別率,而且特徵模板的匹配和識別率比較高。但是,基於幾何特徵的方法也存在著魯棒性不好,一旦表情和姿態稍微變化,識別效果將大打折扣。 基於深度學習的方法 深度學習的出現使人臉識別技術取得了突破性進展。
  • 推薦算法系統/人臉識別/深度學習對話機器人高級實戰課
    包含了推薦算法系統實戰、深度學習人臉識別實戰、深度學習對話機器人實戰等高級前沿的精品課程,下面分別介紹下各個實戰項目:1、推薦算法系統實戰首先推薦系統不等於推薦算法,更不等於協同過濾。2、深度學習人臉識別實戰人臉識別,是基於人的臉部特徵信息進行身份識別的一種生物識別技術。
  • 每周AI應用精選:虹膜識別解決方案;基於深度學習人臉識別方案等
    採用特定的算法從虹膜圖像中提取出虹膜識別所需的特徵點,並對其進行編碼。將特徵提取得到的特徵編碼與資料庫中的虹膜圖像特徵編碼逐一匹配,判斷是否為相同虹膜,從而達到身份識別的目的。1.對於國際上其它單位的核心算法,中科虹霸的核心算法速度更快,佔用的內存空間更小,整體性能更加優異。
  • 美圖影像實驗室(MTlab)10000 點人臉關鍵點技術全解讀
    ,美圖影像實驗室(MTlab, Meitu Imaging & Vision Lab)推出「10000 點 3D 人臉關鍵點技術」——利用深度學習技術實現 10000 點的人臉五官精細定位,該項技術可以在 VR 遊戲中構建玩家人臉的 3D 遊戲角色並且驅動,也可以應用於虛擬試妝試戴和醫療美容領域等。
  • 深度學習之視頻人臉識別系列三:人臉表徵
    DeepFace:2014年論文DeepFace: Closing the Gap toHuman-Level Performance in Face Verification提出了DeepFace算法,第一個真正將大數據和深度學習神經網絡結合應用於人臉識別與驗證。
  • 在讀研究生創建自動上妝系統:為素顏證件照補上高顏值「妝容」
    這篇題為《基於現實世界的身份不變人臉自動上妝網絡》的論文,通過深度學習,不僅可以實現人臉照片上妝處理不失真,還可以讓上妝程度、風格根據人的需求可控,完全達到證件照的要求,讓證件照看著不那麼「醜」。「隨著社交網絡的快速發展,多數人希望上傳好看的自拍照到社交媒體上。如何擁有一張令人滿意的自拍照呢?我們研發的自動化妝系統可以提供一個不錯的方案。」
  • 人臉識別技術獨角獸商湯科技最新估值113億美金,憑什麼?
    商湯基於自主研發的深度學習平臺,輸出全套人工智慧視覺技術,包括成像處理、感知、識別,服務於金融、平安城市、機器人、無人駕駛等多個行業。也許很多人沒聽過商湯科技,但一定聽過創始人湯曉鷗的名字,一位人工智慧領域的「大牛」,特別是在人臉識別技術方面,在全球範圍都是無敵的存在,被行業內稱為人臉識別技術的「開拓者「和」探路者」。
  • 黑客如何用一副紙眼鏡,就「弄瞎」人臉識別算法?
    蕭子豪解釋道,進行攻擊的算法和遭受攻擊的算法,就像戰爭中的敵我兩方。這兩種算法可能不是同一個模型,背後原理是抓住了人臉模型之間的相似性(雖然人臉識別模型各有千秋,但是都屬於深度學習模型,免不了會有相似性)。攻擊算法尋找、挖掘、抓住不同人臉識別模型之間的相似性,同時放大,這樣就有攻擊的機會。換句話說,只要攻擊者能夠從人臉識別模型裡面挖掘出漏洞(相似性),就能夠攻擊模型。
  • 人臉識別核心算法及技術解析
    1、在檢測到人臉並定位面部關鍵特徵點之後,主要的人臉區域就可以被裁剪出來,經過預處理之後,饋入後端的識別算法。識別算法要完成人臉特徵的提取,並與庫存的已知人臉進行比對,完成最終的分類。我們在這方面的主要工作包括:本文引用地址:http://www.eepw.com.cn/article/201710/368495.htm  · 基於LGBP的人臉識別方法  問題:  統計學習目前已經成為人臉識別領域的主流方法,但實踐表明,基於統計學習的方法往往會存在「推廣能力弱」的問題
  • 基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度
    基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度 李倩 發表於 2018-06-04 15:46:49 基於視覺的自動駕駛系統需要基於單目攝像頭獲取的圖像
  • 深度學習:神經網絡算法的昨天、今天和明天
    除了前文提到的圍棋軟體,還有自動駕駛系統、智能管家,甚至蘋果手機上的語音助手Siri都是一種人工智慧。而這些應用背後的核心算法就是深度學習(Deep Learning),也是機器學習(Machine Learning)領域最火熱的一個分支。和其他機器學習算法有很大不同,深度學習依賴大量數據的迭代訓練,進而發現數據中內在的特徵(Feature),然後給出結果。
  • 依圖NIST奪冠,解密人臉識別算法原理
    中國公司取得如此戰績,一定程度上代表在人工智慧領域,我國的人臉識別技術已經走在世界前列,可喜可賀!為此,小編特別想探究一下人臉識別背後的算法原理。  1.基於幾何特徵的方法  基本思想:採用幾何特徵進行正面人臉識別一般是通過提取人眼、口、鼻等重要特徵點的位置和眼睛等重要器官的幾何形狀作為分類特徵。
  • 新零售還沒懂,新店商又來,美妝店未來何去何從?
    對美妝店來說,這種趨勢有什麼影響?如今是新經濟時代,整個零售行業都一直在探索新的運營模式,美妝行業也不例外。我們可以看到很多美妝店都在談升級,更有智能化的美妝儀器、智慧導購系統、無人收銀系統,以及消費大數據算法系統等,推動著美容護膚終端新零售的改頭換面。美妝店如何順應時代發展創新店鋪?
  • 機器學習算法盤點:人工神經網絡、深度學習
    基於實例的算法   因此,基於實例的算法常常也被稱為「贏家通吃」學習或者「基於記憶的學習」。常見的算法包括 k-Nearest Neighbor(KNN), 學習矢量量化(Learning Vector Quantization, LVQ),以及自組織映射算法(Self-Organizing Map,SOM   正則化方法
  • 基於小波包變換和壓縮感知的人臉識別算法
    壓縮感知理論的出現和發展,給人臉識別帶來了新的啟發,使得基於稀疏表示的人臉識別技術得到了廣泛研究。傳統的基於稀疏表示的人臉識別是利用壓縮感知超完備庫下的稀疏表示,將訓練圖片直接構造為冗餘字典,再求解重構算法下的最優稀疏線性組合係數,然後根據這些係數來對人臉圖像進行分類。
  • 人臉識別系統的幾個過程淺析
    人臉識別(FaceRecognition,FR)是一種基於人的臉部特徵信息進行身份識別的一種生物識別技術。用攝像機或攝像頭採集含有人臉的圖像或視頻流,並自動在圖像中檢測和跟蹤人臉,進而對檢測到的人臉進行臉部識別的一系列相關技術,通常也叫做人像識別、面部識別。
  • 聽說你了解深度學習最常用的學習算法:Adam優化算法?
    By蔣思源2017年7月12日  深度學習常常需要大量的時間和機算資源進行訓練,這也是困擾深度學習算法開發的重大原因。雖然我們可以採用分布式並行訓練加速模型的學習,但所需的計算資源並沒有絲毫減少。而唯有需要資源更少、令模型收斂更快的最優化算法,才能從根本上加速機器的學習速度和效果,Adam算法正為此而生!
  • 基於深度學習的物候學識別
    點擊藍色字免費訂閱,每天收到這樣的好資訊本文闡述了基於深度學習的物候學識別,植物表型資訊簡介如下:研究人員利用農業監測網絡地面站的傳感器收集大量信息,通過將這些高質量的信息與現代圖像處理算法相結合,可逐步增加表型分析在農業上的應用潛力。
  • 機器學習算法匯總:人工神經網絡、深度學習及其它
    因此,基於實例的算法常常也被稱為「贏家通吃」學習或者「基於記憶的學習」。 基於核的算法 基於核的算法中最著名的莫過於支持向量機(SVM)了。 基於核的算法把輸入數據映射到一個高階的向量空間, 在這些高階向量空間裡, 有些分類或者回歸問題能夠更容易的解決。
  • 應用層下的人臉識別(三):人臉比對
    網際網路中的開放數據集:常用的WebFace、FDDB、LFW、YouTube Face等人臉數據集,提供了優質的標註數據,可用於算法測試及模訓練。網絡爬取:通過編寫或者利用免費網絡爬蟲程序,自動抓取全球資訊網中的圖片。它們被廣泛用於網際網路的數據採集中。2.