雷鋒網 AI 科技評論按:本文為 2018 年 5 月 11 日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中最後一個Session ——「Human, Face and 3D Shape」環節的三場論文報告。
來自上海交通大學的盧策吾第一個報告,他介紹了他們在人體部分分割方面的工作。主要思想是在人體部分分割數據集難以獲取的情況下,通過知識遷移的方式,使用人體姿態數據集+少量人體部分分割數據集,實現弱監督或半監督的人體部分分割。
第二個報告由來自北京郵電大學的趙凱莉介紹他們在人臉動作單元標註方面的工作。他們同樣面臨著數據集少且難以獲取的困難。主要思想也是弱監督,即通過弱監督聚類的方式將大量標註圖片、弱標註圖片、未標註圖片根據其視覺特性和弱標註特性進行聚類,對聚類後的結果進行重新標註。
最後一場報告時由清華大學的張子昭介紹了他們在提取3D對象特徵方面的工作。該工作的一個基本考慮就是,從不同視角看3D物體所得到的視圖,在辨別該物體是什麼的問題上貢獻並不相同,因此應當給予不同的權重;作為對比,之前的所有方法都是將這些視圖等權處置。
雷鋒網(公眾號:雷鋒網)註:
[1] CVPR 2018 中國論文宣講研討會由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。研討會共包含了 6 個 session(共 22 個報告),1 個論壇,以及 20 多個 posters,雷鋒網 AI 科技評論將為您詳細報導。
[2] CVPR 2018 將於 6 月 18 - 22 日在美國鹽湖城召開。據 CVPR 官網顯示,今年大會有超過 3300 篇論文投稿,其中錄取 979 篇;相比去年 783 篇論文,今年增長了近 25%。
更多報導請參看:
Session 1:GAN and Synthesis
Session 2: Deep Learning
Session 3: Person Re-Identification and Tracking
Session 4: Vision and Language
Session 5: Segmentation, Detection
Session 6: Human, Face and 3D Shape
一、如何自動人體分割標註?報告題目:Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer
報告人:盧策吾 - 上海交通大學
論文下載地址:Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer
code下載地址:https://github.com/MVIG-SJTU/WSHP
這裡主要講了如何將人體圖像的肢體進行分割。
1、背景為了更加精細地對人的行為進行分析,關鍵的一點就是能夠將人體的各個部分分割出來。但是這個問題很難,因為讓人去標註這些數據(一個部分一個部分地畫出來)是非常困難的;也正是因為這樣,目前這方面最大的數據集也只有少於 2000 個用於訓練的標註數據。那麼最好的方法就是讓機器能夠自動且有效地標記出這樣的 label。
2、思路Human Parsing 只有極少的標註數據,而另一方面人體關鍵點(人體姿態)由於標註比較輕鬆,所以目前有非常多的標註數據。所以盧策吾團隊就考慮是否可以利用人體姿態的數據,通過知識遷移來幫助自動地完成人體部分分割標註的任務。
思路就是,將帶有關鍵點的圖像與已有的少量標註過的 human body part parsing 數據集通過關鍵點的相似性進行臨近搜索,然後以姿態作為指導進行知識遷移,從而實現人體部分分割的標註。
3、方法具體的方法共分為三步:輸入帶有關鍵點的圖片+已有的部分分割數據集,首先根據關鍵點進行聚類,也即找到與輸入圖片相似的標註分割圖片;然後進行對齊、變形,從而完成對輸入圖片的分割;這時候的結果存在很大的誤差,最後一步則是進行精細化調整。
Discovering Pose-similar Cluster
為了度量不同姿態間的相似度,首先需要對所有的姿態進行歸一化和對齊,即將身高統一,臀部關鍵點作為坐標原點。由此計算出輸入圖片中幾個關鍵點與標註數據集中所有圖片的對應關鍵點之間的歐氏距離,選出距離最小的 Top n 作為 similar cluster。
這裡之所以選擇 top n,而不是 top 1,是因為真實的人體千奇百怪(例如存在遮擋),某一個人體的分割不一定能夠適用於另一個人體,所以要選擇最相似的幾個,在下一步生成 part-level prior 中做下平均。
Generating Part-level Prior
依據上面找到的 similar cluster,然後基於關鍵點即可以將已知的分割映射到圖像上。這裡 cluster 中每一個身體的部分都有 binary mask,將所有這些部分分別進行求平均,便得到了 bady part parsing。
Prior Refinement
前面通過遷移得到的 morphed part parsing result 可能與真實的 parsing 之間有些微的差別,且由於求平均會有陰影的存在,因此通過 refinement network 進一步進行調整。Refinement Network 採用的是 U-Net 的一個變體。
首先來看未經過 refine 和經過 refine 後的結果對比
從左到右分別為:輸入圖像、完全卷積網絡預測的結果、輸入圖像相關的 part-level prior、經過 refinement network 預測出的結果。可以看出 refine 後的結果有相當好的表現。
實驗驗證,這種方法不僅能夠用在單人的圖像上,還能夠對多人圖像進行分割。如下圖所示:
定量實驗結果請參看論文。此外盧策吾團隊還有另外四篇 CVPR 2018 論文,分別為:
Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines
Recurrent Residual Module for Fast Inference in Videos
LiDAR-Video Driving Dataset: Learning Driving Policies Effectively
Beyond Holistic Object Recognition: Enriching Image Understanding with Part State
參考資料:
[1] https://zhuanlan.zhihu.com/p/36129234
[2] http://mvig.sjtu.edu.cn/publications/index.html
[3] https://github.com/MVIG-SJTU/WSHP
[4] https://arxiv.org/abs/1805.04310
[5]
Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines
Recurrent Residual Module for Fast Inference in Videos
LiDAR-Video Driving Dataset: Learning Driving Policies Effectively
Beyond Holistic Object Recognition: Enriching Image Understanding with Part State
論文:Learning Facial Action Units from Web Images with Scalable Weakly Supervised Clustering
報告人:趙凱莉 - 北京郵電大學
論文下載地址:暫無
正如論文標題所述,趙凱莉團隊所做的工作是使用弱監督聚類方法來學習面部活動單元(Action Units,AUs),動機則是有監督/半監督方法所需要的標註數據太少且收集困難。
1、基本概念這裡首先需要解釋一個概念,即什麼是 AU?
我們知道,人臉表情識別的研究目前得到廣泛的關注,但表情的主觀性和個體之間的差異性給研究人員帶來很大的挑戰和困難。而另一方面,從解剖學角度來講,每一個面部表情牽動著若干條肌肉線,而肌肉的變化影響著面部表面區域的變化。因此通過定義面部肌肉的動作單元,則可以提供一種更加客觀的描述人臉表情的方法。目前較為科學的面部肌肉動作定義方式是通過面部活動編碼系統 FACS 來定義。FACS 定義這種面部區域活動為「面部活動單元」,簡稱「AU」(Action Units)。基本的 AU 單元如下圖所示:
例如,AU6 表示眼部周圍的肌肉收縮。也就是說從太陽穴向眼睛的部位皮膚產生拉 扯,使得下三角區變高。並且引起臉頰的上揚。在此情況下,臉部變窄。與此 同時,眼睛下面的皮膚出現皺紋。AU12 表示嘴角上揚。在一個強度較弱的 AU12 下,此時會有臉頰上揚和眼瞼 溝的加深。在一個強度較強的 AU12 下,眼瞼和臉頰部分的褶皺加深,並且臉 頰變窄。AU14 嘴角收緊,使得嘴角向內運動並且嘴角變窄。在嘴角部分產生褶皺。
根據 FACS 定義,32 個 AU 的配合幾乎可以表示所有的人臉情緒。如下圖所示:
所以相比於基本 的表情識別或者是複雜的混合表情,面部活動單元 AUs 是一種更加客觀、更加概括 性的、對人的情緒或者面部動作較為全面的定義方式。所以 AU 檢測在表情識別中是重中之重。
2、為什麼要弱監督?AU 的檢測目前有多種方法,一類屬於完全監督,也即基於完全標註的數據來訓練 AU 檢測器;另一類則是半監督,也即利用部分監督數據加上補充的無標註數據來訓練 AU 檢測器。
但是這兩類方法都需要有標註好數據。我們知道,即使是人的表情標註對普通人來說已經很困難了,更何況是人臉的 AU 標註。在收集 AU 標註數據時,一方面需要有經驗的專家花費大量的精力,例如一個 1 分鐘長的視頻需要專家花費 30-45 分鐘才能標註完;另一方面由於 AU 標註的主觀性較大,所以即使是專家標註的數據也很容易出錯或不準確,根據這些標註數據進行訓練的分類器可能會有不一致的預測結果,從而影響性能。
基於這些考慮,趙凱莉團隊提出使用弱監督聚類(weakly-supervised clustering,WSC)的方式來學習 AU。所謂弱監督,即數據集中有標籤,但這些標籤並不可靠,可能是不正確的,也可能是有多種標記或者標記不充分,或者局部標記等。趙凱莉團隊這項工作的思路是,收集大量免費的網絡圖片,這些圖片可能來自之前預訓練後帶有標註的數據集,也有可能來自網絡關鍵詞搜索,通過弱監督聚類將這些圖片在嵌入到一個新的特徵空間中,使得相似表情能夠有更小的間距;在此基礎上使用 majority voting 方法對相同類的圖片進行重標註;最後用重標註的人臉圖片去訓練 AU 檢測器。
3、可擴展弱監督聚類這主要有兩個步驟,首先是通過弱監督譜嵌入(weakly-supervised spectral embedding,WSE)找到一個嵌入空間,以能夠讓相同表情聚類在一起(如上面右圖);其次是使用 rank-order 聚類方法對嵌入空間中的圖片進行重標註。
弱監督譜嵌入
WSE 的作用就是發現一個嵌入空間,它能夠保持視覺相似和弱標註的一致性,而不是像通常的 feature space 那樣只是考慮視覺相似。所以用公式來表示就是
其中 f(W, L) 表示譜聚類,Ψ(W, G) 則是為了保持弱標註的一致性。
排序聚類重標註
在上一步通過 WSE 學習到嵌入空間後,第二步就是改善之前的弱標註。過程如下圖:
首先,使用排序距離(rank-order distance,通過近鄰排序測量兩個樣本之間的距離)為學習到的嵌入空間建立一個無向圖。相同類的樣本通常有相似的最近鄰分布。隨後,他們使用廣度優先分層聚類找到簇內密度高且簇間密度低的簇。這兩個過程稱為 Rank-Order Clustering(ROC)。
為了描述聚類結果的質量,他們將模塊化質量指數(Modularization Quality Index,MQI)進行了修改,亦適應無向圖,因此也稱為「uMQI」。
最後,基於 majority voting 直接將相同簇的圖像視為相同的類。
4、實驗通過上述方法標註的數據,如果拿來訓練 AU 檢測器,那麼是否會有更好的表現呢?趙凱莉團隊在其實驗中通過使用 EmotioNet 數據集進行了驗證,這個數據集包含了 100 萬張來自網際網路的圖片,其中有 5 萬張是有多種 AU 標記的圖片。
通過實驗的驗證,有以下結論:
1)這種方式重標註的數據訓練出的模型不遜於人類標註數據訓練處的模型,超過其他方式(例如弱標註、半監督等)訓練出的模型:
2)該方法提供了一種直觀地剔除異常圖片或噪聲圖片的方法,類似這些:
參考資料:
[1] https://github.com/BraveApple/paper/blob/master/Face%20Attribute/%E9%9D%A2%E9%83%A8%E6%B4%BB%E5%8A%A8%E5%8D%95%E5%85%83%E7%9A%84%E7%BB%93%E6%9E%84%E5%8C%96%E5%A4%9A%E6%A0%87%E7%AD%BE%E5%AD%A6%E4%B9%A0.pdf
[2] https://github.com/zkl20061823
[3] http://cdmd.cnki.com.cn/Article/CDMD-10013-1017292023.htm
[4] https://www.bilibili.com/video/av17005116/
報告題目:GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition
報告人:張子昭 - 清華大學
論文下載地址:暫無
在現實生活中存在著大量的3D對象的應用,例如增強現實和3D建模,因此我們需要構建有效的3D深度學習方法來解決3D對象的識別問題。對於這方面的研究已經有很多,代表性的工作有:發表在CVPR 2015的ShapeNet,它將3D模型表示成體素,輸入到網絡中提取特徵從而進行分類;發表在CVPR 2017中的PointNet將3D對象用點雲的數據來表示,然後對三維對象進行分類、部分分割以及場景語義分割等;發表在ICCV 2015中的MVCNN對三維對象從多個視角進行刻畫,提取出每個視圖的CNN特徵,然後再通過池化層對多個視圖的特徵進行融合從而得到對象特徵。
本質上來講,張子昭所在團隊的這項工作是對基於多視圖的MVCNN方法的一種改進,出發點在於:考慮到從不同視角去看3D對象其辨識度也是不一樣的,因此應該將不同視圖按可辨識度進行分組並賦予不同的權重。
1、方法傳統的MVCNN方法將視圖的特徵通過View Pooling直接得到對象特徵,這種方式沒法區分視圖的權重。張子昭所在團隊的想法是,先根據視圖的可辨識度進行分組並進行組內View Pooling,得到組級的特徵,然後再通過組間融合得到對象特徵。基於這樣的考慮,他們提出了View-Group-Shape的三層網絡框架。
具體來說,整個網絡的框架如下:
在上圖中,首先將不同視角的視圖輸入到網絡中,經過FCN和CNN分別提取出不同視圖的特徵(即圖中「final View descriptors」這一步)。
另一方面,經FCN和初步特徵描述之後,通過grouping module可以得到不同視圖的可辨識度分數(將分數歸一化到0-1之間)。值得強調的是,這裡的grouping module唯一作用就是給不同視圖進行打分。根據視圖數量,例如五個,那麼就將[0,1]分為5個等寬的組。不同的視圖會根據其分數歸到某個組中。
依據分組情況,每個組中的視圖經過平均池化的方式得到這個組別的特徵;同時依據不同的組別內視圖的分數可以賦予該組別一個權重。組別特徵+組別權重進行加權融合便可以得到最後的對象特徵。
視圖分組和組別權重
據張子昭介紹,其實驗室在ModelNet-40數據集上進行的測試,這個數據集共有10000個左右的三維對象,共40類。
另一方面,3D對象的識別問題主要有兩個任務:一是分類任務,即判斷給定3D模型的類別,他們使用準確率作為評判標準;二是檢索任務,即從資料庫中找到與給定3D模型同一類的模型,他們使用mAP作為評價指標。
通過與過去的一些模型進行比較,發現無論是在分類任務還是檢索任務中,GVCNN都有很大的提升;尤其是與MVCNN相比,在分類任務中提升了大約3%,在檢索任務中提升了5%左右。
另一方面,在實際應用中很難獲得三維對象固定視角和固定數量的視圖。那麼本文所提出的框架是否要求輸入的視圖數量或者視角是固定的呢?
他們進行了相關的實驗,先用8視圖進行訓練,然後分別用1視圖、2視圖、4視圖、8視圖和12視圖進行測試。
註:表中 * 表示不預設攝像機視角
實驗結果表明隨著視圖數量越多,分類準確率也就越高。而另一方面,如果不預設攝像機的視角,而是隨機選取8/12個視角進行測試,那麼解析度只有84.3% / 85.3%,相比固定視角的表現下降了很多。
3、總結基本思想就是將不同可辨識度的視圖進行分組並賦予不同的權重,然後再進行融合得到整體的特徵;而不像傳統方法那樣,所有視圖的權重都是一樣的。這種方法的本質就是,對樣本進行精細化分類和賦權,總能帶來性能上的提升。
參考資料:
[1] http://www.gaoyue.org/#publications
[2] http://std.xmu.edu.cn/11/70/c4739a332144/page.htm
[3] https://blog.csdn.net/dilusense/article/details/54630473
[4] Multi-view Convolutional Neural Networks for 3D Shape Recognition (MVCNN,視圖)
[5] 3D ShapeNets: A Deep Representation for Volumetric Shapes (ShapNet,體素)
[6] PointNet: A 3D Convolutional Neural Network for real-time object class recognition (PointNet,點雲)
相關文章:
CVPR 2018 中國論文分享會 之「深度學習」
CVPR 2018 中國論文分享會之 「GAN 與合成」
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。