CVPR 2018 中國論文分享會 之「人類、人臉及3D形狀」

2021-01-10 雷鋒網

雷鋒網 AI 科技評論按:本文為 2018 年 5 月 11 日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中最後一個Session ——「Human, Face and 3D Shape」環節的三場論文報告。

來自上海交通大學的盧策吾第一個報告,他介紹了他們在人體部分分割方面的工作。主要思想是在人體部分分割數據集難以獲取的情況下,通過知識遷移的方式,使用人體姿態數據集+少量人體部分分割數據集,實現弱監督或半監督的人體部分分割。

第二個報告由來自北京郵電大學的趙凱莉介紹他們在人臉動作單元標註方面的工作。他們同樣面臨著數據集少且難以獲取的困難。主要思想也是弱監督,即通過弱監督聚類的方式將大量標註圖片、弱標註圖片、未標註圖片根據其視覺特性和弱標註特性進行聚類,對聚類後的結果進行重新標註。

最後一場報告時由清華大學的張子昭介紹了他們在提取3D對象特徵方面的工作。該工作的一個基本考慮就是,從不同視角看3D物體所得到的視圖,在辨別該物體是什麼的問題上貢獻並不相同,因此應當給予不同的權重;作為對比,之前的所有方法都是將這些視圖等權處置。

雷鋒網(公眾號:雷鋒網)註:

[1] CVPR 2018 中國論文宣講研討會由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。研討會共包含了 6 個 session(共 22 個報告),1 個論壇,以及 20 多個 posters,雷鋒網 AI 科技評論將為您詳細報導。

[2] CVPR 2018 將於 6 月 18 - 22 日在美國鹽湖城召開。據 CVPR 官網顯示,今年大會有超過 3300 篇論文投稿,其中錄取 979 篇;相比去年 783 篇論文,今年增長了近 25%。

更多報導請參看:

Session 1:GAN and Synthesis

Session 2: Deep Learning

Session 3: Person Re-Identification and Tracking

Session 4: Vision and Language

Session 5: Segmentation, Detection

Session 6: Human, Face and 3D Shape

一、如何自動人體分割標註?

報告題目:Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided  Knowledge Transfer

報告人:盧策吾 - 上海交通大學

論文下載地址:Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided  Knowledge Transfer

code下載地址:https://github.com/MVIG-SJTU/WSHP

這裡主要講了如何將人體圖像的肢體進行分割。

1、背景

為了更加精細地對人的行為進行分析,關鍵的一點就是能夠將人體的各個部分分割出來。但是這個問題很難,因為讓人去標註這些數據(一個部分一個部分地畫出來)是非常困難的;也正是因為這樣,目前這方面最大的數據集也只有少於 2000 個用於訓練的標註數據。那麼最好的方法就是讓機器能夠自動且有效地標記出這樣的 label。

2、思路

Human Parsing 只有極少的標註數據,而另一方面人體關鍵點(人體姿態)由於標註比較輕鬆,所以目前有非常多的標註數據。所以盧策吾團隊就考慮是否可以利用人體姿態的數據,通過知識遷移來幫助自動地完成人體部分分割標註的任務。

思路就是,將帶有關鍵點的圖像與已有的少量標註過的 human body part parsing 數據集通過關鍵點的相似性進行臨近搜索,然後以姿態作為指導進行知識遷移,從而實現人體部分分割的標註。

3、方法

具體的方法共分為三步:輸入帶有關鍵點的圖片+已有的部分分割數據集,首先根據關鍵點進行聚類,也即找到與輸入圖片相似的標註分割圖片;然後進行對齊、變形,從而完成對輸入圖片的分割;這時候的結果存在很大的誤差,最後一步則是進行精細化調整。

Discovering Pose-similar Cluster

為了度量不同姿態間的相似度,首先需要對所有的姿態進行歸一化和對齊,即將身高統一,臀部關鍵點作為坐標原點。由此計算出輸入圖片中幾個關鍵點與標註數據集中所有圖片的對應關鍵點之間的歐氏距離,選出距離最小的 Top n 作為 similar cluster。

這裡之所以選擇 top n,而不是 top 1,是因為真實的人體千奇百怪(例如存在遮擋),某一個人體的分割不一定能夠適用於另一個人體,所以要選擇最相似的幾個,在下一步生成 part-level prior 中做下平均。

Generating Part-level Prior


依據上面找到的 similar cluster,然後基於關鍵點即可以將已知的分割映射到圖像上。這裡 cluster 中每一個身體的部分都有 binary mask,將所有這些部分分別進行求平均,便得到了 bady part parsing。

Prior Refinement

前面通過遷移得到的 morphed part parsing result 可能與真實的 parsing 之間有些微的差別,且由於求平均會有陰影的存在,因此通過 refinement network 進一步進行調整。Refinement Network 採用的是 U-Net 的一個變體。

4、實驗

首先來看未經過 refine 和經過 refine 後的結果對比

從左到右分別為:輸入圖像、完全卷積網絡預測的結果、輸入圖像相關的 part-level prior、經過 refinement network 預測出的結果。可以看出 refine 後的結果有相當好的表現。

實驗驗證,這種方法不僅能夠用在單人的圖像上,還能夠對多人圖像進行分割。如下圖所示:

定量實驗結果請參看論文。此外盧策吾團隊還有另外四篇 CVPR 2018 論文,分別為:

Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines

Recurrent Residual Module for Fast Inference in Videos

LiDAR-Video Driving Dataset: Learning Driving Policies Effectively

Beyond Holistic Object Recognition: Enriching Image Understanding with Part State

參考資料:

[1] https://zhuanlan.zhihu.com/p/36129234

[2] http://mvig.sjtu.edu.cn/publications/index.html

[3] https://github.com/MVIG-SJTU/WSHP

[4] https://arxiv.org/abs/1805.04310

[5]

Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines

Recurrent Residual Module for Fast Inference in Videos

LiDAR-Video Driving Dataset: Learning Driving Policies Effectively

Beyond Holistic Object Recognition: Enriching Image Understanding with Part State


 

二、如何弱監督標註面部活動單元?

論文:Learning Facial Action Units from Web Images with Scalable Weakly Supervised Clustering

報告人:趙凱莉 - 北京郵電大學

論文下載地址:暫無

正如論文標題所述,趙凱莉團隊所做的工作是使用弱監督聚類方法來學習面部活動單元(Action Units,AUs),動機則是有監督/半監督方法所需要的標註數據太少且收集困難。

1、基本概念

這裡首先需要解釋一個概念,即什麼是 AU?

我們知道,人臉表情識別的研究目前得到廣泛的關注,但表情的主觀性和個體之間的差異性給研究人員帶來很大的挑戰和困難。而另一方面,從解剖學角度來講,每一個面部表情牽動著若干條肌肉線,而肌肉的變化影響著面部表面區域的變化。因此通過定義面部肌肉的動作單元,則可以提供一種更加客觀的描述人臉表情的方法。目前較為科學的面部肌肉動作定義方式是通過面部活動編碼系統 FACS 來定義。FACS 定義這種面部區域活動為「面部活動單元」,簡稱「AU」(Action Units)。基本的 AU 單元如下圖所示:

例如,AU6 表示眼部周圍的肌肉收縮。也就是說從太陽穴向眼睛的部位皮膚產生拉 扯,使得下三角區變高。並且引起臉頰的上揚。在此情況下,臉部變窄。與此 同時,眼睛下面的皮膚出現皺紋。AU12 表示嘴角上揚。在一個強度較弱的 AU12 下,此時會有臉頰上揚和眼瞼 溝的加深。在一個強度較強的 AU12 下,眼瞼和臉頰部分的褶皺加深,並且臉 頰變窄。AU14 嘴角收緊,使得嘴角向內運動並且嘴角變窄。在嘴角部分產生褶皺。

根據 FACS 定義,32 個 AU 的配合幾乎可以表示所有的人臉情緒。如下圖所示:

所以相比於基本 的表情識別或者是複雜的混合表情,面部活動單元 AUs 是一種更加客觀、更加概括 性的、對人的情緒或者面部動作較為全面的定義方式。所以 AU 檢測在表情識別中是重中之重。

2、為什麼要弱監督?

AU 的檢測目前有多種方法,一類屬於完全監督,也即基於完全標註的數據來訓練 AU 檢測器;另一類則是半監督,也即利用部分監督數據加上補充的無標註數據來訓練 AU 檢測器。

但是這兩類方法都需要有標註好數據。我們知道,即使是人的表情標註對普通人來說已經很困難了,更何況是人臉的 AU 標註。在收集 AU 標註數據時,一方面需要有經驗的專家花費大量的精力,例如一個 1 分鐘長的視頻需要專家花費 30-45 分鐘才能標註完;另一方面由於 AU 標註的主觀性較大,所以即使是專家標註的數據也很容易出錯或不準確,根據這些標註數據進行訓練的分類器可能會有不一致的預測結果,從而影響性能。

基於這些考慮,趙凱莉團隊提出使用弱監督聚類(weakly-supervised clustering,WSC)的方式來學習 AU。所謂弱監督,即數據集中有標籤,但這些標籤並不可靠,可能是不正確的,也可能是有多種標記或者標記不充分,或者局部標記等。趙凱莉團隊這項工作的思路是,收集大量免費的網絡圖片,這些圖片可能來自之前預訓練後帶有標註的數據集,也有可能來自網絡關鍵詞搜索,通過弱監督聚類將這些圖片在嵌入到一個新的特徵空間中,使得相似表情能夠有更小的間距;在此基礎上使用 majority voting 方法對相同類的圖片進行重標註;最後用重標註的人臉圖片去訓練 AU 檢測器。

3、可擴展弱監督聚類

這主要有兩個步驟,首先是通過弱監督譜嵌入(weakly-supervised spectral embedding,WSE)找到一個嵌入空間,以能夠讓相同表情聚類在一起(如上面右圖);其次是使用 rank-order 聚類方法對嵌入空間中的圖片進行重標註。

弱監督譜嵌入

WSE 的作用就是發現一個嵌入空間,它能夠保持視覺相似和弱標註的一致性,而不是像通常的 feature space 那樣只是考慮視覺相似。所以用公式來表示就是

其中 f(W, L) 表示譜聚類,Ψ(W, G) 則是為了保持弱標註的一致性。

排序聚類重標註

在上一步通過 WSE 學習到嵌入空間後,第二步就是改善之前的弱標註。過程如下圖:

首先,使用排序距離(rank-order distance,通過近鄰排序測量兩個樣本之間的距離)為學習到的嵌入空間建立一個無向圖。相同類的樣本通常有相似的最近鄰分布。隨後,他們使用廣度優先分層聚類找到簇內密度高且簇間密度低的簇。這兩個過程稱為 Rank-Order Clustering(ROC)。

為了描述聚類結果的質量,他們將模塊化質量指數(Modularization Quality Index,MQI)進行了修改,亦適應無向圖,因此也稱為「uMQI」。

最後,基於 majority voting 直接將相同簇的圖像視為相同的類。

4、實驗

通過上述方法標註的數據,如果拿來訓練 AU 檢測器,那麼是否會有更好的表現呢?趙凱莉團隊在其實驗中通過使用 EmotioNet 數據集進行了驗證,這個數據集包含了 100 萬張來自網際網路的圖片,其中有 5 萬張是有多種 AU 標記的圖片。

通過實驗的驗證,有以下結論:

1)這種方式重標註的數據訓練出的模型不遜於人類標註數據訓練處的模型,超過其他方式(例如弱標註、半監督等)訓練出的模型:

2)該方法提供了一種直觀地剔除異常圖片或噪聲圖片的方法,類似這些:

參考資料:

[1] https://github.com/BraveApple/paper/blob/master/Face%20Attribute/%E9%9D%A2%E9%83%A8%E6%B4%BB%E5%8A%A8%E5%8D%95%E5%85%83%E7%9A%84%E7%BB%93%E6%9E%84%E5%8C%96%E5%A4%9A%E6%A0%87%E7%AD%BE%E5%AD%A6%E4%B9%A0.pdf
[2] https://github.com/zkl20061823

[3] http://cdmd.cnki.com.cn/Article/CDMD-10013-1017292023.htm

[4] https://www.bilibili.com/video/av17005116/


 

三、如何有效提取3D對象特徵?

報告題目:GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition

報告人:張子昭 - 清華大學

論文下載地址:暫無

在現實生活中存在著大量的3D對象的應用,例如增強現實和3D建模,因此我們需要構建有效的3D深度學習方法來解決3D對象的識別問題。對於這方面的研究已經有很多,代表性的工作有:發表在CVPR 2015的ShapeNet,它將3D模型表示成體素,輸入到網絡中提取特徵從而進行分類;發表在CVPR 2017中的PointNet將3D對象用點雲的數據來表示,然後對三維對象進行分類、部分分割以及場景語義分割等;發表在ICCV 2015中的MVCNN對三維對象從多個視角進行刻畫,提取出每個視圖的CNN特徵,然後再通過池化層對多個視圖的特徵進行融合從而得到對象特徵。

本質上來講,張子昭所在團隊的這項工作是對基於多視圖的MVCNN方法的一種改進,出發點在於:考慮到從不同視角去看3D對象其辨識度也是不一樣的,因此應該將不同視圖按可辨識度進行分組並賦予不同的權重。

1、方法

傳統的MVCNN方法將視圖的特徵通過View Pooling直接得到對象特徵,這種方式沒法區分視圖的權重。張子昭所在團隊的想法是,先根據視圖的可辨識度進行分組並進行組內View Pooling,得到組級的特徵,然後再通過組間融合得到對象特徵。基於這樣的考慮,他們提出了View-Group-Shape的三層網絡框架。

具體來說,整個網絡的框架如下:

在上圖中,首先將不同視角的視圖輸入到網絡中,經過FCN和CNN分別提取出不同視圖的特徵(即圖中「final View descriptors」這一步)。

另一方面,經FCN和初步特徵描述之後,通過grouping module可以得到不同視圖的可辨識度分數(將分數歸一化到0-1之間)。值得強調的是,這裡的grouping module唯一作用就是給不同視圖進行打分。根據視圖數量,例如五個,那麼就將[0,1]分為5個等寬的組。不同的視圖會根據其分數歸到某個組中。

依據分組情況,每個組中的視圖經過平均池化的方式得到這個組別的特徵;同時依據不同的組別內視圖的分數可以賦予該組別一個權重。組別特徵+組別權重進行加權融合便可以得到最後的對象特徵。


視圖分組和組別權重

2、實驗

據張子昭介紹,其實驗室在ModelNet-40數據集上進行的測試,這個數據集共有10000個左右的三維對象,共40類。

另一方面,3D對象的識別問題主要有兩個任務:一是分類任務,即判斷給定3D模型的類別,他們使用準確率作為評判標準;二是檢索任務,即從資料庫中找到與給定3D模型同一類的模型,他們使用mAP作為評價指標。

通過與過去的一些模型進行比較,發現無論是在分類任務還是檢索任務中,GVCNN都有很大的提升;尤其是與MVCNN相比,在分類任務中提升了大約3%,在檢索任務中提升了5%左右。

另一方面,在實際應用中很難獲得三維對象固定視角和固定數量的視圖。那麼本文所提出的框架是否要求輸入的視圖數量或者視角是固定的呢?

他們進行了相關的實驗,先用8視圖進行訓練,然後分別用1視圖、2視圖、4視圖、8視圖和12視圖進行測試。


註:表中 * 表示不預設攝像機視角

實驗結果表明隨著視圖數量越多,分類準確率也就越高。而另一方面,如果不預設攝像機的視角,而是隨機選取8/12個視角進行測試,那麼解析度只有84.3% / 85.3%,相比固定視角的表現下降了很多。

3、總結

基本思想就是將不同可辨識度的視圖進行分組並賦予不同的權重,然後再進行融合得到整體的特徵;而不像傳統方法那樣,所有視圖的權重都是一樣的。這種方法的本質就是,對樣本進行精細化分類和賦權,總能帶來性能上的提升。

參考資料:

[1] http://www.gaoyue.org/#publications

[2] http://std.xmu.edu.cn/11/70/c4739a332144/page.htm

[3] https://blog.csdn.net/dilusense/article/details/54630473

[4] Multi-view Convolutional Neural Networks for 3D Shape Recognition (MVCNN,視圖)

[5] 3D ShapeNets: A Deep Representation for Volumetric Shapes (ShapNet,體素)

[6] PointNet: A 3D Convolutional Neural Network for real-time object class recognition (PointNet,點雲)

相關文章:

CVPR 2018 中國論文分享會 之「深度學習」

CVPR 2018 中國論文分享會之 「GAN 與合成」

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • CVPR 2018 中國論文分享會之 「GAN 與合成」
    :2018 年 5 月 11 日,由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。
  • CVPR 2017論文精選|不可思議的研究: EEG腦電波深度學習在視覺分類中的應用
    今天David 9想要分析的論文就和感官交互有關, 特別之處是它是人體最複雜的感官 — 大腦 .很難想像今年CVPR上竟然有這樣一篇近乎科幻不可思議的研究, 相信讀完你也會興奮的.這篇文章本質上的研究, 是從EEG腦電波提取視覺特徵, 從而進行我們常見的視覺分類任務(狗? 吉他? 鞋子? 披薩?)
  • 3D人臉重建和人臉分析常用的數據集匯總
    2、BU-3DFE dataset數據下載連結:http://www.sciweavers.org/subject/bu-3dfe-database提出了一個新開發的三維面部表情資料庫,其中包括原型三維面部表情形狀和來自100名受試者的2500個模型的二維面部紋理。
  • Facebook等提出實時3D人臉姿態估計新方法,代碼已開源!
    基於二者的兩步走方法是很多人臉推理任務的關鍵所在,如 3D 重建。這種方法的處理過程通常可以表述為:首先執行人臉檢測,然後在每個檢測到的人臉邊界框中執行關鍵點檢測。接下來,將檢測到的關鍵點與參考 2D 圖像或 3D 模型上對應的理想位置進行匹配,然後使用標準方法求解對齊變換。因此,「人臉對齊」和「關鍵點檢測」這兩個術語有時可以互換使用。
  • 騰訊AI Lab 21 篇 CVPR 2018 錄用論文詳解
    2018 日前已公布錄用名單,騰訊 AI Lab 共有 21 篇論文入選。本文轉載於「騰訊 AI 實驗室」,雷鋒網 AI 科技評論經授權轉載。近十年來在國際計算機視覺領域最具影響力、研究內容最全面的頂級學術會議 CVPR,近日揭曉 2018 年收錄論文名單,騰訊 AI Lab 共有 21 篇論文入選,位居國內企業前列,我們將在下文進行詳解,歡迎交流與討論。去年 CVPR 的論文錄取率為 29%,騰訊 AI Lab 共有 6 篇論文入選。
  • CVPR 2018 Spotlight論文:U-Net,按條件獨立變換目標外觀和形狀
    一方面,與觀察者視角相關的有目標的形狀和幾何輪廓(例如,一個人坐著、站著、躺著或者拎著包)。另一方面,還有由顏色和紋理為特徵的本質外觀屬性(例如棕色長捲髮、黑色短平頭,或者毛茸茸的樣式)。很明顯,目標可以自然地改變其形狀,同時保留本質外觀(例如,將鞋子弄彎曲也不會改變它的樣式)。然而,由於變換或者自遮擋等原因,目標的圖像特徵會在這個過程中發生顯著變化。
  • 將「馬賽克」轉換成高清照片,是一種怎樣的體驗?
    在知乎上搜索「低解析度」、「渣畫質」,會看到一大片諸如「如何補救清晰度低的照片」、「如何拯救渣畫質」之類的問題。那麼,將渣到馬賽克級別的畫面秒變高清,是一種怎樣的體驗?杜克大學的研究人員用 AI 算法告訴你。
  • 跳過人臉檢測和關鍵點定位,Facebook等提出實時3D人臉姿態估計新方法
    因此,「人臉對齊」和「關鍵點檢測」這兩個術語有時可以互換使用。這種方法應用起來非常成功,但計算成本很高,尤其是那些 SOTA 模型。而且,關鍵點檢測器通常針對由特定人臉檢測器生成的邊界框特性進行優化,因此一旦人臉檢測器更新,關鍵點檢測器就需要重新進行優化。最後,在下圖 1 所示的密集人臉圖像場景中,準確定位標準的 68 個人臉關鍵點會變得非常困難,進而加大了估計其姿態和人臉對齊的難度。
  • 對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啟發
    CVPR 2020已落下帷幕,共計投稿6656篇,錄用1470篇,涵蓋的方向包括目標檢測、目標跟蹤、圖像分割、人臉識別、姿態估計、三維點雲、視頻分析、模型加速、GAN、OCR等。
  • 一個照片「隱身衣」,讓微軟曠視人臉識別系統100%失靈|開源
    給照片穿上「隱身衣」這項研究的目的,是幫助網友們在分享自己的照片的同時,還能有效保護自己的隱私。因此,「隱身衣」本身也得「隱形」,避免對照片的視覺效果產生影響。也就是說,這件「隱身衣」,其實是對照片進行像素級別的微小修改,以蒙蔽AI的審視。
  • CVPR 2020 最佳論文提名 | 神經網絡能否識別鏡像翻轉
    作者: 美國康奈爾大學四年級本科生 林之秋將門好聲音第·55·期CVPR 2020系列分享第·14·期2020年讓我們不斷見識到「後浪」的超強力量,也讓世界看到了矚目的華人新星。在今年6月舉辦的CVPR中,年齡最小的一位一作獲獎者甚至還在本科階段。他就是來自康奈爾大學的四年級學生、98年出生的AI科學新秀——林之秋。
  • 3D人臉技術漫遊指南
    它一般由多張不同角度的深度圖像合成,完整展示人臉的曲面形狀,並且人臉以密集點雲的方式呈現在空間中,具有一定的深度信息。其中一種深度相機為基於結構光的 RGB-D 相機,以人臉為例,掃描儀會對目標人臉發射光圖案(如光柵格),根據其形變計算曲面形狀,從而計算人臉的深度信息。
  • 百度17篇論文入選全球頂尖視覺盛會CVPR 百度大腦實力超群成幕後贏家
    在計算機視覺領域深入研究、有著強大技術積累的百度,以 17 篇論文入選計算機視覺和模式識別大會 CVPR 2019,其不俗成績再次成為國際視覺頂級盛會中受矚目的「中國面孔」。  據了解,CVPR 2019 即將於 6 月在美國長灘召開,作為人工智慧領域計算機視覺方向的重要學術會議,CVPR 每年都會吸引全球最頂尖的學術機構和公司的研究人員投稿。
  • 快訊|上交&MIT能「甩筆」的機器人獲IROS 2020最佳論文獎;藉助AI...
    機器人也能「甩筆」,擁有觸覺分析能力,上交&MIT獲IROS 2020最佳論文獎    人類善於利用手指觸覺來感知物體的物理特性(包括質量、重心、轉動慣量、表面摩擦等),從而完成高難度的控制任務。在不遠的將來,機器人也會擁有觸覺分析能力。
  • 「計圖」開原始碼:這篇ACM SIGGRAPH論文幫你輕鬆畫出心中的「林妹妹」
    本文轉自《機器之心》。不會畫畫卻也想畫出帥哥美女?夢中情人不用空想!計算機圖形學頂會 SIGGRAPH 2020的一篇論文提出了一種新的基於草圖深度生成人臉圖像的方法。基於該方法的智能人臉畫板,不需要用戶擁有專業的繪畫技巧,就能夠從粗糙甚至不完整的草圖生成高質量的人臉圖像,並且同時支持對面部細節的編輯與控制。
  • 阿里 CVPR 論文用全新幾何角度構建 GAN 模型
    :本論文由阿里巴巴達摩院機器智能技術實驗室華先勝團隊與 UCF 齊國君教授領導的 UCF MAPLE 實驗室合作完成,被 CVPR 2018 收錄為 poster 論文。從學術開發和企業活動上看,阿里巴巴達摩院機器智能技術實驗室在雷鋒網學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中有不錯的表現。實驗室分別在 SQuAD 和 KITTI 比賽中獲得第一名,近期在 AAAI 2018 上,達摩院機器智能技術實驗室共有 4 篇論文被錄用,在CVPR 2018上,也有多篇論文被錄用,成績斐然。
  • 人臉識別之Haar特徵
    簡介當下的人臉檢測主要為以下兩種方法:基於「知識」的檢測方法
  • 生成逼真3D人偶,居然不用3D形狀建模,還能學會你的舞步 | 三星CVPR Oral
    論文寫到,這是介於經典圖形學方法與深度學習方法之間的一條路。當然,沒做3D形狀建模,也不代表全程都在2D中度過。別忘了,和2D紋理搭配食用的,是3D人體幾何。也就是說,人類的姿態估計,是3D姿態估計。這一部分,團隊從大前輩DensePose那裡,借用了精髓:把攝像頭拍下的2D圖中,人類的每個像素點,都映射到3D人體表面的特定位置上。於是就有了3D姿態。還記得麼,上面的2D紋理預測網絡,輸入就是姿態。不用3D形狀建模的3D人像合成方法,達成。引用一句俗語:意料之外,情理之中。
  • 中國原創再次震撼全球頂會,6篇CVPR硬核論文解析前沿突破
    城市地鐵場景非常難,每天上億次比對人臉進出站及清算扣費。疫情期間商湯拿下多個省會城市地鐵人臉通行項目,全國150多個地鐵站上線開通,成為軌交新基建樣板。(詳見文章《商湯加碼新基建,全國150+地鐵站賞「臉」就「行」》)全球影響力最大的專業技術組織IEEE(Institute of Electrical and Electronics Engineers,電氣電子工程師學會)發布了全球首個生物特徵活體檢測國際標準,商湯是中國唯一參與主編的視覺
  • 戴口罩也能人臉識別?百度AI放大招!兩年前這項技術曾獲世界大獎
    通過這一技術,廣大科技公司廠商可以快速檢測出在人流密集區域攜帶和未攜帶口罩的所有人臉,並判斷其是否佩戴口罩。此舉意義重大。從疫情爆發以來,儘管各地防範措施的宣傳已經做得十分不錯,卻依然有不少心存僥倖的人員未佩戴口罩出行,這對公眾安全隱患會造成極大的威脅。