百度大腦人機大戰險勝,我們來聊點乾貨:人臉識別的原理

2021-01-15 36kr

Google的人工智慧AlphaGo剛剛剛在圍棋領域60連勝,百度也玩起了人機大戰。

綜藝節目《最強大腦》在第四季設置了人機對戰環節,百度將「百度大腦」的人工智慧技術植入到機器人「小度」人上,來節目上踢館。

《最強大腦》中有個名人堂,裡面全是以往節目中的高手,是心算、辨音、記憶等各個領域各自的大師。小度要和名人堂中的某位選手在人臉識別、語音識別上面PK。前三期人機大戰,採用三局兩勝制,百度大腦如果勝出,將參加最後的腦王爭霸賽。百度深度學習研究院(IDL)主任林元慶表示,當時只拿了一臺機器,而且不是在雲端算。

最後選定跟百度大腦對戰的選手是世界記憶大師王峰,他是本次名人堂的輪值主席。雖然是記憶大師,不過據他自己和現場的科學評審清華大學教授魏坤琳(人稱「Dr.魏」或者「叨叨魏」)說,其實人臉識別不是他最強的,記憶才是。不過現場一開始發生了無人敢於對AI應戰的局面,推讓鼓勵一番後,最後評審們還是選了王峰應戰。

比賽分為兩輪,在第一輪,嘉賓(章子怡)從女子團體蜜蜂少女隊20名成員的童年照中挑出2張,然後蜜蜂少女隊會在現場跳舞,選手通過動態視頻表演觀察少女模樣,從中選出童年照的主角。

在第二輪,節目組請來30名30歲以上的觀眾,嘉賓(中國桌球隊主教練劉國梁)挑出一位,隨後選手要將其從30張小學集體照中找出誰是他。

其實王峰也非常膩害地匹配三張照片中的兩張,只是在第一輪的第二張裡面,沒想到蜜蜂少女隊裡面有一隊雙胞胎,好像她們倆也不太記得照片中的是姐姐還是妹妹[捂臉],王峰就輸了這局。其實在這裡,小度也給出了兩個答案,一個匹配度為72.98%,另一個72.99%,最後吳恩達現場選了72.99%的照片,匹配正確。

可以說,王峰雖然自稱不擅長人臉識別,但表現非常出色,面對這樣的對手,小度可以說只是險勝。林元慶也曾表示,這個過程很忐忑,也很興奮。忐忑的是害怕「事情能搞定嗎?」興奮的是,「終於有一個機會去看一看我們的人工智慧技術做了這麼多年,跟人還有多大的差距,或者是已經到達了什麼樣的水平」。

林元慶表示,在被江蘇衛視選中為參加節目的公司之後,百度僅能得知比賽形式,比如第一期的跨年齡人臉識別;在後面的兩個月的備戰中,百度IDL團隊通過了大量的數據去訓練百度大腦,圖片大部分來自網際網路,也有一部分是百度買的圖片,因為跨年齡照片比較難獲取。數據量級大概是兩百萬人,每個人有一百張照片。

人工智慧進行人臉識別的流程

當嘉賓問到現場選手王峰是怎麼做到的,王峰說會先記住目標人物臉上一些不會隨著年齡而改變的特徵,比如鼻子、耳朵、嘴角。那麼人工智慧又是如何做人臉識別的呢?

其實跟王峰用的方法也很類似,通過提取特徵去匹配,但以前,可能是人類挑出具體的特徵,現在運用深度學習的方式,機器可以自己去學習什麼樣的特徵是有用的。

百度目前用的也是深度學習的方法,林元慶介紹:「我們會把人臉分成七個部位,在這七個部位上學習哪些特徵是非常重要的,不是人來挑選的,是人自動學習的,我們會收集這些數據,收集完之後告訴機器這個人小時候長這樣,這個人大了長這樣,讓機器自己去學,哪一些特徵是非常重要的特徵。」

不過,林元慶也發現,參加了《最強大腦》之後,他們發現,非共性的特徵,也許可以是機器學習的進步方向。比如說一個人嘴邊長了一顆痔,機器學習就比較難,因為不是共性,只是一個案例裡面發生的。「從數據的角度來講,也是一個強板,也是一個短板,很多學習出來的特徵是共性的特徵。但是那些比較獨特的特徵,或者比較個性化的一些特徵地我們是沒有很好的利用。」


據百度方面介紹,通常情況下,人臉識別的流程如下圖:

以比賽為例,現場小度識別蜜蜂少女成員的原理流程圖

百度介紹,具體可以分解成以下幾個步驟:

1、人臉檢測

根據眼睛、眉毛、嘴巴、鼻子等器官的特徵以及相互之間的幾何位置關係來檢測人臉,即在在一副圖像或一序列圖像(比如視頻)中判斷是否有人臉,若有則返回人臉的大小、位置等信息。

圖片來源於參考文獻:《人臉識別——原理、方法與技術》,王映輝編,科學出版社

2、人臉圖像預處理

系統獲取的原始圖像由於受到各種條件的限制和隨機幹擾,往往不能直接使用,必須在圖像處理的早期階段對它進行灰度校正、噪聲過濾等圖像預處理。人臉圖像的預處理主要包括:人臉對準人臉圖像增強,以及歸一化等工作。

3、人臉圖像特徵提取

人臉特徵提取就是針對人臉的某些特徵進行的。人臉特徵提取,也稱人臉表徵,它是對人臉進行特徵建模的過程。


圖片來源:百度方面提供

4、人臉圖像匹配與識別

人臉識別就是將待識別的人臉特徵與已得到的人臉特徵模板進行比較,根據相似程度對人臉的身份信息進行判斷。這一過程又分為兩類:

一類是人臉確認,是一對一進行圖像比較的過程,將某人面像與指定人員面像進行一對一的比對,根據其相似程度來判斷二者是否是同一人,相似程度一般以能否超過某一量化閥值為依據。

另一類是人臉辨認,是一對多進行圖像匹配對比的過程,將某人面像與資料庫中的多人的人臉進行比對,並根據比對結果來鑑定此人身份,或找到其中最相似的人臉,並按相似程度的大小輸出檢索結果。據林元慶介紹,在百度的大廈裡已經落地的閘機、今年烏鎮網際網路大會中的刷臉註冊系統,人停留1到2秒即可通過,這就是1比N的人臉識別。

節目中人臉識別的難點

在上述人臉識別的過程中,機器可能會遇到什麼難點?節目中女子團體唱唱跳跳,臉部不斷,而且燈光閃爍的,會不會增加人臉識別的難度?那技術上可以怎麼解決?

Dr.魏表示,光照條件差、視角獨特、信息模糊,甚至變形,這些特殊情況都會給機器很大的挑戰。聲音識別的挑戰也是一樣,機器需要從極少的線索中提取出穩定不變的信息,並作出推演,不是簡單的信息匹配和分類問題,而是從模糊複雜的信息中抽象出規律的問題。節目組把上述的要素都設計到了舞臺上的挑戰當中。

對於人臉的搖晃,百度方面的技術負責人表示,在比賽的過程中,少女團體的表演是動態,機器會自動的找姿態比較端正的來識別。

不過,除了表情、角度觀察、光照條件之外,人臉遮蓋物,如口罩、墨鏡、帽子、頭髮、鬍鬚,甚至是整容、P圖等行為,都會增加了人臉識別的難度。

現場的女子團體都是化妝上臺表演、不排除有帶美瞳和微整形的情況,而且還出現雙胞胎的情況。百度方面解釋,人臉識別是在臉部骨骼上取儘可能多的點,通過計算機把這些點分別與自己已經存儲的臉比較,雙胞胎之所以難以識別,就是骨骼太相似,需要取足夠多的點。

林元慶說,節目中的任務之一:跨年齡識別,也是目前的難點。

他解釋,一般而言,在跨年齡階段人臉識別中,類內變化通常會大於類間變化,這造成了人臉識別的巨大困難。同時,跨年齡的訓練數據難以收集。沒有足夠多的數據,基於深度學習的神經網絡很難學習到跨年齡的類內和類間變化。

基於第一點,百度IDL的人臉團隊採用的事度量學習的方法。即通過學習一個非線性投影函數,把圖像空間投影到特徵空間中。在這個特徵空間裡,跨年齡的同一個人的兩張人臉的距離會比不同人的相似年齡的兩張人臉的距離要小。

針對第二點,考慮到跨年齡人臉的稀缺性。百度用一個用大規模人臉數據訓練好的模型作為底座,然後用跨年齡數據對其做更新。這樣不容易過擬合。

將這兩點結合起來做端到端的訓練,可以大幅度提升跨年齡識別的識別率。

圖像識別比下圍棋更low?

AlphaGo連勝人類60局之後,百度大腦險勝《最強大腦》,不免有很多人拿兩者來比較,甚至有媒體認為圍棋比圖像識別難多了,究竟哪個比較膩害?

當被問到這個問題的時候,Dr.魏認為,兩者很難比較。百度大腦在舞臺上比的是視聽覺能力,但AlphaGo比的是所謂的運算能力、所謂的邏輯推理能力。

他解釋,人下棋,除了邏輯推理和運算能力的積累,還依賴所謂的棋感,就是棋藝上面的所謂的直覺。這是不能直接用語言描述的,不過腦科學是有研究的,直覺也是大數據跑出來的,即平時大量的練習養成的。從這方面來說,AI也是一樣的,深度學習基於大量的數據,形成的下棋模型是設計者也不能準確描述的一套算法。

他還表示,人認為最簡單的事情,對人工智慧來說是很困難的。

人類擅長感知和運動,恰恰不擅長邏輯和運算為代表的抽象思維能力。機器卻似乎恰恰相反,不擅長感知和運動,機器人能下圍棋或者記下海量的信息,但是沒有辦法像人這樣運動,或者像人一樣去感知這個複雜而快速變化的世界。

他舉例,人類可能在三歲的時候就會爬樓梯,但是現在我們都不知道怎麼讓機器人像人一樣流暢地爬樓梯,特別是樓梯的好多參數是無法預知的時候。人可以爬各種各樣的樓梯,在不同光照條件,不同身體狀況等,但是機器人到現在無法象人一樣流暢。從進化上來說, 運動,包括像爬樓梯這樣的運動,大腦很早就學會了,而人學會圍棋對進化中的大腦來說,是很晚才開始玩的。所以,對人來說,樓梯容易一點,圍棋難一點;但是可能對機器來說圍棋更容易一些,上樓梯更難一些。 

其實運動、感知,還有其他認知活動,像下圍棋、搞記憶,都是大腦的功能。人工智慧對不同認知功能有它的難易評判,我們不能用人的直覺去做這個評判。我相信我回答你的問題了,所以這兩個就像蘋果和橘子,不能比。

圖像識別目前的應用

雖然百度的圖像識別技術目前已有較高的準確率,但是在哪些方面有應用呢?

具體人臉識別方面,林元慶表示,其實人臉識別在百度內部,最大是搜索,百度基本上對全網的照片都做了人臉識別。「你搜Dr.魏,會出來一串的Dr.魏的照片。」

魏坤琳

至於人臉識別在其他領域的應用,大概是三個大方向:

至於大的圖像識別方面,實驗室還在開發的一個方向是做醫療圖象分析,比如X光或者CT的照片,將細胞都給它分割出來,判斷每一個細胞是不是癌細胞。

在百度深度學習實驗室內部,林元慶介紹,目前計算機視覺做的方向大致有三個,除了人臉識別,還有智能駕駛和增強現實。智能駕駛是2015年從深度學習實驗室孵化出去的項目,專門成立了獨立的事業部做智能駕駛。2016年,增強現實也獨立出去,成立了增強現實實驗室,這兩個是深度學習實驗室孵化出來的項目。

他表示,百度之前主要做技術的積累,2017年希望在市場上大規模應用。




相關焦點

  • 不服來戰!最強大腦水哥捍衛人類尊嚴,人臉識別還有誰!
    6月30日14:00,有「鬼才之眼」之稱的水哥和機器人螞可同臺PK,辨認百張網紅臉,正是拉開了人臉識別領域人機大戰的序幕
  • 從Master到百度《最強大腦》人機大戰:AI成坊間話題意味著什麼?
    不過,在AI領域的人機大戰還在繼續。幾乎在Master獲得五連勝的同時期,中國在人工智慧上投入最大的科技公司百度宣布加入人機大戰,與下棋不同的是,這場人機大戰的形式是百度的「小度」機器人參加江蘇衛視「最強大腦」第四季,所面臨的選手是在觀察力、記憶力或者聽力某個特定能力上出眾的「最強大腦」選手,進入最終腦王爭霸賽是其目標。
  • 最強大腦百度人機大戰背後原理是什麼?
    【中關村在線軟體資訊】1月14日消息:昨晚,江蘇衛視《最強大腦》第四季"人機大戰"進入三番賽的第二輪,搭載"百度大腦"的"小度"機器人挑戰名人堂選手11歲的"聽音神童"孫亦廷,雙方1:1打成平手。 最終,共計三道題目的比賽中,第一道題人工智慧"小度"和"最強耳朵"孫亦廷同時判斷錯誤,且結果驚人的一致;第二位線人被小神童孫亦廷識別出,小度判斷錯誤;第三道題孫亦廷判斷錯誤,小度則力挽狂瀾,成功識別出第三位線人,雙方1:1打為平手。 對於"小度"一勝一平的領先態勢,百度深度學習實驗室主任林元慶此前表示,這次人機大戰是以實戰的方式來,來檢驗百度人工智慧和人類差距。
  • 百度大腦戰勝最強大腦「水哥」,到底有沒有黑幕?
    魏教授所提到的通過邊緣輪廓識別人臉是正確的,像部分傳統人臉識別算法,就是通過相對明暗度來檢測特徵點從而識別的,所以降低明暗度對這類算法影響不大。但是對於深度學習,由於我們目前並不完全了解它提取了哪些特徵進行識別,並且大部分開源的訓練照片的明暗度都適中,所以在部分深度學習算法的評測,我們確實發現拍攝環境的明暗度是有影響的。」
  • 人機大戰第一彈:AlphaGo執白險勝柯潔
    盤後,AlphaGo收官十分穩健,柯潔收官追來一點目數。最終AlphaGo執白勝四分之一子,現在比分柯潔零比一落後。其實我們和互相的在促進,互相的在幫助,一下子思路打開了,我們完全不受限制,而這恰恰是圍棋本質我們在追求的。   谷歌DeepMind創始人哈薩比斯表示:我們希望AlphaGo能夠不斷發展,希望本周的賽事能夠探索圍棋新的打法。無論結果如何,最終勝利都屬於人類。
  • 破譯大腦識別人臉原理:人臉識別判斷人貧富程度,準確率53%
    這一研究表明,表情依賴與人腦對人臉識別過程中的後期的分支模型相一致(在這種模型中,臉部要素的改變和識別都在相同的框架下進行編碼),這對於揭示人腦識別人臉的原理是一個較大推動。細微的臉部線索也能讓其他人根據第一印象來判斷你是富有還是貧窮。一項新的研究發現,平靜的人臉部表情是一個可以用來判斷人的經濟狀況的因素,並且可以影響人際關係和職場的成功。
  • 聽慣了AI人臉識別,來看看我們大腦的人臉識別能力有多強
    作為具有社會屬性、智慧進化的人類,皮膚尤其是面部毛髮的退化,給予我們每個個體獨特的外貌特徵,使得個體可以以視覺區分,也因而有了現在紛繁複雜社會化交互關係。自從有了獨特的臉部外貌特徵,我們大腦的對應功能區也如AI一樣進化出了獨特的人臉辨識能力,但這種能力存在個體差異。
  • 從百度「臉優」看人臉識別技術 或將開啟中國技術驅動
    百度世界大會發布一款名為臉優的娛樂性APP,這是其人類識別技術的具體應用。目前,國內很多領域正在或將要實現人臉識別技術應用。人臉識別技術,很有可能開啟中國的技術驅動革命。所謂「外行看熱鬧,內行看門道」,用戶們看到的可能是這個可以「變臉」的視頻應用多麼酷炫,內行們則是看到了百度在人臉識別技術方面取得的進步。應該說自2014年開始,百度完全走向了高大上的「未來科技」之路,人工智慧、人臉識別、智能硬體等都成為其具體研究的項目,臉優只是其中的一個產品罷了。
  • 螳螂慧視攜手百度大腦通過BCTC人臉支付增強級認證
    北京2020年6月3日 /美通社/ -- 螳螂慧視(Mantis Vision)來自以色列,作為全球領先的3D傳感設備和3D動態內容捕獲及分享技術的解決方案供應商,攜天蠍系列3D傳感設備深度適配百度大腦人臉識別,正式通過金融行業國家級權威性檢測機構 -- 銀行卡檢測中心(以下簡稱BCTC)的權威技術檢測,獲得人臉識別產品類活體檢測增強級認證。
  • 百度大腦領先活體檢測+合成圖鑑別 讓人臉「照片活化」無從遁形
    除「照片活化」外,在一些使用人臉註冊識別場景下,也存在不法分子通過上傳合成人臉圖像企圖矇混過關。一系列「換臉」技術合成的人臉圖像很難通過肉眼辨別真偽,加上人臉數據涉及到用戶的肖像和個人隱私,篡改人臉數據也將對用戶個人信息安全造成嚴重威脅。那麼這些「照片活化」、「換臉」後的人臉信息能否被更高級的AI或者人臉識別攔截呢?
  • 《最強大腦》裡的「小度」計算能力比阿爾法更強
    浙江在線1月8日訊 (浙江在線記者 莊小蕾)本周五晚,中國電視史上首場「人機大戰」,中國「腦王」王峰2:3惜敗於人工智慧機器人「小度」。  比賽共分兩輪,都是人臉識別對決,最精彩的環節莫過於辨識雙胞胎  據《最強大腦》幕後科學家透露,章子怡選中了一對雙胞胎出題,出乎所有人意料。
  • 最強大腦第四季霸氣回歸,當貝市場邀你觀戰!
    首頁 > 傳媒 > 關鍵詞 > 大腦最新資訊 > 正文 最強大腦第四季霸氣回歸,當貝市場邀你觀戰!
  • 【乾貨】中國人臉識別產業鏈全景圖!
    產業鏈中遊主要是人臉識別算法和軟體服務,在算法軟體方面我國騰訊、百度、曠視科技、雲從科技、商湯科技等企業已處在全球領先地位;軟硬體集成中安防巨頭海康威視、大華股份,以及漢王科技、川大智能等企業競爭較為激烈。
  • 人臉識別技術原理與工程實踐(10個月人臉識別領域實戰總結)
    1人臉識別應用場景(驗證)我們先來看看人臉識別的幾個應用。第一個是蘋果的FACE ID,自從蘋果推出FaceID後,業界對人臉識別的應用好像信心大增,各種人臉識別的應用從此開始「野蠻生長」。事實上,人臉識別技術在很多場景的應用確實可以提升認證效率,同時提升用戶體驗。
  • Mantis Vision助力百度AI 促進3D生物識別的應用及發展
    Mantis Vision來自以色列,14年來專注於3D及計算機視覺技術領域的技術研發和應用推廣,於2018年10月起開始與百度大腦人臉識別團隊就3D技術在生物識別領域的行業應用開展深度合作。基於Mantis Vision所專利的掩膜編碼結構光和其它相關專利,Mantis Vision在中國的合資子公司暨「螳螂慧視科技有限公司」,為百度大腦人臉識別提供了全球領先的3D生物特徵數據採集設備,從而提升了所採集的生物樣本3D數據精度,這些數據用於幫助百度大腦人臉識別團隊開發全球領先的3D生物識別算法。
  • 人臉識別技術原理與實現方式
    人臉識別技術原理與實現方式 電子發燒友 發表於 2019-02-05 11:16:00   隨著大數據時代的到來,「人臉」也將成為數據的一部分,人臉識別如何實現?
  • 百度大腦產品上新&技術升級:圖像處理、智能寫作平臺、語音識別
    百度大腦一月一次的最新技術&產品盤點來了。在這裡,與百度大腦一起成長,見證 AI 的力量。您可以從 PC 端訪問百度 AI 開放平臺(ai.baidu.com)申請邀測,或使用最新產品。新開放 AI 技術能力語音識別語音識別極速版支持60秒內音頻使用 REST API 方式進行調用,簡單易用。
  • 半個硬體圈都來啦! 百度大腦十餘項全新AI硬體點燃年初第一把火
    以人臉識別為例,每幀最多可同時捕捉超過 100 張以上的人臉,高達每秒55幀實時人臉檢測,人臉抓拍率98%以上,並支持對人臉質量的判斷。  通用計算平臺方案,則是針對近場景視覺對安全、本地、響應速度的需求。百度大腦從算法、鏡頭模組、計算板卡三方面進行了適配與調優。
  • 百度雲首創雲端圖像搜索 支持人臉識別和檢索
    近日,百度雲在時光軸、足跡等原有圖片預覽功能基礎上全面升級,結合百度深度學習研究院提供的人臉識別及檢索技術,首創雲端圖像搜索,讓雲端圖片預覽、查找和管理更加方便易用。更新升級之後,百度雲不僅能實現圖片智能分類、自動去重等功能,還能以圖搜圖,在海量圖片中精準定位目標。
  • 推薦算法系統/人臉識別/深度學習對話機器人高級實戰課
    一、課程優勢本課程由網際網路一線知名大牛陳敬雷老師全程親自授課,技術前沿熱門,這個《推薦算法系統實戰、人臉識別、對話機器人等高級實戰精品系列課》來自陳敬雷在一線大型網際網路公司的多年實戰經驗總結,實實在在的重量級乾貨分享!