雷鋒網按:2019第四屆全球人工智慧與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智慧與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智慧領域極具實力的跨界交流合作平臺。
IEEE Fellow、前美國Fiserv東亞及東南亞總裁王強博士帶來了題為《3D人臉識別與開放金融平臺》的主題演講。
以下為王強博士演講全文,雷鋒網(公眾號:雷鋒網)做了不改變原意的編輯如下:
我今天跟大家分享的是,將會對金融支付產生重要影響的三維視覺及開放銀行框架。
大家知道金融領域,最關鍵的問題之一是身份識別KYC(know your customers),KYC最難的地方在於怎麼識別你的客戶,這在金融場景獲客、反欺詐、風控和貸後環節非常關鍵,我的一個觀點是:金融場景都是偽場景,只有獲得便捷高頻支付的金融場景才是真正可靠的金融場景。
大家知道現在iPhone X可以做人臉支付,人臉支付也存在了好多年,表面看起來應用也較為成熟,但其實它不斷面臨的難題和新挑戰一直困擾著全球學術和產業界。行業有這麼一個現象,每一項新技術的突破,背後也將不斷湧現出新的安全破解方法。
其實蘋果三維人臉識別的部分專利,也是由我的團隊所研究。而我今天在這裡面將會給大家,分享什麼樣的三維人臉識別算法,可以在工業界達到頂尖的安全標準,抵禦風險,並能高於指紋、聲維等生物特徵支付的安全性,並具備極高的防抵賴和防破解能力。
我們知道,近些年ResNet和GAN的發展對AI起到了非常大的幫助。現在我們把時間撥回到上個世紀,計算機視覺之父David Marr曾把計算機視覺分為三個階層。
視覺過程的第一個階段,以人臉圖像來看,是圖像中強度變化劇烈處的位置及其幾何分布和組織結構,人臉中用到的包括斑點、端點、邊緣片斷、有效線段、線段組、曲線組織、邊界等基元,這些稱為人臉基素圖,都是在檢測零交叉的基礎上產生。目前人臉識別大都是二維圖像,這也是處理第一步進行零交叉檢測生產人臉基元。
Marr認為所有圖像的變化,都是從視覺和感覺兩個方向看待的。人臉一旦有明暗或者有一個完全突變的過程,他認為這就是一個元素。這一階段的目的在於把原始人臉二維圖像中的重要信息更清楚地表示出來。
這是視覺過程的第二階段,拿人臉來說,通過RGB等處理,將線條、點和斑點以不同的方式組織起來而獲得2.5維人臉圖。以人眼的仿生視覺過程被稱為中期視覺。2.5維人臉圖是在以觀察者為中心的坐標系中,可見表面的法線方向、大致的深度以及它們的不連續輪廓等要素,其中用到的基元包括可見表面上各點的法線方向、和各點離觀察者的距離(Deep)、深度上的不連續點、表面法線方向上的不連續點等等。
由於這個階段中包含了深度的信息,因而比二維人臉圖像要多,但還不是真正的三維表示,所以得名2.5維人臉圖,大家可能看得比較清楚。你用人眼視角看,不能完全看到整個三維的情況,後面會有遮擋的情況。按Marr的理論,這個階段是由一系列相對獨立的處理模塊組成的。
這些處理模塊包括:體現、運動、由表面明暗恢復形狀、由表面輪廓線恢復形狀、由表面紋理恢復形狀等。它的作用是揭示一個圖像的表面特徵。Marr指出,早期任何視覺加工的目標就是要建立一個2.5維的要素圖,這是把一個表面解釋為一個特定的物體或一組物體之前的最後一步。
他是以人臉為中心的坐標系中,用含有體積基元(即表示形狀所佔體積的基元)和面積基元的模塊化分層次表象,描述形狀和形狀的空間組織形式,其表徵包括容積、大小、形狀及姿態變化後體積基元的變化,包括現在成熟一些的雲三維重建技術等,這個領域全球的科學家從1980年耕耘到現在將近有40年。進度一直受限於很多原因:一是傳感器和算力,二是攝像機和三維人臉樣本庫及標註。
早期三維攝像機都非常昂貴,動輒幾十萬美金,成本一般人確實無法承受,同時獲取圖像基素符號也受到距離和精度的影響。
在這其中,三維世界裡最難處理的問題是姿態的調整,面對物體剛性的變化,三維重建比較容易解決;但面對柔性剛體的對象,比如人臉這類柔性姿態形變的時候,三維技術就很難處理。
三維重建分為接觸類、非接觸類和透視類三大類。
非光學三維重建,比較常見為雷射雷達和聲納等方式,現在雷射雷達的發展非常迅速,但它的最大問題是效率較低;而聲納的優勢在於掃描寬度很大,但精度不夠。雷射雷達和聲吶的三維重建更多用於工業場景,對於生活場景和金融場景是做不到的。
光學重建有分為被動光學和主動光學的重建。三維重建裡有三類最為重要光學重建技術:主動光學的TOF、結構光和被動光學的雙目和奪目立體視覺;結構光有分為編碼結構光和散斑結構光。
TOF
雙目立體視覺(Binocular Stereo Vision)
3D結構光
結構光最常見的應用場景就是iPhoneX的刷臉解鎖。其實蘋果十年前就在布局結構光技術,其中部分專利來自當時我所負責的團隊和一家以色列公司合作研發的。其實蘋果的3D結構光技術首先得感謝微軟的一代Kinect,它是這一技術大規模應用的集大成者。
目前按照行動裝置領域,據報導,TOF領域全球布局的手機巨頭只有OPPO一家。應用編碼結構光的有小米、VIVO、應用散斑結構光只有蘋果一家;雙目立體光主要是華為。
而主動光源主要基於RGB 及D(深度信息),研究者從RGB及灰度中提取斑點、端點、邊緣片斷、有效線段、線段組、曲線組織、邊界等紋理變化基素;從D(Deep)提取表面上各點的法線方向、和各點離觀察者的距離(Deep)、深度上的不連續點、表面法線方向上的不連續點等曲面特徵和紋理特質進行三維點雲重建等來打造工業場景。預估蘋果也在被動光學裡布局雙目立體。
無論是TOF、結構光還是雙目立體,他們目前在人臉識別領域還面臨很多問題。
TOF是不可見的面積光,人臉面積最大也就是500-600平方釐米,TOF的一面光打過來大概會有30多萬個有效深度信息點,30萬點掃描到人臉時,像素的精度差不多到微米級,1/10毫米的精度。它所獲得你的景深、RGB值、灰度值是非常準確的。同時它獲得最關鍵的值是人臉的表面紋理、深度紋理及法線曲度等細粒度特徵信息,其結果也非常精確。
結構光目前最多現在有10萬個點,iPhone X的散斑結構光方案是3萬個結構光點,所有投射過來通過類毛玻璃慢衍射形成的斑點集合,用統計學原理及互相關函數等來模擬三維結構化重建過程。
從光學的角度來說,採集到基素及要素信息之後,如何進行快速計算,然後再用三維場景重建,現在所有的方法都是2維變成2.5維。David Marr提到的方式,也是二維到二點五維到三維。在這個過程中大家用了很多方法包括幾何方法、統計學方法及點雲等進行三維重建,其實沒有太多大的進展。
三維最高端的應用場景就是三維人臉識別,但它面臨很多的挑戰:
姿態的變化
比如蘋果人臉解鎖,人的雙目需要緊盯著它的屏幕,否則就無法解鎖;此外,如果人的身體有後仰或者張嘴大笑,也無法解鎖,不過如果你經常笑,它可以自動學習進行解鎖。
離線學習能力
iPhoneX如此大的出貨量,仍舊保持超高體驗的三維人臉識別率,可見其背後的離線學習能力之強大。像國內業內知名的人臉識別公司,他們的算法縱使厲害,但在如此大規模的實際場景中,它們的三維人臉可以脫離GPU或TPU,實現多大規模的高效離線計算呢?目前他們還沒有這麼大的用戶量去考驗。
三維人臉識別最大的障礙是算力不夠,我們沒有像樣的晶片。據相關資料分析,目前能提供這樣晶片的大概有5家,國內一家、微軟、英特爾、蘋果、Mantis Vision,同時這些晶片幾乎都是輸出RGB和D值,提供基素信息,但是複雜的要素檢測、三維重建、標註、識別及姿態矯正、局部到全局的泛化需要具有嵌入各類模型算法的算力晶片。
從數據上看,我們認為目前算力最強的,還是蘋果收購的PrimeSense,它可以做離線運算出RGBD值及三維重建模型匹配給蘋果A11-A12運算器進行人臉模型計算,將複雜模型計算進行分布式部署,同時三維人臉模型數量遠遠低於二位人臉模型數量(以商湯240特徵點模型為例來比較),降低晶片算力要求。
這裡我需要強調一點,並不是所有算法都可以進行離線運算,它後臺要有結構化分布式的算法邏輯模型及少量的模型數量才能保證降維情況下離線運算,要樣本少、維度低才可以做到。
誤解率
蘋果號稱有百萬分之一的誤解率,國內好幾家也達到這個級別。目前沒有足夠的數據支撐它達到這麼高,相關的原理也沒有公開過。
算力
晶片的能力,具備結構化的分布式算法模型計算能力,要求基素、要素及特徵模型分布式協調並行計算能力,既有分布式又有交互計算的運算框架,這個要求很高,對晶片的多框架計算能力設計非常嚴謹和苛刻。
第一次註冊效率
第一次的註冊用時非常關鍵,註冊時需要很強的少樣本帶自標註的自學習能力。
來看下我們後面的方案:
原來我在CMU時的前輩團隊用三維相機做幾何建模,包括立體光幾何的建模,這屬於被動的建模。
發展到現在,我在美國時團隊的第一次在全球開始使用主動光學的建模:散斑結構光的建模方式,當時結構光只有3千多個,現在蘋果發展得很快。
三維建模方式另一個主要關鍵是三維人臉庫的問題,現在大容量帶標註的三維人臉庫非常少,我們團隊最近幾年嘗試使用S+U方法進行三維人臉庫重建及圖像自標註研究,人臉方面當然這些前提是有獲得RGBD等基素,並具備了三維重建模型基礎進行的。
S+U是SimGAN S+U模擬融合無監督學習算法,是模擬+非監督學習。
這套算法的實現過程,它做的第一件事,是先解決粗粒度生產圖像問題,而且粗粒度圖不可出現偏差,那需要對生成圖像剛體進行自標註;我們用GAN做對抗學習,但GAN它存在很多問題,一個是局部的對抗損失或者注重的細節沒有做到全局。最關鍵的是怎麼做黑盒模擬器,黑盒模擬器集成了GAN加了CNN的算法,我們在裡面做了一個10×10的Resnet放在裡面。
這個過程中,模擬器的做法是,當你的手機拍到正常臉時,它看到的是真實照片,模擬器幫你模擬出了合成的圖像,合成圖像是低粒度細節的,並對剛體進行標註例如眼珠。這是第一個關鍵問題。
第二,為了保證圖像更逼真,我們做了細粒度的網絡,把合成的圖像做細粒化,細粒化過程要求你要了解所有人面部的所有細節特徵、曲面、以及所有紋理,這些數據要採集回來,做細粒化,做細粒化之後讓真臉圖像和細粒化合成臉圖像互相對抗,關鍵是如何保證學習過程不會過擬合,保證有標註參照物,同時使用統計學原理保證標註參照物不會改變情況下,那麼大概率其學習不會過擬合或者出現問題,那麼萬一出問題怎麼辦?後面我們會有個懲罰方案,是多個懲罰函數模型集合。
其次一個非常重要的東西是辨識器,直到辨識器實在沒有辦法分清楚細節合成和真圖像有什麼區別時,這套學習就OK了。
大家都應該知道,iPhone X的人臉用戶註冊,大概需要5秒時間,其中需要用戶左右轉臉、點頭等動作,註冊過程是全息掃描三維圖像給你。全息掃描是1秒輸出60幀的畫面,也就是60張圖片,5秒達到了300張。
所以它會對300張圖像進行離線學習,對抗演練,用300張採集的圖像,生成300張合成圖像。然後又生成300張細粒化圖像,把原來歷史的合成圖像扔掉,但是我們需要一個網絡進行講學習歷史信息補償回來,他不是個自編碼網絡,而是一個全連接網絡,保證它萬一學習過擬合,用學習的歷史來用激勵機制補償它。做完這個學習之後,但發現合成網絡在學習過程中一定會有問題,他會遺失掉一些有用的數據,有時會學到一些細節,沒有辦法泛化整個圖像。
這裡面三維結構光帶來非常關鍵的問題,把所有立體像素RGBD做解析幾何及統計學的融合三維重建。相當於把1毫米的立體點融合成為剛性的三維模型(體積、面積、法線向量、紋理及要素特徵)。
這個框架是不會放在現在兩個對抗學習裡面去,當發現我有一組懲罰函數放在裡面,一旦學習出了問題,會懲罰第二個網絡,然後讓它做糾正或者補充,補充過程中就會把丟失的東西找回來。像自編碼網絡但不是自編碼網絡會用簡單、低成本找回遺失的數據信息。
下一個問題就是,我們懲罰的方案,最好的方式是能夠讓它兩個在學習過程中,使用更好的學習走樣(例如過擬合)的解決方式。預設當我學習了三個內容,辨識器分別不出兩張的真假,再來第三張圖片,他們三個同時在學,組成三個網絡互相可以學、對抗,最後樣本會變得越來越大。這裡面我們用了全的CNN網絡來操作RGBD等基素、要素,特別是全局法線特徵向量趨勢等特徵集,然後來預處理全局,三維視角裡面最大的難點是預處理。這是非線性的結構化的算法過程。
接下來,這裡面有幾個關鍵的組成,我們會限制它學習的區域,不讓它做全臉學習。全臉學習是不可能的,它只會做區域限定,區域限定是根據測試結果來不停調整區域限制。再一個是本地遺失函數,一旦發現學過擬合的時候,我們會把本區域內遺失的數據補償回來。這裡面還有一些歷史信息來做補償,還有一組懲罰函數,全局法線向量趨勢泛化模型及懲罰泛化模型,這對算力的要求比較高。通過這些個方式做到對抗學習,學習精度會變得越來越好。
我們進行視覺圖靈測試,讓人選擇它所認為真實和合成的圖像,共800張圖片,400張真實圖片中人認為真實的有356個,400張合成圖片中人認為真實的有342個,比例趨近於1:1;我們對400張合成圖片進行圖靈測試,人認為320個合成圖片是真實的圖像。從視覺圖靈測試的1:1規則變化看,合成圖像從圖靈測試角度已經通過。
根據目前我們的合成三維圖像的表現,在我所知的算法裡是最高的,當然還有很多未知算法的表現我是不知道,MPIIGaze測試表現目前比同行平均高出24.9點多。現在平均二維人臉識別的精度是99.5%,大樣本下99.8%,MPIIGaze高24.9點多,即可達到99.9%,目前預計可就是百萬分之一的誤解率。
三維人臉工業領域裡,在未來很多領域有非常多的應用,比如身份識別,銀行對身份證識別要求非常高,開卡的時候要求人的識別準確率一定是99.9%,支付的時候也必須是99.9%。同時我們所說的潛在的應用場景,會受到硬體限制。
三維重建及人臉在醫學領域應用可以用來做醫學美容,三維細粒度圖像重建與合成,細粒度的特徵醫學美容會讓你的鼻子變得越來越像某個明星,真的好很多。現在三維技術不是特別好的時候肯定會走樣。娛樂行業,更厲害美顏需要細節化,當然對防抵賴是沒有益處。
對AI方面,我們更多的考慮是基於風險的KYC的問題,二是嚴苛的身份識別,包括人臉的帳戶開立、支付、反欺詐、反洗錢、支付安全和支付合規,金融在這個領域要求特別多,三維做第一人稱、第二人稱欺詐的問題一定會放在這兒。
其實金融行業最擔心的問題是你用GAN生成人臉去騙過二維人臉支付,二是擔心拿照片騙過他,三是害怕模具,尤其是通過3D列印出來的反求模具會騙過人臉,這三個確實會騙到。第四個活體檢測,活體檢測是最難的問題,你們可能也了解,現在所有的做人臉的廠商做活體檢測要錄一段視頻上去,要和你預存的視頻進行做對比,回去看你這個人是不是活的,但時模型很多,很耗GPU,雖然現在又靜默活體,GAN依然能生成靜默活體視頻,去欺騙他。
GAN生成的視頻完全可以欺騙過全球最厲害的二位人臉識別系統,這樣二維人臉就沒有辦法用到金融方面強交易安全的場景,特別是開戶、支付兩個環節。有三維人臉技術之後,15000的特徵點,讓假冒幾乎成為不可能。
我們團隊將很快會出來創業。我們可以看到金融最難的問題是獲客,大家都談獲客,用智能或者什麼手段,其實都沒有解決最重要的問題。我這幾年一直考慮,怎麼甄別你的場景?
其實真正的金融場景就是高頻和快捷的支付為入口,那麼支付局面大家可知;另外怎麼看你客戶的旅程,你怎麼看金融服務的旅程,怎麼讓金融服務的旅程和客戶的旅程能夠綁定在一起,這是很重要的,是做自己所有的行為,但是金融的過程是完全不能Match客戶行為裡面的內容,這裡面有很多的維度它做不到。
這裡面我們會提供一個金融大腦平臺,這個平臺第一關鍵的是KYC的身份識別(包括我們的二維人臉、三維人臉及交叉驗證信息),第二是因為場景方沒法將他的數據特別是支付交易數據給金融機構,那我們需要金融大腦嵌入到場景方,讓數據不出場景控制,而且能通過深度學習模型獲得精準客戶,提升場景方轉化率,同時金融機構會得到他想要的客戶。
原來我在沃森做的一件事是跟AMA做的商業決策搜索,剛剛和向江旭總談的情況類似,我弄了幾十萬個報告,用了一個隱馬爾可夫模型的算法來看它的詞,這個詞彙包括剛才沈劍平總也講了這個問題,你的語料庫很重要,語料庫是非常龐大的,包括某些著名搜索公司也不會建立龐大的的物料庫,因為成本太高,算不過來,3×3次方的物料,九次方的詞庫。
在這裡我們會基於金融大腦平臺建立自己的Finacial Supermarket,是比較超級的金融平臺。這個超級平臺第一個問題是先解決線上貸款問題,貸款最關鍵的是徵信報告,我們自己做OCR進行徵信報告識別,前段時間我們自己的團隊想用一些著名AI公司OCR,但人家覺得我們給錢太少,沒有動力搞定,被迫最後我們自己做,現在我們的識別率到99.7,還不錯,餵報告有40多份差不多就96%多了,餵到一千多份欄位級到99%。我們的算法就是圖像檢測算法,不是光學,然後進行標註,學習。第二步太模糊的時候,可做些語義分析,最後做HHM切詞,做到三點精度就可以提到比較高。
同時裡面的表格還是用人臉檢測的方法,把單元格全部切片,用FAST視角定位切片出來,像邊線不夠好的地方我們做了補償,差不多做了3個多月。
我們的超級平臺,裡面有幾個東西比較有意思,一是金融大腦嵌入場景自學習算法模型,二是基於以OCR徵信報告解析為代表的非結構化輔助數據結構化及驗證,三是現在大家都做的DMP平臺,這個DMP平臺是基於金融大腦及類腦計算,當然關鍵還是數據,強關聯數據和行為數據,最關鍵帶場景模擬機及自學習能力;還有就是金融大腦研究,很重要,我們用Lucy的方法做IDDS的東西,我們做四庫,知識庫、常識庫,很多人只想做知識庫不做常識庫,這是誤區,常識庫積累非常難,兩塊互補。然後進行對抗。
我們最近研究對抗比較多,知識和常識的轉換,什麼時候變成常識,我要搜索外圍所有的定理和常理來看你所有的行為,外面有很雜繞的有很多噪聲的物料庫,這個庫是我們在裡面扔垃圾或者回收垃圾的庫。這裡面最關鍵的是爬蟲,你去爬所有的資料,這都會扔到垃圾庫裡,切掉,互相對抗學,學出來最好的放到常識預備庫,然後做規則匹配,讓預備庫變成正式庫,最後面要看知識庫的責任了。和我們設計風險模型的方式一樣,先有規則,然後才有策略,有了策略才能切分人群,按不同X值和Y進行對照組合學習等。按照人類腦的方法做,有了常識、規則之後才會有知識。
在這個超級金融平臺上,我們還會做開放的金融平臺,做了一鍵接入,包括共享SIT、共享開發、共享項目管理,包括身份平臺,特別關鍵的是我們將要共建了一些標準,數據交換的標準,還做了包括系統管理級的東西,還有場景,比較亮點的是場景沙箱,很多銀行說要場景獲客,其實看了別人的場景覺得到底能不能用,把產品、服務流程等東西扔進去之後,模擬未來給他帶來收益,基於風險的收益,權衡收益多少。
重點是,我們做的是一個平臺,同時定製化,公共平臺包括金融大腦、類腦計算、OCR、Tensor Flow、Hadoop等,還有些定製化,包括場景、開放API、面對不同產品的場景嵌入模型,我們完全用微服務架構。我們這個微服務架構不是大家想的那樣,是一個微服務可以實現好幾個重要功能,但是從業務邏輯實現,我們沒有按照現在流行的方法做,我們的水平達不到流行的方法,我們是按照功能來切分微服務大小。NLP目前使我們團隊短板,確實也很難,我們正在積極和一些全球著名團隊合作。
最後,我們考慮建立基於數據安全、隱私保護、雙向鑑權和共享標準的,數據地圖,這個地圖大家比較清楚,這些都會在風控模型上用到,這些數據,從風控角度來時第一個是看重徵信報告的數據,第二個是通過多方驗證的第三方數據,第三個是金融支付(支付模型結構)數據。
大家知道做零售貸款,所有的行為數據都是沒有用的,都是無相關數據,最重要的是徵信數據。其他數據我們不太看。第二方面,目前風控模型對所有的策略和權重都是半監督學習、我們模式不同,使用深度學習方法,包括統計分析及關聯學習等,我們不會Y的值和一群X就粗暴地處理,組合式分出權重,我們更看重最後的表現。
當然這些風險要有足夠大的樣本,我們大概有15萬個客戶的樣本,額度是在日均25萬,其實模型還是較健壯的,現在採納了40多家銀行,我們未來目標希望和大的金融機構進行合作共同建模,用歷史數據來優化模型,同時我們開源這些模型和金融大腦平臺,真正做到超級開放平臺。
雷鋒網雷鋒網雷鋒網
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。