中國電子銀行網訊 2016年12月8日,由中國金融認證中心(CFCA)舉辦的2016「科技+金融,啟創銀行未來」高峰論壇暨第十二屆中國電子銀行年會在北京舉行。近四百位商業銀行電子銀行的負責人蒞臨此次年會,就區塊鏈、金融大數據、銀行機器人、移動金融、直銷銀行新業態等熱點進行深入探討與交流。《2016中國電子銀行調查報告》和中國電子銀行金榜獎同步對外公布。
鄭方 北京得意音通技術有限責任公司董事長(圖左)
北京得意音通技術有限責任公司董事長、清華大學語音和語言技術中心主任鄭方,於論壇就聲紋識別領域有關問題,接受了中國電子銀行網記者的專訪,以下為詳細訪談內容:
記者:鄭老師您好,非常感謝您能夠蒞臨本次電子銀行年會,並奉獻了一場精彩的演講。聲紋技術如今在您的帶領下已經發展得非常成熟了,我有幾個問題想請教您,首先在銀行領域,聲紋技術如何與應用場景相融合,將帶來怎樣的智能體驗?
鄭方:聲紋識別用在銀行領域,其實主要是用於遠程身份認證。因為現在從信息安全角度講,像數據安全(如存儲、傳輸)、網絡安全(如防火牆)等等安全技術,都已經比較成熟了,一些保障也做得比較好。但是在移動金融領域,對身份認證就有點束手無策了,目前流行的簡訊驗證碼又比較依賴於你所用的手機,手機一旦丟失,別人也可以用簡訊驗證碼找回各種信息,所以它就不是解決問題的最好方法。聲紋剛好可以在遠程場合下,通過聲音來驗證身份,解決身份認證問題,相對比較方便。
我們現在提出了一個方案,把簡訊驗證碼和聲紋結合起來。結合以後,在嚴重時它既把驗證碼驗證了,也把你的聲紋驗證了,達到雙重的安全保障目的。聲紋識別作為人工智慧技術的一種,在移動金融領域的遠程身份認證場合就能夠用得比較好。
記者:聲紋技術可以幫助銀行提升哪些風險防控能力?
鄭方:剛才講的問題,跟這個問題是比較類似的,它也就是在風險防控方面的。在風險防控方面,我不是專攻這個領域的,我不敢講;但我作為一個用戶,我的體會是,進行帳戶操作,可以對某些帳戶進行存取或者不能對有些帳戶進行存取,這就需要合法性驗證。
第二,用戶的資金數據存取或者資金轉帳,這兩種裡邊都涉及到。一是可能設置有不同的權限,權限級別高的人可以把所有的金融數據都看到,但是低的就看不了那麼多。如果能把身份認證好,在這方面可以有很好的把控。我們原先也跟中國移動做過類似的項目,他們就是在權限的限定方面,通過聲紋的身份認證來實現。另一個問題是資金的取款、匯款、轉帳、支付等等,我認為關鍵也是跟身份驗證相關。身份如果能夠驗證清楚,即使別人竊取了你的密碼,竊取了你的帳戶信息,它可以都不太可能起很大作用。所以我認為,風險防控還是跟身份認證是相關的。
記者:利用聲紋技術進行用戶身份認證,具備怎樣的安全性?指紋、人臉、虹膜等生物識別技術快速發展背景下,聲紋技術有哪些核心競爭力?
鄭方:你這個問題非常好,很多人問過我類似的問題。指紋也好,人臉也好,這個大家都知道,很多場合已經應用了。人們為什麼對它比較熟悉,比較了解,而且也比較認可呢,關鍵就是它是有形的,能看得見、摸得著。聲音是看不見的,摸不著的,所以聲紋給用戶使用的時候,用戶接受起來就存在一些障礙。但是我覺得聲音在遠程身份認證時是最好的生物特徵,尤其在防假冒攻擊方面,當然現在有好多單位在做這方面的研究,如人臉、指紋等,再加一維,維度增加以後,變成三維的識別,可以做到很好的活體檢測來防止假體攻擊,對這個方面的嘗試和取得的效果我都是認可的。
但是我們真正給用戶用的話,最終是要看用戶的接受程度的。用戶接受程度的因素有很多:第一,它會不會覺得這個安全,這是感覺問題;第二,你這個產品的成本會怎麼樣。比方說聲音,在建行手機銀行用的時候,它能夠很快地呈指數級增長,這是因為,手機隨處可見,手機App一安裝,聲紋識別的開關一打開,就可以用了,不需要加額外的硬體,也不需要佔用額外的帶寬;其他技術可能會做得很好,但或許要增加額外的硬體,特殊的硬體,但像建行這樣有兩億的電子銀行用戶的情形,你都分發一遍這些額外硬體,讓用戶換手機或者升級換代,它就很難,做不到。用戶也會問這個錢是銀行付還是用戶付,如果銀行付,這個可以,但是銀行分發需要時間,如要讓用戶付,對不起,用戶不一定願意付。
還有,這些特徵都是靜態的生理特徵,靜態的最大特點就是不變,相對來講不變。現在的人工智慧技術發展很快,你只要不變,我就能夠想出辦法模擬出來,或者說,你也可以變,比如像人臉,可以要求用戶眨眨眼睛、張張嘴巴、搖搖頭,但是變化的種類太少,機器就可以模仿。語音就不是這樣了,全球那麼多種語言,舉例說即使只考慮漢語,漢字就超過五千多,可以組合成不同的句子,變化就多了;這麼多的組合,要都把它們錄下來去模仿,實在太難,這個特點在防攻擊方面就有天然的優勢。其他生物特徵我不否認它們是很好的特徵,但是聲音與它們相比可能就更好甚至是最好的。前面一段時間我只是進行理論分析,後來在跟建行、銀聯、國家信息中心等合作時,看著用戶量飛速增長,我認為時間驗證前面這個分析還是對的。
記者:如何看待高真語音模擬對聲紋技術應用的影響?
鄭方:現在對聲紋認證的攻擊,大概分成幾類,第一類是模仿,第二類是語音合成或者語音轉換,第三類是錄音重放。這三類都是比較常見的。
先說模仿,實際我們人的感覺是(模仿)真像,比如趙本山模仿誰,人一聽怎麼那麼像,在比如前一段時間有個有名的藏族小夥子叫洛桑尼瓦,他模仿別人的聲音也都模仿得很像。但是我把它叫做「聽覺欺騙」,人聽東西其實很容易被欺騙的,就跟視覺欺騙類似,比如一組平行的直線,你如果弄一些等間距的折線與它們交叉,你會發現這些線貌似不平行,但實際上是平行的,這就是視覺欺騙。聽覺也會被欺騙,容易被聲調、語調等欺騙。
我們如果用機器去判斷,會發現這些模仿(與原聲)差別太大了,趙本山也好,洛桑尼瓦也好,(與真人的聲音)其實差別很大,它們只是語調、抑揚頓挫的習慣相似。有一個數據可以說明問題。2004年山西省公安部門邀請我去參加公安部《雙胞胎語音的聲紋鑑定研究》課題驗收鑑定會,他們找了23對雙胞胎,而且是同卵雙胞胎的語音數據,專家去聽,大概分辨準確率是85%,我當時要了數據,拿來到機器上試試,結果發現100%全區分開了。人去聽模仿聲音,一般聽的是調,語調是否像,韻律是否像,很容易欺騙。
第二是合成的問題。現在一些語音合成技術包括語音轉換技術已經比較不錯了。聽了歐巴馬的一些語音數據,學一些模型參數,就可以對一些新的文本合成或轉換出語音,的確聽著比較像。現在對其他一些生物特徵還是可以通過模仿進行攻擊的,但是對語音至少在近一二十年內還做不到,為什麼?因為聲音裡邊含的信息太多了,上午我講了的就有六七種,其實還有更多的信息。這麼多信息,你可能模仿出中間的一兩種,但不可都能都模仿出來。而我們對語音的這個檢測是綜合的,你所有信息中只要找到一點有合成的痕跡,馬上就能知道你這語音是合成的,所以模型語音進行攻擊是非常難的。就目前的實驗結果來看,第二種攻擊還是做不到的,系統可以輕易阻止第二種假冒攻擊。
第三就是錄音重放。錄音重放是最難檢測的,因為說句老實話它原本就是你真實的聲音。但是,如果用我們的方案,即聲密保方案,每次讓你說的都是變化的,那你就沒法弄了。當然,一旦你做了錄音了,然後進行拼接,再重放,系統檢測是有一點難度的。好在我們有一個專利技術,只要你錄音-拼接-重放進入系統,它對語音信號就會有破壞和影響,我們就能夠檢測到。這是專利技術,我們也是做了好幾年的研究和開發才把它成功做出來。最近某個銀行做了一個測試,找了幾家廠商來做錄音檢測,我們是100%都檢測到錄音了,其他廠商都做不到。
這樣看的話你看,最難的(問題),我們都已經把它解決了,容易的那就更不在話下了。當然這個話也不能絕對,因為現在人工智慧發展很快,也許過一二十年,聲音合成或轉換的技術更好了,但是那時候我們也有更好的檢測方案了。
記者:談談您對科技+金融的看法,並憧憬未來銀行。
鄭方:我只談談其中的金融安全,金融安全是老百姓(603883,股吧)最關心的問題。錢放在你銀行裡邊,我是對你信任,結果最後你把錢給弄沒了,還說你不負責,這樣的事情老百姓肯定是不接受的。這裡聲紋可以更好地從幾個不同層面來解決用戶的一些疑慮:
第一,他的心理感覺。我和很多人聊過,包括銀行業、科技界的人士,還有普通用戶朋友,我就說你們為什麼不用手機銀行,這不是很方便嗎?他說你要弄個幾塊錢,我丟就丟吧,就像現在一些常用的支付手段,很方便,這可以用;但是數額大了,上萬,上十萬,甚至上百萬,我就不願意用了,因為我不敢用。我說如果安全,你敢用嗎?他們說安全了,我絕對敢用,我更願意用,因為手機太方便了,隨時都在身邊,你讓我到櫃檯去,多費時間啊。聲紋識別給你解決了這個(安全)問題,你覺得它安全,這是感覺。實際上這個感覺有時挺關鍵的,人用不用,有時候就在於這個感覺。
第二,從實際上來講,它也真的能夠解決安全問題,把身份認證做到非常高的精度。並且不像其他生理特徵一旦丟了,你就會很害怕,因為別人可以在其他場合使用這些特徵;對聲音,它自身不容易被別人模仿,不容易被別人偷竊,所以自身的安全問題它也能做到很好。
記者:為什麼說聲紋識別是遠程身份認證最好的解決方案?為什麼你認為電子銀行的聲紋時代已經來臨?
鄭方:電子銀行的聲紋時代,剛開始要做報告的時候也有人說是不是不能叫聲紋時代。在這裡我很認真地講一下,首先聲紋時代肯定來了。這個很多專家都有共識,國際上一些科學家,產業界的一些都覺得聲紋科技都開始用了,用在出入境控制,用在犯罪分子追蹤,用在金融安全等。我今天加了一個定語說成「電子銀行的聲紋時代」,想一想這個用詞還是比較嚴謹的,更是可以說的了。
現在我從理論上分析一下這個事情。2008年是我主導制訂了中國第一個聲紋識別的標準,做的時候更是很多人不相信聲紋可以實用。後來我分析聲音有它的特點,有它的好處,所以我覺得肯定能用。但是真正最後被實踐驗證是等到什麼時候呢?是2014年左右,就是4G牌照發放之後,根據工信部的統計智慧型手機的用戶數超過6億了,基本上可以說有行為能力的人都有智慧型手機。這兩個因素一結合,所有跟它們相關的應用都出來了,用App,用無線,加上手機你隨身攜帶,用它進行支付,82%的用戶都習慣使用,所以手機銀行的時代肯定會來臨。當時有的銀行還用的音頻盾,不知道你是否了解,就是可以插手機音頻口的客戶證書Key,但是所有的外接設備都有忘記攜帶或容易丟失的問題,肯定不方便, 而且iPhone7一出來,音頻口沒了,音頻盾就沒有用武之地了。但是如果用聲紋(就沒有這個問題),手機的麥克風永遠不可能去掉,就可以一直使用。實踐也證明,手機銀行的聲紋識別一推出,用戶數就呈指數級增長,這個增長速度,讓我很興奮。所以,我就說在電子銀行領域,聲紋時代的確已經來臨。
謝謝!
(責任編輯: HN666)