得意音通鄭方:對聲紋認證的三類攻擊可以防範

2020-12-20 和訊銀行

　　中國電子銀行網訊 2016年12月8日，由中國金融認證中心(CFCA)舉辦的2016「科技+金融，啟創銀行未來」高峰論壇暨第十二屆中國電子銀行年會在北京舉行。近四百位商業銀行電子銀行的負責人蒞臨此次年會，就區塊鏈、金融大數據、銀行機器人、移動金融、直銷銀行新業態等熱點進行深入探討與交流。《2016中國電子銀行調查報告》和中國電子銀行金榜獎同步對外公布。

鄭方北京得意音通技術有限責任公司董事長（圖左）

　　北京得意音通技術有限責任公司董事長、清華大學語音和語言技術中心主任鄭方，於論壇就聲紋識別領域有關問題，接受了中國電子銀行網記者的專訪，以下為詳細訪談內容：

　　記者：鄭老師您好，非常感謝您能夠蒞臨本次電子銀行年會，並奉獻了一場精彩的演講。聲紋技術如今在您的帶領下已經發展得非常成熟了，我有幾個問題想請教您，首先在銀行領域，聲紋技術如何與應用場景相融合，將帶來怎樣的智能體驗？

　　鄭方：聲紋識別用在銀行領域，其實主要是用於遠程身份認證。因為現在從信息安全角度講，像數據安全（如存儲、傳輸）、網絡安全（如防火牆）等等安全技術，都已經比較成熟了，一些保障也做得比較好。但是在移動金融領域，對身份認證就有點束手無策了，目前流行的簡訊驗證碼又比較依賴於你所用的手機，手機一旦丟失，別人也可以用簡訊驗證碼找回各種信息，所以它就不是解決問題的最好方法。聲紋剛好可以在遠程場合下，通過聲音來驗證身份，解決身份認證問題，相對比較方便。

　　我們現在提出了一個方案，把簡訊驗證碼和聲紋結合起來。結合以後，在嚴重時它既把驗證碼驗證了，也把你的聲紋驗證了，達到雙重的安全保障目的。聲紋識別作為人工智慧技術的一種，在移動金融領域的遠程身份認證場合就能夠用得比較好。

　　記者：聲紋技術可以幫助銀行提升哪些風險防控能力？

　　鄭方：剛才講的問題，跟這個問題是比較類似的，它也就是在風險防控方面的。在風險防控方面，我不是專攻這個領域的，我不敢講；但我作為一個用戶，我的體會是，進行帳戶操作，可以對某些帳戶進行存取或者不能對有些帳戶進行存取，這就需要合法性驗證。

　　第二，用戶的資金數據存取或者資金轉帳，這兩種裡邊都涉及到。一是可能設置有不同的權限，權限級別高的人可以把所有的金融數據都看到，但是低的就看不了那麼多。如果能把身份認證好，在這方面可以有很好的把控。我們原先也跟中國移動做過類似的項目，他們就是在權限的限定方面，通過聲紋的身份認證來實現。另一個問題是資金的取款、匯款、轉帳、支付等等，我認為關鍵也是跟身份驗證相關。身份如果能夠驗證清楚，即使別人竊取了你的密碼，竊取了你的帳戶信息，它可以都不太可能起很大作用。所以我認為，風險防控還是跟身份認證是相關的。

　　記者：利用聲紋技術進行用戶身份認證，具備怎樣的安全性？指紋、人臉、虹膜等生物識別技術快速發展背景下，聲紋技術有哪些核心競爭力？

　　鄭方：你這個問題非常好，很多人問過我類似的問題。指紋也好，人臉也好，這個大家都知道，很多場合已經應用了。人們為什麼對它比較熟悉，比較了解，而且也比較認可呢，關鍵就是它是有形的，能看得見、摸得著。聲音是看不見的，摸不著的，所以聲紋給用戶使用的時候，用戶接受起來就存在一些障礙。但是我覺得聲音在遠程身份認證時是最好的生物特徵，尤其在防假冒攻擊方面，當然現在有好多單位在做這方面的研究，如人臉、指紋等，再加一維，維度增加以後，變成三維的識別，可以做到很好的活體檢測來防止假體攻擊，對這個方面的嘗試和取得的效果我都是認可的。

　　但是我們真正給用戶用的話，最終是要看用戶的接受程度的。用戶接受程度的因素有很多：第一，它會不會覺得這個安全，這是感覺問題；第二，你這個產品的成本會怎麼樣。比方說聲音，在建行手機銀行用的時候，它能夠很快地呈指數級增長，這是因為，手機隨處可見，手機App一安裝，聲紋識別的開關一打開，就可以用了，不需要加額外的硬體，也不需要佔用額外的帶寬；其他技術可能會做得很好，但或許要增加額外的硬體，特殊的硬體，但像建行這樣有兩億的電子銀行用戶的情形，你都分發一遍這些額外硬體，讓用戶換手機或者升級換代，它就很難，做不到。用戶也會問這個錢是銀行付還是用戶付，如果銀行付，這個可以，但是銀行分發需要時間，如要讓用戶付，對不起，用戶不一定願意付。

　　還有，這些特徵都是靜態的生理特徵，靜態的最大特點就是不變，相對來講不變。現在的人工智慧技術發展很快，你只要不變，我就能夠想出辦法模擬出來，或者說，你也可以變，比如像人臉，可以要求用戶眨眨眼睛、張張嘴巴、搖搖頭，但是變化的種類太少，機器就可以模仿。語音就不是這樣了，全球那麼多種語言，舉例說即使只考慮漢語，漢字就超過五千多，可以組合成不同的句子，變化就多了；這麼多的組合，要都把它們錄下來去模仿，實在太難，這個特點在防攻擊方面就有天然的優勢。其他生物特徵我不否認它們是很好的特徵，但是聲音與它們相比可能就更好甚至是最好的。前面一段時間我只是進行理論分析，後來在跟建行、銀聯、國家信息中心等合作時，看著用戶量飛速增長，我認為時間驗證前面這個分析還是對的。

　　記者：如何看待高真語音模擬對聲紋技術應用的影響？

　　鄭方：現在對聲紋認證的攻擊，大概分成幾類，第一類是模仿，第二類是語音合成或者語音轉換，第三類是錄音重放。這三類都是比較常見的。

　　先說模仿，實際我們人的感覺是（模仿）真像，比如趙本山模仿誰，人一聽怎麼那麼像，在比如前一段時間有個有名的藏族小夥子叫洛桑尼瓦，他模仿別人的聲音也都模仿得很像。但是我把它叫做「聽覺欺騙」，人聽東西其實很容易被欺騙的，就跟視覺欺騙類似，比如一組平行的直線，你如果弄一些等間距的折線與它們交叉，你會發現這些線貌似不平行，但實際上是平行的，這就是視覺欺騙。聽覺也會被欺騙，容易被聲調、語調等欺騙。

　　我們如果用機器去判斷，會發現這些模仿（與原聲）差別太大了，趙本山也好，洛桑尼瓦也好，（與真人的聲音）其實差別很大，它們只是語調、抑揚頓挫的習慣相似。有一個數據可以說明問題。2004年山西省公安部門邀請我去參加公安部《雙胞胎語音的聲紋鑑定研究》課題驗收鑑定會，他們找了23對雙胞胎，而且是同卵雙胞胎的語音數據，專家去聽，大概分辨準確率是85%，我當時要了數據，拿來到機器上試試，結果發現100%全區分開了。人去聽模仿聲音，一般聽的是調，語調是否像，韻律是否像，很容易欺騙。

　　第二是合成的問題。現在一些語音合成技術包括語音轉換技術已經比較不錯了。聽了歐巴馬的一些語音數據，學一些模型參數，就可以對一些新的文本合成或轉換出語音，的確聽著比較像。現在對其他一些生物特徵還是可以通過模仿進行攻擊的，但是對語音至少在近一二十年內還做不到，為什麼？因為聲音裡邊含的信息太多了，上午我講了的就有六七種，其實還有更多的信息。這麼多信息，你可能模仿出中間的一兩種，但不可都能都模仿出來。而我們對語音的這個檢測是綜合的，你所有信息中只要找到一點有合成的痕跡，馬上就能知道你這語音是合成的，所以模型語音進行攻擊是非常難的。就目前的實驗結果來看，第二種攻擊還是做不到的，系統可以輕易阻止第二種假冒攻擊。

　　第三就是錄音重放。錄音重放是最難檢測的，因為說句老實話它原本就是你真實的聲音。但是，如果用我們的方案，即聲密保方案，每次讓你說的都是變化的，那你就沒法弄了。當然，一旦你做了錄音了，然後進行拼接，再重放，系統檢測是有一點難度的。好在我們有一個專利技術，只要你錄音-拼接-重放進入系統，它對語音信號就會有破壞和影響，我們就能夠檢測到。這是專利技術，我們也是做了好幾年的研究和開發才把它成功做出來。最近某個銀行做了一個測試，找了幾家廠商來做錄音檢測，我們是100%都檢測到錄音了，其他廠商都做不到。

　　這樣看的話你看，最難的（問題），我們都已經把它解決了，容易的那就更不在話下了。當然這個話也不能絕對，因為現在人工智慧發展很快，也許過一二十年，聲音合成或轉換的技術更好了，但是那時候我們也有更好的檢測方案了。

　　記者：談談您對科技+金融的看法，並憧憬未來銀行。

　　鄭方：我只談談其中的金融安全，金融安全是老百姓(603883,股吧)最關心的問題。錢放在你銀行裡邊，我是對你信任，結果最後你把錢給弄沒了，還說你不負責，這樣的事情老百姓肯定是不接受的。這裡聲紋可以更好地從幾個不同層面來解決用戶的一些疑慮：

　　第一，他的心理感覺。我和很多人聊過，包括銀行業、科技界的人士，還有普通用戶朋友，我就說你們為什麼不用手機銀行，這不是很方便嗎？他說你要弄個幾塊錢，我丟就丟吧，就像現在一些常用的支付手段，很方便，這可以用；但是數額大了，上萬，上十萬，甚至上百萬，我就不願意用了，因為我不敢用。我說如果安全，你敢用嗎？他們說安全了，我絕對敢用，我更願意用，因為手機太方便了，隨時都在身邊，你讓我到櫃檯去，多費時間啊。聲紋識別給你解決了這個（安全）問題，你覺得它安全，這是感覺。實際上這個感覺有時挺關鍵的，人用不用，有時候就在於這個感覺。

　　第二，從實際上來講，它也真的能夠解決安全問題，把身份認證做到非常高的精度。並且不像其他生理特徵一旦丟了，你就會很害怕，因為別人可以在其他場合使用這些特徵；對聲音，它自身不容易被別人模仿，不容易被別人偷竊，所以自身的安全問題它也能做到很好。

　　記者：為什麼說聲紋識別是遠程身份認證最好的解決方案？為什麼你認為電子銀行的聲紋時代已經來臨？

　　鄭方：電子銀行的聲紋時代，剛開始要做報告的時候也有人說是不是不能叫聲紋時代。在這裡我很認真地講一下，首先聲紋時代肯定來了。這個很多專家都有共識，國際上一些科學家，產業界的一些都覺得聲紋科技都開始用了，用在出入境控制，用在犯罪分子追蹤，用在金融安全等。我今天加了一個定語說成「電子銀行的聲紋時代」，想一想這個用詞還是比較嚴謹的，更是可以說的了。

　　現在我從理論上分析一下這個事情。2008年是我主導制訂了中國第一個聲紋識別的標準，做的時候更是很多人不相信聲紋可以實用。後來我分析聲音有它的特點，有它的好處，所以我覺得肯定能用。但是真正最後被實踐驗證是等到什麼時候呢？是2014年左右，就是4G牌照發放之後，根據工信部的統計智慧型手機的用戶數超過6億了，基本上可以說有行為能力的人都有智慧型手機。這兩個因素一結合，所有跟它們相關的應用都出來了，用App，用無線，加上手機你隨身攜帶，用它進行支付，82%的用戶都習慣使用，所以手機銀行的時代肯定會來臨。當時有的銀行還用的音頻盾，不知道你是否了解，就是可以插手機音頻口的客戶證書Key，但是所有的外接設備都有忘記攜帶或容易丟失的問題，肯定不方便，而且iPhone7一出來，音頻口沒了，音頻盾就沒有用武之地了。但是如果用聲紋（就沒有這個問題），手機的麥克風永遠不可能去掉，就可以一直使用。實踐也證明，手機銀行的聲紋識別一推出，用戶數就呈指數級增長，這個增長速度，讓我很興奮。所以，我就說在電子銀行領域，聲紋時代的確已經來臨。

　　謝謝！

（責任編輯： HN666）

得意音通鄭方:對聲紋認證的三類攻擊可以防範

相關焦點

鄭方:「聲控」下的無接觸金融

得意音通鄭方:能面對關鍵難題的公司才能長跑|兵器譜訪談錄

鄭方:聲紋是最好的生物特徵識別方式

聲紋識別產業研討會成功召開我國首個聲紋識別產業白皮書發布

第二屆聲紋產業研討會成功召開,白皮書2.0重磅發布

聲紋識別技術助力遠程身份認證

聲紋識別目前已被用於部分銀行聲音會被模仿,聲紋還可靠嗎

【語音算法系列】聲紋識別助力身份認證

聲揚科技CEO李亞桐:用聲紋尋找身份識別安全和便捷的黃金比例

什麼是聲紋分析?--財經--人民網

東進金融聲紋驗證機:聽音辨人守護安全

思科交換機如何防範典型欺騙和攻擊

一種新思路的ARP欺騙攻擊的防範

CHINADAILY | 聲紋識別可能是密碼的另一種選擇

《重生》鄭鑫並非鄭方的親生兒子,劇中已經給出了答案

防範勒索軟體攻擊的六個行動

傳輸層的攻擊&防範

得意音通鄭方:對聲紋認證的三類攻擊可以防範

相關焦點

鄭方:「聲控」下的無接觸金融

得意音通鄭方:能面對關鍵難題的公司才能長跑|兵器譜訪談錄

鄭方:聲紋是最好的生物特徵識別方式

聲紋識別產業研討會成功召開 我國首個聲紋識別產業白皮書發布

第二屆聲紋產業研討會成功召開,白皮書2.0重磅發布

聲紋識別技術助力遠程身份認證

聲紋識別目前已被用於部分銀行 聲音會被模仿,聲紋還可靠嗎

【語音算法系列】聲紋識別助力身份認證

聲揚科技CEO李亞桐:用聲紋尋找身份識別安全和便捷的黃金比例

什麼是聲紋分析?--財經--人民網

東進金融聲紋驗證機:聽音辨人守護安全

思科交換機如何防範典型欺騙和攻擊

一種新思路的ARP欺騙攻擊的防範

CHINADAILY | 聲紋識別可能是密碼的另一種選擇

《重生》鄭鑫並非鄭方的親生兒子,劇中已經給出了答案

防範勒索軟體攻擊的六個行動

傳輸層的攻擊&防範

聲紋識別產業研討會成功召開我國首個聲紋識別產業白皮書發布

聲紋識別目前已被用於部分銀行聲音會被模仿,聲紋還可靠嗎