導語:「老婆,開門。」如果隔壁老王不懷好意,刻意練習你的口音……
本文作者:李勤
「老婆,開門。」
如果隔壁老王不懷好意,刻意練習你的口音,相信你能感受到「京中有善口技者。會賓客大宴,於廳事之東北角施八尺屏障,口技人坐屏障中,一桌、一椅、一扇、一撫尺而已」的同等效果。
▲隔壁王叔叔
不過,如果你家安裝的是擁有聲紋識別的智能門鎖,就算隔壁老王將你的聲音模仿到出神入化,這扇門也是開不了的。
雖然,雷鋒網編輯早就聽說過聲紋識別技術可以應用於智能門鎖,但是不親見,還真不能感受到它的威力。
幾天前,雷鋒網在清華大學的一棟大樓內,參加人工智慧與信息安全論壇暨得意音通信息技術研究院成立大會時,演講聽到一半,得意音通董事長鄭方突然讓工作人員把一張門和相關設備搬上了演講臺。
這是要搞事啊!
然後,兩個漂亮的小姐姐走上臺,一個扮演主人,一個扮演盜竊者。
主人在手機 App 中錄入了自己的聲音與門進行綁定後,開始了第一個回合:
小姐姐主人逛街回到家,打開 App,按照彈出來的數字密碼(實際生活中是隨機密碼,在演示過程中密碼簡化成了 12345678),直接念了密碼,順利開門了。
第二回合:手機丟了,被「小偷」撿到了。盜竊者用自己的聲音念密碼,嗯,門在意料之中地沒有反應。
第三回合:盜竊者不死心,在偷手機之前,就悄悄尾隨過主人,並錄下了她的聲音。然後播放給門「聽」——就算此時採用的是固定密碼,盜竊者播放了好幾次主人的聲音,門依然沒有開。
不過,第一,前文也提到過,聲音門鎖此前也有落地;第二,受眾接受度還有待考驗,畢竟還有指紋識別和人臉識別這種更方便的識別手段。
但是,鄭方和得意音通副總經理兼首席架構師肖永明介紹的以下這個場景,就讓雷鋒網(公眾號:雷鋒網)編輯十分期待了:
「像『給張三轉1000元』一句話,馬上可以做語音識別、意圖理解,得出指令,進行身份確認,最後進行銀行轉帳。一句話就可以銀行轉帳或購物等,非常方便。」
肖永明還告訴雷鋒網,目前他們正與汽車廠商合作,研製用於汽車的聲紋鎖和聲紋防盜。
這裡有一個背景需要交待:
得意音通和清華大學共同負責國家頒布所有聲紋識別相關行業標準的制定,涉及行業包括公安、金融等不同行業。手機銀行現在設定唯一一個生物特徵識別的標準就是聲紋的標準,也主要由他們起草。
其實,聲紋識別作為密碼驗證手段之一,早就在銀行服務中出現過。2015年,已有語音識別廠商與銀行聯合發布「聲紋+人臉」p2p轉帳產品。
2016年,建行手機銀行推出了聲紋驗證服務。
2015年,螞蟻金服技術團隊相關負責人稱,人臉登陸有希望在年內上線,同時,螞蟻金服研發的聲紋技術也很有可能繼人臉識別之後應用於登陸、轉帳等場景中。
後來,大家都知道,今年支付寶果真推出了「刷臉」服務。當然,還沒推出聲紋服務。
綜合來看,這意味著,鄭方提出的未來一句話可以轉帳這種事情還是靠譜的,而肖永明提到的汽車聲紋鎖,也在 2015 年時見諸報導,只是也是作為未來應用的展望領域之一。不過,雷鋒網了解到,得意聲通確實在與相關汽車廠商就聲紋鎖進行研製。
但是,回到問題最初,雖然看上去都是酷炫的黑科技,我能相信聲紋識的安全性嗎?為什麼上面這種智能門能認出老王是老王,你是你?為什麼就算是你的聲音,錄音播放也無法開門?
--下面才是技術秀--
在雷鋒網的的一次硬創公開課中,曾有專家給出了以下不同聲音的聲紋圖,可以看到,不同的聲音,呈現出的畫面是迥異的:
▲1個月大嬰兒的哭聲聲紋
▲男人的口哨聲聲紋
▲下雨打雷聲聲紋
▲人聲和槍聲聲紋
真是不好意思,專家還給出了一張接吻聲的聲紋圖,就說你們接吻時不要咂巴嘴,你看這小畫面,是不是特別像日出時的海面:
還有,被視為軍事機密的核潛艇聲紋:
不同的物體發出的聲音有不同的聲紋,不同的人聲音的聲紋更是頗具奧秘,科學家的目的,就是在各種人聲中找出一個人的聲音特性,從而判定「你是你」。
接下來問題來了,第一,用什麼方法可以判定「你是你」?
鄭方告訴雷鋒網,聲紋識別是一類典型的模式識別問題。完成聲紋特徵提取後,接下來就需要選擇合理的聲紋建模和識別方法。
上述是一張聲紋識別技術發展簡圖。
從1930年開始,科學家用最樸素的語音波形進行比對,看誰「浪」得不一樣。
現在的主流方法是高斯混合模型-通用背景模型(GMM-UBM)、基於GMM-UBM發展起來的i-vector,以及深度神經網絡等。
所謂高斯混合模型(GMM),就是用高斯概率密度函數(正態分布曲線)精確地量化事物,它是一個將事物分解為若干的基於高斯概率密度函數(正態分布曲線)形成的模型。
哎呀,學渣聽上去還是不懂,怎麼破?
借用某網友的一個生動解釋是:
GMM——道生一一生二二生三三生萬物。GMM是人們認識自然萬物相生相剋的規律,是大腦對自然認識後的長時間歸納與沉澱。GMM的核心思想就是任意形態的函數形式(不管是可見的光,圖像,還是抽象的多維度變量模型,比如經濟金融危機模型),都可以用多個高斯函數加權混合得到。那麼什麼是GMM-UBM?它是對傳統GMM模型的改進,因為在實際應用中不可能採集到足夠的語音以覆蓋所有的聲學現象,因此在背景模型(UBM)的基礎上通過MAP自適應得到新說話人的GMM模型。
如果看上去實在有點複雜,你就簡單地把它理解為幾種不同的算法吧……
看上去簡單得不能更簡單的聲紋識別門鎖其實很「複雜」。
鄭方說,上述演示的智能門鎖將聲紋識別和語音識別結合起來,實現了對「Who Spoke What」的識別判斷,也就是說,「門」不但知道你是誰,還知道你說了什麼。
他們還利用了新老技術的結合,比如,將GMM-UBM與i-vector方法結合起來,利用動態時序信息在文本提示聲紋識別中得以應用,基於深度學習的聲紋特徵提取方法與傳統動態時間規整算法結合起來,對文本進行相關聲紋識別。
第二,不小心感冒了怎麼辦?家裡的小朋友長大了幾歲,聲音發生了變化怎麼辦?開門的時候心情不好,哭著想開門怎麼辦?再或者,好不容易下定決心去了趟泰國,回家想開門怎麼辦?
「門」還能認出誰是親生主人嗎?
(年度最佳戲精,花式來開門)
人的聲音還具有易變性,易受身體狀況、年齡、情緒等的影響。若在環境噪音較大和混合說話人的環境下,聲紋特徵也是很難提取和建模的。
鄭方說,他們一直以來都在努力地克服這些難題,全方位地提升聲紋識別系統的魯棒性。
魯棒性是什麼?和魯班是親戚嗎?
NONONO
魯棒是Robust的音譯,也就是健壯和強壯的意思。它是在異常和危險情況下系統生存的關鍵。比如說,計算機軟體在輸入錯誤、磁碟故障、網絡過載或有意攻擊情況下,能否不死機、不崩潰,就是該軟體的魯棒性。所謂「魯棒性」,是指控制系統在一定(結構,大小)的參數攝動下,維持其它某些性能的特性。
鄭方解釋,科學家通常從技術和工程兩個角度並行處理。
例如,對於聲紋時變問題(人的聲紋隨時間變化),一方面從人類發音機理和人耳聽覺感知出發,尋找語音信號中對時間魯棒的信息,從中提取時變魯棒的聲紋特徵;另一方面根據用戶使用情況,設計了多種聲紋模型自動重建與更新的框架,時刻保證聲紋識別系統的穩定性與準確性。
針對情感和噪音問題,其也進行了相關研究,例如,採用特徵映射與補償、降噪自動編碼器等方法在一定程度上解決了其所帶來的困擾。
還有,你以為為什麼在密碼設定過程中,要用數字的動態驗證碼形式而不是隨便叫一聲「老婆」?
因為在聲紋認證應用中使用動態數字密碼形式,以及其他一些專利技術(如聲紋時變魯棒性、聯合因子分析等),可以有效抵消身體狀況、年齡、情緒等的影響。
你哭就哭吧
,記得念準數字就好。
這樣還不夠,為了確保不會因為上述變故發生認不出親生主人的么蛾子,鄭方和他的科研團隊想出了這些辦法:
1.研究了十餘種典型發音方式變化對聲紋的影響,「你滴鵝幾在我搜上」
也許也在分析行列中;
2.錄製了全世界規模最大、時間跨度最長的用於研究年齡變化對聲紋影響的語音資料庫,用於研究解決年齡對聲紋的影響;
3.開展情感語音的聲紋識別技術研究。開展情感語音的聲紋識別技術研究。比如,一個妹子說你「討厭」,一定要根據語境和語氣來分析:她到底是叫你起開,還是叫你過來。
4.環境噪聲、混合說話等對一般性的聲紋識別影響較大,所以要通過多次測試保證識別的穩定性。
雖然已經進行了這麼多研究工作,讓「門」能認出你是你,隔壁老王是隔壁老王也並非易事。
鄭方稱,未來聲紋識別有三個有意思的研究方向。
第一,如何解決聲紋黑客攻擊問題,我們雖然已經有了針對錄音重放的檢測技術,但是黑客的手段也會不斷增多、水平不斷提高,需要更全方位的研究黑客對聲紋識別系統的攻擊手段,並提前研究出有效的防攻擊措施。
第二,如何構建網際網路複雜環境下的統一聲紋平臺。當前整個網際網路中充斥著各種編碼格式、信道、噪音的語音,因此如何在此類複雜環境下準確高效的完成聲紋識別和身份認證也是一項巨大的挑戰。
第三,如何解決「雞尾酒舞會」(多說話人)問題。在實際應用中,語音信號通常會同時夾雜著多個說話人,因此如何實現多說話人場景下的實時說話人檢測也將是一大研究難點。若該問題得以解決,其將在許多領域得以應用,如公安刑偵中的快速目標說話人檢測。
雷鋒網文章,轉載請至雷鋒網官網申請授權。歡迎熱情討論,轉發分享~