...為什麼說聲紋深度編碼把聲紋識別和其他語音關聯任務有機聯繫...

2021-01-09 雷鋒網

雷鋒網按:2020 年 8 月 7 日,全球人工智慧和機器人峰會(CCF-GAIR 2020)正式開幕。CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦。

從 2016 年的學產結合,2017 年的產業落地,2018 年的垂直細分,2019 年的人工智慧 40 周年,峰會一直致力於打造國內人工智慧和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資平臺。

8 月 8 日上午,崑山杜克大學大數據研究中心 SMIP 實驗室李明博士為前沿語音專場做了題為《基於深度編碼的聲紋識別及其關聯任務》的主題演講分享。

語音交互日趨成為人機互動的重要入口。語言自帶指令屬性,是人類最自然、最日常的溝通方式之一。從通過按鍵、觸控與機器交互過渡到語音人機互動,無疑是一大飛躍。但只能識別指令內容是不夠的,真正的智能交互產生的基礎是機器能識別、區分人的身份,能像朋友一樣根據你的身份鑑別權限和提供個性化的服務,否則語音交互就只是高配版遙控器,本質還是單向的命令輸出工具——要實現真正智能的交互就需要加上聲紋識別這點料。

在演講中,李明副教授先是從特徵提取,建立模型,魯棒性處理,分類器設計等幾個步驟介紹傳統聲紋方法,並隨後引出基於端到端深度學習框架的聲紋識別網絡設計。

李明副教授提到,基於深度編碼的聲紋識別與傳統的參數化建模方法從結構上有一定的類比性,比如卷積神經網絡用於特徵提取,編碼層網絡用於計算統計量並得到固定維度的特徵向量,全連接網絡用於後端分類等。

在李明副教授看來,基於深度編碼的聲紋識別是在傳統技術上的升級:一方面,基於深度編碼的聲紋識別更準確,效果更好;另一方面,聲紋深度編碼還可以被用於說話人日誌,多說話人合成,特定人變聲,特定人語音分離等一系列關聯任務中。

最後,李明博士也介紹了幾個基於聲紋深度編碼的語音處理關聯任務。

以下為崑山杜克大學李明博士的全部演講內容,雷鋒網作了不改變原意的整理及編輯:

李明:我今天的報告的題目是《基於深度編碼的聲紋識別及其關聯任務》。

我們研究中心包含了很多研究方向,我主要做的是語音處理和多模態行為信號分析。

今天主要講聲紋識別。

聲紋識別是副語言語音屬性識別問題的一個具體任務,它和語種,性別、年齡、情感等標籤的識別任務是一致的,主要的核心技術問題是針對不定長文本無關語音有監督地預測句子級別標籤。

深度學習之前的傳統方法一般有以下幾個步驟:信號預處理、特徵提取、特徵表示,魯棒性處理,以及分類器。

副語言語音屬性識別任務通常都是針對不定長的文本無關語音特徵序列,因為文本內容是不一樣的,所以很難直接進行兩個序列的對比,一般是通過生成模型,把不定長輸入特徵序列的信息轉化到模型的參數向量或投影到模型上得到統計量特徵,得到固定維度特徵向量,以便於後端有監督分類器的建模。

傳統方法我不細講,基本上傳統方法是 GMM 做生成模型,然後迭代GMM模型的均值向量去自適應匹配輸入特徵序列或者把數據投到模型上計算零階及一階二階統計量。傳統方法可以用非監督的方式通過背景數據學習到 GMM 的高斯分量,把特徵投影到各個高斯分量上計算統計量,也可以通過音素識別器,直接把特徵識別到音素單元,在音素單元上計算統計量。

通常需要把不定常的特徵序列轉變成定常、定維度的向量,當我們有固定維度的向量,比如說我們把各個高斯分量或各個音素單元上的統計量並聯排列到一起,它的維度是相當高的,我們的數據量一般不支持直接在高維上建模,這個時候需要降維,一般選用因子分析。也可以投影到不同的正交子空間裡,這樣可以得到多個低緯度向量,比如說 JFA 把信道和空間分開。

之前說 GMM 作為生成模型,是非監督的,也就是說語音裡面可能包含了聲紋、語種、情感和各種各樣的副語言語音屬性信息,都在這幾百維的向量中,通常會有參數化的方法,如LDA,WCCN等,也有非參數化的,比如說 NDA、LSDA等做有監督魯棒性處理,提取我要的信息,抑制其他信息。

由於聲紋識別的訓練集和測試集中的人是不同的,通常我們採用和人臉識別類似的確認任務。我們會檢驗兩條語音是否為同一個人說的,這裡後端一般會用 PLDA 進行打分。

傳統方法裡有特徵提取、特徵表示、魯棒性處理、後端分類器建模等幾個步驟。

今天主要講基於深度學習的聲紋識別,現在我們可以在前端用 CNN、TDNN等網絡結構提取特徵,我們提取到這些特徵之後,可以使用各種池化策略和編碼層設計,變成固定緯度的向量,最後全連接網絡代替了原來的後端分類工作,我們平時說的聲紋深度編碼就是在全連接網絡這裡的瓶頸層向量。

如果做的是語種識別訓練,輸出層對應的就是不同的語種。如果做聲紋任務,訓練時輸出層對應的是訓練數據的說話人標籤,測試的時候要抽出來聲紋深度編碼,把註冊和測試兩個語音對應的深度編碼比一比,看是不是同一個人。

基於深度神經網絡的端到端聲紋識別可以是幀級別的也可以是句子級別的。幀級別建模方法把訓練和測試數據,切成多個短時片斷,把當前幀和前後的幾十幀放在一起做成固定維度的輸入,直接用全連接網絡建模,在測試時,幀級別輸出結果會被整合為句子級別輸出結果。

現在主流的框架是句子級別的建模,輸入是不定長的的語音信號,輸出是整個句子的聲紋標籤,可以輸出深度編碼,用於測試時做說話人確認。代表性的工作像Deep Speaker 和 X-vector。

我們提出在線的 Data Loader,把各個不定長的輸入語音句子進行隨機長度截取,並在內存中直接展開豐富的多種在線數據增強處理,然後壓入隊列中。GPU從這個隊列抽取數據進行訓練。

編碼層的設計有平均池化,注意力池化,LDE池化,循環神經網絡等方法。循環神經網絡通常採用最後一幀的輸出作為固定維度向量。LDE,為可學習字典單元映射,把前端CNN網絡輸出的特徵投影到不同的字典單元上計算池化,而不是全局的的平均池化。我們做文本無關的聲紋識別,希望能把投影單元分解地更細緻一些。現在用得比較多的是注意力池化,如Self-Attentive Pooling,在計算統計量的時候引入權重信息,進行加權平均。

長度歸一化(Length normalization)一般在訓練的時候是沒有加在網絡裡面,是得到深度編碼後再做長度歸一化和PLDA。如果我們做超大量數據或模板的打分,發現是比較慢的,我們能不能打分的時候用一個內積就可以完成操作,提高速度。損失函數(Loss)設計也是非常重要的,由於同是確認問題,聲紋識別任務完全可以直接用人臉識別研究中性能好的 Loss,也是非常實用、管用的方法。

這裡我列一下我們實驗室復現的幾個主流系統在Voxceleb數據集上的性能,供大家參考。第四個Resnet34是我們自己的系統,E-TDNN、F-TDNN、Resnet-BAM,和Ecapa-TDNN都是目前國際主流的方法。

目前來自於智能音響、智能家居的聲紋產品需求量是非常大的,近場做的很好,遠場還有一些問題。比如說我們近期主辦的Interspeech FFSVC20比賽,比賽是涵蓋了文本相關和文本無關的兩個賽道,數據加在一起也有大幾百人的數據是開源的,可以用近場的開源語音大數據,用一些遠場的仿真傳遞函數,或是仿真軟體,把近場的數據增強為遠場的數據訓練一個基本模型,再拿少量幾百人的實際遠場數據做微調(fine tuning),實際效果不錯。同時,我們也再註冊語音的數據增強,多通道以及分布式陣列的聯合建模等方面做了點工作,發表在近期的Interspeech和ICASSP會議上。

下面跟大家分享一下我們組最近的一些聲紋深度編碼的關聯應用。聲紋識別最相關聯的任務就是說話人日誌,就是給你一個涵蓋多個人說話的單通道語音,但是可能混疊的問題沒那麼強,有一些混疊,核心的問題是誰在什麼時間點說了什麼話。首先是模塊化框架,這個方法在去年Dihard比賽中第一、第二名都是這樣的思路,先做語音端點檢測,做完後均勻分段切片,然後每個分段切片上提取聲紋深度編碼。由於是超短時語音的深度編碼,它並不能很好的把音素信息過濾掉,可能要做一些多任務學習,提高魯棒性。後面打分這裡我們展開講,主要講的是打分的策略,打分的方法傳統的是用 PLDA 進行點對點的打分,相似度矩陣裡的某個點(i,j),只反應切片片段i和j之間的相似度,沒有考慮上下文信息。我們這裡引入LSTM和Vector-to-Sequence兩種方法結合上下文來計算相似度矩陣。提高相似度矩陣的準確性。

另外大家可以看到說話人日誌中的端到端方法,還是有很大的潛力的,尤其是在沒有理想的聲音活動檢測的前提下。我們在損失函數上針對PIT Loss做了一些改進,降低了複雜度,可以輕鬆做到十幾個說話人的訓練。在 Dihard2019的Task2測試集上,模塊化框架目前最好的系統結果是 27.1%,而目前端到端方法以及達到32%,未來端到端方法在task2這種實際場景是非常有潛力的。

另外,傳統的多說話人TTS方法比較難控制合成出來的聲音與目標聲音的相似度,我們在傳統的多說話人TTS結構的基礎上,在輸出端額外內嵌一個聲紋網絡,把合成輸出的頻譜特徵的聲紋深度編碼特徵提取出來,然後要求輸出端和輸入的目標說話人編碼需要保持高度一致,這樣可以提高合成語音的目標人相似度,並保持基本一致的聲紋深度編碼信息。我們最近還有一個工作是 Cross-lingual multi-speaker TTS,可以把說不同語言的多個說話人的數據混合在一起訓練多人多語言TTS系統,比如可以讓純中文語料說話人學會合成英文,純英文語料說話人學會合成中文,非常適合混合語言多人及特定人合成任務。

時間關係,我就講到這裡,謝謝大家!

相關焦點

  • 崑山杜克大學大數據研究中心 SMIIP 實驗室李明博士:為什麼說聲紋...
    8 月 8 日上午,崑山杜克大學大數據研究中心 SMIP 實驗室李明博士為前沿語音專場做了題為《基於深度編碼的聲紋識別及其關聯任務》的主題演講分享。語音交互日趨成為人機互動的重要入口。語言自帶指令屬性,是人類最自然、最日常的溝通方式之一。從通過按鍵、觸控與機器交互過渡到語音人機互動,無疑是一大飛躍。
  • 「聞聲識人」——聲紋識別到底有何過人之處?
    聲紋識別是從人體發出的聲音頻譜圖中提取身份特徵信息和聲紋特徵,再把聲信號轉換成電信號,用計算機通過相關算法進行比對識別的技術。聲紋和指紋、虹膜等生物特徵一樣,「人各不同」,具有唯一性。人在講話時使用的發聲器官在尺寸和形態方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異,聲紋識別正是通過比對兩段語音的說話人在相同音素上的發聲來判斷是否為同一個人,從而實現「聞聲識人」的功能。
  • 聞聲識人:聲紋識別技術輕鬆解決身份認證問題
    聲紋其實就是對語音中所蘊含的、能表徵和標識說話人的語音特徵,以及基於這些特徵(參數)所建立的語音模型的總稱,而聲紋識別是根據待識別語音的聲紋特徵識別該段語音所對應的說話人的過程。  聲紋是一種行為特徵,由於每個人在講話時使用的發聲器官如舌頭、牙齒、口腔、聲帶、肺、鼻腔等在尺寸和形態方面有所差異,以及年齡、性格、語言習慣等多種原因,加之發音容量大小和發音頻率不同,在發音時千姿百態,因而導致這些器官發出的聲音必然有著各自的特點。可以說任何2個人的聲紋圖譜都不盡相同。聲紋識別技術又稱說話人識別技術,就是基於這些信息來探索人類身份的一種生物特徵識別技術。
  • 聲紋識別如何做現實中的「聽風者」?
    這種技術基於語音中所包含的說話人特有的個性信息,利用計算機以及現在的信息識別技術,自動地鑑別當前語音對應的說話人身份。 一般而言,聲紋是指人語音頻譜的信息圖,可以通過專用的電聲轉儀器,如聲譜儀、語圖儀等,將聲波特徵繪製成波譜圖形。由於每個人的發音需要通過鼻腔、口舌、聲道、胸肺多重配合,任何兩個人的聲紋圖譜都不相同。因此,聲紋識別技術在身份識別領域具有實際的不可替代性。
  • 五位機器聽覺領域大咖,論道語音前沿 | CCF-GAIR 2020
    在未來展望上,宋輝博士表示,希望不斷提升神經網絡的泛化能力,使得各種分離網絡在真實的環境中可以取得滿意的結果;希望未來可以挖掘出更多語音分離的場景和應用。崑山杜克大學電子與計算機工程副教授李明:基於深度編碼的聲紋識別及其關聯任務緊接著登場的是崑山杜克大學電子與計算機工程副教授李明,其演講的題目為《基於深度編碼的聲紋識別及其關聯任務》。
  • FinTech時代商業銀行智能語音識別技術應用與發展
    (3)現代語音識別系統開發應用階段  近些年,隨著大數據和深度學習技術的發展,深度學習方法逐漸被引入到語音識別系統中,相較於傳統的語音識別技術,識別性能獲得了顯著提升。  目前,市場上的語音識別系統大多基於深度神經網絡模型進行建模,大幅提升了各種應用場景下語音識別的準確度和可靠性,使語音識別技術進入了新的應用階段。
  • 「2019 年聲紋識別研究與應用學術討論會」成功舉辦,18 位特邀嘉賓...
    最後,李明總結說,近年來,聲紋識別的研究趨勢正在快速朝著深度學習和端到端方向發展,其中最典型的就是基於句子層面的做法。他認為,在網絡結構設計,數據增強,損失函數設計等方面還有很多工作去做,還有很大的提升空間。
  • 生物識別技術四大種類介紹(人臉、指紋、虹膜、聲紋)
    然後通過數字圖像處理技術、模式識別和人工智慧技術對採集到的虹膜圖像進行處理、存儲、比對,實現對人員身份的認證和識別。   4、聲紋識別技術   與人臉、指紋、虹膜的人體生理特徵不同,聲紋屬於人體行為特徵。聲紋識別是一項提取說話人聲音特徵和說話內容信息,自動核驗說話人身份的技術。聲紋識別技術可分為兩類:說話人確認技術、說話人辨認技術。
  • 基於C語言的設計流優化語音識別晶片結構設計
    據預測,市場對語音控制應用設備的需求將急劇增長,其推動力來自電話機市場。電話機將更多地採用語音命令進行控制。其他應用領域包括玩具和手持設備如計算器、語音控制的安全系統、家用電器及車載設備(立體聲、視窗、環境控制、車燈和導航控制)。本文從可復用和優化晶片空間的角度出發介紹語音識別晶片結構設計的種種考慮,其思路有利於開發一系列其它語音識別晶片。
  • 虹膜識別,聲紋識別,指紋識別,人臉識別的優缺點是什麼
    指紋識別我國第二代身份證便實現了指紋採集,且各大智慧型手機都紛紛實現了指紋解鎖功能。與其他生物識別技術相比,指紋識別早已經在消費電子、安防等產業中廣泛應用,通過時間和實踐的檢驗,技術方面也在不斷的革新。目前國內早已形成了完整的指紋識別產業鏈,比如,從事指紋晶片設計的上市企業匯頂科技,還有思立微、費恩格爾、邁瑞微等一眾國產指紋識別晶片廠商。
  • 海沃思:生物識別目前危害程度較大的是錄音重放
    所以目前我國生物識別技術在市場上是有痛點的,包括侵犯隱私的問題一直是國際上的一個討論。看一下傳統生物比對技術和聲紋識別技術的比較。首先在三個方面:聲紋防攻防領域,有三個領域,聲音模仿、錄音合成、錄音重放。聲音模仿是模仿特定說話人的聲音,語音合成是用機器合成特定說話人的語音,錄音重放是用一個設備錄取你的聲音再進行重放,這是目前聲紋攻防裡面三個比較核心的點。
  • ZLG深度解析:語音識別技術
    本文將為大家從語音前端處理、基於統計學語音識別和基於深度學習語音識別等方面闡述語音識別的原理。隨著計算機技術的飛速發展,人們對機器的依賴已經達到一個極高的程度。語音識別技術使得人與機器通過自然語言交互成為可能。最常見的情形是通過語音控制房間燈光、空調溫度和電視的相關操作等。
  • 智能音箱大戰全面開火,那麼問題來了:如何成為一名全棧語音識別...
    噪聲抑制: 語音識別不需要完全去除噪聲,相對來說通話系統中則必須完全去除噪聲。這裡說的噪聲一般指環境噪聲,比如空調噪聲,這類噪聲通常不具有空間指向性,能量也不是特別大,不會掩蓋正常的語音,只是影響了語音的清晰度和可懂度。這種方法不適合強噪聲環境下的處理,但是足以應付日常場景的語音交互。混響消除: 混響消除的效果很大程度影響了語音識別的效果。
  • 從17億到30億 前裝車載語音正在變成剛需
    對此,謝基有表示,聲揚科技非常擅長的一個領域便是聲紋識別,可以判斷出哪些語音是車主本人所說的,哪些是其他人說的話。通過聲紋判定了身份也就確認了是否有進行該操作的權限,從而解決上述問題。聲揚科技也與國內的一些汽車品牌進行合作,當行車過程中靠近某個景點,提示是否需要購買門票時,可以設定只有具備權限的人,才能完成確認進行購買支付的操作。
  • 語音識別技術簡史
    本篇文章將從技術和產業兩個角度來回顧一下語音識別發展的歷程和現狀,並分析一些未來趨勢,希望能幫助更多年輕技術人員了解語音行業,並能產生興趣投身於這個行業。語音識別,通常稱為自動語音識別,英文是Automatic Speech Recognition,縮寫為 ASR,主要是將人類語音中的詞彙內容轉換為計算機可讀的輸入,一般都是可以理解的文本內容,也有可能是二進位編碼或者字符序列。
  • 生物識別進入洗牌期,人臉識別後誰將成為下一個商用爆款?
    部分企業除了發展靜脈識別業務外,還涉獵了人臉識別、指紋識別、聲紋識別等其他生物識別的技術和產品。不得不說,靜脈識別由於其應用場景的局限性和市場規模的相對較小,制約了其發展,但作為生物識別技術,很多專家仍然對其保持了樂觀的態度。2.
  • 前沿 MIT研發語音關聯的圖像識別系統,一次破解所有語言
    MIT 研究人員研發了一種新的訓練語音識別系統的方法,它不依賴於轉錄抄本(transcription)。相反,這個系統的工作方式是分析圖像間的關聯和圖像的語言描述,而這些語言描述是在大量的音頻記錄中捕獲的。點擊閱讀原文查看論文。語音識別系統,如手機上將語音轉換為文本的軟體,通常是機器學習的產物。
  • 捷通華聲推出多維融合生物特徵識別系統
    相比其他生物特徵識別技術,靈雲指紋識別成本低廉、使用簡單、算法複雜度低,具有優秀的指紋紋路圖像處理能力,讓圖像採集更清晰、特徵提取更精準,在司法公安、社會保險、金融安全等眾多領域得到了廣泛應用。   靈雲聲紋識別   通過對聲音特徵信息進行採集、存儲和對比,同樣能夠實現身份檢驗,因為每個人說話的時候頻譜、聲源、韻律還有語言學的特徵等都存在差異,和指紋一樣具有唯一性和獨特性。   聲紋識別的獨特優勢在於它不會受到光線、隱私等特定條件的約束,也不需要接觸採集設備。
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音...
    深度學習與語音識別在目前大多數語音識別應用中,深度學習是較為常見的一種方法。語言按一定的短語規則和句子規則生成深層結構 (語義介入),而深層結構經轉換規則處理後變成表層結構 (語音介入),於是轉換為了人類看得見聽得懂的話語。而生成深層結構則是使得機器能夠通過學習觀測數據高階相關性,或觀測數據和關聯類別之間的統計特徵分布來實現模式分類,從而轉換為機器可以識別語言的一類深層結構。