...編碼把聲紋識別和其他語音關聯任務有機聯繫起來?|CCF-GAIR 2020

2020-12-17 雷鋒網

雷鋒網按:2020 年 8 月 7 日,全球人工智慧和機器人峰會(CCF-GAIR 2020)正式開幕。CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦。

從 2016 年的學產結合,2017 年的產業落地,2018 年的垂直細分,2019 年的人工智慧 40 周年,峰會一直致力於打造國內人工智慧和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資平臺。

8 月 8 日上午,崑山杜克大學大數據研究中心 SMIP 實驗室李明博士為前沿語音專場做了題為《基於深度編碼的聲紋識別及其關聯任務》的主題演講分享。

語音交互日趨成為人機互動的重要入口。語言自帶指令屬性,是人類最自然、最日常的溝通方式之一。從通過按鍵、觸控與機器交互過渡到語音人機互動,無疑是一大飛躍。但只能識別指令內容是不夠的,真正的智能交互產生的基礎是機器能識別、區分人的身份,能像朋友一樣根據你的身份鑑別權限和提供個性化的服務,否則語音交互就只是高配版遙控器,本質還是單向的命令輸出工具——要實現真正智能的交互就需要加上聲紋識別這點料。

在演講中,李明副教授先是從特徵提取,建立模型,魯棒性處理,分類器設計等幾個步驟介紹傳統聲紋方法,並隨後引出基於端到端深度學習框架的聲紋識別網絡設計。

李明副教授提到,基於深度編碼的聲紋識別與傳統的參數化建模方法從結構上有一定的類比性,比如卷積神經網絡用於特徵提取,編碼層網絡用於計算統計量並得到固定維度的特徵向量,全連接網絡用於後端分類等。

在李明副教授看來,基於深度編碼的聲紋識別是在傳統技術上的升級:一方面,基於深度編碼的聲紋識別更準確,效果更好;另一方面,聲紋深度編碼還可以被用於說話人日誌,多說話人合成,特定人變聲,特定人語音分離等一系列關聯任務中。

最後,李明博士也介紹了幾個基於聲紋深度編碼的語音處理關聯任務。

以下為崑山杜克大學李明博士的全部演講內容,雷鋒網作了不改變原意的整理及編輯:

李明:我今天的報告的題目是《基於深度編碼的聲紋識別及其關聯任務》。

我們研究中心包含了很多研究方向,我主要做的是語音處理和多模態行為信號分析。

今天主要講聲紋識別。

聲紋識別是副語言語音屬性識別問題的一個具體任務,它和語種,性別、年齡、情感等標籤的識別任務是一致的,主要的核心技術問題是針對不定長文本無關語音有監督地預測句子級別標籤。

深度學習之前的傳統方法一般有以下幾個步驟:信號預處理、特徵提取、特徵表示,魯棒性處理,以及分類器。

副語言語音屬性識別任務通常都是針對不定長的文本無關語音特徵序列,因為文本內容是不一樣的,所以很難直接進行兩個序列的對比,一般是通過生成模型,把不定長輸入特徵序列的信息轉化到模型的參數向量或投影到模型上得到統計量特徵,得到固定維度特徵向量,以便於後端有監督分類器的建模。

傳統方法我不細講,基本上傳統方法是 GMM 做生成模型,然後迭代GMM模型的均值向量去自適應匹配輸入特徵序列或者把數據投到模型上計算零階及一階二階統計量。傳統方法可以用非監督的方式通過背景數據學習到 GMM 的高斯分量,把特徵投影到各個高斯分量上計算統計量,也可以通過音素識別器,直接把特徵識別到音素單元,在音素單元上計算統計量。

通常需要把不定常的特徵序列轉變成定常、定維度的向量,當我們有固定維度的向量,比如說我們把各個高斯分量或各個音素單元上的統計量並聯排列到一起,它的維度是相當高的,我們的數據量一般不支持直接在高維上建模,這個時候需要降維,一般選用因子分析。也可以投影到不同的正交子空間裡,這樣可以得到多個低緯度向量,比如說 JFA 把信道和空間分開。

之前說 GMM 作為生成模型,是非監督的,也就是說語音裡面可能包含了聲紋、語種、情感和各種各樣的副語言語音屬性信息,都在這幾百維的向量中,通常會有參數化的方法,如LDA,WCCN等,也有非參數化的,比如說 NDA、LSDA等做有監督魯棒性處理,提取我要的信息,抑制其他信息。

由於聲紋識別的訓練集和測試集中的人是不同的,通常我們採用和人臉識別類似的確認任務。我們會檢驗兩條語音是否為同一個人說的,這裡後端一般會用 PLDA 進行打分。

傳統方法裡有特徵提取、特徵表示、魯棒性處理、後端分類器建模等幾個步驟。

今天主要講基於深度學習的聲紋識別,現在我們可以在前端用 CNN、TDNN等網絡結構提取特徵,我們提取到這些特徵之後,可以使用各種池化策略和編碼層設計,變成固定緯度的向量,最後全連接網絡代替了原來的後端分類工作,我們平時說的聲紋深度編碼就是在全連接網絡這裡的瓶頸層向量。

如果做的是語種識別訓練,輸出層對應的就是不同的語種。如果做聲紋任務,訓練時輸出層對應的是訓練數據的說話人標籤,測試的時候要抽出來聲紋深度編碼,把註冊和測試兩個語音對應的深度編碼比一比,看是不是同一個人。

基於深度神經網絡的端到端聲紋識別可以是幀級別的也可以是句子級別的。幀級別建模方法把訓練和測試數據,切成多個短時片斷,把當前幀和前後的幾十幀放在一起做成固定維度的輸入,直接用全連接網絡建模,在測試時,幀級別輸出結果會被整合為句子級別輸出結果。

現在主流的框架是句子級別的建模,輸入是不定長的的語音信號,輸出是整個句子的聲紋標籤,可以輸出深度編碼,用於測試時做說話人確認。代表性的工作像Deep Speaker 和 X-vector。

我們提出在線的 Data Loader,把各個不定長的輸入語音句子進行隨機長度截取,並在內存中直接展開豐富的多種在線數據增強處理,然後壓入隊列中。GPU從這個隊列抽取數據進行訓練。

編碼層的設計有平均池化,注意力池化,LDE池化,循環神經網絡等方法。循環神經網絡通常採用最後一幀的輸出作為固定維度向量。LDE,為可學習字典單元映射,把前端CNN網絡輸出的特徵投影到不同的字典單元上計算池化,而不是全局的的平均池化。我們做文本無關的聲紋識別,希望能把投影單元分解地更細緻一些。現在用得比較多的是注意力池化,如Self-Attentive Pooling,在計算統計量的時候引入權重信息,進行加權平均。

長度歸一化(Length normalization)一般在訓練的時候是沒有加在網絡裡面,是得到深度編碼後再做長度歸一化和PLDA。如果我們做超大量數據或模板的打分,發現是比較慢的,我們能不能打分的時候用一個內積就可以完成操作,提高速度。損失函數(Loss)設計也是非常重要的,由於同是確認問題,聲紋識別任務完全可以直接用人臉識別研究中性能好的 Loss,也是非常實用、管用的方法。

這裡我列一下我們實驗室復現的幾個主流系統在Voxceleb數據集上的性能,供大家參考。第四個Resnet34是我們自己的系統,E-TDNN、F-TDNN、Resnet-BAM,和Ecapa-TDNN都是目前國際主流的方法。

目前來自於智能音響、智能家居的聲紋產品需求量是非常大的,近場做的很好,遠場還有一些問題。比如說我們近期主辦的Interspeech FFSVC20比賽,比賽是涵蓋了文本相關和文本無關的兩個賽道,數據加在一起也有大幾百人的數據是開源的,可以用近場的開源語音大數據,用一些遠場的仿真傳遞函數,或是仿真軟體,把近場的數據增強為遠場的數據訓練一個基本模型,再拿少量幾百人的實際遠場數據做微調(fine tuning),實際效果不錯。同時,我們也再註冊語音的數據增強,多通道以及分布式陣列的聯合建模等方面做了點工作,發表在近期的Interspeech和ICASSP會議上。

下面跟大家分享一下我們組最近的一些聲紋深度編碼的關聯應用。聲紋識別最相關聯的任務就是說話人日誌,就是給你一個涵蓋多個人說話的單通道語音,但是可能混疊的問題沒那麼強,有一些混疊,核心的問題是誰在什麼時間點說了什麼話。首先是模塊化框架,這個方法在去年Dihard比賽中第一、第二名都是這樣的思路,先做語音端點檢測,做完後均勻分段切片,然後每個分段切片上提取聲紋深度編碼。由於是超短時語音的深度編碼,它並不能很好的把音素信息過濾掉,可能要做一些多任務學習,提高魯棒性。後面打分這裡我們展開講,主要講的是打分的策略,打分的方法傳統的是用 PLDA 進行點對點的打分,相似度矩陣裡的某個點(i,j),只反應切片片段i和j之間的相似度,沒有考慮上下文信息。我們這裡引入LSTM和Vector-to-Sequence兩種方法結合上下文來計算相似度矩陣。提高相似度矩陣的準確性。

另外大家可以看到說話人日誌中的端到端方法,還是有很大的潛力的,尤其是在沒有理想的聲音活動檢測的前提下。我們在損失函數上針對PIT Loss做了一些改進,降低了複雜度,可以輕鬆做到十幾個說話人的訓練。在 Dihard2019的Task2測試集上,模塊化框架目前最好的系統結果是 27.1%,而目前端到端方法以及達到32%,未來端到端方法在task2這種實際場景是非常有潛力的。

另外,傳統的多說話人TTS方法比較難控制合成出來的聲音與目標聲音的相似度,我們在傳統的多說話人TTS結構的基礎上,在輸出端額外內嵌一個聲紋網絡,把合成輸出的頻譜特徵的聲紋深度編碼特徵提取出來,然後要求輸出端和輸入的目標說話人編碼需要保持高度一致,這樣可以提高合成語音的目標人相似度,並保持基本一致的聲紋深度編碼信息。我們最近還有一個工作是 Cross-lingual multi-speaker TTS,可以把說不同語言的多個說話人的數據混合在一起訓練多人多語言TTS系統,比如可以讓純中文語料說話人學會合成英文,純英文語料說話人學會合成中文,非常適合混合語言多人及特定人合成任務。

時間關係,我就講到這裡,謝謝大家!

相關焦點

  • 五位機器聽覺領域大咖,論道語音前沿 | CCF-GAIR 2020
    2020 年 8 月 7 日- 9 日,2020 全球人工智慧和機器人峰會(CCF-GAIR 2020)於深圳正式召開。在未來展望上,宋輝博士表示,希望不斷提升神經網絡的泛化能力,使得各種分離網絡在真實的環境中可以取得滿意的結果;希望未來可以挖掘出更多語音分離的場景和應用。崑山杜克大學電子與計算機工程副教授李明:基於深度編碼的聲紋識別及其關聯任務緊接著登場的是崑山杜克大學電子與計算機工程副教授李明,其演講的題目為《基於深度編碼的聲紋識別及其關聯任務》。
  • 【語音算法系列】聲紋識別助力身份認證
    聲紋識別,也稱為說話人識別(speaker recognition),是一種基於語音中能表徵說話人的信息,來判別說話人身份的生物特徵識別技術,相比其他生理特徵在遠程身份認證中具有先天優勢。撥雲見日--初識聲紋生活中對於聲紋最直觀認識就是:我們在打電話時,一聲「喂?」就能分辨出接電話的人是誰。
  • 基於聲紋識別的通用語音控制系統設計
    聲音不僅可以傳達指令,還能與聲紋識別的安全系統結合,如果可以把語音控制與安全控制結合起來,系統就變得更自然直接更人性化了。在本設計就是希望通過設計出一個通用的系統為將來的這些應用實現基本的框架。Relevant任務相關性:只完成語音控制所需要的實現Time-based時限性:在規定的時間內成項目計劃遵循質量控制管理項目將嚴格進行質量管理控制,對每一個步驟都建立相對完善的文檔,嚴格按照流程進行,完成系統功能的同時提高系統性能,增強系統的可維護性。
  • 聲紋識別技術助力遠程身份認證
    作者 | 李通旭,劉樂責編 | 何永燦「聲紋」作為一種典型的行為特徵,相比其他生理特徵在遠程身份認證中具有先天的優勢,文章介紹了聲密保在遠程身份認證中的應用,解析了一些在聲紋識別準確率、時變問題和噪音問題等方面的技術難點和工程解決經驗,最後針對遠程身份認證的安全性問題,分享了得意音通在防錄音闖入上的最新研究成果。希望對廣大讀者有所幫助。
  • 聲紋識別目前已被用於部分銀行 聲音會被模仿,聲紋還可靠嗎
    頻譜、韻律、語言特徵均有差異 聲紋具有唯一性和獨特性  聲紋是生物識別特徵的一種,是在說話人發聲時提取出來的,可以作為說話人的表徵和標識,能與其他人相互區別的語音特徵,以及基於這些特徵或參數所建立的語音模型的總稱。聲紋識別又稱為說話人識別,是從說話人發出的聲音頻譜圖中提取身份特徵信息和聲紋特徵,再把聲信號轉換成電信號,用計算機通過相關算法進行比對識別的技術。
  • 7月將出席 CCF-GAIR...
    之前其研究方向包括自動語音與說話者識別、口語識別與理解、語音–語音翻譯、機器翻譯、語言模式、自然語言處理、統計方法與機器學習、神經科學、聽覺和其他生物信息處理、深層結構學習、類腦機器智能、圖像語言多模態深度學習以及商業大數據深度分析預測等。
  • 聲揚科技CEO李亞桐:用聲紋尋找身份識別安全和便捷的黃金比例
    經過一番摸索,公司鎖定市場最有潛力的聲紋識別技術。好在公司發展勢頭不錯。去年底,聲揚科技完成天使輪融資,即將完成Pre- A輪融資。像很多人工智慧公司一樣,AI人才稀缺,語音行業AI人才更少。為此,聲揚科技正在組建香港AI語音研究院,與港科大、港中大、港理大建立緊密聯繫,招引當地科研人才加盟。聲揚科技並不是聲紋識別領域的第一家公司。
  • 語音轉文字已是紅海,「VoiceAI」從「聲紋識別」切入安全解決方案
    人工智慧主要有三個研究方向:視覺識別、智能語音、自然語言處理NLP。其中,在語音識別領域,聲紋識別屬於相對藍海市場,解決的主要是「我是我」的問題,多應用在安全驗證場景。如今,居民可以在線上選擇指紋拍照、人臉識別、聲紋識別三種方式之二進行認證。與合作夥伴一起拿下該項目後,VoiceAI負責其中的聲紋識別部分。居民提前線上註冊,通過麥克風錄製一段音頻,在養老金申領時,收益人需認讀隨機的數字,VoiceAI根據聲紋比對判斷是否為本人。
  • 聲紋識別產業研討會成功召開 我國首個聲紋識別產業白皮書發布
    來自高校和科研單位、產業界相關企業、政府部門、金融機構、媒體和投資機構的朋友等計150餘人參加了此次研討會,覆蓋了產業鏈上從學術研究、技術研發、產品開發、系統集成、應用及產業投資等多個環節。新華社瞭望智庫金融研究中心主任/《財經國家周刊》主編助理聶歐擔任本次研討會主持人,CCF常務理事、CCF語音對話和聽覺專業組副組長、中科院模式識別國家重點實驗室副主任陶建華為研討會致辭。
  • 指紋識別不再唯一,動態聲紋識別與人臉識別能取代嗎
    而現在還推出有用聲紋識別技術的手機,國美Fenmmy Note近日推出千元手機國美Fenmmy Note,除了搭載常見的人臉識別和指紋識別功能之外,還具備動態聲紋識別功能,通過聲音識別登陸微信還是挺常見的,但聲紋識別究竟是怎麼運作的呢? 所謂聲紋識別(Voiceprint Recognition),簡單解釋就是辨別某一句話是否是某一個人說的。
  • 鄭方:聲紋是最好的生物特徵識別方式
    清華大學語音和語言技術中心主任、北京得意音通技術有限責任公司董事長鄭方表示,聲紋是最好的生物特徵識別方式,聲音看著很簡單,但是它包含的信息量最多,音為信號,這是最簡單的信號,包含什麼類型?語言的種類、口音、內容、性別、情感、身份,還有其他的信息。
  • INTERSPEECH 2020 | 騰訊AI Lab解讀語音識別與合成方向及入選論文
    今年,騰訊 AI Lab 共有14 篇論文入選 INTERSPEECH 2020,總體而言分為語音識別和語音合成兩大方向,其中既有在語音前沿技術方向的進一步探索,也包含一些理論研究和分析,同時還有在科技向善與文化遺產保護等方面的應用成果。
  • 思必馳 CTO 周偉達:語音技術優先服務於 AIoT | CCF-GAIR 2019
    目前,思必馳不僅聚焦語音技術,而且自研 AI 晶片,周偉達接受採訪時說道,要把語音技術產業做起來,思必馳要做更多的事情。其實,思必馳最早主要投入於 AI 算法中,為了技術落地以及給客戶提供更好的服務,思必馳在不斷地提供多個層面的解決方案。
  • 諾貝爾獎得主、英國皇家院士、IEEE Fellow……CCF-GAIR 2019 震撼...
    鄧力是國際著名的語音識別專家,2009 年,他首次將深度神經網絡技術應用於語音識別領域,取得了突破性的進展,並因此獲得了 2015 年 IEEE SPS 技術成就獎。在語音、NLP、大數據分析、企業智能、網際網路搜索、機器智能、深度學習等多個領域,鄧力曾獲 70 多項美國或國際專利,並著有多本深度學習、語音處理、判別機器學習和自然語言處理的技術書籍。
  • 百度發布Deep Speaker:大規模聲紋識別的端對端系統
    日前,百度美研院宣布了其在聲紋識別上所取得的突破性成果。研究表明:利用深度學習的方法比傳統的i-vector方法在識別準確率上獲得了顯著的提高。聲紋識別算法尋求從音頻中識別說話者的身份。兩個常見的識別任務是確認(說話者是不是他宣稱的那個人)和說話者身份識別(在一群未知的說話者中確認聲音的來源)。該項技術已經有了各種應用。例如,聲紋可以用來登錄設備。
  • 聲紋識別公司Speakln獲近億元融資 IDG領投
    5月28日消息,聲紋識別人工智慧公司Speakln及其全資子公司國音科技,宣布已於5月完成近億元人民幣融資,是目前聲紋識別領域最大金額單輪融資。本輪融資由IDG資本領投。
  • 語音處理中的自監督學習
    CPC 也可以做在非語音處理領域上,像圖片和文本。但今天我們只要側重於語音部分。wav2vec 也是參照以上方法去預訓練的。它把橙色向量作為 ASR模型 的輸入,輸出是識別出的文字。Audio2Vec 其實就是語音版本的詞向量。比如,CBoW 就變成了需要通過過去語音幀和未來幀去預測當前幀。
  • CHINADAILY | 聲紋識別可能是密碼的另一種選擇
    超過一半的消費者表示,如果給予他們選擇,他們支持其他形式的身份驗證來完全取代傳統的用戶名和密碼。Gygya的調查發現,在包括指紋識別、人臉識別和虹膜識別等各種生物識別認證方法中,聲紋識別是第二受歡迎的。
  • 百度發布小度智能屏X10,支持聲紋識別!小度耳機上線語音筆記功能
    AI性能方面,它還搭載了自學習對話式AI系統、聲紋識別、全雙工免喚醒等AI功能。價格方面,小度智能屏X10售價999元。此外,針對今年9月發布的小度真無線智能耳機Xpods,百度還新推出了語音筆記功能,進一步豐富產品功能,增強實用性。
  • 華為和PerSay聯盟在語音識別領域展開合作
    日前,華為宣布將和語音識別產品領域的領頭羊—PerSay結成合作聯盟。 據了解,華為公司在電信行業的傑出表現以及已被實踐證明的華為多媒體聯絡中心所具有高性能和可靠性,促成了這一合作。  據了解,此合作將幫助PerSay更好地滿足在全球範圍內滿足企業對聲音識別技術日益增長的需求。