(原標題:平安科技聯邦學習技術團隊再創佳績:5篇論文被國際語音會議INTERSPEECH 2020錄用)
近日,語音通信領域的國際會議INTERSPEECH 2020發布論文接收結果,與往年相比,今年投稿量激增50%,競爭異常激烈!平安科技聯邦學習團隊憑藉行業技術實力,潛心研究,再創佳績,成功入選五篇論文,其科研實力受到全球多位專業評委的一致認可,全面展現出平安科技在AI領域的技術底蘊和創新實力。
一年一度的全球語音大會INTERSPEECH 2020是語音科學和技術領域的國際學術會議。會議期間,來自全球學術界和產業界的研究人員匯聚一堂,共同交流、探討語音領域的新技術,其內容涵蓋語音合成、語音識別、語音增強等眾多細分領域。會議上展示的研究成果,將代表著語音相關領域的最高研究水平和未來發展趨勢。
本次INTERSPEECH2020大會的論文入選門檻較高,競爭異常激烈,而平安科技聯邦學習團隊仍然在「金融+生態」、「金融+科技」的戰略引領下,銳意進取,斬獲佳績,被大會成功收錄的論文涵蓋科學防疫、語音合成、語音處理、語音理解、聲紋識別多個領域,以下為平安科技聯邦學習技術團隊在INTERSPEECH 2020中入選五篇論文的精彩集錦:
論文1
A Real-time Robot-based Auxiliary System for Risk Evaluation of COVID-19 Infection
《基於機器人新冠肺炎風險評估輔助系統》
關鍵詞:COVID-19;智能防疫;智能新冠肺炎檢測
圖1 Covid-19智能檢測系統流程圖
自2020年開始,世界各地相繼爆發了新冠肺炎(COVID-19)疫情。然而中國在較短時間內成功的控制了疫情的傳播,為新冠肺炎的防控交出了教科書式的答卷,這與我國實行嚴格的疫情防控工作密不可分。在公共場合,手持式測溫槍與紅外體溫測量儀的使用可以有效監測密集人群中的體溫異常情況,第一時間發現疑似患者,減少聚集感染可能性。在防治疫情階段,有序對不同症狀的患者進行區分,並按照病理特徵合理分配醫療資源是十分重要的。這種措施一方面減少了人群在醫院等高危區域的交叉感染,另一方面避免出現醫療資源的擠兌發生。
為了更好的防治新冠肺炎疫情,平安科技從海量的咳嗽病理數據出發,以自主研發的奧卡姆平臺為依託,使用前沿Few-shot Learning以及注意力相似度技術成功研製出通過咳嗽來進行新冠肺炎智能診斷的系統,並將該系統嵌入到平安科技愛德機器人當中。該系統會根據使用者的咳嗽聲進行智能診斷,目前支持新冠肺炎,急性支氣管炎,慢性咽炎,百日咳,發燒咳嗽等多種疾病的診斷,並且會根據使用者所在GPS定位以及個人情況生成專屬的電子病歷以及疫情地圖。電子病例與疫情地圖中包含有數據解讀以及防疫建議。
論文2
Prosody Learning Mechanism for Speech Synthesis System Without Text Length Limit
《一種新型的任意長度語音合成系統的韻律學習機制》
關鍵詞:語音合成;韻律建模;自注意力模型
最近的神經語音合成系統已經逐漸集中於韻律的控制以提高合成語音的質量,但是它們很少考慮韻律的多變性以及韻律與語義之間的相關性。
圖2韻律學習機制下的模型訓練圖
平安科技聯邦學習團隊提出了一種基於TTS系統的韻律學習機制,該機制從語音頻譜特徵中提取語音的韻律信息,然後結合韻律信息與音素序列重構原始語音頻譜特徵。同時,為了改善韻律預測效果,本文通過預訓練語言模型(BERT)引入文本的語義特徵。
此外,平安科技還提出了一種新穎的局部自注意網絡結構(Local Attention),以消除輸入文本長度的限制,其中序列的相對位置信息由相對位置矩陣建模,不再需要位置編碼。通過對英語和普通話的合成實驗表明,所提出的模型獲得了更令人滿意的韻律的語音。尤其是在普通話合成中,該模型在MOS領先了基準模型0.08,並且合成語音的整體自然性得到了顯著改善,並且已經在保險外呼服務的生產效果中得到驗證。
論文3
MLNET: An Adaptive Multiple Receptive-field Attention Neural Network for Voice Activity Detection
《一種用於聲音信號檢測的自適應的注意力神經網絡》
關鍵詞:語音端點檢測;自適應;多感受域;注意力網絡
圖3自適應性的多感受野注意力模塊
語音端點檢測(Voice Activity Detection)是語音處理的一個重要部分。準確高效的語音端點檢測不僅可以減少語音信號處理的計算量,提高系統的實時性,而且可以提高語音系統的魯棒性及後續語音系統的準確性。為了提高語音端點檢測的精確度,通常在設計網絡的時候會人為的設定固定的上下文信息進行識別或者檢測。但在實際應用中,特別是高噪聲環境中,固定的上下文信息無法有效應對各種複雜的應用環境。
為了解決現有VAD模型只能利用固定的上下文信息,平安科技設計了一個多感受野注意力網絡MLNET自適應地選取最優的上下文信息來用於完成VAD任務。MLNET首先利用門控映射單元將不同感受野的語音特徵信息映射為一個相同大小的二維特徵,並利用通道注意力機制選擇最優的上下文特徵信息。接下來,再利用BiLSTM進行特徵序列建模,最後使用全連接層網絡輸出判別結果。基於以上模型設計,本文在aurora4英文數據集和thchs30中文數據集中進行了實驗,對比其它baseline模型,MLNET模型取得了較好的實驗結果。
論文4
Large-Scale Transfer Learning for Low-resource Spoken Language Understanding
《基於大規模遷移學習的低資源語音理解》
關鍵字:口語理解;跨語種遷移學習;多任務學習;模型融合;低資源任務
端到埠語理解是一項非常複雜且很難達到理想效果的任務,且由於訓練數據的限制和模型結構的複雜性很容易導致過擬合問題。為了解決這些問題,平安科技提出了一個基於注意力機制的端到埠語理解模型,並且提出了三種編碼器強化策略來減少模型對目標數據的需求且提升模型性能。
圖4基本注意力機制的
端到埠語理解模型和不同增強的策略結構
第一種策略依賴於遷移學習方法,先用大量的ASR任務數據訓練一個較好的Transformer模型,然後用訓練好的編碼器直接遷移到SLU任務上,用口語理解的數據進行SLU模型的訓練。第二種策略依賴於一種多任務結構,在訓練過程中,同時訓練ASR和SLU任務,ASR任務作為輔助手段以一定的程度來提升SLU模型中編碼器的性能。第三種策略是將BERT模型並行融合到解碼器結構上,基於此結構訓練多任務模型,此方法是通過優化ASR模型性能來間接優化SLU模型性能。另外,為了最大化SLU性能,三種策略不同組合模式也進行了測試驗證,最終在FluentAI數據集上的驗證表明,跨語種預訓練編碼器和多任務策略分別取得了4.52%和3.89%的提升。
論文5
Evolutionary Algorithm Enhanced Neural Architecture Search for Text-Independent Speaker Verification
《基於進化算法增強的神經網絡搜索算法的文本無關聲紋識別》
關鍵詞:聲紋驗證;神經架構搜索;進化算法;深度神經網絡
圖5自主設計的AutoVector模型原型圖
聲紋驗證是一項新興無接觸式身份驗證技術,主流的聲紋驗證模型都是基於神經網絡而設計的,但是這些神經網絡的設計是通過經驗和反覆嘗試而得到的。為了實現聲紋識別模型的自動化設計,平安科技採用了神經架構搜索方法來實現聲紋識別模型的全自動化設計。為了進一步提高聲紋識別模型的精度,平安科技使用文明進化算法搜索策略找出更出色的聲紋識別模型。通過實驗證明表明,平安科技提出的方法相對於LSTM-GE2E和X-Vector模型可以降低36%-86%的等錯誤率。
平安科技聯邦學習技術團隊,是由平安集團首席科學家肖京博士指導,平安科技副總工程師王健宗博士帶領,匯集了來自國內外高等院校畢業的碩博人才。長久以來,平安科技一直在AI新興技術領域深耕不輟,行穩致遠。除在INTERSPEECH 2020中斬獲佳績之外,還在國際聲學、語音與信號處理頂會(ICASSP 2020)中表現出色,共計有3篇論文入選會議,分別為《A Bobust Speaker Clustering Method Based on Discrete Tied Variational Autoencoder》、《GraphTTS: graph-to-sequence modelling in neural text-to-speech》和《AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment》。這些與時俱進的研究成果,一個又一個的重大技術創新及突破,無一不代表著國際尖端水平。平安科技作為人工智慧領域的前沿探索者,致力於用更先進、更科學的技術推動生態發展,從而為各個領域賦能,創造更大的價值。