金磊 發自 凹非寺量子位 報導 | 公眾號 QbitAI
什麼樣的語音項目,能拿「中國AI最高獎」?
不久前,中國唯一國家級的人工智慧科技獎——吳文俊人工智慧科學技術獎,公布了最新一屆的獲獎名單。
而在人工智慧自然科學獎的5個一等獎中,唯一一項語音相關的獎項,花落上海交通大學。這也是語音領域的研究成果第一次獲得吳文俊人工智慧科學技術獎的一等獎。
獲獎人分別為:
錢彥旻,上海交通大學計算機科學與工程系副教授、思必馳上海交通大學智能人機互動聯合實驗室副主任;俞凱,上交大計算機系教授、思必馳首席科學家;譚天,上交大博士畢業、思必馳語音技術研發工程師;劉媛,上交大碩士畢業。不過稍微熟悉產業的盆友也知道,這個團隊除了「上海交大」的底色,還都有獨角獸思必馳的影子。團隊獲獎所憑藉的技術成果,叫「魯棒語音信號模式分析與識別的深度結構化建模理論與方法」。這到底是一項怎樣的新技術?斬獲」AI最高獎」的語音技術在語音分析與識別中,傳統的用深度學習建模方式,主要是堆疊神經網絡層數和神經元單元,或通過增加數據來提高性能。但這種方式的一個缺點,就是往往不具備可解釋性。而錢彥旻團隊的工作,便是將結構化的方法引入到模型設計和優化中,通過引入結構賦予神經網絡更強的物理含義和參數解釋,並利用人腦的聽覺相關機理來指導這種結構的設計。這就會讓其更具備可解釋性,使得語音模型的優化目標更高效,最終提升語音信號分析與識別系統在各個場景下的魯棒性。進一步而言,主要分為三個主攻方向,分別是從信道、環境和人來做的差異化工作。在「信道」和「環境」方面,二者的研究往往是相伴相隨,錢彥旻團隊的研究集中在了對它們的表示與感知。例如2016年和2018年發表在頂刊IEEE TASLP上的 Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition 和Adaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition,便讓語音識別在噪聲環境下的也具有較好的魯棒性。
錢彥旻團隊首先在2016年的研究證明了極深卷積神經網絡(VDCNN),具有優越的自主抗噪魯棒性。
然後在2018年,在以上這項研究基礎上,提出了一種更先進的模型,稱為極深卷積殘差網絡 (VDCRN),並通過感知自適應技術,使得模型可以對環境變化做自動的調整。
簡單來說,這個模型結合了批處理歸一化和殘差學習,比剛才提到的VDCNN具有更強的魯棒性。而這項研究的重點集中在了因子感知訓練(FAT)和聚類自適應訓練(CAT)上。對於FAT來說,團隊探索了一個統一的框架,如上圖所示。至於CAT方面,則是提出了兩種方案來構建規範模型,如下圖所示。
最後,為了在嘈雜場景下獲得最佳的系統性能,還提出了一個完整的多系統融合框架。實驗結果表明,新的VDCRN具有更強的魯棒性,對該模型的自適應能進一步顯著降低單詞錯誤率。
特別是在Aurora4上,僅通過改進聲學建模,就達到了5.67%的新裡程碑。
人,在語音識別過程中,也是一個非常重要的因素之一。換言之 ,如何將一段語音中的人和人之間的區別,通過參數化的表示,在數學層面上展現出來。在這方面,錢彥旻團隊也做了相應的工作,早在2015年便發表了題為Deep feature for text-dependent speaker verification的研究。值得注意的是,這項研究在2019年獲得了語音領域權威期刊Speech Communication的最優論文獎。
這項研究為了讓深度學習模型更好地融入到「說話人」的驗證過程中,提出了從深度學習模型中提取更有說話人鑑別能力的新方法。與傳統的短時譜特徵(例如MFCC、PLP)不同的是,錢彥旻團隊採用了各種深度模型隱含層的輸出作為深度特徵,進行文本相關「說話人」驗證。具體而言,一共包括四種類型的深度模型:深度受限玻爾茲曼機(deep RBM)語音判別深度神經網絡(speech-discriminant DNN)說話人判別深度神經網絡(speaker-discriminant DNN)多任務聯合學習深度神經網絡(multi-task joint-learned DNN)
一旦深度特徵被提取出來,它們可以在GMM-UBM框架或示性向量(如,i-vector)框架內使用。與此同時,團隊還提出了「聯合線性判別分析」和「概率線性判別分析」,作為基於示性向量深度特徵的有效後端分類器。實驗結果表明,無論是直接應用於GMM-UBM系統,還是作為示性向量使用,基於所提出的結構化深度模型的新表示特徵方法與傳統基線相比,都能獲得顯著的性能提升。
當然,好的技術不能僅僅停留在實驗室中的「結果數據」,更應該有落地,應當服務於人。如此技術,能給我們帶來什麼?這個拿了「AI最高獎」的語音團隊,除了在學術界取得了成功之外,其實也是有實實在在的技術落地。團隊成員的獲獎成果均來自於他們在思必馳上海交大智能人機互動聯合實驗室中的校企聯合研究工作,錢彥旻在聯合實驗室擔任副主任一職。在量子位與錢彥旻交流過程中,他表示:因為上交大與思必馳有聯合實驗室,所以會做學校研究到產業的成果應用轉化。這就使得我們在定義科學問題、研究方向的時候,會更加務實。具體而言,實驗室會根據產品在現實生活中遇到問題,提煉出真實需要去解決的研究方向和問題。例如,在2019年1月23日晚,中央電視臺《經典詠流傳》第二季節目中,出現了一款「讀詩成曲」的在線互動小工具。用戶只需要朗讀一段詩詞,就可以聽到用自己聲音演唱的經典詩詞唱段。這一技術採用的正是聯合實驗室提供的個性化歌聲合成算法。
當然也有更加貼近生活的案例,例如車載系統。作為思必馳重要合作夥伴,小鵬汽車P7進行了 「全場景語音」功能的升級。
採用思必馳全鏈路語音交互技術,語音操控即可進行導航、撥打電話、音樂播放、控制空調及語音聊天,全雙工語音交互,一次喚醒多輪對話,支持語義打斷,打造「持續傾聽 連續指令」的自由交互方式。我們所熟知的像長城哈弗系列、北汽X7、榮威RX5MAX等多款車型,也均在各自不同的智能系統中,採用了來自思必馳的語音技術。據悉,目前思必馳已與北汽、一汽、上汽、五菱、東風等企業建立了合作。更加貼近生活的智能家居方面 ,我們正在使用的各種產品中,也均有思必馳語音技術的身影。海信S7F社交電視走進客廳生活。
該產品採用了思必馳TH1520晶片作為AI語音交互專用協處理器,配合思必馳線性四麥陣列前端信號處理算法及思必馳語音識別(ASR)、語音合成(TTS)等技術,實現語音交互。在語音晶片等領域,思必馳的語音技術也有布局。這也印證了錢彥旻在總結「基礎原始創新實力、前沿創新能力」時的表述:思必馳深耕於人機互動技術的研發,提供更加人性化的非配合式端到端人機對話式交互系統。在魯棒高效精準的語音識別與轉寫、個性化的語音合成和表達、精細化的富語言信息的分析與提取、場景上下文感知的對話交互、多模態的感知/識別/對話、聲學場景的分析等方面,都有深入的探索和先進算法的落地。目前,基於人機對話式交互系統,思必馳已經在智能車載前裝/後裝、智能家居、智能電子/穿戴、智慧政務/辦公、智慧金融等領域進行了深入布局,並得到了廣泛的應用。不難看出,思必馳上海交通大學智能人機互動聯合實驗室,擁有的不僅是中國「AI最高獎」語音方面的硬實力,更是將這種能力交付到了實際生活當中。但無論是哪一方面的成就,背後都離不開團隊成員對語音技術的熱愛與堅持。從懵懂入局,到深耕語音十餘載錢彥旻,便是讓團隊走向中國AI語音技術巔峰的領軍人物之一。
錢彥旻是上海交通大學計算機科學與工程系副教授、博士生導師,同時也是思必馳上海交通大學智能人機互動聯合實驗室的副主任。博士畢業於清華大學,之後曾在英國劍橋大學工程系MIL機器智能實驗室深造,做博士後研究,回國後在上海交通大學計算機系任副教授。目前在語音技術領域已經發表學術論文150餘篇,並多次獲得最優論文獎勵。與此同時,他還是全球最流行的語音識別開源工具包Kaldi 13位創始人之一。但在量子位與錢彥旻的交流過程中卻發現,錢彥旻在語音技術上的造詣與成就,並非一開始的興趣使然。而關於錢彥旻與語音技術的故事,要從2007年開始講起。那時的他剛剛開啟博士生涯,至於專業方向的選擇,則是由其在清華的導師劉加教授推薦。也就是在這時,便與語音技術有了初次的邂逅。而剛入局的錢彥旻,用他自己的話說便是「瞎折騰」,博士在讀2年後,才慢慢地做到了獨立探索和深入研究。也形成了適合自己的一套研究方法,可以對於一個語音技術的「點」,由淺入深,做比較深入、全面的研究。在博士畢業之後,也就是在上海交通大學和英國劍橋大學期間,對於錢彥旻個人來講,是在語音技術多個領域中快速深入推進研究的一個階段。從博士期間專攻語音識別一個方向,擴展到了語音分類、抗噪、感知、聲紋、多模態等語音技術的多個方面。也就是在與語音技術一點一滴的接觸過程當中,錢彥旻從一個「懵懂」的狀態,逐步轉變到了「熱愛」。於是,從2007年算起,這一入局,便深耕了13年之久。在此過程中,除了劉教授之外,錢彥旻還提到了另外一個對他意義非凡的人,他便是Kaldi之父——Daniel Povey。
Daniel在錢彥旻讀博士期間給予了非常大的幫助,細到會幫錢彥旻看到代碼,指導他「將某個參數從1.0調到2.0試試」這種程度。甚至Daniel邀請錢彥旻出國一起參加Kaldi的開發,都是自掏腰包,極其慷慨的「包吃住」,為的就是共同專研探討語音技術。用錢彥旻的話來說:他做人做事風格,人格的魅力,對科學的專注態度,也幫助我更加明確了研究後期的一些方向,堅定了自己的理想,也給予了我做這個方向的勇氣和決心。……而作為此次獲得「AI最高獎」的語音團隊,站在2021年的開始,錢彥旻也對語音技術將有的一個趨勢做了預測。他認為深度學習在語音技術上的可解釋學習還是不夠,在這個過程當中具體都做了哪些事情還是不夠清晰。而這也是錢彥旻團隊能夠獲得此次獎項的主要原因,他們的研究讓模型設計更具有物理含義,所達到的性能也更優。錢彥旻也謙虛地表示,他們的工作也只是對該方向的一個貢獻,還需要科研人員持續、不斷地深入研究。參考論文:Yanmin Qian, Mengxiao Bi, Tian Tan, Kai Yu. Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 12, 2263-2276, 2016.Tian Tan, Yanmin Qian, Hu Hu, Ying Zhou, Wen Ding, Kai Yu. Adaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 8, 1393-1405, 2018.Yuan Liu, Yanmin Qian, Nanxin Chen, Tianfan Fu, Ya Zhang and Kai Yu. Deep Feature for Text-dependent Speaker Verification. Speech Communication, vol. 73, 1-13, 2015.