剛剛拿下「中國AI最高獎」的語音技術,能給我們帶來什麼?

2021-01-12 量子位

金磊 發自 凹非寺量子位 報導 | 公眾號 QbitAI

什麼樣的語音項目,能拿「中國AI最高獎」?

不久前,中國唯一國家級的人工智慧科技獎——吳文俊人工智慧科學技術獎,公布了最新一屆的獲獎名單。

而在人工智慧自然科學獎的5個一等獎中,唯一一項語音相關的獎項,花落上海交通大學。這也是語音領域的研究成果第一次獲得吳文俊人工智慧科學技術獎的一等獎。

獲獎人分別為:

錢彥旻,上海交通大學計算機科學與工程系副教授、思必馳上海交通大學智能人機互動聯合實驗室副主任;俞凱,上交大計算機系教授、思必馳首席科學家;譚天,上交大博士畢業、思必馳語音技術研發工程師;劉媛,上交大碩士畢業。不過稍微熟悉產業的盆友也知道,這個團隊除了「上海交大」的底色,還都有獨角獸思必馳的影子。團隊獲獎所憑藉的技術成果,叫「魯棒語音信號模式分析與識別的深度結構化建模理論與方法」。這到底是一項怎樣的新技術?斬獲」AI最高獎」的語音技術在語音分析與識別中,傳統的用深度學習建模方式,主要是堆疊神經網絡層數和神經元單元,或通過增加數據來提高性能。但這種方式的一個缺點,就是往往不具備可解釋性。而錢彥旻團隊的工作,便是將結構化的方法引入到模型設計和優化中,通過引入結構賦予神經網絡更強的物理含義和參數解釋,並利用人腦的聽覺相關機理來指導這種結構的設計。這就會讓其更具備可解釋性,使得語音模型的優化目標更高效,最終提升語音信號分析與識別系統在各個場景下的魯棒性。進一步而言,主要分為三個主攻方向,分別是從信道、環境和人來做的差異化工作。在「信道」和「環境」方面,二者的研究往往是相伴相隨,錢彥旻團隊的研究集中在了對它們的表示與感知。例如2016年和2018年發表在頂刊IEEE TASLP上的 Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition 和Adaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition,便讓語音識別在噪聲環境下的也具有較好的魯棒性。

錢彥旻團隊首先在2016年的研究證明了極深卷積神經網絡(VDCNN),具有優越的自主抗噪魯棒性。

然後在2018年,在以上這項研究基礎上,提出了一種更先進的模型,稱為極深卷積殘差網絡 (VDCRN),並通過感知自適應技術,使得模型可以對環境變化做自動的調整。

簡單來說,這個模型結合了批處理歸一化和殘差學習,比剛才提到的VDCNN具有更強的魯棒性。而這項研究的重點集中在了因子感知訓練(FAT)和聚類自適應訓練(CAT)上。對於FAT來說,團隊探索了一個統一的框架,如上圖所示。至於CAT方面,則是提出了兩種方案來構建規範模型,如下圖所示。

最後,為了在嘈雜場景下獲得最佳的系統性能,還提出了一個完整的多系統融合框架。實驗結果表明,新的VDCRN具有更強的魯棒性,對該模型的自適應能進一步顯著降低單詞錯誤率。

特別是在Aurora4上,僅通過改進聲學建模,就達到了5.67%的新裡程碑。

人,在語音識別過程中,也是一個非常重要的因素之一。換言之 ,如何將一段語音中的人和人之間的區別,通過參數化的表示,在數學層面上展現出來。在這方面,錢彥旻團隊也做了相應的工作,早在2015年便發表了題為Deep feature for text-dependent speaker verification的研究。值得注意的是,這項研究在2019年獲得了語音領域權威期刊Speech Communication的最優論文獎。

這項研究為了讓深度學習模型更好地融入到「說話人」的驗證過程中,提出了從深度學習模型中提取更有說話人鑑別能力的新方法。與傳統的短時譜特徵(例如MFCC、PLP)不同的是,錢彥旻團隊採用了各種深度模型隱含層的輸出作為深度特徵,進行文本相關「說話人」驗證。具體而言,一共包括四種類型的深度模型:深度受限玻爾茲曼機(deep RBM)語音判別深度神經網絡(speech-discriminant DNN)說話人判別深度神經網絡(speaker-discriminant DNN)多任務聯合學習深度神經網絡(multi-task joint-learned DNN)

一旦深度特徵被提取出來,它們可以在GMM-UBM框架或示性向量(如,i-vector)框架內使用。與此同時,團隊還提出了「聯合線性判別分析」和「概率線性判別分析」,作為基於示性向量深度特徵的有效後端分類器。實驗結果表明,無論是直接應用於GMM-UBM系統,還是作為示性向量使用,基於所提出的結構化深度模型的新表示特徵方法與傳統基線相比,都能獲得顯著的性能提升。

當然,好的技術不能僅僅停留在實驗室中的「結果數據」,更應該有落地,應當服務於人。如此技術,能給我們帶來什麼?這個拿了「AI最高獎」的語音團隊,除了在學術界取得了成功之外,其實也是有實實在在的技術落地。團隊成員的獲獎成果均來自於他們在思必馳上海交大智能人機互動聯合實驗室中的校企聯合研究工作,錢彥旻在聯合實驗室擔任副主任一職。在量子位與錢彥旻交流過程中,他表示:因為上交大與思必馳有聯合實驗室,所以會做學校研究到產業的成果應用轉化。這就使得我們在定義科學問題、研究方向的時候,會更加務實。具體而言,實驗室會根據產品在現實生活中遇到問題,提煉出真實需要去解決的研究方向和問題。例如,在2019年1月23日晚,中央電視臺《經典詠流傳》第二季節目中,出現了一款「讀詩成曲」的在線互動小工具。用戶只需要朗讀一段詩詞,就可以聽到用自己聲音演唱的經典詩詞唱段。這一技術採用的正是聯合實驗室提供的個性化歌聲合成算法。

當然也有更加貼近生活的案例,例如車載系統。作為思必馳重要合作夥伴,小鵬汽車P7進行了 「全場景語音」功能的升級。

採用思必馳全鏈路語音交互技術,語音操控即可進行導航、撥打電話、音樂播放、控制空調及語音聊天,全雙工語音交互,一次喚醒多輪對話,支持語義打斷,打造「持續傾聽 連續指令」的自由交互方式。我們所熟知的像長城哈弗系列、北汽X7、榮威RX5MAX等多款車型,也均在各自不同的智能系統中,採用了來自思必馳的語音技術。據悉,目前思必馳已與北汽、一汽、上汽、五菱、東風等企業建立了合作。更加貼近生活的智能家居方面 ,我們正在使用的各種產品中,也均有思必馳語音技術的身影。海信S7F社交電視走進客廳生活。

該產品採用了思必馳TH1520晶片作為AI語音交互專用協處理器,配合思必馳線性四麥陣列前端信號處理算法及思必馳語音識別(ASR)、語音合成(TTS)等技術,實現語音交互。在語音晶片等領域,思必馳的語音技術也有布局。這也印證了錢彥旻在總結「基礎原始創新實力、前沿創新能力」時的表述:思必馳深耕於人機互動技術的研發,提供更加人性化的非配合式端到端人機對話式交互系統。在魯棒高效精準的語音識別與轉寫、個性化的語音合成和表達、精細化的富語言信息的分析與提取、場景上下文感知的對話交互、多模態的感知/識別/對話、聲學場景的分析等方面,都有深入的探索和先進算法的落地。目前,基於人機對話式交互系統,思必馳已經在智能車載前裝/後裝、智能家居、智能電子/穿戴、智慧政務/辦公、智慧金融等領域進行了深入布局,並得到了廣泛的應用。不難看出,思必馳上海交通大學智能人機互動聯合實驗室,擁有的不僅是中國「AI最高獎」語音方面的硬實力,更是將這種能力交付到了實際生活當中。但無論是哪一方面的成就,背後都離不開團隊成員對語音技術的熱愛與堅持。從懵懂入局,到深耕語音十餘載錢彥旻,便是讓團隊走向中國AI語音技術巔峰的領軍人物之一。

錢彥旻是上海交通大學計算機科學與工程系副教授、博士生導師,同時也是思必馳上海交通大學智能人機互動聯合實驗室的副主任。博士畢業於清華大學,之後曾在英國劍橋大學工程系MIL機器智能實驗室深造,做博士後研究,回國後在上海交通大學計算機系任副教授。目前在語音技術領域已經發表學術論文150餘篇,並多次獲得最優論文獎勵。與此同時,他還是全球最流行的語音識別開源工具包Kaldi 13位創始人之一。但在量子位與錢彥旻的交流過程中卻發現,錢彥旻在語音技術上的造詣與成就,並非一開始的興趣使然。而關於錢彥旻與語音技術的故事,要從2007年開始講起。那時的他剛剛開啟博士生涯,至於專業方向的選擇,則是由其在清華的導師劉加教授推薦。也就是在這時,便與語音技術有了初次的邂逅。而剛入局的錢彥旻,用他自己的話說便是「瞎折騰」,博士在讀2年後,才慢慢地做到了獨立探索和深入研究。也形成了適合自己的一套研究方法,可以對於一個語音技術的「點」,由淺入深,做比較深入、全面的研究。在博士畢業之後,也就是在上海交通大學和英國劍橋大學期間,對於錢彥旻個人來講,是在語音技術多個領域中快速深入推進研究的一個階段。從博士期間專攻語音識別一個方向,擴展到了語音分類、抗噪、感知、聲紋、多模態等語音技術的多個方面。也就是在與語音技術一點一滴的接觸過程當中,錢彥旻從一個「懵懂」的狀態,逐步轉變到了「熱愛」。於是,從2007年算起,這一入局,便深耕了13年之久。在此過程中,除了劉教授之外,錢彥旻還提到了另外一個對他意義非凡的人,他便是Kaldi之父——Daniel Povey。

Daniel在錢彥旻讀博士期間給予了非常大的幫助,細到會幫錢彥旻看到代碼,指導他「將某個參數從1.0調到2.0試試」這種程度。甚至Daniel邀請錢彥旻出國一起參加Kaldi的開發,都是自掏腰包,極其慷慨的「包吃住」,為的就是共同專研探討語音技術。用錢彥旻的話來說:他做人做事風格,人格的魅力,對科學的專注態度,也幫助我更加明確了研究後期的一些方向,堅定了自己的理想,也給予了我做這個方向的勇氣和決心。……而作為此次獲得「AI最高獎」的語音團隊,站在2021年的開始,錢彥旻也對語音技術將有的一個趨勢做了預測。他認為深度學習在語音技術上的可解釋學習還是不夠,在這個過程當中具體都做了哪些事情還是不夠清晰。而這也是錢彥旻團隊能夠獲得此次獎項的主要原因,他們的研究讓模型設計更具有物理含義,所達到的性能也更優。錢彥旻也謙虛地表示,他們的工作也只是對該方向的一個貢獻,還需要科研人員持續、不斷地深入研究。參考論文:Yanmin Qian, Mengxiao Bi, Tian Tan, Kai Yu. Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 12, 2263-2276, 2016.Tian Tan, Yanmin Qian, Hu Hu, Ying Zhou, Wen Ding, Kai Yu. Adaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 8, 1393-1405, 2018.Yuan Liu, Yanmin Qian, Nanxin Chen, Tianfan Fu, Ya Zhang and Kai Yu. Deep Feature for Text-dependent Speaker Verification. Speech Communication, vol. 73, 1-13, 2015.

相關焦點

  • AI教育進校園「英荔創造學堂」賦能廣州南武中學
    「海珠文明的搖籃」——廣州南武中學緊跟時代潮流,率先借力「英荔創造學堂」的一站式全流程 AI 普及教育方案,集 AI 實驗室 + 課程 + 教學裝備 + 教學雲 + 師資培訓 + 競賽 + 測評於一體,為南武學子帶來接軌國際,聚焦未來的人工智慧普及教育。
  • 歷年最高榮譽「卓越研究獎」獲獎者都有誰?
    Walker Distinguished Service Award)等,其中「卓越研究獎」則承載著 IJCAI 的最高榮譽,可視作人工智慧領域的終身成就獎。他既是計算機科學家,又是心理學家,研究領域涉及認知心理學、計算機科學、公共行政、經濟學、管理學和科學哲學等多個方向,並在不同領域都達到了學術巔峰:1958 年獲得了美國心理學會頒發的心理學領域的最高獎「心理學傑出貢獻獎」;1975 年把心理學、計算機科學和決策理論結合起來,開創了人工智慧研究之先河,獲得計算機領域的最高榮譽獎「圖靈獎」;1978 年獲得「諾貝爾經濟學獎」;1986 年獲得「美國國家科學獎
  • 中國AI最高獎今年頒給自動駕駛泰鬥李德毅院士,京東周伯文、中科院...
    其中,被稱為中國人工智慧領域最高榮譽的最高成就獎,第三次頒出,給了主攻自動駕駛的李德毅院士。此外,現任職京東集團的周伯文博士、中科院自動化研究所蔣田仔教授、西安電子科大焦李成教授,一同獲得獲傑出貢獻獎。獲得國家級AI領域最高獎認可,他們各有什麼傑出的成果?我們來一一了解。
  • 在網易有道做語音算法工程師是一種怎樣的體驗?
    「參賽其實是驗證技術方案」此次拿獎的時來和Harry Wu(均為花名),就是今年7月剛剛加入網易有道的應屆生。INTERSPEECH 2020「口音英語語音識別挑戰賽」由中國計算機學會、西北工業大學、上海交通大學、新加坡南洋理工大學等多家重量級機構聯合舉辦,共分為兩個賽道:Track1是口音種類識別,參賽者需要使用官方提供的各種口音英語訓練數據,訓練語種分類模型。
  • WAIC 開發者日Daniel Povey:在中國,打造新一代的「Kaldi」
    機器之心發布參與:蛋醬Daniel Povey 來到中國半年多了,微博中最常出現的地點是小米科技園。在籤下 offer 之前,他曾表示計劃在中國打造新一代的「Kaldi」。他還設計了「子空間高斯混合模型框架」,這是一種後來被廣泛應用的建模技術,原理是通過類似說話者識別中的子空間思想來增強高斯混合模型框架。但 Daniel Povey 最著名的研究是「Kaldi」。2008 年,Daniel Povey 進入微軟研究院,次年開始主導這款語音識別工具包的搭建工作。
  • Hinton等6位圖靈獎得主、百餘位頂級學者邀你共話AI下一個十年
    機器之心報導機器之心編輯部Geoffrey Hinton 等 6 位圖靈獎得主親臨,百餘位頂級學者邀請你加入群聊「2020 北京智源大會」,深入系統探討「人工智慧的下一個十年」。自 2009 年深度學習崛起以來,第三波人工智慧浪潮席捲全球,推動了新一波技術革命。
  • 百度輸入法「AI助聊」黑科技,幫寫、糾錯、預測橫向兼顧
    百度輸入法在AI領域上不斷深耕,重磅推出了最新版本的百度輸入法V10.0,該版本依舊延續了強大的AI功能,其中AI助聊帶來了智能幫寫、智能糾錯、智能預測等三大使用功能。智能幫寫,應該是「AI助聊」主打的一個功能,在我們日常聊天或者準備發朋友圈的時候,可能詞窮或者不知道如何表達,而智能幫寫就可以幫你輕鬆解決了,比如當你準備誇自己女朋友「美哭了」,會不會覺得有點沒有情調,當你點擊ai助聊icon,它會轉變為「誰的童話書沒合好,讓公主跑出來了?」,這簡直就是提升自己魅力值和情商的有力幫手。
  • 中國留學生勇奪日本平面設計最高獎全場大獎!海報背後的社會意義...
    而JAGDA大獎,還有一個針對學生群體的「JAGDA國際學生海報獎」獎項,每年都會選出最具設計藝術及意義的作品進行表彰。 JAGDA國際學生海報獎的前身是「JAGDA學生大獎賽」,曾經只面向日本學生,從2019年開始決定國際化,不限參賽者的區域和國籍。
  • 自動駕駛圈的第一個正式「謝幕」:Drive.ai確認將永久關閉
    Drive.ai 的 Twitter 最後一次更新是在 6 月 3 日,證明的確已經停運 2 周了「停止運營」這個決定,是在一項早有傳聞的收購交易達成後做出的。就在十幾天前,我們曾報導過蘋果公司正在就收購問題與 Drive.AI 進行談判,但蘋果模凌兩可的經典回復在很大程度上暗示,這是一項規模較小、目標明確的收購,目的在於引進特定的人才。
  • 雲知聲衝擊AI語音第一股,憑什麼?
    2020 年是不平凡的一年,突如其來的疫情,雖然改變了人們的生活方式,但卻為人工智慧的發展按下了加速鍵,語音的「非接觸」交互優勢被充分的挖掘和放大,語音 AI 也迎來了行業紅利期。 在經歷了上半年的「沉寂」後,語音 AI 企業在下半年集體「蓄勢待發」了。
  • 地平線發布車規級AI晶片「徵程3」,「徵程5」性能超越特斯拉FSD
    「徵程3」湧動著車規級的基因,功耗為英偉達Xavier十分之一作為國內車載AI晶片領域的先行者,地平線在2019年8月率先發布中國首款車規級AI晶片「徵程2」且已實現大規模前裝量產一年後,為業界帶來了新一代高效能車載AI晶片「徵程3」。
  • 「反向傳播非你原創」,Jürgen發文直指Hinton不應獲2019本田獎
    機器之心報導參與:魔王、蛋醬、杜偉LSTM 之父 Jürgen Schmidhuber 再次掀起爭論,這回他指向了深度學習之父、圖靈獎得主 Geoffrey Hinton。不過,這次他站出來質疑的是 Hinton 的最新獎項——本田獎。創立於 1980 年的本田獎旨在表彰「為引領生態技術領域的下一代新知識而做出貢獻的個人或團體」。
  • 語音AI革命十年,不忍看,不敢看!
    在Houndify出道不久後,公司籌集了1億美元的資金,這為公司的快速增長提供了動力,也顯示了語音技術方面的競爭空間是多麼巨大,無論虛擬助理的名字是什麼。 2017年:百度和阿里巴巴推出語音助手和智能音箱 2017年,中國科技巨頭百度和阿里巴巴都推出了自己的智能音箱,並由自己的語音助手驅動。中文語音助手的操作方式的差異也意味著語音助手沒有通用的基準,即使它們都不可避免地模仿了彼此更受歡迎的功能。
  • 微軟的決絕:抱緊雲與AI的未來
    郭昱廷作為這次改組挪騰中的一員,前不久剛從沈向洋領頭的「微軟人工智慧與研究事業部」部調往「雲計算與人工智慧部」,擔任全球高級副總裁。採訪中,郭昱廷多次強調,這樣的調整是為展現微軟擁抱雲計算和人工智慧的決心,並非放棄 Windows。這裡提到的「微軟的決心」究竟意味著什麼?
  • 蘋果自動駕駛部門「裁員」又「重組」,AI負責人接掌「泰坦」
    現在,除了「泰坦」項目之外,賈南德雷亞還會繼續負責Siri和蘋果產品的機器學習技術。在此之前,領導「泰坦」的是道格·菲爾德(Doug Field),他之前在蘋果擔任過硬體副總裁,後又加入特斯拉,擔任工程副總裁,特斯拉Model 3 就是他當時負責的項目。
  • 圖靈獎得主Bengio明星創業公司被「賤賣」!曾融資數億美元
    【新智元導讀】圖靈獎得主Yoshua Bengio創立的「獨角鯨」公司Element AI面臨著被「賤賣」的可能。根據外媒報導,公司在上月籤署了一項協議,以2.3億美元的價格將自己出售給矽谷軟體公司ServiceNow,而且,公司員工也面臨著被解僱、股票期權被取消的可能。這家公司曾經被業內廣泛看好,曾獲得英偉達、微軟、騰訊、英特爾等巨額融資。
  • 圖靈獎得主Bengio明星創業公司被「賤賣」!曾融資數億美元,騰訊也...
    文|新智元編輯|小勻、QJP【新智元導讀】圖靈獎得主Yoshua Bengio創立的「獨角鯨」公司Element AI面臨著被「賤賣」的可能。被譽為加拿大「明日之星」、融資數億美元、深受英偉達、微軟、騰訊、英特爾支持的AI公司—— Element AI,支撐不住了。這家公司位於加拿大蒙特婁,曾因其創始人為圖靈獎得主、「深度學習教父」Yoshua Bengio而風光無限、前途無量。然而,早在幾周前,就有Element AI將被美國雲計算平臺服務商ServiceNow收購的消息。
  • 百度文心(ERNIE)榮獲世界人工智慧大會SAIL獎,加速中國產業AI化轉型
    百度文心(ERNIE)獲得SAIL獎,百度技術委員會主席吳華(左四)領獎7月9日,2020世界人工智慧大會(WAIC)最高獎項SAIL獎(Super AI Leader,卓越人工智慧引領者)在大會開幕式上頒出,百度文心(ERNIE)知識增強語義理解技術與平臺獲獎,由百度技術委員會主席吳華現場上臺領獎。
  • 「MyBuddy.ai」獲 100 萬美元...
    MyBuddy.ai 是一家教育語音技術公司,成立於2017年,總部位於美國舊金山,由 Dima Plotnikov、Dmitry Stavisky 和 Ivan Crewkov 聯合創立,旨在幫助兒童通過語音遊戲的方式來練習英語口語。
  • 2020金點設計獎、金點概念設計獎「年度最佳設計獎」揭曉
    設計圈年度盛會「2020 金點設計獎頒獎典禮」,於 12/11 晚間在臺北壹電視攝影棚盛大舉行,並揭曉象徵最高榮譽的「年度最佳設計獎」得主!今年金點設計獎及金點概念設計獎共近8千多件作品參賽,經三階段評選,最後選出 24 件「金點設計獎年度最佳設計獎」、3 件「金點設計獎年度特別獎」、3 件「金點概念設計獎年度最佳設計獎」以及 1 件「年度特別獎── ConceptD 創能無限獎」得主。今揭曉兩獎項之得獎作品,臺灣一舉囊括 20 件為最大贏家,來自中國大陸、香港、泰國、波蘭等地作品亦表現亮眼。