百度語音的「一小步」,可能是語音技術「登月計劃」的一大步

2020-12-17 鈦媒體APP

圖片來源@視覺中國

文|趙賽坡

語音作為人機互動的全新入口,已經在過去幾年席捲全世界。語音技術的進步,不僅體現在各式各樣的智能設備裡,還在不斷賦能行動裝置輸入法的變革,依託語音便捷的交互方式,輸入法裡語音輸入也在悄然改變著用戶與設備交互的模式。

在技術領域,某些影響深遠的技術研發往往被稱為「登月計劃」。本周,百度在語音領域的「一小步」,也實現了人類語音「登月」的一大步。

在百度輸入法發布會上,百度公布了語音領域的四項重大技術突破。這其中,在線語音領域全球首創的流式多級的截斷注意力模型(SMLTA,全稱為「Streaming trancated multi-layer attention」)成為焦點,這也意味著,學術界談論多年的注意力模型終於實現了大規模在線商用。

此舉意義重大。一方面,這是業界第一個基於注意力模型的在線語音產品,凸顯出百度在語音技術研發的領先;另一方面,作為 AI 的基礎功能,語音技術在百度 AI 技術賦能產品創新的作用越來越大,這也是當下百度 AI 戰略落地的重要觀察窗口。

接下來,本文將從此次公布的流式多級的截斷注意力模型入手,揭秘這項技術背後的意義,同時結合語音技術賦能百度其他產品線的案例,進一步探討這家公司的 AI 戰略方向。

1. 技術突破:學術界一大難題的落地

過去幾年,AI 被詬病的一大原因就是技術落地困難,一項實驗室的技術即便再怎麼先進,倘若無法再商業化的場景裡得以應用,多少都有些當代「屠龍術」的意味。

比如語音領域的注意力模型(Attention模型)。

注意力模型是一種基於對一句話裡每個音節或漢字音頻特徵的機器學習模型。通過機器學習的方法,將音頻特徵自動挖掘出來。也就是說,這種方法下的語音識別過程,變成了一個字一個字的滾動生成過程。

由於擺脫了傳統語音識別的狀態建模和按語音幀進行解碼,該模型可以直接實現語音和文本一體化的端到端建模,擁有學術界公認的建模精度。

但這個技術長期以來無法得以大規模應用。一方面,無法解決流式解碼的問題,傳統的注意力模型大都是基於整句的建模,比如 Google 的 LAS 模型就是其中的代表。整個建模過程需要通過雲端/伺服器的解碼能力。這也意味著,當用戶通過語音交互時,語音需要上傳到雲端,這對於行動裝置的用戶體驗影響非常大。

另一方面,如上文所言,在傳統的注意力模型裡,一般是通過機器學習提取整句音頻信息,也就是說語音輸入的句子越長,進行特徵選擇的難度越大。出錯的概率越高,而一旦某個環節出現錯誤,錯誤的傳導還會進一步提過錯誤率,最終反映在用戶體驗上的感受則是,用戶語音說完一段話後,機器完全理解不了。

這也是此次百度流式多級的截斷注意力模型 SMLTA 所要解決的難題。主要包括兩個重要的技術突破,其一,利用 CTC 語音識別算法,對連續語音進行自動截斷,然後在這一系列語音小段的基礎上搭建注意力模型。其二,引入一種特殊的多級Attention機制,實現特徵層層遞進的更精準的特徵選擇。

根據百度官方的說法,由於所有計算通過 CPU 實現,不需要額外增加GPU,整個雲端的計算資源消耗與此前的語音模型持平。而在輸入法精度上,大量數據測試結果顯示,相對於早先的模型,相對準確率提升了 15%。

更重要的是,這不僅是業界第一次提出了流式多級的截斷注意力模型 SMLTA,也在全球範圍內,實現了基於注意力模型的在線語音識別服務的首次規模化應用。百度已成功將這種注意力模型部署上線到語音輸入法全線產品,服務中國數億用戶,也因此,此次技術突破不再僅僅是一個實驗室技術的展現,而是成為一個個普通用戶都可以享受的技術紅利。

2. 賦能:從內到外

一年前的百度輸入法升級裡,基於 Deep Peak 2模型的語音模型,大幅提升了不同場景下語音識別的準確率。而一年後,輸入法升級還帶來了離線語音、中英混合輸入、普通話方言混合輸入的升級。

這其中,離線語音識別的場景最特殊。由於語音識別需要網絡的支持,當沒有網絡或者網絡穩定的時候,常常出現語音識別成功率低、識別速度慢等情況。

雖然通過離線語音已解決一部體驗問題,但過去離線語音與在線語音相比,準確率相差懸殊,體驗得不到根本解決。

針對這一場景,百度語音技術團隊優化了輸入法上嵌入式識別的 deep peak2 系統,大幅提升了離線語音識別準確率。根據百度透露的數字,目前百度輸入法離線語音輸入準確率已高於行業平均水平35%,這也讓用戶可以在沒有網絡的場景裡流暢快速使用。

上述注意力模型等一系列技術創新也是百度語音技術推動產品發展的一個縮影。

比如地圖。去年 12 月的新版地圖裡,語音就作為一個重要的交互方式,涵蓋了導航路線、地點查找以及小度助手等等。

而在翻譯領域,去年 10 月,百度研發的具備預測能力和可控延遲的即時機器翻譯系統,實現了兩種語言之間的高質量、低延遲翻譯。這其中,通過上下文無關音素組合的中英文混合建模單元,讓語音識別的方法具有泛化性能好、對噪聲魯棒、中英文混合識別等特點。

與此同時,正如百度高級副總裁、AI技術平臺體系(AIG)總負責人王海峰在百度大腦論壇上所言,「百度大腦既帶動了百度業務的升級,也在推動社會智能化升級」。與行業其他 AI 巨頭們目前的策略一致,語音技術不僅是百度多個產品線創新的動力,也已經並正在通過百度大腦向行業賦能。

以遠場識別算法為例,通過麥克風陣列前端處理算法,可以識別目標說話人 3-5米距離的說話。目前,基於語音遠場方案技術的「小度機器人人機語音交互點餐」已在上海肯德基旗艦店投入應用。

2018 年的百度世界大會上,百度大腦也帶來多個語音技術升級。比如「一次喚醒連續交互」的技術突破,用戶只需喚醒一次就可以連續多輪對話,機器能夠準確識別用戶說話時的猶豫停頓、能夠區分並跟隨首次喚醒的用戶等,用戶的體驗更自然、流暢,為語音交互提供了更多想像空間。

3. 寫在最後

作為當下 AI 的一個單項技能,語音技術依然有巨大的突破空間。一方面,語音識別在安靜環境、普通話識別的識別率的確已經比較高了,但在複雜環境以及口音、方言等環境裡的識別率還不盡如人意。

另一方面,語音技術不僅是聲音與文字之間的轉換問題,也不是單純的軟體或硬體問題,面向未來的語音技術是硬軟一體、語音語言一體、識別和交互一體。

百度這次推出的流式多級的截斷注意力模型SMLTA,無疑是中文在線語音識別歷史上的又一次突破。

而未來,百度語音的重要著力點是向下朝低端晶片發展,向上超語音語義一體化和交互發展。最終,百度語音將建立從硬體底層晶片、到上層的智能硬體系統,再到系統軟體,語音客戶端,語音伺服器及後端交互一體化的全鏈路語音交互技術。

基於百度龐大的用戶和豐富的產品,這些技術將讓用戶享受 AI 的福利,而透過百度大腦,還將持續賦能各行各業。(本文首發鈦媒體)

相關焦點

  • 阿姆斯特朗登月名言曾漏字 記者共商修訂版本
    曾報導過美國曆次太空人登月過程的記者喬·舒爾金27日撰文,披露了報導阿姆斯特朗登月過程中的細節。 「這是我個人的一小步,但卻是人類的一大步」這句名言原來是記者們經過商討、修正的版本,而阿姆斯特朗當時說漏了字。登月名言也曾遭質疑阿姆斯特朗去世時,和他一起執行登月任務的太空人仍然在世。
  • 阿姆斯特朗登月名言曾遭質疑 實為記者「敲定」
    美國到目前為止一共有24名太空人參與過登月任務,其中有12人成功踏上月球表面。現在仍然在世的這些太空人都已經年過七旬。再過十年,他們中的大部分可能離世,然而,他們的登月過程中仍然有許多謎沒有解開。  阿姆斯特朗登月時說出了從此以後在無數場合被引用的名言:「這是我個人的一小步,但卻是人類的一大步。」然而在之後的幾十年中,關於「登月騙局」的說法一直沸沸揚揚。
  • 百度地圖開展電臺主持人語音包計劃,領先語音合成技術還原「好聲音」
    會上,百度地圖事業部總經理李瑩發布了業內首個「電臺、電視臺主持人入駐百度地圖語音包廣場」的合作新模式,並與參會嘉賓共同啟動了「百度地圖主持人語音包計劃」。具體來說,百度地圖將通過作業員採集、用戶上報、交警數據等渠道,匯聚更全面的數據提供給廣播電臺,降低電臺採集採編的人力投入;同時,將與警媒聯動打造更豐富的播報場景,例如為應急車輛護航播報,用科技築起「生命護航」之路;還將以AI技術持續賦能路況播報能力,從大數據擁堵挖掘到AI語音播報合成,從用戶上報事件到 AI 自動發現道路事件。不斷增強各個場景的播報能力。
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    現場,百度語音首席架構師賈磊揭秘了這背後的技術:「百度地圖語音定製功能基於百度獨創的風格遷移技術Meitron模型,其特點主要體現在音色轉換、多情感朗讀和韻律遷移三個方面,從而讓語音合成的門檻大大降低,相信百度語音技術在AI時代擁有無限可能。」
  • 百度語音舉辦技術沙龍:將建語音平臺生態
    隨著語音識別技術日臻成熟,我們在日常使用各種智能設備時已經越來越多地可以藉助於語音識別技術來簡化我們的操作。近日,在語音識別技術領域深耕多年的百度舉辦以「智能語音技術,簡化你我日常生活」為主題的技術沙龍,來自百度開發者中心的語音專家分享了百度在智能語音上的相關成果和進展。
  • 語音連接人與服務:百度語音涉足智能穿戴領域
    但是,在這些領域中打拼的大多數初創企業往往因為相關技術的高昂費用受到限制,而免費的百度語音技術則為這些企業提供了很好的解決方案。張克寧表示,百度語音目前免費開放了語音識別、語義理解、語音合成以及後端資源等技術服務,打破了過去大多數語音識別技術收費授權的模式,將幫助合作夥伴輕鬆構建各類語音交互應用和硬體,打造語音服務的特色產品。
  • BBC紀錄片曝光阿姆斯特朗登月名言醞釀數月
    個人一小步是「人類一大謊」?並非信手拈來而是醞釀數月 BBC最新紀錄片曝光阿姆斯特朗登月名言「早產」「這是個人的一小步,卻是人類的一大步。」1969年7月21日凌晨2點56分,阿姆斯特朗在左腳踏上月球時如是說。
  • 請造句:___的一小步,卻是中國創造的一大步
    「這是一個人的一小步,卻是人類的一大步。」 37年前的7月20日,美國太空人阿姆斯特朗作為登月第一人說出了這句話。那麼,對於我們自己的民族品牌來講,我們那「一大步「的背後,又都是誰在開拓著那」一小步「呢?或許這個問題的答案,在汽車市場中我們應該能夠找得到。
  • 百度語音識別技術突破 巨頭崛起
    與學術研究不同,百度語音聚焦於技術的實際應用,技術難度和實現程度更高。針對語音識別產品而言,首先要具備在大規模語音資料庫上體現性能提升,其次就是具有適合語音在線識別產品運行的模型。正是基於以上這些優勢,讓百度語音識別真正成為大規模產業化的基礎,帶來真正的人機互動變革。
  • 百度語音首席架構師賈磊:讓語音技術可靠流暢,具備親情和溫暖
    在國內,談到智能語音技術,肯定繞不開一個人,那就是現任百度語音首席架構師賈磊,他是智能語音界舉足輕重的AI大牛,於2010年加入百度,組建了百度語音團隊,主導研發了百度語音識別和語音合成等一系列百度自有智慧財產權的語音核心技術。
  • 百度的語音識別技術或將超越谷歌和蘋果
    當時,吳恩達對他和他的團隊在加州桑尼維爾一家新成立實驗室可能取得的成果守口如瓶。但是,現在他終於忍不住披露了更出色的語音識別技術,這是智慧型手機時代引人關注的關鍵領域。 具體來說,Deep Speech在車內或人群中等嘈雜環境下比其他語音識別系統的表現更出色。當然,關鍵是讓語音識別技術在現實世界中真正發揮作用。
  • 金靜:再談「向前一小步,文明一大步」的英譯
    此外還需考證,「向前一小步,文明一大步」如照字面直譯,英語受眾是否能夠接受。一、「向前一小步,文明一大步」的不同英譯如不計具有明顯錯誤的中式英語,經眼所及,「向前一小步,文明一大步」這句告誡如廁者的提示語,至少有如下幾種英譯文:譯1:A small stepforward, a big step in civilization.
  • 百度百科的一小步,知識百科的一大步
    有意思的是,同為維基百科聯合創始人的拉裡·桑格離開維基百科後,加入了一個基於區塊鏈技術的知識百科平臺,Everipedia,後者正是利用區塊鏈,對知識百科進行改造和加工,使其完全去中心化,這和百度百科的創新幾乎如出一轍。 而在不久之前,百度百科又啟動了一項新的功能:本人編輯服務。
  • AI技術發威,百度輸入法日均語音輸入請求量超越搜狗
    看到輸入法日均語音請求3.35億次這個數據,我還是感覺到有些意外的。第一個是輸入法只是百度眾多應用的一款,不是百度App這樣的旗艦應用,會在發布財報時被李彥宏重點提及,讓人意外。百度反其道而行之,在搜索市場擁有絕對優勢後,推出了瀏覽器和輸入法等工具,避免被人掐住脖子。百度出發點可能是防禦,但這並不阻礙百度將輸入法做好。
  • 百度展現車聯網黑科技 語音技術解放雙手
    然而在感受了網際網路為汽車行業帶來的全新動力之後,會議現場的小夥伴們也近距離的感受到了百度語音技術這一超級「黑科技」——它不但能夠助力搭建車聯網系統,成為支撐下一個時代汽車控制的基礎技術,還展示了全方位改造所有電子設備與人類交互的邏輯,堪稱通過技術驅動未來加速到來。
  • 百度手機輸入法語音翻譯
    文章原標題:百度手機輸入法語音翻譯 開啟人工智慧新紀元  談及語音識別,其實早已不是什麼新鮮技術了。TTS(Text To Speech)技術發展了幾十年,各種科技公司都相繼推出了語音搜索和語音助手功能,語音輸入類產品也是層出不窮。
  • 百度大腦智能語音賽道秀肌肉 開放雲端芯全棧全場景語音能力
    在當天舉行的百度大腦語音能力引擎論壇上,百度大腦語音引擎全新發布和升級了14大產品內容,包括基於百度鴻鵠語音晶片的4款硬體模組、開發板及3大場景解決方案,升級了語音自訓練平臺、呼叫中心語音解決方案等。來自家電、農業、醫療等行業的合作夥伴代表也在現場分享了百度大腦語音技術賦能的成果。
  • 語音識別技術的發展及難點分析
    此外,業內有專家再次提出了將神經網絡技術引入語音識別問題的技術思路。 上世紀90年代以後,在語音識別的系統框架方面並沒有什麼重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展。比如,DARPA是在上世界70年代由美國國防部遠景研究計劃局資助的一項計劃,旨在支持語言理解系統的研究開發工作。
  • 百度語音識別上線新版本 長語音轉寫告別時間限制
    但是,大部分公司提供的語音識別功能有時間限制,類似會議錄音、長語句等長語音識別成了難題,雖然市面上存在一些長語音識別技術支持方,但開發者需要為此支付大筆的技術接入費用,徒增業務成本。對於用戶,受「60秒」限制的語音識別功能往往無法滿足他們在生活、工作中的需求,這不僅影響他們使用語音識別功能的「興致」,同時會導致用戶對一些搭載了語音識別功能的產品「敬而遠之」。
  • 百度地圖推出語音定製功能 可以生成個人語音包
    如圖,用戶可從百度地圖首頁進入語音定製頁面,可選擇性別,還可以錄製童聲。錄製的文本方面,用戶也可以選擇系統推薦文本,卡通文本和電影臺詞。特別是錄製童聲時,百度為低齡兒童設置了語句更短、可重複的兒童語句。錄製完的語音包可以自己使用,也可通過微信或者百度地圖分享給他人使用。