百度地圖首發語音定製:明星權利下沉,人工智慧升格

2021-01-08 創業邦

編者按:本文轉自Alter聊IT,作者Alter,創業邦編輯後發布。

詹姆斯· 弗拉霍斯在《智能語音時代》中有一個大膽的預測:智能語音有可能成為最有感情的技術。

不過在太多人眼中,當下的合成語音很難和情感特徵相關聯,韻律表現上不夠靈活,聲音變化上相對死板。幾乎無法讓人相信那些冷冰冰的機械音可以承載豐富的情感,直到百度地圖的一場發布會。

用戶只需要在百度地圖App上錄製20句話,然後等待15分鐘左右的時間,即可生成有自己聲音特色的個性化語音包。有些預料之外的是,原本被某手機廠商預定的朋友圈,猛然被百度地圖語音定製的截圖刷了屏。

以至於有人在朋友圈中寫下了這樣一句話:充滿「人氣」的導航語音定製,正在打破語音時代的「花園圍牆」。

01 只要20分鐘,聽見自己的聲音

作為對新技術永遠有著嘗鮮欲望的泛極客,我在第一時間去AppStore更新了最新版的百度地圖,滿懷期待地錄製了自己的語音包。為了方便大家對「語音定製功能」的理解,這裡將整個體驗分為三個過程:

第一步,錄製環境的準備。

語音導航早已不是什麼新事物,之所以在過去那麼長時間裡沒有出現個性化定製的語音包,最大的門檻就在於錄製條件:首先要找到一個專業的錄音棚,然後錄製上萬句導航文本,最後花上半年的時間進行處理。即便是定製化的明星語音包,也需要在通用語音庫的基礎上錄製一兩千句語音,大概要在錄音棚裡待兩個禮拜的時間,再花兩個月的時間用語音技術生成語音包。

「想要定製自己的導航語音,要麼你爸爸是王健林,要麼你自己是王思聰。」大概就是很多人對語音定製的原始印象。

但在最新版的百度地圖App中,只需要語音喚醒「小度小度」後說「錄製我的語音」,或者在個人中心中找到「語音定製」的按鈕,即可進入到語音定製的界面。不需要跑到專業的錄音棚中,只要不是那麼嘈雜的環境,達到系統自動檢測的噪音標準後,即可在手機上定製屬於自己的語音包。

第二步,語音定製的過程。

進入語音定製的界面後,百度地圖提供了個性化的選擇,在性別上可以選擇男聲、女聲以及童聲女和童聲男,可供選擇的錄製文本包括推薦文本、卡通文本、電影臺詞和超短文本。比較貼心的是,卡通文本中可以看到《喜羊羊與灰太狼》、《超級飛俠》、小豬佩奇等時下熱門動畫片的臺詞,並且在朗讀文本前設定了「自動跟讀」,針對兒童群體進行了一系列細節上的打磨優化。

佔用5分鐘的時間錄製20句左右的文本,然後等待15分鐘上下的時間進行雲端語音處理,即可下載自己專屬的語音包。

簡單的對比即可以發現,百度地圖已然最大程度的降低了語音定製的門檻,原本動輒幾個月的語音包生產過程,被壓縮到幾分鐘的時間,重新定義語音包生產模式的同時,也讓語音定製進一步普惠化。不再局限在幾個明星的語音包,人人都可以是「大明星」。

第三步,場景體驗的感受。

市面上並不缺少商用語音合成的產品和服務,但絕大多數都是構建在傳統的TTS框架上,至於語音合成的效果,往往少不了合成語音的機械感。

關於百度地圖「語音定製」的體驗,最大的感受就是驚豔。

首先在音色上,合成語音和原始聲音的相似度在90%以上,或許一些實驗室裡可以做到95%左右的水平,考慮到百度地圖的規模化應用,這樣的成績已經足夠令人興奮。同樣讓人驚嘆的是,僅僅錄製了20個短句,有個人特色的短句方式被完美保留,比如我在讀一個長句時習慣在中間進行停頓,百度地圖的語音包中精準呈現了這一細節。

其次在場景上,本以為只是應用在路線導航的特定場景中,在使用自己的語音包後,每次在百度地圖中喚醒「小度小度」,聽到的居然是自己的聲音,進一步深入體驗後發現定製的語音包可以在景區智能語音導覽、智能語音交互、導航等全部場景使用。

不客氣地說,如果Siri的出現開啟了語音助理的時代,百度地圖的「語音定製功能」開啟了智能語音規模化應用的先河。告別冷冰冰的機械感,自然、有情感、高表現力的聲音,將是語音技術進一步在生活中滲透的開始。

02 7年技術打磨,語音合成的進階

羅馬不是一天建成的,語音技術也是如此。

原先幾個月才能搞定的語音包,百度為何在15分鐘的時間內完成,百度語音首席架構師賈磊在百度地圖的發布會上進行了「揭秘」:

先來熟悉下百度在語音技術上的深耕,也許是讀懂百度語音合成技術躍遷的關鍵。

我在之前的文章中梳理過語音識別的進化簡史,比如百度2012年開始把深度學習技術DNN技術用於語音搜索,2013年開始基於CNN模型進行研究,2015年初推出基於LSTM –HMM的語音識別,年底發展出基於LSTM-CTC的端對端語音識別系統,今年1月份又發布了流式多級的截斷注意力模型……

其實百度的語音技術進化還存在另一條曲線,即語音合成技術的創新進化史。2013年就已啟動TSS研發,2014年實現了HTS離線參數合成,2016年在基於深度學習的語音合成產品落地上持續發力,並打造了世界上第一個能在雲端提供大規模WaveRNN實時語音合成服務的系統……

僅以WaveRNN技術為例,傳統的RNN技術是單點遞推的,只有計算完當前的音頻點,才能計算下一個音頻點,而百度創新的並行WaveRNN技術,可以把一句話分成若干個音節,每個音節同時並行合成,從而實現了WaveRNN技術可以線上大規模使用,為語音合成的商業化應用奠定了基礎。

當然作為普通的「吃瓜群眾」,我們無須熟知上述提到的專有名詞,在討論百度地圖的語音定製功能時,還要從百度獨創的風格遷移技術Meitron模型說起,特點主要體現在音色轉換、多情感朗讀和韻律遷移三個方面。

關於「音色轉換」可能很多人並不陌生,在動畫片《名偵探柯南》中,柯南正是通過胸口的「蝴蝶結變聲器」模仿其他人的聲音。現實中的「音色轉換」少了些魔法的光環,需要收集大量的聲音數據,生成訓練模型,再通過個性化的學習完成音色的變換。但在百度的Meitron模型中,可以利用少量語音快速合成一個人的專屬音庫。

「多情感朗讀」顧名思義就是讓合成語音擁有自然、有情感的聲音,常見的思路是從說話人的情感語音語料中獲得平均音模型,對說話人的情感說句進行自適應變換,構建目標情感的聲學參數模型,繼而合成出目標說話人的情感語音效果。同樣的,Meitron模型減少了語音庫中的個體差異,只需要少量語料,就能在合成的語音中注入不同的情感。

「韻律遷移」通俗的說就是一個人的聲音可以講出不同風格的文本,比如一個人說話時的音調、音節、停頓等,目的是讓合成語音正確表達語義,聽起來更加自然。倘若缺少韻律前移模型,無法無法精確控制語音的發聲,語音的表現力和自然地也就無從談起。百度地圖的「語音定製功能」之所以可以實現個性化的語音合成,與「韻律遷移」方面的方面的深厚積累無不關係。

從時間上來看,百度並非是第一家進行語音合成研究的公司,然而百度地圖「語音定製」的國民級應用,無疑闡述了這樣一個事實:那些動輒需要幾十個小時的語音採集,消耗幾個月的時間進行拼接合成的語音技術已經過時,在人工智慧技術的賦能下,語音合成技術正在創造無限可能。

03 分鐘級語音定製,開啟大生產時代

在體驗和技術之外,不應該被忽略的是,百度地圖選擇在這個時間點上線「語音定製功能」,本質上在於解決了兩個棘手問題:

一是語音合成技術本身,業已實現了核心技術的突破,以及與工業級應用的結合;

二是語音合成的成本控制,百度深度學習平臺飛槳實現了純端側的廉價GPU部署,無疑是個性化語音合成技術規模化落地的關鍵。

由此來看,百度語音技術的想像空間遠沒有局限在百度地圖的個性化語音包上,開始從積累和沉澱進入商業化的爆發期。

就應用場景而言,除了導航語音之外,電子閱讀、智能硬體、智能音箱、機器人等都將是個性化語音的潛在市場。特別是即將到來的5G時代,或將有上百億臺設備入網,作為萬物互聯以及AIoT的一個重要入口,智能語音賽道終將成為搜索、電商、社交之外的下一個「現金奶牛」。

就情感維繫來說,鍵盤、觸控乃至現階段的語音,以往的人機互動都是效率主導的,在很大程度上缺少了人情味兒,但百度的個性化語音定製已經釋放了積極的信號,語音不僅是高效的交互方式,也是情感的載體,人類與機器之間的隔閡勢必會進一步縮小,取而代之的是親和力。

同時對於百度這樣的網際網路巨頭而言,過去幾十年中的技術深耕,註定會在人工智慧進入大生產時代時一步步變現。

本文為專欄作者授權創業邦發表,版權歸原作者所有。文章系作者個人觀點,不代表創業邦立場,轉載請聯繫原作者。如有任何疑問,請聯繫

editor@cyzone.cn。

相關焦點

  • 「軍藝校草」入駐百度地圖,黃金周沈騰語音包陪你樂出遊
    (百度地圖智能語音助手推薦功能)不僅如此,百度地圖智能語音助手還支持用戶語音發起導航、查詢精準POI地點、限號信息、查詢天氣等功能。一次語音指令代替傳統多次觸屏,不僅解放了用戶雙手也節約了大量時間和精力、提升了駕駛安全係數。
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    9 月 19 日,百度地圖「『音』為有你,更有『AI』」語音定製功能發布會召開,重磅推出全球首個地圖語音定製產品。該功能科技範兒十足,用戶只需在百度地圖 App 上錄製 20 句話,最快 20 分鐘,即可生成個人完整語音包。換句話說,當你之後出行使用地圖功能時,就可以用自己的家人甚至寶寶的定製化語音導航,十一旅遊還可以聽自己聲音的景區解讀。
  • 百度CIO李瑩做客混沌大學 分享百度地圖15年產品進化方法論
    隨著AI時代的加速到來,第五代地圖——人工智慧地圖應運而生。5月9日,百度副總裁、百度首席信息官(CIO)、百度地圖事業部總經理李瑩亮相混沌大學課堂,以《新一代人工智慧地圖:從洞察到實踐》為主題,傳授了百度地圖在穩定市場格局下把握科技浪潮、打造極致AI產品體驗,構建差異化壁壘,並撬動用戶增長的實戰經驗。
  • 百度輸入法行業首發,不論怎麼說,都能語音輸入
    雖然現在的智慧型手機多數都預裝了手機廠商定製的輸入法,但這些輸入法也是手機廠商與專業的輸入法廠商合作推出的,與原版的輸入法相比,這些定製版的輸入法基本不會進行功能的升級,同時也僅保留了最基礎的功能,而原版完整的輸入法則可以使用更多的功能,讓用戶的輸入效率有所提升。
  • 百度地圖沈騰語音包獨家爆笑來襲 「騰式」幽默叮囑您減速慢行
    今天,百度地圖官方宣布,獨家上線沈騰語音包。「開心導航語音」和「欠兒登語音」兩個版本搞笑來襲,為用戶帶來獨一無二的「騰式」導航體驗。據了解,此次沈騰語音包金句頻出,「這就到啦?下載沈騰語音包的方式十分簡單,只需打開百度地圖APP,在搜索框中搜索「沈騰語音包」或呼喚「小度小度,下載沈騰語音包」,就可以直接下載並切換使用。除此之外,用戶點擊首頁右側「語音包」按鈕進入語音廣場,在熱門推薦位中也能發現沈騰語音包的身影,點擊下載後即刻便可開啟與沈騰的「互懟」模式。
  • 百度地圖亮相中國衛星導航年會:基於北鬥強大能力持續打造極致出行...
    百度地圖總經理季永志出席年會高峰論壇,並圍繞「北鬥+人工智慧」做了題為《中國北鬥&百度地圖打造極致出行體驗》的特邀報告。報告內容涵蓋精準出行體驗、智能語音交互、導航創新應用和企業社會責任四大維度,全面展現了百度地圖基於中國北鬥強大的基礎設施能力在用戶產品應用端打造的極致出行服務。
  • 人工智慧音箱也能打電話?百度攜手聯通發布小度在家1C聯通定製版
    小度人工智慧硬體產品系列又一款新品發布,小度正在打造中國市場最繁榮的人工智慧生態。4月23日,在「2019年中國聯通合作夥伴大會」上,中國聯通與百度戰略合作推出的新品智能硬體——小度在家1C聯通定製版正式亮相。
  • 小度在家1C聯通定製版全新發布 百度與聯通華盛共建人工智慧生態場景
    在23日舉行的「2019年中國聯通合作夥伴大會」上,中國聯通與百度戰略合作推出的新品智能硬體——小度在家1C聯通定製版正式亮相。  作為小度家族又一新成員,小度在家1C聯通定製版更加注重家庭場景的應用,憑藉卓越的遠程視頻通話、語音通話、拍照能力,讓用戶隨時視頻連接遠方家人;本次與中國聯通合作推出的功能中,小度在家1C聯通定製版支持聯通沃家固話,可以直接撥打電話,讓家庭成員聯繫更緊密。
  • 百度地圖宣布每日位置服務突破720億次
    中新網12月26日電 如果說2016年是人工智慧的爆發年,那麼即將到來的2017年則讓人們對人工智慧的應用充滿期待。12月23日,百度地圖在北京舉辦「智能出行新啟點」生態大會,展示了「下一代地圖」在虛擬實境化、智能化、共享化、全球化四大方面的變革與創新,勾勒出人工智慧時代地圖領域的發展新趨勢,推動人們出行方式的全面升級。
  • 專訪百度地圖李瑩 5G時代出行更智能
    作為新一代人工智慧地圖的領先者,百度地圖也參加這次關於未來5G產業的大會,百度地圖事業部總經理李瑩發表了題為《新一代人工智慧地圖:5G時代的領跑者》主題演講,李瑩表示,「進入5G時代,地圖產品會趨向更加精細化、真實化、智能化,5G與人工智慧已經呈現深度融合的態勢,未來必將讓智能出行擁有更大的想像空間」。
  • 百度地圖揭曉年度成績單 導航、智能首頁、熟路導航一圖搞定
    在2020這個特殊的一年,作為新一代人工智慧地圖,百度地圖不僅頂住了疫情「大考」,也在考驗中潛心修煉了自身技藝,打造車道級導航、智能首頁、熟路導航等智能化功能,以覆蓋全場景的精準出行服務化身「更懂用戶的出行助手」。(百度地圖生態全景2.0)對於地圖導航來說,精準是長期必修的「內功」。
  • 十一暢遊鎖定百度地圖!出行規劃「準」沒問題
    百度地圖守護你的十一出行,「準」沒問題。加之王剛、華少等眾多「聲音大咖」的真人講解語音包,AI導遊將帶領用戶趣味領略城市風貌。   在特色體驗方面,百度地圖煥新地點熱搜榜單,上線「本月出遊熱力榜」及「國慶吃喝玩樂專題榜」,同時豐富各類地點精選專題。無論是大眾喜愛的熱門景區還是頗具特色的小眾地點,盡在百度地圖榜單之內。
  • 百度地圖智能化蛻變:AI技術如何讓導航更加準確、易用?
    作為新一代人工智慧地圖,百度地圖在過去幾年裡持續引入語音、圖像、自然語言處理、深度學習等一系列 AI 技術,在產品體驗上不斷精進。隨著智能語音交互、車道級導航、智能停車等一系列創新功能的推出,百度地圖正在以「新一代人工智慧地圖」的技術實力,打磨出更智能、更便捷的功能服務。
  • 百度手機輸入法語音翻譯
    文章原標題:百度手機輸入法語音翻譯 開啟人工智慧新紀元  談及語音識別,其實早已不是什麼新鮮技術了。TTS(Text To Speech)技術發展了幾十年,各種科技公司都相繼推出了語音搜索和語音助手功能,語音輸入類產品也是層出不窮。
  • 沒有到不了的詩和遠方,只有還沒使用百度地圖的你
    是百度地圖!12月10日,2019百度地圖生態大會順利召開,發布"新一代人工智慧地圖"生態全景,宣布成為中國最大的智能化位置服務平臺,面向全球地圖開發者及合作夥伴開放八大應用能力及多樣化行業解決方案。其中,旅遊行業進展頗豐,無論是遍遊國內,還是走向國際,百度地圖都在用AI技術與創新應用帶領大眾走入智能旅遊新時代。
  • 百度地圖換新版 3D地圖還原真實世界讓出行更立體
    中新網6月9日電  繼五一前完成AI智慧升級之後,百度地圖再度升級,新推出的v_9.8.5版本中,3D地圖、智能語音、共享單車以及景點四大功能革新,在人工智慧賦能出行體驗方面更進一步。共享單車的接入,豐富用戶出行方式的同時也為相關領域開發者建立起更完善的紅利輸出平臺,百度地圖新版打造出更全、更聰明、更立體的出行生態。
  • 從2020百度地圖生態大會,看懂AI地圖技術演變的因果與新機
    早在幾年前,地圖產品就已經在萬物互聯、處處皆數據的大背景下,開始了技術導向的「無聲進化」,爭相點亮AI生產、時空大數據、語音交互、圖像識別等等「技能點」。在智能技術的加持下,各個地圖平臺之間也進一步拉開體驗差距。
  • 百度為無人駕駛汽車繪製高精度三維環境地圖
    百度透露正研發無人駕駛汽車 強調人車配合新浪科技訊 8月22日中午消息,據消息人士透露,百度近日召開了無人駕駛技術研討會,除了探討汽車傳感和控制系統的研發,百度正在進行數據採集工作,著手繪製國內高精度三維環境地圖。
  • 新基建浪潮下,百度將成為推動人工智慧落地重要力量
    來源:時刻頭條企業智慧財產權正在加速推動中國人工智慧新基建發展。近日,國家知識產權局智慧財產權發展研究中心發布了《新基建領域(人工智慧)智慧財產權發展狀況調查研究報告》(以下簡稱為報告),報告認為,以專利為核心的智慧財產權在人工智慧關鍵技術創新和產業應用中具有強烈的關聯性和控制力。以百度、華為等為代表的我國企業有效推動了人工智慧技術落地應用。
  • 百度地圖VS高德地圖,哪個才是國慶歸程不堵車的終極選擇?
    百度地圖就很好捕捉到了這一變化,搜索時直接將新地點替代舊地點。個人猜測,百度糯米外賣在地點更新上是起了很大作用的。  而高德地圖在更新方面始終要慢了半拍,原地點直接無法搜索,新地點也沒有加入到替代行列中去。