前幾天,我收到了一條小度上線語音定製新功能的推送。
定製化語音是一個非常值得關注的新方向。雖然用機器合成音朗讀文本並不陌生,但是用定製化的合成音朗讀一篇童話故事,這個功能還是吸引了宅在家裡的我和我的家人。
通過小度 APP,找到「設備超能力」的「爸媽講故事」,有一個一分鐘的介紹視頻。在頁面底端點擊「一鍵錄製專屬語音」,按照提示,即可錄製自己或家人的語音包。
△ 在小度 APP 中的「設備超能力」裡,找到「爸媽講故事」,就可以啟用定製化語音功能
在安靜的環境,我用了不到 3 分鐘的時間,跟讀和錄製 20 條音頻內容。語音訓練的內容是兩則童話,錄製完成後,系統會對每一條語音進行自動的檢測和判斷,直到全部完成後提交。
語音包生成後,大概需要一個小時左右的製作時間,完成後系統自動將語音包直接推送到小度在家智能屏或小度智能音箱上。這時,再喚醒小度,點播「爸媽講故事」,小度就可以用我的合成音給宅在家裡的孩子們講故事了。
△ 小度定製化語音功能的體驗
定製化語音功能的體驗,不僅要看製作流程,還要聽聲音的溫度
定製化語音這個概念對於普通用戶來說,還是一個專業詞彙,其背後的技術可能未必能看得透徹。用戶更多關注的是,要用 AI 合成的自己的聲音給孩子講故事,製作流程是否便捷,合成的聲音聽起來是否舒服。
我們先看製作的流程。小度的定製合成音可以在任何一部安裝了小度 APP 的手機上完成。
但目前小度的定製合成音只應用在了「聽爸媽講故事」這一個技能上,且 APP 上的入口很深(小度還沒有在首頁做推薦)。當然,如果直接用語音搜索,系統則會快速跳轉調用「聽爸媽講故事」這個技能。
錄製的內容選用的兩則童話——與「聽爸媽講故事」裡的童話故事樣本屬於一個領域,且機器的領讀兼顧了情感的加入,也會讓我和我的家人在錄製時,不由自主的用「情」,聲音也更有感情色彩。
△ 語音樣本的取材和領讀者的聲音語調,甚至交互流程的設計,對於跟讀者都會有影響
錄製完成後,聲音會自動上傳雲端,然後再將合成音同步到內置小度語音助手的智能屏或智能音箱,就可以點播預先設定好的語音包,讓個性化的聲音講故事了。
接著我們來聽一下合成後的效果。仔細對比後(鑑於像我這樣的普通用戶,並不是語音合成的專業人士,所以「仔細對比」主要是建立在感官上的對比,而非專業參數),我發現小度的合成效果在音色、語速、語氣、停頓、相似度等方面,都略勝一籌。
為了彌補合成音不可避免的出現的一些錯音,系統還自動添加了音樂作為背景。有了音樂的烘託,即便是用機器合成音朗讀的童話故事,聽起來也會更加舒適、自然。
從某種程度上說,小度的定製化語音更像是「聽爸媽講故事」這個語音技能的一個綁定功能。但也恰恰是因為從設備端出發、從場景出發、從用戶體驗的細節出發,才會讓小度的定製化語音功能,成為用戶真正喜歡用的技能。
值得一提的是,起初我以為小度上線的可閱讀的童話故事只有固定的《皇帝的新裝》等 10 篇,但隨著我錄製的個性化語音包數量增加,可朗讀的童話數量也隨之增加。我聽「孩子」講故事,孩子聽「外婆」講故事,一家人玩的倒也是愜意。
△ 聽爸媽講故事中的故事庫,每一個聲音所讀的故事內容會有所不同
縱觀行業,定製化語音的發展路徑各有差異
語音合成技術由來已久,即便是在大眾市場,用林志玲、郭德綱等娛樂明星合成的語音導航,早已成為老百姓們開車時的最愛。
而定製化語音業已行業關注的新方向,並且已經有很多公司致力於相關技術和產品的研發。
去年,百度地圖曾上線定製語音導航的功能,同樣是採用了 APP 跟讀和錄製的模式,但閱讀內容是 20 句看似並沒有什麼共性的隨機生成的句子(這一點和小度在家跟讀童話有一些不一樣)。
在「語音廣場」的語音包列表裡,還能找到到百度地圖為藝人們錄製好的語音包,華晨宇、包貝爾一應俱全。一天換一個,開車不孤單。
今年 2 月,在小米 10 的新品發布會上,小米也公布了小愛同學定製聲音、定製喚醒詞的功能。
錄製的流程是類似的。不同的是,目前小愛同學的定製化語音僅向小米 10 系的手機開放。並且,從官方分享的視頻來看,其應用主要是在一問一答的語音搜索。
△ 小愛同學定製聲音的官方演示
Google 的 TTS 最近也有了更新。在已獲得 GMS(Google 移動服務)許可的 Android 設備上,通過 Chrome 瀏覽器打開任一網頁,說「Hey Google,Read It」,就可以語音調用 Google Assistant 直接用本國語言讀網頁了。
出於長文本閱讀的難度,Google 還沒有在「定製化」文本閱讀的方向上向前再邁一步。但Google 此次在 Android 設備上推出可以直接閱讀網頁的語音助手,也透露著人們希望通過「聆聽」獲取信息的需求在與日俱增。
△ Google Read It 體驗 | 圖源:Droid Life
一般來說,專業的聲音合成需要專業人士指導,在錄音棚錄製 500 甚至上萬句語料素材,錄製的過程少則 4~6 小時,多達數日。有些廠商因此也採用了多層級定製的個性化 TTS。而判斷 TTS 效果好壞的標準,則主要看性價比,即投入的成本越高(文本採樣的數量、後期合成投入的人力等),合成音的效果也就越好。
此外,語音定製功能,考驗的是前端語音規格系統和後端合成拼接系統(時長模型、聲學模型、聲碼器等)的成熟度。這需要很多年的積累,不僅是技術的積累,還有經驗和語音素材的積累。
而從行業廠商一系列動作來看,語音定製功能背後,不僅體現了軟硬體廠商技術實力的較量和比拼,更是 AI 技術和產品體驗設計方面的底蘊。
△ 電影《Her》中,男主與溫柔性感的薩曼薩的 AI 合成音對話。
定製化語音是語音交互體驗的一次升級,但更人性化的語音才是未來
回顧過去幾年,語音交互技術從以亞馬遜 Echo 為代表的智能設備誕生以來,就在不斷的演進。
最初,語音助手需要具備「你問我答」的基本功能。在 2015 年到 2018 年的幾年間,幾乎所有的支持語音助手的智能設備,都具備了這一功能。
儘管已經體現了人機互動中,設備「智能」的一面,但絕大部分的設備,僅能夠提供基礎的信息查詢服務。
△ 亞馬遜在去年也推出了 Alexa Conversations,將對話式技能開發工具升級
當時在 AI 領域領先的百度,也在小度音箱大賣後,很快意識到,這種單向的交流是遠遠不夠的。重複喚醒、對話中斷,使得很多智能設備成為聽不懂、答不上的「智障」。
在 2018 年末的百度世界大會上,李彥宏首次通過小度在家演示了一次喚醒多次交互的 AI 對話。之後,小度不斷的升級全雙工免喚醒能力,不僅實現了與小度對話的對答如流,聊天也越來越人性化。
△ 李彥宏在百度世界大會 2018 上演示 Endless Conversation。
與一些產品公司不斷的升級硬體設備的做法不同,小度在這兩年的硬體迭代並沒有那麼頻繁,但小度在產品人性化方面卻在持續補強,才會讓人們真正喜歡。
百度曾在 2019 年 Q4 財報中公布了小度品牌第一方硬體語音月交互次數,23 億交互量是去年同期的 7 倍多。看到這個數字,我腦海裡浮現了一組畫面:
△ 小度在家智能屏 X8
老爸每天早起都會收到小度播報的疫情新聞、老媽邊擀著餃子皮邊追著她喜歡的電視劇、小朋友還會偷懶讓小度幫忙做計算題、或是一家人一起玩成語接龍......每當看到這樣的場景,就會感慨,這數十億次的交互背後,不僅是語音技術的不斷優化升級,也是對更自然、流暢的語音體驗的打磨。
最新發布的小度在家智能屏 X8,融合了人臉識別、手勢控制、眼神喚醒等更多的人性化交互方式;通過童臉識別即可快速進入兒童模式,進而直達豐富的兒童教育娛樂內容;通過手勢「OK」就可以直接操控界面。同時在人機對話方面,系統通過 AI 模型演進和自學習 AI 系統進行自動學習,從而更好的理解和滿足用戶的需求。
△ 小度在家智能屏 X8 手勢識別功能體驗
這些是小度在「千人千面」個性化、定製化大趨勢下的思考與實踐,不僅有技術實力的支撐,更有溫度和態度的注入。
而在可預見的未來,用與真人相似度極高的聲音讀童話、讀新聞、讀郵件、甚至交流,都將變得更加自然,畢竟,更加人性化、有溫度的 AI,才會更加受用戶青睞。
微信號:shenzhenware
主筆、編輯:陳壹零 / 深圳灣