實測小度語音定製後,對語音助手從工具向人格化方向進化的思考

2021-01-08 騰訊網

前幾天,我收到了一條小度上線語音定製新功能的推送。

定製化語音是一個非常值得關注的新方向。雖然用機器合成音朗讀文本並不陌生,但是用定製化的合成音朗讀一篇童話故事,這個功能還是吸引了宅在家裡的我和我的家人。

通過小度 APP,找到「設備超能力」的「爸媽講故事」,有一個一分鐘的介紹視頻。在頁面底端點擊「一鍵錄製專屬語音」,按照提示,即可錄製自己或家人的語音包。

△ 在小度 APP 中的「設備超能力」裡,找到「爸媽講故事」,就可以啟用定製化語音功能

在安靜的環境,我用了不到 3 分鐘的時間,跟讀和錄製 20 條音頻內容。語音訓練的內容是兩則童話,錄製完成後,系統會對每一條語音進行自動的檢測和判斷,直到全部完成後提交。

語音包生成後,大概需要一個小時左右的製作時間,完成後系統自動將語音包直接推送到小度在家智能屏或小度智能音箱上。這時,再喚醒小度,點播「爸媽講故事」,小度就可以用我的合成音給宅在家裡的孩子們講故事了。

△ 小度定製化語音功能的體驗

定製化語音功能的體驗,不僅要看製作流程,還要聽聲音的溫度

定製化語音這個概念對於普通用戶來說,還是一個專業詞彙,其背後的技術可能未必能看得透徹。用戶更多關注的是,要用 AI 合成的自己的聲音給孩子講故事,製作流程是否便捷,合成的聲音聽起來是否舒服。

我們先看製作的流程。小度的定製合成音可以在任何一部安裝了小度 APP 的手機上完成。

但目前小度的定製合成音只應用在了「聽爸媽講故事」這一個技能上,且 APP 上的入口很深(小度還沒有在首頁做推薦)。當然,如果直接用語音搜索,系統則會快速跳轉調用「聽爸媽講故事」這個技能。

錄製的內容選用的兩則童話——與「聽爸媽講故事」裡的童話故事樣本屬於一個領域,且機器的領讀兼顧了情感的加入,也會讓我和我的家人在錄製時,不由自主的用「情」,聲音也更有感情色彩。

△ 語音樣本的取材和領讀者的聲音語調,甚至交互流程的設計,對於跟讀者都會有影響

錄製完成後,聲音會自動上傳雲端,然後再將合成音同步到內置小度語音助手的智能屏或智能音箱,就可以點播預先設定好的語音包,讓個性化的聲音講故事了。

接著我們來聽一下合成後的效果。仔細對比後(鑑於像我這樣的普通用戶,並不是語音合成的專業人士,所以「仔細對比」主要是建立在感官上的對比,而非專業參數),我發現小度的合成效果在音色、語速、語氣、停頓、相似度等方面,都略勝一籌。

為了彌補合成音不可避免的出現的一些錯音,系統還自動添加了音樂作為背景。有了音樂的烘託,即便是用機器合成音朗讀的童話故事,聽起來也會更加舒適、自然。

從某種程度上說,小度的定製化語音更像是「聽爸媽講故事」這個語音技能的一個綁定功能。但也恰恰是因為從設備端出發、從場景出發、從用戶體驗的細節出發,才會讓小度的定製化語音功能,成為用戶真正喜歡用的技能。

值得一提的是,起初我以為小度上線的可閱讀的童話故事只有固定的《皇帝的新裝》等 10 篇,但隨著我錄製的個性化語音包數量增加,可朗讀的童話數量也隨之增加。我聽「孩子」講故事,孩子聽「外婆」講故事,一家人玩的倒也是愜意。

△ 聽爸媽講故事中的故事庫,每一個聲音所讀的故事內容會有所不同

縱觀行業,定製化語音的發展路徑各有差異

語音合成技術由來已久,即便是在大眾市場,用林志玲、郭德綱等娛樂明星合成的語音導航,早已成為老百姓們開車時的最愛。

而定製化語音業已行業關注的新方向,並且已經有很多公司致力於相關技術和產品的研發。

去年,百度地圖曾上線定製語音導航的功能,同樣是採用了 APP 跟讀和錄製的模式,但閱讀內容是 20 句看似並沒有什麼共性的隨機生成的句子(這一點和小度在家跟讀童話有一些不一樣)。

在「語音廣場」的語音包列表裡,還能找到到百度地圖為藝人們錄製好的語音包,華晨宇、包貝爾一應俱全。一天換一個,開車不孤單。

今年 2 月,在小米 10 的新品發布會上,小米也公布了小愛同學定製聲音、定製喚醒詞的功能。

錄製的流程是類似的。不同的是,目前小愛同學的定製化語音僅向小米 10 系的手機開放。並且,從官方分享的視頻來看,其應用主要是在一問一答的語音搜索。

△ 小愛同學定製聲音的官方演示

Google 的 TTS 最近也有了更新。在已獲得 GMS(Google 移動服務)許可的 Android 設備上,通過 Chrome 瀏覽器打開任一網頁,說「Hey Google,Read It」,就可以語音調用 Google Assistant 直接用本國語言讀網頁了。

出於長文本閱讀的難度,Google 還沒有在「定製化」文本閱讀的方向上向前再邁一步。但Google 此次在 Android 設備上推出可以直接閱讀網頁的語音助手,也透露著人們希望通過「聆聽」獲取信息的需求在與日俱增。

△ Google Read It 體驗 | 圖源:Droid Life

一般來說,專業的聲音合成需要專業人士指導,在錄音棚錄製 500 甚至上萬句語料素材,錄製的過程少則 4~6 小時,多達數日。有些廠商因此也採用了多層級定製的個性化 TTS。而判斷 TTS 效果好壞的標準,則主要看性價比,即投入的成本越高(文本採樣的數量、後期合成投入的人力等),合成音的效果也就越好。

此外,語音定製功能,考驗的是前端語音規格系統和後端合成拼接系統(時長模型、聲學模型、聲碼器等)的成熟度。這需要很多年的積累,不僅是技術的積累,還有經驗和語音素材的積累。

而從行業廠商一系列動作來看,語音定製功能背後,不僅體現了軟硬體廠商技術實力的較量和比拼,更是 AI 技術和產品體驗設計方面的底蘊。

△ 電影《Her》中,男主與溫柔性感的薩曼薩的 AI 合成音對話。

定製化語音是語音交互體驗的一次升級,但更人性化的語音才是未來

回顧過去幾年,語音交互技術從以亞馬遜 Echo 為代表的智能設備誕生以來,就在不斷的演進。

最初,語音助手需要具備「你問我答」的基本功能。在 2015 年到 2018 年的幾年間,幾乎所有的支持語音助手的智能設備,都具備了這一功能。

儘管已經體現了人機互動中,設備「智能」的一面,但絕大部分的設備,僅能夠提供基礎的信息查詢服務。

△ 亞馬遜在去年也推出了 Alexa Conversations,將對話式技能開發工具升級

當時在 AI 領域領先的百度,也在小度音箱大賣後,很快意識到,這種單向的交流是遠遠不夠的。重複喚醒、對話中斷,使得很多智能設備成為聽不懂、答不上的「智障」。

在 2018 年末的百度世界大會上,李彥宏首次通過小度在家演示了一次喚醒多次交互的 AI 對話。之後,小度不斷的升級全雙工免喚醒能力,不僅實現了與小度對話的對答如流,聊天也越來越人性化。

△ 李彥宏在百度世界大會 2018 上演示 Endless Conversation。

與一些產品公司不斷的升級硬體設備的做法不同,小度在這兩年的硬體迭代並沒有那麼頻繁,但小度在產品人性化方面卻在持續補強,才會讓人們真正喜歡。

百度曾在 2019 年 Q4 財報中公布了小度品牌第一方硬體語音月交互次數,23 億交互量是去年同期的 7 倍多。看到這個數字,我腦海裡浮現了一組畫面:

△ 小度在家智能屏 X8

老爸每天早起都會收到小度播報的疫情新聞、老媽邊擀著餃子皮邊追著她喜歡的電視劇、小朋友還會偷懶讓小度幫忙做計算題、或是一家人一起玩成語接龍......每當看到這樣的場景,就會感慨,這數十億次的交互背後,不僅是語音技術的不斷優化升級,也是對更自然、流暢的語音體驗的打磨

最新發布的小度在家智能屏 X8,融合了人臉識別、手勢控制、眼神喚醒等更多的人性化交互方式;通過童臉識別即可快速進入兒童模式,進而直達豐富的兒童教育娛樂內容;通過手勢「OK」就可以直接操控界面。同時在人機對話方面,系統通過 AI 模型演進和自學習 AI 系統進行自動學習,從而更好的理解和滿足用戶的需求。

△ 小度在家智能屏 X8 手勢識別功能體驗

這些是小度在「千人千面」個性化、定製化大趨勢下的思考與實踐,不僅有技術實力的支撐,更有溫度和態度的注入。

而在可預見的未來,用與真人相似度極高的聲音讀童話、讀新聞、讀郵件、甚至交流,都將變得更加自然,畢竟,更加人性化、有溫度的 AI,才會更加受用戶青睞。

微信號:shenzhenware

主筆、編輯:陳壹零 / 深圳灣

相關焦點

  • 鎂佳科技CEO莊莉:從語音助手到全場景語音引擎
    非常高興在億歐世界創新年會與大家分享我們在「軟體定義汽車」時代下,在車載語音方面的實踐。車載語音是在「軟體定義汽車」時代非常重要的交互手段。首先我們可以去回想過去幾年在車內經常用到的語音助手。語音助手通常從集成包來講,其調試非常的不方便,因為集成的東西比較多,所以更新迭代的過程很複雜,為一輛車做個性化語音定製非常困難。
  • 百度語音助手小度在家1S發布,目前唯一在售帶屏幕語音助手
    可以說小米的語音助手確實不錯,但是今天帶大家來了解一下另外一個語音助手,方便家庭使用的語音助手,小度在家。日前百度發布了新的硬體產品小度在家1S,這款搭載屏幕顯示的智能語音助手在新年春晚上和大家見面了,目前正式開啟發售。
  • 一個平臺 兩大商業模式 小度助手5.0帶領合作夥伴「掘金」智能語音...
    全新發布的小度助手5.0在功能和工具方面具有突破性發展,包括全雙工免喚醒、家庭信息流、行業領先的生活習慣和家庭通訊與通知等核心能力。同時,小度上線了技能開放平臺5.0,發布「小度VIP會員」和「品牌技能」兩大商業模式,讓更多合作夥伴享受到技術紅利、流量增長帶來的商業機遇,賦予開發者更多的想像空間。
  • 小度助手智能語音體驗:更懂國人心
    不到半年, HTC發布升級新品HTC U11+,手機上的語音助手「小度助手」同樣由DuerOS賦能。同時,DuerOS也實現了對智能設備的全新升級,在原有的按壓手機雙側邊喚醒的基礎上,此次升級版產品新增「語音喚醒」功能,只需說出「小度小度」即可喚醒小度助手,超高靈敏度大幅提升了用戶體驗。
  • 億格瑞電腦版語音助手實測,告別打字的智能小工具!
    前段時間收到了一款語音助手的小玩意兒,但鑑於最近春和景明,天朗氣清,惠風和暢……簡單來說,就是沉迷於好天氣無暇顧及其他。今天終於開箱!哦不!是開盒啦!  盒子上寫的是智能語音助手C1,包裝沒有什麼特別的!打開盒子,裡面是一個和普通U盤造型別無二致的小東西,上面有億格瑞的LOGO和標識,還包括一張簡單的使用說明書。總的來說,外觀很普通,但勝在造型小巧,方便攜帶。
  • 聊一聊語音交互以及語音助手
    我最早感受到語音交互的魅力是在16年,當時在做全屋智能的產品經理,公司調研產品買了一臺亞馬遜的echo,第一次體驗到遠場的語音交互,很驚豔,遠場語音交互技術給了居家場景太多的想像空間。後來國內陸續出了小愛同學、天貓精靈、小度音箱… 我基本都是第一時間買回了家。
  • 語音轉文字最新實測:幾種語音轉文字方法,哪種更好用呢
    語音轉文字最新實測:幾種語音轉文字方法,哪種更好用呢語音轉文字該怎麼操作?哪一種語音轉文字方法更好用?這肯定是大多數人對於音頻轉換文字的疑問所在,那麼下面我們就來實測幾種常見的語音轉文字方法,帶大家一起看看哪種方法更好用。
  • HYCAN合創推出了語音助手小CAN,太可愛了好想要一個!
    自從2011年Siri語音助手首次出現在蘋果iPhone 4s上以來,這種技術已經從一種噱頭大於實用的創新,變成了智能音箱的基礎技術。2014年,全球的智能語音市場規模為47.9億美元,4年後的2018年,智能語音的市場規模就已經達到了141.1億美元,實現了近3倍的增長。
  • 能寫詩,會猜拳,還可定製服務:騰訊系語音助手小微來晚了嗎
    微軟有小冰,蘋果有Siri,亞馬遜有Alexa,百度有小度,現在騰訊微信也有了人工智慧對話系統「騰訊小微」。近日,騰訊微信高級總監周杰接受了包括澎湃新聞記者在內的小範圍媒體採訪。周杰所在的「微信智言」團隊專注於智能對話和自然語言處理等技術的研究與應用,其推出的「微信對話開放平臺」和智能對話系統「騰訊小微」,被視作騰訊爭奪「語音入口」的戰略性產品。
  • 賦能全新車載生態,百度Apollo生態大會發布小度助手
    在體驗方面,小度助手具備新交互、新智能、新場景和新商業四大亮點。同時,小度助手的業務賦能持續升級,打造「會呼吸、有⽣命、可進化」的車載體驗成為百度Apollo和車企夥伴們的共同目標。在能力方面,小度助手搭建了車載個⼈智能助手、全新Feed流式交互框架、全雙⼯多模融合交互、Smlta離在線語⾳模型等多種交互方式,讓用戶得以更好地表達需求;在智能上,小度助手新增TOP1問答、歸宗推薦引擎和情感引擎,為用戶提供更多智能選擇。小度助手還創造了多個車內新場景,如隨車輕體檢、圈子社交、基於LBS的直播等,完美適配車主的個人興趣和用車習慣。
  • 小度智能真無線耳機,你的智能語音助手
    之前我推薦過挺多款無線耳機的,今天再來分享一款,來自百度的無線耳機:小度真無線耳機。除了具備普通的藍牙耳機功能外,還具備挺多智能功能的,其中一個我就很喜歡了,那就是實現同聲傳譯功能,非常實用的設備。感興趣的朋友一起來了解下哦。先來大概了解下整體功能,一個是有28小時的超長續航時間,搭配超愛動圈,以及藍牙5.0,帶來雙麥通話降噪功能,以及小度語音助手,和智能同傳。
  • 讓人愛不釋手的小工具,億格瑞「八哥」智能語音助手親測!
    作為一個小編,天天打字寫稿是必然的,幾年下來,精神氣都給我打沒了,現在寫一上午的稿子,下午就開始腦子發悶、雙手發軟,打字速度明顯放緩,但是沒有辦法,還是要繼續的,有時想著能靠意念或者說話就把稿子寫了多好。億格瑞應該是感受到了我的心聲,帶來了一款支持語音轉文字輸入的小玩意—「八哥」智能語音助手,作為一個主營4K藍光播放機的品牌,帶來的這個小玩意能有什麼用呢?
  • 賦能全新車載生態百度Apollo生態大會發布小度助手
    在體驗方面,小度助手具備新交互、新智能、新場景和新商業四大亮點。同時,小度助手的業務賦能持續升級,打造「會呼吸、有命、可進化」的車載體驗成為百度Apollo和車企夥伴們的共同目標。在能力方面,小度助手搭建了車載個智能助手、全新Feed流式交互框架、全雙多模融合交互、Smlta離在線語模型等多種交互方式,讓用戶得以更好地表達需求;在智能上,小度助手新增TOP1問答、歸宗推薦引擎和情感引擎,為用戶提供更多智能選擇。小度助手還創造了多個車內新場景,如隨車輕體檢、圈子社交、基於LBS的直播等,完美適配車主的個人興趣和用車習慣。
  • 小娜走了,微軟小冰又來了,語音助手到底有沒有用
    ,後發的谷歌語音助手Google Assistant的技術卻超過Cortana不是因為谷歌技術更強大,而是因為谷歌更早重視起了硬體生態。這種助理向的語音助手在未來商業辦公的確能起到提升生產力的作用,搜索功能就是此前PC端用戶使用Cortana最常用的場景。 像我們平時直接在Win10菜單裡面進行搜索其實也可以通過Cortana搜索框提取存儲在Outlook電郵、通訊錄、日曆應用、網絡中的數據。
  • OPPO語音助手爸爸是百度工程師?網友測試:喊小度她也會答應
    OPPO語音助手爸爸是百度工程師?網友測試:喊小度她也會答應伴隨著OPPO Find X手機的發布,再次奠定了OPPO手機在國產手機中的地位,人們開始把,黑科技這個標籤加到OPPO手機身上。毫無疑問,OPPO Find X確實非常驚豔,但是我們這次不談手機本身了,說個有意思的事情,OPPO Find X的語音助手,小歐。最近有想法奇特,見解新奇的網友在測試,OPPO手機語音助手小歐的時候意外發現了她的身世之謎。網友喊她小度,竟然也會答應如下圖所示,就是微博上的一名網友測試OPPO手機語音助手的時候的信息截圖。
  • 小度智能音箱23億語音交互背後的價值演變
    其實早在2018年第三季度財報時,百度就曾對外公開DuerOS(小度助手)的相關數據,不過彼時的數據主體還是DuerOS生態,TCL、vivo、索尼等合作夥伴的設備佔了不小的比重。此時再看2019年12月的最新數據,小度語音助手的交互次數已經超過50億次,比去年同期增長了3倍多。
  • 不僅僅是搜索 語音助手生活化功能解讀
    1國產語音助手的自身特色    不知道說到語音助手大家都會有怎樣的印象。語音助手這東西最初讓我們留下深刻印象還要數蘋果推出的Siri,這個能跟你說話互動的iOS新特性在當時確實讓不少Android平臺的用戶頗感羨慕。
  • 百度智能語音助手小度推出長輩模式 後續將全面上線
    首頁 > 見聞 > 關鍵詞 > 百度最新資訊 > 正文 百度智能語音助手小度推出長輩模式 後續將全面上線
  • 原來升級EMUI10後,華為手機語音助手這麼智能,別再瞧不起小藝了
    語音助手是手機內置的一個人工智慧系統,它能夠幫助我們快捷的操控手機,而我們熟知的華為手機也有語音助手,但是很多朋友都覺得小藝不夠智能,不過在升級到EMUI10後,小藝再次進化,變得非常機靈了!下面我們就來一起看看小藝有多智能吧!
  • 小度/Siri/Bixby 誰家的語音助手起名字最走心
    中文是全球使用人數最多的語種,因此中文語音助手市場的角逐甚至更加激烈,從火爆的智能音箱市場,到以攻佔家庭AIoT未來為任的智能電視市場,語音助手們三五成群粉墨登場。部分品牌語音助手名字和激活口令除了上面表格中出現的品牌之外,還有大量的未做標記的品牌和其語音助手產品。