驅車穿行隧道時,車載導航突然從「志玲姐姐」變成生澀機器人?早高峰的地鐵上,新聞App「播報」著全球新聞資訊,卻因信號中斷突然消音?人人都是自媒體的時代,一部滿載創作欲的優秀作品,卻止步於沒有網絡進行語音合成?
追求卓越的出門問問技術團隊,絕不允許這種情況發生。
360天高效升級 離線版端到端MeetVoice問世
早在2019年8月,出門問問在業界率先推出CPU版本的端到端語音合成系統MeetVoice( (Mobvoi End-to-End TTS Voice)。
端到端語音合成系統MeetVoice
全 CPU 低時延端到端語音合成系統 MeetVoice ,實現了兩方面的新進展:一是上線了基於神經網絡的聲碼器;二是將Meet-Parameter以及Meet-Vocoder全部優化至可以在 CPU 上實時運行,並且達到和 GPU 一樣的性能和效果。
讓合成聲音以假亂真的MeetVoice,兼具「好聲音」、「快感知」、「低成本」的優勢。在正式推向市場後,出門問問將MeetVoice迅速落地應用到新浪新聞語音播報、大眾前裝車載語音助手等產品場景中,收到了眾多客戶及用戶的一致好評。
與此同時,在一年多的探索與實踐中,出門問問也深刻體會到在線語音合成方案的局限性,比如:
部分車型沒有聯網能力,需要提高離線語音合成的效果;
部分產品採用離在線語音合成混合的策略,兼採離線和在線合成的優勢,當網絡不好時,用戶易感知到離線和在線合成的效果差異較大;
在線合成時,偶爾網絡較差,從而播報的時延較大,用戶等待時間長。
部分B端客戶反饋認為,私有化部署比較麻煩,且對成本敏感;
要想儘可能解決這一系列的問題,除了將離線語音合成做到在線合成的效果外,似乎別無他法。但是,相比在線狀態,離線方案能夠提供的計算能力有著量級上的差別。
MeetVoice離線版真的有可能誕生嗎?
出門問問始技術團隊不斷攻堅克難,對神經網絡聲學模型和聲碼器進行了深度優化與迭代,於近期正式推出離線版本的MeetVoice,讓離線合成也能實現端到端引擎帶來的高質量合成效果。
從用戶需求出發 離線版端到端MeetVoice優勢顯著
在線版MeetVoice早已憑藉以下幾大優勢領跑行業:
好聲音
MeetVoice 實現了聲音還原度高,機械感小的語音合成,聲音質感得到顯著提升。簡單的來說,就是聲音聽起來更清脆、更像真人。MOS值達到4.4左右。
快感知
MeetVoice雖然在 CPU 上運行,但是做到了高並發低時延。系統實時率達到 10 倍以上(即 1 秒鐘就可以合成 10 秒以上的語音,在正常的語速下,1 秒可以合成接近 50 個字);端到端合成時延低於 200ms。
低成本
MeetVoice全部跑在 CPU 上,客戶不需要額外配置支持 GPU 的伺服器便可以部署該套系統,大大降低了使用成本。
而離線版的MeetVoice針對用戶需求,更具備顯著優勢:
持續發力語音合成 強勢賦能各行業
相比硬核提升技術實力之外,出門問問也通過一系列實際落地的語音產品,強勢賦能各行各業。
面對一些不具備聯網功能的車輛,離線版MeetVoice可以提供與在線版效果一致的車載導航功能,駕駛者在穿梭隧道等網絡環境不佳的情況下也不會受到導航音質的困擾。對於內容要求更加嚴格的媒體行業,得益於離線版MeetVoice,用戶在沒有網絡的情況下仍舊可以享受AI語音播報功能,第一時間「收聽」全球新聞資訊的煥新體驗。
不僅如此,在離線版MeetVoice的加持下,沒有網絡連接的機器人也能發出優質鮮活的聲音。除了車載導航、新聞播報、高端智能硬體領域之外,出門問問同樣能夠應用全新技術為圖書館、微信讀書等場景增加想像空間。
在過去的一年時間裡,出門問問基於領先的MeetVoice,在語音合成方面持續發力,陸續推出多個熱門產品:
魔音工坊
魔音工坊是AI音頻內容生成的一站式解決方案,獨創性設計多項產品交互,用於解決AI配音中遇到的各種瑕疵問題,比如發音預測不對、斷句不正常等。目前為止,已經有眾多新聞媒體、短視頻創作者、喜馬拉雅平臺主播等使用魔音工坊進行配音。
虛擬主播
以上產品或許僅僅是「聲音的遊戲」,缺少一個看得到摸得著的人物形象。
為此,出門問問近期推出「魔影主播」產品,並聯合中央級黨政媒體光明日報全新定製虛擬主播「小明」。以真人形象風格,通過魔影主播方案,媒體僅需少量數據,就能做到真實生動的效果。
在2020年服貿會期間,主播小明首次登臺亮相,受到了參會觀眾及媒體用戶的高度認可,未來也將在光明日報的欄目中全面落地。
魔音號小程序
為給公眾號進行聲音賦能,出門問問開發了一套小程序。公眾號作者通過註冊小程序,即可結合魔音工坊,將所有的公眾號文章都轉換成音頻形式。魔音工坊製作完音頻後,更支持一鍵發布到小程序上。小程序不僅可以單獨分發,還可以將小程序卡片插入到公眾號中,讓訂閱號讀者多了一種「收聽」文章的閱讀方式,從而讓閱讀場景擴展到廚房做飯、看小孩、開車等適合聽讀的場景中。
聲音復刻
大量用戶通過使用小問秘書(出門問問推出的一款智能代接電話的AI助手),用自己的聲音幫自己處理各種來電。
用戶在手機等常用設備上,通過錄製20句話,等待大概20分鐘,即可克隆完成自己聲音。
此外,出門問問還推出了300-500句話的TTS定製方案。只要用半天時間在專業錄音棚錄製幾百句話,即可完成效果匹敵精品發音人的聲音模型定製。
目前出門問問已經為光明日報主播、甲子光年張一甲、艾問人物艾誠、深圳灣炫姐姐等知名KOL完成聲音定製。
歌唱合成
為了讓更多用戶享受到「玩音樂」的樂趣,出門問問語音團隊開發了一套全新的歌唱合成方案,並上線到「AI魔音」小程序中。
用戶動動嘴,念念歌詞,AI就可以自動幫你合成音樂。除了給五音不全者帶來福音外,擅長唱歌的用戶,也可以藉助「AI魔音」,對歌曲進行歌詞改編,盡享音樂樂趣。
音樂魔力,AI助力,有了「AI魔音」後,你會說話,就會唱歌。