魚羊 發自 凹非寺量子位 報導 | 公眾號 QbitAI
日常想給家裡的蠢貓拍個視頻配個音,需要幾步?
不不不,現在有了AI的加持,只需打開App,輸入文本,秒秒鐘就能搞定。
不只是四川話配音,東北老妹音也可以整起來:
△快手@大天666
再也不怕隔壁工位東北小哥嘲笑我的臺灣腔東北話了。
甚至,日常做飯小視頻,也可以配出高級感:
△快手@xcpangdahai
是不是有點《舌尖上的中國》內味了?
實現如此功能的,就是快手快影最新上線的AI黑科技——智能配音。
輸入文字,AI配音
所謂智能配音,就是用戶只需輸入文字,軟體就能自動將之轉化為高質量的視頻配音。
使用方法非常簡單。
首先,打開快影,導入視頻素材。
「智能配音」的入口,就在App底部功能區的「音效」中。
點擊「智能配音」,在彈出的輸入框中輸入想要配音的文字。
然後,選定一個「發音人」,也就是想要的音色、口音,再點擊生成配音。
配音音頻就秒速生成了。
另外,通過「字幕」→「加字幕」,完成字幕輸入後,同樣會出現「智能配音」的入口。操作相當方便。
目前,智能配音功能中一共有9位「發音人」可以pick。
標準播音腔,由「小姐姐」、「小哥哥」兩位播音員提供。
在方言區,除了前文提及的「川妹子」和「東北老妹」,還有一位說粵語的「廣東靚妹」24小時在線配音。
想要可愛卡通音,可以選擇「小豬佩奇」、「蠟筆小新」。
而「舌尖同款」則提供了一個更加貼近真實的音色,紀錄片範兒十足。
此前在快手直播間裡出現過的小快機器人的音色,也被移植了過來。如果你是一位快手用戶,選擇「童真」,熟悉的聲音就能出現在你的個人創作中啦。
技術不夠,AI來湊。這下,給記錄生活的小視頻增色,就不用擔心自己的聲音不好聽、剪輯水平不過硬了。
但別看此功能人人都能輕鬆上手,背後的技術挑戰卻也著實不小。
關鍵技術解析
文字轉語音,其實並不是什麼新鮮事。
不過,在此之前,此類語音合成技術主要面向B端用戶,應用場景主要是資訊播報、訂單播報、朗讀聽書等。
而對於C端用戶,特別是有視頻配音需求的用戶而言,AI配音只有更生動、更自然、更具韻律,才能真正滿足他們的需求。
另外,面向B端的產品,可以對文本的規律、意義進行限定。面向C端用戶時,則無法預測用戶的輸入情況。
這就給快影這類剪輯軟體的智能配音功能提出了更高的技術要求:
高表現力,要讓用戶覺得合成的語音接近自然語音,不做作;高音質,要求輸出的語音乾淨清晰,能最大程度還原配音角色的音色;極低響應時間,為了優化用戶的使用體驗,合成引擎的首字響應時間要求低於100ms。為此,快影的智能語音配音採用了端到端的深度神經網絡語音參數生成算法。
端到端深度神經網絡語音參數生成算法
傳統的參數語音合成算法存在一個問題,那就是很難保留配音音色的說話風格特點,造成配音比較呆板、風格趨同。
而端到端的深度神經網絡語音參數生成算法,可以讓生成的語音參數連續性和穩定性得到較大幅度的提升,體現在聽感上會使得語音更加真實和自然。
同時,為了能夠最大限度保留配音角色的說話韻律風格,在生成算法中還加入了風格控制自回歸編碼網絡,使得每一個配音音色的說話韻律特點都能體現出來。
高表現力深度網絡聲碼器
另外,為了能最大程度還原智能配音角色的聲音特點,快影智能配音還採用了基於深度神經網絡的聲碼器進行語音生成。
在語音合成技術方面,業界常用的採樣率是16kHz。
但對於兒童音色、卡通音色這樣基頻比較高的音色而言,這一採樣率會對其明亮清澈的特點造成較大的損失。
快手的工程師因此選擇了24kHz採樣率。
不過,由於模型需要建模更多採樣點之間的依賴關係,以及更多的高頻信息,這時如果繼續照搬16kHz採樣率的技術方案,不僅合成速度慢,而且合成音頻還會出現「毛刺」噪音。
為此快手的工程師對神經網絡聲碼器進行了深度優化:
採用多子帶並行建模預測方法。首先將音頻分割為多個sub-band音頻,然後在建模過程中針對每個子帶選擇不同的訓練方式和採樣參數,並且降低模型輸出混合分布數量。
實驗證明這樣做可以有效地提升聲碼器的合成效率,並保證合成效果穩定。
增強輸入輸出特徵的信息描述能力。將輸入的聲學特徵維度升至更高的維度,便於更為細緻描述頻譜細節。同時,將聲碼器的輸出精度採用10bit muLaw壓縮,用於提升採樣精度。
實驗證明,該方法能夠讓合成的音頻聽感更加真實和飽滿。
如此一來,快影智能配音就在將合成速度提高2.5倍的同時,還能提升生成語音的真實感和飽滿度。
此外,工程師們還針對用戶等待時間進行了優化,每100字合成只需10s。並且對於用戶輸入的超長句,採取分段處理的方法,以優化用戶等候處理時的產品體驗。
「從創作者的需求出發」
為什麼會在產品中上線這樣的多音色智能配音功能?
其實,對於快手的工程師們來說,就是從快手用戶的實際需求出發:
有些快手的創作者覺得自己的視頻不夠好玩,或是自己的聲音不夠好聽,但又希望通過配音的方式去創作。所以我們希望製作一款操作更便捷,並且聽感上更有趣、更豐富的配音功能,來幫助用戶製作更有趣的音視頻。
此前,快手在語音合成技術方面的積累,已經在直播間語音機器人上有所體現。
不過,對於智能配音技術團隊而言,這一次的任務依然充滿挑戰。
首先,是時間緊,任務重。
「智能配音」這項功能基本是在1個月內完成開發集成,並在2個月內實現全量上線的。
雖然此前已經有面向B端的語音合成技術的積累,但在將其運用到C端上時,由於「使用場景」和「技術要求」均不同,技術團隊還是需要作出很多細節上的調整。
這個4人組成的團隊需要進行高強度實驗,把數據分為不同的組合,再對每個組合進行測試,對特徵進行重組。每個實驗都存在很多種可能性,相當耗費時間。
單單1種音色,就需要將這個過程重複10-20次。最後呈現出的9種不同音色背後,就有100+實驗。
另一個讓研發人員印象深刻的難題,是中英混讀問題。
用戶在實際使用過程中,很可能會出現中文、英文混合使用的情況,但這就給音源的採集帶來了困難。
舉個例子,蠟筆小新的音色,主要是通過動畫片來進行採集,提取其韻律和表現力的。但是,蠟筆小新他並不會說英語啊。
為此,技術團隊想出的解決方案是,首先在發音單元的設計上,將中英文因素進行共享設計,減少因素集合以降低模型的不穩定性。
其次,在中文發音人音庫訓練過程中,加入非本發音人的純英文音庫進行混合訓練。
並且,在訓練中,加入可以描述發音人特點的embedding,對不同發音人的發音風格和發音特點進行解耦,讓模型可以從純中文和純英文的語音數據中,學習到中文和英文的發音知識。
這樣一來,即使沒有經過英文音源的訓練,模型也同樣能讓發音人讀出英文句子。
目前已有4位「發音人」可以進行中英混讀,其餘幾位的英文能力也預計在8月內上線。
接下來,技術團隊將繼續挑戰自己,根據不同的視頻場景,對視頻內容進行基於多模態的理解,對每個發音人的發音風格進行場景適配。
這一功能實現後,智能配音的節奏、情緒就會更貼合視頻內容,讓視頻效果更加出彩。
另外,智能配音團隊也計劃上線更多音色,比如明星音色、熱門電視劇配音、具有科技感的機械音等等。
接地氣,還看黑科技
智能配音這樣的AI黑科技,無疑給老鐵們帶來了船新的玩法,引領了一波短視頻新熱潮。
其實,這已經不是快手第一次貼合用戶需求,在產品裡融入AI黑科技了。
比如此前在快手直播間跟柳巖、大鵬歡樂互動的智能寵物「小快」,就融合了語音喚醒、語音識別、自然語言理解、對話管理、語音合成等多種技術,給主播們提供了既能適應複雜硬體條件,又不佔用太多計算資源的語音的智能語音服務。
值得一提的是,對於性能相對低端的手機機型,快手技術團隊往往會有針對性地進行性能降級適配,不斷優化性能與效果的平衡點,以期用戶能以最低門檻,享受最新技術。
以此番上線的智能配音功能為例,量子位用2015年搭載聯發科HelioX20的一款手機進行了測試,也能順利合成配音。
這也展示了快手在CV技術之外,在智能語音領域的厚積薄發。
實際上,快手的語音技術早有布局,四年前就成立了語音交互、音頻內容理解的技術團隊,成員主要來自清華、中科院、哈工大、西工大的語音實驗室,以及微軟、三星、BAT這些大廠。目前主要技術方向包括語音識別、語音合成、音樂理解與生成、音頻事件檢測等。
產品功能的快速落地,離不開一篇篇論文、一項項基礎研究的積累,離不開技術工程師們的努力。
在此背後,也是快手價值觀的反映:重視技術,重視基礎科研,希望每個人都能享受到時代最前沿的技術。
所以下一波音視頻新風潮會是什麼?
接地氣,還看黑科技。
— 完 —