你家貓也能說東北話了:快手快影一鍵智能配音,三種方言隨意換

2020-12-13 量子位

魚羊 發自 凹非寺量子位 報導 | 公眾號 QbitAI

日常想給家裡的蠢貓拍個視頻配個音,需要幾步?

不不不,現在有了AI的加持,只需打開App,輸入文本,秒秒鐘就能搞定。

不只是四川話配音,東北老妹音也可以整起來:

△快手@大天666

再也不怕隔壁工位東北小哥嘲笑我的臺灣腔東北話了。

甚至,日常做飯小視頻,也可以配出高級感:

△快手@xcpangdahai

是不是有點《舌尖上的中國》內味了?

實現如此功能的,就是快手快影最新上線的AI黑科技——智能配音

輸入文字,AI配音

所謂智能配音,就是用戶只需輸入文字,軟體就能自動將之轉化為高質量的視頻配音。

使用方法非常簡單。

首先,打開快影,導入視頻素材。

「智能配音」的入口,就在App底部功能區的「音效」中。

點擊「智能配音」,在彈出的輸入框中輸入想要配音的文字。

然後,選定一個「發音人」,也就是想要的音色、口音,再點擊生成配音。

配音音頻就秒速生成了。

另外,通過「字幕」→「加字幕」,完成字幕輸入後,同樣會出現「智能配音」的入口。操作相當方便。

目前,智能配音功能中一共有9位「發音人」可以pick。

標準播音腔,由「小姐姐」、「小哥哥」兩位播音員提供。

在方言區,除了前文提及的「川妹子」和「東北老妹」,還有一位說粵語的「廣東靚妹」24小時在線配音。

想要可愛卡通音,可以選擇「小豬佩奇」、「蠟筆小新」。

而「舌尖同款」則提供了一個更加貼近真實的音色,紀錄片範兒十足。

此前在快手直播間裡出現過的小快機器人的音色,也被移植了過來。如果你是一位快手用戶,選擇「童真」,熟悉的聲音就能出現在你的個人創作中啦。

技術不夠,AI來湊。這下,給記錄生活的小視頻增色,就不用擔心自己的聲音不好聽、剪輯水平不過硬了。

但別看此功能人人都能輕鬆上手,背後的技術挑戰卻也著實不小。

關鍵技術解析

文字轉語音,其實並不是什麼新鮮事。

不過,在此之前,此類語音合成技術主要面向B端用戶,應用場景主要是資訊播報、訂單播報、朗讀聽書等。

而對於C端用戶,特別是有視頻配音需求的用戶而言,AI配音只有更生動、更自然、更具韻律,才能真正滿足他們的需求。

另外,面向B端的產品,可以對文本的規律、意義進行限定。面向C端用戶時,則無法預測用戶的輸入情況。

這就給快影這類剪輯軟體的智能配音功能提出了更高的技術要求:

高表現力,要讓用戶覺得合成的語音接近自然語音,不做作;高音質,要求輸出的語音乾淨清晰,能最大程度還原配音角色的音色;極低響應時間,為了優化用戶的使用體驗,合成引擎的首字響應時間要求低於100ms。為此,快影的智能語音配音採用了端到端的深度神經網絡語音參數生成算法。

端到端深度神經網絡語音參數生成算法

傳統的參數語音合成算法存在一個問題,那就是很難保留配音音色的說話風格特點,造成配音比較呆板、風格趨同。

而端到端的深度神經網絡語音參數生成算法,可以讓生成的語音參數連續性和穩定性得到較大幅度的提升,體現在聽感上會使得語音更加真實和自然。

同時,為了能夠最大限度保留配音角色的說話韻律風格,在生成算法中還加入了風格控制自回歸編碼網絡,使得每一個配音音色的說話韻律特點都能體現出來。

高表現力深度網絡聲碼器

另外,為了能最大程度還原智能配音角色的聲音特點,快影智能配音還採用了基於深度神經網絡的聲碼器進行語音生成。

在語音合成技術方面,業界常用的採樣率是16kHz。

但對於兒童音色、卡通音色這樣基頻比較高的音色而言,這一採樣率會對其明亮清澈的特點造成較大的損失。

快手的工程師因此選擇了24kHz採樣率。

不過,由於模型需要建模更多採樣點之間的依賴關係,以及更多的高頻信息,這時如果繼續照搬16kHz採樣率的技術方案,不僅合成速度慢,而且合成音頻還會出現「毛刺」噪音。

為此快手的工程師對神經網絡聲碼器進行了深度優化:

採用多子帶並行建模預測方法。首先將音頻分割為多個sub-band音頻,然後在建模過程中針對每個子帶選擇不同的訓練方式和採樣參數,並且降低模型輸出混合分布數量。

實驗證明這樣做可以有效地提升聲碼器的合成效率,並保證合成效果穩定。

增強輸入輸出特徵的信息描述能力。將輸入的聲學特徵維度升至更高的維度,便於更為細緻描述頻譜細節。同時,將聲碼器的輸出精度採用10bit muLaw壓縮,用於提升採樣精度。

實驗證明,該方法能夠讓合成的音頻聽感更加真實和飽滿。

如此一來,快影智能配音就在將合成速度提高2.5倍的同時,還能提升生成語音的真實感和飽滿度。

此外,工程師們還針對用戶等待時間進行了優化,每100字合成只需10s。並且對於用戶輸入的超長句,採取分段處理的方法,以優化用戶等候處理時的產品體驗。

「從創作者的需求出發」

為什麼會在產品中上線這樣的多音色智能配音功能?

其實,對於快手的工程師們來說,就是從快手用戶的實際需求出發:

有些快手的創作者覺得自己的視頻不夠好玩,或是自己的聲音不夠好聽,但又希望通過配音的方式去創作。所以我們希望製作一款操作更便捷,並且聽感上更有趣、更豐富的配音功能,來幫助用戶製作更有趣的音視頻。

此前,快手在語音合成技術方面的積累,已經在直播間語音機器人上有所體現。

不過,對於智能配音技術團隊而言,這一次的任務依然充滿挑戰。

首先,是時間緊,任務重

「智能配音」這項功能基本是在1個月內完成開發集成,並在2個月內實現全量上線的。

雖然此前已經有面向B端的語音合成技術的積累,但在將其運用到C端上時,由於「使用場景」和「技術要求」均不同,技術團隊還是需要作出很多細節上的調整。

這個4人組成的團隊需要進行高強度實驗,把數據分為不同的組合,再對每個組合進行測試,對特徵進行重組。每個實驗都存在很多種可能性,相當耗費時間。

單單1種音色,就需要將這個過程重複10-20次。最後呈現出的9種不同音色背後,就有100+實驗。

另一個讓研發人員印象深刻的難題,是中英混讀問題。

用戶在實際使用過程中,很可能會出現中文、英文混合使用的情況,但這就給音源的採集帶來了困難。

舉個例子,蠟筆小新的音色,主要是通過動畫片來進行採集,提取其韻律和表現力的。但是,蠟筆小新他並不會說英語啊。

為此,技術團隊想出的解決方案是,首先在發音單元的設計上,將中英文因素進行共享設計,減少因素集合以降低模型的不穩定性。

其次,在中文發音人音庫訓練過程中,加入非本發音人的純英文音庫進行混合訓練。

並且,在訓練中,加入可以描述發音人特點的embedding,對不同發音人的發音風格和發音特點進行解耦,讓模型可以從純中文和純英文的語音數據中,學習到中文和英文的發音知識。

這樣一來,即使沒有經過英文音源的訓練,模型也同樣能讓發音人讀出英文句子。

目前已有4位「發音人」可以進行中英混讀,其餘幾位的英文能力也預計在8月內上線。

接下來,技術團隊將繼續挑戰自己,根據不同的視頻場景,對視頻內容進行基於多模態的理解,對每個發音人的發音風格進行場景適配。

這一功能實現後,智能配音的節奏、情緒就會更貼合視頻內容,讓視頻效果更加出彩。

另外,智能配音團隊也計劃上線更多音色,比如明星音色、熱門電視劇配音、具有科技感的機械音等等。

接地氣,還看黑科技

智能配音這樣的AI黑科技,無疑給老鐵們帶來了船新的玩法,引領了一波短視頻新熱潮。

其實,這已經不是快手第一次貼合用戶需求,在產品裡融入AI黑科技了。

比如此前在快手直播間跟柳巖、大鵬歡樂互動的智能寵物「小快」,就融合了語音喚醒、語音識別、自然語言理解、對話管理、語音合成等多種技術,給主播們提供了既能適應複雜硬體條件,又不佔用太多計算資源的語音的智能語音服務。

值得一提的是,對於性能相對低端的手機機型,快手技術團隊往往會有針對性地進行性能降級適配,不斷優化性能與效果的平衡點,以期用戶能以最低門檻,享受最新技術。

以此番上線的智能配音功能為例,量子位用2015年搭載聯發科HelioX20的一款手機進行了測試,也能順利合成配音。

這也展示了快手在CV技術之外,在智能語音領域的厚積薄發。

實際上,快手的語音技術早有布局,四年前就成立了語音交互、音頻內容理解的技術團隊,成員主要來自清華、中科院、哈工大、西工大的語音實驗室,以及微軟、三星、BAT這些大廠。目前主要技術方向包括語音識別、語音合成、音樂理解與生成、音頻事件檢測等。

產品功能的快速落地,離不開一篇篇論文、一項項基礎研究的積累,離不開技術工程師們的努力。

在此背後,也是快手價值觀的反映:重視技術,重視基礎科研,希望每個人都能享受到時代最前沿的技術。

所以下一波音視頻新風潮會是什麼?

接地氣,還看黑科技。

— 完 —

相關焦點

  • 方言演繹名場面,「貓影幻舞」娶回家!老帥透露18歲辛酸史
    時間過得賊拉快,K妹巴適滴躺在沙發上玩著手機,突然驚呼一聲「蝦米」?!原來今天已是12月28日,話都無咁快,冬冠的賽程就僅剩下3場可以看啦!留給選手們的時間已經冒得多少剩,究竟哪兩支隊伍能突圍決賽呢?!
  • 快手上線「2019快手影集」一鍵生成專屬故事
    24小時,550萬人在快手重溫了2019年的美好回憶。近日,快手上線了「2019我的快手影集」功能,用戶可以將2019年發布的作品一鍵生成時長約1分鐘的影集。據了解,2019在快手拍攝一定數量作品的用戶均可體驗到該功能。
  • 《逗愛熊仁鎮》推方言預告 「一影三語」讓幽默更接地氣
    方言的魅力究竟有多大?就算沒去過東北,只要在街上大叫一聲"你瞅啥",一定能聽見旁邊的人無縫銜接"瞅你咋的",東北話一出,此刻我們都是"靈魂東北人"。"頂你個肺"、"做人最緊要系開心"這些粵語口頭禪,在港劇和TVB電視劇裡,陪著我們走過整個童年。而四川話就更厲害了,近年隨著《貓和老鼠》網絡四川話版、《無名之輩》等電影的熱播,成為"網紅"影視方言。現在,方言不再是阻礙影視作品走紅的阻力,而是觀眾更喜聞樂見的逗趣方式。
  • 會說四川話時薪700元,魔性方言為何這麼值錢?
    會說四川話的配音工作時薪700元,憑什麼四川方言就這麼值錢?東北話、廣東話、長沙話和閩南話等表示不服!天貓精靈方言配音年薪過百萬?近日,一則#會說四川話700一小時#的話題登上了社交媒體熱搜榜。當然,也有廣東網友不服,「憑什麼四川話這麼值錢,希望粵語也能被開發一下」。並非方言保護過度,只是市場需求這份高薪的工作同樣引起了一群「檸檬精」的注意。他們認為,為方言配音開高薪,就是一種方言保護。方言保護太過就是對資源的浪費,普通話都未在全國普及,如此一來也許會導致普通話普及後退,因為大家爭相練習方言去了。
  • 廣電總局「方言令」惹爭議 對東北話放生?
    他告訴記者,其實原來版本中的陝北方言比現在多很多,劇中群眾所說的話都是陝北方言,但廣電總局和央視都不允許播,後來只好重新配音,僅有一些口語使用方言。王學圻也證實了趙亮的說法,方言在劇中比例不能超過30%—40%。
  • 為什麼東北話佔據了快手半壁江山
    東北人喜歡嘮嗑,大事小事都能聊,不但不容易冷場,而且百無禁忌。直播連麥的時候,正宗廣東人CY向李誕吐槽董寶石,說老舅的粵語發音不正宗。各個直播平臺的熱門主播,起碼有一半是東北人,在短視頻平臺上自編自導小品的創作者,口中的東北方言往往在劇情之前就讓用戶笑出了聲。快手上的主播,日排位禮物榜的前10名裡,東北人往往佔據三席以上。
  • 《逗愛熊仁鎮》推方言預告 方言的魅力究竟有多大
    川北在線核心提示:原標題:《逗愛熊仁鎮》推方言預告 方言的魅力究竟有多大 就算沒去過東北,只要在街上大叫一聲你瞅啥,一定能聽見旁邊的人無縫銜接瞅你咋的,東北話一出,此刻我們都是靈魂東北人。頂你個肺、做人緊要系開心這些粵語口頭禪,在港劇和TVB電視劇裡,陪著我們走過整個童年。
  • 廣電總局「方言令」惹爭議 對東北話放生?(圖)
    他告訴記者,其實原來版本中的陝北方言比現在多很多,劇中群眾所說的話都是陝北方言,但廣電總局和央視都不允許播,後來只好重新配音,僅有一些口語使用方言。王學圻也證實了趙亮的說法,方言在劇中比例不能超過30%—40%。
  • 又是別人家的!武漢大學開方言課,學生用家鄉話為小豬佩奇配音
    28日,@武漢大學 「方言與中國文化」課上,學生用方言配音和歌唱。視頻截圖其中,兩名湖北同學用方言配音小豬佩奇,全班爆笑。任課教師說,希望青年朋友不要嫌棄方言。網友評論:五星壞男人:湖北的方言很多的,特別喜歡家鄉話。現在有很多人認為家鄉話土,湖北的方言語氣太重,而我對於方言卻有著很深很深的感情,也許是人在外地太久了。喜歡有你的陪伴:很棒啊!方言真心是我們最寶貴的財富,用方言連結起來的關係珍貴而且持久。
  • 有一種文化的傳承叫方言東北話合集
    方言土語作為一種地方語言,它對當地的民族發展交流及文化的傳承,在一定的歷史條件下,起到了不可或缺和不可替代的作用。至今方言仍是特定環境區域內的主流語言,很有必要保護和發揚光大的。今天秋天葉子遊天下,帶您共同傳承東北方言。此文為「秋天葉子遊天下教你學習東北話」一至八集的合集,共收集七十五句方言。祝您學會東北話,走遍東北都不怕。
  • 在東北你的快樂隨處都能get到,用說話就行...
    我看成個「林狗你媽」。兄弟,你耿直的不要不要的!段子在快手上、抖音上,拍段子的東北人有很多。為什麼?別問我為什麼。在東北人的生活中,段子無處不在。只要關鍵情景到位,隨意可以開始。這個世界太瘋狂,耗子都給貓....也許在咱東北人天生就可以消解任何東西。消解含義、消解煽情、消解高大上。關於發音也是個特色。東北話中很多開口音。ba ba 的,pia pia 的,fa fa 的。形容起來就倆字,「氣勢」。最洶湧的是遼西地區方言。例如錦州話,「你幹啥呢?」
  • 蔡少芬的港普笑料不斷 快手老徐的廣式東北磕你聽過嗎?
    蔡少芬的港普笑料不斷 快手老徐的廣式東北磕你聽過嗎?快來老徐的快手帳號「老徐的東北生活」(ID:888365021)聽她用「廣普」嘮嘮嗑。「南北方友誼促進大使」老徐名叫徐愷悅,祖籍廣東梅州,2010年隨老公回其老家丹東生活,至今已十年。別看她現在講起丹東文化來頭頭是道,初到東北時老徐也非常「頭大」,鬧過不少笑話。
  • 能說四川話的銀行智能客服上線了
    原標題:能說四川話的銀行智能客服上線了   在移動
  • 來快手聽廣東媳婦粵語嘮出東北磕
    其實快手上也有個笑料不斷的廣東妹子,每天用她的廣東口音和老鐵們嘮著地道的東北磕。「你在南方的豔陽裡露著腰,我在北方的寒風中裹著貂」……  俗話說,一方水土養一方人。與人交往中,南北差異始終是繞不過去的話題。即使是只有「一線之緣」的網友都會為「鹹甜粽子」展開南北大戰,更何況是每日同床共枕的夫妻?  廣州媳婦縱跨中國嫁到丹東,十年的真實東北生活為何成為了快手段子?
  • 盤點國漫中的四種特色「方言」,快來看看有沒有你的家鄉話!
    帶有濃濃中國風特色的國創動漫越來越受歡迎,特別是其中別具一格的各地方言。今天要說的是國漫中的四種特色方言,快來看看有沒有你的家鄉話吧! 其中有很多個性鮮明,性格完整的角色,但要說最受歡迎的還是我們的寶兒姐,身世成謎的她卻有著一口流利的川普,經典語錄:跟他們裝裝比可以,跟我裝,弄死你。他們都說我瓜,其實我一點也不瓜,有的時候我還機智的一逼。
  • 東北話名列十大最難懂方言 專家:有名不是壞事
    反正10個地方上榜了   就說你那兒的方言讓人聽不懂,管你願意還是不願意,反正說對說錯又不用負法律責任,我就給你這麼排了。最難懂溫州話排名第一,廣東話排名第二,閩南話排名第三……東北話排名第十。  難懂?不難懂?
  • 方言大戰來襲!蘇州話VS東北話
    在全中國各地的方言當中,論誰家的最好聽實在是個無解的難題,但要論感染力,東北話那傢伙,絕對是槓槓的水平,人群中只要有一個東北人,那這片土地就是東北的。而蘇州話與東北話顯然是兩個世界,在形容、表達同一件事物的時候常常會碰撞出精彩的火花。
  • 東北最富的城市,但不說東北方言而是說膠東話,你知道是哪嗎
    說到東北,很多人的第一印象是東北的二人轉和有特色的東北方言吧。 今天介紹的這個地方位於東北,但是當地人不承認自己是東北人,很多時候會說東北人聽不懂的方言。那就是大連。 作為海邊的城市,大連的景色很美。 根據當地特色自然風景和獨特的地理位置,這裡的旅遊業非常發展,GDP曾經超過了東三省的省會。
  • 不管你說河南話,還是說日語,來東北半年,你都懷疑自己是東北人
    不管你說河南話,還是說日語,來東北半年,你都懷疑自己是東北人 今天我們就來說說東北,說起東北大家都能想到東北人的豪放,東北人嗓門大,但不是發貨,而是好爽,脾氣來的快去得快,擼串兒可是東北的文化啊,喝啤酒擼串東北姑娘沒在怕的。
  • 沒通過這份東北話測試,別再說你是東北人!
    天津人不一定都會打快板兒,但東北話一定是傳染性最強的一種方言今晚的月色真美啊可不咋滴我想給你整個世界那你整吧不要和東北人玩成語接龍那些「大碴子味兒」的東北話你能聽懂幾個?那些「海蠣子味兒」的東北話你能聽懂幾個?