你家貓也能說東北話了:快手快影一鍵智能配音,三種方言隨意換

2020-12-06 量子位

魚羊 發自 凹非寺量子位 報導 | 公眾號 QbitAI

日常想給家裡的蠢貓拍個視頻配個音,需要幾步?

不不不,現在有了AI的加持,只需打開App,輸入文本,秒秒鐘就能搞定。

不只是四川話配音,東北老妹音也可以整起來:

△快手@大天666

再也不怕隔壁工位東北小哥嘲笑我的臺灣腔東北話了。

甚至,日常做飯小視頻,也可以配出高級感:

△快手@xcpangdahai

是不是有點《舌尖上的中國》內味了?

實現如此功能的,就是快手快影最新上線的AI黑科技——智能配音

輸入文字,AI配音

所謂智能配音,就是用戶只需輸入文字,軟體就能自動將之轉化為高質量的視頻配音。

使用方法非常簡單。

首先,打開快影,導入視頻素材。

「智能配音」的入口,就在App底部功能區的「音效」中。

點擊「智能配音」,在彈出的輸入框中輸入想要配音的文字。

然後,選定一個「發音人」,也就是想要的音色、口音,再點擊生成配音。

配音音頻就秒速生成了。

另外,通過「字幕」→「加字幕」,完成字幕輸入後,同樣會出現「智能配音」的入口。操作相當方便。

目前,智能配音功能中一共有9位「發音人」可以pick。

標準播音腔,由「小姐姐」、「小哥哥」兩位播音員提供。

在方言區,除了前文提及的「川妹子」和「東北老妹」,還有一位說粵語的「廣東靚妹」24小時在線配音。

想要可愛卡通音,可以選擇「小豬佩奇」、「蠟筆小新」。

而「舌尖同款」則提供了一個更加貼近真實的音色,紀錄片範兒十足。

此前在快手直播間裡出現過的小快機器人的音色,也被移植了過來。如果你是一位快手用戶,選擇「童真」,熟悉的聲音就能出現在你的個人創作中啦。

技術不夠,AI來湊。這下,給記錄生活的小視頻增色,就不用擔心自己的聲音不好聽、剪輯水平不過硬了。

但別看此功能人人都能輕鬆上手,背後的技術挑戰卻也著實不小。

關鍵技術解析

文字轉語音,其實並不是什麼新鮮事。

不過,在此之前,此類語音合成技術主要面向B端用戶,應用場景主要是資訊播報、訂單播報、朗讀聽書等。

而對於C端用戶,特別是有視頻配音需求的用戶而言,AI配音只有更生動、更自然、更具韻律,才能真正滿足他們的需求。

另外,面向B端的產品,可以對文本的規律、意義進行限定。面向C端用戶時,則無法預測用戶的輸入情況。

這就給快影這類剪輯軟體的智能配音功能提出了更高的技術要求:

高表現力,要讓用戶覺得合成的語音接近自然語音,不做作;高音質,要求輸出的語音乾淨清晰,能最大程度還原配音角色的音色;極低響應時間,為了優化用戶的使用體驗,合成引擎的首字響應時間要求低於100ms。為此,快影的智能語音配音採用了端到端的深度神經網絡語音參數生成算法。

端到端深度神經網絡語音參數生成算法

傳統的參數語音合成算法存在一個問題,那就是很難保留配音音色的說話風格特點,造成配音比較呆板、風格趨同。

而端到端的深度神經網絡語音參數生成算法,可以讓生成的語音參數連續性和穩定性得到較大幅度的提升,體現在聽感上會使得語音更加真實和自然。

同時,為了能夠最大限度保留配音角色的說話韻律風格,在生成算法中還加入了風格控制自回歸編碼網絡,使得每一個配音音色的說話韻律特點都能體現出來。

高表現力深度網絡聲碼器

另外,為了能最大程度還原智能配音角色的聲音特點,快影智能配音還採用了基於深度神經網絡的聲碼器進行語音生成。

在語音合成技術方面,業界常用的採樣率是16kHz。

但對於兒童音色、卡通音色這樣基頻比較高的音色而言,這一採樣率會對其明亮清澈的特點造成較大的損失。

快手的工程師因此選擇了24kHz採樣率。

不過,由於模型需要建模更多採樣點之間的依賴關係,以及更多的高頻信息,這時如果繼續照搬16kHz採樣率的技術方案,不僅合成速度慢,而且合成音頻還會出現「毛刺」噪音。

為此快手的工程師對神經網絡聲碼器進行了深度優化:

採用多子帶並行建模預測方法。首先將音頻分割為多個sub-band音頻,然後在建模過程中針對每個子帶選擇不同的訓練方式和採樣參數,並且降低模型輸出混合分布數量。

實驗證明這樣做可以有效地提升聲碼器的合成效率,並保證合成效果穩定。

增強輸入輸出特徵的信息描述能力。將輸入的聲學特徵維度升至更高的維度,便於更為細緻描述頻譜細節。同時,將聲碼器的輸出精度採用10bit muLaw壓縮,用於提升採樣精度。

實驗證明,該方法能夠讓合成的音頻聽感更加真實和飽滿。

如此一來,快影智能配音就在將合成速度提高2.5倍的同時,還能提升生成語音的真實感和飽滿度。

此外,工程師們還針對用戶等待時間進行了優化,每100字合成只需10s。並且對於用戶輸入的超長句,採取分段處理的方法,以優化用戶等候處理時的產品體驗。

「從創作者的需求出發」

為什麼會在產品中上線這樣的多音色智能配音功能?

其實,對於快手的工程師們來說,就是從快手用戶的實際需求出發:

有些快手的創作者覺得自己的視頻不夠好玩,或是自己的聲音不夠好聽,但又希望通過配音的方式去創作。所以我們希望製作一款操作更便捷,並且聽感上更有趣、更豐富的配音功能,來幫助用戶製作更有趣的音視頻。

此前,快手在語音合成技術方面的積累,已經在直播間語音機器人上有所體現。

不過,對於智能配音技術團隊而言,這一次的任務依然充滿挑戰。

首先,是時間緊,任務重

「智能配音」這項功能基本是在1個月內完成開發集成,並在2個月內實現全量上線的。

雖然此前已經有面向B端的語音合成技術的積累,但在將其運用到C端上時,由於「使用場景」和「技術要求」均不同,技術團隊還是需要作出很多細節上的調整。

這個4人組成的團隊需要進行高強度實驗,把數據分為不同的組合,再對每個組合進行測試,對特徵進行重組。每個實驗都存在很多種可能性,相當耗費時間。

單單1種音色,就需要將這個過程重複10-20次。最後呈現出的9種不同音色背後,就有100+實驗。

另一個讓研發人員印象深刻的難題,是中英混讀問題。

用戶在實際使用過程中,很可能會出現中文、英文混合使用的情況,但這就給音源的採集帶來了困難。

舉個例子,蠟筆小新的音色,主要是通過動畫片來進行採集,提取其韻律和表現力的。但是,蠟筆小新他並不會說英語啊。

為此,技術團隊想出的解決方案是,首先在發音單元的設計上,將中英文因素進行共享設計,減少因素集合以降低模型的不穩定性。

其次,在中文發音人音庫訓練過程中,加入非本發音人的純英文音庫進行混合訓練。

並且,在訓練中,加入可以描述發音人特點的embedding,對不同發音人的發音風格和發音特點進行解耦,讓模型可以從純中文和純英文的語音數據中,學習到中文和英文的發音知識。

這樣一來,即使沒有經過英文音源的訓練,模型也同樣能讓發音人讀出英文句子。

目前已有4位「發音人」可以進行中英混讀,其餘幾位的英文能力也預計在8月內上線。

接下來,技術團隊將繼續挑戰自己,根據不同的視頻場景,對視頻內容進行基於多模態的理解,對每個發音人的發音風格進行場景適配。

這一功能實現後,智能配音的節奏、情緒就會更貼合視頻內容,讓視頻效果更加出彩。

另外,智能配音團隊也計劃上線更多音色,比如明星音色、熱門電視劇配音、具有科技感的機械音等等。

接地氣,還看黑科技

智能配音這樣的AI黑科技,無疑給老鐵們帶來了船新的玩法,引領了一波短視頻新熱潮。

其實,這已經不是快手第一次貼合用戶需求,在產品裡融入AI黑科技了。

比如此前在快手直播間跟柳巖、大鵬歡樂互動的智能寵物「小快」,就融合了語音喚醒、語音識別、自然語言理解、對話管理、語音合成等多種技術,給主播們提供了既能適應複雜硬體條件,又不佔用太多計算資源的語音的智能語音服務。

值得一提的是,對於性能相對低端的手機機型,快手技術團隊往往會有針對性地進行性能降級適配,不斷優化性能與效果的平衡點,以期用戶能以最低門檻,享受最新技術。

以此番上線的智能配音功能為例,量子位用2015年搭載聯發科HelioX20的一款手機進行了測試,也能順利合成配音。

這也展示了快手在CV技術之外,在智能語音領域的厚積薄發。

實際上,快手的語音技術早有布局,四年前就成立了語音交互、音頻內容理解的技術團隊,成員主要來自清華、中科院、哈工大、西工大的語音實驗室,以及微軟、三星、BAT這些大廠。目前主要技術方向包括語音識別、語音合成、音樂理解與生成、音頻事件檢測等。

產品功能的快速落地,離不開一篇篇論文、一項項基礎研究的積累,離不開技術工程師們的努力。

在此背後,也是快手價值觀的反映:重視技術,重視基礎科研,希望每個人都能享受到時代最前沿的技術。

所以下一波音視頻新風潮會是什麼?

接地氣,還看黑科技。

— 完 —

相關焦點

  • 東北方言十級,東北話「磕磣」怎麼讀?什麼意思?
    東北方言十級,東北話「磕磣」怎麼讀?什麼意思?冰城北北君——東北話十級(家鄉文化印記)上一期,北北君給大家講的是東北方言「埋汰」,今天繼續給大家帶來有趣的東北方言——「磕磣」,想看之前的內容,可以點擊關注,看往期作品。「磕磣」,東北話中較為常見的一個詞,準確讀音:k—e—kē,ch—en,發輕音。
  • 東北話是一種「傳染性病毒」吧
    立志把東北話發揚光大的壹讀君|二狗砸東北話應該是傳染性最強的一種方言了。不服的小夥伴可以做個實驗,把全國任何地方的人跟東北人關在一起三個月,都可以收穫兩個東北人,要是把一群人跟東北人關在一起,恭喜你,將收穫一群東北人。最近在湖北隔離病房支援的東北醫生又一次證明了這一點,他們使用最純正的東北口音跟病患交流,甚至給病患唱起了二人轉。
  • 魔力十足的東北方言,碰上就被同化,堪稱方言中的「吸鐵石」!
    這也是為什麼我們總覺得天津人和東北人為人處世比較樂呵的原因。相較於具有一定「反諷」基礎的天津話,通俗易懂,容易學習的東北方言無疑更普及一點,也更受歡迎一點。事實上,凡是接觸過東北方言的其他方言持有者,只要不是山西人,大都會被這神奇的方言所同化,原因嘛,就是因為東北話太魔性,語調平順簡單。東北方言又稱為「東北官話」,是在一級方言——官話之下的二級方言。
  • 東北地區的方言了解一下
    東北地區的方言了解一下時間:2019-11-19 16:26   來源:小雞詞典   責任編輯:沫朵 川北在線核心提示:原標題:整活什麼意思什麼梗? 東北地區的方言了解一下 是指:開始表演、搞個事情、開始做事了類似的意思。 整是東北地區的方言,意思多樣,例如:你整啥呢就是你幹啥呢。
  • 不僅逗你笑,還能傳染你!東北話,一個神奇的存在……
    三個人走在一起,有兩個東北人,那麼無論第三個人是哪裡的,他都一定會說東北話——東北人夾逼定理當一個東北人說東北話的時候,必定有若干外地人受他的影響——東北人的能量守恆原理也就是說,我們今天所說的「東北話」,其實是在原生東北話基礎上 吸收了很多方言的全新版本。
  • 你還會說你的方言-道縣話嗎?
    方言土話,就是鄉音,無論走到天涯海角,一聽到家鄉話,倍感親切,一聽到家鄉方言土語,就知道是老鄉。方言土語,是老祖宗留下的非物質文化遺產,我們有責任,有義務繼承和傳遞下去。在全國方言中,道縣話就其語言特徵而論,道縣話更接近於西南官話,屬西南官話語支。 與四川重慶貴州方言相似,還有廣西桂林的部分地區。
  • 趣談黑瞎子島:「黑瞎子」是「黑熊」的東北話方言詞
    趣談黑瞎子島:「黑瞎子」是「黑熊」的東北話方言詞 石軼君 2017-07-03 18:19 來源:澎湃新聞
  • 官話方言,你會說哪幾種?
    官話方言,你會說哪幾種?官話方言是現代漢民族共同語的基礎方言,內部一致性較高。官話方言有好幾種,那麼,這些方言,你會說幾種呢?東北官話東北官話相當接近普通話東北官話即東北話,是漢語官話的一個分支,分布於黑龍江省、吉林省全境,遼寧省大部分地區,內蒙古自治區的東部,河北省東北部。
  • 錯把瀋陽當上海,非洲小夥陰差陽錯練成東北話十級網紅
    伊博說。伊博還曾在快手上開設「標準東北話」發音技巧小課堂,既有「必須哋」中「須」字要注意嘴型和尾音,還有「麻溜的」中強調「溜」字要帶兒化音,專業程度被鐵粉留言稱「讓東北人都不自信了」。他用一口賽過本地人的地道東北腔參演小品《歡迎你到我家來》,直令大票中國觀眾都自嘆不如。
  • 貓影幻舞今日首秀?冬冠半決賽誰將第一個用出FMVP皮膚
    有了主題曲中能戰勝一切的《王者意志》,今天的比賽選手們定能所向披靡!冬冠決賽將於1月4日在廣州開戰,究竟哪兩支隊伍可以晉級就讓我們拭目以待吧!同時1月5日團聚夜也將在廣州開啟,張靚穎獻唱、年度頒獎、全明星賽、全民挑戰賽,還有更多驚喜等你來看!
  • 百度輸入法新版上線,方言英語都能說,語音鬥圖太好玩
    在如今這個快節奏社會,每天都有新鮮好玩事物湧現,大家不得不花費更多精力去適應接受,對於輸入法也是一樣,傳統打字輸入已跟不上新時代用戶聊天節奏,因此語音輸入逐漸成為社交必備技能,一款功能強大的語音輸入法會更懂你的心意,讓社交事半功倍。
  • 推廣普通話方言也要研究和傳承 合肥話考試你能過幾級
    「五的家子有個人很酷,三頭六bzi刀槍 be弱……老頭~老頭~五們去辣zi呀,有五在就廳be怕子be怕,伢來~伢來~五是裡的大樹,爺生陪裡看日頭……」此神曲一出,網友們紛紛感慨:滴小兩口唱得太lie了,也別好zan。這樣的方言神曲有沒有萌到你?這就是合肥方言的魅力。此前那首合肥方言RAP《挖芋頭》也是讓人過耳不忘,在網上將合肥話傳播得更遠。
  • 那些搞笑的視頻配音是怎麼製作出來的?
    似乎很多人不知道這個問題怎麼解決,今天我就和大家說說幾種給視頻配音的方法。首先,如果你用的是蘋果手機,那就簡單很多了,它有一個朗讀功能,你可以把你想說的話輸入記事本,然後直接使用朗讀功能。第二種方法就是用快影,把你想說的話寫成文字,很快它就會轉化成一段語音說給你聽。第三種就是免費的配音軟體,也是最高效最簡單的一種配音形式,將事先準備好的文字,複製粘貼到威信上的百寶音曉橙序的文本框,然後挑選自己喜歡的發音人聲音跟語速,一鍵秒轉語音。
  • 對標抖音剪映、快手快影,愛奇藝推出隨刻創作短視頻製作工具
    其中,二、三兩大部分與抖音、快手兩大主流短視頻平臺的相同模塊並無明顯差異。而製作模塊又分為「開始製作」和「一鍵成片」兩部分,前者指用戶通過導入手機相冊中的照片或視頻文件,並予以一定的編輯後發布視頻,編輯方式則包括剪輯(變速、音量、倒放)以及音樂、文本、貼紙和濾鏡的添加。
  • 快手上最有潛力的5大主播,白小白上榜,貓妹妹第三,第一卻是他
    快手牌牌琦最近在快手上十分有畫面,先是和小伊伊分手,然後被曝光原因是吸毒,後來又曝光了打小伊伊,然後小伊伊砸牌牌琦家,現在牌牌琦又吃安眠藥自殺,這能演一部電視劇了啊!牌牌琦是快手上在2017年最火的主播了,按照二驢的粉絲,牌牌琦很有可能在未來超越散打哥成為快手一哥。牌牌琦現在已經是快手上最具實力的一線大主播之一,他的上升空間相對小一點,因為他已經很強了。
  • 短視頻的第二戰場:抖音、快手、B站剪輯軟體PK
    快手快影:剪輯功能優化快手的快影APP則不斷優化視頻剪輯功能,比如蒙版、關鍵幀、動畫、轉場、畫中畫等等,增加很多抖音剪映同樣擁有的功能。3.從評分上來看:剪映4.9分,獲得359.6萬個評分;快影5.0分,獲得68.4萬個評分;必剪4.2分,僅有1,195個評分。事實上,快手最早開始布局視頻剪輯領域。2017年,快手註冊用戶超過7億並進駐「日活億級俱樂部」,隨即推出了官方視頻剪輯APP「快影」。
  • 你還會說方言嗎?
    「你還會說方言嗎」文|蒲實人棲居於語言中。中國的書寫文字有很強的穩定性,文本教育將語言統一和固定下來。她寫道,她和一位雲南朋友互相都聽不懂對方的方言,但並不妨礙這位雲南朋友笑話她是「南蠻鴃舌」(《孟子·滕文公上》)和「反舌」之人(反舌國,又稱歧舌國,是《淮南子》記載的海外三十六國之一,其民稱反舌民。高誘注「語不可知而自相曉」,即說話外人不能聽懂,只有自己互相能懂,在《山海經》中亦有記載。)
  • 拒絕噪音,有科大訊飛入門級智能錄音筆A1記錄又快又全
    拒絕噪音,有科大訊飛入門級智能錄音筆A1記錄又快又全 雖然今年的「疫情」對各行各業都產生了一定的影響,但年輕消費群體的消費願望卻一點都沒有下降,尤其是對於科技含量高的產品更是一見傾心
  • 廣普配音《刺客伍六七》,打開配音新方式
    可見《刺客伍六七》的人氣之高,第二季依舊是熟悉的畫風和配音。這部動畫不僅劇情好看,第一季已出的有「殺壞人賺大錢」「刺瞎你的狗眼」「六七VS十三」「刺殺內褲男」「刺殺最強阿婆」「刺殺美少女」「刺殺傑克船長」「保鏢大春」「小島危機」「魔刀千刃」和番外「梅花十三」「雞中霸王」,每一集在搞笑的背後都借伍六七之口提出極具內涵的思考。
  • 配音知識是配音最基本的素質要求
    影視作品中要配出好音,了解配音知識就非常有必要的,因為配音知識是配音最基本的素質要求,接下來山東配音為大家介紹一下配音的基礎知識。 就拿方言舉例來說,分析配音的基礎知識。