今年六一兒童節,騰訊聯合北京荷風藝術基金會發起「騰訊荷風藝術行動」,給孩子們送上兩份禮物,為音樂美學中國素質教育的發展做出貢獻。
其中一份就是由首席兒歌守護唱作人,青年演員歌手王俊凱與雄安孩子,以及騰訊AI數字人艾靈共同演繹的新歌《點亮》。這份禮物被以特別的方式呈現:在H5互動裡,每個人都可以輕鬆召喚AI艾靈,創作你的專屬MV——給幾個關鍵詞,艾靈就能為你創作專屬歌詞,並和王俊凱一起唱給你聽。
AI 歌聲合成的模型架構
全能型虛擬歌手AI艾靈登場
在互動裡,唱作俱佳的AI數字人艾靈已搭乘網際網路來到每個人面前,她不僅能作詞,還能用近乎真人的聲線演唱,加上用多模態智能技術搭建的數字軀體,絕對是令你難忘的全能型虛擬歌手。
怎麼樣?是不是高音甜、中音準、低音穩?AI艾靈源自騰訊 AI Lab 的實驗探索性技術項目——AI 數字人(Digital Human)。項目的目標是把計算機視覺、語音/歌聲合成和轉換、圖像/視頻合成和遷移、自然語言理解等多模態 AI 能力與技術深度融合,生成清晰、流暢、高質的可交互內容,打造高擬人度的智能數字人,推進 AI 在虛擬偶像、虛擬助理、在線教育、數字內容生成等領域的應用。
AI 艾靈使用了基於數據依賴型的深度學習方法,現在還只能生成基礎歌詞和合成歌曲,無法實現完全自由的創作。但騰訊 AI Lab 將繼續技術攻堅,探索自動化音樂合成及基於全新樂曲自動生成歌詞模板再自動填詞的新方法。此外,基於智能數字人的交互式技術在音樂教育方面的應用也是重要的探索方向。
AI技術讓歌聲更逼真
AI艾靈的歌聲來源於 AI 技術,首先,研究者以音素為基本發音單元將任意歌曲描述為一連串音素的序列;然後通過分析歌譜,從文字、旋律、節奏等多個維度分別提取和預測詞曲中每個音素的發音、時長、停頓、音高、風格和演唱技巧等特徵;最後使用由真人(中國網絡聲優龜娘)演唱的歌聲訓練得到的深度神經網絡聲學模型和聲碼器模型,合成出與真人聲線高度相似歌聲音頻。
不同於「初音未來」等虛擬歌姬的「機器合成+人工調教」模式,使用了基於DurIAN聲學模型 的AI艾靈無須經過人工調教就能得到非常自然和擬真的歌聲。
展望未來,這項技術可以用於降低歌曲製作過程中錄音環節的成本,更可以用於打造虛擬偶像,成為廣大專業和社區音樂人創作不可多得的製作工具。除了 AI 歌聲合成技術之外,騰訊 AI Lab 還在研究數據量極小和錄音質量差條件下的歌聲合成。
除了聽歌外,AI艾靈還能寫歌。AI艾靈的歌詞生成方案基於騰訊 AI Lab 最新研發的歌詞創作模型SongNet。該深度學習模型最大的特點就是可以給定任意格式和模板來生成相契合的文本。
在「王俊凱AI唱我的歌」H5 中,用戶隨機輸入一個或者多個關鍵詞,AI 就可以根據這份靈感,創作出優美、恰當的歌詞,比如「田野花開多芬芳,仰望滿天星光」、「青草地裡看花開,小花傾聽著愛」。
生成的歌詞然後會被提交給歌聲合成模塊,再融合對應的背景音樂,一首悅耳動聽的歌曲就新鮮出爐了。
SongNet模型是AI Lab在AI創作方向的一次嘗試,現階段模型也存在一些局限性。歌曲作為一種藝術形式,蘊含了人類細膩的情感和深厚的智慧,在這方面目前版本的模型和人類還有很大的距離,無法感知人類豐富多變的情感。而且此次還同時設置了上下文約束和蘊含特定關鍵詞的限制,所以會在一定程度上降低模型生成歌詞的邏輯性和連貫性。未來,我們一方面會持續增強模型對歌曲主題和情感的感知度,另一方面也會設計模型策略來進一步提升生成的歌詞的邏輯性、連貫性以及優美度。
【來源:南方plus客戶端】
版權歸原作者所有,向原創致敬