近日,字節跳動人工智慧實驗室發表了一篇關於中文歌聲合成系統的論文——《 A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders》。論文中,研究者提出了一種基於持續時間分配的的類似Tacotron聲學模型和WaveRNN神經網絡聲碼器的中文歌聲合成(SVS)系統——ByteSing。與傳統的SVS模型不同,ByteSing採用類似Tacotron的編碼器-解碼器結構作為聲學模型,分別以CBHG模型和遞歸神經網絡(RNNs)作為編碼器和解碼器。同時,利用輔助音素持續時間預測模型來擴展輸入序列,可以增強模型的控制能力、穩定性和節奏預測精度。WaveRNN也被用作神經網絡聲碼器,以進一步提高合成歌曲的音質。研究表明,ByteSing能夠達到人類歌唱水平的80%以上,這也是字節跳動研究者首次嘗試的歌聲合成任務。(鈦媒體)