智能助手應用普及,對於文字轉語音的要求也逐漸提升。谷歌近年有推出雲端人工智慧機器學習服務,最近就公布推出新的文字轉語音API,可以把文字變成自然的發音,支持各種語音應用需求。
這個雲端文字轉語音(Text-to-speech)API 可以支持12種語言並轉變成32種自然語言,把電腦中的書面內容,變成口語形式讀出。而這個API也配合新的WaveNet發音模型,令讀音變得更加自然而準確,運算速度比原先快1000倍,只需要50毫秒就可以運算出1秒鐘的語音訊息,而且讀音樣本的解析度也由8位元提升到16位元。谷歌表示在美式英文WaveNet的測試中,有超過20%的人認為電腦讀音比真人讀音要好。
現在不同的物聯網或者智能助手,都需要用到文字轉語音服務,谷歌自家的服務例如地圖、搜索等都有內置文字轉語音服務,而現在推出了API之後,第三方的物聯網應用例如電視、汽車等都可以受惠於這個技術,令電腦與用戶之間的互動可以更加自然流暢。