安妮 編譯整理量子位 出品 | 公眾號 QbitAI
Siri的本領升級了。
蘋果上月推出的機器學習博客今天連更3篇新文,全部是有關Siri的研究技術。
三篇講了啥?
在這篇題為《Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》的文章中,蘋果介紹了Siri語音合成技術的演變過程,並對比從iOS 9到即將應用在新版本中iOS 11的聲音變化,詳細說明Siri的進化過程。
另外兩篇分別題為《Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization》和《Inverse Text Normalization as a Labeling Problem》,一篇提到Siri如何用機器學習格式化地展示日期、時間等的呈現技術,另一篇講解了如何讓Siri支持更多語言。
蘋果機器學習博客地址:
https://machinelearning.apple.com/
看來為了讓Siri體驗更好,蘋果還是下了不少心思。
下面,量子位挑選《Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》的關鍵部分翻譯整理,與大家分享Siri說話更自然流利背後付出的苦功夫。
深度學習如何讓Siri更會說話
隱馬爾可夫模型(HMM)通常被用在目標預測的統計模型中,因為它們直接模擬聲音參數的分布,可以輕鬆利用相對熵(KLD)計算目標損失。
然而,基於深度學習的方法在參數語音合成中表現通常勝過HMM,我們希望將深度學習的優勢轉化到混合單元選擇合成中。
Siri的文本轉語音(TTS)目標是訓練出基於深度學習的統一模型,能夠自動準確預測資料庫中單元目標和級聯損失。
因此,該方法使用深度混合密度網絡(MDN)預測特徵值分布,而沒有用HMM。這裡的MDN結合了傳統的深度神經網絡(DNN)與高斯混合模型(GMM)。
傳統的DNN是輸入層和輸出層間有多個隱藏神經元的人造神經網絡,可以建立輸入和輸出特徵之間複雜的非線性關係。我們可以通過反向傳播調整網絡的權重訓練DNN。
與之相比,GMM使用一組高斯分布提供給定輸入和輸出數據的概率分布,並且通常使用期望最大化(EM)方法訓練。MDN通過DNN對輸入和輸出數據的複雜關係建模,輸出概率分布信息,從而結合了DNN和GMM的優點。
△ 深度混合密度網絡,用來指導單元選擇合成語音特徵的均值和方差
在Siri上,我們使用基於MDN的統一目標和連接模型,來預測語音的目標特徵(頻譜、音高和持續時間)分布,以及單元間的連接成本指導單位搜索。由於MDN的輸出是以高斯概率的形式分布,我們可以將其作為目標和級聯成本的損失函數(Loss Function)。
無論是在像共振峰等穩定且更新緩慢的語音特徵,還是多變的特徵中,這種做法的優勢均顯而易見。考慮到這種可變性,可以選用深度MDN模型中嵌入的方差調整參數。
由於預測方差與上下文相關,可以將它們看作自動依賴上下文權重的損失。因為我們需要計算特定目標和連接損失,所以這對於提高合成質量非常重要。
在使用深度MDN的基礎上對單位進行評分後,我們用傳統的維特比算法尋找單位最佳路徑。然後,再用波形相似重疊相加算法(WSOLA)將各單元連接,找出最優級聯時間,創建平滑連續的合成語音。
最後,附論文連結地址:
https://machinelearning.apple.com/2017/08/06/Siri-voices.html#9
論文翻到底還能聽到從iOS 9到11 Siri的聲音對比,iOS 11版的Siri語調自然,口語力驚豔。