對於世界各地的數百萬人來說,語言障礙是生活中的一個事實。在美國,大約有750萬人在單詞和短語的發音方面有困難,大約5%的一年級兒童受音高、音量和音質方面的障礙影響。
這對開發人工智慧驅動的語音識別和文本到語音合成產品的易訪問性工程師提出了挑戰,他們必須適應有限數據集可用的一系列缺陷。幸運的是,谷歌的科學家們正在研究如何將語音模型中的單詞替換、刪除和插入錯誤降到最低。
研究科學家法迪·比阿德西和軟體工程師羅恩·韋斯在一篇博客文章中寫道:「在當今的技術環境下,對語音界面的訪問很多時候會受到限制,比如依賴於直接理解語音的數字助手,這意味著語言障礙者被排除在最先進的工具和體驗之外。」「Parrotron的作用就是讓非典型語音的用戶更容易與他人交談,也更容易被他人和語音界面所理解,它的端到端語音轉換方法更直接地重現用戶想要的語音。」
Parrotron利用端到端的人工智慧系統,該系統經過培訓,能夠將有障礙的人的語音直接轉換為「流暢的」合成語音,有效地跳過文本生成。它僅考慮語音信號而不是視覺提示,例如嘴唇運動,並且使用平行的輸入、輸出語音對語料庫進行兩階段訓練。
一般的語音到語音轉換模型首先從大數據集饋送樣本,然後暴露於語料庫,該語料庫將其變量調整為來自目標人的非典型語音模式。通常,建立這種高質量的模型需要說話者記錄數小時的訓練數據,但研究人員設法從現有的文本到語音系統中提取數據,使他們能夠利用先前存在的轉錄語音識別語料庫。
第一階段使用了大約30,000小時的數據集,由數百萬對話語組成,每對話語包括一個自然話語和一個相應的合成話語,這些合成話語來自谷歌的平行波網文本到語音系統。研究人員注意到,語料庫中包含了來自「成千上萬」人的片段,這些人來自數百種方言、口音和聲學條件,使得用同一種語言的「典型」語音對一系列語言和非語言內容、口音和噪聲條件進行建模成為可能。
完全訓練的轉換模型為第二個訓練階段提供種子,該階段涉及一個單獨的話語對數據集,可選擇由目標發言者提供,但也可以從Google正在進行的項目Euphonia等來源獲得。第二個語料庫用於使網絡適應獨特的聲學、語音和語言模式,包括說話者如何改變,替換或刪除某些元音或輔音。
該團隊報告說,使用多任務目標訓練系統,即預測目標音素,同時生成目標語音的頻譜圖,從而顯著提高質量。他們與ALS的一組發言人以及谷歌的聾人研究科學家和數學家Dimitri Kanevsky一起驗證了他們的方法,他們錄製了15個小時的個人語料庫。在Kanevsky的案例中,Parrotron的輸出將谷歌自動語音識別的單詞錯誤率從89%降低到32%。至於說ALS的人,人類志願者報告說,在幾乎所有情況下,他們的語言理解能力都有所提高。
「鑑於Parrotron的 「從語音到語音」的培訓目標函數,即使錯誤,生成的輸出的語音也可能在聲學上與輸入語音相似,因此說話者的初衷不太可能顯著改變,通常仍然可以理解其意圖,「Biadsy和維斯寫道。「此外,由於Parrotron並不傾向於從預定義的詞彙集中生成單詞,因此模型的輸入可能包含全新的發明單詞、外來詞,甚至是無意義的單詞。」
該團隊將未來的工作從獨立調整的AI模型組合轉變為單一模型,他們期望這將帶來「顯著」的性能改進,並大大簡化Parrotron的架構。他們目前正在招募志願者來記錄短語 - 有興趣的人可以在這裡報名參與。
此前,谷歌在其2019年I/O開發者大會上公布了三個獨立的無障礙項目:前面提到的旨在幫助語言障礙患者的Euphonia項目;Live Relay,專為聾啞人士而設;和Diva項目,它通過谷歌助手給人們一些獨立和自主權。當時,Mountain View公司指出了世界衛生組織的一些指標,以支持其努力:超過10億人,或15%的人口,患有某種殘疾。
原文連結
https://venturebeat.com/2019/07/17/googles-parratron-is-an-ai-tool-for-people-with-speech-impediments/