谷歌研發人工智慧工具Parrotron,讓語言 障礙者正常交流成為可能

2021-01-07 AI銳見

對於世界各地的數百萬人來說,語言障礙是生活中的一個事實。在美國,大約有750萬人在單詞和短語的發音方面有困難,大約5%的一年級兒童受音高、音量和音質方面的障礙影響。

這對開發人工智慧驅動的語音識別和文本到語音合成產品的易訪問性工程師提出了挑戰,他們必須適應有限數據集可用的一系列缺陷。幸運的是,谷歌的科學家們正在研究如何將語音模型中的單詞替換、刪除和插入錯誤降到最低。

研究科學家法迪·比阿德西和軟體工程師羅恩·韋斯在一篇博客文章中寫道:「在當今的技術環境下,對語音界面的訪問很多時候會受到限制,比如依賴於直接理解語音的數字助手,這意味著語言障礙者被排除在最先進的工具和體驗之外。」「Parrotron的作用就是讓非典型語音的用戶更容易與他人交談,也更容易被他人和語音界面所理解,它的端到端語音轉換方法更直接地重現用戶想要的語音。」

Parrotron利用端到端的人工智慧系統,該系統經過培訓,能夠將有障礙的人的語音直接轉換為「流暢的」合成語音,有效地跳過文本生成。它僅考慮語音信號而不是視覺提示,例如嘴唇運動,並且使用平行的輸入、輸出語音對語料庫進行兩階段訓練。

一般的語音到語音轉換模型首先從大數據集饋送樣本,然後暴露於語料庫,該語料庫將其變量調整為來自目標人的非典型語音模式。通常,建立這種高質量的模型需要說話者記錄數小時的訓練數據,但研究人員設法從現有的文本到語音系統中提取數據,使他們能夠利用先前存在的轉錄語音識別語料庫。

第一階段使用了大約30,000小時的數據集,由數百萬對話語組成,每對話語包括一個自然話語和一個相應的合成話語,這些合成話語來自谷歌的平行波網文本到語音系統。研究人員注意到,語料庫中包含了來自「成千上萬」人的片段,這些人來自數百種方言、口音和聲學條件,使得用同一種語言的「典型」語音對一系列語言和非語言內容、口音和噪聲條件進行建模成為可能。

完全訓練的轉換模型為第二個訓練階段提供種子,該階段涉及一個單獨的話語對數據集,可選擇由目標發言者提供,但也可以從Google正在進行的項目Euphonia等來源獲得。第二個語料庫用於使網絡適應獨特的聲學、語音和語言模式,包括說話者如何改變,替換或刪除某些元音或輔音。

該團隊報告說,使用多任務目標訓練系統,即預測目標音素,同時生成目標語音的頻譜圖,從而顯著提高質量。他們與ALS的一組發言人以及谷歌的聾人研究科學家和數學家Dimitri Kanevsky一起驗證了他們的方法,他們錄製了15個小時的個人語料庫。在Kanevsky的案例中,Parrotron的輸出將谷歌自動語音識別的單詞錯誤率從89%降低到32%。至於說ALS的人,人類志願者報告說,在幾乎所有情況下,他們的語言理解能力都有所提高。

「鑑於Parrotron的 「從語音到語音」的培訓目標函數,即使錯誤,生成的輸出的語音也可能在聲學上與輸入語音相似,因此說話者的初衷不太可能顯著改變,通常仍然可以理解其意圖,「Biadsy和維斯寫道。「此外,由於Parrotron並不傾向於從預定義的詞彙集中生成單詞,因此模型的輸入可能包含全新的發明單詞、外來詞,甚至是無意義的單詞。」

該團隊將未來的工作從獨立調整的AI模型組合轉變為單一模型,他們期望這將帶來「顯著」的性能改進,並大大簡化Parrotron的架構。他們目前正在招募志願者來記錄短語 - 有興趣的人可以在這裡報名參與。

此前,谷歌在其2019年I/O開發者大會上公布了三個獨立的無障礙項目:前面提到的旨在幫助語言障礙患者的Euphonia項目;Live Relay,專為聾啞人士而設;和Diva項目,它通過谷歌助手給人們一些獨立和自主權。當時,Mountain View公司指出了世界衛生組織的一些指標,以支持其努力:超過10億人,或15%的人口,患有某種殘疾。

原文連結

https://venturebeat.com/2019/07/17/googles-parratron-is-an-ai-tool-for-people-with-speech-impediments/

相關焦點

  • 人工智慧語義感知將幫助有運動障礙的聾啞人實現順暢交流
    研究人員使用人工智慧來減少非言語、有運動障礙的人依靠電腦與他人交談時候產生的「交流障礙」。來自劍橋大學和鄧迪大學的研究小組開發了一種新的上下文感知方法,通過減少50%到96%的鍵盤輸入來減少交流障礙。該系統專門針對非語言的人群進行跟蹤,並使用一系列上下文「線索」,比如用戶的位置、時間或與用戶交談人員的身份來幫助建議與用戶最相關和匹配的句子。患有運動障礙的非語言人士經常使用有語音輸出的電腦與他人交流。
  • 不只有阿爾法狗,谷歌的人工智慧已經非常非常可怕了!
    研發團隊選取從2011年到2015年BBC各類節目視頻進行實驗。▼當然,這一切是在沒有聲音的前提下測試的而這項技術谷歌是希望能夠幫助聽力障礙者,讓他們能夠通過視覺即可知道對方說了什麼。▼而這些還不是全部!
  • 人工智慧解讀唇語 不止能解碼語音和語言翻譯
    【科技訊】11月30日消息,使用人工智慧來解碼語音和語言已有先例,而現在人們又能夠根據人工智慧來解讀唇語。說話者的發言,以及嘴部各個部位的位置會被同時記錄,然後通過人工智慧網絡算法進行分析。人工智慧解讀唇語 不止能解碼語音和語言翻譯2[/page]
  • 重磅| 福布斯深度專訪Jeff Dean——谷歌人工智慧背後的大腦
    在這篇涉及範圍廣泛的訪談中,Jeff Dean 描述了他在谷歌的多種角色、該公司的人工智慧願景、他對谷歌作為科技巨頭的同時又如何保持創業精神上的想法,等等眾多主題。Jeff Dean 在獲得華盛頓大學計算機科學博士學位的三年之後(1999 年)加入了谷歌公司,成為了該公司最早的員工之一。
  • 孩子不愛理人、性格孤僻,是交流障礙還是語言發育遲緩?
    自打貝貝到幼兒園上學以來,不僅語言問題沒見好,老師還反映說小朋友不願意跟貝貝一起玩,同班同學老是到老師那裡告狀,說貝貝同學不愛理人,需要小組完成的活動也進行得不夠理想。媽媽聽完這番話瞬間傻眼了,生怕孩子是自閉症或交流障礙,但醫院的檢查結果顯示一切正常,這是咋回事呢?
  • 世界頂尖學府新加坡國立大學學子研發「AvTant」學習工具,讓科技...
    現年23歲的張之堯和他的同學胡家俊利用課餘時間精心研發了一款名為「聽覺口語小助手」(AvTant)的學習工具,快速提高4-12歲聽障兒童的發音準確性。靈感迸發於生活,讓科技改變人生張之堯和胡家俊一直都對科技研發有著濃厚的興趣,「讓科技改變更多人的命運」是他們倆的座右銘,而他們這一次的發明靈感也來自於生活。
  • 半個世紀前發明的工具,成為了人工智慧的瓶頸
    如今,電子表格被廣泛應用於工作生活的各個方面,甚至連學童都可以像財務分析師管理預算一樣使用這一工具。 神經網絡是一種複雜的人工智慧程序,能夠模擬人腦的計算過程。近年來,由於神經網絡的發展,頂尖人工智慧研究人員關注的焦點已經從結構化數據(例如成行成列的文字和數字)轉向了圖像。
  • 微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類
    基於一年前推出的GLUE基準,SuperGLUE包含了一系列更難理解的語言挑戰、改進的資源和公開的排行榜。當SuperGLUE剛被推出時,排行榜上表現最佳的模式和人類表現之間有近20個百分點的差距。但截至1月初,有兩個模型:微軟的DeBERTa和谷歌的T5 + Meena——已經成為第一個超越人類基線的模型。
  • 認知障礙篩查工具——SCS簡介
    但由於認知症發病隱匿,病程時間長的原因,會使老年人產生一種「這是年老的正常現象」的錯覺,等真正發現時卻已為時已晚,所以老年痴呆的篩查和幹預已變得刻不容緩。老年痴呆不僅使患者本身遭受了巨大痛苦,更使家屬承擔了巨大壓力。難道面對這種疾病我們真的只能束手無策嗎?答案當然是否定的。我們目前雖然還沒有找到明確的治療手段,我們卻能通過前期幹預延後發病時間,進而達到預防老年痴呆的目的。
  • 人工智慧的人文主義,如何讓AI更有愛
    那時,人工智慧將賦能萬物,成為和空氣、水一樣的存在,每個人都能平等有尊嚴地享受智能生活。 二、對人工智慧的人文反思成為焦點 若以「傻瓜式」智能藍圖為目標,就需要人工智慧技術發展以人為本、造福民生。
  • 谷歌神器眼鏡面世,3600萬盲人有望「重見光明」,售價上萬一副
    今天,谷歌與荷蘭初創公司共同開發的人工智慧眼鏡在官網正式接受預定。這款神奇眼鏡能幫助盲人和視力受損的人看東西,目前有兩種規格可選,價格分別是1499歐元和1699歐元,折合人民幣11819人民幣和13396人民幣。需要強調的是,谷歌並不是非是從醫學層面解決盲人的問題,更貼切地說,它充當的是盲人「助手」的角色。
  • 【福州星田兒童發展中心】兒童語言障礙及語言障礙的病因是什麼?
    言語與語言發育障礙指在發育早期就有正常語言獲得方式的紊亂,表現為發音、語言理解,或語言表達能力發育的延遲和異常雖然語言發育進程是按照正常兒童的順序,但其速度比正常兒童的慢,當環境對兒童語言的要求增加時,語言的總是就更為明顯了,某些染色體和遺傳性疾病伴有語言障礙,例如唐氏綜合症( 21- 三體綜合症)的兒童有程度不等的語言障礙;脆性 X 綜合症兒童的語言障礙為韻律和語言內容是有特別的形式。
  • 谷歌的人工智慧越來越可怕了
    谷歌的人工智慧在徵服人類的道路上,遠不是學會走路這麼簡單。谷歌的程式設計師們在下一盤大棋。在過去的幾年時間裡,谷歌一直在嘗試人工智慧在不同領域的應用和創新。最被大家熟知的就是,之前在圍棋大戰中戰勝柯潔的「阿爾法狗」了。在最新的人工智慧實驗中,谷歌的「Deepmind」再次像世人展示它強大的學習能力——它學會了走路,甚至跑酷。
  • 中譯語通「輕應用」 撬動語言服務科技升級
    就海外影視劇而言,字幕翻譯成為大多數國內觀眾的「第一需要」。由此,強大的字幕翻譯平臺,就成為了行業最迫切的「呼喚」。「字幕通」作為中譯語通科技(北京)有限公司(以下簡稱中譯語通GTCOM)譯雲語言科技生態下的重要應用,結合了語音識別、圖像識別、機器翻譯等技術,為行業帶來一款一站式完成字幕翻譯製作的工具。據悉,當前85%的海外視頻字幕機翻服務均為「字幕通」的始創者中譯語通GTCOM提供。
  • 兒童語言障礙病因是什麼
    在學齡前兒童中,溝通障礙是為多見的一個發育總是有7%~10%的兒童語言的發育低於正常標準,而3%~6%的兒童有語言感受或表達障礙,並影響日後的閱讀和書寫。因此,早期發現、早期診斷和及時的治療尢為重要。我國近年來已開展了兒童語言障礙的臨床診治。語言障礙病因1、智能發育障礙語言發育障礙的常見原因是智能發育遲緩。
  • 四川譯訊信息科技有限公司創始人馬帥:AI賦能翻譯 打破語言溝通障礙
    在全球化潮流推動下,各國之間的經貿、文化交流頻繁,語言   為了完成這單看似「不可能」完成的翻譯業務,他們自主研發了一套系統,自此,公司的名聲在業內傳開了,規模得以迅速擴展,人員從10人增長到60多人。
  • 谷歌公布AI基金細節: 自己投資了哪些潛力股? 如何成為谷歌一樣的...
    谷歌對創業公司Algorithmia進行了1050萬美元的A輪投資在7月11日,谷歌終於公開對外表示,在谷歌公司下成立Gradient Ventures風險投資基金,對秉持「人工智慧現行」理念的初創公司進行投資。谷歌進入風險投資領域,這到底意味著什麼?被谷歌投資的,都是什麼樣的公司?作為投資人,如何成為像谷歌一樣的AI投資者?
  • 研究人員使用人工智慧技術來評估與帕金森氏症相關的語言障礙
    赴美醫療服務機構和生元國際了解到,COVID-19大流行正在引領普渡大學的一位創新者做出改變,為帕金森氏症患者提供新的選擇。 Jessica Huber是普渡大學健康與人類科學學院的語音、語言和聽力科學教授和副院長,她領導著普渡大學的運動語音實驗室。
  • 語言障礙和言語障礙有啥區別,對孩子語言的康復有幫助嗎
    對於兩者的關係還可以這樣認為:言語是第一性的,語言是第二性的,哪裡有言語,哪裡就有語言,哪裡沒有言語,哪裡就沒有語言;語言從言語中來,又反作用於言語,言語的使用必須受到語言的約束,否則就無法在社會中進行交際。語言是工具,言語是工具運用,「語言是是言語的工具,又是言語的產物。」它們是工具和工具運用的關係。
  • 谷歌人工智慧首次破解圍棋比賽:完勝歐洲冠軍
    「機器學習」預測人類行為  傳統的人工智慧方法是將所有可能的走法構建成一棵搜索樹 ,但這種方法對圍棋並不適用。此次谷歌推出的AlphaGo,將高級搜索樹與深度神經網絡結合在一起。這些神經網絡通過12個處理層傳遞對棋盤的描述,處理層則包含數百萬個類似於神經的連接點。