谷歌助手精通30種語言智商碾壓各大競爭對手 語音助手學習語言有多...

2021-01-19 前瞻網

與流行的「以英語為中心」的觀點相反,從以英語為母語的人的總數來看,英語並不是世界上說的最多的語言,也不是第二多的語言。事實上,西日耳曼語排在第三位,接下來是印地語、阿拉伯語、葡萄牙語、孟加拉語和俄語。普通話和西班牙語分別排名第一和第二。

令人驚訝的是,谷歌助手、蘋果的Siri、亞馬遜的Alexa和微軟的Cortana只能識別出其中相對較小的一部分語言。直到今年秋天,三星的Bixby才獲得了德語、法語、義大利語和西班牙語的支持。全球共有6.16億人使用這些語言。Cortana花了好幾年時間才精通西班牙語、法語和葡萄牙語。

那麼,為什麼創新的步伐如此緩慢呢?如果你想要找到答案,最好是從用於訓練語音識別算法的技術開始。事實證明,人工智慧助手遠比我們看到或聽到的要複雜得多。

為什麼讓語音助手「支持」一門新語言如此困難

在語音助手上添加對一種語言的支持是一個多管齊下的過程——在語音識別和語音合成方面都需要大量的研發工作。

「從語音交互的角度來看,有兩件事是相互獨立的,」初創公司Clinc的產品副總裁Himi Khan在接受VentureBeat採訪時說。「一種是語音到文本——將語音本身轉換成某種視覺文本格式的行為。然後是自然語言處理組件。」

如今,大多數語音識別系統都藉助於深度神經網絡——神經元類數學功能層,隨著時間的推移,這些功能會自我完善——來預測音素,或感知上不同的聲音單位(例如,英語單詞pad、pat和bad中的p、b和d)。以前的自動語音識別(ASR)技術依賴於手工調整的統計模型來計算單詞組合在短語中出現的概率,而深度神經網絡則不同,它將聲音(以分段譜圖或聲音頻率譜的表示形式)轉換成字符。這不僅降低了錯誤率,而且在很大程度上消除了對人工監督的需要。

但是基礎語言理解是不夠的。如果不本地化,語音助理就無法了解文化特質——或者更糟的是,無法了解不同文化之間的適當規範。Next IT首席技術創新官Joe Dumoulin在接受Ars Technica採訪時表示,為一門新語言構建一個查詢理解模塊需要30至90天,具體時間取決於該模塊需要涵蓋多少意圖。即便是谷歌和亞馬遜等市場領先的智能音箱,也很難聽懂帶有某些口音的方言。9月由Vocalize.ai進行的一項測試發現,蘋果的HomePod和亞馬遜的Echo設備只能捕捉到78%的中文單詞,而在英語和印度語方面的這一比例為94%。

Khan說:「在核心層面,某些語言之間的差距是非常大的。例如,在英語中,形容詞通常出現在名詞之前,副詞可以出現在名詞之前,也可以出現在名詞之後。有一個很好的例子:如果有人說,『Starfish』,就會變得比較難理解。根據你的語音文本轉換引擎和類似的東西,你可以很容易地將「star」和「fish」作為形容詞或單個名詞聯繫起來。有各種不同的術語被使用,你必須適應不同的說話模式。」

學一門語言已經夠難的了。亞馬遜Alexa AI部門的研究人員在2018年8月描述了其中一個潛在問題。在與助手的典型聊天過程中,用戶經常在連續的問題中調用多個語音應用程式。這些應用程式重新使用變量——例如「town」和「city」。如果有人問了方向,接著又問了一個關於餐館位置的問題,一個訓練有素的助理需要能夠弄清楚在回答這個問題時應該參考哪條線索。

然後,助理必須做出回應。如果不能,它就沒有多大用處。

而先進從文本到語音(TTS)系統像谷歌Tacotron 2(構建基於譜圖的語音合成模型)和WaveNet(構建基于波形的模型)或多或少地從語音中學習語言。

另一種被稱為參數TTS技術利用數學模型重建聲音,然後將這些聲音組合成單詞和句子。生成這些聲音所需的數據存儲在參數(變量)中,語音本身是使用一個語音編碼器(vocoder)創建的。語音編碼器(coder-decoder)用於分析和合成輸出信號。

儘管如此,TTS還是比語言理解更容易解決——尤其是通過對於數據科學家可以隨意使用的像WaveNet這樣的深層神經網絡。亞馬遜基於Polly cloud的TTS服務支持28種語言,微軟的Azure語音識別API支持75種以上。而且,谷歌、微軟和亞馬遜已經提供了人工智慧系統合成的中文、荷蘭語、法語、德語、義大利語、日語、韓語、瑞典語和土耳其語的精選語音。

語音助手支持的語言

谷歌助手

今年1月,谷歌助手新增加支持20多種新語言,憑藉其能聽懂的語言數量谷歌助手拔得頭冠。目前,它已經在80個國家的30種語言中被廣泛使用,而在2017年,這一數字僅為8種語言和14個國家。它們包括:

阿拉伯語(埃及、沙烏地阿拉伯)

孟加拉語

中文

丹麥語

荷蘭語

英語(澳大利亞、加拿大、印度、印度尼西亞、愛爾蘭、菲律賓、新加坡、泰國、英國、美國)

法語(加拿大、法國)

德語(奧地利、德國)

古吉拉特語

北印度語

印度尼西亞語

坎那達語

義大利語

日語

韓語

馬拉雅拉姆語

馬拉地語

挪威語

波蘭語

葡萄牙語(巴西)

俄語

西班牙語(阿根廷、智利、哥倫比亞、秘魯)

瑞典語

泰米爾語

泰盧固語

泰語

土耳其語

烏爾都語

蘋果Siri

直到今年1月,蘋果的Siri在支持語言的廣度方面一直領先於谷歌助手。目前,它支持36個國家的21種語言,以及漢語、荷蘭語、英語、法語、德語、義大利語和西班牙語的數十種方言:

阿拉伯語

中文(普通話、上海話和廣東話)

丹麥語

荷蘭語

英語

芬蘭語

法語

德語

希伯來語

義大利語

日語

韓語

馬來語

挪威語

葡萄牙語

俄語

西班牙語

瑞典語

泰語

微軟的Cortana

Cortana於2013年4月在微軟的Build developer大會上首次亮相,後來又通過與亞馬遜的合作,在Windows 10、耳機、智能揚聲器、安卓、iOS、Xbox One,甚至Alexa上發布。Cortana支持的語言可能不及谷歌助手和Siri那麼多。儘管如此,它在6年的時間裡取得了長足的進步。以下是它能識別的語言:

中文(簡體)

英語(澳大利亞、加拿大、紐西蘭、印度、英國、美國)

法語(加拿大、法國)

德語

義大利語

日語

葡萄牙語(巴西)

西班牙語(墨西哥,西班牙

和Siri一樣,Cortana也進行了廣泛的本地化。由英法女演員 Ginnie Watson配音版本帶有英國口音,使用英國習語;而中文版則講普通話。

亞馬遜Alexa

Alexa可以在41個國家的150多種產品上使用,但它支持的語言是語音助理中最少的:

英語(澳大利亞、加拿大、印度、英國和美國)

法語(加拿大、法國)

德語

日語(日本)

西班牙語(墨西哥、西班牙)

公平地說,亞馬遜已經煞費苦心地在擴張新地區進行本地化。當Alexa去年進軍印度市場時,它推出了一種「全新的英語語音」,能聽懂當地發音,並能用當地發音交談。

值得注意的是,情況正在改善。亞馬遜表示,超過1萬名工程師正在研究其NLP協議棧的各種組件,該公司通過眾包的方式逐步擴展了對語言的支持。去年,該公司發布了一項名為「Cleo」的遊戲化技能,獎勵那些用當地語言和方言(如普通話、印地語、泰米爾語、馬拉地語、卡納達語、孟加拉語、泰盧谷語和古吉拉特邦語)重複短語的用戶。

三星Bixby

三星的Bixby搭載在三星的旗艦和中端Galaxy智慧型手機系列以及即將推出的Galaxy家庭智能揚聲器中。Bixby在全球200個市場都有銷售,但只支持這些國家的少數幾種語言:

英語

中文

德語

法語

義大利語

韓語

西班牙語

三星在歷史上曾遭遇過NLP的挫折。《華爾街日報》在2017年3月報導稱,三星被迫推遲了英文版Bixby的發布,因為它無法理解某些句法和語法。

語言支持在未來如何改進

很明顯,一些語音助理在語言方面取得了更大的進步,而有一些仍在在苦苦掙扎。如何才能讓這些落後的語音助手迎頭趕上呢?

Khan認為,更加依賴機器學習可能會有所幫助。

他解釋說:「處理多語言支持的主要挑戰之一實際上是與之相關的語法規則,必須考慮並適應這些語法規則。大多數NLP模型都是利用某個句子做詞性標註——在某種意義上識別語法,或話語中的語法,並創建規則來決定如何解釋該語法。」

Khan說,有了一個「真正的」神經網絡棧——一個不太依賴於語言庫、關鍵字和字典的棧——重點就從語法轉移到單詞嵌入以及單詞嵌入中的關係模式。然後,幾乎可以在任何語言上訓練語音識別系統。

這就是Clinc的方法——它宣稱自己的技術或多或少與語言無關。該公司通過向大量以英語為母語的人提出開放式問題來構建corpa,比如「如果你能打電話問一下你的個人財務狀況,你會說什麼?」它將響應視為現實世界中使用的「調優器」數據集。

只要這些數據集是用一種本地語言管理和創建的,Clinc聲稱只需3到500個發音,它可以添加對一種語言的支持——比傳統的統計方法少幾千個。

「我們用來訓練人工智慧的所有數據都是由母語人士創建的,」Khan 說。「這樣一來,人工智慧就能優化消費者的實際行為。」

總部位於舊金山的Aiqudo採取了稍微不同的策略。這家初創公司提供摩託羅拉Hello Moto 助手的基礎技術,專注於意圖(用戶希望智能系統執行的動作),並創建跨類別的「動作索引」,如餐館、電影和地理位置,將給定的意圖映射到應用程式、服務和功能上。

Aiqudo的模型不需要理解整個語言——只需要理解意圖。例如,僅從動作指數就可以知道,「Make a dinner reservation for tomorrow at seven p.m. at Avia」這句話中的「Avia」可能指的是一家餐館,而不是電視節目。

該公司執行長John Foster在接受VentureBeat的電話採訪時說:「我們並不一定能真正理解語言本身。我們所做的基本上是用我們可以獲得的數據來預先訓練我們的算法,然後我們去統計這些單詞在頁面上的位置,以及它們在頁面上相對於周圍其他單詞的位置。這就成為我們閱讀這些詞在不同語境中的含義的基礎。」

本地化只需要構建特定區域的操作索引。(巴塞隆納的「Avia」可能與墨西哥城的「Avia」有所不同。)這不僅使Aiquido的模型能夠相對快速地獲得對新語言的支持,而且使它們能夠處理混合語言——結合單詞、表達式和習語的語言——如西班牙式英語。

Foster 說:「我們的模型不會被(混合語言)搞糊塗,因為(當)他們看印地語句子時,他們只是在尋找意圖。如果有些單詞是英語,有些是印地語,那也沒關係。」

毫無疑問,谷歌、蘋果、微軟、亞馬遜、三星等公司已經在使用Foster和Khan所描述的技術,為各自的語音助手增加新的語言支持。但是,有些公司搶先一步,而另一些公司則不得不與遺留系統競爭。

本文來源前瞻網,轉載請註明來源。本文內容僅代表作者個人觀點,本站只提供參考並不構成任何投資及應用建議。(若存在內容、版權或其它問題,請聯繫:service@qianzhan.com) 品牌合作與廣告投放請聯繫:0755-33015062 或 hezuo@qianzhan.com

相關焦點

  • 華為推語音助手 Celia:海外版 「小藝」,支持三種語言
    新版系統帶來了全新微立體AOD、阻尼感動效、多設備控制中心,智慧分屏,分布式圖庫,以及可以共享屏幕的暢連通話,還有全新的Celia語音助手。Celia是華為自研語音助手,隨華為P40系列首發出海,用戶長按電源鍵或說「Hey Celia」便可喚醒語音助手。華為手機產品線副總裁李小龍表示,Celia是華為中國市場語音助手「小藝」的英文名。
  • 小娜走了,微軟小冰又來了,語音助手到底有沒有用
    語音助手在技術上除了要實現高精度的語音識別之外,還要根據識別出的命令完成特定功能來滿足使用者的需求。這就要求語音助手要獲得足夠的系統控制權限,在Windows系統內Cortana當然擁有足夠多的權限,讀取信息,發送郵件,調用底層硬體等等這些都是可以完成的。
  • 靈犀語音助手蘋果版下載_靈犀語音助手iOS版免費下載-太平洋下載中心
    靈犀語音助手 學習辦公 大小: 235.4 MB
  • 語音如何翻譯成別國語言?錄音轉文字助手來幫你
    想要把中文語音翻譯成英文,或者把英文語音翻譯成中文,大家可以嘗試使用以下這款軟體哦。「錄音轉文字助手」APP是一款語音翻譯軟體,除了進行中英互譯,還能進行其他別國語言的翻譯,可以解決生活中的很多關於語言不通的麻煩事。
  • 谷歌助手反應速度快10倍,是時候需要思考「人工智慧規則」
    神經網絡技術的重大突破谷歌首席科學家博費(Francoise Beaufays)表示,這位新語音助手是五年工作的頂峰。在這五年中,谷歌的研究人員在人工智慧音頻、語音、語言識別和語音控制方面取得了關鍵進展。「我們所做的是用一個神經網絡重新設計整個堆棧,完成整個任務。」博費說。這是一個重大的技術突破,將所需空間從100千兆字節減少到不到半千兆字節。
  • 語音助手在俄羅斯頗受歡迎
    Yandex公司2017年10月推出Alisa語音助手,能識別語音並輸出合成語音,使用的是斯嘉麗·詹森的配音演員塔季揚娜·施託娃(Tatyana Shitova)的聲音。Alisa每日用戶超過800萬人。
  • 三星宣布將讓SmartThings Nest和谷歌助手設備兼容
    用戶在智能家居生態系統中可以選擇谷歌助理,亞馬遜Alexa,三星SmartThings,Nest,這個名單還在繼續。一般來說,這些生態系統之間並不具備大量的互操作性,但這種情況可能會開始改變。今天,三星和谷歌宣布,將聯手讓SmartThings、Nest和谷歌助手設備之間實現兼容。
  • Fitbit Versa 3&Sense固件更新,可支持谷歌助手
    Fitbit宣布,下一次固件更新開始時,谷歌助手將成為其某些設備的一部分。今天推出的Fitbit OS 5.1更新將語音助手整合到Fitbit Sense和Versa 3中。
  • 超聲波對語音助手有什麼風險
    超聲波對語音助手有什麼風險 謝開飛 發表於 2020-03-31 16:35:46 隨著人工智慧和自然語言處理技術的發展,聲音已經成為人機互動的重要方式。
  • 索尼ICD-UX560F測評,學習和商務語言好助手
    數碼錄音筆在人們的學習和商務生活中扮演著重要的角色,是學習和商務語言的好助手。而索尼的數碼錄音筆在各大品牌錄音筆中有很高的地位。索尼錄音筆的定位大概可以分為五種使用環境,便攜方便夾帶的TX數碼系列錄音筆;大口徑揚聲器為特色的PX系列數碼錄音筆;在各種用途中進行清晰錄音和播放的UX系列數碼錄音筆;能適應各種場景進行高品質錄音的SX系列數碼錄音筆以及針對高品質現場錄音旗艦級錄音筆產品PCM系列數碼錄音筆。
  • 華為發布 Celia 語音助手,後續將在多國上線
    3月26日消息,在華為 P40 系列手機發布會上,餘承東除了發布三款手機外,還發布了一款名為 Celia(音同「西莉亞」)的國際版語音助手,該助手目前支持三門語言,分別是英語、法語、西班牙語!華為發布國際版語音助手 Celia ,強勢對抗蘋果Siri 三星Bixby?
  • 天,谷歌助手要成精了
    以後寫文章是不是得改用 Gmail 了谷歌的人工智慧語音助手 Google Assistant 也做了很多升級,變得更加強大了。同時,現在助手能支持非常複雜的指令,用戶可以在一句話裡加入好幾個命令,而且能準確的分辨語義。總而言之,谷歌把消費者級別的自然語言處理又帶到了另一個高度。
  • 谷歌正式發布John Legend版語音助手
    一年多前,谷歌決定推出一款有著多種語音選項的AI助手,簡稱谷歌助手,著名唱作人John Legend的聲音被作為主推聲音,而其他聲音則通過人工合成。谷歌發布公告後不久,除John Legend外其他聲音均已上線,而直到本周三,谷歌助手的第一個名人客串語音才正式誕生。
  • 谷歌研發人工智慧工具Parrotron,讓語言 障礙者正常交流成為可能
    Parrotron利用端到端的人工智慧系統,該系統經過培訓,能夠將有障礙的人的語音直接轉換為「流暢的」合成語音,有效地跳過文本生成。它僅考慮語音信號而不是視覺提示,例如嘴唇運動,並且使用平行的輸入、輸出語音對語料庫進行兩階段訓練。一般的語音到語音轉換模型首先從大數據集饋送樣本,然後暴露於語料庫,該語料庫將其變量調整為來自目標人的非典型語音模式。
  • 旅行翻譯官完全版:自助遊語言助手
    以前大家都習慣跟團,但是上車睡覺,下車拍照真的很沒勁,現在越來越多的驢友開始選擇自助遊,這個趨勢也催生了一大批旅遊應用。比如我們曾經介紹過的Touch China、朋遊等等,這些應用偏重於景點介紹展示,有的還帶有語音導覽功能和豐富的旅行攻略,非常給力。而今天介紹的旅行翻譯官同樣是一款自助遊輔助應用,不過其主要解決的是驢友們出門在外遇到的語言交流問題。
  • 華為手機功能之語音助手小藝,帶你了解小藝的使用方式
    隨著科技的發展,手機已經不是最初簡單的通訊工具,大家通過手機通訊、交友、娛樂、辦公,它已經融為我們生活的一部分,手機的功能日益強大,而其中的語音助手想必大家都不會陌生,近幾年幾乎新發布的智慧型手機都會帶這個功能,小編記得有一次無聊還找語音助手聊天,結果卻是答非所問,但是在我們要通過語音對手機進行一些基本操作的時候
  • 你還在「調戲」語音助手嗎?安全專家表示,黑客可能已經盯上你了!
    據外媒報導,語音助手讓我們的生活更輕鬆,但安全專家表示,它也面臨著被侵入的風險。自今年年初以來,多個谷歌Nest安全攝像頭用戶報導有黑客侵入:黑客宣布朝鮮飛彈來襲、恐嚇要對一個家庭的孩子下手、將家用自動調溫器調到90度、打開語音進行語言辱罵。這些事件令人擔憂,但語音助手「悄無聲息地妥協」更具破壞性。
  • LG不甘示弱 新機G6或將配置谷歌語音助手
    據國外網站20日報導,LG正試圖說服谷歌,將其自家的Google Assistant(谷歌語音助手)應用在LG的新款旗艦智能機G6中。目前已使用Google Assistant的手機僅有谷歌自家的Pixel和Pixel XL。而如果谷歌同意這一合作,那麼LG G6將成為除谷歌外,首款搭載Google Assistant的智慧型手機。
  • 華為和魅族的關係,從語音助手的回覆就能看出來!
    相對於iPhone 的Siri來說,華為的語音助手「小藝」有點姍姍來遲。前者在2007年誕生,2010年被蘋果收購,而且其技術來源是美國軍方的CALO計劃,之後才衍生出民用版Siri。而華為的小藝(小E)年紀竟然沒有在網上查到,不過應該是近兩三年才推出的。
  • 有道翻譯王2.0 Pro體驗:懂43種語言,離線翻譯更快
    比如精通43種語言在線翻譯,中英翻譯質量超過專業八級水準,中、英、日、韓4中語言無WiFi無網絡也能翻譯,服務全球7億人.......似乎在回答消費者每一個疑問。仔細想來,一個翻譯硬體吸引用戶的不僅僅是外觀,更重要的是實力,這顯然是網易有道團隊想傳遞給友商和消費者的信息之一。