在印度這個「語言難關」最前線,亞馬遜的語音助手遇到了哪些困難?

2020-12-12 極客公園

編者註:最近,亞馬遜語音助手 Alexa 進入了印度市場,但和很多公司一樣,它遇到了前所未有的挑戰——印度國內語言和宗教環境複雜,給語音類產品的落地增加了困難。最近,外媒 Factor Daily 發布了一篇講述亞馬遜 Alexa 攻克印度市場的文章,極客公園特別進行了編譯分享給各位讀者。

原文發表在 Factor Daily , 原標題為《The backstory of Alexa’s Indian makeover: desi, agnostic, politically independent and… work in progress》,作者 Sunny Sen。

她很智能,說話流利,可以幫你預訂計程車,查找烹飪食譜,還能播放你最愛聽的音樂。她最喜歡薄荷巧克力味的冰淇淋,會著迷於男演員 Shah Rukh Khan,也喜歡 Emily Stone 和 Rachel Weisz 這些女演員。她還是一位典型的印度女士,或許能回答你所有的問題。那麼她究竟是誰呢?

她叫 Alexa,一款智能語音助手,出生在美國的亞馬遜家族,但卻操著一口帶著印度口音的英語。因為受過專業的訓練,所以上面這些對她而言小菜一碟。印度是她第四個進入的國家,這展現了亞馬遜的雄心——讓 Alexa 出現在每個角落,將她裝進你的手機,你的車,你的家裡,甚至包括酒店和辦公室。早期在美國、英國和德國,Alexa 都取得過不小的成功。世界各地有幾十家公司把 Alexa 添加到他們的產品當中。在 CES 展會上,福特、大眾和奧迪也展示了將 Alexa 嵌入儀錶板的汽車。

亞馬遜 Echo Plus 和 Echo Dot

一般情況下,當連接到網際網路時 Alexa 可以回答語音提問。但在印度 Alexa 將面臨一次前所未有的考驗。萊迪思電子信息技術有限公司總經理 Mohan Ram 曾感慨道:語音助手在使用一種或者兩種語言的國家表現不錯,但印度的情況真的很不一樣。

Ram 自 2001 年以來一直從事於語音識別技術領域。2001 年他告訴投資者公司將在五年內解決卡納塔克邦的語言和方言問題。但與這個難題爭鬥了17 年後,Ram 卻無奈地表示只能解決問題的 80%,因為印度每隔 100 公裡就有語言變化,方言每 30 公裡就不一樣。不過他認為人工智慧,機器學習和深度學習將能幫助解決問題。如今的亞馬遜就是在運用新技術幫助 Alexa 對抗印度語言種類繁多這一「老大難」的問題。

直面「語言障礙」難關

將 Alexa 推向印度市場的一年多以前,亞馬遜就已經開始培訓 Alexa,以迎合當地的需求。駐外經理 Puneesh Kumar 稱「Alexa 需要了解當地的口語詞彙及其背景。與其他單一語言國家不同的是,在印度我們將更多地讓 Alexa 學習帶有專有名詞的詞語——可能是人名,地名,寶萊塢唱片名或者電影名字。」Kumar 自 2010 年 5 月以來便一直在亞馬遜工作,曾在亞馬遜中國擔任高級項目經理,負責市場開發。在出任了兩年半時間的亞馬遜全球銷售計劃的總經理之後,他開始負責 Alexa 開拓印度市場的工作。

亞馬遜 Alexa 駐外經理 Puneesh Kumar

對於如何應對語言障礙這一難關,Kumar 曾說:「我們必須打破常規,Alexa 不能只懂得英語。我們需要訓練 Alexa ,讓她了解泰米爾語,印地語,泰盧固語,旁遮普語,和馬拉雅拉姆語等。」語言問題對印度來說是獨一無二的,因為它的行政邦就存在很多種方言。例如,位於卡納塔克邦和馬哈拉施特拉邦邊界的貝爾高姆市,人們使用的語言糅合了康卡尼語,馬拉地語和卡納達語。距離貝爾高姆 386 公裡, 卡納塔克邦的城市烏都皮也存在這樣的情況,人們會使用圖魯語,馬拉雅拉姆語和卡納達語三種語言。

矽谷研究公司 Constellation Research 的首席分析師兼董事長 Ray Wang 表示:「印度人口眾多,所以按邦解決問題更具實際意義。雖然Alexa在學習能力上仍然落後於谷歌,但她能夠迅速趕上。」亞馬遜結合雲計算和人工智慧兩項開創性技術創造出Alexa,她通過語音交互,可以在機器學習的框架下不斷地得到改進,變得越來越出色。

Alexa 基於自然語言理解,可以理解句子和語境,並將其從文本轉換為語音。這需要她區分好語境,比如在美國和英國,當人們說到「Marks」這個詞時,他們談論的是「痕跡」,但在印度,這通常是指「成績和分數」。通過機器學習,Alexa 知道了印度是以 lakhs(十萬)和 crores (千萬) 為單位計數,而不是以 millions(百萬)和 billions(十億)為單位。除此之外,她掌握了 UP(北方邦),MP(中央邦)和 CM(首席部長)這類縮寫詞彙,也學習了印地語,如 haldi,jeera 和 dhania 等常見的單詞。

專為印度量身打造

目前 Echo 設備的客戶體驗仍在改進當中,如獲取新聞和天氣信息,語音控制智能家居產品等等。如果在 FactorDaily 班加羅爾辦事處向Echo 提問「誰是 Anand Murali」,或許它會給出一個錯誤的回答。而理想情況下,Echo 理應識別出 Anand ,並在搜索結果的頂部顯示他的 LinkedIn 個人資料。

實際體驗中, Shonali Muthalaly 認為 Alexa 還不完美,「Alexa 仍在搞清楚印度,因此當我讓她推薦餐館,預測路況和規劃路線時,她的回答往往一團糟」。Kumar 對此回應:隨著越來越多的人用上 Echo 設備,更多的話語將被用於數據分析, Alexa 也能學習到更多,情況會慢慢好轉的。

Kumar 坦白培訓 Alexa 並不容易。亞馬遜以一套有限的詞語開始訓練她,詞大約有一萬個,這些詞被稱為訓練數據。此外, Alexa 還要通過測試數據的訓練,而這個數據的量是無限的。識別語音過程中,Alexa 將模式,聲音,詞彙和語境結合起來分析用戶說話的內容。如果有一處與信息庫內容不匹配,Alexa 會對此進行跟蹤,同時形成一個關於不匹配信息的數據集,交由機器學習處理。

在 Kumar 看來, Alexa 的「殺手鐧」在於無論用戶怎麼表達語音指令,她都能真正理解用戶的意圖。例如,用戶想要播放歌曲,他可以說「播放 XX 電影的歌曲」,或者「播放 XX 作詞者的歌曲」,甚至不說出「播放」這個詞,只說「為我唱歌,幫我緩和下心情」。而為了更好地達到這個效果,Kumar 表示他們正在嘗試增強語言的相關性。如果用戶在獲取結果後的幾秒鐘內說「不」或重新輸入語音命令,機器學習算法也能明白 Alexa 沒有做到用戶所期待的。

亞馬遜使用了機器學習和人工幹預兩種方法訓練 Alexa,尤其是針對同一個詞有多個發音的情況。為使 Alexa 更準確地區分它們,亞馬遜專門請了非常熟悉這些詞彙的人進行監督,以確保她發音準確。當然不可能每個單詞都這麼做,所以訓練系統會提取前 20 或 30 個單詞用於訓練。

此外,Kumar 表示雖然亞馬遜希望 Alexa 能夠理解不同的文化,口音和對著麥克風說話時人的思維方式,但它的聲音並不會從南到北發生變化。所有 Alexa 說出的詞語都用純正的印度語錄製。由於不可能錄入每一個單詞,亞馬遜選擇了一組單詞作為基本詞彙,並將它與機器學習,語音和詞典結合起來。另外,為了讓 Alexa 熟悉各種口音和語言,亞馬遜也讓不同語言使用者入錄聲音。在機器學習的幫助下, Alexa 在印度的聲音得到了統一,Kumar 將之視為 Alexa 的專屬「人格」。

來自「星際迷航」的靈感

亞馬遜的 Alexa 語音服務和技能負責人 Steve Rabuchin 此前告訴《連線》,Alexa 的產生其實受到了「星際迷航」中出現的電腦的啟發——用戶可以通過簡單的語音命令來控制周圍的一切。

在全面進入印度市場之前,Alexa 就擁有了 10800 種技能,而當初在美國推出時她只有 13 種技能。技能是基於語音的應用程式,它允許用戶使用語音命令來操作應用程式。Kumar 認為無論男女老少都能輕鬆學會使用這些技能。亞馬遜已經與印度的開發商展開了合作,將流行的應用程式整合到語音助手當中。目前支持的應用如下:

旅行類:Ola,Goibibo,ixigo 和 Jet Airways;飲食類:Faasos、Zomato、Freshmenu、Sanjeev Kapoor 和 Tarla Dalal;音樂類:Saavn 和 Bollywood Hungama;運動類:ESPNCricinfo;新聞和教育類:Times of India,NDTV、ABP Live、AajTak 和 Byju's;智能家居類:Syska 和 Silvan;家政服務類:UrbanClap 和 Housejoy 。

「亞馬遜非常具有侵略性,我們希望他們能夠在很短的時間內生產幾百萬臺設備。」ixigo 的執行長兼聯合創始人 Aloke Bajpai 認為 Alexa 是一個很好的發行平臺。但他沒有將 ixigo 限制在 Alexa 平臺上,而是嘗試建立自己的語音助手 Tara。在 Bajpai 看來, Alexa 作用有限,它需要變得更加積極,比如節假日臨近的時候主動為用戶提供一些建議。但他認可谷歌和亞馬遜兩大公司把業務重心放在語音助手後給自己帶來的影響,「語音合成技術已經得到了改善,在此基礎上,我們也在使用他們的 API」。

除了讓 Alexa 瘋狂學習的同時,亞馬遜也在塑造她的「人格」。Kumar 在一封電子郵件中提到:「我們將為她設計個性和個人偏好而使她更加人性化。最終,她在宗教上將是不可知論的,在政治上獨立,同時成為科學與技術,創新和進步的擁躉。」

對於 Alexa 是否充當著男女朋友或者忠誠伴侶角色的說法, Kumar 這樣回應:「我們希望的是 Alexa 能夠成長為專業的語音服務平臺,可以在任何情況下與人交談,並且真正地懂用戶的心。比如,當有人說『我現在壓力很大』時,她會關心地詢問『要不要來一些放鬆的純音樂呢?』。」 當然,在 FactorDaily 愉快工作的我們並不需要 Alexa 提供輕音樂減壓。

頭圖來源:Factor Daily

圖片來源:Factor Daily

相關焦點

  • 蘋果、Google、微軟、亞馬遜,哪家的語音助手會的語言最多,以及...
    蘋果、Google、微軟、亞馬遜,哪家的語音助手會的語言最多,以及為什麼?對語音助手來說,識別同一種語言的不同口音已經是個挑戰,而要「學會」一種新語言則更加困難。
  • 蘋果、Google、微軟、亞馬遜,哪家的語音助手會的語言最多?
    2018 年 9 月,一家叫 Vocalize.ai 的人工智慧初創公司做了一項測試,它比較了 Google、蘋果和亞馬遜的智能語音助手,發現了一些有意思的事情。比如,三家語音助手都能很好地識別美式口音和印度式口音的英語,但 Siri 和 Alexa 在識別中式口音時,準確度都大幅下降。
  • 谷歌、微軟、蘋果、亞馬遜、三星……哪家的語音助手支持語言種類...
    為什麼識別新語言的進度如此緩慢?究其原因,主要還是訓練語音識別算法的技術進度緩慢,事實上,AI語音助手比我們表面看起來的要複雜得多。為什麼支持一門新語言如此艱難?給語音助手添加語言支持是一個多管齊下的過程,這需要在語音識別和語音合成方面進行大量的研發。
  • 谷歌、微軟、蘋果、亞馬遜、三星…… 哪家的語音助手支持語言種類...
    給語音助手添加語言支持是一個多管齊下的過程,這需要在語音識別和語音合成方面進行大量的研發。就語音識別而言,首先要將語音轉換成文本,接下來再進行自然語言處理。但是,只進行基礎的語言理解是不夠的。如果沒有本地化,語音助手就無法了解不同語言所承載的文化的特性。Next IT 首席技術創新官 Joe Dumoulin 在接受 Ars Technica 採訪時表示,為一門新語言構建一個查詢理解模塊需要30至90天,具體時間取決於該模塊需要涵蓋多少意圖。即便是谷歌和亞馬遜推出的市場銷量領先的智能音箱,也很難聽懂帶有某些口音的語言。
  • 谷歌助手精通30種語言智商碾壓各大競爭對手 語音助手學習語言有多...
    如果你想要找到答案,最好是從用於訓練語音識別算法的技術開始。事實證明,人工智慧助手遠比我們看到或聽到的要複雜得多。為什麼讓語音助手「支持」一門新語言如此困難在語音助手上添加對一種語言的支持是一個多管齊下的過程——在語音識別和語音合成方面都需要大量的研發工作。
  • 進入印度兩個月,亞馬遜怎麼教語音助手學印度英語的?
    印度是 Echo 繼美國、英國、德國之後進入的第四個國家,和前三個說普通英語和德語的國家相比,Echo 的智能語音助手 Alexa 要面對的最大問題如何能操著一口流利的印度英語跟人交流。印度的官方語言有印地語和英語,經過本土化後,印度人說的英語在語調、用法上已經和英美英語有很大不同,形成了所謂的印度英語。
  • 谷歌語音助手年底前將增加30多種語言
    【環球網科技綜合報導】據外媒2月24日報導,谷歌語音助手將在2018年陸續推出超過30種語言的服務選項,該多語種功能可以幫助用戶在多種語言使用中自如切換。谷歌23日宣布,到2018年底,谷歌語音助手將有30多種語言可供使用,屆時谷歌將趕上亞馬遜的Alexa、蘋果的Siri及其他公司人工智慧研發的步伐。
  • 橫評谷歌、蘋果、亞馬遜語音助手的口音識別 誰完勝?
    【網易智能訊9月16日消息】近日,Vocalize.ai實驗室進行了一項語音識別測試,研究人員對虛擬助手Alexa、谷歌助手和Siri進行了測試對比。這項競賽的目的是為了查明這三種數字助手中誰能夠更好的理解那些帶有口音的人們所說的英語。研究人員分別使用美國本土口音、印度口音和中國口音的英語對三種語音助手進行了測試。
  • 亞馬遜Alexa語音助手是什麼?
    打開APP 亞馬遜Alexa語音助手是什麼? doodle 發表於 2017-01-09 17:51:38 CES2017已經閉幕,亞馬遜雖然沒有直接參展,但是許多廠商發布的產品搭載亞馬遜人工智慧語音助手Alexa讓其成為焦點。
  • Spotify 正在開發語音助手,語音交互在音頻內容平臺上可以大有所為
    外媒爆料稱,Spotify 正在開發語音助手,並以「Hey Spotify」作為喚醒詞。從 @wongmjane 在 twitter 上分享的截屏來看,Spotify APP 中顯示了一個新的「語音」子菜單,用戶可以在其中授權 Spotify APP 使用麥克風的權限。開啟後,Spotify 就能監聽「Hey Spotify」喚醒詞。
  • 第三方承包商洩露谷歌語音助手的用戶對話錄音;滴滴與比亞迪合資...
    Google 僱傭第三方處理 Google Assistant 的錄音,一部分用戶錄音遭洩露7 月 11 日,Google 在一篇博客中確認,荷蘭承包商洩露了谷歌 AI 語音助手用戶對話的錄音。Google 表示,僱傭人員為世界各地的語言專家,可以幫助 Google Assistant 更好的理解當地語言和口語之間細微的差別,這是構建語音技術過程中的關鍵部分,也是創建 Google Assistant 等產品所必需的。在錄音洩露事件之後,Google 表示,正在對這個領域的保障措施進行全面審查,以防止這種不當行為再次發生。
  • 實測小度語音定製後,對語音助手從工具向人格化方向進化的思考
    雖然用機器合成音朗讀文本並不陌生,但是用定製化的合成音朗讀一篇童話故事,這個功能還是吸引了宅在家裡的我和我的家人。 通過小度 APP,找到「設備超能力」的「爸媽講故事」,有一個一分鐘的介紹視頻。在頁面底端點擊「一鍵錄製專屬語音」,按照提示,即可錄製自己或家人的語音包。
  • 亞馬遜智能語音助手Alexa偷取隱私:1分鐘鎖定用戶住址
    gTaednc僱傭大量員工監聽Alexa錄音本月早些時候,據彭博社披露,亞馬遜公司在全世界範圍內僱傭了員工(評審員)來提升Alexa的服務功能,然而,這個巨大團隊並不負責技術改進,而是負責收集用戶對Alexa發出的指令,並作出相應的反饋。參與該項目的評審員從波士頓到哥斯大黎加,從印度到羅馬尼亞,總之遍布全球。
  • 亞馬遜正在更新其基於AI的語音助手系統
    打開APP 亞馬遜正在更新其基於AI的語音助手系統 網際網路分析沙龍 發表於 2020-12-13 09:57:27   首先,在2019年,Alexa能夠自動響應英語和其他語言的請求,但僅限於兩種語言。
  • 聊一聊語音交互以及語音助手
    關注並將「人人都是產品經理」設為星標每天早 07 : 45 按時送達隨著科技的不斷發展,如今語音助手也頻繁的出現在我們的日常生活中,比如手機的語音助手、智能音箱等等,語音助手的出現也很大程度上提高的一些效率問題;本文作者分享了關於語音交互的理解,我們一起來看一下。
  • Bixby 中文版體驗:趕在今年的末班車,三星帶來了會說中文的語音助手
    與我們之前所接觸過的 Siri、Google Now、Cortana 等智能語音助手一樣,Bixby 也是通過用戶的語音來進行對設備的控制以及給用戶提供所需信息。你平時用的語音助手有哪些?當系統遇到重名聯繫人時,需要用戶進行點選才可撥打,中文內容基本都能準確識別到。而英文聯繫人則對口音略有要求。當我把 Sam 讀作「鱔姆」,系統就會識別成「扇門」;當我把 Jason 讀作「佳省」那系統會識別成「嘉盛」。換言之,在對 Bixby 讀出英語單詞時你得至少符合 90% 的讀音標準。
  • 你怎麼知道隨叫隨醒的語音助手沒有在竊聽你?Spotify 之外:瑞典...
    「你怎麼知道隨叫隨醒的語音助手沒有在竊聽你?」時下,從手機到智能手錶都能夠錄製聲音,家裡的智能音箱也是二十四小時連接著網絡,這讓不少人有了類似上面這種仿佛被迫害妄想症的症狀。《大西洋月刊》這個月刊登的這篇文章,就嚴肅地討論了這個問題:我們應該相信語音助手嗎?
  • 從智能語音助手到智慧識屏,vivo 如何將 NEX 的 Jovi 打造成手機上...
    目前智慧型手機中最常見的設計是電源鍵、音量加、音量減三大「金剛」,除此之外,一些手機廠商也嘗試增加額外的按鍵讓用戶更快捷地完成部分操作,比如 iPhone 上的靜音按鍵、一加手機上的三段式模式按鍵、錘子手機的「閃念膠囊」鍵、索尼手機上的實體拍照鍵、三星手機的 Bixby 按鍵。
  • 亞馬遜將推出自家聊天應用「Anytime」
    亞馬遜將推出自家聊天應用「Anytime」 站長之家(ChinaZ.com) 7 月 17 日消息,據 AFTVNews 報導,亞馬遜正在測試一個叫做「Anytime」的跨平臺聊天應用。
  • OPPO小布助手2.0到來,升級 AI 性能,語音交互更智能
    在這萬物互聯的時代,人工智慧技術蓬勃發展,人機之間的智能交互愈發受到群眾的青睞,而語音助手更是成了這其中繞不開的話題。但是目前存在的語音助手,大部分並不十分「智能」,存在功能不多、語音識別不準、語音喚醒困難等種種問題,給用戶的體驗並不友好。