編者註:最近,亞馬遜語音助手 Alexa 進入了印度市場,但和很多公司一樣,它遇到了前所未有的挑戰——印度國內語言和宗教環境複雜,給語音類產品的落地增加了困難。最近,外媒 Factor Daily 發布了一篇講述亞馬遜 Alexa 攻克印度市場的文章,極客公園特別進行了編譯分享給各位讀者。
原文發表在 Factor Daily , 原標題為《The backstory of Alexa’s Indian makeover: desi, agnostic, politically independent and… work in progress》,作者 Sunny Sen。
她很智能,說話流利,可以幫你預訂計程車,查找烹飪食譜,還能播放你最愛聽的音樂。她最喜歡薄荷巧克力味的冰淇淋,會著迷於男演員 Shah Rukh Khan,也喜歡 Emily Stone 和 Rachel Weisz 這些女演員。她還是一位典型的印度女士,或許能回答你所有的問題。那麼她究竟是誰呢?
她叫 Alexa,一款智能語音助手,出生在美國的亞馬遜家族,但卻操著一口帶著印度口音的英語。因為受過專業的訓練,所以上面這些對她而言小菜一碟。印度是她第四個進入的國家,這展現了亞馬遜的雄心——讓 Alexa 出現在每個角落,將她裝進你的手機,你的車,你的家裡,甚至包括酒店和辦公室。早期在美國、英國和德國,Alexa 都取得過不小的成功。世界各地有幾十家公司把 Alexa 添加到他們的產品當中。在 CES 展會上,福特、大眾和奧迪也展示了將 Alexa 嵌入儀錶板的汽車。
亞馬遜 Echo Plus 和 Echo Dot
一般情況下,當連接到網際網路時 Alexa 可以回答語音提問。但在印度 Alexa 將面臨一次前所未有的考驗。萊迪思電子信息技術有限公司總經理 Mohan Ram 曾感慨道:語音助手在使用一種或者兩種語言的國家表現不錯,但印度的情況真的很不一樣。
Ram 自 2001 年以來一直從事於語音識別技術領域。2001 年他告訴投資者公司將在五年內解決卡納塔克邦的語言和方言問題。但與這個難題爭鬥了17 年後,Ram 卻無奈地表示只能解決問題的 80%,因為印度每隔 100 公裡就有語言變化,方言每 30 公裡就不一樣。不過他認為人工智慧,機器學習和深度學習將能幫助解決問題。如今的亞馬遜就是在運用新技術幫助 Alexa 對抗印度語言種類繁多這一「老大難」的問題。
直面「語言障礙」難關
將 Alexa 推向印度市場的一年多以前,亞馬遜就已經開始培訓 Alexa,以迎合當地的需求。駐外經理 Puneesh Kumar 稱「Alexa 需要了解當地的口語詞彙及其背景。與其他單一語言國家不同的是,在印度我們將更多地讓 Alexa 學習帶有專有名詞的詞語——可能是人名,地名,寶萊塢唱片名或者電影名字。」Kumar 自 2010 年 5 月以來便一直在亞馬遜工作,曾在亞馬遜中國擔任高級項目經理,負責市場開發。在出任了兩年半時間的亞馬遜全球銷售計劃的總經理之後,他開始負責 Alexa 開拓印度市場的工作。
亞馬遜 Alexa 駐外經理 Puneesh Kumar
對於如何應對語言障礙這一難關,Kumar 曾說:「我們必須打破常規,Alexa 不能只懂得英語。我們需要訓練 Alexa ,讓她了解泰米爾語,印地語,泰盧固語,旁遮普語,和馬拉雅拉姆語等。」語言問題對印度來說是獨一無二的,因為它的行政邦就存在很多種方言。例如,位於卡納塔克邦和馬哈拉施特拉邦邊界的貝爾高姆市,人們使用的語言糅合了康卡尼語,馬拉地語和卡納達語。距離貝爾高姆 386 公裡, 卡納塔克邦的城市烏都皮也存在這樣的情況,人們會使用圖魯語,馬拉雅拉姆語和卡納達語三種語言。
矽谷研究公司 Constellation Research 的首席分析師兼董事長 Ray Wang 表示:「印度人口眾多,所以按邦解決問題更具實際意義。雖然Alexa在學習能力上仍然落後於谷歌,但她能夠迅速趕上。」亞馬遜結合雲計算和人工智慧兩項開創性技術創造出Alexa,她通過語音交互,可以在機器學習的框架下不斷地得到改進,變得越來越出色。
Alexa 基於自然語言理解,可以理解句子和語境,並將其從文本轉換為語音。這需要她區分好語境,比如在美國和英國,當人們說到「Marks」這個詞時,他們談論的是「痕跡」,但在印度,這通常是指「成績和分數」。通過機器學習,Alexa 知道了印度是以 lakhs(十萬)和 crores (千萬) 為單位計數,而不是以 millions(百萬)和 billions(十億)為單位。除此之外,她掌握了 UP(北方邦),MP(中央邦)和 CM(首席部長)這類縮寫詞彙,也學習了印地語,如 haldi,jeera 和 dhania 等常見的單詞。
專為印度量身打造
目前 Echo 設備的客戶體驗仍在改進當中,如獲取新聞和天氣信息,語音控制智能家居產品等等。如果在 FactorDaily 班加羅爾辦事處向Echo 提問「誰是 Anand Murali」,或許它會給出一個錯誤的回答。而理想情況下,Echo 理應識別出 Anand ,並在搜索結果的頂部顯示他的 LinkedIn 個人資料。
實際體驗中, Shonali Muthalaly 認為 Alexa 還不完美,「Alexa 仍在搞清楚印度,因此當我讓她推薦餐館,預測路況和規劃路線時,她的回答往往一團糟」。Kumar 對此回應:隨著越來越多的人用上 Echo 設備,更多的話語將被用於數據分析, Alexa 也能學習到更多,情況會慢慢好轉的。
Kumar 坦白培訓 Alexa 並不容易。亞馬遜以一套有限的詞語開始訓練她,詞大約有一萬個,這些詞被稱為訓練數據。此外, Alexa 還要通過測試數據的訓練,而這個數據的量是無限的。識別語音過程中,Alexa 將模式,聲音,詞彙和語境結合起來分析用戶說話的內容。如果有一處與信息庫內容不匹配,Alexa 會對此進行跟蹤,同時形成一個關於不匹配信息的數據集,交由機器學習處理。
在 Kumar 看來, Alexa 的「殺手鐧」在於無論用戶怎麼表達語音指令,她都能真正理解用戶的意圖。例如,用戶想要播放歌曲,他可以說「播放 XX 電影的歌曲」,或者「播放 XX 作詞者的歌曲」,甚至不說出「播放」這個詞,只說「為我唱歌,幫我緩和下心情」。而為了更好地達到這個效果,Kumar 表示他們正在嘗試增強語言的相關性。如果用戶在獲取結果後的幾秒鐘內說「不」或重新輸入語音命令,機器學習算法也能明白 Alexa 沒有做到用戶所期待的。
亞馬遜使用了機器學習和人工幹預兩種方法訓練 Alexa,尤其是針對同一個詞有多個發音的情況。為使 Alexa 更準確地區分它們,亞馬遜專門請了非常熟悉這些詞彙的人進行監督,以確保她發音準確。當然不可能每個單詞都這麼做,所以訓練系統會提取前 20 或 30 個單詞用於訓練。
此外,Kumar 表示雖然亞馬遜希望 Alexa 能夠理解不同的文化,口音和對著麥克風說話時人的思維方式,但它的聲音並不會從南到北發生變化。所有 Alexa 說出的詞語都用純正的印度語錄製。由於不可能錄入每一個單詞,亞馬遜選擇了一組單詞作為基本詞彙,並將它與機器學習,語音和詞典結合起來。另外,為了讓 Alexa 熟悉各種口音和語言,亞馬遜也讓不同語言使用者入錄聲音。在機器學習的幫助下, Alexa 在印度的聲音得到了統一,Kumar 將之視為 Alexa 的專屬「人格」。
來自「星際迷航」的靈感
亞馬遜的 Alexa 語音服務和技能負責人 Steve Rabuchin 此前告訴《連線》,Alexa 的產生其實受到了「星際迷航」中出現的電腦的啟發——用戶可以通過簡單的語音命令來控制周圍的一切。
在全面進入印度市場之前,Alexa 就擁有了 10800 種技能,而當初在美國推出時她只有 13 種技能。技能是基於語音的應用程式,它允許用戶使用語音命令來操作應用程式。Kumar 認為無論男女老少都能輕鬆學會使用這些技能。亞馬遜已經與印度的開發商展開了合作,將流行的應用程式整合到語音助手當中。目前支持的應用如下:
旅行類:Ola,Goibibo,ixigo 和 Jet Airways;飲食類:Faasos、Zomato、Freshmenu、Sanjeev Kapoor 和 Tarla Dalal;音樂類:Saavn 和 Bollywood Hungama;運動類:ESPNCricinfo;新聞和教育類:Times of India,NDTV、ABP Live、AajTak 和 Byju's;智能家居類:Syska 和 Silvan;家政服務類:UrbanClap 和 Housejoy 。
「亞馬遜非常具有侵略性,我們希望他們能夠在很短的時間內生產幾百萬臺設備。」ixigo 的執行長兼聯合創始人 Aloke Bajpai 認為 Alexa 是一個很好的發行平臺。但他沒有將 ixigo 限制在 Alexa 平臺上,而是嘗試建立自己的語音助手 Tara。在 Bajpai 看來, Alexa 作用有限,它需要變得更加積極,比如節假日臨近的時候主動為用戶提供一些建議。但他認可谷歌和亞馬遜兩大公司把業務重心放在語音助手後給自己帶來的影響,「語音合成技術已經得到了改善,在此基礎上,我們也在使用他們的 API」。
除了讓 Alexa 瘋狂學習的同時,亞馬遜也在塑造她的「人格」。Kumar 在一封電子郵件中提到:「我們將為她設計個性和個人偏好而使她更加人性化。最終,她在宗教上將是不可知論的,在政治上獨立,同時成為科學與技術,創新和進步的擁躉。」
對於 Alexa 是否充當著男女朋友或者忠誠伴侶角色的說法, Kumar 這樣回應:「我們希望的是 Alexa 能夠成長為專業的語音服務平臺,可以在任何情況下與人交談,並且真正地懂用戶的心。比如,當有人說『我現在壓力很大』時,她會關心地詢問『要不要來一些放鬆的純音樂呢?』。」 當然,在 FactorDaily 愉快工作的我們並不需要 Alexa 提供輕音樂減壓。
頭圖來源:Factor Daily
圖片來源:Factor Daily