從1月份美國的 CES 電子消費展開始,每周關於亞馬遜 Echo 的報導可謂「層出不窮」,Echo 緣何如此受到無數媒體的追捧?很多同學都有點不太理解,而且中國的 AWE 家電展後,很多文章在分析中國的智能產品時,還經常拿來與 Echo 進行對比。無論是 CES 還是AWE,Echo 背後已經帶上了一層耀眼的「光環」。
當然, Echo 是一個來自美國的智能產品,所以在中國的確很難買到。 很多同學也看過多篇有關 Echo 的文章,但是並沒有體驗過這款產品, 所以經常被各種概念弄得「雲裡霧裡」,很多文章一邊說 Echo,然後又提到 Alexa,如果你在網上搜索亞馬遜 Alexa,可以發現有用戶中心,有開發者中心,甚至還有基金會。筆者希望通過本篇文章來闡述一下 Echo 系列產品的關係,以及亞馬遜的戰略,希望能夠對大家有所幫助,以下:
簡單而言,其實 Echo 和 Alexa 的關係,就像 iPhone 和 Siri 的關係一樣:一個是硬體產品,一個是語音服務。Echo 音箱使用的語音服務是 Alexa, 所以 Echo 音箱的喚醒詞可以是Echo,也可以是 Alexa。值得一提的是,亞馬遜的 Alexa 是對外開放的,不僅 Echo 能用,其他硬體也有用,在今年 CES 展上很多智能硬體都在用 Alexa,這項服務對外開放使用, 開發者可以為 Alexa 開發插件,貢獻更多的功能,如果星巴克希望用戶通過 Alexa 來訂購他們家的咖啡,只需要開發一個小插件就行,現在已經有成千上萬家企業在這麼幹。
可以說,亞馬遜是在用蘋果的玩法來玩轉語音服務。如果你進入 Alexa 的開發者中心(https://developer.amazon.com/alexa),就可以清晰的看到三個大產品,包括 Alexa Skills Kit(技能插件),Alexa Voice Service(語音服務),以及 Alexa Fund(基金會) 。 他們各自都有什麼功能呢?下面一一為大家介紹。
用戶剛買來 Echo 音箱時,其實功能很少,只能問問天氣(what's the weather),即不能聽歌,也不能控制家電, 這些功能都需要去 Alexa 的 APP 開啟相應技能(Skill) 才能使用。因為在美國聽歌是收費的,所以開啟聽歌的功能時,用戶就需要綁定信用卡。 Alexa APP 並未上架到蘋果 Appstore 的中國市場, 如果要體驗,可以瀏覽 Alexa 的 Web APP :http://alexa.amazon.com。
進入 Web APP 後, 右側菜單 Music&Books 處可以設置聽音樂、聽書的功能,點擊菜單 Skills 可以設置技能插件, 這裡有上萬個技能插件,基本都是第三方開發者為 Alexa 開發的功能。
在菜單 Home 下,可以看到和音箱對話的歷史記錄,並可對每次對話的答案標記是否滿意,這樣可以幫助 Alexa 完成「機器學習」。用戶和 Alexa的聊天記錄只有自己可見,對開發者是封閉的。而國內一些語音語義平臺,能讓開發者在平臺上面就看見用戶的聊天記錄,相信很多普通用戶知道了這點,就都不敢再跟智能產品當那種「無話不談」的朋友了。
如果你希望 Alexa 智能設備能控制家裡的電器,也要開啟相應的技能插件才行。比如你用的是美國快思聰(Crestron)的智能家居系統 , 則可以開啟技能插件 Crestron Home Automation for SmartHome , 開啟時需要 Oauth 帳號授權, 這樣 Echo 音箱就能知道你家裡連接了多少Crestron 的設備,然後就可以通過語音來控制它們。而如果你是一個開發者,如何給 Alexa開發技能插件呢?
首選,你要登錄亞馬遜的開發者中心(developer.amazon.com),進入 Alexa 的菜單後,會讓你選擇是開發插件(Alexa Skills Kit),還是接入語音服務(Alexa Voice Service)。這裡我們選擇 Alexa Skills Kit 即可,接下來按操作步驟進行即可。
Alexa 可以開發三種類型的插件:自定義(custom)、智能家居(smart home)、快報(flash briefing) 。當然, Alexa 並不要求開發者將自己的內容資源(如音視頻、問答對等)上傳到亞馬遜, 而只是在 Alexa 中定義「意圖」,當用戶觸發「意圖」時調用開發者定義的接口,類似於微信公眾號的開發者模式, 開發者自己在接口中返回 Alexa 要回答用戶的答案, Alexa 做到了「意圖」和「回答」的分離,在 Alexa 平臺定義「意圖」,而在開發者自己伺服器上面實現回答。而國內很多語音語義平臺,沒有實現「意圖」和「回答」的分離,要求開發者將「答案」上傳到平臺,所以給開發者感覺不太好,總認為將自己的核心機密數據上傳到了第三方。
亞馬遜通過 Alexa 吸引普通用戶與它對話,同時也吸引了更多的開發者為它貢獻插件, 同時保障了普通用戶和開發者的權益,而且產品也做到了:不會「索取」開發者的核心數據,更不會把普通用戶的對話記錄開放給開發者。筆者相信,這也是 Alexa 能夠獲得成功的一個非常重要的原因。
如果我們想開發一款擁有像 Echo 音箱一樣,具有語音交互功能的產品,那麼,我們直接接入Alexa 的語音服務即可。產品的接入方式也十分簡單,在開發者中心創建一個語音服務的應用,就可以獲得兩個 KEY: Client ID 和 Client Secret, 這兩個 KEY 值是調用接口時需要用到的。接口地址為: https://avs-alexa-na.amazon.com ,請求接口時傳遞錄音文件, Alexa的雲端同時進行了語音識別和語義理解,將音頻文件轉換為文字,然後對文字進行理解,如果觸發了某個技能插件的「意圖」,則調用開發者的定義第三方伺服器的接口,如果是聽歌或聽書等「意圖」,則調用亞馬遜自家的資源。語義理解後 Alexa 將需要返回的文字內容合成為音頻文件,所以接口的返回內容也是音頻文件。
Alexa語音服務這麼簡單? 核心功能就是一個接口? 沒有喚醒模塊?沒有麥克風陣列? 很多國內做開發的同學,可能會有這些疑問。其實,Alexa 並沒有像國內的語音平臺那樣,將語音、語義、喚醒、麥克風陣列打包在一起, 然後收一個很高的 License 費用。Alexa 只專注於雲端識別,而喚醒、麥克風陣列等技術是開放的。
這是官方的示例代碼 https://github.com/alexa/alexa-avs-sample-app , 示例代碼中喚醒用了Sensory 和 KITT.AI,麥克風陣列用了科聲訊的兩麥方案。Alexa 不綁定任何硬體方案,喚醒和錄音的技術方案完全掌握由開發者自己決定。Alexa 只是對錄音的質量提出要求:
因為 Alexa 不綁定任何硬體方案,這就使得硬體成本可以降下來,Alexa 也並沒有在語音技術上收費,用戶是在使用產品過程中對內容進行付費。而國內的語音平臺總想著在語音技術本身上收費,語音技術還要綁定自家的喚醒模塊、麥克風陣列或者 SDK,也並沒有開放 API。一個 License 費用就能收 60多塊錢,這使得智能語音技術成本一直也降不下來,當然這可能因為國內外的開發環境不同,還有文化差異所導致。
筆者認為,雖然人工智慧被炒得很熱,但普通用戶目前還是嘗鮮的態度,並沒有形成強烈的剛需,市場並未打開。如果智能產品要想要打開市場,那麼應該有兩點基礎要求:第一,就是真正意義上能替代「人工」,比如工業機器人、智能客服,他們真的能替代人工,所以它們會有市場;第二點,就是讓普通用戶能夠用低成本「嘗鮮」。 很多服務機器人或者智能音箱產品就比較尷尬, 既然不能替代人工,那麼用戶只能把它作為「娛樂產品」來消遣, 但價格又這麼貴,普通用戶只能「望而卻步」了。
Alexa 基金會孵化是使用該項技術的創業項目,它要求所有項目按照他們規定的時間點進行,4月9號之前報名,7月17日開始開發, 經歷13周時間,10月12日演示產品。
所有項目都集中在一個地方進行開發, 亞馬遜會選擇一處風景優美的地方,每年的地方都不一樣,今年在西雅圖,明年可能在紐約。在這13周的開發中,有 Alexa 官方高級技術人員在現場為項目提供技術支持。
Alexa 通過這個基金會不僅吸引很多創業項目,還能快速孵化項目,出現一批又一批基於Alexa技術的好產品。
我們再來梳理一下Alexa整個產品生態,看看亞馬遜是如何用蘋果的玩法在玩語音的。亞馬遜Alexa 通過基金會、技能插件、語音服務打造起整條的生態鏈,使得創業者、開發者、消費者都聚集在這個生態鏈中,實現了多方共贏。
第三方產品不管是硬體產品,還是 APP 都可以通過開發者中心的語音服務接入 Alexa,消費者在使用第三方產品時同時為亞馬遜帶來用戶,相當於第三方產品又幫助推廣了 Alexa 服務,於是 Alexa 得到了迅速的傳播。
最後做一個小小的廣告,因為 Alexa 目前還不支持中文,Echo 在國內也很難買到。為了讓大家能體驗一下 Alexa 的智能服務,智眾互動出了一款虛擬的中文 Echo,大家不用購買硬體設備,也能用中文對話的方式體驗 Echo 的功能,大家可以試一下: https://echo.zhizhongai.com/
本文作者:智眾互動 CEO 羅飛,智眾互動是一家提供人工智慧解決方案的公司,是注重早教內容沉澱的人工智慧技術公司。提供機器人或音箱的技術解決方案以及內容解決方案。羅飛的微信號:luofei614 , 歡迎加微信交流。