5、6月的科技圈有兩個大會,一個是5月的2017年蘋果全球開發者大會(WDCC),另一個則是6月的上海CES Asia。
當WWDC被網友吐槽像硬體發布會時,CES Asia也被汽車廠商們變成了科技車展。如果要在這兩個大會中找一個關於技術趨勢的最大交集,答案可能是:智能語音的觸角正在攻佔各種各樣的硬體和終端,成為時下最熱門的AI技術之一。
這個結論同樣來自與諮詢公司Ovum。據Ovum估計,到2021年,配備智能語音助手的設備數量將增長至75億以上,這一數字甚至略高於目前的世界人口數量。
而在眾多這樣的設備中,和大多數主打個人體驗的智能硬體不同,有一種產品更傾向於家庭場景,那就是智能音箱。有人說它會是VR/AR遇冷後智能硬體的下一波浪潮,有人認為它是AI載體的一個過渡形態,不過更多人押定的是,它會是智能家居的鑰匙和標配,預示著無數生活輔助服務的可能,或許這也是蘋果為何將其搭載Siri的智能音箱稱為「HomePod」的原因。
全球各大科技巨頭已經推出了他們的智能音箱產品,目前來看,只有亞馬遜於3年前推出的Echo經受住了市場的檢驗,出貨規模已達到百萬量級。更奇怪的是,Echo稱得上「一直被模仿,從未被超越」,就連實力雄厚的谷歌,也花了近兩年的時間才推出Home這樣的競品,其市場表現仍有待觀察。
在中國,有一家公司被業內認為是最有可能做出能與亞馬遜Echo匹敵的智能音箱,而這家公司同時也受到了《福布斯》青睞,入選2017年「全球50家頂級AI初創公司」,並捧走了2016年CES兩項大獎——創新產品獎和科技改變生活獎。這家公司就是Rokid,目前估值已達4.5億美金。和其他AI技術創業公司相比,Rokid選擇了一個更小眾且風險更高的方向——自主研發語音識別技術和硬體。
在語音識別技術上,國內的龍頭企業是科大訊飛,不過Rokid並不認為他們與科大訊飛構成直接競爭的關係,相比前者專注於覆蓋語音產業鏈,Rokid更希望打造出能夠佔領中國市場的智能音箱。而在這一塊,中國市場整體仍處於啟動期,一方面語音交互還不被用戶所習慣,用戶使用頻次非常低,另一方面,即使是美國三大科技巨頭——亞馬遜、谷歌、蘋果——的產品也仍未涉足中文語音市場。
圖丨Rokid的第一代產品Alien
近日,我們採訪了Rokid的創始人Misa,在創建Rokid之前,他曾就職於阿里神秘的M工作室,專注於機器學習、語音識別和人像識別等研究,或許從他的回答中我們能判斷,智能音箱在中國究竟是不是一個好生意。
1、很多公司都聲稱他們通過AI技術對產品進行了很大改善,但是,多數情況是用戶並沒能體驗到其智能的地方,造成這種現象的原因是什麼?
Misa:整體來說,人工智慧產品並不真正能像人一樣聰明,但是,和它們溝通應該接近於用戶和人的溝通。目前的情況是,如果你跟機器討論一些嚴肅的話題,它的回答是會有所偏離的,也許我們不會覺得它笨,而更傾向於評價它是「比較好玩的」。
那麼,為什麼我們會覺得它們還是不夠智能?這個不完全是技術的問題,也可能是產品設計的問題,比如說,當它不完全了解它所面對的對象時,我們為它設計了什麼樣的應對方案,能夠讓它變得更聰明、更人性化。
Rokid的產品現在也不能說是和真人一模一樣了,但是在聊天過程中,它們能熟悉人類,數據和算法可以讓產品變得越來越好,當數據越來越多,機器就可以越來越了解你,給你的反饋也會越來越準確,未來也可以更好地融入更多功能,這是人工智慧給產品帶來的最大魅力。我們希望把最好用的技術融入到產品中,如果普通用戶感覺不到,我們認為,這個技術很可能是符合用戶習慣的。使用起來自然,這才是最好的技術。
2、Rokid的產品和亞馬遜echo有什麼區別?
Misa:就像生命早期的時候,生物的形態是比較單一且相似的,但是,隨著它們發育越來越完整,不同的個體也就有了不同的特徵。這個規律同樣適用於智能音箱,一個產業的早期,產品的形態會比較相似,隨著這個產業越來越成熟,不同的品牌會按照自己的路線來發展,我相信那個時候差別會比較明顯。
圖丨Rokid的第二代產品Pebble
和echo相比,我們在產品思路上是完全不一樣的,出發點和最終的方向也會有所不同,但是目前產品還是比較接近的。一般而言,智能音箱產品從功能和造型上來看差距不大,但在用戶體驗的表現上卻可能千差萬別。
我們分三個不同的階段進行AI產品的規劃:Home AI(提供家庭服務的AI產品)、Portable AI(可攜式AI產品)和Personal AI(供個人使用的AI產品)。現階段我們想把這個產品放到用戶家庭中,首先是可以與用戶進行交流的,能夠進行情感上的陪伴,而不僅僅是像Echo一樣單純地執行指令。
3、Rokid最新產品採用的聲紋識別技術將如何提升產品的使用體驗?
Misa:聲紋識別技術主要還是應用在司法、行政等領域,這應該是該技術首次落地到消費電子產品上。
在智能家居場景中,聲紋識別技術可以幫助智能音箱記憶並識別不同人的聲音,結合遠場識別技術,在家裡任何一個地方它都能夠對用戶的指令作出反應。目前,Rokid在聲紋核心算法等錯誤率上表現優異,通俗來講,如果你家裡來了100個人的話,它可能會有5個人沒認出來,我們也可以理解為,你和它交流100次,它有5次沒認出你。這個表現是優於其他一些算法的,也許其他的語音技術也能達到這個成績,但這個是最好的成績了。
另外,聲紋識別技術讓智能音箱認知不同的人,這意味著它還能拓展出更多的智能服務,已有的功能也可以實現更加細緻的定製化,比如基於家庭成員不同喜好的音樂推薦。聲紋識別技術同樣需要數據支撐,但是這個量並不會很大。如果用戶家裡購買了一臺rokid,只需要識別幾位家庭成員的樣本就可以了,當多人下達命令,rokid會識別出「主人」的命令並優先執行。
圖丨Rokid的產品的全方位麥克風陣列
語音技術裡面的個體認知就像智慧型手機裡的觸屏一樣,將會引發產業的大革命。當然,rokid的語音交互效果並不僅靠這個技術來支撐,目前我們產品用到的技術具體分成四個方向,包括麥克風陣列的技術、語音識別、自然語言理解以及語音合成技術。這是一個完整的技術鏈條,完全由我們自主研發。
4、從中國的市場來看,現在是一個推出智能音箱的好時機嗎?
Misa:確實有一部分人對智能音箱這個產品存在一定的質疑,即使他們並沒有真正地體驗過。我認為,早期推出的一些產品破壞了人們對智能音箱期望,這是其中一個原因,也是一個客觀存在的問題。
所以,現階段,盈利並不是Rokid的第一目標,而是希望通過產品打開這個市場。我們希望製造更多的機會能讓用戶親身體驗和接觸產品,幫助恢復用戶對這個產品的信心和好奇心,讓更多的的人接受和習慣這種使用方式,這個是最重要的。
當然,我只能說這個市場還在教育的過程中。就算這樣,用戶的接受度也已經超乎我們的預期。中國要出現類似亞馬遜echo在美國的市場佔有率,估計還需要兩年的時間。
其實,硬體產品本身是很難做的,從研發到工程到生產再到市場,每一個環節都需要付出了很多。除了持續的技術更新和產品打磨,目前放在我們眼前最大的困難就是如何開拓市場。這個方向並沒有誰做得更為出色。
我們也在探索如何拓寬這個市場,通過線上線下的活動、協同整個行業甚至是我們的競爭夥伴,大家一起來教育這個市場,這肯定是一個立體的解決方案,我們會嘗試很多新方法擴大用戶接觸產品的面。
5、在用戶群體中,老年人是不是接受度特別低,因為他們會覺得不是在和人交流,是在和機器交流?
Misa:實際情況和我們的預想的正好相反。智能音箱產品的購買者以年輕人(尤其是男性)居多,但使用人群卻以老年人和兒童為主。這是一個非常有趣的現象。我想,這可能是因為男性更容易接受和嘗試新的產品,當他們把這個產品帶回家後,真正使用最多的卻是是兒童、老人和女性。
一部分不願意購買這種產品的人可能會有對個人隱私的顧慮。但是,拿Rokid來說,如果我們不喚醒它,那麼它是無法獲取任何信息的,它不會有任何的信息來對外溝通,而在處理過程中,用戶的所有信息都是加密的,從設備的日常狀態、通信到後臺的數據處理,我們都做了非常嚴格的保護。
6、語音交互會是智能交互的最終形態?
Misa:不一定。2014年,當我還在阿里工作的時候,我認為語音交互會成為幾年後的主流,因此我離開阿里開始做這件事情。目前來看,語音交互仍然是最成熟的方式,判斷它是不是最終形態仍為時尚早,至少現在它是主流形態,相信接下來不少人會用語音交互去打造他們的產品。
但是,我們認為未來的產品應該是支持多維互動。目前,我們用語音與產品互動,未來不僅僅是只有語音,還可以有攝像頭、手勢等,甚至行走這一動作都能產生交互,這種多維交互是很值得期待的。
還有更有趣的,那就是多屏互動。很多人會問,AI產品發展的未來會是什麼樣,要不要在音箱上加一塊屏幕。我們並不認為家庭場景裡還需要另外一塊屏幕,其實讓你家裡已有的屏幕互動起來就已經足夠。比如說手機上推送一條含視頻的新聞,我對它說,幫我在電視上放出來,這個視頻就會直接在電視上顯示,所以我們認為,多屏互動將會是一個趨勢。