「hi Siri,給我講個笑話」「天貓精靈,今天天氣怎樣」「小度,為我導航最近的加油站」……
今天用語音喚醒智能助手,已經不再像以前那樣是一件頗有恥感的事情了。
「音箱大戰」的澎湃之力,已經讓偏遠至村鎮的群體都AI了起來,智能語音早已下沉得不能再下沉了。語音交互的習慣逐漸培養起來,接下來就是做文章、講故事的好日子了。
在這樣的大好局面中,微軟語音助手Cortana小娜卻傳出了要「脫團單飛」的消息,即將終止在iOS和安卓兩大移動應用平臺上提供服務,這無疑是自絕於人民群眾的自殺式行為。
小娜的失敗給語音交互領域留下了哪些「遺產」,而它的創造者在失去移動端制霸權後,又將告別智能語音助手這一關鍵入口,接下來的航線又指向何處?
Cortana小娜的「美強慘」人生
今天語音交互的主流人群,可能都沒有來得及能跟小娜在手機端產生一次對話。而在PC端偶爾召喚出來,最大的可能也是因為操作失誤。
但這並不代表這位以FPS 遊戲 Halo 中的 AI 角色命名的Cortana ,水平真的如此泯然眾人矣。
準確來說,在AI黑科技方面,微軟並不輸給谷歌、蘋果這些高光實驗室。而小娜背後的微軟亞洲研究院(人工智慧-語音識別方向)更是產業界的「黃埔軍校」。有著如此背景的小娜,問世時可比答非所問的Siri聰明多了。
在一則視頻中,用戶通過搜尋引擎向Google Now、小娜、Siri提問「艾菲爾鐵塔有多高?小娜在數年前就將知識圖譜與AI相結合的方式來呈現答案,跳過引擎抓取的大量無用信息,直接告訴對方答案——鐵塔的高度。
更關鍵的是,小娜所依託的微軟亞洲研究院有著大量的中文語音識別、語義分析成果積累,當時Siri還是一個中文聽不懂、回答顛三倒四,最大的作用就是講笑話的搞笑型選手。
除了歷史沉澱,小娜之所以聰慧,也源於其在微軟「云為先,移動為先」核心戰略中的關鍵地位。
當時,小娜與Bing、Azure等產品正在逐步取代Office和Windows,成為微軟在移動時代的新業務核心。為此,微軟在對小娜的打磨上也十分用心。
小娜的定位是「智能助理」,當時已經可以處理複雜的口語指令,來幫用戶打開第三方應用、查找文件、收發郵件等等。2016年,小娜的語音識別率就已經超越了人類。2018年早些時候,為了讓小娜的表達聽起來更人性化,微軟還收購了一家名為「語義機器」的人工智慧初創公司。可以說絕對是親生的待遇了。
小娜所擔負的理想,即使在今天看來,也極具前瞻意義。
在技術願景上,小娜被設計為雲端驅動(cloud-driven),許多智能計算都是在雲端完成的,設備終端只做輕量級的整合。這使其跨平臺統一服務成為了可能。
所以在應用場景上,微軟工程師們提出了「Cortana Everywhere」(小娜無處不在)的想法。即讓小娜在各種不同配置、不同版本、不同作業系統的終端設備上都能夠被調用,並提供一致性的用戶體驗。只要智能終端具備一定的計算能力,可以運行小娜的客戶端堆棧(Client Stack),就能夠運行。
當時設想的足夠運行小娜的最小設備是智能手環,在微軟的Microsoft Band 上,小娜可以識別語音並以文字形式呈現出來。
當時的產品負責人在談到小娜的理想化未來時,描繪了這樣一個場景「一件衣服裡內置了麥克風,它可以聽到我說話,將信息傳達給我口袋裡的手機,然後手機和雲端進行通訊。整個過程用戶都不需要從口袋裡掏出手機,佩戴耳機就可以聽到小娜的回覆。」
耳不耳熟?雲+AI+泛終端,這個今天普遍出現在各種行業前沿技術峰會PPT上的智能交互畫卷,幾年前就被微軟描畫了出來。
(Microsoft Band 上的小娜效果)
可惜,凡事總有但是。
小娜最終還是走上了「美強慘」的道路。最後那個令人意難平的「慘」字,源於不久前它的徹底失敗。
微軟正式宣布戰略性收縮小娜業務,將在2020年1月31日退出iOS和Android平臺,這是一封來自官方的死刑宣判書。
其實早在今年1月份的時候,微軟CEO納德拉就宣布不再將Cortana視為Alexa、Google Assistant的競爭對手。但走到徹底放棄移動端應用市場這一步,也不由令人唏噓——小娜明明應該是主角的劇本,最終卻淪落成了炮灰,一切究竟是怎麼發生的?
三人行必有炮灰:微軟的語音交互「滑鐵盧」
儘管有點馬後炮的嫌疑,但今天我們回望微軟在語音消費級市場的大潰敗,或許能對當下還在場內的玩家有一個更為清晰的認識。
總體來說,小娜的「生不逢時」,主要體現在三個節點上:
生於智能,但困於終端。
智能語音助手的第一要義,除了在技術上要能實現足夠高精準度的識別理解能力之外,最核心的一點是要有任務屬性,即能夠幫助人解決特定需求。也意味著,它必須能夠獲取其他設備和應用的控制權,才能夠達到這樣的要求。
但小娜除了在微軟體系內擁有足夠多的權限,比如調用和理解郵件、處理365office等等。而且大部分是發生在PC環境中,語音交互相比滑鼠要位居其次。在更廣大的移動場景中,受限於Windows Phone可憐的市場佔有率,小娜很難做到像Siri、echo與google assistant那樣,與自家硬體無縫整合。
比如在打開應用時,使用「Hey Cortana」 語音喚醒;亦或是始終保持語音待命,以低耗電狀態運行等,這些必要的能力小娜都很難在競爭對手的設備上實現。
而缺少了來自終端用戶行為的數據滋養,小娜在腦力進化、內容理解等能力上也逐步與對手們拉開了差距。微軟在消費級移動終端上的失利,最終轉化為小娜的敗北。
2.生為語音,卻難覓應用。
儘管微軟在小娜應用開始,為其設計了非常具象的應用場景,比如用戶可以通過輸入文本或語音與小娜交流,可以語音搜索網際網路內容,或者是直接詢問關於影視劇集、天氣、附近商戶、交通路線、航班、音樂、百科等信息。和微軟帳戶綁定以後,小娜還能在不同平臺間同步郵件、待辦事項、簡訊等個人信息。
但回顧小娜推出時的整體環境,不僅對用戶來說,語音交互是一件有些尷尬的事,常常需要跟春節與不熟的親戚寒暄一樣,需要搜腸刮肚地想話題;即使在今天,跟音箱裡的語音助手聊兩句就任由其落灰的也不少見。
更悲催的是,小娜出現的時候終端計算能力還並沒有現在這麼GPU\CPU集體發功的強大,行動網路服務也不像現在這麼高速、普及、穩定,當時如果遇上網絡狀況不好,小娜的語音識別就很慢,有些情況下甚至用不了。
而今天用戶使用語音對話方式發出指令的不適感幾乎消除了,小娜卻已經身處強敵環伺的森林法則中,難以再翻身。
3.生於智能,卻困於自封。
今天凡是擁有智能語音助手的廠商,早已達成共識,無論是行為數據的累積,還是交互習慣的培養,都需要儘可能多的與用戶發生聯繫。開放,合作,是一切的前提。而微軟閉關造城的霸主思想,或許是小娜註定失敗的註腳。
2014年,被今日智能助手廣泛致敬的「亞馬遜Alexa+echo」模式,還只是個實驗雛形。為了讓任何人都願意用,亞馬遜成立一個新的部門Alexa Voice Services,敞開了招呼大家加入來開放能夠用Alexa交流的軟硬體,吊燈、冰箱、燃氣灶、汽車……很多雖然今天依然看起來很傻,但今天Alexa成為全球應用最廣泛的語音助手,擁有1.5萬種以上的技能,與這種開放形態不無關係。
也是在同一年,時任微軟Windows Phone項目高管Marcus Ash在被媒體問到小娜是否會登陸其他應用平臺時,表示「微軟只會在Windows Phone版Cortana徹底成熟之後才可能考慮其他平臺,也不會考慮為iOS和Android的深度整合而開發底層訪問功能」。
直到2015年,WP系統眼見著市場慘澹,無法為小娜提供有競爭力的發展空間,當時微軟才宣布轉戰安卓和IOS。就連這樣的平臺開放也是非常有限的,因為是「中美特供」,當時只針對中國和美國市場提供服務。
而同一年,百度已經召開了「度秘」的發布會,將其打造成了一個集微軟小冰(聊天機器人)+微軟小娜(語音助手)+bing必應(搜尋引擎)+垂類O2O的語音交互產品。隨後,「小度」的能力伴隨著DuerOS平臺被開放給了眾多軟硬體開放者。
對於開放生態的「傲慢與偏見」,使小娜錯過了向消費層生長出根須並持續進化的機會。
2018年的時候,微軟也曾試圖將小娜的重心繼續加碼安卓和IOS,對它進行了大規模的改進,包括更新的UI,支持在藍牙上播放音樂,啟動速度提升了20%,並與微軟其他服務進行了更深層的整合,比如可以加入Skype會議。
儘管如此,無論是面對中國市場BAT等巨頭的中文語音助手,還是在海外市場與谷歌、亞馬遜和蘋果等正面交鋒,微軟小娜無論是硬體基礎規模,還是平臺化的延展能力,都無法再逆風翻盤。
在微軟的Build 2018中,通過Cortana與Alexa的互操作性展示,微軟也只好承認了小娜本身的功能,已經不足以滿足當下用戶對語音助手的訴求了。次年1月,以小娜為核心的智能揚聲器計劃被宣告終止。
就連如今的退出,都在慘澹的成績面前顯得不那麼悲情了。根據Sensor Tower的最新數據, Cortana應用在App Store上的「生產力」類別中僅排名第254,在Google Play中僅排名第145。好像退出也並沒有損失很大的樣子。
小娜原本有著最搶眼的開場,卻在堅守著Windows和Office的微軟腳步下,走向了移動的終局。
小娜走了,微軟的語音交互未來在哪兒?
小娜雖然可以說是從移動端消弭了,但語音交互這個未來入口卻不能輕言放棄。
從微軟透露的信息我們知道,小娜還將作為微軟唯一的語音助理工具存在,在微軟所有的Windows產品中嵌入,包括Xbox遊戲平臺,再博一次。
小娜是否還有希望重回大眾視野還未可知,但從微軟的「滑鐵盧」不難看到,語音作為AI引發的交互革命,賽事的焦灼點卻往往在技術之外。
在「千箱大戰」的熱身過後,泛智能終端的語音交互戰局才剛剛拉開帷幕,未來所有機器、智能硬體,比如汽車、家居、辦公等都可能被這場浪潮席捲衝刷。在這個過程中,勝利者的成功也許無法複製,但失敗者的教訓卻值得反覆咀嚼。
語音交互巨作為對信息生態和生活方式的重構,涉及了非常複雜的社會鏈條,龐大如微軟也難免步步踩坑。目前看來,可以確定的是,建立產業鏈上下遊合作生態將是第一奧義。
語音底層技術突破已經逼近天花板,大家都是在90%以上的極限成績上反覆拼小數點,通過產業夥伴的助力,打通語音交互軟硬體的上下遊產業鏈關係,在5G+AIoT的泛智能終端生態中佔據先發位置,對未來的市場主導權爭奪有著重要意義。
其次,國際化競爭態勢日趨激烈,而中國廠商的本土產品優勢會被持續放大。來自Google Assistant的數據顯示,已經由此超過70%的網際網路請求是自然語言、對話方式發出的。其中各個技術廠商包括創業者都有著各自的優勢,但歸根結底,用戶體驗才是搶奪市場的最高法則。
在這一方面,中國科技廠商誰能最先完成下沉市場的使用時間收割,以貼近最廣大用戶群體的姿態完成心智佔領,就等於率先在「語音+萬物」的賽場上做完了準備工作。
可以預料的是,除了在智能音箱外形上不斷做新文章之外,未來的中國語音交互戰場還會有新的硬體形態通過廝殺,來完成消費市場的真正變革。
總之,小娜的失敗,留給我們最大的反思或許是,不要讓強者的傲慢與偏見,讓AI的生命力在封閉中走向凋零。