作者 | 王金旺
出品 | 雷鋒網產業組
三歲的天貓精靈,有了一顆五歲的心臟,這讓它在智能音箱圈子裡顯得有點早熟。
9月17日,阿里將今年的雲棲大會搬到了線上,天貓精靈將秋季發布會搬到了阿里雲棲大會上,這次天貓精靈發布會的場面是這樣的:
往年發布會的主角庫偉、茹憶、杜海濤轉而成為評委,一場阿里味兒的程式設計師辯論賽代替了往年嚴肅的秋發。
庫偉在會後稱,這是我們團隊自編自導自演的一次全新嘗試,目的是更容易在C端觀眾中傳播。
倒是在會後的採訪中,天貓精靈事業部總經理庫偉、天貓精靈首席科學家聶再清深入解讀了此次秋發亮相的三款新品:天貓精靈CC10電池版家庭智慧屏、天貓精靈CC MINI、IN糖2。
正是這三款看似基於原有產品線升級迭代的新品,其實內藏了阿里在智能助手、智能交互領域這一年的新思考和新嘗試。
而相對於新品而言,真正凝聚天貓精靈這段時間戰鬥力的是其背後全新的AliGenie 5.0系統。
多模態交互,不再只是用喚醒詞喚醒智能音箱……,今年AliGenie 5.0系統強調的新技能看似全無新意,卻又內藏玄機。
甚至可以說,這樣的新技能其實讓從智能語音技術衍生而來的天貓精靈開始顯得有點早熟。
如果說10寸屏的天貓精靈CC10電池版更多是基於今年上半年天貓精靈CC10的一個「移動化」,天貓精靈CC MINI則是從內到外的一次重新設計。
從個頭來看,天貓精靈CC MINI首次採用4寸屏;
從內核來看,庫偉特別強調,天貓精靈CC MINI是首個搭載阿里自研微內核作業系統的帶屏智能音箱。
什麼是微內核?
這其實是一個物聯網作業系統中的技術概念。
今天物聯網終端應用的作業系統基本分為三類:
第一類,比較簡單的不帶屏設備用的是基於RTOS的作業系統;
第二類,一些複雜的不帶屏設備或一些簡單帶屏設備用的是基於Linux的作業系統;
第三類,更大的帶屏設備用的是安卓系統。
要應用、適配這三類作業系統,無論是從成本上,還是從研發難度上來看,都是一個很耗時耗力的過程。
庫偉告訴雷鋒網,微內核的含義是相對於宏內核的,由於天貓精靈歷代產品中既有帶屏的或簡易或複雜的產品,也有不帶屏的產品,我們希望可以通過一個微內核加上其它成系列的組件的形式,去適配不同的硬體形態。
目前,天貓精靈的目標是將這樣的微內核首先應用在簡易的帶屏設備(例如此次首次應用微內核的天貓精靈CC MINI)和不帶屏的設備中。
對此,庫偉也坦言,這個難度是非常大的,無法一步實現,此次在天貓精靈CC MINI上的應用是我們首次嘗試。通過適配這樣一個帶簡易屏的設備,我們看到應用能夠跑起來,還通過批量商用出貨檢驗了微內核作業系統的能力,這樣的微內核未來一定能夠用到更多的設備中(尤其是不帶屏產品)。
而這樣的微內核的應用,將會在一定程度上解決作業系統碎片化的問題,從作業系統層面讓一些設備能夠實現互聯互通。
這也是阿里基於自己的基因嘗試做物聯網設備互聯互通的一個新思路。
本次阿里雲棲大會上,阿里放出一個新物種——雲電腦「無影」,頗受關注。
在天貓精靈CC MINI中,研發團隊也有研發「雲應用」。
這裡的「雲應用」,天貓精靈有應用與雲電腦研發團隊共同研發的一些底層技術,二者有拉通。
其實,無論是「雲電腦」,還是「雲應用」,二者極力踐行的都是阿里的「雲端一體」理念。
阿里雲智能總裁張建鋒宣布阿里雲進入2.0時代
「雲應用」相當於將大量計算、渲染等工作放到了雲端,本地更多做的是顯示和應用處理,這使得即使像天貓精靈CC MINI這樣本地沒有強大算力的智能音箱也有可能體驗大型教育、遊戲等應用。
值得注意的是,在今年5月天貓精靈春季發布會上,天貓精靈市場運營總經理杜海濤曾指出,天貓精靈將與支付寶小程序打通,今年7月將有170萬+支付寶小程序進入天貓精靈設備。
時隔四個月,此次發布的天貓精靈CC MINI搭載的雲化應用均為基於支付寶小程序搭建的,「本質上,這是一個『微內核+小程序』的數碼產品。」
微內核、雲應用,這些創新應用背後其實都是基於今年全新升級的AliGenie 5.0系統,而此次5.0版本的AliGenie,官方更極力強調的是「多模態交互」。
過往三年裡,天貓精靈AliGenie系統已經經歷了四個大的版本迭代,從AliGenie 1.0到AliGenie 4.0四個大的版本中,官方依次強調的是「語音交互」、「視覺交互」、「行動力」、「平臺化」四個技術關鍵詞,今年的AliGenie 5.0強調的則是多模態交互。
回顧智能音箱這兩年的發展,不難發現,視覺識別、手勢識別等多模態交互技術並不是天貓精靈此次發布的智能音箱首次應用的技術,也不是AliGenie 5.0首次提到的概念,甚至早在2018年發布AliGenie 2.0時,天貓精靈就在語音交互技術的基礎上引入了AI視覺技術,並發布了「天貓精靈火眼」。
而交互能力作為智能音箱最基礎的能力,早在帶屏智能音箱出現後,谷歌、亞馬遜、阿里、百度等就開始想盡辦法為帶屏智能音箱加入更多交互方式。
包括天貓精靈此前已經上市產品天貓精靈CC、天貓精靈CC10均已有加入視覺識別、隔空手勢等交互能力。
這次的多模態技術與以往的有何不同?
聶再清告訴雷鋒網,AliGenie 5.0上的多模態自然交互是「多路感知,一路認知。」
2018年,天貓精靈AliGenie 2.0面世,與此同時,一個名為「天貓精靈火眼」的產品一同面世,這一產品意味著天貓精靈的智能音箱開始嘗試視覺交互能力。
不過,聶再清解釋稱,現在的視覺能力和當時的視覺能力有些不同,關鍵在於「融合」二字。
實際上,AliGenie 2.0中的視覺能力還是對於單獨視覺信號的處理和應用,現在的多模態交互,其實我們已經把視覺信號、語音信號、上下文的語義信號的特徵綜合到一個空間裡做決策。如果說之前的多模態交互是三路輸入分別對應三路不同的輸出,今天的多模態交互則意味著將三路輸入信號信息一起進行分析,最終分析出一個結果,並再以多模態的形式輸出給用戶。
以唇動喚醒為例,天貓精靈需要通過視覺能力識別出唇動的動作,再通過語音技術識別出的語音是否與視覺識別到的唇動是否匹配,再結合上下文的語義理解這個命令是給天貓精靈的,還是這個人和其他人的對話。
識別的最終識別結果和輸出結果為:
分析結果:不是在和天貓精靈說話;輸出結果:不應答。分析結果:是和天貓精靈說話,響應相應的指令;輸出結果:同時輸出語音、文字等多模態內容。
這樣的多模態自然交互技術,不僅使得用戶不再只能通過喚醒詞喚醒智能音箱,更能適應多種應用場景下的交互需求。
聶再清對這樣的多模態交互有更深刻的認識:
隨著更接近人感官的多模態自然交互方式的深入應用,智能音箱在交互體驗上也將變得更成熟。
智能音箱之爭,早已成為巨頭之爭;智能音箱之爭,本質其實是智能助手之爭。
2020年,智能助手的戰火從智能助手蔓延到智能耳機。隨著科大訊飛、百度先後進入TWS智能耳機領域,阿里會不會是下一個進入這一賽道的玩家?
至少,在採訪中,庫偉並沒有否認。
庫偉提到:
耳機在本質上和音箱有點像,在過去一段時間裡我們也在想,音箱是放在家裡的硬體,隨身攜帶沒那麼方便,耳機可以伴身隨行,如果你能夠和它交互實現一些應用,是挺好的一個場景。我們想了很長時間,而且也和OEM廠商嘗試推出了一些產品,實話說,因為一些技術問題,產品用戶體驗還達不到我們內部產品上市要求。
庫偉也提到:
今天我們在做天貓精靈的時候,不是簡單把它當作一個3C產品來看,而是把它作為承載未來在5G、AIoT時代的智能硬體一個打磨重要產品陣地的實驗場來看,我們希望用越來越多的新技術、新平臺,去實驗、去打磨,從而能夠在更廣泛的範圍內把這些平臺推廣開。隨著此次AliGenie 5.0的推出和應用,多模態自然交互、微內核、雲應用帶來了更新的思路和理念的同時,也帶來了些許不一樣的用戶體驗。
2020年,阿里還將如何重新喚醒天貓精靈?你又將如何喚醒你手中的天貓精靈?