不難發現,現在「車載語音交互」的體驗越來越完善。它不僅能完成更多的指令,而且能和我們進行情感交互,甚至還懂得一些基本的倫理綱常。
那現在語音體驗發展到哪一步了?實現這樣的體驗都有哪些路徑?這些路徑之間有什麼不同?為什麼我們的體驗越來越好?下面我們帶著疑惑,一一討論這些問題。
現在的語音系統體驗怎麼好了?
首先語音的基礎能力更強了。
之前雖然能完整跑通 ASR、TTS 這些流程,能實現一些簡單的 NLU/NLP 能力,但體驗有很多漏洞,比如有可能識別失敗,指令完成緩慢,交互邏輯不合常理等等。現在來看,這些基礎能力正變得更強,基本可以稱得上是一個「有價值的工具」。
具體表現有,能夠支持打斷,支持多輪對話,支持上下文理解,支持中英文混合理解,可以自動糾錯,支持免喚醒,誤觸率降低,反應速度增加,能夠識別更輕的聲音,能夠輸入更長的對話,能夠理解一條語音多指令,能夠理解一些普世的倫理邏輯……
說到底這些基礎能力只是一種交互模式,是一種手段,真正要實現價值需要結合應用和生態。所以現在的車載語音還將觸手伸向了更多領域:
1. 將語音和軟體功能結合。比如和作業系統結合,和地圖導航結合,和車機上所有的應用生態結合,和市面上主流的 Feed 流結合。舉個例子,你可以說「屏幕亮一點」,「回到主頁」,「打開 XX 地圖」,「我想聽周杰倫的歌」,「搜索附近的充電站」,「蘋果今天的股價是多少」,「林則徐是誰」等等。和多種應用結合其實是個很大的突破,可以想想,至今 Siri 都不能完成「我要聽 XX 的歌」這樣的指令。
2. 將語音和硬體設備結合。這裡是指控制車內的一些硬體,比如開閉空調、車窗;和其他的智能設備結合,比如車控家,智能手錶等等。
另外近幾年還衍生出了虛擬助手的概念。這對完成指令本身沒有幫助,但在感性層面,它往往非常能打動消費者。一個合適的虛擬形象,往往會成為這套車機系統,甚至這款車的加分項。
同樣的語音體驗
不一樣的實現路徑,不一樣的想像空間
可喜的是,現在確實已經有一部分車型,或完全或部分實現了上面這些功能。但它們的實現路徑其實不太一樣。下面我介紹 3 種。
1. 使用 BAT 的車聯網方案,搭配對應的語音能力。
膚淺來說,現在車機系統最明顯的表現就是搭載各項網際網路應用,比如高德地圖/QQ 音樂/車載微信/愛奇藝等等。所以 BAT 現在都有一套比較通用化的自家生態方案,裡面有不同的功能模塊,OEM 可以選擇「打包上車」,這其中就包括車載語音系統。
自家的生態,配上自家的語音,那肯定體驗會更好一些。拿騰訊來說,他們推出了微信車載版,在騰訊叮噹提供的語音下,我們收發微信語音非常流暢。另外騰訊還有一個產品叫「騰訊隨行」,配合騰訊叮噹收發微信位置,打開小程序,也很流暢。「愛趣聽」也是一樣。
當然,騰訊也會輔助開發系統,給予 Feed 流支持,做一些 NLU 的開發,所以和騰訊合作的車機系統(比如哈弗 F5 搭載的 Fun-Life)基本都能實現我們上面說的那些功能。同理,百度(DuerOS)和阿里(斑馬系統)的方案也可以。
不過,雖然 BAT 都能實現上述功能,但他們還有一個共通點就是基本無法實現「全流程開發」。也就是說車內基礎的 ASR 和 TTS 能力可能是由其他語音供應商提供,而 BAT 負責語音控制生態以及其他相關 NLU 的工作。
當然,這並不是說 BAT 沒有實現 ASR 和 TTS 的能力,據了解有些網際網路大廠已經開始做相關的技術儲備。只是語音交互是一個從前端降噪-語音觸發-識別-理解-語音反饋的長技術鏈,而科大訊飛、思必馳、紐昂司等老牌語音公司,在 ASR 和 TTS 這種基礎語音能力的工程化交付上有更多的經驗,所以大家各司其職,合併合作,其實是更有效率的做法。
2. 不把語音當產品,而把語音當平臺。
我們在《奇妙車機情報局》還測過一個產品,是博泰開發的擎 Mobile。當時確實給到我比較舒適的體驗。(這裡不談論它的產品路徑,只談語音功能的實現。)
它的識別速度很快,糾錯能力較好。可以一邊聽,一邊說,一邊執行命令,還可以隨時打斷。我可以說話聲音很小,也可以說很長一段話。它可以清晰識別,然後摘出長對話裡的多個語音命令。
據了解,如果車載語音僅依靠供應商,那用戶的指令從觸發,到識別,到理解,到反饋,再到執行,是一個脫離的過程,反應時間自然就長。而博泰認為,車載語音不只是一個技術產品,而應該是一個涉及到整車的電子電氣架構、車輛信息安全以及車輛數據閉環的「平臺」。
所以擎 Mobile 是一套集成了晶片、硬體、軟體、雲端和生態的平臺化產品。
以導航功能為例,它會在識別指令的同時,直接抓取關鍵字上傳到地圖引擎。比如我說「導航到北京機場 T3 航站樓的停車場接個人」,關鍵詞是北京、T3、停車場。關鍵詞抓完,導航實施執行。所以有可能我話沒說完,雲端已經開始計算執行了。這是集成的好處。
當然這個產品也並不完美,在我當時的體驗下,雖然語音有很極致的體驗,但它和其他應用生態的結合和適配比較一般。另外未來博泰如何把相關能力輸出給 OEM,我也暫時打個問號。
3. 自己定義語音交互框架。
近期小鵬汽車的新車型 P7 火了(不是著火了),最亮眼的部分之一就是它的車載語音。
識別速度很快,功能結合深入,對話邏輯自然幽默,語音助手的新形象也更高級了一些,而且語音反饋的女聲實在是很甜美。這其實能表明,AISpeech 和 Xpeng in House 把 ASR 做的紮實,TTS 優化地好,NLU 也做了比較深刻的訓練。
值得一提的是,P7 的語音交互框架是小鵬自己搭建的,所以它也不只是個簡單的產品,而是個平臺。它可以在初期就構建很多深層的功能,讓車內的數據聯動起來,同時對數據安全和用戶隱私進行保護和封鎖。也正因為功能是自己定義的,所以用戶數據自然也就跑到自家口袋裡來,這就讓運營用戶成為可能。
相對 BAT 提供的語音能力,小鵬汽車有完全自主的產品定義權;相對博泰,小鵬汽車有產品做支撐。P7 的語音系統確實是一個佔優勢的產品。
另外,再說說說自己搭建語音交互框架有多重要。我舉個反例。近期我們體驗了一套傳統豪華品牌下全新換代車型的車機系統。這套語音系統的框架是德國定義的,語音供應商分別有兩家,一家是紐昂司,一家是國內供應商(我們暫且稱它為 XX),同時它還接入了天貓精靈的能力。
紐昂司和 XX 都承擔了 ASR 和 NLU 的任務,算是並行關係,所以用戶輸入任何一個指令,這倆通道都要跑一遍,最後它倆統一口徑實行指令。一旦誰慢了,就要互相等著,所以這套語音的執行速度較慢。而且它的 TTS 有拖音現象,據說是歷史遺留問題,是上代車型上的老方案,所以只能如此。再說天貓精靈,它並不會自然喚醒,而是你要對喚醒的語音說一句「你好,天貓精靈」,它才會出現。
這麼看來,這個語音交互框架是挺亂的,但大廠認可自己的節奏就行。而且倒也不是說要一味的激進,因為不是每個大刀闊斧的產品都是成功的。所以,激進還是保守,後果都要自己承擔。
為什麼現在的車載語音系統變得好用了?
車載語音的完善,供應商和 OEM 都做出了努力。
從供應商方面來說,早期的語音供應商並沒有開箱即用的語音方案,都需要大量對接、磨合。現在各家方案在工程化上解決問題越來越多,實用性也就越來越好。具體表現就是各個技術環節的指標都有量的提升(這裡包括抗噪、識別、理解)。
在 OEM 方面來說,語音的交互框架更完善,從以前的單工單輪交互逐漸往多輪連續對話能力升級,對話更自由;NLU 的泛化支持更充分,語音識別更準,對話邏輯更自然;功能應用更豐富,更實用,語音和各功能的融合更深入。
簡單來說,軟硬體技術的升級,讓機器能聽清我們說什麼;更豐富的語料和更完善的語音模型,讓我們能聽清機器說什麼;同時上車的功能更多更實用,能滿足我們更多車內的需求。以上。
總結
談起語音進入汽車,可能要追溯到 10 年前。如今 2020 年了,車內語音交互終於讓我們感受到了進步。
上面我們談到現在的語音交互如何好用,實現路徑有幾種,也分析了背後的原因。這是每家供應商在推著行業往前走,也是每個車廠自己的選擇和節奏。也許有些路是走彎了,甚至走錯了,但好的方面是,汽車配置的越來越下沉,用戶能用更合理的錢獲得更好的體驗。
最後來思考一個顛覆問題:語音交互一定是車內最好的交互方式嗎?如果不是,那上述話題就意義不大了。事實上,我們確實在一邊大力發展語音交互同時,一邊尋找新的交互方式。