鎂佳科技CEO莊莉:從語音助手到全場景語音引擎

2020-12-12 億歐網

2020年12月9-12日，億歐EqualOcean 主辦的 World Innovators Meet (WIM) 2020 世界創新者年會順利舉辦。WIM2020以「科創連動世界」為主題，連接來自亞洲、非洲、歐洲、美洲的全球創新者，分享科技創新成果和認知，共同推進「讓科技更平等」的理念。

資料來源：億歐世界創新年會

鎂佳科技CEO莊莉認為，用戶感知和軟體技術是「軟體定義汽車」的兩個思考維度。車載語音作為「軟體定義汽車」時代下重要的交互手段，是具備高用戶感知且需要創新軟體技術支撐的智能化產品。

以下為演講實錄（有所刪改）：

大家上午好！非常高興在億歐世界創新年會與大家分享我們在「軟體定義汽車」時代下，在車載語音方面的實踐。車載語音是在「軟體定義汽車」時代非常重要的交互手段。

首先我們可以去回想過去幾年在車內經常用到的語音助手。語音助手通常從集成包來講，其調試非常的不方便，因為集成的東西比較多，所以更新迭代的過程很複雜，為一輛車做個性化語音定製非常困難。今年作為汽車智能化的元年，無論是全球領先的特斯拉還是中國的三家頭部新造車企都取得了非常大的進步，傳統車企在「軟體定義汽車」時代下也有了新的認知。

資料來源：億歐世界創新年會

軟體定義汽車這個問題可以從兩個維度去思考（如上圖）。車內的部分功能是低感知的用戶功能，即你做了這個功能之後用戶並不會明確感知到車內有這樣一個功能；部分功能是高用戶感知的功能，即一旦這個功能實現了之後用戶會非常快的發現這個功能被實現了，並且去傳播這個功能。

從另外一個維度我們看，汽車的軟體技術可以從兩個維度看，分別是基本軟體技術和創新軟體技術。

根據上述兩個維度去看，車載語音處在一個高用戶感知，並且是需要有一些創新的技術去實現的具有差異化的功能。

資料來源：億歐世界創新年會

今年，大家會聽到一個新詞——全場景語音交互引擎。那在全場景語音下，用戶希望得到一個怎樣的交互體驗。我們總結下來，其實就是兩個詞，分別是「有用」和「有趣」。

有用和有趣是什麼意思？有用的意思是當我們在開車的時候，手和眼睛都非常忙，因此需要能夠通過簡單的語音指令來完成其他的車內功能的使用。我們希望這個功能是非常全面的，只要是車內的功能，都希望能夠通過語音來控制。

用戶不希望用很精細的方式跟語音對話，更希望車載語音能夠像一個助手一樣，能夠用平時的交流語言進行交互。此外，用戶希望通過語音助手可以準確完成所要求的任務，然後給我們準確的回覆，這是從「有用」的維度去思考這個問題。

「有趣」是用戶並不想和一個冰冷的機器交流，我們更多是希望在這個交流過程中會有一些小的驚喜。比如，在車內看到虛擬或者是實體擬人形象，可以做一些定製化的交互；比如，給語音助手起自己獨特的名字。

我們希望能夠將家居、辦公、出行三個場景的打通。這是從用戶角度去看用戶有哪些語音交互的訴求。一般語音交互系統裡會有一些基本組成的成分，比如首先要喚醒語音交互系統，讓它知道要開始跟你對話了。我們對喚醒這一部分的要求就是高喚醒率和低誤喚醒率。

誤喚醒率的意思就是說，你並不希望在車內和別人說話的時候語音系統突然出來跟你說一句話，讓你覺得非常意外和吃驚。

其次，就是語音識別技術，對語音識別技術的要求就是響應速度快，識別率高。當識別出文字之後，我們需要去理解用戶的意圖，並理解文字背後的語意，識別出來這個語意裡面的參數。因此，正確理解和穩定的執行是非常重要的。

最後，理解和執行用戶操作之後需要給用戶一個回復，就是讓用戶知道這個事情已經完成了，或者是未完成的原因，最後需要進行話術的輸出。這一塊基本要求是輸出語音可識別性強，並且音色要高度擬人化。

車載語音交互場景和其他場景有什麼不一樣的地方，其實我們看到有語音交互的地方已經非常多了，比如說家裡的藍牙音響和智能家具的結合。但在車內場景，其實我們會發現有兩個非常有意思的事情：

一，場景的集中水平。在「車」這個特定的場景下如何做優化和提升決定了以語音為中心的車載人機互動系統的實用性。

二，信息體驗水平。比如說語音的調性、對話系統輸入的方式等等決定了車載交互語音是否足夠有趣。

資料來源：億歐世界創新年會

一個有用的語音交互系統在車載交互場景下能夠使用戶做到只動口不動手，如此便要求車載語音全面覆蓋車內功能。如果一個語音作業系統不能夠實現車裡幾乎所有的功能，包括每一個按紐上的功能，用戶就不會形成使用習慣。可能過一陣子之後用戶還是會用手去操作，保證每一個操作都可以瞬間完成。

車載語音在車內是一個替代手的角色，需要具備高識別率，比如說你說要放一首某人的歌，如果這一句反覆了很多次都不能被識別正確，對用戶來講會覺得這個語音交互是沒有用的。而在高速上開空調等有車內特定的噪聲的場景下不能正確識別，也不會成為用戶覺得好用的語音交互系統。

此外，對於多步操作的功能，車載語音也應該能夠簡化操作。例如，單獨打開導航的設置頁面，可能需要多次點擊才能進入很深的一個交互頁面。而通過全場景語音可以實現一句話抵達頁面的結果。車內有風或者是車內的各種質量和布局不一樣的時，需要對車內的模型進行定製，同時車內的噪聲環境還需要進行複雜的預處理。

當我們能夠做到上述的情況，從用戶端角度會出現四種現象。

資料來源：億歐世界創新年會

一，日均交互次數提升。如果語音交互系統的質量下降，那麼會很明顯看到日均交互次數是下降的。一個好的語音交互系統日均交互次數應該保持在20次以上。

二，用戶留存率非常高。用戶在提車若干月之後還能保持80%甚至更高的車載語音的留存率，這就證明用戶形成了使用習慣，提升了用戶粘性。

三，需求相對集中。用戶並不會每天對著語音聊天，而是通過語音交互完成車內的功能。根據用戶使用習慣來看，媒體+導航+車輛控制類操作上，用戶主動發起對話的佔比為85%左右。

四，提升空間大。根據我們的觀察，主流車載語音系統裡端到端完成率僅為85%-90%。端到端的完成率是指完成從喚醒、識別、語音理解、TDS的輸出等所環節的成功。只要任何一個鏈條出錯，完成率就會下降。

舉個例子，假設在四個環節中的各項完成率為90%，最後端到端的完成率只能達到64%。如果我們要做到端到端90%以上的完成率，各環節的完成率基本上要做到97%-99%以上。這對每一個模塊的技術要求是非常高的。

目前，車載語音系統也存在一些問題，例如車內的計算資源有限、車內的環境噪音以及幹擾性聲源。這些因素都會影響車載語音系統功能的實現。

解決辦法是什麼？其實可以通過模型的壓縮和加速去充分的優化模型，並滲透車上各種算力，包括GPU、DST等等。充分利用車上麥克風的特性做降噪，語音的增強包括可以做音區隔離，配合攝像頭做一些傳感器的融合，提升車載語音系統能力。

在實現「有用」的情況下，我們希望使全場景的語音交互系統更有趣。我們希望語音交互系統可以實現一站式的服務，變得更加主動。比如說在自動駕駛過程當中，很多時候不知道這個算法要做什麼，如果能在這個過程當中融合一些主動的語音交互和確認，其實會讓用戶在開車過程當中變得更加有信心，變得更加放心。有趣從另外一個角度來講也是需要情感化和個性化。

一站式語音服務意思是說：

一，需要打通車內和車外面非常多的場景，比如說手機移動端和車機端進行無縫的打通。

二，是否可以進行一些場景化的工作，在汽車電量比較少的時候會從手機和車端同步推送，提醒附近有一個充電樁等信息。

三，個性化的服務，我們是不是可以根據用戶的日曆還有個性化的信息主動提醒用戶什麼時候出發。

四，需要有可配置、口語化的話術交流，其實這些都是用戶所期待的語音可以完成的事情。

如果車有一些問題需要去提醒車主的時候，車載語音可以主動提醒車主，告訴車主前方的事故，讓車主決定是否要去換一個導航的路線。

以上場景可以被劃分為單人場景。在此場景下，車載語音可以主動發起一些話題，變被動為主動。而在多人場景（多人同時乘車）下，可以減少主動發起對話的次數。在這裡可以做非常多有趣的產品。

比如說，滿足用戶對語音形象人格化和表情等等一些期望，同時可以自定義有意思的音色等等。

這個功能其實是建立在對用戶過去的駕駛行為、語音習慣、用戶偏好等等的研究，最後為用戶提供個性化的車載伴侶的語音作業系統。

這是從用戶的角度出發搭建的功能。如果我作為一個車主，我希望我的語音作業系統是一個什麼樣的系統？其實，很多時候我們賦能車廠去做輛最好的全場景語音交互系統。我們會結合客戶、車廠、合作夥伴的角度去理解他們所期望的第三方語音服務是怎樣的，然後進行快速的集成，並且定製一些有趣的語音場景，提升語音服務體驗。

快速集成可以從4個方面賦能我們的客戶：

第一，提供非常豐富的技能和內容。豐富的技能就包括剛剛我們所提到車內音區隔離、識別和語音交互。這些其實都是在當前的車輛語音交互系統中非常高級的功能，用戶也非常喜歡。

第二，其實在集成的過程中花時間最多的是去檢查運行環境，提供一個一鍵搞定運行環境的檢查功能，使得在集成過程中不會有遺漏或者造成用戶體驗缺失。

第三，語音系統和車輛系統之間的集成調試通常也是需要在實際的路上進行測試的工作。測試完之後發現問題怎樣有效地保存現場，並且把現場的錯誤上傳到雲端，以便於我們去迭代這個模型，這就需要有非常完善的現場日誌和音頻上傳工具。

第四，個性化語音定製。我們一定要具備遠程用戶下單、播放有趣語音內容和語音音色的資源庫和文件包的功能。

當下，沒有任何一家車企希望它的語音系統和競品相同，功能實現相同。所以在這裡面算法和模塊的可選、話術定製、對話流程的定製以及車型配置、話術回復、分場景的內容完成率等等都非常重要。

此外，我們經常會看到一些沒有經過高度定製和優化的語音系統佔用晶片較多的算力，這會影響到座艙其他應用的使用體驗。語音交互系統在主流晶片上的深度定製和優化也是企業非常重要的基礎能力。

我們在今年已經向客戶推出了在樣板車上集成的全場景語音賦能系統，這其實是我們數字座艙的一部分，包括剛才所提到的客戶所期望的各種豐富的接頭和工具。我們也希望能夠以此助力所有的中國汽車都能夠有高質量、全場景的語音交互體驗。

關於WIM2020

世界創新者年會(World Innovators Meet, WIM)（12月9-12日點擊可查看直播），是中國科技領域最有影響力的大會之一，也是全球創新領域的年度盛會，至今已成功舉辦六屆。大會組委會每年在全球範圍遴選並邀請最具代表性的「創新者」前來參會。

關於WIA

在世界創新者年會期間，WIM組委會整合億歐EqualOcean的全年產業和投資研究工作成果，發布年度重磅的World Innovation Awards (WIA) 榜單，即2020世界創新獎，並配套一系列的研究報告。

相比WIA2019，WIA2020也將有所升級，打通一二級市場，同步關注新銳企業和上市企業創新兩股重要的科技創新力量；不變的，是WIA2020依然是全球視野，全球企業榜單。此外，WIM大會期間，組委會還會發布投資機構榜單和獎項，遴選全球範圍內的優秀投資機構，是他們引導資金支持優秀的科技創新企業，加速他們造福世界的進程。

歡迎大家通過億歐智庫和EqualOcean下載WIA2020系列中英文報告。

鎂佳科技CEO莊莉:從語音助手到全場景語音引擎

關於WIM2020

關於WIA

相關焦點

莊莉的「野心」:賦能,從汽車到汽車人的進化!

智能助手推動語音革命

靈犀語音助手蘋果版下載_靈犀語音助手iOS版免費下載-太平洋下載中心

文字轉語音助手(促銷叫賣)

電腦的AI智能助手,完美攪局電腦市場,從此進入語音控制時代

OPPO Watch 手錶如何使用語音助手?

竹間防疫機器人和華為手機語音助手小藝,正式投入戰「疫」

小米的語音助手小愛同學為什麼能夠脫穎而出

隨時喚醒語音助手,真不是一句話的事兒

OPPO小布助手2.0到來,升級 AI 性能,語音交互更智能

鎖定:華為語音場景快服務開發接入公開課

語音交互從未如此自然!TCL V8詮釋更懂用戶的AI智能電視

PS5真的支持智能語音助手

AI語音助手SoundHound融資6億元

調用手機語音助手 i-Mode車載系統體驗

老外在中國:我最愛的語音助手

「語音生活助手」哪家強?獵雲網評測告訴你答案

微信聯手惠普、英特爾推出PC端人工智慧語音助手

SoapBox Lab開發兒童語音識別技術,打造最懂孩子的語音助手

小米、錘子們都在談手機語音助手,它的春天來了?-虎嗅網