鎂佳科技CEO莊莉:從語音助手到全場景語音引擎

2020-12-12 億歐網

2020年12月9-12日,億歐EqualOcean 主辦的 World Innovators Meet (WIM) 2020 世界創新者年會順利舉辦。WIM2020以「科創連動世界」為主題,連接來自亞洲、非洲、歐洲、美洲的全球創新者,分享科技創新成果和認知,共同推進「讓科技更平等」的理念。

資料來源:億歐世界創新年會

鎂佳科技CEO莊莉認為,用戶感知和軟體技術是「軟體定義汽車」的兩個思考維度。車載語音作為「軟體定義汽車」時代下重要的交互手段,是具備高用戶感知且需要創新軟體技術支撐的智能化產品。


以下為演講實錄(有所刪改):

大家上午好!非常高興在億歐世界創新年會與大家分享我們在「軟體定義汽車」時代下,在車載語音方面的實踐。車載語音是在「軟體定義汽車」時代非常重要的交互手段。

首先我們可以去回想過去幾年在車內經常用到的語音助手。語音助手通常從集成包來講,其調試非常的不方便,因為集成的東西比較多,所以更新迭代的過程很複雜,為一輛車做個性化語音定製非常困難。今年作為汽車智能化的元年,無論是全球領先的特斯拉還是中國的三家頭部新造車企都取得了非常大的進步,傳統車企在「軟體定義汽車」時代下也有了新的認知。

資料來源:億歐世界創新年會

軟體定義汽車這個問題可以從兩個維度去思考(如上圖)。車內的部分功能是低感知的用戶功能,即你做了這個功能之後用戶並不會明確感知到車內有這樣一個功能;部分功能是高用戶感知的功能,即一旦這個功能實現了之後用戶會非常快的發現這個功能被實現了,並且去傳播這個功能。

從另外一個維度我們看,汽車的軟體技術可以從兩個維度看,分別是基本軟體技術和創新軟體技術。

根據上述兩個維度去看,車載語音處在一個高用戶感知,並且是需要有一些創新的技術去實現的具有差異化的功能。

資料來源:億歐世界創新年會

今年,大家會聽到一個新詞——全場景語音交互引擎。那在全場景語音下,用戶希望得到一個怎樣的交互體驗。我們總結下來,其實就是兩個詞,分別是「有用」和「有趣」。

有用和有趣是什麼意思?有用的意思是當我們在開車的時候,手和眼睛都非常忙,因此需要能夠通過簡單的語音指令來完成其他的車內功能的使用。我們希望這個功能是非常全面的,只要是車內的功能,都希望能夠通過語音來控制。

用戶不希望用很精細的方式跟語音對話,更希望車載語音能夠像一個助手一樣,能夠用平時的交流語言進行交互。此外,用戶希望通過語音助手可以準確完成所要求的任務,然後給我們準確的回覆,這是從「有用」的維度去思考這個問題。

「有趣」是用戶並不想和一個冰冷的機器交流,我們更多是希望在這個交流過程中會有一些小的驚喜。比如,在車內看到虛擬或者是實體擬人形象,可以做一些定製化的交互;比如,給語音助手起自己獨特的名字。

我們希望能夠將家居、辦公、出行三個場景的打通。這是從用戶角度去看用戶有哪些語音交互的訴求。一般語音交互系統裡會有一些基本組成的成分,比如首先要喚醒語音交互系統,讓它知道要開始跟你對話了。我們對喚醒這一部分的要求就是高喚醒率和低誤喚醒率。

誤喚醒率的意思就是說,你並不希望在車內和別人說話的時候語音系統突然出來跟你說一句話,讓你覺得非常意外和吃驚。

其次,就是語音識別技術,對語音識別技術的要求就是響應速度快,識別率高。當識別出文字之後,我們需要去理解用戶的意圖,並理解文字背後的語意,識別出來這個語意裡面的參數。因此,正確理解和穩定的執行是非常重要的。

最後,理解和執行用戶操作之後需要給用戶一個回復,就是讓用戶知道這個事情已經完成了,或者是未完成的原因,最後需要進行話術的輸出。這一塊基本要求是輸出語音可識別性強,並且音色要高度擬人化。

車載語音交互場景和其他場景有什麼不一樣的地方,其實我們看到有語音交互的地方已經非常多了,比如說家裡的藍牙音響和智能家具的結合。但在車內場景,其實我們會發現有兩個非常有意思的事情:

一,場景的集中水平。在「車」這個特定的場景下如何做優化和提升決定了以語音為中心的車載人機互動系統的實用性。

二,信息體驗水平。比如說語音的調性、對話系統輸入的方式等等決定了車載交互語音是否足夠有趣。

資料來源:億歐世界創新年會

一個有用的語音交互系統在車載交互場景下能夠使用戶做到只動口不動手,如此便要求車載語音全面覆蓋車內功能。如果一個語音作業系統不能夠實現車裡幾乎所有的功能,包括每一個按紐上的功能,用戶就不會形成使用習慣。可能過一陣子之後用戶還是會用手去操作,保證每一個操作都可以瞬間完成。

車載語音在車內是一個替代手的角色,需要具備高識別率,比如說你說要放一首某人的歌,如果這一句反覆了很多次都不能被識別正確,對用戶來講會覺得這個語音交互是沒有用的。而在高速上開空調等有車內特定的噪聲的場景下不能正確識別,也不會成為用戶覺得好用的語音交互系統。

此外,對於多步操作的功能,車載語音也應該能夠簡化操作。例如,單獨打開導航的設置頁面,可能需要多次點擊才能進入很深的一個交互頁面。而通過全場景語音可以實現一句話抵達頁面的結果。車內有風或者是車內的各種質量和布局不一樣的時,需要對車內的模型進行定製,同時車內的噪聲環境還需要進行複雜的預處理。

當我們能夠做到上述的情況,從用戶端角度會出現四種現象。

資料來源:億歐世界創新年會

一,日均交互次數提升。如果語音交互系統的質量下降,那麼會很明顯看到日均交互次數是下降的。一個好的語音交互系統日均交互次數應該保持在20次以上。

二,用戶留存率非常高。用戶在提車若干月之後還能保持80%甚至更高的車載語音的留存率,這就證明用戶形成了使用習慣,提升了用戶粘性。

三,需求相對集中。用戶並不會每天對著語音聊天,而是通過語音交互完成車內的功能。根據用戶使用習慣來看,媒體+導航+車輛控制類操作上,用戶主動發起對話的佔比為85%左右。

四,提升空間大。根據我們的觀察,主流車載語音系統裡端到端完成率僅為85%-90%。端到端的完成率是指完成從喚醒、識別、語音理解、TDS的輸出等所環節的成功。只要任何一個鏈條出錯,完成率就會下降。

舉個例子,假設在四個環節中的各項完成率為90%,最後端到端的完成率只能達到64%。如果我們要做到端到端90%以上的完成率,各環節的完成率基本上要做到97%-99%以上。這對每一個模塊的技術要求是非常高的。

目前,車載語音系統也存在一些問題,例如車內的計算資源有限、車內的環境噪音以及幹擾性聲源。這些因素都會影響車載語音系統功能的實現。

解決辦法是什麼?其實可以通過模型的壓縮和加速去充分的優化模型,並滲透車上各種算力,包括GPU、DST等等。充分利用車上麥克風的特性做降噪,語音的增強包括可以做音區隔離,配合攝像頭做一些傳感器的融合,提升車載語音系統能力。

在實現「有用」的情況下,我們希望使全場景的語音交互系統更有趣。我們希望語音交互系統可以實現一站式的服務,變得更加主動。比如說在自動駕駛過程當中,很多時候不知道這個算法要做什麼,如果能在這個過程當中融合一些主動的語音交互和確認,其實會讓用戶在開車過程當中變得更加有信心,變得更加放心。有趣從另外一個角度來講也是需要情感化和個性化。

一站式語音服務意思是說:

一,需要打通車內和車外面非常多的場景,比如說手機移動端和車機端進行無縫的打通。

二,是否可以進行一些場景化的工作,在汽車電量比較少的時候會從手機和車端同步推送,提醒附近有一個充電樁等信息。

三,個性化的服務,我們是不是可以根據用戶的日曆還有個性化的信息主動提醒用戶什麼時候出發。

四,需要有可配置、口語化的話術交流,其實這些都是用戶所期待的語音可以完成的事情。

如果車有一些問題需要去提醒車主的時候,車載語音可以主動提醒車主,告訴車主前方的事故,讓車主決定是否要去換一個導航的路線。

以上場景可以被劃分為單人場景。在此場景下,車載語音可以主動發起一些話題,變被動為主動。而在多人場景(多人同時乘車)下,可以減少主動發起對話的次數。在這裡可以做非常多有趣的產品。

比如說,滿足用戶對語音形象人格化和表情等等一些期望,同時可以自定義有意思的音色等等。

這個功能其實是建立在對用戶過去的駕駛行為、語音習慣、用戶偏好等等的研究,最後為用戶提供個性化的車載伴侶的語音作業系統。

這是從用戶的角度出發搭建的功能。如果我作為一個車主,我希望我的語音作業系統是一個什麼樣的系統?其實,很多時候我們賦能車廠去做輛最好的全場景語音交互系統。我們會結合客戶、車廠、合作夥伴的角度去理解他們所期望的第三方語音服務是怎樣的,然後進行快速的集成,並且定製一些有趣的語音場景,提升語音服務體驗。

快速集成可以從4個方面賦能我們的客戶:

第一,提供非常豐富的技能和內容。豐富的技能就包括剛剛我們所提到車內音區隔離、識別和語音交互。這些其實都是在當前的車輛語音交互系統中非常高級的功能,用戶也非常喜歡。

第二,其實在集成的過程中花時間最多的是去檢查運行環境,提供一個一鍵搞定運行環境的檢查功能,使得在集成過程中不會有遺漏或者造成用戶體驗缺失。

第三,語音系統和車輛系統之間的集成調試通常也是需要在實際的路上進行測試的工作。測試完之後發現問題怎樣有效地保存現場,並且把現場的錯誤上傳到雲端,以便於我們去迭代這個模型,這就需要有非常完善的現場日誌和音頻上傳工具。

第四,個性化語音定製。我們一定要具備遠程用戶下單、播放有趣語音內容和語音音色的資源庫和文件包的功能。

當下,沒有任何一家車企希望它的語音系統和競品相同,功能實現相同。所以在這裡面算法和模塊的可選、話術定製、對話流程的定製以及車型配置、話術回復、分場景的內容完成率等等都非常重要。

此外,我們經常會看到一些沒有經過高度定製和優化的語音系統佔用晶片較多的算力,這會影響到座艙其他應用的使用體驗。語音交互系統在主流晶片上的深度定製和優化也是企業非常重要的基礎能力。

我們在今年已經向客戶推出了在樣板車上集成的全場景語音賦能系統,這其實是我們數字座艙的一部分,包括剛才所提到的客戶所期望的各種豐富的接頭和工具。我們也希望能夠以此助力所有的中國汽車都能夠有高質量、全場景的語音交互體驗。


關於WIM2020

世界創新者年會(World Innovators Meet, WIM)(12月9-12日點擊可查看直播),是中國科技領域最有影響力的大會之一,也是全球創新領域的年度盛會,至今已成功舉辦六屆。大會組委會每年在全球範圍遴選並邀請最具代表性的「創新者」前來參會。

關於WIA

在世界創新者年會期間,WIM組委會整合億歐EqualOcean的全年產業和投資研究工作成果,發布年度重磅的World Innovation Awards (WIA) 榜單,即2020世界創新獎,並配套一系列的研究報告。

相比WIA2019,WIA2020也將有所升級,打通一二級市場,同步關注新銳企業和上市企業創新兩股重要的科技創新力量;不變的,是WIA2020依然是全球視野,全球企業榜單。 此外,WIM大會期間,組委會還會發布投資機構榜單和獎項,遴選全球範圍內的優秀投資機構,是他們引導資金支持優秀的科技創新企業,加速他們造福世界的進程。

歡迎大家通過億歐智庫和EqualOcean下載WIA2020系列中英文報告。

相關焦點

  • 莊莉的「野心」:賦能,從汽車到汽車人的進化!
    而「鎂佳」這個名字從某種程度上也體現了莊莉內心的願景,技術大神的浪漫體現在一些小細節中。《變形金剛》電影中,有個角色叫Megatron(威震天),莊莉覺得這個名字非常酷,好聽,把它和汽車零部件的英文結合一下,公司的名字就成為:Megatronix。而Mega這個詞本身也包括宏大的,極佳的的意思,翻譯成中文——鎂佳。
  • 智能助手推動語音革命
    sX1ednc目前,計算機、智慧型手機和智能音箱等都採用內置語音助手,使用基於雲的深度學習系統來支持用戶提問和設定操作。人們日常使用的其他設備很快也將實現這樣的功能。根據市場研究機構Statistica的數據,預計到2021年,將有多達18億人在隨身攜帶的設備上,以及在家中甚或商業環境中其他類型的平臺上,使用語音助手(圖1)。
  • 靈犀語音助手蘋果版下載_靈犀語音助手iOS版免費下載-太平洋下載中心
    靈犀語音助手 學習辦公 大小: 235.4 MB
  • 文字轉語音助手(促銷叫賣)
    文字轉語音助手(促銷叫賣) 音頻轉換 大小: 63.4 MB
  • 電腦的AI智能助手,完美攪局電腦市場,從此進入語音控制時代
    電腦的AI智能助手,完美攪局電腦市場,從此進入語音控制時代。小夥伴們,難道你們不希望電腦能跟小愛語音助手融為一體嗎,通過語音控制自己的電腦,給自己的電腦配一個智能助手。眼看著手機端的各種智能助手,小編真的是非常羨慕,即使是win10中的小娜助手,操作起來也遠沒有手機息屏時的喚醒功能來的給力了,就在小編傷心難過的時候。訊飛推出了咪鼠智能語音滑鼠!
  • OPPO Watch 手錶如何使用語音助手?
    OPPO手機中的強大便利的Breeno語音相信大家一定不會陌生,而我們的OPPO Watch手錶也支持Breeno語音,快來和小編一起了解一下吧~語音喚醒只要說出關鍵詞,即可快速喚醒Breeno語音助手
  • 竹間防疫機器人和華為手機語音助手小藝,正式投入戰「疫」
    小藝作為華為語音助手擁有多項技能,此次與竹間智能聯手,小藝變身具備了「防疫小助手」這項新技能,現可提供疫情諮詢、健康諮詢、心理諮詢等諸多功能。面對突如其來爆發的疫情,面對未知的新冠病毒,由於信息知識不夠,大家沒有正確的認知,大家多多少少難免恐慌。大眾如何在海量複雜的信息中主動得到自己想要且正確的信息,而不是被動地被龐大的數據信息淹沒?
  • 小米的語音助手小愛同學為什麼能夠脫穎而出
    小米的語音助手小愛同學為什麼能夠脫穎而出?目前,在國內主流安卓手機廠商中,小米的語音助手小愛同學做的是比較好的,我認為原因有以下兩個主要方面。小米在IOT布局的前期主要以手機作為智能家居(米家)的控制核心,現在看來米家的控制中心慢慢的已經轉向小米語音助手小愛同學了,小愛同學作為米家的控制中心,地位是非常高,不能太笨,因為小愛同學的智能程度一定程度上決定智能家居的智能程度,所以小米在語音助手的重視度上就比其他廠商要高。
  • 隨時喚醒語音助手,真不是一句話的事兒
    在第 122 期「深圳灣夜話」上,來自思必馳、QuickLogic、順豐科技、步步高的嘉賓,分享了他們在低功耗語音喚醒方面的技術和應用。 在算法層面,思必馳提供了從 DSP 到 AP 的一整套集成方案,包括雙麥定向波束、命令詞檢測、骨傳導特徵檢測等多項技術方案,實現設備從低功耗喚醒、到喚醒驗證、再到聲紋識別的多級喚醒。
  • OPPO小布助手2.0到來,升級 AI 性能,語音交互更智能
    在這萬物互聯的時代,人工智慧技術蓬勃發展,人機之間的智能交互愈發受到群眾的青睞,而語音助手更是成了這其中繞不開的話題。但是目前存在的語音助手,大部分並不十分「智能」,存在功能不多、語音識別不準、語音喚醒困難等種種問題,給用戶的體驗並不友好。
  • 鎖定:華為語音場景快服務開發接入公開課
    萬物網際網路時代,語音交互成為了AI技術最高頻的應用場景。華為快服務智慧平臺(HUAWEI Ability Gallery)作為華為統一的原子化服務接入和分發平臺,實現應用服務一次接入全場景分發。第一節華為快服務智慧平臺公開課,華為分享了全局搜索快服務的開發接入方式;本次課程將介紹語音場景下的快服務開發接入。
  • 語音交互從未如此自然!TCL V8詮釋更懂用戶的AI智能電視
    TCL近期就推出了TCL V8全場景AI電視、TCL C8至臻QLED TV和TCL P9好萊塢劇院電視等三款支持全場景AI功能的智能電視新品,讓你可以「拋棄」傳統的電視搖控器,體驗不一樣的智能新生活。
  • PS5真的支持智能語音助手
    近日,有消息稱PS5將支持智能語音助手,這樣就可以幫助玩家在玩遊戲的時候方便發送信息給聯機隊友。同時,語音助手的加入還能夠有更多應用途徑,可以幫助玩家優化整體的體驗。不過,PS5究竟是否真的會搭載智能語音助手還是個未知數。
  • AI語音助手SoundHound融資6億元
    5月4日消息,據VentureBeat報導,AI語音助手SoundHound宣布,它已經完成了1億美元(約合6億元)的融資,以加快其Houndify語音人工智慧(AI)平臺的國際擴張。  該公司還採用新的語言,設立新的辦事處,並將其Hound語音助手應用於家居應用和汽車等設備上。
  • 調用手機語音助手 i-Mode車載系統體驗
    、科大訊飛等語音系統在語音識別以及語義識別方便,都比單純的在車機裡加模塊要成熟,且運行速度也會快不少。● i-Mode功能實測  由於連接手機的型號不一樣,所以語音控制系統也會不一樣,比如蘋果的則是通過siri來完成操作,而安卓系統,可下載的語音助手也是非常的多。
  • 老外在中國:我最愛的語音助手
    According to a report on the website DigitalMarket.Asia, China’s consumers are leading the way in using voice assistants據亞洲數字市場網報導,在使用語音助手方面,中國消費者處於領先地位。
  • 「語音生活助手」哪家強?獵雲網評測告訴你答案
    當然,前幾年,對著手機、智能音箱等硬體產品語音對話時,語義理解錯誤、對話困難、流暢性差等體驗讓很多人對於語音助手望而卻步。而現在,隨著以NLP語義理解為代表的語音技術日益發展,語音助手已經逐漸褪掉「智障」的稱號,開始真正走向智能。用語音對話處理生活上的問題,逐漸成為可能,甚至越來越多的人將語音助手看作是一種陪伴。
  • 微信聯手惠普、英特爾推出PC端人工智慧語音助手
    驅動中國2020年9月10日消息,昨日微信AI團隊與惠普、英特爾共同宣布將推出PC端人工智慧語音助手「惠小微」。  此款語音助手將搭載在惠普系列第11代英特爾R酷睿TM處理器的筆記本和一體機上。
  • SoapBox Lab開發兒童語音識別技術,打造最懂孩子的語音助手
    開發兒童語音識別軟體,創建獨特的兒童語音數據集,對於兒童語音和行為模式的理解互相結合,專屬的算法能隨時識別出兒童的語音,保護兒童的安全。近日,極客爸爸了解到,語音識別研究過程中會發現成人建立的語音庫並不能很好地理解兒童語音,很多存在著識別錯誤的問題。
  • 小米、錘子們都在談手機語音助手,它的春天來了?-虎嗅網
    通過對手機語音助手市場的觀察以及行業一干人等的採訪,我們發現,在數十億的手機語音助手市場,背後竟然是這三股力量在主導,他們構成構成了手機語音助手的核心力量。第二類是第三方語音助手APP,如度秘助手和靈犀語音助手,一般需要用戶手動安裝,可以通過語音獲取生活服務、百科問答、新聞資訊等信息。