從17億到30億前裝車載語音正在變成剛需

2021-01-08 電子發燒友

打開APP

黃山明發表於 2021-01-08 09:03:46

電子發燒友報導（文/黃山明）如何去給一個產品定義是否智能？能夠進行計算，能夠感知外部變化，能夠具備交互能力，簡單來說如果設備能夠像人一樣，可以思考與交流，並且可以根據指令幫助我們完成某一個特定的事情，筆者認為便可以稱之為智能產品，而智能汽車亦如是。

從車聯網到智能座艙，智能汽車技術正在快速發展，作為智能的體現，使用語音操控是最便捷的交互方式。據國務院發布的《新能源汽車產業發展規劃（2021-2025）》，預計2025年新能源汽車銷量將達到1700萬輛，市場滲透率達到20%。具體到車載語音市場，據公開數據統計，2020年中國前裝車載語音市場（包含軟硬體）規模約為17億元人民幣，到2025年，市場規模將增長至30億元人民幣。

2019-2025年中國汽車智能語音前裝市場規模預測|ICVTank

如何讓駕駛員愛上車載語音？

相比按鍵或是觸控方案，車載語音對於車輛控制，既能避免駕駛員分心，又能提升駕駛員的駕駛體驗。同時，車載語音作為連接車聯網的入口，就如同當年的智能音箱一樣，受到了眾多企業的關注。但與智能音箱相比，由於車輛的使用環境、用戶群體的不同，對語音系統提出了更嚴苛的要求。

一個很突出的問題是，據筆者詢問過幾位新能源智能汽車車主表示，在體驗過幾次車載語音後，便表示不會再用這一功能。究其原因，主要在於用戶體驗不佳，反應遲鈍，無法正確理解車主的需求等。

為此，電子發燒友帶著這些疑惑採訪到了清微智能CEO王博，他認為問題主要出在用戶體驗上。首先是習慣性問題，通過語音來控制並非是許多駕駛者的第一反應；第二則是技術問題，一個指令發出去，兩三秒之後才反應，很難說是一個很好的體驗，而且在目前的網絡環境下，一些特殊場景中，可能無法聯網進行使用；除此之外的網絡傳輸信息洩密等安全問題也需要考慮。

聲揚科技合伙人及產品VP謝基有對電子發燒友記者表示，從技術角度來看，想要讓車載語音擁有一個好的用戶體驗，需要在幾個方面上改進，一個是在車內環境中如何精準獲取用戶的聲音，但車內環境複雜，存在車噪、風噪等噪音，以及各種聲波反射後的混響，想要獲得精準人聲比較困難；另一個則是語音的識別率，當車載語音多次無法準確識別駕駛員的語音指令時，自然就不會再用了。

語音識別原理圖

針對這些問題，聲揚科技也聯合了ADI進行相關合作，在其晶片上集成同聲分離的算法，能夠在兩個人同時說話時，將各自的聲音區分開來進行識別。

當兩人以上同時說話時，單點的音節無法分辨，因為這兩個聲音在物理形態上處於疊加，聲波疊加後可能變成第三種聲音。汽車環境中，可以採用多麥克風陣列的方式將聲音進行收集。再進行同聲分離，分離出不同音區的聲音，後續再用算法進行降噪和去混響。

而在降噪方面，尤其是在車窗開啟時，噪聲極大。許多汽車在車內的吸音並不一定做的很好，這種情況下車內的噪聲，對於語音識別帶來極大挑戰。聲揚科技在這些方面都有較為豐富的技術積累，同時也與ADI等企業合作進行技術攻關。

至於語義的理解，目前而言已經發展較為成熟。只要前端做的足夠好，對於後端而言壓力會減輕許多。聲揚科技在車內場景針對數字的識別準確率可以達到99%以上，對於非固定內容的識別率也保持在90%以上。

當車載語音能夠切實幫助駕駛員解決實際問題，精準接收並執行駕駛員的指令，減少注意力的分散，提升駕駛體驗，這樣才能得到真正廣泛的應用。而在目前，車載語音仍處於較為初級的階段，許多功能正在快速迭代，這也推動著車載語音滲透率的進一步增長。

離線語音算法僅KB級對廠商提出高要求

據水木清華研究中心數據顯示，2019年，中國乘用車車載語音裝配率為48.8%；2020年1-9月，裝配率已經提升至64.8%。從市場競爭格局來看，據中泰證券數據顯示，2020年1-4月，科大訊飛和Cerence佔據83%份額，百度、思必馳、傲碩、阿里雲等企業緊隨其後。

2020年1-4月國內語音識別供應商裝機量統計|中泰證券

在進行語音識別的過程中，車輛可能需要處於聯網狀態當中，這就對車路協同、大數據、行動網路有一定的要求，而在車內的應用場景中，用戶使用車載語音希望能夠得到即時的反饋，如調整座椅、控制空調等，這些簡單且固定的命令可以交由本地去做。

王博認為，目前階段，車載語音主要用來人對車的一些簡單的操作，語義相對簡單和有限，離線的方案還是比較適合的。另外，隨著算法的演進和優化，以前在雲端的模型，現在完全可以放在車機端使用。只要讓車機具備更新語音模型的能力，就能讓離線方案也獲得不錯的用戶體驗。

清微智能的車載離線語音模塊無需聯網，減少了網絡通信的延遲，可打造真正的「無縫」連接，讓系統快速響應；同時針對駕車環境，清微方案配備車噪降噪算法；另外，可重構計算技術帶來的晶片靈活性可方便集成客戶自有算法，提升駕駛者的使用體驗。

目前而言，由於通信基礎設施還未完全覆蓋所有應用場景，如地下停車場中，由於信號較差，導致聯網功能在一定程度上無法使用，造成用戶體驗下降。為此，聲揚科技也提供了相應的離線解決方案，在使用聲紋識別時，可以通過離線方式來判斷駕駛員的身份。

謝基有表示，未來可能隨著5G的發展，對於信號覆蓋會有一定提升，使用雲端服務會更加便捷，但並非所有場景都能夠被信號覆蓋。一個很顯著的例子是，儘管4G網絡發展多年，但在許多地點，如地下停車場時，信號仍然非常差，因此離線在某些場景中仍然是必須的。

此外，離線方案需要在CPU中運行，單靠MCU無法承載。即便是CPU，也需要進行深度的優化及定製，還需要考慮到一些晶片無法進行浮點運算，則需要再做浮點程序定點化操作。但這些晶片中所預留的RAM僅有KB級，如聲揚科技在ADI的DSP晶片上運行整個算法，僅用了150KB左右，這就對於供應商廠家技術提出了更高的要求。

聲紋識別解決安全問題算法解決數據難題

車載語音除了幫助駕駛員解放雙手，減少注意力的分散，更多的是為駕駛員提供一種更為舒適的駕駛體驗，提高對整輛車的掌控感。但車載語音的出現也帶來了一個問題，當車內並非只有一人時，其他人如果也通過語音來控制車輛，如行駛過程中打開後備箱、打開車門等，反而會對駕駛造成一定的安全隱患。

對此，謝基有表示，聲揚科技非常擅長的一個領域便是聲紋識別，可以判斷出哪些語音是車主本人所說的，哪些是其他人說的話。通過聲紋判定了身份也就確認了是否有進行該操作的權限，從而解決上述問題。聲揚科技也與國內的一些汽車品牌進行合作，當行車過程中靠近某個景點，提示是否需要購買門票時，可以設定只有具備權限的人，才能完成確認進行購買支付的操作。

並且聲紋識別也可以進行活體檢測，通過語音圖譜，可以清楚的辨別是否是真人在現場說話，還是通過錄音回放甚至是通過語音合成的方式進行通話，這種聲紋鑑定技術也被應用在了防電話詐騙等安防領域。

當然，眾所周知，做聲紋識別等生物識別技術時需要使用到大量的數據，幫助企業進行技術的迭代，但許多語音廠商拿不到主機廠的數據，主機廠沒有沒有語音廠商的技術，又不願意分享車內數據以提升產品功能，因此很難實現有效連接。而語音如要發揮最大優勢，還應該與車控以及V2X部分進行連接。但是主機廠在這方面也對語音廠商有限制，因為如果連接的話會增加主機廠的風險。

謝基有表示，V2X有兩種數據，一部分是車輛本身的行駛數據，如車速等；另一部分則是語音的數據，而語音廠商目前只需要語音數據去完成算法性能的提升，其實並不需要大量的數據，可以在應用過程當中通過自動學習來進行迭代。

同時，在應用之前，聲揚科技也會通過其他場景中的語音數據，來優化算法，儘管與車內環境場景不同，但在人物的聲紋特徵上是一致的，通過降噪等算法，讓應用環境差異變得更小，也更適用於車內的場景。因此可以認為，聲揚科技的算法具有較好的普適性及獨創性。

5%到20% 新能源汽車帶動車載語音快速發展

據中汽協發布的《2021年中國汽車市場預測報告》顯示，預計2020年全年汽車總銷量將達2530萬輛，其中新能源汽車銷量約達130萬輛，佔比約為5.14%。而中國推出的《新能源汽車產業發展規劃》從政策層面明確提出，到2025年我國新能源汽車銷量將佔總銷量的20%，顯然未來幾年，新能源汽車還有巨大的發展機遇。

而新能源汽車的快速發展，也將帶動車載語音的快速滲透。謝基有認為，新能源汽車代表著造車新勢力，他們對於新技術的接受程度會更高，並且新能源汽車一個很大的亮點就是智能，除了ADAS智能輔助駕駛系統外，智能座艙也是也是其中重要的一環，而車載語音便是與智能座艙緊密結合。

在過去幾年，汽車中車載語音大多在後裝市場，許多傳統車企對於新技術的接受程度較低，想要說服這些企業在前裝便把語音系統加入進去較為困難，因此只能採用後裝的方式，這時候就出現了如智能後視鏡、智能中控等技術。

不過目前有一個趨勢，車載語音正在向前裝市場滲透，隨著新能源汽車的快速發展，對於車載語音具有極大的推動作用。聲揚科技也表示，會持續在兩個方面進行發力，一個是前端語音信號的處理，如何去解決源頭的問題；二是解決安全性問題，通過聲紋識別，如何在操作控制過程當中將安全性做好。

能夠看到，在這個市場中，匯集了許多網際網路大咖，對於這些巨頭而言，需要做完整的智能生態，因此車載語音這一塊自然也不會放過。但並不代表BAT這些巨頭做了生態之後，其他企業就沒有機會了。車載語音包含了太多的技術點，而每一個技術都能夠產生巨大的市場空間。

就如同王博所提到的那樣，車載語音場景為駕駛員帶來更大的安全性，而語音交互也並非新的技術，最後必然會成為一種標配，隨著網絡速度和技術的發展，帶來的無非是駕駛者對其依賴的程度逐漸加深，從目前的可有可無變為真正的需求。

本文由電子發燒友原創，轉載請註明以上來源。如需入群交流，請添加微信elecfans999，投稿爆料採訪需求，請發郵箱huangjingjing@elecfans.com。

打開APP閱讀更多精彩內容

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容圖片侵權或者其他問題，請聯繫本站作侵刪。侵權投訴

從17億到30億前裝車載語音正在變成剛需

相關焦點

思必馳技術分享:車載語音交互的需求及挑戰

小度音箱等第一方硬體交互次數首次亮相,23億詮釋語音交互價值

賈躍亭語音指令秀英文展示法拉第未來車載語音交互功能

日均調用量超100億次百度大腦正在用語音喚醒一個AI時代

70邁發布2020年度車主出行大數據:超14億公裡的生活百態

中國研發出 24 億年不差一秒的車載光頻標

我國研發出24億年不差一秒的超高精度車載光頻標

車載AI晶片大戰打響誰能笑到最後?

2025年全球車載TFT-LED車載顯示器出貨量將達到2.5億塊

「All in安全」第三年,滴滴預計投入安全費用30億

中國科學家成功研發24億年不差一秒的車載光頻標

金星曾擁有30億年的宜居期，後來變成地獄星球，當時發生了什麼

金星曾擁有30億年的宜居期,後來變成地獄星球,當時發生了什麼

30億年前,那裡一片生機盎然!

現在地球45億歲,那20億年前的地球是什麼樣?地球正在發生巨變

我國研發出24億年不差一秒的車載光頻標

基於非特定人車載音響語音控制系統的設計與實現

我國研發出24億年不差一秒的車載光頻標

阿里發布AliOS車載小程序:可通過觸控、語音在線點餐

風力發電:到2060年開發30億風電?風電還能不能追?

從17億到30億 前裝車載語音正在變成剛需

相關焦點

思必馳技術分享:車載語音交互的需求及挑戰

小度音箱等第一方硬體交互次數首次亮相,23億詮釋語音交互價值

賈躍亭語音指令秀英文 展示法拉第未來車載語音交互功能

日均調用量超100億次 百度大腦正在用語音喚醒一個AI時代

70邁發布2020年度車主出行大數據:超14億公裡的生活百態

中國研發出 24 億年不差一秒的車載光頻標

我國研發出24億年不差一秒的超高精度車載光頻標

車載AI晶片大戰打響 誰能笑到最後?

2025年全球車載TFT-LED車載顯示器出貨量將達到2.5億塊

「All in安全」第三年,滴滴預計投入安全費用30億

中國科學家成功研發24億年不差一秒的車載光頻標

金星曾擁有30億年的宜居期，後來變成地獄星球，當時發生了什麼

金星曾擁有30億年的宜居期,後來變成地獄星球,當時發生了什麼

30億年前,那裡一片生機盎然!

現在地球45億歲,那20億年前的地球是什麼樣?地球正在發生巨變

我國研發出24億年 不差一秒的車載光頻標

基於非特定人車載音響語音控制系統的設計與實現

我國研發出24億年不差一秒的車載光頻標

阿里發布AliOS車載小程序:可通過觸控、語音在線點餐

風力發電:到2060年開發30億風電?風電還能不能追?

從17億到30億前裝車載語音正在變成剛需

賈躍亭語音指令秀英文展示法拉第未來車載語音交互功能

日均調用量超100億次百度大腦正在用語音喚醒一個AI時代

車載AI晶片大戰打響誰能笑到最後?

我國研發出24億年不差一秒的車載光頻標