思必馳:近場多模態語音交互,改寫未來出行

2020-12-22 TechWeb

12月10日至11日,「第十七屆城市軌道交通自動售檢票系統技術應用研討會暨AFC專業產品展示會」於北京召開,來自50多家地鐵業主單位、10家設計院的600多名與會代表,共同探討、展望AFC的未來。

思必馳智慧城市應用事業部首席架構師張順在大會上,帶來了題為《智能語音交互在軌道交通行業的應用》的分享,全面展示了思必馳的軌交產品方案。

思必馳智慧城市應用事業部首席架構師張順

目前,思必馳軌道交通產品方案已可用於AFC自動售檢票系統、客服系統以及ISCS綜合監控系統,專注於智能交互和智能問答,落地於站點大廳、監控中心、客服中心及客戶端,為車站乘客及管理人員服務。

張順重點分享了思必馳全鏈路語音語言技術在AFC自動檢售票系統的應用和背後的近場多模態語音交互技術。

國內城市軌道交通AFC系統從誕生到現在,已經走過了近30個年頭,始終朝著自動化、支付方式多樣化的方向持續發展。而思必馳人工智慧技術賦能的智能語音售票機,將為乘客們帶來更智能更便捷的入站方式。

語音交互購票,動口不動手,無接觸交互

當乘客們走近智能語音售票機,對售票機說出想要去的地方,售票機就能夠自動向乘客推薦線路和站點,並支持全流程無接觸購票方式,除了目標站點,票數、支付方式等均可進行語音交互。乘客掃碼即可購票,全程不過10秒。

流暢的購票過程背後,是思必馳自主研發的近場多模態語音交互技術,在給予其強大的技術支撐。

當乘客靠近時,售票機的攝像頭檢測到人臉後自動喚醒語音服務,人臉檢測的速度小於200ms,準確率大於99%。乘客離開時,售票機自動進入休眠模式。

當乘客對售票機說話時,攝像頭通過唇動檢測來定位用戶交互意圖。與此同時,售票機還具備拾音降噪功能,在與乘客交互的過程中,會對地鐵內的廣播聲、嘈雜人聲、非業務辦理人員的聲音進行有效的降噪和抑制處理,通過語音信號處理和人臉檢測的融合算法來進行降噪處理,提升在這種噪聲環境下的語音拾音性能。

為乘客提供服務,人性化是第一目標。

當乘客們購票時,難免會出現只知道目的地卻不確定目標站點的情況。而智能語音售票機的模糊地點購票功能,依託思必馳全鏈路語音語言技術和地圖軟體相結合的方式,通過對地方地理所有POI點的識別模型訓練,能夠輕鬆識別出乘客要去的目的地,結合地圖SDK,顯示出附近的站點供乘客選擇。

而針對不會說普通話的特殊乘客,智能語音售票機支持英語及各地方方言,聽得懂乘客的口音,無礙交流。

車站作為客流集散中心,諮詢服務的需求量巨大。張順介紹:「針對軌交站點這一實際需求,思必馳也可提供智能語音諮詢機,還可為業主打造專屬的數字人,並提供多渠道客服。」

日常使用時,智能語音諮詢機可面向乘客提供運營線路、運行時間、票價、常見問題等語音自助查詢;遇到特殊情況,乘客也可通過選擇人工服務,進行視頻對講,解決知識盲點及投訴問題。

軌道交通與人工智慧作為「新基建」的重要組成部分,近幾年迎來了新一輪爆發。被視為中國經濟新未來的它們,未來將如何協同發力,顛覆人們的未來出行方式?讓我們拭目以待!

相關焦點

  • 專訪思必馳俞凱:大規模可定製的對話式語音交互,已經來臨
    而到了萬小時(語音)數據上,這個方法的效果不夠高,是目前比較明顯的一個通病。基本上就是處於一個「大家意識到很重要但還沒有完全解決」的過程中。如果這件事情能有所突破,對未來的影響還是很大的。思必馳也是近一兩年開始研究。
  • 投資界快訊|思必馳獲5億元D輪融資,用於AI語音晶片研發,有明確上市...
    思必馳透露,公司已於2017年基本實現了收支平衡,2018年有望實現盈利;目前已與某晶片巨頭在AI晶片方面達成合作,雙方將成立合資公司,適用於智能語音交互的AI晶片已在研發過程中,這很可能會成為思必馳營收的重要新來源之一。思必馳針對做垂直領域下的智能對話式交互,根據各個垂直行業做場景化的語音技術創新、優化,做差異化的語音解決方案。
  • 多模態學習,帶來AI全新應用場景?
    這就是多模態對齊在空間維度的應用。當然,基於多模態數據的豐富表示以及映射、對齊和融合的應用,可以將目前AI的三種主要感知模態——語音交互、機器視覺、傳感器智能進行多模態組合,產生全新的應用場景。在語音交互上,「多模態深度語義理解」技術正在為其帶來更深度的應用場景。
  • 天貓精靈發布AliGenie5.0人機互動系統,推出「多模態喚醒」模式
    9月17日,天貓精靈在雲棲大會發布了首個全場景人機互動系統AliGenie5.0,將視覺、語音、觸覺等多種形態的交互方式融合在一起,能更精準地感知物理世界,深入理解使用者的意圖。天貓精靈事業部總經理庫偉表示,從AliGenie5.0開始,天貓精靈將開始以服務為中心,應用微內核、多模態交互等技術,構建全場景智能化。據悉,該系統同步面向開發者、智能家居合作夥伴開放。此前,多模態交互技術多停留在學術層面,阿里是業內首個把「多模態喚醒」技術大規模應用在消費電子產品上的公司。
  • 一口氣發布三款產品,科大訊飛打開汽車多模態交互的大門
    力求實現「智慧「與」溫度「之間的最佳平衡:一方面,保證給用戶提供沉浸式的體驗,另一方面,能夠真正解決用戶需求,成為用戶的出行夥伴。」為了完成這一理念,飛魚OS MATE 2021要以生態服務為基礎,依靠大數據算法與知識圖譜,融合語音、視覺、音效、氛圍燈等多模態交互手段,為用戶提供場景化、個性化、情感化的服務,打造了出行生態服務的場景連接器,構建了舒適易用的駕乘體驗。科大訊飛智能汽車事業部飛魚OS產品總監劉棨介紹說,「飛魚OS MATE 2021要打破壁壘,構建跨界融合的解決方案。」
  • 天貓精靈發布AliGenie5.0人機互動系統 業內首創「多模態喚醒」
    (記者文雪梅)天貓精靈17日在雲棲大會發布了首個全場景人機互動系統AliGenie5.0,將視覺、語音、觸覺等多種形態的交互方式融合在一起,能更精準地感知物理世界,深入理解使用者的意圖。天貓精靈事業部總經理庫偉表示,從AliGenie5.0開始,天貓精靈將開始以服務為中心,應用微內核、多模態交互等技術,構建全場景智能化。據悉,該系統同步面向開發者、智能家居合作夥伴開放。此前,多模態交互技術多停留在學術層面,阿里是業內首個把「多模態喚醒」技術大規模應用在消費電子產品上的公司。
  • 天貓精靈發布AliGenie5.0人機互動系統業內首創「多模態喚醒」
    鈦媒體9月17日消息,天貓精靈在雲棲大會上發布了全場景人機互動系統AliGenie5.0,將視覺、語音、觸覺等多種形態的交互方式融合在一起,能更精準地感知物理世界,深入理解使用者的意圖,讓人與機器的交流像和朋友一樣自然流暢。
  • 隨時喚醒語音助手,真不是一句話的事兒
    近年來,在運動、車載、商超、地鐵、公交等隨行場景,我們看到了越來越多的設備增加了語音交互的功能。 思必馳低功耗算法方案| 思必馳演講 PPT 截圖 最後在協議層,思必馳也提供了 SMA 藍牙配件接入協議,賦予思必馳全鏈路語音交互技術,通過曉聽
  • 剛剛拿下「中國AI最高獎」的語音技術,能給我們帶來什麼?
    這也是語音領域的研究成果第一次獲得吳文俊人工智慧科學技術獎的一等獎。獲獎人分別為:錢彥旻,上海交通大學計算機科學與工程系副教授、思必馳上海交通大學智能人機互動聯合實驗室副主任;俞凱,上交大計算機系教授、思必馳首席科學家;譚天,上交大博士畢業、思必馳語音技術研發工程師;劉媛,上交大碩士畢業。
  • 動動嘴、揮揮手就能喚醒,可「多模態喚醒」的天貓精靈來了
    9月17日,天貓精靈在雲棲大會發布了首個全場景人機互動系統AliGenie5.0,它首次將視覺、語音、觸覺等多種形態的交互方式融合在一起,能更精準地感知使用者的意圖。當天發布的三款新產品全部搭載了AliGenie5.0,提供了唇動喚醒、揮手喚醒等多種「擬人化」的喚醒方式。
  • 啟蒙+助教,思必馳DUI平臺,用AI陪伴成長
    思必馳是國內領先的對話式AI平臺型企業,DUI開放平臺是思必馳AI語音能力的集成平臺,集合了豐富的語音技能和內容資源,為形態功能各異的智能設備賦予不同的交互能力。針對AI兒童教育領域,思必馳DUI開放平臺從 「啟蒙」 和 「助教」 兩方面入手,用AI實現海量教育技能,在孩子學齡前進行啟蒙早教,學齡後化身為多學科助教,用新奇有趣的教學方式減輕孩子學習負擔,寓教於樂,吸引孩子主動學習。
  • 清華大學領銜,99 頁報告揭秘人機互動的發展狀況及未來發展趨勢|...
    6、多模態交互不同形式的輸入組合(例如,語音、手勢、觸摸、凝 視等)被稱為多模態交互模式,其目標是向用戶提供與計算機進行交互的多種選擇方式,以支持自然的用戶選擇。相比於傳統的單一界面,多模態界面可以被定義為多個輸入模態的組合,這些組合可以分為 6 種基本類型:互補型:當兩個或多個輸入模態聯合發布一個命令時,它們便會相得益彰。 重複型:當兩個或多個輸入模態同時向某個應用程式發送信息時,它們的輸入模態是冗餘的。
  • 天貓精靈AliGenie 5.0系統體驗:喚醒語音助手不再靠喊話
    ,這也就是人機互動領域常說的多模態。 模態,雖然不是我們的日常用語,但從字面意思上其實很容易理解。正如我們有視覺、聽覺、嗅覺和觸覺等,傳遞出的信息就有視頻、圖像、語音、手勢、姿態等,每種形式可以稱作一種模態。 多模態融合的人機互動一直是人工智慧研究的熱門領域,但此前更多停留在學術研究層面。
  • 智能音箱搶灘站圓桌論壇:智能語音終極形態是什麼?
    對於Echo和國內智能音箱的差別,龍夢竹表示:「在國外來講Alexa的服務一個是有聲讀物,另一個是在個人助理類的應用,比如鬧鈴設置、語音提醒等。國內更多流行O2O、訂餐。」3-5年智能語音的交互形態?對於未來3-5年智能語音交互的最終形態如何?蜻蜓FM技術總監金鑫認為,語音交互還是很主要的一種交互方式,當然會配合圖形、圖像更好。
  • 騰訊優圖: 多模態融合是計算機視覺技術發展的重要趨勢
    「在未來的計算機視覺研究中,多模態融合、多技術融通是一個重要的趨勢。」黃小明表示,人工智慧正在從語音、文字、視覺等單模態智能,向著多種模態融合發展,結合分布式平臺的計算能力,實現更高精度的場景構建,和對動態場景的處理能力。
  • 賈磊暢談AI語音技術的現在、過去和未來
    在此之上,模型仍然是採用傳統的近場語音識別的深度學習模型。該模型直接建立了從遠場語音多路信號到識別文字之間的端到端的進行。百度團隊針對遠場語音識別的特殊需求,也提出了自己的基於複數 CNN 的遠場端到端建模方案,並大規模應用於工業產品。
  • 阿里AliGenie 5.0首創多模態喚醒:唇動即可喚醒天貓精靈
    9月17日,阿里巴巴在雲棲大會上發布了全場景人機互動系統「AliGenie 5.0」,將視覺、語音、觸覺等多種形態的交互方式融合在一起,可以讓設備更精準地感知物理世界、更深入地理解用戶意圖,人與機器的交流可以像人與人之間一樣自然流暢。
  • 百度賈磊暢談AI語音技術的現在、過去和未來
    在此之上,模型仍然是採用傳統的近場語音識別的深度學習模型。該模型直接建立了從遠場語音多路信號到識別文字之間的端到端的進行。百度團隊針對遠場語音識別的特殊需求,也提出了自己的基於複數 CNN 的遠場端到端建模方案,並大規模應用於工業產品。
  • 出門問問語音交互技術落地全新大眾ID.4.開啟純電生活時代
    新增語音交互語言種類 識別準確率顯著突破 ID.4是基於首款純電MEB平臺孵化的SUV車型,不僅擁有卓越的煥新設計,更採用全新的數位化平臺,完美彰顯了大眾汽車集團「眾前行,致未來」的戰略。 數位化成就人性化,ID.4真正將未來出行變為現實。
  • 從手機跨越到電視,Breeno 語音彎道搶佔語音交互新賽道
    OPPO 自家的 AI 助理 Breeno 語音,此次還為 OPPO 電視訂製了一整套語音交互解決方案,提升交互體驗的同時,還為 OPPO 智能電視提供了內容和服務生態的便捷入口。眾所周知,智能音箱帶動了家庭場景語音交互的普及。