專訪阿里 iDST 語音組總監鄢志傑:智能語音交互從技術到產品,有...

2020-12-15 雷鋒網

雷鋒網按:在外界看來,阿里 iDST 是一個神秘的部門,大家知道裡面聚集了很多技術大牛,但是對這個部門真正在做的事情,以及其在阿里集團內扮演的角色卻不一定清楚。為此,雷鋒網對阿里 iDST 的語音專家鄢志傑博士進行了專訪,帶大家了解有關阿里 iDST 的事情,以及他們是如何看待當下最火的一些 AI 產品的。

鄢志傑簡介

鄢志傑,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能語音交互團隊總監。在 2015 年加入阿里巴巴前,就職於微軟亞洲研究院,任語音組主管研究員。畢業於中國科學技術大學訊飛語音實驗室,獲博士學位。研究領域主要包括語音識別、語音合成、說話人識別驗證、OCR/ 手寫識別、機器學習算法等。在語音及文本識別領域頂級學術期刊及會議發表多篇論文,長期擔任語音領域頂級學術會議及期刊的專家評審,並擁有多項美國及 PCT 專利,目前是 IEEE senior member。

iDST 智能語音交互小組在做哪些事情?

雷鋒網:阿里 iDST 部門智能語音交互小組主要負責什麼?

鄢志傑:我們這邊是智能語音交互的,包括幾個部分,通常我們講語音進和語音出。語音進就是語音識別,識別成了文字以後,就進入到我們的對話系統裡,做這句話的理解。然後通過對話的形式把想要的東西傳給你,方式就是以語音的方式用機器播報出來。

比如明天天氣怎麼樣,它理解了這個話,然後通過對話系統從遠端的天氣服務拿到天氣的數據,然後播報。

我做狹義的語音相關的東西比較多,比如語音識別、合成,還有通過語音做一些說話人識別驗證,包括怎麼把語音在設備上落地,等等。現在我們也把語音技術在阿里雲上對外輸出,這些都是我自己做得比較多的。

雷鋒網:最近你們在做什麼研究工作,有什麼進展或者發現?


鄢志傑:有兩個方面:

1、自然語音交互平臺。

我們覺得往後,各種智能設備,電視、機器人等等,在家裡或工作場景的智能設備會越來越多,這些設備沒有鍵盤和觸控螢幕,所以需要比較便捷的方式跟網際網路連接,它們本身會成為網際網路的入口,這當中語音肯定是一個比較重要的模態,可以跟它們交互。

交互的目的是什麼呢?是取得網際網路上的各種服務,包括查天氣之類的信息服務,還有比如點個外賣叫個車,是一種有型社會的服務;還有一種是內容,好比說我在電視上看某一個電視節目,誰跟誰主演的電影,這種就是網絡上的內容,包括音樂、視頻。

要達成這點中間當然會要有我們所做的這套東西,就是使得用戶的意圖通過語音進來,轉化成對網上各種服務的需求,然後系統理解了以後帶給用戶。

這就是我們叫作智能語音交互的一個平臺。總結一下就是,它是連接多端,跟網際網路上廣泛的服務對接,作為中間橋梁作用的這麼一個東西。

2、所有這些語音能力都會通過阿里雲輸出。

鄢志傑:比如說我們有語音識別的能力,我們的合作夥伴就可以拿著這個能力去做具體的語音識別應用,例如說我們在客服和司法直播等領域,發現有很多語音轉文字(文字轉語音)的需求。

我們最開始做這樣的能力,完全是從阿里內部客服中心的需求來出發的,因為阿里每天淘寶、天貓和支付寶有很多的客服電話。之前在接服務電話時根本不知道服務質量什麼樣,說得不好聽的,小二如果今天心情不好,罵了客戶幾句,根本沒辦法知道,原因是抽檢的錄音需要人工去聽,那個比例是很小的。

同時傳統的客服中心其實有很多需求,(他們)希望知道客戶每天在問什麼,什麼樣的問題是最近遇到的最嚴重的問題,所有這些之前只是沉睡在那個地方,沒有辦法得到挖掘。我們一開始團隊做的就是客服的任務,把語音轉成文字,後續有很多好玩的東西可以來做,像發掘用戶的心聲,還有知道小二的服務質量有沒有保證。

很有意思,像這樣的能力建設出來以後,從阿里的角度講一定是要放到更大的平臺上去幫助別人成功的。我們總是講說阿里主要是個平臺公司,所以說這樣的能力一旦放出去,我們生態裡的合作夥伴就可以在別人的客服當中去搭建這樣一個東西。把語音轉成文字,做同樣的事情,甚至有人會開發出客服機器人,放前臺來自動回復用戶問題。在司法領域也是一樣,現在有合作夥伴拿著我們的能力放到法院裡,代替書記員的作用。包括像直播,識別主播在說什麼違規的東西等等。

總結一下,第二塊事情就是怎麼把我們的能力通過阿里雲對外輸出,幫助我們的合作夥伴去做具體的業務。

雷鋒網:最近有什麼突破性的進展和發現?

鄢志傑:我通常不大愛用突破這個詞,因為這個行業實在是太浮躁了,芝麻小點的事都會被很多人說成是突破。我覺得我們還是比較低調跟務實的。雖然我們各種各樣的技術其實是非常領先的,不過畢竟我也是從學術界來的,所以說比較注意這方面的東西,

進展的話,講一個例子,我們一直以來語音識別有一個重要的模型叫聲學模型,就是來模擬a,o,e,b,p,m,f 是怎麼發音的,這個也是提高語音識別準確率的重要手段。我們一直以來是從學術界吸收最新的成果,同時在工業界大規模的問題上把它真正發揚光大去解決真正的問題。

latendy controlled 的 BLSTM 模型

在 15 年的時候,我們第一個上了 latendy controlled 的 BLSTM 模型,叫 LC-BLSTM 模型,這個東西學術界研究比較多,但是工業界第一個上線應用的應該算是我們。

傳統 BLSTM 模型很慢,必須要等到一句話說完了才開始去做解碼,得到結果,就造成說完這句話後要等很久才能拿到結果,這當然是壞處,但為什麼大家還是那麼著迷呢,因為好處是精度特別高,準確程度高。我們做的工作就是能夠把識別的延遲降下來,使得它能夠在邊說話就邊解碼,而不是像以前一樣,要等到這句話結束後才能夠進行解碼,達到一個既快又好的效果。

BLSTM 進一步提升了 LSTM 類模型的建模能力,圖片來源:薛少飛,iDST 語音專家

Low frame rate latendy controlled 的 BLSTM

後來我也發現一些同行,例如說 16 年底時同樣的模型他們也逐漸在上,在這之後其實我們一直在延續這條路發展,去年有個比較好的工作,是在這個基礎上發展出叫 Low Frame rate latendy controlled 的 BLSTM。

原來語音識別的幀率大約是 100 幀每秒,每秒鐘要計算100個 frame,運算量不容忽視,所以我們去年有一個方法叫 Low frame rate,把 100 幀每秒的速率,降到三分之一,相當於同樣是 1 秒鐘的語音,處理起來只需要原來運算量的三分之一了。同時保證了跟以前一樣甚至更好的精度。

我們很快把它送到我們的線上,取得一個比較好的效果,今天我們一臺伺服器,能夠支持比以前更多前發的線數。剛才提到我們把這個能力去輸出,輸出對我們的合作夥伴來說成本是非常需要考慮的因素,以阿里這麼大的體量,任何一件事情進來以後,客戶一多起來,機器的成本是一個重要的因素,語音識別本身又是一個比較耗成本的東西,對機器要求很高,有一個三倍的提升的話,直接把它變得更加普惠了,大家使用的門檻就大大降低了。

3月23日,阿里巴巴公布「NASA」計劃

雷鋒網:上次馬雲頒布NASA計劃時,我們應邀解讀了一篇,後面我們採訪閩萬裡博士的時候,他強調了AI+應用結合的側重點,這是不是後續阿里AI相關的研究部門或者小組,比如iDST 智能語音交互小組會跟應用相關的部門合作會愈加加強的一種趨勢?


鄢志傑:我一直覺得阿里是一家比較講究落地的公司,我們一直跟具體的業務落地結合比較緊密,我覺得 NASA 更多是表明了一種阿里的決心。因為阿里的業務實在是太成功了,某種程度上掩蓋了技術的光芒,因而要去讓大家更多覺得阿里是一家技術驅動的公司。

AI 這個東西,外面很喧囂,但我覺得我們沒有任何的改變,我們從來也不會特別地刻意去講AI,我們把所有跟 AI 相關的技術,從到底能夠對我們的生活,對阿里的合作夥伴,對整個社會,帶來什麼樣的有益的幫助這個角度去思考。你可以說(我們是)不太吹牛,更多的務實。

講到業務落地,一個好的AI,到底能給我們的業務帶來什麼樣實實在在的幫助,而不是說只是為了提升我們的股價,或者講一個故事。如果說這些 AI 能夠用到客服中心去接我們客戶的電話,直接用機器解答一些 FAQ,那不僅減少用戶排隊的時間,同時能讓我們小二的人力省下來,真正機器答不了的問題,再轉到小二那邊由人工解決,而不是空泛說用機器人全部搞定,這個現在也不現實。

所以有人說什麼 AI 取代人,我從來不這麼看,我覺得這些東西一定是幫助人的,讓用戶體驗更好,小二這一側工作強度更低,更少的人可以支持更多的客戶。這個是它發揮作用的地方,而不是現在就去談取代人。

「既要、又要、還要」

雷鋒網: iDST 語音部門的的定義是什麼?我看知乎上有說,

是為業務或者產品形成迭代支撐的技術研發部門;

有明確的業務需求推動他的產生;

也有通過技術部劇推動業務進展的期望;

由於直屬王博士這個天然屬性,會在很大程度上用一種科學的方式推進公司技術驅動化。

這些說法成立嗎?

鄢志傑:前幾天我去谷歌搜索iDST,打開前幾個搜索結果看了看。第一我感覺我們蠻低調的,並沒有一些鋪天蓋地的宣傳報導,搜索出來的信息也極為有限,蠻神秘的。二是感覺很多報導其實我在內部看來是完全錯誤的。所以就像您說的,對 iDST 本身會有不同的解讀。

我覺得,這樣挺好的,也沒有什麼問題。回到您的問題:iDST 現在到底是幹嘛的?阿里有一句土話叫「既要又要還要」,就是說阿里的目標通常是比較多元化的,多元化就意味著你在各個方面都要起很高的目標。

既要

第一個目標就是支持好阿里的業務和阿里生態裡的合作夥伴。他們要去做一個業務,一定對我們的智能交互技術有他們的想法和需求,例如說我想要有一個聰明的機器人,說什麼都能懂,這些核心技術我們一定要支持好。技術在輸出時,夥伴要求說你的準確率必須是市面上最好,這些需求我們都要去支撐,這是第一個任務。

又要

我們不是簡單地說把這些需求滿足好了就 OK,又要說這些技術是有先進性的,不僅是做到跟市面上最好的一樣好,而且在一些方面有自己的特色跟亮點。

還要

我們現在在支持那麼多業務的同時,還在寫 paper,在國際的語音頂級會議、雜誌上去露臉,贊助學術界的一些活動,與學術界建立比較好的關係。所以說是不能光商業上做得好,還要技術上要有說道,甚至在將來能夠起到一些引領的作用。

這個組織因為積聚了不少的博士,團隊來自各大公司的專家挺多的。我們從學校僱最好語音應屆博士生,一定是在這兩個方面有好的輸出的,偏廢哪一個都是不行的。好比說光做研究沒有產出,基本上很難講研究有多好;光做產出沒有研究,也許就顧得了當下卻失掉了未來。我們就是一個結合的部門。

發 paper 是一個副產品,是在持續想怎麼 push 工業界做大規模任務的邊界,這當中會產生一些副產品分享,現在整個語音產業大家還是比較樂於去分享自己的東西,各大公司都如此。但我們並不是以寫 paper 為目標的。

雷鋒網: iDST 招人方面有什麼自己的特殊方式?(外界一致所知甚少)

鄢志傑:首先,語音圈是一個特別小的圈,外人很難說立一塊牌子就說我今天要做一個語音團隊,我投入很多。如果是外人的話,很難去做這樣的招聘,所以我們此前的招聘更多還是從圈子裡的口碑,以高手吸引高手的方式來招聘,雖然我們也掛了大廣告,但很少有人是看了廣告直接就來的。

說實在這個圈子實在太小了,大家互相都認識,更多是靠我們自己圈子裡的口碑,大家知道你們積聚了一類什麼樣的人,就能聞到你這個團隊的風格,跟他想去做的事情以及做事的方式。然後認同這樣的價值觀的人,就會自然聚攏過來,更多是以這種方式。

阿里招人要求很高,同時我們也不 crazy,不會因為你是所謂的 AI 我們就一擲千金來求人才。因為我們還是覺得這樣的人才靠這個東西不可持續。所以說可以看到我們團隊的人都是這種性格的,就是踏實做好工作,不太張揚,雖然有機會的時候也不怕去露臉,但總體來說還是不那麼吵吵鬧鬧。

舉個例子,當所有人都在號稱自己的語音識別準確率 95%、97%、99% 的時候,我們是也許不多的一股清流。之前我們陳一寧有一個文章採訪他,他旗幟鮮明地喊出了語音識別的準確率脫離場景去談都是耍流氓。

我們講的 95、97、99,是在非常受控的環境下一個普通話相對比較標準沒有多少口音的人,說一些比較固定的內容。在不好的場景下,像我們在這麼一個有混響的房間裡,大家在激烈地爭論,有的人還有點口音,那麼很容易就做到很糟糕,到文字出來看不懂程度。

雷鋒網:網上有說你們通過舉辦比賽來獲取人才,這也是一種方式嗎?

鄢志傑:對,阿里首先有一個實習生的項目,內部有一些比賽,像我所知道的,像天池大數據競賽,都會有這樣的學生來比參加,拿阿里的一些數據,把一些奇思妙想在這樣的數據上去做驗證。

我們也有像阿里星這樣的應屆畢業生計劃,對於個別好的,我們叫 A+ 的學生,面試完了可以直接到我們 Lab 的 Leader 的 level 去面談,很多人成為阿里星。

比賽的話,我想在語音特別是交互這方面很有可能會有類似的事情去做。

雷鋒網:網上我們只搜到一條阿里雲 iDST 人工智慧打敗全球速記亞軍的消息,裡面有談到阿里雲 iDST 智能語音團隊擁有世界一流的專家團隊,此次年會展示的研發成果只是冰山一角。能否介紹一下這個專家團隊的實力?

鄢志傑:怎麼談這個實力呢,首先講幾個方面吧。

第一個方面,來源比較廣泛,聚齊了此前幾個組的精英力量,包括咱們有微軟來的不少同事,國際上有一個做得最大的語音技術提供商叫 Nuance,這方面的同事也越來越多了。我們還有來源於百度此前語音部門的同事,有科大訊飛的畢業生,還有高通語音方面的專家,尤其在麥克風、智能電子信號處理這方面,等等。這些就是來源廣泛。

第二個,博士、海歸的比例很高,這個我們算不算是精英團隊的表現(笑),也許吧,反正自己也不大當回事。

還有我們地域分布也是很廣泛的,北京、杭州、西雅圖,都是語音重鎮,所以也更加多元化了。

最後,還有一點就是同學們的背景跟出身也是比較廣泛的,有的人是從學術界,或是工業界的研究院出身的,有的人是從工業界產品部門出身的,工程能力強,不管是做雲端的服務還是設備端的落地的東西很強。

整體來說我們做到了把所有這堆人攏到一個團隊裡。說起來簡單,但在大公司裡做起來很難。大公司有的說我是做算法的, 是工程的,產品部門,整個是有藩籬的,一旦有組織界限以後,這件事情就變得隔了。

跨部門,做算法的做算法,做產品的做產品,很難產生正向跟反向的反饋,我們在建立這個團隊之初就極力在避免這樣的事情。包括我們三個辦公地方,從來沒有因地域而分任何事情,比如西雅圖做什麼,北京做什麼。而是一個項目立起來後,三地的人都有可能會參與。這樣不會使得整體做著做著就分隔了。所以地方也好出身也好,大家的擅長也好,都融為一體,這樣子能夠把反饋閉環做得比較好。

從技術到產品,要注意的坑和細節

雷鋒網(公眾號:雷鋒網):從你們這個小組產出的成果,要應用到阿里巴巴內部某個場景時,一般會遇到哪些問題,如何解決?

鄢志傑:阿里來說,尤其在阿里雲來講,基本上內外客戶是完全不分的。阿里作為一家大公司內部的需求肯定是很旺盛的,當你去滿足內部需求時,會發現這個事情幹起來好像很容易,因為內部需求實在太多了。挑挑撿撿總有能夠搞定的,總能夠完成一些 KPI,但外部就不同了,外部是一個真正的市場競爭,真正的好技術一定要得到外部的認可,活下來,並蓬勃生長,才是真正比較健康的輸出。所以說,阿里雲始終是不太區分內部外部的,而不是只在內部溫室裡活下來。

所以,困難我覺得是說一個技術到一個產品,到一個好的產品,是有巨大的鴻溝的,不見得說有一個好的 paper。好的算法大家也的確認可,但未必能造就一個好的產品,這裡面有太多的細節、坑去打磨。同時,客戶一定有不切實際的需求,我今天巴不得有一個像真人一樣的機器人,但技術是有它局限性的。

我們做技術的人,在落地的時候能夠去彌補這方面的東西,我覺得是特別重要的。一個是說技術的局限性到底在哪,哪些是可以突破,哪些是突破不了的,怎麼樣去跟合作夥伴達成共識。說這個產品需要這樣那樣的技術,指標是什麼,既能夠實現,又是跳著可以夠著,而不是說完全夠不著的東西。

當然,真正做一個產品,是一個全方位的技術,不是一個技術點好了就能一招鮮吃遍所有的東西,這是不太可能的。像我們語音來說不管準確率,響應速度怎麼樣,對一些奇怪的Case,奇怪的問題,當你明知道答不出來時,仍然能夠顯得很智能,而不是說只是一個對不起再試一遍吧,等等。最主要的還是跟合夥伴和客戶去定義技術能夠實現的產品的邊界,能夠從產品的細節上來講,真正把一項好的技術落地下去,最終產生一個真正好用的產品,這個是比較大的困難。

雷鋒網:具體比如阿里集團客服,中間遇到的問題,以及怎麼解決?

鄢志傑:客服對於我們來說關注的是識別準確率的問題,剛才講的問題都來了,業務方提一個指標,可能是個不可能完成的指標,比如95%的準確率。你知道你的技術上去的時候也許剛剛只有60、70%。

我們怎麼通過對他業務的理解,知道他的話題,每天在談論什麼。怎麼找到好用的數據,能夠迅速地提升我們技術本身在他的場景下的準確率。最後我想我們幾乎已經做到接近他想要程度。所以一直去管理預期,然後不斷通過技術迭代把準確率做上去。

同時具體的業務很多不是一個技術可以解決的問題,譬如說一些在客服業務當中,有一些專業客服術語,這個之前我們都是不知道的。怎麼通過技術的方式把這些術語的識別準確率得到提升。這個本身是一個從實際問題中的提出的一個課題。

比如,大家都知道阿里裡有花名,所以每個小二都是有各種各樣的花名的,花名是非常奇怪的,今天如果拿一個通用的語音識別系統,這樣的花名是很難識別正確的。就會觸發一條規則,小二沒有正確報出自己的名字,這是不對的,因為是識別錯了。比如說,接一個電話,「歡迎致電支付寶,我是志傑,請問有什麼可以幫你的」,這是符合規範,如果識別錯了,就沒有把志傑識別對,這樣小二就很冤枉,被機器摘出來了。這裡,就是怎麼樣在具體的產品當中,既把別的文字都識別好,同時還特別把花名識別正確。這些都是有很多技術的東西可以去做的。

雷鋒網:咱們是研究跟產品化並行的,你們是如何判定組內的研究成果是可以轉化到成業務推動力的,有沒有一套明晰的機制來判斷?

鄢志傑:好問題。我覺得,有的公司是研發部門去推,自己先搞出一個好東西,然後去推,再看業務部門用不用這個東西。阿里呢,有點相反,業務跑得很快,更多是他們在拉,他巴不得你有什麼好東西,趕緊的,甚至不成熟的東西,趕緊在我這邊去試去用。

我們作為做技術的人要有對技術的一個鑑賞力,跟一個技術的判斷眼光。您說這個怎麼來的,就是牛人有這樣的眼光,經驗會幫助,你在這個行業裡這麼長的時間,基本上要慢慢建立起這種鑑賞力。就好像我們聽歌,有藝術家培養藝術的鑑賞力一樣,這裡面有很多其實是偏藝術的成分。一個技術到底能不能真的開花結果,我們撲上這個技術,真的能不能在可見的未來能被業界廣泛的採用。這個就是靠判斷力,靠人本身的素質和經驗,我覺得也有點像藝術。

雷鋒網:你們內部會寫一個明晰的 PPT,來明確一個判斷流程嗎?

鄢志傑:沒有。不管是工業界、學術界,整個這個部門,這條線上創新很多,有的真創新,有的假創新,有的是寫個 paper 出來 claim 一下這個創新。真正哪個是靠譜的,其實各行各業我想都是這樣子的,真正哪些是靠譜的可以活的更長的技術,沒有一套之規說我有一套流程可以來 If...else,有一個流程圖來判斷,不是這樣子的。

智能語音交互,阿里的目標是什麼?

雷鋒網:這兩年亞馬遜的 Alexa 很火,國內也有很多公司想做中國版的 Alexa,您覺得國內公司想要做成中國的 Alexa 需要什麼樣的條件?

鄢志傑:我們自己其實在這上面也有自己的思考。說實在,這件事情的鏈條比較長,就像剛才講的有端,有自然語音交互的技術,有雲端的服務,我想大家去觀察這個的話,就是去觀察:

第一,誰布局了最豐富的網際網路服務,包括電商、支付、O2O、內容,誰能把這些服務早幾年的時候 magically 放到自己的生態體系裡來,那就是一種嗷嗷待哺的狀態——怎麼能把服務送到客戶那裡去。這是第一塊,誰布局了這些服務,而且誰是比較全的。

第二,智能語音交互的技術本身。誰在早幾年的時候 magically 想到說這個以後會是很重要的東西,開始組建團隊,把核心的技術建立起來。使得用戶對語音的訴求轉化為對服務的訴求。這個部分好多人都在做,技術參差不齊,有好的,有一般的,有接入別人的,也有自己投入的,這裡就分出好多公司不同的方法來了。

第三,端。大家不要小看這個端,好像山寨音箱都可以做,不那麼簡單,是說大家誰在布局一個端上作業系統。然後在這個端上要有一系列的生態合作夥伴,不光是做一個音箱,需要有電視、智能家居,機器人、汽車,等等,哪怕到一個電飯鍋。

另外,怎麼樣構建一個能力,甚至是一個商業模式,使得你的這套東西,很多的端可以迅速來接入,來把一個傳統意義上的端變成一個智能的端。因為不可能做一個阿里牌電飯鍋,那怎麼要想這樣的方式使得人家可以輕易接入,然後瞬間具備這麼好的語音交互能力,接入那麼多的網際網路服務。

我覺得從這幾個維度看,基本上就把產業鏈,或者把整個 pipeline 看全了,那無疑我在暗示說阿里在這些方面都有很好的投入。這個故事是非常的圓滿的。

雷鋒網:所以阿里的目標也是做中國版的 Alexa 嗎?

鄢志傑:這個目標是你們起的,我覺得不應該是這樣子講(笑)。阿里的目標是怎麼樣方便地把網際網路豐富的服務和內容,以智能語音交互的模式,在多端上提供給我們的客戶。

雷鋒網:最近國外有一個人工智慧領域的投資人 Bradfort Cross,寫了一篇文章 ,預測今年的AI創業,其中第一條就是聊天機器人(Chatbots)會遇冷,理由是:

1)人們依然喜歡與真人交流,而聊天機器人則會沿襲非社交媒體平臺那一套,突出個性化但卻缺乏社交屬性,人們依然喜歡與真人交流。

2) 與其他視覺解決方案相比,會面界面在完成任務上效率並不高。在某些情況下,會話界面確實效率挺高,但在大多數應用場景下它還是無法與其他方式相比擬。

不過,他並不認為這是「AI技術還不夠好」的原因,而是因為應用和交互的設計還不夠,不過用人工智慧做出了很有趣的應用,用戶用不用又是另一回事了。

您怎麼看他提出的問題呢?

鄢志傑:我是這麼看的,第一,我部分同意這個觀點,就比如說現在的手機語音助手,其實分人,並不是那麼的流行,有的人愛用,但我覺得比例仍然不是特別高,原因就是它本身有一個屏幕,拿手機用手點點畫畫是很方便的,從這點上我是比較贊同這個觀點的。

不同的觀點,他說其實不是技術,我覺得還是技術。今天的語音交互 ,你對他的期待還遠遠達不到說能跟真人一樣的響應水平,所以這還是一個技術問題。就好像人跟人交互時,你總不會期望他臉上有個屏幕划來划去,不需要 。

這種更自然的方式,現在仍然還是技術本身,他講到交互的設計,當然是一個技術。怎麼把互動設計的更好,使得人願意用 Chatbots 來對話。本身他的理解程度能怎麼樣。語音識別的準確率怎麼樣,他講出來的話是不是自然,還是一個像呆萌的機器人。

具體講到視覺這個策略,我倒是覺得會有一些融合的東西出來,應該是一個多模態的東西,不能全憑語音,或者全憑計算機視覺。例如說電視,家裡大家都會有一臺電視,假如說有一個設備能夠隔空跟它交互,我沒有遙控器,那要選臺什麼的,當然不會拿個手機來做,這是很怪的事情,現在不也有手機上安裝了電視遙控 app,叫它做一件事情,比如換臺,就能出來。但是你說要用電視屏幕來買 個淘寶的東西,我可能先說「幫我找個吸塵器」,搜一下,再等界面出來後,再用手勢去做翻頁,然後點選。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 對話鄢志傑:語音行業十五年老兵的沿途風景
    2010年深度學習技術與語音結合之後,到2015年行業已經有了很大的變化,科技巨頭都相繼推出了各自的語音產品。鄢志傑加入時,正值阿里巴巴開始嚴肅地投資語音交互技術(當時「AI」這個詞還不像今天這麼熱)。阿里做語音在國內的巨頭中並不算早,但卻在恰當的時機入局,完成了對人才和技術的積累,並滿足了集團自身的發展的需要。
  • 達摩院語音實驗室負責人鄢志傑:智能語音爆發進入倒計時,2019語音...
    新智元專訪達摩院語音實驗室負責人鄢志傑及高級算法專家雷鳴,深度解讀核心技術。鄢志傑認為,智能語音正處於爆發前夜,2019年語音AI將在特定領域通過圖靈測試。作為達摩院語音實驗室負責人,鄢志傑認為智能語音在阿里進軍 IoT 的研究和實踐中有三個重點:構建有深度、全鏈路、多模態的關鍵技術棧產出低成本、易複製的智能化 IoT 方案
  • IDC最新報告:阿里語音AI登頂中國No.1
    而且還具備多方言、重口音語音識別,全雙工語音交互,智能語音流式響應等技術能力。鄢志傑說,它已經能夠實現擬人程度更高的交互效果,整個過程幾乎聽不出是AI在跟人交互。想要推動技術落地,技術強是根本,但找到商業價值和模式更加重要。
  • 阿里智能客服「小蜜」每天應對百萬級服務需求
    在「人工智慧專場:智,在雲端」的活動現場,來自阿里多個技術部門的負責人,各自分享了人工智慧在語音、圖像、視頻等相關領域取得的實質進展,解決企業生產與經營中的痛點問題,提升生產效率。  「智能語音交互是大眾身邊的人工智慧,現今大家對網際網路的需求以服務和內容為主,硬體入口也從手機和Pad端擴展到可穿戴設備、智能音響、車輛、機器人等設備。」
  • 擊敗金牌速記員,阿里雲ET當起了書記員和法官的「小助手」
    雙方PK了7分50秒,「實時語音識別系統」最終以0.67%險勝。iDST語音技術總監鄢志傑說,速記員更加信達雅,但人類很難持續保持更長時間的高強度腦力勞動。機器雖然犯一些語義理解上的錯誤,但是可以一字不落地記錄下講話內容。並且,在電路通暢的情況下,機器可以工作24小時。
  • 百度CoDriver 智能後視鏡體驗:語音交互是核心競爭力
    比如騰訊在前兩年做過 OBD,後來做 ADAS、智能車機,而阿里和後視鏡廠商也合作過 YunOS 系統的智能後視鏡和車機產品。 昨天,百度用「智能汽車事業群」刷了大家的屏,他們重新梳理了汽車業務架構,以更清晰的形象示人。 其中,車聯網仍然是百度汽車業務裡面一個重要的組成部分。
  • 各路大咖共探:智能語音技術如何與家電產品深度融合?
    廣東省智能家電創新中心技術總監、中國電研副總工程師孔睿迅在會議中指出,近年來,中國的智能語音技術應用研究已走在世界前列,國內市場也推出了眾多帶語音功能的家電產品,但因跨界技術發展仍不成熟
  • 智能語音交互應該如何設計?
    編輯導語:隨著亞馬遜、小米、阿里巴巴等大公司都推出了智能語音產品,智能語音互動設計成為了一個值得探索的領域。語音交互如何設計才能達到更自然的交互反饋、更好的傳達情感,這是目前需要解決的問題。對於用戶來說,希望能與智能產品建立親切的信任感,越相處越好用。AI時代,深知我者,才能久居我心。
  • Synaptics要用人機互動和語音技術搶佔AI高地
    【PConline資訊】前有PC大放光彩,後有智慧型手機熠熠生輝,現又輪到人工智慧市場風潮迭起。在這些浪潮中,享受了前兩波紅利的智能終端廠商和上下遊企業,正卯足了勁要「吃」上下一波的「蛋糕」。在這些廠商中,全球人機界面交互技術領先廠商Synaptics尤具代表性。一項數據表明,目前Synaptics的主要收入來自PC和手機市場,一個佔88%,一個佔12%。
  • 聊一聊語音交互以及語音助手
    我最早感受到語音交互的魅力是在16年,當時在做全屋智能的產品經理,公司調研產品買了一臺亞馬遜的echo,第一次體驗到遠場的語音交互,很驚豔,遠場語音交互技術給了居家場景太多的想像空間。後來國內陸續出了小愛同學、天貓精靈、小度音箱… 我基本都是第一時間買回了家。
  • 京東智能雲語音服務開放平臺上線「喚醒」全新語音交互未來
    而叮咚的家庭入口布局也真正完成了從交互、內容到服務的全面布局。叮咚靈動版搭載最新的人工智慧語音交互界面(AIUI)打破了現有語音交互模式,可實現單次喚醒多次對話的全新體驗。發布會上京東集團CTO張晨表示:「京東作為一家以技術驅動的公司,正在積極布局人工智慧領域,而叮咚可以很好的擴展京東自身的服務,例如用戶可通過語音完成購物,這將會成為京東購物的新入口。」
  • 雲知聲闖關科創板:營收增速放緩智能語音交互產品佔比下降
    智能語音交互產品營收佔比下降 業務轉向智慧物聯解決方案根據云知聲招股書援引的灼識諮詢數據,我國人工智慧語音市場規模從2015年9.4億元增長至2019年148.0億元,年均複合增長率接近100%。目前全球智能語音行業的市場參與者分為兩類,包括網際網路科技巨頭谷歌、蘋果、亞馬遜、百度以及智能語音技術公司Nuance、Cerence、科大訊飛、思必馳等。雲知聲的主營業務包括提供智能語音交互產品、智慧物聯解決方案、人工智慧技術服務三大部分。
  • 專訪思必馳俞凱:大規模可定製的對話式語音交互,已經來臨
    ,了解對話式語音交互技術的最近研究進展,了解這位學者、科學家、產業從業者對當下語音交互技術最難落地的場景的思考。 Q:就我們所了解到的,疫情期間的疫情防控機器人、智能聲控電梯、智能交互大屏等。從思必馳最近一年的探索上,服務於企業級用戶方面,主要有了哪些層面的突破? 俞凱:大規模可定製是很重要的一點。
  • 語音連接人與服務:百度語音涉足智能穿戴領域
    隨著智能行動裝置的普及,語音交互作為一種新興的人機互動方式,正越來越多地引起整個IT業界的重視。此前,百度CEO李彥宏就曾在百度世界大會上表示,「未來5年,消費者使用語音和圖像表達需求的比例將超過50%」。尤其是在各種隨身智能設備層出不窮的情況下,語音更成為未來人機互動最為重要的一項技術。
  • 從智能語音到機器翻譯,解讀搜狗的人工智慧進擊之路
    搜狗機器翻譯團隊的獲獎代表搜狗在人工智慧方面的最新進展,而王小川此前也曾提到今年是搜狗人工智慧技術從前沿科技到走向實用的重要一年。那麼搜狗前沿技術應用到了哪些領域?在語音交互大入口下又有哪些布局?(圖為搜狗語音交互中心技術總監陳偉)智東西同搜狗語音交互中心技術總監陳偉以及機器翻譯技術負責人王宇光展開對話,看看這家靠輸入法而知名的公司在人工智慧中有哪些新進展。組建機器翻譯團隊實現跨語言交流搜狗的核心主要包括兩個事業部,一個是桌面事業部,一個是搜索事業部。
  • 四大智能電視語音交互大戰:這樣的才能叫智能!
    說到智能語音就不能不提谷歌,5 月份谷歌剛展示了一款新的人工智慧語音合成器 Duplex,可以與人自然交流並不被對方所識別,雖然引起了廣泛爭議,但也代表著這可能是智能語音目前最高成就,而這款虛擬語音助手更有可能被應用到家居場景,一如谷歌之前部署的智能音箱佔據了智能家居的主導地位。
  • 小度智能音箱23億語音交互背後的價值演變
    和許多黑科技的誕生一樣,有了美好遠景的語音交互成了幾代「程式設計師」的奮鬥方向。特別是深度學習技術在2010年引入到語音識別領域後,蘋果Siri、Google Now、百度語音、微軟Cortana等「語音助手」類產品應運而生,有問有答的人機對話逐漸成為現實,哪怕機器還處於被動接受人類輸入大量數據階段,不能深層次理解人的意思。
  • 從數據角度全面解析,智能語音交互產品該怎樣確定「喚醒詞」
    和很多智能語音交互產品一樣,當你使用搭載DuerOS系統的智能音箱的時候,需要多次這樣叫出它的名字——「小度小度」,才能讓它更好的為我們服務。但是什麼樣的名字才是好名字?什麼樣的名字順口悅耳人人喜愛?產品經理想叫A,其他同事想叫B,到底應該叫什麼好呢?  本篇文章將從數據的角度,科學的告訴你,智能語音交互產品該「叫」什麼名字。
  • 語音交互引起IT界重視 百度涉足智能穿戴領域
    語音交互引起IT界重視 百度涉足智能穿戴領域 2014-12-31 11:04:30  隨著智能行動裝置的普及,語音交互作為一種新興的人機互動方式,正越來越多地引起整個IT界的重視。
  • 語音技術開發者利器,希爾貝殼開源了1000小時中文語音資料庫
    從最早的巨型計算機、到PC、筆記本、智慧型手機、智能電視、智能車載等,發展路徑上的每一個外延點都有可能觸發一次產業升級,或者全新的行業。如今隨著人工智慧技術的發展,語音技術正在從邊緣化的存在向主導地位邁進,對於學生和從業者來說,這是歷史上最好的一次機會。