從10月12日開始為期七天的雙創周在全國範圍內正式拉開帷幕,深圳作為今年雙創周的主會場,匯聚了大量國內外的創業團隊及創新項目。在此期間,京東智能在深圳京東JD+智能奶茶館舉辦了 「遇見未來——智能語音應用的裂變」主題分享活動。會上,靈隆科技有限公司總經理魏強、科大訊飛高級產品經理鄒雲貴、迪韻科技聯合創始人兼CTO彭遠疆,以及智東西聯合創始人總編輯張國仁,就「智能語音未來—泛科技領域構建」為話題在圓桌論壇環節展開了深入探討。
左至右:科大訊飛高級產品經理鄒雲貴、迪韻科技聯合創始人兼CTO彭遠疆、靈隆科技有限公司總經理魏強、智東西聯合創始人總編輯張國仁
靈隆科技總經理魏強表示,智能語音的爆發源於三個因素:1,無論是近場還是遠場的語音技術,都已經非常成熟。2,網際網路公司開始在智能家居的入口上布局;3,晶片業和半導體行業飛速發展,計算能力提高非常明顯。
以下為現場文字實錄:深圳雙創周氛圍下,對創新發展有什麼樣的感受?彭遠疆:確確實實感覺到大眾創業、萬眾創新,這次活動吸引如此多人參加是我沒想到的。
我在深圳待了差不多二十年,每年參加高交會,跟這次感覺真的完全不一樣,用一個詞來總結的話,就是「熱火朝天」。
鄒雲貴:這樣的展會我也參加了不少,像高交會我每年也都去,而當前新技術和新的創業公司像這麼蓬勃發展的還是第一次。我想這也是當前市場熱情的表現。
魏強:第一感覺是熱度高,對大眾創業、萬眾創新的熱。第二,今年做機器人的創業公司和創新產品非常多,這其實也是一個發展方向,像語音交互的、圖像的以及智能的很多產品,代表著未來一段時間智能化產品的發展趨勢。好的地方就是它能夠催生更多的人機互動的新產品的出現,同時,反過來對技術的領域有更多的促進,因為創業公司出來,對交互的技術有更高層次的要求,對技術發展也會有一定的推動作用。
導致智能語音技術在同一節點集中爆發的因素有哪些?魏強:我有三方面的思考。第一,技術方面。現在的語音交互技術,無論是近場還是遠場,逐漸走向成熟,這是非常好的技術方面的互通。第二,網際網路浪潮的帶動,很多大的公司,像亞馬遜、Google,還有國內的一些公司,想在智能家居和物聯網家庭裡面做一個入口和布局,是整體戰略的一個體現。第三,晶片業和半導體行業的發展,現在硬體產品的成本越來越低,而且性能越來越高,為大規模廣泛的推廣基於高計算能力的智能化產品奠定了很好的硬體平臺基礎。
彭遠疆:其實語音識別,從60年代起,相關的技術開始慢慢發展,到80年代用了一些神經網絡,從那時起語音交互逐漸變得實用。大概在90年代中到90年代末,當時三星推出一款有語音播報功能的手機,當時非常火。但當時的技術確實不足以支撐智能語音的蓬勃發展,因為識別率不夠高。從2012年開始,不僅是語音識別,圖像識別以及其他技術都飛速發展。其實我從技術角度來講,這是深度學習神經網絡的一個發展,這個發展對整個智能相關的技術都有廣泛影響,不管是圖像識別還是語音識別,把識別率從以前的70%提升到現在的98%。真正使識別的效果落實到實際的應用中。這離不開技術的發展,沒有後臺構建大規模的語音模型和圖像識別模型、神經網絡模型,是沒有辦法支撐這樣高的準確識別率的。從技術角度來講,第一是神經網絡技術的發展;第二是網際網路技術的發展;第三是晶片業的發展,從這幾個方面來講,現在在智能語音交互方面是爆發點。
鄒雲貴:我覺得這個進展有三個方面:第一,我們公司選擇了正確的技術道路,眾所周知,語音識別門檻比較高,但是我們公司創業初期選擇的是語音合成,所以我們從低門檻的東西賺到錢,然後再把收到的錢投資到語音識別當中,我們才能走下來。第二,我們自從上市之後,在資本上得到了非常多的支持,並且我們資本上的局限和投入的程度也得到更大的改觀。第三,訊飛是非常專業、非常執著、非常專一的做一件事情,中國人的語音就應該由中國人掌握,我們自始至終一直做這個事情,所以我們的積累和磨鍊到今天這個程度,做到很高的一個水平。
機器人的語音識別和語氣的問題,該如何解決?鄒雲貴:這個是語音合成的音色和角色的問題。第一個是需要有特色的聲音,跟人的名氣一樣,有特色的聲音,還要有一定名氣,這個聲音才能被大家接受。另外,也需要一定的時間才能精選出來。我們非常歡迎有實力的公司能夠推薦相應的明星,跟我們來做這種音色的定製化或者特色化。
彭遠疆:如果從成本和易用性來說,迪韻科技提供的麥克風模組,除了效果以外,考慮的就是降低成本。舉個例子,我們之前是用國外一些音頻的採購晶片,跟客戶的交接過程中,客戶不在乎是國內還是國外的,只要質量好就沒問題。所以,我們跟國內的一些廠家聯合,使用他們的一些性價比不錯的全置的採集IC。我們把一些算法嵌到裡面去,這樣整體成本會下降,對用戶或者客戶來講,價格更低,性價比更高。
叮咚(DingDong)的服務市場空間有多大?魏強:在整個移動網際網路方面,比較熱的是助手機器人,它是一個入口或者一個平臺。目前我們在使用手機的時候,要下載很多APP。未來重要的發展趨勢,可能這些APP都不會存在了,我們手機上面可能只有一個APP或者只有一個入口,我們通過這個入口可以來聽音樂、打車和做各種各樣的功能。而所有的這些服務,都會在後臺進行。我要做的只是把手機和後臺雲端進行連接,這是目前手機上的APP重要的方向。以外的產品,比如說像我們的音箱或者其他語音交互的產品,我們能夠把所有APP裡面用語音交互比較方便、比較適合語音交互的一些功能,都集中在我們的音箱上,或者集中在我們音箱的後臺上,這樣我通過音箱就可以得到各種服務,這種交互方式將來也會給用戶帶來極大方便性。用戶不需要知道很多各種各樣的信息,將來APPStore這種應用市場可能會消失掉,取而代之的是接入更多服務的一個雲平臺,我覺得這可能是未來最重要的移動網際網路的發展方向。
想像一下有哪些場景可以用作智能語音的發揮?魏強:叮咚(DingDong)音箱上線一年時間,我們從用戶這裡拿到各種各樣的反饋,比如說音色,也就是個性化發音,這是語音技術未來發展的方向。此外,人和人交流不僅僅基於文本,我們說話的時候還帶有很多情感色彩,一句話用不同語氣說出來表達的意思是不一樣的。目前我們的語音識別對語氣的識別和理解還處於一個研發的階段,如果將來我說出簡單的一句話,它就能知道我高興還是不高興、憤怒還是悲傷,這些通過後臺技術能夠實現,對用戶來說會是非常好的體驗。
彭遠疆:其實情感的識別很重要。從另外一個角度來,目前是語音識別或者智能語音產品使用的場景。比如說現在的會場,其實很難達到比較高的識別率。智能語音產品的使用,降噪發展到一定階段,這個產品就會有新的亮點功能。舉個例子,在銀行或者餐館接待的服務機器人,如果語音識別的技術處理好的話,這個市場會是爆發性的增長,這是一個方向。
另外,針對小孩和老人的市場空間很大。三四歲的小孩說話的時候,他有很多好奇的問題,而大人沒有那麼多時間陪他,這就催生了兒童教育市場,這是非常大的市場。從老人這邊來說,因為有些老人的普通話不標準,他的表達方式可能不是很直白、很標準的方式,很可能是本地的一種說法和表達方式,那我們的語音識別方式如果能解決的話,對老人會有幫助,另外,包括老人的陪伴和情感交流,這都是非常大的市場。
鄒雲貴:第一是OTT和智能電視,OTT是機頂盒和智能電視比較多,但是點到自己想看的內容,語音是最快的解決方式。第二是車機,開車的時候用語音操作是比較強的需求。無論你找地點、找信息,還是找餐館、加油站,通過語音進行回復是非常大的需求。接下來一個亮點是智能家居,用戶在家裡對家庭設備的設置,有很多空間可以挖掘,這些操作可以讓大家變得更舒服。相信在人機互動方面智能語音也會得到很大的發展。