相信iPhone用戶都知道「嘿,siri。」這句話。這句話你有多久沒用過了?
人工智慧給我們帶來了更多的好處,手機的語音助手就是其中最為典型、最為人所知的應用。
隨著時間的推移,圍繞著它的討論,也一直沒有休止。語音助手究竟是未來,還是雞肋?
語音助手正式進入大眾的視野,正式大規模商用還得追溯到2011年iPhone4s搭載的siri。隨後各廠家都湧入了這一領域,包括微軟、谷歌、亞馬遜、三星等等巨頭都研發出了自己的語音助手。
國內廠家當然也不示弱。我們熟悉的小愛同學、jovi、Breeno、YOYO、小藝都是語音助手的典型代表。用語音指揮設備可以說代表了幾十年前人們對於現代的想像,相關的素材在很多科幻電影中比比皆是。
現在這個想法已經基本被實現,我們可以很輕鬆的藉助智能音箱實現一系列諸如開關空調、開啟電視、打開窗簾等操作,當然,這一切的前提是要有一套智能家居。
那麼語音助手是如何聽懂我們講話的?
語音助手的工作大體可以拆分為兩部分。語音識別和語義分析。雖然目前的語音助手多種多樣,但是他們都遵循著相似的工作邏輯。
首先是語音識別,簡單來說就是語音轉文字。當用戶發出(說出)指令後,手機會通過麥克風收集聲音的模擬信號,經過降噪等一系列處理後,轉化為數位訊號並發送到雲端,然後通過雲端的伺服器,結合大量聲學模型,對模擬信號進行分析,最終輸出為文本。這裡的難點在於精確度和對複雜句式的識別。
由聲音轉文字只是第一步,還要讓設備理解人說的話,這一步就稱之為自然語言理解,這也是語音產品的難點。雲端伺服器會對句子進行分析,分析方式多種多樣,既有關鍵詞匹配,也有更複雜的語法分析。得出句子的意思後,在搜索相關的解決方案。這裡需要結合大量機器學習才能幫助設備更好地推斷出句子的真實含義。對句義進行初步解析後,設備會判斷用戶是否提供了足夠的信息,如果已經足夠,就會給出相關的文字反饋,然後將文字轉為語音反饋給用戶。如果不夠,語音助手就會進行多輪對話,以補充不足的信息,直到信息足夠為止。
語音助手聽起來確實非常美好,他把原本需要多個步驟的動作簡化到一句話即可完成,尤其是在一些無法親自操作的場景下,語音助手無疑為我們提供了很大的便利。當然,如果他真的有那麼完美也不會有雞肋這種說法,我們再來看一看它的不足之處。
首先語音助手畢竟屬於人工智慧範疇,十分依賴深度學習,這也就決定了他不能像人類那樣理解句子的含義,再碰到一些沒見過的用法或者一些複合句式,機器在語義的理解上就會遇到一些困難。比如你可以嘗試一下,讓語音助手同時完成兩項任務,很大機率只能完成一項任務或者理解錯誤。這裡也可以大致推斷,語音助手並非如同人一樣能弄清句子的前後邏輯。因此,目前的語音助手多數時間還是只能操作一些相對比較簡單直觀的操作。
其次,語音助手的可實現場景有限。雖然語音助手可以幫助我們完成一部分工作,但顧及到隱私等原因,你在地鐵上就不可能旁若無人地使用語音助手。錘子的TNT就是一個明顯的例子,這就在一定程度上局限了應用的場景,有礙他的進一步推廣。雖然語音助理目前仍有其局限性,但是隨著語音識別和語言處理的技術進一步發展,語音助手在識別的準確度和反饋能力後續還有巨大的提升空間。結合物聯網、智能家居等產業的發展,語音助手未來必然有更多的應用場景。或許還能帶動一波智能生態的發展。