會說方言不算本事
「支付寶到帳1億元。」
這不知道是多少人做夢都想聽到的一句話,然而現實中,頂多也就個幾塊錢、幾百塊到帳的消息。
近日,支付寶還貼心的推出了方言版,分別有武漢話、上海話、廣東話、東北話以及成都話5個版本,讓網友直呼親切,其他地區的網友也紛紛催促:河南話呢?長沙話呢?溫州話啊通通安排起來!
從讓機器說話,到讓機器說方言,語音包的花樣是越來越多了。
說到語音包玩花樣,高德地圖可以說是網際網路行業第一個吃螃蟹的人,2013年,志玲姐姐的娃娃音臺灣腔在高德地圖一上線,立刻引爆市場。而後,高德地圖又推出了郭德綱、小嶽嶽、高曉松、羅振宇、羅永浩等各個領域的名人的語音包,意在滿足不同人群的喜好。
作為人類,可以輕而易舉識別出機器發出的聲音,並且理解他們所說的內容,難的是,如何讓機器人聽懂、理解人類說話?
前文中所提到的一個個語音包,無論如何變換音色、口音都只是小學生階段,語音交互這門學問才是大學生研究的內容。
目前,人們可以通過文字,以觸屏、鍵盤、滑鼠等工具向機器發號施令,這種技術已經十分成熟,語音交互則嘗試通過說話與機器交流。
近幾年,天貓精靈、小度智能音箱、小米的小愛同學相繼出現在大家的視野。人們可以與其進行對話,例如詢問天氣,問一些「魔鏡魔鏡你覺得世界上誰是最漂亮的女人」之類的無聊問題,打發時間。
當然,這些智能音箱還可以播放音樂、與家中的電器連接,並且控制他們的活動。
類似情節在古代的神話故事中多次出現過,例如《西遊記》中,孫悟空在平頂山大戰金角大王和銀角大王。
「我叫你一聲,你敢答應嗎?」
只要一答應,就會立刻被吸入寶葫蘆中,化為濃水。這個寶葫蘆不僅能聽懂人話,還能分清楚聲音出自何人之口。
遺憾的是,寶葫蘆不會說話,智能音箱們可能還會禮貌地通知你一句:「金角大王已經化成濃水,請放心。」
人工智慧or人工智障
早在1962年,IBM就發明了第一臺可以用語音進行簡單數學計算的機器Shoebox。
2011年,蘋果發布手機助力Siri,語音交互由此翻開了新的篇章。
走到今天,語音交互已經付出了非常多的努力,但還是遠遠不夠。
語音交互其實與人的信息處理過程差不多,先要識別語音,再進行理解,最後做出反饋。雖然就只有簡簡單單的三個步驟,但每一步,都行之不易。
首先,在識別語音的過程中,可能因為場景噪音、說話習慣等影響語音質量。
當我們使用手機的錄音功能時,也可以發現,如果手機距離聲源較近,就能保證錄到質量較高的語音信息。而一旦距離變遠,再加上汽車鳴笛等環境噪音、回聲、混響,就很難說了。
其次,機器人對語音的理解效果,受到多種因素的影響。
正如微信可以將普通話語音轉化為文字,一旦涉及到方言,就知識超綱了。機器人難以識別有口音、普通話不標準或者吐詞不清的信息,對於此類信息,要麼是答非所問,要麼就是無意義地重複:「請再說一遍。」
這也就導致,普通話不太標準的雷軍在發布會上展示小愛同學時,場面一度尷尬。當雷軍問小愛同學,三個木叫什麼時,得到的回答卻是「你是電,你是光,你是唯一的神話」,引得全場爆笑,「人工智障」這個綽號也由此而來。
另外,中國文字,博大精深。人們表達的習慣本就多種多樣,不同的對話場景中,所用詞彙的含義和情緒也會不同。而且隨著對話輪數的增加,人們在對話時會把之前提到過的信息省略,人腦自然可以理解,機器就不明就裡了。
例如,你問:明天的天氣怎麼樣?
「晴,32攝氏度。」
「後天呢?」
機器還能明白這裡的後天,是指後天的天氣嗎?
語音交互是一項非常複雜的工程,當前技術的發展還不足以理解所有場景,但能完成特定場景、特定任務中的對話要求,也開始在某些內容標準、重複度高的行業開展了服務,例如客服行業。不難發現,各大商場的每個樓層都放置了導購機器人,方便為人們引路。
未來,語音交互技術一定會在更多行業和場景落地。
語音交互雞肋嗎?
對於用慣了滑鼠鍵盤、習慣了打字輸入信息的人來說,與機器說話有種說不出的詭異和不自在。有人認為語音交互很「雞肋」,食之無用,棄之可惜。
但不得不承認的是,語音交互讓很多被隔絕於網際網路、智能化之外的人,接觸到這個高速發展的現代社會。
我們向來是先學說話,再學認字、寫字,有很多人學習語言的過程,就只是停留在學習說話,一個大字都不識,特別是農村的中老年人群。與語音交互相比,滑鼠鍵盤也好,觸屏手機也好,豐富的應用軟體也好,對他們來說都需要極高的學習成本。
我國三線以下城市及農村鄉鎮地區人口多達10億,60歲以上老人佔比18%,就算只針對這些老人,依然還有2億左右的語音交互的潛在用戶。
另外,盲人也是被隔絕在網際網路世界之外的群體,根據世界衛生組織2010年的統計數據顯示,中國的盲人群體共有824.8萬,十年過去了,這個數字只增不減。
老人也好,盲人也好,誰也不願意被時代丟下,他們希望了解這個日新月異的網際網路世界。
語音交互為他們打開了新鮮世界的大門,光搜索資訊這一項功能,對於他們來說就已經足夠前衛,另外還有智能點播、語音購物、生活服務等功能。
這樣一扇大門的打開,對於各大網際網路公司而言,是一筆巨大的流量接入,其背後所蘊含的商業價值絕對不可忽視。
對於那些已經接入網際網路的人群來說,由於技術限制,車載和家務這樣文字輸入困難的情況,是語音交互的主要使用場景。
試想,技術成熟之時,只要對著手機說一句「幫我叫輛車」,十分鐘後計程車便等在樓下,這樣的便利,還能被稱為「雞肋」嗎?
整個人類的工具進化史,就是一部低學習成本戰勝高學習成本,便利戰勝非便利的歷史。
而人類面對新技術的態度,則是一個從「嫌棄」到「真香」的打臉過程。
作者:周文君