澄泓研究理念:讓研報變誠實,使投資更簡單。
澄泓研究•圖靈工作室成員:牛市市長、JJarod、thomasbolo、數據驅動力、帆和國、dq951163、交易猹APOLLO
本文是人工智慧系列的第二篇研報。第一篇研報《第四次工業革命——智慧機器人深度研究》見:http://weibo.com/ttarticle/p/show?id=2309403942888269575453
【摘要】
自然語言處理NLP(NaturalLanguageProcessing)是人工智慧(AI)的一個子領域。該技術的最終目的是使計算機能理解和運用人類的自然語言,實現人機之間的自然語言通信,以代替人的部分活動,包括查詢資料、解答問題、便攜操作等。
如果說蘋果公司的偉大之處,是將人類從鍵盤滑鼠時代跨越帶入到觸控螢幕時代,那麼智能語音會再次將人類從觸控螢幕時代跨越帶入語音交互時代。智能語音通過與用戶交互、信息計算和知識庫技術,實現了在私人助理、智能家居、車聯網、教育等行業突破性應用。
2011年10月4日,蘋果公司向全世界推出了智能語音交互機器人Siri,使用者可以通過聲音、文字輸入的方式,與Siri聊天互動,利用Siri讀簡訊、詢問天氣、設置鬧鐘,利用Siri來搜尋餐廳、電影院等生活信息,甚至是直接訂位、訂票。Siri最大的特色在於人機互動方面,具有強大的對話接口,針對用戶提出的問題通過分析語義知識搜索,成為日常生活娛樂的助手。初始的Siri主要還是基於終端的語音識別和後端的知識搜索技術進行人工交互。
如果說初始的Siri還主要是供閒聊調侃來玩,那麼2015年蘋果秋季發布會成為了Siri智能語音進行全面控制智能家居的開始。
全新發布的蘋果TV通過Siri智能語音識別,演示了蘋果最新TV的整個互動體驗,不但能夠把用戶在觀影過程中的前後語句聯繫起來進行複雜綜合搜索,在播放影片時也可以為用戶解答一些問題,比如演員資料、快進後退、打開隱藏字幕、查詢賽事比分等等,還支持跨應用搜索,在尋找電影時,可以從iTunes、Netflix、HBO等不同的流媒體應用中找到內容,實現了非常複雜的人工智慧交互。這項重大突破,開啟了Siri全面掌控智能家居控制中心入口的大幕。
與此同時,在2014年5月29日微軟發布一款人工智慧虛擬機器人,並取名「微軟小冰」。首批發布的10萬個小冰帳號數小時內被認領一空,據稱「這是微軟在網際網路領域有史以來最成功的一款產品。」
小冰集合了中國7億網民多年來積累的資料,憑藉微軟在大數據、自然語義分析、機器學習和深度神經網絡方面的技術積累,精煉為幾千萬條真實而有趣的語音庫,並且不斷更新,通過理解對話的語境與語義,實現了超越簡單人機問答更加貼近生活的自然人機互動。用戶通過對小冰的一對一認領,與小冰的問答不是簡單地基於語音庫存儲式的問答,而是把與用戶歷史對話中用戶獨有的個人喜好信息加入交流的真正對話。小冰了解每個用戶的喜好和習慣,會記錄用戶的行為和使用習慣,來理解用戶的語義和語境,從而實現自然人機互動。
在經歷了微信封殺、微博復活後,小冰經過不斷改良升級,目前小冰3.0版本已經加入了強大的視覺識別能力,交流起來更像人類。2015年12月22日,小冰以見習主播身份登陸東方衛視負責主持每日天氣播報板塊,不僅承擔天氣播報的工作,還與現場主持人一起對當天實時新聞進行點評和討論。
在小冰推出後不久,2014年7月30日,微軟發布了全球第一款人工智慧個人語音助理Cortana中文版,並將其命名為「微軟小娜」。據小冰自己介紹,小娜是其姐姐。小娜的功能比小冰更加豐富,功能也大大超越美國版Cortana。從微軟小娜、小冰智能語音的路線圖可以看到,其定位已經是與個人生活非常緊密的私人語音助理。
目前看,GoogleNow與Siri、Cortana已經形成三足鼎立之勢。2014年,有專業機構使用了3,000個現實生活的提問考驗這三款語音助手,GoogleNow的表現最為出色,58%的問題都提供了聚合式的信息,而不僅僅是簡單的搜索結果。
與之相比,Siri和Cortana的成績分別只有29%和20%,這得益於Google搜尋引擎的強大能力和用戶歷史搜索關鍵詞的整合。然而由於Google沒有進入中國市場,對於中文的語音處理是否能夠像英文一樣強大,是個較大的疑問。
智能推薦技術,推薦的原則是「Justrightinformationatrighttime」,即合適的時間推薦合適的信息。GoogleNow稱之為Google的智能推送技術,與Siri、Cortana相比,在用戶提問前,它就可以就主動提供用戶感興趣的信息。比如,GoogleNow掌握了用戶的日常活動,能夠通過用戶在某個地點待的頻率,猜測用戶家和工作單位的位置,並且在每天指定時間自動提醒回家的交通情況。GoogleNow儘量收集用戶的生活信息的點點滴滴,並且通過深思熟慮的規則,儘量不打擾地推薦給用戶。GoogleNow的這些功能,都需要基於用戶使用大量的Google產品,以便於用戶信息收集,比如Google搜尋引擎、Gmail郵件、GoogleMap等。
除了Siri、Cortana、GoogleNow三巨頭,其他大型網際網路公司也積極搶佔智能領域入口,推出了自己的智能語音產品,有亞馬遜的Alexa、三星的SVoice、百度的度秘等。這些智能語音產品,都依賴於以下三方面技術:
1、用戶交互UI技術
面向用戶交互UI,用到的語音核心技術包括語種識別、語音識別、聲紋鑑別、語音合成技術。語種識別技術對用戶的口語進行處理,確定口語所屬語言種類的技術,比如對多種地方方言的識別。語音識別技術把用戶的口語轉化為文字,需要強大的語音知識庫判斷。聲紋鑑別技術利用聲紋與指紋一樣的個性特徵,根據用戶的聲音特徵鑑別出某段語音是誰說的。語音合成技術是把返回的文字結果轉化為語音對用戶輸出的技術。
Siri的語音識別採用的是Nuance(NASDAQ:NUAN)公司的技術,Nuance是世界最大的語音識別軟體提供商,長期以來牢牢掌控歐美市場份額,科大訊飛(002230)則在中文語音市場獨佔鰲頭。在國際最高水平的語音合成比賽BlizzardChallenge(暴風雪競賽)中,科大訊飛連續10年在該競賽中奪冠。
2、信息計算
通過網際網路搜尋引擎,發掘、建立語音信息資料庫,利用雲計算、大數據、自然語義分析、機器學習和深度神經網絡技術進行語音信息聚類處理,力求得到更準確的答案。
在實際生活場景下,用戶口語化表述更加多樣,容易產生歧義,人機互動難度非常大。微軟在構建Bing和Azure過程中成熟應用了NLP,計算語義學,情感分析,邏輯或者統計機器學習,信號處理,大規模計算,雲端存儲和響應,本地硬體加速等技術,所以Cortana實現了更加貼近生活的自然人機互動。Siri基於WolframAlpha,WolframAlpha是一個計算知識引擎,而不是搜尋引擎,用戶在搜索框鍵入需要查詢的問題後,該知識引擎將直接向用戶返回答案,而不是返回一大堆網頁連結。
3、開放的知識庫
語音交互過程中,查詢資料、解答問題等需求對知識獲取的需求非常強烈,需要具備持續更新的開放性知識庫。
Siri的數據源都是類似維基百科這樣開放API的權威數據源,維基百科以其儲存的知識量和知識的權威性著稱。如果沒有維基百科提供的海量數據,Siri也沒法達到預想的功能。
如果說蘋果公司的偉大之處,是將人類從鍵盤滑鼠時代跨越帶入到觸控螢幕時代,那麼智能語音會再次將人類從觸控螢幕時代跨越帶入語音交互時代。目前,智能語音應用越來越廣泛,語音輸入法、語音撥號、語音導航等功能越來越多的深入到普通人的生活中,生活中越來越多的事情將不在需要動手來尋找需要知道的信息,通過語音交互即可獲取相關的知識。目前,智能語音已有的突破性產業應用如下:
1、私人助理
智能語音正在向著私人助理機器人方向快速發展,在大數據、人工智慧、機器學習等技術的支撐下,可為每個人量身定製自己的個性化私人助理。
私人助理會根據用戶的行為和使用習慣,幫助用戶網上購物、安排出行、調整設備、智能提醒、聊天解悶。私人助理可以提供越來越多的線下生活服務,如訂餐廳、訂外賣、購買電影票、醫院預約等操作。
甚至有人提出私人助理是O2O終結者,我們在越來越多的APP中看到智能語音功能體驗,相信隨著技術的發展和應用越來越成熟,智能語音終究會改變人類的生活方式。
2、智能家居
以蘋果Homekit平臺為代表的智能家居領域,智能語音交互成為智能家居控制中心的入口,可以通過語音識別技術實現智能家電的聲控功能,通過各種主動式傳感器實現智能家居的主動性動作響應。
網際網路巨頭已開始布局,蘋果Homekit平臺的亮點正是整合了Siri的語音控制功能,蘋果授權第三方廠商生產符合Homekit兼容和安全標準的設備,首批發布的HomeKit智能家居產品,這些產品可以通過iPhone、iPad或iPodTouch控制燈光、室溫、風扇以及其他家用電器。目前已有多個著名品牌都在開發兼容蘋果HomeKit的新家居硬體。
微軟也把Cortana引入到Insteon智能家居設備中,使用戶能通過微軟語音助手Cortana,利用語音命令控制智能家居設備。谷歌通過收購NestLabs也進入智能家居市場,並推出了以GoogleNow為基礎的智能應用功能。亞馬遜基於Alexa技術的家庭語音助理Echo,在亞馬遜的智能家居系統中將會扮演一個重要的角色。
國內市場方面,由智能語音交互功能作為智能家居的入口的模式也屢見不鮮。京東利用O2O優勢進行了多輪智能家電眾籌項目後,在2014年2月25日,京東推出了創新智能硬體加速器「JD+」計劃,提供六大方面的全方位支持,構建智能硬體產業鏈。2015年3月4日,京東與科大訊飛籤署協議共同投資1.5億元設立訊京信息科技有限公司,科大訊飛的智能語音技術是京東智能家電布局的重要一環。
3、車聯網
智能語音與觸控螢幕時代的不同在於解放雙手,凡是能用語音代替雙手去做的產業都會產生巨大的價值,車聯網就是其中之一。為了便於安全駕駛,傳統汽車通過不斷的改良,車內越來越多的功能集中在了多功能按鍵方向盤上,仍然需要依靠人工進行操作。智能語音在車聯網的應用,避免了駕駛員人在撥號通話、尋址導航等輔助設備操作的危險性,讓駕駛員更注意安全駕駛本身,對車聯網發展產生巨大的變革。
蘋果Siri與寶馬合作,寶馬全系車可通過方向盤盤上的多功能按鍵來開啟語音輔助系統,可通過Sir的「EyesFree」模式用語音與汽車進行交互,不用再盯著屏幕進行操作。開啟之後即可通過語音來發送信息、撥打電話以及使用其它語音指令。
科大訊飛也積極投入車聯網,與寶馬、奔馳在中文語音雲開展效果測評,並籤約雷克薩斯2017年GBOOK車載多媒體終端平臺項目、及馬自達2017年新阿特茲車型等多個國際汽車品牌項目,與十多個國內外汽車廠商開展合作,加速推動智能語音技術在汽車領域中的深入應用。
目前,全球智能語音產業鏈核心技術大部分都掌握在蘋果、微軟、谷歌為主的網際網路巨頭手中。由於中文語義的複雜性和中國網際網路發展的自身特色,基於智能語音產業鏈的國內公司,重點關注以下:
1、科大訊飛(002230)
科大訊飛連續10年在國際最高水平的BlizzardChallenge(暴風雪競賽)中奪冠,科大訊飛在語義識別、語音合成關鍵技術領域與全球巨頭Nuance並駕齊驅,並在中文語音市場獨佔鰲頭。
語音評測技術,通過機器自動對發音進行評分、檢錯並給出矯正指導。語音評測技術是智能語音處理領域的一項研究前沿,同時又因為能顯著提高受眾對語言學習的興趣、效率和效果而有著廣闊的應用前景。科大訊飛的語音評測技術,廣泛應用於教育行業,在英語口語高考、普通話考試中全面推廣。
2、百度
百度推出的私人助理「度秘」,度秘打造的定位是:專業、實用、功能強大,為用戶提供秘書化搜索服務的機器人助理。
百度利用其在網際網路產業鏈布局優勢,採用「地圖定位+路線規劃+生活服務」為主線的移動智能生活綜合服務體系,集合了美食、酒店、銀行、商場、電影院等各類豐富的生活服務信息。這種「平臺級」的整合服務能夠讓度秘私人助理提供全景化、一站式的服務。
澄泓研究•圖靈工作室:致敬IT領域開山鼻祖圖靈,追蹤IT科學發展最前沿投資方向。
秉承讓研報變誠實,使投資更簡單的理念,專注但不限於計算機、電子、網際網路等多領域跨學科發展,持續追蹤「雲計算、物聯網、大數據、虛擬實境」等2016年熱點IT技術方向。不僅做科技產品的消費者,更要做科技趨勢的判斷者,讓科技進步成為投資的第一生產力。
【免責聲明】
利益披露:工作室部分成員已持有文中所涉及的股票或其他投資組合。
工作室的系列報告的信息均來源於公開資料,我們對這些信息的準確性和完整性不作任何保證,也不保證所包含的信息和建議不會發生任何變更。我們已力求報告內容的客觀、公正,但文中的觀點、結論和建議僅供參考,報告中的信息或意見並不構成所述證券的買賣出價或徵價,亦不保證必然盈利。投資者參考相關內容所做出的任何投資決策系本人獨立決策,概與本公司和工作室以及下屬作者無關。