人工智慧——智能語音

2021-02-14 澄泓財經

澄泓研究理念:讓研報變誠實,使投資更簡單。

澄泓研究•圖靈工作室成員:牛市市長、JJarod、thomasbolo、數據驅動力、帆和國、dq951163、交易猹APOLLO

本文是人工智慧系列的第二篇研報。第一篇研報《第四次工業革命——智慧機器人深度研究》見:http://weibo.com/ttarticle/p/show?id=2309403942888269575453

【摘要】

自然語言處理NLP(NaturalLanguageProcessing)是人工智慧(AI)的一個子領域。該技術的最終目的是使計算機能理解和運用人類的自然語言,實現人機之間的自然語言通信,以代替人的部分活動,包括查詢資料、解答問題、便攜操作等。

如果說蘋果公司的偉大之處,是將人類從鍵盤滑鼠時代跨越帶入到觸控螢幕時代,那麼智能語音會再次將人類從觸控螢幕時代跨越帶入語音交互時代。智能語音通過與用戶交互、信息計算和知識庫技術,實現了在私人助理、智能家居、車聯網、教育等行業突破性應用。

2011年10月4日,蘋果公司向全世界推出了智能語音交互機器人Siri,使用者可以通過聲音、文字輸入的方式,與Siri聊天互動,利用Siri讀簡訊、詢問天氣、設置鬧鐘,利用Siri來搜尋餐廳、電影院等生活信息,甚至是直接訂位、訂票。Siri最大的特色在於人機互動方面,具有強大的對話接口,針對用戶提出的問題通過分析語義知識搜索,成為日常生活娛樂的助手。初始的Siri主要還是基於終端的語音識別和後端的知識搜索技術進行人工交互。

如果說初始的Siri還主要是供閒聊調侃來玩,那麼2015年蘋果秋季發布會成為了Siri智能語音進行全面控制智能家居的開始。

全新發布的蘋果TV通過Siri智能語音識別,演示了蘋果最新TV的整個互動體驗,不但能夠把用戶在觀影過程中的前後語句聯繫起來進行複雜綜合搜索,在播放影片時也可以為用戶解答一些問題,比如演員資料、快進後退、打開隱藏字幕、查詢賽事比分等等,還支持跨應用搜索,在尋找電影時,可以從iTunes、Netflix、HBO等不同的流媒體應用中找到內容,實現了非常複雜的人工智慧交互。這項重大突破,開啟了Siri全面掌控智能家居控制中心入口的大幕。


與此同時,在2014年5月29日微軟發布一款人工智慧虛擬機器人,並取名「微軟小冰」。首批發布的10萬個小冰帳號數小時內被認領一空,據稱「這是微軟在網際網路領域有史以來最成功的一款產品。」

小冰集合了中國7億網民多年來積累的資料,憑藉微軟在大數據、自然語義分析、機器學習和深度神經網絡方面的技術積累,精煉為幾千萬條真實而有趣的語音庫,並且不斷更新,通過理解對話的語境與語義,實現了超越簡單人機問答更加貼近生活的自然人機互動。用戶通過對小冰的一對一認領,與小冰的問答不是簡單地基於語音庫存儲式的問答,而是把與用戶歷史對話中用戶獨有的個人喜好信息加入交流的真正對話。小冰了解每個用戶的喜好和習慣,會記錄用戶的行為和使用習慣,來理解用戶的語義和語境,從而實現自然人機互動。

在經歷了微信封殺、微博復活後,小冰經過不斷改良升級,目前小冰3.0版本已經加入了強大的視覺識別能力,交流起來更像人類。2015年12月22日,小冰以見習主播身份登陸東方衛視負責主持每日天氣播報板塊,不僅承擔天氣播報的工作,還與現場主持人一起對當天實時新聞進行點評和討論。

在小冰推出後不久,2014年7月30日,微軟發布了全球第一款人工智慧個人語音助理Cortana中文版,並將其命名為「微軟小娜」。據小冰自己介紹,小娜是其姐姐。小娜的功能比小冰更加豐富,功能也大大超越美國版Cortana。從微軟小娜、小冰智能語音的路線圖可以看到,其定位已經是與個人生活非常緊密的私人語音助理。


目前看,GoogleNow與Siri、Cortana已經形成三足鼎立之勢。2014年,有專業機構使用了3,000個現實生活的提問考驗這三款語音助手,GoogleNow的表現最為出色,58%的問題都提供了聚合式的信息,而不僅僅是簡單的搜索結果。

與之相比,Siri和Cortana的成績分別只有29%和20%,這得益於Google搜尋引擎的強大能力和用戶歷史搜索關鍵詞的整合。然而由於Google沒有進入中國市場,對於中文的語音處理是否能夠像英文一樣強大,是個較大的疑問。

智能推薦技術,推薦的原則是「Justrightinformationatrighttime」,即合適的時間推薦合適的信息。GoogleNow稱之為Google的智能推送技術,與Siri、Cortana相比,在用戶提問前,它就可以就主動提供用戶感興趣的信息。比如,GoogleNow掌握了用戶的日常活動,能夠通過用戶在某個地點待的頻率,猜測用戶家和工作單位的位置,並且在每天指定時間自動提醒回家的交通情況。GoogleNow儘量收集用戶的生活信息的點點滴滴,並且通過深思熟慮的規則,儘量不打擾地推薦給用戶。GoogleNow的這些功能,都需要基於用戶使用大量的Google產品,以便於用戶信息收集,比如Google搜尋引擎、Gmail郵件、GoogleMap等。

除了Siri、Cortana、GoogleNow三巨頭,其他大型網際網路公司也積極搶佔智能領域入口,推出了自己的智能語音產品,有亞馬遜的Alexa、三星的SVoice、百度的度秘等。這些智能語音產品,都依賴於以下三方面技術:

1、用戶交互UI技術

面向用戶交互UI,用到的語音核心技術包括語種識別、語音識別、聲紋鑑別、語音合成技術。語種識別技術對用戶的口語進行處理,確定口語所屬語言種類的技術,比如對多種地方方言的識別。語音識別技術把用戶的口語轉化為文字,需要強大的語音知識庫判斷。聲紋鑑別技術利用聲紋與指紋一樣的個性特徵,根據用戶的聲音特徵鑑別出某段語音是誰說的。語音合成技術是把返回的文字結果轉化為語音對用戶輸出的技術。

Siri的語音識別採用的是Nuance(NASDAQ:NUAN)公司的技術,Nuance是世界最大的語音識別軟體提供商,長期以來牢牢掌控歐美市場份額,科大訊飛(002230)則在中文語音市場獨佔鰲頭。在國際最高水平的語音合成比賽BlizzardChallenge(暴風雪競賽)中,科大訊飛連續10年在該競賽中奪冠。

2、信息計算

通過網際網路搜尋引擎,發掘、建立語音信息資料庫,利用雲計算、大數據、自然語義分析、機器學習和深度神經網絡技術進行語音信息聚類處理,力求得到更準確的答案。

在實際生活場景下,用戶口語化表述更加多樣,容易產生歧義,人機互動難度非常大。微軟在構建Bing和Azure過程中成熟應用了NLP,計算語義學,情感分析,邏輯或者統計機器學習,信號處理,大規模計算,雲端存儲和響應,本地硬體加速等技術,所以Cortana實現了更加貼近生活的自然人機互動。Siri基於WolframAlpha,WolframAlpha是一個計算知識引擎,而不是搜尋引擎,用戶在搜索框鍵入需要查詢的問題後,該知識引擎將直接向用戶返回答案,而不是返回一大堆網頁連結。

3、開放的知識庫

語音交互過程中,查詢資料、解答問題等需求對知識獲取的需求非常強烈,需要具備持續更新的開放性知識庫。

Siri的數據源都是類似維基百科這樣開放API的權威數據源,維基百科以其儲存的知識量和知識的權威性著稱。如果沒有維基百科提供的海量數據,Siri也沒法達到預想的功能。

如果說蘋果公司的偉大之處,是將人類從鍵盤滑鼠時代跨越帶入到觸控螢幕時代,那麼智能語音會再次將人類從觸控螢幕時代跨越帶入語音交互時代。目前,智能語音應用越來越廣泛,語音輸入法、語音撥號、語音導航等功能越來越多的深入到普通人的生活中,生活中越來越多的事情將不在需要動手來尋找需要知道的信息,通過語音交互即可獲取相關的知識。目前,智能語音已有的突破性產業應用如下:

1、私人助理

智能語音正在向著私人助理機器人方向快速發展,在大數據、人工智慧、機器學習等技術的支撐下,可為每個人量身定製自己的個性化私人助理。

私人助理會根據用戶的行為和使用習慣,幫助用戶網上購物、安排出行、調整設備、智能提醒、聊天解悶。私人助理可以提供越來越多的線下生活服務,如訂餐廳、訂外賣、購買電影票、醫院預約等操作。

甚至有人提出私人助理是O2O終結者,我們在越來越多的APP中看到智能語音功能體驗,相信隨著技術的發展和應用越來越成熟,智能語音終究會改變人類的生活方式。

2、智能家居

以蘋果Homekit平臺為代表的智能家居領域,智能語音交互成為智能家居控制中心的入口,可以通過語音識別技術實現智能家電的聲控功能,通過各種主動式傳感器實現智能家居的主動性動作響應。

網際網路巨頭已開始布局,蘋果Homekit平臺的亮點正是整合了Siri的語音控制功能,蘋果授權第三方廠商生產符合Homekit兼容和安全標準的設備,首批發布的HomeKit智能家居產品,這些產品可以通過iPhone、iPad或iPodTouch控制燈光、室溫、風扇以及其他家用電器。目前已有多個著名品牌都在開發兼容蘋果HomeKit的新家居硬體。

微軟也把Cortana引入到Insteon智能家居設備中,使用戶能通過微軟語音助手Cortana,利用語音命令控制智能家居設備。谷歌通過收購NestLabs也進入智能家居市場,並推出了以GoogleNow為基礎的智能應用功能。亞馬遜基於Alexa技術的家庭語音助理Echo,在亞馬遜的智能家居系統中將會扮演一個重要的角色。

國內市場方面,由智能語音交互功能作為智能家居的入口的模式也屢見不鮮。京東利用O2O優勢進行了多輪智能家電眾籌項目後,在2014年2月25日,京東推出了創新智能硬體加速器「JD+」計劃,提供六大方面的全方位支持,構建智能硬體產業鏈。2015年3月4日,京東與科大訊飛籤署協議共同投資1.5億元設立訊京信息科技有限公司,科大訊飛的智能語音技術是京東智能家電布局的重要一環。

3、車聯網

智能語音與觸控螢幕時代的不同在於解放雙手,凡是能用語音代替雙手去做的產業都會產生巨大的價值,車聯網就是其中之一。為了便於安全駕駛,傳統汽車通過不斷的改良,車內越來越多的功能集中在了多功能按鍵方向盤上,仍然需要依靠人工進行操作。智能語音在車聯網的應用,避免了駕駛員人在撥號通話、尋址導航等輔助設備操作的危險性,讓駕駛員更注意安全駕駛本身,對車聯網發展產生巨大的變革。

蘋果Siri與寶馬合作,寶馬全系車可通過方向盤盤上的多功能按鍵來開啟語音輔助系統,可通過Sir的「EyesFree」模式用語音與汽車進行交互,不用再盯著屏幕進行操作。開啟之後即可通過語音來發送信息、撥打電話以及使用其它語音指令。

科大訊飛也積極投入車聯網,與寶馬、奔馳在中文語音雲開展效果測評,並籤約雷克薩斯2017年GBOOK車載多媒體終端平臺項目、及馬自達2017年新阿特茲車型等多個國際汽車品牌項目,與十多個國內外汽車廠商開展合作,加速推動智能語音技術在汽車領域中的深入應用。

目前,全球智能語音產業鏈核心技術大部分都掌握在蘋果、微軟、谷歌為主的網際網路巨頭手中。由於中文語義的複雜性和中國網際網路發展的自身特色,基於智能語音產業鏈的國內公司,重點關注以下:

1、科大訊飛(002230)

科大訊飛連續10年在國際最高水平的BlizzardChallenge(暴風雪競賽)中奪冠,科大訊飛在語義識別、語音合成關鍵技術領域與全球巨頭Nuance並駕齊驅,並在中文語音市場獨佔鰲頭。

語音評測技術,通過機器自動對發音進行評分、檢錯並給出矯正指導。語音評測技術是智能語音處理領域的一項研究前沿,同時又因為能顯著提高受眾對語言學習的興趣、效率和效果而有著廣闊的應用前景。科大訊飛的語音評測技術,廣泛應用於教育行業,在英語口語高考、普通話考試中全面推廣。

2、百度

百度推出的私人助理「度秘」,度秘打造的定位是:專業、實用、功能強大,為用戶提供秘書化搜索服務的機器人助理。

百度利用其在網際網路產業鏈布局優勢,採用「地圖定位+路線規劃+生活服務」為主線的移動智能生活綜合服務體系,集合了美食、酒店、銀行、商場、電影院等各類豐富的生活服務信息。這種「平臺級」的整合服務能夠讓度秘私人助理提供全景化、一站式的服務。

澄泓研究•圖靈工作室:致敬IT領域開山鼻祖圖靈,追蹤IT科學發展最前沿投資方向。

秉承讓研報變誠實,使投資更簡單的理念,專注但不限於計算機、電子、網際網路等多領域跨學科發展,持續追蹤「雲計算、物聯網、大數據、虛擬實境」等2016年熱點IT技術方向。不僅做科技產品的消費者,更要做科技趨勢的判斷者,讓科技進步成為投資的第一生產力。

【免責聲明】

利益披露:工作室部分成員已持有文中所涉及的股票或其他投資組合。

工作室的系列報告的信息均來源於公開資料,我們對這些信息的準確性和完整性不作任何保證,也不保證所包含的信息和建議不會發生任何變更。我們已力求報告內容的客觀、公正,但文中的觀點、結論和建議僅供參考,報告中的信息或意見並不構成所述證券的買賣出價或徵價,亦不保證必然盈利。投資者參考相關內容所做出的任何投資決策系本人獨立決策,概與本公司和工作室以及下屬作者無關。

相關焦點

  • 【沙發管家】小米電視盒子4「人工智慧語音」真機體驗!可語音控制智能設備?
    人工智慧系列產品這些年來越來越多,但應用在電視盒子身上卻少之又少,而小米盒子在2016年就率先推出了PatchWall拼圖牆人工智慧系統,在小米盒子4更是將人工智慧發揮到了極致推出了人工智慧語音系統,同時將藍牙語音遙控器作為小米盒子
  • 搭載了人工智慧語音助手的音箱,哪款最智能、最好用呢?
    市面上智能音箱不斷地推陳出新,種類繁多,但大多數的智能音箱都只是實現了藍牙連接功能和FM等接連播放功能,而所謂的真正「人工智慧」功能方面並沒有實現多少,歸結到底其實就是一個完善的「人工智慧」系統並不是由一兩家生產智能硬體設備的廠家可以研發出來的。
  • 啟英泰倫——人工智慧語音晶片領域的領導者
    關注並標星大同學吧每天1次,打卡閱讀全面獲取企業求職攻略今天是大同學吧企業專欄第198期歡迎關注,了解更多企業信息啟英泰倫於2015年11月在成都高新區註冊成立,是一家專注於人工智慧語音晶片及提供配套應用解決方案的國家高新技術企業。
  • 語音識別開啟人工智慧情感計算
    ,這是繼Windows10發布時解鎖部分圖像功能後又一次情感計算功能的提升,語音識別一直是人工智慧的重點研究領域,也是未來人工智慧技術產業應用的主要方向之一。去年年底,百度基於深度學習的名為「DeepSpeech」語音識別系統可以在嘈雜環境下實現將近 81% 的辨識準確率。中國人工智慧公司科大訊飛將語音識別應用在了教育領域,通過機器來進行口語考試,並且在「寶馬全球中文語音技術測試」中獲得了第一名。今天微軟小冰語音功能的解鎖,使之成為了在感官系統更加豐富的人工智慧機器人,實現了IQ和EQ的均衡發展。
  • 如何設計智能語音助手?
    隨著人工智慧的發展,智能語音也在不斷取得重大的突破,那麼設計一個智能語音助手需要交付些什麼?和設計VUI時需要遵守哪些基本設計原則?
  • 智慧語音讓人工智慧變性感,人機合一還有多遠?
    文/柳華芳  在周末的極客公園年會上,百度公司創始人李彥宏大談人工智慧,robin認為現在人工智慧已經趨於成熟,在移動網際網路時代,技術變得更加重要。  人工智慧的新文明讓人嚮往,我很期待自己有一個像《星際穿越》裡塔斯(Tars)一樣聰明的機器人夥伴,不僅能幫我解答難題,還能陪我嘮嗑聊妹子。然而,即便到了2045年,也許只是實驗室的人工智慧大突破,我們普通人也未必能有自己的Tars。
  • 強人工智慧與弱人工智慧
    根據這個解釋,我們可以根據intelligence的程度,把人工智慧分為強人工智慧和弱人工智慧。 強人工智慧認為「有可能」製造出「真正」能推理和解決問題的智能機器,並且,這樣的機器將被認為是具有知覺、有自我意識的。
  • 礪石 人工智慧第一入口? 解密科大訊飛語音王國
    在智能硬體方面,語音輸入也已經成為很多產品的「標配」,在這些被廣泛應用的產品裡,也有著以科大訊飛為代表的人工智慧企業所賦予的「智慧」內核。相比其他網際網路企業,科大訊飛並沒有投入太多的營銷成本,仍然是更多的以傳統,甚至是有些笨拙的口碑營銷方式逐步推進,但這並沒有影響其各類財務數據的健康發展。
  • 一款很好的「AI語音助手」晶片方案!讓AI人工智慧落地,語音智能音箱成科技巨頭必爭之地
    隨著人工智慧、物聯網成為未來生活的主導方向,作為核心技術之一,智能語音人機互動正迅速走紅。
  • 小米電視4A發布,人工智慧語音電視
    全新升級的小米藍牙觸控語音遙控器,為你帶來前所未有的智能語音搜索體驗!43" / 49" 配備1080P全高清屏幕,55" / 65" 配備4K超清屏幕。升級至第6代畫質引擎,有效改善圖像放大後的鋸齒,明暗對比度明顯提升,優化紋噪處理,降低振鈴,讓畫質栩栩如生。
  • 谷歌語音助手進化:能否挑戰亞馬遜智能語音?
    如果說人工智慧正在成為谷歌帝國所有產品的血液,那麼「谷歌語音助手」就是打通各個產品的器官。
  • Google AIY Voice Kit 套件 人工智慧語音識別
    人們在很多年前就已經展開了豐富的想像,但是隨著人工智慧技術(AI)的發展,上述場景很可能在未來幾年就能實現,我們的生活中將會出現更多的智能機器,就像《鋼鐵俠》電影中的賈維斯一樣,它們可以依照人們的喜好、命令主動工作,使得普通人處理日常瑣事所需的時間、精力大大減少。即便是居家生活,傳統家電遇到智能技術之後也會發生革命性的變化,二者結合帶來的不只是量變,而是質變,人類的生活、工作從此可以更輕鬆。
  • 物聯網全景動態圖譜2.0|智能語音交互
    採用該分布式語音解決方案的電器設備,可以通過就近的開關作為智能語音交互入口,實現對全屋智能家居的語音控制。訊飛開放平臺作為全球首個開放的智能交互技術服務平臺,致力於為開發者打造一站式智能人機互動解決方案。用戶可通過網際網路、移動網際網路,使用任何設備、在任何時間、任何地點,隨時隨地享受訊飛開放平臺提供的「聽、說、讀、寫……」等全方位的人工智慧服務。目前,開放平臺以「雲+端」的形式向開發者提供語音合成、語音識別、語音喚醒、語義理解、人臉識別、個性化彩鈴、移動應用分析等多項服務。
  • [測評]「人工智慧三劍客」之離線語音識別模塊
    春節前在DF商城看到上架了兩款新品,分別是離線語音識別模塊、離線語音合成模塊,它們和二哈識圖一起組成了「人工智慧三劍客」。
  • 面向中小學創客教育的語音識別人工智慧模塊與圖形化編程技術
    人工智慧的迅速發展將深刻改變人類社會生活、改變世界。2017年7月20日國務院印發《新一代人工智慧發展規劃》(國發〔2017〕35號),倡導開源開放共享理念,加快智能軟硬體、智慧機器人等人工智慧關鍵技術的轉化應用,部署實施全民智能教育項目,在中小學階段設置人工智慧相關課程,逐步推廣編程教育。
  • 人工智慧技術的細分領域有哪些?|深度學習|語音識別|智慧機器人...
    人工智慧技術的細分領域有哪些?  隨著智能家電、穿戴設備、智慧機器人等產物的出現和普及,人工智慧技術已經進入到生活的各個領域,引發越來越多的關注。那麼,人工智慧目前都應用在哪些領域,運用了怎樣的技術原理呢?  什麼是人工智慧?
  • 人工智慧語音—進化中的蛻變,小米電視4A詳細測評!
    這也是為什麼我在剛才的回答中說,小米電視4A只是小米人工智慧語音交互進階史上一段具有前瞻性的功能演示的原因。不過,相信未來的小米電視,在人工智慧語音交互操控上將再次引領智能電視市場人工智慧技術運用裡程碑式的進階。  總的來說,小米電視4A的語音功能足夠強大,語音交互的辨識能力與識別速度都已經到達了非常出色的地步。
  • 創意工具 | 智能輸入語音標點
    前面的幾句話,並不是冷笑話,而是使用人工智慧語音輸入時,自動添加標點符號時的實際情況。如果要用語音輸入來寫一個故事,麻煩的地方還不只是問號、感嘆號、句號和逗號的識別,遇見對話特別多的時候,反覆遇見冒號、左引號、右引號,輸入和修改標點符號需要的時間恐怕比輸入文字的時間還要多。
  • 咪鼠智能語音滑鼠S6上新 用輕奢定義智能辦公
    咪鼠智能語音滑鼠S6你知道嗎?世界上第一隻滑鼠竟然是個木頭盒子,而今的滑鼠卻能「聽懂」人話了。滑鼠經過多年的發展,從最早的物理結構、到軌跡球、光電,再到智能語音滑鼠,不管從外形還是技術上都發生了翻天覆地的變化。
  • 從語音到人工智慧 Bixby如何改寫人機互動方式
    ,實現了一定能力的語音交互,但是缺乏對用戶旨意的深度理解,有對話的基礎能力,卻未能觸及人機互動的真諦——理解、思考與學習。Bixby雖然姍姍來遲,其定位乃是人工智慧平臺,而非語音助手,這種全新定位的背後正是三星在自然語言處理和人機互動上的全面布局。換言之,Bixby具有人工智慧的理解、學習和會話能力,是有「大腦」並且會「動腦筋」。而語音助手則是無腦的命令派,只能根據有限的命令條去對話而非會話,相對於Bixby的「動腦筋」,語音助手們則可以稱之為「死腦筋」。