伴隨著人工智慧行業的快速發展,中國在智能語音這個細分市場的發展速度也將會持續增長,但是目前國內在智能語音市場,技術已經相對成熟,且頭部企業在行業的壟斷力度較大。
一、智能語音簡介智能語音是人工智慧技術的重要組成部分,包括語音識別、語義理解、自然語言處理、語音交互等。
當前,人工智慧的關鍵技術均以實現感知智能和認知智能為目標。語音識別、圖像識別和機器人視覺、生物識別等目前最火熱的領域,主要解決的是感知智能的需求,就是使得人工智慧能夠感知周圍的世界,能夠「聽見」或者「看到」。
自然語言理解、智能會話、智能決策、人機互動等技術更加側重的是認知智能的領域,解決「聽懂」、「看懂」,並且根據學習到的知識對人類的要求或者周圍的環境做出反應的能力。
在關鍵技術層中,語音識別、自然語義理解(Nature Language Process, NLP)、機器學習領域的關鍵技術在人工智慧技術當中居於重要地位,是人機互動技術的基礎。
(語音交互流程圖)
通過上圖我們不難發現,人工智慧行業最近幾年呈現出一個快速發展的態勢,產業增長率平均在43%左右,屬於一個快速發展的產業。2018年,人工智慧市場規模達200億元,如果按照之前的增速,預計到2019年年末,整個人工智慧行業規模將達到近300億元。
而在智能語言方面,當前人工智慧產業中,智能語音是一個產業化程度相對成熟,產業規模較大的這麼一個細分領域,從2011年整個市場規模只有6.3億,到2017年整個智能語音市場規模已經超過百億,整個行業正經歷著高速的發展,預計未來幾年,智能語音市場仍然會保持著較高速度快速發展。
2. 智能語音技術是人工智慧產業鏈上的關鍵一環上圖是當前人工智慧產業鏈的一個版圖,從底層的基礎設施到中間層的技術服務到最上面的行業應用,可以看到,智能語音技術在整個產業鏈當中,起到了一個承接的作用,將人工智慧的技術底層產業化,並在智能家居、可穿戴設備、機器人等行業落地,是整個人工智慧產業鏈中的關鍵一環。
3. 科技巨頭紛紛從不同維度布局相關產業鏈(1)國外科技巨頭:通過併購等手段,夯實核心技術,開放應用平臺,擴展以AI為核心的生態系統
谷歌:打造開發者生態鏈,推出Google Home,試圖建立物聯網時代安卓系統。
蘋果:基於智能硬體定標準,做平臺、獲數據,重視物聯網時代生態控制權。
(2)國內科技巨頭:開放語音生態系統,以產業內合作的方式,將語音技術植入產品和或應用於相關業務場景,構建全產業生態鏈廠。
百度:瞄準人工智慧戰場,對外開放語音生態系統,對內在自身產品業務中實現AI First。
三、智能語音技術分析1. 語音識別(ASR)
1)語音識別概述
語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言,語音識別技術就是讓機器通過識別和理解過程,把語音信號轉變為相應的文本或命令的高技術。
語音識別系統本質上是一種模式識別系統,包括特徵提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:
語音識別系統構建過程整體上包括兩大部分:訓練和識別。
訓練通常是離線完成的,對預先收集好的海量語音、語言資料庫進行信號處理和知識挖掘,獲取語音識別系統所需要的「聲學模型」和「語言模型」;
而識別過程通常是在線完成的,對用戶實時的語音進行自動識別。
識別過程通常又可以分為「前端」和「後端」兩大模塊:
「前端」模塊主要的作用是進行端點檢測(去除多餘的靜音和非說話聲)、降噪、特徵提取等;「後端」模塊的作用是利用訓練好的「聲學模型」和「語言模型」對用戶說話的特徵向量進行統計模式識別(又稱「解碼」),得到其包含的文字信息,此外,後端模塊還存在一個「自適應」的反饋模塊,可以對用戶的語音進行自學習,從而對「聲學模型」和「語音模型」進行必要的「校正」,進一步提高識別的準確率。目前,各語音識別方案提供方,包括訊飛、百度、雲知聲、思必馳等,都在提供包括麥克風陣列等硬體在內的整體解決方案,以軟硬體結合的方式提高語音識別的精準度的問題。
2)語音識別技術原理
聲音實際上是一種波,在開始語音識別之前,首先,需要對聲音進行靜音切除處理,以降低對後續步驟造成的幹擾。
其次,要對聲音進行分幀,把聲音切成一小段一小段,每一段就是一幀,分幀操作一般不是簡單的切開,而是使用移動窗函數來實現,而幀與幀之間一般是有交疊的,如下圖所示:
圖中,每幀的長度為25毫秒,每兩幀之間有0.2S的交疊,我們一般稱之為幀長2秒,幀移0.2秒。
分幀後,語音就變成了很多小段。但波形在時域上幾乎沒有任何描述能力,因此必須將波形作變換,常見的一種變換方法是提取MFCC特徵,根據人耳的生理特性,把每一幀波形變成一個多維向量,這個向量包含了這幀語音的內容信息,我們把這個過程叫做聲學的特徵提取。
至此,聲音就成了一個12行(假設聲學特徵是12維)、N列的一個矩陣,稱之為觀察序列,這裡N為總幀數。觀察序列如下圖所示,圖中,每一幀都用一個12維的向量表示,色塊的顏色深淺表示向量值的大小。
再次,就是講聲音向量矩陣變成文本了,在這之前,有兩個概念需要給大家先介紹下:
音素:單詞的發音由音素構成。對英語,一種常用的音素集是卡內基梅隆大學的一套由39個音素構成的音素集,而漢語一般直接用全部聲母和韻母作為音素集,另外漢語識別還分有調無調。狀態:比音素更細緻的語音單位就行啦。通常把一個音素劃分成3個狀態。了解了概念之後,我們就看一下語音識別是怎麼把聲音變成文本的,其實就和我們把大象塞進冰箱一樣,也是分為三步:
把幀識別成狀態(難點);把狀態組合成音素;把音素組合成單詞。如下圖所示:
圖中,每個小豎條代表一幀,若干幀語音對應一個狀態,每三個狀態組合成一個音素,若干個音素組合成一個單詞。也就是說,只要知道每幀語音對應哪個狀態了,語音識別的結果也就出來了。
圖中,每個小豎條代表一幀,若干幀語音對應一個狀態,每三個狀態組合成一個音素,若干個音素組合成一個單詞。也就是說,只要知道每幀語音對應哪個狀態了,語音識別的結果也就出來了。
2. 自然語義處理(NLP)1)自然語義處理概要
語義識別是人工智慧的重要方向之一,如果語音技術相當於人的嘴巴和耳朵,負責表達和獲取,那語義技術則相當於人的大腦,負責思考和信息處理,解決的是「聽得懂」的問題。語義識別最大的作 用是改變人機互動模式,將人機互動由最原始的滑鼠、鍵盤交互轉變為語音對話的方式。
人機互動發展史
語義識別主要基於大數據和算法模型之上搭建,是自然語言處理 (NLP)技術的重要組成部分。NLP技術主要包括詞法分析技術、句法分析技術、語義分析技術、語用分析技術以及語句分析技術等。NLP在實際應用中最大的困難還是語義的複雜性,隨著大數據、晶片和算法模型等的發展進程加速,將為NLP帶來長足的進步。
2)自然語義處理技術原理
在自然語義處理領域,也在通過深度學習的工具提升自然語義處理的準確度。目前常用的自然語義處理領域的技術包括了循環神經網絡(Recurrent Neural Network)、卷積神經網絡(Convolutional Neural Network)、遞歸神經網絡(Recursive Neural Network)的原理,它們是語句語義學習的強有力工具。
普通神經網絡可以完成詞性標記、詞語切分、實體命名識別、目的提取等一般的語義分析功能。
循環神經網絡(RNN)是把一句話看成單詞的序列,每個單詞由一個向量表示,每一個位置上有一個中間表示,由向量組成,表示從句首到這個位置的語義。
這裡假設,每一個位置的中間表示由當前位置的單詞向量以及前一個位置的中間表示決定,通過一個神經網絡模型化。RNN把句末的中間表示當作整個句子的語義表示。RNN加入長短期記憶(Long Short Term Memory,LSTM)機制, RNN可以處理遠距離依存關係,能夠更好地表示整句的語義。
卷積神經網絡(CNN)是通過對句子進行掃描,抽取特徵,選擇特徵,最後組合成句子的語義表示。
首先從左到右用一個滑動窗口對句子進行掃描,每個滑動窗口內有多個單詞,每個單詞由一個向量表示。在滑動窗口內,通過卷積(convolution)操作,進行特徵抽取。這樣,在各個位置上得到一系列特徵。之後再通過最大池化(max pooling)操作,對特徵進行選擇。
重複以上操作多次,得到多個向量表示,將這些向量連接起來得到整個句子的語義表示。同一卷積層內參數是共享的,也就是同一層的卷積操作是相同的,這也就保證了在局部領域進行相同的特徵抽取。
ReNN是假設對語句進行句法分析,得到句法樹。句法樹的每個節點上有一個向量中間表示。父節點的表示由其子節點的表示決定,通過神經網絡模型化,而根節點的表示就是整個句子的語義表示。句法樹上的中間表示可以在句法分析的過程中得到,比如在最大間隔分析(max margin parsing)。
除了上述這些神經網絡的算法之外,人類不斷在嘗試著用新的算法來試圖能夠為人工智慧提供更加準確理解自然語言的能力。隨著神經網絡和深度學習的發展,自然語義處理已經取得了長足的發展,但是,由於人類語言的複雜性,對於通用人工智慧階段需要達到的自然語言理解,也存在較長的距離。
3. 語音合成(TTS)1)語音合成概述
語音合成,又稱文語轉換(Text to Speech)技術,能將任意文字信息實時轉化為標準流暢的語音並朗讀出來,相當於給機器裝上了一個嘴巴,它涉及到聲學、語言學、數位訊號處理、計算機科學等多個學科技術,是人工智慧信息處理領域的一項前沿技術,解決的主要問題就是如何將文字信息轉化為可聽的聲音信息。
語音合成和語音識別技術是實現人機語音通話所必需的兩項關鍵技術,使機器具有類似於人一樣的說話能力。
2)語音合成技術處理方式
文本處理:
這一步做的事情是把文本轉化成音素序列,並標出每個音素的起止時間、頻率變化等信息。
作為一個預處理步驟,它的重要性經常被忽視,但是它涉及到很多值得研究的問題,比如拼寫相同但讀音不同的詞的區分、縮寫的處理、停頓位置的確定,等等。
音素:音素(phone),是語音中的最小的單位,依據音節裡的發音動作來分析,一個動作構成一個音素。音素分為元音、輔音兩大類。音節:音節在語音學上指由一個或數個音素組成的語音結構基本單位;而音素是最小的語音單位。 如」普通話」,由三個音節組成,可以分析成」p, u, t, o, ng, h, u, a」八個音素。語音合成:
狹義上這一步專指根據音素序列(以及標註好的起止時間、頻率變化等信息)生成語音,廣義上它也可以包括文本處理的步驟。
這一步主要有三類方法:
拼接法,即從事先錄製的大量語音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節、音素等等;為了追求合成語音的連貫性,也常常用使用雙音子(從一個音素的中央到下一個音素的中央)作為單位。拼接法合成的語音質量較高,但它需要錄製大量語音以保證覆蓋率。參數法,即根據統計模型來產生每時每刻的語音參數(包括基頻、共振峰頻率等),然後把這些參數轉化為波形。參數法也需要事先錄製語音進行訓練,但它並不需要100%的覆蓋率。參數法合成出的語音質量比拼接法差一些。聲道模擬法。參數法利用的參數是語音信號的性質,它並不關注語音的產生過程。與此相反,聲道模擬法則是建立聲道的物理模型,通過這個物理模型產生波形。這種方法的理論看起來很優美,但由於語音的產生過程實在是太複雜,所以實用價值並不高。三、智能語音主要公司介紹1. 圖靈機器人1)公司簡介
圖靈機器人是一家個性化智慧機器人平臺,旗下有人工智慧機器人作業系統Turing OS,用戶可以在微博、微信、QQ機器人、語音客服、智能硬體等多個場景搭建屬於自己的個性化智慧機器人,截止2016,公司估值已經超過10億人民幣。
2)代表性產品介紹
樂迪:
樂迪是著名動畫作品《超級飛俠》裡的靈魂人物,基於圖靈機器人人工智慧作業系統Turing OS,讓樂迪從螢屏走進消費者現實生活。
吉米貓:
吉米貓是一款手機寵物類應用遊戲,從功能上來說很像是湯姆貓的升級版,但與湯姆貓不同的是吉米貓接入了圖靈機器人的Chat bot接口,賦予了吉米貓聊天調侃、百科問答等語音對話能力,閒暇時還可以給你講個段子、說個故事。
2. 思必馳1)公司簡介
思必馳是一家智能語音技術解決方案提供商,致力於提供自然語言人機互動解決方案,應用於智能車載、智能家居和智慧機器人領域,並且擁有語音識別、語音合成、語義對話及語義喚醒等技術,截止2016年,思必馳的估值已經超過20億人民幣。
2)代表性產品介紹
智能車載解決方案:提供一體化解決方案,適用於智能後視鏡、智能車機、可攜式導航儀、HUD等,全稱語音操作。
智能家居解決方案:軟硬體一體化解決方案,為智能家居產品提供聲源定位、個性喚醒、語音識別、語義理解、對話交互等功能。
3. 雲知聲1)公司簡介
雲知聲成立於2012年,是一家智能語音識別技術的高新技術企業,目前集AI芯、AIUI、AI Service三大解決方案支撐雲知聲核心技術的落地,已經在家居、汽車、醫療和教育等領域有廣泛應用,截止2018年,公司估值已經超過10.7億美金。
2)代表性產品介紹
智能家居方案-UniHome:
AI芯作為智能語音解決方案晶片,用以解決不同形態智能終端感知和部分計算問題,AI芯通過多種晶片方案,合理組合不同硬體平臺,安裝不同系統下的AIUI版本,提供語音交互、IO控制、互聯內容的能力,滿足不同價位不同場景下的智能硬體交互需求。
智能車載方案-UniCar:
雲端芯一體化,方案包括拾音降噪,語音交互,雲端計算和內容服務一攬子解決方案,滿足用戶導航,電話,娛樂,諮詢,社交5大場景的功能訴求。
智慧醫療方案:雲知聲提供醫療垂直領域錄入軟硬體一體的解決方案,基於醫療人工智慧技術和大數據分析進行持續探索,實現智能語音交互的知識問答和病歷查詢,進行健康風險預測和患者分群分析。
4. 出門問問
1)公司簡介
出門問問是市場上一家擁有自主語音識別、語義分析、垂直搜索技術的人工智慧公司;自成立以來,一直努力將人工智慧技術落地到消費產品,定義下一代人機互動的方式,截止2017年,公司估值超過10億美金。
2)代表性產品介紹
以TicWatch Pro為例:
五、智能語音市場總結伴隨著人工智慧行業的快速發展,中國在智能語音這個細分市場的發展速度也將會持續增長,但是目前國內在智能語音市場,技術已經相對成熟,且頭部企業在行業的壟斷力度較大。
目前,中國智能語音市場的主要份額被科大訊飛、百度以及蘋果分割,截止到2018年,中國智能語音市場,科大訊飛市場佔有率排名第一,市佔率達到44.2%;其次為百度,市場佔有率為27.8%;排名第三的是的蘋果,市佔率為6.9%,排名前三的品牌在我國智能語音市場佔比近八成,留給初創企業在這個市場的空間以及機會並不多。
未來隨著智能語音技術的逐漸成熟,智能語音技術在教育領域會發揮出巨大的作用,比如在口語教學、考試測評、模擬練習等環節,能夠代替現在很多老師的工作,大大降低人工成本。
作者:作者:阿旺,著名投資人兼連續創業者,會從自身投資以及創業經歷,不定期輸出各類行業研究,如您想了解更多關於創業以及投資方面的內容,歡迎關注本人公眾號:awangblog
本文由 @阿旺 原創發布於人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash,基於CC0協議