人工智慧時代,如何看待語音識別技術的現狀?

2020-08-28 每日精彩科技

導語:

當前,物聯網和人工智慧發展迅速,新產品和新應用不斷湧現,導致人們的生活工作發生了重大變化。隨著人工智慧的第三次興起,交互式終端出現了新的觀點。通過語音控制直接控制機器,機器可以理解人的語言並按照人的指示進行操作,以騰出雙手,豐富人們的多樣化生活方式。想像有一天,語音識別技術的發展已經足夠成熟,我們將能夠使用語音命令直接控制機器,例如人與人之間的對話,而無需使用傳統的工作方法(例如滑鼠,鍵盤或其他外部按鈕)。當前,從智慧型手機到智能家居,甚至在網際網路上,市場上的爆炸性產品都在擁抱智能語音。對於想要直接與機器進行通信的人們,首先必須使機器能夠識別對人類語言的分析,然後,在完成識別分析後,可以將其轉換為內部的正常操作指令,以進行以下操作。因此,作為跨學科學科的語音識別技術正逐漸成為人類互動的重要手段。因此,語音識別已成為當今在熱浪中將人工智慧滲透到人們生活中的最廣泛方法。

語音識別已成為當今在熱浪中將人工智慧滲透到人們生活中的最廣泛方法

智能語音是利用智能語音交互作用的能力,這樣機器就可以像人一樣理解並說人類語言,最終,人們可以自然地進行交互。引入智能語音交互的第一步是語音識別。沒有語音識別,後續的語義轉換,翻譯,交換等等,這是一個空曠的地方。

在20世紀50年代,達特茅斯會議上已經明確定義了人工智慧技術,而「智能演講」也開始萌芽,但是由於硬體等技術的延遲,尚未發現許多人工智慧問題。當時,普林斯頓大學的實驗室開發了帶有單音節音節的語音識別系統。當時的語音,理論和模型都很簡單,因此研究很快陷入停頓。到80年代,隨著神經網絡和BT算法概念的出現,語音識別的研究再次成為一項突破,並引發了第二波人工智慧浪潮。將人工神經網絡(ANN)的方法與非馬爾可夫算法相結合,在連續單詞識別系統的開發中使用長短語,這意味著研究方向發生了重大變化,這使得連續研究成為可能大量詞典中的語音識別。

智能語音識別技術發展歷程

同期,開元和其他人將高斯模型(Gmm)和in-Markov模型結合在一起,而卡內基梅隆大學開發了SPHINX系統,結合矢量量化技術,它成為第一個針對非特定人群的連續語音識別系統即 (VQ)和HMM。 SPHINX將尹馬爾科夫模型(HMM)指定為語音識別系統的基礎模型。因此,語音識別方法的研究不再局限於基於標準模板的傳統方法,而是向統計模型擴展。根據祈禱法則,90年代後計算機的硬體不斷增加。 2006年引入了人工智慧領域的高級培訓方法,從而導致了圖像識別的重大發展。在2009年,Sinton等人將使用深度神經網絡對語音識別進行聲學建模; 2010年,於棟,東麗等人開始研究語音識別模型,首先是向基於深度學習的模型過渡以及尹·馬可夫的結合。 2017年,經過深入研究的Google AlphGo擊敗了Checker環,人工智慧進入了爆發期。得益於人工智慧高速發展的第三次浪潮,智能語音識別已成為市場空間巨大的最成熟的現代人工智慧技術之一。

智能語音識別已成為市場空間巨大的最成熟的現代人工智慧技術之一

在過去的十年中,網際網路行業在中國迅速發展,網際網路上三大世界領先企業,三大巨頭和其他科技公司的結構已經形成,以體驗包括知識演講在內的智能人工智慧行業,該行業目前正在國內蓬勃發展。在國家語音識別技術的研究中,情況的變化相對滯後,即使在ISIS的應用領域,其他行業也傾向於被超越。我們的業務以云云和百度公司以及墾星信號公司為代表,著重介紹了語音識別技術,並發展了快速且相對成熟的技術進步。

下面的表提供了該國最知名的語音識別公司的比較數據。

國內幾家知名的語音識別公司對比

2012年9月,雲文勝發布了中國第一個語音雲平臺,該平臺首次在智能交互領域引入了深度學習。同時,百度公司提供了基於語音的搜索服務,並將此語音搜索服務集成到100度地圖中,以100度模式進行搜索等。在各種Internet應用程式中,用戶可以通過語音通信發送搜索命令,伺服器在檢查語音後會收到語音語音請求,然後返回結果,從而可以節省打值時間等步驟,極地方便了人們的使用。柯大新研究公司在智能語音技術領域積累了大量的知識。目前,它在語音合成,語音識別等許多技術上均居世界首位,並且是中國最大的智能語音技術提供商。隨著教育領域語音識別系統的出現,該公司應該具有強大的語音識別算法和軟體技術,它與華中國際公司的結合共同推出了一種低成本的語音AI晶片,該晶片目前在汽車,家用產品中已積累了很深的知識。語音行業。得益於許多內部人工智慧公司的存在,我國的語音識別技術還實現了許多與特定人無關的自然而持久的表達方式。

語音識別的現狀分析如何?

近年來,隨著人工智慧的快速發展,智能語音識別的發展也迅速。人類在智能語音技術的幫助下,概述了釋放人的手的宏偉計劃,其中包括執行語音控制,家用電器等人的指令。如今,心理語音識別從一開始就已成為最簡單的單詞識別,現在可以與一個簡單的人合作進行。以下是按類別,市場條件和當前發展弱點對語音識別的概述。

1、語音識別的分類有哪些?

根據應用的方向,智能語音主要用於兩個主要領域:2B和2C。在2c結束時,主要重點是醫療,教育,融資,服務等。

根據語音識別的內容,它們主要分為「封閉域識別」和「開放域識別」。識別封閉欄位意味著只能在開發人員指定的一組單詞/多個單詞中識別它,而不在集合中識別。另一方面,開放的識別數據不能預先確定識別詞的集合,並且它們與生活的緊密聯繫可能很困難,並且目前的研究需要進行重大改進。通常,開放欄位的識別模型較大,並且需要大量操作。如果將大多數語音識別模型直接集成到開放域方案中,則當前僅將它們託管在雲中,這會導致更高的功耗並影響模型識別功能。

語音識別助手小愛同學已經能夠很好地滿足日常語音操作服務

目前,近年來智能語音產業的規模持續增長,2014年至2018年,中國智能語音產業規模從3增長到155.7億元,增長420%;隨著雲計算技術,深度學習等的發展,智能語音在智能家居,醫學教育,汽車電子等方面的應用與車載、智慧型手機及智能家居等電子行業的佔比將超過四分之一。

2、當前語音識別技術的市場需求有哪些?

當前,儘管不同公司的語音識別方法有所不同,但它們基本上與術語模板,基於HMM代表或基於神經網絡的統計模型一致。基於由六個不同的深度神經網絡組成的聲學模型以及由四個不同的深度神經網絡組成的語言模型,可以確定與人的比例相當的精確值。 DeepSpeech語音識別系統,它使用了對末端進行深入研究的方法,即該系統不需要其他組件來消除噪聲,提取特徵等。深層神經網絡和循環神經網絡的引入使語音識別更加準確,並使它更接近生活。

2010-2018年全球語音識別技術行業市場規模統計情況

與其他圖形識別不同,語音識別的最大特徵是時序,這需要一定距離的記憶和LSTM的持續時間,而神經網絡的記憶恰好與此特徵相對應。 Hochreiter等。他們提出了LSTM-用於為口語表達建立長期記憶機制的神經網絡「 0」,如果增加紅杉類型的層數,這將提高模型的語音識別效率,但同時會導致梯度損失。因此,例如,Highway LSSTM通過引入用於控制進入相鄰層的機制(例如ResiduallSTM)並通過在兩者之間創建速度路徑2來避免由過多序列引起的梯度消失,從而在語音識別方面取得了良好的結果LSTM水平。

隨著諸如2014年的Echo Amazon之類的智能唱片的問世,一波智能家居的浪潮已經飆升。]智能家居作為改善用戶體驗的大型應用場景,為智能音響技術創造了良好的市場環境4。語音識別在智能家居和其他應用中,例如門檻較低,但是客戶端的隱私,實時性和穩定性實際上有很高的要求。當前,最終聲音產品市場使用神經網絡算法,該算法通常與雲結合使用,不僅可以計算功率和昂貴的資源,還可以確保實時性和隱私性,而這在很大程度上沒有響應人的真正需求。尤其是考慮到雲中數據處理的安全性和網絡的擴展,這種智能交互式聲音產品的應用範圍已經擴大,這已成為將操作直接包括在終端設備中的趨勢。作為目前廣泛用於語音識別的LSTM的示例,我們可以引用LSTM,儘管它具有很高的準確性,但是參數比常規的神經網絡大得多,因此,如何優化LSTM神經的計算能力的問題更多。終端上的網絡需要進一步研究以開發終端語音識別。本文的主要目的是優化可以在終端設備中使用的語音識別LSTM算法。

3、當前語音識別的主要不足點有哪些?

  1. 在引入諸如語音的深入研究之類的技術之後,錯誤的頻率迅速降低,識別的準確性和速度得到顯著提高,但是在許多領域中,有必要改進:
  2. 對重點和背景噪音的關注不足。信噪比直接影響數據收集模型。我們訓練時的大多數訓練模型已從噪音中去除,訓練重點相對簡單。要在所有情況下更有效地收集足夠的數據樣本,還有許多工作要做。
  3. 高度的語義錯誤。儘管目前在錯別值較低的國家中有些詞可能會被誤解。語言是人類文明的結晶,人們通過語言傳達一種交流感,如何使語言在語義依賴前後,轉折點和歧義性成為人類文明,這種多樣化的文化現象被有效地用於機器識別中,目前只有九根毛。
  4. 多種情況無法很好地定位人們。當前,市場上的大多數產品主要用於錄製消息,這可以由揚聲器根據音色,範圍和其他特性來判斷,這對於隨後的音頻分離和其他後續的處理分析以及在應用程式開發中引入聲音識別至關重要。可能會有障礙。
  5. 目前,語音識別通常是孤立的,不能與歷史聯繫在一起;它不能進行情感分析。在日常生活中,人與人之間的交流經常伴隨著其他線索,有助於理解對方的語言。例如,表情和對手嘴唇的動作,討論的話題,雙方的經驗等。如果智慧型手機中的語音識別助手有權讀取聯繫人列表,則語音助手可以輕鬆識別通訊簿中的姓名,例如,如果啟用了地圖上的語音搜索功能,則可以縮小目的地的導航區域。當引入這些輔助信號時,語音識別水平無疑會提高。但是,如何選擇有用的上下文類型並有效使用它們的問題需要進一步深入研究。
  6. 在語音神經網絡中使用,其計算算法較大[6],因此,當前的語音識別模型主要基於雲的使用,而使用雲資源進行的計算也會導致時間延遲。只有少數幾個模型已經為移動終端做好了充分的準備,並且在沒有網絡的情況下會更加有效。算法數量的增加會導致延遲的增加,而延遲會直接影響客戶體驗的使用。因此,有效地降低網絡的計算能力並提高生產率是迫切需要解決的問題。

總結:

本文從多個方面介紹了智能語音識別研究的背景和意義,主要是在語音識別技術發展的歷史中,從市場需求的角度介紹了國內外語音識別技術的發展和劣勢,分析了語音識別技術的當前發展趨勢以及 一個有待改進的地方,並提出了研究意義的理論基礎。如何更好地發展語音識別技術將是今後我們必須考慮的重點!

相關焦點

  • 人工智慧與語音識別技術
    編者按:隨著深度神經網絡在大規模語音識別任務上獲得顯著效果提升,大數據的不斷完善和漣漪效應的提出,在近十年,中國的人工智慧也得到了快速發展。  深度神經網絡其實只是統計模式識別的一個很小的分支。但是它卻和我們現在大的IT產業的發展背景很好地結合在一起。因為現在統計模式識別辦法想要發揮出人工智慧的威力,就要有深度神經網絡能夠更好的使用以及網際網路和移動網際網路時代得到越來越多的大數據為大基礎。
  • 語音識別技術的普及應用掀開人工智慧語音產業新篇章
    智能語音技術的不斷發展成熟,越來越多的智能語音產品出現在人工智慧市場上。如現實生活中的通訊網絡設備、智能家居控制系統、智能網絡化辦公設備等等;在產品智能人性化設計中,產品與人的交流成為最重要的環節;而在眾多的交流的形式中,無疑語言的交流是最直接、最習慣性的一種方式。
  • 人工智慧的關鍵技術:模式識別(文字識別、語音識別、圖像識別)
    計算機網絡與人工智慧的結合構成了新的Web3.0,它是新一代的網頁標準,是一個人工智慧的網絡,也叫語義網。人工智慧的關鍵技術是模式識別,而且在當今有著廣泛的應用。模式識別主要有文字識別、語音識別和圖像識別技術。
  • 人工智慧:語音識別技術哪家強?
    智慧型手機市場不斷發展,賣座的技術也推陳出新。除了以往的拼相機、拼處理器、拼內存等硬碰硬的角逐,各大科技公司又紛紛瞄準了系統、UI界面和功能的軟體戰場。人工智慧可謂是這塊技術戰場的焦點所在。說起人工智慧,在智慧型手機層面其實從一開始就伴隨著應用起來了,這也是手機之所以可稱為智能的基礎。近些年,人工智慧的大樹上又生出了語音識別的一個分支,在當前的手機市場裡正極為火熱。自打這個大門向廣大用戶打開,各家手機也對語音識別技術熱情高漲,湧現出很多優秀的語音識別產品。下面我們就來看看手機圈內這些優秀的代表吧!1.
  • 目前語音識別的技術現狀是怎樣的
    打開APP 目前語音識別的技術現狀是怎樣的 36kr 發表於 2019-09-18 10:19:24 (文章來源:36kr)
  • 國內外語音識別技術發展現狀探討
    60年代末、70年代初的重要成果是提出了信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術,有效地解決了語音信號的特徵提取和不等長語音匹配問題;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。語音識別技術與語音合成技術結合使人們能夠擺脫鍵盤的束縛,取而代之的是以語音輸入這樣便於使用的、自然的、人性化的輸入方式,它正逐步成為信息技術中人機接口的關鍵技術。
  • 百度:語音識別技術超谷歌蘋果 準確率高10%
    百度人工智慧專家吳恩達騰訊科技訊 在移動網際網路時代,語音錄入逐漸取代文字錄入,成為和用戶和智慧型手機交互的主要收入。谷歌、蘋果、微軟等科技巨頭,也在語音助理工具上展開爭奪。日前,在語音技術上一直比較低調的中國搜尋引擎百度公司,在美國發表了相關技術,自稱其語音識別技術,在正確率上已經超過了谷歌、蘋果等公司。不過百度的語音識別技術何時能夠推出消費型產品,還不得而知。去年五月份,百度邀請到人工智慧專家吳恩達,擔任百度首席科學家,吳恩達在美國矽谷建立了百度的研發機構,但是他們的研發內容,並未對外公開。
  • 中文和英文,哪個更加適合運用在人工智慧的語音識別技術上?
    眾所周知,人工智慧已經是人們公認的主力發展的科技。人類距離人工智慧時代基本上只差一些技術上的完善了,在人們以後的生活環境裡,可能處處都會充斥著人工智慧,正如我們看到的科幻電影那般,人們的生活將會非常便利,且充滿科技感。
  • 如何在人工智慧時代保持競爭力呢?
    你也許會說,人工智慧是那麼高深的技術,我又不做相關的技術,了解那麼多幹什麼。其實,今天我們談的不是什麼複雜的人工智慧高深技術,請注意文章前面的標題:時代。我們從語音識別這個角度來看下,人類一開始是如何思考解決這個問題的:首先,能想到的是去了解人的大腦是如何識別語音的,然後讓計算機按照人的思路去做。
  • 關於語音識別技術在會議中的應用
    文 / 王唯 上海雲思智慧信息技術有限公司 產品研發中心 副總經理  1. 語音識別技術的現狀  語言是人類最自然的交互方式。數萬年來人類通過進化獲得的語言交流能力,相比其他的交互方式具有更多的優勢。
  • 科大訊飛劉聰:如何持續保持語音識別技術的領先
    在人工智慧的應用場景中,最重要的一個就是語音交互。針對這一點,科大訊飛AI研究院常務副院長劉聰做了細緻的講解,讓我們對當前語音交互技術有了更清晰和深入的了解。科大訊飛AI研究院常務副院長--劉聰     我們知道語音識別是訊飛的傳統強項,從早期的呼叫、導航到2010年發布的訊飛超腦語音雲和輸入法,從而開啟了中文語音輸入的新時代。
  • 語音識別技術發展史與行業最佳實踐全解析
    在人工智慧技術的探索徵程裡,語音語義識別技術一直扮演著先驅的角色,不管是在技術探索還是商業落地方面都走在了前面。近兩年來隨著深度學習技術的進一步深入,其識別準確率更是得以大大提升。為教育、客服、電信等傳統行業的產業升級帶來了一大助力,在車載、家居、醫療、智能硬體等領域又開闢出了新的商業應用探索實踐。語音語義技術目前發展到了哪個階段?
  • 人工智慧語音技術,將重新定義我們與世界的交互方式
    諸如社交距離和避免觸摸物體表面之類的措施給語音識別 帶來了新的動力,並推動了無接觸控制的發展。語音識別技術已經存在很長一段時間了。20世紀50年代初開發的第一套系統只能理解數字,到2017年,這項技術達到了人類水平的準確度。這種先進程度使得語音識別能夠在各個行業中擴展,並成為互聯設備的標準。
  • 智能語音電話機器人的語音識別是如何實現的
    智能語音電話機器人  作為人工智慧基礎研究的語音識別技術是躺在研究者面前的難關,為了使計算機能夠理解人類的語言,實現與人類的對話,進行了近30年的研究!從思維模式到具體實現,科研人員克服了無數難關,今天讓我們來理解神秘的語音識別技術吧!
  • 語音識別行業的發展現狀分析
    語音識別行業的發展現狀分析 佚名 發表於 2020-01-02 09:44:54   因為資本的湧入、智能家居的火熱和人工智慧的崛起,市場對語音市場的關注度迅速提升
  • 語音識別的技術原理及語音識別系統的分類
    打開APP 語音識別的技術原理及語音識別系統的分類 遠場語音識別研究 發表於 2019-10-21 16:32:58 (文章來源
  • 百度CEO是如何看待人工智慧的(二)
    我們繼續來看關於百度CEO是如何看待人工智慧的第二部分的內容。大數據、物聯網、網絡信息安全、人工進行智能,伴隨著5g時代的到來,這些發展新興的網際網路技術產業也必將會向前邁進一個嶄新的一步,本文,就和小編一起來可以看下百度CEO是如何正確看待世界人工管理智能的。
  • 玩人工智慧的你必須知道的語音識別技術原理
    在人工智慧快速發展的今天,語音識別開始成為很多設備的標配, 語音識別開始被越來越多的人關注,國外微軟、蘋果、谷歌、nuance,國內的科大訊飛、思必馳等廠商都在研發語音識別新策略新算法,似乎人類與語音的自然交互漸行漸近。
  • AI英雄 | 對話微軟黃學東:語音交互的技術前景到底如何?
    本期講述人物為IEEE/ACM雙科院士、微軟公司語音識別領域的領軍人物黃學東博士,他如何看待語音交互技術的發展?又如何詮釋微軟在人工智慧時代的技術路線?聽聽他怎麼說!雖然如此,但是語音交互畢竟已經可以落地並產生了商業化應用,「機器聽懂人話」這個目標已經基本實現。加入微軟24年,黃學東目前領導著微軟在美國、中國、德國、埃及、以色列的團隊研發,包含語音識別及合成,微軟企業人工智慧客服對話解決方案、cris.ai以及luis.ai等認知服務、CNTK開源深度學習工具等人工智慧產品和技術。
  • 人工智慧語音技術,讓智能生活變得觸手可及
    伴隨著智能語音技術的發展成熟,如今,機器與人對話已經從夢想變為了現實。智能語音對話是目前人工智慧最具前景,最具發展的技術領域。人工智慧最重要的就是語言。語言是人工智慧皇冠上的明珠,代表著人工智慧當中的最高水平。如果機器能夠和人對話,那這個機器肯定擁有很強的人工智慧。2020年是疫情災年。由於受疫情的影響,全民居家隔離、辦公。