當前,物聯網和人工智慧發展迅速,新產品和新應用不斷湧現,導致人們的生活工作發生了重大變化。隨著人工智慧的第三次興起,交互式終端出現了新的觀點。通過語音控制直接控制機器,機器可以理解人的語言並按照人的指示進行操作,以騰出雙手,豐富人們的多樣化生活方式。想像有一天,語音識別技術的發展已經足夠成熟,我們將能夠使用語音命令直接控制機器,例如人與人之間的對話,而無需使用傳統的工作方法(例如滑鼠,鍵盤或其他外部按鈕)。當前,從智慧型手機到智能家居,甚至在網際網路上,市場上的爆炸性產品都在擁抱智能語音。對於想要直接與機器進行通信的人們,首先必須使機器能夠識別對人類語言的分析,然後,在完成識別分析後,可以將其轉換為內部的正常操作指令,以進行以下操作。因此,作為跨學科學科的語音識別技術正逐漸成為人類互動的重要手段。因此,語音識別已成為當今在熱浪中將人工智慧滲透到人們生活中的最廣泛方法。
語音識別已成為當今在熱浪中將人工智慧滲透到人們生活中的最廣泛方法
智能語音是利用智能語音交互作用的能力,這樣機器就可以像人一樣理解並說人類語言,最終,人們可以自然地進行交互。引入智能語音交互的第一步是語音識別。沒有語音識別,後續的語義轉換,翻譯,交換等等,這是一個空曠的地方。
在20世紀50年代,達特茅斯會議上已經明確定義了人工智慧技術,而「智能演講」也開始萌芽,但是由於硬體等技術的延遲,尚未發現許多人工智慧問題。當時,普林斯頓大學的實驗室開發了帶有單音節音節的語音識別系統。當時的語音,理論和模型都很簡單,因此研究很快陷入停頓。到80年代,隨著神經網絡和BT算法概念的出現,語音識別的研究再次成為一項突破,並引發了第二波人工智慧浪潮。將人工神經網絡(ANN)的方法與非馬爾可夫算法相結合,在連續單詞識別系統的開發中使用長短語,這意味著研究方向發生了重大變化,這使得連續研究成為可能大量詞典中的語音識別。
智能語音識別技術發展歷程
同期,開元和其他人將高斯模型(Gmm)和in-Markov模型結合在一起,而卡內基梅隆大學開發了SPHINX系統,結合矢量量化技術,它成為第一個針對非特定人群的連續語音識別系統即 (VQ)和HMM。 SPHINX將尹馬爾科夫模型(HMM)指定為語音識別系統的基礎模型。因此,語音識別方法的研究不再局限於基於標準模板的傳統方法,而是向統計模型擴展。根據祈禱法則,90年代後計算機的硬體不斷增加。 2006年引入了人工智慧領域的高級培訓方法,從而導致了圖像識別的重大發展。在2009年,Sinton等人將使用深度神經網絡對語音識別進行聲學建模; 2010年,於棟,東麗等人開始研究語音識別模型,首先是向基於深度學習的模型過渡以及尹·馬可夫的結合。 2017年,經過深入研究的Google AlphGo擊敗了Checker環,人工智慧進入了爆發期。得益於人工智慧高速發展的第三次浪潮,智能語音識別已成為市場空間巨大的最成熟的現代人工智慧技術之一。
智能語音識別已成為市場空間巨大的最成熟的現代人工智慧技術之一
在過去的十年中,網際網路行業在中國迅速發展,網際網路上三大世界領先企業,三大巨頭和其他科技公司的結構已經形成,以體驗包括知識演講在內的智能人工智慧行業,該行業目前正在國內蓬勃發展。在國家語音識別技術的研究中,情況的變化相對滯後,即使在ISIS的應用領域,其他行業也傾向於被超越。我們的業務以云云和百度公司以及墾星信號公司為代表,著重介紹了語音識別技術,並發展了快速且相對成熟的技術進步。
下面的表提供了該國最知名的語音識別公司的比較數據。
國內幾家知名的語音識別公司對比
2012年9月,雲文勝發布了中國第一個語音雲平臺,該平臺首次在智能交互領域引入了深度學習。同時,百度公司提供了基於語音的搜索服務,並將此語音搜索服務集成到100度地圖中,以100度模式進行搜索等。在各種Internet應用程式中,用戶可以通過語音通信發送搜索命令,伺服器在檢查語音後會收到語音語音請求,然後返回結果,從而可以節省打值時間等步驟,極地方便了人們的使用。柯大新研究公司在智能語音技術領域積累了大量的知識。目前,它在語音合成,語音識別等許多技術上均居世界首位,並且是中國最大的智能語音技術提供商。隨著教育領域語音識別系統的出現,該公司應該具有強大的語音識別算法和軟體技術,它與華中國際公司的結合共同推出了一種低成本的語音AI晶片,該晶片目前在汽車,家用產品中已積累了很深的知識。語音行業。得益於許多內部人工智慧公司的存在,我國的語音識別技術還實現了許多與特定人無關的自然而持久的表達方式。
近年來,隨著人工智慧的快速發展,智能語音識別的發展也迅速。人類在智能語音技術的幫助下,概述了釋放人的手的宏偉計劃,其中包括執行語音控制,家用電器等人的指令。如今,心理語音識別從一開始就已成為最簡單的單詞識別,現在可以與一個簡單的人合作進行。以下是按類別,市場條件和當前發展弱點對語音識別的概述。
1、語音識別的分類有哪些?
根據應用的方向,智能語音主要用於兩個主要領域:2B和2C。在2c結束時,主要重點是醫療,教育,融資,服務等。
根據語音識別的內容,它們主要分為「封閉域識別」和「開放域識別」。識別封閉欄位意味著只能在開發人員指定的一組單詞/多個單詞中識別它,而不在集合中識別。另一方面,開放的識別數據不能預先確定識別詞的集合,並且它們與生活的緊密聯繫可能很困難,並且目前的研究需要進行重大改進。通常,開放欄位的識別模型較大,並且需要大量操作。如果將大多數語音識別模型直接集成到開放域方案中,則當前僅將它們託管在雲中,這會導致更高的功耗並影響模型識別功能。
語音識別助手小愛同學已經能夠很好地滿足日常語音操作服務
目前,近年來智能語音產業的規模持續增長,2014年至2018年,中國智能語音產業規模從3增長到155.7億元,增長420%;隨著雲計算技術,深度學習等的發展,智能語音在智能家居,醫學教育,汽車電子等方面的應用與車載、智慧型手機及智能家居等電子行業的佔比將超過四分之一。
2、當前語音識別技術的市場需求有哪些?
當前,儘管不同公司的語音識別方法有所不同,但它們基本上與術語模板,基於HMM代表或基於神經網絡的統計模型一致。基於由六個不同的深度神經網絡組成的聲學模型以及由四個不同的深度神經網絡組成的語言模型,可以確定與人的比例相當的精確值。 DeepSpeech語音識別系統,它使用了對末端進行深入研究的方法,即該系統不需要其他組件來消除噪聲,提取特徵等。深層神經網絡和循環神經網絡的引入使語音識別更加準確,並使它更接近生活。
2010-2018年全球語音識別技術行業市場規模統計情況
與其他圖形識別不同,語音識別的最大特徵是時序,這需要一定距離的記憶和LSTM的持續時間,而神經網絡的記憶恰好與此特徵相對應。 Hochreiter等。他們提出了LSTM-用於為口語表達建立長期記憶機制的神經網絡「 0」,如果增加紅杉類型的層數,這將提高模型的語音識別效率,但同時會導致梯度損失。因此,例如,Highway LSSTM通過引入用於控制進入相鄰層的機制(例如ResiduallSTM)並通過在兩者之間創建速度路徑2來避免由過多序列引起的梯度消失,從而在語音識別方面取得了良好的結果LSTM水平。
隨著諸如2014年的Echo Amazon之類的智能唱片的問世,一波智能家居的浪潮已經飆升。]智能家居作為改善用戶體驗的大型應用場景,為智能音響技術創造了良好的市場環境4。語音識別在智能家居和其他應用中,例如門檻較低,但是客戶端的隱私,實時性和穩定性實際上有很高的要求。當前,最終聲音產品市場使用神經網絡算法,該算法通常與雲結合使用,不僅可以計算功率和昂貴的資源,還可以確保實時性和隱私性,而這在很大程度上沒有響應人的真正需求。尤其是考慮到雲中數據處理的安全性和網絡的擴展,這種智能交互式聲音產品的應用範圍已經擴大,這已成為將操作直接包括在終端設備中的趨勢。作為目前廣泛用於語音識別的LSTM的示例,我們可以引用LSTM,儘管它具有很高的準確性,但是參數比常規的神經網絡大得多,因此,如何優化LSTM神經的計算能力的問題更多。終端上的網絡需要進一步研究以開發終端語音識別。本文的主要目的是優化可以在終端設備中使用的語音識別LSTM算法。
3、當前語音識別的主要不足點有哪些?
本文從多個方面介紹了智能語音識別研究的背景和意義,主要是在語音識別技術發展的歷史中,從市場需求的角度介紹了國內外語音識別技術的發展和劣勢,分析了語音識別技術的當前發展趨勢以及 一個有待改進的地方,並提出了研究意義的理論基礎。如何更好地發展語音識別技術將是今後我們必須考慮的重點!