智能音箱大戰全面開火,那麼問題來了:如何成為一名全棧語音識別...

2021-01-12 CSDN

點擊上方「 CSDN 」,選擇「置頂公眾號」

關鍵時刻,第一時間送達!

作者 | 陳孝良

出品 | AI 科技大本營

11 月 16 號,百度發布了渡鴉智能音箱和 DuerOS 開發板 SoundPi,至此,國內再一名巨頭加入智能音箱大戰。迄今為止,國內戰場上的巨頭有阿里、京東、騰訊、百度、小米、科大訊飛等,國外則有蘋果、微軟、亞馬遜、谷歌、臉書、三星等,這些巨頭佔據了全球市值的排名榜,同時發力爭奪未來人工智慧時代的語音入口,甚至亞馬遜和阿里率先不惜代價開啟了補貼大戰。這些全球巨頭的激烈競爭,將對未來十年產生極其重要的影響,同時,這更是新一波的職業快速發展機會。

語音智能當前的核心關鍵是聲學問題和語義理解,隨著市場需求的爆發,能夠補齊其中一項技術短板的全棧語音識別工程師將會變成職場香餑餑,而且這類人才的培養成本非常高昂,至少會在未來十年內成為各大巨頭和創業公司爭搶的核心人才。

那麼,如何成為一名全棧語音識別工程師呢?原中國科學院聲學研究所副研究員,聲智科技創始人陳孝良接受了我們的邀約,專門就這個話題撰文。這是一篇將知識縱橫連接,並能結合實踐深入淺出的文章,對於全面了解語音識別很有幫助。其後,AI 科技大本營就幾個問題略作追訪,希望對你有所幫助。

語音識別基礎知識

數學與統計學

數學是所有學科的基礎,其中的高等數學、數理方程、泛函分析等課程是必要的基礎知識,概率論與數理統計也是語音識別的基礎學科。

聲學與語言學

聲學基礎、理論聲學、聲學測量等是聲學方面的基礎課程,有助於了解更多聲學領域的知識。語言學概論、語言哲學、語義最小論與語用多元論、語法化與語義圖等知識對於理解語言模型和語音交互 UI 設計非常有幫助。

計算機學

信號系統、數位訊號處理、語音信號處理、離散數學、數據結構、算法導論、並行計算、C 語言概論、Python 語言、語音識別、深度學習等課程也是必備的基礎知識。

語音識別專業知識

語音識別的知識體系可以劃分為三個大的部分:專業基礎、支撐技能和應用技能。語音識別的專業基礎又包括了算法基礎、數據知識和開源平臺,其中算法基礎是語音識別系統的核心知識,包括了聲學機理、信號處理、聲學模型、語言模型和解碼搜索等。

專業基礎

算法基礎

聲學機理:包括發音機理、聽覺機理和語言機理,發音機理主要探討人類發聲器官和這些器官在發聲過程中的作用,而聽覺機理主要探討人類聽覺器官、聽覺神經及其辨別處理聲音的方式,語言機理主要探究人類語言的分布和組織方式。這些知識對於理論突破和模型生成具有重要意義。

信號處理: 包括語音增強、噪聲抑制、回聲抵消、混響抑制、波束形成、聲源定位、聲源分離、聲源追蹤等。具體如下:

語音增強: 這裡是狹義定義,指自動增益或者陣列增益,主要是解決拾音距離的問題,自動增益一般會增加所有信號能量,而語音增強只增加有效語音信號的能量。

噪聲抑制: 語音識別不需要完全去除噪聲,相對來說通話系統中則必須完全去除噪聲。這裡說的噪聲一般指環境噪聲,比如空調噪聲,這類噪聲通常不具有空間指向性,能量也不是特別大,不會掩蓋正常的語音,只是影響了語音的清晰度和可懂度。這種方法不適合強噪聲環境下的處理,但是足以應付日常場景的語音交互。

混響消除: 混響消除的效果很大程度影響了語音識別的效果。一般來說,當聲源停止發聲後,聲波在房間內要經過多次反射和吸收,似乎若干個聲波混合持續一段時間,這種現象叫做混響。混響會嚴重影響語音信號處理,並且降低測向精度。

回聲抵消: 嚴格來說,這裡不應該叫回聲,應該叫「自噪聲」。回聲是混響的延伸概念,這兩者的區別就是回聲的時延更長。一般來說,超過 100 毫秒時延的混響,人類能夠明顯區分出,似乎一個聲音同時出現了兩次,就叫做回聲。實際上,這裡所指的是語音交互設備自己發出的聲音,比如 Echo 音箱,當播放歌曲的時候若叫 Alexa,這時候麥克風陣列實際上採集了正在播放的音樂和用戶所叫的 Alexa 聲音,顯然語音識別無法識別這兩類聲音。回聲抵消就是要去掉其中的音樂信息而只保留用戶的人聲,之所以叫回聲抵消,只是延續大家的習慣,其實是不恰當的。

聲源測向: 這裡沒有用聲源定位,測向和定位是不太一樣的,而消費級麥克風陣列做到測向就可以,定位則需要更多的成本投入。聲源測向的主要作用就是偵測到與之對話人類的聲音以便後續的波束形成。聲源測向可以基於能量方法,也可以基於譜估計,陣列也常用 TDOA 技術。聲源測向一般在語音喚醒階段實現,VAD 技術其實就可以包含到這個範疇,也是未來功耗降低的關鍵因素。

波束形成: 波束形成是通用的信號處理方法,這裡是指將一定幾何結構排列的麥克風陣列的各麥克風輸出信號經過處理(例如加權、時延、求和等)形成空間指向性的方法。波束形成主要是抑制主瓣以外的聲音幹擾,這裡也包括人聲,比如幾個人圍繞 Echo 談話的時候,Echo 只會識別其中一個人的聲音。

端點檢測: 端點檢測,英語是 Voice ActivityDetection,簡稱 VAD,主要作用是區分一段聲音是有效的語音信號還是非語音信號。VAD 是語音識別中檢測句子之間停頓的主要方法,同時也是低功耗所需要考慮的重要因素。VAD 通常都用信號處理的方法來做,之所以這裡單獨劃分,因為現在 VAD 的作用其實更加重要,而且通常 VAD 也會基於機器學習的方法來做。

特徵提取: 聲學模型通常不能直接處理聲音的原始數據,這就需要把時域的聲音原始信號通過某類方法提取出固定的特徵序列,然後將這些序列輸入到聲學模型。事實上深度學習訓練的模型不會脫離物理的規律,只是把幅度、相位、頻率以及各個維度的相關性進行了更多的特徵提取。

聲學模型: 聲學模型是語音識別中最為關鍵的部分,是將聲學和計算機學的知識進行整合,以特徵提取部分生成的特徵作為輸入,並為可變長的特徵序列生成聲學模型分數。聲學模型核心要解決特徵向量的可變長問題和聲音信號的多變性問題。事實上,每次所提到的語音識別進展,基本上都是指聲學模型的進展。聲學模型迭代這麼多年,已經有很多模型,我們把每個階段應用最為廣泛的模型介紹一下,其實現在很多模型都是在混用,這樣可以利用各個模型的優勢,對於場景的適配更加魯棒。

GMM ,Gaussian Mixture Model,即高斯混合模型,是基於傅立葉頻譜語音特徵的統計模型,可以通過不斷迭代優化求取 GMM 中的加權係數及各個高斯函數的均值與方差。GMM 模型訓練速度較快,聲學模型參數量小,適合離線終端應用。深度學習應用到語音識別之前,GMM-HMM 混合模型一直都是優秀的語音識別模型。但是 GMM 不能有效對非線性或近似非線性的數據進行建模,很難利用語境的信息,擴展模型比較困難。

HMM ,Hidden Markov Model,即隱馬爾可夫模型,用來描述一個含有隱含未知參數的馬爾可夫過程,從可觀察的參數中確定該過程的隱含參數,然後利用這些參數來進一步分析。HMM 是一種可以估計語音聲學序列數據的統計學分布模型,尤其是時間特徵,但是這些時間特徵依賴於 HMM 的時間獨立性假設,這樣對語速、口音等因素與聲學特徵就很難關聯起來。HMM 還有很多擴展的模型,但是大部分還只適應於小詞彙量的語音識別,大規模語音識別仍然非常困難。

DNN ,Deep Neural Network,即深度神經網絡,是較早用於聲學模型的神經網絡,DNN 可以提高基於高斯混合模型的數據表示的效率,特別是 DNN-HMM 混合模型大幅度地提升了語音識別率。由於 DNN-HMM 只需要有限的訓練成本便可得到較高的語音識別率,目前仍然是語音識別工業領域常用的聲學模型。

RNN ,Recurrent Neural Networks,即循環神經網絡,CNN,Convolutional NeuralNetworks,即卷積神經網絡,這兩種神經網絡在語音識別領域的應用,主要是解決如何利用可變長度語境信息的問題,CNN/RNN 比 DNN 在語速魯棒性方面表現的更好一些。其中,RNN 模型主要包括 LSTM(多隱層長短時記憶網絡)、highway LSTM、Residual LSTM、雙向 LSTM 等。CNN 模型包括了時延神經網絡(TDNN)、CNN-DNN、CNN-LSTM-DNN(CLDNN)、CNN-DNN-LSTM、Deep CNN 等。其中有些模型性能相近,但是應用方式不同,比如雙向 LSTM 和 Deep CNN 性能接近,但是雙向 LSTM 需要等一句話結束才能識別,而 Deep CNN 則沒有時延更適合實時語音識別。

語言模型 :通過訓練語料學習詞之間的關係來估計詞序列的可能性,最常見的語言模型是 N-Gram 模型。近年,深度神經網絡的建模方式也被應用到語言模型中,比如基於 CNN 及 RNN 的語言模型。

解碼搜索 :解碼是決定語音識別速度的關鍵因素,解碼過程通常是將聲學模型、詞典以及語言模型編譯成一個網絡,基於最大後驗概率的方法,選擇一條或多條最優路徑作為語音識別結果。解碼過程一般可以劃分動態編譯和靜態編譯,或者同步與異步的兩種模式。目前比較流行的解碼方法是基於樹拷貝的幀同步解碼方法。

語音識別數據知識

數據採集: 主要是將用戶與機器對話的聲音信息收集起來,一般分為近場和遠場兩個部分,近場採集一般基於手機就可完成,遠場採集一般需要麥克風陣列。數據採集同時還有關注採集環境,針對不同數據用途,語音採集的要求也很不一樣,比如人群的年齡分布、性別分布和地域分布等。

數據清洗: 主要是將採集的數據進行預處理,剔除不合要求的語音甚至是失效的語音,為後面的數據標註提供精確的數據。

數據標註: 主要是將聲音的信息翻譯成對應的文字,訓練一個聲學模型,通常要標註數萬個小時,而語音是時序信號,所以需要的人力工時相對很多,同時由於人員疲憊等因素導致標註的錯誤率也比較高。如何提高數據標註的成功率也是語音識別的關鍵問題。

數據管理: 主要是對標註數據的分類管理和整理,這樣更利於數據的有效管理和重複利用。

數據安全: 主要是對聲音數據進行安全方便的處理,比如加密等,以避免敏感信息洩露。

語音識別開源平臺

目前主流的開源平臺包括 CMU Sphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow 等,CMU Sphinx 是離線的語音識別工具,支持 DSP 等低功耗的離線應用場景。由於深度學習對於語音識別 WER 的下降具有明顯的作用,所以 Kaldi、CNTK、TensorFlow 等支持深度學習的工具目前比較流行,Kaldi 的優勢就是集成了很多語音識別的工具,包括解碼搜索等。具體的開源平臺匯總如表 1 所示。

支撐技能

聲學器件

傳聲器,通常稱為麥克風,是一種將聲音轉換成電子信號的換能器,即把聲信號轉成電信號,其核心參數是靈敏度、指向性、頻率響應、阻抗、動態範圍、信噪比、最大聲壓級(或 AOP,聲學過載點)、一致性等。傳聲器是語音識別的核心器件,決定了語音數據的基本質量。

揚聲器,通常稱為喇叭,是一種把電信號轉變為聲信號的換能器件,揚聲器的性能優劣對音質的影響很大,其核心指標是 TS 參數。語音識別中由於涉及到回聲抵消,對揚聲器的總諧波失真要求稍高。

雷射拾聲,這是主動拾聲的一種方式,可以通過雷射的反射等方法拾取遠處的振動信息,從而還原成為聲音,這種方法以前主要應用在竊聽領域,但是目前來看這種方法應用到語音識別還比較困難。

微波拾聲,微波是指波長介於紅外線和無線電波之間的電磁波,頻率範圍大約在 300MHz 至 300GHz 之間,同雷射拾聲的原理類似,只是微波對於玻璃、塑料和瓷器幾乎是穿越而不被吸收。

高速攝像頭拾聲,這是利用高速攝像機來拾取振動從而還原聲音,這種方式需要可視範圍和高速攝像機,只在一些特定場景裡面應用。

計算晶片

DSP,Digital Signal Processor,數位訊號處理器,一般採用哈佛架構,具有低功耗運算快等優點,主要應用在低功耗語音識別領域。

ARM,Acorn RISC Machine,是英國公司設計的一種 RISC 處理器架構,具有低功耗高性能的特點,在移動網際網路領域廣泛應用,目前 IOT 領域,比如智能音箱也是以 ARM 處理器為主。

FPGA,Field-Programmable Gate Array,現場可編程門陣列,是 ASIC 領域中的一種半定製電路,既解決了固定定製電路的不足,又克服了可編程器件門電路有限的缺點。FPGA 在並行計算領域也非常重要,大規模的深度學習也可以基於 FPGA 計算實現。

GPU,Graphics Processing Unit,圖形處理器,是當前深度學習領域最火的計算架構,事實上深度學習領域用到的是 GPGPU,主要是進行大規模計算的加速,GPU 通常的問題就是功耗過大,所以一般應用到雲端的伺服器集群。

另外,還有 NPU、TPU 等新興的處理器架構,主要為深度學習算法進行專門的優化,由於還沒有大規模使用,這裡先不詳敘。

聲學結構

陣列設計,主要是指麥克風陣列的結構設計,麥克風陣列一般來說有線形、環形和球形之分,嚴謹的應該說成一字、十字、平面、螺旋、球形及無規則陣列等。至於麥克風陣列的陣元數量,也就是麥克風數量,可以從 2 個到上千不等,因此陣列設計就要解決場景中的麥克風陣列陣型和陣元數量的問題,既保證效果,又控制成本。

聲學設計,主要是指揚聲器的腔體設計,語音交互系統不僅需要收聲,還需要發聲,發聲的質量也特別重要,比如播放音樂或者視頻的時候,音質也是非常重要的參考指標,同時,音質的設計也將影響語音識別的效果,因此聲學設計在智能語音交互系統也是關鍵因素。

應用技能

語音識別的應用將是語音交互時代最值得期待的創新,可以類比移動互聯時代,最終黏住用戶的還是語音應用程式,而當前的人工智慧主要是基礎建設,AI 的應用普及還是需要一段時間。雖然 Amazon 的 Alexa 已經有上萬個應用,但是從用戶反饋來看,目前主要還是以下幾個核心技術點的應用。

語音控制,事實上是當前最主要的應用,包括了鬧鐘、音樂、地圖、購物、智能家電控制等等功能,語音控制的難度相對也比較大,因為語音控制要求語音識別更加精準、速度更快。

語音轉錄,這在比如會議系統、智能法院、智能醫療等領域具有特殊應用,主要是實時將用戶說話的聲音轉錄成文字,以便形成會議紀要、審判記錄和電子病歷等。

語言翻譯,主要是在不同語言之間進行切換,這在語音轉錄的基礎上增加了實時翻譯,對於語音識別的要求更高。

下面這三種識別,可以歸為語音識別的範疇,也可以單獨列成一類,這裡我們還是廣義歸納到語音識別的大體系,作為語音識別的功能點更容易理解。

聲紋識別,聲紋識別的理論基礎是每一個聲音都具有獨特的特徵,通過該特徵能將不同人的聲音進行有效的區分。聲紋的特徵主要由兩個因素決定,第一個是聲腔的尺寸,具體包括咽喉、鼻腔和口腔等,這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的範圍。第二個決定聲紋特徵的因素是發聲器官被操縱的方式,發聲器官包括唇、齒、舌、軟顎及顎肌肉等,他們之間相互作用就會產生清晰的語音。而他們之間的協作方式是人通過後天與周圍人的交流中隨機學習到的。聲紋識別常用的方法包括模板匹配法、最近鄰方法、神經元網絡方法、VQ 聚類法等。

情感識別,主要是從採集到的語音信號中提取表達情感的聲學特徵,並找出這些聲學特徵與人類情感的映射關係。情感識別當前也主要採用深度學習的方法,這就需要建立對情感空間的描述以及形成足夠多的情感語料庫。情感識別是人機互動中體現智能的應用,但是到目前為止,技術水平還沒有達到產品應用的程度。

哼唱識別,主要是通過用戶哼唱歌曲的曲調,然後通過其中的旋律同音樂庫中的數據進行詳細分析和比對,最後將符合這個旋律的歌曲信息提供給用戶。目前這項技術在音樂搜索中已經使用,識別率可以達到 80%左右。

語音識別現狀和趨勢

目前來看,語音識別的精度和速度比較取決於實際應用環境,在安靜環境、標準口音、常見詞彙上的語音識別率已經超過 95%,完全達到了可用狀態,這也是當前語音識別比較火熱的原因。隨著技術的發展,現在口音、方言、噪聲等場景下的語音識別也達到了可用狀態,但是對於強噪聲、超遠場、強幹擾、多語種、大詞彙等場景下的語音識別還需要很大的提升。當然,多人語音識別和離線語音識別也是當前需要重點解決的問題。

學術界探討了很多語音識別的技術趨勢,有兩個思路是非常值得關注的,一個是就是端到端的語音識別系統,另外一個就是 G.E. Hinton 最近提出的膠囊理論,Hinton 的膠囊理論學術上爭議還比較大,能否在語音識別領域體現出來優勢還值得探討。

端到端的語音識別系統當前也沒有大規模應用,從理論上來看,由於語音識別本質上是一個序列識別問題,如果語音識別中的所有模型都能夠聯合優化,應該會獲取更好的語音識別準確度,這也是端到端語音識別系統的優勢。但是從語音採集、信號處理、特徵提取、聲學模型、語音模型、解碼搜索整個鏈條都做到端到端的建模處理,難度非常大,因此現在常說的端到端的模型基本還是局限於聲學模型範疇,比如將 DNN-HMM 或者 CNN/RNN-HMM 模型進行端到端的優化,比如 CTC 準則和 Attention-based 模型等方法。事實上,端到端的訓練,可以把真實場景的噪聲、混響等也作為新特徵來進行學習,這樣可以減少對於信號處理的依賴,只是這種方法還存在訓練性能、收斂速度、網絡帶寬等諸多問題,相對於主流的語音識別方法還沒有取得明顯的優勢。

本文以科普為主,非常感謝國內語音識別領域各位夥伴的支持,文中若有不足之處,期待大家的指正!

參考文獻

Deep Learning:Methods andApplications,Li Deng and Dong Yu

Automaitic Speechand Speaker Recognition: Large Margin and Kernel Methods, Joseph Keshet andSamy Bengio

Xuedong Huang, Alex Acero, Hsiao-wuenHon, Spoken Language Processing

Lawrence Rabiner,Biing-Hwang Juang, Fundamentals of Speech Recognition

Dan jurafsky andJames H. Martin, Speech and Language Processing

Dynamic RoutingBetween Capsules,Sara Sabour,Nicholas Frosst,Geoffrey E. Hinton

https://en.wikipedia.org/wiki/Speech_perception

http://www.speech.cs.cmu.edu

http://htk.eng.cam.ac.uk/

http://kaldi-語音識別.org/

https://www.microsoft.com/en-us/cognitive-toolkit/

http://www.soundpi.org/

作者:陳孝良,博士,聲智科技創始人,專注聲學前沿技術和人工智慧交互,曾任中國科學院聲學研究所副研究員。

就在陳博士分享「如何成為一名全棧語音識別工程師」這篇技術乾貨的同時,AI 科技大本營也對其進行了追問和專訪。

聲智科技在自成立以來,在一年半的時間內進行了三次融資,突破了在複雜環境下的喚醒和識別兩個難度頗高的環節。提及語音智能行業,他多次提到了目前非常緊缺的兩類人才,一個是 AI 產品經理,一個是 AI 架構師。以下,作為補充學習提供給您。

追訪問答:

用一句話總結您現在的創業,是什麼?

陳孝良: 我們一直專注聲學前沿技術和人工智慧交互,致力於實現「聽你所言、知你所想」的人機互動願景。

沒想過自己做一個完整的產品?

陳孝良: 我們當前主要提供軟硬一體的遠場語音交互解決方案,暫時不會考慮 C 端消費電子產品。我們雖然已經將遠場語音交互技術大規模量產應用,但是還有很多技術難點需要突破,例如超遠場、局部場和分布場的語音交互問題,解決這些問題僅靠算法和模型不行,需要從器件、晶片、算法、數據、應用等全鏈條考慮,難度非常大。

為什麼選擇創業呢?

陳孝良: 這有很多理由了,但是有一點非常重要,我們還是希望能將自己所領悟到的知識,能夠真正落地到實際產品之中,從而改變我們的生活,哪怕只有一點點,進而可以繼續帶動已經很長時間沒有理論突破的聲學等技術發展。

最近融資的近億元,具體怎麼花呢?

陳孝良: 我們融資主要目的還是拓展業務規模,同時在新技術研發方面重點投入。

語音智能行業,您覺得現在最緊缺的是什麼人才?

陳孝良: 我覺得有兩類人才非常緊缺:

一類就是 AI 架構師,可以打通整個語音交互體系的人才。這類人才一般需要全棧的語音智能知識,不僅僅只是聲學或者深度學習技術,而且還需要了解諸如材料、器件、晶片等硬體知識,同時對於市場和產品還具有敏銳的洞察力。AI 架構師應該站得更高、看得更遠,不局限於某一個技術鏈條,而是關心整體體驗好不好。

另外一類是 AI 產品經理。這類人才需要懂得前端做什麼,後端做什麼,能夠提供哪些技術,每個技術做到什麼程度,這都必須了解。另外一方面,這類人才還要懂用戶需求,懂得這個需求能給用戶帶來什麼幫助,解決什麼問題。此外,這個產品大概定在什麼價位,應該用什麼 IT 設計,這都是 AI 產品經理需要挑戰的關鍵問題。

這樣的人才該怎麼培養呢?

陳孝良: 就目前來說,這兩類人才必須靠 AI 公司燒錢才能培養出來。AI 架構師和 AI 產品經理現在來看還無法僅憑學習達到公司要求,必須要結合理論和實踐辛苦耕耘,甚至不得不跳些坑才能成長為合格的人才。

如果市場上有好的 AI 架構師或 AI 產品經理,你願意給多高的薪酬?

陳孝良: 真正優秀的這兩類人才,目前全球給出的 Package 超過百萬也很正常。這兩類人才的需求量未來會非常大,建議技術人員可以多往這兩個方向轉型,當然有些技術人員轉型過程中可能會損失一些當前收益。

相關焦點

  • 智能ai音響哪個牌子好_最新十大智能音箱排行榜
    智能音箱大戰早已在矽谷打響,如今,這場戰火也點燃了中國市場。井噴式發展的中國智能音箱市場已經成為了科技巨頭、傳統行業廠商、創業公司博弈的競技場,玲琅滿目的智能音箱產品都奔赴在路上!   2017年,智能音箱市場歷經幾年的激烈發展,市面上500多家智能音箱品牌研發的創新產品也越來越多。
  • 小愛同學、天貓精靈、小度智能音箱體驗:離真正的智能音箱還很遠
    雖然賣得火爆,但從用戶反饋來看,把智能音箱說成「智障」的仍不在少數。那麼,智能音箱該怎麼選?「聽懂」第一步——語音識別「語音識別」,換言之,智能音箱能準確識別用戶說的是什麼。從極果君的測試來看,天貓精靈in糖2、小愛音箱Art、小度智能音箱旗艦版在語音識別上都遠遠達不到流暢使用的標準。
  • 智能音箱多到數不過來,然而讓機器聽懂世界的科幻未來還有多遠?
    這其中最為典型的,就是以亞馬遜Echo所引領的智能音箱,迄今為止,佔據全球市值排名榜的全球巨頭,包括國內的阿里、京東、騰訊、百度、小米、科大訊飛等,國外的蘋果、微軟、亞馬遜、谷歌、臉書、三星等,創歷史的同時發力爭奪未來智能時代的語音入口,甚至亞馬遜和阿里率先不惜代價開啟了補貼大戰。這些全球巨頭的激烈競爭,將對未來十年甚至二十年產生極其重要的影響。
  • 日均調用量超100億次 百度大腦正在用語音喚醒一個AI時代
    11月28日,百度大腦宣布語音能力引擎日均調用量已經超過100億次,應用規模業界第一,為開發者提供了覆蓋雲、端、芯的全棧全場景語音開放能力,推動智能語音技術在各行業落地應用。(百度語音首席架構師賈磊主題演講:百度大腦語音技術的前沿進展)據悉,百度從2012年起就開始把深度學習用於中文語音搜索,成為全世界最早把深度學習技術落地工業化產品的企業之一。百度大腦目前已開放了雲、端、芯包含語音識別、語音合成等全棧語音引擎能力,並廣泛應用於金融、政務、文娛等多種行業和場景。
  • 尼爾森發布智能音箱品牌認知報告 小度是最智能的音箱麼?
    物聯網技術的不斷發展正推進智能家居成為重要的落地場景,作為智能家居的重要入口,智能音箱市場已經成為各大網際網路公司爭奪的新賽道。而智能度作為人工智慧的重要標準,不僅是企業搶奪入口的準入門檻,更是搶奪智能音箱市場的決勝因素。在智能音箱對決賽中,「智能之爭」由來已久。究竟哪家智能音箱最「智能」?
  • 誰在鼓譟智能音箱? | 風眼
    智能音箱用戶陳先生,幾乎每天都會與小米智能音箱產品「小愛同學」產生這樣的對話,查天氣、控制家電也是使用較多的場景。全國有超過約200萬臺智能音箱,正在與用戶發生類似的交互行為。市場需求急速增長,普通用戶欲試嘗鮮,科技巨頭跑馬圈地,中國智能音箱市場並沒有經歷國外那麼長時間的市場培養周期,而是直接跨過了幼兒階段到達青少年期。
  • AI落地雖千萬難,智能語音往矣 | CCF-GAIR 2020
    19世紀60年代聲源-濾波器模型被提出,而在此後的幾十年中,語音研究的基本概念沒有突破。這時不少美國學者認為實現語音識別恐怕要比登月還難,隨後1969年隨著阿波羅11號的登月,語音難於上終於成為了事實,語音識別與合成研究也遭遇了長時間的低谷。
  • 小度音箱等第一方硬體交互次數首次亮相,23億詮釋語音交互價值
    第二個命題似乎也不是什麼新鮮話題,幾年前就出現了對語音交互價值的討論,但這一次似乎又有所不同。在「智能音箱大戰」的洪荒之力下,智能音箱正在以千萬級的季度出貨量走進一線城市到偏遠鄉鎮的家庭,「語音交互」不再是什麼陌生詞彙。  也就是說,幾年前討論語音交互還屬於霧裡看花,所有的觀點都建立在某種假想上,今天卻早已是一個現實的商業話題。
  • 語音識別技術簡史
    語音識別的精度和速度取決於實際應用環境,但在安靜環境、標準口音、常見詞彙場景下的語音識別率已經超過 95%,意味著具備了與人類相仿的語言識別能力,而這也是語音識別技術當前發展比較火熱的原因。隨著技術的發展,現在口音、方言、噪聲等場景下的語音識別也達到了可用狀態,特別是遠場語音識別已經隨著智能音箱的興起成為全球消費電子領域應用最為成功的技術之一。
  • 排名 語音識別_語音識別技術排名 - CSDN
    手機語音輸入法、智能音箱、汽車語音交互等產品走入了尋常百姓家,語音識別技術也成為了人工智慧中技術落地最早、用戶範圍最廣的技術。國際上Google、微軟、IBM、蘋果等巨頭都將語音技術研究放在很高的地位,國內除了科大訊飛外,百度、阿里、騰訊等巨頭也進行了布局,包括思必馳、雲知聲等創業公司也先後進場,呈現出百花齊放的格局。
  • 2億元開發者紅包,它才是天貓精靈和小米AI音箱競爭背後的力量
    今年7月阿里、小米先後發布了自己的智能音箱天貓精靈和小米AI音箱,而背後的語音交互解決方案提供商正是思必馳。思必馳在2007年創立時,就用了AISpeech這個名字。當時人工智慧的概念還不普及,做語音交互的思必馳已經把自己定義為一家人工智慧公司。
  • Alexa擴展新技能,電視或將成為繼「智能音箱」的第二個語音交互...
    亞馬遜戰略風向預測亞馬遜通過智能音箱Echo為Alexa打開了新世界的大門,現在亞馬遜開始合作更多設備,為Alexa構建更完整的生態系統。隨著智能家居開發商不斷與Alexa進行合作,電視以其獨特的娛樂性以及在家庭中不可忽視的重要地位,成為了Alexa下一個可能主要進軍的智能設備。
  • 百度大腦AI加持語言教育,智能語音糾正口語發音、指導朗讀背誦
    2020開年這出乎意料的漫長「假期」讓大多數人的生活節奏都被按下「暫停」鍵,當有了空閒、手機和WIFI,如何度過這段時間似乎不成問題,但如何更有意義的利用這段時間,也成了不少善於思考的人探尋的方向,於是「學習外語」成為他們的答案。 「市場缺乏好的VR遊戲內容,而造成了用戶需求不旺盛的假象。如果產品內容夠好,有一定的深度,用戶的需求還是非常大的。」
  • 語音識別技術原理全面解析
    語音識別技術正逐步成為計算機信息處理技術中的關鍵技術,語音技術的應用已經成為一個具有競爭性的新興高技術產業。  60年代末、70年代初的重要成果是提出了信號線性預測編碼(LPC)技術和動態 時間規整(DTW)技術,有效地解決了語音信號的特徵提取和不等長語音匹配問題;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。語音識別技 術與語音合成技術結合使人們能夠擺脫鍵盤的束縛,取而代之的是以語音輸入這樣便於使用的、自然的、人性化的輸入方式,它正逐步成為信息技術中人機接口的關 鍵技術。
  • 不能打電話看視頻的智能音箱不是好音箱-天貓精靈CCH上手體驗
    人工智慧的火熱促使智能音箱成為這兩年最火爆的智能產品之一,市場熱度絲毫不亞於智慧型手機,小米、阿里、百度、騰訊等巨頭先後推出了自家的智能音箱產品。大部分智能音箱價格親民體驗新奇。不局限於傳統音箱的造型,眾巨頭又先後加了一塊屏幕,不止要有聲音,還要有影像,甚至於還可以視頻通話。
  • MEMS麥克風市場持續增長,智能音箱促進作用明顯
    語音助理早已不是新鮮事物,但是近來搭載AI語音助理的智能音箱卻成為了國內外科技巨頭爭相推出的智能家居新品,這無疑將帶動語音識別中必不可少的傳感器——麥克風市場的增長,不過增長並非包括所有類型的麥克風。MEMS麥克風憑藉微型化、一致性好、低功耗等特性更好滿足智能音箱、智能耳機、機器人等應用的語音交互需求將受惠最大,但麥克風陣列的應用也將帶來技術挑戰。
  • 三分天下,格局初定,智能音箱將行至何方? | 甲子光年
    在亞馬遜官網上,3.5萬人給這款智能音箱打出了平均4.5顆星的評分。但是,實際購買了智能音箱的消費者並沒有完全按照產品設計者的設想來使用這款產品,尤其是其中關於智能音箱將成為家庭物聯網入口的想像。據易觀2019年對智能音箱使用情況的調研,在中國市場,聽音頻和音樂仍是智能音箱最常被使用的功能,而智能家居相關功能(語音控制智能家居設備)則排在第十名。
  • 專訪訊飛王士進:從底層AI技術解析 ,智能音箱是個偽命題嗎?
    雖然訊飛在2014年的時候推出「超腦計劃」,開始全面布局AI的各個領域。但是,這家成立於1999年、市值超400億的公司如今在很多人看來,依然只是一家做「語音輸入法」的公司。科大訊飛在AI領域有哪些布局?怎樣看待語音助手?如何繼續提高語音識別的準確率?智能音箱是個偽命題嗎?會成為智能家居的中心嗎?
  • 哈曼卡頓ALLURE評測:引領智能新時代的人工智慧音箱
    步入智能化時代以來,各行各業都開始緊跟人工智慧這一流行潮。人工智慧技術的越發成熟和普及,更是令其大眾化成為可能,最為常見的就是人工智慧音箱了。今天為大家評測哈曼卡頓的這款人工智慧音箱ALLURE,看看它如何引領智能新時代發展。
  • 一文看懂語音合成:真能跟Siri戀愛?模擬人類語言暗藏哪些商機
    2014年微軟推出了"小娜"與"小冰",這是將Siri所擁有的語音識別技術及語音合成技術分開來,小娜負責理解複雜的口語指令並進行執行,而小冰主要能夠和人類友好地聊天。隨後,這樣的運用逐步增多:2014 年底,亞馬遜發布了 Echo 智能音箱,語音助理 Alexa也隨之亮相;一年半後,Google 也發布了第一代智能音箱 Google Home 和語音助手 Google Assistant。國內的巨頭也不遑多讓,京東叮咚智能音箱、天貓精靈智能音箱、小愛系列智能音箱、小度智能音箱,也紛紛進入了國人的家居生活。