基於矢量空間投影的深層語音去噪

2021-01-08 科技的修煉

我們提出了一種算法,在存在非靜態和動態噪聲的情況下,從單個麥克風對揚聲器進行去噪。我們的方法受到最近神經網絡成功的啟發,這些模型將揚聲器與其他揚聲器和歌手以及樂器伴奏分開。與現有技術不同,我們利用源對比估計產生的嵌入空間,這是一種源自自然語言處理中的負採樣技術的技術,同時獲得連續推理掩模。我們直接嵌入空間通過聯合優化對揚聲器和噪聲的區分建模他們的特徵。

這個空間可以推廣,因為它不是揚聲器或噪聲特定的,並且即使模型沒有在訓練集中看到說話者也能夠對語音進行去噪。參數採用雙重目標進行訓練:一個促進選擇性帶通濾波器,消除超過信號功率的時頻位置的噪聲,另一個按比例分割信號和噪聲之間的時頻內容。我們比較了現有的算法以及傳統的稀疏非負矩陣分解解決方案。由此產生的算法通過提供更直觀和易於優化的方法避免了嚴重的計算負擔,同時實現了競爭準確性。

1.簡介

一個多世紀以來,信號去噪一直是多媒體中的一個問題,其應用範圍包括聲學語音處理、圖像處理、地震數據分析和其他模態。對於每種應用的方法已經發展了幾十年,包括傳統的統計信號處理,如Wiener和卡爾曼濾波,小波理論以及矩陣分解的特定實例。 雖然對於局部和廣義靜止信號都有效,即使歷史悠久,但由於其算法容量,這些努力在更動態和更野性的噪聲集中取得了較少的成功。

動態噪聲代表了許多真實的語音場景, 具有令人印象深刻的結果的解決方案專注於硬體:陣列處理[1]採用SONAR,RADAR和合成孔徑傳感的形式。 這些方法通過使用多個傳感器的輸入處理感興趣的源來解決該問題。 不幸的是,許多記錄的當代媒體經常使用更有限的硬體,如智慧型手機,同樣的方法也不能輕易擴展到單聲道情況[2],它記錄來自單個麥克風的音頻。

在先前針對單聲道問題的方法中,明確地對信號和噪聲屬性做出假設,或者規範已經實現了對環境和記錄設備的一些控制。 由於具有諸如手機和筆記本電腦之類的記錄功能的廉價可攜式設備的激增,在嘈雜或混響室中的單軌語音記錄的更一般情況已經變得越來越普遍。在這種情況下,不能保證關於環境的性質或麥克風的位置的語音或噪聲歸屬的保證。

在過去十年中,機器學習方法已開始在這種情況下取得成功。尤其是,已經證明將熟悉的矩陣分解技術[3]適用於處理音頻信號的時頻表示是有用的。然而,這些方法難以達到性能[4],在許多情況下,需要額外的複雜性來準確地模擬源特徵。

可以通過包含關於其特徵的先驗知識來建模更複雜的源。 如果使用的模型具有高容量,則可以根據經驗從大量訓練數據中獲得。 近年來,神經網絡和深度學習方法在其他音頻處理應用中取得了巨大成功,包括一般語音去噪問題[5]。在這些方法中,尤其是遞歸神經網絡在聲學時間序列建模方面表現出最大的希望[6,7],特別是當應用於時間相關的光譜特徵時。

神經網絡方法的一個具有挑戰性的方面是開發成本函數。特別是對於語音信號,由於與語音相關的時間尺度包含許多樣本,因此成本函數的計算複雜度很重要。另外,如果目標是分離源(例如揚聲器和噪聲源),由於排序是任意的,因此成本函數必須對恢復的源的不同排列不變。所提出的方法使用有效的置換不變採樣技術自動化揚聲器的特徵化和噪聲的表徵。

基於我們之前的源對比估算工作[8],我們擴展了直接優化向量空間的方法,該向量空間將特定的源特徵隔離到一般的語音去噪問題。此外,我們通過在[7]中提出的成本函數中加入掩模推理項來進一步改進我們的模型。 我們的模型能夠從語音中去除各種各樣的噪聲類型,並且計算效率很高。

2.相關工作

長期以來,人們在語音處理方面做了大量的工作。在這裡,我們描述了一些代表去噪問題的各種解決方案的方法,雖然許多其他的(例如[9])存在並且為了簡潔而被省略。我們從信號處理理論的方法開始,其中大量方法使用某種類型的矩陣分解[10,11]。特別是,稀疏非負矩陣分解(SNMF)在[4,12,3]中顯示出有效提取非平穩噪聲源。SNMF根據訓練數據構建一組頻譜基函數,並將這些函數與一組學習權重線性組合,以重建所需信號的頻譜特徵。稀疏度通常由對包含乘法超參數μ的學習權重的「1範數約束」強制執行。如第5節所示,諸如此類的線性方法缺乏與更現代技術競爭的算法能力。

2.1、卷積去噪自動編碼器

自動編碼器已被用於成功消除噪聲並將單個源與音頻信號隔離[13]。在較高的層次上,自動編碼器學會對輸入(編碼)進行特徵化,然後將它們重建為輸出(解碼)。這種方法非常適合去噪,因為模型被迫通過丟棄有關噪聲的信息來構建輸入的壓縮表示。

密切相關的是卷積自動編碼器,通常用於去噪圖像[14,15]。這些模型在解碼期間在編碼和解卷積層期間使用卷積層。應用於通過頻譜圖(使用STFT)表示的音頻信號的卷積去噪自動編碼器(DAE)的操作類似,儘管這些方法中的許多方法都存在將信號概括為不可見的問題。 此外,卷積自動編碼器是一種仍然依賴於其成本函數的架構構造,這是一種挑戰,它定義了它們在去噪的情況下的表現,其中常見的「2 - 範數」可能沒有足夠的描述性

2.2、基於神經網絡的源嵌入

最近在單聲道音頻源分離和去噪方面的成功已經學習了嵌入向量[6,16,17,7]。學習嵌入向量的主要優點是它們繞過了所謂的置換問題,其中必須對學習算法的輸出進行置換以解釋目標源的無序性[18]。另外,使用適當的聚類技術,要分離和去噪的源的數量可以是任意的(儘管這取決於如何執行推斷)。

我們在以下部分中提出的嵌入模型最類似於[7]中發現的深度聚類[6]和掩模推理(DC + MI),但成本函數大大降低.DC + MI網絡在給定光譜幅度的情況下學習嵌入。 混合音頻採樣使用一系列四個雙向LSTM(BLSTM)。除了聚類那些嵌入以創建二進位掩碼,如[6]中所示,學習的非線性變換用於將嵌入直接轉換為比率掩模。這具有限制執行二元掩模固有的一些偽像的優點。然而,這需要將源數量固定為兩個。仍然可以在嵌入上對任意數量的源進行聚類,但是只能從這些聚類構建二進位掩碼。

3.方法

本文中使用的方法結合了第2節中引用文獻的掩模推理能力以及從單聲道音頻信號的語音中去除動態,非平穩噪聲源的部分的靈活性。

3.1、數據集

我們的任務是使用單聲道音頻信號將語音與動態噪聲和語音的混合隔離。所有去噪算法都是在LibriSpeech [19]和UrbanSound8K [20]數據集的混合上進行訓練和評估的。LibriSpeech提供高質量的錄音,包括男性和女性演講者的孤立英語演講,UrbanSound8K提供10種非固定噪音課程的錄音。以各種SNR比率添加來自每個數據集的兩個兩秒剪輯以創建噪聲語音數據。對於除SNMF算法之外的所有訓練階段,SNR比在-5和5dB之間連續變化,其中語音和噪聲分別饋入。沒有使用脈衝響應卷積,以便僅關注去除非靜止噪聲源。我們的技術應用於混響環境中的語音留待將來工作。

對於每種算法的訓練,驗證和插入測試,我們使用來自LibriSpeech數據集的train-clean-100音頻讀數集,它提供大約100個小時的演講,在女性和男性演講者之間均勻分配。對於不合適的測試,我們使用LibriSpeech的dev-clean設置。雖然UrbanSound8K的所有噪聲類型都用於訓練,但每種噪聲類型的噪聲文件都保留用於訓練,驗證和測試。

3.2、 模型

我們的單聲道信號去噪模型假設,附加噪聲與語音信號線性混合,可以分成單獨的源組件。在這種情況下,源是揚聲器或特定類型的噪聲。對於揚聲器噪聲混合中的給定源i,我們的模型掩蓋了幅度響應。該掩碼從短時傅立葉變換(STFT),X(t,f)中的時頻區域中過濾出不屬於給定源的信息,同時傳遞那些時間頻率區間。通常情況下,第i個源的預測掩模(Y_(t,f))^i實現為比率或在我們的情況下是二進位掩碼。我們讓

,其中M <= C,C是我們訓練集中的源總數,M是要混合的數量。

要設置我們的掩模,如果我的來源是最響亮的時間頻率bin(t,f),則是

,否則是

.

與我們之前的工作[8]類似,並受到自然語言處理工作[21]的啟發,我們使用揚聲器嵌入,通過使用兩個向量空間進行優化:輸入和輸出空間。第一個向量空間是隱式定義源的輸入嵌入,並且它與特定的任何源都沒有關聯。 我們還有一個輸出嵌入,明確地訓練到已知來源的語料庫。 推理僅使用輸入向量空間通過聚類推廣到任何可能的源我們的神經網絡輸出。 在我們的表示法中,給定樣本的輸入和輸出向量空間被實現為具有嵌入空間E的張量,分別標記為V_i(t,f)和Vo。 張量的列具有E維(隱藏單位)並表示與給定源相關聯的向量。

為了訓練和生成嵌入,

我們使用遞歸神經網絡回歸到V_i。 為了與[6]和[7]進行比較,我們總共使用了四個BLSTM層,並且我們有一個密集層,它在最終BLSTM產生的輸出2D矢量上進行卷積。 最後一層源嵌入也通過[7]中的非線性變換饋送,以產生比率掩模。

給定時間頻率倉和樣本b的SCE損失[8]表示為

. 然後,

(1)

這裡,S_b是為輸入混合b採樣的源集合,s是來自子集的單個源。 總損失是

,在所有時間頻率箱和批次中所有B輸入的平均值。

(2)

直觀地,時間(t,f)處的神經網絡的輸出是

,並且輸出矢量

是頻率f處的源s的嵌入。

假設對於樣本b,源1在時間頻率bin(t,f)處比源2更響亮。那麼我們理想地喜歡由我們的神經網絡vi產生的嵌入和源1的矢量之間的相關性高。也就是說,我們希望

。同時,vi和源2的矢量之間的相關性應該是低的,因為如果它們足夠不同,這兩個矢量應該是反相關的。也就是說,我們想

從數學角度講,我們將我們的嵌入方向拉向源向量

並將其從非源向量

推開。屬於適當的相關/反相關的來源由標籤Y確定,在前一種情況下為+1,在後一種情況下為1。重要的是要注意,我們可以通過僅優化Sb中的那些源來節省計算和精度,在我們的情況下,S_b將具有兩個元素(一個揚聲器和一個噪聲源)。

另外,在推理期間,我們不使用輸出向量空間Vo。 雖然計算進一步減少,但目的是允許設置不合理的源集。事實上,即使我們可以用較少的來源訓練混合物,我們可以在有任意數量的來源的情況下進行推理。我們的算法(表示為SCE + MI)在Tensorflow,v1.4 [22]中實現,其架構由四個BLSTM層r1,r2,r3,r4組成,每個層為500個單元。接下來是完全連接的層d1,其將第四BLSTM層的輸出映射到輸入向量空間。 BLSTM層使用tanh非線性,完全連接的層是線性的。對於一批輸入X,四個BLSTM層的輸出

。 雖然神經網絡的最終(嵌入)層在技術上是完全連接的線性層,它被實現為r4輸出張量的1D卷積,濾波器為

。然後可以對卷積的輸出進行整形,以給出輸入向量空間

。向量空間輸出通過嵌入維度實際上是1D卷積,其中softmax產生最終比率掩模輸出。此實現允許模型針對任意輸入T運行,這在推理時非常有用。

為了有效評估方程的成本函數。 在批次中,僅在每批中表示的源的源向量被組裝成張量

。Vo中M個揚聲器的順序必須與Y中使用的順序相匹配,但其他方面是武斷的。 為了有效地計算公式中的點積Vi·Vo 在Eq .1廣播,我們適當擴大尺寸。

這給出了點積運算的輸出作為張量

,它與標號Y兼容,因此它們可以在元素上相乘,得到方程式中的sigmoid的自變量。成本函數的剩餘部分很容易評估。

在訓練期間,我們的批量大小為B = 256。 輸入張量的尺寸為

,標籤張量為

其中T = 78是每個樣品的總時間步長,F = 257是使用的頻率倉數。

4.實驗

在所有實驗中,信號被重新採樣並縮放到10kHz,零均值和單位標準差,從中短時間傅立葉變換(STFT)譜圖用Hanning窗口,長度為512和256。我們使用音頻大約兩秒的剪輯,當與之結合時

STFT操作,產生尺寸為25778的輸入特徵(按時間幀的頻率)。複雜階段t,f是單獨保存用於分離後處理。分離來自每個揚聲器的信號和噪聲的頻譜圖(S(n)T,F對於n 2 {1,2,...,C})計算用於訓練和評估目的,而總譜圖由計算元素和

表示揚聲器和噪音ID為n,m。然後通過X_(t,f)光譜圖的大小通過平方根非線性和百分比歸一化。這個類似於[23]中建議的程序;但是我們獲得了使用平方根而不是對數來獲得更好的結果非線性。來源標籤

,f被分配給每個T-F bin給最大幅度的信號賦值為1那個時間和頻率,值為1到所有其他來源。

4.1、算法比較

我們將三種方法與提議的工作進行比較:a線性矩陣分解方法(SNMF),一種去噪自動編碼器(DAE),以及混合深度聚類/掩碼推理架構(DC + MI)。 SNMF從[4]中採用,其中發現了最優的超參數設置並進行了訓練10000個兩秒鐘的噪音和揚聲器音頻剪輯。為了幫助訓練SNMF我們刪除了每個譜圖的部分在每個時間幀的對數最大幅度閾值上。這個在修剪時發現閾值可以隔離口頭語周圍的空音頻。

我們的比較卷積DAE基於[24]和由15個卷積層組成,然後是15個去卷積層。每層包含128個帶有relu激活的5x5過濾器和恆定的輸入大小。使用跳過連接在每隔一對匹配的卷積和反卷積之間層。該模型使用RMSprop進行訓練Nesterov勢頭和學習率為5e-5。

DC + MI網絡是[7]中的體系結構的實現。 我們使用相同的最佳超參數集,除了我們的掩模推理頭的損失函數使用真實的頻譜成分而不是代理。

通過改善源 - 失真比(SDR)來量化每個算法的性能的比較。 針對輸入SNR範圍[5,5] dB和每種噪聲類型,對每種算法的改善SDR度量的評估程度進行評估。

4.2、 重建

在我們的模型的推理時間和DC + MI的深度聚類頭部,

如前一小節所述,對由未知的源混合物組成的信號進行預處理,給出單個源信號St,f的複數T-F估計。生成輸入特徵並通過模型饋送以獲得矢量Vi。然後對矢量執行K均值聚類,以便生成標記預測

,其中每個T-F元素與聚類標記相關聯。這裡,如果關聯矢量Vt,f屬於第k個簇,則元素

,並且

。雖然K-means聚類用於DC和SCE,以便更直接地比較這兩個目標, 球形K-means對於SCE來說更自然。然後,通過聚類獲得的標籤可以用作掩模,以從每個K簇中重建源

。推斷源的TF表示被計算為輸入譜圖的元素乘法與推斷的標籤。

(3)

然後將源頻譜圖

(使用逆STFT)轉換為源波形,完成推理過程。

SCE + MI和DC + MI的掩模推斷頭的輸出和SNMF的輸出是比率掩模,當與原始頻譜圖成元件相乘時,產生相應的揚聲器和噪聲源。這些比率屏蔽技術有可能產生比二進位屏蔽更高質量的音頻,因為T-F箱可以在源之間共享(實際情況就是如此)。

我們的貢獻,複製研究[7,4],評估代碼是開源的,可以在 http://github.com/lab41/magnolia 上找到。

5.結果

我們在一組保持混合物上的實驗結果總結在圖1和2中。SCE + MI的掩模推理頭的性能是與DC + MI相當(輸入信噪比為[-5,-4] dB時為+ 13 dB),而SCE(+11.5 dB)的聚類性能略好於SCE + MI和DC +的聚類 MI算法。因此,當要分離的源的數量是任意的時,SCE可能是更理想的。對於更具統計意義的靜態噪聲源和具有較低SNR的輸入,SDR的改善最大。這可以通過以下事實來解釋:在更高的輸入SNR下,信號已經非常突出,因此改善的空間較小。基於深度學習的方法的性能在輸入SNR之間相對一致,而SNMF看到更顯著的差異。

圖1

(a)性能與噪聲源。 DC + MI(C)代表使用嵌入進行聚類來重建二進位掩碼。 DC + MI(MI)代表使用掩模推斷源分離。 同樣地SCE + MI(C)和(MI)。

圖2

(b)性能與輸入信噪比(SNR)。 輸入SNR的值表示在所示值附近的SNR範圍±0.5dB。(即3.5dB表示[3,4] dB範圍內的SNR)

6. 結論

我們展示了帶掩模推理的SCE為動態噪聲源去噪提供了改進的重建性能。掩模推斷表現良好(平均而言,SDR為+12 dB),無論其耦合的聚類損失如何。 SCE表現出最佳的聚類性能(平均而言,SDR為+11 dB)。這表明在存在任意數量的源的情況下進行去噪,SCE可以提供更好的準確性。

相關焦點

  • 說話人語音特徵子空間分離及識別應用
    目前說話人識別的主要方法一般通過在語音特徵觀察空間建立說話人模型進行,如基於VQ的碼本模型識別方法、基於GMM模型的識別方法以及其他一些方法,這些方法大都利用了說話人語音特徵的統計特性。實驗分析了基於特徵子空間的說話人識別性能,結果證明了這種方法的有效性,特別是在小於3秒的短時測試語音情況下識別性能明顯優於VQ和GMM等方法。2 特徵子空間分離 基於語音特徵子空間分離的說話人識別系統中,說話人模型由特徵子空間表示,模式匹配部分則通過計算輸入測試語音特徵矢量與子空間的距離進行。
  • 基於FPGA的手勢語音轉換器
    我們的手語語音轉換器目的就是就是通過它提供一種有效的途徑將聾啞人的手勢識別出來,並轉換成我們普通人所習慣的語音信息,從而實現聾啞人與我們的有效溝通。目前手語識別可以分為基於視覺的識別系統和基於數據手套的識別系統。基於視覺的手勢識別系統採用常見的視頻採集設備作為手勢感知輸入設備,價格便宜、便於安裝。
  • 基於新閾值函數的小波閾值去噪算法
    小波變換以其多解析度分析的特性,在時頻域內良好的表徵信號的能力以及大小固定形狀可變的窗口等特點,廣泛應用於圖像去噪中,並得到了很好的去噪效果。而小波閾值去噪法是小波分析法在圖像去噪眾多應用中最常用的一種方法,利用閾值處理後的小波係數進行小波反變換重構出去噪後的結果圖像。
  • 基於DSP的語音識別系統的實現及分析
    尤其在會話任務上,自動語音識別系統遠不及人類。因此,語音識別技術的應用已成為一個極具競爭性和挑戰性的高新技術產業。  隨著DSP技術的快速發展及性能不斷完善,基於DSP的語音識別算法得到了實現,並且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優勢,具有廣闊的應用前景。
  • 小波閾值去噪的基本原理_小波去噪閾值如何選取
    打開APP 小波閾值去噪的基本原理_小波去噪閾值如何選取 發表於 2018-01-10 09:46:50 小波閾值去噪的基本原理 小波閾值去噪的基本思想是先設置一個臨界閾值λ,若小波係數小於λ,認為該係數主要由噪聲引起,去除這部分係數;若小波係數大於λ,則認為此係數主要是由信號引起,保留這部分係數,然後對處理後的小波係數進行小波逆變換得到去噪後的信號。
  • 語音識別算法有哪些_語音識別特徵提取方法
    第二種:基於參數模型的隱馬爾可夫模型(HMM)的方法   該算法主要用於大詞彙量的語音識別系統,它需要較多的模型訓練數據,較長的訓練和識別時間,而且還需要較大的內存空間。   一般連續隱馬爾可夫模型要比離散隱馬爾可夫模型計算量大,但識別率要高。
  • 從原理入手,解析基於DSP的漢字語音識別系統的實現方式
    輸入的模擬語音信號首先要進行預處理,包括預濾波、採樣和量化、加窗、端點檢測、預加重等。語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應於語音到半音節概率的計算和半音節到字概率的計算。3 特徵提取目前通用的特徵提取方法是基於語音幀的,即將語音信號分為有重疊的若干幀,對每一幀提取語音特徵。
  • 採用矢量渦旋光的量子人體掃描儀
    結構光由於使用了投影圖案,具有抗散射性,因此成為一種多功能工具。特別是,攜帶軌道角動量(OAM, orbital angular momentum)的結構光模式在生物醫學成像中的應用引起了廣泛的關注。 軌道角動量是光的一種內在屬性,它賦予空間輪廓一種特殊的圓環形狀。還可以構造光的軌道角動量模式的偏振分布。
  • 基於LabVIEW和Matlab混合編程的小波去噪方法
    在Hilbert空間H中的一族函數{- }jj ∈ J稱為是一個框架,如果存在A,B ∈(0,∞) 時,對於所有f ∈ H,有:2 小波降噪原理小波變換具有低熵性、多解析度特性、去相關性、選基靈活性的特點
  • 小波去噪方法及步驟_小波去噪方法的比較
    由於該信號中含有若干不連續點和奇異點,因此用以下幾種方法對圖1b中疊加了高斯白噪聲的Blocks信號(信噪比為7)進行去噪處理,能夠很清楚地比較出這幾種方法的去噪性能。 應用小波分解與重構的方法去噪具體步驟是:根據需要,將含有噪聲信號在某一尺度下分解到不同的頻帶內,然後再將噪聲所處的頻帶置零(或直接提取有用信號所在的頻帶),進行小波重構,從而達到去噪的目的。 圖2是用小波分解與重構法進行去噪的結果。採用的小波是近似對稱的Symmlet8小波,小波分解層數是4,其中圖2a是將圖1b中的含噪信號進行4層小波分解的結果。
  • 基於TMS320F28035的永磁同步電機矢量控制系統研究
    本系統採用id=0控制,該方法由於電樞反應沒有直軸去磁分量,就不會產生去磁效應,也就不會出現因永磁電機退磁而導致電機性能變壞的現象,能保證電機的電樞電流和電磁轉矩成正比,實現轉矩的線性化控制。要實現id=0的解耦控制通常有兩種實施方案:電流滯環控制和速度、電流的雙閉環控制。本系統選用速度、電流的雙閉環控制方式。
  • 基於HMM的連續小詞量語音識別系統的研究
    、小詞量的語音識別系統。2 基於HMM的語音識別系統實現 人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據語法知識和言語需要(不可觀測的狀態)發出音素的參數流。HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩性和局部平穩性,是較為理想的一種語音模型。從整段語音來看,人類語音是一個非平穩的隨機過程,但是若把整段語音分割成若干短時語音信號,則可認為這些短時語音信號是平穩過程,就可以用線性手段對這些短時語音信號進行分析。
  • 語音識別技術原理全面解析
    動態時間規整算法(Dynamic Time Warping,DTW)是在非特定人語音識別中一種簡單有效的方法,該算法基於動態規劃的思想,解決了發音長短不一的模板匹配問題,是語音識別技術中出 現較早、較常用的一種算法。
  • 電弧信號小波去噪分析
    利用小波去噪方法分析電弧信號是小波分析應用於實際工程的重要方面。波變換具有多解析度的特點,在時域和頻域都具有表徵信號局部特徵的能力,適合分析非平穩信號,可以由粗及精地逐步觀察信號。小波變換的基本思想是將原始信號經過伸縮、平移之後分解為一系列子帶信號,這些子帶信號具有不同的頻率特性、不同的空間解析度和方向特性,能夠在時域和頻域表達原始信號的局部特徵,進一步體現分析信號的時、頻局部化特徵。
  • 基於DSP的語音識別計算器電路設計
    根據實際的應用,語音識別可以分為:特定人與非特定人的識別、孤立詞與連續詞的識別、中小詞彙量與無限詞彙量的識別。 考慮到成本及使用範圍因素,本文中應用的是基於TMS320VC5509 DSP的非特定人、孤立詞、小詞彙量的語音識別系統。
  • MATLAB應用在基於噪聲檢測的圖像均值去噪法
    由此,圖像去噪技術應運而生。圖像去噪,即在儘可能地不損失原圖像細節的前提下,去除圖像中無關的噪點。現有的圖像去噪方法[11很多,如:  1 均值濾渡器  均值濾波器是一種典型的線性去噪方法,因為其運算簡單快速,同時又能夠較為有效地去除高斯噪聲。因而適用面較廣。  許多濾除噪聲方法都是在此基礎上發展而來的。其缺點是嚴重破壞了圖像的邊緣,模糊了圖像。
  • 基於TMS320DM642電子穩像算法的實現
    1 基於灰度投影的電子穩像算法1.1 電子穩像基本原理 電子穩像(Electronic Image Stabilization,EIS)是集電子技術、計算機、數位訊號處理、視頻圖像處理等為一體的實現數字圖像序列穩定的技術。電子穩像技術中最基本的是像移補償技術是直接從像面上通過檢測參考圖像和被比較圖像的運動矢量,然後利用算法進行補償的技術。
  • 基於DSP的漢字語音識別系統的實現方式解析
    圖1語音識別系統的處理流圖  在語音識別系統中,模擬的語音信號在完成A/D轉換後成為數位訊號,但時域上的語音信號很難直接用於識別,因此需要從語音信號中提取語音的特徵,一方面可以獲得語音的本質特徵,另一方面也起到數據壓縮的作用
  • 基於嵌入式Linux的語音識別系統硬軟體設計
    在嵌入式Linux作業系統下,運用多進程機制完成了對語音識別晶片、超聲波測距和雲臺的控制,並將語音識別技術應用於多角度超聲波測距系統中。通過測試,系統可以通過識別語音指令控制測量方向,無需手動幹預,最後將測量結果通過語音播放出來。
  • ArcGIS坐標轉換及投影詳解
    地理數據的坐標主要分為兩種方式:地理坐標和投影坐標。地理坐標是球面坐標,簡單來說就是使用經緯度來表示位置坐標,投影是按照一定的數學模型將球面坐標投影到幾何體後,用平面坐標(x和y)來表示位置信息。工作中我們經常會用到地理坐標與投影坐標的轉換。