語音處理檢測技術端點檢測、降噪和壓縮詳解

2021-01-07 電子產品世界

  作為一種人機互動的手段,語音的端點檢測在解放人類雙手方面意義重大。同時,工作環境存在著各種各樣的背景噪聲,這些噪聲會嚴重降低語音的質量從而影響語音應用的效果,比如會降低識別率。未經壓縮的語音數據,網絡交互應用中的網絡流量偏大,從而降低語音應用的成功率。因此,音頻的端點檢測、降噪和音頻壓縮始終是終端語音處理關注的重點,目前仍是活躍的研究主題。

本文引用地址:http://www.eepw.com.cn/article/201710/367885.htm

  為了能和您一起了解端點檢測和降噪的基本原理,帶您一起一窺音頻壓縮的奧秘,科大訊飛資深研發工程師李洪亮將為我們詳解語音處理檢測技術中的熱點——端點檢測、降噪和壓縮 。

  ▎端點檢測

  首先來看端點檢測(Voice Activity Detection, VAD)。音頻端點檢測就是從連續的語音流中檢測出有效的語音段。它包括兩個方面,檢測出有效語音的起始點即前端點,檢測出有效語音的結束點即後端點。

  在語音應用中進行語音的端點檢測是很必要的,首先很簡單的一點,就是在存儲或傳輸語音的場景下,從連續的語音流中分離出有效語音,可以降低存儲或傳輸的數據量。其次是在有些應用場景中,使用端點檢測可以簡化人機互動,比如在錄音的場景中,語音後端點檢測可以省略結束錄音的操作。

  

  為了能更清楚說明端點檢測的原理,先來分析一段音頻。上圖是一段只有兩個字的簡單音頻,從圖上可以很直觀的看出,首尾的靜音部分聲波的振幅很小,而有效語音部分的振幅比較大,一個信號的振幅從直觀上表示了信號能量的大小:靜音部分能量值較小,有效語音部分的能量值較大。語音信號是一個以時間為自變量的一維連續函數,計算機處理的語音數據是語音信號按時間排序的採樣值序列,這些採樣值的大小同樣表示了語音信號在採樣點處的能量。

  

  採樣值中有正值和負值,計算能量值時不需要考慮正負號,從這個意義上看,使用採樣值的絕對值來表示能量值是自然而然的想法,由於絕對值符號在數學處理上不方便,所以採樣點的能量值通常使用採樣值的平方,一段包含N個採樣點的語音的能量值可以定義為其中各採樣值的平方和。

  這樣,一段語音的能量值既與其中的採樣值大小有關,又與其中包含的採樣點數量有關。為了考察語音能量值的變化,需要先將語音信號按照固定時長比如20毫秒進行分割,每個分割單元稱為幀,每幀中包含數量相同的採樣點,然後計算每幀語音的能量值。

  如果音頻前面部分連續M0幀的能量值低於一個事先指定的能量值閾值E0,接下來的連續M0幀能量值大於E0,則在語音能量值增大的地方就是語音的前端點。同樣的,如果連續的若干幀語音能量值較大,隨後的幀能量值變小,並且持續一定的時長,可以認為在能量值減小的地方即是語音的後端點。

  現在的問題是,能量值閾值E0怎麼取?M0又是多少?理想的靜音能量值為0,故上面算法中的E0理想狀態下取0。不幸的是,採集音頻的場景中往往有一定強度的背景音,這種單純的背景音當然算靜音,但其能量值顯然不為0,因此,實際採集到的音頻其背景音通常有一定的基礎能量值。

  我們總是假設採集到的音頻在起始處有一小段靜音,長度一般為幾百毫秒,這一小段靜音是我們估計閾值E0的基礎。對,總是假設音頻起始處的一小段語音是靜音,這一點假設非常重要!!!!在隨後的降噪介紹中也要用到這一假設。在估計E0時,選取一定數量的幀比如前100幀語音數據(這些是「靜音」),計算其平均能量值,然後加上一個經驗值或乘以一個大於1的係數,由此得到E0。這個E0就是我們判斷一幀語音是否是靜音的基準,大於這個值就是有效語音,小於這個值就是靜音。

  至於M0,比較容易理解,其大小決定了端點檢測的靈敏度,M0越小,端點檢測的靈敏度越高,反之越低。語音應用的場景不同,端點檢測的靈敏度也應該被設置為不同的值。例如,在聲控遙控器的應用中,由於語音指令一般都是簡單的控制指令,中間出現逗號或句號等較長停頓的可能性很小,所以提高端點檢測的靈敏度是合理的,M0設置為較小值,對應的音頻時長一般為200-400毫秒左右。在大段的語音聽寫應用中,由於中間會出現逗號或句號等較長時間的停頓,宜將端點檢測的靈敏度降低,此時M0值設置為較大值,對應的音頻時長一般為1500-3000毫秒。所以M0的值,也就是端點檢測的靈敏度,在實際中應該做成可調整的,它的取值要根據語音應用的場景來選擇。

  以上只是語音端點檢測的很簡單的一般原理,實際應用中的算法遠比上面講的要複雜。作為一個應用較廣的語音處理技術,音頻端點檢測仍然是一個較為活躍的研究方向。科大訊飛已經使用循環神經網絡(Recurrent Neural Networks, RNN)技術來進行語音的端點檢測,實際的效果可以關注訊飛的產品。

  ▎降噪

  降噪又稱噪聲抑制(Noise Reduction),前文提到,實際採集到的音頻通常會有一定強度的背景音,這些背景音一般是背景噪音,當背景噪音強度較大時,會對語音應用的效果產生明顯的影響,比如語音識別率降低,端點檢測靈敏度下降等,因此,在語音的前端處理中,進行噪聲抑制是很有必要的。

  噪聲有很多種,既有頻譜穩定的白噪聲,又有不穩定的脈衝噪聲和起伏噪聲,在語音應用中,穩定的背景噪音最為常見,技術也最成熟,效果也最好。本課程只討論穩定的白噪聲,即總是假設背景噪聲的頻譜是穩定或者是準穩定的。

  前面講的語音端點檢測是在時域上進行的,降噪的過程則是在頻域上進行的,為此,我們先來簡單介紹或者說複習一下用於時域-頻域相互轉換的重要工具——傅立葉變換。

  為了更容易理解,先看高等數學中學過的傅立葉級數,高等數學理論指出,一個滿足Dirichlet條件的周期為2T的函數f(t),可以展開成傅立葉級數:

  

  

  對於一般的連續時域信號f(t),設其定義域為[0,T],對其進行奇延拓後,其傅立葉級數如下式:

  

  bn的計算同上,由上式可知,任何一個連續的時域信號f(t),都可以由一組三角函數線性疊加而成。或者說, f(t)都可以由一個三角函數線性組合組成的序列來無限的逼近。信號的傅立葉級數展示的是構成信號的頻率以及各個頻率處的振幅,因此,式子的右端又可以看做是信號f(t)的頻譜,說的更直白一點,信號的頻譜就是指這個信號有哪些頻率成分,各個頻率的振幅如何。上式從左到右的過程是一個求已知信號的頻譜的過程,從右到左的過程是一個由信號的頻譜重構該信號的過程。

  雖然由信號的傅立葉級數很容易理解頻譜的概念,但在實際中求取信號的頻譜時,使用的是傅立葉級數的一種推廣形式——傅立葉變換。

  傅立葉變換是一個大的家族,在不同的應用領域,有不同的形式,在這裡我們只給出兩種形式——連續形式的傅立葉變換和離散傅立葉變換:

  

  其中的j是虛數單位,也就是j*j=-1,其對應的傅立葉逆變換分別為:

  

  在實際應用中,將數字採樣信號進行傅立葉變換後,可以得到信號的頻譜。頻域上的處理完成後,可以使用傅立葉逆變換將信號由頻域轉換到時域中。對,傅立葉變換是一個可以完成由時域向頻域轉換的重要工具,一個信號經傅立葉變換後,可以得到信號的頻譜。

  以上是傅立葉變換的簡單介紹,數學功底不太好的朋友看不大懂也沒關係,只要明白,一個時域信號進行傅立葉變換後,可以得到這個信號的頻譜,即完成如下轉換:

  

  左面的是時域信號,右面的是對應的頻譜,時域信號一般關注的是什麼時間取什麼值,頻域信號關心的是頻率分布和振幅。

  有了以上的理論作為基礎,理解降噪的原理就容易多了,噪音抑制的關鍵是提取出噪聲的頻譜,然後將含噪語音根據噪聲的頻譜做一個反向的補償運算,從而得到降噪後的語音。這句話很重要,後面的內容都是圍繞這句話展開的。

  噪聲抑制的一般流程如下圖所示:

  

  同端點檢測類似,假設音頻起始處的一小段語音是背景音,這一假設非常重要,因為這一小段背景音也是背景噪聲,是提取噪聲頻譜的基礎。

  降噪過程:首先將這一小段背景音進行分幀,並按照幀的先後順序進行分組,每組的幀數可以為10或其他值,組的數量一般不少於5,隨後對每組背景噪聲數據幀使用傅立葉變換得到其頻譜,再將各頻譜求平均後得到背景噪聲的頻譜。

  得到噪聲的頻譜後,降噪的過程就非常簡單了,上圖下面左側的圖中紅色部分即為噪聲的頻譜,黑色的線為有效語音信號的頻譜,兩者共同構成含噪語音的頻譜,用含噪語音的頻譜減去噪音頻譜後得到降噪後語音的頻譜,再使用傅立葉逆變換轉回到時域中,從而得到降噪後的語音數據。

  下圖展示了降噪的效果

  

  左右兩幅圖是降噪前後時域中的對比,左面的是含噪語音信號,從圖中可以看到噪聲還是很明顯的。右側的是降噪後的語音信號,可以看出,背景噪聲被大大的抑制了。

  下面兩幅圖是頻域中的對比

  

  其中橫軸表示時間軸,縱軸表示頻率,左面的是含噪語音,其中的亮紅色部分是有效語音,而那些像沙子一樣的紫色的部分則是噪聲。從圖中可以看出,噪聲不僅是「無時不在」,而且還是「無處不在」,也就是在各種頻率處都有分布,右側的是降噪後的語音,可以很明顯的看出,降噪前那些像沙子一樣的紫色的部分淡了很多,就是噪聲被有效的抑制了。

  在實際應用中,降噪使用的噪聲頻譜通常不是一成不變的,而是隨著降噪過程的進行被持續修正的,即降噪的過程是自適應的。這樣做的原因一方面是語音數據前部的靜音長度有時不夠長,背景噪聲數據不足導致得到的噪聲頻譜往往不夠準確,另一方面,背景噪聲往往不是絕對穩定的,而是漸變的甚至會突變到另一種穩定的背景噪聲。

  這些原因都要求在降噪的過程中對使用的噪聲頻譜做及時修正,以得到較好的降噪效果。修正噪聲頻譜的方法是使用後繼音頻中的靜音,重複噪聲頻譜提取算法,得到新的噪聲頻譜,並將之用於修正降噪所用的噪聲頻譜,所以降噪的過程中仍然要使用端點檢測中用到的如何判斷靜音。噪聲頻譜修正的方法或者是新舊頻譜進行加權平均,或者使用新的噪聲頻譜完全替換使用中的噪聲頻譜。

  以上介紹的是降噪的非常簡單的原理。實際應用中的降噪算法遠比上面介紹的要複雜,現實中的噪聲源多種多樣,其產生的機理和特性也較為複雜,所以噪聲抑制在現今仍然是一個較為活躍的研究領域,各種新技術也層出不窮,比如在實際應用中已經使用了多麥克風陣列來進行噪聲抑制。

  ▎音頻壓縮

  音頻壓縮的必要性眾所周知,不再贅述。所有的音頻壓縮系統都要求有兩種對應的算法,一種是運行於源端上的編碼算法(encoding),另一種是運行於接收端或用戶終端的解碼算法(decoding)。

  編碼算法和解碼算法表現出一定的不對稱性。這種不對稱性一是表現在編碼算法和解碼算法的效率可以不同。音頻或視頻數據在存儲時,通常只被編碼一次,但將被解碼成千上萬次,所以編碼算法較複雜、效率降低、費用昂貴是可以被接受的,但解碼算法一定要快速、簡單而且廉價。編碼算法和解碼算法的不對稱性還表現在編碼和解碼的過程通常是不可逆的,也就是說,解碼後得到的數據和編碼之前的原始數據可以是不同的,只要它們聽起來或看起來是一樣的即可,這種編解碼算法通常稱為有損的,與此對應的是,如果解碼後得到和原始數據一致的數據,這種編碼和解碼稱為無損的。

  音視頻編解碼算法大多是有損的,因為忍受一些少量信息的丟失,往往可以換來壓縮率的大幅提升,音頻信號的壓縮編碼採用了數據編碼中的一些技術,如熵編碼、波形編碼、參數編碼、混合編碼、感知編碼等。

  本次課重點介紹感知編碼,相對於其他的編碼算法,感知編碼基於人耳聽覺的一些特性(心理聲學),去除音頻信號中的冗餘,從而達到音頻壓縮的目的。相對於其他的音頻編碼算法(無損的),在人耳沒有感覺到明顯失真的條件下,可以達到10倍以上的較大壓縮率。

  首先來介紹感知編碼的心理聲學基礎。音頻壓縮的核心是去除冗餘。所謂冗餘就是語音信號中包含的不能為人耳所感知的信息,它對人類確定音色、音調等信息沒有任何幫助,比如,人耳能聽到的聲音頻率範圍為20-20KHz,無法感知頻率低於20Hz的次聲波和頻率高於20KHz的超聲波。再比如,人耳也無法聽到一段「不夠響」的聲音。感知編碼就是利用了人類聽覺系統的這類特性,達到去除音頻冗餘信息的目的。

  感知編碼中的心理聲學主要有:頻率屏蔽、時域屏蔽、可聽度閾值等。

  

  頻率屏蔽 頻率屏蔽在生活中處處可見,比如你在家中坐在沙發上安靜的看電視,突然,正在裝修的鄰居家一陣很刺耳的電鑽鑽牆的聲音傳來,這時你所能聽到的只有手提電鑽發出的很強的噪聲,儘管此時電視所發出的聲音仍然在刺激著你的耳膜,但你卻充耳不聞,也就是說,一段強度很高的聲音可以完全屏蔽一段強度較低的聲音,這種現象稱為頻率屏蔽。

  

  時域屏蔽 承接前一個例子,不僅在電鑽發出聲音的時間內人耳聽不到電視機的聲音,就是在電鑽的聲音剛停下來的一小段時間內,人耳也聽不到電視機的聲音,這種現象稱為時域屏蔽。產生時域屏蔽的原因是人類的聽覺系統是一個增益可調的系統,聽強度較大的聲音時,增益較低,聽強度較小的聲音時,增益較高。有時人類甚至藉助外部手段來改變聽覺系統的增益,比如,捂耳朵以避免強度很大的聲音損傷耳膜,而屏住呼吸、側耳、以手放耳廓後更是聽較弱聲音時的常見行為。在上例中,強度很大的聲音剛消失時,聽覺系統需要一小段時間來調高增益,正是在這一小段時間內產生了時域屏蔽。

  下面來說可聽度閾值,它對於音頻壓縮灰常重要。

  設想在一個安靜的房間中,一臺由計算機控制的揚聲器可以發出某一頻率的聲音,剛開始時揚聲器功率較小,處於一定距離上的聽覺正常的人聽不到揚聲器發出的聲音。然後開始逐漸增大揚聲器的功率,當功率增大到剛好可以被聽見的時候,記錄下此時揚聲器的功率(聲強級,單位分貝),這個功率就是這個頻率下的可聽度閾值。

  然後改變揚聲器所發音頻的頻率,重複以上實驗,最終獲得的可聽度閾值隨頻率變化的曲線如下圖所示:

  

  由圖中可以很明顯的看出,人類的聽覺系統對頻率在1000-5000Hz範圍的聲音最敏感,頻率越接近兩側,人類聽覺反應越遲鈍。

  回過頭來再看頻率屏蔽的情形,這次實驗在房間中增加一個頻率為150Hz,強度為60dB的信號,然後重複實驗,實驗得出的可聽度閾值曲線如下圖所示:

  

  從圖中很明顯的看出,可聽度閾值曲線在150Hz附近被強烈的扭曲了,被向上提高了很多。這意味著,本來位於可聽度閾值之上的150Hz附近的某個頻率的聲音,有可能由於150Hz的更強的信號的存在而變得不可聞了,也就是被屏蔽了。

音頻壓縮1#e#

  感知編碼的基本規則就是,永遠不需要對人耳聽不到的信號進行編碼,簡單來說就是,聽不到的信號不需要編碼,這句廢話恰恰是語音壓縮研究的重點之一。廢話的另外一種含義就是非常容易理解的正確的話。言歸正傳,哪些東西聽不見呢?功率低於可聽度閾值的信號或者說分量,被屏蔽的信號或者說分量,這些人耳都聽不見,都是上文提到的「冗餘」。

  以上是心裡聲學的一些東西。要想很好的理解音頻壓縮,還需要理解一個更重要的概念:子帶。子帶(subband)是指這樣的一種頻率範圍,當兩個音調的頻率位於一個子帶內時,人就會把兩個音調聽成一個。更一般的情況是,如果一個複雜信號的頻率分布位於一個子帶內時,人耳的感覺是該信號等價於一個頻率位於該子帶中心頻率處的簡單信號,這是子帶的核心內涵。簡單說,子帶是指一個頻率範圍,頻譜位於這個範圍內的信號可以用一個單一頻率的分量來代替。

  

  一般等價的頻率取子帶的中心頻率,振幅取子帶內個頻率分量振幅的加權和,更簡單的方法則是將各頻率分量的振幅直接相加,作為等價信號的振幅,這樣一個範圍內的頻率分量用一個分量就可以代替了。

  設一個信號的頻譜頻率最低值為w0,最大值為w1。子帶編碼就是將w0-w1之間的頻率範圍劃分成若干子帶,然後每個子帶範圍內的分量用一個等價的頻率分量來替換。這樣,一個具有複雜頻譜的信號可以等價為一個頻譜構成灰常簡單的信號——頻譜被大大簡化了,需要存儲的東西就非常少了。

  從以上過程不難知道,子帶如何劃分對壓縮後音頻的質量影響很大(畢竟是近似等價)。子帶的劃分方法是子帶編碼的一個很重要的研究主題,大致可以分為等寬子帶編碼和變寬子帶編碼,見名知意,不解釋。

  子帶劃分後子帶數量的不同導致了壓縮算法的不同等級。容易知道,碼率越低壓縮率越高時,子帶數量少,同時音質較差。相反的情況也容易理解。

  理解了子帶編碼,音頻壓縮就很容易理解了,一個信號經過一組三角濾波器(等同於一組子帶)後,被精簡為數量很少的頻率分量。然後考察這些頻率分量,能量或者說振幅位於可聽度閾值曲線之下的直接無視(刪除該分量,因為聽不到)。再考察餘下的兩兩相鄰的頻率分量,如果其中一個被旁邊的頻率屏蔽,也刪除掉。經過以上的處理,一個複雜信號的頻譜所含有的頻率分量就很簡單了,使用很少的數據就可以存儲或者傳輸這些信息。

  解碼的時候使用傅立葉逆變換將上面得到的簡單頻譜重構到時域上,得到解碼後的語音。

  以上就是音頻壓縮的簡單原理,下面談談音頻編解碼庫。

  可以公開獲取的音頻編解碼開源庫很多,其特點和能力也有所不同,如下圖:

  

  由圖中可以看到,AAC和MP3等走的是「高端路線」,用來對高採樣率的音樂進行編碼,而AMR和SPEEX等走的是中低端路線,可以處理16K採樣率以下的語音信號,這對於語音合成、語音識別、聲紋識別等語音應用足夠了。

  科大訊飛語音雲使用的是SPEEX系列,算法相關信息如下圖所示:

  

  Speex編解碼庫壓縮率變換範圍較廣,壓縮等級可供選擇的範圍較寬,所以應用在網絡狀況較為複雜的移動終端應用中甚為合適。

  好了,以上就是本次課分享的全部內容。

  小結:

  音頻端點檢測、降噪和語音壓縮,很多人覺得神秘、難於理解和難以把握。但經李老師娓娓道來,平時感覺高大上的語音處理技術也被講的深入淺出。原來,不需要很高深的理論功底也可以理解這些技術的關鍵:音頻端點檢測的關鍵是根據前面的靜音確定用來分辨靜音和有效語音的標尺,降噪的關鍵是使用前面的一小段背景噪音提取出噪聲的頻譜,音頻壓縮方法之一是充分利用人類的心裡聲學,劃分子帶,去除冗餘等。

  讓我們一起關注語音處理技術在以上幾個方面的最新發展吧。

  演講嘉賓介紹

  李洪亮,畢業於中國科學技術大學。科大訊飛資深研發工程師,長期從事語音引擎和語音類雲計算相關開發,科大訊飛語音雲的締造者之一,主導研發的用於訊飛語音雲平臺上的語音編解碼庫,日使用量超過二十億。主導語音類國家標準體系的建設,主導、參與多個語音類國家標準的制定。 他今天的分享將分為兩大部分,第一部分是端點檢測和降噪,第二部分是音頻壓縮。

相關焦點

  • 中文語音處理在數字助聽器的設計
    「 算法 」 可以被簡單地看作為實現某些特定信號處理功能的指令序列。中文語音特徵可以通過算法研究來形成的。數位訊號處理器和算法構成了數字助聽器的 DSP 線路。包含多通道動態範圍壓縮、噪音衰減等處理,設計助聽器的算法的主要目標是利用中文語音處理技術,即使在不同的聽音環境中,須確保言語被聽見並聆聽舒適。同時,利用數字助聽器改善漢語可懂度,使有聽力損失的中國患者能更容易地理解漢語。
  • 壓縮空氣中的露點和水分檢測
    同時,為了檢測乾燥的效果,為了控制水含量,我們也都需要對水分進行檢測,常用的就是做露點檢測。 露點是一個溫度值,它的單位是攝氏度。但是我們看具體的過程就知道,露點雖然是一個溫度值,但是它的內涵還是一個含水量的問題。工業上普遍採用的是用露點計來測量壓縮空氣的露點。但是使用它又有一個比較大的弊端。
  • 水泵噪聲如何降噪處理
    水泵降噪處理方案能夠有效的治理水泵產生的震動噪音,降低低頻噪音對周圍的影響。經過治理後噪音值低於55分貝,滿足業主以及物業對聲值的要求。一、水泵降噪處理項目背景杭州某小區內因水泵設備引起周圍噪音超標,給周圍業主的日常生活帶來嚴重困擾,經過檢測噪音值達到了80分貝,嚴重的汙染了周圍的聲環境。
  • ZLG深度解析:語音識別技術
    本文將為大家從語音前端處理、基於統計學語音識別和基於深度學習語音識別等方面闡述語音識別的原理。隨著計算機技術的飛速發展,人們對機器的依賴已經達到一個極高的程度。語音識別技術使得人與機器通過自然語言交互成為可能。最常見的情形是通過語音控制房間燈光、空調溫度和電視的相關操作等。
  • 深度解析音頻檢測背後的技術 | 雷鋒網公開課
    針對說話內容有語音識別、關鍵詞檢索等;針對語種的判別有語種識別的技術;針對說話人的識別有聲紋識別技術;針對說話內容無關的通常採用音頻比對的技術來進行檢測。語音識別的關鍵技術——聲學模型語音識別的聲學模型主要有以下兩種:混合聲學模型和端到端的聲學模型。
  • 深度解析音頻檢測背後的技術|硬創公開課
    首先要進行音頻預處理,音頻格式轉碼、語音降噪等,然後把處理後的文件存儲;接下來,把結果反饋給業務網關,由音頻比對對已知錄音片段進行檢測,如果有匹配這些錄音片段就反饋結果——存在詐騙信息。如果經過音頻比對沒有發現詐騙信息,我們會調用關鍵詞檢索服務。
  • 深度解析音頻檢測背後的技術
    首先要進行音頻預處理,音頻格式轉碼、語音降噪等,然後把處理後的文件存儲;接下來,把結果反饋給業務網關,由音頻比對對已知錄音片段進行檢測,如果有匹配這些錄音片段就反饋結果——存在詐騙信息。 如果經過音頻比對沒有發現詐騙信息,我們會調用關鍵詞檢索服務。
  • 亞馬遜美國站合規系列——CPC認證CPC檢測報告註冊,流程和費用詳解...
    擅長亞馬遜運營管理,電商財稅和智慧財產權,歐美認證等。CPC強制認證費用詳解 Goman團隊經常接到朋友們的諮詢CPC認證,也處理過幾十種兒童產品的CPC認證,並且順利通過亞馬遜平臺審核。在此,跟大家一起分享關於兒童CPC認證的具體事宜。希望大家能夠旺季大麥不掛科。
  • AMBE2000在語音通信中的設計
    根據奈奎斯特理論,要想不失真地重構語音信號,採樣頻率不能低於40 kHz,按8位採樣精度計算,語音數據量也有320kbit/s,佔用的數據帶寬多,嚴重破壞通信系統(特別是無線通信系統)的通信性能。因此需要尋找合適的語音編碼方法,將語音數據率壓縮到理想狀態,使其能夠佔用較少的帶寬,實現理想的通信效果。
  • Python 圖像處理 OpenCV (13): Scharr 算子和 LOG 算子邊緣檢測技術
    Scharr 算子是對 Sobel 算子差異性的增強,兩者之間的在檢測圖像邊緣的原理和使用方式上相同。而 Scharr 算子的主要思路是通過將模版中的權重係數放大來增大像素值間的差異。LOG 算子LOG ( Laplacian of Gaussian ) 邊緣檢測算子是 David Courtnay Marr 和 Ellen Hildreth 在 1980 年共同提出的
  • 基於語音識別的移動電子病歷應用探索
    在此背景下,需要將語音識別技術更好地應用於電子病歷信息錄入過程,構建更高質量、更高效率的電子病歷。語音識別基本原理語音識別是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的一種技術,也就是讓機器聽懂人類的語音,把用戶說的詞語逐字轉化為文字,並將此文字正確地顯示出來。
  • 疫情中常見的帳篷實驗室和移動檢測車是什麼?專家詳解來了
    此次武漢一線的新冠肺炎疫情防控過程中,軍事醫學專家組的帳篷式移動實驗室和移動檢測車為專家組開展新型冠狀病毒核酸檢測提供了關鍵技術平臺,發揮了重要作用。那麼,什麼是帳篷式移動實驗室和移動檢測車?其技術特點如何?移動生物安全實驗室會影響周圍環境的安全嗎?
  • 魅族POP Pro真無線降噪耳機發布,水墨留白設計,降噪深度35分貝
    1月11日上午,魅族科技正式發布魅族POP Pro主動降噪耳機,這是魅族首款支持ANC主動降噪功能的TWS真無線藍牙耳機,耳機採用三重混合主動降噪技術,官方宣傳最大降噪深度35dB。魅族POP Pro主動降噪耳機售價499元,將於1月12日 10:00 在官網渠道開售。
  • 小分貝拾取,高分貝降噪,還能場景定製!訊飛諦聽,不止於聽
    我們知道,聲音在傳播過程中會發生衰減,不同方位的聲源會導致所拾取語音音量和效果差異較大,而諦聽採用了全自動聲源定位和自適應波束形成技術,使得諦聽可以輕鬆拾取運動的聲源。當然,如此精準的拾音,還得益於訊飛自主研發的降噪算法。現實環境各種幹擾噪聲不斷,再加上回波和混響,使得語音信號的處理更加困難。面對噪音的挑戰,訊飛諦聽首先通過聲音定位技術精準拾取音源,進行語音增強實現初步降噪,然後通過波束形成和基於深度學習的語音增強算法,對非方向性和方向性的噪聲進行抑制,最後對音量大小自動增益並根據人耳的聽覺特點進行優化,使輸出的聲音更加飽滿。
  • 供水管網用377螺旋鋼管日照市檢測詳解
    供水管網用377螺旋鋼管日照市檢測詳解 ,「ft4g5p2x」   供水管網用377螺旋鋼管日照市檢測詳解    這類水垢的清除應按疏鬆水垢、酸洗、清除掛灰的步驟進行。與原一步法相比,提高了生產率。氣孔。
  • 智能語音機器人工作原理解析,淺談VAD技術
    ,語音機器人(電話機器人、客服機器人、電銷機器人,……),在生活中很常見,表現都讓人驚喜。同時他們工作原理也大致相同。一般智能語音助理或語音機器人工作原理大致如下:第一階段:語音到文本的過程。信號源→設備(捕獲音頻輸入)→增強音頻輸入→檢測語音→轉換為其他形式(如文本)第二階段:響應過程。處理文本(如用NLP處理文本,識別意圖)→操作響應。
  • 為何要做兩輪核酸檢測?專家詳解
    為何要做兩輪核酸檢測?專家詳解來了→  4日,瀋陽市又新增1例本土確診病例,中風險地區新增3個,鐵西區、皇姑區、于洪區開啟第二輪全員核酸檢測。昨天,瀋陽兩家醫療機構吊銷執業許可。《新聞1+1》今日連線中共瀋陽市委常委、副市長、市政府黨組副書記高偉。  瀋陽已經半「封城」了?  怎樣做好重點管控區域的生活保障?
  • DSP數位訊號處理主導攝像機的發展進程
    三星光電子推出了SV-IV第四代高性能DSP圖像引擎,該晶片融合了精密圖像分析技術,具備SSNRIII、新升級的2D/3D影像降噪技術,使得攝像機的影像得到大大改進。松下推出了具備第五代超級寬動態技術(SD5)的模擬和數字攝像機。其已經不僅僅局限於傳統快門及信號處理技術使整體圖像的表現效果,而是融合了超級動態+自動暗區補償+智能移動偵測三大核心技術。
  • 數位訊號助聽器_數位訊號處理在助聽器上的應用 - CSDN
    「 算法 」 可以被簡單地看作為實現某些特定信號處理功能的指令序列。中文語音特徵可以通過算法研究來形成的。數位訊號處理器和算法構成了數字助聽器的 DSP 線路。包含多通道動態範圍壓縮、噪音衰減等處理,設計助聽器的算法的主要目標是利用中文語音處理技術,即使在不同的聽音環境中,須確保言語被聽見並聆聽舒適。同時,利用數字助聽器改善漢語可懂度,使有聽力損失的中國患者能更容易地理解漢語。
  • 以色列開發新冠病毒語音檢測法 識別感染者獨特的「聲音...
    據外媒報導,3月24日,以色列國防部稱正在開發一種通過語音檢測新冠病毒的方法,或可識別感染者的聲音。據悉,因新冠病毒影響呼吸系統,患者的聲音和呼吸模式也會出現跡象,出現獨特的「聲音指紋」,或能幫助檢測是否感染。