舊文排版重發,略作修改。
小朋友英語學習的培訓教材中附送了一張音頻CD,作者在鼓搗這張CD的時候,忽然一個問題冒了出來:為什麼CD採用了44.1KHz的採樣率?為什麼不是48KHz?畢竟48這個數字看起來整齊的多。為此作者做了一番搜索和研究,分享給感興趣的朋友。
聲音的基本概念首先介紹一些常見的音頻概念。大家知道人耳能聽到聲音,是因為聲音在音源處產生後,對空氣產生了一系列忽強忽弱的壓力,這種壓力的變化(振動)可以被人耳內部的耳膜感受到,然後經由各種神經細胞,匯總到大腦中形成聲音的感覺。
有時候這種壓力比想像的要大的多,它不僅可以驅動薄薄的耳膜,當強度足夠大時,甚至可以吹動人的頭髮和衣服。參加過室外音樂節的朋友,如果碰巧在現場比較靠近喇叭的地方,應該有切身的體會。人耳能聽到的這種壓力振動的範圍大概在20Hz到20KHz,Hz即赫茲,即每秒鐘振動發生的次數。
除了耳道,身體的其它一些部分也可以感受到聲音的振動,例如骨傳導耳機就是繞過了耳膜,利用頭部骨骼來傳遞聲音的振動。
(骨傳導原理。圖片來自網絡)
音頻信號的採樣因為聲音本質上是一個連續的模擬信號,當聲音被記錄下來,尤其是數位化記錄時,就涉及到採樣率和採樣精度這兩個概念。工科的朋友們可能對奈奎斯特採樣定理比較熟悉,就是對聲音信號做採樣時,採樣頻率一定要大於聲音信號最高頻率的兩倍。一個通用的聲音記錄系統,當然需要應對聲音的大範圍頻率,即20KHz聲音需要的採樣頻率至少是40KHz,考慮到後續的各種傳輸、處理過程帶來的損失,採樣頻率一般會高於40KHz。
(數位化的440Hz正弦波,採樣頻率8KHz,採樣精度8bit)
採樣頻率常用的採樣頻率大概分三個系列,分別以8KHz、12KHz、11.025KHz為基準。由此衍生出來的採樣頻率就有三個系列。
•8K、16K、32K、64K、128K•12K、24K、48K、96K、192K•11.025K、22.05K、44.1K、88.2K
採樣精度如果說採樣頻率對應的是時間維度上對於聲音的採樣,那麼採樣精度就是對應的幅度維度。它把採樣系統所支持的幅度範圍分成若干間隔,然後用一個數字來代表每一個間隔對應的幅度值。當某一個時刻的聲音幅度落在某個間隔時,就用這一間隔的數字來代表這個聲音在這個時刻的幅度。
採樣精度,通常有8bit、16bit、24bit、32bit這幾種。
音頻通道還有一個概念就是聲音通道數量,常見的就是兩個聲道,一左一右。家庭影院聲道數量更豐富一些,一般不大於十個。在電影院中,通常會更多,有幾十個聲道。所以在電影院中聲音復現的更為真實,配合電影畫面使得觀眾有身臨其境的感覺。每個聲道一般都對應錄製時的一個麥克風,當然有些聲道也可以後期合成。
音頻編碼採樣完成後,通常還有個編碼的過程。最直觀的編碼就是PCM格式了,它是一種有正有負的數字表示方式,以衡量特定時刻的聲音幅度。正、負其實是相對的概念,都是相對於數字零所對應的幅度而言。
音頻存儲上面是聲音數位化記錄的一些參數,那麼這些數位化的記錄如何存放?數字記錄生成的文件有好多種,在Windows平臺,最直觀就是wav文件了。相比大家熟悉的MP3格式文件,wav直接保存的就是PCM編碼的聲音幅度信息,而採樣頻率、採樣精度以及聲音通道數目,就在wav文件頭中標明。這樣當一個播放器播放wav文件的時候,它首先讀取文件頭,了解這個聲音的採樣率、採樣精度、聲道數目,就可以恢復出正確的聲音了。
為什麼是44.1KHz日常生活中大家都接觸過CD,記得在2000年前後,當時MP3還未普及,大家聽音樂、歌曲還是主要靠購買CD。CD一般來說是Compact Disc Digital Audio的簡稱,翻譯成中文大概是緊湊型數字音頻盤的意思。最初由飛利浦和索尼在上個世紀80年代初以紅書(Red Book)的形式聯合發布,在1987年被標準化組織IEC接納為正式標準,編號為IEC 60908。這個標準最近一次修訂是在1999年。飛利浦和索尼出版了一系列以顏色命名的標準,全部都是關於Compact Disc的,紅書(Red Book)就是其中描述數字音頻CD的一本。
(CD Logo、CD盤面、早期的CD唱機、放大的CD表面紋路)
IEC 60908整個標準還是挺繁雜的,我們只關注其中的編碼部分。簡單來說,存放於CD中的音頻編碼標準就是聲音通道數為2、採樣精度16bit、編碼格式為線性PCM、採樣率固定是44.1KHz。
(適用於CD的音頻標準IEC60908)
原因一:PCM Adaptor和視頻制式在紅書(Red Book)發布之前的1970年代,還存在著一種錄音設備叫做PCM適配器。顧名思義,它把模擬的音頻信號轉換成數字的PCM編碼,並提供錄製到視頻存儲設備上的接口。
為什麼音頻和視頻攪和在一起?因為當時已有的音頻存儲設備帶寬不夠大,不足以提供16位的PCM數字音頻的存取帶寬,這個帶寬大概在1M~1.5M bit/s,這在當時是一個相當「高」的帶寬,只有視頻存儲設備才有如此高的存取能力。PCM適配器把音頻數據按特定的視頻格式打包,從而可以藉助於已有的「高帶寬」視頻存儲設備實現音頻數據的存取。
(Sony PCM-F1:PCM Adaptor)
好吧,回憶一下文章開頭的問題:為什麼CD的採樣率是44.1KHz?
到這裡,已經非常接近問題的答案了。那就是——
任何新事物都要尊重傳統的力量。
具體到這個問題,就是音頻CD的採樣率沿用了PCM適配器的採樣率,而PCM適配器的採樣率還要能夠兼容視頻存儲設備的特定要求,以便利用當時已有的視頻存取設備來存取其中的音頻數據。
當時大量存在的視頻存儲設備主要支持兩種視頻制式,一種是25幀制式(稱為CCIR 625/50,也叫PAL),一種是30幀制式(稱為EIAN 525/60,也叫NTSC)。當時世界上有電視普及的國家按這兩種制式分為兩個陣營。
首先看30幀(即60場)制式,這種制式的一幀中,可利用來錄製音頻的視頻行最多能有490行,分到每一場(Field)就有245行。在每一視頻行可以平均存儲3個音頻採樣點,那麼音頻出現的頻率就是60*245*3 = 44100。這就是44.1KHz採樣率的由來的原因之一。
同樣在25幀(即50場)制式中,最大可利用的行數是588行,分到每一場有294行,同樣每一行存放3個音頻採樣點,那麼音頻採樣率就是50*294*3 = 44100。
這樣44.1KHz的音頻採樣率可以保證對兩種視頻制式的最大限度兼容。
原因二:Prime Numbers還有一種解釋說明採用44100Hz的原因是,44100可以分解成2、3、5、7四個最小連續質數的平方的乘積。聽起來有些神秘主義的傾向,作者推測這些質數因子有助於系統實現時的頻率合成。
(神秘數字44100可分解為質數平方積)
原因三:Symphony No. 9 (Beethoven)還有一種更為傳奇的說法,就是最初的CD設計團隊發現,如果用48KHz的採樣率的話,一張CD放不下74分鐘版的貝多芬第九交響曲。而採用稍小的44.1KHz,則剛好可以放下。作者感覺這種說法有點兒太傳奇太浪漫了,信不信由您。
(貝多芬第九交響曲手稿)
好了,看到這裡,想必您對CD為何採用44.1KHz的音頻採樣率已經有了一些了解。可以看出,任何一項新技術的發明和發展,都離不開對已有技術的依賴、消化和繼承。任何創新都不是憑空從頭腦中誕生的,而是一步一步腳踏實地的走出來的。這是作者在這個問題的探索中獲得的一點點感悟,與諸君分享。