本文從信號處理應用的角度討論了三種統計性描述方法。
在上一篇有關電氣工程師的統計性描述的文章中,我們看到均值和中位數都可以傳達數據集的集中趨勢。儘管中位數對異常值的敏感度較低,但在電子和數位訊號處理中更經常使用均值。實際上,算術平均值是電氣工程中必不可少的統計技術。
但是,我們通常不僅僅需要一種手段來充分描述或理解數據集。
當我們僅報告中心趨勢時,我們沒有考慮數據的重要方面,即值偏離中心趨勢的方式。
偏離均值
假設我們已經數位化了兩個模擬輸入信號。如果我們將數字代碼轉換回伏特單位並繪製離散時間波形,則它們看起來像這樣:
我們可以通過查看曲線圖來很好地猜測均值:藍色信號的中心趨勢是1.2 V,紅色信號的中心趨勢是0.8V。但是,如果我們僅報告均值,我們將給人的印象是,這兩個信號之間唯一重要的差異是平均值的0.4 V差異(或者我們可以將其稱為DC電平或DC偏移)。顯然,這個故事還有更多。
電氣工程師會本能地將這些波形識別為穩定的DC信號(也許是電源電壓),其中包括相當多的噪聲。更重要的是,我們立即意識到,藍色信號比紅色信號噪聲大。如果僅考慮平均值,則將丟失噪聲性能的主要差異。順便說一下,為什麼我們會在這些信號中感知到噪聲?因為各個值明顯偏離平均值,他們這樣做的方式似乎是隨機的,並且相對於平均值,偏差很小。
當統計學家看到均值小的隨機偏差時,電氣工程師會看到噪聲。
平均偏差
這些信號有多吵?有點吵?非常吵?讓我們嘗試為該問題提供更精確的答案。換句話說,我們需要量化這些數據集中的偏差。
量化偏差時,我的第一個直覺是找到每個數據點與平均值之間的距離,然後計算所有這些距離的平均值。這將為您提供平均偏差(也稱為平均絕對偏差),即,值偏離中心趨勢的典型量。這是數學語言中的平均偏差:
其中N是數據集中值的數量,μ是平均值,x [k]是表示為離散時間變量k的函數的信號。
在該曲線圖中,水平線表示電壓水平,該電壓水平是平均值之上和之下的一個平均偏差。
儘管平均偏差是直觀的,但它並不是量化信號偏離均值趨勢的最常用方法。為此,我們需要標準偏差。
方差和標準偏差
在電氣工程中,平均偏差的問題在於我們正在平均電壓(或電流)差,因此我們在幅度範圍內進行操作。噪聲現象的本質是,在分析噪聲時,我們強調幅度上的功率,因此,我們需要一種在功率範圍內運行的統計技術。
幸運的是,這很容易實現。功率與電壓或電流的平方成正比,因此,我們要做的就是在求和和求平均值之前將差項平方。這個過程導致稱為統計度量方差,由σ2表示(發音為「西格馬平方」):
我們可以將方差描述為表示為功率的信號隨機偏差的平均功率。這意味著方差與我們開始使用的值沒有相同的單位。如果我們正在分析電壓信號的波動,則方差的單位為σ2而不是σ。
如果要表達信號使用原始單位隨機偏離的趨勢,則必須通過將平方根應用於最終值來補償平方差:
該過程生成稱為標準偏差的統計量度,即,信號隨機偏差的平均功率表示為幅度。因此,如果我們正在分析電壓信號,則儘管我們使用電壓偏差的平方來計算標準偏差,但標準偏差的單位為σ。
在該圖中,水平線表示電壓水平,該電壓水平是平均值之上和之下的一個標準偏差。
方差和標準偏差以不同的方式表示相同的信息。儘管據我所知,方差在某些分析情況下更為方便,但通常最好選擇標準差,因為它可以直接解釋為衡量信號偏離均值趨勢的度量。
結論
標準差和方差是在科學和社會科學中經常出現的基本統計技術。我希望本文能幫助您理解這些概念與電信號之間的基本聯繫,並且在下一篇文章中,我們將介紹一些與標準偏差有關的有趣細節。