20.方差/標準差/數學期望/正態分布/高斯函數(數學篇)--- OpenCV從零開始到圖像(人臉 + 物體)識別系列

2021-02-25 小嗷的日常

本文作者：小嗷

微信公眾號：aoxiaoji

吹比QQ群：736854977

簡書連結：https://www.jianshu.com/u/45da1fbce7d0

那是你和我的傾城時光。

雖然坎坷，雖然彷徨，

可只因有幸遇到唯一一個你，

與財富無關，

與一切地位、名聲、權力，

沒有半點瓜葛。

裝逼結束。補補上上篇的數學

哎！

本文你會找到以下問題的答案:

方差

標準差

數學期望

正態分布

高斯函數

2.1 方差

方差描述隨機變量對於數學期望的偏離程度。（隨機變量可以看成隨機像素點）

兩人的5次測驗成績如下：(X,Y代表2個人，E(X)代表平均分)

X： 50，100，100，60，50 E(X)=72；Y： 73， 70， 75，72，70 E(Y)=72。

平均成績相同，但X 不穩定，對平均值的偏離大。

公式如下：

平均數：

方差公式：

用途：環境的不確定因素波動小，穩定性好，識別的成功率越高。即：方差越小越穩定 (方差越大則波動越大)

2.2 標準差

方差是數據的平方，與檢測值本身相差太大，難以直觀的衡量，所以常用方差開根號換算回來，也就是標準差。

同理，方差開個根號之後，更加直觀看出數據本身的離散程度（波動大小）

如上圖為誤差 + 平均差 + 標準差

還記得均值濾波，在矩陣內的像素點波動大的時候，均值就更加不靠譜了，振鈴效應也就越明顯。

比如一個班男生的平均身高是170cm,標準差是10cm,那麼方差就是100cm^2。可以進行的比較簡便的描述是本班男生身高分布是170±10cm，方差就無法做到這點。

如果標準差大的話，我們是否可以考慮這附近可能有邊緣，波動大代表我們矩陣均值賦予的像素值不靠譜？（這點也是小嗷突發奇想）

看不懂我寫什麼，請看回我卷積那篇，應該是上上篇。

2.3 數學期望

某城市有10萬個家庭，沒有孩子的家庭有1000個，有一個孩子的家庭有9萬個，有兩個孩子的家庭有6000個，有3個孩子的家庭有3000個。

則此城市中任一個家庭中孩子的數目是一個隨機變量，記為X。它可取值0，1，2，3。

其中，X取0的概率為0.01（沒孩子的概率），取1的概率為0.9（1個孩子的概率），取2的概率為0.06（2個孩子的概率），取3的概率為0.03（3個孩子的概率）。

則，它的數學期望

E(x) = 0 x 0.01 + 1 x 0.9 + 2 x0.06 + 3 x 0.03 = 1.11

公式如下：

即此城市一個家庭平均有小孩1.11個。

2.4 正態分布

正態分布需要用到：數學期望為μ，方差為σ^2。

若隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布，記為N(μ，σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置，其標準差σ決定了分布的幅度。下圖為正態分布圖：

公式如下：

當μ = 0,σ = 1時的正態分布是標準正態分布。

標準正態分布公式如下：

由於「小概率事件」和假設檢驗的基本思想「小概率事件」通常指發生的概率小於5%的事件，認為在一次試驗中該事件是幾乎不可能發生的。由此可見X落在(μ-3σ,μ+3σ)以外的概率小於千分之三，在實際問題中常認為相應的事件是不會發生的，基本上可以把區間(μ-3σ,μ+3σ)看作是隨機變量X實際可能的取值區間，這稱之為正態分布的「3σ」原則。

某些醫學現象，如同質群體的身高、紅細胞數、血紅蛋白量，以及實驗中的隨機誤差，呈現為正態或近似正態分布；有些指標（變量）雖服從偏態分布，但經數據轉換後的新變量可服從正態或近似正態分布，可按正態分布規律處理。其中經對數轉換後服從正態分布的指標，被稱為服從對數正態分布。

即：很多隨機變量的概率分布都可以近似地用正態分布來描述。

正態分布曲線及面積分布圖非常清晰的展示了重點，那就是基區佔68.27%，是主體，要重點抓，此外95%，99%則展示了正態的全面性。認識世界和改造世界一定要住住重點，因為重點就是事物的主要矛盾，它對事物的發展起主要的、支配性的作用。抓住了重點才能一舉其綱，萬目皆張。事物和現象紛繁複雜，在千頭萬緒中不抓住主要矛盾，就會陷入無限瑣碎之中。由於我們時間和精力的相對有限性，出於效率的追求，我們更應該抓住重點。在正態分布中，基區佔了主體和重點。如果我們結合20/80法則，我們更可以大膽的把正區也可以看做是重點。

注意：我們在後面深度學習，是否能根據正態分布，讓程序抓重點，自動識別這是條狗？而不是通過訓練。

正態分布（Normal distribution），也稱「常態分布」，又名高斯分布（Gaussian distribution）

2.5 高斯函數

一維高斯函數：

a表示得到曲線的高度，b是指曲線在x軸的中心，c指width(與半峰全寬有關),圖形如下：

2、根據一維高斯函數，可以推導得到二維高斯函數：

在圖形上，正態分布是一種鐘形曲線，越接近中心，取值越大，越遠離中心，取值越小。計算平均值的時候，我們只需要將"中心點"作為原點，其他點按照其在正態曲線上的位置，分配權重，就可以得到一個加權平均值。例如：通常，圖像處理軟體會提供"模糊"（blur）濾鏡，使圖片產生模糊的效果。

第三張圖

數據平滑技術（data smoothing），適用於多個場合，圖像處理恰好提供了一個直觀的應用實例。

高斯模糊的原理

所謂"模糊"，可以理解成每一個像素都取周邊像素的平均值。

上圖中，2是中間點，周邊點都是1。

"中間點"取"周圍點"的平均值，就會變成1。在數值上，這是一種"平滑化"。在圖形上，就相當於產生"模糊"效果，"中間點"失去細節。

顯然，計算平均值時，取值範圍越大，"模糊效果"越強烈。

上面分別是原圖、模糊半徑3像素、模糊半徑10像素的效果。模糊半徑越大，圖像就越模糊。從數值角度看，就是數值越平滑。

接下來的問題就是，既然每個點都要取周邊像素的平均值，那麼應該如何分配權重呢？

如果使用簡單平均，顯然不是很合理，因為圖像都是連續的，越靠近的點關係越密切，越遠離的點關係越疏遠。因此，加權平均更合理，距離越近的點權重越大，距離越遠的點權重越小。

正態分布的權重

正態分布顯然是一種可取的權重分配模式。

在圖形上，正態分布是一種鐘形曲線，越接近中心，取值越大，越遠離中心，取值越小。

計算平均值的時候，我們只需要將"中心點"作為原點，其他點按照其在正態曲線上的位置，分配權重，就可以得到一個加權平均值。

高斯函數

上面的正態分布是一維的，圖像都是二維的，所以我們需要二維的正態分布。

高斯函數"（Gaussian function）。它的一維形式是

其中，μ是x的均值，σ是x的方差。因為計算平均值的時候，中心點就是原點，所以μ等於0。

根據一維高斯函數，可以推導得到二維高斯函數

有了這個函數，就可以計算每個點的權重了。

權重矩陣

假定中心點的坐標是（0,0），那麼距離它最近的8個點的坐標如下：

更遠的點以此類推。

為了計算權重矩陣，需要設定σ的值。假定σ=1.5，則模糊半徑為1的權重矩陣如下：

這9個點的權重總和等於0.4787147，如果只計算這9個點的加權平均，還必須讓它們的權重之和等於1，因此上面9個值還要分別除以0.4787147，得到最終的權重矩陣。

計算高斯模糊

有了權重矩陣，就可以計算高斯模糊的值了。

假設現有9個像素點，灰度值（0-255）如下：

每個點乘以自己的權重值：

將這9個值加起來，就是中心點的高斯模糊的值。

對所有點重複這個過程，就得到了高斯模糊後的圖像。如果原圖是彩色圖片，可以對RGB三個通道分別做高斯模糊。

2.5.1 高斯（核）函數簡介（這個上上篇寫了，現在在寫寫）

函數的基本概念

所謂徑向基函數 (Radial Basis Function 簡稱 RBF), 就是某種沿徑向對稱的標量函數。通常定義為空間中任一點x到某一中心xc之間歐氏距離的單調函數 , 可記作 k(||x-xc||), 其作用往往是局部的 , 即當x遠離xc時函數取值很小。最常用的徑向基函數是高斯核函數 ,形式為 k(||x-xc||)=exp{- ||x-xc||^2/2*σ^2) } 其中xc為核函數中心,σ為函數的寬度參數 , 控制了函數的徑向作用範圍。

高斯函數具有五個重要的性質，這些性質使得它在早期圖像處理中特別有用．這些性質表明，高斯平滑濾波器無論在空間域還是在頻率域都是十分有效的低通濾波器，且在實際圖像處理中得到了工程人員的有效使用．高斯函數具有五個十分重要的性質，它們是：

高斯函數是單值函數，高斯濾波使用像素鄰域加權均值來代替該點的像素值，像素權重會隨著距離的變化而單調遞減，以此來減少失真現象。

高斯函數具有旋轉對稱性，高斯濾波在各個方向上的平滑程度是相同的，對於存在的噪聲很難估計其方向性，保證平滑性能不會偏向任何方向。

高斯函數的傅立葉頻譜是單瓣的，使得平滑圖像不會被不需要的高頻信號所影響，同時保留了大部分所需要的信號。

高斯濾波的平滑程度是由方差σ決定的，σ越大，頻帶也就越寬，從而平滑的程度也就越大，對於圖像中的噪聲有可以控制的參數進行設置。

高斯函數具有可分離性，二維高斯函數卷積可以分為兩步來進行，首先將圖像和一維高斯函數進行卷積運算，然後將卷積結果和方向垂直的相同一維高斯函數進行卷積。

高斯函數參考資料：

http://www.ruanyifeng.com/blog/2012/11/gaussian_blur.html

http://www.cnblogs.com/pzxbc/archive/2012/02/14/2351708.html

http://baike.baidu.com/view/1097446.htm?fr=aladdin

本人是抱著玩一玩的心態，學習opencv（其實深度學習沒有外界說的這麼高深，小嗷是白板，而且有工作在身並且於代碼無關）

大家可以把我的數學水平想像成初中水平，畢竟小嗷既不是代碼靠吃飯又不是靠數學吃飯，畢業N年

寫文章主要是為了後人少走點彎路，多交點朋友，一起學習

如果有好的圖像識別群拉我進去QQ：631821577

就我一個白板，最後還是成的，你們別怕，慢慢來把

分享可以無數次，轉載成自己文章QQ郵箱通知一下，未經授權請勿轉載。

郵箱：631821577@qq.com

QQ群：736854977

有什麼疑問公眾號提問，下班或者周六日回答，ths

最近，很多人問我工作做什麼，什麼學歷（研究生/老闆/嵌入式工作者/準備轉業也有，總之千奇百怪的人都有）。我認為每個自學者不分貴賤，工作什麼，什麼學歷不重要。

時間是公平的，人也就一輩子，大家有機會聚在一起學習分享也是一種緣分。而且，小嗷既不是代碼靠吃飯又不是靠數學吃飯，畢業N年。大家想想就知道，我代碼和數學水平是多麼渣渣。

像我這麼渣，都能懂，難道你們這麼優秀還不懂？當然，也有可能，我寫不好誤導各位造成的，所以，也希望大家勇於發言，給小嗷一個改正的機會。

推薦文件：

11.VS2015+OpenCV3.2+QT軟體/插件（QT篇1） --- OpenCV從零開始到圖像（人臉 + 物體）識別系列

12.QT + OpenCV打包成應用（以及QT圖標問題詳細） --- OpenCV從零開始到圖像（人臉 + 物體）識別系列

20.方差/標準差/數學期望/正態分布/高斯函數(數學篇)--- OpenCV從零開始到圖像(人臉 + 物體)識別系列

相關焦點

13.傅立葉變換(數學篇) --- OpenCV從零開始到圖像(人臉 + 物體)識別系列

數學|正態分布(1):正態分布發展史

39.積分、泛函 + 歐拉-拉格朗日方程、實數、標量、變分法、極值、弧微分、範數(數學篇)

正態分布和高斯分布的作用_高斯分布的定義_誤差服從高斯分布

從數學到實現,全面回顧高斯過程中的函數最優化

方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念

使用Python+OpenCV實現神經網絡預處理人臉圖像的快速指南

用OpenCV和Python模糊和匿名化人臉

OpenCV-Python 圖像平滑|十六

小知識:高斯概率分布的數學解釋

OpenCV+深度學習預訓練模型,簡單搞定圖像識別 | 教程

高斯混合模型(GMM):理念、數學、EM算法和python實現

好玩的數學:快速批量人臉識別、提取和人臉區域的模糊化處理

正態分布密度函數 - 描繪自然的常態

【Python3+OpenCV】實現圖像處理—基本操作篇

OpenCV系列(七)邊緣提取

正態分布為何如此重要?

統計學必知:標準差&方差

圖文詳解高斯過程(一)——含代碼

概率|無處不在的高斯分布(1)——標準正態分布