20.方差/標準差/數學期望/正態分布/高斯函數(數學篇)--- OpenCV從零開始到圖像(人臉 + 物體)識別系列

2021-02-25 小嗷的日常

本文作者:小嗷

微信公眾號:aoxiaoji

吹比QQ群:736854977

簡書連結:https://www.jianshu.com/u/45da1fbce7d0

那是你和我的傾城時光。

雖然坎坷,雖然彷徨,

可只因有幸遇到唯一一個你,

 與財富無關,

與一切地位、名聲、權力,

沒有半點瓜葛。

裝逼結束。補補上上篇的數學

哎!

本文你會找到以下問題的答案:

方差

標準差

數學期望

正態分布

高斯函數

2.1 方差

方差描述隨機變量對於數學期望的偏離程度。(隨機變量可以看成隨機像素點)

兩人的5次測驗成績如下:(X,Y代表2個人,E(X)代表平均分)

X: 50,100,100,60,50 E(X)=72;Y: 73, 70, 75,72,70 E(Y)=72。

平均成績相同,但X 不穩定,對平均值的偏離大。

公式如下:

平均數:

方差公式:

用途:環境的不確定因素波動小,穩定性好,識別的成功率越高。即:方差越小越穩定 (方差越大則波動越大)

2.2 標準差

方差是數據的平方,與檢測值本身相差太大,難以直觀的衡量,所以常用方差開根號換算回來,也就是標準差。

同理,方差開個根號之後,更加直觀看出數據本身的離散程度(波動大小)

如上圖為誤差 + 平均差 + 標準差

還記得均值濾波,在矩陣內的像素點波動大的時候,均值就更加不靠譜了,振鈴效應也就越明顯。

比如一個班男生的平均身高是170cm,標準差是10cm,那麼方差就是100cm^2。可以進行的比較簡便的描述是本班男生身高分布是170±10cm,方差就無法做到這點。

如果標準差大的話,我們是否可以考慮這附近可能有邊緣,波動大代表我們矩陣均值賦予的像素值不靠譜?(這點也是小嗷突發奇想)

看不懂我寫什麼,請看回我卷積那篇,應該是上上篇。

2.3 數學期望

某城市有10萬個家庭,沒有孩子的家庭有1000個,有一個孩子的家庭有9萬個,有兩個孩子的家庭有6000個,有3個孩子的家庭有3000個。

則此城市中任一個家庭中孩子的數目是一個隨機變量,記為X。它可取值0,1,2,3。

其中,X取0的概率為0.01(沒孩子的概率),取1的概率為0.9(1個孩子的概率),取2的概率為0.06(2個孩子的概率),取3的概率為0.03(3個孩子的概率)。

則,它的數學期望

E(x) = 0 x 0.01 + 1 x 0.9 + 2 x0.06 + 3 x 0.03 = 1.11

公式如下:

即此城市一個家庭平均有小孩1.11個。

2.4 正態分布

正態分布需要用到:數學期望為μ,方差為σ^2。

若隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。下圖為正態分布圖:

公式如下:

當μ = 0,σ = 1時的正態分布是標準正態分布。

標準正態分布公式如下:

由於「小概率事件」和假設檢驗的基本思想 「小概率事件」通常指發生的概率小於5%的事件,認為在一次試驗中該事件是幾乎不可能發生的。由此可見X落在(μ-3σ,μ+3σ)以外的概率小於千分之三,在實際問題中常認為相應的事件是不會發生的,基本上可以把區間(μ-3σ,μ+3σ)看作是隨機變量X實際可能的取值區間,這稱之為正態分布的「3σ」原則。

某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量,以及實驗中的隨機誤差,呈現為正態或近似正態分布;有些指標(變量)雖服從偏態分布,但經數據轉換後的新變量可服從正態或近似正態分布,可按正態分布規律處理。其中經對數轉換後服從正態分布的指標,被稱為服從對數正態分布。

即:很多隨機變量的概率分布都可以近似地用正態分布來描述。

正態分布曲線及面積分布圖非常清晰的展示了重點,那就是基區佔68.27%,是主體,要重點抓,此外95%,99%則展示了正態的全面性。認識世界和改造世界一定要住住重點,因為重點就是事物的主要矛盾,它對事物的發展起主要的、支配性的作用。抓住了重點才能一舉其綱,萬目皆張。事物和現象紛繁複雜,在千頭萬緒中不抓住主要矛盾,就會陷入無限瑣碎之中。由於我們時間和精力的相對有限性,出於效率的追求,我們更應該抓住重點。在正態分布中,基區佔了主體和重點。如果我們結合20/80法則,我們更可以大膽的把正區也可以看做是重點。

注意:我們在後面深度學習,是否能根據正態分布,讓程序抓重點,自動識別這是條狗?而不是通過訓練。

正態分布(Normal distribution),也稱「常態分布」,又名高斯分布(Gaussian distribution)

2.5 高斯函數

一維高斯函數:

a表示得到曲線的高度,b是指曲線在x軸的中心,c指width(與半峰全寬有關),圖形如下:

2、根據一維高斯函數,可以推導得到二維高斯函數:

在圖形上,正態分布是一種鐘形曲線,越接近中心,取值越大,越遠離中心,取值越小。 計算平均值的時候,我們只需要將"中心點"作為原點,其他點按照其在正態曲線上的位置,分配權重,就可以得到一個加權平均值。例如:通常,圖像處理軟體會提供"模糊"(blur)濾鏡,使圖片產生模糊的效果。

第三張圖

數據平滑技術(data smoothing),適用於多個場合,圖像處理恰好提供了一個直觀的應用實例。

高斯模糊的原理

所謂"模糊",可以理解成每一個像素都取周邊像素的平均值。

上圖中,2是中間點,周邊點都是1。

"中間點"取"周圍點"的平均值,就會變成1。在數值上,這是一種"平滑化"。在圖形上,就相當於產生"模糊"效果,"中間點"失去細節。

顯然,計算平均值時,取值範圍越大,"模糊效果"越強烈。

上面分別是原圖、模糊半徑3像素、模糊半徑10像素的效果。模糊半徑越大,圖像就越模糊。從數值角度看,就是數值越平滑。

接下來的問題就是,既然每個點都要取周邊像素的平均值,那麼應該如何分配權重呢?

如果使用簡單平均,顯然不是很合理,因為圖像都是連續的,越靠近的點關係越密切,越遠離的點關係越疏遠。因此,加權平均更合理,距離越近的點權重越大,距離越遠的點權重越小。

正態分布的權重

正態分布顯然是一種可取的權重分配模式。

在圖形上,正態分布是一種鐘形曲線,越接近中心,取值越大,越遠離中心,取值越小。

計算平均值的時候,我們只需要將"中心點"作為原點,其他點按照其在正態曲線上的位置,分配權重,就可以得到一個加權平均值。

高斯函數

上面的正態分布是一維的,圖像都是二維的,所以我們需要二維的正態分布。

高斯函數"(Gaussian function)。它的一維形式是

其中,μ是x的均值,σ是x的方差。因為計算平均值的時候,中心點就是原點,所以μ等於0。

根據一維高斯函數,可以推導得到二維高斯函數

有了這個函數 ,就可以計算每個點的權重了。

權重矩陣

假定中心點的坐標是(0,0),那麼距離它最近的8個點的坐標如下:

更遠的點以此類推。

為了計算權重矩陣,需要設定σ的值。假定σ=1.5,則模糊半徑為1的權重矩陣如下:

這9個點的權重總和等於0.4787147,如果只計算這9個點的加權平均,還必須讓它們的權重之和等於1,因此上面9個值還要分別除以0.4787147,得到最終的權重矩陣。

計算高斯模糊

有了權重矩陣,就可以計算高斯模糊的值了。

假設現有9個像素點,灰度值(0-255)如下:

每個點乘以自己的權重值:

將這9個值加起來,就是中心點的高斯模糊的值。

對所有點重複這個過程,就得到了高斯模糊後的圖像。如果原圖是彩色圖片,可以對RGB三個通道分別做高斯模糊。

2.5.1 高斯(核)函數簡介(這個上上篇寫了,現在在寫寫)

函數的基本概念

所謂徑向基函數 (Radial Basis Function 簡稱 RBF), 就是某種沿徑向對稱的標量函數。 通常定義為空間中任一點x到某一中心xc之間歐氏距離的單調函數 , 可記作 k(||x-xc||), 其作用往往是局部的 , 即當x遠離xc時函數取值很小。最常用的徑向基函數是高斯核函數 ,形式為 k(||x-xc||)=exp{- ||x-xc||^2/2*σ^2) } 其中xc為核函數中心,σ為函數的寬度參數 , 控制了函數的徑向作用範圍。

高斯函數具有五個重要的性質,這些性質使得它在早期圖像處理中特別有用.這些性質表明,高斯平滑濾波器無論在空間域還是在頻率域都是十分有效的低通濾波器,且在實際圖像處理中得到了工程人員的有效使用.高斯函數具有五個十分重要的性質,它們是:

高斯函數是單值函數,高斯濾波使用像素鄰域加權均值來代替該點的像素值,像素權重會隨著距離的變化而單調遞減,以此來減少失真現象。

高斯函數具有旋轉對稱性,高斯濾波在各個方向上的平滑程度是相同的,對於存在的噪聲很難估計其方向性,保證平滑性能不會偏向任何方向。

高斯函數的傅立葉頻譜是單瓣的,使得平滑圖像不會被不需要的高頻信號所影響,同時保留了大部分所需要的信號。

高斯濾波的平滑程度是由方差σ決定的,σ越大,頻帶也就越寬,從而平滑的程度也就越大,對於圖像中的噪聲有可以控制的參數進行設置。

高斯函數具有可分離性,二維高斯函數卷積可以分為兩步來進行,首先將圖像和一維高斯函數進行卷積運算,然後將卷積結果和方向垂直的相同一維高斯函數進行卷積。

高斯函數參考資料:

http://www.ruanyifeng.com/blog/2012/11/gaussian_blur.html

http://www.cnblogs.com/pzxbc/archive/2012/02/14/2351708.html

http://baike.baidu.com/view/1097446.htm?fr=aladdin

本人是抱著玩一玩的心態,學習opencv(其實深度學習沒有外界說的這麼高深,小嗷是白板,而且有工作在身並且於代碼無關)

大家可以把我的數學水平想像成初中水平,畢竟小嗷既不是代碼靠吃飯又不是靠數學吃飯,畢業N年

寫文章主要是為了後人少走點彎路,多交點朋友,一起學習

如果有好的圖像識別群拉我進去QQ:631821577

就我一個白板,最後還是成的,你們別怕,慢慢來把

分享可以無數次,轉載成自己文章QQ郵箱通知一下,未經授權請勿轉載。

郵箱:631821577@qq.com

QQ群:736854977

有什麼疑問公眾號提問,下班或者周六日回答,ths

最近,很多人問我工作做什麼,什麼學歷(研究生/老闆/嵌入式工作者/準備轉業也有,總之千奇百怪的人都有)。我認為每個自學者不分貴賤,工作什麼,什麼學歷不重要。

時間是公平的,人也就一輩子,大家有機會聚在一起學習分享也是一種緣分。而且,小嗷既不是代碼靠吃飯又不是靠數學吃飯,畢業N年。大家想想就知道,我代碼和數學水平是多麼渣渣。

像我這麼渣,都能懂,難道你們這麼優秀還不懂?當然,也有可能,我寫不好誤導各位造成的,所以,也希望大家勇於發言,給小嗷一個改正的機會。

推薦文件:

11.VS2015+OpenCV3.2+QT軟體/插件(QT篇1) --- OpenCV從零開始到圖像(人臉 + 物體)識別系列

12.QT + OpenCV打包成應用(以及QT圖標問題詳細) --- OpenCV從零開始到圖像(人臉 + 物體)識別系列

相關焦點

  • 13.傅立葉變換(數學篇) --- OpenCV從零開始到圖像(人臉 + 物體)識別系列
    傅立葉變換估計分為數學篇和代碼篇。謹以此文獻給大連海事大學的吳楠老師,柳曉鳴老師,王新年老師以及張晶泊老師。轉載的同學請保留上面這句話,謝謝。如果還能保留文章來源就更感激不盡了。這篇文章的核心思想就是:要讓讀者在不看任何數學公式的情況下理解傅立葉分析。
  • 數學|正態分布(1):正態分布發展史
    今天我將帶領大家走進正態分布的發展史,領略前人們思維碰撞的結晶。在故事的前面,我們有必要回顧一下基本概念:數學期望:在概率論和統計學中,數學期望是試驗中每次可能結果的概率乘以其結果的總和,是最基本的數學特徵之一。它反映隨機變量平均取值的大小,常用
  • 39.積分、泛函 + 歐拉-拉格朗日方程、實數、標量、變分法、極值、弧微分、範數(數學篇)
    範數,是具有「長度」概念的函數。在線性代數、泛函分析及相關的數學領域,範數是一個函數,是矢量空間內的所有矢量賦予非零的正長度或大小。半範數可以為非零的矢量賦予零長度。定義範數的矢量空間是賦范矢量空間;同樣,定義半範數的矢量空間就是賦半範矢量空間。
  • 正態分布和高斯分布的作用_高斯分布的定義_誤差服從高斯分布
    C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。是一個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。   正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。   若隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。
  • 從數學到實現,全面回顧高斯過程中的函數最優化
    我們回顧了高斯過程(GP)擬合數據所需的數學和代碼,最後得出一個常用應用的 demo——通過高斯過程搜索法快速實現函數最小化。下面的動圖演示了這種方法的動態過程,其中紅色的點是從紅色曲線採樣的樣本。使用這些樣本,我們試圖利用 GP 儘快找到曲線的最小值。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    方差方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值.
  • 使用Python+OpenCV實現神經網絡預處理人臉圖像的快速指南
    這是一篇簡短的文章,包含了一些基本的指導原則、示例和代碼,你可以根據需求將它們應用到人臉分類或識別問題上。注意:本文中使用的所有靜態圖像都來自 https://imgflip.com/memetemplates圖片載入我們將使用imread()函數加載圖像,指定文件的路徑和mode,第二個參數對於動態運行通道和像素轉換非常重要。
  • 用OpenCV和Python模糊和匿名化人臉
    謝謝,  李偉李提出了一個很好的問題——我們經常在項目中使用人臉檢測,通常是作為人臉識別流程的第一步。但如果我們想做與人臉識別相反的事情呢?如果我們想通過模糊人臉來匿名,從而使他人無法識別人臉的身份,那該怎麼辦?
  • OpenCV-Python 圖像平滑|十六
    HPF濾波器有助於在圖像中找到邊緣。OpenCV提供了一個函數cv.filter2D來將內核與圖像進行卷積。例如,我們將嘗試對圖像進行平均濾波。5x5平均濾波器內核如下所示:操作如下:保持這個內核在一個像素上,將所有低於這個內核的25個像素相加,取其平均值,然後用新的平均值替換中心像素。
  • 小知識:高斯概率分布的數學解釋
    從而會引導進行下一步,下面的公式引入了平均值和標準差,有:這裡的「平均值」是一個新的中心值,圍繞它的x值更改將影響y值。當x值等於平均值時,y值將變為1,其中平均值可以為零,也可以為任何非零值。 「標準差」將隨著x值偏離平均值,影響y值趨向於零的速度有多快。
  • OpenCV+深度學習預訓練模型,簡單搞定圖像識別 | 教程
    李林 編譯自 pyimagesearch作者 Adrian Rosebrock量子位 報導 | 公眾號 QbitAIOpenCV是一個2000年發布的開源計算機視覺庫,有進行物體識別、圖像分割、人臉識別、動作識別等多種功能,可以在Linux、Windows、Android、Mac OS等作業系統上運行,以輕量級、高效著稱,且提供多種語言接口。
  • 高斯混合模型(GMM):理念、數學、EM算法和python實現
    或者數據具有非零的協方差呢?如果聚類具有不同的均值和協方差怎麼辦?這就要用到高斯混合模型了!GMM假設生成數據的是一種混合的高斯分布。與將數據點硬分配到聚類的K-means方法(假設圍繞質心的數據呈圓形分布)相比,它使用了將數據點軟分配到聚類的方法(即概率性,因此更好)。簡而言之,GMM效果更好,因為:(A)通過使用軟分配捕獲屬於不同聚類的數據點的不確定性,(B)對圓形聚類沒有偏見。即使是非線性數據分布,它也能很好地工作。
  • 好玩的數學:快速批量人臉識別、提取和人臉區域的模糊化處理
    在數學軟體Mathematica中,這個實現就非常簡單,我們只要編制一個簡單的函數,輸入幾行代碼就可以輕鬆實現了。一、人臉識別並提取人臉圖像Mathematica中做人臉識別簡單,一個內部命令就可以實現:FindFaces以邊界框列表的形式返回檢測到的人臉,每張臉以 {{xmin,ymin},{xmax,ymax}}的矩形區域範圍形式給出,多張臉則為一個矩形區域列表(集合).
  • 正態分布密度函數 - 描繪自然的常態
    1777年4月30日,高斯出生於德國一個貧窮的猶太人家庭,但出色的數學天賦使他年少成名,成就了這位「數學王子」碩果纍纍的一生,享年77歲,以「高斯」命名的成果達110個,涵蓋數學和物理學的多個分支。1801年1月,一顆叫「穀神星」的小行星被觀測到,但很快就逃離了天文學家們的視線,年僅24歲的高斯憑藉少量的觀測數據便能準確地預測該行星再次出現的位置,震驚了整個歐洲。
  • 【Python3+OpenCV】實現圖像處理—基本操作篇
    本篇推文共計1000個字,閱讀時間約3分鐘。OpenCV是一個C++庫,目前流行的計算機視覺編程庫,用於實時處理計算機視覺方面的問題,它涵蓋了很多計算機視覺領域的模塊。在Python中常使用OpenCV庫實現圖像處理。本文將介紹如何在Python3中使用OpenCV實現對圖像處理的基礎操作:
  • OpenCV系列(七)邊緣提取
    也就是拐點,拐點是指函數發生凹凸性變化的點。二階導數為零的地方。並不是一階導數,因為一階導數為零,表示是極值點。邊緣檢測的基本思想首先是利用邊緣增強算子,突出圖像中的局部邊緣,然後定義像素的「邊緣強度」,通過設置閾值的方法提取邊緣點集。由於噪聲和模糊的存在,監測到的邊界可能會變寬或在某點處發生間斷。因此,邊界檢測包括兩個基本內容:(1)用邊緣算子提取出反映灰度變化的邊緣點集。
  • 正態分布為何如此重要?
    它以數學天才 Carl Friedrich Gauss 命名正態分布又名高斯分布越簡單的模型越是常用,因為它們能夠被很好的解釋和理解。如果我們繪製正態分布密度函數,那麼它的曲線將具有以下特徵:如上圖所示,該鐘形曲線有均值為 100,標準差為 1:
  • 統計學必知:標準差&方差
    可以看到方差是標準差的平方      除了期望,方差(variance)是另一個常見的分布描述量。儘管兩套落點的平均中心位置都在原點 (即期望相同),但兩套落點的離散程度明顯有區別。藍色的點離散程度更小。      數學上,我們用方差來代表一組數據或者某個概率分布的離散程度。可見,方差是獨立於期望的另一個對分布的度量。兩個分布,完全可能有相同的期望,而方差不同,正如我們上面的箭靶。
  • 圖文詳解高斯過程(一)——含代碼
    為了幫助入門者更好地理解這一簡單易用的方法,近日國外機器學習開發者Alex Bridgland在博客中圖文並茂地解釋了高斯過程,並授權論智將文章分享給中國讀者。註:本文為系列第一篇,雖用可視化形式弱化了數學推導,但仍假設讀者具備一定機器學習基礎。現如今,高斯過程可能稱不上是機器學習領域的炒作核心,但它仍然活躍在研究的最前沿。
  • 概率|無處不在的高斯分布(1)——標準正態分布
    這個函數關於y軸對稱,所有的y值皆為正數。在x趨近於無窮的時候,y值趨近於0。在x為零的時候函數取得最大值,從圖上看這個值在0.4左右。現在,我給出上圖中pdf的解析式:但是第二張圖的看圖說話告訴我們:這個函數關於x = 1對稱,所有的y值皆為正數。在x趨近於無窮的時候,y值趨近於0。在x為1的時候函數取得最大值,從圖上看這個值在0.20左右。標準正態分布和正態分布其實是兩個「換湯不換藥」的概念。上面兩張圖的奧秘就在下面的轉換裡: