經典的圖像匹配算法----SIFT

2021-02-13 智能算法

一. SIFT簡介

1.1 算法提出的背景：

成像匹配的核心問題是將同一目標在不同時間、不同解析度、不同光照、不同位姿情況下所成的像相對應。傳統的匹配算法往往是直接提取角點或邊緣，對環境的適應能力較差，急需提出一種魯棒性強、能夠適應不同光照、不同位姿等情況下能夠有效識別目標的方法。1999年British Columbia大學大衛.勞伊（ David G.Lowe）教授總結了現有的基於不變量技術的特徵檢測方法，並正式提出了一種基於尺度空間的、對圖像縮放、旋轉甚至仿射變換保持不變性的圖像局部特徵描述算子－SIFT（尺度不變特徵變換），這種算法在2004年被加以完善。

1.2 算法思想：

將一幅圖像映射（變換）為一個局部特徵向量集；特徵向量具有平移、縮放、旋轉不變性，同時對光照變化、仿射及投影變換也有一定不變性。

算法實現步驟簡述：

SIFT算法的實質可以歸為在不同尺度空間上查找特徵點（關鍵點）的問題。

1.3 SIFT算法實現物體識別主要有三大工序：

1、提取關鍵點；

2、對關鍵點附加詳細的信息（局部特徵）也就是所謂的描述器；

3、通過兩方特徵點（附帶上特徵向量的關鍵點）的兩兩比較找出相互匹配的若干對特徵點，也就建立了景物間的對應關係。

二. SIFT算法實現細節

2.1. 構建尺度空間

尺度空間理論基礎：

這是一個初始化操作，尺度空間理論目的是模擬圖像數據的多尺度特徵。高斯核是唯一可以產生多尺度空間的核，一個圖像的尺度空間， L（ x,y,σ) ,定義為原始圖像I(x,y)與一個可變尺度的2維高斯函數G(x,y,σ) 卷積運算。尺度是自然存在的，不是人為創造的！高斯卷積只是表現尺度空間的一種形式…

其中 G(x,y,σ) 是尺度可變高斯函數（x，y）是空間坐標，是尺度坐標。σ大小決定圖像的平滑程度，大尺度對應圖像的概貌特徵，小尺度對應圖像的細節特徵。大的σ值對應粗糙尺度(低解析度)，反之，對應精細尺度(高解析度)。為了有效的在尺度空間檢測到穩定的關鍵點，提出了高斯差分尺度空間（DOG scale-space）。利用不同尺度的高斯差分核與圖像卷積生成。

下圖所示不同σ下圖像尺度空間：

關於尺度空間的理解說明：

2kσ中的2是必須的，尺度空間是連續的。在 Lowe的論文中，將第0層的初始尺度定為1.6（最模糊），圖片的初始尺度定為0.5（最清晰）. 在檢測極值點前對原始圖像的高斯平滑以致圖像丟失高頻信息，所以 Lowe 建議在建立尺度空間前首先對原始圖像長寬擴展一倍，以保留原始圖像信息，增加特徵點數量。尺度越大圖像越模糊。

圖像金字塔的建立：

對於一幅圖像I,建立其在不同尺度(scale)的圖像，也成為子八度（octave），這是為了scale-invariant，也就是在任何尺度都能夠有對應的特徵點，第一個子八度的scale為原圖大小，後面每個octave為上一個octave降採樣的結果，即原圖的1/4（長寬分別減半），構成下一個子八度（高一層金字塔）。

由圖片size決定建幾個塔，每塔幾層圖像(S一般為3-5層)。0塔的第0層是原始圖像(或你double後的圖像)，往上每一層是對其下一層進行Laplacian變換（高斯卷積，其中σ值漸大，例如可以是σ, k*σ, k*k*σ…），直觀上看來越往上圖片越模糊。塔間的圖片是降採樣關係，例如1塔的第0層可以由0塔的第3層down sample得到，然後進行與0塔類似的高斯卷積操作。

2.2. 關鍵點檢測

為了尋找尺度空間的極值點，每一個採樣點要和它所有的相鄰點比較，看其是否比它的圖像域和尺度域的相鄰點大或者小。如圖所示，中間的檢測點和它同尺度的8個相鄰點和上下相鄰尺度對應的9×2個點共26個點比較，以確保在尺度空間和二維圖像空間都檢測到極值點。一個點如果在DOG尺度空間本層以及上下兩層的26個領域中是最大或最小值時，就認為該點是圖像在該尺度下的一個特徵點,如圖所示。

同一組中的相鄰尺度（由於k的取值關係，肯定是上下層）之間進行尋找，在極值比較的過程中，每一組圖像的首末兩層是無法進行極值比較的，為了滿足尺度變化的連續性，我們在每一組圖像的頂層繼續用高斯模糊生成了3幅圖像，高斯金字塔有每組S+3層圖像。 DOG金字塔每組有S+2層圖像。下圖中s=3

這裡解釋下尺度變化的連續性：

假設s=3，也就是每個塔裡有3層，則k=21/s=21/3，那麼按照上圖可得Gauss Space和DoG space 分別有3個（s個）和2個（s-1個）分量，在DoG space中，1st-octave兩項分別是σ,kσ; 2nd-octave兩項分別是2σ,2kσ;由於無法比較極值，我們必須在高斯空間繼續添加高斯模糊項，使得形成σ,kσ,k2σ,k3σ,k4σ這樣就可以選擇DoG space中的中間三項kσ,k2σ,k3σ（只有左右都有才能有極值），那麼下一octave中（由上一層降採樣獲得）所得三項即為2kσ,2k2σ,2k3σ，其首項2kσ=24/3。剛好與上一octave末項k3σ=23/3尺度變化連續起來，所以每次要在Gaussian space添加3項，每組（塔）共S+3層圖像，相應的DoG金字塔有S+2層圖像。

2.3. 消除錯配點

由於DoG值對噪聲和邊緣較敏感,因此,在上面DoG尺度空間中檢測到局部極值點還要經過進一步的檢驗才能精確定位為特徵點。為了提高關鍵點的穩定性，需要對尺度空間DoG函數進行曲線擬合。利用DoG函數在尺度空間的Taylor展開式：

對上式求導,並令其為0,得到精確的位置, 得

在已經檢測到的特徵點中,要去掉低對比度的特徵點和不穩定的邊緣響應點。去除低對比度的點：把上式代入其中，即在DoG Space的極值點處D(x)取值，只取前兩項可得：

若，該特徵點就保留下來，否則丟棄。

邊緣響應的去除

一個定義不好的高斯差分算子的極值在橫跨邊緣的地方有較大的主曲率，而在垂直邊緣的方向有較小的主曲率。主曲率通過一個2×2 的Hessian矩陣H求出:

導數由採樣點相鄰差估計得到。D的主曲率和H的特徵值成正比，令α為較大特徵值，β為較小的特徵值，則

令α=γβ，則

(r + 1)2/r的值在兩個特徵值相等的時候最小，隨著r的增大而增大，因此，為了檢測主曲率是否在某域值r下，只需檢測

if (α+β)/ αβ> (r+1)2/r, throw it out. 在Lowe的文章中，取r＝10。

2.4. 關鍵點描述

上一步中確定了每幅圖中的特徵點，為每個特徵點計算一個方向，依照這個方向做進一步的計算，利用關鍵點鄰域像素的梯度方向分布特性為每個關鍵點指定方向參數，使算子具備旋轉不變性。

為(x,y)處梯度的模值和方向公式。其中L所用的尺度為每個關鍵點各自所在的尺度。至此，圖像的關鍵點已經檢測完畢，每個關鍵點有三個信息：位置，所處尺度、方向，由此可以確定一個SIFT特徵區域。

梯度直方圖的範圍是0～360度，其中每10度一個柱，總共36個柱。隨著距中心點越遠的領域其對直方圖的貢獻也響應減小.Lowe論文中還提到要使用高斯函數對直方圖進行平滑，減少突變的影響。

在實際計算時，我們在以關鍵點為中心的鄰域窗口內採樣，並用直方圖統計鄰域像素的梯度方向。梯度直方圖的範圍是0～360度，其中每45度一個柱，總共8個柱, 或者每10度一個柱，總共36個柱。Lowe論文中還提到要使用高斯函數對直方圖進行平滑，減少突變的影響。直方圖的峰值則代表了該關鍵點處鄰域梯度的主方向，即作為該關鍵點的方向。

直方圖中的峰值就是主方向，其他的達到最大值80%的方向可作為輔助方向，通過對關鍵點周圍圖像區域分塊，計算塊內梯度直方圖，生成具有獨特性的向量，這個向量是該區域圖像信息的一種抽象，具有唯一性。首先將坐標軸旋轉為關鍵點的方向，以確保旋轉不變性。以關鍵點為中心取8×8的窗口。

16*16的圖中其中1/4的特徵點梯度方向及scale，右圖為其加權到8個主方向後的效果。圖左部分的中央為當前關鍵點的位置，每個小格代表關鍵點鄰域所在尺度空間的一個像素，利用公式求得每個像素的梯度幅值與梯度方向，箭頭方向代表該像素的梯度方向，箭頭長度代表梯度模值，然後用高斯窗口對其進行加權運算。

圖中藍色的圈代表高斯加權的範圍（越靠近關鍵點的像素梯度方向信息貢獻越大）。然後在每4×4的小塊上計算8個方向的梯度方向直方圖，繪製每個梯度方向的累加值，即可形成一個種子點，如圖右部分示。此圖中一個關鍵點由2×2共4個種子點組成，每個種子點有8個方向向量信息。這種鄰域方向性信息聯合的思想增強了算法抗噪聲的能力，同時對於含有定位誤差的特徵匹配也提供了較好的容錯性。

計算keypoint周圍的16*16的window中每一個像素的梯度，而且使用高斯下降函數降低遠離中心的權重。

在每個4*4的1/16象限中，通過加權梯度值加到直方圖8個方向區間中的一個，計算出一個梯度方向直方圖。這樣就可以對每個feature形成一個4*4*8=128維的描述子，每一維都可以表示4*4個格子中一個的scale/orientation. 將這個向量歸一化之後，就進一步去除了光照的影響。

2.5. 關鍵點匹配

生成了A、B兩幅圖的描述子，（分別是k1*128維和k2*128維），就將兩圖中各個scale（所有scale）的描述子進行匹配，匹配上128維即可表示兩個特徵點match上了。

實際計算過程中，為了增強匹配的穩健性，Lowe建議對每個關鍵點使用4×4共16個種子點來描述，這樣對於一個關鍵點就可以產生128個數據，即最終形成128維的SIFT特徵向量。此時SIFT特徵向量已經去除了尺度變化、旋轉等幾何變形因素的影響，再繼續將特徵向量的長度歸一化，則可以進一步去除光照變化的影響。當兩幅圖像的SIFT特徵向量生成後，下一步我們採用關鍵點特徵向量的歐式距離來作為兩幅圖像中關鍵點的相似性判定度量。取圖像1中的某個關鍵點，並找出其與圖像2中歐式距離最近的前兩個關鍵點，在這兩個關鍵點中，如果最近的距離除以次近的距離少於某個比例閾值，則接受這一對匹配點。降低這個比例閾值，SIFT匹配點數目會減少，但更加穩定。

為了排除因為圖像遮擋和背景混亂而產生的無匹配關係的關鍵點,Lowe提出了比較最近鄰距離與次近鄰距離的方法,距離比率ratio小於某個閾值的認為是正確匹配。因為對於錯誤匹配,由於特徵空間的高維性,相似的距離可能有大量其他的錯誤匹配,從而它的ratio值比較高。Lowe推薦ratio的閾值為0.8。但作者對大量任意存在尺度、旋轉和亮度變化的兩幅圖片進行匹配，結果表明ratio取值在0. 4~0. 6之間最佳，小於0. 4的很少有匹配點，大於0. 6的則存在大量錯誤匹配點。(如果這個地方你要改進，最好給出一個匹配率和ration之間的關係圖，這樣才有說服力)作者建議ratio的取值原則如下:

ratio=0. 4　對於準確度要求高的匹配；

ratio=0. 6　對於匹配點數目要求比較多的匹配；

ratio=0. 5　一般情況下。

也可按如下原則:當最近鄰距離<200時ratio=0. 6，反之ratio=0. 4。ratio的取值策略能排分錯誤匹配點。

當兩幅圖像的SIFT特徵向量生成後，下一步我們採用關鍵點特徵向量的歐式距離來作為兩幅圖像中關鍵點的相似性判定度量。取圖像1中的某個關鍵點，並找出其與圖像2中歐式距離最近的前兩個關鍵點，在這兩個關鍵點中，如果最近的距離除以次近的距離少於某個比例閾值，則接受這一對匹配點。降低這個比例閾值，SIFT匹配點數目會減少，但更加穩定。

參考文獻：http://blog.csdn.net/abcjennifer/article/details/7639681

免責聲明：本文系網絡轉載。版權歸原作者所有。如涉及版權，請聯繫刪除！

經典的圖像匹配算法----SIFT

相關焦點

3分鐘教會你選擇合適的圖像識別算法

OpenCV-Python SIFT尺度不變特徵變換|三十九

你真的理解圖像處理算法SIFT嗎?

OpenCV-Python 特徵匹配|四十四

圖像匹配幾種常見算法與實踐

Python實現圖像的全景拼接

圖像處理十大經典算法

圖像配準:從SIFT到深度學習

OpenCV-Python 特徵匹配 + 單應性查找對象|四十五

你真的理解圖像處理經典算法 SIFT 嗎?最深入、最全面綜述:尺度不變特徵轉換

圖像特徵點|SIFT特徵點之圖像金字塔

一種改進的高精度視頻幀間匹配算法

將門好聲音 | BMVC 2019:系統性評估特徵匹配相關算法

詳解計算機視覺中的特徵點檢測:Harris / SIFT / SURF / ORB

圖像處理基本思想和算法研究

特徵點匹配

基於深度學習算法和傳統立體匹配算法的雙目立體視覺

MATLAB比較圖像的相似度-圖像搜索算法

經典工具 | 使用SIFT預測錯義突變的有害性

巧解圖像處理經典難題之圖像配準