圖像配準:從SIFT到深度學習

2020-12-13 人工智慧遇見磐創

目錄

圖像配準:從SIFT到深度學習什麼是圖像配準傳統的基於特徵的方法關鍵點檢測和特徵描述特徵匹配圖像變換深度學習方法特徵提取Homography學習監督學習無監督學習其他方法強化學習複雜的轉換圖像配準(Image Registration)是計算機視覺中的基本步驟。在本文中,我們首先介紹基於OpenCV的方法,然後介紹深度學習的方法。

什麼是圖像配準

圖像配準就是找到一幅圖像像素到另一幅圖像像素間的空間映射關係。這些圖像可以是不同時間(多時間配準),不同傳感器在不同地方拍攝(多模式配準)。這些圖像之間的空間關係可以是剛性(rigid)[1](平移和旋轉),仿射(affine)[2](例如剪切),單應性[3](homographies)或複雜的大變形模型(complex large deformations models)。

圖像配準具有廣泛的應用,適用於同一個場景中有多張圖像需要進行匹配或疊加。在醫學圖像領域以及衛星圖像分析和光流(optical flow)方面非常普遍。

CT掃描和MRI配準

本文我們將介紹圖像配準的幾種不同方法。

傳統的基於特徵的方法

自21世紀初以來,圖像配準主要使用基於特徵的方法。這些方法有三個步驟:關鍵點檢測和特徵描述,特徵匹配,圖像變換。簡單的說,我們選擇兩個圖像中的感興趣點,將參考圖像(reference image)與感測圖像(sensed image)中的等價感興趣點進行關聯,然後變換感測圖像使兩個圖像對齊。

基於特徵的方法

關鍵點檢測和特徵描述

關鍵點就是感興趣點,它表示圖像中重要或獨特的內容(邊角,邊緣等)。每個關鍵點由描述符表示,關鍵點基本特徵的特徵向量。描述符應該對圖像變換(定位,縮放,亮度等)具有魯棒性。許多算法使用關鍵點檢測和特徵描述:

SIFT[4](Scale-invariant feature transform)是用於關鍵點檢測的原始算法,但它不能免費用於商業用途。SIFT特徵描述符對於均勻縮放,方向,亮度變化和對仿射失真不變的部分不會發生變化。SURF[5](Speeded Up Robust Features)是一個受SIFT啟發的探測器和描述符。它的優點是非常快。它同樣是有專利的。ORB[6](Oriented FAST and Rotated BRIEF)是一種快速的二進位描述符,它基於 FAST[7](Features from Accelerated Segment Test)關鍵點檢測和 BRIEF[8](Binary robust independent elementary features)描述符的組合。它具有旋轉不變性和對噪聲的魯棒性。它由OpenCV實驗室開發,是SIFT有效的免費替代品。AKAZE[9](Accelerated-KAZE)是KAZE[10]快速版本。它為非線性尺度空間[11]提供了快速的多尺度特徵檢測和描述方法,具有縮放和旋轉不變性。這些算法都可以在OpenCV中輕鬆使用。在下面的例子中,我們使用了AKAZE的OpenCV實現。其他算法的代碼大致相同,只需要修改算法的名稱。

import numpy as npimport cv2 as cvimg = cv.imread('image.jpg')gray= cv.cvtColor(img, cv.COLOR_BGR2GRAY)akaze = cv.AKAZE_create()kp, descriptor = akaze.detectAndCompute(gray, None)img=cv.drawKeypoints(gray, kp, img)cv.imwrite('keypoints.jpg', img)

圖像關鍵點

更過關於特徵提取和描述的文檔(https://docs.opencv.org/3.4/d7/d66/tutorial_feature_detection.html)

特徵匹配

一旦在一對圖像中識別出關鍵點,我們就需要將兩個圖像中對應的關鍵點進行關聯或「匹配」。其中一種方法是BFMatcher.knnMatch()。這個方法計算每對關鍵點之間的描述符的距離,並返回每個關鍵點的k個最佳匹配中的最小距離。

然後我們設定比率來保持正確率。實際上,為了使匹配更可靠,匹配的關鍵點需要比最近的錯誤匹配更靠近。

import numpy as npimport cv2 as cvimport matplotlib.pyplot as pltimg1 = cv.imread('image1.jpg', cv.IMREAD_GRAYSCALE)img2 = cv.imread('image2.jpg', cv.IMREAD_GRAYSCALE)# 初始化 AKAZE 探測器akaze = cv.AKAZE_create()# 使用 SIFT 查找關鍵點和描述kp1, des1 = akaze.detectAndCompute(img1, None)kp2, des2 = akaze.detectAndCompute(img2, None)# BFMatcher 默認參數bf = cv.BFMatcher()matches = bf.knnMatch(des1, des2, k=2)# 旋轉測試good_matches = []for m,n in matches: if m.distance < 0.75*n.distance: good_matches.append([m])# 畫匹配點img3 = cv.drawMatchesKnn(img1,kp1,img2,kp2,good_matches,None,flags=cv.DrawMatchesFlags_NOT_DRAW_SINGLE_POINTS)cv.imwrite('matches.jpg', img3)

匹配的關鍵點

OpenCV中有更多關於特徵匹配的實現方法(https://docs.opencv.org/trunk/dc/dc3/tutorial_py_matcher.html)

圖像變換

在匹配至少四對關鍵點之後,我們就可以將一個圖像轉換為另一個圖像,稱為圖像變換[12](image warping)。空間中相同平面的兩個圖像通過單應性變換[13](Homographies)進行關聯。Homographies是具有8個自由參數的幾何變換,由3x3矩陣表示圖像的整體變換(與局部變換相反)。因此,為了獲得變換後的感測圖像,需要計算Homographies矩陣。

為了得到最佳的變換,我們需要使用RANSAC算法檢測異常值並去除。它內置在OpenCV的findHomography方法中。同時也存在RANSAC算法的替代方案,例如LMEDS: Least-Median魯棒方法。

# 選擇匹配關鍵點ref_matched_kpts = np.float32([kp1[m[0].queryIdx].pt for m in good_matches]).reshape(-1,1,2)sensed_matched_kpts = np.float32([kp2[m[0].trainIdx].pt for m in good_matches]).reshape(-1,1,2)# 計算 homographyH, status = cv.findHomography(ref_matched_kpts, sensed_matched_kpts, cv.RANSAC,5.0)# 變換warped_image = cv.warpPerspective(img1, H, (img1.shape[1]+img2.shape[1], img1.shape[0]))cv.imwrite('warped.jpg', warped_image)

變換後的圖像

OpenCV中對這三個步驟進行了綜合敘述(https://docs.opencv.org/3.1.0/db/d27/tutorial_py_table_of_contents_feature2d.html)

深度學習方法

目前大多數關於圖像配準的研究涉及深度學習。在過去的幾年中,深度學習使計算機視覺任務具有先進的性能,如圖像分類,物體檢測和分割。

特徵提取

深度學習用於圖像配準的第一種方式是用於特徵提取。卷積神經網絡設法獲得越來越複雜的圖像特徵並進行學習。2014年以來,研究人員將這些網絡應用於特徵提取的步驟,而不是使用SIFT或類似算法。

2014年,Dosovitskiy等人提出了一種通用的特徵提取方法,使用未標記的數據訓練卷積神經網絡。這些特徵的通用性使轉換具有魯棒性。這些特徵或描述符的性能優於SIFT描述符以匹配任務。2018年,Yang等人開發了一種基於相同思想的非剛性配準方法。他們使用預訓練的VGG網絡層來生成一個特徵描述符,同時保留卷積信息和局部特徵。這些描述符的性能也優於類似SIFT的探測器,特別是在SIFT包含許多異常值或無法匹配足夠數量特徵點的情況下。

SIFT和基於深度學習的非剛性配準方法描述符的結果

Homography學習

研究人員利用神經網絡直接學習幾何變換對齊兩幅圖像,而不僅僅局限於特徵提取。

監督學習

在2016年,DeTone等人發表了 Deep Image Homography Estimation,提出了HomographyNe回歸網絡,這是一種VGG風格模型,可以學習兩幅相關圖像的單應性。該算法具有以端到端的方式同時學習單應性和CNN模型參數的優勢,不需要前兩個階段的過程!

HomographyNet回歸網絡

網絡產生八個數值作為輸出。以監督的方式進行訓練,並計算輸出和真實單應性之間的歐幾裡德損失。

Supervised Deep Homography Estimation

與其他有監督方法一樣,該單應性估計方法需要有標記數據。雖然很容易獲得真實圖像的單應性,但在實際數據上要昂貴得多。

無監督學習

基於這個想法,Nguyen等人提出了一種無監督的深度圖像單應性估計方法。他們保留了相同結構的CNN,但是使用適合無監督方法的損失函數:不需要人工標籤的光度損失(photometric loss)函數。相反,它計算參考圖像和感測變換圖像之間的相似性。

L1光度損失函數

他們的方法引入了兩種新的網絡結構:張量直接線性變換和空間變換層。我們可以簡單地使用CNN模型輸出的單應性參數獲得變換後的感測圖像,然後我們使用它們來計算光度損失。

Unsupervised Deep Homography Estimation

作者聲稱,與傳統的基於特徵的方法相比,這種無監督方法具有相當或更高的準確率和魯棒性,並且具有更快的執行速度。此外,與有監督方法相比,它具有更好的適應性和性能。

其他方法

強化學習

強化學習方法作為醫學應用的常用方法正在得到越來越多的關注。與預定義的優化算法相反,在這種方法中,我們使用訓練好的代理進行配準。

強化學習方法的配準可視化

2016年,Liao 等人首先使用強化學習進行圖像配準。他們的方法基於有監督算法進行端到端的訓練。它的目標是通過尋找最佳的運動動作序列來對齊圖像。這種方法優於最先進的方法,但它只能用於剛性轉換。強化學習也可以用於更複雜的轉換。在Robust non-rigid registration through agent-based action learning論文中,Krebs等人使用人工代理優化變形模型參數。該方法對前列腺MRI圖像的患者間的配準進行實驗,在2-D和3-D中表現出了較好的結果。複雜的轉換

在當前圖像配準研究中佔較大比例的是醫學影像。通常,由於患者的局部變形(因呼吸,解剖學變化等),兩個醫學圖像之間的變換不能簡單地通過單應矩陣描述,這需要更複雜的變換模型,例如由位移矢量場表示微分同胚(diffeomorphisms)。

心臟MRI圖像上的變形網格和位移矢量場示例

研究人員開始嘗試使用神經網絡來估計這些具有許多參數的大變形模型。

一個例子是上面提到的Krebs等人的強化學習方法。2017年De Vos等人提出了DIRNet。它使用CNN來預測控制點網格,該控制點用於生成位移矢量場,然後根據參考圖像變換感測圖像。

來自MNIST兩個輸入圖像的DIRNet示意圖

Quicksilver配準解決了類似的問題。Quicksilver使用深度編碼-解碼器網絡直接在預測圖像上進行變形。[1]: https://en.wikipedia.org/wiki/Rigid_transformation

[2]: https://en.wikipedia.org/wiki/Affine_transformation

[3]: https://docs.opencv.org/3.4.1/d9/dab/tutorial_homography.html

[4]: https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf

[5]: https://www.vision.ee.ethz.ch/~surf/eccv06.pdf

[6]: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.370.4395&rep=rep1&type=pdf

[7]: https://www.edwardrosten.com/work/rosten_2006_machine.pdf

[8]: https://www.cs.ubc.ca/~lowe/525/papers/calonder_eccv10.pdf

[9]: http://www.bmva.org/bmvc/2013/Papers/paper0013/paper0013.pdf

[10]: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.304.4980&rep=rep1&type=pdf

[11]: https://en.wikipedia.org/wiki/Scale_space

[12]: https://docs.opencv.org/3.0-beta/modules/cudawarping/doc/warping.html

[13]: https://docs.opencv.org/3.4.1/d9/dab/tutorial_homography.html

相關焦點

  • 圖像配準的前世今生:從人工設計特徵到深度學習
    選自Medium作者:Emma Kamoun機器之心編譯參與:Nurhachu Null,Geek AI作為計算機視覺的重要研究課題,圖像配準經歷了從傳統方法走向深度學習的重要革命。本文將回顧圖像配準技術的前世今生,為讀者提供一個該領域的宏觀視野。圖像配準是計算機視覺領域的一個基礎步驟。在本文深入探討深度學習之前,我們先展示一下 OpenCV 中基於特徵的方法。什麼是圖像配準?圖像配準就是將同一個場景的不同圖像轉換到同樣的坐標系統中的過程。
  • 【光電視界】圖像配準的前世今生:從人工設計特徵到深度學習
    圖像配準是計算機視覺領域的一個基礎步驟。在本文深入探討深度學習之前,我們先展示一下 OpenCV 中基於特徵的方法。圖像配準就是將同一個場景的不同圖像轉換到同樣的坐標系統中的過程。這些圖像可以是不同時間拍攝的(多時間配準),可以是不同傳感器拍攝的(多模配準),可以是不同視角拍攝的。
  • 巧解圖像處理經典難題之圖像配準
    具體地說,對於一組圖像數據集中的兩幅圖像,通過尋找一種空間變換把一幅圖像(浮動圖像,moving image)映射到另一幅圖像(參考圖像,fixed image)上,使得兩圖中對應於空間同一位置的點一一對應起來,從而達到信息融合的目的。圖像配準常為圖像融合的一個預處理步驟。
  • 圖像配準系列之基於FFD形變與LM算法的圖像配準
    接著判斷迭代次數是否達到設定的最大次數,如果達到則停止迭代,否則跳轉到第(3)步執行。col_block_num, grid_points); imshow("img1", img1); imshow("img2", img2); imshow("out", out); imshow("img1-img2", abs(img1-img2)); imshow("img1-out", abs(img1-out)); waitKey();}運行上述代碼,對扭曲的Lena圖像進行配準
  • 深度學習與圖像識別
    在2012年的比賽中,排名2到4位的小組都採用的是傳統的計算機視覺方法,手工設計的特徵,他們準確率的差別不超過1%。Hinton的研究小組是首次參加比賽,深度學習比第二名超出了10%以上。這個結果在計算機視覺領域產生了極大的震動,掀起了深度學習的熱潮。計算機視覺領域另一個重要的挑戰是人臉識別。
  • OpenCV-Python SIFT尺度不變特徵變換|三十九
    目標在這一章當中,我們將學習SIFT算法的概念我們將學習找到SIFT關鍵點和描述算符。理論在前兩章中,我們看到了一些像Harris這樣的拐角檢測器。它們是旋轉不變的,這意味著即使圖像旋轉了,我們也可以找到相同的角。
  • 論文推薦 | 李東宸, 向文豪, 黨倩楠, 等:均勻分布與結構描述ASIFT相結合的SAR與可見光圖像配準算法
    可見光遙感圖像在良好的成像條件下,可獲得地面目標豐富的紋理與光譜信息。因此,通過有效的多模態遙感影像配準與融合技術,能夠彌補單一影像源的不足, 實現多源影像信息的優勢互補,成為當今遙感影像處理領域的一個重要研究課題。目前圖像配準方法主要分為基於灰度信息和基於點特徵的圖像配準方法。
  • 一種基於Kinect的點雲配準算法
    近年來,隨著Kinect(如圖1)的問世和不斷發展,基於深度攝像機的諸多算法被越來越廣泛地應用於三維重建、實時定位與繪圖和機器人等領域。尤其是在三維重建中,RGB-D攝像機因其同步獲取場景RGB圖像和深度圖的特點,使其很快成為三維重建的主要感知設備,極大推動了三維重建技術的進步。
  • 基於深度學習的圖像超解析度技術
    SR是指通過軟體或硬體的方法,從觀測到的低解析度圖像重建出相應的高解析度圖像(說白了就是提高解析度),在監控設備、衛星圖像遙感、數字高清、顯微成像、視頻編碼通信、視頻復原和醫學影像等領域都有重要的應用價值。近年來,目睹了使用深度學習技術的圖像超解析度的顯著進步。
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    深度學習是近十年來人工智慧領域取得的重要突破。它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域的應用取得了巨大成功。現有的深度學習模型屬於神經網絡。神經網絡的起源可追溯到20世紀40年代,曾經在八九十年代流行。神經網絡試圖通過模擬大腦認知的機理解決各種機器學習問題。
  • 【深度學習】CNN圖像分類:從LeNet5到EfficientNet
    CNN在近幾年的發展歷程中,從經典的LeNet5網絡到最近號稱最好的圖像分類網絡EfficientNet,大量學者不斷的做出了努力和創新。本講我們就來梳理經典的圖像分類網絡。自從神經網絡和深度學習方法引入到圖像領域,經過近些年來的發展,從一開始的圖像分類逐漸延伸到目標檢測和圖像分割領域,深度學習也逐漸在計算機視覺領域佔據絕對的主導地位。
  • 深度重建:基於深度學習的圖像重建
    本文主要介紹了我們課題組的深度重建工作。從結果可以看出,基於深度學習的CT圖像重建方法在圖像質量上要優於傳統的重建算法。因此,在未來,深度學習和醫學圖像重建的聯繫將會越來越緊密。在今後的工作中,我們也會致力於推進深度學習和CT圖像領域的結合,引入深度學習發展的最新技術,將基於深度學習的方法引入臨床應用上,並且嘗試解決其他的醫學圖像問題,加快醫學圖像領域的發展進程。
  • 基於深度學習的圖像識別進展
    CNN等為什麼對圖像領域更加有效,因為其不但關注了全局特徵,更是利用了圖像識別領域非常重要的局部特徵,應該是將局部特徵抽取的算法融入到了神經網絡 中。圖像本身的局部數據存在關聯性,而這種局部關聯性的特徵是其他算法無法提取的。
  • Milvus 實戰 | 基於 Milvus 的圖像查重系統
    本項目主要針對論文圖像進行查重。算法是整個查重系統中的核心。本項目基於深度學習的方法,通過 ResNet 模型推理得到圖像的特徵向量,並利用 Milvus 構建圖像特徵向量庫。同時,Milvus 會自動為向量構建索引。進行查重任務時,需要先將圖像轉化為特徵向量,接著再使用 Milvus 進行向量檢索,得到疑似圖片。將查重圖片和疑似圖片根據圖像配準算法進行對比,最終得到對比結果。
  • 深度學習黑客競賽神器:基於PyTorch圖像特徵工程的深度學習圖像增強
    當我們沒有足夠的數據時,圖像增強是一個非常有效的方法我們可以在任何場合使用圖像增強進行深度學習——黑客競賽、工業項目等等我們還將使用PyTorch建立一個圖像分類模型,以了解圖像增強是如何形成圖片的在深度學習黑客競賽中表現出色的技巧(或者坦率地說,是任何數據科學黑客競賽) 通常歸結為特徵工程。
  • 使用深度學習來實現圖像超解析度
    SR是指通過軟體或硬體的方法,從觀測到的低解析度圖像重建出相應的高解析度圖像(說白了就是提高解析度),在監控設備、衛星圖像遙感、數字高清、顯微成像、視頻編碼通信、視頻復原和醫學影像等領域都有重要的應用價值。近年來,目睹了使用深度學習技術的圖像超解析度的顯著進步。
  • 深度學習在圖像取證領域中的進展
    研究興趣包括多媒體取證、隱寫分析,深度學習。所在團隊為教育部創新團隊和科技部重點領域創新團隊,負責人為趙耀教授。圖像取證在當今飛速發展的資訊時代,數字圖像已經滲透到社會生活的每一個角落,數字圖像的廣泛使用也促進了數字圖像編輯軟體的開發與應用,例如:Adobe Photoshop、CorelDRAW、美圖秀秀等等。
  • 深度學習角度 | 圖像識別將何去何從?
    這些經典的模型其實在很多博文中早已被介紹過,作者的創新之處在於透過這些經典的模型,討論未來圖像識別的新方向,並提出圖像識別無監督學習的趨勢,並引出生成對抗網絡,以及討論了加速網絡訓練的新挑戰。文章梳理了用於圖像識別的深度學習方法的脈絡,並對將來的挑戰和方法做了分析,非常值得一讀!專知內容組編輯整理。
  • 【深度】從經典深度學習模型探討圖像識別新方向
    【導讀】1月22日,深度學習工程師George Seif發布一篇文章,主要介紹了一些經典的用於圖像識別的深度學習模型,包括AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet的網絡結構及創新之處,並展示了其在ImageNet的圖像分類效果。
  • 一文探討可解釋深度學習技術在醫療圖像診斷中的應用
    本文重點關注可解釋深度學習方法在醫療圖像診斷中的應用。由於醫學圖像自有的特點,構建用於醫療圖像分析的可解釋深度學習模型與其它領域中的應用是不同的。本文依託於綜述性文章[1],首先回顧了可解釋性方法的主要分類以及可解釋深度學習在醫療圖像診斷領域中應用的主要方法。然後,結合三篇文章具體分析了可解釋深度學習模型在醫療圖像分析中的應用。