視頻圖像中文本的檢測、定位與提取

2020-12-17 電子產品世界

  目前,基於內容的視頻信息檢索(Content―Based Video Retrieval,簡稱CBVR)的研究已取得了較大的進展,但是檢索所採用的特徵基本上都是低級視覺特徵,如顏色、紋理、形狀、空間關係和運動等。這其中存在的主要問題是低級視覺特徵對視頻的描述與人對視頻的描述存在較大差異,而且用戶也不熟悉特徵值的變化對視覺效果帶來的影響。而視頻本質上是由文本、視頻和音頻等多種媒質融合而成,它們之間存在語義關聯,一種媒質和另外一種媒質表示同一語義或是其補充。只有通過挖掘構成視頻的各種媒質所表達的豐富語義信息,克服單純的視覺特徵語義表達能力較弱這一缺點,充分提取視頻中的高層語義,才能符合人們對視頻信息的理解習慣,實現實用的基於內容的視頻檢索系統。

本文引用地址:http://www.eepw.com.cn/article/103942.htm

  在視頻中,文本信息(如新聞標題、節目內容、旁白、工作人員名單等)均包含了豐富的高層語義信息,可用於對相應視頻流所表達的事件、情節以及情感等進行高級語義標註。如果這些文本能自動地被檢測、分割、識別出來,則對視頻高層語義的自動理解、索引和檢索是非常有價值的。視頻中的文本分為人工文本和場景文本。目前的研究主要集中於人工文本,而場景文本的研究才剛剛起步。正是由於文本的種類、形狀的多樣差異性,目前文本提取算法還沒有一個通用的評價準則和標準資料庫。

  文中針對水平和豎直排列的靜止及滾動文本,提出利用小波多尺度局部模極大值邊緣檢測算法來檢測文本圖像邊緣,利用形態學處理生成候選文本區域,用由粗到精的多次水平、豎直投影來定位精確的文本位置。然後,對於文本子圖用局部Otsu方法和區域填充處理進行文字二值化提取。

  1 小波模極大值算法提取視頻圖像的文字邊緣

  1.1 二維小波變換模極大值原理

  設θ(x,y)是一個二維平滑函數,引入尺度因

  

 

  

模M2jf(x,y)取極大值的點(x,y)對應於f*θs(x,y)的突變點或尖銳陡峭變化的位置,從而對應於圖像f(x,y)的邊緣。梯度grad(f*θs)(x,y)在點(x,y)處的方向表示在圖像平面(x,y)上f(x,y)的方向導數的絕對值取極大值的方向。即計算一個光滑函數的導數沿梯度方向的模極大值等價於計算其小波變換的模極大值。

 

  1.2 文本圖像的邊緣提取

  在圖像中,文本字符具有特殊的線條結構和紋理特點,其灰度(顏色)與背景相差較大,邊緣變化劇烈,呈現出明顯的橫向、豎向、斜向邊緣特徵,中、高頻信息較強。在小波圖像中表現為相應區域高頻細節子圖的係數較大;橫向線條、豎向線條和斜向線條分別在LH,HL以及HH子圖相應位置表現為較大的小波係數。

  

 

  根據上述原理,在實際計算時,採用3次B樣條小波,對輸入灰度文中圖像進行保持圖像大小不變的二維小波變換,得到W12jf(x,y)和W22jf(x,y)。改變j的值得到在不同尺度下圖像的小波變換,文中選取小波分解最大尺度為J=3,其中1≤J≤J。由式(2)、式(3)計算每一點的模值和幅角,找出模圖像在梯度方向上的極大值。設置閾值T0,保留大於T的像素的模值。最後連接邊界點,形成邊緣。

  圖1(a)為使用小波模極大值算法提取的視頻圖像中的文字邊緣,圖1(b)、(c)、(d)分別為使用Canny算子、LOG算子和Sobel算子的結果。由圖1可知,文中方法比傳統邊緣檢測方法,能在檢測出文本邊緣的同時很好的抑制背景邊緣。

  2 文本定位

  由於有的圖像背景過於複雜,在上階段處理得到的邊緣圖中仍存在一定數量的背景邊緣噪聲,將其通過局部閾值處理來濾除;在採用形態學處理生成候選文本區域後,用基於局部區域直方圖和閾值的定位方法對水平和豎直文本進行定位;為適應不同尺度文本,採用兩層金字塔模型分別定位併合成結果。

  2.1 背景噪聲濾除

  受文獻的啟發,用兩個同心窗對當前待處理的二值邊緣圖像EMP進行掃描。在實驗中,選擇經驗值,外窗高為3h=30,內窗高為h=10,以h為步長進行掃描。根據外窗中的邊緣密度直方圖來決定對內窗處理時的閾值。同心窗的結構及外窗內的邊緣水平投影,如圖2所示,Pi(i=1,…,3h)是第i行的邊緣像素數目。內窗內的局部閾值Tkernel就可以按照下面的公式計算

  

 

  

 

  其中,Smax是最高邊緣強度(O或255)。由式(4)可見,如果外窗內的邊緣像素的數量非常少,密度小於某個閾值ξ,那麼內窗內就很可能是背景噪聲,則將內窗內的閾值設置為Smax;否則,內窗內很可能是一個文本區域,將內窗內的閾值設置為Tmiddle,Tmiddle可以是0~255中任意一個數字。則在當前掃描窗口,內窗內大於閾值的邊緣像素被標記為文本;否則,將其值設置為0,即小於閾值的邊緣像素被覆蓋掉。

  2.2 基於形態學的候選文本區域生成

  形態學可將圖像信號與其幾何形狀聯繫起來,用具有一定形態的結構元素去量度和提取圖像中的對應形狀以達到對圖像分析和識別的目的。所以文中採用形態學處理來形成候選文本區域。形態學最基本的概念是腐蝕和膨脹,以及由它們組合而成的各種形態操作算子。

  設Ω為二維歐幾裡德空間,圖像A是Ω的一個子集,結構元素B也是Ω的一個子集,b∈Ω是歐氏空間的一個點,定義4個基本運算:

  

 

  其中,膨脹具有擴大目標區域的作用,腐蝕具有收縮目標區域的作用,開運算可刪除目標區域中的小分支,閉運算可填補目標區域中的空洞。 基於以上4個運算,文中的形態處理流程為:選取3×3的矩型結構元素進行膨脹,然後用2×2的矩型結構元素進行腐蝕,再用長為7,角度為0°的線型結構元素進行閉運算處理。考慮到豎直文本的情況,再用長為4,角度為90°的線型結構元素進行閉運算處理。實驗發現,結構元素的尺寸太大,會導致無效的膨脹重疊現象,增大計算量;而結構元素尺寸過小將不能有效形成文本塊區域。所以結構元素B的選擇對於候選文本區域形成與文本區域提取至關重要。實驗證明,文中所採用的結構元素很好地形成了候選文本區域。

  2.3 基於兩層金字塔和局部區域直方圖的文本定位

  對於生成候選文本區域的邊緣圖,在原圖和解析度降低一半的圖像這兩個尺度的金字塔級別上分別採用由粗到精的多次水平、豎直投影,併合成結果,來確定文本塊的具體行列。對水平文本定位先水平投影后豎直投影,對豎直文本定位則交換投影順序。

  定義一種局部區域的直方圖(Local Region histogram,即LRH)如下:

  給定一幅圖像f(x,y),對於其中由若干連續的行或列(行數或列數為L)所構成的任意子圖像,可分別按行或列生成局部區域直方圖LRH。LRH函數可定義為

  

 

  其中,k為子圖像的像素行(列)號,N表示一行(列)中的像素總數,Nk則是經過處理的邊緣圖中的高亮像素數,即是代表文本所在位置的那些白色像素數。圖3給出了一幅處理後的邊緣圖像所生成的LRH圖。

  

 

  由圖3可見,文本區域在LRH圖中形成具有一定寬度的高函數值連續區域。利用閾值法來檢測行/列邊界,由於閾值T取值過小會造成不能分割出單獨的行/列,過大則會遺漏行/列。為了能自動適應不同的圖像,將閾值T定義為T=c*Mean(LRH)。c為一個微調係數,可根據不同的視頻源的統計特性進行調整。針對文中選取的視頻片段,在進行了大量實驗對比後,選取了實驗效果較好的經驗值,對於水平的LRH圖,選擇c為1.O;對於豎直的LRH圖,選擇c為0.5。

  最後,對標出的矩形框,根據文本的尺寸比例,制定簡單的約束條件來去除非文本區。

  3 文本二值化提取

  為適應OCR軟體識別,需將文本子圖轉換成二值化圖像。在進行二值化前,採用雙三次插值法將所有水平文本區域高度歸一化成60像素,而寬度則根據原區域的比例進行相應的放大或縮小(對於豎直排列的文字塊則放縮到60像素寬,高度隨比例放縮)。為了增強文本子圖中字符與背景的對比度,對插值後的圖像進行灰度拉伸,自動搜索直方圖上非0最小值a和最大值b,把[a,b]拉伸到[0,255]的整個區間。採用文獻中的方法對文字極性進行判斷,並將其統一為「白底黑字」的形式。

  Otsu算法是一種最大類間方差法,能夠自動選取閾值,來分割圖像成兩部分。對於以上處理得到的圖像,二值化過程採用文獻中的基於滑動窗口的局部自適應Otsu方法和向內填充的區域生長方法,並對區域生長方法的文本標記做了改進。根據文本字符的筆劃特點,對文本點定義水平、豎直、右對角和左對角4個方向連通長度,對文本進行標記保護。將文本像素標記點定義為

  

 

  MIN_W,MAX_W和MAX_L定義了連通最長數目的範圍。經過此步驟,再對背景進行填充,並將連通區域面積過小的噪聲點去除。最後送入漢王OCR5.0增強版軟體進行識別。圖4給出了二值化過程。

  

 

  4 實驗及分析

  為了驗證文中檢測定位算法的性能,人工挑選了150幀背景非常複雜的視頻圖像進行了測試。其中有中文也有英文,有靜止也有線性滾動,有單行也有多行文本,字體多樣,尺寸有大有小。在實驗之前已經手工統計了這150幀圖像中所包含的文本塊總數,實驗結果,如表l所示。

  

 

  其中,誤檢的原因主要是複雜背景下存在與文本相似性很高的區域,而漏檢的原因是由於該文本區域與周圍背景對比度太低,幾乎完全溶入到背景中或單獨出現的字符在一系列處理中不滿足文本塊的尺寸限定而被當作背景噪聲濾除掉。採用軟體漢王OCR5.0增強版對二值化後的文本字符的最終識別率為88.7%。

  5 結束語

  提出採用小波多尺度局部模極大值邊緣檢測方法來對文本圖像進行邊緣檢測。對於檢測到的文本邊緣圖,先用局部閾值處理來濾除背景噪聲,採用形態學處理生成候選文本區域。使用由粗到精的遞歸投影和基於局部區域直方圖的定位算法,利用兩層金字塔模型以檢測出大小不一的文本來降低漏檢率,並用相應的準則來消除虛假的文本區域。文本提取方面,採用雙三次插值來統一各文本的高度/寬度,用灰度拉伸的方法來增強文本圖像的解析度。然後用改進的Otsu方法和種子填充方法進行二值化,去除連通面積過小的噪聲點,最後送入OCR軟體進行識別。實驗結果證明本文算法對於提取視頻圖像文本的有效性。

相關焦點

  • 實時視頻圖像的清晰度檢測算法研究
    通過比較上述算法,針對實時視頻圖像的特點,提出一種基於背景提取與Sobel算子相結合的實時視頻圖像的清晰度檢測算法。因此,本文的算法是利用實時視頻圖像中靜止的背景區域檢測視頻序列圖像的清晰度,即由背景提取和清晰度檢測兩部分組成。
  • 目標檢測的圖像特徵提取之 HOG特徵
    它通過計算和統計圖像局部區域的梯度方向直方圖來構成特徵。Hog特徵結合SVM分類器已經被廣泛應用於圖像識別中,尤其在行人檢測中獲得了極大的成功。需要提醒的是,HOG+SVM進行行人檢測的方法是法國研究人員Dalal在2005的CVPR上提出的,而如今雖然有很多行人檢測算法不斷提出,但基本都是以HOG+SVM的思路為主。
  • 基於Opencv的身份證圖像信息提取
    身份證信息提取要求:①能自動提取身份證的頭像部分②能自動識別身份證的號碼信息身份證不同區域的信息提取是基於對初步形成的連通域進行輪廓提取來實現的,該過程主要包括輪廓的檢測、輪廓的繪製以及區域的分割。輪廓是區域的邊緣列表,在圖像中邊緣一般定義為局部亮度變換最明顯的地方,主要存在於目標、背景和區域三者之間。
  • ResNet - 2015年 ILSVRC 的贏家(圖像分類,定位及檢測)
    跳過連接可以實現更深入的網絡,最終ResNet成為ILSVRC 2015在圖像分類,檢測和定位方面的贏家,和MS COCO 2015檢測和分割的獲勝者。ILSVRC 2015圖像分類排名ImageNet是一個包含超過1500萬個標記的高解析度圖像的數據集,包含大約22,000個類別。 ILSVRC在1000個類別中的每一個中使用大約1000個圖像的ImageNet子集。
  • 圖像處理之目標檢測入門總結
    而計算機視覺又有四個基本任務(關於這個任務,說法不一,比如有些地方說到對象檢測detection、對象追蹤tracking、對象分割segmentation,不用拘泥),即圖像分類,對象定位及檢測,語義分割,實例分割。
  • 提取圖像數據的特徵,讓機器「看見」
    ,基於結構形態的特徵提取與基於幾何分布的特徵提取。[ 導語 ] 人眼可以看到圖像的視覺信息,包括顏色特徵、紋理特徵、形狀特徵和空間關係特徵,但這種信息並不能讓計算機「看見」。想要讓計算機處理這種視覺信息,就要將圖像的視覺信息轉化成計算機能夠識別和處理的定量形式,也就是圖像特徵提取。下面將介紹兩種方法--基於結構形態的特徵提取與基於幾何分布的特徵提取。
  • 常用圖像邊緣檢測算法詳解
    圖像邊緣檢測大幅度地減少了數據量,並且剔除了可以認為不相關的信息,保留了圖像重要的結構屬性。有許多方法用於邊緣檢測,它們的絕大部分可以劃分為兩類:基於查找一類和基於零穿越的一類。基於查找的方法通過尋找圖像一階導數中的最大和最小值來檢測邊界,通常是將邊界定位在梯度最大的方向。
  • 倫敦帝國學院提出局部特徵提取新模式D2D:先描述後檢測
    跟大家分享一篇前天新出的非常有意思也有啟發的論文 D2D: Keypoint Extraction with Describe to Detect Approach ,該文研究的內容是局部特徵提取,在圖像匹配、視覺定位、三維重建等領域均顯示出了性能提升。
  • 視頻圖像中的車輛檢測跟蹤和分類
    摘 要:介紹了一種在固定的單攝像頭拍攝的交通圖像序列中檢測、跟蹤、分類車輛的方法。該方法大致可分為三部分:抽取背景圖像和圖像分割;基於針孔模型的攝像機定標,計算透視投影矩陣;利用區域特徵進行匹配跟蹤,建立目標鏈,恢復目標三維信息,採用模型匹配法對車型分類。實驗證明該方法簡單可行。
  • 庖丁解牛,原來CNN是這樣提取圖像特徵的!
    作為機器學習的一個分支,深度學習同樣需要計算機獲得強大的學習能力,那麼問題來了,我們究竟要計算機學習什麼東西?答案當然是圖像特徵了。將一張圖像看做是一個個像素值組成的矩陣,那麼對圖像的分析就是對矩陣的數字進行分析,而圖像的特徵,就隱藏在這些數字規律中。深度學習對外推薦自己的一個很重要的點——深度學習能夠自動提取特徵。
  • Python 圖像處理 OpenCV (13): Scharr 算子和 LOG 算子邊緣檢測技術
    Scharr 算子在說 Scharr 算子之前,必須要提的是前面我們介紹過的 Sobel 算子, Sobel 算子雖然可以有效的提取圖像邊緣,但是對圖像中較弱的邊緣提取效果較差。,也稱為 Marr & Hildreth 算子,它根據圖像的信噪比來求檢測邊緣的最優濾波器。
  • 「計算機視覺必讀乾貨」圖像分類、檢測,語義分割等方法梳理
    本文旨在介紹深度學習在計算機視覺領域四大基本任務中的應用,包括分類(圖a)、定位、檢測(圖b)、語義分割(圖c)、和實例分割(圖d)。圖像分類(image classification)給定一張輸入圖像,圖像分類任務旨在判斷該圖像所屬類別。
  • 圖像目標檢測算法——總結
    >可以看出,R-CNN 中,每個區域都要過一次CNN 提取特徵。而SPP-net 中,一張圖片只需要過一次CNN,特徵提取是針對整張圖進行的,候選區域的框定以及特徵向量化是在CNN 的feature map 層面進行的,而非直接在原始圖像上進行(R-CNN)。R-CNN 之所以要對候選框進行縮放後再輸入CNN,是為了保證輸入圖片尺寸一致,從而得到定長特徵向量(全連接層的存在使得CNN 需要輸入同樣大小的圖像)。
  • 圖像篡改檢測:RRU-Net
    論文:RRU-Net: The Ringed Residual U-Net for Image Splicing Forgery Detection代碼:https://github.com/yelusaleng/RRU-Net        圖像篡改區域定位可以認為是像素級的二分類問題,因此很多人採用分割網絡進行篡改區域定位,但以前的分割算法主要是偏向於強信號特徵
  • 基於三元組語義關係學習的遙感圖像變化檢測
    雙路深度神經網絡是指利用深度神經網絡分別對兩時相圖像提取特徵,再對兩個特徵圖計算歐氏距離得到差異圖,經過閾值法得到最終的差異圖。但是目前變化檢測方法存在著類間差異較大,未考慮圖像像素之間語義關係和多尺度的變化區域的問題。
  • 圖像特徵提取三大法寶:HOG特徵,LBP特徵,Haar特徵
    (一)HOG特徵1、HOG特徵:方向梯度直方圖(Histogram of Oriented Gradient, HOG)特徵是一種在計算機視覺和圖像處理中用來進行物體檢測的特徵描述子。它通過計算和統計圖像局部區域的梯度方向直方圖來構成特徵。Hog特徵結合SVM分類器已經被廣泛應用於圖像識別中,尤其在行人檢測中獲得了極大的成功。
  • 機器視覺定位如何在線檢測螺絲、螺母的缺陷
    在目前的市場,推出基於機器視覺的檢測方法,檢測原理是通過CCD相機拍照,軟體進行圖像分析,這種方法高效、高速、非接觸的檢測。 就例如螺絲螺母對於品質要求極為嚴格,而且,螺絲螺母的使用量一般都很大,一般都是大批量生產,這時外觀檢測依靠人工是完全應付不過來的,所以只能採用光學影像檢測設備來進行品質檢測。
  • 詳解計算機視覺五大技術:圖像分類、對象檢測、目標跟蹤、語義分割和實例分割
    智能汽車:計算機視覺仍然是檢測交通標誌、燈光和其他視覺特徵的主要信息來源。視覺識別是計算機視覺的關鍵組成部分,如圖像分類、定位和檢測。神經網絡和深度學習的最新進展極大地推動了這些最先進的視覺識別系統的發展。在本文中,我將分享 5 種主要的計算機視覺技術,並介紹幾種基於計算機視覺技術的深度學習模型與應用。
  • 基於FPGA的視頻實時邊緣檢測系統
    摘要:對於視頻圖像檢測與識別的需要,提出了一種基於FPGA的視頻邊緣檢測系統設計方案,並完成系統的硬體設計。在交通信息控制應用領域中,邊緣檢測已經是車牌識別、車流量監控、自動導航等技術中的重要環節。通過有效的邊緣檢測,可以大大簡化後續圖像處理過程對圖像信息的分析工作。對於視頻圖像的邊緣檢測,若採用軟體方式實現由於受到系統處理速度的限制,容易出現斷幀現象,這對於要求實時處理的情況下將是一個很大的缺陷。硬體實現主要有基於專用晶片,基於DSP和基於FPGA的3種處理方式。
  • Opencv+TF-Slim實現圖像分類及深度特徵提取
    本文將用Opencv的dnn模塊調用預訓練的InceptionV4模型進行圖像分類及深度特徵的提取。圖像分類模型最後邏輯層是輸出分類得分,最後一個卷積層/池化層輸出的結果為圖像特徵數據,通過在推斷時候指定該層名稱就可以實現在OpenCV DNN中通過CNN網絡實現圖像特徵提取,對Inception V4模型來說,在forward時候把圖像分類輸出層"InceptionV4/Logits/Predictions"改為