視頻圖像中文本的檢測、定位與提取

2020-12-08 電子產品世界

  目前,基於內容的視頻信息檢索(Content―Based Video Retrieval,簡稱CBVR)的研究已取得了較大的進展,但是檢索所採用的特徵基本上都是低級視覺特徵,如顏色、紋理、形狀、空間關係和運動等。這其中存在的主要問題是低級視覺特徵對視頻的描述與人對視頻的描述存在較大差異,而且用戶也不熟悉特徵值的變化對視覺效果帶來的影響。而視頻本質上是由文本、視頻和音頻等多種媒質融合而成,它們之間存在語義關聯,一種媒質和另外一種媒質表示同一語義或是其補充。只有通過挖掘構成視頻的各種媒質所表達的豐富語義信息,克服單純的視覺特徵語義表達能力較弱這一缺點,充分提取視頻中的高層語義,才能符合人們對視頻信息的理解習慣,實現實用的基於內容的視頻檢索系統。

本文引用地址:http://www.eepw.com.cn/article/103942.htm

  在視頻中,文本信息(如新聞標題、節目內容、旁白、工作人員名單等)均包含了豐富的高層語義信息,可用於對相應視頻流所表達的事件、情節以及情感等進行高級語義標註。如果這些文本能自動地被檢測、分割、識別出來,則對視頻高層語義的自動理解、索引和檢索是非常有價值的。視頻中的文本分為人工文本和場景文本。目前的研究主要集中於人工文本,而場景文本的研究才剛剛起步。正是由於文本的種類、形狀的多樣差異性,目前文本提取算法還沒有一個通用的評價準則和標準資料庫。

  文中針對水平和豎直排列的靜止及滾動文本,提出利用小波多尺度局部模極大值邊緣檢測算法來檢測文本圖像邊緣,利用形態學處理生成候選文本區域,用由粗到精的多次水平、豎直投影來定位精確的文本位置。然後,對於文本子圖用局部Otsu方法和區域填充處理進行文字二值化提取。

  1 小波模極大值算法提取視頻圖像的文字邊緣

  1.1 二維小波變換模極大值原理

  設θ(x,y)是一個二維平滑函數,引入尺度因

  

 

  

模M2jf(x,y)取極大值的點(x,y)對應於f*θs(x,y)的突變點或尖銳陡峭變化的位置,從而對應於圖像f(x,y)的邊緣。梯度grad(f*θs)(x,y)在點(x,y)處的方向表示在圖像平面(x,y)上f(x,y)的方向導數的絕對值取極大值的方向。即計算一個光滑函數的導數沿梯度方向的模極大值等價於計算其小波變換的模極大值。

 

  1.2 文本圖像的邊緣提取

  在圖像中,文本字符具有特殊的線條結構和紋理特點,其灰度(顏色)與背景相差較大,邊緣變化劇烈,呈現出明顯的橫向、豎向、斜向邊緣特徵,中、高頻信息較強。在小波圖像中表現為相應區域高頻細節子圖的係數較大;橫向線條、豎向線條和斜向線條分別在LH,HL以及HH子圖相應位置表現為較大的小波係數。

  

 

  根據上述原理,在實際計算時,採用3次B樣條小波,對輸入灰度文中圖像進行保持圖像大小不變的二維小波變換,得到W12jf(x,y)和W22jf(x,y)。改變j的值得到在不同尺度下圖像的小波變換,文中選取小波分解最大尺度為J=3,其中1≤J≤J。由式(2)、式(3)計算每一點的模值和幅角,找出模圖像在梯度方向上的極大值。設置閾值T0,保留大於T的像素的模值。最後連接邊界點,形成邊緣。

  圖1(a)為使用小波模極大值算法提取的視頻圖像中的文字邊緣,圖1(b)、(c)、(d)分別為使用Canny算子、LOG算子和Sobel算子的結果。由圖1可知,文中方法比傳統邊緣檢測方法,能在檢測出文本邊緣的同時很好的抑制背景邊緣。

  2 文本定位

  由於有的圖像背景過於複雜,在上階段處理得到的邊緣圖中仍存在一定數量的背景邊緣噪聲,將其通過局部閾值處理來濾除;在採用形態學處理生成候選文本區域後,用基於局部區域直方圖和閾值的定位方法對水平和豎直文本進行定位;為適應不同尺度文本,採用兩層金字塔模型分別定位併合成結果。

  2.1 背景噪聲濾除

  受文獻的啟發,用兩個同心窗對當前待處理的二值邊緣圖像EMP進行掃描。在實驗中,選擇經驗值,外窗高為3h=30,內窗高為h=10,以h為步長進行掃描。根據外窗中的邊緣密度直方圖來決定對內窗處理時的閾值。同心窗的結構及外窗內的邊緣水平投影,如圖2所示,Pi(i=1,…,3h)是第i行的邊緣像素數目。內窗內的局部閾值Tkernel就可以按照下面的公式計算

  

 

  

 

  其中,Smax是最高邊緣強度(O或255)。由式(4)可見,如果外窗內的邊緣像素的數量非常少,密度小於某個閾值ξ,那麼內窗內就很可能是背景噪聲,則將內窗內的閾值設置為Smax;否則,內窗內很可能是一個文本區域,將內窗內的閾值設置為Tmiddle,Tmiddle可以是0~255中任意一個數字。則在當前掃描窗口,內窗內大於閾值的邊緣像素被標記為文本;否則,將其值設置為0,即小於閾值的邊緣像素被覆蓋掉。

  2.2 基於形態學的候選文本區域生成

  形態學可將圖像信號與其幾何形狀聯繫起來,用具有一定形態的結構元素去量度和提取圖像中的對應形狀以達到對圖像分析和識別的目的。所以文中採用形態學處理來形成候選文本區域。形態學最基本的概念是腐蝕和膨脹,以及由它們組合而成的各種形態操作算子。

  設Ω為二維歐幾裡德空間,圖像A是Ω的一個子集,結構元素B也是Ω的一個子集,b∈Ω是歐氏空間的一個點,定義4個基本運算:

  

 

  其中,膨脹具有擴大目標區域的作用,腐蝕具有收縮目標區域的作用,開運算可刪除目標區域中的小分支,閉運算可填補目標區域中的空洞。 基於以上4個運算,文中的形態處理流程為:選取3×3的矩型結構元素進行膨脹,然後用2×2的矩型結構元素進行腐蝕,再用長為7,角度為0°的線型結構元素進行閉運算處理。考慮到豎直文本的情況,再用長為4,角度為90°的線型結構元素進行閉運算處理。實驗發現,結構元素的尺寸太大,會導致無效的膨脹重疊現象,增大計算量;而結構元素尺寸過小將不能有效形成文本塊區域。所以結構元素B的選擇對於候選文本區域形成與文本區域提取至關重要。實驗證明,文中所採用的結構元素很好地形成了候選文本區域。

  2.3 基於兩層金字塔和局部區域直方圖的文本定位

  對於生成候選文本區域的邊緣圖,在原圖和解析度降低一半的圖像這兩個尺度的金字塔級別上分別採用由粗到精的多次水平、豎直投影,併合成結果,來確定文本塊的具體行列。對水平文本定位先水平投影后豎直投影,對豎直文本定位則交換投影順序。

  定義一種局部區域的直方圖(Local Region histogram,即LRH)如下:

  給定一幅圖像f(x,y),對於其中由若干連續的行或列(行數或列數為L)所構成的任意子圖像,可分別按行或列生成局部區域直方圖LRH。LRH函數可定義為

  

 

  其中,k為子圖像的像素行(列)號,N表示一行(列)中的像素總數,Nk則是經過處理的邊緣圖中的高亮像素數,即是代表文本所在位置的那些白色像素數。圖3給出了一幅處理後的邊緣圖像所生成的LRH圖。

  

 

  由圖3可見,文本區域在LRH圖中形成具有一定寬度的高函數值連續區域。利用閾值法來檢測行/列邊界,由於閾值T取值過小會造成不能分割出單獨的行/列,過大則會遺漏行/列。為了能自動適應不同的圖像,將閾值T定義為T=c*Mean(LRH)。c為一個微調係數,可根據不同的視頻源的統計特性進行調整。針對文中選取的視頻片段,在進行了大量實驗對比後,選取了實驗效果較好的經驗值,對於水平的LRH圖,選擇c為1.O;對於豎直的LRH圖,選擇c為0.5。

  最後,對標出的矩形框,根據文本的尺寸比例,制定簡單的約束條件來去除非文本區。

  3 文本二值化提取

  為適應OCR軟體識別,需將文本子圖轉換成二值化圖像。在進行二值化前,採用雙三次插值法將所有水平文本區域高度歸一化成60像素,而寬度則根據原區域的比例進行相應的放大或縮小(對於豎直排列的文字塊則放縮到60像素寬,高度隨比例放縮)。為了增強文本子圖中字符與背景的對比度,對插值後的圖像進行灰度拉伸,自動搜索直方圖上非0最小值a和最大值b,把[a,b]拉伸到[0,255]的整個區間。採用文獻中的方法對文字極性進行判斷,並將其統一為「白底黑字」的形式。

  Otsu算法是一種最大類間方差法,能夠自動選取閾值,來分割圖像成兩部分。對於以上處理得到的圖像,二值化過程採用文獻中的基於滑動窗口的局部自適應Otsu方法和向內填充的區域生長方法,並對區域生長方法的文本標記做了改進。根據文本字符的筆劃特點,對文本點定義水平、豎直、右對角和左對角4個方向連通長度,對文本進行標記保護。將文本像素標記點定義為

  

 

  MIN_W,MAX_W和MAX_L定義了連通最長數目的範圍。經過此步驟,再對背景進行填充,並將連通區域面積過小的噪聲點去除。最後送入漢王OCR5.0增強版軟體進行識別。圖4給出了二值化過程。

  

 

  4 實驗及分析

  為了驗證文中檢測定位算法的性能,人工挑選了150幀背景非常複雜的視頻圖像進行了測試。其中有中文也有英文,有靜止也有線性滾動,有單行也有多行文本,字體多樣,尺寸有大有小。在實驗之前已經手工統計了這150幀圖像中所包含的文本塊總數,實驗結果,如表l所示。

  

 

  其中,誤檢的原因主要是複雜背景下存在與文本相似性很高的區域,而漏檢的原因是由於該文本區域與周圍背景對比度太低,幾乎完全溶入到背景中或單獨出現的字符在一系列處理中不滿足文本塊的尺寸限定而被當作背景噪聲濾除掉。採用軟體漢王OCR5.0增強版對二值化後的文本字符的最終識別率為88.7%。

  5 結束語

  提出採用小波多尺度局部模極大值邊緣檢測方法來對文本圖像進行邊緣檢測。對於檢測到的文本邊緣圖,先用局部閾值處理來濾除背景噪聲,採用形態學處理生成候選文本區域。使用由粗到精的遞歸投影和基於局部區域直方圖的定位算法,利用兩層金字塔模型以檢測出大小不一的文本來降低漏檢率,並用相應的準則來消除虛假的文本區域。文本提取方面,採用雙三次插值來統一各文本的高度/寬度,用灰度拉伸的方法來增強文本圖像的解析度。然後用改進的Otsu方法和種子填充方法進行二值化,去除連通面積過小的噪聲點,最後送入OCR軟體進行識別。實驗結果證明本文算法對於提取視頻圖像文本的有效性。

相關焦點

  • 如何理解圖像定位和跟蹤技術
    邊緣是運動目標的最基本特徵,表現在圖像中就是指目標周圍圖像灰度有階躍變化或屋頂變化的那些像素集合,它是圖像中局部亮度變化最顯著的部分。 邊緣檢測就是採用某種算法來定位灰度不連續變化的位置,從而圖像中目標與背景的交界線。圖像的灰度變化可以用灰度梯度來表示。
  • 【視頻】CCD自動檢測、定位+工業機器人具體應用!
    簡單來說,ccd視覺檢測系統就是用工業相機代替人眼睛去完成識別、測量、定位、判斷等功能。
  • 視覺軟體輸出的圖像視頻信號
    視覺軟體的輸出並不是圖像視頻信號,只是通過與運算處理後的檢驗結果,一般機器視覺檢測就是說用設備替代人眼來做精確測量和分辨,最先選用CCD相機將被攝入目標轉化成圖像信息,ccd監測系統設備,傳輸給專用的圖像處理系統,按照像素分布和色度
  • 基於FPGA的結構光圖像中心線提取
    實驗表明採用FPGA 實現圖像處理的專用算法能滿足圖像數據進行實時準確提取的要求。利用現場可編程門陣列器件(FPGA)的流水線技術以及並行技術的硬體設計來完成運算,保證了光條紋中心點的實時準確提取。實驗表明採用FPGA 實現圖像處理的專用算法能滿足圖像數據進行實時準確提取的要求。
  • 複雜車輛圖像中的車牌定位
    完整的車牌識別系統一般分為3部分:車牌定位、字符分割和字符識別,其中車牌定位技術是整個車牌識別系統的核心,直接影響整個識別系統的速度和準確率。 目前已有的車牌定位算法眾多,包括邊緣檢測、數學形態學、小波分析、投影法、顏色特徵提取和神經網絡等。基於邊緣檢測、數學形態學及小波分析的方法,定位較準確,但在背景信息複雜或車牌上方有引擎散熱孔的圖像中容易產生錯誤定位。
  • 基於圖像採集的汽車車牌定位識別,軟硬體協同
    汽車車牌的定位識別需要對攝像機拍攝的含有汽車車牌的圖片中的車牌的位置信息進行檢測,並將檢測結果輸出,經過這樣的預處理後,圖像中車牌數據的獲取就會變得相當省時省力了,處理時間的大大縮短對於對圖像處理時間有嚴格要求的收費卡口以及交通路口來說是求之不得的。
  • 基於Nios II的視頻運動目標檢測跟蹤系統設計
    摘要:文章是以Nios II處理器為中心的視頻運動目標檢測跟蹤系統,通過CMOS圖像傳感器採集視頻圖像信息,採用幀間差分法檢測運動目標,形心跟蹤算法對目標進行跟蹤,最後在VGA顯示器上顯示視頻中運動物體。
  • 深度學習與圖像識別 圖像檢測
    CNN等為什麼對圖像領域更加有效,因為其不但關注了全局特徵,更是利用了圖像識別領域非常重要的局部特徵,應該是將局部特徵抽取的算法融入到了神經網絡中。圖像本身的局部數據存在關聯性,而這種局部關聯性的特徵是其他算法無法提取的。深度學習很重要的是對全局和局部特徵的綜合把握(2)深度學習不是一個黑箱系統。
  • 智能交通:汽車車牌定位識別完整設計
    本項目擬充分發掘FPGA並行運算在圖像處理領域的優勢,實現基於Adboost算法的車牌檢測硬體架構,最終完成車牌定位信息的實時輸出。,配合外圍的視頻A/D,D/A、存儲器等晶片,完成圖像的採集和定位標記與原始圖像地疊加輸出。
  • ILSVRC2016目標檢測任務回顧——視頻目標檢測(VID)
    本文的姐妹篇:《ILSVRC2016目標檢測任務回顧:圖像目標檢測(DET)》圖像目標檢測任務在過去三年的時間取得了巨大的進展,檢測性能得到明顯提升。但在視頻監控、車輛輔助駕駛等領域,基於視頻的目標檢測有著更為廣泛的需求。
  • 基於FPGA的移動目標實時定位跟蹤系統
    基於實時物體移動的靜態圖像背景中移動目標檢測是計算機視覺領域的研究熱點,在安防、監控、智能交通、機器智慧、以及軍事領域等社會生活和軍事防禦等諸多領域都有較大的實用價值。移動目標檢測的實質是從實時圖像序列中將圖像的變化區域從整體圖像中分割提取出來。
  • Python 圖像處理 OpenCV (13): Scharr 算子和 LOG 算子邊緣檢測技術
    Scharr 算子在說 Scharr 算子之前,必須要提的是前面我們介紹過的 Sobel 算子, Sobel 算子雖然可以有效的提取圖像邊緣,但是對圖像中較弱的邊緣提取效果較差。,也稱為 Marr & Hildreth 算子,它根據圖像的信噪比來求檢測邊緣的最優濾波器。
  • 針對消防安全 有關專家研發了一款「火眼」視頻圖像火災探測軟體
    火災發生主要原因之一就是現有的建築消防設施設備不夠完善,老化、維護更新不及時,針對這種情況,公安部天津消防研究所和國家消防工程技術研究中心組織有關專家共同研發了一款「火眼」視頻圖像火災探測軟體(以下簡稱「火眼」探測軟體)。它利用各種建築內已普遍安裝的視頻監控系統,通過高水平的計算機圖像識別技術,識別監控區域內可能出現的火焰和煙霧。
  • 乾貨|一文讀懂圖像局部特徵點檢測算法
    研究圖像特徵檢測已經有一段時間了,圖像特徵檢測的方法很多,又加上各種算法的變形,所以難以在短時間內全面的了解,只是對主流的特徵檢測算法的原理進行了學習研究。總體來說,圖像特徵可以包括顏色特徵、紋理特徵、形狀特徵以及局部特徵點等。其中局部特點具有很好的穩定性,不容易受外界環境的幹擾,本篇文章也是對這方面知識的一個總結。
  • 「計算機視覺必讀乾貨」圖像分類、檢測,語義分割等方法梳理
    本文旨在介紹深度學習在計算機視覺領域四大基本任務中的應用,包括分類(圖a)、定位、檢測(圖b)、語義分割(圖c)、和實例分割(圖d)。圖像分類(image classification)給定一張輸入圖像,圖像分類任務旨在判斷該圖像所屬類別。(1) 圖像分類常用數據集以下是幾種常用分類數據集,難度依次遞增。
  • 大恆圖像工件識別及測量定位系統
    該系統可以自動識別生產線或工作檯上的工件,能夠自動拍攝工件的圖像,對採集到的圖像首先進行目標定位,然後通過特徵匹配和插值運算計算出旋轉角度。
  • 深蘭ACM MM 2020視頻目標檢測挑戰賽冠軍 助機器理解視頻級別目標身份和動態
    該數據集包含10,000個從YFCC100M[2]數據集中篩選的視頻(98.6小時),80個類別的目標(例如成人、狗、玩具)和50個類別的關係(例如旁邊、觀看、保持)標註;同時舉辦Video Relation Understanding[1]競賽,該競賽同時是ACM Multimedia 2020 Grand Challenge中的競賽任務。
  • 基於RCNN的多層次結構顯著性目標檢測方法
    交通場景下捕捉到的視頻序列中包含各種不同視頻目標,如行人、汽車、路面、障礙物、背景中的各種物體等,需要在測試圖像中標識出感興趣類別的目標對象,用來提供給車輛控制系統作為決策依據。 特徵的檢測與表示是關鍵步驟,涉及到如何編碼描述目標圖像信息的問題,比較理想的特徵表示方法要能適應各種幹擾因素的影響,比如尺度、外觀、遮擋、複雜背景等情況。
  • 計算機視覺(圖像)技術:視覺圖像搜索綜述
    通常,視覺搜索包含了兩步任務:首先,待搜索物體的檢測與定位;其次,從庫(知識圖譜、圖片庫、信息庫等)中搜索該物體,或查詢相關聯的場景。比如從簡單的以圖搜圖、車牌識別,到人臉識別、植物或寵物的識別,人體或車輛的跟蹤,無人機、無人汽車的自動駕駛,智慧機器人等領域,都離不開計算機視覺搜索技術,這也是此次谷歌開源基於 TensorFlow 的物體檢測代碼的意義所在。
  • 其於多尺度分析的紅外圖像邊緣特徵融合算法
    摘要:針對紅外圖像特點,採用基於正交小波變換的多尺度邊緣檢測方法,利用小波變換天生的多尺度特性,檢測出不同尺度、不同精度下的邊緣特徵,融合形成圖像邊緣。