從傳統圖像算法到深度學習,文字識別技術經歷了這些變化

2020-12-05 聚華光學科技有限公司

文字識別的發展大致可以分為兩個階段,分別是傳統圖像算法階段和深度學習算法階段。

傳統圖像算法

2012年之前,文字識別的主流算法都依賴於傳統圖像處理技術和統計機器學習方法實現,利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來,並轉換成一種計算機能夠接受、人又可以理解的格式。傳統的文字識別方法可以分為圖像預處理、文字識別、後處理三個階段:

圖像預處理:完成文字區域定位,文字矯正,字符切割等處理,預處理一般包括灰度化、二值化,傾斜檢測與校正,行、字切分,平滑,規範化等等,核心技術包括連通域分析,MSER,仿射變換,圖像二值化,投影分析等。

文字識別:對切割出的文字進行識別,一般採用提取人工設計特徵(如HOG特徵等)或者CNN提取特徵,再通過機器學習分類器(如SVM等)進行識別;

後處理:利用規則,語言模型等對識別結果進行矯正。

傳統的文字識別方法,在簡單的場景下能達到不錯的效果,但是不同場景下都需要獨立設計各個模塊的參數,工作繁瑣,遇到複雜的場景,難以設計出泛化性能好的模型。

深度學習算法

2012年之後,隨著深度學習在計算機視覺領域應用的不斷擴大,工業場景下的圖像文本識別更為複雜,它會出現在許多不同的情景下,如醫藥包裝上的文字、各類鋼製零部件上的字符、貨櫃表面噴印的字符、商鋪Logo上的個性化字符等等。

文字識別逐漸拋棄了原有方法,過渡到深度學習算法方案。在深度學習時代,文字識別框架也逐漸簡化,目前主流的方案主要有兩種,一種是文本行檢測與文字識別的兩階段方案,另一種是端到端的文字識別方案。

1)兩階段文字識別方案

主要思路是先定位文本行位置,然後再對已經定位的文本行內容進行識別。文本行檢測從方法角度主要分為基於文本框回歸的方法,基於分割或實例分割的方法,以及基於回歸、分割混合的方法,從檢測能力上也由開始的多向矩形框發展到多邊形文本,現在的熱點在於解決任意形狀的文本行檢測問題。文本識別從單字檢測識別發展到文本序列識別,目前序列識別主要又分為基於CTC的方法和基於Attention的方法。

2)端到端文字識別方案

使用文字檢測加文字識別兩步法雖然可以實現場景文字的識別,但融合兩個步驟的結果時仍需使用大量的手工知識,且會增加時間的消耗。

而端對端文字識別能夠同時完成檢測和識別任務,極大地提高了文字識別的實時性。通過一個模型同時完成文本行檢測和文本識別的任務,既可以提高文本識別的實時性,同時因為兩個任務在同一個模型中聯合訓練,兩部分任務可以互相促進效果。

相關焦點

  • 曠視科技 CSG 算法負責人姚聰:深度學習時代的文字檢測與識別技術...
    原標題:曠視科技 CSG 算法負責人姚聰:深度學習時代的文字檢測與識別技術 | AI 研習社 103 期大講堂 雷鋒網 AI 研習社按:隨著深度學習的興起和發展,計算機視覺領域發生了極大的變化。
  • 深度學習與圖像識別 圖像檢測
    傳統的BP算法針對高維的數據也是效果不佳。 CNN等為什麼對圖像領域更加有效,因為其不但關注了全局特徵,更是利用了圖像識別領域非常重要的局部特徵,應該是將局部特徵抽取的算法融入到了神經網絡中。圖像本身的局部數據存在關聯性,而這種局部關聯性的特徵是其他算法無法提取的。
  • 用深度學習理解遙感圖像,識別效率提升90倍 | PaddlePaddle出品
    這會對理解遙感圖像的算法造成極大的影響。最直接的體現就是,原本針對這些地方構建的算法,過了一年之後,就要有針對性地調優,適應這些變化,不然就會「罷工」。而且, 這些算法都與人的經驗有很強的關聯性,如果設計算法的人離職,整個算法就難以為繼了。
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    深度學習在物體識別中的應用  ImageNet圖像分類  深度學習在物體識別中最重要的進展體現在ImageNet ILSVRC挑戰中的圖像分類任務。傳統計算機視覺方法在此測試集上最低的錯誤率是26.172%。2012年,欣頓的研究小組利用卷積網絡把錯誤率降到了15.315%。
  • 技術| 基於深度學習圖像識別的變電站監控系統
    打開APP 技術 | 基於深度學習圖像識別的變電站監控系統 發表於 2019-07-22 08:29:10 基於計算機網絡技術以及無線通信技術和視頻監控技術,研究深度學習圖像識別的變電站基建安全行為監控系統。
  • 基於深度學習的人臉識別技術全解
    基於幾何特徵的方法符合人們對人臉特徵的認識,另外,每幅人臉只存儲一個特徵,所以佔用的空間比較小; 同時,這種方法對光照引起的變化並不會降低其識別率,而且特徵模板的匹配和識別率比較高。但是,基於幾何特徵的方法也存在著魯棒性不好,一旦表情和姿態稍微變化,識別效果將大打折扣。 基於深度學習的方法 深度學習的出現使人臉識別技術取得了突破性進展。
  • 複雜場景下的 OCR 如何實現——深度學習算法綜述
    二、傳統算法傳統OCR技術通常使用OpenCV算法庫,通過圖像處理和統計機器學習方法提取圖像中的文字信息,用到的技術包括二值化、噪聲濾除、連通域分析和Adaboost、SVM等。按處理方式可以將傳統OCR技術劃分為圖片預處理、文字識別、後處理三個階段,其具體的技術流程如下圖所示。
  • 基於深度學習的物候學識別
    點擊藍色字免費訂閱,每天收到這樣的好資訊本文闡述了基於深度學習由於環境變化對植物生長影響較大,因此,在增加作物品質和提高作物產量方面,物候學的精確監控可為其提供一些指導信息。隨著計算機視覺技術和網絡通訊系統的進步和發展,人們對精準農業的認識也在發生變化。研究人員利用農業監測網絡地面站的傳感器收集大量信息,通過將這些高質量的信息與現代圖像處理算法相結合,可逐步增加表型分析在農業上的應用潛力。
  • 阿里AI再獲圖像識別冠軍,可將深度學習算法壓縮100倍
    DoNews 7月30日消息(記者 趙晉傑)在CVPR 2019的低功耗圖像識別挑戰賽(LPIRC ,Low-Power Image Recognition Challenge)上,阿里AI獲得在線圖像分類任務第一名。這也意味著,阿里AI識別百萬圖像的算法,在手機上也能跑起來了。
  • 一場深度學習引發的圖像壓縮革命
    WEBP 採用一種基於 VP8 編碼(已於 2010 年 5 月開源)的圖片壓縮器,利用預測編碼技術,達到減少數據量、加速網絡傳輸的目的。而 TNG 一改傳統的這些編碼技術,轉而乘上深度學習這艘大船。據圖鴨科技 CEO 武俊敏介紹,他們從 16 年 8 月開始對 TNG 技術進行研發,歷經傳統算法和深度學習算法兩個階段。最初,他們在 H.265(HEVC)基礎上進行研究,但 H.265 已經是當時最優秀的編碼方法之一,基於這項技術進行傳統研發的新思路並不多。此時,另一條路擺在他們眼前,那就是深度學習。
  • 圖像配準的前世今生:從人工設計特徵到深度學習
    選自Medium作者:Emma Kamoun機器之心編譯參與:Nurhachu Null,Geek AI作為計算機視覺的重要研究課題,圖像配準經歷了從傳統方法走向深度學習的重要革命。本文將回顧圖像配準技術的前世今生,為讀者提供一個該領域的宏觀視野。圖像配準是計算機視覺領域的一個基礎步驟。在本文深入探討深度學習之前,我們先展示一下 OpenCV 中基於特徵的方法。什麼是圖像配準?圖像配準就是將同一個場景的不同圖像轉換到同樣的坐標系統中的過程。
  • 谷歌開發出的深度學習算法模型,可用於預測DNA鏈等亞細胞結構的變化
    而隨著科技的發展,深度學習成為圖像處理領域的最佳利器,故而許多研究人員開發出了算法,以用於處理活細胞等微生物螢光圖像:如當科學家希望利用深度學習來分析基因組中的基因突變,他們先將DNA鏈中的鹼基轉換為計算機可以識別的圖像,然後將已知的DNA突變片段信息與基因組信息一起用於訓練神經網絡系統,隨後用機器學習進行預測和數據分析。
  • 推薦算法系統/人臉識別/深度學習對話機器人高級實戰課
    包含了推薦算法系統實戰、深度學習人臉識別實戰、深度學習對話機器人實戰等高級前沿的精品課程,下面分別介紹下各個實戰項目:1、推薦算法系統實戰首先推薦系統不等於推薦算法,更不等於協同過濾。2、深度學習人臉識別實戰人臉識別,是基於人的臉部特徵信息進行身份識別的一種生物識別技術。
  • 深度學習:神經網絡算法的昨天、今天和明天
    而這些應用背後的核心算法就是深度學習(Deep Learning),也是機器學習(Machine Learning)領域最火熱的一個分支。和其他機器學習算法有很大不同,深度學習依賴大量數據的迭代訓練,進而發現數據中內在的特徵(Feature),然後給出結果。這些特徵中,有很多已經超越了人為定義的特徵的表達能力,因此得以讓深度學習在很多任務的表現上大大超越了其他機器學習算法,甚至超越了人類自己。
  • 關於MATLAB 圖像處理與深度學習的作用分析和介紹
    接下來我們將介紹如何創建該算法,並說明為何深度學習和圖像處理對於對象檢測和圖像分類同樣十分有用。 圖像處理與深度學習 我們重點介紹兩種技術: 圖像處理 按像素級別變換或者修改圖像。比如,過濾、模糊、去模糊和邊緣檢測等; 深度學習 通過學習樣本圖像自動識別圖像特點。近幾年,深度學習已經徹底改變了圖像處理領域。
  • 深度學習技術和卷積神經網絡(CNN)讓機器視覺識別更智能
    隨著人工智慧技術的進步,深度學習技術(DL)和卷積神經網絡技術(CNN)領域的人工智慧(AI)被引入到機器視覺圖像處理系統的應用中來,從而幫助機器學習和機器檢測缺陷更加高效,使機器視覺識別的過程更加精確。也讓使用這些技術的企業可以從智能化中獲得更高的生產經營效益。
  • 人臉識別核心算法及技術解析
    1、在檢測到人臉並定位面部關鍵特徵點之後,主要的人臉區域就可以被裁剪出來,經過預處理之後,饋入後端的識別算法。識別算法要完成人臉特徵的提取,並與庫存的已知人臉進行比對,完成最終的分類。然後將每個Gabor特徵圖譜劃分成若干互不相交的局部空間區域,對每個區域提取局部鄰域像素的亮度變化模式,並在每個局部空間區域內提取這些變化模式的空間區域直方圖,所有Gabor特徵圖譜的、所有區域的直方圖串接為一高維特徵直方圖來編碼人臉圖像。並通過直方圖之間的相似度匹配技術(如直方圖交運算)來實現最終的人臉識別。
  • 深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別
    然而在此之外,ENet[56](這是一種用於實時語義分割的深度神經網絡架構)卻並不屬於這一類別。它也展示出了可以降低計算成本的經濟適用價值,可以更好地用於行動裝置。我們希望儘可能地將這些前沿技術與已有的實際應用聯繫起來。
  • 深度圖像識別-深層網絡的隱式語義數據擴增 ISDA 方法
    vZVEETC-電子工程專輯1 介紹數據增強是一種有效的技術,以緩解訓練深度網絡[1,2,3,4,5]中的過擬合問題。在圖像識別的背景下,這通常對應於在輸入樣本上應用保留內容的轉換,例如裁剪、水平鏡像、旋轉和顏色抖動。這些增強技術雖然有效,但不能進行語義轉換,例如改變對象的背景或前景對象的紋理。
  • 深度學習不是萬靈藥!神經網絡3D建模其實只是圖像識別?
    但近期一項研究表明,幾乎所有基於深度神經網絡的3D中重建工作,實際上並不是重建,而是圖像分類。深度學習並不是萬能的!深度學習並不是萬靈藥。近幾年,隨著深度學習的大熱,許多研究攻克了如何從單張圖片生成3D模型。從某些方面似乎再次驗證了深度學習的神奇——doing almost the impossible。