介紹一個Python 包,幾行代碼可實現 OCR 文本識別!

2020-12-25 Z先生點記

點擊上方 Z先生點記,加為星標

第一時間收到 Python 技術乾貨!

文字 OCR 識別技術現在已經相當成熟了,無論 其 準確度還是識別速度 都能夠滿足我們的日常需要;今天給大家介紹一個 Python 包,該包的主要功能就是用於 OCR 識別的,包的名字叫 Pyteeseract,藉助這個包幾行代碼就能快速識別一張文本圖片

Pytesseract 包是由 開源工具 Tesseract 得到的,由 Hewlett Packard 實驗室開發,在 2005 年實行開源;自2006 年之後由谷歌和一些優秀的開源貢獻者共同開發維護

Tesseract 在 3.x 版本之後逐漸成熟,支持多種圖片格式並且逐步加入多語言文本識別;但 Tesseract 3.x 版本依舊 基於傳統計算機視覺算法,在過去的幾年得益於 Deep Learning 的快速迭代,無論是準確率與速度方面都要優於傳統算法;在 4.0 版本之後 Tesseract 加入了 Deep Learning 模塊, 是基於 Recognition 的 LSTM,而 LSTM 就是可歸類為 RNN(循環卷積神經網絡);

本篇文章的實驗是基於 Tesseract3.05 版本實現的,最後在中文語言識別方面準確率稍次,可能是因為沒有使用4.0+的原因在,後來才了解已經有 4.0+ 版本甚至 5.0+ (但不太穩定)且都是基於 Deep Learning 模塊的,但因為太懶就不想改了,,,

先交代一下實驗環境:

os: Win10;Python 3.8;pyteeseract 0.3.8;Tesseract 3.05;pyteeseract 安裝

1,安裝 tesseract 工具

相對其它程序包,pyteeseract 的安裝步驟會相對繁瑣一點,因為 pyteeseract 識別功能是基於 tesseract 開源工具完成的,所以第一步 安裝 tesseract ,安裝包下載連結:

https://digi.bib.uni-mannheim.de/tesseract/

提供有 3.0+,4.0+及5.0+版本使用,下載完之後安裝(安裝方式就是傻瓜式安裝)

tesseract 安裝成功之後,需把存放 tesseract.exe 的文件路徑加入到環境變量中,如下圖我的 tesseract.exe 存放的文件夾就是 F:/Program Files/Tesseract-OCR 加入環境變量即可;

2,pip install pytesseract

在命令行中,用 pip 工具下載 pytesseract 包

pip install pyteeseract3,修改pytesseract.py 腳本

在 步驟 2 的基礎之上,找到 pytesseract 的安裝路徑,如果 Python 是通過 Anaconda 安裝的話的話,安裝路徑一般都在 Anaconda/Lib/site-packages 文件夾下;找到之後找 pytesseract 文件夾下的 pytesseract.py 腳本文件,

找到之後,用記事本打開 pyresseract.py,通過 ctrl +f 快速搜索功能定位 tesseract_cmd,修改後面的文件路徑信息(用上面提到的 tesseract.exe 安裝路徑進行替換即可);

2, pytesseract 使用

程序包的用法也相對比較簡單,幾行代碼就能搞定,下面代碼就是把一張圖片中的文字識別,並轉化為 字符串列印出來,選擇識別語言 英語( 更改 lang = 『eng' 參數即可)

import pytesseractimport cv2img_path = "G:/Coding/One_hundred_days/Data/orc_image2.jpg"# 下面一行代碼很重要tessdata_dir_config = '--tessdata-dir "F://Program Files//Tesseract-OCR//tessdata"'im = cv2.imread(img_path)img = cv2.cvtColor(im,cv2.COLOR_BGR2RGB)text = pytesseract.image_to_string(img,lang= 'eng',config= tessdata_dir_config,)print(text)效果預覽,識別前

識別後

pytesseract 支持將 OpenCV 和 PIL 讀取後的圖像作為輸入,但圖像格式需為 RGB 模式,因此 OpenCV 讀取之後還要加入一行代碼把圖像的 BGR 模式轉化為 RGB

另外需要注意一點 ,上面實例中下面這一行代碼不能去掉(用於後面 image_to_string() 函數中的 config 參數的設置)

tessdata_dir_config = '--tessdata-dir "F://Program Files//Tesseract-OCR//tessdata"'否則會報下面的錯誤,tessdata 文件路徑定位失敗

Failed loading language 'eng' Tesseract couldn't load any languages! Could not initialize tesseract.')

tessdata 文件路徑存放的是語言包文件,是用於 識別圖像中不同語言,通過修改 lang 參數來進行設定;但需要知道的是,tesseract 工具起初默認語言為 eng(英文),若需要藉助 tesseract 識別不同語種需要下載對應的 語言包文件,安裝到 tessdata 文件夾下即可

例如上面案例中我用的是 英語,這裡我想識別圖片中的中文字符,就需要把中文語言包下載 到 testdata 中,各語言包的下載地址,https://github.com/tesseract-ocr/tessdata

再把代碼中 image_to_string() 中 lang 參數設為 chi_sim 即可

效果預覽,識別前

識別後,對於中文來說識別效果並不是太好,猜測可是是版本的原因:

pyteeseract 其他用法

1,除了上面可以直接把圖像中內容識別轉化為字符串之外,還可直接轉化 pdf 文件形式導出

# Get a searchable PDFpdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')with open('test.pdf', 'w+b') as f: f.write(pdf) # pdf type is bytes by default

2,估計識別出來每個字符的邊框信息,圖片中的位置解析度範圍:

print(pytesseract.image_to_boxes(img_path,lang = 'chi_sim',config= tessdata_dir_config))

3,關於 pyteeseract 還有很多用法還未介紹,有興趣的小夥伴可去官網介紹進行了解,連結貼在下方:

https://pypi.org/project/pytesseract/

相關焦點

  • 通過Python寫一個OCR圖片識別小程序
    現在很多軟體都收費,所以本篇文章分享一個案例,如何通過Python寫一個ocr圖片識別小程序。本例中的程序十分簡單,流程如下:本例僅僅實現了基礎功能,還可以開發一個界面上傳圖片,或增加翻譯等功能。本例用到了百度的OCR識別,可以到百度雲中免費註冊,每天可以免費識別5萬次,足夠日常使用。
  • 小叮噹Python人工智慧篇:一句代碼搞定圖文識別!
    在前幾篇文章「小叮噹Python人工智慧篇:圖文識別tesseract4.0引擎的安裝」、「小叮噹Python人工智慧篇:tesseract4.0引擎語言包的配置!」中已為大家介紹了如何安裝下載圖文識別開源引擎以及所需的安裝包的配置。在tesseract4.0引擎及語言包已配置好的前提下,我們就用一句代碼通過python來實現人工智慧中的圖文識別。
  • 輕鬆識別文字,這款Python OCR庫支持超過80種語言
    有一款軟體叫掃描全能王,想必一些小夥伴聽過,這是一個OCR集成軟體,可以將圖像內容掃描成文字。所以說,OCR作用是對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息。細心觀察便可發現,身邊到處都是OCR的身影,文檔掃描、車牌識別、證件識別、銀行卡識別、票據識別等等。OCR本質是圖像識別,其包含兩大關鍵技術:文本檢測和文字識別。
  • 輕鬆識別文字,這款 Python OCR 庫支持超過 80 種語言
    有一款軟體叫掃描全能王,想必一些小夥伴聽過,這是一個OCR集成軟體,可以將圖像內容掃描成文字。所以說,OCR作用是對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息。細心觀察便可發現,身邊到處都是OCR的身影,文檔掃描、車牌識別、證件識別、銀行卡識別、票據識別等等。
  • 截屏、文字提取一氣呵成,超實用OCR開源小工具
    今天我們就為大家介紹一款 GitHub 用戶 ianzhao05 剛發布的小工具——textshot,只需要截屏就能實時生成文字。讀者也可以通過此項目大致了解如何對圖像中的文本進行識別。項目連結:https://github.com/ianzhao05/textshot使用方法運行 textshot.py,在屏幕上打開一個 overlay,在你希望提取的文字區域畫一個矩形。使用可選的命令行參數指定語言。例如,python textshot.py eng + fra 將使用英語作為主要語言,使用法語作為次要語言。
  • 用Python進行圖文識別(OCR)
    OCR與Tesseract介紹  將圖片翻譯成文字一般被稱為光學文字識別(Optical Character Recognition,OCR)。可以實現OCR 的底層庫並不多,目前很多庫都是使用共同的幾個底層OCR 庫,或者是在上面進行定製。
  • Python不超過10行代碼就可實現人臉識別,教你辨別真假
    來看看一張圖片中有幾個人,沒有高大上,只是覺得好玩,而且只需要7行代碼。OpenCV是一個基於BSD許可發行的跨平臺計算機視覺庫,可以運行在Linux、Windows和Mac OS作業系統上,輕量而且高效,用C/C++編寫,同時提供了Python、Ruby、MATLAB等接口,實現了圖像處理和計算機視覺方面的很多通用算法。
  • python爬蟲實戰-爬取微信公眾號所有歷史文章 - (03) python結合tesseract-ocr做圖文識別
    這篇文章我們講講對一副圖片的特定區域做截取,並利用開源庫做圖紋識別。要實現這個步驟的原因是,最初想實現爬取微信公眾號歷史文章這個功能時,一番沒有抓包爬蟲經驗,於是為了獲取歷史文章的標題用於pdf列印時的命名,一番想到截圖後對圖片做圖文識別,然後點擊文章標題,進入到文章閱讀界面然後結合目標圖片識別「複製連結」來獲取到文章的連結。
  • 手把手教你用PaddleOCR與PyQT實現多語言文字識別的程序
    小張忽然想到前幾天飛槳公眾號上推送的一篇文章,馬上找到了一個開源軟體(https://github.com/zhangming8/Dango-ocr),根據提示很快把圖片中的文本資料導出為電子檔了。小張小心翼翼地把電子檔發給了暗戀已久的小紅同學,小紅收到後對小張豎起了大拇指。小張看到後偷偷地笑了。而此刻師姐也偷偷瞟了小張一眼。
  • GitHub 熱榜:文字識別神器,超輕量級中文 OCR!一個超級厲害的開源庫
    近期,這個叫做 chineseocr_lite 的 OCR 項目開源了,這是一個超輕量級中文 ocr,支持豎排文字識別,支持 ncnn 推理,psenet (8.5M) + crnn (6.3M) + anglenet (1.5M) 總模型僅 17M。目前,這個開源項目已在 GitHub 上標星 2400+。
  • 這個 Python OCR 神器能輕鬆識別 80 多種語言!
    【導語】:EasyOCR 是一個用 Python 編寫的 OCR 庫,用於識別圖像中的文字並輸出為文本,支持 80 多種語言。簡介EasyOCR 是 python 中一個不錯的 OCR 庫,在GitHub已有 10.3K star。
  • 10 行代碼,實現手寫數字識別
    不過隨著機器學習技術的普及,使用10幾行代碼,實現一個能夠識別手寫數字的程序,並不是一件難事。這是因為有太多的機器學習模型可以拿來直接用,比如tensorflow、caffe,在python下都有現成的安裝包,寫一個識別數字的程序,10幾行代碼足夠了。
  • 【AI實戰,附原始碼】手把手教你文字識別(檢測篇:MSER, CTPN, SegLink, EAST等方法)
    文字檢測是文字識別過程中的一個非常重要的環節,文字檢測的主要目標是將圖片中的文字區域位置檢測出來,以便於進行後面的文字識別,只有找到了文本所在區域,才能對其內容進行識別。接下來介紹的SegLink檢測法能夠實現對旋轉文本的多角度檢測,該模型主要是對通過Segment(切片)、Link(連結)實現對文本的檢測,示意圖如下,具體的技術原理請見之前的文章(文章:白話文本檢測經典模型:SegLink)
  • 關於easyocr、paddleocr、cnocr之比較
    cnocr是用來做中文OCR的Python 3包。cnocr自帶了訓練好的識別模型,安裝後即可直接使用。
  • 使用一行Python代碼從圖像讀取文本
    但在這裡,情況正好相反——對你來說很瑣碎的任務,比如識別圖像中的貓或狗,對電腦來說真的很難。在某種程度上,我們是天造地設的一對。至少現在是這樣。雖然圖像分類和涉及到一定程度計算機視覺的任務可能需要大量的代碼和紮實的理解,但是從格式良好的圖像中讀取文本在Python中卻是簡單的,並且可以應用於許多現實生活中的問題。在今天的帖子中,我想證明這一點。
  • 不到500行Python代碼,你能編出什麼?
    【IT168 評論】不到500行Python代碼,你能寫出什麼東西?Github上一個名為「500lines」的開源項目集結了眾多業內較為知名的開發者,同時,所有貢獻項目的代碼行數均在500行以內。完整版本每章包含一個程序演練,該程序在至多500條原始碼行中解決了軟體工程中的規範問題。
  • python小課堂17 - 30行代碼破解加密ZIP文件
    在多數人眼中一直覺得黑客很神秘,實際上當初我學python入門時正是因為那會在學安全相關的東西,機緣巧合得以在360和愛春秋聯合組織的網課中學到了不少安全相關的知識。很早以前,python就被公認為黑客屆的程式語言之一,自身有著強大的第三方庫(也就是包和模塊的統稱)來使用,並且語言上手度非常容易。
  • 自動化測試實踐之Python識別驗證碼
    exe安裝包。http://pythonware.com/products/pil/註:官網提供的安裝包是32位的,63位系統請前往這裡 http://www.lfd.uci.edu/~gohlke/pythonlibs/#pillow 下載替代包pillow。
  • Python驗證碼識別:利用pytesser識別簡單圖形驗證碼
    http://pythonware.com/products/pil/註:官網提供的安裝包是32位的,63位系統請前往這裡 http://www.lfd.uci.edu/~gohlke/pythonlibs/#pillow 下載替代包pillow。
  • 超輕量級中文OCR,支持豎排文字識別、ncnn推理,總模型僅17M
    近期,這個叫做chineseocr_lite的OCR項目開源了,這是一個超輕量級中文ocr,支持豎排文字識別,支持 ncnn 推理,psenet (8.5M) + crnn (6.3M) + anglenet (1.5M) 總模型僅17M。目前,這個開源項目已在GitHub上標星2400+。