在前幾篇文章「小叮噹Python人工智慧篇:圖文識別tesseract4.0引擎的安裝」、「小叮噹Python人工智慧篇:tesseract4.0引擎語言包的配置!」中已為大家介紹了如何安裝下載圖文識別開源引擎以及所需的安裝包的配置。
在tesseract4.0引擎及語言包已配置好的前提下,我們就用一句代碼通過python來實現人工智慧中的圖文識別。
國產西遊記動畫,不僅承載著我們美好的童年記憶,而且蘊涵著簡單而有深刻的人生哲理。看過西遊記的人,想必都熟悉這句話,「西天取經不容易,容易幹不成大業績~」。
同樣在python中也是這樣,想要一句代碼實現圖文識別,想要一勞永逸,我們得把準備工作給做充分。僅僅安裝好圖文識別tesseract4.0引擎及相應的語言包是還不夠的。
我們還需安裝兩個庫pytesseract和PIL。
pytesseract庫的安裝
Step1.使用pip命令安裝:pip install pytesseract
Step2.配置pytesseract.py關聯安裝好的tesseract4.0引擎
以pycharm為例,我們新建一個python文件,名為ocr表示識別。
我們用import導入pytesseract,編寫代碼「text=pytesseract.image_tor_string()」將滑鼠定位在"image_to_string( )"字樣處,用「ctrl+左鍵」進入pytesseract.py文件。
進入pytesseract.py後我們發現,此時光標定位在了image_to_string( )函數定義。
我們滑動右側的滑動條,至pytesseract.py的開頭部分第26行,找到「tesseract_cmd」字樣。
將「tesseract_cmd」的值改為我們的tesseract引擎執行路徑「D:\Program Files (x86)\Tesseract-OCR\tesseract.exe」。
當我們修改值時會出現,編輯提示界面,我們在默認選項下點擊確定即可。
點擊確定後,即可看到tesseract_cmd的值已經被我們成功修改。
PIL庫的安裝
PIL庫的安裝較為簡單,我們直接使用命令:pip install pillow 即可安裝。
雖然小叮噹這裡網速不太好,但只要有耐心,稍等一會兒也是可以看到成功的曙光的~
一句代碼實現圖文識別
Step1.首先我們先準備好一張帶字的測試的圖片。如下圖「態度決定一切,成事在於認真」。
Step2.一句代碼實現
可見,除了庫導入和列印語句以外,我們就自己寫了一句代碼(如上圖紅框所示),便實現了對圖片中文字的識別。是不是很開心呀~