OCR是什麼 ?
OCR (Optical Character Recognition,光學字符識別)是指電子設備檢查紙上列印的字符,通過檢測暗、亮的模式確定其形狀,然後用字符識別方法將形狀翻譯成計算機文字的過程。
說白了就是識別圖片上的文字,然後提取出來,變成可編輯的文檔
今天阿虛介紹、推薦一些好用的OCR網站、軟體。
文章偏長,阿虛先給個目錄
而由於技術門檻相當的高,能做中文OCR識別的公司並不多,所以那些獨立開發者開發的OCR軟體,一般都是借用大公司的API接口。(比如好評如潮的「白描」,使用的其實是百度的OCR接口),所以這種時候認準大公司、老牌公司一般沒錯。
本文參考了多篇網上的評測(參考文章連結均在下方註明),和別人的使用感想,阿虛也對大部分進行了實際測試。
為了不使文章顯得過於冗長,就不展示測試過程了,直接上結果
正文不提供軟體使用教程,而且均為中文軟體,幾乎無操作難度,部分軟體的使用教程會在文末的下載方式中給出。
二、網頁版網站有很多,暫且推薦兩個
1.OCR Space網址:https://ocr.space/
之前推薦過的截圖軟體ShareX,就是用這個引擎,而且ShareX可以截圖OCR,可謂方便不少。
使用說明:網站全英文,OCR前請自行選擇上傳圖片中的對應語言。
不正經星少女M,知乎
2.極客OCR網址:http://www.gkocr.com/
每日免費限10張圖像,每次識別需輸入驗證碼,但識別效果還是挺不錯的
3.效果一般的誠華OCR
Onnline OCR
New OCR
OCR Maker
Super Tools在線文字識別轉換
三、瀏覽器擴展對擴展支持最好的是Chrome瀏覽器,其次是Firefox,阿虛也是十分推薦使用這兩個瀏覽器的
1.取字官網:http://willingstudio.com/
國人製作的Chrome擴展,平常對網頁OCR需求比較高的話,這款擴展會很方便。
官網:https://a9t9.com/copyfish (打開速度較慢)
打開官網,下載對應瀏覽器的擴展
除Chorme谷歌、火狐瀏覽器之外,360、QQ、搜狗、UC、2345、百度、115、Cent、Yandex 等支持谷歌插件的瀏覽器都可以使用
如果不會安裝插件,可以參考一下:《知道WIFI萬能鑰匙,那你知道雲盤萬能鑰匙嗎?》這篇教程中的插件安裝辦法
xlrocket,知乎
四、電腦端以下如果無特殊說明,均只支持Windows,支持Mac的軟體均會備註
1.天若OCR開源版(WIN)天若OCR文字識別開源版是吾愛破解論壇的 @shelher 基於 @天若幽心 開源的代碼 進行完善製作而成。
shelher,吾愛破解論壇
馬小帥的回答 - 知乎
2.樹洞OCR(WIN / MAC)此軟體的作者也是@shelher,是他基於開源的天若OCR開發的跨平臺版應用,支持MAC,MAC用戶首推這個
shelher,吾愛破解論壇
3.天若批量文字識別(WIN)軟體支持jpg,jpeg,png,bmp以及pdf幾種格式,識別文字之後自動轉換成word文件,支持簡單的排版。
軟體下載方式請看文末
同樣的必須聯網才能OCR識別。
天若幽心,吾愛破解
4.漢王OCR(WIN)漢王是國內中文識別的老字號了,推出的軟體也是十分給力的。
文通和漢王一樣,是國內老牌的做中文識別公司了,儘管很久沒更新了,但是識別率相當不錯!無需聯網即可OCR,下圖的測試圖片識別率100%(包括拼音)
軟體下載方式請看文末
OmniPage(WIN)Nuance OmniPage Ultimate 19.0 Multilingual (ISO),據說是世界最強英文OCR,辨識率超過 99%。但軟體特別大(3G),如果對英文識別要求特別特別高的可以試試這款軟體。
OneNote(WIN / Mac )微軟官網免費下載:http://www.onenote.com/download/
在OneNote中插入一張圖片,然後右鍵點擊圖片區域選擇「複製圖片中的文本」,即會完成OCR,接著在其他地方「Ctrl+V」粘貼即可。
微軟出品,其實效果很不錯,只是操作麻煩了點。
iText(MAC)App Store直接搜索接可以下載。但關於這個軟體使用上的「小技巧」,請查看文末後在公眾號上回復
iText 是 macOS 平臺的 OCR 工具,自帶截圖功能,選擇屏幕任意區域,即可識別其中的文字。
Cisdem = PDF Element > Acrobat以上排名是對PDF的OCR效果
Cisdem PDF Converter OCR(Mac)
PDFElement Pro(WIN / Mac)
Adobe Acrobat DC(WIN / Mac)
評測詳情可以看:蜜蜂軟體說,公眾號
7.關於PDF識別在阿虛看來:PDF識別其實是個偽需求
如果是一般的PDF,那麼你的需求應該是PDF轉WORD,而不該是PDF文字識別。
如果是掃描版的PDF,你也不該是需求PDF識別,因為難免OCR識別會有錯誤,那麼你識別完之後依然需要挨著每頁對比查錯,那和你一頁一頁識別有什麼差別呢?
所以推薦用上面介紹的樹洞OCR挨著截圖進行識別。或者把你PDF導出為一張張的圖片,再用軟體一張張識別、對比查錯。
五、移動端QQ的掃一掃(騰訊OCR)、有道雲筆記、Office lens、全能掃描王實測效果一般,甚至說不佳,Adobe Scan,安卓手機需裝Google服務(門檻較高)這幾個就不推薦了
針對不同需求,阿虛推薦以下4個軟體
1.白描、Textgrabber(安卓 / IOS)白描受眾人所捧,其實使用的是百度的OCR接口,眾所周知百度目前的核心是發展AI技術,OCR做的不錯也是理所應當的。(百度的OCR接口不免費,這也是白描收費的原因之一)
而Textgrabber是ABBYY公司出品的,可想而知,識別效果不會差。
白描、Textgrabber安卓版下載方式請看文末
IOS用戶直接在App Store搜索即可下載
中文識別率排名:白描>Textgrabber>掃描全能王
英文識別率排名:Textgrabber>掃描全能王>白描
中英文混排識別率排名:Textgrabber>白描>掃描全能王
總的來說,識別中文文檔推薦白描,識別英文文檔推薦 Textgrabber。
馬小帥,知乎
2.ABBYY FineScanner(IOS)這款軟體App Store搜索即可下載
Vanilla(少數派)寫了一篇關於ABBYY FineScanner、Scanner Pro 和 Scanbot的評測,簡單直接可以看出差別:
Vanilla,少數派
3.貓圖鷹(安卓 / IOS)Android貓圖鷹下載方式請看文末,IOS在App Store搜索即可下載
白描和貓圖鷹對拍攝清晰的印刷體識別率基本上能達到準確率100%
對手寫字的識別上,白描和貓圖鷹都很強,識別率很高了。
貓圖鷹依然是會員制,但日常使用其實足夠,畢竟能批量OCR呢。
麥麥吃飯飯,公眾號:海上羅欣
六、微信小程序微信——發現——小程序——搜索小程序名
1.傳圖識字一周進步,知乎
2.微軟AI識圖_ 方方面_,微博
3.來降重免費額度計算用完也是仍能繼續免費識別的。
測試了很多小程序,只有這一款能把左邊這段文字完美一字不差(符號也不差)的識別出來。
4.不推薦的小程序迅捷文字識別
圖片文字識別
七、下載方式以上提到的所有Windows、Mac、Android軟體的下載地址
請關注微信公眾號:胡說金朋
在公眾號聊天窗口發送:OCR
後臺即會自動回復下載地址
總結一下:
聯網情況下,電腦上推薦用樹洞OCR(Windows+Mac)
未聯網情況下,電腦上推薦漢王OCR(無需安裝)或者文通OCR(需要安裝)
手機端,中文識別推薦白描,英文識別推薦Textgrabber
對手寫識別有需求推薦用白描、貓圖鷹、漢王OCR、文通OCR
輕度用戶推薦網頁版ocr.space、gkocr.com 或者 微信小程序:傳圖識字、微軟AI識圖、來降重
最近後臺留言很多粉絲在問圖片文字識別、文字提取的問題,畢竟幫大多數人一次性解決問題是我做公眾號的一個目標,所以花了大概整整5天吧,終於把這篇文章寫出來。
評測、整理文章思路、排版、上傳分享軟體、全一個人搞…差不多整個清明節假期前後都在寫這篇,
最近阿虛也挺忙的,暫時不會寫這麼深的評測和軟體推薦了,一個人搞全平臺軟體推薦什麼的還是太累人了。