Github Star 7.2K,超級好用的OCR數據合成與半自動標註工具,強烈...

2021-01-08 51CTO

 

OCR 方向的工程師,一定需要知道這個 OCR 開源項目:PaddleOCR。短短幾個月,累計 Star 數量已超過 7.2K,頻頻登上 Github Trending 日榜月榜,稱它為 OCR 方向目前最火的 repo 絕對不為過。

12 月,它又帶來四大新發布與升級,核心內容先睹為快:

全新發布數據合成工具 Style-Text:可以批量合成大量與目標場景類似的圖像,在多個場景驗證,效果均提升 15% 以上。 全新發布半自動數據標註工具 PPOCRLabel:有了它數據標註工作事半功倍,相比 labelimg 標註效率提升 60% 以上,社區小規模測試,好評如潮。 多語言識別模型效果升級:中文、英文、韓語、法語、德語、日文識別效果均優於 EasyO

R。

PP-OCR 開發體驗再升級:支持動態圖開發(訓練調試更方便),靜態圖部署(預測效率更高),魚與熊掌可以兼得。

PaddleOCR 歷史表現回顧

先看下 PaddleOCR 自今年開源以來,短短幾個月在 GitHub 上的表現:

6 月,8.6M 超輕量模型發布,GitHub Trending 全球趨勢榜日榜第一。 8 月,開源 CVPR2020 頂會 SOTA 算法,再上 GitHub 趨勢榜單! 10 月,發布 PP-OCR 算法,開源 3.5M 超超輕量模型,再下 Paperswithcode 趨勢榜第一

這個含金量,廣大的 GitHub 開發者們自然懂,3.5M 超超輕量模型的效果圖大家直接看,絕對槓槓的。

火車票、表格、金屬銘牌、翻轉圖片、外語都是妥妥的,3.5M 的模型能達到這個識別精度,絕對是良心之作了!

傳送門:https://github.com/PaddlePaddle/PaddleOCR

那麼最近的 12 月份更新,又給大家帶來哪些驚喜呢?

全新發布 OCR 數據合成工具:Style-Text

相比於傳統的數據合成算法,Style-Text 可以實現特殊背景下的圖片風格遷移,只需要少許目標場景圖像,就可以合成大量數據,效果展示如下:

1、相同背景批量數據合成

2、相同文字批量數據合成

3、圖片分離前景背景

除了拉風的效果,採用這樣的合成數據和真實數據一起訓練,可以顯著提升特殊場景的性能指標,分別以兩個場景為例:

怎麼樣,絕對是黑科技了吧。這項能力核心算法是基於百度自研的文本編輯算法《Editing Text in the Wild》。

論文地址:https://arxiv.org/abs/1908.03047

不同於常用的基於 GAN 的數據合成工具,Style-Text 主要框架包括 ①文本前景風格遷移模塊 ②背景抽取模塊 ③融合模塊。經過這樣三步,就可以迅速實現圖片文字風格遷移啦。

超強 OCR 數據標註工具:PPOCRLabel

除了數據合成,數據標註也一直是深度學習開發者關注的重點,無論是從成本還是時間上面,提高標註效率,降低標註成本太重要了。PPOCRLabel 通過內置高質量的 PPOCR 中英文超輕量預訓練模型,可以實現 OCR 數據的高效標註。CPU 機器運行也是完全沒問題的。話不多說,直接看 PPOCRLabel 效果演示:

用法也是非常的簡單,標註效率提升 60%-80% 是妥妥的。只能說,真的太香了。

最好的多語言模型效果

簡單對比一下目前主流 OCR 方向開源 repo 的核心能力:

中英文模型性能及功能對比

其中,多語言識別模型準確率對比(僅 EasyOCR 提供)

測試數據及環境說明:

中英文場景:針對 OCR 實際應用場景,包括合同,車牌,銘牌,火車票,化驗單,表格,證書,街景文字,名片,數碼顯示屏等,收集的 300 張圖像,每張圖平均有 17 個文本框,PaddleOCR 的 F1-Score 超過 0.5,這個性能已經很不錯了。 多語言場景:PaddleOCR 選擇了開源數據 ICDAR2017 – MLT(多語言文本識別測試集),並抽取其中的法語、德語、日語、韓語數據作為評測集合。其中測試圖片大多來自於自然場景,例如廣告牌、路標、海報等。

PP-OCR 開發體驗再升級

動態圖和靜態圖是深度學習框架常用的兩種模式。在動態圖模式下,代碼編寫運行方式符合 Python 程式設計師的習慣,易於調試,但在性能方面, Python 執行開銷較大,與 C++ 有一定差距。

相比動態圖,靜態圖在部署方面更具有性能的優勢。靜態圖程序在編譯執行時,預先搭建好的神經網絡可以脫離 Python 依賴,在 C++ 端被重新解析執行,而且擁有整體網絡結構也能進行一些網絡結構的優化。

飛槳動態圖中新增了動態圖轉靜態圖的功能,支持用戶使用動態圖編寫組網代碼。預測部署時,飛槳會對用戶代碼進行分析,自動轉換為靜態圖網絡結構,兼顧了動態圖易用性和靜態圖部署性能兩方面優勢。

良心出品的中英文文檔教程

別的不需要多說了,大家訪問 GitHub 點過 star 之後自己體驗吧:

https://github.com/PaddlePaddle/PaddleOCR

【編輯推薦】

【責任編輯:

張燕妮

TEL:(010)68476606】

點讚 0

相關焦點

  • 超強工具集——GitHub 熱點速覽 Vol.47
    另類 Kubernetes 發行版——K0s 也是頗為出色,一周獲得了近 2k star。清華大學研究團隊開源的 26 億參數規模的中文語言模型 (CPM-LM) ,表現也很搶眼。最後,一定要提下超強的屏幕錄製和注釋工具:Screenity,無壓力在錄製畫面寫注釋,添加人臉視頻窗口。
  • GitHub十大熱門Python項目 | 網際網路數據資訊網-199IT | 中文互聯...
    Airflow關注量: 18.6k複製量: 7.3k開發者: Apache軟體基金會GitHub連結:https://github.com/apache/airflowAirflow是Apache軟體基金會推出的一款開源工作流管理工具,由Python驅動。
  • Unity Perception工具 | 使用合成數據訓練出強大的物體檢測ML模型
    本文屬於「使用Unity生成合成數據」系列第三篇。在第一篇中,我們討論了在為計算機視覺訓練機器學習模型時,搜集大量帶標籤圖像會面臨的。最近,我們又展示了如何使用Unity的認知訓練工具來。  為了給圖像添加標註,我們使用了VGG Image Annotator工具,投入了超過200小時的人力,其中包括質量保證和糾正數據準確度的工作量。在流程最後,我們製作出了1267張帶有邊界框和分類標籤的可用圖像。
  • 語義分割標註工具Semantic Segmentation Editor 快速安裝指南
    >,該工具專門用於創建機器學習語義分割的訓練數據,為自動駕駛研究開發的,但也可以用於標註其他類型的語義目標資料庫。申明:點雲語義標註工具Semantic-Segmentation-Editor 官方網址——>(https://github.com/Hitachi-Automotive-And-Industry-Lab/semantic-segmentation-editor),經過幾天的折騰終於在win10系統和Ubuntu1604系統環境下安裝調試成功,最大問題在於
  • Python圖像處理之圖片文字識別(OCR)
    Linux 用戶可以通過apt-get 安裝:$sudo apt-get tesseract-ocr  用Tesseract可以識別格式規範的文字,主要具有以下特點:使用一個標準字體(不包含手寫體、草書,或者十分「花哨的」字體雖然被複印或拍照,字體還是很清晰,沒有多餘的痕跡或汙點排列整齊
  • STAR:轉錄組數據比對工具簡介
    STAR是一款RNA_seq數據專用的比對軟體,比對速度非常快,最大的優勢是靈敏度高,GATK推薦採用STAR比對,然後進行下遊的SNP分析。軟體的原始碼保存在github上,地址如下https://github.com/alexdobin/STAR安裝過程如下wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gztar xzvf 2.6.1b.tar.gz
  • 使用Unity感知工具大批量生成、分析合成數據,高效地訓練ML模型
    合成數據可降低獲取標註數據的難度,方便機器學習模型的訓練。本文屬於合成數據系列第二篇,我們將用一個對象檢測的例子,來介紹Unity生成和分析合成數據集的各種工具。 在系列首篇文章中(點擊回看),我們討論了搜集大量標籤圖像、訓練機器學習模型完成電腦視覺任務時遇到的各種挑戰。
  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    (CTB7)測試,實驗結果顯示,在整體F值以及未登錄詞的召回率上新模型相對基礎模型都有比較大提升。 在詞性標註中,歧義仍然是個老大難的問題。例如,對於「他要向全班同學報告書上的內容」中,「報告書」的正確的切分和標註應為「報告_VV/書_N」。但由於「報告書」本身也是一個常見詞,一般的工具可能會將其標註為「報告書_NN」。 句法標註本身需要大量的時間和人力成本。在以往的標註工作中,使用外部自動工具獲取句法知識是主流方法。
  • 在GitHub上8800個開源機器學習項目中,選出了其中的Top30
    團隊 Nikhil Thorat連結:https://github.com/PAIR-code/deeplearnjsNo.7 - Fast Style Transfer:TensorFlow 快速風格轉換GitHub stars數:4843個來源:MIT的Logan Engstrom
  • 能跑源碼,還提供數據集:這裡有一個入門企業級驗證碼識別項目
    不少初學者和筆者反應,安裝環境太難了,沒關係,都給你們安排好了,一行 pip 就能搞定環境的 MuggleOCR。倉庫地址:https://pypi.org/project/muggle-ocrMuggleOCR 的體積有 6MB,其中附帶了兩個通用模型:簡單通用驗證碼,普通 OCR。
  • 強烈推薦Mac上的6款功能擴展軟體,簡單好用效率高!
    小編也給大家介紹過許多的蘋果電腦必備軟體,還有許多實用的小工具,今天macdown小編給大家推薦幾款Mac上的功能擴展軟體,簡單好用而且可提高效率!感興趣的朋友千萬不要錯過!首先給大家介紹一款分屏小能手:Magnet pro這款專業的窗口管理工具當您每次將內容從一個應用移動到另一應用時,當您需要並排比較數據時,或是以其他方式進行多任務處理時,它都可以幫您妥善解決!
  • 基於DeepSpeech2實現中文語音識別,實施全流程講解,拿來即用
    DeepSpeech2的原理不在此論述,有興趣可自行查閱,它只支持python的2.x,並已開源,直接網上搜索很容易找到github網站,也可以關注我私信關鍵詞「語音識別」,你將收到開源網站和已下載好的github內容,解決你可能下載github資源慢的難題。
  • Github中文項目排行榜,你永遠想不到開發者都用它幹了什麼
    最近,一位名為 kon9chunkit (https://github.com/kon9chunkit) 的 GitHub 開發者就總結了中文相關的知名項目,並形成了每周榜單。這個榜單會定期更新每周最受歡迎的中文項目(top200)。更好的是,除了一個總榜單,開發者還將榜單按照程式語言進行了區分,如 Java、Python、C++等,形成了 17 個程式語言分榜。
  • 宜遠智能CEO吳博:醫學影像的數據標註、算法方法與算力優化
    IT系統和工具:客戶端系統與網站系統5.第三方標註工具LabelImg6.自建工具7.標註工具開發心得8.標註工具第三類——專用工具+AI輔助標註二、算法篇(31頁PPT)1.關於數據分割比例2.遷移學習3.框架選型:Pytorch
  • 自託管服務清單——GitHub 熱點速覽 v.21.01
    OK,進入第一期,關鍵詞為:自由發揮的熱點趨勢;這周的熱點一定要提下用技術投機的 jd_seckill,雖然一周獲得了 5k+ star,但是由於某種不可描述的原因項目的資料已被清倉,這也體現了 GitHub 的一個特性:用技術話事而非灰色「噱頭」,熱鬧只是一時的,技術才是長久的。那麼本周又有哪些可以「名留」GitHub 史的優質項目呢?
  • 安全專業人士最愛的 19 個 GitHub 開源項目
    我們按任務性質對它們進行了歸類,以便查閱:滲透測試說到滲透測試,只要看一看Rapid7的Metasploit框架(https://github.com/rapid7/metasploit-framework)。
  • GitHub數據告訴你:最幸福的碼農在用什麼程式語言?
    GitHub數據告訴你:最幸福的碼農在用什麼程式語言?幸運的是,我們可以使用github和來自開發人員調查的數據找到真相。數據採集Github是所有開發人員都熟悉的平臺。它不僅可以用作版本控制工具,還可以收集存儲庫和項目統計信息,用戶配置文件數據和注釋。這樣,我們就可以訪問有關年齡,性別和個人資料照片的信息。Microsoft Face API正是完成此任務的正確工具。