財務人眼中的OCR

2021-02-13 因凡科技

天天都有人跟我提到OCR，可OCR到底是什麼呢？怎麼連個漢語名字都沒有？今天，我們就來談談OCR。

OCR，英文全稱Optical Character Recognition，翻譯過來就是「光學字符識別」，它是指利用掃描儀、數位相機等電子採像設備，通過光學圖像技術和模式識別技術，將印刷或寫在紙張上的文字檢測讀取出來，並轉換成計算機文字。

在日常工作和生活中，我們面臨大量的文字信息需要手工處理。為了讓人類更懶一些，有更多的時間喝茶聊天侃大山，我們的科學家本著造福蒼生的目的，借著減輕勞動強度、提高勞動效率的名義，從20世紀開始研究利用計算機等技術手段自動識別文字。一不小心，文字識別就與圖像識別、語音識別、自然語言理解一起，逐漸發展成計算機模式識別和人工智慧研究領域的時髦話題。

從市場看，文字識別最基礎最廣泛的應用仍然是光學字符識別即OCR技術，它的發展大體是這麼個過程：

20世紀30年代：

1929年德國科學家Tausheck提出OCR概念並申請專利；

20世紀50年代：

科學家探討一般文字識別方法，研製出光學字符識別器；

20世紀60年代：

出現了採用磁性墨水和特殊字體的實用機器，將多種字體和手寫體文字識別機應用諸如信函分揀等行業；

20世紀70年代：

側重研究文字識別基本理論，研製高性能文字識別機，並推動漢字識別研究。

20世紀80年代：

1986年我國提出「863」高新科技研究計劃，漢字識別研究進入實質性應用階段，在1966年IBM公司識別1000個印刷體漢字，1977年東芝綜合研究所識別2000個印刷體漢字等基礎上，到1988年底我國研究人員識別出了6763個漢字，中科院自動化所和清華大學還相繼率先推出了漢字識別產品。

20世紀90年代後：

隨著掃描設備的廣泛應用、計算機性能的大幅度提高以及辦公自動化的普及，漢字識別逐步進入市場應用的快速發展階段。

回想起來，不少財務人很早就接觸過一些國內知名漢字識別軟體，那個時候，我們發現能夠用它幫助我們把各種鉛印的書本文字甚至圖表掃描下來，存入電腦供我們編輯。雖然當時的圖文掃描速度、識別準確率並不是太快，但與自己一個字一個字地錄入、一條線一條線地制表相比，這點兒時間倒是可以承受的。

非常有意思的是，當計算機處理速度越來越快、網絡越來越發達、財務信息化程度越來越高之後，財務人對於漢字識別的興趣似乎突然消失了。除非特別要求，處理紙制文本，我們幾乎不會想起去掃描、去識別。因為只要我們有U盤，能想法找到電子文檔，複製過來就好，還用得著掃描識別麼？財務人的日常報告性工作處理，漢字識別軟體悄無聲息地離場了。很長一段時間，我們只是在一些銀行或通信服務商的櫃面還零零星星地看得見手寫板，對手寫籤名影像進行留存，而是否應用了漢字識別，不得而知也不再關注了。

2006年起，網際網路、大數據的興起瞬間帶動了新一輪人工智慧的全面發展，特別是近幾年，語音、語義、視覺、生物識別等人工智慧應用需求爆發式呈現。由於行動裝置數據計算能力的快速提高，很多原來在臺式計算機上操作的事項，轉到了手機端處理，而觸屏設備上打字慢的短板日益凸顯出來。在市場經濟全面建立的這個時候，名片識別、證件識別、車牌識別等技術隨著商業交流的擴張而不溫不火地推廣，竟然讓OCR重新煥發新的市場商機。

其實財務領域中的我們，興趣正在被點燃。除傳統文本資料、表格資料的識別外，OCR技術由於其在發票、單據、憑證等原始憑證上格式化結構化輸出的技術性突破，而被充滿自動化夢想的財務人所再次發掘。從報帳機器人與智能財務系統設計，OCR與相關智能技術的身影不斷跳進財務人的視野裡。

上海國家會計學院組織的「影響中國會計從業人員的十大信息技術」評選中，OCR在2018年名列第20位，而2019年上升至第15位；與其直接相關的圖像識別技術，2018年排名第16位，2019年位居第12位；自然語言處理技術，則在2019年排名第26位。這個全中國財務人自己投票的結果，反映出國內市場對OCR技術的關注度正在逐步升溫。而這個投票結果也進一步提示我們，恰恰由於發票、單據、憑證信息客觀存在的影像要素幹擾、語義確認判斷相對複雜等特性，未來的識別技術，不會只是簡單地把傳統OCR嫁接在不同財務應用場景上，而必然會結合人工智慧技術而拓展。

筆者認為，未來的財務人，應當關注以傳統OCR為基礎的智能字符識別（Intelligent Character Recognition，簡稱ICR）應用。所謂ICR，就是圍繞準確識別字符，綜合運用OCR、語音識別、語義識別、神經網絡等多種技術手段，通過交叉驗證相關輔助信息，降低直至消除識別錯誤的智能型集成字符識別技術。字符識別系統的目標是實現圖像向計算機文字的轉換，將影像內的文字及格式信息提取出來，減少影像資料的存儲空間佔用，將識別出來的影像圖文變為結構化信息以便其他計算機應用系統使用分析，並節省鍵盤輸入產出的人力與時間耗費。傳統的普通光學識別OCR，主要流程大致分為影像輸入與預處理、對比識別、人工校正和結果輸出等步驟，而智能字符識別ICR則是通過在上述步驟中增加智能技術賦能，減少人的幹預與影響。比如，伴隨算力提升和人工智慧理論的發展，傳統OCR圖像處理中的模板匹配方法被基於反饋的神經網絡方法逐步替代，利用大量數據訓練深度學習神經網絡成為識別應用的新方向。再如，一個好的OCR，除了有穩定影像處理及識別核心以降低錯誤率外，人工校正的操作流程及其功能，亦會影響其處理效率。而如果在版面分析、理解與重構、恢復，以及多語種識別校正等各個關鍵環節中，都引入人工智慧技術，使其具備自學習、自糾正、自改進等功能，則會極大提升應用效果、降低人工參與的繁瑣程度。可以說，智能字符識別ICR即將全面取代傳統OCR，成為市場應用的新亮點。

1．報銷申請。通過採像設備對紙質或電子發票圖像和各類附件進行智能掃描、識別，提取票面要素，推送並自動形成報銷申請單據，供報銷人以審核方式確認後提交辦理。

2．單據收集。通過採像設備對經辦人提交的財務報銷單據、待審合同草案、撥款計劃依據、信貸申請資料等紙質或電子文檔圖像進行智能掃描、識別與匹配，保證財務業務系統信息與所收取單據信息的一致性後統一收取存檔。

3．發票驗真。通過採像設備對紙質或電子發票、行程單圖像進行智能掃描、識別，提取票面要素，推送至稅務機關、財政票據中心等其他法定票據監管部門驗明真偽後，返回經辦人。

4．稅票抵扣。通過採像設備對當期發生的增值稅專用發票、海關完稅憑證、免稅農產品的收購發票或銷售發票、貨物運輸業統一發票等稅法規定的扣稅憑證紙質或電子發票圖像進行智能掃描、識別，提取票面要素，與稅務機關聯網認證、抵扣。

5．智能記帳。通過採像設備對各類原始憑證進行智能掃描、識別，提取票面要素，按照專業語義進行智能分類，並自動生成會計憑證。

6．資金對帳。通過採像設備對銀行、集中採購服務機構反饋的各類回單紙質或電子圖像進行智能掃描、識別，提取票面要素，按照專業語義進行智能分類，並自動完成當期資金核對。

7．查重監管。通過採像設備對各類存檔保管會計資料紙質或電子圖像進行智能掃描、識別，提取特徵碼後進行智能比對，完成查重自動確認。

衡量一個優秀的ICR系統，重點要看其拒識率、誤識率、識別速度、界面友好性、產品的穩定性、易用性及可行性等指標。但可以肯定地說，無論大中型財務共享中心，或是小微企業，一旦成功應用ICR系統，其簡單易用、識別精準、性能可靠、時滯短暫等優勢將瞬間擊倒你，而且通過以下特性吸引你：

不僅支持掃描儀、高拍儀，還支持電子像機、手機、監控攝像頭等任意電子採像設備。

不僅僅是全面支持增值稅發票、火車票、飛機票、出租汽車票、財政票據、行業票據等制式發票識別，而且還能對身份證、房產證、駕駛證，以及其他各類自製制式表單和合同、法律文書等通用文檔的識別。

充分考慮票面字體模糊、印刷錯位、交錯覆蓋、折皺不平以及背景光線欠佳過曝等現實，通過構建智能模型與算法優化，在傳統OCR單字識別正確率99%的應用極限之上，依賴多重校驗和大數據能力等手段，將整張內容語義正確率提高到98%以上，讓用戶放心將更多的工作交給機器完成。

由傳統OCR的3-5秒，提高至1-2秒以內，圖像在上傳伺服器之時就完成了識別，單筆單證處理時間由傳統的小時、分鐘級縮短到秒級，讓每個環節的人工等待成為歷史。

由於準確高效的前端即拍即識，通過與驗真、報銷申請、財務審核等功能的對接，讓系統預審、智能支付、自動記帳等財務管理自動化和7×24小時無間歇工作成為現實，幫助財務人員從數據收集、整理等低層次重複勞動中解脫出來，從事管理分析等更高層次戰略性工作，盡享人工智慧帶來的便利，推動財務管理的創新轉型。

嚴勵，全國會計領軍人才，全國會計信息化標準化技術委員會諮詢專家，中國衛生經濟與醫療健康大數據學會智慧運營管理服務分會標準化委員會常務委員，中科院自動化所智能財務中心副主任。

網址 : www.infin.com.cn

垂詢熱線：400-6508-065、010-62169711

● 掃碼關注我們 ●

做智能財務，我們的優勢不止一點點

財務人眼中的OCR

相關焦點

關於easyocr、paddleocr、cnocr之比較

Halcon OCR識別

通過Python寫一個OCR圖片識別小程序

知識分享 | OCR文字識別

財務人這樣寫年終總結,升職加薪指日可待!

OCR(字符識別)軟體

中國財務人壓力大揭秘,發票報銷排第一

ocr識別文字的方法,有什麼文字識別軟體推薦?

GitHub 熱榜:文字識別神器,超輕量級中文 OCR!一個超級厲害的開源庫

OCR多彩世界

這個超輕量中文OCR開源項目在Github火了

截屏、文字提取一氣呵成,超實用OCR開源小工具

Tesseract-OCR本文結構與旋轉分析,識別字符白名單配置

推薦幾款OCR識別App(提取圖像中的文字,適用安卓與ios)

超輕量級中文OCR,支持豎排文字識別、ncnn推理,總模型僅17M

這個 OCR 神器能輕鬆識別 80 多種語言!

你們要的快準狠的漢王PDF OCR光學識別神器-它來了

這個 Python OCR 神器能輕鬆識別 80 多種語言!

手把手教你用PaddleOCR與PyQT實現多語言文字識別的程序

如何使用天若OCR高效調用有道OCR和翻譯接口