輸入一直是手機的軟肋,可是現在偏偏什麼時候都需要用到手機,記錄筆記、存放紙質文件等等手機是最好的工具,無奈受限於蹩腳的輸入,用手機記錄給我們徒增很多麻煩。市面上也有很多拍照掃描工具,把文字資料保存為圖片,但手機這張「小臉」卻天生不是查閱PDF的命。竊以為拍照自動識別文字並保存才是手機錄入的正確用法,於是有人突發奇想搞出了這款「塗書筆記」——塗抹你想要的文字,識別成文字自動錄入。
拋棄手寫和輸入 塗書筆記識別準度有多高?
在「塗書筆記」之前我們也介紹夠非常多的文字識別工具,拍一張照片就可以把圖片中的文字識別出來,不過這裡也有一個嚴重的Bug,天知道我拍出的照片都是我想要的內容?因此在「圖塗筆記」中加入了手指塗抹的過程,這個塗抹就是人工識別的過程,把那些「搶鏡頭」的內容去除掉,讓手機專心識別你想要的內容。
塗書筆記工作流程
「塗書筆記」的使用場景是怎麼樣的?比如看一本金庸小說,其中一段描述盪氣迴腸,你想迫不及待的記錄下來,拿筆寫下來太落伍,用手機拍下來看起來不方便,這個時候打開「塗書筆記」,開啟底部的攝像頭橫屏拍照(暫不支持豎屏),以最好垂直角度拍一張亮度足夠的照片,然後用手指塗抹你想要摘抄的那一段,接下來一段電子版的金庸武俠就快速的摘抄下來了,整個過程花不了30秒。
「塗書筆記」的識別準確率怎麼樣?都能識別哪些文字?它能否替代手寫和拍照成為我輸入筆記的重要工具?下面我們就帶著這些問題來測試一番。
實測塗書筆記對長文字識別精準度
「塗書筆記」對小段內容的識別能力還是值得讚賞的,一般百字的內容基本上可以完全識別。
一段文字的識別
百分百識別
我們也對多段長文字內容進行了測試,其中發現了一些問題。比如大段文字識別明顯反應變慢;識別率也有下降但也維持在90%以上;對標點符號和特殊符號的識別能力較弱,經常丟符號;無法識別段落並排版;光線較差時出現無法開啟散閃光燈的現象。
長段文字的識別
識別精度下降
雖然有以上問題,但作為一款新生產品「塗書筆記」表現的還不錯,對於中文用戶來說拋掉輸入和手寫已經足夠了。
英語、日語、繁體和手寫識別測試
當然我們對「塗書筆記」的期待有很多,比如對英文識別,手寫識別以及其他國家語言識別的效果如何呢?我們也對這些問題記性了測試。
三月份的版本中「塗書筆記」加入了英文識別功能,從測試來看效果還不錯。
英語識別測試
英文識別很準確
繁體輸入識別
識別效果很贊
對於懶人來說不想抄筆記,那麼「塗書筆記」其實最適合大家,我們來測試一下手寫筆記能否識別。
手寫輸入
識別效果不佳
事實證明「塗書筆記」並沒有給懶人抄筆記的機會,手寫筆記由於筆畫過於複雜很難識別,加之各種符號和手寫風格難以統一,「塗書筆記」現在還沒有這麼大的本事。
無法識別日文
另外經過測試發現,像日文、韓文等還沒有加入識別功能,因此對於對於日韓愛好者來說錄入日韓文字還是手寫或者輸入吧。
原理解析 文字識別技術是如何實現的?
OCR文字識別是指電子設備(例如掃描儀或數位相機)檢查紙上列印的字符,然後用字符識別方法將形狀翻譯成計算機文字的過程
和語音識別技術一樣,人們對文字識別早在50年代就已經開始,並研製出光學字符識別器。60年代出現了採用磁性墨水和特殊字體的實用機器。60年代後期,出現了多種字體和手寫體文字識別機,其識別精度和機器性能都基本上能滿足要求。如用於信函分揀的手寫體數字識別機和印刷體英文數字識別機。70年代主要研究文字識別的基本理論和研製高性能的文字識別機,並著重於漢字識別的研究。
漢王的文字識別
像「塗書筆記」這樣的工具就是利用了現在的OCR文字識別技術,這個過程一般包括圖像輸入、預處理等,拍照其實就是圖像輸入的過程,接下來對圖片進行二值化處理,例如將彩色圖片黑白化,分為更容易識別的前景後景信息。
對於不同的文檔還需要進行噪聲處理,很多時候我們排出的圖片都不可避免出現傾斜這個時候也需要進行矯正處理。然後是字符切割,對於連筆的狀況進行切割處理,接著就是要對單個文字進行識別,比較早有模板匹配,後來以特徵提取為主,由於文字的位移,筆畫的粗細,斷筆,粘連,旋轉等因素的影響,極大影響特徵的提取的難度。
最後還會有排版、後處理以及校對等環節,看似一個拍照的過程其實中間涉及到非常多的繁瑣過程,而真正識別出來的確需要很強大的技術。和語音的精準度一樣,提高文字識別的精準度也是我們追求的終極目標,不過這都是實打實的技術活,「塗書筆記」也只是在現有的技術基礎上提升用戶體驗。