蘋果推出高精度手寫識別系統,可準確識別3萬字符集

2020-12-07 36kr

編者按:本文來自微信公眾號「量子位」(ID:QbitAI),由安妮編譯自蘋果機器學習博客,36氪經授權發布。

在手機、平板和可穿戴設備不斷普及的今天,手寫識別比以往任何時候都重要。但這並非易事,拿漢字來說,讓行動裝置識別大量手寫漢字字符還是個挑戰。

今天,蘋果機器學習博客發表文章《Real-Time Recognition of Handwritten Chinese Characters Spanning a Large Inventory of 30,000 Characters》,介紹了蘋果如何在iPhone、iPad和Apple Watch的Scribble模式中解決上述問題。

這套基於深度學習的識別系統,能準確處理多達3萬個字符。為了提高準確性,蘋果研究人員還特別注意了數據的收集環境、典型字體和訓練方案。他們發現,這套系統還能支持更大的字符庫。

蘋果研究人員的實驗表明,只要訓練數據集的數量夠大質量夠好,準確率只會隨著字符量的增加緩慢下降。量子位將這篇博客中的要點翻譯整理,與大家分享——

簡介

手寫識別能夠提高用戶在行動裝置上的體驗,尤其適用於漢字這種相對複雜文字的使用者。由於漢字數量和書寫樣式多,手寫識別確實是個大挑戰。

字母類的語言也就涉及到100多個字母的排列順序,但在中國國家標準GB 18030-2005《信息技術中文編碼字符集》中就收錄了27533個字符。

日常生活中,人們只用得到最具代表性的一小部分。因此,國標GB2312-80《信息交換用字符編碼字符集·基本集》中僅包含6763個字符。中科院自動化研究所創建的CASIA資料庫中所用字符有6763個,其中一級字符(常用字)3755個,二級字符(非常用字)3008個。

然而,早期識別算法主要依賴分析筆畫的構造。後來,研究人員對研究漢字整體結構的方法產生了興趣。由於眾多漢字具有相似性,漢字識別的難度加大,研究人員通過分類降低錯誤識別。

在MNIST數據集的拉丁文任務中,卷積神經網絡(CNN)嶄露頭角。因為訓練數據足夠大,根據需要補充合成樣例,CNN無疑是最好的方法。美中不足的是,這些研究中分的類別很少。

當我們開始研究漢字的大規模識別時,CNN似乎是個不錯的選擇。但這種方法需要將CNN擴展至約3萬個字符,並且在嵌入設備上實時保持性能。

系統結構

我們採用的是CNN通用架構,類似於之前在MNIST上手寫識別實驗中的架構。系統結構如圖所示:

△ 典型的CNN架構

出於性能原因,我們將輸入設定為一個中等解析度的圖像(48x48像素),這是普通手寫漢字的大小。之後我們將它輸入至特徵提取層,交替進行卷積和子採樣。最後一個特徵提取層通過全連接層輸出。

從一個卷積層到下一個卷積層,我們選擇了kernel的大小和特徵映射的數量得出粗粒度特徵。通過用2x2 kernel,我們對最大池化層進行了採樣,每個輸出層都有一個節點。

下圖展示了使用CNN的運行結果,其中「Hz-1」指的是一級字符庫(3755個字符),「CR(n)」表示輸入法界面排序為n的可能字符的準確度。除了常見的「最可能字」(top-1)和top-10的準確性外,我們也特意提到了top-4的準確性,因為輸入法界面一開始會顯示4個可能漢字,而top-4的準確性是用戶體驗提升的重要指標。

△ 在CASIA在線資料庫3755個字符上的運行結果

除此以外,我們對在iOS設備內部收集的額外訓練數據感興趣。此數據涵蓋了更多字體樣式,並包含每個字符大量的訓練實例。在同一個有3775個字符測試集的訓練結果如下:

這次訓練準確度有些許提高,總體來說,在測試集中出現的大多數漢字書寫風格已經在CASIA訓練集中得到了很好覆蓋,也表明摺疊訓練數據不會使準確性下降,附加樣式在對底層模型沒有負影響。

擴展至3萬字

我們想為用戶提供從印刷體到草書等各種可能的輸入字體。為了儘可能多涵蓋不同的漢字書寫風格,我們從中國幾個地區找到了一些書法家的數據。讓我們驚訝的是,大多數用戶表示沒有見過這些罕見的漢字。

因此,我們又收集了不同年齡段、性別和不同教育背景的用戶數據,發現了各種各樣的書寫風格。下圖顯示了樣例中「花」字在楷書、草書和「隨便畫幾筆」風格下的樣本。

事實上,在日常生活中,用戶輸入經常是「隨便畫幾筆」,出現一種非常不相似的曲線變化。有時也會讓系統混淆成其他字符。下圖展示了我們在數據中觀察到的一些具體例子。需要注意的是,有足夠的訓練數據能區分像Figure 7這樣的草書變化很重要。

用這種方法,我們收集了大量漢字,將可識別字符從3755增加到大約3萬。

△ 30000個字符在CASIA在線資料庫的結果

為了解系統如何支持30000個手寫字符識別,我們還在許多不同測試集上對其進行評估,這些測試集支持所有字體的字符。平均測試結果如下:

△ 不同字體的30000個字符在多個內部測試集的平均結果

當然,上面兩張圖的結果不能直接比較,因為它們屬於不同的測試集上。但我們能發現,top-1和top-4的準確性相當,top-4達到了95.1%的準確率,結果尚好。

綜上所述,我們在嵌入式設備上構建了覆蓋3萬個字符的高精度手寫識別系統。只要有足夠數量和質量的訓練數據,識別準確度就不會大幅降低。未來,我們能精確識別的漢字字符還會更多。

如果還想了解具體的技術細節。可移步谷歌機器學習官方博客,地址

相關焦點

  • 拋棄手寫和輸入 塗書筆記識別精度有多高?
    1拋棄手寫輸入 塗書筆記精度有多高?     輸入一直是手機的軟肋,可是現在偏偏什麼時候都需要用到手機,記錄筆記、存放紙質文件等等手機是最好的工具,無奈受限於蹩腳的輸入,用手機記錄給我們徒增很多麻煩。
  • 賈伯斯最痛恨的手寫筆,卻陪蘋果度過漫長歲月
    實際上,不論賈伯斯說得對不對,也不管 Apple Pencil 是否真的好用,Apple Pencil 其實並不是蘋果第一次在產品中使用手寫筆,在第一代 iPad 推出近 20 年前,蘋果在一系列平板電腦的原型機上,就已經用上了手寫筆,但這一切確實和賈伯斯關係不大。
  • 國產指紋識別方案安全精度不及iPhone
    自發布iPhone5S後,蘋果將生物識別技術應用帶到一個全新的高度,隨後安卓陣營也陸續推出自家的「生物識別技術」,比如「眼球識別」「指紋識別」等等。 不過有人士指出,目前絕大多數手機廠家所採用的生物識別技術幾乎都是基於圖像匹配原理來實現的,而不是真正的生物識別技術。
  • Siri語音識別:你在哪裡 就能準確地識別那附近地址
    原標題:Siri語音識別:你在哪裡 就能準確地識別那附近地址   【PConline資訊】這篇文章來自蘋果機器學習日記(AppleMachineLearningJournal)。過往內容可以參見 如何設計能在AppleWatch上實時運行的中文手寫識別系統,蘋果揭秘「HeySiri」的開發細節,為了讓iPhone實時運行人臉檢測算法,蘋果原來做了這麼多努力。   在最新一期中,蘋果介紹了如何讓Siri根據用戶所在地的不同,準確識別出用戶提到的周圍的地點。編譯如下。
  • 神經網絡技術解析:手寫數字識別項目解讀
    打開APP 神經網絡技術解析:手寫數字識別項目解讀 澤南 張倩 發表於 2021-01-13 15:50:11 手寫數字識別是很多人入門神經網絡時用來練手的一個項目
  • 蘋果這項新專利,會讓你手寫輸入中文更快
    除了最近流傳的新一代 iPhone 將取消所有接口的傳言,我們也可以從蘋果的專利,大膽推測未來的 iPhone 會怎樣。▲ 實時手寫識別示意圖,圖片來自:美國商標管理局近日美國專利商標局公布了蘋果的一項新專利——「實時手寫識別技術」。
  • 消息稱蘋果iOS系統將推出新功能 虹膜識別應用或爆發性增長(附股)
    來源:證券時報網據媒體報導稱,近日,有消息表示蘋果公司iOS系統的更新版將推出一個重要功能,就是「戴口罩也可使用FaceID」。國內有科技廠商也表示,虹膜識別可作為替代方案,實現戴著口罩能解鎖手機。虹膜識別比人臉識別和指紋識別具有更難偽造的生物特徵識別特性。
  • 漢王發布首款中文手寫iOS輸入法,搶佔先機
    6月5日,蘋果宣布iOS8系統將開放支持第三方輸入法,這不得不說是第三方輸入法開發者和廠商的福音,此舉勢必將掀起國內外輸入法廠商在iOS平臺的一番緊鑼密鼓的布局。據悉,此次蘋果開放iOS8的第三方輸入法API,漢王反應迅速、搶佔先機,集合在技手寫術上的強大優勢將推出第一款漢王iOS免費手寫輸入法,積極拓展在iOS APP Store B2C市場的輸入法佔用率,開啟了iOS平臺流量之爭。
  • 虹膜識別,聲紋識別,指紋識別,人臉識別的優缺點是什麼
    掌靜脈識別掌靜脈識別系統就是首先通過靜脈識別儀取得個人掌靜脈分布圖,從掌靜脈分布圖依據專用比對算法提取特徵值,通過紅外線CCD攝像頭獲取手指、手掌、手背靜脈的圖像,將靜脈的數字圖像存貯在計算機系統中,將特徵值存儲。靜脈識別具有高度防偽、簡便易用、快速識別及高度準確四大特點。
  • 蘋果將推出iOS11.3:可直接查看電池損耗
    就在剛剛,蘋果在其官方網站公布了有關iOS 11.3的最新消息,下面就帶大家提前預覽下這次iOS 11.3版的幾個新增亮點功能:01.可直接查看電池效能並選擇關閉降頻在新的iOS 11.3中可以顯示電池效能並建議電池是否需要維修。尤為值得一提的是,正如蘋果CEO庫克此前接受媒體採訪時承諾的那樣,在iOS 11.3中用戶將可以自主直接選擇是否要關閉系統默認開啟的因電池損耗導致的降頻功能,等於把是否需要系統進行降頻的最終選擇權交還給了用戶。
  • 虹膜識別有了新的使用「姿勢」
    「這意味著,3種識別方式在資料庫中準確找到一個人的概率差別以量級計。人臉識別、指紋識別和虹膜識別的匹配容量分別是1萬、10萬和100萬。」換句話說,如果想在監控視頻中準確找到一個人,1萬的人群基數中可以用人臉識別,10萬人以下可以用指紋識別,100萬個人中找出這個人應當用虹膜識別。反之,如果使用人臉識別在100萬個人中找人,準確率會大幅下降,誤識率會提高很多。
  • 初創公司推出AI處理器實現生物識別 可用於監控座艙乘客
    蓋世汽車訊 據外媒報導,初創公司Deep Vision推出了一款新型AI處理器,具備新型晶片設計,適合用於智能城市、智慧零售等需要能耗較低的邊緣生物識別應用。
  • 亞馬遜推出刷手支付系統,非接觸式掌靜脈識別市場有望爆發
    9月29日,亞馬遜宣布推出Amazon One手掌支付系統,消費者只要揮下手就能完成支付了。目前該系統已經在亞馬遜西雅圖總部附近的兩家Amazon Go無人便利店啟用。亞馬遜還計劃在未來幾個月內在Amazon Go以外的其他商店內引入Amazon One手掌支付系統。
  • 生物識別:你的身體就是密碼
    而由硬體生成的一次性加密密鑰可確保生物特徵識別數據完全保存在主機的可信執行環境中,其中只會將數據提供給已知的可信賴流程。X7cesmc除了Clear ID之外,Synaptics還推出了電容式Match-in-Sensor指紋識別解決方案,包括一個系統晶片(SoC)架構,其中的單個設備可通過內置傳感器的微處理器運行固件來執行輸入和輸出兩個功能。
  • MyScript(Nebo&Calculator 2)-手寫識別、轉換和計算
    您可利用標題、段落和列表來整理手寫筆記,然後將其轉換成文字形式,並同時保留排版、顏色和樣式,實現手寫輸入與文字識別同步進行。可以識別你所有手寫的內容,包括繪製圖表、數學公式、圖像批註和草圖繪製。66 種手寫識別語言。還可以將記錄的文件導出為Word、文本、PDF或者Html。Calculator 2是一個手寫計算器,使用它,可以自然地通過手寫算式,就能立即得到任何格式的結果。
  • 3D人臉識別:結構光還還是TOF?
    隨著全面屏手機的爆發,智慧型手機對於屏佔比的要求越來越高。目前主流旗艦手機的屏佔比已經達到了90%左右,手機正面早已沒有了傳統的HOME鍵存在的位置。這也使得可以隱藏在屏幕內、不影響屏佔比的新的屏下指紋技術得到了越來越多的智慧型手機廠商的青睞。與此同時,隨著蘋果iPhone X的帶動,不少的手機廠商也推出支持3D人臉識別的旗艦機型。
  • 蘋果Face ID的幕後英雄!3D結構光人臉識別技術全解析
    蘋果Face ID的幕後英雄!3D結構光人臉識別技術全解析 2019年09月29日 10:38作者:網絡編輯:王動   9月份蘋果正式發布了iPhone 11和11 Pro系列新品手機,在原有技術的基礎上進一步提升了性能
  • 一公司推出1mm精度超聲波ToF手勢識別
    【PConline 資訊】手勢識別並不是一個新概念,但一直以來手勢識別的精度並不是很高。還有,設備不僅可以感測到手部揮動的大幅度手勢,而且可以感測到微小的手勢(如手指運動),精度可達到1mm。如此精度使得ToF傳感器非常適合於可穿戴設備應用,其中設備由於過小,用戶無法正常使用觸控螢幕和免手持應用,如無菌醫療或無塵室環境或信息娛樂應用。其實Chirp並不是第一個使用超聲波技術的。幾十年來,研究人員和企業已經嘗試所謂的聲學手勢控制或識別,通過聲音來監測運動並用於控制界面。
  • 脈衝星推出新款毫米波雷達傳感器:提供高精度可重複液位測量且與...
    打開APP 脈衝星推出新款毫米波雷達傳感器:提供高精度可重複液位測量且與液位控制器兼容 工程師黃明星 發表於 2018-07-31 11:06:00
  • 微軟面部識別系統Windows Hello與FaceID相似
    FaceID的底層技術就是面部識別,它並不是新技術。微軟面部識別系統Windows Hello與FaceID相似,事實上,Windows Hello已經推出多年,表現一直不錯。 人們對FaceID有很多的擔憂,比如隱私憂慮,還有一些人擔心FaceID不快不可靠。我認為這些擔憂可能被誇大了。 早在2015年微軟就推出了相似的技術,效果很好。