【IT168 應用】「掃一掃」已經成為手機的必備功能,它正推動著人們邁向更便捷的智能生活。「掃一掃」能付款、查詢、上網、下載、加好友……但你的手機「掃一掃」能識字嗎?
近日,百度輸入法發布iOS7.5版本,在基於語音識別的基礎上,推出「文字掃描」識別的功能,它支持直接拍照或者選擇相冊中的圖片進行文字識別,免去輸入過程,成段內容直接上屏。此外,百度手機輸入法對實時的翻譯功能進行了全線突破,新版本結合溝通平臺與翻譯功能,為用戶提供文字翻譯、語音翻譯、文字掃描翻譯、快捷翻譯等多種智能翻譯方式。其中文字掃描翻譯支持西班牙語、希臘語、韓語等近十種語言的直接掃描翻譯。「掃一掃」排除語音障礙,即使在國外,也能輕鬆享受旅遊時光。
據悉,百度輸入法iOS7.5版本的文字掃描功能是基於百度圖像文字識別(OCR)技術。百度OCR技術是目前全球最準確的中文通用識別技術,它是基於百度領先的深度學習技術,擁有整圖文字檢測和識別、整圖文字識別、整圖文字行定位和單字圖像識別等能力,並成功的應用於多個應用場景。如文檔圖片錄入和檢索、自然場景輸入和翻譯、拍照讀卡、網圖推薦和反作弊等。目前,百度 OCR支持中、英、日、韓、葡、德、法、意、西、俄等十國語言,線上集群每天滿足著公司數十條產品線的數千萬PV的流量請求。
百度OCR技術不僅在國內遠超競爭者,在海外也一直倍受關注。截止到7月13日,百度OCR技術在國際文檔分類與識別大會(ICDAR)最具挑戰性的自然場景類文字識別任務中斬獲三項冠軍,比賽結果均遠超第二名,此外百度憑藉OCR技術在該比賽中已經連續兩年獲得多項世界第一。ICDAR是OCR領域最權威的學術會議。該會議組織的Robust Reading競賽是當前OCR技術領域全球最具影響力的比賽。該競賽吸引了Face++,Sensetime等國內視覺AI創業新秀,以及谷歌、微軟等國際頂級網際網路公司厲兵秣馬,各展頭角。
ICDAR競賽中最具挑戰的OCR競賽任務: Challenge 4:「Incidental Scene Text」(自然場景隨拍文字識別)。這個任務中的圖片都來源於用戶拍攝的自然場景圖像,例如真實的街道和商場場景,由於待檢測和識別的文字處於複雜的自然場景中,且待識別的文字往往有各種各樣字體格式,文字的檢測和識別具有較大的挑戰性。隨拍文字識別(Challenge 4)任務的難度很大,圖片拍攝並不是專門針對文字區域進行的,存在噪聲、模糊以及角度傾斜等不利因素。IDL OCR的算法在這個場景上,多項指標取得世界第一!結果地址:http://rrc.cvc.uab.es/?ch=2&com=evaluation。
在2017年百度AI開發者大會(Baidu Create 2017)上, AI技術與開放平臺分論壇,吸引了眾多開發者關注。此次,百度多年打造的完整AI技術平臺將對開發者全面開放,開放的技術能力總共有60個,是最全面的AI技術開放平臺。作為重要開放技術之一的圖像文字識別(OCR),在通用文字、網絡圖片文字、二代居民身份證、銀行卡識別的基礎上還發布了表格文字識別、駕駛證識別和行駛證識別等三項新功能。
此次百度核心技術的全面開放是從根本上打破封閉的研發生態,為開發者和合作夥伴賦能,積極推動技術和產品結合,應用於更多場景。開發者陶新樂就是百度技術開放的受益者之一,其研發的白描APP通過百度OCR開放平臺接口搭載了百度OCR技術,並廣受好評。據陶新樂介紹,白描APP通過百度OCR技術可輕鬆將圖片轉換成文字,準確率非常高的百度OCR文字識別技術簡化了用戶輸入步驟,力求為用戶提供最智能的文字識別服務。目前,白描APP已成為APPLE STORE工具類付費下載榜的前幾名,並被網友稱為「準確率高到沒有朋友的文字識別 OCR APP」。
百度AI技術在行業內具有先發優勢,完整布局和深厚技術積累。此前百度已經通過API向開發者提供了多項百度研發的前沿技術,未來隨著百度AI基礎能力的進一步開放,開發者、創業者、行業夥伴將如虎添翼,讓人工智慧技術賦能更多場景,創造更多價值。