百度OCR技術加持輸入法獲好評 核心技術向開發者開放被點讚

2020-12-15 IT168

【IT168 應用】「掃一掃」已經成為手機的必備功能,它正推動著人們邁向更便捷的智能生活。「掃一掃」能付款、查詢、上網、下載、加好友……但你的手機「掃一掃」能識字嗎?

近日,百度輸入法發布iOS7.5版本,在基於語音識別的基礎上,推出「文字掃描」識別的功能,它支持直接拍照或者選擇相冊中的圖片進行文字識別,免去輸入過程,成段內容直接上屏。此外,百度手機輸入法對實時的翻譯功能進行了全線突破,新版本結合溝通平臺與翻譯功能,為用戶提供文字翻譯、語音翻譯、文字掃描翻譯、快捷翻譯等多種智能翻譯方式。其中文字掃描翻譯支持西班牙語、希臘語、韓語等近十種語言的直接掃描翻譯。「掃一掃」排除語音障礙,即使在國外,也能輕鬆享受旅遊時光。

據悉,百度輸入法iOS7.5版本的文字掃描功能是基於百度圖像文字識別(OCR)技術。百度OCR技術是目前全球最準確的中文通用識別技術,它是基於百度領先的深度學習技術,擁有整圖文字檢測和識別、整圖文字識別、整圖文字行定位和單字圖像識別等能力,並成功的應用於多個應用場景。如文檔圖片錄入和檢索、自然場景輸入和翻譯、拍照讀卡、網圖推薦和反作弊等。目前,百度 OCR支持中、英、日、韓、葡、德、法、意、西、俄等十國語言,線上集群每天滿足著公司數十條產品線的數千萬PV的流量請求。

百度OCR技術不僅在國內遠超競爭者,在海外也一直倍受關注。截止到7月13日,百度OCR技術在國際文檔分類與識別大會(ICDAR)最具挑戰性的自然場景類文字識別任務中斬獲三項冠軍,比賽結果均遠超第二名,此外百度憑藉OCR技術在該比賽中已經連續兩年獲得多項世界第一。ICDAR是OCR領域最權威的學術會議。該會議組織的Robust Reading競賽是當前OCR技術領域全球最具影響力的比賽。該競賽吸引了Face++,Sensetime等國內視覺AI創業新秀,以及谷歌、微軟等國際頂級網際網路公司厲兵秣馬,各展頭角。

ICDAR競賽中最具挑戰的OCR競賽任務: Challenge 4:「Incidental Scene Text」(自然場景隨拍文字識別)。這個任務中的圖片都來源於用戶拍攝的自然場景圖像,例如真實的街道和商場場景,由於待檢測和識別的文字處於複雜的自然場景中,且待識別的文字往往有各種各樣字體格式,文字的檢測和識別具有較大的挑戰性。隨拍文字識別(Challenge 4)任務的難度很大,圖片拍攝並不是專門針對文字區域進行的,存在噪聲、模糊以及角度傾斜等不利因素。IDL OCR的算法在這個場景上,多項指標取得世界第一!結果地址:http://rrc.cvc.uab.es/?ch=2&com=evaluation。

在2017年百度AI開發者大會(Baidu Create 2017)上, AI技術與開放平臺分論壇,吸引了眾多開發者關注。此次,百度多年打造的完整AI技術平臺將對開發者全面開放,開放的技術能力總共有60個,是最全面的AI技術開放平臺。作為重要開放技術之一的圖像文字識別(OCR),在通用文字、網絡圖片文字、二代居民身份證、銀行卡識別的基礎上還發布了表格文字識別、駕駛證識別和行駛證識別等三項新功能。

此次百度核心技術的全面開放是從根本上打破封閉的研發生態,為開發者和合作夥伴賦能,積極推動技術和產品結合,應用於更多場景。開發者陶新樂就是百度技術開放的受益者之一,其研發的白描APP通過百度OCR開放平臺接口搭載了百度OCR技術,並廣受好評。據陶新樂介紹,白描APP通過百度OCR技術可輕鬆將圖片轉換成文字,準確率非常高的百度OCR文字識別技術簡化了用戶輸入步驟,力求為用戶提供最智能的文字識別服務。目前,白描APP已成為APPLE STORE工具類付費下載榜的前幾名,並被網友稱為「準確率高到沒有朋友的文字識別 OCR APP」。

百度AI技術在行業內具有先發優勢,完整布局和深厚技術積累。此前百度已經通過API向開發者提供了多項百度研發的前沿技術,未來隨著百度AI基礎能力的進一步開放,開發者、創業者、行業夥伴將如虎添翼,讓人工智慧技術賦能更多場景,創造更多價值。

相關焦點

  • AI技術發威,百度輸入法日均語音輸入請求量超越搜狗
    百度輸入法語音輸入崛起之道從文字輸入到語音輸入甚至圖片輸入,輸入法的技術門檻正變得越來越高,AI技術已成為其核心驅動,正是因為這樣的變化,給了百度輸入法崛起又一個機會。AI技術的積累,特別是語義技術的積累,確保百度輸入法在面對不同語言、方言、口音和風格的語音輸入時,均可十分準確;產品細節的優化,特別是針對不同場景的功能優化,讓百度輸入法效率更高、體驗更好,有第三方報告顯示,準確率和效率,是影響用戶選擇一款輸入法的關鍵點,
  • AI技術深度融合 百度輸入法市場份額領先的核心競爭力
    為此,很多人都有這樣一個疑問:百度輸入法是如何從一個後來者,成為市場的領頭羊呢?在筆者看來,把AI等新技術與輸入法進行了深度的技術融合,這是百度輸入法市場份額領先的核心競爭力。與五筆輸入法相比,拼音輸入法的最大劣勢就是輸入效率低,優勢是學習成本低,不需要專業培訓就能上手。
  • AI技術加成輸入法,百度輸入法是怎麼做成功的?
    輸入法行業市場雖然有大量的平臺產品,但是真正能做到讓用戶體驗度水平有較大水平的提升,還是具有很高的難度的。隨著科技水平的發展,越來越多的科技加入到產品平臺中,讓平臺型產品的價值水平不斷提升,這也使得AI被更廣泛地應用到產品平臺中去,百度輸入法就是很好的例子。
  • 百度輸入法語音能中英文混輸了 這個痛點終於解決
    中關村在線消息:語音輸入法發展這麼多年,一個每天都可能遇到的痛點到現在都沒有解決,那就是中英文混輸,但現在百度輸入法有了新的突破。百度輸入法在今天上午的百度AI開發者大會2019主題演講中,百度語音技術部高級總監高亮展示了百度輸入法語音中英混輸的技術效果。
  • 輸入法因AI技術加持 真正意義上解放雙手
    但大多數輸入法的語音輸入功能無論是便捷性還是識別準確率都很難達到要求,反覆修改還不如直接用文字輸入,更別說提高效率了。所以要想更順暢地交流,就需要一款「善解人意」的手機輸入法。百度手機輸入法的研發團隊不斷精益求精,通過技術的創新改革研發出功能更加全面的輸入法,實現了普通話、方言以及中英文語音免切換混合輸入的功能,打字效率大幅提升,真正做到解放雙手。
  • 先百度後騰訊為何爭相開放技術能力?有以下三點!
    先百度後騰訊為何爭相開放技術能力?有以下三點!現在中國本土,有兩家公司也在嘗試放開自己的技術能力。百度和騰訊為什麼 要這樣做,本文作者給我們提供了三點原因。而 對普通的開發者來說,要想利用語音圖像技術為用戶提供更符合移動場景下的終端輸入需求,其實要面臨非常高的技術門檻。誰能幫開發者解決這種困境?只有靠那 些技術資源深厚開放平臺。現在看來,真正理解開放平臺應當提供什麼價值並提前布局的企業並不多,百度算是一個,它比騰訊更早的向開發者開放了自己的語音圖像技術。如今騰訊也開始開放自身的技術能力,可見它已經開始重新理解開放平臺。
  • 百度世界2020:核心技術縱深迭升,讓人工智慧「硬核」生長
    9月15日,央視新聞以全程直播方式向億萬觀眾展現的「百度世界2020」上的種種黑科技,可以說是用一席人工智慧科技盛宴,多場景、全方位、立體化的展示了在百度大腦作為技術底座的賦能下,被AI改變的國民生活全貌。
  • 百度輸入法適配X軸線性馬達
    不久前發布的小米10全系配備X軸線性馬達,其清脆的、類似機械鍵盤的振感,收穫了一眾好評。百度輸入法v 9.2.1.0最新版也趕在小米10上線後第一時間適配,敲擊感「爆棚」的輸入體驗令小米集團副總裁、多個數碼博主以及大量用戶紛紛「點讚」。
  • 日均語音請求量10億次的幕後,百度輸入法的技術原點
    對於一些偏遠地區或受天氣原因影響,導致手機網絡信號不穩定時,聯網狀態不佳的輸入法就很有可能出現識別成功率低、識別速度慢等情況。此前,大部分輸入法會藉助離線語音包來彌補,但在體驗上卻與在線語音相差懸殊,並不能解決廣大用戶的痛點。
  • 融入AI技術實現人機互動,百度輸入法讓打字更輕鬆
    其實不僅是硬體需要人工智慧的輔助,我們平時用到的各種應用工具,同樣需要AI的加持,從而提升用戶和應用的信息交互,例如輸入法,作為人與機器之間信息交換的工具,作為機器指令的導入手段,引入AI技術,提高人工智慧深度勢在必行。
  • 百度CTO王海峰:百度輸入法實現中英語音混輸
    [PConline資訊]2019年百度AI開發者大會今日舉行,百度首席技術官王海峰發表演講。王海峰宣布,百度大腦升級至5.0,形成了包括基礎層、感知層、認知層、平臺層和AI安全五大部分的核心架構。百度大腦5.0成為軟硬體一體的AI大生產平臺,核心算法再獲重大突破,首次公布端到端AI計算架構,並實現了AI計算、計算架構與應用場景的創新融合。他表示,深度學習正在推動人工智慧進入工業大發展時代。現場,百度語音技術部高級總監高亮展示了百度輸入法中英混輸技術。
  • 百度成功用AI技術為輸入法賦能,實現AI+輸入法
    打開APP 百度成功用AI技術為輸入法賦能,實現AI+輸入法 人工智慧實驗室 發表於 2020-12-25 09:24:39
  • 解碼百度大腦「一攬子」硬核語音技術 開發者翹班燃爆全場
    百度大腦年末交出了一份亮麗的語音成績單。 11月28日,百度大腦語音能力引擎論壇在京召開。現場百度CTO王海峰公布百度語音技術日調用量破100億,國內第一。
  • 告別單點技術!百度AI加速器提供全棧技術支持 四期成員集體「進化」
    百度AI加速器第四期結業儀式百度技術加持:AI全棧技術助攻節省企業研發成本今年7月,百度大腦發布5.0,AI算法、計算架構和應用場景融合創新,成為「軟硬一體AI大生產平臺」,深度賦能產業開發者,加速產業智能化進程。
  • 百度AI開發者大會輸入法現場大飆Rap!高難度中英文混合語音識別...
    在7月3日「Baidu Create2019」百度AI開發者大會現場,百度首席技術官王海峰在演講中表示,「百度研發了流式多級的截斷注意力模型(SMLTA),使語音識別的準確率大幅提升並保持了非常高的速度,這是首個基於流式注意力的語音識別線上服務,百度輸入法語音識別的準確率因此相對提升15%以上」。
  • AI技術領跑、23個國際冠軍,2019百度AI如何彰顯核心競爭力
    5 月,在國際權威的多目標追蹤挑戰(Multiple Object Tracking Challenge,MOT)的 MOT16 榜單上,百度視覺技術團隊超越眾多實力強勁團隊,獲得榜單世界第一的好成績。MOTA 指標顯著提升,超越第二名 1.8 個點。
  • 輸入法行業獨家內容生態聯盟迎來第二批成員 百度輸入法鍵盤皮膚再...
    機械鍵盤完美植入百度輸入法,帶來敲擊手感與AI科技的雙重至臻體驗,成為了「電競黨」和「機械鍵盤控」們遊戲碼字時的「能量血包」。據悉,該聯盟自今年7月25日成立以來,已擁有近二十位成員。百度輸入法與加入聯盟的第一批外設頭部品牌,合作推出了多款旗艦仿真鍵盤精品授權皮膚。
  • 百度語音舉辦技術沙龍:將建語音平臺生態
    目前,藉助多種最新技術的運用,百度語音在通用文本安靜環境普通話識別率結果已經提升到接近97%的水準,處於領先地位。百度語音技術最新進展:普通話識別率接近97%據介紹,百度語音團隊成立於2010年,到2013年就已經完成從無到有的華麗轉變,搜索、地圖、輸入法、音樂、瀏覽器等多款產品均已搭載百度語音技術。
  • 輸入法的新時代:搜狗、訊飛、百度鏖戰智能語音
    訊飛語音合成、語音識別、機器翻譯、自然語言理解等核心技術均走在科技前沿。而基於技術的領先,訊飛輸入法在智能語音輸入功能上,不斷提高語音準確率,豐富個性化功能上,一躍成為輸入法領域的黑馬。在準確率方面,訊飛智能語音輸入法98%準確率,是其破局輸入法市場最大的優勢。
  • 百度輸入法適配小米、華為、魅族主流機型線性馬達 還原機械鍵盤手感
    不久前發布的小米10全系配備X軸線性馬達,其清脆的、類似機械鍵盤的振感,收穫了一眾好評。百度輸入法v 9.2.1.0最新版也趕在小米10上線後第一時間適配,敲擊感「爆棚」的輸入體驗令小米集團副總裁、多個數碼博主以及大量用戶紛紛「點讚」。