曠視科技 CSG 算法負責人姚聰:深度學習時代的文字檢測與識別技術...

2020-12-25 雷鋒網

雷鋒網 AI 研習社按:隨著深度學習的興起和發展,計算機視覺領域發生了極大的變化。作為計算機視覺中一個重要的研究課題,場景文字檢測和識別也無法避免地被這股浪潮席捲,一起進入了深度學習的時代。近年來,這個問題的研究者們都共同見證了思維、方法和性能方面的巨大變化,本次公開課的嘉賓將與大家分享相關內容。

分享嘉賓:

姚聰,於華中科技大學電信學院獲得學士和博士學位,其主要研究方向為自然場景文字檢測和識別。在國際重要期刊IEEE TPAMI, IEEE TIP以及頂級會議CVPR、ICCV和ECCV等上發表論文十餘篇。目前在曠視科技(Face++)擔任雲服務業務算法負責人,主持自然場景OCR、人臉活體檢測等技術的研發工作,為FaceID網際網路身份驗證服務、Face++開放平臺等提供算法支持。

公開課回放地址:

http://www.mooc.ai/open/course/605

分享主題:深度學習時代的文字檢測與識別技術

分享提綱:

  • 背景與概述

  • 場景文字檢測與識別的近期進展

  • 未來趨勢與潛在方向

  • 典型應用

雷鋒網(公眾號:雷鋒網) AI 研習社將其分享內容整理如下:

背景與概述

視覺識別中,文字為什麼如此重要?有兩個原因,分別是作為載體的文字和作為線索的文字。

▊文字作為載體

首先,文字並非自然產生,而是人類的創造物,天生包含著豐富而準確的高層語義信息,傳達人類的思想和情感,這是一般的圖像或者視頻信息很難直接描述的,但是文字可以做到。比如《史記》,通過它可以了解兩千年前的某個歷史事件相關的人物、時間和地點。

▊文字作為線索

其次,文字是視覺識別的重要線索。如上所示,這是一張街景圖像,有建築物,有植物;如果進一步提問,圖像拍攝地點是哪兒,光靠以上信息無從得知,而移除中間的灰色掩膜,會發現這是「中關村廣場購物中心」。藉助文字信息可以精確獲知圖像的拍攝地點。由此可知,文字與其他視覺線索(邊緣、顏色、紋理等)有著非常強的互補作用,通過文字檢測和識別,可以獲得更豐富、準確的信息。

▊定義

那麼,從研究角度講,如何界定文字檢測與識別問題呢?

簡單來講,文字檢測是指通過算法計算判斷自然場景中在單詞或者文字行層面是否含有文字實例(如果有,則標出位置)的過程。

文字識別則更進一步,它在文字檢測基礎之上把文字區域轉化為計算機可讀取和編輯的符號的過程。

▊挑戰

目前,文字檢測與識別面臨諸多挑戰。首先,它與傳統 OCR(光學字符識別)有所區別,因自然場景之中文字變化非常之多,如下所示,左邊是一張典型的掃描文檔圖像,右邊則是自然場景中採集的多張圖像。

通過對比可以發現,左圖的背景非常乾淨,右圖的背景非常雜亂;左邊字體非常規整,右邊則千變萬化 ;左邊布局較為平整統一,右邊則多元複雜,缺乏規範;左邊顏色單調,右邊顏色種類繁多。

總體而言,文字檢測與識別存在三個方面的重大挑戰:

1)場景文字的多樣性。如文字的顏色、大小、方向、語言、字體等。

2)圖像背景的幹擾。日常生活中隨處可見的信號燈、指示標、柵欄、屋頂、窗戶、磚塊、花草等局部來看和文字有一定相似性,這為文字檢測與識別過程帶來很大幹擾。

3)第三個挑戰來自圖像本身的成像過程。比如拍照包含文字的圖像存在噪聲、模糊、非均勻光照(強反光、陰影)、低解析度、局部遮擋等問題,對算法的檢測和識別也是是非常大的挑戰。

場景文字檢測與識別的近期進展

正是由於存在上述多個挑戰,研究者嘗試從各種角度解決上述問題。這次探討的主題是深度學習時代文字檢測與識別領域的最新進展。這些進展被分成 5 個類別:

  1. 從語義分割和目標檢測方法中汲取靈感

  2. 更簡化的 Pipeline

  3. 處理任意形態文字

  4. 使用 Attention

  5. 使用合成數據。

▊第一個分類:從語義分割和目標檢測方法中汲取靈感

自然場景文字檢測與識別技術從語義分割和目標檢測方法中汲取靈感而產生的代表性工作主要有:

  1. Holistic Multi-Channel Prediction

  2. TextBoxes

  3. Rotation Proposals

  4. Corner Localization and Region Segmentation。

深度學習方法相較於相較於傳統方法而言,會從通用物體語義分割和目標檢測算法中汲取靈感。比如科曠視科技 2015 年有一個工作,稱之為 Holistic Multi-Channel Prediction。

區別於傳統文字檢測方法,Holistic Multi-Channel Prediction 把文字檢測問題轉變為一個語義分割問題,通過對全圖進行語義分割來獲取文字區域,如上所示,左邊為原圖,右邊為已預測的掩膜圖,文字區域高亮,背景區域則被抑制。

Holistic Multi-Channel Prediction 的輸入並非局部區域,而是整張圖像;另外,無論從概念還是功能上來講,該方法皆區別於滑窗或者連通分量方法。

具體來講,Holistic Multi-Channel Prediction 會輸出全局的三種像素級預測,包括圖像區域、字符位置和相鄰字符間的連接方向。通過這三種信息,輸出最右邊的結果圖,如紅色矩形部分所示。這一方法的好處是可以同時處理水平、多方向、彎曲文字。

另一種方法是 TextBoxes,它受到單步的通用物體檢測器 SSD 啟發,其本質是把文字作為一種特殊的目標,通過 SSD 對其進行建模。這裡的基礎模型是 VGG-16,卷積層輸出目標文字是否存在以及長寬、大小、方向等信息,同時取得了很高的精度及效率。

目標檢測領域還存在兩步的檢測器,比如 Faster R-CNN。第三種文字檢測方法稱之為 Rotation Proposals,它屬於兩步檢測的範疇,主要借鑑了 Faster R-CNN,在框架保持一致之時,又有所修改,以更好地檢測場景文字,這是因為文字和通用目標有所區別,比如有劇烈的長寬比變化、旋轉方向。

Rotation Proposals 主要做兩件事:第一是拓展錨點,增加方向,改變長寬比變化;第二是 RRoI 池化層,處理各種旋轉情況,分離出規整的特徵圖,方便後續操作。

曠視科技 CVPR 2018 收錄論文《Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation》提出了一種複合的文字檢測方法——Corner Localization and Region Segmentation(角點檢測和區域分割),它最大亮點是綜合利用目標分割與語義分割兩種方法。

為什麼提出這種方法?這源於實際場景文字實例有時相鄰較近甚至粘連,分割和檢測變得無濟於事。這時通過兩個分支進行處理,一個分支定位文字區域的角點,另一個分支進行文字區域分割,結合這兩種信息文字輸出文字位置和置信度。

如上所示,Corner Localization and Region Segmentation 基礎模型是 VGG-16,其上添加大量的卷積層,以提取特徵,再往上是兩個分支:

  1. 角點檢測分支通過 SSD 定位角點,通過網絡提取角點,最終得到角點位置;

  2. 文字區域分割分支則利用基於 R-FCN 的位置敏感分割,生成不同相對位置的分割圖,得到更準確的文字檢測結果。

▊第二個分類:更簡化的 Pipeline

深度學習時代,幾乎所有的文字檢測與識別方法都會使用更加簡化、更加高效的 Pipelines。這是要分享的第二個類方法,其代表性工作是 EAST。

曠視科技在 CVPR 2017 收錄論文《EAST:An Efficient and Accurate Scene Text Detector》提出一種高度簡化的 Pipeline 結構。如上圖所示,最左側是輸入圖像,最右側是算法輸出結果,中間則是處理步驟,EAST(最下面)把 Pipeline 精簡為中間兩步,其中一步是通過多通道 FCN 進行幾何信息預測以及前景、背景預測;另外一步是 NMS,最終得到多方向文字檢測結果。

那麼如何實現 EAST 呢?很簡單,通過單一網絡刻畫並建模位置、尺度、方向等文字的主要信息,同時加上多個損失函數,即所謂的多任務訓練。如上所示,再藉助對幾何信息的預測即可得到文字檢測的結果。

這種方法的好處主要體現在兩個方面:

  1. 精度方面,允許端到端的訓練和優化

  2. 效率方面,剔除了中間冗餘的處理步驟。

上圖是多種方法的應用對比,橫軸是速度,縱軸是精度,紅點是 EAST 的兩個變體,可以看到其在精度和速度上都優於傳統方法,且在精度和速度質檢取得了極佳的平衡。EAST 已成為為行業標準方法,且代碼開源,有趣的是,這是由熱心網友 @argman 完成的(曠視貢獻了部分代碼)有興趣的童鞋可以嘗試;如果只想使用不想看原始碼,目前 EAST 也作為官方模塊,集成到最新版 OpenCV 之中。

 ▊第三個分類:處理任意形態文字

要處理現實世界的文字還面臨著一個挑戰:文字形態的多變性。文字檢測與識別算法要如何應對呢?曠視科技為此給出了兩個代表性方案:

  1. TextSnake

  2. Mask TextSpotter。

曠視科技 ECCV 2018 收錄論文《TextSnake: A Flexible Representation for Detecting Textf Abies》提出一種全新而靈活的表徵,稱之為 TextSnake。

如上所示,對於彎曲的文字區域,圖 a 使用了傳統的坐標對齊的矩形,包含了大量不需要的背景內容;圖 b 將矩形框旋轉,背景內容減少,適應力也隨之變強;圖 c 使用了不規則四邊形進行包圍,效果依然不理想。由此可以得出結論,四邊形無法很好地包圍彎曲的文字區域。

為了更精確地處理這種情況,圖 d 使用了 TextSnake 方法,用一系列圓盤覆蓋文字區域,更好地適應文字的變化,包括尺度、方向、形變等等。

TextSnake 原理示意圖如上,黃色區域代表不規則的彎曲文字區域,綠線代表文字區域的中心線,紅點代表覆蓋文字區域的圓盤中心點,用 c 表示,圓盤半徑用 r 表示,方向信息用 θ 表示。由此,文字實例可建模為一系列以對稱軸為中心的有序重疊的圓盤。由於文字的尺度和方向是變化的,圓盤也有著可變的半徑和方向,隨文字變化而變化。這種靈活的表示方式可以精確適應各種形態的文字,比如多方向、彎曲文字。

有了 TextSnake 之後,如何設計一個計算模型完成文字檢測呢?其實很簡單,即幾何屬性定義完成,通過 FCN 輸出多個通道的預測結果,並進行整合,分開前景、背景,找出中心線,根據其半徑和方向即可恢復出文字區域。

曠視科技 ECCV 2018 收錄論文《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》完成了另外一項工作,在 Mask R-CNN 啟發之下提出一種新模型 Mask TextSpotter,通過端到端的方式同時實現了文字檢測和識別。Mask TextSpotter 整體框架基於 Mask R-CNN 並進行改造,同樣也把文字當作一種特殊目標處理。

具體細節如上所示,左邊是輸入圖像,右邊是輸出結果。RPN 做文字候選區域的產生;Fast R-CNN 對候選區域打分並回歸其坐標;另外還有一個掩膜分支,同時對字符做像素級的分割和識別。

這有別於傳統方法的識別模塊基於 RNN 序列進行建模,或者藉助 CTC loss 進行計算,Mask TextSpotter 則直接做像素級分割,對每一像素進行分類,最後連接所有結果完成識別。

 ▊第四個分類:借鑑 Attention

由於 NLP 領域興起的 Attention 模型的重大影響,其也進入了文字檢測與識別的視野,激發出一些新想法,代表性成果有:

  1. CRNN

  2. ASTER

  3. FAN。

在講 Attention 之前,首先講一下曠視科技 TPAMI 2017 的一個工作,稱之為 CRNN,其底層用 CNN 提取特徵,中層用 RNN 進行序列建模,上層用 CTC loss 對目標進行優化。它是一個端到端可訓練的文字識別結構,但並未使用 Attention。目前,CRNN 已成長為該領域的一個標準方法,在 GitHub 上已開源。

隨後,曠視科技在 TPAMI 2018 提出一個稱之為 ASTER 的解決方案。由於文字存在傾斜、彎曲等問題,在識別階段,檢測也不一定是最理想的,這時需要分兩步做識別。第一步是給定一張輸入圖像,把其中的文字矯正到一個有利於識別的狀態;第二步則是進行識別。這裡需強調的是矯正過程是網絡自動學習的,並不存在標註。

那麼,如上所示,ASTER 主要有矯正和識別兩個模塊。矯正模塊在 STN 的基礎上做了優化,使得控制點的預測更精確;識別模塊則是一個經典的 CNN+RNN 同時帶有 Attention 的結構,可以對序列進行預測。

當然,Attention 本身也存在一些問題,比如 ICCV 2017 收錄論文《Focusing Attention: Towards Accurate Text Recognition in Natural Images》提出了 FAN 這一工作。

某些情況下,Attention 預測不一定準確,如圖 a 中 Attention 把後兩個點定位在「K」上,造成 Attention 點發生重合,進而導致定位不準確與漂移。FAN 方法通過約束 Attention 點位置,將其鎖定為目標文字中心,這樣就避免了重合、漂移等情況,Attention 區域變得更整齊,最終識別效果也得到了提升。

 ▊第五個分類:使用合成數據

深度學習時代,對數據的需求量大增,大量數據有利於訓練出優秀模型。因此,深度學習時代的文字檢測和識別方法幾乎都會採用合成數據,代表性數據集有 SynthText。

SynthText 是一個經典的通過合成方式產生的場景文字數據集,已在文字檢測和識別領域獲得廣泛應用。其主要思路是先採集幾千張真實場景圖像,然後往上貼字,如上圖所示。

具體而言,給定一些自然場景圖像之後,SynthText 使用基礎算法估計幾何信息以及區域分割的結果,比如估計深度,通過底層算法分割連通的區域,同時找到一些平滑的區域放置文字,最後生成包含文字的圖像數據集。

未來趨勢與潛在方向

根據自然場景文字檢測與識別技術發展的現狀,通過分析其未來趨勢及潛在的研究方向,並結合深度學習時代的語境,曠視科技把這一技術的未來挑戰歸結為 4 個方面:

  1. 多語言文字檢測與識別

  2. 讀取任意形態的文字

  3. 文字圖像合成

  4. 模型魯棒性。

 ▊多語言文字檢測與識別

針對較為整齊的文字區域,目前文字檢測技術在使用上問題不大,但是一旦涉及文字識別,超過兩百種語言文字,不同的書寫方式,千差萬別的結構、順序,帶來了重重阻礙,而針對每一種文字都訓練一種模型顯然很不合理。因此,是否可以找到一種通用方法處理不同的文字類型呢?這是未來挑戰之一。

 ▊讀取任意形態的文字

當前文字的形態多種多樣,面對不同的顏色、字體、組合帶來的不同程度的困難,文字檢測與識別技術目前的表現並不是令人很滿意。那麼,是否存在一種通用模型勝任任意形態的文字呢?這是未來挑戰之二。

 ▊文字圖像合

雖然合成場景文字數據集非常有利於模型訓練,但是由於該技術目前尚不成熟,生成圖像不夠真實,圖像多樣性欠缺,最終導致數據集質量不高,訓練提升有限。那麼,如何才能合成更加真實豐富的文字圖像呢?這是未來挑戰之三。

 ▊模型魯棒性

模型魯棒性是一個基礎問題,也是解決問題的關鍵。曠視科技過去曾針對輸入圖像的邊界進行像素擾動,結果發現輸出發生較大偏移,甚完全錯誤。這也意味著現有識別模型對微小擾動(如小偏移、旋轉、形變)非常敏感。那麼,如何增強模型魯棒性呢?這是未來挑戰之四。

典型應用

在深度學習助力之下,文字檢測與識別技術獲得躍進式發展,在相關場景和行業獲得廣泛應用,比如曠視科技人工智慧開放平臺 Face++ 提供卡片、證件文字識別 API 調用服務,給出卡片、證件、單據的通用框架解決方案 TemplateOCR。

 ▊卡片、證件文字識別

卡片、證件的文字識別一直是熱門的行業需求,曠視科技 Face++ 官網提供了 API 可供用戶調用,用戶只需上傳圖片,系統便會實時生成結果。目前系統支持身份證、駕駛證、行駛證、銀行卡、車牌號等文字識別。

 ▊TemplateOCR

隨著時代發展,社會職能部門分工細化、手續辦理日益複雜,證件、卡片、合同、單據結構讓人眼花繚亂,如何處理數百種文字框架的識別任務呢?如果每個文字框架訓練一種模型會耗費巨大的人力、物力、財力,顯然並不划算。

TemplateOCR 是曠視給出的解決方案。這是一種用於識別結構化卡片、證件、單據的通用框架,只需三步操作。第一步是上傳清晰的圖片作為模板,第二步是指定需要識別的文字區域 (不需要指定參考區域),然後即可開始識別 ( API 即時生成)。該方法不僅省去了針對不同框架的文字進行模型訓練的麻煩,也使識別過程變得更加快速和準確。

總結

目前來看,深度學習時代之下的場景文字檢測與識別技術依然存在巨大挑戰,其主要體現在以下 3 個方面:

  1. 文字的差異性,存在著語言、字體、方向、排列等各種各樣的形態;

  2. 背景的複雜性,比如幾乎無法區分的元素(標誌、籬笆、牆磚、草地等);

  3. 幹擾的多樣性,諸如噪聲、模糊、失真、低解析度、光照不均勻、部分遮擋等情況。

相應而言,針對上述挑戰,文字檢測與識別具體研究有著以下 4 個技術趨勢:

  1. 設計更強大的模型;

  2. 識別多方向、彎曲文字;

  3. 識別多語言文字;

  4. 合成更豐富逼真的數據集。

以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 AI 研習社社區(http://ai.yanxishe.com/)觀看。關注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • CVPR 2019|曠視斬獲6冠,彰顯深度學習算法引擎優勢
    and Enhancement workshop)3項挑戰賽,拿下6項冠軍,涵蓋自動駕駛、新零售、智慧型手機、3D等眾多領域,其背後起支撐作用的是曠視深度學習框架 Brain++。曠視基於自身積累的檢測算法之外,加之復現/使用的最前沿的檢測算法(比如 NAS-FPN、Cascade RCNN),進而對 Cascade RCNN做出一系列改進,使得網絡在不同 IOU閾值下的檢測結果都有一定漲幅;同時,為了解決兩個數據集之間數據分布不一致的問題,曠視還利用合併訓練、AdaBN、Data Distillation等技術手段,最終在測試集上高出第二名深蘭科技
  • CVPR 2019|奪取6項冠軍的曠視如何築起算法壁壘
    參加 CVPR 對以算法為核心的曠視有重要的戰略意義。2019 年伊始,在成立八年之際,曠視宣布了從品牌到戰略的全面升級,並且確立了以算法為核心基因,圍繞計算視覺及相關傳感技術開發感知、控制、優化算法,包括但不限於人臉識別、手勢識別、文字識別、物體檢測、視頻分析、三維重建、智能傳感與控制等機器學習技術。
  • CVPR 2019 | 奪取6項冠軍的曠視如何築起算法壁壘
    參加 CVPR 對以算法為核心的曠視有重要的戰略意義。2019 年伊始,在成立八年之際,曠視宣布了從品牌到戰略的全面升級,並且確立了以算法為核心基因,圍繞計算視覺及相關傳感技術開發感知、控制、優化算法,包括但不限於人臉識別、手勢識別、文字識別、物體檢測、視頻分析、三維重建、智能傳感與控制等機器學習技術。
  • 曠視科技研究院包攬 COCO、Places 三項世界冠軍
    與關注整體圖像的 ImageNet 圖像分類任務相比,COCO 中的物體檢測任務更關注的是圖像中出現的每個物體的個體(比如各種小物體,各種遮擋物體),因此要求算法對圖像細節有更好的理解。這個比賽也代表了繼 ImageNet 後的圖像識別的最高水平。  COCO 從2015年開始舉辦,至今已經三屆,前兩屆物體檢測冠軍分別是 MSRA 和 Google。
  • 曠視科技聯合創始人兼CTO唐文斌個人簡歷
    唐文斌說:「算法也好,技術也好,都是手段,最後能夠提供出去的是產品價值。」這位三十剛出頭的曠視科技Face++聯合創始人,對這家中國人臉識別獨角獸有著很清晰的定位:「曠視不是一家技術公司,曠視是一家產品公司,是一家以人工智慧技術為核心的產品公司。」他認為客戶最終一定是為產品價值買單。曠視的團隊人數從去年到現在翻了一番,增長到600多人,其中擴張速度最快、人數也最多的就是產品部門。
  • 呼和浩特市政府、和林格爾新區與北京曠視科技有限公司籤署三方...
    據介紹,曠視科技創立於2011年,是一家人工智慧產品和解決方案公司。以深度學習為核心競爭力,曠視融合算法、算力和數據,打造出 「三位一體」的新一代AI生產力平臺曠視Brain++,並開源其核心——深度學習框架「天元」。
  • CVPR 2018 | 8篇論文、10+Demo、雙料挑戰賽冠軍,曠視科技掀起CVPR...
    近年來,隨著深度學習的蓬勃發展,國內企業深度參與人工智慧學術頂會的態勢十分火熱,在一個享有國際聲譽的、被全球學者所認可的學術會議上發出自己獨特的聲音,不僅是目前工業界涉足人工智慧學術研究的一種展現形式,更是國內外企業在吸引、招募研發人才的「兵家必爭之地」。
  • 深度學習實踐課|曠視研究院 X 北大聯合出品,正式上線,免費報名!
    今日,曠視研究院聯合北京大學數學科學學院機器學習實驗室開設的《深度學習實踐》全套課程(視頻+PPT,共計28課時)全面向社會免費開放!從深度學習基礎理論到計算機視覺實踐,由曠視首席科學家兼研究院長孫劍,及身經百戰的研發總監、資深研究員親身授課,真正將高水平深度學習課程帶給大家。知識全面、循循善誘、透徹又不枯燥是本課程最大的特點。
  • 曠視天元深度學習框架全球首發!3個實習生寫下一行代碼,27項全球AI...
    天元項目負責人兼曠視研究院高級技術總監田忠博指出,這次開源的天元是一套訓練推理一體化、動靜態合一的工業級深度學習框架,採用訓練與推理在同一個框架、同一個體系內完整支持的設計,讓開發者真正體驗到「訓得好」、「訓得動」、「
  • 35 萬行代碼,曠視重磅開源天元深度學習框架 ,四大特性實現簡單開發
    發布會上,曠視研究院高級技術總監田忠博詳細介紹了這款剛剛正式對外開源的深度學習框架。  全球AI開發框架又添一員,曠視開源「天元」  曠視天元開源之時,正值深度學習框架百花齊放的時代。  TensorFlow全面的開發語言和模型訓練伺服器、行動裝置支持,使得其成為產業界採用最多的深度學習框架。  MXNet項目誕生於2015年9月,當時在卡耐基梅隆大學CMU讀博的李沐創造了這個輕量級、可移植、靈活的分布式的開源深度學習框架,後成為Amazon官方主推的深度學習框架,支持CNN、RNN、LTSM,為圖像、手寫文字和語音的識別和預測以及自然語言處理提供了出色的工具。
  • TextScanner:曠視新作文字識別新突破,確保字符閱讀順序
    由於深度學習和海量數據的湧現,場景文字識別技術獲得飛速發展。但是先前同類方法存在種種缺點,為此,本文提出 TextScanner,一種魯棒的基於分割的場景文字識別方法,可以正確讀取字符數據,並在一系列相關的文字基準數據集上,取得了當前最佳的性能。本文是曠視研究院與華中科技大學的聯合研究成果,已收錄於 AAAI 2020。
  • 澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR...
    7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。作為人工智慧領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有布局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。
  • 專訪曠視副總裁顧亮:刷臉算法準確率98%或99%無關緊要
    如果只是一個純粹的AI技術,或者僅僅局限在算法層面,我們可能比較難去滿足客戶真正在實際生活和生產中間的各種需求。比如這次疫情過程中,我們也提供了端到端、軟+硬整體測溫解決方案,這不是只一個算法能解決的問題,我們的產品要面對各種各樣人流、光線、測溫部位檢測的挑戰,這種挑戰往往光靠算法,或只通用硬體沒有辦法解決。
  • 公司:曠視科技簡介
    北京曠視科技有限公司是一家世界領先的人工智慧企業,在深度學習方面擁有核心競爭力。公司於 2011 年由印奇、唐文斌和楊沐三位創始人成立。曠視商業化的第一款人工智慧產品是人臉識別解決方案。而公司原創的深度學習框架Brain++則為其訓練算法和改進模型提供了量身定製的基礎性支持。
  • 「停課不停學」 曠視《深度學習實踐》線上課程免費開放!
    人工智慧企業曠視也在積極響應國家政策,向全社會免費開放《深度學習實踐》全套課程!《深度學習實踐》課程是由曠視研究院聯合北京大學數學科學學院機器學習實驗室共同開設的系列深度學習精品課程之一,已連續開設3年。課程由曠視首席科學家兼研究院院長孫劍,以及身經百戰的研發總監、資深研究員親身授課,內容涵蓋深度學習基礎理論到計算機視覺實踐,真正將高水平深度學習課程帶給大家。
  • ResNet成阿爾法元核心技術 曠視孫劍詳解Zero的偉大與局限
    就此背景,新智元採訪了深度殘差網絡ResNet作者之一,曠視科技Face++首席科 2017年10月19日,DeepMind團隊發表了迄今最強版本的AlphaGo——AlphaGo Zero,其中一個重要模塊是出自華人團隊的深度殘差網絡ResNet。
  • 讀書總結|深度學習圖像識別技術
    深度學習圖像識別技術——基於TenseorFlow Object Detection API和Open VINO工具套件
  • AI人才供需比例失衡 曠視完善培養體系塑造頂級AI團隊
    此外,曠視還與中國科學院、北京大學、清華大學等共同建立了北京智源人工智慧研究院,共同推動人工智慧人才的培養與長期儲備。曠視人才培養機制的逐漸完善與其技術架構脫不開關係。曠視的人才體系圍繞算法研發、產品、工程化和運營四個核心方面發展,其中最重要的是底層的算法研發方面的人才,曠視研究院則為AI研發人才提供了行業領先的研發環境。
  • 2007COCO及Places競賽排名:曠視科技研究院獲三項冠軍
    在共七項挑戰項目中,曠視科技研究院團隊(Megvii)參與了其中四項,並獲得了三項第一、一項第二的成績,成為第一個在 COCO 競賽中獲得冠軍的中國企業。與關注整體圖像的ImageNet圖像分類任務相比,COCO中的物體檢測任務更關注的是圖像中出現的每個物體的個體(比如各種小物體,各種遮擋物體),因此要求算法對圖像細節有更好的理解。這個比賽也代表了繼ImageNet 後的圖像識別的最高水平。  COCO從2015年開始舉辦,至今已經三屆,前兩屆物體檢測冠軍分別是 MSRA 和 Google。
  • 基於深度學習的圖像識別進展
    【視覺機器人:在我看來深度學習本身就是一套系統一個架構,而不是一個單一的算法,有時候不能用深度學習和其他單一算法例如SVM算法比較,深度學習本身也是有抽取特徵的網絡部分】經驗1:豐富的圖像擾動是我們將關於圖像的先驗知識用於深度學習輸入端的有效手段經驗2:結構化損失函數是我們將模型化知識用於深度學習輸出端的有效方式經驗3:參數的稀疏化、圖像的多解析度通道