獨家| 人工智慧學習篇4:計算機視覺開源框架

2021-01-08 百家號

計算機視覺是使用計算機及相關設備來模擬生物視覺,其核心問題是研究如何對輸入的圖像信息進行組織,對物體和場景進行識別,進而對圖像內容給予解釋。具體說來,是指用攝影機和計算機代替人眼對圖像內容進行解釋,實現目標識別、跟蹤和測量等功能。

代表性技術和開源軟體

馬爾《視覺》的問世,標誌著計算機視覺成為一門獨立的學科。在將近四十年的發展中,該學科經歷了四個主要發展階段:馬爾計算視覺、主動和目的視覺、多視幾何與分層三維重建和以神經網絡為代表的基於學習的視覺。圖1總結了近四十年來計算機視覺發展過程中具有代表性的理論技術和開源軟體。

代表性的理論技術和開源軟體

典型任務和應用

在計算機視覺作為一門學科的發展過程中,開源軟體和數據集提供了良好的推動作用。利用開源軟體,研究人員可以更加快速地更新和迭代算法。開源數據集則為研究人員提供了公平的算法測試的平臺。計算機視覺的典型任務包括圖像理解、三維視覺和動態視覺。

圖像理解主要包括圖像識別、目標檢測、語義分割和實例分割。圖像識別判斷輸入圖像的類別標籤,典型應用有人臉識別和光學字符識別,代表性開源數據有mnist、cifar-10、cifar-100、 Pascal VOC、ImageNet、MS-COCO、CelebA、CASIA-webface、LFW和Youtube Faces DB等,代表性開源軟體有sourceAFIS、OpenBR、AsmLibrary、Insightface、Im2txt和FaceNet等。目標檢測是指用外接矩形將圖像中的某類目標框出來,典型應用有輔助駕駛:泊車輔助、倒車輔助等,代表性開源數據集有Pascal VOC、ImageNet和MS-COCO,代表性開源軟體有TensorFlow Object Detection API和Detectron。語義分割是指像素級別的分類,典型應用有自動駕駛,代表性開源數據集有Pascal VOC、ImageNet、MS-COCO和Kitti,代表性開源軟體有Detectron。實例分割在語義分割的基礎上區別開不同的實例,典型應用有圖片編輯,代表性開源數據集有MS-COCO,代表性開源軟體有Detectron。

三維視覺的目的在於獲取場景的三維幾何信息,典型應用有機器人自主導航,航空及遙感測量和工業自動化系統,代表性開源軟體有Openvis3d和OpenGL。動態視覺即分析視頻或圖像序列,它被廣泛應用在視頻分析(如目標跟蹤)以及人機互動等方面,典型應用有視頻監控,代表性開源數據集有YouTube-8M,代表性開源軟體有OpenVSS和ITU Gaze Tracker。典型任務及典型應用下具有代表性的開源軟體在表1所示。

表1典型任務及典型應用下具有代表性的開源軟體

典型開源軟體

在計算機視覺作為一門學科的發展過程中,開源軟體提供了良好的推動作用。一些從事計算機視覺研究的科研人員在發表文章的同時,也會公開對應的算法實現,它們在開源軟體中佔據很大的比重。隨著該領域的蓬勃發展以及人員數量的快速增加,開源軟體有從獨立的算法實現向平臺和社區化發展的趨勢。本小節對部分典型開源軟體予以介紹。

Open CV

OpenCV於1999年由Intel建立,基於BSD許可,現由Willow Garage提供支持。OpenCV由一系列C函數和少量C++類構成,輕量並且高效,實現了很多圖像處理和計算機視覺方面的通用算法。OpenCV提供Python、Ruby、MATLAB等語言接口,可運行在Linux和Windows等作業系統上,是使用最廣泛的計算機視覺開源軟體庫。

TensorFlow Object Detection

TensorFlow Object Detection API是Google於2017年在TensorFlow平臺上使用python編寫的基於Apache License 2.0協議的開源目標檢測算法庫,包括SSD、Faster RCNN、R-FCN和Mask RCNN等算法,使用它可以輕鬆構建、訓練和部署目標檢測算法模型。

Detectron

Detectron是Facebook AI Research於2018年在Caffe2上使用C++/python編寫的基於Apache License 2.0協議的開源目標檢測與分割算法庫。其包含了一些了最先進的目標檢測與分割算法,如:Fast R-CNN、Faster R-CNN、R-FCN、RPN、Mask R-CNN和RetinaNet等,提供了在不同骨幹網絡(resnet-50、resnet-101、resnet-152、resnetxt-50、resnetxt-101、esnetxt-102、VGG16、FPN)、不同學習率和batch size在多個經典數據集上的實驗結果。利用其提供的預訓練模型,研究人員可以快速試驗和評估新的想法。

InsightFace

InsightFace是DeepInsight於2018年在 Mxnet上使用python編寫的基於MIT協議的人臉識別算法庫,包含人臉識別所用的經典損失函數如Softmax、Sphereface、CosineFace、ArcFace、Combined Margin和TripletLoss,在公開人臉識別數據集擁有較優的性能。

Tesseract

Tesseract是HP在2005年貢獻給開源社區,後來由Google接手維護,持續對其改進和優化,tesseract使用C++編寫的基於Apache License 2.0的開源OCR軟體,Tesseract支持C++、python、Java調用,接口友好。由於其完整的功能,可以訓練的特點,在開源後備受關注,但在近些年來,逐漸被基於深度學習的OCR超越。

小結

平臺化和社區化是計算機視覺領域開源軟體發展的趨勢,使得研究人員更容易推廣新算法,同時溝通效率也更高。好的平臺和社區呈滾雪球之勢,吸引越來越多的研究人員,發揮越來越大的作用,並享有越來越大的話語權。儘管目前中國研究人員在計算機視覺領域的研究十分活躍,但仍缺乏在世界範圍內享有知名度的計算機視覺開放平臺和社區。相信在不久的將來,中國研究人員會回歸基礎和平臺型項目,在計算機視覺開源軟體領域發揮越來越大的作用。

獨家| 人工智慧學習篇3:經典機器學習開源框架

獨家 | 中科院郭愛克院士:人類大腦在整體上是怎樣工作的(下)

獨家 | 中科院郭愛克院士:人類大腦在整體上是怎樣工作的(上)

AIII人工智慧產業研究院

建生態 · 促生活

相關焦點

  • 獨家| 人工智慧學習篇3:經典機器學習開源框架
    深度學習在圖像分析、語音識別、自然語言處理、視頻分類等諸多領域性能表現出色,表現出極高的研究價值和商業價值,世界頂尖高科技公司也都相繼推出了自己的開源深度學習框架,如Google的TensorFlow,Amazon的MXNet,Facebook的Pytorch和Microsoft的CNTK等,出現了百家爭鳴的局面。 在人工智慧浪潮下,新型人工智慧學習方法被不斷提出。
  • 獨家| 人工智慧學習篇7:自然語言處理開源框架
    01 概述自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智慧領域中的重要方向,研究實現人與計算機之間用自然語言進行有效交互的各種理論和方法。從80年代末開始,自然語言處理引入了機器學習算法並嘗試從語料中學習統計特徵。自然語言具有稀疏性和語義性等特點,如何對字、詞、短語、句、段、篇章等結構進行有效表示,是研究自然語言處理需解決的首要問題。傳統符號主義大多藉助人工整理的規則和經驗,或使用One-Hot稀疏編碼將自然語言表示為計算機能接受的輸入形式。前者需耗費大量人力且擴展性不強,後者易丟失語義和語序等信息且學習能力較差。
  • 人工智慧「根深葉茂」:讓開源深度學習框架,狠狠推一把
    方濱興院士說:「現階段,人工智慧基礎性算法已經較為成熟,構建算法模型的工具庫成為各大巨頭科技廠商追逐的目標,許多廠商將算法進行工程實現,並封裝為軟體框架,以開源為手段,給開發者使用。」技術原理是,在人工智慧算法的海洋中,深度學習的通用性比機器學習的要強。
  • Github上最受歡迎的7個開源AI機器學習框架
    在過去的幾年中,人工智慧正在佔領技術的許多領域。 來自不同背景的開發人員最終意識到了AI為他們帶來的機遇,而不管他們的需求如何。在今天的文章中,我們列出了7種最佳的開源AI /機器學習系統和框架。1、TensorFlowTensorFlow可能是世界上最著名的機器學習開源框架。
  • 最適合初學者的18個經典開源計算機視覺項目
    >開源計算機視覺項目是在深度學習領域中獲得一席之地的絕佳路徑開始學習這18個非常受歡迎的經典開源計算機視覺項目引言計算機視覺的應用現在無處不在。老實說,我已經不記得上次一整天沒有遇到或者沒有與至少一樣計算機視覺使用樣例進行交互時什麼時候了(手機上的人臉識別)但是有一件事情就是 一 想要學習計算機視覺的人傾向與陷入理論的概念, 這是所能採取的最糟糕的路。 為了真正的學習掌握計算機視覺, 我們需要將理論與實踐相結合。並且這就是開源計算機視覺項目存在的地方。
  • 4個計算機視覺領域用作遷移學習的模型
    ,這篇文章將改變你的生活。現在,如果你計劃建立一個利用深度學習的人工智慧系統,你要麼(i)有一個非常大的預算用於培訓優秀的人工智慧研究人員,或者(ii)可以從遷移學習中受益。什麼是遷移學習?如今,遷移學習是科技企業家構建新的人工智慧解決方案、研究人員推動機器學習前沿的強大源泉。
  • OpenCV:強大的開源計算機視覺庫
    計算機視覺是人工智慧的一個交叉領域,意圖賦予計算機和其它具有計算能力的電子設備高層次的對圖像和視頻的理解能力。其能力範圍是獲取、處理並分析數字圖像。上世紀末Intel發起了一個計算機視覺項目,也是OpenCV的前身。也許上世紀一詞會讓你以為它很古老,但其實OpenCV一致活躍在計算機視覺的前沿,並致力於成為計算機視覺領域的標準API。
  • 2013年百度研發深度學習框架!2016年能正式開源飛槳?
    百度自主研發的百度開源雲伺服器,與產業級深度學習開源平臺飛槳深度適配,二者共同構成了百度乃至中國國產ai基礎能力的基石,是目前國內自主研發、開源開放、功能最完備的產業級深度學習平臺,集深度學習核心框架、基礎模型庫、端到端開發套件、工具組件和服務平臺於一體,而在ai作業系統層面,百度從2013開始研發深度學習框架,2016年正式開源飛槳,其生態體系正在建立。
  • 清華開源深度學習框架計圖,開源超級玩家再進階
    雷鋒網AI源創評論報導,據官方消息,清華大學計算機系圖形實驗室宣布開源一個全新的深度學習框架:Jittor,中文名計圖。 Jittor 是一個採用元算子表達神經網絡計算單元、完全基於動態編譯(Just-in-Time)的深度學習框架。
  • 曠視科技深度學習框架 MegEngine 3 月25日向全球開發者開源
    根據曠視科技官宣消息,在3月25日14點的發布會上,其將自主研發並全員的使用的AI 生產力套件Brain++的核心深度學習框架開源。早在2014年的時候,曠視科技就從0到1研發了自己的深度學習框架MegEngine。這一框架主要用於曠視內部進行計算機視覺領域的算法開發工作,包括大規模的人臉識別、圖像分割、姿態識別等。曠視科技這套自主研發的人工智慧算法平臺 Brain++在不久之前還榮獲第六屆世界網際網路大會世界網際網路領先科技成果。
  • 計算機視覺:領跑人工智慧產業,應用場景廣闊
    據IDC統計,2018年我國人工智慧市場規模為161.9億元,預計到2022年市場規模將接近700億元,年複合增長率超過50%。據中國人工智慧學會和羅蘭貝格諮詢公司預測,2025年市場規模將達到3萬億美元。以深度學習為代表的人工智慧算法的出現極大推動了視覺人工智慧行業的發展。
  • 計算機視覺 AI 工具集 OpenVINO,是你心目中的深度學習框架 Top1 嗎?
    這條準則在所有技術領域皆準,包括人工智慧領域發展最成熟、落地最廣泛的計算機視覺。AI晶片使得計算機視覺技術得以在現實生活中落地,為了更加充分地挖掘處理器的性能,各大廠家都發布了各種軟體框架和工具,比如國外Intel的OpenVINO,Nvidia的TensorRT,國內的OpencvReal ViewBench、Visionbank機器視覺軟體等。
  • 太極:MIT華人學神開源的計算機圖形庫
    MIT 人工智慧實驗室胡淵鳴等研究者構建了一個名為太極的開源計算機圖形庫,想要製作炫酷場景或特效的同學,不妨試試姚班大神的這項工作。太極(Taichi)是一個開源的計算機圖形庫,它旨在提供易於使用的計算機圖形學基礎架構,並提供了 40 多份計算機圖形學重要研究的實現。出於效率的考慮,太極本身是由 C++ 構建的,但用 Python 包裝了接口。
  • Python學習資源 | 3個高性能開源計算機視覺庫
    0.OpenCV:OpenCV是在BSD許可下發布的,是開源計算機視覺庫,對學術和商業都是免費的。具有C+、Python和Java接口,支持Windows、Linux、MacOS、IOS和Android。OpenCV是為了提高計算效率而設計的,並且非常注重實時應用程式。
  • AI每日精選:微軟副總裁沈向洋將於20年離職;騰訊開源圖計算框架
    以下新聞選自人工智慧信息平臺「機器之心Pro」:花最少的時間,看最重要的新聞。研究與技術1.騰訊正式開源圖計算框架Plato,十億級節點圖計算進入分鐘級時代11 月 14 日,騰訊正式宣布開源高性能圖計算框架 Plato。
  • 最新計算機視覺學習路線教程
    這篇文章主要是基於我自己的經驗,側重於計算機視覺學習資源的介紹,如果大家按照這個路線去學,相信這將在很大程度上促進提高你的計算機視覺知識水平。在開始學習計算機視覺之前,我們先來了解有關機器學習和python基礎知識。
  • 阿里開源的深度學習框架XDL,究竟如何理解?
    前幾天「機器之心」透露了一則消息,阿里巴巴把自己用來作為大數據營銷平臺廣告業務的技術框架,即深度學習框架X-Deep Learning(以下簡稱「XDL」)開源了。阿里還聲稱,這是「業內首個面向高維稀疏數據場景的深度學習開源框架」。
  • 詳解國產原創深度學習框架,曠視 MegEgie
    值得一提的是,在 AI 底層創新方面,我們不僅看到了當前國產開源框架排頭兵百度飛槳(PaddlePaddle)的身影,同時也看到了來自計算機視覺獨角獸曠視 MEGVII推出的人工智慧算法平臺 Brain++。
  • 《人工智慧》雜誌「深度學習」主題出版!洞察人工智慧第三次浪潮的前世今生
    整體負責百度AI技術平臺和AI商業平臺,包括人工智慧、大數據、AI平臺與生態、AI PaaS,涵蓋自然語言處理、知識圖譜、計算機視覺、增強現實、大數據技術、飛槳深度學習平臺、百度大腦開放平臺與生態、百度智能雲企業AI中臺和知識中臺,曾獲得4項中國電子學會科技進步獎一等獎。
  • 深度學習——你需要了解的八大開源框架
    作為當下最熱門的話題,Google、Facebook、Microsoft等巨頭都圍繞深度學習重點投資了一系列新興項目,他們也一直在支持一些開源深度學習框架。目前研究人員正在使用的深度學習框架不盡相同,有 TensorFlow、Torch 、Caffe、Theano、Deeplearning4j等,這些深度學習框架被應用於計算機視覺、語音識別、自然語言處理與生物信息學等領域,並獲取了極好的效果。