讀書總結|深度學習圖像識別技術

2021-02-08 domkin戰隊

深度學習圖像識別技術——基於TenseorFlow Object Detection API和Open VINO工具套件

讀書總結

1.1什麼是人工智慧

人工智慧是研究用於模擬、延伸、和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智慧是計算機科學的一個分支,它企圖了解人工智慧的實質,並生產出一種新的與人類智能相似的方式作出反應的智能機器,該領域的研究包括機器人、語音識別、圖像識別、自然語言處理和專家系統等。其中,在語音識別方面有語音助手、翻譯機及智能音箱等應用;在圖像識別方面有智能駕駛、人臉識別和醫學影像識別等應用。

1.2人工智慧發展的現狀

20世紀80年代處,「專家系統」開始風靡人工智慧的領先國家,AI專家系統具體指一種程序,能夠依據一組從專門知識中推演出的邏輯規則在某一特定領域回答或解決問題。雖然其設計簡單,易於實現,但是由於AI系統維護費用居高不下,加上其操作複雜、太局限於經驗知識和規則,難以構築有效的系統,所以專家系統以失敗告終。
    2006年,被稱為「神經網絡之父」和「深度學習鼻祖」的Geoffrey Hinton在Science發文指出:「多隱層神經網絡具有更為優異的特徵學習能力,並且其在訓練上的複雜程度可以通過逐層初始化來有效緩解」,讓人們看到了人工智慧同故宮深度學習技術超越人類的希望,2006年也被稱為深度學習元年。
     在GPU加速和大數據的加持下,深度學習發展如火如荼。
     2012年,Geoffrey Hinton及其學生創造了一個「大型的深度卷積神經網絡(CNN)」,即現在的AlexNet,贏得了當年的ImageNet圖像分類比賽的冠軍,首次實現了Top5誤差率從25.8%下降到15.4%。
    2016年,Google子公司DeepMind開發的基於深度神經網絡的人工智慧圍棋程序AlphaGo以4:1戰勝了棋王李世石,以深度學習技術為代表的人工智慧再次火爆全球。
2017年,我國發布《新一代人工智慧發展規劃》,拉開了我國從國家層面支持和發展人工智慧產業的序幕。
     目前,AI已在金融、醫療及安防領域實現了技術落地,而且應用場景也會越來越豐富,引發了各個行業的深刻變革。未來AI的發展將是技術與產業的結合,實現AI技術賦能各行各業,解決痛點、創造價值、降本增效。在這個趨勢下,作為AI工程師,應該更能多地從應用價值切入,推動AI項目落地,而不是僅僅停留在AI模型調優上。

1.3人工智慧和深度學習的關係

當前的人工智慧的大爆發是由於深度學習引起的,所以各種媒體文章上,人工智慧和深度學習兩個概念經常被混用。從技術層面上來說,深度學習是機器學習諸多算法中的一種,而機器學習又是人工智慧的一個子集。

AI的概念多面向公眾,深度學習多面向技術人員。

深度學習就是用深度神經網絡來自動學習對象特徵,然後讓深度神經網絡具備識別對象的能力。

2.1神經網絡

神經網絡就是多個神經元的堆疊。神經元構成的網狀的拓撲結構具備一定的智慧能力(分類能力),所以給他起了一個通俗易懂的名字——神經網絡。

2.2神經元

神經網絡由神經元堆疊而成,神經網絡的基本組件就是神經元。

以小學數學的視角看,神經元就是簡單的四則混合運算:神經元輸入「x」與權重「w」想成,再求和得「u」,所得的和「u」再經過激活函數「f()」處理,得到神經元輸出「y」,也就是下一級神經元的輸入,如圖所示。

每個神經元的基本運算是乘法和加法,即乘加運算:多個神經元堆疊起來,就是多個乘加運算,這個特點非常適合具有大量(上千個)乘加硬體計算單元的GPU來計算,這也是GPU比CPU計算神經網絡更快的原因。

輸入經過本級級神經元處理的搭配輸出並傳入下一級神經元的計算過程稱為前饋計算。

2.3深度神經網絡

最基本的神經網絡有三層,第一層是輸入層、第二層是隱藏層、第三層是輸出層。若隱藏層的層數很多,那麼神經網絡就是有很多層神經網絡,簡稱多層神經網絡。

研究表明,神經網絡的層數越多,其表達能力越強。所以深度神經網絡有很強的信息表達能力。

2.4深度卷積神經網絡

深度卷積神經網絡(CNN)中的深度二字常被省略,簡稱為卷積神經網絡(CNN),表達的意思是具備多個卷積計算層的神經網絡。

卷積神經網絡強大的自動提取特徵的能力和極高的圖像分類準確率深受業界認可,越來越多的在計算機視覺領域的圖像分類、檢測和分割應用中大顯身手。

3.1什麼是目標檢測

目標檢測(Object Detection),又稱為物體檢測。目標檢測在許多領域都有廣泛的應用,包括排計算機視覺、自動駕駛、人機互動、基於內容的圖像檢索、智能視頻監控和增強現實等。

目標檢測的任務是確定在給定的圖像中是否存在期望的物體(如人、車、自行車、貓和狗等),如果有,返回每個物體的類別、位置(邊界框)和置信度(Confidence),相當於完成了圖像分類+圖像定位的工作。

對於應用者來說,可以把目標檢測算法理解為一個黑盒子,輸入時圖像,輸出是圖像中物體的類別、置信度和位置。

3.2深度學習目標檢測算法

進入深度學習時代,深度學習目標檢測應用的典型開發流程變為收集圖片標註圖片訓練模型部署模型這四部。

與傳統目標檢測算法相比,深度學習目標檢測算法是通用化的目標檢測算法,而非定製化的目標檢測算法,所以只要掌握了深度學習算法開發工具的人,都可以訓練出自己想要的目標檢測模型。

4.1訓練深度學習模型依賴大數據

深度卷積神經網絡具有極高的分類精度,同時也具有極多的參數需要訓練,例如,著名的AlexNet有57,000,000個參數需要訓練。要將如此多的參數訓練出來,需要上萬甚至十萬百萬以上的數據,即大學數。另外,還需要與之相匹配的超強算力,即雲計算。

AI必備三要素:深度學習算法+雲計算+大數據,三者互相促進不斷迭代,引發了AI的第三次高潮。

4.2大數據造成的問題

(1)大數據帶來的第一個問題是:收集數據非常困難。

(2)大數據帶來的第二個問題是:標註數據非常耗時。

(3)大數據帶來的第三個問題是:訓練模型非常耗時。

是否有方法可以解決上述的問題嗎?遷移學習就是一個非常好的辦法。

4.3遷移學習

遷移學習是指加入有一個已經在大規模數據集上訓練好的模型,將該模型學習到的知識遷移到另一個模型,即保留特徵提取器不變,在具有相似特徵的新的數據集上重新訓練分類器。

用比較直白的話來說,就是先下載別人已經訓練好的模型,然後基於這個模型做深度學習訓練。

驅動深度學習商業成功的兩大動力,一是監督學習,二是遷移學習。

由此,在商業落地上,AI分為兩個類別:

(1)第一類是雲計算+大數據能力+AI科學家+AI算法工程師的巨頭公司,他們很容易收集到數據,並且可以很容易收集到數據,並且可以僱傭成千上萬的人做數據標註,他們能夠基於監督學習,從頭設計研發並訓練有巨大商業價值潛力的模型。

(2)第二類是廣大的中小企業和非AI行業從業者,他們無法擁有雲計算,沒有足夠的經費僱傭高水平的AI算法工程師和大量做數據標註的人。他們紮根細分行業,基於遷移學習,做著巨頭公司不願意做的定製化項目。這些定製項目的商業價值都不巨大,不值得巨頭去投入,但數量驚人,各行各業都有。

微信號|domkin-gogogo

QQ號|3289270752

文章來源:domkin戰隊高鴻志

責任編輯:domkin戰隊宮美琪

作者博客地址:https://blog.csdn.net/qq_45779334

相關焦點

  • 深度學習與圖像識別
    深度學習是近十年來人工智慧領域取得的最重要的突破之一。它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域都取得了巨大成功。本文將重點介紹深度學習在物體識別、物體檢測、視頻分析的最新研究進展,並探討其發展趨勢。 1.
  • 基於深度學習的圖像識別進展
    【視覺機器人:在我看來深度學習本身就是一套系統一個架構,而不是一個單一的算法,有時候不能用深度學習和其他單一算法例如SVM算法比較,深度學習本身也是有抽取特徵的網絡部分】經驗1:豐富的圖像擾動是我們將關於圖像的先驗知識用於深度學習輸入端的有效手段經驗2:結構化損失函數是我們將模型化知識用於深度學習輸出端的有效方式經驗3:參數的稀疏化、圖像的多解析度通道
  • 深度學習角度 | 圖像識別將何去何從?
    這些經典的模型其實在很多博文中早已被介紹過,作者的創新之處在於透過這些經典的模型,討論未來圖像識別的新方向,並提出圖像識別無監督學習的趨勢,並引出生成對抗網絡,以及討論了加速網絡訓練的新挑戰。文章梳理了用於圖像識別的深度學習方法的脈絡,並對將來的挑戰和方法做了分析,非常值得一讀!專知內容組編輯整理。
  • 【深度】從經典深度學習模型探討圖像識別新方向
    【導讀】1月22日,深度學習工程師George Seif發布一篇文章,主要介紹了一些經典的用於圖像識別的深度學習模型,包括AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet的網絡結構及創新之處,並展示了其在ImageNet的圖像分類效果。
  • 基於深度學習的人臉識別技術全解
    作為最早投入深度學習技術研發的華人團隊,在多年布局的關鍵技術基礎之上,香港中文大學教授湯曉鷗率領的團隊迅速取得技術突破。2012 年國際計算視覺與模式識別會議(CVPR)上僅有的兩篇深度學習文章均出自湯曉鷗實驗室,而在 2013 年國際計算機視覺大會(ICCV)上全球學者共發表的 8 篇深度學習領域的文章中,有 6 篇出自湯曉鷗實驗室。
  • 卷積學習與圖像識別的技術發展
    隨著深度反向傳播網絡開始在計算機視覺領域挑戰傳統方法,2012 年的NIPS 大會上出現了這樣一句話:「神經信息處理系統」裡的「神經」又回來了。在20 世紀的最後10 年以及21 世紀前10 年的計算機視覺領域,在識別圖像中的對象方面取得的穩步進展,使得基準測試(用於比較不同方法)的性能每年能提高百分之零點幾。
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    在非深度學習算法中,最高的識別率是96.33%[7]。目前深度學習可以達到99.47%的識別率[8]。  在欣頓的科研小組贏得ImageNet比賽冠軍之後的6個月,谷歌和百度都發布了新的基於圖像內容的搜尋引擎。他們採用深度學習模型,應用在各自的數據上,發現圖像搜索準確率得到了大幅度提高。
  • 「人工智慧師資班」(Python機器學習,圖像識別與深度學習,深度學習與NLP,知識圖譜,強化學習)
    本次培訓分為Python機器學習,圖像識別與深度學習,深度學習與NLP,知識圖譜和強化學習五大專題。本次培訓由權威專家主講,提供實驗環境及實驗數據,並提供配套資料,通過剖析工程案例展現機器學習、深度學習落地全過程。培訓暫定2021年1月5日開始,每個專題6天左右,一共28天,直播集訓。本次培訓由淺入深,面向0基礎、不懂機器學習、不具備任何Python基礎的老師和同學。
  • 圖像識別技術的行業應用
    ,今天,我們就一起來了解下什麼是圖像識別?圖像識別,是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對象的技術,自動識別圖像中的對象,人物,位置和動作等。圖像識別用於執行任務,是應用深度學習算法的一種實踐應用。如何實現圖像識別?圖像識別對於人類和動物來說是很自然的,但是對於計算機來說卻是一項極其困難的任務。
  • 圖像驗證碼和大規模圖像識別技術
    換句話說,圖像識別驗證碼中的提示文字是個文字識別「驗證碼」,儘管只需要人認出來而不需要人鍵入。文字識別驗證碼技術和可能的攻擊超出了本文範圍,因篇幅有限就不做討論了。那麼計算機自動圖像識別技術到底能否破解這種驗證碼呢?如果可以,是如何實現的呢?在討論這個問題之前,我們看一下圖像識別技術到底發展到了什麼境地。
  • 【推薦】基於MATLAB編程、機器學習、深度學習在圖像處理中的實踐技術應用
    >Matlab科研經驗分享與科研工具推薦深度學習在遙感地物分類、目標識別和圖像分割技巧總結尤其是在計算機視覺和圖像處理領域,各種顛覆性的成果應運而生。因此,為了幫助廣大科研人員更加系統地學習圖像處理、機器學習和深度學習的基礎理論知識及對應的代碼實現方法,Ai尚研修特舉辦「MATLAB圖像處理與機器學習技術應用培訓班」 培訓班,旨在幫助學員掌握圖像處理的基礎知識,以及經典機器學習算法和最新的深度神經網絡、遷移學習、對抗生成網絡等算法的基本原理及其MATLAB編程實現方法。
  • 在圖像處理中應用深度學習技術
    工業應用中FPGA 上的神經元網絡(CNN)深度學習應用憑藉其在識別應用中超高的預測準確率利用卷積神經網絡(Convolutional Neural Network, CNN) 等深層神經網絡的解決方案,可以逐漸取代基於算法說明的傳統圖像處理工作。儘管圖像預處理、後期處理和信號處理仍採用現有方法進行,但在圖像分類應用中(缺陷、對象以及特徵分類),深度學習變得愈加重要。利用深度學習處理某些任務更簡單,效果更好,甚至某些任務只能用深度學習方法來解決。
  • 圖像識別技術落地 探索應用場景
    Alpha Go的勝利讓人工智慧的「深度學習」概念迅速普及,而率先打破「機器學習」、過渡到「深度學習」的節點便發生在圖像識別領域。
  • 圖像識別中的深度學習:挑戰、現狀和未來
    AI 前線導讀:近年來,深度學習在計算機視覺領域已經佔據了絕對的主導地位,在許多相關任務和競賽中都獲得了最好的表現。這些計算機視覺競賽中最有名的就是 ImgaeNet。參加 ImageNet 競賽的研究人員通過創造更好的模型來儘可能精確地分類給定的圖像。過去幾年裡,深度學習技術在該競賽中取得了快速的發展,甚至超越了人類的表現。
  • 深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別
    從左至右分別為「雙三次插值法」、優化了均方誤差性能的深度殘差網絡、深度殘差生成對抗網絡、原始高清圖像。相關的峰值信噪比(PSNR)與結構相似性在括號中已列出。[4 倍清晰度倍增]使用了生成對抗網絡之後,系統達到了目前超解析度技術的最先進水平:SRGAN[71] 使用了一個判別網絡,它可以區分經過超解析度處理的圖像與原始照片圖像的區別。
  • 基於深度學習的圖像超解析度技術
    繼昨天對微信掃碼中的圖像超解析度技術詳細介紹後,為了讓大家更充分的認識並學習圖像超解析度,今天給大家介紹一篇綜述性文章,作為「圖像超解析度」系列文章的第2篇,本文從problem settings、數據集、performance metrics、SR方法、特定領域應用以結構組件形式等方面總結了圖像超解析度,同時,討論了超分方法的優點與限制、存在的問題和挑戰以及未來的趨勢和發展方向。
  • 人工智慧方向—智能圖像識別技術(一)
    而深度學習是機器學習的一個特定分支。我們要想充分理解深度學習,必須對機器學習的基本原理有深刻的理解。機器學習算法是一種能夠從數據中學習的算法,然後我們所謂的「學習」是什麼意思呢?Tom M.Mitchell提供了一個簡潔的定義:「對於某類任務T和性能度量P,一個電腦程式被認為可以從經驗E中學習,通過經驗E改進後,它在任務T上由性能度量P衡量的性能有所提升。」
  • OpenCV+深度學習預訓練模型,簡單搞定圖像識別 | 教程
    pyimagesearch網站今天發布了一份用OpenCV+深度學習預訓練模型做圖像識別的教程,量子位編譯整理如下:最近,OpenCV 3.3剛剛正式發布,對深度學習(dnn模塊)提供了更好的支持,dnn模塊目前支持Caffe、TensorFlow、Torch、PyTorch等深度學習框架。
  • 深度學習在圖像處理中的應用趨勢及常見技巧
    目前為止,圖像處理已成為深度學習中重要的研究領域,幾乎所有的深度學習框架都支持圖像處理工具。當前深度學習在圖像處理領域的應用可分為三方面:圖像處理(基本圖像變換)、圖像識別(以神經網絡為主流的圖像特徵提取)和圖像生成(以神經風格遷移為代表)。本文第一部分介紹深度學習中圖像處理的常用技巧,第二部分淺析深度學習中圖像處理的主流應用,最後對本文內容進行簡要總結。
  • 深度學習中的圖像分割:方法和應用
    基於人工智慧和深度學習方法的現代計算機視覺技術在過去10年裡取得了顯著進展。如今,它被用於圖像分類、人臉識別、圖像中物體的識別、視頻分析和分類以及機器人和自動駕駛車輛的圖像處理等應用上。許多計算機視覺任務需要對圖像進行智能分割,以理解圖像中的內容,並使每個部分的分析更加容易。