圖像識別技術,引領人工智慧前沿科技

2021-01-09 向陽花開滿山紅

圖像識別技術目前發展得非常迅猛,已應用在生活的方方面面。比如:交通方面,道路上的攝像頭已經可以精準識別出車型,車輛顏色、車牌號。同時還能判斷出駕駛人是否在打電話,以及駕駛座前方是否有遮擋物等違規行為,大大提升了交警的工作效率。

學習和了解圖像識別技術其背後的基本原理, 有助於我們認識和感知未來的人工智慧時代。

關鍵詞:相機成像原理、像素、圖像識別

人通過眼睛來了解認識這個世界,當我們觀察到事物後,產生了視覺信息,視覺信息會傳送給大腦,然後大腦對事物進行處理和理解。為了讓機器人更智能的工作,我們希望教會機器看到這個世界,理解事物之間的關係、情緒、動作和趨勢等。

計算機視覺賦予了機器人「看」的能力。與人類視覺不同,計算機視覺指的是用相機和電腦來完成目標檢測、目標識別、目標跟蹤、圖像分割、識別3D位置和姿勢等任務。

要達到這樣的目標,在當前的計算機視覺研究中,不僅僅要研究計算機如何看事物,還要研究如何讓計算機具備理解的能力。圖像識別所指的就是計算機對圖形的理解。

01相機成像原理

機器人要想具備「看」世界的能力,需要裝配攝像頭,作用類似於我們人類的眼睛。

當外界的光線進入到人的眼睛,經過晶狀體等屈光系統的折射最後會聚集在視網膜上。相機成像有著類似的原理,攝像頭有鏡頭、光圈、調焦裝置、暗箱和底片。鏡頭相當於人的角膜,光圈相當於瞳孔,調焦的透鏡相當於晶狀體,而數位相機需要把光轉換成電信號,所對應的部分是圖像傳感器。

應用在機器人上的相機模組中,最重要的組件之一是圖像傳感器。圖像傳感器是起感光記錄作用的元件,類似交卷。應用最多的圖像傳感器包括CCD(Charge Couple Device)和CMOS(Complementary Metal-Oxide Semiconductor)。圖像傳感器將鏡頭上傳導過來的光信號(模擬信號)通過AD轉換為數位訊號。

02像素

機器「看」到的圖像與人眼看到的有很大的區別。機器「看」到的圖像是由數字組成的矩陣。圖中的小方塊裡,每個數值代表的都是一個像素的明暗值。這些值被稱為「像素」,是構成一張圖片的最小單位。

像素的數值和位置組合就決定了一張圖像所呈現出來的樣子。攝像頭在接受光照之後,圖像傳感器中的感光元件會產生對應的電流,電流大小與光強對應,最後輸出一個模擬量。

我們來看一張普通的灰度圖。在灰度圖中,黑白像素值以一定的比例分布在二維空間內。所以,一幅圖片是有空間信息及在該空間上的光強所構成的。接收到的光線越強,數值越大,255是最白;接收到的光線越弱,則數值越小,0是黑色。介於兩個數值之間的,這是各種灰色。

與黑白照片不同,彩色圖像中包含了更多信息,包括:光的強弱、光的波長和空間位置。其中波長信息一般會用三原色來代替,分別是紅色、綠色和藍色。

03圖像識別

人眼中的視網膜在成像之後會到達大腦皮層的視覺中樞,大腦會迅速反應是否見過這個東西,或者是否見過類似的東西,產生理解,這才完成了一整個「看」的過程。一個幾歲的小朋友就能夠辨認出很多小動物了,而對於機器人來說,科學家們可能需要花上幾十年的時間來研究如何實現這個過程。

機器人圖像傳感器會把得出的數位訊號傳輸給控制器,控制器去「理解」這些信息的過程,我們稱之為圖形識別。目前圖像識別在我們生活中的應用廣泛。早期圖形識別可以完成的工作,可以分為以下四個種類:分類、定位、檢測、分割。如:

分類——是不是貓?定位——貓在哪來?檢測——有哪些動物?在哪來?分割——動物在哪些像素?

分類:分為二分類和多分類,比如判斷圖像中是不是貓,這屬於二分類;而判斷圖像中是哪一種動物則屬於多分類。

定位:判斷圖像中物體的位置,比如貓在圖中什麼位置。

檢測:判斷圖像中有哪些動物,都在什麼地方。

分割:判斷圖像中的動物都在哪些像素裡。

在2010年以後,由於深度學習和神經網絡技術的迅猛發展,以及各類圖像數據的劇增,圖像識別技術水平得到了大幅提升。

2018年的AI index年度報告顯示人工智慧圖像分類技術的準確程度在2015年就已經超越了人類水平。

04案例:機器人視覺標籤識別

機器人進行視覺標籤識別,與人類肉眼識別物體的步驟很相近,圍繞以下三個步驟:

1) 處理圖像信息2) 提取圖像特徵3) 判斷圖像內容

1、處理圖像信息

處理圖像信息是圖像識別中非常重要的一個環節。控制器在接收到這樣圖像信息時,它需要根據視覺標籤的特徵,把無關的部分去除掉,留下可能有用的部分以提高識別效率。

2、提取圖像特徵

緊接著,根據標籤都是四邊形的特徵,將圖像中無關的部分去除,可以得出視覺標籤區域。這個區域被稱為ROI(region of interest),也叫感興趣區域。當然,此時還要通過計算,對圖像進行透視變換,將圖像轉化成更容易判斷的形態,減少處理時間。

3、判斷圖像內容

為了使機器人具備對視覺標籤的理解能力,需要首先將視覺標籤劃分成7X7的格子,判斷49個格子的內容。透視變換後的圖像由於黑白分明,可以被輕易地編碼陳二進位的0和1形式。每個視覺標籤都有自己的編碼。機器人預存了所有標籤的編碼,此時控制器只需要將獲取的編碼與預存的編碼相比較,就能獲得該圖像ID,也就能知道視野中的視覺標籤是什麼了。

05擴展:小知識:

生活中,我們常用的掃碼也是類似的原理。

二維碼,也叫QRCode,全稱是quick response code,直譯過來是快速回應編碼。二維碼的角落有三個黑色的大方塊,它們所組成的圖案是為了幫助檢測圖片中的二維碼,同時可以用來明確二維碼的方向。而實際數據則是由黑色和白色所組成的圖案來表達的。

相關焦點

  • 微軟圖像識別技術 讓人工智慧睜眼看世界
    就在Windows10發布前夕,微軟全球執行副總裁沈向洋在接受媒體採訪時表示:即將登陸Win10的人工智慧機器人伴侶小冰,將會整合微軟在圖像識別領域的領先技術,並擁有同類產品中"最強大的視覺"。作為微軟人工智慧領域的核心產品,微軟小冰將睜開"雙眼",看一看這個豐富多彩的世界。
  • 解析Win10中的黑科技 從人工智慧到圖像識別
    從已經參與過前期體驗的用戶反饋看,頂著"革命性創新"頭銜面世的Win10沒有讓用戶失望,出色的視覺體驗和人性化設計都獲得了相當不錯的評價,而且首次登陸Win10的小冰也憑藉在人工智慧與圖像識別的黑科技讓人眼前一亮,也讓人體會到了Win10既年輕又酷的一面。
  • 在圖像識別上,隱私技術面臨人工智慧的挑戰
    不過,隨著科技的進步,這種保護隱私的方法已經不那麼可靠了。因為,除了人類以外,人工智慧也加入到圖像識別的行列中。據 Wired 網站的報導,德州大學和康奈爾科技學院的研究人員發現,通過一些訓練,神經網絡可以識別圖像中隱藏的信息,無論是模糊的門牌號,還是像素化的人臉。而且,他們並不需要費力開發新的方法,只要使用主流的機器學習方法就行了。「我們使用了非常標準的圖像識別技術。
  • 人工智慧的關鍵技術:模式識別(文字識別、語音識別、圖像識別)
    計算機網絡與人工智慧的結合構成了新的Web3.0,它是新一代的網頁標準,是一個人工智慧的網絡,也叫語義網。人工智慧的關鍵技術是模式識別,而且在當今有著廣泛的應用。模式識別主要有文字識別、語音識別和圖像識別技術。
  • 8月頂級 CV 大會:ICIG 2019——人工智慧時代的圖像圖形前沿研究
    會議重點關注關於圖像、視頻和圖形處理的創新技術,以及促進創新、創業和網絡化相關工作。本次會議的主題為「人工智慧時代的圖像圖形前沿研究」,將邀請國內外圖像圖形學領域的 3 位著名學者作大會特邀報告,集頂刊頂會論文報告、前沿科技產品展示、6 個前沿專題論壇。
  • 人工智慧「世界盃」再創佳績!佳都科技榮獲WebVision 2020圖像分類...
    近日,佳都科技憑藉專業的計算機視覺智能算法,在一年一度的WebVision 2020圖像識別競賽中,從全球90多支參賽隊伍中脫穎而出,榮獲全球第三名的優異成績,連續兩年躋身人工智慧「世界盃」優勝者陣營。
  • 電力人工智慧科技成果落地應用:輸電線路巡檢圖像實現雲端批量識別、智能精準分析
    聯研院開展了人工智慧圖像識別技術在輸電線路巡檢圖像智能分析領域的技術攻關。針對輸電線路巡檢圖像智能分析雲服務系統。全球能源網際網路研究院有限公司研發的輸電線路巡檢圖像智能分析雲服務系統有效解決了這一難題——識別100張圖片,一位熟練的圖像識別人員大約需要2小時,而使用該系統僅需2分鐘。該系統是當下電力人工智慧領域的代表性科技成果。近日,聯研院與兩家外部企業針對該系統籤署了電力人工智慧科技成果轉化協議,進一步推動電力人工智慧科技成果轉化及應用。
  • 手機百度5.5技術解讀:人工智慧+圖像識別打造的拍照搜索
    手機百度5.5技術解讀:人工智慧+圖像識別打造的拍照搜索 以往以文字搜索、語音搜索為主要搜索方式的移動搜索,如今伴隨著手機百度5.5拍照搜索版的推出,進入了圖像搜索的全新時代。
  • 圖像識別與人工智慧圖像識別和機器視覺有什麼區別
    人工智慧領域發展到現在,ai與人工智慧、圖像識別領域、計算機視覺領域等近年來越來越多的整合和融合。首先,人工智慧在生活工作中將普遍應用;其次,人工智慧在不同的工作場景都有其應用,從金融到醫療,從服務到工廠,應用無處不在;最後,人工智慧正在與自動駕駛技術等聯繫在一起。
  • 李彥宏展示人工智慧 百度地圖全景圖像識別準確率達95%
    其中,李彥宏提及了百度語音合成技術在百度地圖導航語音中的體現,重點展示了圖像智能識別技術在百度地圖數據採集、生產方面的應用,並表示在人工智慧的助力下,百度地圖全流程數據生產自動化程度已超過80%,全景圖像的自動化識別提取準確率高達95%,居行業首位。  人工智慧技術已經成為支撐百度地圖業務發展的核心力量。
  • 生活中常見的人工智慧的熱門技術——圖像識別,AI遙遠嗎?
    其實早在1943年開始就已經有了人工智慧的概念,阿蘭·圖靈提出了圖靈測試機,大意是將人和機器放在一個小黑屋裡與屋外的人對話,如果屋外的人分不清對話者是人類還是機器,那麼這臺機器就屬於智能機器。如今,人工智慧中的圖像識別已成為AI圈的主流,每天都有成千上萬的公司和數百萬的個體用戶在使用這項技術。
  • 人工智慧呈現何種發展趨勢?有哪些前沿技術值得關注
    當下哪些前沿技術值得關注? 作為一家堅持「技術常用常新」的科技公司,布爾數據重點關注「神經網絡」、「深度算法」和「人工智慧模型」等領域的前沿技術。目前人工神經網絡的研究工作不斷深入,已經取得了很大的進展,其在模式識別、自動控制、預測估計、經濟等領域已成功地解決了許多實際問題,表現出了優良的智能特性。 深度算法,最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數據。
  • 圖像識別技術在安防領域的應用研究
    近一兩年來,人工智慧領域得到了媒體界、產業界和學術界等前所未有的關注,機器正在越來越多的取代人類特有的優勢和技能,這其中最為重要的可能就是圖像識別技術。本文將從圖像識別技術的原理闡述出發,介紹這一技術在安防行業的具體應用,並且闡述其在當前安防應用上碰到的困難。
  • 第二屆中國人工智慧·多媒體信息識別技術大賽啟動
    第二屆中國人工智慧·多媒體信息識別技術大賽17日在廈門啟動。 黃詠綢 攝第二屆中國人工智慧·多媒體信息識別技術大賽17日在廈門啟動。黃詠綢 攝中新網廈門9月17日電 (黃詠綢 覃滔)第二屆中國人工智慧·多媒體信息識別技術大賽17日在廈門啟動。人工智慧作為新一輪科技革命和產業變革的重要驅動力量,正在對經濟發展、社會進步等多個方面產生重大而深遠的影響。
  • 圖像識別的應用場景有多廣?取代網絡鑑黃師不是不行
    人工智慧或者是 AI 這個詞,在 2017 年一月份幾場科技相關的會議上,已被提及很多次。剛過去的 2016 年,人工智慧從一種鮮被了解的前沿科技,開始被大眾熟知。目前,人工智慧已經成為不少行業的基礎應用。1 月 19 日,南都控股公司凱迪網絡、旗下子公司數相科技,就圖像識別的行業應用首次召開 AI 圓桌會議。會議邀請了不同領域如網絡安全、動植物保護、跨境電商的專家,一同探討人工智慧領域細分下的圖像識別技術的行業應用問題。
  • 智視科技 | 圖像識別技術就像個萬花筒!越解鎖越神奇!
    朋友發來一張裙子的照片,你覺得很好看,於是使用淘寶的拍立淘功能,輕鬆地下單購買…….這些美好生活的每時每刻都離不開圖像識別技術。科學家們獲得到啟發,於是將同樣的圖像識別原理應用在計算機中,對圖像的重要特徵進行分類與提取,並且排除無用的多餘特徵,進而使計算機圖像識別技術得以實現。舉個例子,當計算機在識別英文大寫字母時,L有且只有一個直角,X是兩條交叉的線段,這些顯著特徵成為計算機進行識別的關鍵。
  • 人工智慧將物體細化 實現特定物體識別
    在中國人工智慧峰會暨多媒體信息識別技術競賽成果發布會上,來自北京宣亞國際數位技術有限公司(以下簡稱宣亞數字)的劉洋團隊接連斬獲了兩個獎項,「特定物體識別」的最高級別的A級證書和「印刷文本OCR」的B級證書。
  • 潘雲鶴院士:人工智慧要瞄準學科交叉前沿
    國務院於2017年7月向全社會發布了《新一代人工智慧發展規劃》,指出人工智慧是引領未來的戰略性技術,必須放眼全球,把人工智慧發展放在國家戰略層面系統布局、主動謀劃,打造競爭新優勢,開拓發展新空間,有效保障國家安全。
  • 科技引領 人工智慧及國際貿易論壇在莞召開
    12月18日,2020人工智慧及國際貿易論壇在廣東現代國際展覽中心召開。一場關於人工智慧的論壇,進入觀眾的視野。現場行政主管部門領導、專家學者、行業精英一起探討人工智慧戰略定位及發展趨勢,分享行業先進技術和應用創新,加強產業鏈企業協同與合作,引導產業集聚發展,促進人工智慧在國民經濟社會重點領域的推廣,開拓廣闊的貿易市場。
  • 澎思科技申省梅擔任CNCC2020論壇主席,縱論跨域學習技術前沿和應用...
    技術論壇豐富多彩、嘉賓陣容強大、話題前沿,其中10月24日16:00-18:00,在北京新世紀日航飯店2層江蘇廳舉行的《AI落地的跨域學習技術和進展》技術論壇,將邀請跨域學習領域學術界的頂尖學者和工業界的領軍人物一起,聚焦AI落地過程中跨域學習起到的重要作用,以及AI落地痛點等尖銳問題展開探討,一起探討跨域學習的技術前沿和進展,歡迎光臨!