圖像處理與深度信息識別:不同空間頻譜信息在深度知覺加工中的作用

2021-02-28 三倉心理學界

薈萃心理學各領域新進展、新動態

來源 | 華東師範大學心理與認知科學學院官網

人們可以通過各種線索來識別空間中的深度信息。如上圖所示,即使對於2D圖像,我們依然可以使用包括透視、紋理梯度變化、遮蔽等一系列線索來評估圖像中各個位置的相對深度。然而一個更深入的問題在於,我們是如何使用這些信息的?如果我們真是基於特定的局部線索來完成深度知覺的,那我們的深度知覺就會很大程度上會依賴於特定的環境。在我們熟悉的環境中,我們會更善於找到有效的局部線索,從而幫助我們更好地加工深度信息。然而事實上我們的深度知覺並非十分依賴特定環境——人們在不熟悉的環境中也能基本準確地判斷深度信息。所以,是否存在另一種通用的機制,幫助我們用更加一般的規則經行深度知覺加工呢?這一問題一直受到相關領域研究者的關注。

       

在近日發表於Journal of Vision上的一篇論文中,華東師範大學心理與認知科學學院的陳中廷博士與其合作導師Jeffrey A. Saunders博士通過傅立葉變化的方法,評估了不同朝向的空間頻譜信息對於深度知覺加工的影響。

傅立葉變化是一種常見的信號處理方法,廣泛應用於信號過濾、圖像處理等各個領域。儘管先前的文獻並沒有對空間頻譜信息和深度知覺的關係做很多的探討,但如上圖所示,經過傅立葉變換後的各朝向頻譜特徵(右側方形圖所示)相較於原先的圖像,更凸顯了深度變化而造成的特徵差異,從而說明了理論上頻譜特徵可以被用於深度知覺的加工。

為了驗證這一問題,研究者採用了特殊的圖像處理方法,以控制不同空間頻譜信息對於深度知覺的影響(見下圖)。在不同的實驗條件下,特定朝向的空間頻譜信息被添加/除去,從而使研究者可以比較其對於深度知覺的影響。研究者通過數學建模的方法進一步指出,不同朝向的頻譜信息在知覺加工中的影響與貝葉斯理想觀察者模型(Bayesian Ideal Observer Model)所推測的優化整合過程一致,說明我們的知覺系統有效地整合了各種不同特徵的空間信息,從而從不同方面促進深度知覺這一過程。這一研究也幫助我們進一步認識到,人類的知覺加工與計算視覺研究中的特徵信息有著密切的聯繫,而並非是一個直覺的、啟發式的過程。對於深度知覺的研究將有助於我們認識自己,並促進相關計算機視覺及人工智慧的發展。

論文信息:

Chen, Z. (陳中廷), & Saunders, J. A. (2019). Perception of 3D slant from textures with and without aligned spectral components. Journal of Vision, 19(4):7, 1-23, https://doi.org/10.1167/19.4.7.

本文內容來自網絡

不代表三倉心理學界觀點,如有侵權請聯繫後臺

合作、投稿等請長按二維碼聯繫小編

相關焦點

  • 遙感圖像處理中的深度學習專題 《中國科學:信息科學》英文版
    過去幾年來, 遙感圖像處理相關的深度學習研究快速增長, 包括高光譜遙感圖像、合成孔徑雷達(SAR)圖像等處理、分類、參數反演及目標檢測識別. 除了遙感數據的高解析度、高維度和大尺寸之外, 該領域還存在一些特殊的挑戰, 如不同傳感器及其不同工作模式的複雜性和特殊性, 隱含在遙感數據中的獨特物理屬性, 信息反演的物理原理等.
  • 大腦如何利用兩眼圖像之間的差異,來產生深度知覺的?
    視覺信號通過視網膜接收後傳遞到大腦皮層進行加工處理,最終形成人們所意識到的畫面。我們的大腦是如何利用兩眼圖像之間的差異,即雙眼視差,來產生深度知覺的? 大多數信息都是通過細胞來傳遞的,這些細胞能夠感知兩眼圖像之間的差異。
  • 深度學習與圖像識別 圖像檢測
    ,然後在高維空間進行線性的求解,實際上在處理的時候還是回到原空間處理。比如用卷積處理圖像中的二維空間結構,用遞歸神經網絡(Recurrent Neural Network)處理自然語言等數據中的時序結構(3)深度學習幾乎是唯一的端到端的學習系統它直接作用於原始數據,自動逐層進行特徵學習,整個過程直接優化目標函數。
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    深度學習是近十年來人工智慧領域取得的重要突破。它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域的應用取得了巨大成功。現有的深度學習模型屬於神經網絡。神經網絡的起源可追溯到20世紀40年代,曾經在八九十年代流行。神經網絡試圖通過模擬大腦認知的機理解決各種機器學習問題。
  • 光電理論技術:光學信息處理中的「線性處理」
    光學透鏡將不同的光學圖像變換成不同的空間頻譜,可用光電探測元件接收各個部分的空間頻譜來進行分析,或運用空間光調製器對輸入信號的空間頻譜進行各種處理。近代採用的光電結合的空間頻譜分析儀就是根據上面介紹的原理製成的,它可應用到各種圖像處理的各個領域,包括遙感圖像、醫學圖像分析等方面。  典型的線性光學信息處理系統,即4f系統。
  • 關於MATLAB 圖像處理與深度學習的作用分析和介紹
    接下來我們將介紹如何創建該算法,並說明為何深度學習和圖像處理對於對象檢測和圖像分類同樣十分有用。 圖像處理與深度學習 我們重點介紹兩種技術: 圖像處理 按像素級別變換或者修改圖像。比如,過濾、模糊、去模糊和邊緣檢測等; 深度學習 通過學習樣本圖像自動識別圖像特點。近幾年,深度學習已經徹底改變了圖像處理領域。
  • 深度學習不是萬靈藥!神經網絡3D建模其實只是圖像識別?
    但近期一項研究表明,幾乎所有基於深度神經網絡的3D中重建工作,實際上並不是重建,而是圖像分類。深度學習並不是萬能的!深度學習並不是萬靈藥。近幾年,隨著深度學習的大熱,許多研究攻克了如何從單張圖片生成3D模型。從某些方面似乎再次驗證了深度學習的神奇——doing almost the impossible。
  • 基於深度學習的人臉識別技術全解
    計算機圖形圖像、資訊理論和語義學相互結合的綜合性技術,並具有較強的邊緣性和學科交叉性。其中,人臉檢測與識別當前圖像處理、模式識別和計算機視覺內的一個熱門研究課題, 也是目前生物特徵識別中最受人們關注的一個分支。
  • 前沿研究丨深度學習在醫學超聲圖像分析中的應用
    到目前為止,在網絡結構或者模型方面,深度學習獲得了快速的發展,如更深的網絡結構與深度產生式模型。同時,深度學習也成功應用於各種研究領域,如CV、自然語言處理(NLP)、語音識別以及醫學圖像分析,因此表明深度學習能夠在各種自動分析任務中獲得顯著的性能改善,並能取得最優的性能表現。
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音...
    深度學習與語音識別在目前大多數語音識別應用中,深度學習是較為常見的一種方法。目前在語音識別方向,deep cnn 算是其中較為熱門的方向,這和 CNN 的三個重要的思想架構,包括:局部區域感知、權重共享、空間或時間上的採樣有著極強的關聯。
  • 深度人臉識別中不同損失函數的性能對比
    選自arXiv作者:Y Srivastava、V Murali、S R Dubey機器之心編譯參與:路、淑婷人臉識別是當前手機設備中使用最廣泛的生物識別特徵之一。而損失函數在訓練用於人臉識別的 CNN 過程中有重要作用。因此,本文對用於人臉識別的多種損失函數進行了性能對比。
  • AI深度(續) | 3D人臉識別和雙目結構光慣導
    ,使得機器(姑且稱之為計算機)獲得三維視覺能力(深度圖像),由此視頻監控系統進入3D人臉識別世界,而這是大多數人臉識別獨角獸不具備的能力。深度攝像機大行其道必定會成為一種趨勢。立體視覺立體視覺又稱距離知覺或立體知覺。是個體對同一物體的凹凸或對不同物體的遠近的反映。視網膜是一個兩維的平面,人不僅能感知平面物體,還能感知三維空間中的物體。
  • 深度解析音頻檢測背後的技術 | 雷鋒網公開課
    在直播的時候,每個直播間會間隔一秒或幾秒採集一個關鍵幀,關鍵幀會發送到圖像識別引擎,引擎根據圖像的顏色、紋理等等特徵來對敏感圖像進行過濾,這一過程會檢測肢體輪廓等關鍵特徵信息,然後對檢測圖像特徵與特徵庫模型裡面的特徵相似度進行匹配,給予待測圖像色情、正常、性感等不同維度的權重值,以權重值最高的作為判定結果輸出。
  • 深度解析音頻檢測背後的技術|硬創公開課
    在直播的時候,每個直播間會間隔一秒或幾秒採集一個關鍵幀,關鍵幀會發送到圖像識別引擎,引擎根據圖像的顏色、紋理等等特徵來對敏感圖像進行過濾,這一過程會檢測肢體輪廓等關鍵特徵信息,然後對檢測圖像特徵與特徵庫模型裡面的特徵相似度進行匹配,給予待測圖像色情、正常、性感等不同維度的權重值,以權重值最高的作為判定結果輸出。
  • 嬰兒的深度知覺實驗——視崖邊界
    視崖邊界前的嬰兒——深度知覺1960年的春天,心理學家埃莉諾•吉布森帶著未滿周歲的孩子來到科羅拉多大峽谷
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音分類!
    這不,難度再次升級的「50 種環境聲音分類」的語音識別挑戰賽,來了!深度學習與語音識別在目前大多數語音識別應用中,深度學習是較為常見的一種方法。從而實現對輸入的複雜數據的高效處理,使機器可以像人一樣智能地學習不同的知識,並且有效地解決多類複雜的智能問題;例如:語音識別、圖像視頻識別、語言處理和信息檢索等領域。
  • 深度學習下的醫學圖像分析(四)
    我們的另一個參考信息資源是一篇題為《Working with the DICOM and NIfTI data standards in R》的論文。醫學圖像是反映解剖區域內部結構或內部功能的圖像,它是由一組圖像元素——像素(2D)或立體像素(3D)——組成的。醫學圖像是由採樣或重建產生的離散性圖像表徵,它能將數值映射到不同的空間位置上。
  • 三篇論文,縱覽深度學習在表格識別中的最新應用
    表格識別是文檔分析與識別領域的一個重要分支,其具體目標是從表格中獲取和訪問數據及其它有效信息。眾所周知,本質上表格是信息表達的一種重要形式,它能將數據組織成標準的結構,便於信息檢索和比較。通常我們現階段針對表格的處理方式是:人工使用 Excel 等工具打開表格,之後提取、操作和處理表格中的內容。
  • 深度解析音頻檢測背後的技術
    在直播的時候,每個直播間會間隔一秒或幾秒採集一個關鍵幀,關鍵幀會發送到圖像識別引擎,引擎根據圖像的顏色、紋理等等特徵來對敏感圖像進行過濾,這一過程會檢測肢體輪廓等關鍵特徵信息,然後對檢測圖像特徵與特徵庫模型裡面的特徵相似度進行匹配,給予待測圖像色情、正常、性感等不同維度的權重值,以權重值最高的作為判定結果輸出。
  • 深度| 理解深度學習中的卷積
    我們混合兩桶信息:第一桶是輸入的圖像,由三個矩陣構成——RGB 三通道,其中每個元素都是 0 到 255 之間的一個整數。第二個桶是卷積核(kernel),單個浮點數矩陣。可以將卷積核的大小和模式想像成一個攪拌圖像的方法。卷積核的輸出是一幅修改後的圖像,在深度學習中經常被稱作 feature map。對每個顏色通道都有一個 feature map。