用深度學習來解析夢境中出現的物體

2020-11-30 雷鋒網

雷鋒網 AI科技評論按,本文作者Harold Yue,首發於知乎專欄神經科學和人工智慧,雷鋒網(公眾號:雷鋒網) AI科技評論獲其授權轉載。

這篇文章主要的工作算是機器學習和神經科學的結合工作,需要讀者在這兩個方向有一定的基礎。

另有科普版本,結構更加清晰,不過刪減了很多內容。科普版本如下:

用深度學習來解析夢境中出現的物體 - 行為與認知神經科學

(https://zhuanlan.zhihu.com/p/27948255)

機器學習簡介:機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。最近大火的深度學習則是機器學習的一個分支,主要用基於人工神經網絡的各種方法來實現目的,現在有很多變種,本文中使用的神經網絡是一個卷積神經網絡(Convolutional Neural Networks, CNN)。

文章中神經科學實驗部分主要使用的信號讀取方法是功能磁共振( functional Magnetic Resonance Imaging,功能核磁共振),主要原理是通過監測腦區血流量的變化來間接測量腦區的活動程度,當一個腦區活動程度增強的時候,相應的血流量也會增加,為腦區輸送更多的氧氣,影響,以及排除廢物。功能磁共振的空間解析度很高,但其時間解析度比較有限,只能採集到2s 左右時間內的平均活動程度,同時對於神經活動的檢測有一定延時。

前一周去開ASSC 的時候聽到一個很有趣的工作,用深度學習來解析人類夢境中出現的物體類別。我見到的為數不多融合深度學習和神經科學的工作。回來之後翻了下相關文章,來在這分享下。

本文介紹的總體思路:

  1. 證明視知覺和夢境在視覺皮層上的神經活動有部分類似的激活模式。[1]

  2. 以正常視知覺為訓練集訓練一個 Decoder,從被試的視覺皮層神經活動信號到最後的物體類別。這裡是分成兩部分,先從 fMRI 信號到特徵空間,再從特徵空間用相關性分析的辦法推測物體類別。[2]

  3. 用這個 Decoder 來預測夢境中的物體類別。[3]

  4. 夾點私貨,用裡面的數據來說下視覺皮層和卷積神經網絡底層的相似性,也算是解釋了為什麼用卷積神經網絡的效果要更好。

  5. 最後我個人從一個認知神經科學研究生和一個機器學習初學者的角度來分析下這個工作。

前三點,對應了他們組發的三篇文章。我們從頭開始說。 先是13年的一個工作Neural Decoding of Visual Imagery During Sleep.

實驗部分:

實驗過程中被試躺在核磁共振成像儀裡面,在持續通過腦電圖(electroencephalogram, EEG)來檢測被試的睡眠狀態的同時掃描大腦活動。在通過特定的腦電特徵了解被試進入夢境狀態之後,會叫醒被試並讓其口頭描述夢境內容。(如下圖所示)

結果部分:

在夢境實驗之前,作者收集了被試們在看圖片時候視覺皮層的Fmri信號,並基於此訓練一個線性SVM(Support Vector Machine,支持向量機)分類器。並用此分類器嘗試解碼出被試在夢境狀態下的看到的物體,這裡作者使用的任務相對簡單,是要在兩個物體類別裡面挑出正確的那一個。結果是預測準確率大於50%,高於隨機水平,說明視知覺和夢境在視覺皮層有類似的信息表徵機制。

這個工作做的其實超前,在13年的時候大概是首次嘗試解析夢境的工作,也是很早把機器學習和神經科學結合起來的工作,但是由於和今天的主題不是特別相關,所以只介紹了我需要的結果,至於具體用的思路和方法,在此略過,有興趣的同學,可以自行查找原文。[1]

接下來是重點,如何從被試看圖片的 fMRI 信號中解出物體類別。

實驗部分:

作者在此主要做了兩類實驗,一類是正常看物體的圖片,另一類是基於線索來想像物體的形象。

在看物體實驗中,被試會被呈現不同的圖片,每張圖片9秒鐘。這裡加了一個比較簡單的小任務,當出現的圖片和上一張出現的圖片相同的時候,被試需要做按鍵反應。這裡是為了讓被試的注意維持在圖片上。 第二類是想像實驗,在線索階段,會有1個目標詞彙和49個幹擾詞出現,在聽到『滴』聲之後,被試要閉上眼睛,想像目標詞彙的形象。過了15s,聽到『滴』 之後,睜眼,確認想像的形象是目標形象。 在實驗進行的過程中,會採集被試視覺皮層的fMRI信號。

從fMRI到物體類別

接下來的數據分析工作,也就是從fMRI信號到物體類別是分兩步走的,

第一步是fMRI 信號到特徵空間。

作者在此用了一個8層預訓練好的神經網絡來做特徵提取。在前七層中每層隨機選1000個神經元,以及第八層的全部1000個神經元,把一張圖片前向傳播過網絡後,這些神經元的輸出作為特徵。這樣每張圖片前向傳播之後,可以獲得一個 8層 * 1000 特徵/層 的特徵矩陣。

之後是被試用被試的fMRI信號來訓練一系列Decoder,從被試的fMRI信號來擬合不同層中不同特徵的值。來實現從fMRI信號到特徵空間的轉換。


第二步是從特徵空間到物體的類別

這裡作者首先做的是,計算各個物體類別的特徵矩陣。他的做法是,每一個類別下面所有圖片前向跑一遍網絡,把生成的所有的特徵矩陣平均,得到一個物體類別對應的特徵矩陣。

如果要計算上一步中,被試夢境中解碼出來的特徵矩陣具體對應著哪個類別的物體。這裡做一個簡單的相關,取相關係數最高的那個類別為預測類別。

結果:

這篇文章做出的結果不能說很好,但是確實為這個領域的應用提出了一個有趣的方向。

這張圖截取的是卷積神經網絡部分預測準確率。可以看到,在被試真正看到圖片的情況下,使用某些層的預測準確率可以到達很高,超過90%,在直接用這個網絡遷移到想像情況下,也可以達到一個高於隨機猜測的準確率。明顯看出,現有模型對於想像圖片的預測能力要差很多。其實想來有一定道理,第一就是,想像和直接看肯定有不同的底層視覺機制。第二就是模型是基於真正看圖片的情況來訓練的,遷移到另外一個相似卻不完全相同的任務上表現表現自然會差一些。

解夢的工作:

這篇文章是重點講的。再重點也不會逐字翻譯,我只會把整體的邏輯講通。喜歡這篇文章的同學們歡迎去看原文。[3]

這篇文章很巧妙的地方在於,他沒做實驗,用的是第一篇文章的數據和第二篇文章的模型。

Single category feature decoding with averaged trials

夢境中單物體類別的識別。

這裡用的是書的例子,被試在做夢的時候,可能會在多個夢境中都出現書這個物體,作者把這幾個夢境對應的fMRI信號加起來做平均,然後通過文章2中訓練處的Decoder 來預測出當前夢境的特徵矩陣,之後和書這個類別的特徵矩陣做相關。

結果顯示,高級腦區和神經網絡的高層對於物體識別的效果比較好,當他們兩結合在一起時候產生的效果最好。

Multi-category feature decoding with individual trials

當然,一個夢境裡面只出現書也不現實,大家都有這樣的經歷,夢境更多是一整個場景,會出現多個物體,如上圖,這個夢境中,除了書還有一個男人和食物。所以作者也做了這個實驗,單個夢境裡面多物體的識別。用的是單個夢境對應fMRI信號Decode出來的特徵矩陣來和被試報告的所有類別的特徵矩陣的平均矩陣做相關比較。這個預測結果更差了,但是從趨勢上和上一個實驗類似。高級腦區和網絡的高層有更好的預測能力。

最後一個實驗,其實是重現了文章1中最後的實驗,在兩個物體類別中找到真正在夢境中出現的那個類別。用的方法也是特徵矩陣的相關。準確率大大高於第一篇文章基於SVM(支持向量機)的結果。

這裡也可以看到的是,看到物體實驗的結果在神經網絡的中間層(4,5,6層)表現比較好,到最後層反倒有一個下降的趨勢,這個趨勢在想像的結果中也有體現。對於夢境這個實驗,雖然預測效果同樣大於隨機猜測,但是在7層出現了一個下降而又在8層回升的現象,模式與看圖片和想圖片的模式不符。暗示夢境的神經機制和視知覺雖然有一定相似性,但是具體的機制還存在一定的差異。

夾帶私貨。 用這個文章的數據來簡要討論下卷積神經網絡和人類視覺皮層的相似性。而這個相似性也是我寫這篇文章的原因之一。

Image feature decoding and the homology of CNN and the human brain.

這個圖出現在第二篇文章之中。a 是預測的特徵矩陣不同層和實際的特徵值的對比,有一定的重合,說明Decoder 確實在一定程度上學到了 從fMRI信號到卷積神經網絡不同層特徵的映射。B圖是用不同視覺皮層預測出來的feature value 和 實際的feature value 的比較。這裡比較有趣的是,低級的視覺皮層,如V1,V2,V3 在擬合低層卷積神經網絡 的時候效果相對稍好,而高級視覺皮層(FFA ( fusiform face area,梭狀回面孔識別區,神經科學研究發現主要參與人臉識別),PPA(Parahippocampal place area,神經科學發現主要參與場景識別))在擬合高層卷積神經網絡的時候效果相對稍好。

Preferred images and weight distributions for CNN layers.

在神經科學領域,有類似的研究,證明 FFA,PPA 這種相對高級的皮層,會對更複雜的視覺刺激有比較強烈的反應,如FFA,主要對人臉反應,PPA 對物體,而底層皮層,如V1,V2,V3 更多的對底層視覺元素反應,如不同方向的線以及顏色等等。作者用一種 Activation Maximization 的方法來生成更能刺激相應層的圖片,並用這些圖片來給被試看,並用這些數據的fMRI來生成特徵矩陣。發現了類似的現象。人越高級的皮層,擬合的結果對應高級卷積層的效果越好。

這暗示著卷積神經網絡和人類視覺皮層有一定的相似性,低級主管局部特徵,高層主管語義特徵。

整體文章就完結了。可能有些朋友覺得看的一頭霧水,我在這重新整理下行文邏輯。

1.證明視知覺和夢境在視覺皮層上的神經活動有部分類似的 pattern。

2.以正常視知覺為訓練集訓練一個 Decoder,從被試的視覺皮層神經活動信號到最後的物體類別。這裡是分成兩部分,先從 fMRI 信號到特徵空間,再從特徵空間用相關性分析的辦法推測物體類別。

3.用這個 Decoder 來預測夢境中的物體類別。

4. 夾點私貨,用裡面的數據來說下 視覺皮層和 卷積神經網絡底層的相似性,也算是解釋了 為什麼用卷積神經網絡的效果要更好。

5. 最後我個人從一個認知神經科學研究生和一個機器學習初學者的角度來分析下這個工作。個人對一系列文章的評價:

很有趣的工作,13年的時候,第一次用fMRI +機器學習技術嘗試解析夢境,15年的時候,能做到以一定的準確程度從被試的fMRI信號中成功解析看到的物體,從這兩點來看,是非常有開創性的工作。除此之外,關於卷積神經網絡 和相關腦區的比較也是比較有趣的工作,一定程度上說明了卷積神經網絡和人類視覺皮層的相似性。

作為一個認知神經科學研究生,我認為這幾個實驗做得挺好的,簡單,但是十分有效,如果說有什麼改進的話,就是如果能來和我們所合作,用7T更高解析度來試一下是不是會更好啊,還有就是最新的一些序列可能能做到更好的結果。但是相信作者也是有一些權衡的,不止要考慮解析度,還要考慮SNR, 尤其是夢境裡面,噪音也需要注意一下。

作為一個機器學習方向初學者來說,我個人認為,可以改進的地方還是有一些的,主要集中在模型部分。 這個8層神經網絡如果用一些更先進的模型,會不會有一些更好的效果。還有特徵矩陣做平均,卷積神經網絡在低層只是能對簡單特徵進行反應,一個物體的不同面的局部特徵差異會比較大,這樣做平均的結果,會導致實際的預測能力比較差。個人覺得或許一個好一些的方法是做繼續前向,最後得出類別之後來做投票。除此之外,我個人還有一些其他想法,想來用我這邊的一些東西來試著實現下。如果有一樣對此有興趣的同學,歡迎評論區/私信討論。

行為與認知神經科學 專欄的編輯亦有幫助。

參考文獻:

本文使用的全部圖片都來基於參考文獻中的figure,做了適當裁剪和縮放。

[1] Horikawa T, Tamaki M, Miyawaki Y, et al. Neural decoding of visualimagery during sleep[J]. Science, 2013, 340(6132): 639-642.

[2] Horikawa T, Kamitani Y. Generic decoding of seen and imagined objectsusing hierarchical visual features[J]. arXiv preprint arXiv:1510.06479, 2015.

[3] Horikawa T, Kamitani Y. Hierarchical Neural Representation of DreamedObjects Revealed by Brain Decoding with Deep Neural Network Features[J].Frontiers in computational neuroscience, 2017, 11.         

雷鋒網 AI科技評論

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • ARXIV:深度學習在金融領域中的應用 | 唧唧堂論文解析
    :R&F;審校編輯 | 悠悠 本文是針對《Deep Learning for Financial Applications : A Survey(深度學習在金融領域中的應用)》的一篇論文解析,其作者為Ahmet Murat Ozbayoglua, Mehmet Ugur Gudeleka和Omer Berat Sezer。
  • 深度| 理解深度學習中的卷積
    以下是正文:卷積現在可能是深度學習中最重要的概念。正是靠著卷積和卷積神經網絡,深度學習才超越了幾乎其他所有的機器學習手段。但卷積為什麼如此強大?它的原理是什麼?在這篇博客中我將講解卷積及相關概念,幫助你徹底地理解它。網絡上已經有不少博客講解卷積和深度學習中的卷積,但我發現它們都一上來就加入了太多不必要的數學細節,艱深晦澀,不利於理解主旨。
  • 美科學家研究一種新算法來分析——解析夢境
    據《科學》網站近日報導,美國諾基亞貝爾實驗室的科學家建立了一種新算法來分析人的夢境,並通過機器自動分析了來自「夢境銀行」(DreamBank.net)網站的24000份數據,證實了這種算法的有效性。該成果如被應用於心理學領域,可以通過定性、定量地分析夢境中的角色、交互關係和情感,來幫助心理學家快速判斷做夢者的潛在壓力源和心理健康問題。
  • 八仙過海 各顯神通 《問道》為你解析呂洞賓夢境
    在我國的古代神話中,還分為上古神話、宗教神話、民間神話和文學神話。今天我們要為各位道友解析的八仙夢境之呂洞賓任務,就是這其中的宗教神話之一,一起來看看吧!      舊時,由於人們對自然的未知探索,以及渴望不滅的追求,進而相信現實世界之外存在著超自然的神秘力量或實體,並對其產生敬畏及崇拜。
  • Project Tango深度解析
    雙目立體成像方案,代表LeapMotion,所謂雙目立體成像就是利用兩個攝像頭捕捉的圖像之前的視場角度差,來計算出被測物體到攝像頭的距離,當視場角越大說明距離越近,反之則越遠。雙面立體成像方案要求兩個攝像頭之間的距離越遠越好,因為遠距離物體在2個攝像頭中視場角變化很小,因此雙目立體成像方案的探測距離最近。
  • 清華機器學習科學家李建:如何用深度學習來解析時空大數據?
    如果大家對深度學習有一點了解,做圖像識別是需要用CNN(卷積神經網絡)的,主要挖掘的就是空間的多變性,所以時空大數據是跟圖像識別有共通的。還有一個時間的屬性,RNN,也就是遞推神經網絡處理序列的數據。同時包含時間和空間的這兩個屬性,就對時空大數據提出很多新的挑戰。同時,另一個時空大數據的特點是有很多類型的數據。
  • 夢境是怎麼來的,夢境中的時間和空間與現實一致嗎?
    有句名言叫我們每個人都有一個夢,這句話說得非常有道理,雖然我今天想說的夢和那句話的夢並不是一個意思,但是至少可以證明,夢真的是人類的普遍現象,只要是正常的健康人類沒有不做夢的,因為夢是和意識緊密聯繫在一起的,沒有意識的人是不會做夢的,所以陷入深度昏迷的人,醒來之後都會忘記昏迷過程中的記憶
  • 解析夢境出現的原因,與平行宇宙無關,科學家給出見解
    我們一直認為夢境是虛幻的,做夢的時候夢境無論再美妙當你睜開眼的瞬間,全都會消失,並且夢境會在你起床的很短時間裡忘得乾乾淨淨。 中國有句俗語「日有所思,夜有所夢」,很多時候我們在白天工作上班學習的過程中會無意識或有意識的記憶一些事情
  • 運用深度學習教機器人理解自然語言
    他主要研究機器學習和人工智慧如何使用在文本和知識中讓計算機變得更智能。他在德克薩斯農工大學獲得心理學學士學位和工商管理碩士,在德克薩斯大學獲得計算機博士學位。譯者/趙屹華 審校/劉帝偉、朱正貴 責編/周建丁。在深度學習出現之前,文字所包含的意思是通過人為設計的符號和結構傳達給計算機的。
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    特徵  深度學習與傳統模式識別方法的最大不同在於它所採用的特徵是從大數據中自動學習得到,而非採用手工設計。好的特徵可以提高模式識別系統的性能。過去幾十年,在模式識別的各種應用中,手工設計的特徵一直處於統治地位。手工設計主要依靠設計者的先驗知識,很難利用大數據的優勢。由於依賴手工調參數,因此特徵的設計中所允許出現的參數數量十分有限。
  • 用深度學習檢測行李箱中的鋰電池
    自1991年以來,美國聯邦航空局報告了225起涉及貨物或行李中鋰離子電池的煙霧,火災,極熱或爆炸事件。因為電磁輻射穿過袋內的各種物體時,不同類型材料的密度不同,射線也會以不同方式反彈。探測器收集這些X射線並創建袋內物體的圖像。大多數機場使用軟體來幫助完成這一任務,但需要進行人工幹預,這使得該過程容易出錯。
  • 基於數據驅動的深度學習5G網絡解析
    打開APP 基於數據驅動的深度學習5G網絡解析 金石,溫朝凱 發表於 2021-01-05 11:04:43 自2010年以來
  • 普林,DeepMind新研究:結合深度學習符號回歸,深度模型中看見宇宙
    但深度神經網絡可以高效學習高維空間中的模式。那麼,問題來了,我們可以兼二者之所長嗎?來自普林斯頓大學和 DeepMind 等機構的研究者提出了一種通用方法,通過引入強歸納偏置來提取深度模型的符號表示。該方法的工作原理是:首先在監督設置下訓練 GNN,同時鼓勵稀疏潛在表示,然後對學得模型的組件應用符號回歸,從而提取顯式物理關係。
  • 集智科學家張江解析:為什麼複雜性需要深度學習?
    有沒有可能是引領工業界革命的深度學習技術呢?實際上,將深度學習技術引入複雜性科學研究已經有了大量的研究案例。例如,最近Science上發表了一篇「用遙感和衛星數據結合來預測貧困」的研究就是一個很好的典範1。
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    但深度神經網絡可以高效學習高維空間中的模式。那麼,問題來了,我們可以兼二者之所長嗎?來自普林斯頓大學和 DeepMind 等機構的研究者提出了一種通用方法,通過引入強歸納偏置來提取深度模型的符號表示。該方法的工作原理是:首先在監督設置下訓練 GNN,同時鼓勵稀疏潛在表示,然後對學得模型的組件應用符號回歸,從而提取顯式物理關係。
  • 《盜夢空間》深度解析:帶你了解你不知道的5層夢境!
    正常情況下會在現實世界,做夢的時候會進入第一層夢境。第二層夢境就是夢中夢,如果要進入第二層,就必須藉助藥物來完成,在服用藥物後,如果要從夢中醒來不管你在第幾層只有兩種方法,第一種就是墜落,第二種就是被殺死。但如果你要進入更深層的夢想需要服用加強型藥物,但這種藥的副作用是,如果在夢中被殺死就不能醒來,會直接錄入到迷失域當中,因此服用這種藥物只能用墜落的方法醒來。
  • 人工智慧系列(六) 深度學習中的神經網絡
    原力君在系列的第五篇《人工智慧系列(五) 深度學習簡介》中提到深度學習可以看作是一種更高級的函數擬合方法;人工神經網絡、激活函數、代價函數、梯度下降、反向傳播是深度學習的幾個關鍵點;常見的深度學習神經網絡結構有多層感知機、DNN、CNN、RNN等。
  • 夢境,是四維空間的入口?科學家這樣解釋
    靠夢境,可以進入四維空間?科學家這樣解釋雖然目前人類的科技可以解釋大部分的自然現象,但是畢竟科技水平發展仍然處於科學猜想中的初級階段,所以現實生活中我們依舊還有很多事情是暫時無法用科學去解釋的,比如球形閃電、消失的樓蘭古城、月球起源、神秘的大西洲等等,就不說這些自然科學,就是我們人體也有著很多未解之謎,比如夢境。
  • 10 大深度學習架構:計算機視覺優秀從業者必備(附代碼實現)
    相比於單一的傳統機器學習算法,深度學習算法由多樣化的模型組成;這是由於神經網絡在構建一個完整的端到端的模型時所提供的靈活性。 神經網絡有時可比作樂高塊,藉助想像力你幾乎可以用它建構從簡單到複雜的任何結構。
  • 科學家建立一種新算法分析人的夢境
    據《科學》網站近日報導,美國諾基亞貝爾實驗室的科學家建立了一種新算法來分析人的夢境,並通過機器自動分析了來自「夢境銀行」(DreamBank.net)網站的24000份數據,證實了這種算法的有效性。該成果如被應用於心理學領域,可以通過定性、定量地分析夢境中的角色、交互關係和情感,來幫助心理學家快速判斷做夢者的潛在壓力源和心理健康問題。