大腦對時間的彈性感知,竟和強化學習中的獎勵有關

2020-11-23 澎湃新聞

原創 Cepelewicz 集智俱樂部

導語

日常經驗告訴我們,時間的流逝有時快有時慢,而最新的研究揭示了為什麼會是這樣。

原文題目:

Reasons Revealed for the Brain’s Elastic Sense of Time

原文地址:

https://www.quantamagazine.org/reasons-revealed-for-the-brains-elastic-sense-of-time-20200924/

彈性的時間感知

我們對時間的感覺,是我們一切行為與體驗的基礎,但時間的流逝是主觀的、易變的。情緒、音樂、我們的周遭以及外界發生的事,都會影響我們的對時間的感受。當面對屏幕上的圖像時,我們看到憤怒的臉會感覺時間過得比看到中立的臉要更久,看到紅色比看到藍色更持久。你盯著的那壺水,似乎永遠都不會開,而歡樂的時光總是易逝的。

上月《自然神經科學》的論文,來自以色列惠特曼研究院的三名科學家,發現了「什麼決定了我們大腦對時間的彈性感受」。他們的發現,證實了長久以來的懷疑:大腦的時間感和大腦的獎懲學習機制有關。該發現還證明了大腦對時間的感受,受到大腦持續的對將要發生什麼的預期影響。

原文題目:

Duration Selectivity in Right Parietal Cortex Reflects the Subjective Experience of Time

原文地址:

https://www.nature.com/articles/s41593-020-0698-3

所有人都知道,當我們感受到快樂時,時間總是過得飛快。哈佛大學的認知神經學家Sam Gershman說道。但更準確的描述是,當我們的大腦感受到超過預期的快樂時,時間過得更快。

多巴胺與我們對時間的感受

對於大腦,時間的感受並不是單一的。不同的腦區,依據不同的神經機制來記錄時間的流逝。在不同場景下,決定我們感覺的機制也會改變。

然而,數十年的研究指出,神經遞質多巴胺對我們如何感受時間,起到了關鍵性的作用。在我們覺得特定時段內流逝了多少時間這件事上,多巴胺的多種作用往往是令人困惑的相互矛盾。有些研究指出,多巴胺的分泌,加速了生物體對時間的感受,使其高估時間的流逝,另外的研究指出多巴胺壓縮了對時間的感受,使人感覺時間過得更快。還有人發現取決於不同的場景,上述兩種影響同時存在。

多巴胺對時間的感受之所以有趣,部分是由於這種神經遞質因其在獎勵和強化學習中的功能而廣為人知。當我們經歷了一個非預期的反應,例如對未來的預測出錯,我們會經歷大量的多巴胺分泌,這會讓我們在未來更追求這樣的行為,從而使我們能夠從中學到新知。

多巴胺對強化學習和感知時間都起到核心作用,並不是一個偶然。諸如甲基苯丙胺這樣的藥物,以及帕金森症這樣的神經疾病,會影響這兩個過程,並都涉及到多巴胺分泌的改變。而講行為和其後果關聯起來的學習過程,也涉及到將時間中的兩個時間關聯起來。來自葡萄牙 Champalimaud 基金會的 Joseph Paton 表示:「強化學習算法的核心就是對涉及時間信息的學習。」

獎勵如何影響對時間的感知

但科學家還沒有發現,強化學習和對時間的感知是如何在大腦中被整合的。喬治梅森大學的神經科學家 Martin Wiener 說:「傳統上,對這兩個問題的研究是相互獨立的,沒有人問,我們對時間的感受,是如何和強化學習相互影響的,它們是否共用同樣的神經遞質系統。」

Ido Toren、Kristoer Aberg 和 Rony Paz 的最新論文對這一問題進行了細緻的研究。該研究的受試者,會看到屏幕上閃爍出兩個數字,通常情況下,是連續的 0,另一個數字被顯示的時間會有所不同,而受試者將要回答,哪一個數字持續的時間更長。但有時也會用正數和負數來替代第二個 0 。如果顯示的數字是正數,受試者會得到獎勵,而如果是負數,受試者會被扣除一些錢作為懲罰。

對於受試者,其對第二個數字感受到的時間和獎勵的類型相關。當意想不到的好結果出現,即研究者稱之為的「正向預測誤差」(positive prediction error),這一刺激持續的時間更長。當意想不到的壞結果出現時,受試者感受到的時間更短。「這說明人類對時間的感知,系統性地受到我們對該結果感受到多少意外的影響。」Villanova 大學的心理學家 Matthew Matell 評價該研究道。

該研究表明,時間感受的扭曲和獎勵之間的關係是可量化的,當意料之外的獎勵值越大,對時間流逝的感知被扭曲的程度越大。研究者構建了一個強化學習模型,能夠預測出不同受試者在不同情況下感知到的時間扭曲程度。對大腦的影像學掃描指出,一個從事動作學習的腦區硬膜(putamen)負責感知時間的流逝。

儘管還需要進一步的實驗,來確定具體的神經學機制以及多巴胺在其中發揮的作用,該研究對強化學習及時間感知的模型都意義深遠。巴甫洛夫的狗能夠學到鈴聲代表著食物,還能意識到食物能吃進嘴。然而,時序的部分,卻處在強化學習的邊緣部分。對某一獎勵的客觀時間,在強化學習模型中是一個參數,但該研究指出的時間主觀感受,卻沒有被引入模型。

疲勞在時間感知中發揮的作用

現在是時候在強化學習的模型中,引入這樣主觀的部分了。如果人類會擴展或縮短對某一事件的體驗時間,這也會影響我們對特定動作和結果與我們之間的距離的遠近,而這會進一步影響獎勵和行為的關聯能夠多快被學到。加州理工大學博士後 Bowen Fung 評價道:「時間的感受和預測偏差有關,這一聯繫為想要對環境提供準確表徵的強化學習模型提供了一個額外的特徵。」

對於未來試圖對人類認知建模的人,以及想要理解大腦運作的人,該研究指出了,理清這兩個系統相互影響的,會是一個挑戰,Matell 評價道。Gershman 和他的博士後 John Mikhael 已研發了一個能夠隨著大腦對時間流逝的主觀感受來進行適應性的調整,以提升大腦預測能力的模型。

但預測誤差,並不是唯一一個影響我們對時間感知的因素。上周《神經科學》期刊的一項研究指出,當受試者反覆地接觸一個短暫的刺激,他們會高估時間流逝的程度。這可能是由於短刺激的神經元感到了疲倦,這使得判定更長時間的神經元有更多的影響力來決定時間流逝的長短。類似地,當經歷了較長時間的刺激後,受試者會低估時間的流逝。

原文題目:

Duration Selectivity in Right Parietal Cortex Reflects the Subjective Experience of Time

原文地址:

https://www.jneurosci.org/content/40/40/7749

「通過改變刺激被展示時的背景,實驗者可以操控受試者是如何感受時間間隔的。」日本國立信息與通訊研究院的認知神經科學家 Masamichi Hayashi 這樣評價道,他和加州伯克利大學的 Richard Ivry 共同參與了這項工作。大腦的影像顯示,右頂葉的一塊區域負責對時間的主觀感受。

Hayashi 和 Ivry 關注的腦區和神經機制和 Weizmann 研究院的科學家截然不同,但他們都發現了獎勵和時間流逝之間的雙向聯繫。一方面,這證明了大腦對時間的感受是多麼廣泛地分布在大腦中,另一方面,右頂葉和硬膜在功能和解剖學中確實有聯繫。Hayashi 指出,可能是兩者的相互作用,產生了更加緊密結合的時間感知。不管是怎樣的通用規則和計算使得這樣的互作成為可能,這可能會是我們對時間感覺的基礎。然而,除非我們找到這樣的規律,否則科學家只能滿懷期待地掐算時間。

作者:Jordana Cepelewicz

譯者:郭瑞東

審校:Leo

編輯:鄧一雪

複雜科學最新論文

集智斑圖收錄來自 Nature、Science 等頂刊及arXiv預印本網站的最新論文,包括複雜系統、網絡科學、計算社會科學等研究方向。每天持續更新,掃碼即可獲取:

推薦閱讀

集智俱樂部QQ群|877391004

原標題:《大腦對時間的彈性感知,竟然和強化學習中的獎勵有關》

閱讀原文 

相關焦點

  • 揭示大腦彈性時間感的原因
    有些研究發現,多巴胺的增加會加速動物的內部時鐘,從而導致動物高估時間的流逝;其他研究則發現多巴胺會壓縮事件,使事件看起來更短暫;還有的研究認為,根據具體情況,兩種影響都存在。  多巴胺與時間感之間的聯繫十分有趣,部分原因在於該神經遞質以其在獎勵和強化學習過程中的功能而聞名。
  • 科學家揭示大腦彈性時間感的原因
    有些研究發現,多巴胺的增加會加速動物的內部時鐘,從而導致動物高估時間的流逝;其他研究則發現多巴胺會壓縮事件,使事件看起來更短暫;還有的研究認為,根據具體情況,兩種影響都存在。多巴胺與時間感之間的聯繫十分有趣,部分原因在於該神經遞質以其在獎勵和強化學習過程中的功能而聞名。比如,當我們收穫意外的獎勵時——也就是出現預測誤差時,我們會感受到多巴胺的湧入,這會告訴我們未來繼續保持這樣的行為。
  • 科學揭秘:大腦為什麼在感知時間的時候有快有慢?
    葡萄牙Champalimaud基金會神經科學家Joseph Paton表示,「事實證明,強化學習算法同樣會將時間作為核心信息。」但科學家們並不清楚,強化學習與時間知覺在大腦中的具體整合方式與處理位置。沒人提出過「如果強化學習與時間感知使用的是相同的神經遞質系統,那麼二者之間是如何相互影響的」這類問題。」
  • DeepMind用強化學習探索大腦多巴胺對學習的作用
    今天,DeepMind在《自然-神經科學》(Nature Neuroscience)發表的新論文中,研究人員使用AI研究中開發的元強化學習框架來探索多巴胺在大腦中幫助我們學習時所起的作用。多巴胺——通常被稱為大腦的愉悅因子——被認為與AI強化學習算法中使用的獎勵預測誤差信號類似。AI系統通過獎勵(reward)指引的試錯來學習如何行動。
  • 新的研究揭示了大腦體驗時間的機制
    今年8月,以色列魏茨曼科學研究所的三位研究人員在《自然神經科學》雜誌上發表了一些關於時間的新見解,闡釋了是什麼拉伸和壓縮了我們的時間體驗。他們發現了時間感知和通過獎勵和懲罰幫助我們學習的機制之間存在聯繫的證據。他們還證明,對時間的感知與我們大腦不斷更新的對接下來將要發生的事情的預期緊密相連。
  • 科學家解碼了哺乳動物的大腦如何感知氣味 與一種神經末梢束有關
    在小鼠的實驗中,紐約大學格羅斯曼醫學院的研究人員首次創造了一種被大腦嗅覺處理中心嗅球感知為氣味的電子信號,儘管這種氣味並不存在。由於氣味模擬信號是人造的,研究人員可以操縱相關神經信號的時間和順序,並確定哪些變化對小鼠準確識別「合成氣味」的能力最重要。「解碼大腦如何分辨氣味是複雜的,部分原因是,與視覺等其他感官不同,我們還不知道單個氣味最重要的方面。」
  • 強化學習如何使用內在動機?
    因此所有行為都是通過其與原始驅動力的關聯而被激發和引導的,成為直接學習或作為通過二次繼續(加強)學習的結果。例如,生物體進化出可以增加其生存和特定生境中的存活率和生殖機會(健康度)的身體結構;肌肉和骨骼系統的進化使生物能夠在環境中更好的移動;傳感器(各種傳感系統)的進化使生物能夠更好的感知外部環境;大腦(神經系統)可以存儲技能(即感覺運動圖)和知識(即抽象感官和預測能力)等等。
  • 如何解決稀疏獎勵下的強化學習?
    人類的學習也可以看做是內在動機和外在動機激勵下的學習過程,關於內在動機和外在動機的激勵機器之心也有過專門介紹,感興趣的讀者可以具體看一下。人類在日常生活中其實每天能夠收穫的獎勵很少,但是也在持續的學習,改進自己的知識和能力,我們當然希望 agent 也能如此,也能夠在得到稀疏獎勵的情況下持續的進行有益的學習。
  • 【芥末翻】通過大腦預測誤差來進行社會學習(2)
    了解其他參照信息的運轉模式及自我和他人的信念呈現,將進一步協助我們認識大腦是如何將有關信息升級到更高層次的社會認知。強化學習原則無論是人類還是非人類動物,都是以強化學習理論為基礎的各種學習和決策任務的絕佳模型。
  • 多巴胺引領下的分布式強化學習
    1月份有關機器學習和神經科學研究領域的重大論文可謂這一篇Nature主刊的文章, 一出頭便引爆朋友圈:這篇署名作者包含了deepmind 創始人Demis Hassabis的文章,到底意義在哪裡?我們從多巴胺和強化學習的研究歷史中娓娓道來一窺究竟。
  • 伯克利開源端到端深度強化學習方案,無需獎勵工程即可高效學習
    然而,這種作法顯然無法讓此類機器人掌握一切新型任務,意味著我們在機器人領域廣泛採用強化學習技術時勢必面臨重大瓶頸,更遑論在缺乏傳感設置的開放世界環境中直接使用強化學習方法。為此,我們開發出一種端到端新方法,允許機器人從描述任務成功完成的適度數量圖像中學習,從而擺脫對手動獎勵工程的依賴性。
  • 紋狀體和伏隔核:快樂、獎賞、動機、強化學習、恐懼及衝動的指示器
    什麼是紋狀體和伏隔核?紋狀體是基底核的核心部分,作為大腦皮層和基底核的中繼站而存在。它接收來自大腦皮層的輸入信息,並將信息輸入基底核。伏隔核也是基底核的一部分,伏隔核與快樂、獎賞、動機、強化學習、恐懼、成癮、衝動和安慰劑的效果相關。伏隔核以其在成癮中的作用而聞名。
  • DeepMind研究表明,大腦使用與AI類似的分布獎勵機制
    雖然神經科學家當時還沒有弄清楚大腦這種學習機制的原理,但 Minsky 仍然能夠在一定程度上模仿和複製這種行為,推動了人工智慧(AI)的發展。如今在計算機科學領域,這種機制就是我們熟知的強化學習技術。隨著強化學習的不斷完善,它反過來可以幫助神經科學家們更深入地了解動物大腦的這種機制,促進了兩個領域之間良性循環發展。
  • 開心時,時間過得快,而有時,時間過得很慢,科學家找到原因了
    多巴胺與時間感知的聯繫很有趣,部分原因是神經遞質以其在獎勵和強化學習過程中的功能而聞名。但是科學家還沒有弄清楚強化學習和時間感知在大腦中的整合方式和位置。他們建立的強化學習模型能夠預測每個受試者在任務上的表現。對研究參與者的大腦掃描在稱為核殼的區域中追蹤了這種效應,該區域參與了運動學習和其他功能。
  • 大腦的這種感知失真讓科學家撓頭
    研究還發現,大腦會不斷對未來將要發生的事情進行預測和期望,正是這種行為決定了我們的時間感知。  支配時間感知的神經機制還不清楚  對大腦而言,不同的腦區會依靠不同的神經機制來追蹤時間,而支配時間感的神經機制會隨著不同情形發生變化。  過去數十年的研究表明,多巴胺在我們感知時間的過程中起著至關重要的作用。
  • 100分獎勵新衣服:會削弱孩子的學習積極性。要用多巴胺控制法
    實驗的大概過程是這樣的:實驗中,讓大學生在實驗室裡解一些有趣的智力難題。實驗過程分為三個階段。第一階段,所有實驗對象完成難題無獎勵。第二階段,實驗對象被分為兩組,一組完成一道難題獲得1美元的獎勵,另一組無獎勵。第三階段為休息時間,通過觀察被試者在這階段是否繼續解題來考察獎勵是否能提高解題積極性。
  • 大腦的這種感知失真讓科學家撓頭
    針對「是什麼延長和壓縮了我們對時間的感受」這一問題,以色列魏茲曼科學研究所研究人員艾多·託倫、克里斯多福·阿伯和羅恩·帕茲在發表於《自然·神經科學》的研究中提出了一種新見解。長期以來便有觀點認為,我們會通過獎賞和懲罰進行學習,而其背後的機制與時間感知存在聯繫。如今,這三位研究者發現了支持這種觀點的證據。
  • 【芥末翻Summary】通過大腦預測誤差來進行社會學習(1)
    然後人類使用該獎勵結果來計算價值函數,推測特定狀態/環境的期望值以及特定狀態和動作的連接。人類使用這些價值函數來開發一組優先行動,稱為決策。環境模型是強化學習可選的部分,可以為生物提供狀態轉換的指導。(本段中「人類」可替換為「智能體」,因為這一理論同樣適用於動物行為研究)學習是通過比較期望獎勵和實際獎勵,在一定時間內兩者過渡之後得到實現。
  • 你的預測,如何影響你的時間感知?| Paper Alert
    感知時間和預估未來短期內的事物發展,是人類在日常生活中必不可少的能力。作為大腦重要的時間感知中樞之一,基底神經節(basal ganglia)與多巴胺能神經元有著密集的連接。因為多巴胺能細胞構成了編碼預測錯誤(prediction error)的主要系統,基底神經節有可能在時間感知和預測錯誤之間搭起一座橋梁。
  • 股票市場交易中的強化學習|機器學習|強化學習|深度學習
    與數據科學和機器學習中的許多方法一樣,這個工具實際上只在數據轉換階段提供幫助。這一事實在許多項目中得到了體現,因為最終您只需要相信您目前擁有的組合已經足夠好,可以讓模型學習。因此,我們確定了兩個動量指標,即經典相對強度和另一個被有趣地命名為awesome指標,以及兩個趨勢指標,移動平均收斂散度和Aroon指標。動量指標很有用,因為它們試圖量化股票在先前價格的背景下的走勢。