大腦對時間的彈性感知,竟和強化學習中的獎勵有關

2021-01-10 澎湃新聞

原創 Cepelewicz 集智俱樂部

導語

日常經驗告訴我們,時間的流逝有時快有時慢,而最新的研究揭示了為什麼會是這樣。

原文題目:

Reasons Revealed for the Brain’s Elastic Sense of Time

原文地址:

https://www.quantamagazine.org/reasons-revealed-for-the-brains-elastic-sense-of-time-20200924/

彈性的時間感知

我們對時間的感覺,是我們一切行為與體驗的基礎,但時間的流逝是主觀的、易變的。情緒、音樂、我們的周遭以及外界發生的事,都會影響我們的對時間的感受。當面對屏幕上的圖像時,我們看到憤怒的臉會感覺時間過得比看到中立的臉要更久,看到紅色比看到藍色更持久。你盯著的那壺水,似乎永遠都不會開,而歡樂的時光總是易逝的。

上月《自然神經科學》的論文,來自以色列惠特曼研究院的三名科學家,發現了「什麼決定了我們大腦對時間的彈性感受」。他們的發現,證實了長久以來的懷疑:大腦的時間感和大腦的獎懲學習機制有關。該發現還證明了大腦對時間的感受,受到大腦持續的對將要發生什麼的預期影響。

原文題目:

Duration Selectivity in Right Parietal Cortex Reflects the Subjective Experience of Time

原文地址:

https://www.nature.com/articles/s41593-020-0698-3

所有人都知道,當我們感受到快樂時,時間總是過得飛快。哈佛大學的認知神經學家Sam Gershman說道。但更準確的描述是,當我們的大腦感受到超過預期的快樂時,時間過得更快。

多巴胺與我們對時間的感受

對於大腦,時間的感受並不是單一的。不同的腦區,依據不同的神經機制來記錄時間的流逝。在不同場景下,決定我們感覺的機制也會改變。

然而,數十年的研究指出,神經遞質多巴胺對我們如何感受時間,起到了關鍵性的作用。在我們覺得特定時段內流逝了多少時間這件事上,多巴胺的多種作用往往是令人困惑的相互矛盾。有些研究指出,多巴胺的分泌,加速了生物體對時間的感受,使其高估時間的流逝,另外的研究指出多巴胺壓縮了對時間的感受,使人感覺時間過得更快。還有人發現取決於不同的場景,上述兩種影響同時存在。

多巴胺對時間的感受之所以有趣,部分是由於這種神經遞質因其在獎勵和強化學習中的功能而廣為人知。當我們經歷了一個非預期的反應,例如對未來的預測出錯,我們會經歷大量的多巴胺分泌,這會讓我們在未來更追求這樣的行為,從而使我們能夠從中學到新知。

多巴胺對強化學習和感知時間都起到核心作用,並不是一個偶然。諸如甲基苯丙胺這樣的藥物,以及帕金森症這樣的神經疾病,會影響這兩個過程,並都涉及到多巴胺分泌的改變。而講行為和其後果關聯起來的學習過程,也涉及到將時間中的兩個時間關聯起來。來自葡萄牙 Champalimaud 基金會的 Joseph Paton 表示:「強化學習算法的核心就是對涉及時間信息的學習。」

獎勵如何影響對時間的感知

但科學家還沒有發現,強化學習和對時間的感知是如何在大腦中被整合的。喬治梅森大學的神經科學家 Martin Wiener 說:「傳統上,對這兩個問題的研究是相互獨立的,沒有人問,我們對時間的感受,是如何和強化學習相互影響的,它們是否共用同樣的神經遞質系統。」

Ido Toren、Kristoer Aberg 和 Rony Paz 的最新論文對這一問題進行了細緻的研究。該研究的受試者,會看到屏幕上閃爍出兩個數字,通常情況下,是連續的 0,另一個數字被顯示的時間會有所不同,而受試者將要回答,哪一個數字持續的時間更長。但有時也會用正數和負數來替代第二個 0 。如果顯示的數字是正數,受試者會得到獎勵,而如果是負數,受試者會被扣除一些錢作為懲罰。

對於受試者,其對第二個數字感受到的時間和獎勵的類型相關。當意想不到的好結果出現,即研究者稱之為的「正向預測誤差」(positive prediction error),這一刺激持續的時間更長。當意想不到的壞結果出現時,受試者感受到的時間更短。「這說明人類對時間的感知,系統性地受到我們對該結果感受到多少意外的影響。」Villanova 大學的心理學家 Matthew Matell 評價該研究道。

該研究表明,時間感受的扭曲和獎勵之間的關係是可量化的,當意料之外的獎勵值越大,對時間流逝的感知被扭曲的程度越大。研究者構建了一個強化學習模型,能夠預測出不同受試者在不同情況下感知到的時間扭曲程度。對大腦的影像學掃描指出,一個從事動作學習的腦區硬膜(putamen)負責感知時間的流逝。

儘管還需要進一步的實驗,來確定具體的神經學機制以及多巴胺在其中發揮的作用,該研究對強化學習及時間感知的模型都意義深遠。巴甫洛夫的狗能夠學到鈴聲代表著食物,還能意識到食物能吃進嘴。然而,時序的部分,卻處在強化學習的邊緣部分。對某一獎勵的客觀時間,在強化學習模型中是一個參數,但該研究指出的時間主觀感受,卻沒有被引入模型。

疲勞在時間感知中發揮的作用

現在是時候在強化學習的模型中,引入這樣主觀的部分了。如果人類會擴展或縮短對某一事件的體驗時間,這也會影響我們對特定動作和結果與我們之間的距離的遠近,而這會進一步影響獎勵和行為的關聯能夠多快被學到。加州理工大學博士後 Bowen Fung 評價道:「時間的感受和預測偏差有關,這一聯繫為想要對環境提供準確表徵的強化學習模型提供了一個額外的特徵。」

對於未來試圖對人類認知建模的人,以及想要理解大腦運作的人,該研究指出了,理清這兩個系統相互影響的,會是一個挑戰,Matell 評價道。Gershman 和他的博士後 John Mikhael 已研發了一個能夠隨著大腦對時間流逝的主觀感受來進行適應性的調整,以提升大腦預測能力的模型。

但預測誤差,並不是唯一一個影響我們對時間感知的因素。上周《神經科學》期刊的一項研究指出,當受試者反覆地接觸一個短暫的刺激,他們會高估時間流逝的程度。這可能是由於短刺激的神經元感到了疲倦,這使得判定更長時間的神經元有更多的影響力來決定時間流逝的長短。類似地,當經歷了較長時間的刺激後,受試者會低估時間的流逝。

原文題目:

Duration Selectivity in Right Parietal Cortex Reflects the Subjective Experience of Time

原文地址:

https://www.jneurosci.org/content/40/40/7749

「通過改變刺激被展示時的背景,實驗者可以操控受試者是如何感受時間間隔的。」日本國立信息與通訊研究院的認知神經科學家 Masamichi Hayashi 這樣評價道,他和加州伯克利大學的 Richard Ivry 共同參與了這項工作。大腦的影像顯示,右頂葉的一塊區域負責對時間的主觀感受。

Hayashi 和 Ivry 關注的腦區和神經機制和 Weizmann 研究院的科學家截然不同,但他們都發現了獎勵和時間流逝之間的雙向聯繫。一方面,這證明了大腦對時間的感受是多麼廣泛地分布在大腦中,另一方面,右頂葉和硬膜在功能和解剖學中確實有聯繫。Hayashi 指出,可能是兩者的相互作用,產生了更加緊密結合的時間感知。不管是怎樣的通用規則和計算使得這樣的互作成為可能,這可能會是我們對時間感覺的基礎。然而,除非我們找到這樣的規律,否則科學家只能滿懷期待地掐算時間。

作者:Jordana Cepelewicz

譯者:郭瑞東

審校:Leo

編輯:鄧一雪

複雜科學最新論文

集智斑圖收錄來自 Nature、Science 等頂刊及arXiv預印本網站的最新論文,包括複雜系統、網絡科學、計算社會科學等研究方向。每天持續更新,掃碼即可獲取:

推薦閱讀

集智俱樂部QQ群|877391004

原標題:《大腦對時間的彈性感知,竟然和強化學習中的獎勵有關》

閱讀原文 

相關焦點

  • 揭示大腦彈性時間感的原因
    上個月在《自然神經科學》雜誌上,以色列魏茨曼科學研究所的三位研究人員對影響我們時間感的因素提出了一些重要的新見解。他們發現,有證據表明,時間感與幫助我們通過獎勵和懲罰進行學習的機制之間,存在聯繫。他們還證明,對時間的感知,與我們大腦對下一個將發生事情的不斷更新的期望息息相關。
  • 科學揭秘:大腦為什麼在感知時間的時候有快有慢?
    多巴胺與時間感知之間的聯繫非常有趣,部分原因在於,這種神經遞質本身向來以獎勵與強化學習過程而聞名。舉例來說,當我們收到意外的獎勵(即所謂預測誤差)時,這種化學物質會大量湧入,引導我們未來繼續追求類似的感受。多巴胺對於時間感知及學習過程如此重要,絕對不是偶然。甲基苯丙胺等藥物及帕金森氏症等神經系統疾病往往會改變這兩種過程,並影響到多巴胺的分泌。
  • 大腦中竟存在分布強化學習,靠多巴胺驅動
    【新智元導讀】人類的大腦,或許AI比我們懂。近日,DeepMind與哈佛大學新研究證明了大腦中存在「分布強化學習」,而大腦中的強化學習是通過「快樂之源」多巴胺驅動。和AI系統類似,大腦不是以「平均值」的方式預期未來可能的回報,而是以「概率分布」的方式來預期。
  • 開學季=厭學期大腦紋狀體和伏隔核對提升動力+強化學習作用很大
    大腦深部一系列神經核團組成的功能整體叫做基底核,與大腦皮層,丘腦和腦幹相連。主要功能為自主運動的控制、整合調節細緻的意識活動和運動反應,它同時還參與記憶、情感和獎勵學習等高級認知功能。背側紋狀體是基底核中最大的部分,位於大腦後側(腹側是指面向前方,背側是指面向後腦勺部分),包括尾狀核和殼核。■ 伏隔核是腹側紋狀體的一部分。伏隔核在快樂、獎賞、動機、強化學習、恐懼、衝動等活動中起關鍵作用。
  • 大腦3條神經通路,對應行為動機、強化學習和運動控制
    在大腦中,多巴胺細胞,主要集中在中腦區域的——基底核,而在基底核之中,具體由兩個區域——黑質緻密部和腹側被蓋區 ,負責產生多巴胺。如果一個行為能給孩子帶來正反饋(即獲得獎勵),就會觸發正強化學習;如果行為帶來負反饋(即獲得懲罰),就會觸發負強化學習。可見,強化學習——就是通過獎勵與懲罰,來動態調整行為,以實現趨利避害的機制。
  • 大腦也在用分布式強化學習?DeepMind新研究登上《Nature》
    機器之心報導機器之心編輯部分布式強化學習是智能體在圍棋、星際爭霸等遊戲中用到的技術,但 DeepMind 的一項研究表明,這種學習方式也為大腦中的獎勵機制提供了一種新的解釋這一發現驗證了分布式強化學習的潛力,同時也使得 DeepMind 的研究人員越發堅信,「現在的 AI 研究正走在正確的道路上」。多巴胺是人們所熟悉的大腦快樂信號。如果事情的進展好於預期,大腦釋放的多巴胺也會增多。在人腦中存在獎勵路徑,這些路徑控制我們對愉悅事件的反應,並通過釋放多巴胺的神經元進行介導。
  • 如何提高強化學習效果?內在獎勵和輔助任務
    Satinder Singh從近期關於強化學習的兩個研究工作出發,針對如何通過數據驅動的方式學習到內在獎勵函數,他提出了一個學習跨多生命周期(Lifetime)內部獎勵函數的Meta-Gradient框架,同時設計了相關實驗證明學習到的內在獎勵函數能夠捕獲有用的規律,這些規律有助於強化學習過程中的Exploration和Exploitation,並且可以遷移到到不同的學習智能體和環境中
  • 芥末翻|通過大腦預測誤差來進行社會學習
    本綜述中,研究者探究了心理學如何概念化表徵他人的過程及神經科學如何揭示強化學習原理,從代表自我和他人獎勵相關信息的角度探索社會學習潛在的神經機制。特別是,研究者討論了多個大腦結構中的自我參照和他人參照的獎勵預測誤差類型,探究了如何有效運用強化學習算法調解社會學習。基於預測的大腦計算原理在自參照信息和其他參照預測誤差信息之間可能明顯地有保守成分,這也意味著研究有章可循。
  • 強化學習如何使用內在動機?
    因此所有行為都是通過其與原始驅動力的關聯而被激發和引導的,成為直接學習或作為通過二次繼續(加強)學習的結果。例如,生物體進化出可以增加其生存和特定生境中的存活率和生殖機會(健康度)的身體結構;肌肉和骨骼系統的進化使生物能夠在環境中更好的移動;傳感器(各種傳感系統)的進化使生物能夠更好的感知外部環境;大腦(神經系統)可以存儲技能(即感覺運動圖)和知識(即抽象感官和預測能力)等等。
  • Neuron:使用深度強化學習揭示大腦如何在高維環境中編碼抽象的狀態表示
    介紹強化學習(RL)的框架已經闡明了智能體(agents)如何在試錯反饋中學習並做出適應性選擇。當前已經確定了有效的算法策略,用於學習在給定的環境狀態下應採取哪些行動,這反過來又有助於揭示這些過程的神經底物。  迄今為止,大多數研究都是關於學習和價值表徵的,脫離了現實世界中與這些機制耦合的感知系統。在一項典型的神經科學研究中,狀態空間是低維和離散的,其特徵是一組獨特的刺激和動作。
  • 你們知道狗狗怎麼感知時間的嗎?快來看看!了解一下哦
    如果你進入一隻狗的大腦,它會在早上看到它像一部電影一樣啃骨頭嗎?狗的記憶是如何工作的?關於狗如何感知時間的研究很有限,但是我們可以通過研究其他動物,如嚙齒類動物、鳥類和靈長類動物來推測狗對時間的看法。通過大量的研究,比爾·羅伯茨(比爾·羅伯茨)在動物記憶和預感的問題上得出了許多深刻的結論。
  • 超越DQN和A3C:深度強化學習領域近期新進展概覽
    DQN 和 A3C/A2C 聲明:我假設讀者已經對強化學習有一定的基本了解了(因此這裡不會提供有關這些算法的深度教程),但就算你對強化學習算法的工作方式並不完全了解,你應該也能閱讀後文的內容。
  • 你的預測,如何影響你的時間感知?| Paper Alert
    感知時間和預估未來短期內的事物發展,是人類在日常生活中必不可少的能力。作為大腦重要的時間感知中樞之一,基底神經節(basal ganglia)與多巴胺能神經元有著密集的連接。因為多巴胺能細胞構成了編碼預測錯誤(prediction error)的主要系統,基底神經節有可能在時間感知和預測錯誤之間搭起一座橋梁。
  • 不是所有的物質獎勵,都能激發孩子的學習動力,2招教你正確使用大腦獎勵機制,培養良好習慣,高效學習
    比如,家長為了提升孩子學習效率,與孩子約定好,在規定時間內完成學習任務,就可以有一個小時的遊戲時間,剛開始的時候孩子的積極性很高。但是時間長了,單單一個小時的遊戲時間已經無法引起孩子的興趣,不會讓他們的大腦產生興奮,學習積極性也會隨之降低,最初的獎勵機制已經讓孩子感到厭倦和麻木。
  • 深度 | 超越DQN和A3C:深度強化學習領域近期新進展概覽
    DQN 和 A3C/A2C聲明:我假設讀者已經對強化學習有一定的基本了解了(因此這裡不會提供有關這些算法的深度教程),但就算你對強化學習算法的工作方式並不完全了解,你應該也能閱讀後文的內容。DeepMind 的 DQN(深度 Q 網絡)是將深度學習應用於強化學習的最早期突破性成功之一。
  • 如何解決稀疏獎勵下的強化學習?
    人類的學習也可以看做是內在動機和外在動機激勵下的學習過程,關於內在動機和外在動機的激勵機器之心也有過專門介紹,感興趣的讀者可以具體看一下。人類在日常生活中其實每天能夠收穫的獎勵很少,但是也在持續的學習,改進自己的知識和能力,我們當然希望 agent 也能如此,也能夠在得到稀疏獎勵的情況下持續的進行有益的學習。
  • 2000元獎勵,竟抵不過一個暱稱,家長:錢對孩子學習是否有用?
    這與大腦對我們所從事活動的認定有關。在上面的故事中,當孩子們的嬉鬧沒有獎勵時,大腦認定這是「娛樂活動」;而活動有獎勵時,它會被大腦認定為「工作」。而「工作」就不同了,「工作」就應該有回報,這是人們大腦中根深蒂固的觀念。讓我工作就得先談好價錢,否則免談。這很符合英語那句「No tip no service」(沒有小費就沒有服務) 。大腦不僅在潛意識裡對「工作」有報酬的預期,同時還會降低對它的興趣。
  • 芥末翻Summary|通過大腦預測誤差來進行社會學習
    然後人類使用該獎勵結果來計算價值函數,推測特定狀態/環境的期望值以及特定狀態和動作的連接。人類使用這些價值函數來開發一組優先行動,稱為決策。環境模型是強化學習可選的部分,可以為生物提供狀態轉換的指導。(本段中「人類」可替換為「智能體」,因為這一理論同樣適用於動物行為研究)學習是通過比較期望獎勵和實際獎勵,在一定時間內兩者過渡之後得到實現。
  • 強化學習如何入門?看這篇文章就夠了
    在每個狀態下,即迷宮中的位置,你要計算出為獲得附近獎勵需要採取哪些步驟。當右邊有3個獎勵,左邊有1個獎勵,你會選擇往右走。這就是強化學習的工作原理。在每個狀態下,代理會對所有可能動作(上下左右)進行計算和評估,並選擇能獲得最多獎勵的動作。進行若干步後,迷宮中的小鼠會熟悉這個迷宮。但是,該如何確定哪個動作會得到最佳結果?
  • 100分獎勵新衣服:會削弱孩子的學習積極性。要用多巴胺控制法
    實驗的大概過程是這樣的:實驗中,讓大學生在實驗室裡解一些有趣的智力難題。實驗過程分為三個階段。第一階段,所有實驗對象完成難題無獎勵。第二階段,實驗對象被分為兩組,一組完成一道難題獲得1美元的獎勵,另一組無獎勵。第三階段為休息時間,通過觀察被試者在這階段是否繼續解題來考察獎勵是否能提高解題積極性。