
面对新的学习一项新的研究表明,任务,我们的大脑反向重播事件,就像倒带上的视频一样。
这种反向复制也用于人工智能研究中,以帮助计算机做出决策。这个发现可以解释为什么我们经常学习休息时间更容易学习任务:会议之间的暂停使我们的大脑有时间查看信息。
这一发现在2月12日的在线期刊上详细介绍了自然。
跑步老鼠
当动物在线性轨道上来回奔跑时,研究人员测量了大鼠的大脑活动。具体来说,他们监视了一个名为The的大脑区域海马,这对于在大鼠和人类中的记忆和导航都很重要。
当大鼠完成膝盖时,他们得到了食物的奖励。进食后,动物会短暂停下来,然后再开始另一圈。在外部,在这些休息期间,老鼠似乎并没有做太多事情。他们会坐立不安,修饰或静止不动。但是,大脑录音讲述了一个不同的故事。在休息时期,大鼠海马是活动的温床。
当啮齿动物上下跑步时,海马细胞以某些模式发射。当动物休息时,这种发射的序列重复撤销命令。反向重复几次。每个重放只花了几百毫秒。
马萨诸塞州理工学院的研究团队成员大卫·福斯特(David Foster)说:“在那个压缩的时间里,老鼠正在重播整个曲目,从目前一直回到一开始。” “这一结果表明,即时经验实际上是几次概括的。在原始体验之外进行的处理对于学习可能很重要。”
开放动作
这一发现可以帮助解释大鼠如何解决所谓的“时间信用分配问题”。而且由于大鼠和人类的海马执行许多相同的功能,因此当前的研究表明,我们的大脑可能以相同的方式工作。
这个问题是决策理论中的经典困境,是这样的:如果动物必须在获得奖励之前采取一系列行动,那么它如何知道哪些行动最终很重要,哪些行动不是什么?在获得奖励之前执行的动作很容易识别为重要的,但是在序列开始时执行的动作又如何呢?哪个很重要?
加拿大艾伯塔省大学的计算机科学家理查德·萨顿(Richard Sutton)不参与研究,他将问题比喻为首次打backmmon。
“如果您不知道该怎么玩,如何评估开幕式?”他说。
在计算机科学领域人工智能,通过让机器工作来解决时间信用分配问题落后,反向重播事件,并为序列接近的动作分配更多的信用,而不是一开始。
福斯特在电话采访中说:“你知道最后一步是正确的做法,因此您可以通过采取的一系列动作将这些信息发送回到最终状态。”
如果反向重播也发生在人类中,它可以解释为什么在测试通常不起作用之前挤压数小时。新发现表明,当研究课程之间经常停顿时,我们的大脑学得最好。在这些休息期间,我们的大脑在不知不觉中多次审查新信息,使得在时间到来时更容易投入记忆。
反向重播如何导致学习
长期以来,科学家知道化学分子多巴胺的释放是大脑奖励系统的重要组成部分。这种神经递质的释放充满了欢乐的感觉,并激发了我们进行某些活动。
福斯特说,当这些知识与我们的大脑可能会反向重新重现新体验的新建议相结合时,就会出现一种可能的学习机制。
研究人员假设存在多巴胺信号和反向复制信号的大脑特殊“价值区域”的存在。如果多巴胺信号是随着时间的流逝衰减的信号,这意味着它在传输开始时比最后更强,那么以下可能会发生:
当反向重播信号在大脑的价值区域中播放,它与强大的多巴胺信号的开始有关。随着重播的继续,多巴胺信号变得较弱。在这种情况下,与以后采取的行动相比,在反向重播事件开始时采取的行动对有机体更为重要。
心理学的提示
萨顿说,如果动物和机器中发生反向重播,他不会感到惊讶。他说,如果有的话,长期以来一直怀疑这种机制是从早期的心理实验中怀疑的,例如伊万·帕文(Ivan Pavlov)对狗的经典调理实验。
萨顿告诉生活学。 “因此,从牛排到铃铛,它以某种方式向后工作。”
福斯特同意,但补充说,当前的研究表明,我们使联想火车比以前想象的要远得多。
福斯特说:“这需要动物几秒钟的时间来跑来跑,所以这个重播可以通过几个阶段将信息发送回去,并奖励了一系列的动作。” “正是漫长的序列是新的。”
当前的研究专门研究空间学习。但是,在大鼠,也许在人类中,海马也参与了其他类型的学习。
福斯特说:“因此,[反向重播]很可能是处理各种信息的机制,而不仅仅是空间。”