大脑也在强化学习！「价值决策」被大脑高效编码，登Neuron顶刊-大脑的决策

我们每个人的一生都要做出大量的决定，小到「今天晚上吃什么」、「明天放假去哪里玩」，大到「这次战役怎么打」、「这部法律如何制定」。

这些决定的结果，要由决策者的大脑来给出最终裁决。

所以，大脑中负责这类「裁决」的关键区域，成为科学家们关注的重点。

2019 年，加州大学圣地亚哥分校的研究人员就发现了做出「价值决策」的大脑区域。

他们发现，这个区域被称为脾后皮层 (RSC)，是用来做出「有价值的选择」的地方，比如决定今晚去哪家餐厅吃饭。然后，根据对今晚饭菜的喜好程度的新印象，用最新信息来更新RSC。

毕竟，只有及时更新信息，才能让大脑做出最正确的决策。

现在，这个团队在这个问题上又有新进展。该校生物科学系博士后 Ryoma Hattori 和 Takaki Komiyama 教授领导的新研究，揭示了大脑处理此类动态更新信息的详细机制。

近日发表在Neuron期刊上的论文结果表明，RSC中的更新信息可以持久保存，就像一个可调用的资源库。

这些「持久信息」可以最有效地表示或「编码」有价值的信号，能够跨越大脑的不同区域。

为了研究大脑活动如何表示基于价值的决策的细节，研究人员设置了强化学习实验。价值决策是人类大脑的关键机制，在精神分裂症、痴呆和成瘾等神经系统疾病中常常受损。

在实验中，研究人员小鼠提供了多个选项，对小鼠的选择以一定的概率奖励，并记录在强化学习过程中的相应大脑活动。

由此产生的数据和网络模拟指出了持续编码在如何表示老鼠及其价值决定方面的重要性，以及 RSC 作为这项活动的纽带。

研究人员在论文中解释说：「这些结果表明，尽管信息编码是高度分布的，但并非所有神经活动中表示的信息都可以在每个区域中使用。这些结果表明，依赖于上下文的持久性信息，促进了可靠的信号编码，扩大了信息在大脑中的分布。」

研究人员发现，信息的持久性，可以让价值信号在大脑的不同区域得到最高效的编码，尤其是在脾后皮层中。图片来源：加州大学圣地亚哥分校 Komiyama 实验室

研究团队成员，论文作者之一Hattori表示，众所周知，神经元会在不同的活动模式中循环，一些神经元的活动会激增，而另一些则保持沉默。

Ryoma Hattori

这些大脑活动模式已被证明与某些与任务相关的信息相关，例如决策的价值信息。由于 RSC 在连接多个大脑网络和功能方面发挥着核心作用，此次新发现进一步强化了2019年的成果。

“我们认为在小鼠大脑中，RSC的作用是价值信息的稳定储存库，当老鼠进行强化学习和决策时，RSC 会将价值信息分发到其他大脑区域，这些区域对于进一步处理价值信号至关重要。”

为了进一步测试他们的发现，Hattori 和 Komiyama 使用了他们在实验期间记录的超过 100000 次小鼠决策的「大数据」库。

研究人员对人工智能 (AI) 网络进行编程，模仿基于计算机的强化试验中的行为策略，得到了与现实世界的实验非常相似的结果。

Takaki Komiyama

「当我们训练AI做同样的行为时，它采用了相同的策略和相同的方式来表示神经活动中的信息，」Komiyama 说

「这表明，我们的发现确实是神经回路执行这种行为的选择策略。AI和小鼠之间的这种相似性真的很有趣。」