强化学习揭开人们运用抽象思维时大脑是如何工作的-运用抽象思维的工作

「在某种程度上，所有艺术都是抽象的。」

二十世纪世界著名的雕塑大师亨利·摩尔（Henry Spencer Moore）认为，艺术是抽象的最好例子之一。但抽象绝不限于艺术创作等高级认知行为，抽象是人类思维超越直接感官信息的独特能力。

大脑十分擅长构建和使用抽象。在最近的一项神经科学的研究中，研究人员通过结合使用强化学习算法和大脑成像技术，为我们展示了一种基于感官特征评估的抽象机制，这为教育和康复、精神疾病治疗以及人工智能新算法的开发开辟新的道路。

这项研究于 7 月 13 日以「 Value signals guide abstraction during learning 」为题发表在《eLife》杂志上。

抽象涵盖了我们与环境交互的方方面面。想象一下，你在森林里散步时需要穿过一条小溪，这一看似简单的行为却需要处理无数的视觉和听觉等特征。强化学习（RL）直接从高维感官输入（看到、听到河流）中输出行为（过河），会遇到计算瓶颈，而抽象表示已被认为是克服这一问题的有效解决方案。

抽象可以被认为是从更高维空间雕刻出简化的地图，其中细节已被删除，以便专注于更高阶的概念、类别或模式。那么，大脑中的抽象表征是如何构建的？

研究团队邀请志愿者进行反复学习事物关联规则的实验，并用功能性磁共振成像（fMRI）技术记录他们的大脑活动。接着，他们通过强化学习建模跟踪志愿者的评估过程并根据抽象程度分离他们的学习策略。

学习过程中价值建构的神经基质。（来源：论文）

论文合著者、京都 ATR 计算神经科学实验室主任 Mitsuo Kawato 博士具体解释了神经反馈操作：「通过机器学习和先进的神经成像技术，我们现在可以实时检测大脑中是否以及何时会出现低于意识阈值的心理表征。当我们给参与者一个小的奖励时，随着时间的推移，这种心理表征与奖励（价值）相匹配。通过这种方式，我们能够『欺骗』大脑使用这些新的有价值的心理表征来构建抽象思想。」

实验表明，通过学习，高价值的抽象表征越来越多地引导志愿者的行为，从而产生更好的选择和更高的主观信心，其中「价值」是形成目标依赖的抽象表示的关键因素。

通过简单的决策问题研究高级的抽象功能

领导该团队的京都国际高级电信研究所首席研究员 Aurelio Cortese 博士说：「这项研究在同类研究中非常独特，因为它使用基本的视觉刺激和简单的决策问题研究了抽象等高级复杂功能。」

该团队给实验参与者的问题是吃豆人更喜欢哪种水果，其中，吃豆人有三种特征：颜色、嘴巴方向和条纹方向。参与者会在选择后看到结果，从不断的试验中学习特征和水果的隐藏关联，并被告知关联规则发现的越快，奖励越高。

志愿者参与实验的学习任务和行为结果。（来源：论文）

「然而，这种简单性将我们直接带到了潜在机制，帮助解决了一个长期存在的问题神经科学文献：为什么我们总是在大脑中看到价值信号？抽象可能是关键。我们需要不断地以抽象的方式思考，不然我们的世界就太复杂了。」

研究人员基于经典的 RL 算法 Q-learning 提出了特征强化学习（Feature RL）和抽象强化学习（Abstract RL）。经过实验对比发现，为了更快地学习，智能体必须使用抽象强化学习，其他的策略则会导致任务块的完成速度变慢。

强化学习专家和价值计算的混合。（来源：论文）

价值信号和抽象思维的关系

该团队还进行了第二个实验，研究了价值在通过感觉皮层的定向效应促进抽象的因果作用。通过直接分析来测试特征评估指导学习中的抽象的因果假设，以奖励的形式人为地为特征表示增加价值导致抽象的使用增加。

通过神经反馈在感官表征中人工注入价值促进抽象。（来源：论文）

虽然价值和抽象在减少任务空间的维度方面似乎紧密相关，但其潜在的机制是什么？

论文合著者、伦敦大学学院认知神经科学研究所教授 Benedetto De Martino 博士认为：「价值传统上与享乐相关，例如巧克力棒的价值。价值可能对智力的某些方面至关重要这一结论或许是激进的。价值本身很可能是一种抽象，并且与决策中的任务状态概念紧密相关。」

但是，这项工作为价值在产生抽象思维中的作用提供了一个新的视角，即大脑中价值信号在复杂学习策略的发展中起着重要的算法作用。「这项研究是我们广泛努力的一部分，旨在了解人类思维的算法本质，并最终将这些知识转化为人工智能的新架构，并为精神疾病带来新的治疗方法。」