生物神经网络有一个重要的特点是高度可塑性,这使得自然生物体具有卓越的适应性,并且这种能力会影响神经系统的突触强度和拓扑结构。
然而,人工神经网络主要被设计为静态的、完全连接的结构,在面对不断变化的环境和新的输入时可能非常脆弱。尽管研究人员对在线学习和元学习进行了大量研究,但目前最先进的神经网络系统仍然使用离线学习,因为这与反向传播结合使用时更加简单。
那么,人工神经网络是否也能拥有类似于高度可塑性的性质?
来自哥本哈根信息技术大学的研究团队提出了一种自组织神经网络 ——LNDP,能够以活动和奖励依赖的方式实现突触和结构的可塑性。
- 论文链接:https://arxiv.org/pdf/2406.09787
- 项目链接:https://github.com/erwanplantec/LNDP
研究简介
2023 年,Najarro 等人提出了神经发育程序(NDP)模型。但 NDP 在时间上限制在环境前期阶段。因此,哥本哈根信息技术大学的研究团队通过扩展 NDP 框架来解决这一限制。
具体而言,研究团队提出了一种在智能体生命周期内能够实现可塑性和结构变化的机制 ——LNDP(Lifelong Neural Developmental programs)。该机制通过执行局部计算来实现,依赖于人工神经网络中每个神经元的局部活动和环境的全局奖励函数。LNDP 使得人工神经网络具备可塑性,并桥接了间接发育编码(indirect developmental encoding)和元学习的可塑性规则。
LNDP 由一组参数化组件组成,旨在定义神经和突触动态,并使人工神经网络具有结构可塑性(即突触可以动态添加或移除)。
受生物自发性活动(spontaneous activity,SA)的启发,研究团队进一步扩展了系统,引入了一种可实现预经验(pre-experience)发展的机制,用感觉神经元的简单可学习随机过程建模 SA,这使得一些组件可以复用。
研究团队基于 Graph Transformer 层(Dwivedi and Bresson, 2021)提出了一种 LNDP 实例,并在一组强化学习任务中使用协方差矩阵自适应进化策略(CMA-ES)优化了 LNDP。
具体来说,该研究采用了三个经典控制任务(Cartpole、Acrobot、Pendulum)以及一个具有非平稳动态的搜集任务(Foraging),这些任务需要智能体具备生命周期适应性。
总的来说,研究团队展示了从随机连接(或空)神经网络开始, LNDP 以活动和经验依赖的方式,自组织地形成了功能性网络,以有效解决控制性任务。
该研究还表明,在需要快速适应或具有非平稳动态、需要持续适应的环境中,结构可塑性能够改善结果。此外,该研究还展示了基于预环境自发性活动驱动的发展阶段在网络自组织形成功能单元方面的有效性。
实验结果
研究团队在所有任务上测试了 SP 模型(具有结构可塑性的模型)和非 SP 模型(无结构可塑性的模型)之间的差异,结果如下图 2 所示。
在具有非平稳动态的搜集任务(Foraging)上,研究团队发现 SP 模型始终比非 SP 模型达到更高的平均适应度,并且两者达到相似的最大适应度。这表明 SP 在非平稳情况下具有更好的适应性。
在 CartPole 环境中,对于没有 SA 的模型来说,在最开始就达到良好性能特别困难,而具有 SA 的模型在最初就显示出解决任务的固有技能。这展示出模型在非奖励依赖和自组织的方式下实现目标功能网络的能力。
更多研究细节,请参考原论文。