从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

发布于 2024-8-28 14:49

浏览

0收藏

随着物流行业的快速发展，智能仓库技术应运而生，旨在提高仓储效率和灵活性。传统仓库依赖传送带等固定设备，虽然能够完成基本的物料搬运任务，但其灵活性差，难以适应不断变化的需求。智能仓库通过引入多智能体系统，利用自主移动的机器人来完成货物的搬运和分拣，大大提升了仓储操作的效率和灵活性。然而智能仓库面临的一个关键挑战是如何有效地进行目标分配和路径规划（TAPF），以确保多个机器人能够高效协同工作，避免路径冲突和资源浪费。

在智能仓库中，TAPF问题涉及为每个机器人分配任务（如搬运货物）并规划其行进路径，以确保任务能够高效完成且路径不发生冲突。TAPF问题的复杂性在于其通常是一个NP难问题，具有巨大的搜索空间。传统方法通常将目标分配和路径规划分开处理，但这种方法忽略了两者之间的相互影响，可能导致次优的解决方案。合理的目标分配不仅可以有效减少机器人的路径长度，提高操作效率，还能帮助避免不同机器人之间的路径冲突。因此，解决TAPF问题对于智能仓库的高效运行至关重要。

8 月 27 日发表的论文《Multi-Agent Target Assignment and Path Finding for Intelligent Warehouse: A Cooperative Multi-Agent Deep Reinforcement Learning Perspective》提出了一种基于合作多智能体深度强化学习（RL）的方法，首次将TAPF问题建模为合作多智能体深度RL问题，并同时解决目标分配和路径规划。具体创新点包括：

首次建模：论文首次将TAPF问题建模为合作多智能体深度RL问题，填补了现有研究的空白。
物理动态特性：在路径规划阶段，论文考虑了机器人的物理动态特性（如速度和加速度），这在以往研究中较为少见。
实验验证：通过实验验证，论文方法在各种任务设置中表现良好，目标分配合理，路径接近最短，且比基线方法更高效。

这些创新点不仅为智能仓库中的TAPF问题提供了新的解决思路，也展示了合作多智能体深度RL在实际应用中的潜力。

论文的研究团队来自哈尔滨工业大学（深圳）控制科学与工程系，成员包括Qi Liu, Jianqi Gao, Dongjie Zhu, Xizheng Pang, Pengbin Chen, Jingxiang Guo, Yanjie Li。团队在多智能体系统、深度强化学习和智能仓库技术方面具有丰富的研究经验和技术积累。通过本研究，团队展示了其在智能仓库领域的创新能力和技术实力，为未来的研究和应用奠定了坚实基础。

背景与动机

传统仓库技术主要依赖于传送带、叉车和固定的货架系统来完成物料搬运和存储。这些系统虽然在一定程度上提高了仓储效率，但其局限性也十分明显。首先，传统仓库系统缺乏灵活性，难以适应不断变化的订单需求和仓储布局调整。其次，传送带和固定货架系统的扩展性差，增加新的存储空间或搬运路径往往需要大规模的硬件改造。此外，传统仓库系统的自动化程度有限，依赖大量人工操作，导致人力成本高且容易出现人为错误。

智能仓库系统的优势

智能仓库系统通过引入多智能体系统（如自主移动机器人），克服了传统仓库技术的诸多局限性。智能仓库的主要优势包括：

高灵活性：智能仓库中的自主移动机器人可以根据实时需求动态调整搬运路径和任务分配，适应性强。
高扩展性：智能仓库系统可以通过增加或减少机器人数量来灵活调整仓储能力，无需大规模硬件改造。
高效率：多智能体系统能够并行处理多个任务，显著提高了仓储操作效率。
低人力成本：智能仓库系统的高度自动化减少了对人工操作的依赖，降低了人力成本和人为错误的风险。

现有TAPF问题解决方法的不足

在智能仓库中，目标分配与路径规划（TAPF）问题是确保多个机器人高效协同工作的关键。然而现有的TAPF问题解决方法存在一些不足之处。

分离处理：传统方法通常将目标分配和路径规划分开处理，忽略了两者之间的相互影响。这种方法可能导致次优的解决方案，无法充分优化整体效率。

物理动态特性忽略：许多现有方法在路径规划中忽略了机器人的物理动态特性（如速度和加速度），导致规划路径不够精确，影响实际执行效果。

时间效率低：传统方法在处理复杂任务场景时，计算时间迅速增加，难以满足实际应用中的实时性要求。

论文提出的基于合作多智能体深度强化学习的方法，旨在同时解决目标分配和路径规划问题，并考虑机器人的物理动态特性，从而克服现有方法的不足，提高智能仓库系统的整体效率和实用性。

TAPF问题的建模

目标分配与路径规划（TAPF）问题是智能仓库系统中的核心问题之一。TAPF问题包括两个主要部分：多智能体任务分配（MATA）和多智能体路径寻找（MAPF）。在MATA中，系统需要根据订单需求为每个智能体分配特定任务，而在MAPF中，系统需要规划每个智能体的路径，确保其在执行任务时不会与其他智能体发生冲突。TAPF问题通常是NP难问题，具有巨大的搜索空间，直接求解非常困难。传统方法通常将这两个问题分开处理，但这种方法忽略了任务分配和路径规划之间的相互影响，可能导致次优的解决方案。

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案-AI.x社区

图1：将TAPF建模为MARL问题

多智能体强化学习（MARL）是一种处理多个智能体在共同环境中交互的学习方法。MARL的目标是学习一个策略，使所有智能体能够协同工作，完成共同目标。MARL可以通过以下几个关键元素来建模。

状态空间（S）：表示系统的所有可能状态。
动作空间（A）：表示智能体可以执行的所有可能动作。
状态转移函数（P）：描述系统从一个状态转移到另一个状态的概率。
奖励函数（r）：定义智能体在执行某个动作后获得的奖励。
折扣因子（γ）：用于平衡即时奖励和未来奖励的权重。
时间范围（T）：表示决策过程的时间跨度。

在MARL中，每个智能体根据其观测到的环境状态选择动作，并通过与环境和其他智能体的交互来学习最优策略。合作多智能体深度强化学习（Cooperative MARL）特别适用于需要多个智能体协同工作的场景，如智能仓库中的TAPF问题。

在智能仓库的TAPF问题中，考虑智能体的物理动态特性（如速度和加速度）对于提高路径规划的精确性和实际执行效果至关重要。传统方法通常只关注智能体的下一个位置，而忽略了其物理动态特性，这可能导致规划路径不够精确，影响实际执行效果。

论文提出的方法首次在TAPF问题中考虑了智能体的物理动态特性。具体来说，智能体的动作空间是连续的，表示智能体在四个基本方向上的移动速度。通过计算智能体的速度和加速度，可以更准确地规划其路径，确保路径规划的实际可行性和高效性。

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案-AI.x社区

图2：智能体的物理动力学

通过将TAPF问题建模为合作多智能体深度强化学习问题，并考虑智能体的物理动态特性，论文提出的方法能够更有效地解决智能仓库中的目标分配与路径规划问题，提高系统的整体效率和实用性。

具体方法

1. TAPF问题的MARL建模

状态空间、动作空间与奖励函数的定义

在论文中，目标分配与路径规划（TAPF）问题被建模为一个合作多智能体强化学习（MARL）问题。具体来说，系统的状态空间（S）、动作空间（A）和奖励函数（r）被定义如下：

状态空间（S）：每个智能体的观测包含其自身的位置和速度、所有任务的相对位置、其他智能体的相对位置以及邻近障碍物的相对位置。通过这些观测，智能体能够感知其周围环境并做出决策。

动作空间（A）：智能体的动作空间是连续的，表示智能体在四个基本方向上的移动速度（左、右、下、上）。最终动作是四个方向速度的向量和。

奖励函数（r）：奖励函数被定义为多个部分的组合，包括任务成功奖励、任务到智能体的距离奖励、智能体与障碍物碰撞的惩罚以及智能体之间碰撞的惩罚。具体公式如下：

成功奖励：

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案-AI.x社区

其中n表示满足条件的元素数量。

距离奖励：

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案-AI.x社区

碰撞惩罚（障碍物）：

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案-AI.x社区

其中n表示满足条件的元素数量。

碰撞惩罚（智能体）：

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案-AI.x社区

其中n表示满足条件的元素数量。

智能体的物理动态特性

论文首次在TAPF问题中考虑了智能体的物理动态特性。具体来说，智能体的动作不仅仅是位置的变化，还包括速度和加速度的计算。通过计算智能体在四个基本方向上的力（F⃗x, F⃗−x, F⃗y, F⃗−y），根据牛顿第二定律可以得到加速度，然后通过加速度计算速度，最终得到智能体的动作。这种方法使得路径规划更加精确，能够更好地反映实际执行中的物理特性。

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案-AI.x社区

图3：智能体的动作空间

2. 使用MADDPG算法解决TAPF问题

策略网络与评论者网络的更新

在论文中，使用多智能体深度确定性策略梯度（MADDPG）算法来解决TAPF问题。由于智能体是同质的，它们可以共享相同的策略网络，从而提高学习效率。具体来说，策略参数通过集中评论者Q进行迭代更新，评论者参数通过最小化损失函数进行优化：

策略参数的更新公式为：

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案-AI.x社区

其中，xt和at分别表示所有智能体在时间步t的观测和动作的拼接，D表示包含样本的重放缓冲区。

评论者参数的优化公式为：

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案-AI.x社区

其中，yt为目标评论者网络的值，定义为：

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案-AI.x社区

奖励共享与执行阶段的策略

在训练过程中，智能体通过共享奖励来学习合作策略。在执行阶段，仅使用策略网络π，其输入为各智能体的观测，输出为施加在智能体上的力。根据智能体的物理动态特性，可以计算出智能体的动作。具体来说在执行阶段，每个智能体仅依赖其局部观测进行决策，从而实现分散执行。

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案-AI.x社区

图4：任务和智能体的距离矩阵。

通过这种方法，论文提出的解决方案能够同时解决目标分配和路径规划问题，提高智能仓库系统的整体效率和实用性。

实验结果

1. 目标分配与路径规划性能验证

为了验证论文方法在目标分配与路径规划（TAPF）问题上的性能，研究团队在不同难度的智能仓库场景中进行了实验。实验设置了五个不同难度的场景：两个智能体-两个任务、两个智能体-四个任务、五个智能体-五个任务、五个智能体-十个任务和五个智能体-二十个任务。

实验结果显示，在所有不同难度的场景中，论文方法的平均回报值均呈现出单调增加的趋势，验证了方法的稳定性。具体表现如下：

简单任务（如两个智能体-两个任务）：目标分配和路径规划均表现良好，任务分配合理，路径接近最短。

复杂任务（如五个智能体-二十个任务）：尽管任务难度逐渐增加，论文方法依然能够合理分配任务，并规划出接近最短的路径。

这些结果表明，论文方法在各种任务设置中均能有效解决TAPF问题，具有较高的适应性和稳定性。

2. 合作能力验证

为了验证智能体在冲突场景下的合作能力，研究团队设计了一个特定的冲突场景。在该场景中，两个智能体的任务路径必然会发生冲突。实验结果显示，智能体能够在冲突点互相避让，然后继续导航到各自的任务点，成功完成任务。

具体表现为：

智能体1和智能体2：在冲突点互相避让，分别沿着红色和青色轨迹完成导航任务。

这一结果验证了论文方法在合作多智能体深度强化学习中的有效性，智能体能够在复杂环境中学会合作，避免冲突，提高任务完成效率。

3. 时间效率验证

时间效率是实际应用中一个重要的考量因素。研究团队将论文方法与传统方法在时间消耗上的表现进行了对比。传统方法先解决目标分配问题（TA），然后进行路径规划（PF），而论文方法同时解决这两个问题。

实验结果显示：

简单任务（如两个智能体-两个任务）：传统方法的时间消耗可以接受。

复杂任务（如五个智能体-二十个任务）：传统方法的时间消耗迅速增加，难以满足实时性要求。相比之下，论文方法在所有不同难度的任务中均能高效地提供策略，验证了其时间效率。

这些结果表明，论文方法在时间效率上具有显著优势，能够更好地满足实际应用中的需求。

实验结果展示了论文方法在智能仓库中的潜在应用价值。通过同时解决目标分配和路径规划问题，并考虑智能体的物理动态特性，论文方法不仅提高了系统的整体效率和稳定性，还展示了其在实际应用中的高效性和实用性。这为智能仓库系统的进一步发展和优化提供了新的思路和技术支持。

讨论与未来工作

论文方法首次将目标分配与路径规划（TAPF）问题建模为合作多智能体深度强化学习（MARL）问题，能够同时解决这两个关键问题，避免了传统方法中分离处理带来的次优解。在路径规划中考虑了智能体的物理动态特性（如速度和加速度），使得规划路径更加精确，能够更好地反映实际执行中的物理特性。实验结果表明，论文方法在各种任务设置中均表现出较高的时间效率，能够满足实际应用中的实时性要求。智能体在冲突场景中能够学会合作，避免路径冲突，提高任务完成效率。

尽管论文方法在时间效率上表现优异，但在处理大规模智能体和任务时，计算复杂度仍然较高，可能需要进一步优化算法以提高可扩展性。论文方法在特定的智能仓库环境中表现良好，但在不同类型的仓库环境中，可能需要对算法进行调整和优化，以适应不同的应用场景。深度强化学习方法通常需要大量的训练时间和计算资源，论文方法在实际应用中可能需要较长的训练周期。

进一步优化算法以降低计算复杂度，提高可扩展性，使其能够处理更大规模的智能体和任务。研究如何使算法在不同类型的智能仓库环境中具有更好的适应性，提升其通用性。探索实时学习和在线更新的方法，使智能体能够在实际操作中不断学习和优化策略，提升系统的动态响应能力。结合视觉、语音等多模态信息，提升智能体的感知能力和决策精度。

论文方法在智能仓库中的成功应用展示了其在智能物流领域的巨大潜力，未来可以推广到更广泛的物流场景中，如智能配送中心和无人仓库。在智能制造领域，论文方法可以用于优化生产线上的物料搬运和任务分配，提高生产效率和灵活性。在服务机器人领域，论文方法可以用于多机器人协作任务，如清洁机器人和配送机器人，提升其协作能力和任务完成效率。

结论

论文提出了一种基于合作多智能体深度强化学习的方法，首次将智能仓库中的目标分配与路径规划（TAPF）问题建模为合作多智能体深度强化学习问题，并同时解决这两个关键问题。通过实验验证，论文方法在各种任务设置中均表现良好，目标分配合理，路径接近最短，且比基线方法更高效。论文方法在时间效率和合作能力上表现出显著优势，展示了其在智能仓库中的潜在应用价值。

论文方法通过同时解决目标分配和路径规划问题，并考虑智能体的物理动态特性，不仅提高了智能仓库系统的整体效率和稳定性，还展示了其在实际应用中的高效性和实用性。未来，论文方法有望在智能物流、智能制造和服务机器人等领域得到广泛应用，为这些领域的进一步发展和优化提供新的技术支持和解决方案。（END）

参考资料：https://arxiv.org/pdf/2408.13750

本文转载自大噬元兽，作者： FlerkenS

标签

智能仓库

深度学习

机器人

51CTO

51CTO博客

51CTO学堂

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

背景与动机

TAPF问题的建模

实验结果

1. 目标分配与路径规划性能验证

2. 合作能力验证

3. 时间效率验证

讨论与未来工作

结论

目录