使用 Python TorchRL 进行多代理强化学习-51CTO.COM

随着多代理系统的出现,强化学习的复杂性不断增加。为了管理这种复杂性,像 TorchRL 这样的专门工具提供了一个强大的框架,可以开发和实验多代理强化学习(MARL)算法。本文将深入探讨如何使用 TorchRL 解决 MARL 问题,重点关注多代理环境中的近端策略优化(PPO)。

我们将使用 VMAS 模拟器,这是一个多机器人模拟器并且可以在 GPU 上进行并行训练。他的主要目标多个机器人必须导航到各自的目标,同时避免碰撞。

依赖

在开始之前,请确保安装以下依赖项:

!pip3 install torchrl  
 !pip3 install vmas  
 !pip3 install tqdm1.
2.
3.

理解近端策略优化 (PPO)

PPO 是一种策略梯度算法,它迭代地从环境中采样数据,并直接使用这些数据来优化策略。这个过程包括采样和训练两个阶段,数据在收集后立即进行训练更新。这种在线方法确保策略根据与环境最近的交互持续改进。

在线学习

在 PPO 中,学习过程依赖于一个评论家(critic),它评估策略所采取行动的质量。评论家估计给定状态的价值,通过比较预期回报与实际结果来指导策略优化。

在多代理设置中,我们部署多个策略,每个代理一个,通常以分散的方式运作。每个代理的策略仅根据其局部观察来决定其行动。但是评论家可以是集中的或分散的:

MAPPO : 评论家是集中的,以全局观察或连接的代理观察作为输入。这种方法在可获得全局状态信息的集中式训练场景中有益。
IPPO : 评论家是分散的,仅依赖于局部观察。这种设置支持分散式训练,代理只需要局部信息。

集中式评论家有助于缓解多个代理同时学习时出现的非平稳性问题,但可能因输入的高维度性而面临挑战。

TorchRL

TorchRL是一个基于PyTorch的强化学习（Reinforcement Learning, RL）库，专为研究人员和开发者设计，旨在提供一个灵活、高效的框架来实现和实验各种RL算法。

与PyTorch深度集成：TorchRL充分利用了PyTorch的生态系统，使用户能够无缝地将RL算法与深度学习模型结合。
模块化设计：库提供了可组合的组件，允许用户轻松构建和定制RL算法。
高性能：TorchRL注重效率，支持GPU加速和并行化，以加快训练和推理速度。
多环境支持：兼容多种RL环境，包括OpenAI Gym、DeepMind Control Suite等。
丰富的算法实现：内置多种流行的RL算法，如DQN、PPO、SAC等。
扩展性：易于扩展和添加新的算法、环境和功能。

下面代码我们将使用TorchRL来完成我们的目标

1、设置超参数

我们从定义 MARL 设置的超参数开始。这些参数控制模拟和训练过程的各个方面,如设备类型、批量大小、学习率和 PPO 特定设置。

import torch  
 from torch import multiprocessing  
   
 # 设置设备  
 is_fork = multiprocessing.get_start_method() == "fork"  
 device = torch.device(0) if torch.cuda.is_available() and not is_fork else torch.device("cpu")  
 vmas_device = device  # 运行 VMAS 模拟器的设备  
 # 采样和训练参数  
 frames_per_batch = 6000    
 n_iters = 10    
 total_frames = frames_per_batch * n_iters  
 # 训练细节  
 num_epochs = 30    
 minibatch_size = 400    
 lr = 3e-4    
 max_grad_norm = 1.0    
 # PPO 参数  
 clip_epsilon = 0.2    
 gamma = 0.99    
 lmbda = 0.9    
 entropy_eps = 1e-41.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.

2、创建环境

TorchRL 与 VMAS 的集成允许我们高效地创建和管理多代理环境。在我们环境中多个代理必须在 LIDAR 传感器的引导下导航到各自的目标,同时避免碰撞。

from torchrl.envs.libs.vmas import VmasEnv  
   
 max_steps = 100    
 num_vmas_envs = frames_per_batch // max_steps    
 scenario_name = "navigation"  
 n_agents = 3  
 env = VmasEnv(  
     scenario=scenario_name,  
     num_envs=num_vmas_envs,  
     continuous_actions=True,  
     max_steps=max_steps,  
     device=vmas_device,  
     n_agents=n_agents,  
 )1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.

3、策略设计

策略网络在 PPO 中至关重要,它负责根据代理观察生成动作。鉴于环境中的连续动作空间,我们将使用 Tanh-Normal 分布来模拟动作，这样还可以决定是否在代理之间共享参数,在计算效率和行为多样性之间权衡。

from torch.nn import Sequential, Tanh  
 from tensordict.nn import TensorDictModule  
 from torchrl.modules import MultiAgentMLP, ProbabilisticActor, TanhNormal  
 from tensordict.nn.distributions import NormalParamExtractor  
   
 share_parameters_policy = True  
 # 定义策略网络  
 policy_net = Sequential(  
     MultiAgentMLP(  
         n_agent_inputs=env.observation_spec["agents", "observation"].shape[-1],  
         n_agent_outputs=2 * env.action_spec.shape[-1],  
         n_agents=env.n_agents,  
         centralised=False,  
         share_params=share_parameters_policy,  
         device=device,  
         depth=2,  
         num_cells=256,  
         activation_class=Tanh,  
    ),  
     NormalParamExtractor(),  
 )  
 # 将网络包装在 TensorDictModule 中  
 policy_module = TensorDictModule(  
     policy_net,  
     in_keys=[("agents", "observation")],  
     out_keys=[("agents", "loc"), ("agents", "scale")],  
 )  
 # 创建概率性行动者  
 policy = ProbabilisticActor(  
     module=policy_module,  
     spec=env.unbatched_action_spec,  
     in_keys=[("agents", "loc"), ("agents", "scale")],  
     out_keys=[env.action_key],  
     distribution_class=TanhNormal,  
     distribution_kwargs={  
         "low": env.unbatched_action_spec[env.action_key].space.low,  
         "high": env.unbatched_action_spec[env.action_key].space.high,  
    },  
     return_log_prob=True,  
     log_prob_key=("agents", "sample_log_prob"),  
 )1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.

4、评论家网络设计

评论家网络评估状态值,指导策略更新。可以根据使用 MAPPO 还是 IPPO 来选择集中式或分散式评论家。在代理之间共享参数可以加速训练,但是可能导致同质化策略。

share_parameters_critic = True  
 mappo = True  # 设置为 False 以使用 IPPO  
   
 critic_net = MultiAgentMLP(  
     n_agent_inputs=env.observation_spec["agents", "observation"].shape[-1],  
     n_agent_outputs=1,    
     n_agents=env.n_agents,  
     centralised=mappo,  
     share_params=share_parameters_critic,  
     device=device,  
     depth=2,  
     num_cells=256,  
     activation_class=Tanh,  
 )  
 critic = TensorDictModule(  
     module=critic_net,  
     in_keys=[("agents", "observation")],  
     out_keys=[("agents", "state_value")],  
 )1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.

5、数据收集

TorchRL 中的数据收集通过设计用于自动处理环境重置、动作计算和环境步进的类得到简化。所以我们可以直接使用 SyncDataCollector 来收集训练数据。

from torchrl.collectors import SyncDataCollector  
   
 collector = SyncDataCollector(  
     env,  
     policy,  
     device=vmas_device,  
     storing_device=device,  
     frames_per_batch=frames_per_batch,  
     total_frames=total_frames,  
 )1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

6、训练循环

训练循环将环境、策略、评论家和数据收集器结合在一起,通过采样和训练阶段的迭代来优化代理的性能。

from torchrl.data.replay_buffers import ReplayBuffer  
 from torchrl.data.replay_buffers.samplers import SamplerWithoutReplacement  
 from torchrl.data.replay_buffers.storages import LazyTensorStorage  
 from torchrl.objectives import ClipPPOLoss, ValueEstimators  
 from tqdm import tqdm  
   
 # 重放缓冲区设置  
 replay_buffer = ReplayBuffer(  
     storage=LazyTensorStorage(  
         size=frames_per_batch,  
         device=device,  
    ),  
     sampler=SamplerWithoutReplacement(),  
 )  
 # PPO 损失设置  
 ppo_loss = ClipPPOLoss(  
     actor=policy,  
     critic=critic,  
     clip_epsilon=clip_epsilon,  
     entropy_bonus=entropy_eps,  
     value_loss_coef=0.5,  
     gamma=gamma,  
     lam=lmbda,  
     advantage_normalization=True,  
 )  
 # 训练循环  
 for i in tqdm(range(n_iters)):  
     batch = collector.next()  
     replay_buffer.extend(batch)  
     for _ in range(num_epochs):  
         for minibatch in replay_buffer.sample(minibatch_size):  
             loss = ppo_loss(minibatch)  
             loss.backward()  
             torch.nn.utils.clip_grad_norm_(ppo_loss.parameters(), max_grad_norm)  
             optimizer.step()  
             optimizer.zero_grad()1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.

这样我们完整的代码就完成了，可以看到通过TorchRL，可以减少我们很多的代码开发工作。

总结

本文提供了使用 TorchRL 和 PPO 实现 MARL 解决方案的全面指南。通过这些步骤,可以在多代理环境中训练代理以导航复杂任务,同时利用 GPU 加速模拟和并行计算的力量。无论选择集中式还是分散式评论家,TorchRL 都提供了设计和实验不同 MARL 架构,可以帮助你解决多代理强化学习的复杂性。