PPO-Continuous for Multi-Agent Environments

这是一个基于 PyTorch 实现的连续动作空间 PPO（Proximal Policy Optimization）算法，专门用于多智能体(无人机/无人车)强化学习环境（MPE - Multi-Agent Particle Environment）。

demo演示

3uav-.mp4

uav10-1.mp4

uav10-2.mp4

特性

✅ 连续动作空间的 PPO 算法实现
✅ 多智能体环境支持
✅ 10 种训练技巧优化
✅ TensorBoard 训练可视化
✅ 自定义 MPE 环境（多无人机/无人车任务）

10 种训练技巧

Advantage Normalization - 优势函数归一化
State Normalization - 状态归一化
Reward Normalization - 奖励归一化
Reward Scaling - 奖励缩放
Policy Entropy - 策略熵正则化
Learning Rate Decay - 学习率衰减
Gradient Clip - 梯度裁剪
Orthogonal Initialization - 正交初始化
Adam Optimizer Epsilon Parameter - Adam 优化器参数设置
Tanh Activation Function - Tanh 激活函数

环境要求

Python 3.7-3.9，python版本不可以太新
PyTorch 1.8+
其他依赖见 requirements.txt

安装

克隆仓库：

git clone https://github.com/yezzzzye/mult_uav_ppo_case.git
cd mult_uav_ppo_case

安装依赖：

pip install -r requirements.txt

使用方法

训练

直接运行训练脚本：

python train.py

自定义参数

可以通过命令行参数自定义训练配置：

python train.py \
    --scenario_name simple_spread \
    --max_train_steps 7600000 \
    --max_episode_steps 50 \
    --evaluate_freq 500 \
    --save_freq 300 \
    --policy_dist Gaussian \
    --lr_a 8.8e-4 \
    --lr_c 8.8e-4 \
    --gamma 0.99

主要参数说明

--scenario_name: 场景名称（默认: simple_spread）
--max_train_steps: 最大训练步数（默认: 7600000）
--max_episode_steps: 每个回合最大步数（默认: 50）
--policy_dist: 策略分布类型，Gaussian 或 Beta（默认: Gaussian）
--restore: 是否加载已有模型（默认: False）
--save_dir: 模型保存目录（默认: ./data）
--model_dir: 模型加载目录

项目结构

mult_uav_ppo_case/
├── train.py              # 主训练脚本
├── ppo_continuous.py     # PPO 算法实现
├── normalization.py      # 归一化工具
├── replaybuffer.py       # 经验回放缓冲区
├── demo                  # case演示
├── mpe/                  # 多智能体环境
│   ├── MPE_env.py        # MPE 环境封装
│   ├── environment.py    # 多智能体环境基类
│   └── scenarios/        # 场景定义
└── requirements.txt      # 依赖包列表

训练结果

训练过程中的日志会保存在 TensorBoard 中，可以通过以下命令查看：

tensorboard --logdir=./data/train

贡献

欢迎提交 Issue 和 Pull Request！

参考

原始 PPO 论文: Proximal Policy Optimization Algorithms
中文教程: 知乎专栏

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
data/best/model/300		data/best/model/300
demo		demo
icon		icon
mpe		mpe
.gitignore		.gitignore
License		License
README.md		README.md
normalization.py		normalization.py
ppo_continuous.py		ppo_continuous.py
replaybuffer.py		replaybuffer.py
requirements.txt		requirements.txt
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PPO-Continuous for Multi-Agent Environments

demo演示

特性

10 种训练技巧

环境要求

安装

使用方法

训练

自定义参数

主要参数说明

项目结构

训练结果

贡献

参考

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

PPO-Continuous for Multi-Agent Environments

demo演示

特性

10 种训练技巧

环境要求

安装

使用方法

训练

自定义参数

主要参数说明

项目结构

训练结果

贡献

参考

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages