PPO¶

class maze.train.trainers.ppo.ppo_trainer.PPO(algorithm_config: A2CAlgorithmConfig | PPOAlgorithmConfig | ImpalaAlgorithmConfig, rollout_generator: RolloutGenerator | DistributedActors, evaluator: RolloutEvaluator | None, model: TorchActorCritic, model_selection: BestModelSelection | None)¶: Proximal Policy Optimization trainer. Suitable for multi-step and multi-agent scenarios.