joshkaura
/

ppo-LunarLanding2-v2

Reinforcement Learning

custom-implementation

Eval Results (legacy)

Model card Files Files and versions

Metrics Training metrics Community

PPO Agent Playing CartPole-v1

Trained with a minimal CleanRL-style PPO implementation in Google Colab.

Results

Mean reward: 59.50
Std reward: 31.81

Downloads last month: -; Downloads are not tracked for this model. How to track

Video Preview

Reinforcement Learning

loading

Evaluation results

mean_reward on CartPole-v1
self-reported

59.50 +/- 31.81