pushing model

Files changed (7) hide show

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ model-index:
       type: Pong-v5
     metrics:
     - type: mean_reward
-      value: -20.40 +/- 0.66
       name: mean_reward
       verified: false
 ---
@@ -46,7 +46,7 @@ curl -OL https://huggingface.co/cleanrl/Pong-v5-sebulba_ppo_envpool-seed1/raw/ma
 curl -OL https://huggingface.co/cleanrl/Pong-v5-sebulba_ppo_envpool-seed1/raw/main/pyproject.toml
 curl -OL https://huggingface.co/cleanrl/Pong-v5-sebulba_ppo_envpool-seed1/raw/main/poetry.lock
 poetry install --all-extras
-python sebulba_ppo_envpool.py --actor-device-ids 0 --learner-device-ids 1 2 3 4 --params-queue-timeout 0.02 --track --save-model --upload-model --hf-entity cleanrl --total-timesteps 200000 --env-id Pong-v5 --seed 1
 ```
 # Hyperparameters
@@ -74,7 +74,7 @@ python sebulba_ppo_envpool.py --actor-device-ids 0 --learner-device-ids 1 2 3 4
  'num_envs': 64,
  'num_minibatches': 4,
  'num_steps': 128,
- 'num_updates': 24,
  'params_queue_timeout': 0.02,
  'profile': False,
  'save_model': True,
@@ -82,7 +82,7 @@ python sebulba_ppo_envpool.py --actor-device-ids 0 --learner-device-ids 1 2 3 4
  'target_kl': None,
  'test_actor_learner_throughput': False,
  'torch_deterministic': True,
- 'total_timesteps': 200000,
  'track': True,
  'update_epochs': 4,
  'upload_model': True,

       type: Pong-v5
     metrics:
     - type: mean_reward
+      value: 17.90 +/- 1.97
       name: mean_reward
       verified: false
 ---
 curl -OL https://huggingface.co/cleanrl/Pong-v5-sebulba_ppo_envpool-seed1/raw/main/pyproject.toml
 curl -OL https://huggingface.co/cleanrl/Pong-v5-sebulba_ppo_envpool-seed1/raw/main/poetry.lock
 poetry install --all-extras
+python sebulba_ppo_envpool.py --actor-device-ids 0 --learner-device-ids 1 2 3 4 --params-queue-timeout 0.02 --track --save-model --upload-model --hf-entity cleanrl --env-id Pong-v5 --seed 1
 ```
 # Hyperparameters
  'num_envs': 64,
  'num_minibatches': 4,
  'num_steps': 128,
+ 'num_updates': 6103,
  'params_queue_timeout': 0.02,
  'profile': False,
  'save_model': True,
  'target_kl': None,
  'test_actor_learner_throughput': False,
  'torch_deterministic': True,
+ 'total_timesteps': 50000000,
  'track': True,
  'update_epochs': 4,
  'upload_model': True,

events.out.tfevents.1675614244.ip-26-0-128-121.2245265.0 → events.out.tfevents.1675616236.ip-26-0-142-109.1351408.0 RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4b502eb043bb4939c51d419cc3560d0e5c794acf9fb5f5ffc8361cfc73eac83
-size 39173

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ccfb749271751f36fb56879919b9ff0978aab3d403b28b67b8c575302c29f4a
+size 9358611

replay.mp4 CHANGED Viewed

Binary files a/replay.mp4 and b/replay.mp4 differ

sebulba_ppo_envpool.cleanrl_model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a38ade401b6608fba3b56897a8ba8ef47abe60c033f22c57ac5593eed995d76
-size 4378336

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce9a36ebe3d00a58f91122dc6e4cafc62de05a884ad7a03513d93cb9b6c9846b
+size 4378338

sebulba_ppo_envpool.py CHANGED Viewed

@@ -749,7 +749,6 @@ if __name__ == "__main__":
             ),
         ),
     )
-    print(devices)
     learner_devices = [devices[d_id] for d_id in args.learner_device_ids]
     actor_devices = [devices[d_id] for d_id in args.actor_device_ids]
     agent_state = flax.jax_utils.replicate(agent_state, devices=learner_devices)
@@ -876,7 +875,15 @@ if __name__ == "__main__":
             repo_name = f"{args.env_id}-{args.exp_name}-seed{args.seed}"
             repo_id = f"{args.hf_entity}/{repo_name}" if args.hf_entity else repo_name
-            push_to_hub(args, episodic_returns, repo_id, "PPO", f"runs/{run_name}", f"videos/{run_name}-eval", extra_dependencies=["jax", "envpool", "atari"])
     envs.close()
     writer.close()

             ),
         ),
     )
     learner_devices = [devices[d_id] for d_id in args.learner_device_ids]
     actor_devices = [devices[d_id] for d_id in args.actor_device_ids]
     agent_state = flax.jax_utils.replicate(agent_state, devices=learner_devices)
             repo_name = f"{args.env_id}-{args.exp_name}-seed{args.seed}"
             repo_id = f"{args.hf_entity}/{repo_name}" if args.hf_entity else repo_name
+            push_to_hub(
+                args,
+                episodic_returns,
+                repo_id,
+                "PPO",
+                f"runs/{run_name}",
+                f"videos/{run_name}-eval",
+                extra_dependencies=["jax", "envpool", "atari"],
+            )
     envs.close()
     writer.close()

videos/Pong-v5__sebulba_ppo_envpool__1__074d5429-3b5b-459e-9b88-8db711fce3f2-eval/0.mp4 ADDED Viewed

Binary file (161 kB). View file

videos/Pong-v5__sebulba_ppo_envpool__1__859fb3f0-0595-46e5-afd6-dda7445846f6-eval/0.mp4 DELETED Viewed

Binary file (42.2 kB)