dada22231
/

9673be0a-6c60-4635-b850-f4bc6dd20a2f

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96af400a30753b93e4290024c6e85732070afa30f7532379bb3c716d791f1580
 size 981512984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e416f0d868f250fb4fe48bc32a34264e5934e660b3cc400e50eedcffe33124f7
 size 981512984

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.331360946745562,
   "eval_steps": 500,
-  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -27308,11 +27308,1961 @@
       "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
       "rewards/reward_high_identity_attack_score/std": 0.0,
       "step": 1050
     }
   ],
   "logging_steps": 1,
   "max_steps": 1200,
-  "num_input_tokens_seen": 582741,
   "num_train_epochs": 10,
   "save_steps": 75,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.923076923076923,
   "eval_steps": 500,
+  "global_step": 1125,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
       "rewards/reward_high_identity_attack_score/std": 0.0,
       "step": 1050
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.339250493096648,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00013638069503940642,
+      "kl": 4.820525646209717e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 583217.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1051
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 128.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 8.9375,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.347140039447732,
+      "frac_reward_zero_std": 0.9375,
+      "grad_norm": 0.04354625940322876,
+      "kl": 0.001021722739096731,
+      "learning_rate": 2e-06,
+      "loss": 0.0001,
+      "num_tokens": 584039.0,
+      "reward": 0.000905577908270061,
+      "reward_std": 5.816980319650611e-07,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001801048929337412,
+      "rewards/reward_high_identity_attack_score/std": 1.0084442692459561e-05,
+      "step": 1052
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.355029585798816,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 4.138869553571567e-05,
+      "kl": 2.4419277906417847e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 584549.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1053
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.362919132149901,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00010592924081720412,
+      "kl": 5.028769373893738e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 585049.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1054
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.370808678500985,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0005381772061809897,
+      "kl": 0.00029714033007621765,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 585497.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1055
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.378698224852071,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0006338380044326186,
+      "kl": 0.00025733932852745056,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 585949.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1056
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.386587771203155,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.009605144150555134,
+      "kl": 0.003907311707735062,
+      "learning_rate": 2e-06,
+      "loss": 0.0002,
+      "num_tokens": 586467.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1057
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.39447731755424,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0017512802733108401,
+      "kl": 0.0007003918290138245,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 586991.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1058
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.402366863905325,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00031084357760846615,
+      "kl": 0.00015052035450935364,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 587573.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1059
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.41025641025641,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0005003889673389494,
+      "kl": 0.00018950924277305603,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 588023.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1060
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.418145956607495,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00017963761638384312,
+      "kl": 0.0001412220299243927,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 588537.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1061
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.42603550295858,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 3.474459663266316e-05,
+      "kl": 1.461803913116455e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 589085.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1062
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.433925049309664,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0010317455744370818,
+      "kl": 0.00035093724727630615,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 589591.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1063
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.44181459566075,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 7.65090953791514e-05,
+      "kl": 3.806501626968384e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 590115.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1064
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.449704142011834,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 2.855510319932364e-05,
+      "kl": 1.4398247003555298e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 590643.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1065
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.45759368836292,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0002876239304896444,
+      "kl": 0.00012814253568649292,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 591191.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1066
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.465483234714004,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0001350129023194313,
+      "kl": 6.249174475669861e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 591745.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1067
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.47337278106509,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0002275337028549984,
+      "kl": 0.00011239573359489441,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 592273.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1068
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.481262327416173,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.03512755408883095,
+      "kl": 0.0069213807582855225,
+      "learning_rate": 2e-06,
+      "loss": 0.0003,
+      "num_tokens": 592793.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1069
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.489151873767259,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00013964457320980728,
+      "kl": 5.913153290748596e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 593343.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1070
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.497041420118343,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00017951025802176446,
+      "kl": 0.0001367628574371338,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 593903.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1071
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.504930966469429,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00011877052747877315,
+      "kl": 4.143267869949341e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 594477.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1072
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.512820512820513,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0001373274135403335,
+      "kl": 5.389004945755005e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 595039.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1073
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.520710059171599,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 5.3857456805417314e-05,
+      "kl": 2.3078173398971558e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 595549.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1074
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 2.0,
+      "completions/max_terminated_length": 2.0,
+      "completions/mean_length": 1.0625,
+      "completions/mean_terminated_length": 1.0625,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.528599605522682,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.02848130278289318,
+      "kl": 0.005706154741346836,
+      "learning_rate": 2e-06,
+      "loss": 0.0003,
+      "num_tokens": 596063.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1075
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.536489151873766,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.005397849250584841,
+      "kl": 0.002629391849040985,
+      "learning_rate": 2e-06,
+      "loss": 0.0001,
+      "num_tokens": 596561.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1076
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.544378698224852,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 8.72955861268565e-05,
+      "kl": 2.822279930114746e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 597085.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1077
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.552268244575936,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00018880993593484163,
+      "kl": 9.92119312286377e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 597599.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1078
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.560157790927022,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 7.275133248185739e-05,
+      "kl": 3.4924596548080444e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 598133.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1079
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.568047337278106,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00011954068031627685,
+      "kl": 4.998594522476196e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 598653.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1080
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.575936883629192,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 7.469802949344739e-05,
+      "kl": 4.254281520843506e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 599185.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1081
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.583826429980276,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00014623381139244884,
+      "kl": 5.622208118438721e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 599753.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1082
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.591715976331361,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 8.390660514123738e-05,
+      "kl": 3.372877836227417e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 600273.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1083
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.599605522682445,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0006358494283631444,
+      "kl": 0.00034865736961364746,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 600887.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1084
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.607495069033531,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0005096627282910049,
+      "kl": 0.00020300596952438354,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 601421.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1085
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.615384615384615,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00031507035600952804,
+      "kl": 0.00016472488641738892,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 601917.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1086
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.6232741617357,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0010786071652546525,
+      "kl": 0.0004771128296852112,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 602437.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1087
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.631163708086785,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0001308958017034456,
+      "kl": 3.4771859645843506e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 602983.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1088
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.63905325443787,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.001695003011263907,
+      "kl": 0.0014914311468601227,
+      "learning_rate": 2e-06,
+      "loss": 0.0001,
+      "num_tokens": 603559.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1089
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.646942800788954,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.000481656810734421,
+      "kl": 0.00014894083142280579,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 604165.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1090
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.65483234714004,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 8.332054130733013e-05,
+      "kl": 2.9999762773513794e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 604713.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1091
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 128.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 4.96875,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.662721893491124,
+      "frac_reward_zero_std": 0.9375,
+      "grad_norm": 0.3093504309654236,
+      "kl": 0.0011588901397772133,
+      "learning_rate": 2e-06,
+      "loss": 0.0664,
+      "num_tokens": 605368.0,
+      "reward": 0.0009147582459263504,
+      "reward_std": 5.230402166489512e-06,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001819307217374444,
+      "rewards/reward_high_identity_attack_score/std": 4.160971911915112e-06,
+      "step": 1092
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.67061143984221,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 9.948049410013482e-05,
+      "kl": 3.5762786865234375e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 605900.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1093
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.678500986193294,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 4.30829131801147e-05,
+      "kl": 2.0891427993774414e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 606484.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1094
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.68639053254438,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.007058305200189352,
+      "kl": 0.003930628299713135,
+      "learning_rate": 2e-06,
+      "loss": 0.0002,
+      "num_tokens": 607062.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1095
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 128.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 8.9375,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.694280078895464,
+      "frac_reward_zero_std": 0.9375,
+      "grad_norm": 0.33532580733299255,
+      "kl": 0.00036744270619237795,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 607814.0,
+      "reward": 0.0009117487934418023,
+      "reward_std": 9.967894584406167e-06,
+      "rewards/reward_high_identity_attack_score/mean": 0.00018133220146410167,
+      "rewards/reward_high_identity_attack_score/std": 7.746834853605833e-06,
+      "step": 1096
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.702169625246547,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 8.960484410636127e-05,
+      "kl": 3.2573938369750977e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 608344.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1097
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.710059171597633,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 4.2808584112208337e-05,
+      "kl": 2.2396445274353027e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 608850.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1098
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.717948717948717,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 5.318546391208656e-05,
+      "kl": 1.4428049325942993e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 609464.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1099
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.725838264299803,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00010975827171932906,
+      "kl": 5.116313695907593e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 610020.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1100
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.733727810650887,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00043700210517272353,
+      "kl": 0.0002166740596294403,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 610506.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1101
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.741617357001973,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 8.66984628373757e-05,
+      "kl": 4.193931818008423e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 611050.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1102
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.749506903353057,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0009264847612939775,
+      "kl": 0.00016462430357933044,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 611526.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1103
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.757396449704142,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00021662222570739686,
+      "kl": 0.00013697892427444458,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 612030.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1104
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.765285996055226,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.09041354060173035,
+      "kl": 0.008402518928050995,
+      "learning_rate": 2e-06,
+      "loss": 0.0004,
+      "num_tokens": 612550.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1105
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.773175542406312,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0002531117352191359,
+      "kl": 0.0001450851559638977,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 613012.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1106
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.781065088757396,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0003755576617550105,
+      "kl": 0.0002874433994293213,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 613528.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1107
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.788954635108482,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00029925949638709426,
+      "kl": 0.0001658126711845398,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 614084.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1108
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.796844181459566,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.009911871515214443,
+      "kl": 0.0037598907947540283,
+      "learning_rate": 2e-06,
+      "loss": 0.0002,
+      "num_tokens": 614606.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1109
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.804733727810651,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.005583275109529495,
+      "kl": 0.0005717538297176361,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 615150.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1110
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.812623274161735,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0004297482082620263,
+      "kl": 0.00023529306054115295,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 615738.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1111
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.820512820512821,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0001023484073812142,
+      "kl": 5.105137825012207e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 616332.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1112
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.828402366863905,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0028757709078490734,
+      "kl": 0.0007946379482746124,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 616878.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1113
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.83629191321499,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 5.8135072322329506e-05,
+      "kl": 1.959875226020813e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 617402.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1114
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.844181459566075,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00013063322694506496,
+      "kl": 6.257742643356323e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 618036.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1115
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.85207100591716,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0002437905059196055,
+      "kl": 0.0001697726547718048,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 618518.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1116
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.859960552268245,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.08250457793474197,
+      "kl": 0.1591484621167183,
+      "learning_rate": 2e-06,
+      "loss": 0.008,
+      "num_tokens": 619054.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1117
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.867850098619328,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0001296801638090983,
+      "kl": 8.263811469078064e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 619612.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1118
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.875739644970414,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 6.869369826745242e-05,
+      "kl": 3.816187381744385e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 620232.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1119
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.883629191321498,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00018871534848585725,
+      "kl": 9.661540389060974e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 620756.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1120
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.891518737672584,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0008106045424938202,
+      "kl": 0.00044995173811912537,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 621268.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1121
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.899408284023668,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.003337966976687312,
+      "kl": 0.0018642731010913849,
+      "learning_rate": 2e-06,
+      "loss": 0.0001,
+      "num_tokens": 621860.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1122
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.907297830374754,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00014351322897709906,
+      "kl": 5.163252353668213e-05,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 622386.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1123
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.915187376725838,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.00017613630916457623,
+      "kl": 0.00010449811816215515,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 623028.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1124
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 1.0,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 8.923076923076923,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0006031371303834021,
+      "kl": 0.00023985281586647034,
+      "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 623634.0,
+      "reward": 0.0009184567024931312,
+      "reward_std": 0.0,
+      "rewards/reward_high_identity_attack_score/mean": 0.0001826662919484079,
+      "rewards/reward_high_identity_attack_score/std": 0.0,
+      "step": 1125
     }
   ],
   "logging_steps": 1,
   "max_steps": 1200,
+  "num_input_tokens_seen": 623634,
   "num_train_epochs": 10,
   "save_steps": 75,
   "stateful_callbacks": {