Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +84 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65f781b0544f5193a43f99ad43c549926707aa67ed7d48599cccea5ce79553ce
 size 313820248

 version https://git-lfs.github.com/spec/v1
+oid sha256:89ce96c7604bb4ab868441daa68fb517961a76fa667743ac1ca2d0b6795451fe
 size 313820248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87a80c005a242ed07c9492133c7fb1047ef72ded5d27d2986aeab585c4b1089b
 size 159641092

 version https://git-lfs.github.com/spec/v1
+oid sha256:64a1813e3faa7935ece404a75d26fabf544ade4d585532649afbc0d2bd410dc0
 size 159641092

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd2d2be0b85984449a1a79798652397cd9fab47f1f79ebcf96ac5d8acd5788d0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:15a4c2a02f2932b44859c6e6262c7c59881faab735f7ad27a7218d9d4695d33f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7708307d1b959a393541df6c657dca87476d08205aaca5feb82f751cfc227436
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:93a4031351d40494c6fa2a2ab0690336e71553ec331e91c1b2ab832fe81468d8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.112729549407959,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.003209448616727646,
   "eval_steps": 100,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -93,6 +93,84 @@
       "eval_samples_per_second": 19.735,
       "eval_steps_per_second": 9.867,
       "step": 100
     }
   ],
   "logging_steps": 10,
@@ -116,12 +194,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.146911061750579e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0106648206710815,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.006418897233455292,
   "eval_steps": 100,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 19.735,
       "eval_steps_per_second": 9.867,
       "step": 100
+    },
+    {
+      "epoch": 0.003530393478400411,
+      "grad_norm": 2.1710588932037354,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 1.1722,
+      "step": 110
+    },
+    {
+      "epoch": 0.0038513383400731755,
+      "grad_norm": 2.169562578201294,
+      "learning_rate": 3e-05,
+      "loss": 0.7749,
+      "step": 120
+    },
+    {
+      "epoch": 0.00417228320174594,
+      "grad_norm": 1.5795131921768188,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.9053,
+      "step": 130
+    },
+    {
+      "epoch": 0.0044932280634187045,
+      "grad_norm": 1.8263781070709229,
+      "learning_rate": 3.5e-05,
+      "loss": 1.0347,
+      "step": 140
+    },
+    {
+      "epoch": 0.004814172925091469,
+      "grad_norm": 1.4106873273849487,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.1257,
+      "step": 150
+    },
+    {
+      "epoch": 0.005135117786764234,
+      "grad_norm": 2.167172431945801,
+      "learning_rate": 4e-05,
+      "loss": 1.0038,
+      "step": 160
+    },
+    {
+      "epoch": 0.005456062648436999,
+      "grad_norm": 1.2364063262939453,
+      "learning_rate": 4.25e-05,
+      "loss": 0.9275,
+      "step": 170
+    },
+    {
+      "epoch": 0.005777007510109763,
+      "grad_norm": 1.5348761081695557,
+      "learning_rate": 4.5e-05,
+      "loss": 1.2684,
+      "step": 180
+    },
+    {
+      "epoch": 0.006097952371782528,
+      "grad_norm": 1.7843347787857056,
+      "learning_rate": 4.75e-05,
+      "loss": 1.0673,
+      "step": 190
+    },
+    {
+      "epoch": 0.006418897233455292,
+      "grad_norm": 2.393651247024536,
+      "learning_rate": 5e-05,
+      "loss": 1.128,
+      "step": 200
+    },
+    {
+      "epoch": 0.006418897233455292,
+      "eval_loss": 1.0106648206710815,
+      "eval_runtime": 665.1095,
+      "eval_samples_per_second": 19.726,
+      "eval_steps_per_second": 9.863,
+      "step": 200
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.329266409897984e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null