Training in progress, step 500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +84 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9922e1874360c5d3ded2c9ed2fd99b63837902088c92eda9829f69ff472cd492
 size 406863720

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fde924ed5b2854fc50c7f4413752cdc2607456bd0589555fb2e0283347f9026
 size 406863720

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2bae67899bf5f6de8b4b2c4478b5f9b8531b9f6eea93f8911f3fd1ed75119f9
 size 813846202

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3a07fc0c34fe9f0a0ec5c8add79702d0ca9bbcdc4720dfec2a75113c11ba395
 size 813846202

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd500a52508235aa1058024023c5d8d67f7eeca6132f7f072b4968a268b130f2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c908825aa92f46140b6d696f8d61661b3051ae819a433addd295d1cfeb1a5121
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ad14be3cfc4bdd4617df51db7c5a619cc49827d154811e9ceac7d05200dbc79
 size 1192

 version https://git-lfs.github.com/spec/v1
+oid sha256:e20bc151958b8024ee9b8d86cd744a0bdd0c11aca692c6be0481a19a04fd29d6
 size 1192

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1825116872787476,
-  "best_model_checkpoint": "miner_id_24/checkpoint-400",
-  "epoch": 0.03181199113240747,
   "eval_steps": 100,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -327,6 +327,84 @@
       "eval_samples_per_second": 1.991,
       "eval_steps_per_second": 0.996,
       "step": 400
     }
   ],
   "logging_steps": 10,
@@ -350,12 +428,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.3238963080658944e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1672043800354004,
+  "best_model_checkpoint": "miner_id_24/checkpoint-500",
+  "epoch": 0.03976498891550934,
   "eval_steps": 100,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.991,
       "eval_steps_per_second": 0.996,
       "step": 400
+    },
+    {
+      "epoch": 0.03260729091071766,
+      "grad_norm": 0.5597347021102905,
+      "learning_rate": 5e-06,
+      "loss": 0.9983,
+      "step": 410
+    },
+    {
+      "epoch": 0.033402590689027845,
+      "grad_norm": 0.7700969576835632,
+      "learning_rate": 5e-06,
+      "loss": 1.0358,
+      "step": 420
+    },
+    {
+      "epoch": 0.03419789046733803,
+      "grad_norm": 0.719897449016571,
+      "learning_rate": 5e-06,
+      "loss": 0.9576,
+      "step": 430
+    },
+    {
+      "epoch": 0.03499319024564822,
+      "grad_norm": 0.6075172424316406,
+      "learning_rate": 5e-06,
+      "loss": 0.9278,
+      "step": 440
+    },
+    {
+      "epoch": 0.035788490023958404,
+      "grad_norm": 0.595727801322937,
+      "learning_rate": 5e-06,
+      "loss": 0.9158,
+      "step": 450
+    },
+    {
+      "epoch": 0.03658378980226859,
+      "grad_norm": 0.8409410715103149,
+      "learning_rate": 5e-06,
+      "loss": 1.0138,
+      "step": 460
+    },
+    {
+      "epoch": 0.03737908958057878,
+      "grad_norm": 0.8422474265098572,
+      "learning_rate": 5e-06,
+      "loss": 0.9747,
+      "step": 470
+    },
+    {
+      "epoch": 0.03817438935888896,
+      "grad_norm": 0.7934198975563049,
+      "learning_rate": 5e-06,
+      "loss": 0.9566,
+      "step": 480
+    },
+    {
+      "epoch": 0.03896968913719915,
+      "grad_norm": 0.8485593795776367,
+      "learning_rate": 5e-06,
+      "loss": 1.0365,
+      "step": 490
+    },
+    {
+      "epoch": 0.03976498891550934,
+      "grad_norm": 0.7482882142066956,
+      "learning_rate": 5e-06,
+      "loss": 0.9254,
+      "step": 500
+    },
+    {
+      "epoch": 0.03976498891550934,
+      "eval_loss": 1.1672043800354004,
+      "eval_runtime": 5317.9321,
+      "eval_samples_per_second": 1.991,
+      "eval_steps_per_second": 0.996,
+      "step": 500
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.154870385082368e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null