Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +84 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:600bab0551c9632e78e173ee2edf51e2aeff8d3fe924ca6beae82bf8f3a20eda
 size 406863720

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ab3f8c2f3f9ac4dcfe3cc472dc5eb7cb0e33f9699290baafa76a8630d7dfb3c
 size 406863720

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:051ced71b22af10767593d5d2fd82a800975495d7af4ea98dee1bd9c3b686abd
 size 207013892

 version https://git-lfs.github.com/spec/v1
+oid sha256:f01a33f8c1b0582f24a2279a30c9d65deed4789b2855f44023e49662d45ff5cb
 size 207013892

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48be2a3ddc59d8ff18d2df6b5e9126a678e1920a04f8908f633242264469174d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b4b1cf8c6e435da2ea5c66fd3f23784a16861829df82a6a80b593ad1d833edb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7708307d1b959a393541df6c657dca87476d08205aaca5feb82f751cfc227436
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:93a4031351d40494c6fa2a2ab0690336e71553ec331e91c1b2ab832fe81468d8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.3803842067718506,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.028290543885706204,
   "eval_steps": 100,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -93,6 +93,84 @@
       "eval_samples_per_second": 6.534,
       "eval_steps_per_second": 3.269,
       "step": 100
     }
   ],
   "logging_steps": 10,
@@ -116,12 +194,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.3676760973312e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3322960138320923,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.05658108777141241,
   "eval_steps": 100,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.534,
       "eval_steps_per_second": 3.269,
       "step": 100
+    },
+    {
+      "epoch": 0.031119598274276822,
+      "grad_norm": 1.742843508720398,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 1.3753,
+      "step": 110
+    },
+    {
+      "epoch": 0.033948652662847446,
+      "grad_norm": 1.5557827949523926,
+      "learning_rate": 3e-05,
+      "loss": 1.3553,
+      "step": 120
+    },
+    {
+      "epoch": 0.036777707051418064,
+      "grad_norm": 1.3856598138809204,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 1.3361,
+      "step": 130
+    },
+    {
+      "epoch": 0.03960676143998868,
+      "grad_norm": 1.4673396348953247,
+      "learning_rate": 3.5e-05,
+      "loss": 1.383,
+      "step": 140
+    },
+    {
+      "epoch": 0.042435815828559306,
+      "grad_norm": 1.6237844228744507,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.3061,
+      "step": 150
+    },
+    {
+      "epoch": 0.045264870217129924,
+      "grad_norm": 1.9737865924835205,
+      "learning_rate": 4e-05,
+      "loss": 1.2873,
+      "step": 160
+    },
+    {
+      "epoch": 0.04809392460570054,
+      "grad_norm": 1.3253408670425415,
+      "learning_rate": 4.25e-05,
+      "loss": 1.315,
+      "step": 170
+    },
+    {
+      "epoch": 0.050922978994271166,
+      "grad_norm": 1.7338840961456299,
+      "learning_rate": 4.5e-05,
+      "loss": 1.3374,
+      "step": 180
+    },
+    {
+      "epoch": 0.053752033382841784,
+      "grad_norm": 2.050339698791504,
+      "learning_rate": 4.75e-05,
+      "loss": 1.2882,
+      "step": 190
+    },
+    {
+      "epoch": 0.05658108777141241,
+      "grad_norm": 1.292114019393921,
+      "learning_rate": 5e-05,
+      "loss": 1.3593,
+      "step": 200
+    },
+    {
+      "epoch": 0.05658108777141241,
+      "eval_loss": 1.3322960138320923,
+      "eval_runtime": 227.8824,
+      "eval_samples_per_second": 6.534,
+      "eval_steps_per_second": 3.269,
+      "step": 200
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.7353521946624e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null