Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +84 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:968b8543ce80a12dec6272e353fa945244b331d3a2ce476830fbe4614a391eb8
 size 406863720

 version https://git-lfs.github.com/spec/v1
+oid sha256:170eef016febcfdd7269dc66164b92c946025ae8a35fad8c17a8c8bcb5cee934
 size 406863720

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66c8a3121e3064c415ce0b5e18995aeaabf5315e4a1f20eda5782fcd0a1b412e
 size 207013892

 version https://git-lfs.github.com/spec/v1
+oid sha256:423d7d6595c6bf8522447d9bb0ab2669c22484acc5eabb71550b53440bb9a90b
 size 207013892

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48be2a3ddc59d8ff18d2df6b5e9126a678e1920a04f8908f633242264469174d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b4b1cf8c6e435da2ea5c66fd3f23784a16861829df82a6a80b593ad1d833edb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7708307d1b959a393541df6c657dca87476d08205aaca5feb82f751cfc227436
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:93a4031351d40494c6fa2a2ab0690336e71553ec331e91c1b2ab832fe81468d8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.5908070802688599,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.0066109146200376825,
   "eval_steps": 100,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -93,6 +93,84 @@
       "eval_samples_per_second": 6.503,
       "eval_steps_per_second": 3.251,
       "step": 100
     }
   ],
   "logging_steps": 10,
@@ -116,12 +194,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.3676760973312e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.327134609222412,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.013221829240075365,
   "eval_steps": 100,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.503,
       "eval_steps_per_second": 3.251,
       "step": 100
+    },
+    {
+      "epoch": 0.00727200608204145,
+      "grad_norm": 1.2272324562072754,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 1.6474,
+      "step": 110
+    },
+    {
+      "epoch": 0.007933097544045219,
+      "grad_norm": 1.6662088632583618,
+      "learning_rate": 3e-05,
+      "loss": 1.2744,
+      "step": 120
+    },
+    {
+      "epoch": 0.008594189006048986,
+      "grad_norm": 1.8397817611694336,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 1.4303,
+      "step": 130
+    },
+    {
+      "epoch": 0.009255280468052756,
+      "grad_norm": 1.7486412525177002,
+      "learning_rate": 3.5e-05,
+      "loss": 1.4357,
+      "step": 140
+    },
+    {
+      "epoch": 0.009916371930056523,
+      "grad_norm": 1.6174077987670898,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.4025,
+      "step": 150
+    },
+    {
+      "epoch": 0.010577463392060291,
+      "grad_norm": 4.70796537399292,
+      "learning_rate": 4e-05,
+      "loss": 1.3148,
+      "step": 160
+    },
+    {
+      "epoch": 0.01123855485406406,
+      "grad_norm": 0.9447816014289856,
+      "learning_rate": 4.25e-05,
+      "loss": 1.238,
+      "step": 170
+    },
+    {
+      "epoch": 0.011899646316067828,
+      "grad_norm": 1.5332636833190918,
+      "learning_rate": 4.5e-05,
+      "loss": 1.2395,
+      "step": 180
+    },
+    {
+      "epoch": 0.012560737778071596,
+      "grad_norm": 1.6138577461242676,
+      "learning_rate": 4.75e-05,
+      "loss": 1.3681,
+      "step": 190
+    },
+    {
+      "epoch": 0.013221829240075365,
+      "grad_norm": 1.5308886766433716,
+      "learning_rate": 5e-05,
+      "loss": 1.1635,
+      "step": 200
+    },
+    {
+      "epoch": 0.013221829240075365,
+      "eval_loss": 1.327134609222412,
+      "eval_runtime": 979.446,
+      "eval_samples_per_second": 6.504,
+      "eval_steps_per_second": 3.252,
+      "step": 200
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.7353521946624e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null