Training in progress, step 81, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +221 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6915d42db371058ef32156ea0decca77d5b1559401f47183d68360b6c2a6b80e
 size 645975704

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b8846489eb25da7868d33d3c2fb9373b953ff5157c7f5136e444dd20cf1b9a9
 size 645975704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55365e54885b298af3274c60138d308d632fda42a05db76b0bcefb67fcba0abc
 size 328468404

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8009d9e5c44c7201a70ed9b7d64a2f80a641db42b0fd02cdd43bc700fc14840
 size 328468404

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5f5c2c2a16e860375be0e9f837ec1869b4e6d5aae0646458ea20bbc2be252ab
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a8b1a975fb264be0975b1b22a3134f349edb51d892d5238d951b2fb9cf37b99
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5933e6699ee8c37d0d6cf7c18bfade48c78d2e4195e4053ab5ac56f6ab72ca12
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:15c83c4658d3ed3264e77fd045cb34ce040430ae8e59f34b160be9f9a7916ece
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.7665985822677612,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 1.8518518518518519,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,223 @@
       "eval_samples_per_second": 13.64,
       "eval_steps_per_second": 3.558,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -396,12 +613,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 7.460472195907584e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.7665985822677612,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 3.0,
   "eval_steps": 50,
+  "global_step": 81,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.64,
       "eval_steps_per_second": 3.558,
       "step": 50
+    },
+    {
+      "epoch": 1.8888888888888888,
+      "grad_norm": 1.49898099899292,
+      "learning_rate": 2.6566130414018495e-05,
+      "loss": 1.427,
+      "step": 51
+    },
+    {
+      "epoch": 1.925925925925926,
+      "grad_norm": 1.2517292499542236,
+      "learning_rate": 2.5071837758299613e-05,
+      "loss": 1.124,
+      "step": 52
+    },
+    {
+      "epoch": 1.9629629629629628,
+      "grad_norm": 1.6222271919250488,
+      "learning_rate": 2.359697994639589e-05,
+      "loss": 1.318,
+      "step": 53
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.829454779624939,
+      "learning_rate": 2.2144444081733517e-05,
+      "loss": 1.7384,
+      "step": 54
+    },
+    {
+      "epoch": 2.037037037037037,
+      "grad_norm": 1.2274819612503052,
+      "learning_rate": 2.071707357147872e-05,
+      "loss": 0.9252,
+      "step": 55
+    },
+    {
+      "epoch": 2.074074074074074,
+      "grad_norm": 1.5283606052398682,
+      "learning_rate": 1.931766256043475e-05,
+      "loss": 1.0436,
+      "step": 56
+    },
+    {
+      "epoch": 2.111111111111111,
+      "grad_norm": 1.5208336114883423,
+      "learning_rate": 1.7948950461372128e-05,
+      "loss": 1.2807,
+      "step": 57
+    },
+    {
+      "epoch": 2.148148148148148,
+      "grad_norm": 1.5189377069473267,
+      "learning_rate": 1.6613616592499547e-05,
+      "loss": 0.9818,
+      "step": 58
+    },
+    {
+      "epoch": 2.185185185185185,
+      "grad_norm": 1.881172776222229,
+      "learning_rate": 1.5314274932572676e-05,
+      "loss": 1.1691,
+      "step": 59
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 1.8424291610717773,
+      "learning_rate": 1.4053469003907992e-05,
+      "loss": 1.246,
+      "step": 60
+    },
+    {
+      "epoch": 2.259259259259259,
+      "grad_norm": 1.9025232791900635,
+      "learning_rate": 1.2833666893318349e-05,
+      "loss": 1.0384,
+      "step": 61
+    },
+    {
+      "epoch": 2.2962962962962963,
+      "grad_norm": 1.7848095893859863,
+      "learning_rate": 1.165725642071722e-05,
+      "loss": 1.0459,
+      "step": 62
+    },
+    {
+      "epoch": 2.3333333333333335,
+      "grad_norm": 1.7614284753799438,
+      "learning_rate": 1.0526540464849008e-05,
+      "loss": 1.1616,
+      "step": 63
+    },
+    {
+      "epoch": 2.3703703703703702,
+      "grad_norm": 2.083524465560913,
+      "learning_rate": 9.443732455295803e-06,
+      "loss": 1.2212,
+      "step": 64
+    },
+    {
+      "epoch": 2.4074074074074074,
+      "grad_norm": 2.120060682296753,
+      "learning_rate": 8.410952039585034e-06,
+      "loss": 1.2193,
+      "step": 65
+    },
+    {
+      "epoch": 2.4444444444444446,
+      "grad_norm": 1.8416856527328491,
+      "learning_rate": 7.430220933879868e-06,
+      "loss": 1.0275,
+      "step": 66
+    },
+    {
+      "epoch": 2.4814814814814814,
+      "grad_norm": 1.6970349550247192,
+      "learning_rate": 6.503458965374907e-06,
+      "loss": 0.9866,
+      "step": 67
+    },
+    {
+      "epoch": 2.5185185185185186,
+      "grad_norm": 1.7311978340148926,
+      "learning_rate": 5.632480314144302e-06,
+      "loss": 1.1222,
+      "step": 68
+    },
+    {
+      "epoch": 2.5555555555555554,
+      "grad_norm": 1.8647996187210083,
+      "learning_rate": 4.818989961799024e-06,
+      "loss": 1.1971,
+      "step": 69
+    },
+    {
+      "epoch": 2.5925925925925926,
+      "grad_norm": 1.8562637567520142,
+      "learning_rate": 4.064580353905361e-06,
+      "loss": 1.0966,
+      "step": 70
+    },
+    {
+      "epoch": 2.6296296296296298,
+      "grad_norm": 2.1647939682006836,
+      "learning_rate": 3.3707282826978684e-06,
+      "loss": 1.2084,
+      "step": 71
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 2.267409563064575,
+      "learning_rate": 2.7387919961892603e-06,
+      "loss": 1.2536,
+      "step": 72
+    },
+    {
+      "epoch": 2.7037037037037037,
+      "grad_norm": 1.875108003616333,
+      "learning_rate": 2.170008539336139e-06,
+      "loss": 1.0385,
+      "step": 73
+    },
+    {
+      "epoch": 2.7407407407407405,
+      "grad_norm": 1.690350890159607,
+      "learning_rate": 1.665491332465404e-06,
+      "loss": 0.9002,
+      "step": 74
+    },
+    {
+      "epoch": 2.7777777777777777,
+      "grad_norm": 1.8636929988861084,
+      "learning_rate": 1.2262279917016548e-06,
+      "loss": 1.1853,
+      "step": 75
+    },
+    {
+      "epoch": 2.814814814814815,
+      "grad_norm": 1.7024513483047485,
+      "learning_rate": 8.530783956622628e-07,
+      "loss": 1.1387,
+      "step": 76
+    },
+    {
+      "epoch": 2.851851851851852,
+      "grad_norm": 1.7570838928222656,
+      "learning_rate": 5.467730022046046e-07,
+      "loss": 0.9747,
+      "step": 77
+    },
+    {
+      "epoch": 2.888888888888889,
+      "grad_norm": 1.8747435808181763,
+      "learning_rate": 3.0791141852049006e-07,
+      "loss": 1.1896,
+      "step": 78
+    },
+    {
+      "epoch": 2.925925925925926,
+      "grad_norm": 1.7294906377792358,
+      "learning_rate": 1.369612273769316e-07,
+      "loss": 0.9973,
+      "step": 79
+    },
+    {
+      "epoch": 2.962962962962963,
+      "grad_norm": 1.958431363105774,
+      "learning_rate": 3.4257071800923855e-08,
+      "loss": 1.2993,
+      "step": 80
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 1.917493462562561,
+      "learning_rate": 0.0,
+      "loss": 1.2325,
+      "step": 81
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.2072723618988032e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null