Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:922f09f5b65c2a14cbbb1b17c032bc87cad9981ee1d1ca858069c1aefbe40877
 size 389074464

 version https://git-lfs.github.com/spec/v1
+oid sha256:0866b0718ac5f568089e57be66e100c3130e11978f3b12a029a7b68c5a5ccede
 size 389074464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd55a8d3fb0d2c0e423a405d43578ff7252bbc214372f21b7dea9f1d5674872c
 size 778374186

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3b82b43ef0af7db935769ed3301b8cf121529a7cd3663da2bcbc8082d0623d1
 size 778374186

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7cb6b33c43d0d922484cb627fd281c729149bae57ec1310b848b5afe1952718
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:771c75945d7b61f9bd5b7f6677420c61a6e339b42a93da85745b20c97ed87696
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f5b4ba066d00b62be68b9f9ec9376def1ffea9a45f98d620f3198033186a6a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2799263000488281,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.002807450974887351,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 14.23,
       "eval_steps_per_second": 7.115,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.86654740824064e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1527422666549683,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.005614901949774702,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.23,
       "eval_steps_per_second": 7.115,
       "step": 50
+    },
+    {
+      "epoch": 0.0028635999943850982,
+      "grad_norm": 1.7174652814865112,
+      "learning_rate": 9.628188298907782e-05,
+      "loss": 1.4528,
+      "step": 51
+    },
+    {
+      "epoch": 0.002919749013882845,
+      "grad_norm": 1.5406450033187866,
+      "learning_rate": 9.592434928729616e-05,
+      "loss": 1.4099,
+      "step": 52
+    },
+    {
+      "epoch": 0.002975898033380592,
+      "grad_norm": 1.2001056671142578,
+      "learning_rate": 9.555113246230442e-05,
+      "loss": 1.3917,
+      "step": 53
+    },
+    {
+      "epoch": 0.0030320470528783392,
+      "grad_norm": 0.9413912296295166,
+      "learning_rate": 9.516235996730645e-05,
+      "loss": 1.2862,
+      "step": 54
+    },
+    {
+      "epoch": 0.003088196072376086,
+      "grad_norm": 0.6574397087097168,
+      "learning_rate": 9.475816456775313e-05,
+      "loss": 1.2614,
+      "step": 55
+    },
+    {
+      "epoch": 0.003144345091873833,
+      "grad_norm": 0.6218005418777466,
+      "learning_rate": 9.43386842960031e-05,
+      "loss": 1.2038,
+      "step": 56
+    },
+    {
+      "epoch": 0.0032004941113715803,
+      "grad_norm": 0.7471184730529785,
+      "learning_rate": 9.39040624041849e-05,
+      "loss": 1.1666,
+      "step": 57
+    },
+    {
+      "epoch": 0.003256643130869327,
+      "grad_norm": 0.7934604287147522,
+      "learning_rate": 9.345444731527642e-05,
+      "loss": 1.2472,
+      "step": 58
+    },
+    {
+      "epoch": 0.0033127921503670744,
+      "grad_norm": 0.8308062553405762,
+      "learning_rate": 9.298999257241863e-05,
+      "loss": 1.2442,
+      "step": 59
+    },
+    {
+      "epoch": 0.0033689411698648213,
+      "grad_norm": 0.6573333740234375,
+      "learning_rate": 9.251085678648072e-05,
+      "loss": 1.1986,
+      "step": 60
+    },
+    {
+      "epoch": 0.003425090189362568,
+      "grad_norm": 0.6570683717727661,
+      "learning_rate": 9.201720358189464e-05,
+      "loss": 1.2302,
+      "step": 61
+    },
+    {
+      "epoch": 0.0034812392088603154,
+      "grad_norm": 0.6069157719612122,
+      "learning_rate": 9.150920154077754e-05,
+      "loss": 1.1475,
+      "step": 62
+    },
+    {
+      "epoch": 0.0035373882283580623,
+      "grad_norm": 0.600216269493103,
+      "learning_rate": 9.098702414536107e-05,
+      "loss": 1.102,
+      "step": 63
+    },
+    {
+      "epoch": 0.003593537247855809,
+      "grad_norm": 0.6119481921195984,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 1.1455,
+      "step": 64
+    },
+    {
+      "epoch": 0.0036496862673535565,
+      "grad_norm": 0.6701284646987915,
+      "learning_rate": 8.9900861364012e-05,
+      "loss": 1.192,
+      "step": 65
+    },
+    {
+      "epoch": 0.0037058352868513033,
+      "grad_norm": 0.6195027828216553,
+      "learning_rate": 8.933724690167417e-05,
+      "loss": 1.1548,
+      "step": 66
+    },
+    {
+      "epoch": 0.00376198430634905,
+      "grad_norm": 0.6576624512672424,
+      "learning_rate": 8.876019880555649e-05,
+      "loss": 1.23,
+      "step": 67
+    },
+    {
+      "epoch": 0.0038181333258467975,
+      "grad_norm": 0.6199018955230713,
+      "learning_rate": 8.816991413705516e-05,
+      "loss": 1.085,
+      "step": 68
+    },
+    {
+      "epoch": 0.0038742823453445444,
+      "grad_norm": 0.6421352624893188,
+      "learning_rate": 8.756659447784368e-05,
+      "loss": 1.1397,
+      "step": 69
+    },
+    {
+      "epoch": 0.003930431364842292,
+      "grad_norm": 0.7040902376174927,
+      "learning_rate": 8.695044586103296e-05,
+      "loss": 1.1982,
+      "step": 70
+    },
+    {
+      "epoch": 0.003986580384340038,
+      "grad_norm": 0.6545359492301941,
+      "learning_rate": 8.632167870081121e-05,
+      "loss": 1.1224,
+      "step": 71
+    },
+    {
+      "epoch": 0.004042729403837785,
+      "grad_norm": 0.7151196002960205,
+      "learning_rate": 8.568050772058762e-05,
+      "loss": 1.1129,
+      "step": 72
+    },
+    {
+      "epoch": 0.004098878423335533,
+      "grad_norm": 0.6587552428245544,
+      "learning_rate": 8.502715187966455e-05,
+      "loss": 1.1292,
+      "step": 73
+    },
+    {
+      "epoch": 0.004155027442833279,
+      "grad_norm": 0.6608380079269409,
+      "learning_rate": 8.436183429846313e-05,
+      "loss": 1.124,
+      "step": 74
+    },
+    {
+      "epoch": 0.004211176462331026,
+      "grad_norm": 0.6702746152877808,
+      "learning_rate": 8.368478218232787e-05,
+      "loss": 1.1656,
+      "step": 75
+    },
+    {
+      "epoch": 0.004267325481828774,
+      "grad_norm": 0.6599065661430359,
+      "learning_rate": 8.299622674393614e-05,
+      "loss": 1.1543,
+      "step": 76
+    },
+    {
+      "epoch": 0.004323474501326521,
+      "grad_norm": 0.6634683012962341,
+      "learning_rate": 8.229640312433937e-05,
+      "loss": 1.193,
+      "step": 77
+    },
+    {
+      "epoch": 0.004379623520824267,
+      "grad_norm": 0.683447539806366,
+      "learning_rate": 8.158555031266254e-05,
+      "loss": 1.1215,
+      "step": 78
+    },
+    {
+      "epoch": 0.004435772540322015,
+      "grad_norm": 0.6692266464233398,
+      "learning_rate": 8.086391106448965e-05,
+      "loss": 1.0958,
+      "step": 79
+    },
+    {
+      "epoch": 0.004491921559819762,
+      "grad_norm": 0.6918296813964844,
+      "learning_rate": 8.013173181896283e-05,
+      "loss": 1.2255,
+      "step": 80
+    },
+    {
+      "epoch": 0.0045480705793175084,
+      "grad_norm": 0.6787101626396179,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.1807,
+      "step": 81
+    },
+    {
+      "epoch": 0.004604219598815256,
+      "grad_norm": 0.7259939908981323,
+      "learning_rate": 7.863675700402526e-05,
+      "loss": 1.1612,
+      "step": 82
+    },
+    {
+      "epoch": 0.004660368618313003,
+      "grad_norm": 0.6921144723892212,
+      "learning_rate": 7.787447196714427e-05,
+      "loss": 1.1331,
+      "step": 83
+    },
+    {
+      "epoch": 0.0047165176378107495,
+      "grad_norm": 0.7044004797935486,
+      "learning_rate": 7.710266782362247e-05,
+      "loss": 1.1469,
+      "step": 84
+    },
+    {
+      "epoch": 0.004772666657308497,
+      "grad_norm": 0.7107269763946533,
+      "learning_rate": 7.63216081438678e-05,
+      "loss": 1.2156,
+      "step": 85
+    },
+    {
+      "epoch": 0.004828815676806244,
+      "grad_norm": 0.7129175662994385,
+      "learning_rate": 7.553155965904535e-05,
+      "loss": 1.118,
+      "step": 86
+    },
+    {
+      "epoch": 0.0048849646963039905,
+      "grad_norm": 0.6944028735160828,
+      "learning_rate": 7.473279216998895e-05,
+      "loss": 1.1684,
+      "step": 87
+    },
+    {
+      "epoch": 0.004941113715801738,
+      "grad_norm": 0.6979909539222717,
+      "learning_rate": 7.392557845506432e-05,
+      "loss": 1.1503,
+      "step": 88
+    },
+    {
+      "epoch": 0.004997262735299485,
+      "grad_norm": 0.6969708800315857,
+      "learning_rate": 7.311019417701566e-05,
+      "loss": 1.0991,
+      "step": 89
+    },
+    {
+      "epoch": 0.0050534117547972315,
+      "grad_norm": 0.7195575833320618,
+      "learning_rate": 7.228691778882693e-05,
+      "loss": 1.1541,
+      "step": 90
+    },
+    {
+      "epoch": 0.005109560774294979,
+      "grad_norm": 0.7229387164115906,
+      "learning_rate": 7.145603043863045e-05,
+      "loss": 1.0439,
+      "step": 91
+    },
+    {
+      "epoch": 0.005165709793792726,
+      "grad_norm": 0.7308394908905029,
+      "learning_rate": 7.061781587369519e-05,
+      "loss": 1.1037,
+      "step": 92
+    },
+    {
+      "epoch": 0.0052218588132904725,
+      "grad_norm": 0.7165358662605286,
+      "learning_rate": 6.977256034352712e-05,
+      "loss": 1.0528,
+      "step": 93
+    },
+    {
+      "epoch": 0.00527800783278822,
+      "grad_norm": 0.7242848873138428,
+      "learning_rate": 6.892055250211552e-05,
+      "loss": 1.0637,
+      "step": 94
+    },
+    {
+      "epoch": 0.005334156852285967,
+      "grad_norm": 0.7282512784004211,
+      "learning_rate": 6.806208330935766e-05,
+      "loss": 1.0407,
+      "step": 95
+    },
+    {
+      "epoch": 0.0053903058717837135,
+      "grad_norm": 0.7488335967063904,
+      "learning_rate": 6.719744593169641e-05,
+      "loss": 1.0557,
+      "step": 96
+    },
+    {
+      "epoch": 0.005446454891281461,
+      "grad_norm": 0.8261488676071167,
+      "learning_rate": 6.632693564200416e-05,
+      "loss": 1.1658,
+      "step": 97
+    },
+    {
+      "epoch": 0.005502603910779208,
+      "grad_norm": 0.7976979613304138,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.0287,
+      "step": 98
+    },
+    {
+      "epoch": 0.005558752930276955,
+      "grad_norm": 0.8135994076728821,
+      "learning_rate": 6.456948734446624e-05,
+      "loss": 0.9347,
+      "step": 99
+    },
+    {
+      "epoch": 0.005614901949774702,
+      "grad_norm": 0.9864936470985413,
+      "learning_rate": 6.368314950360415e-05,
+      "loss": 1.0265,
+      "step": 100
+    },
+    {
+      "epoch": 0.005614901949774702,
+      "eval_loss": 1.1527422666549683,
+      "eval_runtime": 2109.9145,
+      "eval_samples_per_second": 14.216,
+      "eval_steps_per_second": 7.108,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.73309481648128e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null