Training in progress, step 350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02560bd7cd76d9acae941bce139ebdd743f92e65dae14de7fe1019274462fffc
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:2539c3b903b2294ca3fe997f144acacadaec73f06ee80f3358d2fbf881c4c539
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acd4606dc937b41b5520c50bf7cad6f82591cbeab84c24ea112de0e17c4cc392
 size 71878996

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f5c76d994064e1e96e3c250bae5c1663d0370314136cd6d7977a8e5ad556aea
 size 71878996

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e495041a01ee5530994e537acf1f0a4e937bf696a7bc480ae51e7397dd52eab
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9b9c0460fd7871ffd91f1aadff4647aedb3274520411ba90dd4830b977cb7a4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43da0688aca60835f4e18fa7e0f3cc099504828f82fd5dd994118be26b760a0f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9096f15f02bac6b0fc27aa7aa4986f85d87d53fca310a75657e0015357af5c5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.1078481674194336,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.718562874251497,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2163,6 +2163,364 @@
       "eval_samples_per_second": 41.399,
       "eval_steps_per_second": 10.364,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -2191,7 +2549,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.31854472953856e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.087658405303955,
+  "best_model_checkpoint": "miner_id_24/checkpoint-350",
+  "epoch": 0.8383233532934131,
   "eval_steps": 50,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.399,
       "eval_steps_per_second": 10.364,
       "step": 300
+    },
+    {
+      "epoch": 0.7209580838323353,
+      "grad_norm": 1.5114424228668213,
+      "learning_rate": 1.5074431737553157e-05,
+      "loss": 2.4069,
+      "step": 301
+    },
+    {
+      "epoch": 0.7233532934131737,
+      "grad_norm": 1.673340082168579,
+      "learning_rate": 1.4787347420660541e-05,
+      "loss": 2.0937,
+      "step": 302
+    },
+    {
+      "epoch": 0.725748502994012,
+      "grad_norm": 1.5931137800216675,
+      "learning_rate": 1.4502548002332088e-05,
+      "loss": 1.8346,
+      "step": 303
+    },
+    {
+      "epoch": 0.7281437125748503,
+      "grad_norm": 1.7094767093658447,
+      "learning_rate": 1.422005196279395e-05,
+      "loss": 1.7977,
+      "step": 304
+    },
+    {
+      "epoch": 0.7305389221556886,
+      "grad_norm": 1.7684824466705322,
+      "learning_rate": 1.3939877632809278e-05,
+      "loss": 2.0748,
+      "step": 305
+    },
+    {
+      "epoch": 0.732934131736527,
+      "grad_norm": 2.1543047428131104,
+      "learning_rate": 1.3662043192488849e-05,
+      "loss": 2.3733,
+      "step": 306
+    },
+    {
+      "epoch": 0.7353293413173653,
+      "grad_norm": 2.162226915359497,
+      "learning_rate": 1.338656667011134e-05,
+      "loss": 2.2465,
+      "step": 307
+    },
+    {
+      "epoch": 0.7377245508982035,
+      "grad_norm": 2.1375701427459717,
+      "learning_rate": 1.3113465940953495e-05,
+      "loss": 1.9612,
+      "step": 308
+    },
+    {
+      "epoch": 0.7401197604790419,
+      "grad_norm": 2.3949055671691895,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 2.6065,
+      "step": 309
+    },
+    {
+      "epoch": 0.7425149700598802,
+      "grad_norm": 2.600290298461914,
+      "learning_rate": 1.257446259144494e-05,
+      "loss": 2.2005,
+      "step": 310
+    },
+    {
+      "epoch": 0.7449101796407186,
+      "grad_norm": 2.412585735321045,
+      "learning_rate": 1.2308594946249163e-05,
+      "loss": 2.0131,
+      "step": 311
+    },
+    {
+      "epoch": 0.7473053892215569,
+      "grad_norm": 2.410372018814087,
+      "learning_rate": 1.204517304231343e-05,
+      "loss": 2.2114,
+      "step": 312
+    },
+    {
+      "epoch": 0.7497005988023953,
+      "grad_norm": 2.683199644088745,
+      "learning_rate": 1.178421397270758e-05,
+      "loss": 2.042,
+      "step": 313
+    },
+    {
+      "epoch": 0.7520958083832335,
+      "grad_norm": 2.790637493133545,
+      "learning_rate": 1.1525734670691701e-05,
+      "loss": 2.678,
+      "step": 314
+    },
+    {
+      "epoch": 0.7544910179640718,
+      "grad_norm": 2.761145830154419,
+      "learning_rate": 1.1269751908617277e-05,
+      "loss": 2.0553,
+      "step": 315
+    },
+    {
+      "epoch": 0.7568862275449102,
+      "grad_norm": 2.7684364318847656,
+      "learning_rate": 1.1016282296838887e-05,
+      "loss": 2.4804,
+      "step": 316
+    },
+    {
+      "epoch": 0.7592814371257485,
+      "grad_norm": 2.42697811126709,
+      "learning_rate": 1.0765342282636416e-05,
+      "loss": 2.1682,
+      "step": 317
+    },
+    {
+      "epoch": 0.7616766467065869,
+      "grad_norm": 3.3774573802948,
+      "learning_rate": 1.0516948149147754e-05,
+      "loss": 2.4869,
+      "step": 318
+    },
+    {
+      "epoch": 0.7640718562874251,
+      "grad_norm": 2.83209490776062,
+      "learning_rate": 1.0271116014312293e-05,
+      "loss": 2.3304,
+      "step": 319
+    },
+    {
+      "epoch": 0.7664670658682635,
+      "grad_norm": 3.1755118370056152,
+      "learning_rate": 1.0027861829824952e-05,
+      "loss": 2.1455,
+      "step": 320
+    },
+    {
+      "epoch": 0.7688622754491018,
+      "grad_norm": 3.7500767707824707,
+      "learning_rate": 9.787201380101157e-06,
+      "loss": 2.8477,
+      "step": 321
+    },
+    {
+      "epoch": 0.7712574850299401,
+      "grad_norm": 2.860265016555786,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 2.3002,
+      "step": 322
+    },
+    {
+      "epoch": 0.7736526946107785,
+      "grad_norm": 2.824922800064087,
+      "learning_rate": 9.313723980074018e-06,
+      "loss": 1.8491,
+      "step": 323
+    },
+    {
+      "epoch": 0.7760479041916167,
+      "grad_norm": 4.0243401527404785,
+      "learning_rate": 9.080937753040646e-06,
+      "loss": 2.4307,
+      "step": 324
+    },
+    {
+      "epoch": 0.7784431137724551,
+      "grad_norm": 2.856584310531616,
+      "learning_rate": 8.850806705317183e-06,
+      "loss": 1.9534,
+      "step": 325
+    },
+    {
+      "epoch": 0.7808383233532934,
+      "grad_norm": 3.3904542922973633,
+      "learning_rate": 8.623345769777514e-06,
+      "loss": 2.1734,
+      "step": 326
+    },
+    {
+      "epoch": 0.7832335329341318,
+      "grad_norm": 2.983978509902954,
+      "learning_rate": 8.398569706035792e-06,
+      "loss": 2.093,
+      "step": 327
+    },
+    {
+      "epoch": 0.7856287425149701,
+      "grad_norm": 3.433806896209717,
+      "learning_rate": 8.176493099488663e-06,
+      "loss": 2.1547,
+      "step": 328
+    },
+    {
+      "epoch": 0.7880239520958083,
+      "grad_norm": 3.1882474422454834,
+      "learning_rate": 7.957130360368898e-06,
+      "loss": 2.1484,
+      "step": 329
+    },
+    {
+      "epoch": 0.7904191616766467,
+      "grad_norm": 3.1162118911743164,
+      "learning_rate": 7.740495722810271e-06,
+      "loss": 2.0497,
+      "step": 330
+    },
+    {
+      "epoch": 0.792814371257485,
+      "grad_norm": 3.857930898666382,
+      "learning_rate": 7.526603243923957e-06,
+      "loss": 2.7541,
+      "step": 331
+    },
+    {
+      "epoch": 0.7952095808383234,
+      "grad_norm": 3.3641421794891357,
+      "learning_rate": 7.315466802886401e-06,
+      "loss": 1.8995,
+      "step": 332
+    },
+    {
+      "epoch": 0.7976047904191617,
+      "grad_norm": 3.5304949283599854,
+      "learning_rate": 7.107100100038671e-06,
+      "loss": 2.4439,
+      "step": 333
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 3.273716688156128,
+      "learning_rate": 6.901516655997536e-06,
+      "loss": 2.2799,
+      "step": 334
+    },
+    {
+      "epoch": 0.8023952095808383,
+      "grad_norm": 4.098631858825684,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 2.2194,
+      "step": 335
+    },
+    {
+      "epoch": 0.8047904191616766,
+      "grad_norm": 3.677899122238159,
+      "learning_rate": 6.498752722928042e-06,
+      "loss": 2.0959,
+      "step": 336
+    },
+    {
+      "epoch": 0.807185628742515,
+      "grad_norm": 3.76029896736145,
+      "learning_rate": 6.301598368674105e-06,
+      "loss": 2.4466,
+      "step": 337
+    },
+    {
+      "epoch": 0.8095808383233533,
+      "grad_norm": 3.1613004207611084,
+      "learning_rate": 6.107279541079769e-06,
+      "loss": 2.5014,
+      "step": 338
+    },
+    {
+      "epoch": 0.8119760479041916,
+      "grad_norm": 3.955902576446533,
+      "learning_rate": 5.915808849215304e-06,
+      "loss": 2.0964,
+      "step": 339
+    },
+    {
+      "epoch": 0.8143712574850299,
+      "grad_norm": 3.3549344539642334,
+      "learning_rate": 5.727198717339511e-06,
+      "loss": 1.9583,
+      "step": 340
+    },
+    {
+      "epoch": 0.8167664670658683,
+      "grad_norm": 2.303845167160034,
+      "learning_rate": 5.54146138409355e-06,
+      "loss": 1.402,
+      "step": 341
+    },
+    {
+      "epoch": 0.8191616766467066,
+      "grad_norm": 3.525599956512451,
+      "learning_rate": 5.358608901706802e-06,
+      "loss": 1.927,
+      "step": 342
+    },
+    {
+      "epoch": 0.8215568862275449,
+      "grad_norm": 4.892051696777344,
+      "learning_rate": 5.178653135214812e-06,
+      "loss": 2.159,
+      "step": 343
+    },
+    {
+      "epoch": 0.8239520958083832,
+      "grad_norm": 2.915053606033325,
+      "learning_rate": 5.001605761689398e-06,
+      "loss": 1.4931,
+      "step": 344
+    },
+    {
+      "epoch": 0.8263473053892215,
+      "grad_norm": 3.0569677352905273,
+      "learning_rate": 4.827478269480895e-06,
+      "loss": 1.452,
+      "step": 345
+    },
+    {
+      "epoch": 0.8287425149700599,
+      "grad_norm": 2.807349443435669,
+      "learning_rate": 4.65628195747273e-06,
+      "loss": 1.6584,
+      "step": 346
+    },
+    {
+      "epoch": 0.8311377245508982,
+      "grad_norm": 2.915956497192383,
+      "learning_rate": 4.488027934348271e-06,
+      "loss": 1.6603,
+      "step": 347
+    },
+    {
+      "epoch": 0.8335329341317366,
+      "grad_norm": 3.1643993854522705,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 1.5493,
+      "step": 348
+    },
+    {
+      "epoch": 0.8359281437125748,
+      "grad_norm": 3.7875473499298096,
+      "learning_rate": 4.16039023417088e-06,
+      "loss": 2.1245,
+      "step": 349
+    },
+    {
+      "epoch": 0.8383233532934131,
+      "grad_norm": 4.3473968505859375,
+      "learning_rate": 4.001027817058789e-06,
+      "loss": 2.007,
+      "step": 350
+    },
+    {
+      "epoch": 0.8383233532934131,
+      "eval_loss": 2.087658405303955,
+      "eval_runtime": 17.1004,
+      "eval_samples_per_second": 41.11,
+      "eval_steps_per_second": 10.292,
+      "step": 350
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.70496885112832e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null