Training in progress, step 350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f02b619761f6066bfb92f407bc7cd39229ad1953db92fbcaf032169b7abb8825
 size 912336848

 version https://git-lfs.github.com/spec/v1
+oid sha256:93b20b9aae17843ad12dc87ecdd17eba7ea477270b90439f58708bc9eb342269
 size 912336848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:042febeb7de05bbd24c0857bccc9cfc3f48620e6b404609e5374ad10d0893d7f
 size 463916756

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a32581ccde726cbad56d599a0dabbc1cc4807b611f5e1850f499ae81d53d73f
 size 463916756

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d84d2fbb21da0126026dbf8b4c8f404a72dc3109d52469e281a131c53e8f912
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab039d68f530b15ed5483bc74c0a38023a960bf8188cb614d261f981b4a88050
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43da0688aca60835f4e18fa7e0f3cc099504828f82fd5dd994118be26b760a0f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9096f15f02bac6b0fc27aa7aa4986f85d87d53fca310a75657e0015357af5c5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1399081945419312,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.039348132603206874,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2163,6 +2163,364 @@
       "eval_samples_per_second": 5.912,
       "eval_steps_per_second": 1.478,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -2191,7 +2549,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.997543846989005e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.127142310142517,
+  "best_model_checkpoint": "miner_id_24/checkpoint-350",
+  "epoch": 0.045906154703741354,
   "eval_steps": 50,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.912,
       "eval_steps_per_second": 1.478,
       "step": 300
+    },
+    {
+      "epoch": 0.039479293045217564,
+      "grad_norm": 4.549398899078369,
+      "learning_rate": 1.5074431737553157e-05,
+      "loss": 3.8332,
+      "step": 301
+    },
+    {
+      "epoch": 0.039610453487228255,
+      "grad_norm": 5.807361602783203,
+      "learning_rate": 1.4787347420660541e-05,
+      "loss": 5.8494,
+      "step": 302
+    },
+    {
+      "epoch": 0.039741613929238945,
+      "grad_norm": 4.661685943603516,
+      "learning_rate": 1.4502548002332088e-05,
+      "loss": 4.1664,
+      "step": 303
+    },
+    {
+      "epoch": 0.03987277437124963,
+      "grad_norm": 4.593720436096191,
+      "learning_rate": 1.422005196279395e-05,
+      "loss": 4.6021,
+      "step": 304
+    },
+    {
+      "epoch": 0.04000393481326032,
+      "grad_norm": 4.9789838790893555,
+      "learning_rate": 1.3939877632809278e-05,
+      "loss": 5.0162,
+      "step": 305
+    },
+    {
+      "epoch": 0.04013509525527101,
+      "grad_norm": 4.7891435623168945,
+      "learning_rate": 1.3662043192488849e-05,
+      "loss": 4.7993,
+      "step": 306
+    },
+    {
+      "epoch": 0.0402662556972817,
+      "grad_norm": 5.135849475860596,
+      "learning_rate": 1.338656667011134e-05,
+      "loss": 5.3211,
+      "step": 307
+    },
+    {
+      "epoch": 0.04039741613929239,
+      "grad_norm": 4.894106864929199,
+      "learning_rate": 1.3113465940953495e-05,
+      "loss": 4.5512,
+      "step": 308
+    },
+    {
+      "epoch": 0.04052857658130308,
+      "grad_norm": 5.188063621520996,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 5.3129,
+      "step": 309
+    },
+    {
+      "epoch": 0.04065973702331377,
+      "grad_norm": 5.491662979125977,
+      "learning_rate": 1.257446259144494e-05,
+      "loss": 3.8475,
+      "step": 310
+    },
+    {
+      "epoch": 0.04079089746532446,
+      "grad_norm": 4.8721160888671875,
+      "learning_rate": 1.2308594946249163e-05,
+      "loss": 5.2003,
+      "step": 311
+    },
+    {
+      "epoch": 0.04092205790733515,
+      "grad_norm": 4.807410717010498,
+      "learning_rate": 1.204517304231343e-05,
+      "loss": 4.6113,
+      "step": 312
+    },
+    {
+      "epoch": 0.04105321834934584,
+      "grad_norm": 4.770174026489258,
+      "learning_rate": 1.178421397270758e-05,
+      "loss": 4.6239,
+      "step": 313
+    },
+    {
+      "epoch": 0.04118437879135653,
+      "grad_norm": 4.800634860992432,
+      "learning_rate": 1.1525734670691701e-05,
+      "loss": 4.8976,
+      "step": 314
+    },
+    {
+      "epoch": 0.04131553923336722,
+      "grad_norm": 4.563766956329346,
+      "learning_rate": 1.1269751908617277e-05,
+      "loss": 4.4598,
+      "step": 315
+    },
+    {
+      "epoch": 0.0414466996753779,
+      "grad_norm": 5.8265700340271,
+      "learning_rate": 1.1016282296838887e-05,
+      "loss": 4.7224,
+      "step": 316
+    },
+    {
+      "epoch": 0.04157786011738859,
+      "grad_norm": 4.675744533538818,
+      "learning_rate": 1.0765342282636416e-05,
+      "loss": 3.9794,
+      "step": 317
+    },
+    {
+      "epoch": 0.04170902055939928,
+      "grad_norm": 4.458248138427734,
+      "learning_rate": 1.0516948149147754e-05,
+      "loss": 4.4302,
+      "step": 318
+    },
+    {
+      "epoch": 0.04184018100140997,
+      "grad_norm": 5.066640377044678,
+      "learning_rate": 1.0271116014312293e-05,
+      "loss": 5.1823,
+      "step": 319
+    },
+    {
+      "epoch": 0.041971341443420664,
+      "grad_norm": 4.61079740524292,
+      "learning_rate": 1.0027861829824952e-05,
+      "loss": 4.5517,
+      "step": 320
+    },
+    {
+      "epoch": 0.042102501885431354,
+      "grad_norm": 4.26812744140625,
+      "learning_rate": 9.787201380101157e-06,
+      "loss": 4.4948,
+      "step": 321
+    },
+    {
+      "epoch": 0.042233662327442044,
+      "grad_norm": 4.6491923332214355,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 4.55,
+      "step": 322
+    },
+    {
+      "epoch": 0.042364822769452734,
+      "grad_norm": 5.142332553863525,
+      "learning_rate": 9.313723980074018e-06,
+      "loss": 4.8344,
+      "step": 323
+    },
+    {
+      "epoch": 0.042495983211463424,
+      "grad_norm": 4.610389709472656,
+      "learning_rate": 9.080937753040646e-06,
+      "loss": 4.6762,
+      "step": 324
+    },
+    {
+      "epoch": 0.042627143653474114,
+      "grad_norm": 4.720685005187988,
+      "learning_rate": 8.850806705317183e-06,
+      "loss": 4.9385,
+      "step": 325
+    },
+    {
+      "epoch": 0.042758304095484805,
+      "grad_norm": 9.067947387695312,
+      "learning_rate": 8.623345769777514e-06,
+      "loss": 4.521,
+      "step": 326
+    },
+    {
+      "epoch": 0.042889464537495495,
+      "grad_norm": 5.333157062530518,
+      "learning_rate": 8.398569706035792e-06,
+      "loss": 4.856,
+      "step": 327
+    },
+    {
+      "epoch": 0.04302062497950618,
+      "grad_norm": 4.563533306121826,
+      "learning_rate": 8.176493099488663e-06,
+      "loss": 4.2791,
+      "step": 328
+    },
+    {
+      "epoch": 0.04315178542151687,
+      "grad_norm": 4.899979114532471,
+      "learning_rate": 7.957130360368898e-06,
+      "loss": 4.9391,
+      "step": 329
+    },
+    {
+      "epoch": 0.04328294586352756,
+      "grad_norm": 4.461095333099365,
+      "learning_rate": 7.740495722810271e-06,
+      "loss": 3.6115,
+      "step": 330
+    },
+    {
+      "epoch": 0.04341410630553825,
+      "grad_norm": 3.9381563663482666,
+      "learning_rate": 7.526603243923957e-06,
+      "loss": 3.3391,
+      "step": 331
+    },
+    {
+      "epoch": 0.04354526674754894,
+      "grad_norm": 5.287003993988037,
+      "learning_rate": 7.315466802886401e-06,
+      "loss": 4.5174,
+      "step": 332
+    },
+    {
+      "epoch": 0.04367642718955963,
+      "grad_norm": 4.377172946929932,
+      "learning_rate": 7.107100100038671e-06,
+      "loss": 3.7407,
+      "step": 333
+    },
+    {
+      "epoch": 0.04380758763157032,
+      "grad_norm": 5.02964448928833,
+      "learning_rate": 6.901516655997536e-06,
+      "loss": 5.1213,
+      "step": 334
+    },
+    {
+      "epoch": 0.04393874807358101,
+      "grad_norm": 5.419670581817627,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 4.6909,
+      "step": 335
+    },
+    {
+      "epoch": 0.0440699085155917,
+      "grad_norm": 5.072083473205566,
+      "learning_rate": 6.498752722928042e-06,
+      "loss": 4.5675,
+      "step": 336
+    },
+    {
+      "epoch": 0.04420106895760239,
+      "grad_norm": 4.240553379058838,
+      "learning_rate": 6.301598368674105e-06,
+      "loss": 4.0785,
+      "step": 337
+    },
+    {
+      "epoch": 0.04433222939961308,
+      "grad_norm": 5.187246799468994,
+      "learning_rate": 6.107279541079769e-06,
+      "loss": 5.119,
+      "step": 338
+    },
+    {
+      "epoch": 0.04446338984162377,
+      "grad_norm": 5.352259635925293,
+      "learning_rate": 5.915808849215304e-06,
+      "loss": 4.843,
+      "step": 339
+    },
+    {
+      "epoch": 0.04459455028363445,
+      "grad_norm": 4.485215187072754,
+      "learning_rate": 5.727198717339511e-06,
+      "loss": 4.4597,
+      "step": 340
+    },
+    {
+      "epoch": 0.04472571072564514,
+      "grad_norm": 5.159145832061768,
+      "learning_rate": 5.54146138409355e-06,
+      "loss": 4.697,
+      "step": 341
+    },
+    {
+      "epoch": 0.04485687116765583,
+      "grad_norm": 5.162900924682617,
+      "learning_rate": 5.358608901706802e-06,
+      "loss": 5.0192,
+      "step": 342
+    },
+    {
+      "epoch": 0.04498803160966652,
+      "grad_norm": 5.2545905113220215,
+      "learning_rate": 5.178653135214812e-06,
+      "loss": 4.1239,
+      "step": 343
+    },
+    {
+      "epoch": 0.045119192051677214,
+      "grad_norm": 4.857862949371338,
+      "learning_rate": 5.001605761689398e-06,
+      "loss": 4.5024,
+      "step": 344
+    },
+    {
+      "epoch": 0.045250352493687904,
+      "grad_norm": 4.704296588897705,
+      "learning_rate": 4.827478269480895e-06,
+      "loss": 4.5554,
+      "step": 345
+    },
+    {
+      "epoch": 0.045381512935698594,
+      "grad_norm": 5.3358001708984375,
+      "learning_rate": 4.65628195747273e-06,
+      "loss": 5.0343,
+      "step": 346
+    },
+    {
+      "epoch": 0.045512673377709284,
+      "grad_norm": 4.896129608154297,
+      "learning_rate": 4.488027934348271e-06,
+      "loss": 3.9751,
+      "step": 347
+    },
+    {
+      "epoch": 0.045643833819719974,
+      "grad_norm": 4.061572551727295,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 3.6035,
+      "step": 348
+    },
+    {
+      "epoch": 0.045774994261730664,
+      "grad_norm": 4.711413383483887,
+      "learning_rate": 4.16039023417088e-06,
+      "loss": 4.2966,
+      "step": 349
+    },
+    {
+      "epoch": 0.045906154703741354,
+      "grad_norm": 4.928640365600586,
+      "learning_rate": 4.001027817058789e-06,
+      "loss": 3.6161,
+      "step": 350
+    },
+    {
+      "epoch": 0.045906154703741354,
+      "eval_loss": 1.127142310142517,
+      "eval_runtime": 2167.5863,
+      "eval_samples_per_second": 5.924,
+      "eval_steps_per_second": 1.481,
+      "step": 350
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.163801154820506e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null