Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:517ade02862d57435571c6770778f0b786f5c1414d7b14e94bcb14c91b56d5e3
 size 478211024

 version https://git-lfs.github.com/spec/v1
+oid sha256:fffeb7df242c0f978ea2228dc8189ca5d4225ba24561b55ebd2695a99d12ab00
 size 478211024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f1e061ade2f866c72c38c3c7a70b8f837e30e7f0f3932618649ab6a561092d6
 size 243337876

 version https://git-lfs.github.com/spec/v1
+oid sha256:cca9d77b5d5056e040f19a2540285f9e1247993b7f6ce6981283d0a8e5dfc84a
 size 243337876

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2975f8813b949dc817df7b87d19c970b275c0d81eded259a945b79cffec064e3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba0b8cddc33cf46020efbbbb96b5eff5f98dc61f94b03e20f01b792bff5c48f3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.010980564401010211,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 20.567,
       "eval_steps_per_second": 5.142,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -745,7 +1103,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.591678163759923e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.016470846601515318,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.567,
       "eval_steps_per_second": 5.142,
       "step": 100
+    },
+    {
+      "epoch": 0.011090370045020314,
+      "grad_norm": 20.27688217163086,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 10.5539,
+      "step": 101
+    },
+    {
+      "epoch": 0.011200175689030416,
+      "grad_norm": 20.22991180419922,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 10.5449,
+      "step": 102
+    },
+    {
+      "epoch": 0.011309981333040519,
+      "grad_norm": 16.139301300048828,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 10.2872,
+      "step": 103
+    },
+    {
+      "epoch": 0.01141978697705062,
+      "grad_norm": 10.393228530883789,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 9.6018,
+      "step": 104
+    },
+    {
+      "epoch": 0.011529592621060722,
+      "grad_norm": 6.897857189178467,
+      "learning_rate": 5e-05,
+      "loss": 9.0137,
+      "step": 105
+    },
+    {
+      "epoch": 0.011639398265070825,
+      "grad_norm": 5.242559909820557,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 8.7974,
+      "step": 106
+    },
+    {
+      "epoch": 0.011749203909080927,
+      "grad_norm": 4.246593475341797,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 8.8507,
+      "step": 107
+    },
+    {
+      "epoch": 0.011859009553091028,
+      "grad_norm": 3.383063316345215,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 8.149,
+      "step": 108
+    },
+    {
+      "epoch": 0.011968815197101131,
+      "grad_norm": 2.915780544281006,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 8.2273,
+      "step": 109
+    },
+    {
+      "epoch": 0.012078620841111233,
+      "grad_norm": 2.8346691131591797,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 8.0532,
+      "step": 110
+    },
+    {
+      "epoch": 0.012188426485121336,
+      "grad_norm": 2.5639634132385254,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 7.7036,
+      "step": 111
+    },
+    {
+      "epoch": 0.012298232129131437,
+      "grad_norm": 2.2797608375549316,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 8.2839,
+      "step": 112
+    },
+    {
+      "epoch": 0.012408037773141539,
+      "grad_norm": 2.458200693130493,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 7.4049,
+      "step": 113
+    },
+    {
+      "epoch": 0.012517843417151642,
+      "grad_norm": 2.569010019302368,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 7.8835,
+      "step": 114
+    },
+    {
+      "epoch": 0.012627649061161744,
+      "grad_norm": 2.4975454807281494,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 7.3549,
+      "step": 115
+    },
+    {
+      "epoch": 0.012737454705171845,
+      "grad_norm": 2.657583475112915,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 7.4873,
+      "step": 116
+    },
+    {
+      "epoch": 0.012847260349181948,
+      "grad_norm": 3.0164661407470703,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 7.5112,
+      "step": 117
+    },
+    {
+      "epoch": 0.01295706599319205,
+      "grad_norm": 2.9580395221710205,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 7.2151,
+      "step": 118
+    },
+    {
+      "epoch": 0.013066871637202153,
+      "grad_norm": 3.4198410511016846,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 7.6243,
+      "step": 119
+    },
+    {
+      "epoch": 0.013176677281212254,
+      "grad_norm": 3.8369998931884766,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 6.8254,
+      "step": 120
+    },
+    {
+      "epoch": 0.013286482925222356,
+      "grad_norm": 3.758122205734253,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 7.497,
+      "step": 121
+    },
+    {
+      "epoch": 0.013396288569232459,
+      "grad_norm": 3.8267016410827637,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 6.6575,
+      "step": 122
+    },
+    {
+      "epoch": 0.01350609421324256,
+      "grad_norm": 4.286101341247559,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 7.3846,
+      "step": 123
+    },
+    {
+      "epoch": 0.013615899857252662,
+      "grad_norm": 4.737072944641113,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 6.9982,
+      "step": 124
+    },
+    {
+      "epoch": 0.013725705501262765,
+      "grad_norm": 4.438685417175293,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 7.1705,
+      "step": 125
+    },
+    {
+      "epoch": 0.013835511145272867,
+      "grad_norm": 5.58498477935791,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 7.2268,
+      "step": 126
+    },
+    {
+      "epoch": 0.01394531678928297,
+      "grad_norm": 4.726098537445068,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 4.5447,
+      "step": 127
+    },
+    {
+      "epoch": 0.014055122433293071,
+      "grad_norm": 5.851497173309326,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 7.0821,
+      "step": 128
+    },
+    {
+      "epoch": 0.014164928077303173,
+      "grad_norm": 4.897258758544922,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 5.6782,
+      "step": 129
+    },
+    {
+      "epoch": 0.014274733721313276,
+      "grad_norm": 6.970987319946289,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 6.1244,
+      "step": 130
+    },
+    {
+      "epoch": 0.014384539365323377,
+      "grad_norm": 6.077361106872559,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 2.6013,
+      "step": 131
+    },
+    {
+      "epoch": 0.014494345009333479,
+      "grad_norm": 4.792599201202393,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 2.9484,
+      "step": 132
+    },
+    {
+      "epoch": 0.014604150653343582,
+      "grad_norm": 5.143320560455322,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 3.6824,
+      "step": 133
+    },
+    {
+      "epoch": 0.014713956297353684,
+      "grad_norm": 6.228075981140137,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 6.0007,
+      "step": 134
+    },
+    {
+      "epoch": 0.014823761941363787,
+      "grad_norm": 5.384539604187012,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 4.8531,
+      "step": 135
+    },
+    {
+      "epoch": 0.014933567585373888,
+      "grad_norm": 6.0412774085998535,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 4.3535,
+      "step": 136
+    },
+    {
+      "epoch": 0.01504337322938399,
+      "grad_norm": 3.7027535438537598,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 1.2463,
+      "step": 137
+    },
+    {
+      "epoch": 0.015153178873394093,
+      "grad_norm": 5.037492275238037,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 4.0731,
+      "step": 138
+    },
+    {
+      "epoch": 0.015262984517404194,
+      "grad_norm": 7.468751430511475,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 5.2297,
+      "step": 139
+    },
+    {
+      "epoch": 0.015372790161414296,
+      "grad_norm": 5.828507423400879,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 4.7216,
+      "step": 140
+    },
+    {
+      "epoch": 0.015482595805424399,
+      "grad_norm": 3.6966893672943115,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 1.6202,
+      "step": 141
+    },
+    {
+      "epoch": 0.0155924014494345,
+      "grad_norm": 7.077216148376465,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 3.4661,
+      "step": 142
+    },
+    {
+      "epoch": 0.015702207093444602,
+      "grad_norm": 7.210454940795898,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 3.1293,
+      "step": 143
+    },
+    {
+      "epoch": 0.015812012737454705,
+      "grad_norm": 6.044134140014648,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 2.1328,
+      "step": 144
+    },
+    {
+      "epoch": 0.01592181838146481,
+      "grad_norm": 6.361577033996582,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 2.3974,
+      "step": 145
+    },
+    {
+      "epoch": 0.016031624025474908,
+      "grad_norm": 17.18918228149414,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 1.4077,
+      "step": 146
+    },
+    {
+      "epoch": 0.01614142966948501,
+      "grad_norm": 4.894886016845703,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 0.4673,
+      "step": 147
+    },
+    {
+      "epoch": 0.016251235313495115,
+      "grad_norm": 1.4776272773742676,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 0.3222,
+      "step": 148
+    },
+    {
+      "epoch": 0.016361040957505214,
+      "grad_norm": 0.5147504210472107,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 0.2668,
+      "step": 149
+    },
+    {
+      "epoch": 0.016470846601515318,
+      "grad_norm": 2.5885744094848633,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 1.6849,
+      "step": 150
+    },
+    {
+      "epoch": 0.016470846601515318,
+      "eval_loss": NaN,
+      "eval_runtime": 746.4299,
+      "eval_samples_per_second": 20.548,
+      "eval_steps_per_second": 5.138,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1368632474088243e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null