Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f436010d2e9e80ed5bf6b1a84ecf196435e48acfa2ac2918c30ff5c055d68ac2
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:40ffe34e118f2cca65fe978c7fc1e24b8adb6fca750f0c67a6c081c74e5212ef
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1990af19087594d2e29b2e94b1b0eafc03864e9b720318077ba12f3e99952e87
 size 71878612

 version https://git-lfs.github.com/spec/v1
+oid sha256:094ddbf7c700cba292872d030b6f0430ed22c912028de9396a1cf75339adce5f
 size 71878612

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42ea0af9a26b5b6d978a04725ded2e680acb61bbaa914b649b5f77e0d3c6e5c6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e805b3133543254160ffc5c090da8efe486780194a4f98f128d149abea107644
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.837749719619751,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.016559032952475575,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 37.144,
       "eval_steps_per_second": 9.29,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4154059307089920.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.7557753324508667,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.03311806590495115,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 37.144,
       "eval_steps_per_second": 9.29,
       "step": 50
+    },
+    {
+      "epoch": 0.01689021361152509,
+      "grad_norm": 1.6019502878189087,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 1.2494,
+      "step": 51
+    },
+    {
+      "epoch": 0.0172213942705746,
+      "grad_norm": 1.1255786418914795,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 1.9299,
+      "step": 52
+    },
+    {
+      "epoch": 0.01755257492962411,
+      "grad_norm": 0.9759665131568909,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 1.6686,
+      "step": 53
+    },
+    {
+      "epoch": 0.01788375558867362,
+      "grad_norm": 0.8295785188674927,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 1.6114,
+      "step": 54
+    },
+    {
+      "epoch": 0.018214936247723135,
+      "grad_norm": 0.7284818291664124,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 1.6601,
+      "step": 55
+    },
+    {
+      "epoch": 0.018546116906772644,
+      "grad_norm": 0.7203806638717651,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 1.9803,
+      "step": 56
+    },
+    {
+      "epoch": 0.018877297565822158,
+      "grad_norm": 0.80353844165802,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 1.9032,
+      "step": 57
+    },
+    {
+      "epoch": 0.019208478224871667,
+      "grad_norm": 0.8839072585105896,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 1.6996,
+      "step": 58
+    },
+    {
+      "epoch": 0.01953965888392118,
+      "grad_norm": 0.8198692798614502,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 1.5281,
+      "step": 59
+    },
+    {
+      "epoch": 0.01987083954297069,
+      "grad_norm": 0.8378259539604187,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 1.5671,
+      "step": 60
+    },
+    {
+      "epoch": 0.020202020202020204,
+      "grad_norm": 0.8091515898704529,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 1.4953,
+      "step": 61
+    },
+    {
+      "epoch": 0.020533200861069714,
+      "grad_norm": 0.778917133808136,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 1.4288,
+      "step": 62
+    },
+    {
+      "epoch": 0.020864381520119227,
+      "grad_norm": 0.7468733191490173,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 1.5477,
+      "step": 63
+    },
+    {
+      "epoch": 0.021195562179168737,
+      "grad_norm": 0.7254734039306641,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 1.4657,
+      "step": 64
+    },
+    {
+      "epoch": 0.02152674283821825,
+      "grad_norm": 0.6955781579017639,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 1.3926,
+      "step": 65
+    },
+    {
+      "epoch": 0.02185792349726776,
+      "grad_norm": 0.7583262324333191,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 1.5025,
+      "step": 66
+    },
+    {
+      "epoch": 0.022189104156317273,
+      "grad_norm": 0.7440136671066284,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.5002,
+      "step": 67
+    },
+    {
+      "epoch": 0.022520284815366783,
+      "grad_norm": 0.7245012521743774,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 1.465,
+      "step": 68
+    },
+    {
+      "epoch": 0.022851465474416296,
+      "grad_norm": 0.7165144085884094,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 1.4112,
+      "step": 69
+    },
+    {
+      "epoch": 0.023182646133465806,
+      "grad_norm": 0.7907853722572327,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 1.52,
+      "step": 70
+    },
+    {
+      "epoch": 0.02351382679251532,
+      "grad_norm": 0.815196692943573,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 1.6141,
+      "step": 71
+    },
+    {
+      "epoch": 0.02384500745156483,
+      "grad_norm": 0.8183189630508423,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 1.6636,
+      "step": 72
+    },
+    {
+      "epoch": 0.024176188110614342,
+      "grad_norm": 0.8373257517814636,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 1.4627,
+      "step": 73
+    },
+    {
+      "epoch": 0.02450736876966385,
+      "grad_norm": 0.850115954875946,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 1.8854,
+      "step": 74
+    },
+    {
+      "epoch": 0.024838549428713365,
+      "grad_norm": 0.895793616771698,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 1.6086,
+      "step": 75
+    },
+    {
+      "epoch": 0.025169730087762875,
+      "grad_norm": 0.8248131275177002,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 1.6444,
+      "step": 76
+    },
+    {
+      "epoch": 0.025500910746812388,
+      "grad_norm": 0.8895325064659119,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 1.7188,
+      "step": 77
+    },
+    {
+      "epoch": 0.025832091405861898,
+      "grad_norm": 0.9729593396186829,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 1.9502,
+      "step": 78
+    },
+    {
+      "epoch": 0.02616327206491141,
+      "grad_norm": 1.030251383781433,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 1.8727,
+      "step": 79
+    },
+    {
+      "epoch": 0.02649445272396092,
+      "grad_norm": 1.0482189655303955,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 1.9381,
+      "step": 80
+    },
+    {
+      "epoch": 0.026825633383010434,
+      "grad_norm": 1.0524787902832031,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 1.9984,
+      "step": 81
+    },
+    {
+      "epoch": 0.027156814042059944,
+      "grad_norm": 1.0513972043991089,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 1.8833,
+      "step": 82
+    },
+    {
+      "epoch": 0.027487994701109457,
+      "grad_norm": 1.078437328338623,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 1.9158,
+      "step": 83
+    },
+    {
+      "epoch": 0.027819175360158967,
+      "grad_norm": 1.093733310699463,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 1.6757,
+      "step": 84
+    },
+    {
+      "epoch": 0.02815035601920848,
+      "grad_norm": 1.1759153604507446,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 1.9666,
+      "step": 85
+    },
+    {
+      "epoch": 0.02848153667825799,
+      "grad_norm": 1.0833513736724854,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.9277,
+      "step": 86
+    },
+    {
+      "epoch": 0.028812717337307503,
+      "grad_norm": 1.0955469608306885,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 2.0987,
+      "step": 87
+    },
+    {
+      "epoch": 0.029143897996357013,
+      "grad_norm": 1.1280474662780762,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 2.0453,
+      "step": 88
+    },
+    {
+      "epoch": 0.029475078655406526,
+      "grad_norm": 1.1926395893096924,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 1.94,
+      "step": 89
+    },
+    {
+      "epoch": 0.029806259314456036,
+      "grad_norm": 1.2017371654510498,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 1.6968,
+      "step": 90
+    },
+    {
+      "epoch": 0.03013743997350555,
+      "grad_norm": 1.168426275253296,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 1.9849,
+      "step": 91
+    },
+    {
+      "epoch": 0.03046862063255506,
+      "grad_norm": 1.345441460609436,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 1.8986,
+      "step": 92
+    },
+    {
+      "epoch": 0.030799801291604572,
+      "grad_norm": 1.3941736221313477,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 1.8934,
+      "step": 93
+    },
+    {
+      "epoch": 0.031130981950654082,
+      "grad_norm": 1.3810957670211792,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 2.2609,
+      "step": 94
+    },
+    {
+      "epoch": 0.031462162609703595,
+      "grad_norm": 1.4344689846038818,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 1.9775,
+      "step": 95
+    },
+    {
+      "epoch": 0.031793343268753105,
+      "grad_norm": 1.5505359172821045,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 1.9181,
+      "step": 96
+    },
+    {
+      "epoch": 0.032124523927802615,
+      "grad_norm": 1.6100990772247314,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 1.9417,
+      "step": 97
+    },
+    {
+      "epoch": 0.03245570458685213,
+      "grad_norm": 1.9509838819503784,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 1.9891,
+      "step": 98
+    },
+    {
+      "epoch": 0.03278688524590164,
+      "grad_norm": 1.7885807752609253,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 1.833,
+      "step": 99
+    },
+    {
+      "epoch": 0.03311806590495115,
+      "grad_norm": 2.2567667961120605,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 2.0396,
+      "step": 100
+    },
+    {
+      "epoch": 0.03311806590495115,
+      "eval_loss": 1.7557753324508667,
+      "eval_runtime": 135.4814,
+      "eval_samples_per_second": 37.54,
+      "eval_steps_per_second": 9.389,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8288797408100352.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null