Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88f5119a0b1fdf730bf3475c9bf9b763bc9a063c803bfaa3132ca6c6e6e12433
 size 201892112

 version https://git-lfs.github.com/spec/v1
+oid sha256:e04df309e749ee44215bef6419b7c36f2cca2a61f808f2587d414471b983e07d
 size 201892112

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac7fa69c8c997923a4320e7df2d1eda6a08f64b88485dadd8bcb8730fafc2b07
 size 102864548

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dfc183e633605690aef8e3d58f2da430c4ba600e35897349f4df113e670a829
 size 102864548

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df68f8ab799596ea79a64250841b406cc0e9a64627795b1426fd5bf1245ccaca
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9932ac03207aa68e2cb1694c6bda3ff62aaffc71d1ce038e56dbd5b437ef11ce
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09b7849512fe484686da254a5341cb189aab98442eb57d50cdc4ca5e034ecc91
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:77fecceef02880a4146c504aef986e50a2aa79b7ebef5c03c12015958eb0af66
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.9384918212890625,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 1.8691588785046729,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 32.27,
       "eval_steps_per_second": 8.247,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.491696391015629e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.8860944509506226,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 2.803738317757009,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 32.27,
       "eval_steps_per_second": 8.247,
       "step": 100
+    },
+    {
+      "epoch": 1.8878504672897196,
+      "grad_norm": 0.8476997017860413,
+      "learning_rate": 3.415395052896487e-05,
+      "loss": 1.8944,
+      "step": 101
+    },
+    {
+      "epoch": 1.9065420560747663,
+      "grad_norm": 0.7590591311454773,
+      "learning_rate": 3.31708121725597e-05,
+      "loss": 1.9007,
+      "step": 102
+    },
+    {
+      "epoch": 1.925233644859813,
+      "grad_norm": 0.8914473652839661,
+      "learning_rate": 3.219495820872265e-05,
+      "loss": 1.8704,
+      "step": 103
+    },
+    {
+      "epoch": 1.9439252336448598,
+      "grad_norm": 0.9904480576515198,
+      "learning_rate": 3.122681102880352e-05,
+      "loss": 1.9588,
+      "step": 104
+    },
+    {
+      "epoch": 1.9626168224299065,
+      "grad_norm": 1.0886353254318237,
+      "learning_rate": 3.0266789688326186e-05,
+      "loss": 2.0084,
+      "step": 105
+    },
+    {
+      "epoch": 1.9813084112149533,
+      "grad_norm": 0.9867513179779053,
+      "learning_rate": 2.9315309725603596e-05,
+      "loss": 1.9471,
+      "step": 106
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.565618634223938,
+      "learning_rate": 2.8372782981874963e-05,
+      "loss": 2.8595,
+      "step": 107
+    },
+    {
+      "epoch": 2.0186915887850465,
+      "grad_norm": 0.750761866569519,
+      "learning_rate": 2.7439617423043145e-05,
+      "loss": 1.7939,
+      "step": 108
+    },
+    {
+      "epoch": 2.0373831775700935,
+      "grad_norm": 0.7188526391983032,
+      "learning_rate": 2.6516216963089698e-05,
+      "loss": 1.948,
+      "step": 109
+    },
+    {
+      "epoch": 2.05607476635514,
+      "grad_norm": 0.6620720028877258,
+      "learning_rate": 2.5602981289243578e-05,
+      "loss": 2.0243,
+      "step": 110
+    },
+    {
+      "epoch": 2.074766355140187,
+      "grad_norm": 0.7385666966438293,
+      "learning_rate": 2.470030568897938e-05,
+      "loss": 2.0093,
+      "step": 111
+    },
+    {
+      "epoch": 2.0934579439252334,
+      "grad_norm": 0.6927978992462158,
+      "learning_rate": 2.3808580878919946e-05,
+      "loss": 2.0141,
+      "step": 112
+    },
+    {
+      "epoch": 2.1121495327102804,
+      "grad_norm": 0.8042175769805908,
+      "learning_rate": 2.2928192835717644e-05,
+      "loss": 2.1099,
+      "step": 113
+    },
+    {
+      "epoch": 2.130841121495327,
+      "grad_norm": 0.8042687177658081,
+      "learning_rate": 2.205952262898704e-05,
+      "loss": 1.9512,
+      "step": 114
+    },
+    {
+      "epoch": 2.149532710280374,
+      "grad_norm": 0.6975992918014526,
+      "learning_rate": 2.120294625636171e-05,
+      "loss": 1.9388,
+      "step": 115
+    },
+    {
+      "epoch": 2.1682242990654204,
+      "grad_norm": 0.730394721031189,
+      "learning_rate": 2.0358834480746365e-05,
+      "loss": 1.8403,
+      "step": 116
+    },
+    {
+      "epoch": 2.1869158878504673,
+      "grad_norm": 0.8232110738754272,
+      "learning_rate": 1.9527552669834798e-05,
+      "loss": 1.7969,
+      "step": 117
+    },
+    {
+      "epoch": 2.205607476635514,
+      "grad_norm": 0.853557288646698,
+      "learning_rate": 1.8709460637963123e-05,
+      "loss": 1.8426,
+      "step": 118
+    },
+    {
+      "epoch": 2.2242990654205608,
+      "grad_norm": 0.9900144338607788,
+      "learning_rate": 1.790491249036672e-05,
+      "loss": 1.8337,
+      "step": 119
+    },
+    {
+      "epoch": 2.2429906542056073,
+      "grad_norm": 1.1342283487319946,
+      "learning_rate": 1.711425646990838e-05,
+      "loss": 1.8367,
+      "step": 120
+    },
+    {
+      "epoch": 2.2616822429906542,
+      "grad_norm": 0.7156676650047302,
+      "learning_rate": 1.6337834806343783e-05,
+      "loss": 1.8456,
+      "step": 121
+    },
+    {
+      "epoch": 2.2803738317757007,
+      "grad_norm": 0.779453694820404,
+      "learning_rate": 1.557598356819e-05,
+      "loss": 1.9779,
+      "step": 122
+    },
+    {
+      "epoch": 2.2990654205607477,
+      "grad_norm": 0.8929774165153503,
+      "learning_rate": 1.4829032517260489e-05,
+      "loss": 1.9999,
+      "step": 123
+    },
+    {
+      "epoch": 2.317757009345794,
+      "grad_norm": 0.8750218152999878,
+      "learning_rate": 1.4097304965930158e-05,
+      "loss": 2.0485,
+      "step": 124
+    },
+    {
+      "epoch": 2.336448598130841,
+      "grad_norm": 0.7915140986442566,
+      "learning_rate": 1.3381117637191886e-05,
+      "loss": 2.146,
+      "step": 125
+    },
+    {
+      "epoch": 2.3551401869158877,
+      "grad_norm": 0.7732717990875244,
+      "learning_rate": 1.268078052756531e-05,
+      "loss": 2.1118,
+      "step": 126
+    },
+    {
+      "epoch": 2.3738317757009346,
+      "grad_norm": 0.7107844948768616,
+      "learning_rate": 1.199659677291709e-05,
+      "loss": 1.8324,
+      "step": 127
+    },
+    {
+      "epoch": 2.392523364485981,
+      "grad_norm": 0.6969010829925537,
+      "learning_rate": 1.132886251725061e-05,
+      "loss": 1.8862,
+      "step": 128
+    },
+    {
+      "epoch": 2.411214953271028,
+      "grad_norm": 0.7186504602432251,
+      "learning_rate": 1.0677866784522317e-05,
+      "loss": 1.8288,
+      "step": 129
+    },
+    {
+      "epoch": 2.4299065420560746,
+      "grad_norm": 0.7537363171577454,
+      "learning_rate": 1.004389135353972e-05,
+      "loss": 1.8198,
+      "step": 130
+    },
+    {
+      "epoch": 2.4485981308411215,
+      "grad_norm": 0.9697016477584839,
+      "learning_rate": 9.427210635995482e-06,
+      "loss": 1.8064,
+      "step": 131
+    },
+    {
+      "epoch": 2.467289719626168,
+      "grad_norm": 1.0445103645324707,
+      "learning_rate": 8.828091557690289e-06,
+      "loss": 1.7067,
+      "step": 132
+    },
+    {
+      "epoch": 2.485981308411215,
+      "grad_norm": 1.219523310661316,
+      "learning_rate": 8.246793442995954e-06,
+      "loss": 1.7276,
+      "step": 133
+    },
+    {
+      "epoch": 2.5046728971962615,
+      "grad_norm": 0.6436533331871033,
+      "learning_rate": 7.683567902608729e-06,
+      "loss": 1.8227,
+      "step": 134
+    },
+    {
+      "epoch": 2.5233644859813085,
+      "grad_norm": 0.6645519733428955,
+      "learning_rate": 7.138658724641417e-06,
+      "loss": 1.8911,
+      "step": 135
+    },
+    {
+      "epoch": 2.542056074766355,
+      "grad_norm": 0.7499832510948181,
+      "learning_rate": 6.6123017691014645e-06,
+      "loss": 2.0121,
+      "step": 136
+    },
+    {
+      "epoch": 2.560747663551402,
+      "grad_norm": 0.8042947053909302,
+      "learning_rate": 6.104724865800665e-06,
+      "loss": 2.0352,
+      "step": 137
+    },
+    {
+      "epoch": 2.5794392523364484,
+      "grad_norm": 0.8424281477928162,
+      "learning_rate": 5.616147715740611e-06,
+      "loss": 2.0103,
+      "step": 138
+    },
+    {
+      "epoch": 2.5981308411214954,
+      "grad_norm": 0.8324230313301086,
+      "learning_rate": 5.1467817960167975e-06,
+      "loss": 2.0734,
+      "step": 139
+    },
+    {
+      "epoch": 2.616822429906542,
+      "grad_norm": 0.7521181106567383,
+      "learning_rate": 4.696830268282204e-06,
+      "loss": 2.0144,
+      "step": 140
+    },
+    {
+      "epoch": 2.635514018691589,
+      "grad_norm": 0.7921295762062073,
+      "learning_rate": 4.266487890810256e-06,
+      "loss": 1.8382,
+      "step": 141
+    },
+    {
+      "epoch": 2.6542056074766354,
+      "grad_norm": 0.6855363845825195,
+      "learning_rate": 3.855940934195146e-06,
+      "loss": 1.8084,
+      "step": 142
+    },
+    {
+      "epoch": 2.6728971962616823,
+      "grad_norm": 0.7162411212921143,
+      "learning_rate": 3.465367100725908e-06,
+      "loss": 1.7642,
+      "step": 143
+    },
+    {
+      "epoch": 2.691588785046729,
+      "grad_norm": 0.7779765129089355,
+      "learning_rate": 3.0949354474692937e-06,
+      "loss": 1.8011,
+      "step": 144
+    },
+    {
+      "epoch": 2.710280373831776,
+      "grad_norm": 0.8959972262382507,
+      "learning_rate": 2.7448063130946224e-06,
+      "loss": 1.7792,
+      "step": 145
+    },
+    {
+      "epoch": 2.7289719626168223,
+      "grad_norm": 1.1299974918365479,
+      "learning_rate": 2.4151312484723465e-06,
+      "loss": 1.8124,
+      "step": 146
+    },
+    {
+      "epoch": 2.7476635514018692,
+      "grad_norm": 0.6512258648872375,
+      "learning_rate": 2.106052951076365e-06,
+      "loss": 1.8297,
+      "step": 147
+    },
+    {
+      "epoch": 2.7663551401869158,
+      "grad_norm": 0.6378995776176453,
+      "learning_rate": 1.8177052032184283e-06,
+      "loss": 1.8168,
+      "step": 148
+    },
+    {
+      "epoch": 2.7850467289719627,
+      "grad_norm": 0.6217026114463806,
+      "learning_rate": 1.5502128141414495e-06,
+      "loss": 1.8971,
+      "step": 149
+    },
+    {
+      "epoch": 2.803738317757009,
+      "grad_norm": 0.6214033365249634,
+      "learning_rate": 1.303691565996712e-06,
+      "loss": 1.9555,
+      "step": 150
+    },
+    {
+      "epoch": 2.803738317757009,
+      "eval_loss": 1.8860944509506226,
+      "eval_runtime": 2.8551,
+      "eval_samples_per_second": 31.522,
+      "eval_steps_per_second": 8.056,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.164884237798605e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null