Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +800 -810
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "down_proj",
     "up_proj",
-    "gate_proj",
     "o_proj",
-    "v_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "gate_proj",
+    "k_proj",
+    "v_proj",
     "down_proj",
     "up_proj",
     "o_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18f29aa15404e8d7dc6c3da90b8d1195ed1266c8956e4b683ccf3e64bce4a4b0
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f135b1aa2e390d1c988122717a5ac9ab4020af2cd577111a234cd318d9c653e
 size 167832240

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a1011ccc002475182e5e55851a1493f2a954bf6e663ed962d064a3f5ba5e05d
 size 85728342

 version https://git-lfs.github.com/spec/v1
+oid sha256:811119aceb53e5716fa4f3a64d3d5aa323a9f0ec2a7c50f98d41f16f80104bba
 size 85728342

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f2f9d606f79169206a3e3db665d80d586c6b619b47340f51b44de64a39425e9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e653f327340c2a2bf9d85813888ec80ce279c9079550355bbe8116334e542c0f
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26d177a95623697e319358a6c4514ba0881b2fc04c7eac2c4bc678c9cfbb518e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:63ce17dd2c32e1042039dfe648c482c9ff0032ac68df46007019bf1f153ddc3e
 size 1064

trainer_state.json CHANGED Viewed

@@ -3,1165 +3,1155 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.0,
-  "eval_steps": 116,
-  "global_step": 576,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.4107011198997497,
-      "epoch": 0.008688097306689836,
-      "grad_norm": 1.0824192762374878,
       "learning_rate": 8e-05,
-      "loss": 1.3791,
-      "mean_token_accuracy": 0.6692322790622711,
-      "num_tokens": 5934.0,
       "step": 5
     },
     {
-      "entropy": 1.3867508530616761,
-      "epoch": 0.01737619461337967,
-      "grad_norm": 0.7395071387290955,
       "learning_rate": 0.00018,
-      "loss": 1.2462,
-      "mean_token_accuracy": 0.6868680059909821,
-      "num_tokens": 10879.0,
       "step": 10
     },
     {
-      "entropy": 1.4622886419296264,
-      "epoch": 0.026064291920069503,
-      "grad_norm": 0.8882044553756714,
-      "learning_rate": 0.00019858657243816254,
-      "loss": 1.3713,
-      "mean_token_accuracy": 0.6863115847110748,
-      "num_tokens": 16008.0,
       "step": 15
     },
     {
-      "entropy": 1.3233125329017639,
-      "epoch": 0.03475238922675934,
-      "grad_norm": 0.8664262294769287,
-      "learning_rate": 0.00019681978798586573,
-      "loss": 1.1232,
-      "mean_token_accuracy": 0.7028895020484924,
-      "num_tokens": 20909.0,
       "step": 20
     },
     {
-      "entropy": 1.3151636123657227,
-      "epoch": 0.043440486533449174,
-      "grad_norm": 0.8843740820884705,
-      "learning_rate": 0.00019505300353356894,
-      "loss": 1.3277,
-      "mean_token_accuracy": 0.6794350504875183,
-      "num_tokens": 26475.0,
       "step": 25
     },
     {
-      "entropy": 1.4190590620040893,
-      "epoch": 0.052128583840139006,
-      "grad_norm": 0.8556863069534302,
-      "learning_rate": 0.0001932862190812721,
-      "loss": 1.2498,
-      "mean_token_accuracy": 0.6925376653671265,
-      "num_tokens": 31585.0,
       "step": 30
     },
     {
-      "entropy": 1.3756298661231994,
-      "epoch": 0.060816681146828845,
-      "grad_norm": 0.7749322056770325,
-      "learning_rate": 0.00019151943462897527,
-      "loss": 1.2697,
-      "mean_token_accuracy": 0.6954838395118713,
-      "num_tokens": 36597.0,
       "step": 35
     },
     {
-      "entropy": 1.1881313562393188,
-      "epoch": 0.06950477845351868,
-      "grad_norm": 0.7338190674781799,
-      "learning_rate": 0.00018975265017667846,
-      "loss": 1.1248,
-      "mean_token_accuracy": 0.7170480847358703,
-      "num_tokens": 42077.0,
       "step": 40
     },
     {
-      "entropy": 1.1893319606781005,
-      "epoch": 0.07819287576020852,
-      "grad_norm": 0.917160153388977,
-      "learning_rate": 0.00018798586572438164,
-      "loss": 1.1068,
-      "mean_token_accuracy": 0.723894190788269,
-      "num_tokens": 47213.0,
       "step": 45
     },
     {
-      "entropy": 1.3148566722869872,
-      "epoch": 0.08688097306689835,
-      "grad_norm": 0.7442152500152588,
-      "learning_rate": 0.0001862190812720848,
-      "loss": 1.1797,
-      "mean_token_accuracy": 0.714643794298172,
-      "num_tokens": 51843.0,
       "step": 50
     },
     {
-      "entropy": 1.209594178199768,
-      "epoch": 0.09556907037358818,
-      "grad_norm": 0.8733506202697754,
-      "learning_rate": 0.000184452296819788,
-      "loss": 1.1516,
-      "mean_token_accuracy": 0.7124356746673584,
-      "num_tokens": 56129.0,
       "step": 55
     },
     {
-      "entropy": 1.2833115696907043,
-      "epoch": 0.10425716768027801,
-      "grad_norm": 0.6196924448013306,
-      "learning_rate": 0.00018268551236749118,
-      "loss": 1.1723,
-      "mean_token_accuracy": 0.716529393196106,
-      "num_tokens": 60886.0,
       "step": 60
     },
     {
-      "entropy": 1.1704561591148377,
-      "epoch": 0.11294526498696786,
-      "grad_norm": 0.7477344274520874,
-      "learning_rate": 0.00018091872791519434,
-      "loss": 1.0676,
-      "mean_token_accuracy": 0.7266331076622009,
-      "num_tokens": 65493.0,
       "step": 65
     },
     {
-      "entropy": 1.2534839153289794,
-      "epoch": 0.12163336229365769,
-      "grad_norm": 0.5629271864891052,
-      "learning_rate": 0.00017915194346289755,
-      "loss": 1.1689,
-      "mean_token_accuracy": 0.6983003616333008,
-      "num_tokens": 71532.0,
       "step": 70
     },
     {
-      "entropy": 1.2661188066005706,
-      "epoch": 0.13032145960034752,
-      "grad_norm": 0.7477047443389893,
-      "learning_rate": 0.0001773851590106007,
-      "loss": 1.1527,
-      "mean_token_accuracy": 0.7111507415771484,
-      "num_tokens": 76336.0,
       "step": 75
     },
     {
-      "entropy": 1.2280403673648834,
-      "epoch": 0.13900955690703737,
-      "grad_norm": 0.5776288509368896,
-      "learning_rate": 0.0001756183745583039,
-      "loss": 1.1463,
-      "mean_token_accuracy": 0.7114346265792847,
-      "num_tokens": 81831.0,
       "step": 80
     },
     {
-      "entropy": 1.2760204315185546,
-      "epoch": 0.1476976542137272,
-      "grad_norm": 0.7465737462043762,
-      "learning_rate": 0.00017385159010600707,
-      "loss": 1.1869,
-      "mean_token_accuracy": 0.7063124418258667,
-      "num_tokens": 87088.0,
       "step": 85
     },
     {
-      "entropy": 1.1543210983276366,
-      "epoch": 0.15638575152041703,
-      "grad_norm": 0.9235097169876099,
-      "learning_rate": 0.00017208480565371025,
-      "loss": 1.0239,
-      "mean_token_accuracy": 0.7342011570930481,
-      "num_tokens": 91481.0,
       "step": 90
     },
     {
-      "entropy": 1.1509882926940918,
-      "epoch": 0.16507384882710685,
-      "grad_norm": 0.8983603119850159,
-      "learning_rate": 0.00017031802120141343,
-      "loss": 1.0193,
-      "mean_token_accuracy": 0.7283918738365174,
-      "num_tokens": 97082.0,
       "step": 95
     },
     {
-      "entropy": 1.1474610209465026,
-      "epoch": 0.1737619461337967,
-      "grad_norm": 0.8950803875923157,
-      "learning_rate": 0.00016855123674911661,
-      "loss": 1.024,
-      "mean_token_accuracy": 0.7186934947967529,
-      "num_tokens": 102702.0,
       "step": 100
     },
     {
-      "entropy": 1.2507054924964904,
-      "epoch": 0.18245004344048654,
-      "grad_norm": 0.7641472220420837,
-      "learning_rate": 0.0001667844522968198,
-      "loss": 1.2473,
-      "mean_token_accuracy": 0.689992618560791,
-      "num_tokens": 107809.0,
       "step": 105
     },
     {
-      "entropy": 1.1421348989009856,
-      "epoch": 0.19113814074717636,
-      "grad_norm": 0.7692685723304749,
-      "learning_rate": 0.00016501766784452298,
-      "loss": 0.9813,
-      "mean_token_accuracy": 0.7342736542224884,
-      "num_tokens": 113867.0,
       "step": 110
     },
     {
-      "entropy": 1.1946647882461547,
-      "epoch": 0.1998262380538662,
-      "grad_norm": 0.6726035475730896,
-      "learning_rate": 0.00016325088339222616,
-      "loss": 1.2356,
-      "mean_token_accuracy": 0.7197514176368713,
-      "num_tokens": 118971.0,
       "step": 115
     },
     {
-      "entropy": 1.030277144908905,
-      "epoch": 0.20851433536055602,
-      "grad_norm": 0.6318750381469727,
-      "learning_rate": 0.00016148409893992932,
-      "loss": 0.9519,
-      "mean_token_accuracy": 0.7470094501972199,
-      "num_tokens": 123917.0,
       "step": 120
     },
     {
-      "entropy": 1.1761239767074585,
-      "epoch": 0.21720243266724587,
-      "grad_norm": 0.5411672592163086,
-      "learning_rate": 0.00015971731448763253,
-      "loss": 1.1012,
-      "mean_token_accuracy": 0.7102837443351746,
-      "num_tokens": 128953.0,
       "step": 125
     },
     {
-      "entropy": 1.1714531064033509,
-      "epoch": 0.22589052997393572,
-      "grad_norm": 0.8429161906242371,
-      "learning_rate": 0.00015795053003533568,
-      "loss": 1.0605,
-      "mean_token_accuracy": 0.7349712550640106,
-      "num_tokens": 133480.0,
       "step": 130
     },
     {
-      "entropy": 1.0772636473178863,
-      "epoch": 0.23457862728062553,
-      "grad_norm": 0.799789309501648,
-      "learning_rate": 0.00015618374558303886,
-      "loss": 0.926,
-      "mean_token_accuracy": 0.7549088835716248,
-      "num_tokens": 137896.0,
       "step": 135
     },
     {
-      "entropy": 1.0330187737941743,
-      "epoch": 0.24326672458731538,
-      "grad_norm": 0.7396602630615234,
-      "learning_rate": 0.00015441696113074207,
-      "loss": 0.9503,
-      "mean_token_accuracy": 0.7505731225013733,
-      "num_tokens": 142331.0,
       "step": 140
     },
     {
-      "entropy": 1.0420972228050231,
-      "epoch": 0.2519548218940052,
-      "grad_norm": 0.8590136170387268,
-      "learning_rate": 0.00015265017667844523,
-      "loss": 0.9898,
-      "mean_token_accuracy": 0.7424791634082795,
-      "num_tokens": 147214.0,
       "step": 145
     },
     {
-      "entropy": 1.0915903329849244,
-      "epoch": 0.26064291920069504,
-      "grad_norm": 0.716101884841919,
-      "learning_rate": 0.00015088339222614844,
-      "loss": 0.9714,
-      "mean_token_accuracy": 0.7417037010192871,
-      "num_tokens": 153121.0,
       "step": 150
     },
     {
-      "entropy": 1.1882542252540589,
-      "epoch": 0.2693310165073849,
-      "grad_norm": 0.6657515168190002,
-      "learning_rate": 0.0001491166077738516,
-      "loss": 1.1597,
-      "mean_token_accuracy": 0.7061243832111359,
-      "num_tokens": 158383.0,
       "step": 155
     },
     {
-      "entropy": 1.0055213570594788,
-      "epoch": 0.27801911381407474,
-      "grad_norm": 0.5483101606369019,
-      "learning_rate": 0.00014734982332155477,
-      "loss": 0.8653,
-      "mean_token_accuracy": 0.7609937191009521,
-      "num_tokens": 163784.0,
       "step": 160
     },
     {
-      "entropy": 1.0749119877815247,
-      "epoch": 0.2867072111207645,
-      "grad_norm": 0.7525088787078857,
-      "learning_rate": 0.00014558303886925796,
-      "loss": 1.0036,
-      "mean_token_accuracy": 0.7341200232505798,
-      "num_tokens": 168920.0,
       "step": 165
     },
     {
-      "entropy": 1.0247761964797975,
-      "epoch": 0.2953953084274544,
-      "grad_norm": 0.9151174426078796,
-      "learning_rate": 0.00014381625441696114,
-      "loss": 1.0161,
-      "mean_token_accuracy": 0.7334173619747162,
-      "num_tokens": 174444.0,
       "step": 170
     },
     {
-      "entropy": 0.9753389418125152,
-      "epoch": 0.3040834057341442,
-      "grad_norm": 0.838029682636261,
-      "learning_rate": 0.00014204946996466432,
-      "loss": 0.8768,
-      "mean_token_accuracy": 0.7599341690540313,
-      "num_tokens": 179698.0,
       "step": 175
     },
     {
-      "entropy": 1.125912880897522,
-      "epoch": 0.31277150304083406,
-      "grad_norm": 0.7232808470726013,
-      "learning_rate": 0.0001402826855123675,
-      "loss": 1.0314,
-      "mean_token_accuracy": 0.7424649059772491,
-      "num_tokens": 183863.0,
       "step": 180
     },
     {
-      "entropy": 1.2293154418468475,
-      "epoch": 0.3214596003475239,
-      "grad_norm": 0.7383331060409546,
-      "learning_rate": 0.00013851590106007068,
-      "loss": 1.1186,
-      "mean_token_accuracy": 0.7178550124168396,
-      "num_tokens": 189359.0,
       "step": 185
     },
     {
-      "entropy": 1.156474417448044,
-      "epoch": 0.3301476976542137,
-      "grad_norm": 0.7917217016220093,
-      "learning_rate": 0.00013674911660777384,
-      "loss": 1.1353,
-      "mean_token_accuracy": 0.733020156621933,
-      "num_tokens": 194425.0,
       "step": 190
     },
     {
-      "entropy": 1.0435515761375427,
-      "epoch": 0.33883579496090355,
-      "grad_norm": 0.6386027336120605,
-      "learning_rate": 0.00013498233215547705,
-      "loss": 1.0725,
-      "mean_token_accuracy": 0.7349865734577179,
-      "num_tokens": 200016.0,
       "step": 195
     },
     {
-      "entropy": 1.0159077584743499,
-      "epoch": 0.3475238922675934,
-      "grad_norm": 0.6591583490371704,
-      "learning_rate": 0.0001332155477031802,
-      "loss": 0.9348,
-      "mean_token_accuracy": 0.7529367506504059,
-      "num_tokens": 205422.0,
       "step": 200
     },
     {
-      "entropy": 1.2221834301948546,
-      "epoch": 0.35621198957428324,
-      "grad_norm": 0.8224623203277588,
-      "learning_rate": 0.0001314487632508834,
-      "loss": 1.1114,
-      "mean_token_accuracy": 0.7135775506496429,
-      "num_tokens": 211093.0,
       "step": 205
     },
     {
-      "entropy": 1.1724997997283935,
-      "epoch": 0.3649000868809731,
-      "grad_norm": 0.7568403482437134,
-      "learning_rate": 0.0001296819787985866,
-      "loss": 1.0791,
-      "mean_token_accuracy": 0.7197705745697022,
-      "num_tokens": 216799.0,
       "step": 210
     },
     {
-      "entropy": 0.9998281240463257,
-      "epoch": 0.3735881841876629,
-      "grad_norm": 0.7882909774780273,
-      "learning_rate": 0.00012791519434628975,
-      "loss": 0.9656,
-      "mean_token_accuracy": 0.7520670473575592,
-      "num_tokens": 222614.0,
       "step": 215
     },
     {
-      "entropy": 0.9324562966823577,
-      "epoch": 0.3822762814943527,
-      "grad_norm": 0.6336882710456848,
-      "learning_rate": 0.00012614840989399296,
-      "loss": 0.8669,
-      "mean_token_accuracy": 0.7735882341861725,
-      "num_tokens": 228379.0,
       "step": 220
     },
     {
-      "entropy": 1.1699727356433869,
-      "epoch": 0.39096437880104257,
-      "grad_norm": 0.5986983776092529,
-      "learning_rate": 0.00012438162544169612,
-      "loss": 1.1787,
-      "mean_token_accuracy": 0.7107881784439087,
-      "num_tokens": 233915.0,
       "step": 225
     },
     {
-      "entropy": 1.048863458633423,
-      "epoch": 0.3996524761077324,
-      "grad_norm": 0.4969522953033447,
-      "learning_rate": 0.0001226148409893993,
-      "loss": 0.9199,
-      "mean_token_accuracy": 0.7468161523342133,
-      "num_tokens": 240469.0,
       "step": 230
     },
     {
-      "entropy": 1.111632490158081,
-      "epoch": 0.40834057341442226,
-      "grad_norm": 0.7042287588119507,
-      "learning_rate": 0.00012084805653710247,
-      "loss": 0.9822,
-      "mean_token_accuracy": 0.7367093205451966,
-      "num_tokens": 244564.0,
       "step": 235
     },
     {
-      "entropy": 1.0202743291854859,
-      "epoch": 0.41702867072111205,
-      "grad_norm": 1.0184236764907837,
-      "learning_rate": 0.00011908127208480566,
-      "loss": 0.9372,
-      "mean_token_accuracy": 0.7477603435516358,
-      "num_tokens": 248941.0,
       "step": 240
     },
     {
-      "entropy": 0.9523225128650665,
-      "epoch": 0.4257167680278019,
-      "grad_norm": 0.8121697902679443,
-      "learning_rate": 0.00011731448763250883,
-      "loss": 0.8185,
-      "mean_token_accuracy": 0.7734134078025818,
-      "num_tokens": 253828.0,
       "step": 245
     },
     {
-      "entropy": 0.9181910157203674,
-      "epoch": 0.43440486533449174,
-      "grad_norm": 0.8086223006248474,
-      "learning_rate": 0.00011554770318021201,
-      "loss": 0.8587,
-      "mean_token_accuracy": 0.7629885494709014,
-      "num_tokens": 258346.0,
       "step": 250
     },
     {
-      "entropy": 1.027286982536316,
-      "epoch": 0.4430929626411816,
-      "grad_norm": 0.9183114171028137,
-      "learning_rate": 0.00011378091872791521,
-      "loss": 0.9793,
-      "mean_token_accuracy": 0.746444970369339,
-      "num_tokens": 263412.0,
       "step": 255
     },
     {
-      "entropy": 1.1210540890693665,
-      "epoch": 0.45178105994787143,
-      "grad_norm": 0.6462275385856628,
-      "learning_rate": 0.00011201413427561838,
-      "loss": 1.0733,
-      "mean_token_accuracy": 0.7240573465824127,
-      "num_tokens": 269265.0,
       "step": 260
     },
     {
-      "entropy": 1.0752209186553956,
-      "epoch": 0.4604691572545613,
-      "grad_norm": 0.5868723392486572,
-      "learning_rate": 0.00011024734982332157,
-      "loss": 1.035,
-      "mean_token_accuracy": 0.7398930370807648,
-      "num_tokens": 275181.0,
       "step": 265
     },
     {
-      "entropy": 1.0981005787849427,
-      "epoch": 0.46915725456125107,
-      "grad_norm": 0.6965936422348022,
-      "learning_rate": 0.00010848056537102473,
-      "loss": 0.9941,
-      "mean_token_accuracy": 0.7382525444030762,
-      "num_tokens": 281653.0,
       "step": 270
     },
     {
-      "entropy": 1.2062179446220398,
-      "epoch": 0.4778453518679409,
-      "grad_norm": 0.5782831311225891,
-      "learning_rate": 0.00010671378091872792,
-      "loss": 1.1559,
-      "mean_token_accuracy": 0.7252971649169921,
-      "num_tokens": 288339.0,
       "step": 275
     },
     {
-      "entropy": 0.9347725868225097,
-      "epoch": 0.48653344917463076,
-      "grad_norm": 0.8672428131103516,
-      "learning_rate": 0.00010494699646643109,
-      "loss": 0.8588,
-      "mean_token_accuracy": 0.7657521843910218,
-      "num_tokens": 292550.0,
       "step": 280
     },
     {
-      "entropy": 0.9903082251548767,
-      "epoch": 0.4952215464813206,
-      "grad_norm": 0.8236942291259766,
-      "learning_rate": 0.00010318021201413429,
-      "loss": 0.9742,
-      "mean_token_accuracy": 0.759516978263855,
-      "num_tokens": 297351.0,
       "step": 285
     },
     {
-      "entropy": 0.9541885316371918,
-      "epoch": 0.5039096437880104,
-      "grad_norm": 0.8054157495498657,
-      "learning_rate": 0.00010141342756183747,
-      "loss": 0.8955,
-      "mean_token_accuracy": 0.7546023488044739,
-      "num_tokens": 302375.0,
       "step": 290
     },
     {
-      "entropy": 1.087007749080658,
-      "epoch": 0.5125977410947002,
-      "grad_norm": 0.7063644528388977,
-      "learning_rate": 9.964664310954064e-05,
-      "loss": 1.0472,
-      "mean_token_accuracy": 0.7329276382923127,
-      "num_tokens": 307949.0,
       "step": 295
     },
     {
-      "entropy": 1.0150154650211334,
-      "epoch": 0.5212858384013901,
-      "grad_norm": 0.6294690370559692,
-      "learning_rate": 9.787985865724382e-05,
-      "loss": 0.9532,
-      "mean_token_accuracy": 0.7574328124523163,
-      "num_tokens": 313937.0,
       "step": 300
     },
     {
-      "entropy": 0.9173893213272095,
-      "epoch": 0.5299739357080799,
-      "grad_norm": 0.7809085845947266,
-      "learning_rate": 9.611307420494699e-05,
-      "loss": 0.858,
-      "mean_token_accuracy": 0.7763119876384735,
-      "num_tokens": 319961.0,
       "step": 305
     },
     {
-      "entropy": 0.9054305255413055,
-      "epoch": 0.5386620330147698,
-      "grad_norm": 0.6364769339561462,
-      "learning_rate": 9.434628975265019e-05,
-      "loss": 0.8299,
-      "mean_token_accuracy": 0.7723350107669831,
-      "num_tokens": 325308.0,
       "step": 310
     },
     {
-      "entropy": 1.1210152804851532,
-      "epoch": 0.5473501303214596,
-      "grad_norm": 0.5350526571273804,
-      "learning_rate": 9.257950530035337e-05,
-      "loss": 1.0869,
-      "mean_token_accuracy": 0.7202603399753571,
-      "num_tokens": 330646.0,
       "step": 315
     },
     {
-      "entropy": 1.2845207929611206,
-      "epoch": 0.5560382276281495,
-      "grad_norm": 0.7305357456207275,
-      "learning_rate": 9.081272084805655e-05,
-      "loss": 1.2433,
-      "mean_token_accuracy": 0.6946423172950744,
-      "num_tokens": 335970.0,
       "step": 320
     },
     {
-      "entropy": 1.1076598703861236,
-      "epoch": 0.5647263249348393,
-      "grad_norm": 0.7619346380233765,
-      "learning_rate": 8.904593639575972e-05,
-      "loss": 1.0772,
-      "mean_token_accuracy": 0.7353523135185241,
-      "num_tokens": 340882.0,
       "step": 325
     },
     {
-      "entropy": 1.0865317761898041,
-      "epoch": 0.573414422241529,
-      "grad_norm": 0.7432613968849182,
-      "learning_rate": 8.72791519434629e-05,
-      "loss": 0.9719,
-      "mean_token_accuracy": 0.7420823752880097,
-      "num_tokens": 347322.0,
       "step": 330
     },
     {
-      "entropy": 1.0196545660495757,
-      "epoch": 0.5821025195482189,
-      "grad_norm": 0.8102108240127563,
-      "learning_rate": 8.551236749116608e-05,
-      "loss": 1.0188,
-      "mean_token_accuracy": 0.737479317188263,
-      "num_tokens": 352255.0,
       "step": 335
     },
     {
-      "entropy": 0.9597744405269623,
-      "epoch": 0.5907906168549087,
-      "grad_norm": 0.5975119471549988,
-      "learning_rate": 8.374558303886925e-05,
-      "loss": 0.9507,
-      "mean_token_accuracy": 0.7520730376243592,
-      "num_tokens": 358224.0,
       "step": 340
     },
     {
-      "entropy": 1.0088558495044708,
-      "epoch": 0.5994787141615986,
-      "grad_norm": 0.6641438603401184,
-      "learning_rate": 8.197879858657245e-05,
-      "loss": 0.8871,
-      "mean_token_accuracy": 0.7555708646774292,
-      "num_tokens": 363628.0,
       "step": 345
     },
     {
-      "entropy": 0.8582567512989044,
-      "epoch": 0.6081668114682884,
-      "grad_norm": 0.6896267533302307,
-      "learning_rate": 8.021201413427563e-05,
-      "loss": 0.7596,
-      "mean_token_accuracy": 0.7876878619194031,
-      "num_tokens": 368584.0,
       "step": 350
     },
     {
-      "entropy": 1.0959418714046478,
-      "epoch": 0.6168549087749783,
-      "grad_norm": 0.7268755435943604,
-      "learning_rate": 7.844522968197881e-05,
-      "loss": 1.0818,
-      "mean_token_accuracy": 0.7426620662212372,
-      "num_tokens": 375123.0,
       "step": 355
     },
     {
-      "entropy": 0.939378696680069,
-      "epoch": 0.6255430060816681,
-      "grad_norm": 0.6950759887695312,
-      "learning_rate": 7.667844522968198e-05,
-      "loss": 0.8691,
-      "mean_token_accuracy": 0.7680276036262512,
-      "num_tokens": 379749.0,
       "step": 360
     },
     {
-      "entropy": 0.9272566437721252,
-      "epoch": 0.634231103388358,
-      "grad_norm": 0.7108306884765625,
-      "learning_rate": 7.491166077738516e-05,
-      "loss": 0.874,
-      "mean_token_accuracy": 0.7642870903015136,
-      "num_tokens": 384217.0,
       "step": 365
     },
     {
-      "entropy": 0.966171669960022,
-      "epoch": 0.6429192006950478,
-      "grad_norm": 0.7516181468963623,
-      "learning_rate": 7.314487632508834e-05,
-      "loss": 0.9207,
-      "mean_token_accuracy": 0.7558039426803589,
-      "num_tokens": 389545.0,
       "step": 370
     },
     {
-      "entropy": 0.9690821290016174,
-      "epoch": 0.6516072980017377,
-      "grad_norm": 0.8500149846076965,
-      "learning_rate": 7.137809187279151e-05,
-      "loss": 0.8986,
-      "mean_token_accuracy": 0.7697801053524017,
-      "num_tokens": 395014.0,
       "step": 375
     },
     {
-      "entropy": 0.9449369788169861,
-      "epoch": 0.6602953953084274,
-      "grad_norm": 0.7869531512260437,
-      "learning_rate": 6.96113074204947e-05,
-      "loss": 0.8541,
-      "mean_token_accuracy": 0.7647368013858795,
-      "num_tokens": 399347.0,
       "step": 380
     },
     {
-      "entropy": 1.011014348268509,
-      "epoch": 0.6689834926151172,
-      "grad_norm": 0.7705890536308289,
-      "learning_rate": 6.784452296819789e-05,
-      "loss": 1.0432,
-      "mean_token_accuracy": 0.734080308675766,
-      "num_tokens": 404755.0,
       "step": 385
     },
     {
-      "entropy": 0.9402169823646546,
-      "epoch": 0.6776715899218071,
-      "grad_norm": 0.7126161456108093,
-      "learning_rate": 6.607773851590107e-05,
-      "loss": 0.8886,
-      "mean_token_accuracy": 0.764913672208786,
-      "num_tokens": 409721.0,
       "step": 390
     },
     {
-      "entropy": 1.0488521814346314,
-      "epoch": 0.6863596872284969,
-      "grad_norm": 0.8272379040718079,
-      "learning_rate": 6.431095406360424e-05,
-      "loss": 0.9588,
-      "mean_token_accuracy": 0.748864209651947,
-      "num_tokens": 415299.0,
       "step": 395
     },
     {
-      "entropy": 1.1054470241069794,
-      "epoch": 0.6950477845351868,
-      "grad_norm": 0.7811095118522644,
-      "learning_rate": 6.254416961130742e-05,
-      "loss": 1.0601,
-      "mean_token_accuracy": 0.7348082840442658,
-      "num_tokens": 419272.0,
       "step": 400
     },
     {
-      "entropy": 1.2347867608070373,
-      "epoch": 0.7037358818418766,
-      "grad_norm": 0.496404230594635,
-      "learning_rate": 6.07773851590106e-05,
-      "loss": 1.2019,
-      "mean_token_accuracy": 0.7068372428417206,
-      "num_tokens": 425168.0,
       "step": 405
     },
     {
-      "entropy": 1.0330038726329804,
-      "epoch": 0.7124239791485665,
-      "grad_norm": 0.874782145023346,
-      "learning_rate": 5.901060070671378e-05,
-      "loss": 0.8853,
-      "mean_token_accuracy": 0.7520223379135131,
-      "num_tokens": 428786.0,
       "step": 410
     },
     {
-      "entropy": 0.9399411380290985,
-      "epoch": 0.7211120764552563,
-      "grad_norm": 0.5931876301765442,
-      "learning_rate": 5.724381625441696e-05,
-      "loss": 0.8794,
-      "mean_token_accuracy": 0.7625872433185578,
-      "num_tokens": 434022.0,
       "step": 415
     },
     {
-      "entropy": 0.9859249532222748,
-      "epoch": 0.7298001737619462,
-      "grad_norm": 0.8090170621871948,
-      "learning_rate": 5.547703180212014e-05,
-      "loss": 1.0024,
-      "mean_token_accuracy": 0.7403703987598419,
-      "num_tokens": 439523.0,
       "step": 420
     },
     {
-      "entropy": 1.0710622251033783,
-      "epoch": 0.738488271068636,
-      "grad_norm": 0.7571151852607727,
-      "learning_rate": 5.371024734982333e-05,
-      "loss": 1.0121,
-      "mean_token_accuracy": 0.7399603426456451,
-      "num_tokens": 445332.0,
       "step": 425
     },
     {
-      "entropy": 1.1122443795204162,
-      "epoch": 0.7471763683753258,
-      "grad_norm": 0.842430055141449,
-      "learning_rate": 5.194346289752651e-05,
-      "loss": 1.0777,
-      "mean_token_accuracy": 0.734097695350647,
-      "num_tokens": 450418.0,
       "step": 430
     },
     {
-      "entropy": 0.9799317717552185,
-      "epoch": 0.7558644656820156,
-      "grad_norm": 0.7271431088447571,
-      "learning_rate": 5.0176678445229686e-05,
-      "loss": 0.9345,
-      "mean_token_accuracy": 0.757810401916504,
-      "num_tokens": 455068.0,
       "step": 435
     },
     {
-      "entropy": 1.0104888319969176,
-      "epoch": 0.7645525629887054,
-      "grad_norm": 0.7085432410240173,
-      "learning_rate": 4.840989399293286e-05,
-      "loss": 0.9445,
-      "mean_token_accuracy": 0.7545992910861969,
-      "num_tokens": 460628.0,
       "step": 440
     },
     {
-      "entropy": 0.9711742639541626,
-      "epoch": 0.7732406602953953,
-      "grad_norm": 0.7456789016723633,
-      "learning_rate": 4.664310954063604e-05,
-      "loss": 0.8805,
-      "mean_token_accuracy": 0.7588825583457947,
-      "num_tokens": 466763.0,
       "step": 445
     },
     {
-      "entropy": 1.0628331184387207,
-      "epoch": 0.7819287576020851,
-      "grad_norm": 0.7692188620567322,
-      "learning_rate": 4.4876325088339225e-05,
-      "loss": 1.0096,
-      "mean_token_accuracy": 0.7396968126296997,
-      "num_tokens": 472278.0,
       "step": 450
     },
     {
-      "entropy": 0.9426181256771088,
-      "epoch": 0.790616854908775,
-      "grad_norm": 1.063111424446106,
-      "learning_rate": 4.310954063604241e-05,
-      "loss": 0.8868,
-      "mean_token_accuracy": 0.7644854426383972,
-      "num_tokens": 476684.0,
       "step": 455
     },
     {
-      "entropy": 0.9162843346595764,
-      "epoch": 0.7993049522154648,
-      "grad_norm": 0.594411313533783,
-      "learning_rate": 4.134275618374558e-05,
-      "loss": 0.8938,
-      "mean_token_accuracy": 0.7581522405147553,
-      "num_tokens": 481714.0,
       "step": 460
     },
     {
-      "entropy": 0.9312973737716674,
-      "epoch": 0.8079930495221547,
-      "grad_norm": 0.749118983745575,
-      "learning_rate": 3.9575971731448765e-05,
-      "loss": 0.8893,
-      "mean_token_accuracy": 0.7571979582309722,
-      "num_tokens": 486388.0,
       "step": 465
     },
     {
-      "entropy": 0.9682565927505493,
-      "epoch": 0.8166811468288445,
-      "grad_norm": 0.7657246589660645,
-      "learning_rate": 3.780918727915195e-05,
-      "loss": 0.8794,
-      "mean_token_accuracy": 0.7685398876667022,
-      "num_tokens": 491228.0,
       "step": 470
     },
     {
-      "entropy": 1.1628508567810059,
-      "epoch": 0.8253692441355344,
-      "grad_norm": 0.6811634302139282,
-      "learning_rate": 3.604240282685513e-05,
-      "loss": 1.0503,
-      "mean_token_accuracy": 0.736689418554306,
-      "num_tokens": 496097.0,
       "step": 475
     },
     {
-      "entropy": 1.0763611137866973,
-      "epoch": 0.8340573414422241,
-      "grad_norm": 0.6886923909187317,
-      "learning_rate": 3.4275618374558305e-05,
-      "loss": 1.0801,
-      "mean_token_accuracy": 0.7297431588172912,
-      "num_tokens": 502110.0,
       "step": 480
     },
     {
-      "entropy": 1.0470020353794098,
-      "epoch": 0.8427454387489139,
-      "grad_norm": 0.7665517926216125,
-      "learning_rate": 3.250883392226148e-05,
-      "loss": 0.9489,
-      "mean_token_accuracy": 0.7415068805217743,
-      "num_tokens": 507210.0,
       "step": 485
     },
     {
-      "entropy": 1.0041724681854247,
-      "epoch": 0.8514335360556038,
-      "grad_norm": 0.7603459358215332,
-      "learning_rate": 3.074204946996467e-05,
-      "loss": 0.9377,
-      "mean_token_accuracy": 0.753987443447113,
-      "num_tokens": 511823.0,
       "step": 490
     },
     {
-      "entropy": 0.9953260302543641,
-      "epoch": 0.8601216333622936,
-      "grad_norm": 0.733259916305542,
-      "learning_rate": 2.8975265017667848e-05,
-      "loss": 0.9727,
-      "mean_token_accuracy": 0.7504080295562744,
-      "num_tokens": 516499.0,
       "step": 495
     },
     {
-      "entropy": 0.973844712972641,
-      "epoch": 0.8688097306689835,
-      "grad_norm": 0.7084928750991821,
-      "learning_rate": 2.7208480565371023e-05,
-      "loss": 0.8981,
-      "mean_token_accuracy": 0.7571015357971191,
-      "num_tokens": 520718.0,
       "step": 500
     },
     {
-      "entropy": 1.0785621047019958,
-      "epoch": 0.8774978279756733,
-      "grad_norm": 0.658848226070404,
-      "learning_rate": 2.5441696113074202e-05,
-      "loss": 1.0496,
-      "mean_token_accuracy": 0.7314722836017609,
-      "num_tokens": 526895.0,
       "step": 505
     },
     {
-      "entropy": 0.9542811274528503,
-      "epoch": 0.8861859252823632,
-      "grad_norm": 0.7599547505378723,
-      "learning_rate": 2.3674911660777384e-05,
-      "loss": 0.8773,
-      "mean_token_accuracy": 0.764108294248581,
-      "num_tokens": 532482.0,
       "step": 510
     },
     {
-      "entropy": 1.0099429547786714,
-      "epoch": 0.894874022589053,
-      "grad_norm": 0.7237294316291809,
-      "learning_rate": 2.1908127208480567e-05,
-      "loss": 0.9315,
-      "mean_token_accuracy": 0.7524258732795716,
-      "num_tokens": 538357.0,
       "step": 515
     },
     {
-      "entropy": 0.9563346862792969,
-      "epoch": 0.9035621198957429,
-      "grad_norm": 0.7831231951713562,
-      "learning_rate": 2.0141342756183745e-05,
-      "loss": 0.8473,
-      "mean_token_accuracy": 0.7614937841892242,
-      "num_tokens": 542903.0,
       "step": 520
     },
     {
-      "entropy": 1.1394842267036438,
-      "epoch": 0.9122502172024327,
-      "grad_norm": 0.7991846203804016,
-      "learning_rate": 1.8374558303886928e-05,
-      "loss": 1.0732,
-      "mean_token_accuracy": 0.7291809320449829,
-      "num_tokens": 548280.0,
       "step": 525
     },
     {
-      "entropy": 1.0433153212070465,
-      "epoch": 0.9209383145091226,
-      "grad_norm": 0.8753973245620728,
-      "learning_rate": 1.6607773851590106e-05,
-      "loss": 1.0023,
-      "mean_token_accuracy": 0.7437108099460602,
-      "num_tokens": 554270.0,
       "step": 530
     },
     {
-      "entropy": 1.0431060135364532,
-      "epoch": 0.9296264118158123,
-      "grad_norm": 0.8111518025398254,
-      "learning_rate": 1.4840989399293287e-05,
-      "loss": 1.0001,
-      "mean_token_accuracy": 0.7341843962669372,
-      "num_tokens": 558806.0,
       "step": 535
     },
     {
-      "entropy": 0.9852993071079255,
-      "epoch": 0.9383145091225021,
-      "grad_norm": 0.8921456336975098,
-      "learning_rate": 1.3074204946996469e-05,
-      "loss": 0.8971,
-      "mean_token_accuracy": 0.7646882355213165,
-      "num_tokens": 563251.0,
       "step": 540
     },
     {
-      "entropy": 0.9689121782779694,
-      "epoch": 0.947002606429192,
-      "grad_norm": 0.6307923793792725,
-      "learning_rate": 1.1307420494699646e-05,
-      "loss": 0.9439,
-      "mean_token_accuracy": 0.7631863057613373,
-      "num_tokens": 568462.0,
       "step": 545
     },
     {
-      "entropy": 0.8768801867961884,
-      "epoch": 0.9556907037358818,
-      "grad_norm": 0.6335266828536987,
-      "learning_rate": 9.540636042402827e-06,
-      "loss": 0.8548,
-      "mean_token_accuracy": 0.773711097240448,
-      "num_tokens": 573579.0,
       "step": 550
     },
     {
-      "entropy": 0.8275218904018402,
-      "epoch": 0.9643788010425717,
-      "grad_norm": 0.9174020886421204,
-      "learning_rate": 7.773851590106007e-06,
-      "loss": 0.7051,
-      "mean_token_accuracy": 0.7934583604335785,
-      "num_tokens": 577791.0,
       "step": 555
     },
     {
-      "entropy": 1.0373184978961945,
-      "epoch": 0.9730668983492615,
-      "grad_norm": 0.9197268486022949,
-      "learning_rate": 6.007067137809187e-06,
-      "loss": 0.9661,
-      "mean_token_accuracy": 0.7519765794277191,
-      "num_tokens": 582350.0,
       "step": 560
     },
     {
-      "entropy": 1.0240559220314025,
-      "epoch": 0.9817549956559514,
-      "grad_norm": 0.7955470681190491,
-      "learning_rate": 4.240282685512368e-06,
-      "loss": 0.9094,
-      "mean_token_accuracy": 0.756653618812561,
-      "num_tokens": 588229.0,
       "step": 565
     },
     {
-      "entropy": 0.9118911564350128,
-      "epoch": 0.9904430929626412,
-      "grad_norm": 0.6962121725082397,
-      "learning_rate": 2.473498233215548e-06,
-      "loss": 0.8338,
-      "mean_token_accuracy": 0.7678785204887391,
-      "num_tokens": 593015.0,
       "step": 570
-    },
-    {
-      "entropy": 1.070508062839508,
-      "epoch": 0.9991311902693311,
-      "grad_norm": 0.6025918126106262,
-      "learning_rate": 7.067137809187279e-07,
-      "loss": 1.0566,
-      "mean_token_accuracy": 0.7361152768135071,
-      "num_tokens": 598486.0,
-      "step": 575
     }
   ],
   "logging_steps": 5,
-  "max_steps": 576,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
@@ -1177,7 +1167,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.712525380517888e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.0,
+  "eval_steps": 115,
+  "global_step": 572,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.3924612522125244,
+      "epoch": 0.008741258741258742,
+      "grad_norm": 0.9623214602470398,
       "learning_rate": 8e-05,
+      "loss": 1.3775,
+      "mean_token_accuracy": 0.6655579686164856,
+      "num_tokens": 4268.0,
       "step": 5
     },
     {
+      "entropy": 1.3508465528488158,
+      "epoch": 0.017482517482517484,
+      "grad_norm": 0.9386249780654907,
       "learning_rate": 0.00018,
+      "loss": 1.1938,
+      "mean_token_accuracy": 0.7008997738361359,
+      "num_tokens": 9206.0,
       "step": 10
     },
     {
+      "entropy": 1.4163436055183412,
+      "epoch": 0.026223776223776224,
+      "grad_norm": 1.047428011894226,
+      "learning_rate": 0.00019857651245551604,
+      "loss": 1.2855,
+      "mean_token_accuracy": 0.6798348546028137,
+      "num_tokens": 13655.0,
       "step": 15
     },
     {
+      "entropy": 1.3434713006019592,
+      "epoch": 0.03496503496503497,
+      "grad_norm": 0.7252029180526733,
+      "learning_rate": 0.00019679715302491104,
+      "loss": 1.2563,
+      "mean_token_accuracy": 0.6956509709358215,
+      "num_tokens": 19321.0,
       "step": 20
     },
     {
+      "entropy": 1.1038120150566102,
+      "epoch": 0.043706293706293704,
+      "grad_norm": 1.1018619537353516,
+      "learning_rate": 0.00019501779359430604,
+      "loss": 1.0152,
+      "mean_token_accuracy": 0.7334934413433075,
+      "num_tokens": 24098.0,
       "step": 25
     },
     {
+      "entropy": 1.1559201896190643,
+      "epoch": 0.05244755244755245,
+      "grad_norm": 0.7375137209892273,
+      "learning_rate": 0.0001932384341637011,
+      "loss": 1.0187,
+      "mean_token_accuracy": 0.736066859960556,
+      "num_tokens": 28311.0,
       "step": 30
     },
     {
+      "entropy": 1.251962125301361,
+      "epoch": 0.06118881118881119,
+      "grad_norm": 0.9549528956413269,
+      "learning_rate": 0.0001914590747330961,
+      "loss": 1.1877,
+      "mean_token_accuracy": 0.7039336919784546,
+      "num_tokens": 33549.0,
       "step": 35
     },
     {
+      "entropy": 1.2189816296100617,
+      "epoch": 0.06993006993006994,
+      "grad_norm": 0.7660185694694519,
+      "learning_rate": 0.00018967971530249112,
+      "loss": 1.1063,
+      "mean_token_accuracy": 0.714855033159256,
+      "num_tokens": 38668.0,
       "step": 40
     },
     {
+      "entropy": 1.2883310735225677,
+      "epoch": 0.07867132867132867,
+      "grad_norm": 0.9150952696800232,
+      "learning_rate": 0.00018790035587188612,
+      "loss": 1.2873,
+      "mean_token_accuracy": 0.6970557630062103,
+      "num_tokens": 44197.0,
       "step": 45
     },
     {
+      "entropy": 1.1909499704837798,
+      "epoch": 0.08741258741258741,
+      "grad_norm": 0.6662327647209167,
+      "learning_rate": 0.00018612099644128114,
+      "loss": 1.1576,
+      "mean_token_accuracy": 0.7179031908512116,
+      "num_tokens": 49908.0,
       "step": 50
     },
     {
+      "entropy": 1.3348850965499879,
+      "epoch": 0.09615384615384616,
+      "grad_norm": 0.8849563002586365,
+      "learning_rate": 0.00018434163701067617,
+      "loss": 1.1603,
+      "mean_token_accuracy": 0.7022291779518127,
+      "num_tokens": 54191.0,
       "step": 55
     },
     {
+      "entropy": 1.2066528439521789,
+      "epoch": 0.1048951048951049,
+      "grad_norm": 0.8784617781639099,
+      "learning_rate": 0.0001825622775800712,
+      "loss": 1.1539,
+      "mean_token_accuracy": 0.7269383847713471,
+      "num_tokens": 59562.0,
       "step": 60
     },
     {
+      "entropy": 1.129963719844818,
+      "epoch": 0.11363636363636363,
+      "grad_norm": 0.774686336517334,
+      "learning_rate": 0.0001807829181494662,
+      "loss": 1.0373,
+      "mean_token_accuracy": 0.7341378688812256,
+      "num_tokens": 65018.0,
       "step": 65
     },
     {
+      "entropy": 1.276548171043396,
+      "epoch": 0.12237762237762238,
+      "grad_norm": 0.7157500386238098,
+      "learning_rate": 0.0001790035587188612,
+      "loss": 1.1742,
+      "mean_token_accuracy": 0.7058017492294312,
+      "num_tokens": 70812.0,
       "step": 70
     },
     {
+      "entropy": 1.0836508870124817,
+      "epoch": 0.13111888111888112,
+      "grad_norm": 0.7531887292861938,
+      "learning_rate": 0.00017722419928825625,
+      "loss": 0.9649,
+      "mean_token_accuracy": 0.748905599117279,
+      "num_tokens": 76106.0,
       "step": 75
     },
     {
+      "entropy": 1.0430119216442109,
+      "epoch": 0.13986013986013987,
+      "grad_norm": 0.6007382869720459,
+      "learning_rate": 0.00017544483985765125,
+      "loss": 0.9445,
+      "mean_token_accuracy": 0.7515589416027069,
+      "num_tokens": 81557.0,
       "step": 80
     },
     {
+      "entropy": 1.1489889979362489,
+      "epoch": 0.1486013986013986,
+      "grad_norm": 0.7831665277481079,
+      "learning_rate": 0.00017366548042704627,
+      "loss": 1.0943,
+      "mean_token_accuracy": 0.7280911147594452,
+      "num_tokens": 86442.0,
       "step": 85
     },
     {
+      "entropy": 1.0606273770332337,
+      "epoch": 0.15734265734265734,
+      "grad_norm": 0.7512551546096802,
+      "learning_rate": 0.00017188612099644127,
+      "loss": 0.9434,
+      "mean_token_accuracy": 0.7480818212032319,
+      "num_tokens": 90404.0,
       "step": 90
     },
     {
+      "entropy": 1.1492775142192841,
+      "epoch": 0.1660839160839161,
+      "grad_norm": 0.5179319381713867,
+      "learning_rate": 0.00017010676156583633,
+      "loss": 1.0696,
+      "mean_token_accuracy": 0.7424242496490479,
+      "num_tokens": 97002.0,
       "step": 95
     },
     {
+      "entropy": 1.194596391916275,
+      "epoch": 0.17482517482517482,
+      "grad_norm": 0.7215603590011597,
+      "learning_rate": 0.00016832740213523133,
+      "loss": 1.1231,
+      "mean_token_accuracy": 0.7197276711463928,
+      "num_tokens": 101935.0,
       "step": 100
     },
     {
+      "entropy": 1.048801952600479,
+      "epoch": 0.18356643356643357,
+      "grad_norm": 0.9170930981636047,
+      "learning_rate": 0.00016654804270462633,
+      "loss": 0.9718,
+      "mean_token_accuracy": 0.7438604295253753,
+      "num_tokens": 107692.0,
       "step": 105
     },
     {
+      "entropy": 1.2630416095256805,
+      "epoch": 0.19230769230769232,
+      "grad_norm": 0.6975880861282349,
+      "learning_rate": 0.00016476868327402135,
+      "loss": 1.1672,
+      "mean_token_accuracy": 0.7042996108531951,
+      "num_tokens": 113041.0,
       "step": 110
     },
     {
+      "entropy": 1.170883482694626,
+      "epoch": 0.20104895104895104,
+      "grad_norm": 1.2549158334732056,
+      "learning_rate": 0.00016298932384341638,
+      "loss": 1.1129,
+      "mean_token_accuracy": 0.7294944524765015,
+      "num_tokens": 118065.0,
       "step": 115
     },
     {
+      "entropy": 1.2757395565509797,
+      "epoch": 0.2097902097902098,
+      "grad_norm": 0.7007513046264648,
+      "learning_rate": 0.0001612099644128114,
+      "loss": 1.2333,
+      "mean_token_accuracy": 0.7045675635337829,
+      "num_tokens": 123502.0,
       "step": 120
     },
     {
+      "entropy": 1.102766215801239,
+      "epoch": 0.21853146853146854,
+      "grad_norm": 0.6966100931167603,
+      "learning_rate": 0.0001594306049822064,
+      "loss": 0.9903,
+      "mean_token_accuracy": 0.7430883646011353,
+      "num_tokens": 128417.0,
       "step": 125
     },
     {
+      "entropy": 1.0878133654594422,
+      "epoch": 0.22727272727272727,
+      "grad_norm": 0.5765619277954102,
+      "learning_rate": 0.00015765124555160143,
+      "loss": 1.0547,
+      "mean_token_accuracy": 0.7235966801643372,
+      "num_tokens": 134955.0,
       "step": 130
     },
     {
+      "entropy": 1.059841650724411,
+      "epoch": 0.23601398601398602,
+      "grad_norm": 0.6278873085975647,
+      "learning_rate": 0.00015587188612099646,
+      "loss": 1.0116,
+      "mean_token_accuracy": 0.7435504794120789,
+      "num_tokens": 140785.0,
       "step": 135
     },
     {
+      "entropy": 1.0601991772651673,
+      "epoch": 0.24475524475524477,
+      "grad_norm": 0.7335526943206787,
+      "learning_rate": 0.00015409252669039148,
+      "loss": 0.9323,
+      "mean_token_accuracy": 0.7478764116764068,
+      "num_tokens": 145727.0,
       "step": 140
     },
     {
+      "entropy": 1.1874103128910065,
+      "epoch": 0.2534965034965035,
+      "grad_norm": 0.5723336338996887,
+      "learning_rate": 0.00015231316725978648,
+      "loss": 1.0757,
+      "mean_token_accuracy": 0.7186325311660766,
+      "num_tokens": 151867.0,
       "step": 145
     },
     {
+      "entropy": 0.9424997448921204,
+      "epoch": 0.26223776223776224,
+      "grad_norm": 0.8389629125595093,
+      "learning_rate": 0.00015053380782918148,
+      "loss": 0.8844,
+      "mean_token_accuracy": 0.7715938806533813,
+      "num_tokens": 155296.0,
       "step": 150
     },
     {
+      "entropy": 1.0623292565345763,
+      "epoch": 0.270979020979021,
+      "grad_norm": 0.7301695942878723,
+      "learning_rate": 0.00014875444839857654,
+      "loss": 0.9899,
+      "mean_token_accuracy": 0.7323084354400635,
+      "num_tokens": 160654.0,
       "step": 155
     },
     {
+      "entropy": 1.065491944551468,
+      "epoch": 0.27972027972027974,
+      "grad_norm": 0.7877907156944275,
+      "learning_rate": 0.00014697508896797153,
+      "loss": 0.9466,
+      "mean_token_accuracy": 0.7487669110298156,
+      "num_tokens": 165603.0,
       "step": 160
     },
     {
+      "entropy": 1.1675564229488373,
+      "epoch": 0.28846153846153844,
+      "grad_norm": 0.8203403949737549,
+      "learning_rate": 0.00014519572953736656,
+      "loss": 1.0758,
+      "mean_token_accuracy": 0.7346278429031372,
+      "num_tokens": 171119.0,
       "step": 165
     },
     {
+      "entropy": 1.0618612051010132,
+      "epoch": 0.2972027972027972,
+      "grad_norm": 0.8218940496444702,
+      "learning_rate": 0.00014341637010676156,
+      "loss": 1.0296,
+      "mean_token_accuracy": 0.7328690826892853,
+      "num_tokens": 176227.0,
       "step": 170
     },
     {
+      "entropy": 1.193172001838684,
+      "epoch": 0.30594405594405594,
+      "grad_norm": 0.9550092816352844,
+      "learning_rate": 0.0001416370106761566,
+      "loss": 1.1211,
+      "mean_token_accuracy": 0.7121898174285889,
+      "num_tokens": 181621.0,
       "step": 175
     },
     {
+      "entropy": 1.136334627866745,
+      "epoch": 0.3146853146853147,
+      "grad_norm": 0.6639471650123596,
+      "learning_rate": 0.0001398576512455516,
+      "loss": 1.0134,
+      "mean_token_accuracy": 0.7396367609500885,
+      "num_tokens": 188262.0,
       "step": 180
     },
     {
+      "entropy": 1.1639393329620362,
+      "epoch": 0.32342657342657344,
+      "grad_norm": 0.6816486120223999,
+      "learning_rate": 0.0001380782918149466,
+      "loss": 1.0736,
+      "mean_token_accuracy": 0.7224510788917542,
+      "num_tokens": 192956.0,
       "step": 185
     },
     {
+      "entropy": 1.146146583557129,
+      "epoch": 0.3321678321678322,
+      "grad_norm": 0.786189079284668,
+      "learning_rate": 0.00013629893238434164,
+      "loss": 1.0364,
+      "mean_token_accuracy": 0.7313450872898102,
+      "num_tokens": 197213.0,
       "step": 190
     },
     {
+      "entropy": 1.10458744764328,
+      "epoch": 0.3409090909090909,
+      "grad_norm": 1.0277358293533325,
+      "learning_rate": 0.00013451957295373666,
+      "loss": 1.0431,
+      "mean_token_accuracy": 0.7269207119941712,
+      "num_tokens": 201735.0,
       "step": 195
     },
     {
+      "entropy": 1.0827986776828766,
+      "epoch": 0.34965034965034963,
+      "grad_norm": 0.7654422521591187,
+      "learning_rate": 0.0001327402135231317,
+      "loss": 1.0355,
+      "mean_token_accuracy": 0.738901925086975,
+      "num_tokens": 206600.0,
       "step": 200
     },
     {
+      "entropy": 1.0413719892501831,
+      "epoch": 0.3583916083916084,
+      "grad_norm": 0.8267967700958252,
+      "learning_rate": 0.0001309608540925267,
+      "loss": 0.9717,
+      "mean_token_accuracy": 0.7459078669548035,
+      "num_tokens": 211319.0,
       "step": 205
     },
     {
+      "entropy": 0.9956618547439575,
+      "epoch": 0.36713286713286714,
+      "grad_norm": 0.7114885449409485,
+      "learning_rate": 0.00012918149466192172,
+      "loss": 0.8975,
+      "mean_token_accuracy": 0.7587344646453857,
+      "num_tokens": 216407.0,
       "step": 210
     },
     {
+      "entropy": 1.201312917470932,
+      "epoch": 0.3758741258741259,
+      "grad_norm": 0.5830783843994141,
+      "learning_rate": 0.00012740213523131672,
+      "loss": 1.1477,
+      "mean_token_accuracy": 0.7168383121490478,
+      "num_tokens": 222016.0,
       "step": 215
     },
     {
+      "entropy": 1.1125480353832244,
+      "epoch": 0.38461538461538464,
+      "grad_norm": 0.6842811107635498,
+      "learning_rate": 0.00012562277580071177,
+      "loss": 0.982,
+      "mean_token_accuracy": 0.7435801923274994,
+      "num_tokens": 226748.0,
       "step": 220
     },
     {
+      "entropy": 1.1250860214233398,
+      "epoch": 0.39335664335664333,
+      "grad_norm": 1.392675757408142,
+      "learning_rate": 0.00012384341637010677,
+      "loss": 1.0523,
+      "mean_token_accuracy": 0.7364842057228088,
+      "num_tokens": 231513.0,
       "step": 225
     },
     {
+      "entropy": 0.9735329568386077,
+      "epoch": 0.4020979020979021,
+      "grad_norm": 0.8255024552345276,
+      "learning_rate": 0.00012206405693950178,
+      "loss": 0.9083,
+      "mean_token_accuracy": 0.7571049571037293,
+      "num_tokens": 235433.0,
       "step": 230
     },
     {
+      "entropy": 1.0409073889255525,
+      "epoch": 0.41083916083916083,
+      "grad_norm": 0.6322015523910522,
+      "learning_rate": 0.0001202846975088968,
+      "loss": 0.9712,
+      "mean_token_accuracy": 0.7544535756111145,
+      "num_tokens": 240991.0,
       "step": 235
     },
     {
+      "entropy": 0.9808995604515076,
+      "epoch": 0.4195804195804196,
+      "grad_norm": 0.693168044090271,
+      "learning_rate": 0.00011850533807829183,
+      "loss": 0.9637,
+      "mean_token_accuracy": 0.7572705090045929,
+      "num_tokens": 245361.0,
       "step": 240
     },
     {
+      "entropy": 1.1916967630386353,
+      "epoch": 0.42832167832167833,
+      "grad_norm": 0.7691939473152161,
+      "learning_rate": 0.00011672597864768685,
+      "loss": 1.1378,
+      "mean_token_accuracy": 0.7057560324668884,
+      "num_tokens": 249896.0,
       "step": 245
     },
     {
+      "entropy": 0.9713864088058471,
+      "epoch": 0.4370629370629371,
+      "grad_norm": 0.6049178838729858,
+      "learning_rate": 0.00011494661921708185,
+      "loss": 0.9592,
+      "mean_token_accuracy": 0.7560720384120941,
+      "num_tokens": 255682.0,
       "step": 250
     },
     {
+      "entropy": 1.260662978887558,
+      "epoch": 0.4458041958041958,
+      "grad_norm": 0.7776870131492615,
+      "learning_rate": 0.00011316725978647686,
+      "loss": 1.1992,
+      "mean_token_accuracy": 0.6990963518619537,
+      "num_tokens": 261698.0,
       "step": 255
     },
     {
+      "entropy": 1.0263409852981566,
+      "epoch": 0.45454545454545453,
+      "grad_norm": 0.5895385146141052,
+      "learning_rate": 0.0001113879003558719,
+      "loss": 1.0182,
+      "mean_token_accuracy": 0.7378697097301483,
+      "num_tokens": 266624.0,
       "step": 260
     },
     {
+      "entropy": 1.0448009312152862,
+      "epoch": 0.4632867132867133,
+      "grad_norm": 0.7714991569519043,
+      "learning_rate": 0.00010960854092526691,
+      "loss": 0.9675,
+      "mean_token_accuracy": 0.7545935451984406,
+      "num_tokens": 272155.0,
       "step": 265
     },
     {
+      "entropy": 1.009095060825348,
+      "epoch": 0.47202797202797203,
+      "grad_norm": 0.7107412219047546,
+      "learning_rate": 0.00010782918149466192,
+      "loss": 0.9022,
+      "mean_token_accuracy": 0.7640557646751404,
+      "num_tokens": 277590.0,
       "step": 270
     },
     {
+      "entropy": 1.085400366783142,
+      "epoch": 0.4807692307692308,
+      "grad_norm": 0.6840293407440186,
+      "learning_rate": 0.00010604982206405694,
+      "loss": 1.101,
+      "mean_token_accuracy": 0.7363012135028839,
+      "num_tokens": 282989.0,
       "step": 275
     },
     {
+      "entropy": 1.209915179014206,
+      "epoch": 0.48951048951048953,
+      "grad_norm": 0.7322263121604919,
+      "learning_rate": 0.00010427046263345198,
+      "loss": 1.0632,
+      "mean_token_accuracy": 0.7248473286628723,
+      "num_tokens": 288148.0,
       "step": 280
     },
     {
+      "entropy": 1.1313316702842713,
+      "epoch": 0.4982517482517482,
+      "grad_norm": 0.8790935277938843,
+      "learning_rate": 0.00010249110320284699,
+      "loss": 1.0362,
+      "mean_token_accuracy": 0.7234691977500916,
+      "num_tokens": 293421.0,
       "step": 285
     },
     {
+      "entropy": 1.0769161105155944,
+      "epoch": 0.506993006993007,
+      "grad_norm": 0.742671012878418,
+      "learning_rate": 0.00010071174377224199,
+      "loss": 1.0596,
+      "mean_token_accuracy": 0.7369856536388397,
+      "num_tokens": 299197.0,
       "step": 290
     },
     {
+      "entropy": 1.1410824477672576,
+      "epoch": 0.5157342657342657,
+      "grad_norm": 0.6181492209434509,
+      "learning_rate": 9.893238434163702e-05,
+      "loss": 1.165,
+      "mean_token_accuracy": 0.7148903965950012,
+      "num_tokens": 305681.0,
       "step": 295
     },
     {
+      "entropy": 1.1295619785785675,
+      "epoch": 0.5244755244755245,
+      "grad_norm": 0.6285997033119202,
+      "learning_rate": 9.715302491103203e-05,
+      "loss": 1.0482,
+      "mean_token_accuracy": 0.723493081331253,
+      "num_tokens": 312074.0,
       "step": 300
     },
     {
+      "entropy": 1.0108375370502471,
+      "epoch": 0.5332167832167832,
+      "grad_norm": 0.9831832647323608,
+      "learning_rate": 9.537366548042705e-05,
+      "loss": 0.8795,
+      "mean_token_accuracy": 0.7591509163379669,
+      "num_tokens": 316386.0,
       "step": 305
     },
     {
+      "entropy": 1.0078293979167938,
+      "epoch": 0.541958041958042,
+      "grad_norm": 0.7532368302345276,
+      "learning_rate": 9.359430604982207e-05,
+      "loss": 0.9584,
+      "mean_token_accuracy": 0.7491445183753968,
+      "num_tokens": 322246.0,
       "step": 310
     },
     {
+      "entropy": 0.940712821483612,
+      "epoch": 0.5506993006993007,
+      "grad_norm": 0.8640061020851135,
+      "learning_rate": 9.18149466192171e-05,
+      "loss": 0.9253,
+      "mean_token_accuracy": 0.7581913948059082,
+      "num_tokens": 328041.0,
       "step": 315
     },
     {
+      "entropy": 0.9539014101028442,
+      "epoch": 0.5594405594405595,
+      "grad_norm": 0.5698885321617126,
+      "learning_rate": 9.00355871886121e-05,
+      "loss": 0.8867,
+      "mean_token_accuracy": 0.7597615242004394,
+      "num_tokens": 332751.0,
       "step": 320
     },
     {
+      "entropy": 1.08140572309494,
+      "epoch": 0.5681818181818182,
+      "grad_norm": 0.5825881361961365,
+      "learning_rate": 8.825622775800713e-05,
+      "loss": 1.0597,
+      "mean_token_accuracy": 0.7322126507759095,
+      "num_tokens": 338448.0,
       "step": 325
     },
     {
+      "entropy": 1.0642346262931823,
+      "epoch": 0.5769230769230769,
+      "grad_norm": 0.8457391858100891,
+      "learning_rate": 8.647686832740213e-05,
+      "loss": 1.0298,
+      "mean_token_accuracy": 0.7364085793495179,
+      "num_tokens": 343508.0,
       "step": 330
     },
     {
+      "entropy": 1.0377025127410888,
+      "epoch": 0.5856643356643356,
+      "grad_norm": 0.7959486842155457,
+      "learning_rate": 8.469750889679716e-05,
+      "loss": 0.9248,
+      "mean_token_accuracy": 0.757226413488388,
+      "num_tokens": 347840.0,
       "step": 335
     },
     {
+      "entropy": 1.0676892161369325,
+      "epoch": 0.5944055944055944,
+      "grad_norm": 0.9492782950401306,
+      "learning_rate": 8.291814946619217e-05,
+      "loss": 0.9644,
+      "mean_token_accuracy": 0.7350347638130188,
+      "num_tokens": 353004.0,
       "step": 340
     },
     {
+      "entropy": 1.2051751494407654,
+      "epoch": 0.6031468531468531,
+      "grad_norm": 0.6062285304069519,
+      "learning_rate": 8.11387900355872e-05,
+      "loss": 1.1306,
+      "mean_token_accuracy": 0.71878741979599,
+      "num_tokens": 358355.0,
       "step": 345
     },
     {
+      "entropy": 0.9939802944660187,
+      "epoch": 0.6118881118881119,
+      "grad_norm": 0.6014482378959656,
+      "learning_rate": 7.935943060498221e-05,
+      "loss": 0.9206,
+      "mean_token_accuracy": 0.7534485578536987,
+      "num_tokens": 363815.0,
       "step": 350
     },
     {
+      "entropy": 0.9838183641433715,
+      "epoch": 0.6206293706293706,
+      "grad_norm": 0.6233981251716614,
+      "learning_rate": 7.758007117437722e-05,
+      "loss": 0.9557,
+      "mean_token_accuracy": 0.7579984903335572,
+      "num_tokens": 370209.0,
       "step": 355
     },
     {
+      "entropy": 1.1523795008659363,
+      "epoch": 0.6293706293706294,
+      "grad_norm": 0.9388852119445801,
+      "learning_rate": 7.580071174377225e-05,
+      "loss": 1.1244,
+      "mean_token_accuracy": 0.7127670645713806,
+      "num_tokens": 375178.0,
       "step": 360
     },
     {
+      "entropy": 1.1256710410118103,
+      "epoch": 0.6381118881118881,
+      "grad_norm": 0.7773574590682983,
+      "learning_rate": 7.402135231316726e-05,
+      "loss": 1.199,
+      "mean_token_accuracy": 0.7347433745861054,
+      "num_tokens": 380359.0,
       "step": 365
     },
     {
+      "entropy": 1.0246877193450927,
+      "epoch": 0.6468531468531469,
+      "grad_norm": 0.7057833671569824,
+      "learning_rate": 7.224199288256229e-05,
+      "loss": 0.9349,
+      "mean_token_accuracy": 0.7434077799320221,
+      "num_tokens": 386251.0,
       "step": 370
     },
     {
+      "entropy": 0.9082993268966675,
+      "epoch": 0.6555944055944056,
+      "grad_norm": 0.7693665027618408,
+      "learning_rate": 7.046263345195729e-05,
+      "loss": 0.8317,
+      "mean_token_accuracy": 0.7674221277236939,
+      "num_tokens": 391273.0,
       "step": 375
     },
     {
+      "entropy": 1.0551639199256897,
+      "epoch": 0.6643356643356644,
+      "grad_norm": 0.6118054986000061,
+      "learning_rate": 6.868327402135231e-05,
+      "loss": 0.9564,
+      "mean_token_accuracy": 0.7505346298217773,
+      "num_tokens": 396405.0,
       "step": 380
     },
     {
+      "entropy": 0.856031060218811,
+      "epoch": 0.6730769230769231,
+      "grad_norm": 0.7436105608940125,
+      "learning_rate": 6.690391459074733e-05,
+      "loss": 0.7753,
+      "mean_token_accuracy": 0.7836384952068329,
+      "num_tokens": 401417.0,
       "step": 385
     },
     {
+      "entropy": 1.1769568383693696,
+      "epoch": 0.6818181818181818,
+      "grad_norm": 0.5364604592323303,
+      "learning_rate": 6.512455516014235e-05,
+      "loss": 1.1369,
+      "mean_token_accuracy": 0.7138187170028687,
+      "num_tokens": 408045.0,
       "step": 390
     },
     {
+      "entropy": 0.9055932879447937,
+      "epoch": 0.6905594405594405,
+      "grad_norm": 0.7993744015693665,
+      "learning_rate": 6.334519572953737e-05,
+      "loss": 0.8238,
+      "mean_token_accuracy": 0.7695916533470154,
+      "num_tokens": 412408.0,
       "step": 395
     },
     {
+      "entropy": 1.067290061712265,
+      "epoch": 0.6993006993006993,
+      "grad_norm": 0.5611645579338074,
+      "learning_rate": 6.156583629893239e-05,
+      "loss": 1.0754,
+      "mean_token_accuracy": 0.7374713003635407,
+      "num_tokens": 417539.0,
       "step": 400
     },
     {
+      "entropy": 0.9325143158435821,
+      "epoch": 0.708041958041958,
+      "grad_norm": 0.8282243609428406,
+      "learning_rate": 5.97864768683274e-05,
+      "loss": 0.8287,
+      "mean_token_accuracy": 0.7693089723587037,
+      "num_tokens": 421587.0,
       "step": 405
     },
     {
+      "entropy": 0.9437564730644226,
+      "epoch": 0.7167832167832168,
+      "grad_norm": 0.8528610467910767,
+      "learning_rate": 5.8007117437722425e-05,
+      "loss": 0.8851,
+      "mean_token_accuracy": 0.7588753461837768,
+      "num_tokens": 425118.0,
       "step": 410
     },
     {
+      "entropy": 0.9383285760879516,
+      "epoch": 0.7255244755244755,
+      "grad_norm": 0.9912576079368591,
+      "learning_rate": 5.622775800711744e-05,
+      "loss": 0.8777,
+      "mean_token_accuracy": 0.7649032652378083,
+      "num_tokens": 429766.0,
       "step": 415
     },
     {
+      "entropy": 0.9844208836555481,
+      "epoch": 0.7342657342657343,
+      "grad_norm": 0.8838147521018982,
+      "learning_rate": 5.4448398576512464e-05,
+      "loss": 0.9286,
+      "mean_token_accuracy": 0.7666606605052948,
+      "num_tokens": 434826.0,
       "step": 420
     },
     {
+      "entropy": 1.0472073316574098,
+      "epoch": 0.743006993006993,
+      "grad_norm": 0.9893532991409302,
+      "learning_rate": 5.266903914590747e-05,
+      "loss": 0.9453,
+      "mean_token_accuracy": 0.7458884060382843,
+      "num_tokens": 439219.0,
       "step": 425
     },
     {
+      "entropy": 1.059507966041565,
+      "epoch": 0.7517482517482518,
+      "grad_norm": 0.7243296504020691,
+      "learning_rate": 5.0889679715302496e-05,
+      "loss": 0.9485,
+      "mean_token_accuracy": 0.7473999261856079,
+      "num_tokens": 444496.0,
       "step": 430
     },
     {
+      "entropy": 0.96737100481987,
+      "epoch": 0.7604895104895105,
+      "grad_norm": 0.7511352300643921,
+      "learning_rate": 4.911032028469751e-05,
+      "loss": 0.9112,
+      "mean_token_accuracy": 0.7562202334403991,
+      "num_tokens": 449115.0,
       "step": 435
     },
     {
+      "entropy": 1.0681302666664123,
+      "epoch": 0.7692307692307693,
+      "grad_norm": 0.6476220488548279,
+      "learning_rate": 4.733096085409253e-05,
+      "loss": 1.1169,
+      "mean_token_accuracy": 0.7343231618404389,
+      "num_tokens": 454151.0,
       "step": 440
     },
     {
+      "entropy": 0.9483801007270813,
+      "epoch": 0.777972027972028,
+      "grad_norm": 0.7808278799057007,
+      "learning_rate": 4.555160142348754e-05,
+      "loss": 0.9041,
+      "mean_token_accuracy": 0.7763189613819123,
+      "num_tokens": 458892.0,
       "step": 445
     },
     {
+      "entropy": 0.9629013359546661,
+      "epoch": 0.7867132867132867,
+      "grad_norm": 0.7341641187667847,
+      "learning_rate": 4.377224199288256e-05,
+      "loss": 0.8238,
+      "mean_token_accuracy": 0.765246057510376,
+      "num_tokens": 463856.0,
       "step": 450
     },
     {
+      "entropy": 1.180522269010544,
+      "epoch": 0.7954545454545454,
+      "grad_norm": 0.8312517404556274,
+      "learning_rate": 4.199288256227758e-05,
+      "loss": 1.1042,
+      "mean_token_accuracy": 0.7128246188163757,
+      "num_tokens": 470112.0,
       "step": 455
     },
     {
+      "entropy": 1.004443597793579,
+      "epoch": 0.8041958041958042,
+      "grad_norm": 0.9074130654335022,
+      "learning_rate": 4.02135231316726e-05,
+      "loss": 0.9222,
+      "mean_token_accuracy": 0.7539559602737427,
+      "num_tokens": 475012.0,
       "step": 460
     },
     {
+      "entropy": 1.0228057682514191,
+      "epoch": 0.8129370629370629,
+      "grad_norm": 0.920925498008728,
+      "learning_rate": 3.843416370106761e-05,
+      "loss": 0.9035,
+      "mean_token_accuracy": 0.7569567143917084,
+      "num_tokens": 480558.0,
       "step": 465
     },
     {
+      "entropy": 0.949072140455246,
+      "epoch": 0.8216783216783217,
+      "grad_norm": 0.6804259419441223,
+      "learning_rate": 3.665480427046263e-05,
+      "loss": 0.8606,
+      "mean_token_accuracy": 0.7625180125236511,
+      "num_tokens": 486294.0,
       "step": 470
     },
     {
+      "entropy": 1.0250387787818909,
+      "epoch": 0.8304195804195804,
+      "grad_norm": 0.6318123936653137,
+      "learning_rate": 3.487544483985765e-05,
+      "loss": 0.9913,
+      "mean_token_accuracy": 0.7425659537315369,
+      "num_tokens": 492617.0,
       "step": 475
     },
     {
+      "entropy": 0.8904710471630096,
+      "epoch": 0.8391608391608392,
+      "grad_norm": 0.6852394342422485,
+      "learning_rate": 3.309608540925267e-05,
+      "loss": 0.8392,
+      "mean_token_accuracy": 0.7645678043365478,
+      "num_tokens": 497070.0,
       "step": 480
     },
     {
+      "entropy": 0.9813799023628235,
+      "epoch": 0.8479020979020979,
+      "grad_norm": 0.6071293950080872,
+      "learning_rate": 3.1316725978647684e-05,
+      "loss": 0.8984,
+      "mean_token_accuracy": 0.7646778285503387,
+      "num_tokens": 502298.0,
       "step": 485
     },
     {
+      "entropy": 1.0262552201747894,
+      "epoch": 0.8566433566433567,
+      "grad_norm": 0.8407160043716431,
+      "learning_rate": 2.9537366548042704e-05,
+      "loss": 0.9343,
+      "mean_token_accuracy": 0.7484920144081115,
+      "num_tokens": 507261.0,
       "step": 490
     },
     {
+      "entropy": 0.9773908019065857,
+      "epoch": 0.8653846153846154,
+      "grad_norm": 0.6108224987983704,
+      "learning_rate": 2.7758007117437723e-05,
+      "loss": 0.8876,
+      "mean_token_accuracy": 0.7593122482299804,
+      "num_tokens": 512933.0,
       "step": 495
     },
     {
+      "entropy": 1.143789404630661,
+      "epoch": 0.8741258741258742,
+      "grad_norm": 0.6079063415527344,
+      "learning_rate": 2.597864768683274e-05,
+      "loss": 1.0861,
+      "mean_token_accuracy": 0.7239168882369995,
+      "num_tokens": 518867.0,
       "step": 500
     },
     {
+      "entropy": 0.9865677416324615,
+      "epoch": 0.8828671328671329,
+      "grad_norm": 0.8393223285675049,
+      "learning_rate": 2.419928825622776e-05,
+      "loss": 0.9208,
+      "mean_token_accuracy": 0.7588137328624726,
+      "num_tokens": 523197.0,
       "step": 505
     },
     {
+      "entropy": 1.0429059386253356,
+      "epoch": 0.8916083916083916,
+      "grad_norm": 0.7288678288459778,
+      "learning_rate": 2.2419928825622775e-05,
+      "loss": 1.0118,
+      "mean_token_accuracy": 0.7459483563899993,
+      "num_tokens": 528553.0,
       "step": 510
     },
     {
+      "entropy": 0.936554628610611,
+      "epoch": 0.9003496503496503,
+      "grad_norm": 1.026867151260376,
+      "learning_rate": 2.0640569395017795e-05,
+      "loss": 0.8488,
+      "mean_token_accuracy": 0.7743270337581635,
+      "num_tokens": 533175.0,
       "step": 515
     },
     {
+      "entropy": 1.0927321076393128,
+      "epoch": 0.9090909090909091,
+      "grad_norm": 0.8070006370544434,
+      "learning_rate": 1.8861209964412814e-05,
+      "loss": 1.0321,
+      "mean_token_accuracy": 0.7340759754180908,
+      "num_tokens": 537923.0,
       "step": 520
     },
     {
+      "entropy": 0.923135507106781,
+      "epoch": 0.9178321678321678,
+      "grad_norm": 0.7885546684265137,
+      "learning_rate": 1.708185053380783e-05,
+      "loss": 0.8886,
+      "mean_token_accuracy": 0.7669959187507629,
+      "num_tokens": 543086.0,
       "step": 525
     },
     {
+      "entropy": 0.803551995754242,
+      "epoch": 0.9265734265734266,
+      "grad_norm": 0.5133217573165894,
+      "learning_rate": 1.530249110320285e-05,
+      "loss": 0.7201,
+      "mean_token_accuracy": 0.7979816317558288,
+      "num_tokens": 547920.0,
       "step": 530
     },
     {
+      "entropy": 1.0683785855770112,
+      "epoch": 0.9353146853146853,
+      "grad_norm": 1.0883749723434448,
+      "learning_rate": 1.3523131672597866e-05,
+      "loss": 0.979,
+      "mean_token_accuracy": 0.7476417005062104,
+      "num_tokens": 553743.0,
       "step": 535
     },
     {
+      "entropy": 1.0017572939395905,
+      "epoch": 0.9440559440559441,
+      "grad_norm": 0.8225399851799011,
+      "learning_rate": 1.1743772241992882e-05,
+      "loss": 0.8984,
+      "mean_token_accuracy": 0.761442244052887,
+      "num_tokens": 558414.0,
       "step": 540
     },
     {
+      "entropy": 1.0132792532444,
+      "epoch": 0.9527972027972028,
+      "grad_norm": 0.9049685001373291,
+      "learning_rate": 9.9644128113879e-06,
+      "loss": 0.9703,
+      "mean_token_accuracy": 0.7527327954769134,
+      "num_tokens": 563295.0,
       "step": 545
     },
     {
+      "entropy": 0.972287380695343,
+      "epoch": 0.9615384615384616,
+      "grad_norm": 0.657630980014801,
+      "learning_rate": 8.185053380782918e-06,
+      "loss": 0.8971,
+      "mean_token_accuracy": 0.7535503268241882,
+      "num_tokens": 568925.0,
       "step": 550
     },
     {
+      "entropy": 1.0074927151203155,
+      "epoch": 0.9702797202797203,
+      "grad_norm": 0.5989683866500854,
+      "learning_rate": 6.405693950177937e-06,
+      "loss": 0.9767,
+      "mean_token_accuracy": 0.7365618705749511,
+      "num_tokens": 574965.0,
       "step": 555
     },
     {
+      "entropy": 1.2086752831935883,
+      "epoch": 0.9790209790209791,
+      "grad_norm": 0.6988089084625244,
+      "learning_rate": 4.626334519572954e-06,
+      "loss": 1.1787,
+      "mean_token_accuracy": 0.7035641133785248,
+      "num_tokens": 580877.0,
       "step": 560
     },
     {
+      "entropy": 0.9592096865177154,
+      "epoch": 0.9877622377622378,
+      "grad_norm": 1.0358166694641113,
+      "learning_rate": 2.8469750889679713e-06,
+      "loss": 0.8782,
+      "mean_token_accuracy": 0.76033256649971,
+      "num_tokens": 585093.0,
       "step": 565
     },
     {
+      "entropy": 0.8759162247180938,
+      "epoch": 0.9965034965034965,
+      "grad_norm": 0.6450009942054749,
+      "learning_rate": 1.0676156583629894e-06,
+      "loss": 0.7832,
+      "mean_token_accuracy": 0.7865857958793641,
+      "num_tokens": 590558.0,
       "step": 570
     }
   ],
   "logging_steps": 5,
+  "max_steps": 572,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 2.684206514115379e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8ea3ba75a359efb29ad1e55e0aa4877049a0fc5d9f4d1850f8c2eac9197e24f
 size 5816

 version https://git-lfs.github.com/spec/v1
+oid sha256:58293d1261da0e67c9bdcabfa9d91110498e1d28ff6f6e0d9d07cd560a155972
 size 5816