Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +5 -5
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +799 -799
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "k_proj",
     "v_proj",
     "down_proj",
-    "up_proj",
-    "o_proj",
-    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
+    "q_proj",
     "v_proj",
+    "gate_proj",
     "down_proj",
+    "k_proj",
+    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f135b1aa2e390d1c988122717a5ac9ab4020af2cd577111a234cd318d9c653e
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3db570fd27876879cc33103ca8933604745e61f4019c1d836c15c7fe2de9457
 size 167832240

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:811119aceb53e5716fa4f3a64d3d5aa323a9f0ec2a7c50f98d41f16f80104bba
 size 85728342

 version https://git-lfs.github.com/spec/v1
+oid sha256:beeda5e00e3f2a251a26931469526d6fefa8f6cc35fc3926826851fecb38c416
 size 85728342

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e653f327340c2a2bf9d85813888ec80ce279c9079550355bbe8116334e542c0f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa347da6099cd574f9473f1c0ead501ac849153b19f5aa7b33de856b2d1f19dc
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63ce17dd2c32e1042039dfe648c482c9ff0032ac68df46007019bf1f153ddc3e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8bea4c55977be70b1134031e6a8b57e36f8f593b2249c6d9d6b94a16db34cae2
 size 1064

trainer_state.json CHANGED Viewed

@@ -4,1154 +4,1154 @@
   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 115,
-  "global_step": 572,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.3924612522125244,
-      "epoch": 0.008741258741258742,
-      "grad_norm": 0.9623214602470398,
       "learning_rate": 8e-05,
-      "loss": 1.3775,
-      "mean_token_accuracy": 0.6655579686164856,
-      "num_tokens": 4268.0,
       "step": 5
     },
     {
-      "entropy": 1.3508465528488158,
-      "epoch": 0.017482517482517484,
-      "grad_norm": 0.9386249780654907,
       "learning_rate": 0.00018,
-      "loss": 1.1938,
-      "mean_token_accuracy": 0.7008997738361359,
-      "num_tokens": 9206.0,
       "step": 10
     },
     {
-      "entropy": 1.4163436055183412,
-      "epoch": 0.026223776223776224,
-      "grad_norm": 1.047428011894226,
-      "learning_rate": 0.00019857651245551604,
-      "loss": 1.2855,
-      "mean_token_accuracy": 0.6798348546028137,
-      "num_tokens": 13655.0,
       "step": 15
     },
     {
-      "entropy": 1.3434713006019592,
-      "epoch": 0.03496503496503497,
-      "grad_norm": 0.7252029180526733,
-      "learning_rate": 0.00019679715302491104,
-      "loss": 1.2563,
-      "mean_token_accuracy": 0.6956509709358215,
-      "num_tokens": 19321.0,
       "step": 20
     },
     {
-      "entropy": 1.1038120150566102,
-      "epoch": 0.043706293706293704,
-      "grad_norm": 1.1018619537353516,
-      "learning_rate": 0.00019501779359430604,
-      "loss": 1.0152,
-      "mean_token_accuracy": 0.7334934413433075,
-      "num_tokens": 24098.0,
       "step": 25
     },
     {
-      "entropy": 1.1559201896190643,
-      "epoch": 0.05244755244755245,
-      "grad_norm": 0.7375137209892273,
-      "learning_rate": 0.0001932384341637011,
-      "loss": 1.0187,
-      "mean_token_accuracy": 0.736066859960556,
-      "num_tokens": 28311.0,
       "step": 30
     },
     {
-      "entropy": 1.251962125301361,
-      "epoch": 0.06118881118881119,
-      "grad_norm": 0.9549528956413269,
-      "learning_rate": 0.0001914590747330961,
-      "loss": 1.1877,
-      "mean_token_accuracy": 0.7039336919784546,
-      "num_tokens": 33549.0,
       "step": 35
     },
     {
-      "entropy": 1.2189816296100617,
-      "epoch": 0.06993006993006994,
-      "grad_norm": 0.7660185694694519,
-      "learning_rate": 0.00018967971530249112,
-      "loss": 1.1063,
-      "mean_token_accuracy": 0.714855033159256,
-      "num_tokens": 38668.0,
       "step": 40
     },
     {
-      "entropy": 1.2883310735225677,
-      "epoch": 0.07867132867132867,
-      "grad_norm": 0.9150952696800232,
-      "learning_rate": 0.00018790035587188612,
-      "loss": 1.2873,
-      "mean_token_accuracy": 0.6970557630062103,
-      "num_tokens": 44197.0,
       "step": 45
     },
     {
-      "entropy": 1.1909499704837798,
-      "epoch": 0.08741258741258741,
-      "grad_norm": 0.6662327647209167,
-      "learning_rate": 0.00018612099644128114,
-      "loss": 1.1576,
-      "mean_token_accuracy": 0.7179031908512116,
-      "num_tokens": 49908.0,
       "step": 50
     },
     {
-      "entropy": 1.3348850965499879,
-      "epoch": 0.09615384615384616,
-      "grad_norm": 0.8849563002586365,
-      "learning_rate": 0.00018434163701067617,
-      "loss": 1.1603,
-      "mean_token_accuracy": 0.7022291779518127,
-      "num_tokens": 54191.0,
       "step": 55
     },
     {
-      "entropy": 1.2066528439521789,
-      "epoch": 0.1048951048951049,
-      "grad_norm": 0.8784617781639099,
-      "learning_rate": 0.0001825622775800712,
-      "loss": 1.1539,
-      "mean_token_accuracy": 0.7269383847713471,
-      "num_tokens": 59562.0,
       "step": 60
     },
     {
-      "entropy": 1.129963719844818,
-      "epoch": 0.11363636363636363,
-      "grad_norm": 0.774686336517334,
-      "learning_rate": 0.0001807829181494662,
-      "loss": 1.0373,
-      "mean_token_accuracy": 0.7341378688812256,
-      "num_tokens": 65018.0,
       "step": 65
     },
     {
-      "entropy": 1.276548171043396,
-      "epoch": 0.12237762237762238,
-      "grad_norm": 0.7157500386238098,
-      "learning_rate": 0.0001790035587188612,
-      "loss": 1.1742,
-      "mean_token_accuracy": 0.7058017492294312,
-      "num_tokens": 70812.0,
       "step": 70
     },
     {
-      "entropy": 1.0836508870124817,
-      "epoch": 0.13111888111888112,
-      "grad_norm": 0.7531887292861938,
-      "learning_rate": 0.00017722419928825625,
-      "loss": 0.9649,
-      "mean_token_accuracy": 0.748905599117279,
-      "num_tokens": 76106.0,
       "step": 75
     },
     {
-      "entropy": 1.0430119216442109,
-      "epoch": 0.13986013986013987,
-      "grad_norm": 0.6007382869720459,
-      "learning_rate": 0.00017544483985765125,
-      "loss": 0.9445,
-      "mean_token_accuracy": 0.7515589416027069,
-      "num_tokens": 81557.0,
       "step": 80
     },
     {
-      "entropy": 1.1489889979362489,
-      "epoch": 0.1486013986013986,
-      "grad_norm": 0.7831665277481079,
-      "learning_rate": 0.00017366548042704627,
-      "loss": 1.0943,
-      "mean_token_accuracy": 0.7280911147594452,
-      "num_tokens": 86442.0,
       "step": 85
     },
     {
-      "entropy": 1.0606273770332337,
-      "epoch": 0.15734265734265734,
-      "grad_norm": 0.7512551546096802,
-      "learning_rate": 0.00017188612099644127,
-      "loss": 0.9434,
-      "mean_token_accuracy": 0.7480818212032319,
-      "num_tokens": 90404.0,
       "step": 90
     },
     {
-      "entropy": 1.1492775142192841,
-      "epoch": 0.1660839160839161,
-      "grad_norm": 0.5179319381713867,
-      "learning_rate": 0.00017010676156583633,
-      "loss": 1.0696,
-      "mean_token_accuracy": 0.7424242496490479,
-      "num_tokens": 97002.0,
       "step": 95
     },
     {
-      "entropy": 1.194596391916275,
-      "epoch": 0.17482517482517482,
-      "grad_norm": 0.7215603590011597,
-      "learning_rate": 0.00016832740213523133,
-      "loss": 1.1231,
-      "mean_token_accuracy": 0.7197276711463928,
-      "num_tokens": 101935.0,
       "step": 100
     },
     {
-      "entropy": 1.048801952600479,
-      "epoch": 0.18356643356643357,
-      "grad_norm": 0.9170930981636047,
-      "learning_rate": 0.00016654804270462633,
-      "loss": 0.9718,
-      "mean_token_accuracy": 0.7438604295253753,
-      "num_tokens": 107692.0,
       "step": 105
     },
     {
-      "entropy": 1.2630416095256805,
-      "epoch": 0.19230769230769232,
-      "grad_norm": 0.6975880861282349,
-      "learning_rate": 0.00016476868327402135,
-      "loss": 1.1672,
-      "mean_token_accuracy": 0.7042996108531951,
-      "num_tokens": 113041.0,
       "step": 110
     },
     {
-      "entropy": 1.170883482694626,
-      "epoch": 0.20104895104895104,
-      "grad_norm": 1.2549158334732056,
-      "learning_rate": 0.00016298932384341638,
-      "loss": 1.1129,
-      "mean_token_accuracy": 0.7294944524765015,
-      "num_tokens": 118065.0,
       "step": 115
     },
     {
-      "entropy": 1.2757395565509797,
-      "epoch": 0.2097902097902098,
-      "grad_norm": 0.7007513046264648,
-      "learning_rate": 0.0001612099644128114,
-      "loss": 1.2333,
-      "mean_token_accuracy": 0.7045675635337829,
-      "num_tokens": 123502.0,
       "step": 120
     },
     {
-      "entropy": 1.102766215801239,
-      "epoch": 0.21853146853146854,
-      "grad_norm": 0.6966100931167603,
-      "learning_rate": 0.0001594306049822064,
-      "loss": 0.9903,
-      "mean_token_accuracy": 0.7430883646011353,
-      "num_tokens": 128417.0,
       "step": 125
     },
     {
-      "entropy": 1.0878133654594422,
-      "epoch": 0.22727272727272727,
-      "grad_norm": 0.5765619277954102,
-      "learning_rate": 0.00015765124555160143,
-      "loss": 1.0547,
-      "mean_token_accuracy": 0.7235966801643372,
-      "num_tokens": 134955.0,
       "step": 130
     },
     {
-      "entropy": 1.059841650724411,
-      "epoch": 0.23601398601398602,
-      "grad_norm": 0.6278873085975647,
-      "learning_rate": 0.00015587188612099646,
-      "loss": 1.0116,
-      "mean_token_accuracy": 0.7435504794120789,
-      "num_tokens": 140785.0,
       "step": 135
     },
     {
-      "entropy": 1.0601991772651673,
-      "epoch": 0.24475524475524477,
-      "grad_norm": 0.7335526943206787,
-      "learning_rate": 0.00015409252669039148,
-      "loss": 0.9323,
-      "mean_token_accuracy": 0.7478764116764068,
-      "num_tokens": 145727.0,
       "step": 140
     },
     {
-      "entropy": 1.1874103128910065,
-      "epoch": 0.2534965034965035,
-      "grad_norm": 0.5723336338996887,
-      "learning_rate": 0.00015231316725978648,
-      "loss": 1.0757,
-      "mean_token_accuracy": 0.7186325311660766,
-      "num_tokens": 151867.0,
       "step": 145
     },
     {
-      "entropy": 0.9424997448921204,
-      "epoch": 0.26223776223776224,
-      "grad_norm": 0.8389629125595093,
-      "learning_rate": 0.00015053380782918148,
-      "loss": 0.8844,
-      "mean_token_accuracy": 0.7715938806533813,
-      "num_tokens": 155296.0,
       "step": 150
     },
     {
-      "entropy": 1.0623292565345763,
-      "epoch": 0.270979020979021,
-      "grad_norm": 0.7301695942878723,
-      "learning_rate": 0.00014875444839857654,
-      "loss": 0.9899,
-      "mean_token_accuracy": 0.7323084354400635,
-      "num_tokens": 160654.0,
       "step": 155
     },
     {
-      "entropy": 1.065491944551468,
-      "epoch": 0.27972027972027974,
-      "grad_norm": 0.7877907156944275,
-      "learning_rate": 0.00014697508896797153,
-      "loss": 0.9466,
-      "mean_token_accuracy": 0.7487669110298156,
-      "num_tokens": 165603.0,
       "step": 160
     },
     {
-      "entropy": 1.1675564229488373,
-      "epoch": 0.28846153846153844,
-      "grad_norm": 0.8203403949737549,
-      "learning_rate": 0.00014519572953736656,
-      "loss": 1.0758,
-      "mean_token_accuracy": 0.7346278429031372,
-      "num_tokens": 171119.0,
       "step": 165
     },
     {
-      "entropy": 1.0618612051010132,
-      "epoch": 0.2972027972027972,
-      "grad_norm": 0.8218940496444702,
-      "learning_rate": 0.00014341637010676156,
-      "loss": 1.0296,
-      "mean_token_accuracy": 0.7328690826892853,
-      "num_tokens": 176227.0,
       "step": 170
     },
     {
-      "entropy": 1.193172001838684,
-      "epoch": 0.30594405594405594,
-      "grad_norm": 0.9550092816352844,
-      "learning_rate": 0.0001416370106761566,
-      "loss": 1.1211,
-      "mean_token_accuracy": 0.7121898174285889,
-      "num_tokens": 181621.0,
       "step": 175
     },
     {
-      "entropy": 1.136334627866745,
-      "epoch": 0.3146853146853147,
-      "grad_norm": 0.6639471650123596,
-      "learning_rate": 0.0001398576512455516,
-      "loss": 1.0134,
-      "mean_token_accuracy": 0.7396367609500885,
-      "num_tokens": 188262.0,
       "step": 180
     },
     {
-      "entropy": 1.1639393329620362,
-      "epoch": 0.32342657342657344,
-      "grad_norm": 0.6816486120223999,
-      "learning_rate": 0.0001380782918149466,
-      "loss": 1.0736,
-      "mean_token_accuracy": 0.7224510788917542,
-      "num_tokens": 192956.0,
       "step": 185
     },
     {
-      "entropy": 1.146146583557129,
-      "epoch": 0.3321678321678322,
-      "grad_norm": 0.786189079284668,
-      "learning_rate": 0.00013629893238434164,
-      "loss": 1.0364,
-      "mean_token_accuracy": 0.7313450872898102,
-      "num_tokens": 197213.0,
       "step": 190
     },
     {
-      "entropy": 1.10458744764328,
-      "epoch": 0.3409090909090909,
-      "grad_norm": 1.0277358293533325,
-      "learning_rate": 0.00013451957295373666,
-      "loss": 1.0431,
-      "mean_token_accuracy": 0.7269207119941712,
-      "num_tokens": 201735.0,
       "step": 195
     },
     {
-      "entropy": 1.0827986776828766,
-      "epoch": 0.34965034965034963,
-      "grad_norm": 0.7654422521591187,
-      "learning_rate": 0.0001327402135231317,
-      "loss": 1.0355,
-      "mean_token_accuracy": 0.738901925086975,
-      "num_tokens": 206600.0,
       "step": 200
     },
     {
-      "entropy": 1.0413719892501831,
-      "epoch": 0.3583916083916084,
-      "grad_norm": 0.8267967700958252,
-      "learning_rate": 0.0001309608540925267,
-      "loss": 0.9717,
-      "mean_token_accuracy": 0.7459078669548035,
-      "num_tokens": 211319.0,
       "step": 205
     },
     {
-      "entropy": 0.9956618547439575,
-      "epoch": 0.36713286713286714,
-      "grad_norm": 0.7114885449409485,
-      "learning_rate": 0.00012918149466192172,
-      "loss": 0.8975,
-      "mean_token_accuracy": 0.7587344646453857,
-      "num_tokens": 216407.0,
       "step": 210
     },
     {
-      "entropy": 1.201312917470932,
-      "epoch": 0.3758741258741259,
-      "grad_norm": 0.5830783843994141,
-      "learning_rate": 0.00012740213523131672,
-      "loss": 1.1477,
-      "mean_token_accuracy": 0.7168383121490478,
-      "num_tokens": 222016.0,
       "step": 215
     },
     {
-      "entropy": 1.1125480353832244,
-      "epoch": 0.38461538461538464,
-      "grad_norm": 0.6842811107635498,
-      "learning_rate": 0.00012562277580071177,
-      "loss": 0.982,
-      "mean_token_accuracy": 0.7435801923274994,
-      "num_tokens": 226748.0,
       "step": 220
     },
     {
-      "entropy": 1.1250860214233398,
-      "epoch": 0.39335664335664333,
-      "grad_norm": 1.392675757408142,
-      "learning_rate": 0.00012384341637010677,
-      "loss": 1.0523,
-      "mean_token_accuracy": 0.7364842057228088,
-      "num_tokens": 231513.0,
       "step": 225
     },
     {
-      "entropy": 0.9735329568386077,
-      "epoch": 0.4020979020979021,
-      "grad_norm": 0.8255024552345276,
-      "learning_rate": 0.00012206405693950178,
-      "loss": 0.9083,
-      "mean_token_accuracy": 0.7571049571037293,
-      "num_tokens": 235433.0,
       "step": 230
     },
     {
-      "entropy": 1.0409073889255525,
-      "epoch": 0.41083916083916083,
-      "grad_norm": 0.6322015523910522,
-      "learning_rate": 0.0001202846975088968,
-      "loss": 0.9712,
-      "mean_token_accuracy": 0.7544535756111145,
-      "num_tokens": 240991.0,
       "step": 235
     },
     {
-      "entropy": 0.9808995604515076,
-      "epoch": 0.4195804195804196,
-      "grad_norm": 0.693168044090271,
-      "learning_rate": 0.00011850533807829183,
-      "loss": 0.9637,
-      "mean_token_accuracy": 0.7572705090045929,
-      "num_tokens": 245361.0,
       "step": 240
     },
     {
-      "entropy": 1.1916967630386353,
-      "epoch": 0.42832167832167833,
-      "grad_norm": 0.7691939473152161,
-      "learning_rate": 0.00011672597864768685,
-      "loss": 1.1378,
-      "mean_token_accuracy": 0.7057560324668884,
-      "num_tokens": 249896.0,
       "step": 245
     },
     {
-      "entropy": 0.9713864088058471,
-      "epoch": 0.4370629370629371,
-      "grad_norm": 0.6049178838729858,
-      "learning_rate": 0.00011494661921708185,
-      "loss": 0.9592,
-      "mean_token_accuracy": 0.7560720384120941,
-      "num_tokens": 255682.0,
       "step": 250
     },
     {
-      "entropy": 1.260662978887558,
-      "epoch": 0.4458041958041958,
-      "grad_norm": 0.7776870131492615,
-      "learning_rate": 0.00011316725978647686,
-      "loss": 1.1992,
-      "mean_token_accuracy": 0.6990963518619537,
-      "num_tokens": 261698.0,
       "step": 255
     },
     {
-      "entropy": 1.0263409852981566,
-      "epoch": 0.45454545454545453,
-      "grad_norm": 0.5895385146141052,
-      "learning_rate": 0.0001113879003558719,
-      "loss": 1.0182,
-      "mean_token_accuracy": 0.7378697097301483,
-      "num_tokens": 266624.0,
       "step": 260
     },
     {
-      "entropy": 1.0448009312152862,
-      "epoch": 0.4632867132867133,
-      "grad_norm": 0.7714991569519043,
-      "learning_rate": 0.00010960854092526691,
-      "loss": 0.9675,
-      "mean_token_accuracy": 0.7545935451984406,
-      "num_tokens": 272155.0,
       "step": 265
     },
     {
-      "entropy": 1.009095060825348,
-      "epoch": 0.47202797202797203,
-      "grad_norm": 0.7107412219047546,
-      "learning_rate": 0.00010782918149466192,
-      "loss": 0.9022,
-      "mean_token_accuracy": 0.7640557646751404,
-      "num_tokens": 277590.0,
       "step": 270
     },
     {
-      "entropy": 1.085400366783142,
-      "epoch": 0.4807692307692308,
-      "grad_norm": 0.6840293407440186,
-      "learning_rate": 0.00010604982206405694,
-      "loss": 1.101,
-      "mean_token_accuracy": 0.7363012135028839,
-      "num_tokens": 282989.0,
       "step": 275
     },
     {
-      "entropy": 1.209915179014206,
-      "epoch": 0.48951048951048953,
-      "grad_norm": 0.7322263121604919,
-      "learning_rate": 0.00010427046263345198,
-      "loss": 1.0632,
-      "mean_token_accuracy": 0.7248473286628723,
-      "num_tokens": 288148.0,
       "step": 280
     },
     {
-      "entropy": 1.1313316702842713,
-      "epoch": 0.4982517482517482,
-      "grad_norm": 0.8790935277938843,
-      "learning_rate": 0.00010249110320284699,
-      "loss": 1.0362,
-      "mean_token_accuracy": 0.7234691977500916,
-      "num_tokens": 293421.0,
       "step": 285
     },
     {
-      "entropy": 1.0769161105155944,
-      "epoch": 0.506993006993007,
-      "grad_norm": 0.742671012878418,
-      "learning_rate": 0.00010071174377224199,
-      "loss": 1.0596,
-      "mean_token_accuracy": 0.7369856536388397,
-      "num_tokens": 299197.0,
       "step": 290
     },
     {
-      "entropy": 1.1410824477672576,
-      "epoch": 0.5157342657342657,
-      "grad_norm": 0.6181492209434509,
-      "learning_rate": 9.893238434163702e-05,
-      "loss": 1.165,
-      "mean_token_accuracy": 0.7148903965950012,
-      "num_tokens": 305681.0,
       "step": 295
     },
     {
-      "entropy": 1.1295619785785675,
-      "epoch": 0.5244755244755245,
-      "grad_norm": 0.6285997033119202,
-      "learning_rate": 9.715302491103203e-05,
-      "loss": 1.0482,
-      "mean_token_accuracy": 0.723493081331253,
-      "num_tokens": 312074.0,
       "step": 300
     },
     {
-      "entropy": 1.0108375370502471,
-      "epoch": 0.5332167832167832,
-      "grad_norm": 0.9831832647323608,
-      "learning_rate": 9.537366548042705e-05,
-      "loss": 0.8795,
-      "mean_token_accuracy": 0.7591509163379669,
-      "num_tokens": 316386.0,
       "step": 305
     },
     {
-      "entropy": 1.0078293979167938,
-      "epoch": 0.541958041958042,
-      "grad_norm": 0.7532368302345276,
-      "learning_rate": 9.359430604982207e-05,
-      "loss": 0.9584,
-      "mean_token_accuracy": 0.7491445183753968,
-      "num_tokens": 322246.0,
       "step": 310
     },
     {
-      "entropy": 0.940712821483612,
-      "epoch": 0.5506993006993007,
-      "grad_norm": 0.8640061020851135,
-      "learning_rate": 9.18149466192171e-05,
-      "loss": 0.9253,
-      "mean_token_accuracy": 0.7581913948059082,
-      "num_tokens": 328041.0,
       "step": 315
     },
     {
-      "entropy": 0.9539014101028442,
-      "epoch": 0.5594405594405595,
-      "grad_norm": 0.5698885321617126,
-      "learning_rate": 9.00355871886121e-05,
-      "loss": 0.8867,
-      "mean_token_accuracy": 0.7597615242004394,
-      "num_tokens": 332751.0,
       "step": 320
     },
     {
-      "entropy": 1.08140572309494,
-      "epoch": 0.5681818181818182,
-      "grad_norm": 0.5825881361961365,
-      "learning_rate": 8.825622775800713e-05,
-      "loss": 1.0597,
-      "mean_token_accuracy": 0.7322126507759095,
-      "num_tokens": 338448.0,
       "step": 325
     },
     {
-      "entropy": 1.0642346262931823,
-      "epoch": 0.5769230769230769,
-      "grad_norm": 0.8457391858100891,
-      "learning_rate": 8.647686832740213e-05,
-      "loss": 1.0298,
-      "mean_token_accuracy": 0.7364085793495179,
-      "num_tokens": 343508.0,
       "step": 330
     },
     {
-      "entropy": 1.0377025127410888,
-      "epoch": 0.5856643356643356,
-      "grad_norm": 0.7959486842155457,
-      "learning_rate": 8.469750889679716e-05,
-      "loss": 0.9248,
-      "mean_token_accuracy": 0.757226413488388,
-      "num_tokens": 347840.0,
       "step": 335
     },
     {
-      "entropy": 1.0676892161369325,
-      "epoch": 0.5944055944055944,
-      "grad_norm": 0.9492782950401306,
-      "learning_rate": 8.291814946619217e-05,
-      "loss": 0.9644,
-      "mean_token_accuracy": 0.7350347638130188,
-      "num_tokens": 353004.0,
       "step": 340
     },
     {
-      "entropy": 1.2051751494407654,
-      "epoch": 0.6031468531468531,
-      "grad_norm": 0.6062285304069519,
-      "learning_rate": 8.11387900355872e-05,
-      "loss": 1.1306,
-      "mean_token_accuracy": 0.71878741979599,
-      "num_tokens": 358355.0,
       "step": 345
     },
     {
-      "entropy": 0.9939802944660187,
-      "epoch": 0.6118881118881119,
-      "grad_norm": 0.6014482378959656,
-      "learning_rate": 7.935943060498221e-05,
-      "loss": 0.9206,
-      "mean_token_accuracy": 0.7534485578536987,
-      "num_tokens": 363815.0,
       "step": 350
     },
     {
-      "entropy": 0.9838183641433715,
-      "epoch": 0.6206293706293706,
-      "grad_norm": 0.6233981251716614,
-      "learning_rate": 7.758007117437722e-05,
-      "loss": 0.9557,
-      "mean_token_accuracy": 0.7579984903335572,
-      "num_tokens": 370209.0,
       "step": 355
     },
     {
-      "entropy": 1.1523795008659363,
-      "epoch": 0.6293706293706294,
-      "grad_norm": 0.9388852119445801,
-      "learning_rate": 7.580071174377225e-05,
-      "loss": 1.1244,
-      "mean_token_accuracy": 0.7127670645713806,
-      "num_tokens": 375178.0,
       "step": 360
     },
     {
-      "entropy": 1.1256710410118103,
-      "epoch": 0.6381118881118881,
-      "grad_norm": 0.7773574590682983,
-      "learning_rate": 7.402135231316726e-05,
-      "loss": 1.199,
-      "mean_token_accuracy": 0.7347433745861054,
-      "num_tokens": 380359.0,
       "step": 365
     },
     {
-      "entropy": 1.0246877193450927,
-      "epoch": 0.6468531468531469,
-      "grad_norm": 0.7057833671569824,
-      "learning_rate": 7.224199288256229e-05,
-      "loss": 0.9349,
-      "mean_token_accuracy": 0.7434077799320221,
-      "num_tokens": 386251.0,
       "step": 370
     },
     {
-      "entropy": 0.9082993268966675,
-      "epoch": 0.6555944055944056,
-      "grad_norm": 0.7693665027618408,
-      "learning_rate": 7.046263345195729e-05,
-      "loss": 0.8317,
-      "mean_token_accuracy": 0.7674221277236939,
-      "num_tokens": 391273.0,
       "step": 375
     },
     {
-      "entropy": 1.0551639199256897,
-      "epoch": 0.6643356643356644,
-      "grad_norm": 0.6118054986000061,
-      "learning_rate": 6.868327402135231e-05,
-      "loss": 0.9564,
-      "mean_token_accuracy": 0.7505346298217773,
-      "num_tokens": 396405.0,
       "step": 380
     },
     {
-      "entropy": 0.856031060218811,
-      "epoch": 0.6730769230769231,
-      "grad_norm": 0.7436105608940125,
-      "learning_rate": 6.690391459074733e-05,
-      "loss": 0.7753,
-      "mean_token_accuracy": 0.7836384952068329,
-      "num_tokens": 401417.0,
       "step": 385
     },
     {
-      "entropy": 1.1769568383693696,
-      "epoch": 0.6818181818181818,
-      "grad_norm": 0.5364604592323303,
-      "learning_rate": 6.512455516014235e-05,
-      "loss": 1.1369,
-      "mean_token_accuracy": 0.7138187170028687,
-      "num_tokens": 408045.0,
       "step": 390
     },
     {
-      "entropy": 0.9055932879447937,
-      "epoch": 0.6905594405594405,
-      "grad_norm": 0.7993744015693665,
-      "learning_rate": 6.334519572953737e-05,
-      "loss": 0.8238,
-      "mean_token_accuracy": 0.7695916533470154,
-      "num_tokens": 412408.0,
       "step": 395
     },
     {
-      "entropy": 1.067290061712265,
-      "epoch": 0.6993006993006993,
-      "grad_norm": 0.5611645579338074,
-      "learning_rate": 6.156583629893239e-05,
-      "loss": 1.0754,
-      "mean_token_accuracy": 0.7374713003635407,
-      "num_tokens": 417539.0,
       "step": 400
     },
     {
-      "entropy": 0.9325143158435821,
-      "epoch": 0.708041958041958,
-      "grad_norm": 0.8282243609428406,
-      "learning_rate": 5.97864768683274e-05,
-      "loss": 0.8287,
-      "mean_token_accuracy": 0.7693089723587037,
-      "num_tokens": 421587.0,
       "step": 405
     },
     {
-      "entropy": 0.9437564730644226,
-      "epoch": 0.7167832167832168,
-      "grad_norm": 0.8528610467910767,
-      "learning_rate": 5.8007117437722425e-05,
-      "loss": 0.8851,
-      "mean_token_accuracy": 0.7588753461837768,
-      "num_tokens": 425118.0,
       "step": 410
     },
     {
-      "entropy": 0.9383285760879516,
-      "epoch": 0.7255244755244755,
-      "grad_norm": 0.9912576079368591,
-      "learning_rate": 5.622775800711744e-05,
-      "loss": 0.8777,
-      "mean_token_accuracy": 0.7649032652378083,
-      "num_tokens": 429766.0,
       "step": 415
     },
     {
-      "entropy": 0.9844208836555481,
-      "epoch": 0.7342657342657343,
-      "grad_norm": 0.8838147521018982,
-      "learning_rate": 5.4448398576512464e-05,
-      "loss": 0.9286,
-      "mean_token_accuracy": 0.7666606605052948,
-      "num_tokens": 434826.0,
       "step": 420
     },
     {
-      "entropy": 1.0472073316574098,
-      "epoch": 0.743006993006993,
-      "grad_norm": 0.9893532991409302,
-      "learning_rate": 5.266903914590747e-05,
-      "loss": 0.9453,
-      "mean_token_accuracy": 0.7458884060382843,
-      "num_tokens": 439219.0,
       "step": 425
     },
     {
-      "entropy": 1.059507966041565,
-      "epoch": 0.7517482517482518,
-      "grad_norm": 0.7243296504020691,
-      "learning_rate": 5.0889679715302496e-05,
-      "loss": 0.9485,
-      "mean_token_accuracy": 0.7473999261856079,
-      "num_tokens": 444496.0,
       "step": 430
     },
     {
-      "entropy": 0.96737100481987,
-      "epoch": 0.7604895104895105,
-      "grad_norm": 0.7511352300643921,
-      "learning_rate": 4.911032028469751e-05,
-      "loss": 0.9112,
-      "mean_token_accuracy": 0.7562202334403991,
-      "num_tokens": 449115.0,
       "step": 435
     },
     {
-      "entropy": 1.0681302666664123,
-      "epoch": 0.7692307692307693,
-      "grad_norm": 0.6476220488548279,
-      "learning_rate": 4.733096085409253e-05,
-      "loss": 1.1169,
-      "mean_token_accuracy": 0.7343231618404389,
-      "num_tokens": 454151.0,
       "step": 440
     },
     {
-      "entropy": 0.9483801007270813,
-      "epoch": 0.777972027972028,
-      "grad_norm": 0.7808278799057007,
-      "learning_rate": 4.555160142348754e-05,
-      "loss": 0.9041,
-      "mean_token_accuracy": 0.7763189613819123,
-      "num_tokens": 458892.0,
       "step": 445
     },
     {
-      "entropy": 0.9629013359546661,
-      "epoch": 0.7867132867132867,
-      "grad_norm": 0.7341641187667847,
-      "learning_rate": 4.377224199288256e-05,
-      "loss": 0.8238,
-      "mean_token_accuracy": 0.765246057510376,
-      "num_tokens": 463856.0,
       "step": 450
     },
     {
-      "entropy": 1.180522269010544,
-      "epoch": 0.7954545454545454,
-      "grad_norm": 0.8312517404556274,
-      "learning_rate": 4.199288256227758e-05,
-      "loss": 1.1042,
-      "mean_token_accuracy": 0.7128246188163757,
-      "num_tokens": 470112.0,
       "step": 455
     },
     {
-      "entropy": 1.004443597793579,
-      "epoch": 0.8041958041958042,
-      "grad_norm": 0.9074130654335022,
-      "learning_rate": 4.02135231316726e-05,
-      "loss": 0.9222,
-      "mean_token_accuracy": 0.7539559602737427,
-      "num_tokens": 475012.0,
       "step": 460
     },
     {
-      "entropy": 1.0228057682514191,
-      "epoch": 0.8129370629370629,
-      "grad_norm": 0.920925498008728,
-      "learning_rate": 3.843416370106761e-05,
-      "loss": 0.9035,
-      "mean_token_accuracy": 0.7569567143917084,
-      "num_tokens": 480558.0,
       "step": 465
     },
     {
-      "entropy": 0.949072140455246,
-      "epoch": 0.8216783216783217,
-      "grad_norm": 0.6804259419441223,
-      "learning_rate": 3.665480427046263e-05,
-      "loss": 0.8606,
-      "mean_token_accuracy": 0.7625180125236511,
-      "num_tokens": 486294.0,
       "step": 470
     },
     {
-      "entropy": 1.0250387787818909,
-      "epoch": 0.8304195804195804,
-      "grad_norm": 0.6318123936653137,
-      "learning_rate": 3.487544483985765e-05,
-      "loss": 0.9913,
-      "mean_token_accuracy": 0.7425659537315369,
-      "num_tokens": 492617.0,
       "step": 475
     },
     {
-      "entropy": 0.8904710471630096,
-      "epoch": 0.8391608391608392,
-      "grad_norm": 0.6852394342422485,
-      "learning_rate": 3.309608540925267e-05,
-      "loss": 0.8392,
-      "mean_token_accuracy": 0.7645678043365478,
-      "num_tokens": 497070.0,
       "step": 480
     },
     {
-      "entropy": 0.9813799023628235,
-      "epoch": 0.8479020979020979,
-      "grad_norm": 0.6071293950080872,
-      "learning_rate": 3.1316725978647684e-05,
-      "loss": 0.8984,
-      "mean_token_accuracy": 0.7646778285503387,
-      "num_tokens": 502298.0,
       "step": 485
     },
     {
-      "entropy": 1.0262552201747894,
-      "epoch": 0.8566433566433567,
-      "grad_norm": 0.8407160043716431,
-      "learning_rate": 2.9537366548042704e-05,
-      "loss": 0.9343,
-      "mean_token_accuracy": 0.7484920144081115,
-      "num_tokens": 507261.0,
       "step": 490
     },
     {
-      "entropy": 0.9773908019065857,
-      "epoch": 0.8653846153846154,
-      "grad_norm": 0.6108224987983704,
-      "learning_rate": 2.7758007117437723e-05,
-      "loss": 0.8876,
-      "mean_token_accuracy": 0.7593122482299804,
-      "num_tokens": 512933.0,
       "step": 495
     },
     {
-      "entropy": 1.143789404630661,
-      "epoch": 0.8741258741258742,
-      "grad_norm": 0.6079063415527344,
-      "learning_rate": 2.597864768683274e-05,
-      "loss": 1.0861,
-      "mean_token_accuracy": 0.7239168882369995,
-      "num_tokens": 518867.0,
       "step": 500
     },
     {
-      "entropy": 0.9865677416324615,
-      "epoch": 0.8828671328671329,
-      "grad_norm": 0.8393223285675049,
-      "learning_rate": 2.419928825622776e-05,
-      "loss": 0.9208,
-      "mean_token_accuracy": 0.7588137328624726,
-      "num_tokens": 523197.0,
       "step": 505
     },
     {
-      "entropy": 1.0429059386253356,
-      "epoch": 0.8916083916083916,
-      "grad_norm": 0.7288678288459778,
-      "learning_rate": 2.2419928825622775e-05,
-      "loss": 1.0118,
-      "mean_token_accuracy": 0.7459483563899993,
-      "num_tokens": 528553.0,
       "step": 510
     },
     {
-      "entropy": 0.936554628610611,
-      "epoch": 0.9003496503496503,
-      "grad_norm": 1.026867151260376,
-      "learning_rate": 2.0640569395017795e-05,
-      "loss": 0.8488,
-      "mean_token_accuracy": 0.7743270337581635,
-      "num_tokens": 533175.0,
       "step": 515
     },
     {
-      "entropy": 1.0927321076393128,
-      "epoch": 0.9090909090909091,
-      "grad_norm": 0.8070006370544434,
-      "learning_rate": 1.8861209964412814e-05,
-      "loss": 1.0321,
-      "mean_token_accuracy": 0.7340759754180908,
-      "num_tokens": 537923.0,
       "step": 520
     },
     {
-      "entropy": 0.923135507106781,
-      "epoch": 0.9178321678321678,
-      "grad_norm": 0.7885546684265137,
-      "learning_rate": 1.708185053380783e-05,
-      "loss": 0.8886,
-      "mean_token_accuracy": 0.7669959187507629,
-      "num_tokens": 543086.0,
       "step": 525
     },
     {
-      "entropy": 0.803551995754242,
-      "epoch": 0.9265734265734266,
-      "grad_norm": 0.5133217573165894,
-      "learning_rate": 1.530249110320285e-05,
-      "loss": 0.7201,
-      "mean_token_accuracy": 0.7979816317558288,
-      "num_tokens": 547920.0,
       "step": 530
     },
     {
-      "entropy": 1.0683785855770112,
-      "epoch": 0.9353146853146853,
-      "grad_norm": 1.0883749723434448,
-      "learning_rate": 1.3523131672597866e-05,
-      "loss": 0.979,
-      "mean_token_accuracy": 0.7476417005062104,
-      "num_tokens": 553743.0,
       "step": 535
     },
     {
-      "entropy": 1.0017572939395905,
-      "epoch": 0.9440559440559441,
-      "grad_norm": 0.8225399851799011,
-      "learning_rate": 1.1743772241992882e-05,
-      "loss": 0.8984,
-      "mean_token_accuracy": 0.761442244052887,
-      "num_tokens": 558414.0,
       "step": 540
     },
     {
-      "entropy": 1.0132792532444,
-      "epoch": 0.9527972027972028,
-      "grad_norm": 0.9049685001373291,
-      "learning_rate": 9.9644128113879e-06,
-      "loss": 0.9703,
-      "mean_token_accuracy": 0.7527327954769134,
-      "num_tokens": 563295.0,
       "step": 545
     },
     {
-      "entropy": 0.972287380695343,
-      "epoch": 0.9615384615384616,
-      "grad_norm": 0.657630980014801,
-      "learning_rate": 8.185053380782918e-06,
-      "loss": 0.8971,
-      "mean_token_accuracy": 0.7535503268241882,
-      "num_tokens": 568925.0,
       "step": 550
     },
     {
-      "entropy": 1.0074927151203155,
-      "epoch": 0.9702797202797203,
-      "grad_norm": 0.5989683866500854,
-      "learning_rate": 6.405693950177937e-06,
-      "loss": 0.9767,
-      "mean_token_accuracy": 0.7365618705749511,
-      "num_tokens": 574965.0,
       "step": 555
     },
     {
-      "entropy": 1.2086752831935883,
-      "epoch": 0.9790209790209791,
-      "grad_norm": 0.6988089084625244,
-      "learning_rate": 4.626334519572954e-06,
-      "loss": 1.1787,
-      "mean_token_accuracy": 0.7035641133785248,
-      "num_tokens": 580877.0,
       "step": 560
     },
     {
-      "entropy": 0.9592096865177154,
-      "epoch": 0.9877622377622378,
-      "grad_norm": 1.0358166694641113,
-      "learning_rate": 2.8469750889679713e-06,
-      "loss": 0.8782,
-      "mean_token_accuracy": 0.76033256649971,
-      "num_tokens": 585093.0,
       "step": 565
     },
     {
-      "entropy": 0.8759162247180938,
-      "epoch": 0.9965034965034965,
-      "grad_norm": 0.6450009942054749,
-      "learning_rate": 1.0676156583629894e-06,
-      "loss": 0.7832,
-      "mean_token_accuracy": 0.7865857958793641,
-      "num_tokens": 590558.0,
       "step": 570
     }
   ],
   "logging_steps": 5,
-  "max_steps": 572,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
@@ -1167,7 +1167,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.684206514115379e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 115,
+  "global_step": 573,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.333236712217331,
+      "epoch": 0.008726003490401396,
+      "grad_norm": 1.05680251121521,
       "learning_rate": 8e-05,
+      "loss": 1.3485,
+      "mean_token_accuracy": 0.6778763651847839,
+      "num_tokens": 4689.0,
       "step": 5
     },
     {
+      "entropy": 1.3305357813835144,
+      "epoch": 0.017452006980802792,
+      "grad_norm": 0.872683584690094,
       "learning_rate": 0.00018,
+      "loss": 1.2321,
+      "mean_token_accuracy": 0.6924330353736877,
+      "num_tokens": 9076.0,
       "step": 10
     },
     {
+      "entropy": 1.1033322036266326,
+      "epoch": 0.02617801047120419,
+      "grad_norm": 0.7987897992134094,
+      "learning_rate": 0.0001985790408525755,
+      "loss": 1.0149,
+      "mean_token_accuracy": 0.7376092612743378,
+      "num_tokens": 13468.0,
       "step": 15
     },
     {
+      "entropy": 1.3769255757331849,
+      "epoch": 0.034904013961605584,
+      "grad_norm": 0.5818138718605042,
+      "learning_rate": 0.00019680284191829486,
+      "loss": 1.3507,
+      "mean_token_accuracy": 0.6773534297943116,
+      "num_tokens": 19687.0,
       "step": 20
     },
     {
+      "entropy": 1.3704544663429261,
+      "epoch": 0.04363001745200698,
+      "grad_norm": 0.7997947335243225,
+      "learning_rate": 0.00019502664298401423,
+      "loss": 1.2011,
+      "mean_token_accuracy": 0.7000263512134552,
+      "num_tokens": 25321.0,
       "step": 25
     },
     {
+      "entropy": 1.1999043464660644,
+      "epoch": 0.05235602094240838,
+      "grad_norm": 0.7836564779281616,
+      "learning_rate": 0.00019325044404973357,
+      "loss": 1.1702,
+      "mean_token_accuracy": 0.7157157480716705,
+      "num_tokens": 29969.0,
       "step": 30
     },
     {
+      "entropy": 1.1485023498535156,
+      "epoch": 0.06108202443280977,
+      "grad_norm": 0.8341999650001526,
+      "learning_rate": 0.00019147424511545294,
+      "loss": 1.0127,
+      "mean_token_accuracy": 0.736984384059906,
+      "num_tokens": 34779.0,
       "step": 35
     },
     {
+      "entropy": 1.175552135705948,
+      "epoch": 0.06980802792321117,
+      "grad_norm": 0.8367146849632263,
+      "learning_rate": 0.0001896980461811723,
+      "loss": 1.081,
+      "mean_token_accuracy": 0.7145774185657501,
+      "num_tokens": 40454.0,
       "step": 40
     },
     {
+      "entropy": 1.2580669283866883,
+      "epoch": 0.07853403141361257,
+      "grad_norm": 0.7274704575538635,
+      "learning_rate": 0.00018792184724689167,
+      "loss": 1.1622,
+      "mean_token_accuracy": 0.7037679016590118,
+      "num_tokens": 45435.0,
       "step": 45
     },
     {
+      "entropy": 1.3289404153823852,
+      "epoch": 0.08726003490401396,
+      "grad_norm": 0.9459134936332703,
+      "learning_rate": 0.00018614564831261103,
+      "loss": 1.2887,
+      "mean_token_accuracy": 0.7032808780670166,
+      "num_tokens": 50161.0,
       "step": 50
     },
     {
+      "entropy": 1.206754869222641,
+      "epoch": 0.09598603839441536,
+      "grad_norm": 0.8248263001441956,
+      "learning_rate": 0.00018436944937833037,
+      "loss": 1.0185,
+      "mean_token_accuracy": 0.7304032206535339,
+      "num_tokens": 55082.0,
       "step": 55
     },
     {
+      "entropy": 1.3467580556869507,
+      "epoch": 0.10471204188481675,
+      "grad_norm": 0.7025023698806763,
+      "learning_rate": 0.00018259325044404974,
+      "loss": 1.3245,
+      "mean_token_accuracy": 0.6774280846118927,
+      "num_tokens": 61109.0,
       "step": 60
     },
     {
+      "entropy": 1.1657752752304078,
+      "epoch": 0.11343804537521815,
+      "grad_norm": 0.7866821885108948,
+      "learning_rate": 0.0001808170515097691,
+      "loss": 1.0342,
+      "mean_token_accuracy": 0.7379155635833741,
+      "num_tokens": 65130.0,
       "step": 65
     },
     {
+      "entropy": 1.3768277764320374,
+      "epoch": 0.12216404886561955,
+      "grad_norm": 0.6452690958976746,
+      "learning_rate": 0.00017904085257548847,
+      "loss": 1.3499,
+      "mean_token_accuracy": 0.6878371357917785,
+      "num_tokens": 71720.0,
       "step": 70
     },
     {
+      "entropy": 1.2285258889198303,
+      "epoch": 0.13089005235602094,
+      "grad_norm": 0.8868134617805481,
+      "learning_rate": 0.00017726465364120784,
+      "loss": 1.1203,
+      "mean_token_accuracy": 0.7103672683238983,
+      "num_tokens": 76475.0,
       "step": 75
     },
     {
+      "entropy": 1.142468798160553,
+      "epoch": 0.13961605584642234,
+      "grad_norm": 0.7537686228752136,
+      "learning_rate": 0.00017548845470692718,
+      "loss": 1.0207,
+      "mean_token_accuracy": 0.7329977452754974,
+      "num_tokens": 82239.0,
       "step": 80
     },
     {
+      "entropy": 1.30864217877388,
+      "epoch": 0.14834205933682373,
+      "grad_norm": 0.9109086394309998,
+      "learning_rate": 0.00017371225577264654,
+      "loss": 1.2256,
+      "mean_token_accuracy": 0.6924388945102692,
+      "num_tokens": 86033.0,
       "step": 85
     },
     {
+      "entropy": 1.279932165145874,
+      "epoch": 0.15706806282722513,
+      "grad_norm": 0.7983659505844116,
+      "learning_rate": 0.0001719360568383659,
+      "loss": 1.1764,
+      "mean_token_accuracy": 0.7101370930671692,
+      "num_tokens": 90170.0,
       "step": 90
     },
     {
+      "entropy": 1.1692178070545196,
+      "epoch": 0.16579406631762653,
+      "grad_norm": 0.8946067690849304,
+      "learning_rate": 0.00017015985790408525,
+      "loss": 1.0826,
+      "mean_token_accuracy": 0.7317939043045044,
+      "num_tokens": 95473.0,
       "step": 95
     },
     {
+      "entropy": 1.025848913192749,
+      "epoch": 0.17452006980802792,
+      "grad_norm": 0.8327645063400269,
+      "learning_rate": 0.00016838365896980464,
+      "loss": 0.9294,
+      "mean_token_accuracy": 0.7514408528804779,
+      "num_tokens": 99423.0,
       "step": 100
     },
     {
+      "entropy": 1.0799501717090607,
+      "epoch": 0.18324607329842932,
+      "grad_norm": 0.7194784283638,
+      "learning_rate": 0.00016660746003552398,
+      "loss": 1.0222,
+      "mean_token_accuracy": 0.7337860226631164,
+      "num_tokens": 104249.0,
       "step": 105
     },
     {
+      "entropy": 1.1033223390579223,
+      "epoch": 0.19197207678883071,
+      "grad_norm": 0.7712328433990479,
+      "learning_rate": 0.00016483126110124335,
+      "loss": 0.9856,
+      "mean_token_accuracy": 0.7449049592018128,
+      "num_tokens": 109205.0,
       "step": 110
     },
     {
+      "entropy": 1.1388230919837952,
+      "epoch": 0.2006980802792321,
+      "grad_norm": 0.6309220194816589,
+      "learning_rate": 0.00016305506216696272,
+      "loss": 1.1354,
+      "mean_token_accuracy": 0.724005150794983,
+      "num_tokens": 115207.0,
       "step": 115
     },
     {
+      "entropy": 1.0293731987476349,
+      "epoch": 0.2094240837696335,
+      "grad_norm": 1.0027621984481812,
+      "learning_rate": 0.00016127886323268206,
+      "loss": 0.9218,
+      "mean_token_accuracy": 0.7559137165546417,
+      "num_tokens": 120323.0,
       "step": 120
     },
     {
+      "entropy": 1.1900119483470917,
+      "epoch": 0.2181500872600349,
+      "grad_norm": 0.8019612431526184,
+      "learning_rate": 0.00015950266429840145,
+      "loss": 1.106,
+      "mean_token_accuracy": 0.7178053438663483,
+      "num_tokens": 125253.0,
       "step": 125
     },
     {
+      "entropy": 1.0218496084213258,
+      "epoch": 0.2268760907504363,
+      "grad_norm": 0.699367105960846,
+      "learning_rate": 0.0001577264653641208,
+      "loss": 0.931,
+      "mean_token_accuracy": 0.7488141357898712,
+      "num_tokens": 130360.0,
       "step": 130
     },
     {
+      "entropy": 1.1080122888088226,
+      "epoch": 0.2356020942408377,
+      "grad_norm": 0.7124127745628357,
+      "learning_rate": 0.00015595026642984015,
+      "loss": 1.0557,
+      "mean_token_accuracy": 0.7226514399051667,
+      "num_tokens": 135538.0,
       "step": 135
     },
     {
+      "entropy": 1.173432421684265,
+      "epoch": 0.2443280977312391,
+      "grad_norm": 0.794236421585083,
+      "learning_rate": 0.00015417406749555952,
+      "loss": 1.056,
+      "mean_token_accuracy": 0.7334702372550964,
+      "num_tokens": 140532.0,
       "step": 140
     },
     {
+      "entropy": 1.0574114263057708,
+      "epoch": 0.2530541012216405,
+      "grad_norm": 0.6696324944496155,
+      "learning_rate": 0.00015239786856127886,
+      "loss": 0.9361,
+      "mean_token_accuracy": 0.7482443630695343,
+      "num_tokens": 145908.0,
       "step": 145
     },
     {
+      "entropy": 1.086327201128006,
+      "epoch": 0.2617801047120419,
+      "grad_norm": 0.5255310535430908,
+      "learning_rate": 0.00015062166962699825,
+      "loss": 1.0768,
+      "mean_token_accuracy": 0.7292326390743256,
+      "num_tokens": 151148.0,
       "step": 150
     },
     {
+      "entropy": 1.092069786787033,
+      "epoch": 0.2705061082024433,
+      "grad_norm": 0.6275709271430969,
+      "learning_rate": 0.0001488454706927176,
+      "loss": 1.0778,
+      "mean_token_accuracy": 0.7255069613456726,
+      "num_tokens": 157506.0,
       "step": 155
     },
     {
+      "entropy": 1.1596343219280243,
+      "epoch": 0.2792321116928447,
+      "grad_norm": 0.9472619295120239,
+      "learning_rate": 0.00014706927175843693,
+      "loss": 1.1003,
+      "mean_token_accuracy": 0.7315803647041321,
+      "num_tokens": 162992.0,
       "step": 160
     },
     {
+      "entropy": 1.0481273233890533,
+      "epoch": 0.2879581151832461,
+      "grad_norm": 0.6921494007110596,
+      "learning_rate": 0.00014529307282415633,
+      "loss": 0.8895,
+      "mean_token_accuracy": 0.7529896676540375,
+      "num_tokens": 167640.0,
       "step": 165
     },
     {
+      "entropy": 1.0518691539764404,
+      "epoch": 0.29668411867364747,
+      "grad_norm": 0.6654248237609863,
+      "learning_rate": 0.00014351687388987566,
+      "loss": 1.018,
+      "mean_token_accuracy": 0.7503870785236358,
+      "num_tokens": 173423.0,
       "step": 170
     },
     {
+      "entropy": 1.1176642417907714,
+      "epoch": 0.3054101221640489,
+      "grad_norm": 0.7743102312088013,
+      "learning_rate": 0.00014174067495559503,
+      "loss": 1.0807,
+      "mean_token_accuracy": 0.7225248873233795,
+      "num_tokens": 178986.0,
       "step": 175
     },
     {
+      "entropy": 0.9516431629657746,
+      "epoch": 0.31413612565445026,
+      "grad_norm": 1.0389933586120605,
+      "learning_rate": 0.0001399644760213144,
+      "loss": 0.8189,
+      "mean_token_accuracy": 0.7752299129962921,
+      "num_tokens": 183459.0,
       "step": 180
     },
     {
+      "entropy": 1.1684755861759186,
+      "epoch": 0.3228621291448517,
+      "grad_norm": 1.4807476997375488,
+      "learning_rate": 0.00013818827708703374,
+      "loss": 1.1822,
+      "mean_token_accuracy": 0.7197710394859314,
+      "num_tokens": 187614.0,
       "step": 185
     },
     {
+      "entropy": 1.099220609664917,
+      "epoch": 0.33158813263525305,
+      "grad_norm": 0.7266477346420288,
+      "learning_rate": 0.00013641207815275313,
+      "loss": 1.0095,
+      "mean_token_accuracy": 0.7297711133956909,
+      "num_tokens": 192316.0,
       "step": 190
     },
     {
+      "entropy": 1.0837588012218475,
+      "epoch": 0.3403141361256545,
+      "grad_norm": 0.696660041809082,
+      "learning_rate": 0.00013463587921847247,
+      "loss": 0.9739,
+      "mean_token_accuracy": 0.7354932248592376,
+      "num_tokens": 197728.0,
       "step": 195
     },
     {
+      "entropy": 1.1696858763694764,
+      "epoch": 0.34904013961605584,
+      "grad_norm": 0.5466914772987366,
+      "learning_rate": 0.00013285968028419184,
+      "loss": 1.1444,
+      "mean_token_accuracy": 0.7138558447360992,
+      "num_tokens": 204502.0,
       "step": 200
     },
     {
+      "entropy": 1.147382140159607,
+      "epoch": 0.35776614310645727,
+      "grad_norm": 0.8311446905136108,
+      "learning_rate": 0.0001310834813499112,
+      "loss": 1.1093,
+      "mean_token_accuracy": 0.7309025764465332,
+      "num_tokens": 209069.0,
       "step": 205
     },
     {
+      "entropy": 1.2201330184936523,
+      "epoch": 0.36649214659685864,
+      "grad_norm": 0.6816751956939697,
+      "learning_rate": 0.00012930728241563054,
+      "loss": 1.2094,
+      "mean_token_accuracy": 0.7130683898925781,
+      "num_tokens": 214185.0,
       "step": 210
     },
     {
+      "entropy": 1.152731454372406,
+      "epoch": 0.37521815008726006,
+      "grad_norm": 0.6387792825698853,
+      "learning_rate": 0.00012753108348134993,
+      "loss": 1.0565,
+      "mean_token_accuracy": 0.7268509924411773,
+      "num_tokens": 219312.0,
       "step": 215
     },
     {
+      "entropy": 1.1504864931106566,
+      "epoch": 0.38394415357766143,
+      "grad_norm": 0.7773131728172302,
+      "learning_rate": 0.00012575488454706927,
+      "loss": 1.0913,
+      "mean_token_accuracy": 0.7241075754165649,
+      "num_tokens": 225616.0,
       "step": 220
     },
     {
+      "entropy": 1.0282553434371948,
+      "epoch": 0.39267015706806285,
+      "grad_norm": 0.8763700723648071,
+      "learning_rate": 0.00012397868561278864,
+      "loss": 0.9342,
+      "mean_token_accuracy": 0.7502905786037445,
+      "num_tokens": 230696.0,
       "step": 225
     },
     {
+      "entropy": 1.0895283699035645,
+      "epoch": 0.4013961605584642,
+      "grad_norm": 0.8293470740318298,
+      "learning_rate": 0.000122202486678508,
+      "loss": 1.067,
+      "mean_token_accuracy": 0.7364717125892639,
+      "num_tokens": 236685.0,
       "step": 230
     },
     {
+      "entropy": 1.172694307565689,
+      "epoch": 0.41012216404886565,
+      "grad_norm": 0.8818181753158569,
+      "learning_rate": 0.00012042628774422735,
+      "loss": 1.0149,
+      "mean_token_accuracy": 0.7262615323066711,
+      "num_tokens": 241211.0,
       "step": 235
     },
     {
+      "entropy": 1.2173514723777772,
+      "epoch": 0.418848167539267,
+      "grad_norm": 0.5635867714881897,
+      "learning_rate": 0.00011865008880994673,
+      "loss": 1.1783,
+      "mean_token_accuracy": 0.7147055625915527,
+      "num_tokens": 246360.0,
       "step": 240
     },
     {
+      "entropy": 1.188833224773407,
+      "epoch": 0.42757417102966844,
+      "grad_norm": 0.6060160398483276,
+      "learning_rate": 0.00011687388987566608,
+      "loss": 1.1545,
+      "mean_token_accuracy": 0.717083477973938,
+      "num_tokens": 252717.0,
       "step": 245
     },
     {
+      "entropy": 1.0905582129955291,
+      "epoch": 0.4363001745200698,
+      "grad_norm": 0.6812947988510132,
+      "learning_rate": 0.00011509769094138544,
+      "loss": 0.9922,
+      "mean_token_accuracy": 0.7299255549907684,
+      "num_tokens": 257249.0,
       "step": 250
     },
     {
+      "entropy": 0.8695837318897247,
+      "epoch": 0.44502617801047123,
+      "grad_norm": 0.8577454090118408,
+      "learning_rate": 0.0001133214920071048,
+      "loss": 0.8209,
+      "mean_token_accuracy": 0.7762204229831695,
+      "num_tokens": 262381.0,
       "step": 255
     },
     {
+      "entropy": 0.9932888269424438,
+      "epoch": 0.4537521815008726,
+      "grad_norm": 0.697665810585022,
+      "learning_rate": 0.00011154529307282415,
+      "loss": 1.0232,
+      "mean_token_accuracy": 0.7427519500255585,
+      "num_tokens": 267410.0,
       "step": 260
     },
     {
+      "entropy": 0.8414939880371094,
+      "epoch": 0.462478184991274,
+      "grad_norm": 0.789999783039093,
+      "learning_rate": 0.00010976909413854353,
+      "loss": 0.7225,
+      "mean_token_accuracy": 0.7937956035137177,
+      "num_tokens": 272109.0,
       "step": 265
     },
     {
+      "entropy": 1.0776531934738158,
+      "epoch": 0.4712041884816754,
+      "grad_norm": 0.6461851000785828,
+      "learning_rate": 0.00010799289520426288,
+      "loss": 1.0389,
+      "mean_token_accuracy": 0.7343196094036102,
+      "num_tokens": 276623.0,
       "step": 270
     },
     {
+      "entropy": 1.1227709293365478,
+      "epoch": 0.4799301919720768,
+      "grad_norm": 0.6017542481422424,
+      "learning_rate": 0.00010621669626998225,
+      "loss": 1.0346,
+      "mean_token_accuracy": 0.7320161819458008,
+      "num_tokens": 283256.0,
       "step": 275
     },
     {
+      "entropy": 0.9767000675201416,
+      "epoch": 0.4886561954624782,
+      "grad_norm": 0.7064502835273743,
+      "learning_rate": 0.0001044404973357016,
+      "loss": 0.9051,
+      "mean_token_accuracy": 0.7693962216377258,
+      "num_tokens": 288780.0,
       "step": 280
     },
     {
+      "entropy": 0.9595549941062927,
+      "epoch": 0.4973821989528796,
+      "grad_norm": 0.7622601985931396,
+      "learning_rate": 0.00010266429840142096,
+      "loss": 0.8922,
+      "mean_token_accuracy": 0.767174756526947,
+      "num_tokens": 293775.0,
       "step": 285
     },
     {
+      "entropy": 0.9456490218639374,
+      "epoch": 0.506108202443281,
+      "grad_norm": 0.7910531163215637,
+      "learning_rate": 0.00010088809946714034,
+      "loss": 0.8845,
+      "mean_token_accuracy": 0.7625713229179383,
+      "num_tokens": 299667.0,
       "step": 290
     },
     {
+      "entropy": 0.9972454011440277,
+      "epoch": 0.5148342059336823,
+      "grad_norm": 0.8077422976493835,
+      "learning_rate": 9.911190053285967e-05,
+      "loss": 0.9629,
+      "mean_token_accuracy": 0.7550196409225464,
+      "num_tokens": 304401.0,
       "step": 295
     },
     {
+      "entropy": 1.0132270872592926,
+      "epoch": 0.5235602094240838,
+      "grad_norm": 0.5776278972625732,
+      "learning_rate": 9.733570159857904e-05,
+      "loss": 0.9083,
+      "mean_token_accuracy": 0.7645319044589997,
+      "num_tokens": 310983.0,
       "step": 300
     },
     {
+      "entropy": 1.1321196973323822,
+      "epoch": 0.5322862129144852,
+      "grad_norm": 0.765808641910553,
+      "learning_rate": 9.555950266429841e-05,
+      "loss": 1.0364,
+      "mean_token_accuracy": 0.7226320803165436,
+      "num_tokens": 315721.0,
       "step": 305
     },
     {
+      "entropy": 1.0132107377052306,
+      "epoch": 0.5410122164048866,
+      "grad_norm": 0.5765398144721985,
+      "learning_rate": 9.378330373001777e-05,
+      "loss": 0.9858,
+      "mean_token_accuracy": 0.7562039911746978,
+      "num_tokens": 321834.0,
       "step": 310
     },
     {
+      "entropy": 1.097977089881897,
+      "epoch": 0.5497382198952879,
+      "grad_norm": 0.7264753580093384,
+      "learning_rate": 9.200710479573713e-05,
+      "loss": 1.0686,
+      "mean_token_accuracy": 0.7291842579841614,
+      "num_tokens": 327063.0,
       "step": 315
     },
     {
+      "entropy": 1.2174109816551208,
+      "epoch": 0.5584642233856894,
+      "grad_norm": 0.7541456818580627,
+      "learning_rate": 9.023090586145648e-05,
+      "loss": 1.1817,
+      "mean_token_accuracy": 0.7097965478897095,
+      "num_tokens": 332900.0,
       "step": 320
     },
     {
+      "entropy": 1.0044541895389556,
+      "epoch": 0.5671902268760908,
+      "grad_norm": 0.5834890604019165,
+      "learning_rate": 8.845470692717585e-05,
+      "loss": 0.9467,
+      "mean_token_accuracy": 0.7500465452671051,
+      "num_tokens": 337508.0,
       "step": 325
     },
     {
+      "entropy": 1.0295350253582,
+      "epoch": 0.5759162303664922,
+      "grad_norm": 0.8909983038902283,
+      "learning_rate": 8.667850799289521e-05,
+      "loss": 0.9113,
+      "mean_token_accuracy": 0.7476867496967315,
+      "num_tokens": 342644.0,
       "step": 330
     },
     {
+      "entropy": 1.0791299104690553,
+      "epoch": 0.5846422338568935,
+      "grad_norm": 1.0385737419128418,
+      "learning_rate": 8.490230905861456e-05,
+      "loss": 1.1175,
+      "mean_token_accuracy": 0.7305109918117523,
+      "num_tokens": 347547.0,
       "step": 335
     },
     {
+      "entropy": 1.0213176369667054,
+      "epoch": 0.5933682373472949,
+      "grad_norm": 0.943204402923584,
+      "learning_rate": 8.312611012433393e-05,
+      "loss": 0.9055,
+      "mean_token_accuracy": 0.7596513092517853,
+      "num_tokens": 351932.0,
       "step": 340
     },
     {
+      "entropy": 1.0257258594036103,
+      "epoch": 0.6020942408376964,
+      "grad_norm": 0.7949322462081909,
+      "learning_rate": 8.134991119005328e-05,
+      "loss": 0.9098,
+      "mean_token_accuracy": 0.7553630173206329,
+      "num_tokens": 357045.0,
       "step": 345
     },
     {
+      "entropy": 1.0372248589992523,
+      "epoch": 0.6108202443280978,
+      "grad_norm": 0.8405324220657349,
+      "learning_rate": 7.957371225577265e-05,
+      "loss": 0.9929,
+      "mean_token_accuracy": 0.7452831089496612,
+      "num_tokens": 362284.0,
       "step": 350
     },
     {
+      "entropy": 0.9565088748931885,
+      "epoch": 0.6195462478184991,
+      "grad_norm": 0.6379778981208801,
+      "learning_rate": 7.779751332149202e-05,
+      "loss": 0.9219,
+      "mean_token_accuracy": 0.7565369844436646,
+      "num_tokens": 367217.0,
       "step": 355
     },
     {
+      "entropy": 1.0628814578056336,
+      "epoch": 0.6282722513089005,
+      "grad_norm": 0.6335421204566956,
+      "learning_rate": 7.602131438721137e-05,
+      "loss": 1.0041,
+      "mean_token_accuracy": 0.7395376443862915,
+      "num_tokens": 372678.0,
       "step": 360
     },
     {
+      "entropy": 0.9448712587356567,
+      "epoch": 0.6369982547993019,
+      "grad_norm": 0.737162172794342,
+      "learning_rate": 7.424511545293074e-05,
+      "loss": 0.8211,
+      "mean_token_accuracy": 0.771143788099289,
+      "num_tokens": 377750.0,
       "step": 365
     },
     {
+      "entropy": 0.9797238111495972,
+      "epoch": 0.6457242582897034,
+      "grad_norm": 0.5577957034111023,
+      "learning_rate": 7.246891651865009e-05,
+      "loss": 0.9415,
+      "mean_token_accuracy": 0.7499814212322236,
+      "num_tokens": 383406.0,
       "step": 370
     },
     {
+      "entropy": 1.1891680419445039,
+      "epoch": 0.6544502617801047,
+      "grad_norm": 0.48097750544548035,
+      "learning_rate": 7.069271758436945e-05,
+      "loss": 1.1327,
+      "mean_token_accuracy": 0.7193056166172027,
+      "num_tokens": 389696.0,
       "step": 375
     },
     {
+      "entropy": 1.0238433182239532,
+      "epoch": 0.6631762652705061,
+      "grad_norm": 0.5823986530303955,
+      "learning_rate": 6.891651865008881e-05,
+      "loss": 0.9708,
+      "mean_token_accuracy": 0.7535522282123566,
+      "num_tokens": 394688.0,
       "step": 380
     },
     {
+      "entropy": 1.162860244512558,
+      "epoch": 0.6719022687609075,
+      "grad_norm": 0.6299170255661011,
+      "learning_rate": 6.714031971580817e-05,
+      "loss": 1.1866,
+      "mean_token_accuracy": 0.710206264257431,
+      "num_tokens": 400319.0,
       "step": 385
     },
     {
+      "entropy": 1.0206872344017028,
+      "epoch": 0.680628272251309,
+      "grad_norm": 0.7722362875938416,
+      "learning_rate": 6.536412078152754e-05,
+      "loss": 0.9289,
+      "mean_token_accuracy": 0.7554251432418824,
+      "num_tokens": 404918.0,
       "step": 390
     },
     {
+      "entropy": 1.0980794131755829,
+      "epoch": 0.6893542757417103,
+      "grad_norm": 0.9234552979469299,
+      "learning_rate": 6.358792184724689e-05,
+      "loss": 0.9551,
+      "mean_token_accuracy": 0.7426558673381806,
+      "num_tokens": 410635.0,
       "step": 395
     },
     {
+      "entropy": 1.0166767477989196,
+      "epoch": 0.6980802792321117,
+      "grad_norm": 0.9343558549880981,
+      "learning_rate": 6.181172291296625e-05,
+      "loss": 0.9624,
+      "mean_token_accuracy": 0.7539155185222626,
+      "num_tokens": 415005.0,
       "step": 400
     },
     {
+      "entropy": 1.0832793176174165,
+      "epoch": 0.7068062827225131,
+      "grad_norm": 0.7815644145011902,
+      "learning_rate": 6.003552397868561e-05,
+      "loss": 1.0316,
+      "mean_token_accuracy": 0.7289174854755401,
+      "num_tokens": 419347.0,
       "step": 405
     },
     {
+      "entropy": 1.0699054658412934,
+      "epoch": 0.7155322862129145,
+      "grad_norm": 0.7760159373283386,
+      "learning_rate": 5.825932504440498e-05,
+      "loss": 1.0357,
+      "mean_token_accuracy": 0.7321902751922608,
+      "num_tokens": 424588.0,
       "step": 410
     },
     {
+      "entropy": 0.966323298215866,
+      "epoch": 0.7242582897033158,
+      "grad_norm": 0.805746853351593,
+      "learning_rate": 5.648312611012434e-05,
+      "loss": 0.9306,
+      "mean_token_accuracy": 0.7569182515144348,
+      "num_tokens": 428943.0,
       "step": 415
     },
     {
+      "entropy": 0.9721911072731018,
+      "epoch": 0.7329842931937173,
+      "grad_norm": 0.6620533466339111,
+      "learning_rate": 5.470692717584369e-05,
+      "loss": 0.9465,
+      "mean_token_accuracy": 0.7597197592258453,
+      "num_tokens": 435326.0,
       "step": 420
     },
     {
+      "entropy": 0.9292757451534271,
+      "epoch": 0.7417102966841187,
+      "grad_norm": 0.7177068591117859,
+      "learning_rate": 5.293072824156306e-05,
+      "loss": 0.858,
+      "mean_token_accuracy": 0.7738080501556397,
+      "num_tokens": 441702.0,
       "step": 425
     },
     {
+      "entropy": 1.0638712823390961,
+      "epoch": 0.7504363001745201,
+      "grad_norm": 0.5912255048751831,
+      "learning_rate": 5.115452930728242e-05,
+      "loss": 1.0654,
+      "mean_token_accuracy": 0.747636479139328,
+      "num_tokens": 446862.0,
       "step": 430
     },
     {
+      "entropy": 0.9203409194946289,
+      "epoch": 0.7591623036649214,
+      "grad_norm": 0.8877400159835815,
+      "learning_rate": 4.9378330373001777e-05,
+      "loss": 0.8225,
+      "mean_token_accuracy": 0.7788766026496887,
+      "num_tokens": 451024.0,
       "step": 435
     },
     {
+      "entropy": 1.0310194969177247,
+      "epoch": 0.7678883071553229,
+      "grad_norm": 0.593137800693512,
+      "learning_rate": 4.7602131438721136e-05,
+      "loss": 1.0058,
+      "mean_token_accuracy": 0.7474644720554352,
+      "num_tokens": 457528.0,
       "step": 440
     },
     {
+      "entropy": 0.9218507647514343,
+      "epoch": 0.7766143106457243,
+      "grad_norm": 0.8034109473228455,
+      "learning_rate": 4.58259325044405e-05,
+      "loss": 0.8161,
+      "mean_token_accuracy": 0.773482757806778,
+      "num_tokens": 462267.0,
       "step": 445
     },
     {
+      "entropy": 1.0368493318557739,
+      "epoch": 0.7853403141361257,
+      "grad_norm": 0.9129230380058289,
+      "learning_rate": 4.404973357015986e-05,
+      "loss": 1.0042,
+      "mean_token_accuracy": 0.7518712699413299,
+      "num_tokens": 467337.0,
       "step": 450
     },
     {
+      "entropy": 0.8776600241661072,
+      "epoch": 0.794066317626527,
+      "grad_norm": 0.5392698645591736,
+      "learning_rate": 4.227353463587922e-05,
+      "loss": 0.7964,
+      "mean_token_accuracy": 0.773613715171814,
+      "num_tokens": 472361.0,
       "step": 455
     },
     {
+      "entropy": 0.9013674080371856,
+      "epoch": 0.8027923211169284,
+      "grad_norm": 0.731060266494751,
+      "learning_rate": 4.049733570159858e-05,
+      "loss": 0.9098,
+      "mean_token_accuracy": 0.7663923025131225,
+      "num_tokens": 477324.0,
       "step": 460
     },
     {
+      "entropy": 1.0141965687274932,
+      "epoch": 0.8115183246073299,
+      "grad_norm": 0.6941847205162048,
+      "learning_rate": 3.872113676731794e-05,
+      "loss": 1.0052,
+      "mean_token_accuracy": 0.747931432723999,
+      "num_tokens": 483192.0,
       "step": 465
     },
     {
+      "entropy": 0.9370434999465942,
+      "epoch": 0.8202443280977313,
+      "grad_norm": 0.7024611830711365,
+      "learning_rate": 3.69449378330373e-05,
+      "loss": 0.9472,
+      "mean_token_accuracy": 0.7648843646049499,
+      "num_tokens": 488771.0,
       "step": 470
     },
     {
+      "entropy": 1.2138389825820923,
+      "epoch": 0.8289703315881326,
+      "grad_norm": 0.6181853413581848,
+      "learning_rate": 3.516873889875667e-05,
+      "loss": 1.1913,
+      "mean_token_accuracy": 0.7199933648109436,
+      "num_tokens": 495594.0,
       "step": 475
     },
     {
+      "entropy": 0.9946802318096161,
+      "epoch": 0.837696335078534,
+      "grad_norm": 0.8392300009727478,
+      "learning_rate": 3.339253996447602e-05,
+      "loss": 0.8846,
+      "mean_token_accuracy": 0.7601681053638458,
+      "num_tokens": 501431.0,
       "step": 480
     },
     {
+      "entropy": 1.0851561069488525,
+      "epoch": 0.8464223385689355,
+      "grad_norm": 0.7538084983825684,
+      "learning_rate": 3.1616341030195386e-05,
+      "loss": 1.0112,
+      "mean_token_accuracy": 0.7339279770851135,
+      "num_tokens": 506603.0,
       "step": 485
     },
     {
+      "entropy": 0.9791876435279846,
+      "epoch": 0.8551483420593369,
+      "grad_norm": 0.6512478590011597,
+      "learning_rate": 2.9840142095914742e-05,
+      "loss": 0.9047,
+      "mean_token_accuracy": 0.7637781441211701,
+      "num_tokens": 511657.0,
       "step": 490
     },
     {
+      "entropy": 0.8807009816169739,
+      "epoch": 0.8638743455497382,
+      "grad_norm": 1.0381275415420532,
+      "learning_rate": 2.8063943161634105e-05,
+      "loss": 0.7989,
+      "mean_token_accuracy": 0.778300940990448,
+      "num_tokens": 516346.0,
       "step": 495
     },
     {
+      "entropy": 0.9706099390983581,
+      "epoch": 0.8726003490401396,
+      "grad_norm": 0.7503977417945862,
+      "learning_rate": 2.6287744227353468e-05,
+      "loss": 0.8633,
+      "mean_token_accuracy": 0.7602749288082122,
+      "num_tokens": 521118.0,
       "step": 500
     },
     {
+      "entropy": 0.9830702662467956,
+      "epoch": 0.881326352530541,
+      "grad_norm": 0.7824010252952576,
+      "learning_rate": 2.4511545293072824e-05,
+      "loss": 0.8701,
+      "mean_token_accuracy": 0.7697367370128632,
+      "num_tokens": 525785.0,
       "step": 505
     },
     {
+      "entropy": 1.0895603597164154,
+      "epoch": 0.8900523560209425,
+      "grad_norm": 0.6201509237289429,
+      "learning_rate": 2.2735346358792187e-05,
+      "loss": 0.999,
+      "mean_token_accuracy": 0.7415844857692718,
+      "num_tokens": 531296.0,
       "step": 510
     },
     {
+      "entropy": 1.0094242215156555,
+      "epoch": 0.8987783595113438,
+      "grad_norm": 0.6755935549736023,
+      "learning_rate": 2.0959147424511547e-05,
+      "loss": 0.9283,
+      "mean_token_accuracy": 0.7551429510116577,
+      "num_tokens": 536703.0,
       "step": 515
     },
     {
+      "entropy": 0.9846092760562897,
+      "epoch": 0.9075043630017452,
+      "grad_norm": 1.0709046125411987,
+      "learning_rate": 1.9182948490230906e-05,
+      "loss": 0.9426,
+      "mean_token_accuracy": 0.7431533575057984,
+      "num_tokens": 541044.0,
       "step": 520
     },
     {
+      "entropy": 0.9527219116687775,
+      "epoch": 0.9162303664921466,
+      "grad_norm": 0.6978484392166138,
+      "learning_rate": 1.7406749555950266e-05,
+      "loss": 0.8911,
+      "mean_token_accuracy": 0.7653971970081329,
+      "num_tokens": 546836.0,
       "step": 525
     },
     {
+      "entropy": 0.8855733275413513,
+      "epoch": 0.924956369982548,
+      "grad_norm": 0.9127820134162903,
+      "learning_rate": 1.563055062166963e-05,
+      "loss": 0.8139,
+      "mean_token_accuracy": 0.7775610208511352,
+      "num_tokens": 551666.0,
       "step": 530
     },
     {
+      "entropy": 0.9590709805488586,
+      "epoch": 0.9336823734729494,
+      "grad_norm": 0.7010323405265808,
+      "learning_rate": 1.3854351687388988e-05,
+      "loss": 0.9334,
+      "mean_token_accuracy": 0.759455144405365,
+      "num_tokens": 556932.0,
       "step": 535
     },
     {
+      "entropy": 0.9646609544754028,
+      "epoch": 0.9424083769633508,
+      "grad_norm": 0.5711817145347595,
+      "learning_rate": 1.2078152753108348e-05,
+      "loss": 0.9678,
+      "mean_token_accuracy": 0.7603480279445648,
+      "num_tokens": 562608.0,
       "step": 540
     },
     {
+      "entropy": 1.0106851994991302,
+      "epoch": 0.9511343804537522,
+      "grad_norm": 0.7159616947174072,
+      "learning_rate": 1.030195381882771e-05,
+      "loss": 0.9285,
+      "mean_token_accuracy": 0.7571455597877502,
+      "num_tokens": 568591.0,
       "step": 545
     },
     {
+      "entropy": 1.0865988105535507,
+      "epoch": 0.9598603839441536,
+      "grad_norm": 0.7819423079490662,
+      "learning_rate": 8.52575488454707e-06,
+      "loss": 1.1628,
+      "mean_token_accuracy": 0.7484253525733948,
+      "num_tokens": 572932.0,
       "step": 550
     },
     {
+      "entropy": 0.8808701932430267,
+      "epoch": 0.9685863874345549,
+      "grad_norm": 0.6782775521278381,
+      "learning_rate": 6.74955595026643e-06,
+      "loss": 0.7661,
+      "mean_token_accuracy": 0.7774575710296631,
+      "num_tokens": 577818.0,
       "step": 555
     },
     {
+      "entropy": 0.9287233471870422,
+      "epoch": 0.9773123909249564,
+      "grad_norm": 0.8206584453582764,
+      "learning_rate": 4.973357015985791e-06,
+      "loss": 0.7572,
+      "mean_token_accuracy": 0.7789205074310303,
+      "num_tokens": 581899.0,
       "step": 560
     },
     {
+      "entropy": 0.8616821765899658,
+      "epoch": 0.9860383944153578,
+      "grad_norm": 0.6403858661651611,
+      "learning_rate": 3.197158081705151e-06,
+      "loss": 0.7855,
+      "mean_token_accuracy": 0.7908896625041961,
+      "num_tokens": 587864.0,
       "step": 565
     },
     {
+      "entropy": 1.0378393054008483,
+      "epoch": 0.9947643979057592,
+      "grad_norm": 0.7347800731658936,
+      "learning_rate": 1.4209591474245117e-06,
+      "loss": 1.0399,
+      "mean_token_accuracy": 0.7526734173297882,
+      "num_tokens": 592990.0,
       "step": 570
     }
   ],
   "logging_steps": 5,
+  "max_steps": 573,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 2.6952641846870016e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58293d1261da0e67c9bdcabfa9d91110498e1d28ff6f6e0d9d07cd560a155972
 size 5816

 version https://git-lfs.github.com/spec/v1
+oid sha256:d49ed87fd1007ddba65a781a7a824d4db6222aa26b1008b2e988302b8cec8fab
 size 5816