Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +2 -2
adapter_model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +793 -443
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -12,14 +12,14 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 256,
   "lora_bias": false,
   "lora_dropout": 0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 128,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 112,
   "lora_bias": false,
   "lora_dropout": 0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 56,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b98ba6ac806c03c0409f8d783327298917bd9290b863f004e8c9f4949a49cab
-size 369134112

 version https://git-lfs.github.com/spec/v1
+oid sha256:1767407cde1f093e295836dca6f0a8fe3280307f21de2f9ac5a87c96ac476e21
+size 161515608

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7750a024ffc36f0b2b3d75b6d23a4abc45828022cd9fc314ed0ca873e7afc478
-size 738417355

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b03158d3c32281c45bae11494452aff7910950a34011e853f3d6c1c18d8651b
+size 323181259

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de69a2834426ff9ef8199d077e00892579278af31d8969d77f98235b5cfc010a
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:2534e434cd5abbb8f7668d3eab0549db0ef95d6a797a3efa86b712e8e32266a7
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2b8b314158649523e5cd4cc114f7b492743419645cb17f66610bf7539ffeb77
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f35223b4162b3f25fe602e5e4c5a2349c08c0134f11cd20a82d190f37cb0842a
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,666 +2,1016 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9808429118773945,
   "eval_steps": 500,
-  "global_step": 65,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 2.2323372662067413,
-      "epoch": 0.03065134099616858,
-      "grad_norm": 53.25,
       "learning_rate": 0.0,
-      "loss": 2.7706,
-      "mean_token_accuracy": 0.41634324193000793,
-      "num_tokens": 1244.0,
       "step": 1
     },
     {
-      "entropy": 2.174584299325943,
-      "epoch": 0.06130268199233716,
-      "grad_norm": 36.0,
       "learning_rate": 2e-06,
-      "loss": 2.4332,
-      "mean_token_accuracy": 0.41893551871180534,
-      "num_tokens": 3427.0,
       "step": 2
     },
     {
-      "entropy": 2.0810845494270325,
-      "epoch": 0.09195402298850575,
-      "grad_norm": 27.75,
       "learning_rate": 4e-06,
-      "loss": 2.2604,
-      "mean_token_accuracy": 0.4491094872355461,
-      "num_tokens": 5582.0,
       "step": 3
     },
     {
-      "entropy": 2.389508530497551,
-      "epoch": 0.12260536398467432,
-      "grad_norm": 28.625,
       "learning_rate": 6e-06,
-      "loss": 2.224,
-      "mean_token_accuracy": 0.47163403779268265,
-      "num_tokens": 7064.0,
       "step": 4
     },
     {
-      "entropy": 2.3899217396974564,
-      "epoch": 0.1532567049808429,
-      "grad_norm": 17.0,
       "learning_rate": 8e-06,
-      "loss": 1.9894,
-      "mean_token_accuracy": 0.4873850643634796,
-      "num_tokens": 9091.0,
       "step": 5
     },
     {
-      "entropy": 2.3988372683525085,
-      "epoch": 0.1839080459770115,
-      "grad_norm": 22.375,
       "learning_rate": 9.999999999999999e-06,
-      "loss": 2.0726,
-      "mean_token_accuracy": 0.5061133019626141,
-      "num_tokens": 10556.0,
       "step": 6
     },
     {
-      "entropy": 2.395625740289688,
-      "epoch": 0.21455938697318008,
-      "grad_norm": 16.75,
       "learning_rate": 1.2e-05,
-      "loss": 2.0064,
-      "mean_token_accuracy": 0.5037284195423126,
-      "num_tokens": 12215.0,
       "step": 7
     },
     {
-      "entropy": 2.2998499274253845,
-      "epoch": 0.24521072796934865,
-      "grad_norm": 14.5625,
       "learning_rate": 1.4e-05,
-      "loss": 1.7784,
-      "mean_token_accuracy": 0.5325785167515278,
-      "num_tokens": 13939.0,
       "step": 8
     },
     {
-      "entropy": 2.233474910259247,
-      "epoch": 0.27586206896551724,
-      "grad_norm": 14.6875,
       "learning_rate": 1.6e-05,
-      "loss": 1.7552,
-      "mean_token_accuracy": 0.5224817767739296,
-      "num_tokens": 15986.0,
       "step": 9
     },
     {
-      "entropy": 2.1560849398374557,
-      "epoch": 0.3065134099616858,
-      "grad_norm": 12.125,
       "learning_rate": 1.8e-05,
-      "loss": 1.7487,
-      "mean_token_accuracy": 0.5436614826321602,
-      "num_tokens": 18444.0,
       "step": 10
     },
     {
-      "entropy": 1.8782547265291214,
-      "epoch": 0.3371647509578544,
-      "grad_norm": 11.1875,
       "learning_rate": 1.9999999999999998e-05,
-      "loss": 1.5774,
-      "mean_token_accuracy": 0.5730905011296272,
-      "num_tokens": 21127.0,
       "step": 11
     },
     {
-      "entropy": 2.0860691219568253,
-      "epoch": 0.367816091954023,
-      "grad_norm": 13.125,
       "learning_rate": 2.2e-05,
-      "loss": 1.8279,
-      "mean_token_accuracy": 0.5077806040644646,
-      "num_tokens": 23308.0,
       "step": 12
     },
     {
-      "entropy": 2.0839987099170685,
-      "epoch": 0.39846743295019155,
-      "grad_norm": 13.5,
       "learning_rate": 2.4e-05,
-      "loss": 1.8629,
-      "mean_token_accuracy": 0.5324465520679951,
-      "num_tokens": 25072.0,
       "step": 13
     },
     {
-      "entropy": 2.211606591939926,
-      "epoch": 0.42911877394636017,
-      "grad_norm": 15.3125,
       "learning_rate": 2.6000000000000002e-05,
-      "loss": 1.934,
-      "mean_token_accuracy": 0.513655960559845,
-      "num_tokens": 26450.0,
       "step": 14
     },
     {
-      "entropy": 2.2505457401275635,
-      "epoch": 0.45977011494252873,
-      "grad_norm": 14.8125,
       "learning_rate": 2.8e-05,
-      "loss": 1.7603,
-      "mean_token_accuracy": 0.5480454824864864,
-      "num_tokens": 27912.0,
       "step": 15
     },
     {
-      "entropy": 2.187108889222145,
-      "epoch": 0.4904214559386973,
-      "grad_norm": 13.125,
       "learning_rate": 3e-05,
-      "loss": 1.6138,
-      "mean_token_accuracy": 0.5843819156289101,
-      "num_tokens": 29392.0,
       "step": 16
     },
     {
-      "entropy": 2.0149056166410446,
-      "epoch": 0.5210727969348659,
-      "grad_norm": 9.9375,
-      "learning_rate": 2.998951057182598e-05,
-      "loss": 1.4549,
-      "mean_token_accuracy": 0.597277820110321,
-      "num_tokens": 31417.0,
       "step": 17
     },
     {
-      "entropy": 1.9988498389720917,
-      "epoch": 0.5517241379310345,
-      "grad_norm": 11.0,
-      "learning_rate": 2.99580569577177e-05,
-      "loss": 1.7097,
-      "mean_token_accuracy": 0.5442679524421692,
-      "num_tokens": 33727.0,
       "step": 18
     },
     {
-      "entropy": 1.8304037749767303,
-      "epoch": 0.5823754789272031,
-      "grad_norm": 10.125,
-      "learning_rate": 2.9905683148398642e-05,
-      "loss": 1.5381,
-      "mean_token_accuracy": 0.5851795524358749,
-      "num_tokens": 35836.0,
       "step": 19
     },
     {
-      "entropy": 1.891087457537651,
-      "epoch": 0.6130268199233716,
-      "grad_norm": 12.625,
-      "learning_rate": 2.9832462393376926e-05,
-      "loss": 1.6876,
-      "mean_token_accuracy": 0.5546146482229233,
-      "num_tokens": 37639.0,
       "step": 20
     },
     {
-      "entropy": 1.9664306491613388,
-      "epoch": 0.6436781609195402,
-      "grad_norm": 12.125,
-      "learning_rate": 2.9738497098499325e-05,
-      "loss": 1.7271,
-      "mean_token_accuracy": 0.5344564504921436,
-      "num_tokens": 39351.0,
       "step": 21
     },
     {
-      "entropy": 1.7850568294525146,
-      "epoch": 0.6743295019157088,
-      "grad_norm": 13.375,
-      "learning_rate": 2.9623918682727355e-05,
-      "loss": 1.524,
-      "mean_token_accuracy": 0.5623632185161114,
-      "num_tokens": 41024.0,
       "step": 22
     },
     {
-      "entropy": 1.898742452263832,
-      "epoch": 0.7049808429118773,
-      "grad_norm": 13.0,
-      "learning_rate": 2.9488887394336025e-05,
-      "loss": 1.732,
-      "mean_token_accuracy": 0.5667595192790031,
-      "num_tokens": 42624.0,
       "step": 23
     },
     {
-      "entropy": 2.062256097793579,
-      "epoch": 0.735632183908046,
-      "grad_norm": 15.0625,
-      "learning_rate": 2.9333592086792113e-05,
-      "loss": 1.8659,
-      "mean_token_accuracy": 0.5371430143713951,
-      "num_tokens": 43836.0,
       "step": 24
     },
     {
-      "entropy": 1.9839176535606384,
-      "epoch": 0.7662835249042146,
-      "grad_norm": 10.4375,
-      "learning_rate": 2.9158249954625514e-05,
-      "loss": 1.7355,
-      "mean_token_accuracy": 0.548308789730072,
-      "num_tokens": 45870.0,
       "step": 25
     },
     {
-      "entropy": 2.005643382668495,
-      "epoch": 0.7969348659003831,
-      "grad_norm": 10.6875,
-      "learning_rate": 2.8963106229663064e-05,
-      "loss": 1.6277,
-      "mean_token_accuracy": 0.577509343624115,
-      "num_tokens": 47664.0,
       "step": 26
     },
     {
-      "entropy": 2.015763074159622,
-      "epoch": 0.8275862068965517,
-      "grad_norm": 10.875,
-      "learning_rate": 2.8748433838049642e-05,
-      "loss": 1.6878,
-      "mean_token_accuracy": 0.5588897317647934,
-      "num_tokens": 49646.0,
       "step": 27
     },
     {
-      "entropy": 2.0416687428951263,
-      "epoch": 0.8582375478927203,
-      "grad_norm": 13.0,
-      "learning_rate": 2.8514533018536286e-05,
-      "loss": 1.5327,
-      "mean_token_accuracy": 0.5883619785308838,
-      "num_tokens": 51235.0,
       "step": 28
     },
     {
-      "entropy": 2.029404863715172,
-      "epoch": 0.8888888888888888,
-      "grad_norm": 10.8125,
-      "learning_rate": 2.8261730902569146e-05,
-      "loss": 1.6362,
-      "mean_token_accuracy": 0.5863424465060234,
-      "num_tokens": 53037.0,
       "step": 29
     },
     {
-      "entropy": 2.0645615607500076,
-      "epoch": 0.9195402298850575,
-      "grad_norm": 10.0625,
-      "learning_rate": 2.7990381056766583e-05,
-      "loss": 1.6623,
-      "mean_token_accuracy": 0.5610311627388,
-      "num_tokens": 54826.0,
       "step": 30
     },
     {
-      "entropy": 2.090387746691704,
-      "epoch": 0.9501915708812261,
-      "grad_norm": 12.0,
-      "learning_rate": 2.770086298842426e-05,
-      "loss": 1.6578,
-      "mean_token_accuracy": 0.5568758621811867,
-      "num_tokens": 56737.0,
       "step": 31
     },
     {
-      "entropy": 2.0354464948177338,
-      "epoch": 0.9808429118773946,
-      "grad_norm": 12.5625,
-      "learning_rate": 2.7393581614739924e-05,
-      "loss": 1.6745,
-      "mean_token_accuracy": 0.5604493953287601,
-      "num_tokens": 58084.0,
       "step": 32
     },
     {
-      "entropy": 1.7894673347473145,
-      "epoch": 1.0,
-      "grad_norm": 12.4375,
-      "learning_rate": 2.7068966696500025e-05,
-      "loss": 1.6188,
-      "mean_token_accuracy": 0.5824247837066651,
-      "num_tokens": 59142.0,
       "step": 33
     },
     {
-      "entropy": 1.63651242852211,
-      "epoch": 1.0306513409961686,
-      "grad_norm": 8.0625,
-      "learning_rate": 2.672747223702045e-05,
-      "loss": 0.9761,
-      "mean_token_accuracy": 0.7217265591025352,
-      "num_tokens": 60897.0,
       "step": 34
     },
     {
-      "entropy": 1.7347675114870071,
-      "epoch": 1.0613026819923372,
-      "grad_norm": 9.3125,
-      "learning_rate": 2.6369575847181795e-05,
-      "loss": 1.1561,
-      "mean_token_accuracy": 0.7075180560350418,
-      "num_tokens": 62325.0,
       "step": 35
     },
     {
-      "entropy": 1.5030861496925354,
-      "epoch": 1.0919540229885056,
-      "grad_norm": 7.65625,
-      "learning_rate": 2.5995778077447393e-05,
-      "loss": 0.8402,
-      "mean_token_accuracy": 0.7322944924235344,
-      "num_tokens": 64163.0,
       "step": 36
     },
     {
-      "entropy": 1.3862270265817642,
-      "epoch": 1.1226053639846743,
-      "grad_norm": 8.5625,
-      "learning_rate": 2.5606601717798212e-05,
-      "loss": 0.9429,
-      "mean_token_accuracy": 0.7389034852385521,
-      "num_tokens": 66168.0,
       "step": 37
     },
     {
-      "entropy": 1.3857311755418777,
-      "epoch": 1.1532567049808429,
-      "grad_norm": 7.65625,
-      "learning_rate": 2.520259106656379e-05,
-      "loss": 0.8564,
-      "mean_token_accuracy": 0.7321354225277901,
-      "num_tokens": 68398.0,
       "step": 38
     },
     {
-      "entropy": 1.2590633258223534,
-      "epoch": 1.1839080459770115,
-      "grad_norm": 9.75,
-      "learning_rate": 2.4784311169171818e-05,
-      "loss": 0.9376,
-      "mean_token_accuracy": 0.7156714797019958,
-      "num_tokens": 70548.0,
       "step": 39
     },
     {
-      "entropy": 1.2306247800588608,
-      "epoch": 1.21455938697318,
-      "grad_norm": 10.9375,
-      "learning_rate": 2.4352347027881003e-05,
-      "loss": 0.8899,
-      "mean_token_accuracy": 0.756280928850174,
-      "num_tokens": 72463.0,
       "step": 40
     },
     {
-      "entropy": 1.110754244029522,
-      "epoch": 1.2452107279693487,
-      "grad_norm": 12.125,
-      "learning_rate": 2.3907302783602522e-05,
-      "loss": 0.7503,
-      "mean_token_accuracy": 0.7652318105101585,
-      "num_tokens": 74061.0,
       "step": 41
     },
     {
-      "entropy": 1.1396447345614433,
-      "epoch": 1.2758620689655173,
-      "grad_norm": 10.375,
-      "learning_rate": 2.344980087095433e-05,
-      "loss": 0.774,
-      "mean_token_accuracy": 0.7681270688772202,
-      "num_tokens": 76130.0,
       "step": 42
     },
     {
-      "entropy": 1.0957090184092522,
-      "epoch": 1.3065134099616857,
-      "grad_norm": 12.4375,
-      "learning_rate": 2.298048114773005e-05,
-      "loss": 0.7757,
-      "mean_token_accuracy": 0.767442375421524,
-      "num_tokens": 77912.0,
       "step": 43
     },
     {
-      "entropy": 1.0323160290718079,
-      "epoch": 1.3371647509578544,
-      "grad_norm": 10.625,
-      "learning_rate": 2.25e-05,
-      "loss": 0.7192,
-      "mean_token_accuracy": 0.771703340113163,
-      "num_tokens": 79873.0,
       "step": 44
     },
     {
-      "entropy": 1.1174012199044228,
-      "epoch": 1.367816091954023,
-      "grad_norm": 13.1875,
-      "learning_rate": 2.200902942409593e-05,
-      "loss": 0.7571,
-      "mean_token_accuracy": 0.7688822597265244,
-      "num_tokens": 81708.0,
       "step": 45
     },
     {
-      "entropy": 1.133009672164917,
-      "epoch": 1.3984674329501916,
-      "grad_norm": 11.4375,
-      "learning_rate": 2.1508256086763372e-05,
-      "loss": 0.8328,
-      "mean_token_accuracy": 0.7457190081477165,
-      "num_tokens": 83479.0,
       "step": 46
     },
     {
-      "entropy": 1.0821977257728577,
-      "epoch": 1.4291187739463602,
-      "grad_norm": 12.25,
-      "learning_rate": 2.0998380364796112e-05,
-      "loss": 0.8791,
-      "mean_token_accuracy": 0.7517153918743134,
-      "num_tokens": 85091.0,
       "step": 47
     },
     {
-      "entropy": 1.160033829510212,
-      "epoch": 1.4597701149425286,
-      "grad_norm": 10.25,
-      "learning_rate": 2.0480115365495928e-05,
-      "loss": 0.7528,
-      "mean_token_accuracy": 0.7454545870423317,
-      "num_tokens": 87067.0,
       "step": 48
     },
     {
-      "entropy": 1.09547870606184,
-      "epoch": 1.4904214559386972,
-      "grad_norm": 8.1875,
-      "learning_rate": 1.995418592932751e-05,
-      "loss": 0.6824,
-      "mean_token_accuracy": 0.8004695847630501,
-      "num_tokens": 89257.0,
       "step": 49
     },
     {
-      "entropy": 1.1644561365246773,
-      "epoch": 1.5210727969348659,
-      "grad_norm": 10.125,
-      "learning_rate": 1.9421327616163564e-05,
-      "loss": 0.8229,
-      "mean_token_accuracy": 0.744444377720356,
-      "num_tokens": 91129.0,
       "step": 50
     },
     {
-      "entropy": 1.1956558972597122,
-      "epoch": 1.5517241379310345,
-      "grad_norm": 9.1875,
-      "learning_rate": 1.888228567653781e-05,
-      "loss": 0.807,
-      "mean_token_accuracy": 0.7377020716667175,
-      "num_tokens": 93217.0,
       "step": 51
     },
     {
-      "entropy": 1.2180762365460396,
-      "epoch": 1.582375478927203,
-      "grad_norm": 9.125,
-      "learning_rate": 1.8337814009344716e-05,
-      "loss": 0.6652,
-      "mean_token_accuracy": 0.7918966636061668,
-      "num_tokens": 94882.0,
       "step": 52
     },
     {
-      "entropy": 1.2762009352445602,
-      "epoch": 1.6130268199233715,
-      "grad_norm": 11.625,
-      "learning_rate": 1.778867410744372e-05,
-      "loss": 0.8152,
-      "mean_token_accuracy": 0.7556928023695946,
-      "num_tokens": 96226.0,
       "step": 53
     },
     {
-      "entropy": 1.2115763127803802,
-      "epoch": 1.6436781609195403,
-      "grad_norm": 10.8125,
-      "learning_rate": 1.7235633992642615e-05,
-      "loss": 0.7119,
-      "mean_token_accuracy": 0.7653274685144424,
-      "num_tokens": 98064.0,
       "step": 54
     },
     {
-      "entropy": 1.301737241446972,
-      "epoch": 1.6743295019157087,
-      "grad_norm": 8.75,
-      "learning_rate": 1.667946714154962e-05,
-      "loss": 0.7362,
-      "mean_token_accuracy": 0.7743538916110992,
-      "num_tokens": 99875.0,
       "step": 55
     },
     {
-      "entropy": 1.1645233482122421,
-      "epoch": 1.7049808429118773,
-      "grad_norm": 8.125,
-      "learning_rate": 1.6120951403796367e-05,
-      "loss": 0.7929,
-      "mean_token_accuracy": 0.7437388524413109,
-      "num_tokens": 102303.0,
       "step": 56
     },
     {
-      "entropy": 1.2387544885277748,
-      "epoch": 1.735632183908046,
-      "grad_norm": 10.125,
-      "learning_rate": 1.5560867914144887e-05,
-      "loss": 0.7757,
-      "mean_token_accuracy": 0.760113924741745,
-      "num_tokens": 103806.0,
       "step": 57
     },
     {
-      "entropy": 1.2401599884033203,
-      "epoch": 1.7662835249042146,
-      "grad_norm": 12.25,
-      "learning_rate": 1.5e-05,
-      "loss": 0.757,
-      "mean_token_accuracy": 0.7870561257004738,
-      "num_tokens": 105012.0,
       "step": 58
     },
     {
-      "entropy": 1.3122059255838394,
-      "epoch": 1.7969348659003832,
-      "grad_norm": 11.25,
-      "learning_rate": 1.4439132085855117e-05,
-      "loss": 0.8231,
-      "mean_token_accuracy": 0.7717632800340652,
-      "num_tokens": 106373.0,
       "step": 59
     },
     {
-      "entropy": 1.224107950925827,
-      "epoch": 1.8275862068965516,
-      "grad_norm": 9.3125,
-      "learning_rate": 1.3879048596203637e-05,
-      "loss": 0.6616,
-      "mean_token_accuracy": 0.8022700250148773,
-      "num_tokens": 107938.0,
       "step": 60
     },
     {
-      "entropy": 1.2059504985809326,
-      "epoch": 1.8582375478927204,
-      "grad_norm": 9.625,
-      "learning_rate": 1.3320532858450382e-05,
-      "loss": 0.7585,
-      "mean_token_accuracy": 0.7686295211315155,
-      "num_tokens": 109587.0,
       "step": 61
     },
     {
-      "entropy": 1.2734860181808472,
-      "epoch": 1.8888888888888888,
-      "grad_norm": 12.4375,
-      "learning_rate": 1.2764366007357382e-05,
-      "loss": 1.055,
-      "mean_token_accuracy": 0.707017719745636,
-      "num_tokens": 111253.0,
       "step": 62
     },
     {
-      "entropy": 1.1893908977508545,
-      "epoch": 1.9195402298850575,
-      "grad_norm": 11.1875,
-      "learning_rate": 1.2211325892556282e-05,
-      "loss": 0.7912,
-      "mean_token_accuracy": 0.7822966873645782,
-      "num_tokens": 112833.0,
       "step": 63
     },
     {
-      "entropy": 1.1533539071679115,
-      "epoch": 1.950191570881226,
-      "grad_norm": 11.125,
-      "learning_rate": 1.1662185990655285e-05,
-      "loss": 0.8553,
-      "mean_token_accuracy": 0.7498924359679222,
-      "num_tokens": 114573.0,
       "step": 64
     },
     {
-      "entropy": 1.1270944774150848,
-      "epoch": 1.9808429118773945,
-      "grad_norm": 8.25,
-      "learning_rate": 1.1117714323462188e-05,
-      "loss": 0.7116,
-      "mean_token_accuracy": 0.7686784416437149,
-      "num_tokens": 116981.0,
       "step": 65
     }
   ],
   "logging_steps": 1,
-  "max_steps": 99,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 5,
@@ -677,7 +1027,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3202052021059584.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.875912408759124,
   "eval_steps": 500,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 2.134004071354866,
+      "epoch": 0.029197080291970802,
+      "grad_norm": 19.125,
       "learning_rate": 0.0,
+      "loss": 2.5766,
+      "mean_token_accuracy": 0.42293117567896843,
+      "num_tokens": 1699.0,
       "step": 1
     },
     {
+      "entropy": 2.1332614570856094,
+      "epoch": 0.058394160583941604,
+      "grad_norm": 15.375,
       "learning_rate": 2e-06,
+      "loss": 2.3501,
+      "mean_token_accuracy": 0.43237315863370895,
+      "num_tokens": 3890.0,
       "step": 2
     },
     {
+      "entropy": 2.3441822230815887,
+      "epoch": 0.08759124087591241,
+      "grad_norm": 22.875,
       "learning_rate": 4e-06,
+      "loss": 3.134,
+      "mean_token_accuracy": 0.3771548382937908,
+      "num_tokens": 5114.0,
       "step": 3
     },
     {
+      "entropy": 2.169568419456482,
+      "epoch": 0.11678832116788321,
+      "grad_norm": 15.0625,
       "learning_rate": 6e-06,
+      "loss": 2.2609,
+      "mean_token_accuracy": 0.4582384452223778,
+      "num_tokens": 6825.0,
       "step": 4
     },
     {
+      "entropy": 2.3993491530418396,
+      "epoch": 0.145985401459854,
+      "grad_norm": 11.5625,
       "learning_rate": 8e-06,
+      "loss": 2.2625,
+      "mean_token_accuracy": 0.44751258939504623,
+      "num_tokens": 8794.0,
       "step": 5
     },
     {
+      "entropy": 2.38617005944252,
+      "epoch": 0.17518248175182483,
+      "grad_norm": 11.0,
       "learning_rate": 9.999999999999999e-06,
+      "loss": 2.2774,
+      "mean_token_accuracy": 0.4528072811663151,
+      "num_tokens": 10473.0,
       "step": 6
     },
     {
+      "entropy": 2.17643141746521,
+      "epoch": 0.20437956204379562,
+      "grad_norm": 7.21875,
       "learning_rate": 1.2e-05,
+      "loss": 1.911,
+      "mean_token_accuracy": 0.5113650299608707,
+      "num_tokens": 12709.0,
       "step": 7
     },
     {
+      "entropy": 2.2615339010953903,
+      "epoch": 0.23357664233576642,
+      "grad_norm": 5.9375,
       "learning_rate": 1.4e-05,
+      "loss": 1.8747,
+      "mean_token_accuracy": 0.5006480813026428,
+      "num_tokens": 15657.0,
       "step": 8
     },
     {
+      "entropy": 2.416978284716606,
+      "epoch": 0.26277372262773724,
+      "grad_norm": 8.4375,
       "learning_rate": 1.6e-05,
+      "loss": 1.9924,
+      "mean_token_accuracy": 0.4901970997452736,
+      "num_tokens": 17681.0,
       "step": 9
     },
     {
+      "entropy": 2.3273025155067444,
+      "epoch": 0.291970802919708,
+      "grad_norm": 6.09375,
       "learning_rate": 1.8e-05,
+      "loss": 1.8238,
+      "mean_token_accuracy": 0.4891773872077465,
+      "num_tokens": 20159.0,
       "step": 10
     },
     {
+      "entropy": 2.295111373066902,
+      "epoch": 0.32116788321167883,
+      "grad_norm": 5.9375,
       "learning_rate": 1.9999999999999998e-05,
+      "loss": 1.8838,
+      "mean_token_accuracy": 0.528899259865284,
+      "num_tokens": 22380.0,
       "step": 11
     },
     {
+      "entropy": 2.4463636726140976,
+      "epoch": 0.35036496350364965,
+      "grad_norm": 7.28125,
       "learning_rate": 2.2e-05,
+      "loss": 2.0672,
+      "mean_token_accuracy": 0.4942050985991955,
+      "num_tokens": 23949.0,
       "step": 12
     },
     {
+      "entropy": 2.2411956042051315,
+      "epoch": 0.3795620437956204,
+      "grad_norm": 6.625,
       "learning_rate": 2.4e-05,
+      "loss": 1.7258,
+      "mean_token_accuracy": 0.5641119256615639,
+      "num_tokens": 25626.0,
       "step": 13
     },
     {
+      "entropy": 2.1571693122386932,
+      "epoch": 0.40875912408759124,
+      "grad_norm": 6.3125,
       "learning_rate": 2.6000000000000002e-05,
+      "loss": 1.7421,
+      "mean_token_accuracy": 0.5413074977695942,
+      "num_tokens": 27703.0,
       "step": 14
     },
     {
+      "entropy": 2.0649050027132034,
+      "epoch": 0.43795620437956206,
+      "grad_norm": 5.65625,
       "learning_rate": 2.8e-05,
+      "loss": 1.7653,
+      "mean_token_accuracy": 0.5364297069609165,
+      "num_tokens": 29910.0,
       "step": 15
     },
     {
+      "entropy": 2.0259645730257034,
+      "epoch": 0.46715328467153283,
+      "grad_norm": 5.5,
       "learning_rate": 3e-05,
+      "loss": 1.586,
+      "mean_token_accuracy": 0.5716114267706871,
+      "num_tokens": 32243.0,
       "step": 16
     },
     {
+      "entropy": 2.2259650826454163,
+      "epoch": 0.49635036496350365,
+      "grad_norm": 6.46875,
+      "learning_rate": 2.9990862405286438e-05,
+      "loss": 1.8815,
+      "mean_token_accuracy": 0.5339390859007835,
+      "num_tokens": 33704.0,
       "step": 17
     },
     {
+      "entropy": 2.2045857161283493,
+      "epoch": 0.5255474452554745,
+      "grad_norm": 7.0,
+      "learning_rate": 2.9963460753897364e-05,
+      "loss": 1.8033,
+      "mean_token_accuracy": 0.5426613725721836,
+      "num_tokens": 35222.0,
       "step": 18
     },
     {
+      "entropy": 2.0502880662679672,
+      "epoch": 0.5547445255474452,
+      "grad_norm": 5.625,
+      "learning_rate": 2.99178284305241e-05,
+      "loss": 1.6822,
+      "mean_token_accuracy": 0.5445077642798424,
+      "num_tokens": 37281.0,
       "step": 19
     },
     {
+      "entropy": 1.9275199472904205,
+      "epoch": 0.583941605839416,
+      "grad_norm": 5.625,
+      "learning_rate": 2.9854021031123555e-05,
+      "loss": 1.5569,
+      "mean_token_accuracy": 0.5689515694975853,
+      "num_tokens": 39208.0,
       "step": 20
     },
     {
+      "entropy": 2.1408673971891403,
+      "epoch": 0.6131386861313869,
+      "grad_norm": 6.5,
+      "learning_rate": 2.977211629518312e-05,
+      "loss": 1.8479,
+      "mean_token_accuracy": 0.5382610447704792,
+      "num_tokens": 40754.0,
       "step": 21
     },
     {
+      "entropy": 2.138097256422043,
+      "epoch": 0.6423357664233577,
+      "grad_norm": 6.03125,
+      "learning_rate": 2.9672214011007087e-05,
+      "loss": 1.7691,
+      "mean_token_accuracy": 0.5337589606642723,
+      "num_tokens": 42447.0,
       "step": 22
     },
     {
+      "entropy": 1.9584687054157257,
+      "epoch": 0.6715328467153284,
+      "grad_norm": 4.59375,
+      "learning_rate": 2.9554435894139945e-05,
+      "loss": 1.502,
+      "mean_token_accuracy": 0.5679651834070683,
+      "num_tokens": 44963.0,
       "step": 23
     },
     {
+      "entropy": 2.0382106602191925,
+      "epoch": 0.7007299270072993,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.9418925439074784e-05,
+      "loss": 1.6539,
+      "mean_token_accuracy": 0.5411265380680561,
+      "num_tokens": 47138.0,
       "step": 24
     },
     {
+      "entropy": 2.0515516996383667,
+      "epoch": 0.7299270072992701,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.9265847744427305e-05,
+      "loss": 1.7007,
+      "mean_token_accuracy": 0.5707135051488876,
+      "num_tokens": 49154.0,
       "step": 25
     },
     {
+      "entropy": 1.96835595369339,
+      "epoch": 0.7591240875912408,
+      "grad_norm": 4.875,
+      "learning_rate": 2.9095389311788626e-05,
+      "loss": 1.5182,
+      "mean_token_accuracy": 0.5940572991967201,
+      "num_tokens": 51009.0,
       "step": 26
     },
     {
+      "entropy": 1.9829230606555939,
+      "epoch": 0.7883211678832117,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.890775781850181e-05,
+      "loss": 1.5441,
+      "mean_token_accuracy": 0.5696061700582504,
+      "num_tokens": 52866.0,
       "step": 27
     },
     {
+      "entropy": 1.9901328533887863,
+      "epoch": 0.8175182481751825,
+      "grad_norm": 4.53125,
+      "learning_rate": 2.8703181864639013e-05,
+      "loss": 1.5227,
+      "mean_token_accuracy": 0.5771616920828819,
+      "num_tokens": 55235.0,
       "step": 28
     },
     {
+      "entropy": 2.176472947001457,
+      "epoch": 0.8467153284671532,
+      "grad_norm": 7.34375,
+      "learning_rate": 2.8481910694487507e-05,
+      "loss": 1.784,
+      "mean_token_accuracy": 0.5394799076020718,
+      "num_tokens": 56468.0,
       "step": 29
     },
     {
+      "entropy": 2.0398730635643005,
+      "epoch": 0.8759124087591241,
+      "grad_norm": 5.5,
+      "learning_rate": 2.8244213892883907e-05,
+      "loss": 1.584,
+      "mean_token_accuracy": 0.564793273806572,
+      "num_tokens": 58219.0,
       "step": 30
     },
     {
+      "entropy": 1.7868350446224213,
+      "epoch": 0.9051094890510949,
+      "grad_norm": 3.71875,
+      "learning_rate": 2.7990381056766583e-05,
+      "loss": 1.4897,
+      "mean_token_accuracy": 0.5773478448390961,
+      "num_tokens": 61246.0,
       "step": 31
     },
     {
+      "entropy": 1.8927763998508453,
+      "epoch": 0.9343065693430657,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.772072144234639e-05,
+      "loss": 1.4658,
+      "mean_token_accuracy": 0.5965544059872627,
+      "num_tokens": 63057.0,
       "step": 32
     },
     {
+      "entropy": 1.9243939369916916,
+      "epoch": 0.9635036496350365,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.7435563588325627e-05,
+      "loss": 1.5646,
+      "mean_token_accuracy": 0.551388930529356,
+      "num_tokens": 64856.0,
       "step": 33
     },
     {
+      "entropy": 1.945557788014412,
+      "epoch": 0.9927007299270073,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.7135254915624213e-05,
+      "loss": 1.6558,
+      "mean_token_accuracy": 0.5641069300472736,
+      "num_tokens": 66564.0,
       "step": 34
     },
     {
+      "entropy": 1.8289813995361328,
+      "epoch": 1.0,
+      "grad_norm": 12.5,
+      "learning_rate": 2.6820161304100828e-05,
+      "loss": 1.6743,
+      "mean_token_accuracy": 0.5590097606182098,
+      "num_tokens": 66897.0,
       "step": 35
     },
     {
+      "entropy": 1.8240835815668106,
+      "epoch": 1.0291970802919708,
+      "grad_norm": 4.0,
+      "learning_rate": 2.649066664678467e-05,
+      "loss": 1.2519,
+      "mean_token_accuracy": 0.6510025560855865,
+      "num_tokens": 69125.0,
       "step": 36
     },
     {
+      "entropy": 1.7388608753681183,
+      "epoch": 1.0583941605839415,
+      "grad_norm": 3.671875,
+      "learning_rate": 2.6147172382160913e-05,
+      "loss": 1.145,
+      "mean_token_accuracy": 0.6592915058135986,
+      "num_tokens": 71403.0,
       "step": 37
     },
     {
+      "entropy": 1.7314125299453735,
+      "epoch": 1.0875912408759123,
+      "grad_norm": 3.84375,
+      "learning_rate": 2.5790097005079766e-05,
+      "loss": 1.2177,
+      "mean_token_accuracy": 0.6403542906045914,
+      "num_tokens": 73853.0,
       "step": 38
     },
     {
+      "entropy": 1.9059295356273651,
+      "epoch": 1.1167883211678833,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.541987555688496e-05,
+      "loss": 1.3537,
+      "mean_token_accuracy": 0.5938370451331139,
+      "num_tokens": 75484.0,
       "step": 39
     },
     {
+      "entropy": 1.8351815044879913,
+      "epoch": 1.145985401459854,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.5036959095382875e-05,
+      "loss": 1.1891,
+      "mean_token_accuracy": 0.6363263987004757,
+      "num_tokens": 77263.0,
       "step": 40
     },
     {
+      "entropy": 1.856779396533966,
+      "epoch": 1.1751824817518248,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.464181414529809e-05,
+      "loss": 1.3116,
+      "mean_token_accuracy": 0.625493511557579,
+      "num_tokens": 79113.0,
       "step": 41
     },
     {
+      "entropy": 1.7603202909231186,
+      "epoch": 1.2043795620437956,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.4234922129884873e-05,
+      "loss": 1.2056,
+      "mean_token_accuracy": 0.6308283284306526,
+      "num_tokens": 80962.0,
       "step": 42
     },
     {
+      "entropy": 1.6366319358348846,
+      "epoch": 1.2335766423357664,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.3816778784387097e-05,
+      "loss": 1.2438,
+      "mean_token_accuracy": 0.6533086150884628,
+      "num_tokens": 83095.0,
       "step": 43
     },
     {
+      "entropy": 1.6320330947637558,
+      "epoch": 1.2627737226277373,
+      "grad_norm": 4.1875,
+      "learning_rate": 2.3387893552061202e-05,
+      "loss": 1.1647,
+      "mean_token_accuracy": 0.6589736789464951,
+      "num_tokens": 85383.0,
       "step": 44
     },
     {
+      "entropy": 1.575496032834053,
+      "epoch": 1.2919708029197081,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.2948788963498073e-05,
+      "loss": 1.1654,
+      "mean_token_accuracy": 0.6555850505828857,
+      "num_tokens": 87754.0,
       "step": 45
     },
     {
+      "entropy": 1.64286208152771,
+      "epoch": 1.3211678832116789,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.25e-05,
+      "loss": 1.3359,
+      "mean_token_accuracy": 0.649970181286335,
+      "num_tokens": 89289.0,
       "step": 46
     },
     {
+      "entropy": 1.457002505660057,
+      "epoch": 1.3503649635036497,
+      "grad_norm": 4.75,
+      "learning_rate": 2.2042073441788363e-05,
+      "loss": 1.1513,
+      "mean_token_accuracy": 0.6784967109560966,
+      "num_tokens": 91666.0,
       "step": 47
     },
     {
+      "entropy": 1.567281499505043,
+      "epoch": 1.3795620437956204,
+      "grad_norm": 6.78125,
+      "learning_rate": 2.157556720183616e-05,
+      "loss": 1.212,
+      "mean_token_accuracy": 0.6601979807019234,
+      "num_tokens": 93407.0,
       "step": 48
     },
     {
+      "entropy": 1.4496354460716248,
+      "epoch": 1.4087591240875912,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.1101049646137008e-05,
+      "loss": 1.074,
+      "mean_token_accuracy": 0.6734104976058006,
+      "num_tokens": 95819.0,
       "step": 49
     },
     {
+      "entropy": 1.5027115792036057,
+      "epoch": 1.437956204379562,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.0619098901238684e-05,
+      "loss": 1.1059,
+      "mean_token_accuracy": 0.6857927665114403,
+      "num_tokens": 98052.0,
       "step": 50
     },
     {
+      "entropy": 1.5403490960597992,
+      "epoch": 1.4671532846715327,
+      "grad_norm": 5.75,
+      "learning_rate": 2.0130302149885033e-05,
+      "loss": 1.1573,
+      "mean_token_accuracy": 0.6808772906661034,
+      "num_tokens": 99865.0,
       "step": 51
     },
     {
+      "entropy": 1.3851112127304077,
+      "epoch": 1.4963503649635037,
+      "grad_norm": 4.3125,
+      "learning_rate": 1.963525491562421e-05,
+      "loss": 1.0986,
+      "mean_token_accuracy": 0.669769361615181,
+      "num_tokens": 102444.0,
       "step": 52
     },
     {
+      "entropy": 1.6086822748184204,
+      "epoch": 1.5255474452554745,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.9134560337254986e-05,
+      "loss": 1.2058,
+      "mean_token_accuracy": 0.6342265903949738,
+      "num_tokens": 104135.0,
       "step": 53
     },
     {
+      "entropy": 1.6186174154281616,
+      "epoch": 1.5547445255474452,
+      "grad_norm": 5.75,
+      "learning_rate": 1.8628828433995013e-05,
+      "loss": 1.1878,
+      "mean_token_accuracy": 0.6471928432583809,
+      "num_tokens": 105888.0,
       "step": 54
     },
     {
+      "entropy": 1.636601522564888,
+      "epoch": 1.583941605839416,
+      "grad_norm": 6.40625,
+      "learning_rate": 1.8118675362266388e-05,
+      "loss": 1.2144,
+      "mean_token_accuracy": 0.669179767370224,
+      "num_tokens": 107324.0,
       "step": 55
     },
     {
+      "entropy": 1.6150267571210861,
+      "epoch": 1.613138686131387,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.760472266500396e-05,
+      "loss": 1.2551,
+      "mean_token_accuracy": 0.6627604365348816,
+      "num_tokens": 108844.0,
       "step": 56
     },
     {
+      "entropy": 1.7444928288459778,
+      "epoch": 1.6423357664233578,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.7087596514400982e-05,
+      "loss": 1.2656,
+      "mean_token_accuracy": 0.6279268711805344,
+      "num_tokens": 110263.0,
       "step": 57
     },
     {
+      "entropy": 1.5423792004585266,
+      "epoch": 1.6715328467153285,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.6567926949014805e-05,
+      "loss": 1.2103,
+      "mean_token_accuracy": 0.6224785149097443,
+      "num_tokens": 112199.0,
       "step": 58
     },
     {
+      "entropy": 1.6031899452209473,
+      "epoch": 1.7007299270072993,
+      "grad_norm": 6.5,
+      "learning_rate": 1.604634710616188e-05,
+      "loss": 1.2274,
+      "mean_token_accuracy": 0.6428026333451271,
+      "num_tokens": 113911.0,
       "step": 59
     },
     {
+      "entropy": 1.7055649012327194,
+      "epoch": 1.72992700729927,
+      "grad_norm": 6.6875,
+      "learning_rate": 1.552349245053752e-05,
+      "loss": 1.2889,
+      "mean_token_accuracy": 0.6419094651937485,
+      "num_tokens": 115316.0,
       "step": 60
     },
     {
+      "entropy": 1.5212641060352325,
+      "epoch": 1.7591240875912408,
+      "grad_norm": 4.4375,
+      "learning_rate": 1.5e-05,
+      "loss": 1.0935,
+      "mean_token_accuracy": 0.6695626378059387,
+      "num_tokens": 118007.0,
       "step": 61
     },
     {
+      "entropy": 1.781775563955307,
+      "epoch": 1.7883211678832116,
+      "grad_norm": 7.0,
+      "learning_rate": 1.447650754946249e-05,
+      "loss": 1.2709,
+      "mean_token_accuracy": 0.6656767651438713,
+      "num_tokens": 119232.0,
       "step": 62
     },
     {
+      "entropy": 1.616694524884224,
+      "epoch": 1.8175182481751824,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.3953652893838121e-05,
+      "loss": 1.2435,
+      "mean_token_accuracy": 0.6494908779859543,
+      "num_tokens": 120725.0,
       "step": 63
     },
     {
+      "entropy": 1.7247931063175201,
+      "epoch": 1.8467153284671531,
+      "grad_norm": 7.15625,
+      "learning_rate": 1.3432073050985201e-05,
+      "loss": 1.3701,
+      "mean_token_accuracy": 0.6305030956864357,
+      "num_tokens": 122093.0,
       "step": 64
     },
     {
+      "entropy": 1.590467780828476,
+      "epoch": 1.8759124087591241,
+      "grad_norm": 5.0,
+      "learning_rate": 1.2912403485599022e-05,
+      "loss": 1.263,
+      "mean_token_accuracy": 0.6583547666668892,
+      "num_tokens": 124333.0,
       "step": 65
+    },
+    {
+      "entropy": 1.6301420778036118,
+      "epoch": 1.905109489051095,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.2395277334996045e-05,
+      "loss": 1.1125,
+      "mean_token_accuracy": 0.650074191391468,
+      "num_tokens": 126272.0,
+      "step": 66
+    },
+    {
+      "entropy": 1.5050681680440903,
+      "epoch": 1.9343065693430657,
+      "grad_norm": 4.28125,
+      "learning_rate": 1.1881324637733613e-05,
+      "loss": 1.037,
+      "mean_token_accuracy": 0.6733650118112564,
+      "num_tokens": 128615.0,
+      "step": 67
+    },
+    {
+      "entropy": 1.5582159608602524,
+      "epoch": 1.9635036496350367,
+      "grad_norm": 4.34375,
+      "learning_rate": 1.1371171566004986e-05,
+      "loss": 1.0951,
+      "mean_token_accuracy": 0.6506948918104172,
+      "num_tokens": 131279.0,
+      "step": 68
+    },
+    {
+      "entropy": 1.6561681628227234,
+      "epoch": 1.9927007299270074,
+      "grad_norm": 5.75,
+      "learning_rate": 1.0865439662745013e-05,
+      "loss": 1.1486,
+      "mean_token_accuracy": 0.6755311414599419,
+      "num_tokens": 132847.0,
+      "step": 69
+    },
+    {
+      "entropy": 1.4383031129837036,
+      "epoch": 2.0,
+      "grad_norm": 7.4375,
+      "learning_rate": 1.036474508437579e-05,
+      "loss": 1.1032,
+      "mean_token_accuracy": 0.6792386174201965,
+      "num_tokens": 133794.0,
+      "step": 70
+    },
+    {
+      "entropy": 1.5033023059368134,
+      "epoch": 2.0291970802919708,
+      "grad_norm": 4.09375,
+      "learning_rate": 9.86969785011497e-06,
+      "loss": 0.8414,
+      "mean_token_accuracy": 0.7257160544395447,
+      "num_tokens": 135994.0,
+      "step": 71
+    },
+    {
+      "entropy": 1.588482990860939,
+      "epoch": 2.0583941605839415,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.380901098761319e-06,
+      "loss": 0.8667,
+      "mean_token_accuracy": 0.7469649091362953,
+      "num_tokens": 137554.0,
+      "step": 72
+    },
+    {
+      "entropy": 1.539756417274475,
+      "epoch": 2.0875912408759123,
+      "grad_norm": 4.3125,
+      "learning_rate": 8.898950353863e-06,
+      "loss": 0.8192,
+      "mean_token_accuracy": 0.7514503225684166,
+      "num_tokens": 139542.0,
+      "step": 73
+    },
+    {
+      "entropy": 1.5114945620298386,
+      "epoch": 2.116788321167883,
+      "grad_norm": 4.25,
+      "learning_rate": 8.424432798163838e-06,
+      "loss": 0.9041,
+      "mean_token_accuracy": 0.7257768511772156,
+      "num_tokens": 141721.0,
+      "step": 74
+    },
+    {
+      "entropy": 1.4715029448270798,
+      "epoch": 2.145985401459854,
+      "grad_norm": 4.375,
+      "learning_rate": 7.957926558211643e-06,
+      "loss": 0.8884,
+      "mean_token_accuracy": 0.7411475032567978,
+      "num_tokens": 143837.0,
+      "step": 75
+    },
+    {
+      "entropy": 1.375910922884941,
+      "epoch": 2.1751824817518246,
+      "grad_norm": 4.0625,
+      "learning_rate": 7.500000000000004e-06,
+      "loss": 0.8403,
+      "mean_token_accuracy": 0.7337475717067719,
+      "num_tokens": 146069.0,
+      "step": 76
+    },
+    {
+      "entropy": 1.530395969748497,
+      "epoch": 2.204379562043796,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.051211036501928e-06,
+      "loss": 0.9023,
+      "mean_token_accuracy": 0.7458862364292145,
+      "num_tokens": 147948.0,
+      "step": 77
+    },
+    {
+      "entropy": 1.5619382560253143,
+      "epoch": 2.2335766423357666,
+      "grad_norm": 5.375,
+      "learning_rate": 6.6121064479388e-06,
+      "loss": 0.9471,
+      "mean_token_accuracy": 0.7247473746538162,
+      "num_tokens": 149664.0,
+      "step": 78
+    },
+    {
+      "entropy": 1.4002738296985626,
+      "epoch": 2.2627737226277373,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.1832212156129045e-06,
+      "loss": 0.8002,
+      "mean_token_accuracy": 0.7359691336750984,
+      "num_tokens": 151422.0,
+      "step": 79
+    },
+    {
+      "entropy": 1.3783821165561676,
+      "epoch": 2.291970802919708,
+      "grad_norm": 4.875,
+      "learning_rate": 5.765077870115126e-06,
+      "loss": 0.9352,
+      "mean_token_accuracy": 0.7229901030659676,
+      "num_tokens": 153330.0,
+      "step": 80
+    },
+    {
+      "entropy": 1.3214146196842194,
+      "epoch": 2.321167883211679,
+      "grad_norm": 4.875,
+      "learning_rate": 5.3581858547019095e-06,
+      "loss": 0.7626,
+      "mean_token_accuracy": 0.7818252220749855,
+      "num_tokens": 155088.0,
+      "step": 81
+    },
+    {
+      "entropy": 1.2702767699956894,
+      "epoch": 2.3503649635036497,
+      "grad_norm": 4.375,
+      "learning_rate": 4.963040904617131e-06,
+      "loss": 0.7893,
+      "mean_token_accuracy": 0.7699355036020279,
+      "num_tokens": 157396.0,
+      "step": 82
+    },
+    {
+      "entropy": 1.397829994559288,
+      "epoch": 2.3795620437956204,
+      "grad_norm": 5.25,
+      "learning_rate": 4.58012444311504e-06,
+      "loss": 0.9191,
+      "mean_token_accuracy": 0.7331462875008583,
+      "num_tokens": 159218.0,
+      "step": 83
+    },
+    {
+      "entropy": 1.2017180174589157,
+      "epoch": 2.408759124087591,
+      "grad_norm": 3.6875,
+      "learning_rate": 4.209902994920236e-06,
+      "loss": 0.8082,
+      "mean_token_accuracy": 0.7587887346744537,
+      "num_tokens": 162386.0,
+      "step": 84
+    },
+    {
+      "entropy": 1.374891072511673,
+      "epoch": 2.437956204379562,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.852827617839085e-06,
+      "loss": 0.8665,
+      "mean_token_accuracy": 0.7603413909673691,
+      "num_tokens": 164138.0,
+      "step": 85
+    },
+    {
+      "entropy": 1.3341291099786758,
+      "epoch": 2.4671532846715327,
+      "grad_norm": 4.6875,
+      "learning_rate": 3.5093333532153316e-06,
+      "loss": 0.8604,
+      "mean_token_accuracy": 0.7294721901416779,
+      "num_tokens": 166308.0,
+      "step": 86
+    },
+    {
+      "entropy": 1.3214628398418427,
+      "epoch": 2.4963503649635035,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.1798386958991715e-06,
+      "loss": 0.8978,
+      "mean_token_accuracy": 0.7371588498353958,
+      "num_tokens": 168073.0,
+      "step": 87
+    },
+    {
+      "entropy": 1.358703538775444,
+      "epoch": 2.5255474452554747,
+      "grad_norm": 5.125,
+      "learning_rate": 2.86474508437579e-06,
+      "loss": 0.859,
+      "mean_token_accuracy": 0.7255095988512039,
+      "num_tokens": 169979.0,
+      "step": 88
+    },
+    {
+      "entropy": 1.258324310183525,
+      "epoch": 2.554744525547445,
+      "grad_norm": 4.15625,
+      "learning_rate": 2.564436411674376e-06,
+      "loss": 0.825,
+      "mean_token_accuracy": 0.7614458128809929,
+      "num_tokens": 172706.0,
+      "step": 89
+    },
+    {
+      "entropy": 1.329784169793129,
+      "epoch": 2.5839416058394162,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.279278557653611e-06,
+      "loss": 0.8799,
+      "mean_token_accuracy": 0.7584780603647232,
+      "num_tokens": 174586.0,
+      "step": 90
+    },
+    {
+      "entropy": 1.2622641026973724,
+      "epoch": 2.613138686131387,
+      "grad_norm": 5.125,
+      "learning_rate": 2.0096189432334194e-06,
+      "loss": 0.8348,
+      "mean_token_accuracy": 0.7513260990381241,
+      "num_tokens": 176525.0,
+      "step": 91
+    },
+    {
+      "entropy": 1.2846813797950745,
+      "epoch": 2.6423357664233578,
+      "grad_norm": 5.0,
+      "learning_rate": 1.7557861071160953e-06,
+      "loss": 0.7697,
+      "mean_token_accuracy": 0.7566402554512024,
+      "num_tokens": 178535.0,
+      "step": 92
+    },
+    {
+      "entropy": 1.2429047673940659,
+      "epoch": 2.6715328467153285,
+      "grad_norm": 4.1875,
+      "learning_rate": 1.518089305512498e-06,
+      "loss": 0.8523,
+      "mean_token_accuracy": 0.7609995678067207,
+      "num_tokens": 181688.0,
+      "step": 93
+    },
+    {
+      "entropy": 1.2306764125823975,
+      "epoch": 2.7007299270072993,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.2968181353609854e-06,
+      "loss": 0.795,
+      "mean_token_accuracy": 0.7538608759641647,
+      "num_tokens": 183350.0,
+      "step": 94
+    },
+    {
+      "entropy": 1.2729838192462921,
+      "epoch": 2.72992700729927,
+      "grad_norm": 5.25,
+      "learning_rate": 1.0922421814981904e-06,
+      "loss": 0.8463,
+      "mean_token_accuracy": 0.7443541586399078,
+      "num_tokens": 185369.0,
+      "step": 95
+    },
+    {
+      "entropy": 1.2911252602934837,
+      "epoch": 2.759124087591241,
+      "grad_norm": 5.125,
+      "learning_rate": 9.046106882113753e-07,
+      "loss": 0.7471,
+      "mean_token_accuracy": 0.752311646938324,
+      "num_tokens": 187493.0,
+      "step": 96
+    },
+    {
+      "entropy": 1.28748519718647,
+      "epoch": 2.7883211678832116,
+      "grad_norm": 6.4375,
+      "learning_rate": 7.341522555726971e-07,
+      "loss": 0.7536,
+      "mean_token_accuracy": 0.7757409885525703,
+      "num_tokens": 188864.0,
+      "step": 97
+    },
+    {
+      "entropy": 1.2816387563943863,
+      "epoch": 2.8175182481751824,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.810745609252166e-07,
+      "loss": 0.9127,
+      "mean_token_accuracy": 0.7290580719709396,
+      "num_tokens": 190843.0,
+      "step": 98
+    },
+    {
+      "entropy": 1.4024466425180435,
+      "epoch": 2.846715328467153,
+      "grad_norm": 6.71875,
+      "learning_rate": 4.455641058600529e-07,
+      "loss": 0.9032,
+      "mean_token_accuracy": 0.7520110681653023,
+      "num_tokens": 192230.0,
+      "step": 99
+    },
+    {
+      "entropy": 1.354932889342308,
+      "epoch": 2.875912408759124,
+      "grad_norm": 6.71875,
+      "learning_rate": 3.277859889929147e-07,
+      "loss": 0.7987,
+      "mean_token_accuracy": 0.785490907728672,
+      "num_tokens": 193518.0,
+      "step": 100
     }
   ],
   "logging_steps": 1,
+  "max_steps": 105,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 5186447183892480.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11dc7c8092aa2b8ebf234fc84d3e707b2126e3e231f1ae373dfe72c25a33e317
 size 6353

 version https://git-lfs.github.com/spec/v1
+oid sha256:f89ff4081cf45cebdd9100f3809aacae74d1773ff8c2b672defb6af57e4a514c
 size 6353