Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +4 -4
adapter_model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +371 -1046
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -12,21 +12,21 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 32,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 16,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_up_proj",
-    "qkv_proj",
     "o_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 48,
   "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 96,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_up_proj",
     "o_proj",
+    "down_proj",
+    "qkv_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91deaa0df19cb3a4603aed93b3ea53b071dfc7c0b2e4fdaaec06eb2240d2d81c
-size 92309112

 version https://git-lfs.github.com/spec/v1
+oid sha256:354061e10299330b91e889824da13bec1303cd549f1396c485c21e63e79b6f6d
+size 553683024

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18d99d58786c67973fe2041dabca67551378777424f0b36426db8c429e7ae955
-size 184765003

 version https://git-lfs.github.com/spec/v1
+oid sha256:3369b904cd237f36a8d77bf651116368a1a19b5f3db96249b7e6a9f9bb45e3d8
+size 1107512523

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dbc0a5b32ad7d5de753e64fe048720f783b76e89c603c1c55e1c06734520c91
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:0241384ebd3d15b1a8164991a445a993df2bd29e7024ac9c77da5909807a7c57
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:904ce4dc1d5cd57472f50779861a9053d20471c1dc9e146ec99c9316f40e0da7
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:8da2a29d769a2c7c6ee654d830f0801577c6076f6346125ad041b3edd166bbc2
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
-  "best_global_step": 99,
-  "best_metric": 0.43201857805252075,
-  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-90",
-  "epoch": 5.2631578947368425,
   "eval_steps": 1,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.05263157894736842,
-      "grad_norm": 1.1712253093719482,
       "learning_rate": 0.0,
       "loss": 3.2235,
       "step": 1
@@ -19,1502 +19,827 @@
     {
       "epoch": 0.05263157894736842,
       "eval_loss": 3.15524959564209,
-      "eval_runtime": 3.3832,
-      "eval_samples_per_second": 8.867,
-      "eval_steps_per_second": 1.182,
       "step": 1
     },
     {
       "epoch": 0.10526315789473684,
-      "grad_norm": 1.2426623106002808,
       "learning_rate": 3.3333333333333335e-05,
       "loss": 3.165,
       "step": 2
     },
     {
       "epoch": 0.10526315789473684,
-      "eval_loss": 3.1208913326263428,
-      "eval_runtime": 3.3506,
-      "eval_samples_per_second": 8.954,
-      "eval_steps_per_second": 1.194,
       "step": 2
     },
     {
       "epoch": 0.15789473684210525,
-      "grad_norm": 1.0169581174850464,
       "learning_rate": 6.666666666666667e-05,
-      "loss": 2.8762,
       "step": 3
     },
     {
       "epoch": 0.15789473684210525,
-      "eval_loss": 3.033876895904541,
-      "eval_runtime": 3.3775,
-      "eval_samples_per_second": 8.882,
-      "eval_steps_per_second": 1.184,
       "step": 3
     },
     {
       "epoch": 0.21052631578947367,
-      "grad_norm": 1.1397525072097778,
       "learning_rate": 0.0001,
-      "loss": 3.0285,
       "step": 4
     },
     {
       "epoch": 0.21052631578947367,
-      "eval_loss": 2.882239818572998,
-      "eval_runtime": 3.3981,
-      "eval_samples_per_second": 8.829,
-      "eval_steps_per_second": 1.177,
       "step": 4
     },
     {
       "epoch": 0.2631578947368421,
-      "grad_norm": 1.1276919841766357,
       "learning_rate": 0.00013333333333333334,
-      "loss": 2.8059,
       "step": 5
     },
     {
       "epoch": 0.2631578947368421,
-      "eval_loss": 2.671700954437256,
-      "eval_runtime": 3.4282,
-      "eval_samples_per_second": 8.751,
-      "eval_steps_per_second": 1.167,
       "step": 5
     },
     {
       "epoch": 0.3157894736842105,
-      "grad_norm": 1.1082642078399658,
       "learning_rate": 0.00016666666666666666,
-      "loss": 2.5492,
       "step": 6
     },
     {
       "epoch": 0.3157894736842105,
-      "eval_loss": 2.4450764656066895,
-      "eval_runtime": 3.4466,
-      "eval_samples_per_second": 8.704,
-      "eval_steps_per_second": 1.161,
       "step": 6
     },
     {
       "epoch": 0.3684210526315789,
-      "grad_norm": 1.0461392402648926,
       "learning_rate": 0.0002,
-      "loss": 2.4397,
       "step": 7
     },
     {
       "epoch": 0.3684210526315789,
-      "eval_loss": 2.230668544769287,
-      "eval_runtime": 3.4595,
-      "eval_samples_per_second": 8.672,
-      "eval_steps_per_second": 1.156,
       "step": 7
     },
     {
       "epoch": 0.42105263157894735,
-      "grad_norm": 1.2636622190475464,
       "learning_rate": 0.00023333333333333333,
-      "loss": 2.2026,
       "step": 8
     },
     {
       "epoch": 0.42105263157894735,
-      "eval_loss": 2.028376340866089,
-      "eval_runtime": 3.4413,
-      "eval_samples_per_second": 8.718,
-      "eval_steps_per_second": 1.162,
       "step": 8
     },
     {
       "epoch": 0.47368421052631576,
-      "grad_norm": 1.4393274784088135,
       "learning_rate": 0.0002666666666666667,
-      "loss": 2.0811,
       "step": 9
     },
     {
       "epoch": 0.47368421052631576,
-      "eval_loss": 1.8259222507476807,
-      "eval_runtime": 3.4225,
-      "eval_samples_per_second": 8.765,
-      "eval_steps_per_second": 1.169,
       "step": 9
     },
     {
       "epoch": 0.5263157894736842,
-      "grad_norm": 1.4638570547103882,
       "learning_rate": 0.0003,
-      "loss": 1.8383,
       "step": 10
     },
     {
       "epoch": 0.5263157894736842,
-      "eval_loss": 1.6318742036819458,
-      "eval_runtime": 3.4158,
-      "eval_samples_per_second": 8.783,
-      "eval_steps_per_second": 1.171,
       "step": 10
     },
     {
       "epoch": 0.5789473684210527,
-      "grad_norm": 1.4234288930892944,
       "learning_rate": 0.0003333333333333333,
-      "loss": 1.6943,
       "step": 11
     },
     {
       "epoch": 0.5789473684210527,
-      "eval_loss": 1.4664249420166016,
-      "eval_runtime": 3.385,
-      "eval_samples_per_second": 8.863,
-      "eval_steps_per_second": 1.182,
       "step": 11
     },
     {
       "epoch": 0.631578947368421,
-      "grad_norm": 1.2770508527755737,
       "learning_rate": 0.00036666666666666667,
-      "loss": 1.4634,
       "step": 12
     },
     {
       "epoch": 0.631578947368421,
-      "eval_loss": 1.37418794631958,
-      "eval_runtime": 3.3866,
-      "eval_samples_per_second": 8.858,
-      "eval_steps_per_second": 1.181,
       "step": 12
     },
     {
       "epoch": 0.6842105263157895,
-      "grad_norm": 1.5616014003753662,
       "learning_rate": 0.0004,
-      "loss": 1.4361,
       "step": 13
     },
     {
       "epoch": 0.6842105263157895,
-      "eval_loss": 1.3023313283920288,
-      "eval_runtime": 3.3859,
-      "eval_samples_per_second": 8.86,
-      "eval_steps_per_second": 1.181,
       "step": 13
     },
     {
       "epoch": 0.7368421052631579,
-      "grad_norm": 1.475995421409607,
       "learning_rate": 0.00043333333333333337,
-      "loss": 1.3218,
       "step": 14
     },
     {
       "epoch": 0.7368421052631579,
-      "eval_loss": 1.237278699874878,
-      "eval_runtime": 3.3787,
-      "eval_samples_per_second": 8.879,
-      "eval_steps_per_second": 1.184,
       "step": 14
     },
     {
       "epoch": 0.7894736842105263,
-      "grad_norm": 1.1547696590423584,
       "learning_rate": 0.00046666666666666666,
-      "loss": 1.3192,
       "step": 15
     },
     {
       "epoch": 0.7894736842105263,
-      "eval_loss": 1.1772326231002808,
-      "eval_runtime": 3.3856,
-      "eval_samples_per_second": 8.861,
-      "eval_steps_per_second": 1.181,
       "step": 15
     },
     {
       "epoch": 0.8421052631578947,
-      "grad_norm": 0.8922737240791321,
       "learning_rate": 0.0005,
-      "loss": 1.2386,
       "step": 16
     },
     {
       "epoch": 0.8421052631578947,
-      "eval_loss": 1.1432918310165405,
-      "eval_runtime": 3.3926,
-      "eval_samples_per_second": 8.843,
-      "eval_steps_per_second": 1.179,
       "step": 16
     },
     {
       "epoch": 0.8947368421052632,
-      "grad_norm": 0.8703598380088806,
-      "learning_rate": 0.0004999776608025946,
-      "loss": 1.2852,
       "step": 17
     },
     {
       "epoch": 0.8947368421052632,
-      "eval_loss": 1.1231766939163208,
-      "eval_runtime": 3.401,
-      "eval_samples_per_second": 8.821,
-      "eval_steps_per_second": 1.176,
       "step": 17
     },
     {
       "epoch": 0.9473684210526315,
-      "grad_norm": 0.8985245823860168,
-      "learning_rate": 0.000499910647202696,
-      "loss": 1.1268,
       "step": 18
     },
     {
       "epoch": 0.9473684210526315,
-      "eval_loss": 1.0892575979232788,
-      "eval_runtime": 3.4075,
-      "eval_samples_per_second": 8.804,
-      "eval_steps_per_second": 1.174,
       "step": 18
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.705194890499115,
-      "learning_rate": 0.0004997989711765446,
-      "loss": 1.1925,
       "step": 19
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.0620007514953613,
-      "eval_runtime": 3.4023,
-      "eval_samples_per_second": 8.817,
-      "eval_steps_per_second": 1.176,
       "step": 19
     },
     {
       "epoch": 1.0526315789473684,
-      "grad_norm": 0.6432715654373169,
-      "learning_rate": 0.0004996426526821629,
-      "loss": 1.0677,
       "step": 20
     },
     {
       "epoch": 1.0526315789473684,
-      "eval_loss": 1.0364060401916504,
-      "eval_runtime": 3.4021,
       "eval_samples_per_second": 8.818,
       "eval_steps_per_second": 1.176,
       "step": 20
     },
     {
       "epoch": 1.1052631578947367,
-      "grad_norm": 0.5805476903915405,
-      "learning_rate": 0.0004994417196557883,
-      "loss": 1.0514,
       "step": 21
     },
     {
       "epoch": 1.1052631578947367,
-      "eval_loss": 1.0189239978790283,
-      "eval_runtime": 3.3998,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.177,
       "step": 21
     },
     {
       "epoch": 1.1578947368421053,
-      "grad_norm": 0.5795720219612122,
-      "learning_rate": 0.0004991962080068813,
-      "loss": 1.0788,
       "step": 22
     },
     {
       "epoch": 1.1578947368421053,
-      "eval_loss": 1.0024681091308594,
-      "eval_runtime": 3.3973,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.177,
       "step": 22
     },
     {
       "epoch": 1.2105263157894737,
-      "grad_norm": 0.7284250855445862,
-      "learning_rate": 0.0004989061616117073,
-      "loss": 0.9834,
       "step": 23
     },
     {
       "epoch": 1.2105263157894737,
-      "eval_loss": 0.9821510910987854,
-      "eval_runtime": 3.3979,
-      "eval_samples_per_second": 8.829,
-      "eval_steps_per_second": 1.177,
       "step": 23
     },
     {
       "epoch": 1.263157894736842,
-      "grad_norm": 0.7955266833305359,
-      "learning_rate": 0.0004985716323054959,
-      "loss": 1.0999,
       "step": 24
     },
     {
       "epoch": 1.263157894736842,
-      "eval_loss": 0.973588228225708,
-      "eval_runtime": 3.3958,
-      "eval_samples_per_second": 8.834,
-      "eval_steps_per_second": 1.178,
       "step": 24
     },
     {
       "epoch": 1.3157894736842106,
-      "grad_norm": 0.6546872854232788,
-      "learning_rate": 0.0004981926798731766,
-      "loss": 0.9389,
       "step": 25
     },
     {
       "epoch": 1.3157894736842106,
-      "eval_loss": 0.9707676768302917,
-      "eval_runtime": 3.4001,
-      "eval_samples_per_second": 8.823,
-      "eval_steps_per_second": 1.176,
       "step": 25
     },
     {
       "epoch": 1.368421052631579,
-      "grad_norm": 0.6482366323471069,
-      "learning_rate": 0.000497769372038695,
-      "loss": 1.0285,
       "step": 26
     },
     {
       "epoch": 1.368421052631579,
-      "eval_loss": 0.9686868190765381,
-      "eval_runtime": 3.4003,
-      "eval_samples_per_second": 8.823,
-      "eval_steps_per_second": 1.176,
       "step": 26
     },
     {
       "epoch": 1.4210526315789473,
-      "grad_norm": 0.5976347327232361,
-      "learning_rate": 0.0004973017844529094,
-      "loss": 0.9571,
       "step": 27
     },
     {
       "epoch": 1.4210526315789473,
-      "eval_loss": 0.9679729342460632,
-      "eval_runtime": 3.3978,
-      "eval_samples_per_second": 8.829,
-      "eval_steps_per_second": 1.177,
       "step": 27
     },
     {
       "epoch": 1.4736842105263157,
-      "grad_norm": 0.6117852926254272,
-      "learning_rate": 0.0004967900006800708,
-      "loss": 0.8988,
       "step": 28
     },
     {
       "epoch": 1.4736842105263157,
-      "eval_loss": 0.955328643321991,
-      "eval_runtime": 3.3986,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
       "step": 28
     },
     {
       "epoch": 1.526315789473684,
-      "grad_norm": 0.8034415245056152,
-      "learning_rate": 0.000496234112182889,
-      "loss": 1.0419,
       "step": 29
     },
     {
       "epoch": 1.526315789473684,
-      "eval_loss": 0.9429832696914673,
-      "eval_runtime": 3.3993,
-      "eval_samples_per_second": 8.825,
-      "eval_steps_per_second": 1.177,
       "step": 29
     },
     {
       "epoch": 1.5789473684210527,
-      "grad_norm": 0.6744455099105835,
-      "learning_rate": 0.000495634218306187,
-      "loss": 1.0113,
       "step": 30
     },
     {
       "epoch": 1.5789473684210527,
-      "eval_loss": 0.9402546286582947,
-      "eval_runtime": 3.4024,
-      "eval_samples_per_second": 8.817,
-      "eval_steps_per_second": 1.176,
       "step": 30
     },
     {
       "epoch": 1.631578947368421,
-      "grad_norm": 0.8540083169937134,
-      "learning_rate": 0.0004949904262591467,
-      "loss": 0.9779,
       "step": 31
     },
     {
       "epoch": 1.631578947368421,
-      "eval_loss": 0.9174972176551819,
-      "eval_runtime": 3.3971,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.177,
       "step": 31
     },
     {
       "epoch": 1.6842105263157894,
-      "grad_norm": 0.5661184787750244,
-      "learning_rate": 0.0004943028510961491,
-      "loss": 0.967,
       "step": 32
     },
     {
       "epoch": 1.6842105263157894,
-      "eval_loss": 0.8996461629867554,
-      "eval_runtime": 3.401,
-      "eval_samples_per_second": 8.821,
-      "eval_steps_per_second": 1.176,
       "step": 32
     },
     {
       "epoch": 1.736842105263158,
-      "grad_norm": 0.6420716643333435,
-      "learning_rate": 0.0004935716156962127,
-      "loss": 1.0637,
       "step": 33
     },
     {
       "epoch": 1.736842105263158,
-      "eval_loss": 0.8879114389419556,
-      "eval_runtime": 3.3843,
-      "eval_samples_per_second": 8.865,
-      "eval_steps_per_second": 1.182,
       "step": 33
     },
     {
       "epoch": 1.7894736842105263,
-      "grad_norm": 0.5820953249931335,
-      "learning_rate": 0.000492796850741033,
-      "loss": 0.9406,
       "step": 34
     },
     {
       "epoch": 1.7894736842105263,
-      "eval_loss": 0.8790176510810852,
-      "eval_runtime": 3.3978,
-      "eval_samples_per_second": 8.829,
-      "eval_steps_per_second": 1.177,
       "step": 34
     },
     {
       "epoch": 1.8421052631578947,
-      "grad_norm": 0.5555437207221985,
-      "learning_rate": 0.0004919786946916281,
-      "loss": 0.9973,
       "step": 35
     },
     {
       "epoch": 1.8421052631578947,
-      "eval_loss": 0.8706895112991333,
-      "eval_runtime": 3.4025,
-      "eval_samples_per_second": 8.817,
-      "eval_steps_per_second": 1.176,
       "step": 35
     },
     {
       "epoch": 1.8947368421052633,
-      "grad_norm": 0.6944723129272461,
-      "learning_rate": 0.0004911172937635942,
-      "loss": 0.9624,
       "step": 36
     },
     {
       "epoch": 1.8947368421052633,
-      "eval_loss": 0.8582616448402405,
-      "eval_runtime": 3.3987,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
       "step": 36
     },
     {
       "epoch": 1.9473684210526314,
-      "grad_norm": 0.516936182975769,
-      "learning_rate": 0.0004902128019009741,
-      "loss": 1.0242,
       "step": 37
     },
     {
       "epoch": 1.9473684210526314,
-      "eval_loss": 0.8482629060745239,
-      "eval_runtime": 3.3973,
-      "eval_samples_per_second": 8.83,
-      "eval_steps_per_second": 1.177,
       "step": 37
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.6250211596488953,
-      "learning_rate": 0.000489265380748746,
-      "loss": 1.0646,
       "step": 38
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.8396931290626526,
-      "eval_runtime": 3.3968,
-      "eval_samples_per_second": 8.832,
-      "eval_steps_per_second": 1.178,
       "step": 38
     },
     {
       "epoch": 2.0526315789473686,
-      "grad_norm": 0.6457982659339905,
-      "learning_rate": 0.0004882751996239352,
-      "loss": 0.9107,
       "step": 39
     },
     {
       "epoch": 2.0526315789473686,
-      "eval_loss": 0.8291558027267456,
-      "eval_runtime": 3.3988,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
       "step": 39
     },
     {
       "epoch": 2.1052631578947367,
-      "grad_norm": 0.49637654423713684,
-      "learning_rate": 0.0004872424354853545,
-      "loss": 0.8729,
       "step": 40
     },
     {
       "epoch": 2.1052631578947367,
-      "eval_loss": 0.8166154026985168,
-      "eval_runtime": 3.3997,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.177,
       "step": 40
     },
     {
       "epoch": 2.1578947368421053,
-      "grad_norm": 0.6060866713523865,
-      "learning_rate": 0.0004861672729019797,
-      "loss": 0.8154,
       "step": 41
     },
     {
       "epoch": 2.1578947368421053,
-      "eval_loss": 0.8058971762657166,
-      "eval_runtime": 3.3964,
-      "eval_samples_per_second": 8.833,
-      "eval_steps_per_second": 1.178,
       "step": 41
     },
     {
       "epoch": 2.2105263157894735,
-      "grad_norm": 0.5285487771034241,
-      "learning_rate": 0.0004850499040199643,
-      "loss": 0.7798,
       "step": 42
     },
     {
       "epoch": 2.2105263157894735,
-      "eval_loss": 0.7971588969230652,
-      "eval_runtime": 3.4012,
-      "eval_samples_per_second": 8.82,
-      "eval_steps_per_second": 1.176,
       "step": 42
     },
     {
       "epoch": 2.263157894736842,
-      "grad_norm": 0.7103962898254395,
-      "learning_rate": 0.0004838905285283005,
-      "loss": 0.9025,
       "step": 43
     },
     {
       "epoch": 2.263157894736842,
-      "eval_loss": 0.7828482985496521,
-      "eval_runtime": 3.4,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.176,
       "step": 43
     },
     {
       "epoch": 2.3157894736842106,
-      "grad_norm": 0.6385390758514404,
-      "learning_rate": 0.00048268935362313215,
-      "loss": 0.8484,
       "step": 44
     },
     {
       "epoch": 2.3157894736842106,
-      "eval_loss": 0.7740622758865356,
-      "eval_runtime": 3.4013,
-      "eval_samples_per_second": 8.82,
       "eval_steps_per_second": 1.176,
       "step": 44
     },
     {
       "epoch": 2.3684210526315788,
-      "grad_norm": 0.6478577852249146,
-      "learning_rate": 0.00048144659397072586,
-      "loss": 0.794,
       "step": 45
     },
     {
       "epoch": 2.3684210526315788,
-      "eval_loss": 0.7711488604545593,
-      "eval_runtime": 3.4029,
-      "eval_samples_per_second": 8.816,
-      "eval_steps_per_second": 1.175,
       "step": 45
     },
     {
       "epoch": 2.4210526315789473,
-      "grad_norm": 0.6230824589729309,
-      "learning_rate": 0.0004801624716691072,
-      "loss": 0.8394,
       "step": 46
     },
     {
       "epoch": 2.4210526315789473,
-      "eval_loss": 0.7640188932418823,
-      "eval_runtime": 3.3993,
-      "eval_samples_per_second": 8.825,
-      "eval_steps_per_second": 1.177,
       "step": 46
     },
     {
       "epoch": 2.473684210526316,
-      "grad_norm": 0.5779664516448975,
-      "learning_rate": 0.00047883721620836894,
-      "loss": 0.7857,
       "step": 47
     },
     {
       "epoch": 2.473684210526316,
-      "eval_loss": 0.758138120174408,
-      "eval_runtime": 3.3991,
-      "eval_samples_per_second": 8.826,
-      "eval_steps_per_second": 1.177,
       "step": 47
     },
     {
       "epoch": 2.526315789473684,
-      "grad_norm": 0.5758649110794067,
-      "learning_rate": 0.0004774710644296578,
-      "loss": 0.7685,
       "step": 48
     },
     {
       "epoch": 2.526315789473684,
-      "eval_loss": 0.7491741180419922,
-      "eval_runtime": 3.4037,
-      "eval_samples_per_second": 8.814,
-      "eval_steps_per_second": 1.175,
       "step": 48
     },
     {
       "epoch": 2.5789473684210527,
-      "grad_norm": 0.7427331805229187,
-      "learning_rate": 0.00047606426048284813,
-      "loss": 0.8529,
       "step": 49
     },
     {
       "epoch": 2.5789473684210527,
-      "eval_loss": 0.7381884455680847,
-      "eval_runtime": 3.3985,
-      "eval_samples_per_second": 8.827,
       "eval_steps_per_second": 1.177,
       "step": 49
     },
     {
       "epoch": 2.6315789473684212,
-      "grad_norm": 0.5156267285346985,
-      "learning_rate": 0.00047461705578290833,
-      "loss": 0.7453,
       "step": 50
     },
     {
       "epoch": 2.6315789473684212,
-      "eval_loss": 0.735011637210846,
-      "eval_runtime": 3.3975,
-      "eval_samples_per_second": 8.83,
-      "eval_steps_per_second": 1.177,
       "step": 50
     },
     {
       "epoch": 2.6842105263157894,
-      "grad_norm": 0.5465694665908813,
-      "learning_rate": 0.0004731297089649703,
-      "loss": 0.7681,
       "step": 51
     },
     {
       "epoch": 2.6842105263157894,
-      "eval_loss": 0.7380778193473816,
-      "eval_runtime": 3.3945,
-      "eval_samples_per_second": 8.838,
-      "eval_steps_per_second": 1.178,
       "step": 51
     },
     {
       "epoch": 2.736842105263158,
-      "grad_norm": 0.5591109991073608,
-      "learning_rate": 0.0004716024858381075,
-      "loss": 0.7583,
       "step": 52
     },
     {
       "epoch": 2.736842105263158,
-      "eval_loss": 0.735223650932312,
-      "eval_runtime": 3.3923,
-      "eval_samples_per_second": 8.844,
-      "eval_steps_per_second": 1.179,
       "step": 52
     },
     {
       "epoch": 2.7894736842105265,
-      "grad_norm": 0.6300053596496582,
-      "learning_rate": 0.00047003565933783123,
-      "loss": 0.8622,
       "step": 53
     },
     {
       "epoch": 2.7894736842105265,
-      "eval_loss": 0.7290965914726257,
-      "eval_runtime": 3.4013,
-      "eval_samples_per_second": 8.82,
-      "eval_steps_per_second": 1.176,
       "step": 53
     },
     {
       "epoch": 2.8421052631578947,
-      "grad_norm": 0.6577848792076111,
-      "learning_rate": 0.0004684295094773134,
-      "loss": 0.7678,
       "step": 54
     },
     {
       "epoch": 2.8421052631578947,
-      "eval_loss": 0.7240878343582153,
-      "eval_runtime": 3.3989,
-      "eval_samples_per_second": 8.826,
-      "eval_steps_per_second": 1.177,
       "step": 54
     },
     {
       "epoch": 2.8947368421052633,
-      "grad_norm": 0.48959189653396606,
-      "learning_rate": 0.00046678432329734434,
-      "loss": 0.7592,
       "step": 55
     },
     {
       "epoch": 2.8947368421052633,
-      "eval_loss": 0.7289024591445923,
-      "eval_runtime": 3.4003,
-      "eval_samples_per_second": 8.823,
-      "eval_steps_per_second": 1.176,
       "step": 55
-    },
-    {
-      "epoch": 2.9473684210526314,
-      "grad_norm": 0.6378675699234009,
-      "learning_rate": 0.00046510039481503486,
-      "loss": 0.8768,
-      "step": 56
-    },
-    {
-      "epoch": 2.9473684210526314,
-      "eval_loss": 0.7245283722877502,
-      "eval_runtime": 3.4071,
-      "eval_samples_per_second": 8.805,
-      "eval_steps_per_second": 1.174,
-      "step": 56
-    },
-    {
-      "epoch": 3.0,
-      "grad_norm": 0.533486545085907,
-      "learning_rate": 0.00046337802497127117,
-      "loss": 0.8078,
-      "step": 57
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 0.7103175520896912,
-      "eval_runtime": 3.4012,
-      "eval_samples_per_second": 8.821,
-      "eval_steps_per_second": 1.176,
-      "step": 57
-    },
-    {
-      "epoch": 3.0526315789473686,
-      "grad_norm": 0.5410111546516418,
-      "learning_rate": 0.00046161752157693284,
-      "loss": 0.7147,
-      "step": 58
-    },
-    {
-      "epoch": 3.0526315789473686,
-      "eval_loss": 0.6982213258743286,
-      "eval_runtime": 3.3871,
-      "eval_samples_per_second": 8.857,
-      "eval_steps_per_second": 1.181,
-      "step": 58
-    },
-    {
-      "epoch": 3.1052631578947367,
-      "grad_norm": 0.5490122437477112,
-      "learning_rate": 0.0004598191992578828,
-      "loss": 0.7584,
-      "step": 59
-    },
-    {
-      "epoch": 3.1052631578947367,
-      "eval_loss": 0.6866177320480347,
-      "eval_runtime": 3.3873,
-      "eval_samples_per_second": 8.857,
-      "eval_steps_per_second": 1.181,
-      "step": 59
-    },
-    {
-      "epoch": 3.1578947368421053,
-      "grad_norm": 0.49469825625419617,
-      "learning_rate": 0.00045798337939873923,
-      "loss": 0.7261,
-      "step": 60
-    },
-    {
-      "epoch": 3.1578947368421053,
-      "eval_loss": 0.6730698943138123,
-      "eval_runtime": 3.3973,
-      "eval_samples_per_second": 8.83,
-      "eval_steps_per_second": 1.177,
-      "step": 60
-    },
-    {
-      "epoch": 3.2105263157894735,
-      "grad_norm": 0.8399549126625061,
-      "learning_rate": 0.0004561103900854401,
-      "loss": 0.6503,
-      "step": 61
-    },
-    {
-      "epoch": 3.2105263157894735,
-      "eval_loss": 0.6618488430976868,
-      "eval_runtime": 3.3947,
-      "eval_samples_per_second": 8.837,
-      "eval_steps_per_second": 1.178,
-      "step": 61
-    },
-    {
-      "epoch": 3.263157894736842,
-      "grad_norm": 0.5458311438560486,
-      "learning_rate": 0.0004542005660466094,
-      "loss": 0.7217,
-      "step": 62
-    },
-    {
-      "epoch": 3.263157894736842,
-      "eval_loss": 0.6508110761642456,
-      "eval_runtime": 3.4003,
-      "eval_samples_per_second": 8.823,
-      "eval_steps_per_second": 1.176,
-      "step": 62
-    },
-    {
-      "epoch": 3.3157894736842106,
-      "grad_norm": 0.9009385704994202,
-      "learning_rate": 0.0004522542485937369,
-      "loss": 0.6747,
-      "step": 63
-    },
-    {
-      "epoch": 3.3157894736842106,
-      "eval_loss": 0.6464059948921204,
-      "eval_runtime": 3.4046,
-      "eval_samples_per_second": 8.812,
-      "eval_steps_per_second": 1.175,
-      "step": 63
-    },
-    {
-      "epoch": 3.3684210526315788,
-      "grad_norm": 0.5399370193481445,
-      "learning_rate": 0.0004502717855601809,
-      "loss": 0.6838,
-      "step": 64
-    },
-    {
-      "epoch": 3.3684210526315788,
-      "eval_loss": 0.6449176669120789,
-      "eval_runtime": 3.3903,
-      "eval_samples_per_second": 8.849,
-      "eval_steps_per_second": 1.18,
-      "step": 64
-    },
-    {
-      "epoch": 3.4210526315789473,
-      "grad_norm": 0.664746880531311,
-      "learning_rate": 0.0004482535312390058,
-      "loss": 0.6601,
-      "step": 65
-    },
-    {
-      "epoch": 3.4210526315789473,
-      "eval_loss": 0.6410928964614868,
-      "eval_runtime": 3.3948,
-      "eval_samples_per_second": 8.837,
-      "eval_steps_per_second": 1.178,
-      "step": 65
-    },
-    {
-      "epoch": 3.473684210526316,
-      "grad_norm": 0.7200000882148743,
-      "learning_rate": 0.00044619984631966527,
-      "loss": 0.5722,
-      "step": 66
-    },
-    {
-      "epoch": 3.473684210526316,
-      "eval_loss": 0.6338309645652771,
-      "eval_runtime": 3.3867,
-      "eval_samples_per_second": 8.858,
-      "eval_steps_per_second": 1.181,
-      "step": 66
-    },
-    {
-      "epoch": 3.526315789473684,
-      "grad_norm": 0.8224210739135742,
-      "learning_rate": 0.0004441110978235418,
-      "loss": 0.6984,
-      "step": 67
-    },
-    {
-      "epoch": 3.526315789473684,
-      "eval_loss": 0.6232346892356873,
-      "eval_runtime": 3.3872,
-      "eval_samples_per_second": 8.857,
-      "eval_steps_per_second": 1.181,
-      "step": 67
-    },
-    {
-      "epoch": 3.5789473684210527,
-      "grad_norm": 0.6948024034500122,
-      "learning_rate": 0.0004419876590383554,
-      "loss": 0.6921,
-      "step": 68
-    },
-    {
-      "epoch": 3.5789473684210527,
-      "eval_loss": 0.6190816164016724,
-      "eval_runtime": 3.4096,
-      "eval_samples_per_second": 8.799,
-      "eval_steps_per_second": 1.173,
-      "step": 68
-    },
-    {
-      "epoch": 3.6315789473684212,
-      "grad_norm": 0.5954806804656982,
-      "learning_rate": 0.00043982990945145146,
-      "loss": 0.6452,
-      "step": 69
-    },
-    {
-      "epoch": 3.6315789473684212,
-      "eval_loss": 0.6215729117393494,
-      "eval_runtime": 3.4023,
-      "eval_samples_per_second": 8.818,
-      "eval_steps_per_second": 1.176,
-      "step": 69
-    },
-    {
-      "epoch": 3.6842105263157894,
-      "grad_norm": 0.6146106719970703,
-      "learning_rate": 0.0004376382346819819,
-      "loss": 0.6753,
-      "step": 70
-    },
-    {
-      "epoch": 3.6842105263157894,
-      "eval_loss": 0.616372287273407,
-      "eval_runtime": 3.4004,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
-      "step": 70
-    },
-    {
-      "epoch": 3.736842105263158,
-      "grad_norm": 0.6286161541938782,
-      "learning_rate": 0.00043541302641198946,
-      "loss": 0.7126,
-      "step": 71
-    },
-    {
-      "epoch": 3.736842105263158,
-      "eval_loss": 0.6052109599113464,
-      "eval_runtime": 3.3873,
-      "eval_samples_per_second": 8.857,
-      "eval_steps_per_second": 1.181,
-      "step": 71
-    },
-    {
-      "epoch": 3.7894736842105265,
-      "grad_norm": 0.5700982213020325,
-      "learning_rate": 0.00043315468231640834,
-      "loss": 0.6126,
-      "step": 72
-    },
-    {
-      "epoch": 3.7894736842105265,
-      "eval_loss": 0.6031004786491394,
-      "eval_runtime": 3.3922,
-      "eval_samples_per_second": 8.844,
-      "eval_steps_per_second": 1.179,
-      "step": 72
-    },
-    {
-      "epoch": 3.8421052631578947,
-      "grad_norm": 0.8683762550354004,
-      "learning_rate": 0.00043086360599199516,
-      "loss": 0.7278,
-      "step": 73
-    },
-    {
-      "epoch": 3.8421052631578947,
-      "eval_loss": 0.5932725667953491,
-      "eval_runtime": 3.3962,
-      "eval_samples_per_second": 8.833,
-      "eval_steps_per_second": 1.178,
-      "step": 73
-    },
-    {
-      "epoch": 3.8947368421052633,
-      "grad_norm": 0.8634172081947327,
-      "learning_rate": 0.0004285402068852002,
-      "loss": 0.6826,
-      "step": 74
-    },
-    {
-      "epoch": 3.8947368421052633,
-      "eval_loss": 0.5909937620162964,
-      "eval_runtime": 3.3983,
-      "eval_samples_per_second": 8.828,
-      "eval_steps_per_second": 1.177,
-      "step": 74
-    },
-    {
-      "epoch": 3.9473684210526314,
-      "grad_norm": 0.556474506855011,
-      "learning_rate": 0.00042618490021899383,
-      "loss": 0.65,
-      "step": 75
-    },
-    {
-      "epoch": 3.9473684210526314,
-      "eval_loss": 0.5868418216705322,
-      "eval_runtime": 3.399,
-      "eval_samples_per_second": 8.826,
-      "eval_steps_per_second": 1.177,
-      "step": 75
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 0.5346130728721619,
-      "learning_rate": 0.00042379810691866064,
-      "loss": 0.6475,
-      "step": 76
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 0.588336706161499,
-      "eval_runtime": 3.3932,
-      "eval_samples_per_second": 8.841,
-      "eval_steps_per_second": 1.179,
-      "step": 76
-    },
-    {
-      "epoch": 4.052631578947368,
-      "grad_norm": 0.4865156412124634,
-      "learning_rate": 0.00042138025353657407,
-      "loss": 0.5485,
-      "step": 77
-    },
-    {
-      "epoch": 4.052631578947368,
-      "eval_loss": 0.5785155892372131,
-      "eval_runtime": 3.3941,
-      "eval_samples_per_second": 8.839,
-      "eval_steps_per_second": 1.179,
-      "step": 77
-    },
-    {
-      "epoch": 4.105263157894737,
-      "grad_norm": 0.5607722997665405,
-      "learning_rate": 0.00041893177217596633,
-      "loss": 0.5699,
-      "step": 78
-    },
-    {
-      "epoch": 4.105263157894737,
-      "eval_loss": 0.5646374821662903,
-      "eval_runtime": 3.3965,
-      "eval_samples_per_second": 8.833,
-      "eval_steps_per_second": 1.178,
-      "step": 78
-    },
-    {
-      "epoch": 4.157894736842105,
-      "grad_norm": 0.5337282419204712,
-      "learning_rate": 0.0004164531004137049,
-      "loss": 0.5308,
-      "step": 79
-    },
-    {
-      "epoch": 4.157894736842105,
-      "eval_loss": 0.5542218685150146,
-      "eval_runtime": 3.3924,
-      "eval_samples_per_second": 8.843,
-      "eval_steps_per_second": 1.179,
-      "step": 79
-    },
-    {
-      "epoch": 4.2105263157894735,
-      "grad_norm": 1.7681509256362915,
-      "learning_rate": 0.0004139446812220924,
-      "loss": 0.5458,
-      "step": 80
-    },
-    {
-      "epoch": 4.2105263157894735,
-      "eval_loss": 0.5494810938835144,
-      "eval_runtime": 3.3951,
-      "eval_samples_per_second": 8.836,
-      "eval_steps_per_second": 1.178,
-      "step": 80
-    },
-    {
-      "epoch": 4.2631578947368425,
-      "grad_norm": 0.8153849244117737,
-      "learning_rate": 0.0004114069628897006,
-      "loss": 0.592,
-      "step": 81
-    },
-    {
-      "epoch": 4.2631578947368425,
-      "eval_loss": 0.5404940843582153,
-      "eval_runtime": 3.3937,
-      "eval_samples_per_second": 8.84,
-      "eval_steps_per_second": 1.179,
-      "step": 81
-    },
-    {
-      "epoch": 4.315789473684211,
-      "grad_norm": 0.7037251591682434,
-      "learning_rate": 0.0004088403989412559,
-      "loss": 0.579,
-      "step": 82
-    },
-    {
-      "epoch": 4.315789473684211,
-      "eval_loss": 0.530238926410675,
-      "eval_runtime": 3.3957,
-      "eval_samples_per_second": 8.835,
-      "eval_steps_per_second": 1.178,
-      "step": 82
-    },
-    {
-      "epoch": 4.368421052631579,
-      "grad_norm": 0.6703127026557922,
-      "learning_rate": 0.00040624544805658794,
-      "loss": 0.5513,
-      "step": 83
-    },
-    {
-      "epoch": 4.368421052631579,
-      "eval_loss": 0.5282605290412903,
-      "eval_runtime": 3.4012,
-      "eval_samples_per_second": 8.82,
-      "eval_steps_per_second": 1.176,
-      "step": 83
-    },
-    {
-      "epoch": 4.421052631578947,
-      "grad_norm": 0.7324157357215881,
-      "learning_rate": 0.00040362257398865713,
-      "loss": 0.6175,
-      "step": 84
-    },
-    {
-      "epoch": 4.421052631578947,
-      "eval_loss": 0.5271756052970886,
-      "eval_runtime": 3.3941,
-      "eval_samples_per_second": 8.839,
-      "eval_steps_per_second": 1.179,
-      "step": 84
-    },
-    {
-      "epoch": 4.473684210526316,
-      "grad_norm": 0.7354516386985779,
-      "learning_rate": 0.00040097224548067613,
-      "loss": 0.5497,
-      "step": 85
-    },
-    {
-      "epoch": 4.473684210526316,
-      "eval_loss": 0.5268288850784302,
-      "eval_runtime": 3.397,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.177,
-      "step": 85
-    },
-    {
-      "epoch": 4.526315789473684,
-      "grad_norm": 0.6430884599685669,
-      "learning_rate": 0.0003982949361823388,
-      "loss": 0.5323,
-      "step": 86
-    },
-    {
-      "epoch": 4.526315789473684,
-      "eval_loss": 0.5271150469779968,
-      "eval_runtime": 3.4081,
-      "eval_samples_per_second": 8.803,
-      "eval_steps_per_second": 1.174,
-      "step": 86
-    },
-    {
-      "epoch": 4.578947368421053,
-      "grad_norm": 0.6861183643341064,
-      "learning_rate": 0.0003955911245651726,
-      "loss": 0.555,
-      "step": 87
-    },
-    {
-      "epoch": 4.578947368421053,
-      "eval_loss": 0.5218092799186707,
-      "eval_runtime": 3.3947,
-      "eval_samples_per_second": 8.837,
-      "eval_steps_per_second": 1.178,
-      "step": 87
-    },
-    {
-      "epoch": 4.631578947368421,
-      "grad_norm": 0.6339515447616577,
-      "learning_rate": 0.0003928612938370292,
-      "loss": 0.5396,
-      "step": 88
-    },
-    {
-      "epoch": 4.631578947368421,
-      "eval_loss": 0.5187237858772278,
-      "eval_runtime": 3.3968,
-      "eval_samples_per_second": 8.832,
-      "eval_steps_per_second": 1.178,
-      "step": 88
-    },
-    {
-      "epoch": 4.684210526315789,
-      "grad_norm": 0.5840083360671997,
-      "learning_rate": 0.00039010593185572867,
-      "loss": 0.5043,
-      "step": 89
-    },
-    {
-      "epoch": 4.684210526315789,
-      "eval_loss": 0.5117171406745911,
-      "eval_runtime": 3.3945,
-      "eval_samples_per_second": 8.838,
-      "eval_steps_per_second": 1.178,
-      "step": 89
-    },
-    {
-      "epoch": 4.7368421052631575,
-      "grad_norm": 0.6243887543678284,
-      "learning_rate": 0.00038732553104187296,
-      "loss": 0.4985,
-      "step": 90
-    },
-    {
-      "epoch": 4.7368421052631575,
-      "eval_loss": 0.5013009905815125,
-      "eval_runtime": 3.3983,
-      "eval_samples_per_second": 8.828,
-      "eval_steps_per_second": 1.177,
-      "step": 90
-    },
-    {
-      "epoch": 4.7894736842105265,
-      "grad_norm": 0.7383096814155579,
-      "learning_rate": 0.0003845205882908432,
-      "loss": 0.5446,
-      "step": 91
-    },
-    {
-      "epoch": 4.7894736842105265,
-      "eval_loss": 0.48944994807243347,
-      "eval_runtime": 3.3912,
-      "eval_samples_per_second": 8.846,
-      "eval_steps_per_second": 1.18,
-      "step": 91
-    },
-    {
-      "epoch": 4.842105263157895,
-      "grad_norm": 0.7017186880111694,
-      "learning_rate": 0.0003816916048839979,
-      "loss": 0.4855,
-      "step": 92
-    },
-    {
-      "epoch": 4.842105263157895,
-      "eval_loss": 0.490288108587265,
-      "eval_runtime": 3.392,
-      "eval_samples_per_second": 8.844,
-      "eval_steps_per_second": 1.179,
-      "step": 92
-    },
-    {
-      "epoch": 4.894736842105263,
-      "grad_norm": 0.803577184677124,
-      "learning_rate": 0.0003788390863990875,
-      "loss": 0.599,
-      "step": 93
-    },
-    {
-      "epoch": 4.894736842105263,
-      "eval_loss": 0.48545849323272705,
-      "eval_runtime": 3.3984,
-      "eval_samples_per_second": 8.828,
-      "eval_steps_per_second": 1.177,
-      "step": 93
-    },
-    {
-      "epoch": 4.947368421052632,
-      "grad_norm": 0.719249963760376,
-      "learning_rate": 0.00037596354261990007,
-      "loss": 0.5539,
-      "step": 94
-    },
-    {
-      "epoch": 4.947368421052632,
-      "eval_loss": 0.4850545823574066,
-      "eval_runtime": 3.4015,
-      "eval_samples_per_second": 8.82,
-      "eval_steps_per_second": 1.176,
-      "step": 94
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 0.7983654141426086,
-      "learning_rate": 0.0003730654874451569,
-      "loss": 0.5899,
-      "step": 95
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 0.47937095165252686,
-      "eval_runtime": 3.4007,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
-      "step": 95
-    },
-    {
-      "epoch": 5.052631578947368,
-      "grad_norm": 0.6120598316192627,
-      "learning_rate": 0.00037014543879667093,
-      "loss": 0.4219,
-      "step": 96
-    },
-    {
-      "epoch": 5.052631578947368,
-      "eval_loss": 0.46941977739334106,
-      "eval_runtime": 3.3985,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
-      "step": 96
-    },
-    {
-      "epoch": 5.105263157894737,
-      "grad_norm": 0.7291161417961121,
-      "learning_rate": 0.0003672039185267878,
-      "loss": 0.5002,
-      "step": 97
-    },
-    {
-      "epoch": 5.105263157894737,
-      "eval_loss": 0.45138782262802124,
-      "eval_runtime": 3.4042,
-      "eval_samples_per_second": 8.813,
-      "eval_steps_per_second": 1.175,
-      "step": 97
-    },
-    {
-      "epoch": 5.157894736842105,
-      "grad_norm": 0.5574305057525635,
-      "learning_rate": 0.00036424145232512333,
-      "loss": 0.4445,
-      "step": 98
-    },
-    {
-      "epoch": 5.157894736842105,
-      "eval_loss": 0.43881431221961975,
-      "eval_runtime": 3.4021,
-      "eval_samples_per_second": 8.818,
-      "eval_steps_per_second": 1.176,
-      "step": 98
-    },
-    {
-      "epoch": 5.2105263157894735,
-      "grad_norm": 0.7164113521575928,
-      "learning_rate": 0.0003612585696246158,
-      "loss": 0.4292,
-      "step": 99
-    },
-    {
-      "epoch": 5.2105263157894735,
-      "eval_loss": 0.43201857805252075,
-      "eval_runtime": 3.404,
-      "eval_samples_per_second": 8.813,
-      "eval_steps_per_second": 1.175,
-      "step": 99
-    },
-    {
-      "epoch": 5.2631578947368425,
-      "grad_norm": 0.7618677020072937,
-      "learning_rate": 0.0003582558035069091,
-      "loss": 0.4598,
-      "step": 100
-    },
-    {
-      "epoch": 5.2631578947368425,
-      "eval_loss": 0.434807151556015,
-      "eval_runtime": 3.3997,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.177,
-      "step": 100
     }
   ],
   "logging_steps": 1,
-  "max_steps": 250,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 14,
-  "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -1527,7 +852,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4061879153080320.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 55,
+  "best_metric": 0.7241045236587524,
+  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-55",
+  "epoch": 2.8947368421052633,
   "eval_steps": 1,
+  "global_step": 55,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.05263157894736842,
+      "grad_norm": 0.7188231945037842,
       "learning_rate": 0.0,
       "loss": 3.2235,
       "step": 1
     {
       "epoch": 0.05263157894736842,
       "eval_loss": 3.15524959564209,
+      "eval_runtime": 3.3312,
+      "eval_samples_per_second": 9.006,
+      "eval_steps_per_second": 1.201,
       "step": 1
     },
     {
       "epoch": 0.10526315789473684,
+      "grad_norm": 0.766629159450531,
       "learning_rate": 3.3333333333333335e-05,
       "loss": 3.165,
       "step": 2
     },
     {
       "epoch": 0.10526315789473684,
+      "eval_loss": 3.1018595695495605,
+      "eval_runtime": 3.28,
+      "eval_samples_per_second": 9.146,
+      "eval_steps_per_second": 1.219,
       "step": 2
     },
     {
       "epoch": 0.15789473684210525,
+      "grad_norm": 0.6206756234169006,
       "learning_rate": 6.666666666666667e-05,
+      "loss": 2.8628,
       "step": 3
     },
     {
       "epoch": 0.15789473684210525,
+      "eval_loss": 2.97302508354187,
+      "eval_runtime": 3.2899,
+      "eval_samples_per_second": 9.119,
+      "eval_steps_per_second": 1.216,
       "step": 3
     },
     {
       "epoch": 0.21052631578947367,
+      "grad_norm": 0.6644885540008545,
       "learning_rate": 0.0001,
+      "loss": 2.9711,
       "step": 4
     },
     {
       "epoch": 0.21052631578947367,
+      "eval_loss": 2.762944221496582,
+      "eval_runtime": 3.2987,
+      "eval_samples_per_second": 9.095,
+      "eval_steps_per_second": 1.213,
       "step": 4
     },
     {
       "epoch": 0.2631578947368421,
+      "grad_norm": 0.6135285496711731,
       "learning_rate": 0.00013333333333333334,
+      "loss": 2.7061,
       "step": 5
     },
     {
       "epoch": 0.2631578947368421,
+      "eval_loss": 2.5087203979492188,
+      "eval_runtime": 3.3091,
+      "eval_samples_per_second": 9.066,
+      "eval_steps_per_second": 1.209,
       "step": 5
     },
     {
       "epoch": 0.3157894736842105,
+      "grad_norm": 0.5422775745391846,
       "learning_rate": 0.00016666666666666666,
+      "loss": 2.4032,
       "step": 6
     },
     {
       "epoch": 0.3157894736842105,
+      "eval_loss": 2.270092725753784,
+      "eval_runtime": 3.3142,
+      "eval_samples_per_second": 9.052,
+      "eval_steps_per_second": 1.207,
       "step": 6
     },
     {
       "epoch": 0.3684210526315789,
+      "grad_norm": 0.5579596161842346,
       "learning_rate": 0.0002,
+      "loss": 2.272,
       "step": 7
     },
     {
       "epoch": 0.3684210526315789,
+      "eval_loss": 2.0614399909973145,
+      "eval_runtime": 3.3233,
+      "eval_samples_per_second": 9.027,
+      "eval_steps_per_second": 1.204,
       "step": 7
     },
     {
       "epoch": 0.42105263157894735,
+      "grad_norm": 0.7365043759346008,
       "learning_rate": 0.00023333333333333333,
+      "loss": 2.0297,
       "step": 8
     },
     {
       "epoch": 0.42105263157894735,
+      "eval_loss": 1.8437634706497192,
+      "eval_runtime": 3.3264,
+      "eval_samples_per_second": 9.019,
+      "eval_steps_per_second": 1.202,
       "step": 8
     },
     {
       "epoch": 0.47368421052631576,
+      "grad_norm": 0.7677823901176453,
       "learning_rate": 0.0002666666666666667,
+      "loss": 1.8911,
       "step": 9
     },
     {
       "epoch": 0.47368421052631576,
+      "eval_loss": 1.615093469619751,
+      "eval_runtime": 3.3357,
+      "eval_samples_per_second": 8.994,
+      "eval_steps_per_second": 1.199,
       "step": 9
     },
     {
       "epoch": 0.5263157894736842,
+      "grad_norm": 0.7033586502075195,
       "learning_rate": 0.0003,
+      "loss": 1.654,
       "step": 10
     },
     {
       "epoch": 0.5263157894736842,
+      "eval_loss": 1.4461504220962524,
+      "eval_runtime": 3.3549,
+      "eval_samples_per_second": 8.942,
+      "eval_steps_per_second": 1.192,
       "step": 10
     },
     {
       "epoch": 0.5789473684210527,
+      "grad_norm": 0.721517026424408,
       "learning_rate": 0.0003333333333333333,
+      "loss": 1.5364,
       "step": 11
     },
     {
       "epoch": 0.5789473684210527,
+      "eval_loss": 1.3645799160003662,
+      "eval_runtime": 3.361,
+      "eval_samples_per_second": 8.926,
+      "eval_steps_per_second": 1.19,
       "step": 11
     },
     {
       "epoch": 0.631578947368421,
+      "grad_norm": 0.7304323315620422,
       "learning_rate": 0.00036666666666666667,
+      "loss": 1.3689,
       "step": 12
     },
     {
       "epoch": 0.631578947368421,
+      "eval_loss": 1.272360920906067,
+      "eval_runtime": 3.3759,
+      "eval_samples_per_second": 8.887,
+      "eval_steps_per_second": 1.185,
       "step": 12
     },
     {
       "epoch": 0.6842105263157895,
+      "grad_norm": 0.6370911002159119,
       "learning_rate": 0.0004,
+      "loss": 1.329,
       "step": 13
     },
     {
       "epoch": 0.6842105263157895,
+      "eval_loss": 1.19339120388031,
+      "eval_runtime": 3.3835,
+      "eval_samples_per_second": 8.867,
+      "eval_steps_per_second": 1.182,
       "step": 13
     },
     {
       "epoch": 0.7368421052631579,
+      "grad_norm": 0.5493318438529968,
       "learning_rate": 0.00043333333333333337,
+      "loss": 1.1991,
       "step": 14
     },
     {
       "epoch": 0.7368421052631579,
+      "eval_loss": 1.154818058013916,
+      "eval_runtime": 3.3971,
+      "eval_samples_per_second": 8.831,
+      "eval_steps_per_second": 1.177,
       "step": 14
     },
     {
       "epoch": 0.7894736842105263,
+      "grad_norm": 0.4599643051624298,
       "learning_rate": 0.00046666666666666666,
+      "loss": 1.2358,
       "step": 15
     },
     {
       "epoch": 0.7894736842105263,
+      "eval_loss": 1.1299824714660645,
+      "eval_runtime": 3.4098,
+      "eval_samples_per_second": 8.798,
+      "eval_steps_per_second": 1.173,
       "step": 15
     },
     {
       "epoch": 0.8421052631578947,
+      "grad_norm": 0.5700777173042297,
       "learning_rate": 0.0005,
+      "loss": 1.206,
       "step": 16
     },
     {
       "epoch": 0.8421052631578947,
+      "eval_loss": 1.1079914569854736,
+      "eval_runtime": 3.4063,
+      "eval_samples_per_second": 8.807,
+      "eval_steps_per_second": 1.174,
       "step": 16
     },
     {
       "epoch": 0.8947368421052632,
+      "grad_norm": 0.44451233744621277,
+      "learning_rate": 0.0004993910125649561,
+      "loss": 1.2374,
       "step": 17
     },
     {
       "epoch": 0.8947368421052632,
+      "eval_loss": 1.076997995376587,
+      "eval_runtime": 3.4099,
+      "eval_samples_per_second": 8.798,
+      "eval_steps_per_second": 1.173,
       "step": 17
     },
     {
       "epoch": 0.9473684210526315,
+      "grad_norm": 0.382600337266922,
+      "learning_rate": 0.0004975670171853926,
+      "loss": 1.0959,
       "step": 18
     },
     {
       "epoch": 0.9473684210526315,
+      "eval_loss": 1.0459389686584473,
+      "eval_runtime": 3.4174,
+      "eval_samples_per_second": 8.779,
+      "eval_steps_per_second": 1.17,
       "step": 18
     },
     {
       "epoch": 1.0,
+      "grad_norm": 0.3735465109348297,
+      "learning_rate": 0.0004945369001834514,
+      "loss": 1.1433,
       "step": 19
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.0354558229446411,
+      "eval_runtime": 3.41,
+      "eval_samples_per_second": 8.798,
+      "eval_steps_per_second": 1.173,
       "step": 19
     },
     {
       "epoch": 1.0526315789473684,
+      "grad_norm": 0.36878153681755066,
+      "learning_rate": 0.0004903154239845797,
+      "loss": 1.0467,
       "step": 20
     },
     {
       "epoch": 1.0526315789473684,
+      "eval_loss": 1.0118752717971802,
+      "eval_runtime": 3.4023,
       "eval_samples_per_second": 8.818,
       "eval_steps_per_second": 1.176,
       "step": 20
     },
     {
       "epoch": 1.1052631578947367,
+      "grad_norm": 0.3709339499473572,
+      "learning_rate": 0.0004849231551964771,
+      "loss": 1.0453,
       "step": 21
     },
     {
       "epoch": 1.1052631578947367,
+      "eval_loss": 0.9837953448295593,
+      "eval_runtime": 3.3826,
+      "eval_samples_per_second": 8.869,
+      "eval_steps_per_second": 1.183,
       "step": 21
     },
     {
       "epoch": 1.1578947368421053,
+      "grad_norm": 0.32317909598350525,
+      "learning_rate": 0.0004783863644106502,
+      "loss": 1.0573,
       "step": 22
     },
     {
       "epoch": 1.1578947368421053,
+      "eval_loss": 0.9650039076805115,
+      "eval_runtime": 3.3888,
+      "eval_samples_per_second": 8.853,
+      "eval_steps_per_second": 1.18,
       "step": 22
     },
     {
       "epoch": 1.2105263157894737,
+      "grad_norm": 0.3465510606765747,
+      "learning_rate": 0.00047073689821473173,
+      "loss": 0.9613,
       "step": 23
     },
     {
       "epoch": 1.2105263157894737,
+      "eval_loss": 0.9524248838424683,
+      "eval_runtime": 3.389,
+      "eval_samples_per_second": 8.852,
+      "eval_steps_per_second": 1.18,
       "step": 23
     },
     {
       "epoch": 1.263157894736842,
+      "grad_norm": 0.341265469789505,
+      "learning_rate": 0.00046201202403910646,
+      "loss": 1.0765,
       "step": 24
     },
     {
       "epoch": 1.263157894736842,
+      "eval_loss": 0.9478815197944641,
+      "eval_runtime": 3.3934,
+      "eval_samples_per_second": 8.841,
+      "eval_steps_per_second": 1.179,
       "step": 24
     },
     {
       "epoch": 1.3157894736842106,
+      "grad_norm": 0.32804617285728455,
+      "learning_rate": 0.0004522542485937369,
+      "loss": 0.9063,
       "step": 25
     },
     {
       "epoch": 1.3157894736842106,
+      "eval_loss": 0.9379161596298218,
+      "eval_runtime": 3.394,
+      "eval_samples_per_second": 8.839,
+      "eval_steps_per_second": 1.179,
       "step": 25
     },
     {
       "epoch": 1.368421052631579,
+      "grad_norm": 0.31782791018486023,
+      "learning_rate": 0.0004415111107797445,
+      "loss": 0.9969,
       "step": 26
     },
     {
       "epoch": 1.368421052631579,
+      "eval_loss": 0.9347817897796631,
+      "eval_runtime": 3.3909,
+      "eval_samples_per_second": 8.847,
+      "eval_steps_per_second": 1.18,
       "step": 26
     },
     {
       "epoch": 1.4210526315789473,
+      "grad_norm": 0.3140616714954376,
+      "learning_rate": 0.0004298349500846628,
+      "loss": 0.9423,
       "step": 27
     },
     {
       "epoch": 1.4210526315789473,
+      "eval_loss": 0.9298030138015747,
+      "eval_runtime": 3.4047,
+      "eval_samples_per_second": 8.811,
+      "eval_steps_per_second": 1.175,
       "step": 27
     },
     {
       "epoch": 1.4736842105263157,
+      "grad_norm": 0.3035232126712799,
+      "learning_rate": 0.0004172826515897146,
+      "loss": 0.8544,
       "step": 28
     },
     {
       "epoch": 1.4736842105263157,
+      "eval_loss": 0.920465350151062,
+      "eval_runtime": 3.4152,
+      "eval_samples_per_second": 8.784,
+      "eval_steps_per_second": 1.171,
       "step": 28
     },
     {
       "epoch": 1.526315789473684,
+      "grad_norm": 0.36378970742225647,
+      "learning_rate": 0.00040391536883141455,
+      "loss": 1.0175,
       "step": 29
     },
     {
       "epoch": 1.526315789473684,
+      "eval_loss": 0.9069837331771851,
+      "eval_runtime": 3.4214,
+      "eval_samples_per_second": 8.768,
+      "eval_steps_per_second": 1.169,
       "step": 29
     },
     {
       "epoch": 1.5789473684210527,
+      "grad_norm": 0.3729051947593689,
+      "learning_rate": 0.0003897982258676867,
+      "loss": 0.9851,
       "step": 30
     },
     {
       "epoch": 1.5789473684210527,
+      "eval_loss": 0.8988735675811768,
+      "eval_runtime": 3.4109,
+      "eval_samples_per_second": 8.795,
+      "eval_steps_per_second": 1.173,
       "step": 30
     },
     {
       "epoch": 1.631578947368421,
+      "grad_norm": 0.3581544756889343,
+      "learning_rate": 0.000375,
+      "loss": 0.9229,
       "step": 31
     },
     {
       "epoch": 1.631578947368421,
+      "eval_loss": 0.8822915554046631,
+      "eval_runtime": 3.3783,
+      "eval_samples_per_second": 8.88,
+      "eval_steps_per_second": 1.184,
       "step": 31
     },
     {
       "epoch": 1.6842105263157894,
+      "grad_norm": 0.28150516748428345,
+      "learning_rate": 0.00035959278669726934,
+      "loss": 0.94,
       "step": 32
     },
     {
       "epoch": 1.6842105263157894,
+      "eval_loss": 0.8713746666908264,
+      "eval_runtime": 3.4041,
+      "eval_samples_per_second": 8.813,
+      "eval_steps_per_second": 1.175,
       "step": 32
     },
     {
       "epoch": 1.736842105263158,
+      "grad_norm": 0.30831000208854675,
+      "learning_rate": 0.00034365164835397803,
+      "loss": 1.0407,
       "step": 33
     },
     {
       "epoch": 1.736842105263158,
+      "eval_loss": 0.8603693842887878,
+      "eval_runtime": 3.417,
+      "eval_samples_per_second": 8.78,
+      "eval_steps_per_second": 1.171,
       "step": 33
     },
     {
       "epoch": 1.7894736842105263,
+      "grad_norm": 0.31896907091140747,
+      "learning_rate": 0.00032725424859373687,
+      "loss": 0.9185,
       "step": 34
     },
     {
       "epoch": 1.7894736842105263,
+      "eval_loss": 0.849823534488678,
+      "eval_runtime": 3.4154,
+      "eval_samples_per_second": 8.784,
+      "eval_steps_per_second": 1.171,
       "step": 34
     },
     {
       "epoch": 1.8421052631578947,
+      "grad_norm": 0.29725414514541626,
+      "learning_rate": 0.0003104804738999169,
+      "loss": 0.978,
       "step": 35
     },
     {
       "epoch": 1.8421052631578947,
+      "eval_loss": 0.8390634655952454,
+      "eval_runtime": 3.4119,
+      "eval_samples_per_second": 8.793,
+      "eval_steps_per_second": 1.172,
       "step": 35
     },
     {
       "epoch": 1.8947368421052633,
+      "grad_norm": 0.3137111961841583,
+      "learning_rate": 0.00029341204441673266,
+      "loss": 0.9221,
       "step": 36
     },
     {
       "epoch": 1.8947368421052633,
+      "eval_loss": 0.8293085098266602,
+      "eval_runtime": 3.3951,
+      "eval_samples_per_second": 8.836,
+      "eval_steps_per_second": 1.178,
       "step": 36
     },
     {
       "epoch": 1.9473684210526314,
+      "grad_norm": 0.267716646194458,
+      "learning_rate": 0.0002761321158169134,
+      "loss": 1.0078,
       "step": 37
     },
     {
       "epoch": 1.9473684210526314,
+      "eval_loss": 0.8227899670600891,
+      "eval_runtime": 3.3926,
+      "eval_samples_per_second": 8.843,
+      "eval_steps_per_second": 1.179,
       "step": 37
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.3097141683101654,
+      "learning_rate": 0.0002587248741756253,
+      "loss": 1.0386,
       "step": 38
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.8196889758110046,
+      "eval_runtime": 3.3913,
+      "eval_samples_per_second": 8.846,
+      "eval_steps_per_second": 1.179,
       "step": 38
     },
     {
       "epoch": 2.0526315789473686,
+      "grad_norm": 0.29532116651535034,
+      "learning_rate": 0.00024127512582437484,
+      "loss": 0.9046,
       "step": 39
     },
     {
       "epoch": 2.0526315789473686,
+      "eval_loss": 0.8109915852546692,
+      "eval_runtime": 3.3856,
+      "eval_samples_per_second": 8.861,
+      "eval_steps_per_second": 1.181,
       "step": 39
     },
     {
       "epoch": 2.1052631578947367,
+      "grad_norm": 0.3160407245159149,
+      "learning_rate": 0.00022386788418308668,
+      "loss": 0.8684,
       "step": 40
     },
     {
       "epoch": 2.1052631578947367,
+      "eval_loss": 0.799045979976654,
+      "eval_runtime": 3.3859,
+      "eval_samples_per_second": 8.86,
+      "eval_steps_per_second": 1.181,
       "step": 40
     },
     {
       "epoch": 2.1578947368421053,
+      "grad_norm": 0.2594124674797058,
+      "learning_rate": 0.00020658795558326743,
+      "loss": 0.8051,
       "step": 41
     },
     {
       "epoch": 2.1578947368421053,
+      "eval_loss": 0.7873298525810242,
+      "eval_runtime": 3.3873,
+      "eval_samples_per_second": 8.857,
+      "eval_steps_per_second": 1.181,
       "step": 41
     },
     {
       "epoch": 2.2105263157894735,
+      "grad_norm": 0.2573184370994568,
+      "learning_rate": 0.0001895195261000831,
+      "loss": 0.7542,
       "step": 42
     },
     {
       "epoch": 2.2105263157894735,
+      "eval_loss": 0.7783879637718201,
+      "eval_runtime": 3.3897,
+      "eval_samples_per_second": 8.85,
+      "eval_steps_per_second": 1.18,
       "step": 42
     },
     {
       "epoch": 2.263157894736842,
+      "grad_norm": 0.3050247132778168,
+      "learning_rate": 0.00017274575140626317,
+      "loss": 0.8833,
       "step": 43
     },
     {
       "epoch": 2.263157894736842,
+      "eval_loss": 0.7714616060256958,
+      "eval_runtime": 3.4031,
+      "eval_samples_per_second": 8.815,
+      "eval_steps_per_second": 1.175,
       "step": 43
     },
     {
       "epoch": 2.3157894736842106,
+      "grad_norm": 0.27206432819366455,
+      "learning_rate": 0.00015634835164602198,
+      "loss": 0.8176,
       "step": 44
     },
     {
       "epoch": 2.3157894736842106,
+      "eval_loss": 0.7637041807174683,
+      "eval_runtime": 3.4006,
+      "eval_samples_per_second": 8.822,
       "eval_steps_per_second": 1.176,
       "step": 44
     },
     {
       "epoch": 2.3684210526315788,
+      "grad_norm": 0.24384012818336487,
+      "learning_rate": 0.00014040721330273062,
+      "loss": 0.7616,
       "step": 45
     },
     {
       "epoch": 2.3684210526315788,
+      "eval_loss": 0.7560217380523682,
+      "eval_runtime": 3.4005,
+      "eval_samples_per_second": 8.822,
+      "eval_steps_per_second": 1.176,
       "step": 45
     },
     {
       "epoch": 2.4210526315789473,
+      "grad_norm": 0.25645551085472107,
+      "learning_rate": 0.00012500000000000006,
+      "loss": 0.7888,
       "step": 46
     },
     {
       "epoch": 2.4210526315789473,
+      "eval_loss": 0.7505295872688293,
+      "eval_runtime": 3.3925,
+      "eval_samples_per_second": 8.843,
+      "eval_steps_per_second": 1.179,
       "step": 46
     },
     {
       "epoch": 2.473684210526316,
+      "grad_norm": 0.27820125222206116,
+      "learning_rate": 0.00011020177413231333,
+      "loss": 0.7584,
       "step": 47
     },
     {
       "epoch": 2.473684210526316,
+      "eval_loss": 0.7445800304412842,
+      "eval_runtime": 3.3928,
+      "eval_samples_per_second": 8.842,
+      "eval_steps_per_second": 1.179,
       "step": 47
     },
     {
       "epoch": 2.526315789473684,
+      "grad_norm": 0.23925091326236725,
+      "learning_rate": 9.608463116858542e-05,
+      "loss": 0.7504,
       "step": 48
     },
     {
       "epoch": 2.526315789473684,
+      "eval_loss": 0.7403488755226135,
+      "eval_runtime": 3.4026,
+      "eval_samples_per_second": 8.817,
+      "eval_steps_per_second": 1.176,
       "step": 48
     },
     {
       "epoch": 2.5789473684210527,
+      "grad_norm": 0.32143712043762207,
+      "learning_rate": 8.271734841028553e-05,
+      "loss": 0.8269,
       "step": 49
     },
     {
       "epoch": 2.5789473684210527,
+      "eval_loss": 0.7371814250946045,
+      "eval_runtime": 3.3997,
+      "eval_samples_per_second": 8.824,
       "eval_steps_per_second": 1.177,
       "step": 49
     },
     {
       "epoch": 2.6315789473684212,
+      "grad_norm": 0.2628876864910126,
+      "learning_rate": 7.016504991533726e-05,
+      "loss": 0.7076,
       "step": 50
     },
     {
       "epoch": 2.6315789473684212,
+      "eval_loss": 0.7335822582244873,
+      "eval_runtime": 3.4029,
+      "eval_samples_per_second": 8.816,
+      "eval_steps_per_second": 1.175,
       "step": 50
     },
     {
       "epoch": 2.6842105263157894,
+      "grad_norm": 0.30318617820739746,
+      "learning_rate": 5.848888922025553e-05,
+      "loss": 0.7792,
       "step": 51
     },
     {
       "epoch": 2.6842105263157894,
+      "eval_loss": 0.7297669053077698,
+      "eval_runtime": 3.3726,
+      "eval_samples_per_second": 8.895,
+      "eval_steps_per_second": 1.186,
       "step": 51
     },
     {
       "epoch": 2.736842105263158,
+      "grad_norm": 0.3162338435649872,
+      "learning_rate": 4.7745751406263163e-05,
+      "loss": 0.7217,
       "step": 52
     },
     {
       "epoch": 2.736842105263158,
+      "eval_loss": 0.728228747844696,
+      "eval_runtime": 3.3989,
+      "eval_samples_per_second": 8.827,
+      "eval_steps_per_second": 1.177,
       "step": 52
     },
     {
       "epoch": 2.7894736842105265,
+      "grad_norm": 0.2733875513076782,
+      "learning_rate": 3.798797596089351e-05,
+      "loss": 0.8098,
       "step": 53
     },
     {
       "epoch": 2.7894736842105265,
+      "eval_loss": 0.7270908355712891,
+      "eval_runtime": 3.4122,
+      "eval_samples_per_second": 8.792,
+      "eval_steps_per_second": 1.172,
       "step": 53
     },
     {
       "epoch": 2.8421052631578947,
+      "grad_norm": 0.26100900769233704,
+      "learning_rate": 2.9263101785268254e-05,
+      "loss": 0.7631,
       "step": 54
     },
     {
       "epoch": 2.8421052631578947,
+      "eval_loss": 0.7254647016525269,
+      "eval_runtime": 3.4244,
+      "eval_samples_per_second": 8.761,
+      "eval_steps_per_second": 1.168,
       "step": 54
     },
     {
       "epoch": 2.8947368421052633,
+      "grad_norm": 0.2827248275279999,
+      "learning_rate": 2.1613635589349755e-05,
+      "loss": 0.7716,
       "step": 55
     },
     {
       "epoch": 2.8947368421052633,
+      "eval_loss": 0.7241045236587524,
+      "eval_runtime": 3.4133,
+      "eval_samples_per_second": 8.789,
+      "eval_steps_per_second": 1.172,
       "step": 55
     }
   ],
   "logging_steps": 1,
+  "max_steps": 60,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 2315465393725440.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a12232fc8be9bbc30f617bdff8aae0dd2eb32982822050660854f8120e8007a
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e7f2bf25b1718a220ed1b92d07f386fbdcd9effbf62c9fe1bb8da4cac6ff2c3
 size 6033