Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +51 -846
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -23,9 +23,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
-    "o_proj",
     "gate_up_proj",
     "qkv_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_up_proj",
+    "o_proj",
+    "down_proj",
     "qkv_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf7e8b8c722ab0df8a5db587e800c65b59585720dfdf7fe5b4209a5be232841a
 size 369133600

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d1c92e5aea6479fbcd97c9a2c7bcb7b704e5179617a38cd54b8b6d362b9a546
 size 369133600

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6dff1b67f2df08f6a4e5fb81c633d3da1b6bf25f3b53210855b4dd6a6f44a3ff
+size 738413771

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c99e9eb1649a644c8be6e8e889139d6797bf8dd316223ef128559cf7c1e450b6
+size 14645

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:817a83ea1c2988e6dd498bb2cb1922b79fe6cdd5fb3e9dadad8593e0f7a9abed
+size 1465

trainer_state.json CHANGED Viewed

@@ -1,904 +1,109 @@
 {
-  "best_global_step": 236,
-  "best_metric": 8.514503861078992e-05,
-  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-236",
-  "epoch": 59.0,
   "eval_steps": 500,
-  "global_step": 236,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 9.229236602783203,
-      "learning_rate": 0.0001,
-      "loss": 2.6715,
       "step": 4
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.3550810813903809,
-      "eval_runtime": 3.3411,
-      "eval_samples_per_second": 8.979,
-      "eval_steps_per_second": 1.197,
       "step": 4
     },
     {
       "epoch": 2.0,
-      "grad_norm": 9.349386215209961,
-      "learning_rate": 0.00023333333333333333,
-      "loss": 1.3025,
       "step": 8
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.9609652757644653,
-      "eval_runtime": 3.3476,
-      "eval_samples_per_second": 8.962,
-      "eval_steps_per_second": 1.195,
       "step": 8
     },
     {
       "epoch": 3.0,
-      "grad_norm": 4.202998161315918,
-      "learning_rate": 0.00036666666666666667,
-      "loss": 0.9833,
       "step": 12
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.8532541990280151,
-      "eval_runtime": 3.3649,
-      "eval_samples_per_second": 8.916,
-      "eval_steps_per_second": 1.189,
       "step": 12
     },
     {
       "epoch": 4.0,
-      "grad_norm": 5.911304473876953,
-      "learning_rate": 0.0005,
-      "loss": 0.8496,
       "step": 16
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.7015247941017151,
-      "eval_runtime": 3.3686,
-      "eval_samples_per_second": 8.906,
-      "eval_steps_per_second": 1.187,
       "step": 16
     },
     {
       "epoch": 5.0,
-      "grad_norm": 3.7761387825012207,
-      "learning_rate": 0.0004996426526821629,
-      "loss": 0.737,
       "step": 20
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.5959243178367615,
-      "eval_runtime": 3.3737,
-      "eval_samples_per_second": 8.892,
-      "eval_steps_per_second": 1.186,
       "step": 20
     },
     {
       "epoch": 6.0,
-      "grad_norm": 5.99334716796875,
-      "learning_rate": 0.0004985716323054959,
-      "loss": 0.6024,
       "step": 24
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.5120770931243896,
-      "eval_runtime": 3.3367,
-      "eval_samples_per_second": 8.991,
-      "eval_steps_per_second": 1.199,
       "step": 24
-    },
-    {
-      "epoch": 7.0,
-      "grad_norm": 6.7658467292785645,
-      "learning_rate": 0.0004967900006800708,
-      "loss": 0.496,
-      "step": 28
-    },
-    {
-      "epoch": 7.0,
-      "eval_loss": 0.2661070227622986,
-      "eval_runtime": 3.3521,
-      "eval_samples_per_second": 8.95,
-      "eval_steps_per_second": 1.193,
-      "step": 28
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 6.91306209564209,
-      "learning_rate": 0.0004943028510961491,
-      "loss": 0.3035,
-      "step": 32
-    },
-    {
-      "epoch": 8.0,
-      "eval_loss": 0.20593233406543732,
-      "eval_runtime": 3.3825,
-      "eval_samples_per_second": 8.869,
-      "eval_steps_per_second": 1.183,
-      "step": 32
-    },
-    {
-      "epoch": 9.0,
-      "grad_norm": 5.512369155883789,
-      "learning_rate": 0.0004911172937635942,
-      "loss": 0.2058,
-      "step": 36
-    },
-    {
-      "epoch": 9.0,
-      "eval_loss": 0.13461297750473022,
-      "eval_runtime": 3.3417,
-      "eval_samples_per_second": 8.978,
-      "eval_steps_per_second": 1.197,
-      "step": 36
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 14.840362548828125,
-      "learning_rate": 0.0004872424354853545,
-      "loss": 0.3198,
-      "step": 40
-    },
-    {
-      "epoch": 10.0,
-      "eval_loss": 0.26689016819000244,
-      "eval_runtime": 3.3554,
-      "eval_samples_per_second": 8.941,
-      "eval_steps_per_second": 1.192,
-      "step": 40
-    },
-    {
-      "epoch": 11.0,
-      "grad_norm": 5.161523818969727,
-      "learning_rate": 0.00048268935362313215,
-      "loss": 0.225,
-      "step": 44
-    },
-    {
-      "epoch": 11.0,
-      "eval_loss": 0.1698600798845291,
-      "eval_runtime": 3.3826,
-      "eval_samples_per_second": 8.869,
-      "eval_steps_per_second": 1.183,
-      "step": 44
-    },
-    {
-      "epoch": 12.0,
-      "grad_norm": 6.356969833374023,
-      "learning_rate": 0.0004774710644296578,
-      "loss": 0.1683,
-      "step": 48
-    },
-    {
-      "epoch": 12.0,
-      "eval_loss": 0.14320150017738342,
-      "eval_runtime": 3.3444,
-      "eval_samples_per_second": 8.97,
-      "eval_steps_per_second": 1.196,
-      "step": 48
-    },
-    {
-      "epoch": 13.0,
-      "grad_norm": 7.662347316741943,
-      "learning_rate": 0.0004716024858381075,
-      "loss": 0.1401,
-      "step": 52
-    },
-    {
-      "epoch": 13.0,
-      "eval_loss": 0.07819870859384537,
-      "eval_runtime": 3.3566,
-      "eval_samples_per_second": 8.938,
-      "eval_steps_per_second": 1.192,
-      "step": 52
-    },
-    {
-      "epoch": 14.0,
-      "grad_norm": 3.4681787490844727,
-      "learning_rate": 0.00046510039481503486,
-      "loss": 0.0957,
-      "step": 56
-    },
-    {
-      "epoch": 14.0,
-      "eval_loss": 0.05342103913426399,
-      "eval_runtime": 3.3897,
-      "eval_samples_per_second": 8.85,
-      "eval_steps_per_second": 1.18,
-      "step": 56
-    },
-    {
-      "epoch": 15.0,
-      "grad_norm": 2.6177587509155273,
-      "learning_rate": 0.00045798337939873923,
-      "loss": 0.0853,
-      "step": 60
-    },
-    {
-      "epoch": 15.0,
-      "eval_loss": 0.07320532202720642,
-      "eval_runtime": 3.3471,
-      "eval_samples_per_second": 8.963,
-      "eval_steps_per_second": 1.195,
-      "step": 60
-    },
-    {
-      "epoch": 16.0,
-      "grad_norm": 10.169129371643066,
-      "learning_rate": 0.0004502717855601809,
-      "loss": 0.2155,
-      "step": 64
-    },
-    {
-      "epoch": 16.0,
-      "eval_loss": 0.14110827445983887,
-      "eval_runtime": 3.3497,
-      "eval_samples_per_second": 8.956,
-      "eval_steps_per_second": 1.194,
-      "step": 64
-    },
-    {
-      "epoch": 17.0,
-      "grad_norm": 4.305017471313477,
-      "learning_rate": 0.0004419876590383554,
-      "loss": 0.1458,
-      "step": 68
-    },
-    {
-      "epoch": 17.0,
-      "eval_loss": 0.07745428383350372,
-      "eval_runtime": 3.3838,
-      "eval_samples_per_second": 8.866,
-      "eval_steps_per_second": 1.182,
-      "step": 68
-    },
-    {
-      "epoch": 18.0,
-      "grad_norm": 6.399552822113037,
-      "learning_rate": 0.00043315468231640834,
-      "loss": 0.1029,
-      "step": 72
-    },
-    {
-      "epoch": 18.0,
-      "eval_loss": 0.11537892371416092,
-      "eval_runtime": 3.3464,
-      "eval_samples_per_second": 8.965,
-      "eval_steps_per_second": 1.195,
-      "step": 72
-    },
-    {
-      "epoch": 19.0,
-      "grad_norm": 5.510335922241211,
-      "learning_rate": 0.00042379810691866064,
-      "loss": 0.1198,
-      "step": 76
-    },
-    {
-      "epoch": 19.0,
-      "eval_loss": 0.09017840772867203,
-      "eval_runtime": 3.3477,
-      "eval_samples_per_second": 8.961,
-      "eval_steps_per_second": 1.195,
-      "step": 76
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 3.690556287765503,
-      "learning_rate": 0.0004139446812220924,
-      "loss": 0.1062,
-      "step": 80
-    },
-    {
-      "epoch": 20.0,
-      "eval_loss": 0.0416039302945137,
-      "eval_runtime": 3.3871,
-      "eval_samples_per_second": 8.857,
-      "eval_steps_per_second": 1.181,
-      "step": 80
-    },
-    {
-      "epoch": 21.0,
-      "grad_norm": 3.543250799179077,
-      "learning_rate": 0.00040362257398865713,
-      "loss": 0.0896,
-      "step": 84
-    },
-    {
-      "epoch": 21.0,
-      "eval_loss": 0.06732075661420822,
-      "eval_runtime": 3.3474,
-      "eval_samples_per_second": 8.962,
-      "eval_steps_per_second": 1.195,
-      "step": 84
-    },
-    {
-      "epoch": 22.0,
-      "grad_norm": 3.758932113647461,
-      "learning_rate": 0.0003928612938370292,
-      "loss": 0.1018,
-      "step": 88
-    },
-    {
-      "epoch": 22.0,
-      "eval_loss": 0.05171294882893562,
-      "eval_runtime": 3.3522,
-      "eval_samples_per_second": 8.949,
-      "eval_steps_per_second": 1.193,
-      "step": 88
-    },
-    {
-      "epoch": 23.0,
-      "grad_norm": 51.296634674072266,
-      "learning_rate": 0.0003816916048839979,
-      "loss": 0.0869,
-      "step": 92
-    },
-    {
-      "epoch": 23.0,
-      "eval_loss": 0.10484348982572556,
-      "eval_runtime": 3.3734,
-      "eval_samples_per_second": 8.893,
-      "eval_steps_per_second": 1.186,
-      "step": 92
-    },
-    {
-      "epoch": 24.0,
-      "grad_norm": 3.9963831901550293,
-      "learning_rate": 0.00037014543879667093,
-      "loss": 0.112,
-      "step": 96
-    },
-    {
-      "epoch": 24.0,
-      "eval_loss": 0.06635650247335434,
-      "eval_runtime": 3.3487,
-      "eval_samples_per_second": 8.959,
-      "eval_steps_per_second": 1.195,
-      "step": 96
-    },
-    {
-      "epoch": 25.0,
-      "grad_norm": 4.267527103424072,
-      "learning_rate": 0.0003582558035069091,
-      "loss": 0.0833,
-      "step": 100
-    },
-    {
-      "epoch": 25.0,
-      "eval_loss": 0.053719986230134964,
-      "eval_runtime": 3.3464,
-      "eval_samples_per_second": 8.965,
-      "eval_steps_per_second": 1.195,
-      "step": 100
-    },
-    {
-      "epoch": 26.0,
-      "grad_norm": 1.9985603094100952,
-      "learning_rate": 0.0003460566888489593,
-      "loss": 0.0577,
-      "step": 104
-    },
-    {
-      "epoch": 26.0,
-      "eval_loss": 0.07173171639442444,
-      "eval_runtime": 3.3782,
-      "eval_samples_per_second": 8.88,
-      "eval_steps_per_second": 1.184,
-      "step": 104
-    },
-    {
-      "epoch": 27.0,
-      "grad_norm": 8.18993091583252,
-      "learning_rate": 0.00033358296939004547,
-      "loss": 0.1127,
-      "step": 108
-    },
-    {
-      "epoch": 27.0,
-      "eval_loss": 0.046506691724061966,
-      "eval_runtime": 3.3712,
-      "eval_samples_per_second": 8.899,
-      "eval_steps_per_second": 1.187,
-      "step": 108
-    },
-    {
-      "epoch": 28.0,
-      "grad_norm": 1.7538604736328125,
-      "learning_rate": 0.00032087030473170445,
-      "loss": 0.0478,
-      "step": 112
-    },
-    {
-      "epoch": 28.0,
-      "eval_loss": 0.03175203874707222,
-      "eval_runtime": 3.3745,
-      "eval_samples_per_second": 8.89,
-      "eval_steps_per_second": 1.185,
-      "step": 112
-    },
-    {
-      "epoch": 29.0,
-      "grad_norm": 13.397028923034668,
-      "learning_rate": 0.0003079550375668821,
-      "loss": 0.0585,
-      "step": 116
-    },
-    {
-      "epoch": 29.0,
-      "eval_loss": 0.026407385244965553,
-      "eval_runtime": 3.3744,
-      "eval_samples_per_second": 8.89,
-      "eval_steps_per_second": 1.185,
-      "step": 116
-    },
-    {
-      "epoch": 30.0,
-      "grad_norm": 2.6996145248413086,
-      "learning_rate": 0.0002948740897842223,
-      "loss": 0.0468,
-      "step": 120
-    },
-    {
-      "epoch": 30.0,
-      "eval_loss": 0.021538730710744858,
-      "eval_runtime": 3.357,
-      "eval_samples_per_second": 8.937,
-      "eval_steps_per_second": 1.192,
-      "step": 120
-    },
-    {
-      "epoch": 31.0,
-      "grad_norm": 3.0162580013275146,
-      "learning_rate": 0.00028166485691656423,
-      "loss": 0.0406,
-      "step": 124
-    },
-    {
-      "epoch": 31.0,
-      "eval_loss": 0.04511945694684982,
-      "eval_runtime": 3.3551,
-      "eval_samples_per_second": 8.942,
-      "eval_steps_per_second": 1.192,
-      "step": 124
-    },
-    {
-      "epoch": 32.0,
-      "grad_norm": 1.962350845336914,
-      "learning_rate": 0.0002683651012353955,
-      "loss": 0.0505,
-      "step": 128
-    },
-    {
-      "epoch": 32.0,
-      "eval_loss": 0.040635574609041214,
-      "eval_runtime": 3.3893,
-      "eval_samples_per_second": 8.851,
-      "eval_steps_per_second": 1.18,
-      "step": 128
-    },
-    {
-      "epoch": 33.0,
-      "grad_norm": 2.60496187210083,
-      "learning_rate": 0.00025501284379688067,
-      "loss": 0.0458,
-      "step": 132
-    },
-    {
-      "epoch": 33.0,
-      "eval_loss": 0.01912449672818184,
-      "eval_runtime": 3.3576,
-      "eval_samples_per_second": 8.935,
-      "eval_steps_per_second": 1.191,
-      "step": 132
-    },
-    {
-      "epoch": 34.0,
-      "grad_norm": 165.37008666992188,
-      "learning_rate": 0.00024164625574808144,
-      "loss": 0.0322,
-      "step": 136
-    },
-    {
-      "epoch": 34.0,
-      "eval_loss": 0.032830674201250076,
-      "eval_runtime": 3.3488,
-      "eval_samples_per_second": 8.958,
-      "eval_steps_per_second": 1.194,
-      "step": 136
-    },
-    {
-      "epoch": 35.0,
-      "grad_norm": 2.0985658168792725,
-      "learning_rate": 0.00022830354920410064,
-      "loss": 0.0392,
-      "step": 140
-    },
-    {
-      "epoch": 35.0,
-      "eval_loss": 0.016142379492521286,
-      "eval_runtime": 3.3792,
-      "eval_samples_per_second": 8.878,
-      "eval_steps_per_second": 1.184,
-      "step": 140
-    },
-    {
-      "epoch": 36.0,
-      "grad_norm": 2.632981777191162,
-      "learning_rate": 0.0002150228680081079,
-      "loss": 0.0328,
-      "step": 144
-    },
-    {
-      "epoch": 36.0,
-      "eval_loss": 0.018485000357031822,
-      "eval_runtime": 3.3462,
-      "eval_samples_per_second": 8.965,
-      "eval_steps_per_second": 1.195,
-      "step": 144
-    },
-    {
-      "epoch": 37.0,
-      "grad_norm": 2.000067949295044,
-      "learning_rate": 0.00020184217868653867,
-      "loss": 0.0281,
-      "step": 148
-    },
-    {
-      "epoch": 37.0,
-      "eval_loss": 0.010733678936958313,
-      "eval_runtime": 3.3514,
-      "eval_samples_per_second": 8.952,
-      "eval_steps_per_second": 1.194,
-      "step": 148
-    },
-    {
-      "epoch": 38.0,
-      "grad_norm": 2.6984753608703613,
-      "learning_rate": 0.00018879916191120349,
-      "loss": 0.0306,
-      "step": 152
-    },
-    {
-      "epoch": 38.0,
-      "eval_loss": 0.014147897250950336,
-      "eval_runtime": 3.3807,
-      "eval_samples_per_second": 8.874,
-      "eval_steps_per_second": 1.183,
-      "step": 152
-    },
-    {
-      "epoch": 39.0,
-      "grad_norm": 1.7256083488464355,
-      "learning_rate": 0.00017593110477859153,
-      "loss": 0.0229,
-      "step": 156
-    },
-    {
-      "epoch": 39.0,
-      "eval_loss": 0.013782525435090065,
-      "eval_runtime": 3.3475,
-      "eval_samples_per_second": 8.962,
-      "eval_steps_per_second": 1.195,
-      "step": 156
-    },
-    {
-      "epoch": 40.0,
-      "grad_norm": 1.312639832496643,
-      "learning_rate": 0.00016327479421431983,
-      "loss": 0.0233,
-      "step": 160
-    },
-    {
-      "epoch": 40.0,
-      "eval_loss": 0.009614935144782066,
-      "eval_runtime": 3.3523,
-      "eval_samples_per_second": 8.949,
-      "eval_steps_per_second": 1.193,
-      "step": 160
-    },
-    {
-      "epoch": 41.0,
-      "grad_norm": 1.2714215517044067,
-      "learning_rate": 0.00015086641180745932,
-      "loss": 0.014,
-      "step": 164
-    },
-    {
-      "epoch": 41.0,
-      "eval_loss": 0.01818581484258175,
-      "eval_runtime": 3.3843,
-      "eval_samples_per_second": 8.864,
-      "eval_steps_per_second": 1.182,
-      "step": 164
-    },
-    {
-      "epoch": 42.0,
-      "grad_norm": 2.4470083713531494,
-      "learning_rate": 0.00013874143037538418,
-      "loss": 0.0268,
-      "step": 168
-    },
-    {
-      "epoch": 42.0,
-      "eval_loss": 0.017209211364388466,
-      "eval_runtime": 3.3513,
-      "eval_samples_per_second": 8.952,
-      "eval_steps_per_second": 1.194,
-      "step": 168
-    },
-    {
-      "epoch": 43.0,
-      "grad_norm": 1.7730706930160522,
-      "learning_rate": 0.00012693451255484312,
-      "loss": 0.0449,
-      "step": 172
-    },
-    {
-      "epoch": 43.0,
-      "eval_loss": 0.03041950613260269,
-      "eval_runtime": 3.3534,
-      "eval_samples_per_second": 8.946,
-      "eval_steps_per_second": 1.193,
-      "step": 172
-    },
-    {
-      "epoch": 44.0,
-      "grad_norm": 0.741055965423584,
-      "learning_rate": 0.00011547941170915685,
-      "loss": 0.0211,
-      "step": 176
-    },
-    {
-      "epoch": 44.0,
-      "eval_loss": 0.00939116906374693,
-      "eval_runtime": 3.3843,
-      "eval_samples_per_second": 8.865,
-      "eval_steps_per_second": 1.182,
-      "step": 176
-    },
-    {
-      "epoch": 45.0,
-      "grad_norm": 0.5482388138771057,
-      "learning_rate": 0.00010440887543482746,
-      "loss": 0.0127,
-      "step": 180
-    },
-    {
-      "epoch": 45.0,
-      "eval_loss": 0.002400527708232403,
-      "eval_runtime": 3.3584,
-      "eval_samples_per_second": 8.933,
-      "eval_steps_per_second": 1.191,
-      "step": 180
-    },
-    {
-      "epoch": 46.0,
-      "grad_norm": 0.9107034206390381,
-      "learning_rate": 9.375455194341214e-05,
-      "loss": 0.0028,
-      "step": 184
-    },
-    {
-      "epoch": 46.0,
-      "eval_loss": 0.0015702341916039586,
-      "eval_runtime": 3.3439,
-      "eval_samples_per_second": 8.972,
-      "eval_steps_per_second": 1.196,
-      "step": 184
-    },
-    {
-      "epoch": 47.0,
-      "grad_norm": 0.6881429553031921,
-      "learning_rate": 8.354689958629513e-05,
-      "loss": 0.0026,
-      "step": 188
-    },
-    {
-      "epoch": 47.0,
-      "eval_loss": 0.0003339569375384599,
-      "eval_runtime": 3.3814,
-      "eval_samples_per_second": 8.872,
-      "eval_steps_per_second": 1.183,
-      "step": 188
-    },
-    {
-      "epoch": 48.0,
-      "grad_norm": 0.018251951783895493,
-      "learning_rate": 7.381509978100626e-05,
-      "loss": 0.0004,
-      "step": 192
-    },
-    {
-      "epoch": 48.0,
-      "eval_loss": 0.0006879170541651547,
-      "eval_runtime": 3.3536,
-      "eval_samples_per_second": 8.946,
-      "eval_steps_per_second": 1.193,
-      "step": 192
-    },
-    {
-      "epoch": 49.0,
-      "grad_norm": 0.14602628350257874,
-      "learning_rate": 6.458697358801061e-05,
-      "loss": 0.0013,
-      "step": 196
-    },
-    {
-      "epoch": 49.0,
-      "eval_loss": 0.0002326490357518196,
-      "eval_runtime": 3.3572,
-      "eval_samples_per_second": 8.936,
-      "eval_steps_per_second": 1.191,
-      "step": 196
-    },
-    {
-      "epoch": 50.0,
-      "grad_norm": 0.011048965156078339,
-      "learning_rate": 5.58889021764582e-05,
-      "loss": 0.0002,
-      "step": 200
-    },
-    {
-      "epoch": 50.0,
-      "eval_loss": 0.00015924364561215043,
-      "eval_runtime": 3.3745,
-      "eval_samples_per_second": 8.89,
-      "eval_steps_per_second": 1.185,
-      "step": 200
-    },
-    {
-      "epoch": 51.0,
-      "grad_norm": 0.008616381324827671,
-      "learning_rate": 4.7745751406263163e-05,
-      "loss": 0.0002,
-      "step": 204
-    },
-    {
-      "epoch": 51.0,
-      "eval_loss": 0.00013590451271738857,
-      "eval_runtime": 3.3562,
-      "eval_samples_per_second": 8.939,
-      "eval_steps_per_second": 1.192,
-      "step": 204
-    },
-    {
-      "epoch": 52.0,
-      "grad_norm": 0.007540772669017315,
-      "learning_rate": 4.0180800742117244e-05,
-      "loss": 0.0001,
-      "step": 208
-    },
-    {
-      "epoch": 52.0,
-      "eval_loss": 0.00011990289203822613,
-      "eval_runtime": 3.3714,
-      "eval_samples_per_second": 8.898,
-      "eval_steps_per_second": 1.186,
-      "step": 208
-    },
-    {
-      "epoch": 53.0,
-      "grad_norm": 0.004615222569555044,
-      "learning_rate": 3.321567670265568e-05,
-      "loss": 0.0001,
-      "step": 212
-    },
-    {
-      "epoch": 53.0,
-      "eval_loss": 0.00010787827341118827,
-      "eval_runtime": 3.3544,
-      "eval_samples_per_second": 8.944,
-      "eval_steps_per_second": 1.192,
-      "step": 212
-    },
-    {
-      "epoch": 54.0,
-      "grad_norm": 0.00507324980571866,
-      "learning_rate": 2.687029103502972e-05,
-      "loss": 0.0001,
-      "step": 216
-    },
-    {
-      "epoch": 54.0,
-      "eval_loss": 9.984564530896023e-05,
-      "eval_runtime": 3.3469,
-      "eval_samples_per_second": 8.964,
-      "eval_steps_per_second": 1.195,
-      "step": 216
-    },
-    {
-      "epoch": 55.0,
-      "grad_norm": 0.0049056364223361015,
-      "learning_rate": 2.1162783791631057e-05,
-      "loss": 0.0001,
-      "step": 220
-    },
-    {
-      "epoch": 55.0,
-      "eval_loss": 9.402891737408936e-05,
-      "eval_runtime": 3.3601,
-      "eval_samples_per_second": 8.928,
-      "eval_steps_per_second": 1.19,
-      "step": 220
-    },
-    {
-      "epoch": 56.0,
-      "grad_norm": 0.004331118427217007,
-      "learning_rate": 1.6109471471699556e-05,
-      "loss": 0.0001,
-      "step": 224
-    },
-    {
-      "epoch": 56.0,
-      "eval_loss": 9.088371007237583e-05,
-      "eval_runtime": 3.3632,
-      "eval_samples_per_second": 8.92,
-      "eval_steps_per_second": 1.189,
-      "step": 224
-    },
-    {
-      "epoch": 57.0,
-      "grad_norm": 0.004597917664796114,
-      "learning_rate": 1.1724800376064798e-05,
-      "loss": 0.0001,
-      "step": 228
-    },
-    {
-      "epoch": 57.0,
-      "eval_loss": 8.777277253102511e-05,
-      "eval_runtime": 3.3405,
-      "eval_samples_per_second": 8.981,
-      "eval_steps_per_second": 1.197,
-      "step": 228
-    },
-    {
-      "epoch": 58.0,
-      "grad_norm": 0.0038540030363947153,
-      "learning_rate": 8.02130530837189e-06,
-      "loss": 0.0001,
-      "step": 232
-    },
-    {
-      "epoch": 58.0,
-      "eval_loss": 8.658332808408886e-05,
-      "eval_runtime": 3.3595,
-      "eval_samples_per_second": 8.93,
-      "eval_steps_per_second": 1.191,
-      "step": 232
-    },
-    {
-      "epoch": 59.0,
-      "grad_norm": 0.0038286536000669003,
-      "learning_rate": 5.009573740853312e-06,
-      "loss": 0.0001,
-      "step": 236
-    },
-    {
-      "epoch": 59.0,
-      "eval_loss": 8.514503861078992e-05,
-      "eval_runtime": 3.3605,
-      "eval_samples_per_second": 8.927,
-      "eval_steps_per_second": 1.19,
-      "step": 236
     }
   ],
   "logging_steps": 1,
-  "max_steps": 250,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 63,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -907,12 +112,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8799046124943360.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 24,
+  "best_metric": 0.4786834418773651,
+  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-24",
+  "epoch": 6.0,
   "eval_steps": 500,
+  "global_step": 24,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 10.959209442138672,
+      "learning_rate": 2e-05,
+      "loss": 2.9413,
       "step": 4
     },
     {
       "epoch": 1.0,
+      "eval_loss": 2.1191623210906982,
+      "eval_runtime": 3.3934,
+      "eval_samples_per_second": 8.841,
+      "eval_steps_per_second": 1.179,
       "step": 4
     },
     {
       "epoch": 2.0,
+      "grad_norm": 10.235432624816895,
+      "learning_rate": 4.666666666666667e-05,
+      "loss": 1.7232,
       "step": 8
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.1511512994766235,
+      "eval_runtime": 3.3715,
+      "eval_samples_per_second": 8.898,
+      "eval_steps_per_second": 1.186,
       "step": 8
     },
     {
       "epoch": 3.0,
+      "grad_norm": 5.968946933746338,
+      "learning_rate": 7.333333333333333e-05,
+      "loss": 1.087,
       "step": 12
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.8837258219718933,
+      "eval_runtime": 3.433,
+      "eval_samples_per_second": 8.739,
+      "eval_steps_per_second": 1.165,
       "step": 12
     },
     {
       "epoch": 4.0,
+      "grad_norm": 4.635072231292725,
+      "learning_rate": 0.0001,
+      "loss": 0.8605,
       "step": 16
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.6861255168914795,
+      "eval_runtime": 3.5269,
+      "eval_samples_per_second": 8.506,
+      "eval_steps_per_second": 1.134,
       "step": 16
     },
     {
       "epoch": 5.0,
+      "grad_norm": 7.834333896636963,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.6604,
       "step": 20
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.555094838142395,
+      "eval_runtime": 3.5535,
+      "eval_samples_per_second": 8.442,
+      "eval_steps_per_second": 1.126,
       "step": 20
     },
     {
       "epoch": 6.0,
+      "grad_norm": 5.8574137687683105,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.5394,
       "step": 24
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.4786834418773651,
+      "eval_runtime": 3.5424,
+      "eval_samples_per_second": 8.469,
+      "eval_steps_per_second": 1.129,
       "step": 24
     }
   ],
   "logging_steps": 1,
+  "max_steps": 24,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 894818249994240.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dcffb64394458c7f3bf585c777bb22841e1c48790a8b32dfe35f3ef285c9393
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:78ca5075a4829a841c8ee9add728a7824a036af9fc9b4b2d7dd77743d63820e8
 size 6033