Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +831 -6

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d2263abc52214918cb0243613829263c5eb866b6277704478283989215eeae3
 size 738232680

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b50522bbf97853647b3e7dd976a7b77143060a9d6ae9f84a139704035d1b37e
 size 738232680

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21ed021ca7796b559e38f4de1c6f075d653c3c73fdf265bca596f2ba21ee61c8
 size 1476611275

 version https://git-lfs.github.com/spec/v1
+oid sha256:5db096db6ef6cca049587aa70a5476910a9efc056a7da2ade2fd3a3e127d7b24
 size 1476611275

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d416d016b635652b44c8f24b86395735e0658c83adbca0c05503d6f290df3a8
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc40fda2dc7baa0544c9cb1a8fdefc63f3880e97dda10b6d0305d014ae7c30be
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f91f56974adaa6f012d64b7fe0783f94fe00a197b4ccc0cf01788db9b8df0028
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:600c82ad1c2a74114e7bf057a4638d5bdb5e6d378a5ca371abf2b3eea8ba107f
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 60,
-  "best_metric": 0.5306870341300964,
-  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-60",
-  "epoch": 3.1578947368421053,
   "eval_steps": 1,
-  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -908,6 +908,831 @@
       "eval_samples_per_second": 33.566,
       "eval_steps_per_second": 4.475,
       "step": 60
     }
   ],
   "logging_steps": 1,
@@ -927,7 +1752,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2557484965533696.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 115,
+  "best_metric": 0.09458151459693909,
+  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-115",
+  "epoch": 6.052631578947368,
   "eval_steps": 1,
+  "global_step": 115,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 33.566,
       "eval_steps_per_second": 4.475,
       "step": 60
+    },
+    {
+      "epoch": 3.2105263157894735,
+      "grad_norm": 2.3808937072753906,
+      "learning_rate": 0.0004561103900854401,
+      "loss": 0.5372,
+      "step": 61
+    },
+    {
+      "epoch": 3.2105263157894735,
+      "eval_loss": 0.535223662853241,
+      "eval_runtime": 0.8966,
+      "eval_samples_per_second": 33.459,
+      "eval_steps_per_second": 4.461,
+      "step": 61
+    },
+    {
+      "epoch": 3.263157894736842,
+      "grad_norm": 1.8272178173065186,
+      "learning_rate": 0.0004542005660466094,
+      "loss": 0.5399,
+      "step": 62
+    },
+    {
+      "epoch": 3.263157894736842,
+      "eval_loss": 0.5316082239151001,
+      "eval_runtime": 0.8994,
+      "eval_samples_per_second": 33.354,
+      "eval_steps_per_second": 4.447,
+      "step": 62
+    },
+    {
+      "epoch": 3.3157894736842106,
+      "grad_norm": 2.0635435581207275,
+      "learning_rate": 0.0004522542485937369,
+      "loss": 0.5531,
+      "step": 63
+    },
+    {
+      "epoch": 3.3157894736842106,
+      "eval_loss": 0.5134085416793823,
+      "eval_runtime": 0.8937,
+      "eval_samples_per_second": 33.567,
+      "eval_steps_per_second": 4.476,
+      "step": 63
+    },
+    {
+      "epoch": 3.3684210526315788,
+      "grad_norm": 2.268183708190918,
+      "learning_rate": 0.0004502717855601809,
+      "loss": 0.5291,
+      "step": 64
+    },
+    {
+      "epoch": 3.3684210526315788,
+      "eval_loss": 0.5419598817825317,
+      "eval_runtime": 0.8959,
+      "eval_samples_per_second": 33.486,
+      "eval_steps_per_second": 4.465,
+      "step": 64
+    },
+    {
+      "epoch": 3.4210526315789473,
+      "grad_norm": 1.8800358772277832,
+      "learning_rate": 0.0004482535312390058,
+      "loss": 0.5501,
+      "step": 65
+    },
+    {
+      "epoch": 3.4210526315789473,
+      "eval_loss": 0.5209227800369263,
+      "eval_runtime": 0.8927,
+      "eval_samples_per_second": 33.606,
+      "eval_steps_per_second": 4.481,
+      "step": 65
+    },
+    {
+      "epoch": 3.473684210526316,
+      "grad_norm": 3.1507558822631836,
+      "learning_rate": 0.00044619984631966527,
+      "loss": 0.5309,
+      "step": 66
+    },
+    {
+      "epoch": 3.473684210526316,
+      "eval_loss": 0.536996603012085,
+      "eval_runtime": 0.8951,
+      "eval_samples_per_second": 33.517,
+      "eval_steps_per_second": 4.469,
+      "step": 66
+    },
+    {
+      "epoch": 3.526315789473684,
+      "grad_norm": 3.5700478553771973,
+      "learning_rate": 0.0004441110978235418,
+      "loss": 0.7223,
+      "step": 67
+    },
+    {
+      "epoch": 3.526315789473684,
+      "eval_loss": 0.5140640139579773,
+      "eval_runtime": 0.8962,
+      "eval_samples_per_second": 33.474,
+      "eval_steps_per_second": 4.463,
+      "step": 67
+    },
+    {
+      "epoch": 3.5789473684210527,
+      "grad_norm": 1.758971929550171,
+      "learning_rate": 0.0004419876590383554,
+      "loss": 0.6927,
+      "step": 68
+    },
+    {
+      "epoch": 3.5789473684210527,
+      "eval_loss": 0.47072505950927734,
+      "eval_runtime": 0.9127,
+      "eval_samples_per_second": 32.87,
+      "eval_steps_per_second": 4.383,
+      "step": 68
+    },
+    {
+      "epoch": 3.6315789473684212,
+      "grad_norm": 1.5274709463119507,
+      "learning_rate": 0.00043982990945145146,
+      "loss": 0.4762,
+      "step": 69
+    },
+    {
+      "epoch": 3.6315789473684212,
+      "eval_loss": 0.4518219828605652,
+      "eval_runtime": 0.8967,
+      "eval_samples_per_second": 33.456,
+      "eval_steps_per_second": 4.461,
+      "step": 69
+    },
+    {
+      "epoch": 3.6842105263157894,
+      "grad_norm": 1.7685797214508057,
+      "learning_rate": 0.0004376382346819819,
+      "loss": 0.5629,
+      "step": 70
+    },
+    {
+      "epoch": 3.6842105263157894,
+      "eval_loss": 0.40707579255104065,
+      "eval_runtime": 0.8934,
+      "eval_samples_per_second": 33.581,
+      "eval_steps_per_second": 4.478,
+      "step": 70
+    },
+    {
+      "epoch": 3.736842105263158,
+      "grad_norm": 1.6618574857711792,
+      "learning_rate": 0.00043541302641198946,
+      "loss": 0.5877,
+      "step": 71
+    },
+    {
+      "epoch": 3.736842105263158,
+      "eval_loss": 0.3780651390552521,
+      "eval_runtime": 0.9024,
+      "eval_samples_per_second": 33.246,
+      "eval_steps_per_second": 4.433,
+      "step": 71
+    },
+    {
+      "epoch": 3.7894736842105265,
+      "grad_norm": 1.542702317237854,
+      "learning_rate": 0.00043315468231640834,
+      "loss": 0.5222,
+      "step": 72
+    },
+    {
+      "epoch": 3.7894736842105265,
+      "eval_loss": 0.3732970356941223,
+      "eval_runtime": 0.9166,
+      "eval_samples_per_second": 32.73,
+      "eval_steps_per_second": 4.364,
+      "step": 72
+    },
+    {
+      "epoch": 3.8421052631578947,
+      "grad_norm": 1.8039391040802002,
+      "learning_rate": 0.00043086360599199516,
+      "loss": 0.5238,
+      "step": 73
+    },
+    {
+      "epoch": 3.8421052631578947,
+      "eval_loss": 0.3568810820579529,
+      "eval_runtime": 0.9031,
+      "eval_samples_per_second": 33.218,
+      "eval_steps_per_second": 4.429,
+      "step": 73
+    },
+    {
+      "epoch": 3.8947368421052633,
+      "grad_norm": 1.6215863227844238,
+      "learning_rate": 0.0004285402068852002,
+      "loss": 0.6504,
+      "step": 74
+    },
+    {
+      "epoch": 3.8947368421052633,
+      "eval_loss": 0.3885921835899353,
+      "eval_runtime": 0.896,
+      "eval_samples_per_second": 33.483,
+      "eval_steps_per_second": 4.464,
+      "step": 74
+    },
+    {
+      "epoch": 3.9473684210526314,
+      "grad_norm": 1.5152952671051025,
+      "learning_rate": 0.00042618490021899383,
+      "loss": 0.5694,
+      "step": 75
+    },
+    {
+      "epoch": 3.9473684210526314,
+      "eval_loss": 0.38745489716529846,
+      "eval_runtime": 0.8939,
+      "eval_samples_per_second": 33.562,
+      "eval_steps_per_second": 4.475,
+      "step": 75
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 2.6989200115203857,
+      "learning_rate": 0.00042379810691866064,
+      "loss": 0.5849,
+      "step": 76
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.42535698413848877,
+      "eval_runtime": 0.9073,
+      "eval_samples_per_second": 33.066,
+      "eval_steps_per_second": 4.409,
+      "step": 76
+    },
+    {
+      "epoch": 4.052631578947368,
+      "grad_norm": 1.7381691932678223,
+      "learning_rate": 0.00042138025353657407,
+      "loss": 0.3779,
+      "step": 77
+    },
+    {
+      "epoch": 4.052631578947368,
+      "eval_loss": 0.37115439772605896,
+      "eval_runtime": 0.9112,
+      "eval_samples_per_second": 32.922,
+      "eval_steps_per_second": 4.39,
+      "step": 77
+    },
+    {
+      "epoch": 4.105263157894737,
+      "grad_norm": 2.188385248184204,
+      "learning_rate": 0.00041893177217596633,
+      "loss": 0.44,
+      "step": 78
+    },
+    {
+      "epoch": 4.105263157894737,
+      "eval_loss": 0.2926563322544098,
+      "eval_runtime": 0.8982,
+      "eval_samples_per_second": 33.401,
+      "eval_steps_per_second": 4.453,
+      "step": 78
+    },
+    {
+      "epoch": 4.157894736842105,
+      "grad_norm": 2.3652961254119873,
+      "learning_rate": 0.0004164531004137049,
+      "loss": 0.3639,
+      "step": 79
+    },
+    {
+      "epoch": 4.157894736842105,
+      "eval_loss": 0.2751067876815796,
+      "eval_runtime": 0.9146,
+      "eval_samples_per_second": 32.8,
+      "eval_steps_per_second": 4.373,
+      "step": 79
+    },
+    {
+      "epoch": 4.2105263157894735,
+      "grad_norm": 2.165874719619751,
+      "learning_rate": 0.0004139446812220924,
+      "loss": 0.2683,
+      "step": 80
+    },
+    {
+      "epoch": 4.2105263157894735,
+      "eval_loss": 0.2685202360153198,
+      "eval_runtime": 0.9124,
+      "eval_samples_per_second": 32.881,
+      "eval_steps_per_second": 4.384,
+      "step": 80
+    },
+    {
+      "epoch": 4.2631578947368425,
+      "grad_norm": 1.7391912937164307,
+      "learning_rate": 0.0004114069628897006,
+      "loss": 0.2993,
+      "step": 81
+    },
+    {
+      "epoch": 4.2631578947368425,
+      "eval_loss": 0.33646491169929504,
+      "eval_runtime": 0.8952,
+      "eval_samples_per_second": 33.51,
+      "eval_steps_per_second": 4.468,
+      "step": 81
+    },
+    {
+      "epoch": 4.315789473684211,
+      "grad_norm": 3.65714693069458,
+      "learning_rate": 0.0004088403989412559,
+      "loss": 0.4252,
+      "step": 82
+    },
+    {
+      "epoch": 4.315789473684211,
+      "eval_loss": 0.2839888632297516,
+      "eval_runtime": 0.9057,
+      "eval_samples_per_second": 33.123,
+      "eval_steps_per_second": 4.416,
+      "step": 82
+    },
+    {
+      "epoch": 4.368421052631579,
+      "grad_norm": 2.1762771606445312,
+      "learning_rate": 0.00040624544805658794,
+      "loss": 0.3304,
+      "step": 83
+    },
+    {
+      "epoch": 4.368421052631579,
+      "eval_loss": 0.27002134919166565,
+      "eval_runtime": 0.8939,
+      "eval_samples_per_second": 33.562,
+      "eval_steps_per_second": 4.475,
+      "step": 83
+    },
+    {
+      "epoch": 4.421052631578947,
+      "grad_norm": 2.1018354892730713,
+      "learning_rate": 0.00040362257398865713,
+      "loss": 0.4506,
+      "step": 84
+    },
+    {
+      "epoch": 4.421052631578947,
+      "eval_loss": 0.2557659149169922,
+      "eval_runtime": 0.8969,
+      "eval_samples_per_second": 33.45,
+      "eval_steps_per_second": 4.46,
+      "step": 84
+    },
+    {
+      "epoch": 4.473684210526316,
+      "grad_norm": 1.7509180307388306,
+      "learning_rate": 0.00040097224548067613,
+      "loss": 0.3731,
+      "step": 85
+    },
+    {
+      "epoch": 4.473684210526316,
+      "eval_loss": 0.26859304308891296,
+      "eval_runtime": 0.9009,
+      "eval_samples_per_second": 33.299,
+      "eval_steps_per_second": 4.44,
+      "step": 85
+    },
+    {
+      "epoch": 4.526315789473684,
+      "grad_norm": 1.971816897392273,
+      "learning_rate": 0.0003982949361823388,
+      "loss": 0.38,
+      "step": 86
+    },
+    {
+      "epoch": 4.526315789473684,
+      "eval_loss": 0.2624681293964386,
+      "eval_runtime": 0.8949,
+      "eval_samples_per_second": 33.524,
+      "eval_steps_per_second": 4.47,
+      "step": 86
+    },
+    {
+      "epoch": 4.578947368421053,
+      "grad_norm": 1.4714068174362183,
+      "learning_rate": 0.0003955911245651726,
+      "loss": 0.3944,
+      "step": 87
+    },
+    {
+      "epoch": 4.578947368421053,
+      "eval_loss": 0.23652420938014984,
+      "eval_runtime": 0.8952,
+      "eval_samples_per_second": 33.511,
+      "eval_steps_per_second": 4.468,
+      "step": 87
+    },
+    {
+      "epoch": 4.631578947368421,
+      "grad_norm": 2.6970834732055664,
+      "learning_rate": 0.0003928612938370292,
+      "loss": 0.3374,
+      "step": 88
+    },
+    {
+      "epoch": 4.631578947368421,
+      "eval_loss": 0.2716277241706848,
+      "eval_runtime": 0.8932,
+      "eval_samples_per_second": 33.588,
+      "eval_steps_per_second": 4.478,
+      "step": 88
+    },
+    {
+      "epoch": 4.684210526315789,
+      "grad_norm": 1.9066615104675293,
+      "learning_rate": 0.00039010593185572867,
+      "loss": 0.2442,
+      "step": 89
+    },
+    {
+      "epoch": 4.684210526315789,
+      "eval_loss": 0.2999991476535797,
+      "eval_runtime": 0.8939,
+      "eval_samples_per_second": 33.559,
+      "eval_steps_per_second": 4.475,
+      "step": 89
+    },
+    {
+      "epoch": 4.7368421052631575,
+      "grad_norm": 2.6232354640960693,
+      "learning_rate": 0.00038732553104187296,
+      "loss": 0.2857,
+      "step": 90
+    },
+    {
+      "epoch": 4.7368421052631575,
+      "eval_loss": 0.2302989959716797,
+      "eval_runtime": 0.8938,
+      "eval_samples_per_second": 33.564,
+      "eval_steps_per_second": 4.475,
+      "step": 90
+    },
+    {
+      "epoch": 4.7894736842105265,
+      "grad_norm": 2.0710129737854004,
+      "learning_rate": 0.0003845205882908432,
+      "loss": 0.4195,
+      "step": 91
+    },
+    {
+      "epoch": 4.7894736842105265,
+      "eval_loss": 0.21816590428352356,
+      "eval_runtime": 0.9251,
+      "eval_samples_per_second": 32.429,
+      "eval_steps_per_second": 4.324,
+      "step": 91
+    },
+    {
+      "epoch": 4.842105263157895,
+      "grad_norm": 1.8006062507629395,
+      "learning_rate": 0.0003816916048839979,
+      "loss": 0.2859,
+      "step": 92
+    },
+    {
+      "epoch": 4.842105263157895,
+      "eval_loss": 0.21071405708789825,
+      "eval_runtime": 0.8965,
+      "eval_samples_per_second": 33.462,
+      "eval_steps_per_second": 4.462,
+      "step": 92
+    },
+    {
+      "epoch": 4.894736842105263,
+      "grad_norm": 1.6352888345718384,
+      "learning_rate": 0.0003788390863990875,
+      "loss": 0.4275,
+      "step": 93
+    },
+    {
+      "epoch": 4.894736842105263,
+      "eval_loss": 0.20206846296787262,
+      "eval_runtime": 0.9052,
+      "eval_samples_per_second": 33.144,
+      "eval_steps_per_second": 4.419,
+      "step": 93
+    },
+    {
+      "epoch": 4.947368421052632,
+      "grad_norm": 1.6399378776550293,
+      "learning_rate": 0.00037596354261990007,
+      "loss": 0.389,
+      "step": 94
+    },
+    {
+      "epoch": 4.947368421052632,
+      "eval_loss": 0.19467315077781677,
+      "eval_runtime": 0.8973,
+      "eval_samples_per_second": 33.435,
+      "eval_steps_per_second": 4.458,
+      "step": 94
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 1.5680173635482788,
+      "learning_rate": 0.0003730654874451569,
+      "loss": 0.395,
+      "step": 95
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.19546455144882202,
+      "eval_runtime": 0.91,
+      "eval_samples_per_second": 32.968,
+      "eval_steps_per_second": 4.396,
+      "step": 95
+    },
+    {
+      "epoch": 5.052631578947368,
+      "grad_norm": 1.0308386087417603,
+      "learning_rate": 0.00037014543879667093,
+      "loss": 0.1384,
+      "step": 96
+    },
+    {
+      "epoch": 5.052631578947368,
+      "eval_loss": 0.18969732522964478,
+      "eval_runtime": 0.9021,
+      "eval_samples_per_second": 33.258,
+      "eval_steps_per_second": 4.434,
+      "step": 96
+    },
+    {
+      "epoch": 5.105263157894737,
+      "grad_norm": 1.4042502641677856,
+      "learning_rate": 0.0003672039185267878,
+      "loss": 0.2291,
+      "step": 97
+    },
+    {
+      "epoch": 5.105263157894737,
+      "eval_loss": 0.16800740361213684,
+      "eval_runtime": 0.8938,
+      "eval_samples_per_second": 33.563,
+      "eval_steps_per_second": 4.475,
+      "step": 97
+    },
+    {
+      "epoch": 5.157894736842105,
+      "grad_norm": 1.6313552856445312,
+      "learning_rate": 0.00036424145232512333,
+      "loss": 0.1736,
+      "step": 98
+    },
+    {
+      "epoch": 5.157894736842105,
+      "eval_loss": 0.16714099049568176,
+      "eval_runtime": 0.9009,
+      "eval_samples_per_second": 33.301,
+      "eval_steps_per_second": 4.44,
+      "step": 98
+    },
+    {
+      "epoch": 5.2105263157894735,
+      "grad_norm": 1.8922698497772217,
+      "learning_rate": 0.0003612585696246158,
+      "loss": 0.1677,
+      "step": 99
+    },
+    {
+      "epoch": 5.2105263157894735,
+      "eval_loss": 0.179762065410614,
+      "eval_runtime": 0.9039,
+      "eval_samples_per_second": 33.188,
+      "eval_steps_per_second": 4.425,
+      "step": 99
+    },
+    {
+      "epoch": 5.2631578947368425,
+      "grad_norm": 2.409526824951172,
+      "learning_rate": 0.0003582558035069091,
+      "loss": 0.2379,
+      "step": 100
+    },
+    {
+      "epoch": 5.2631578947368425,
+      "eval_loss": 0.1902371197938919,
+      "eval_runtime": 0.9097,
+      "eval_samples_per_second": 32.98,
+      "eval_steps_per_second": 4.397,
+      "step": 100
+    },
+    {
+      "epoch": 5.315789473684211,
+      "grad_norm": 2.084869146347046,
+      "learning_rate": 0.0003552336906070838,
+      "loss": 0.2165,
+      "step": 101
+    },
+    {
+      "epoch": 5.315789473684211,
+      "eval_loss": 0.17252177000045776,
+      "eval_runtime": 0.8948,
+      "eval_samples_per_second": 33.528,
+      "eval_steps_per_second": 4.47,
+      "step": 101
+    },
+    {
+      "epoch": 5.368421052631579,
+      "grad_norm": 1.655718207359314,
+      "learning_rate": 0.000352192771017753,
+      "loss": 0.223,
+      "step": 102
+    },
+    {
+      "epoch": 5.368421052631579,
+      "eval_loss": 0.18867380917072296,
+      "eval_runtime": 0.8956,
+      "eval_samples_per_second": 33.495,
+      "eval_steps_per_second": 4.466,
+      "step": 102
+    },
+    {
+      "epoch": 5.421052631578947,
+      "grad_norm": 2.672633409500122,
+      "learning_rate": 0.0003491335881925407,
+      "loss": 0.161,
+      "step": 103
+    },
+    {
+      "epoch": 5.421052631578947,
+      "eval_loss": 0.1944020837545395,
+      "eval_runtime": 0.8924,
+      "eval_samples_per_second": 33.616,
+      "eval_steps_per_second": 4.482,
+      "step": 103
+    },
+    {
+      "epoch": 5.473684210526316,
+      "grad_norm": 1.9712008237838745,
+      "learning_rate": 0.0003460566888489593,
+      "loss": 0.2525,
+      "step": 104
+    },
+    {
+      "epoch": 5.473684210526316,
+      "eval_loss": 0.17671068012714386,
+      "eval_runtime": 0.897,
+      "eval_samples_per_second": 33.446,
+      "eval_steps_per_second": 4.459,
+      "step": 104
+    },
+    {
+      "epoch": 5.526315789473684,
+      "grad_norm": 2.2153072357177734,
+      "learning_rate": 0.00034296262287070335,
+      "loss": 0.2105,
+      "step": 105
+    },
+    {
+      "epoch": 5.526315789473684,
+      "eval_loss": 0.1715732216835022,
+      "eval_runtime": 0.8951,
+      "eval_samples_per_second": 33.514,
+      "eval_steps_per_second": 4.469,
+      "step": 105
+    },
+    {
+      "epoch": 5.578947368421053,
+      "grad_norm": 1.8106168508529663,
+      "learning_rate": 0.0003398519432093782,
+      "loss": 0.259,
+      "step": 106
+    },
+    {
+      "epoch": 5.578947368421053,
+      "eval_loss": 0.1465868353843689,
+      "eval_runtime": 0.9077,
+      "eval_samples_per_second": 33.051,
+      "eval_steps_per_second": 4.407,
+      "step": 106
+    },
+    {
+      "epoch": 5.631578947368421,
+      "grad_norm": 2.1159439086914062,
+      "learning_rate": 0.0003367252057856802,
+      "loss": 0.2065,
+      "step": 107
+    },
+    {
+      "epoch": 5.631578947368421,
+      "eval_loss": 0.14219093322753906,
+      "eval_runtime": 0.9049,
+      "eval_samples_per_second": 33.154,
+      "eval_steps_per_second": 4.42,
+      "step": 107
+    },
+    {
+      "epoch": 5.684210526315789,
+      "grad_norm": 1.4467761516571045,
+      "learning_rate": 0.00033358296939004547,
+      "loss": 0.2083,
+      "step": 108
+    },
+    {
+      "epoch": 5.684210526315789,
+      "eval_loss": 0.1406753957271576,
+      "eval_runtime": 0.8954,
+      "eval_samples_per_second": 33.505,
+      "eval_steps_per_second": 4.467,
+      "step": 108
+    },
+    {
+      "epoch": 5.7368421052631575,
+      "grad_norm": 1.3671239614486694,
+      "learning_rate": 0.00033042579558278717,
+      "loss": 0.1825,
+      "step": 109
+    },
+    {
+      "epoch": 5.7368421052631575,
+      "eval_loss": 0.13007155060768127,
+      "eval_runtime": 0.8998,
+      "eval_samples_per_second": 33.342,
+      "eval_steps_per_second": 4.446,
+      "step": 109
+    },
+    {
+      "epoch": 5.7894736842105265,
+      "grad_norm": 1.479944109916687,
+      "learning_rate": 0.00032725424859373687,
+      "loss": 0.2244,
+      "step": 110
+    },
+    {
+      "epoch": 5.7894736842105265,
+      "eval_loss": 0.12692232429981232,
+      "eval_runtime": 0.901,
+      "eval_samples_per_second": 33.298,
+      "eval_steps_per_second": 4.44,
+      "step": 110
+    },
+    {
+      "epoch": 5.842105263157895,
+      "grad_norm": 1.5173969268798828,
+      "learning_rate": 0.0003240688952214085,
+      "loss": 0.2273,
+      "step": 111
+    },
+    {
+      "epoch": 5.842105263157895,
+      "eval_loss": 0.12454597651958466,
+      "eval_runtime": 0.8987,
+      "eval_samples_per_second": 33.382,
+      "eval_steps_per_second": 4.451,
+      "step": 111
+    },
+    {
+      "epoch": 5.894736842105263,
+      "grad_norm": 2.7870988845825195,
+      "learning_rate": 0.00032087030473170445,
+      "loss": 0.2101,
+      "step": 112
+    },
+    {
+      "epoch": 5.894736842105263,
+      "eval_loss": 0.12002909928560257,
+      "eval_runtime": 0.893,
+      "eval_samples_per_second": 33.593,
+      "eval_steps_per_second": 4.479,
+      "step": 112
+    },
+    {
+      "epoch": 5.947368421052632,
+      "grad_norm": 1.3659342527389526,
+      "learning_rate": 0.00031765904875617973,
+      "loss": 0.1882,
+      "step": 113
+    },
+    {
+      "epoch": 5.947368421052632,
+      "eval_loss": 0.10573837906122208,
+      "eval_runtime": 0.8956,
+      "eval_samples_per_second": 33.496,
+      "eval_steps_per_second": 4.466,
+      "step": 113
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.8464044332504272,
+      "learning_rate": 0.00031443570118988356,
+      "loss": 0.2285,
+      "step": 114
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.10221625119447708,
+      "eval_runtime": 0.8955,
+      "eval_samples_per_second": 33.501,
+      "eval_steps_per_second": 4.467,
+      "step": 114
+    },
+    {
+      "epoch": 6.052631578947368,
+      "grad_norm": 1.3894392251968384,
+      "learning_rate": 0.00031120083808879663,
+      "loss": 0.1115,
+      "step": 115
+    },
+    {
+      "epoch": 6.052631578947368,
+      "eval_loss": 0.09458151459693909,
+      "eval_runtime": 0.8981,
+      "eval_samples_per_second": 33.405,
+      "eval_steps_per_second": 4.454,
+      "step": 115
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4901149662148608.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null