Training in progress, step 50, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +3 -3
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -24
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
     "k_proj",
     "v_proj",
-    "gate_proj",
     "up_proj",
     "q_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "v_proj",
     "up_proj",
     "q_proj",
+    "down_proj",
+    "o_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c13de3c1483e463dcd12c72778f3619e45b9253c69f2bbf9face7570f03df41
 size 50899792

 version https://git-lfs.github.com/spec/v1
+oid sha256:777e4ffbadc32e8e08cca6ab98a9f54f3a55918daf1b12ded0456e16f65b2aa6
 size 50899792

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6dc7d56ed8f766d520b3ecadd05407f3f0162827a39ff31479b0a235ba659a4
 size 26231300

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e1716c110b05ac3eebd4ca8a6b9587057eece9e57ca2f143e0a3e1b21dd5d97
 size 26231300

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a58445dfacae6d3a5c41737710794c0d202d0797b11394bf49fb53aff4510e07
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:31bdb696b574973895ff2b747377d3ffb8c746f630155b864dae9e45560ab2da
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37841e69eda911caeb33edeefa0b2f140e72dcce247aeb757b2fe89c00d7887b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0004220077016405549,
   "eval_steps": 10,
-  "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,61 +11,120 @@
     {
       "epoch": 1.6231065447713652e-05,
       "eval_loss": 1.1903656721115112,
-      "eval_runtime": 1380.2137,
-      "eval_samples_per_second": 18.796,
       "eval_steps_per_second": 9.398,
       "step": 1
     },
     {
       "epoch": 8.115532723856825e-05,
-      "grad_norm": 0.33062881231307983,
       "learning_rate": 5e-05,
-      "loss": 0.9504,
       "step": 5
     },
     {
       "epoch": 0.0001623106544771365,
-      "grad_norm": 0.24923232197761536,
       "learning_rate": 0.0001,
-      "loss": 1.2069,
       "step": 10
     },
     {
       "epoch": 0.0001623106544771365,
-      "eval_loss": 1.188248872756958,
-      "eval_runtime": 1385.4083,
-      "eval_samples_per_second": 18.725,
-      "eval_steps_per_second": 9.363,
       "step": 10
     },
     {
       "epoch": 0.00024346598171570477,
-      "grad_norm": 0.22104988992214203,
       "learning_rate": 9.619397662556435e-05,
-      "loss": 1.0095,
       "step": 15
     },
     {
       "epoch": 0.000324621308954273,
-      "grad_norm": 0.30212002992630005,
       "learning_rate": 8.535533905932738e-05,
-      "loss": 1.2259,
       "step": 20
     },
     {
       "epoch": 0.000324621308954273,
-      "eval_loss": 1.172216773033142,
-      "eval_runtime": 1381.6685,
-      "eval_samples_per_second": 18.776,
-      "eval_steps_per_second": 9.388,
       "step": 20
     },
     {
       "epoch": 0.0004057766361928413,
-      "grad_norm": 0.2586546540260315,
       "learning_rate": 6.91341716182545e-05,
-      "loss": 1.3021,
       "step": 25
     }
   ],
   "logging_steps": 5,
@@ -80,12 +139,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3362199526440960.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0008115532723856826,
   "eval_steps": 10,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 1.6231065447713652e-05,
       "eval_loss": 1.1903656721115112,
+      "eval_runtime": 1380.1159,
+      "eval_samples_per_second": 18.797,
       "eval_steps_per_second": 9.398,
       "step": 1
     },
     {
       "epoch": 8.115532723856825e-05,
+      "grad_norm": 0.3520669639110565,
       "learning_rate": 5e-05,
+      "loss": 0.9505,
       "step": 5
     },
     {
       "epoch": 0.0001623106544771365,
+      "grad_norm": 0.2661932110786438,
       "learning_rate": 0.0001,
+      "loss": 1.2073,
       "step": 10
     },
     {
       "epoch": 0.0001623106544771365,
+      "eval_loss": 1.1880683898925781,
+      "eval_runtime": 1378.339,
+      "eval_samples_per_second": 18.821,
+      "eval_steps_per_second": 9.411,
       "step": 10
     },
     {
       "epoch": 0.00024346598171570477,
+      "grad_norm": 0.2401016354560852,
       "learning_rate": 9.619397662556435e-05,
+      "loss": 1.0093,
       "step": 15
     },
     {
       "epoch": 0.000324621308954273,
+      "grad_norm": 0.31756964325904846,
       "learning_rate": 8.535533905932738e-05,
+      "loss": 1.226,
       "step": 20
     },
     {
       "epoch": 0.000324621308954273,
+      "eval_loss": 1.172145128250122,
+      "eval_runtime": 1379.8373,
+      "eval_samples_per_second": 18.801,
+      "eval_steps_per_second": 9.4,
       "step": 20
     },
     {
       "epoch": 0.0004057766361928413,
+      "grad_norm": 0.275453120470047,
       "learning_rate": 6.91341716182545e-05,
+      "loss": 1.3019,
       "step": 25
+    },
+    {
+      "epoch": 0.00048693196343140954,
+      "grad_norm": 0.31876248121261597,
+      "learning_rate": 5e-05,
+      "loss": 0.9136,
+      "step": 30
+    },
+    {
+      "epoch": 0.00048693196343140954,
+      "eval_loss": 1.1538145542144775,
+      "eval_runtime": 1380.8853,
+      "eval_samples_per_second": 18.786,
+      "eval_steps_per_second": 9.393,
+      "step": 30
+    },
+    {
+      "epoch": 0.0005680872906699778,
+      "grad_norm": 0.29820069670677185,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 1.0017,
+      "step": 35
+    },
+    {
+      "epoch": 0.000649242617908546,
+      "grad_norm": 0.42904895544052124,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 1.1429,
+      "step": 40
+    },
+    {
+      "epoch": 0.000649242617908546,
+      "eval_loss": 1.1452189683914185,
+      "eval_runtime": 1380.8707,
+      "eval_samples_per_second": 18.787,
+      "eval_steps_per_second": 9.393,
+      "step": 40
+    },
+    {
+      "epoch": 0.0007303979451471144,
+      "grad_norm": 0.25957685708999634,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 1.1583,
+      "step": 45
+    },
+    {
+      "epoch": 0.0008115532723856826,
+      "grad_norm": 0.2517766058444977,
+      "learning_rate": 0.0,
+      "loss": 0.9416,
+      "step": 50
+    },
+    {
+      "epoch": 0.0008115532723856826,
+      "eval_loss": 1.1437370777130127,
+      "eval_runtime": 1383.7319,
+      "eval_samples_per_second": 18.748,
+      "eval_steps_per_second": 9.374,
+      "step": 50
     }
   ],
   "logging_steps": 5,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6396379586887680.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cbc4585b463e9d7165ff7e593c25639eb96b872978fc7f1fc73ec0952b925fa
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:34467d464a1014f734add1fd005384274b5eb325f890f9c8d872bab038d4721a
 size 6776