Training in progress, step 1, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +9 -119
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "down_proj",
     "q_proj",
-    "o_proj",
     "v_proj",
     "up_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
     "v_proj",
+    "k_proj",
+    "down_proj",
+    "gate_proj",
     "up_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ca3802cab7962402a485b26021a8165212c3a0327c110979c6a21a080a615c5
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f3fd41830fa1fe500431ad098d5d3ff646c875d0d083e94c19d0aa55e16dcdc
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e224345670422d636c5a2449a75fdf21db92a7669b813e8103951ad00ff0cbf6
 size 43122580

 version https://git-lfs.github.com/spec/v1
+oid sha256:83164ecceecd211793427832ccba6234ed15e3c2f9b4bcda9d394a572db5e10a
 size 43122580

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d36cf02c5c091e1cf6b7a556033f9afe92924f5c6d18c68aeec7f759f6f16a6c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb6245a3f3fe99fd9d96194c8979b73f0b09d7fc7edf23d255b0a7cb132b6b75
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae751897b8e87ff08962a91d1d3485984775a96aa89e29a1caac3d6f449228f7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03868471953578337,
-  "eval_steps": 10,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,127 +11,17 @@
     {
       "epoch": 0.0007736943907156673,
       "eval_loss": 1.5017633438110352,
-      "eval_runtime": 36.4256,
-      "eval_samples_per_second": 14.962,
-      "eval_steps_per_second": 7.495,
       "step": 1
-    },
-    {
-      "epoch": 0.0038684719535783366,
-      "grad_norm": 1.2013957500457764,
-      "learning_rate": 5e-05,
-      "loss": 1.4185,
-      "step": 5
-    },
-    {
-      "epoch": 0.007736943907156673,
-      "grad_norm": 1.3820401430130005,
-      "learning_rate": 0.0001,
-      "loss": 1.3659,
-      "step": 10
-    },
-    {
-      "epoch": 0.007736943907156673,
-      "eval_loss": 1.1262140274047852,
-      "eval_runtime": 36.8356,
-      "eval_samples_per_second": 14.795,
-      "eval_steps_per_second": 7.411,
-      "step": 10
-    },
-    {
-      "epoch": 0.01160541586073501,
-      "grad_norm": 2.0663092136383057,
-      "learning_rate": 9.619397662556435e-05,
-      "loss": 1.0369,
-      "step": 15
-    },
-    {
-      "epoch": 0.015473887814313346,
-      "grad_norm": 1.3236219882965088,
-      "learning_rate": 8.535533905932738e-05,
-      "loss": 0.8855,
-      "step": 20
-    },
-    {
-      "epoch": 0.015473887814313346,
-      "eval_loss": 0.8372527360916138,
-      "eval_runtime": 37.0184,
-      "eval_samples_per_second": 14.722,
-      "eval_steps_per_second": 7.375,
-      "step": 20
-    },
-    {
-      "epoch": 0.019342359767891684,
-      "grad_norm": 1.2745177745819092,
-      "learning_rate": 6.91341716182545e-05,
-      "loss": 0.8561,
-      "step": 25
-    },
-    {
-      "epoch": 0.02321083172147002,
-      "grad_norm": 1.2294245958328247,
-      "learning_rate": 5e-05,
-      "loss": 0.799,
-      "step": 30
-    },
-    {
-      "epoch": 0.02321083172147002,
-      "eval_loss": 0.7749415636062622,
-      "eval_runtime": 37.0768,
-      "eval_samples_per_second": 14.699,
-      "eval_steps_per_second": 7.363,
-      "step": 30
-    },
-    {
-      "epoch": 0.027079303675048357,
-      "grad_norm": 1.1570554971694946,
-      "learning_rate": 3.086582838174551e-05,
-      "loss": 0.8257,
-      "step": 35
-    },
-    {
-      "epoch": 0.030947775628626693,
-      "grad_norm": 1.1078797578811646,
-      "learning_rate": 1.4644660940672627e-05,
-      "loss": 0.762,
-      "step": 40
-    },
-    {
-      "epoch": 0.030947775628626693,
-      "eval_loss": 0.7536305785179138,
-      "eval_runtime": 37.091,
-      "eval_samples_per_second": 14.694,
-      "eval_steps_per_second": 7.36,
-      "step": 40
-    },
-    {
-      "epoch": 0.03481624758220503,
-      "grad_norm": 1.2226775884628296,
-      "learning_rate": 3.8060233744356633e-06,
-      "loss": 0.714,
-      "step": 45
-    },
-    {
-      "epoch": 0.03868471953578337,
-      "grad_norm": 1.1950011253356934,
-      "learning_rate": 0.0,
-      "loss": 0.7108,
-      "step": 50
-    },
-    {
-      "epoch": 0.03868471953578337,
-      "eval_loss": 0.7487379312515259,
-      "eval_runtime": 37.0404,
-      "eval_samples_per_second": 14.714,
-      "eval_steps_per_second": 7.37,
-      "step": 50
     }
   ],
   "logging_steps": 5,
-  "max_steps": 50,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 13,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -144,7 +34,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9247821240729600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0007736943907156673,
+  "eval_steps": 1,
+  "global_step": 1,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.0007736943907156673,
       "eval_loss": 1.5017633438110352,
+      "eval_runtime": 36.5896,
+      "eval_samples_per_second": 14.895,
+      "eval_steps_per_second": 7.461,
       "step": 1
     }
   ],
   "logging_steps": 5,
+  "max_steps": 1,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 1,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 184956424814592.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65fed97b348a21b993331714021c75d0c449b4133e5b62ad89a4b18250d5cbc0
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5cbc8207e1336f11a87e7f3236d73b7c1b7c6e897b841705d4091b0e624a031
 size 6776