Training in progress, step 600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bb2d34536f53765db925aec503ec77f3782aa3bec1228a0fb31ef711894567b
 size 101752088

 version https://git-lfs.github.com/spec/v1
+oid sha256:11d6aca27259c04e48ff1e6833110c9ce7f7cb359ca11513b3eb5c3401694577
 size 101752088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aba086c49bb1d64970d247f24d6d61f09233122825c51a37951b7ab52468080b
 size 203719079

 version https://git-lfs.github.com/spec/v1
+oid sha256:110f815b2e61a6607ab28d0131cd25dcd3134a1d6d7e0a35eabcde2387a38bb9
 size 203719079

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99ad50444b8487f944187571f0d34b8c0833c8b1ec0194bbf9de205c3834a3ba
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bc83dc2d6c811943f930285a433310949280eb049ff76a77b592b75863af96c
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7022ab037152757f4e275ed980213f69e3a154b7ed94c343e397c8af670740a0
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:13170990a11005b433d8dae9c4d2d14d2d8b2818aeb5b8e3b1626f654dee20a1
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04752098843655948,
   "eval_steps": 500,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -218,6 +218,216 @@
       "learning_rate": 9.966666666666667e-05,
       "loss": 1.3409,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -237,7 +447,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.8780760244224e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.09504197687311897,
   "eval_steps": 500,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.966666666666667e-05,
       "loss": 1.3409,
       "step": 300
+    },
+    {
+      "epoch": 0.049105021384444794,
+      "grad_norm": 0.3628294765949249,
+      "learning_rate": 9.999725846827562e-05,
+      "loss": 1.3767,
+      "step": 310
+    },
+    {
+      "epoch": 0.05068905433233011,
+      "grad_norm": 0.4101487398147583,
+      "learning_rate": 9.998778195446311e-05,
+      "loss": 1.4544,
+      "step": 320
+    },
+    {
+      "epoch": 0.05227308728021543,
+      "grad_norm": 0.40901538729667664,
+      "learning_rate": 9.997153789515461e-05,
+      "loss": 1.406,
+      "step": 330
+    },
+    {
+      "epoch": 0.05385712022810074,
+      "grad_norm": 0.40885481238365173,
+      "learning_rate": 9.994852848953574e-05,
+      "loss": 1.4384,
+      "step": 340
+    },
+    {
+      "epoch": 0.05544115317598606,
+      "grad_norm": 0.433713436126709,
+      "learning_rate": 9.991875685271168e-05,
+      "loss": 1.4379,
+      "step": 350
+    },
+    {
+      "epoch": 0.05702518612387138,
+      "grad_norm": 0.41924989223480225,
+      "learning_rate": 9.988222701528547e-05,
+      "loss": 1.3935,
+      "step": 360
+    },
+    {
+      "epoch": 0.058609219071756695,
+      "grad_norm": 0.48709481954574585,
+      "learning_rate": 9.983894392281237e-05,
+      "loss": 1.3913,
+      "step": 370
+    },
+    {
+      "epoch": 0.060193252019642006,
+      "grad_norm": 0.44844549894332886,
+      "learning_rate": 9.978891343513023e-05,
+      "loss": 1.3975,
+      "step": 380
+    },
+    {
+      "epoch": 0.061777284967527324,
+      "grad_norm": 0.510023295879364,
+      "learning_rate": 9.973214232556622e-05,
+      "loss": 1.3778,
+      "step": 390
+    },
+    {
+      "epoch": 0.06336131791541263,
+      "grad_norm": 0.5296265482902527,
+      "learning_rate": 9.966863828001982e-05,
+      "loss": 1.4633,
+      "step": 400
+    },
+    {
+      "epoch": 0.06494535086329796,
+      "grad_norm": 0.5563903450965881,
+      "learning_rate": 9.959840989592226e-05,
+      "loss": 1.4098,
+      "step": 410
+    },
+    {
+      "epoch": 0.06652938381118327,
+      "grad_norm": 0.6422920227050781,
+      "learning_rate": 9.952146668107254e-05,
+      "loss": 1.3916,
+      "step": 420
+    },
+    {
+      "epoch": 0.06811341675906858,
+      "grad_norm": 0.5075757503509521,
+      "learning_rate": 9.94378190523503e-05,
+      "loss": 1.4111,
+      "step": 430
+    },
+    {
+      "epoch": 0.0696974497069539,
+      "grad_norm": 0.6157119274139404,
+      "learning_rate": 9.934747833430547e-05,
+      "loss": 1.4315,
+      "step": 440
+    },
+    {
+      "epoch": 0.07128148265483922,
+      "grad_norm": 0.5845485925674438,
+      "learning_rate": 9.925045675762514e-05,
+      "loss": 1.3969,
+      "step": 450
+    },
+    {
+      "epoch": 0.07286551560272454,
+      "grad_norm": 0.49031880497932434,
+      "learning_rate": 9.914676745747772e-05,
+      "loss": 1.3132,
+      "step": 460
+    },
+    {
+      "epoch": 0.07444954855060985,
+      "grad_norm": 0.643332302570343,
+      "learning_rate": 9.903642447173465e-05,
+      "loss": 1.4596,
+      "step": 470
+    },
+    {
+      "epoch": 0.07603358149849516,
+      "grad_norm": 0.604245662689209,
+      "learning_rate": 9.891944273906986e-05,
+      "loss": 1.4994,
+      "step": 480
+    },
+    {
+      "epoch": 0.07761761444638049,
+      "grad_norm": 0.4713222086429596,
+      "learning_rate": 9.879583809693738e-05,
+      "loss": 1.372,
+      "step": 490
+    },
+    {
+      "epoch": 0.0792016473942658,
+      "grad_norm": 0.47081106901168823,
+      "learning_rate": 9.866562727942714e-05,
+      "loss": 1.5145,
+      "step": 500
+    },
+    {
+      "epoch": 0.08078568034215111,
+      "grad_norm": 0.6371116638183594,
+      "learning_rate": 9.85288279149995e-05,
+      "loss": 1.4835,
+      "step": 510
+    },
+    {
+      "epoch": 0.08236971329003644,
+      "grad_norm": 0.6258746981620789,
+      "learning_rate": 9.838545852409857e-05,
+      "loss": 1.4214,
+      "step": 520
+    },
+    {
+      "epoch": 0.08395374623792175,
+      "grad_norm": 0.7464697360992432,
+      "learning_rate": 9.823553851664489e-05,
+      "loss": 1.4559,
+      "step": 530
+    },
+    {
+      "epoch": 0.08553777918580706,
+      "grad_norm": 0.5535822510719299,
+      "learning_rate": 9.807908818940761e-05,
+      "loss": 1.4096,
+      "step": 540
+    },
+    {
+      "epoch": 0.08712181213369238,
+      "grad_norm": 0.5659494400024414,
+      "learning_rate": 9.791612872325667e-05,
+      "loss": 1.4298,
+      "step": 550
+    },
+    {
+      "epoch": 0.0887058450815777,
+      "grad_norm": 0.5127139091491699,
+      "learning_rate": 9.77466821802952e-05,
+      "loss": 1.339,
+      "step": 560
+    },
+    {
+      "epoch": 0.09028987802946302,
+      "grad_norm": 0.5496402382850647,
+      "learning_rate": 9.75707715008727e-05,
+      "loss": 1.4232,
+      "step": 570
+    },
+    {
+      "epoch": 0.09187391097734833,
+      "grad_norm": 0.6117046475410461,
+      "learning_rate": 9.73884205004793e-05,
+      "loss": 1.4693,
+      "step": 580
+    },
+    {
+      "epoch": 0.09345794392523364,
+      "grad_norm": 0.5658081769943237,
+      "learning_rate": 9.719965386652141e-05,
+      "loss": 1.3002,
+      "step": 590
+    },
+    {
+      "epoch": 0.09504197687311897,
+      "grad_norm": 0.7319624423980713,
+      "learning_rate": 9.700449715497961e-05,
+      "loss": 1.5359,
+      "step": 600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.97561520488448e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null