Training in progress, step 900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11d6aca27259c04e48ff1e6833110c9ce7f7cb359ca11513b3eb5c3401694577
 size 101752088

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6451841ef2b8c92c8971b888cb431015469f38e2b5cec1d959730dc0e1c42e7
 size 101752088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:110f815b2e61a6607ab28d0131cd25dcd3134a1d6d7e0a35eabcde2387a38bb9
 size 203719079

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fa8802dc8d44f42b89ec24821a6c0e450a89c27ef01f720e2c0102ae33bb5fb
 size 203719079

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bc83dc2d6c811943f930285a433310949280eb049ff76a77b592b75863af96c
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:dec92e4cc6b814795e4f84a0ca7417301ac04559d3e6f54a353841c3dcd3b8d2
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13170990a11005b433d8dae9c4d2d14d2d8b2818aeb5b8e3b1626f654dee20a1
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:a402f7671070d601bcd659808589d9caf0f10398950fa5d29b8d3b20f1d6b390
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.09504197687311897,
   "eval_steps": 500,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -428,6 +428,216 @@
       "learning_rate": 9.700449715497961e-05,
       "loss": 1.5359,
       "step": 600
     }
   ],
   "logging_steps": 10,
@@ -447,7 +657,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.97561520488448e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.14256296530967844,
   "eval_steps": 500,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.700449715497961e-05,
       "loss": 1.5359,
       "step": 600
+    },
+    {
+      "epoch": 0.09662600982100428,
+      "grad_norm": 0.7383710741996765,
+      "learning_rate": 9.680297678694867e-05,
+      "loss": 1.5258,
+      "step": 610
+    },
+    {
+      "epoch": 0.09821004276888959,
+      "grad_norm": 0.6048529148101807,
+      "learning_rate": 9.659512004506057e-05,
+      "loss": 1.3593,
+      "step": 620
+    },
+    {
+      "epoch": 0.09979407571677491,
+      "grad_norm": 0.6163527369499207,
+      "learning_rate": 9.63809550697909e-05,
+      "loss": 1.3932,
+      "step": 630
+    },
+    {
+      "epoch": 0.10137810866466022,
+      "grad_norm": 0.6468575596809387,
+      "learning_rate": 9.616051085564906e-05,
+      "loss": 1.4886,
+      "step": 640
+    },
+    {
+      "epoch": 0.10296214161254554,
+      "grad_norm": 0.642622709274292,
+      "learning_rate": 9.593381724725285e-05,
+      "loss": 1.412,
+      "step": 650
+    },
+    {
+      "epoch": 0.10454617456043086,
+      "grad_norm": 0.6709442138671875,
+      "learning_rate": 9.570090493528809e-05,
+      "loss": 1.4161,
+      "step": 660
+    },
+    {
+      "epoch": 0.10613020750831617,
+      "grad_norm": 0.6280019283294678,
+      "learning_rate": 9.546180545235344e-05,
+      "loss": 1.4344,
+      "step": 670
+    },
+    {
+      "epoch": 0.10771424045620148,
+      "grad_norm": 0.5947321057319641,
+      "learning_rate": 9.52165511686915e-05,
+      "loss": 1.3838,
+      "step": 680
+    },
+    {
+      "epoch": 0.10929827340408681,
+      "grad_norm": 0.7332488894462585,
+      "learning_rate": 9.496517528780637e-05,
+      "loss": 1.3477,
+      "step": 690
+    },
+    {
+      "epoch": 0.11088230635197212,
+      "grad_norm": 0.6739678978919983,
+      "learning_rate": 9.47077118419684e-05,
+      "loss": 1.487,
+      "step": 700
+    },
+    {
+      "epoch": 0.11246633929985744,
+      "grad_norm": 0.6523484587669373,
+      "learning_rate": 9.444419568760684e-05,
+      "loss": 1.484,
+      "step": 710
+    },
+    {
+      "epoch": 0.11405037224774275,
+      "grad_norm": 0.6200110912322998,
+      "learning_rate": 9.417466250059073e-05,
+      "loss": 1.3793,
+      "step": 720
+    },
+    {
+      "epoch": 0.11563440519562806,
+      "grad_norm": 0.6055252552032471,
+      "learning_rate": 9.389914877139903e-05,
+      "loss": 1.3878,
+      "step": 730
+    },
+    {
+      "epoch": 0.11721843814351339,
+      "grad_norm": 0.620250940322876,
+      "learning_rate": 9.361769180018038e-05,
+      "loss": 1.3316,
+      "step": 740
+    },
+    {
+      "epoch": 0.1188024710913987,
+      "grad_norm": 0.590551495552063,
+      "learning_rate": 9.333032969170326e-05,
+      "loss": 1.3479,
+      "step": 750
+    },
+    {
+      "epoch": 0.12038650403928401,
+      "grad_norm": 0.6573076844215393,
+      "learning_rate": 9.30371013501972e-05,
+      "loss": 1.3434,
+      "step": 760
+    },
+    {
+      "epoch": 0.12197053698716934,
+      "grad_norm": 0.6856533288955688,
+      "learning_rate": 9.273804647408575e-05,
+      "loss": 1.3815,
+      "step": 770
+    },
+    {
+      "epoch": 0.12355456993505465,
+      "grad_norm": 0.6879425644874573,
+      "learning_rate": 9.243320555061205e-05,
+      "loss": 1.3747,
+      "step": 780
+    },
+    {
+      "epoch": 0.12513860288293996,
+      "grad_norm": 0.5395861864089966,
+      "learning_rate": 9.212261985035739e-05,
+      "loss": 1.4633,
+      "step": 790
+    },
+    {
+      "epoch": 0.12672263583082527,
+      "grad_norm": 0.66850346326828,
+      "learning_rate": 9.180633142165384e-05,
+      "loss": 1.4978,
+      "step": 800
+    },
+    {
+      "epoch": 0.1283066687787106,
+      "grad_norm": 0.6203956007957458,
+      "learning_rate": 9.148438308489168e-05,
+      "loss": 1.3428,
+      "step": 810
+    },
+    {
+      "epoch": 0.12989070172659592,
+      "grad_norm": 0.8913874626159668,
+      "learning_rate": 9.11568184267221e-05,
+      "loss": 1.4052,
+      "step": 820
+    },
+    {
+      "epoch": 0.13147473467448123,
+      "grad_norm": 0.745405375957489,
+      "learning_rate": 9.082368179415632e-05,
+      "loss": 1.3781,
+      "step": 830
+    },
+    {
+      "epoch": 0.13305876762236654,
+      "grad_norm": 0.7052398324012756,
+      "learning_rate": 9.04850182885617e-05,
+      "loss": 1.378,
+      "step": 840
+    },
+    {
+      "epoch": 0.13464280057025185,
+      "grad_norm": 0.7111234664916992,
+      "learning_rate": 9.014087375955573e-05,
+      "loss": 1.4304,
+      "step": 850
+    },
+    {
+      "epoch": 0.13622683351813716,
+      "grad_norm": 0.620119571685791,
+      "learning_rate": 8.979129479879873e-05,
+      "loss": 1.3285,
+      "step": 860
+    },
+    {
+      "epoch": 0.1378108664660225,
+      "grad_norm": 0.7514825463294983,
+      "learning_rate": 8.943632873368611e-05,
+      "loss": 1.3782,
+      "step": 870
+    },
+    {
+      "epoch": 0.1393948994139078,
+      "grad_norm": 0.6254695057868958,
+      "learning_rate": 8.907602362094094e-05,
+      "loss": 1.4062,
+      "step": 880
+    },
+    {
+      "epoch": 0.14097893236179312,
+      "grad_norm": 0.6469830870628357,
+      "learning_rate": 8.871042824010791e-05,
+      "loss": 1.2769,
+      "step": 890
+    },
+    {
+      "epoch": 0.14256296530967844,
+      "grad_norm": 0.7647883296012878,
+      "learning_rate": 8.833959208694929e-05,
+      "loss": 1.3646,
+      "step": 900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.96342280732672e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null