Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +214 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba5ad2fb2cb4b2a5bd7986862a8166911fc3384611e2f392b642528de144efef
 size 101752088

 version https://git-lfs.github.com/spec/v1
+oid sha256:cfe33153bfb4efaa9f968d0812bfb37b362b38c9c025435d7a7bfe3297a0d0cc
 size 101752088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2807bfac567254a682fcee8ad37ca39304c0da0fefc87ffe5dcb5421a22106b
 size 203719079

 version https://git-lfs.github.com/spec/v1
+oid sha256:5be5b53988a320341390e32e0c3213d49731dee11836050bbd36accdfa86a9f2
 size 203719079

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:864067d528288ac71cd598d44e76d3e8aa962e0c46a88d68dee7762bfa3899db
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e02d071ee6920b7ece49ae76afe405eaacca52e7327794299c581d3989e02b4
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb69807b0cc213740e86e6add3784f51b695f07900aa8a435d08a7fff4f32bd7
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:095865ee0dba2422fa75ed17304220ae17502f490054466dcc6d644f9f447b2a
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4276888959290353,
   "eval_steps": 500,
-  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1898,6 +1898,216 @@
       "learning_rate": 3.0352986867686007e-06,
       "loss": 1.2348,
       "step": 2700
     }
   ],
   "logging_steps": 10,
@@ -1912,12 +2122,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.89026842198016e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4752098843655948,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.0352986867686007e-06,
       "loss": 1.2348,
       "step": 2700
+    },
+    {
+      "epoch": 0.42927292887692065,
+      "grad_norm": 0.7749059796333313,
+      "learning_rate": 2.8388671026199522e-06,
+      "loss": 1.254,
+      "step": 2710
+    },
+    {
+      "epoch": 0.43085696182480593,
+      "grad_norm": 0.7517712712287903,
+      "learning_rate": 2.6488203809326207e-06,
+      "loss": 1.3453,
+      "step": 2720
+    },
+    {
+      "epoch": 0.43244099477269127,
+      "grad_norm": 0.7981254458427429,
+      "learning_rate": 2.4651842509905487e-06,
+      "loss": 1.3381,
+      "step": 2730
+    },
+    {
+      "epoch": 0.4340250277205766,
+      "grad_norm": 0.6932268738746643,
+      "learning_rate": 2.2879835741861586e-06,
+      "loss": 1.2535,
+      "step": 2740
+    },
+    {
+      "epoch": 0.4356090606684619,
+      "grad_norm": 0.8161441683769226,
+      "learning_rate": 2.1172423406545516e-06,
+      "loss": 1.2834,
+      "step": 2750
+    },
+    {
+      "epoch": 0.43719309361634723,
+      "grad_norm": 0.848377525806427,
+      "learning_rate": 1.9529836660256096e-06,
+      "loss": 1.3685,
+      "step": 2760
+    },
+    {
+      "epoch": 0.4387771265642325,
+      "grad_norm": 0.7809950113296509,
+      "learning_rate": 1.7952297882945003e-06,
+      "loss": 1.3941,
+      "step": 2770
+    },
+    {
+      "epoch": 0.44036115951211785,
+      "grad_norm": 0.7642554044723511,
+      "learning_rate": 1.6440020648110067e-06,
+      "loss": 1.3021,
+      "step": 2780
+    },
+    {
+      "epoch": 0.4419451924600032,
+      "grad_norm": 0.6984448432922363,
+      "learning_rate": 1.4993209693881183e-06,
+      "loss": 1.339,
+      "step": 2790
+    },
+    {
+      "epoch": 0.44352922540788847,
+      "grad_norm": 0.9434962272644043,
+      "learning_rate": 1.3612060895301759e-06,
+      "loss": 1.4138,
+      "step": 2800
+    },
+    {
+      "epoch": 0.4451132583557738,
+      "grad_norm": 0.9491485953330994,
+      "learning_rate": 1.2296761237810207e-06,
+      "loss": 1.3785,
+      "step": 2810
+    },
+    {
+      "epoch": 0.4466972913036591,
+      "grad_norm": 0.8270556330680847,
+      "learning_rate": 1.104748879192552e-06,
+      "loss": 1.2682,
+      "step": 2820
+    },
+    {
+      "epoch": 0.44828132425154443,
+      "grad_norm": 0.7466399669647217,
+      "learning_rate": 9.864412689139123e-07,
+      "loss": 1.2793,
+      "step": 2830
+    },
+    {
+      "epoch": 0.44986535719942977,
+      "grad_norm": 0.796255350112915,
+      "learning_rate": 8.747693099017129e-07,
+      "loss": 1.2731,
+      "step": 2840
+    },
+    {
+      "epoch": 0.45144939014731505,
+      "grad_norm": 0.6511625647544861,
+      "learning_rate": 7.697481207516289e-07,
+      "loss": 1.3496,
+      "step": 2850
+    },
+    {
+      "epoch": 0.4530334230952004,
+      "grad_norm": 0.8428515195846558,
+      "learning_rate": 6.713919196515317e-07,
+      "loss": 1.3259,
+      "step": 2860
+    },
+    {
+      "epoch": 0.4546174560430857,
+      "grad_norm": 0.7594891786575317,
+      "learning_rate": 5.797140224566122e-07,
+      "loss": 1.3121,
+      "step": 2870
+    },
+    {
+      "epoch": 0.456201488990971,
+      "grad_norm": 0.8366693258285522,
+      "learning_rate": 4.947268408866113e-07,
+      "loss": 1.4236,
+      "step": 2880
+    },
+    {
+      "epoch": 0.45778552193885635,
+      "grad_norm": 0.7590285539627075,
+      "learning_rate": 4.1644188084548063e-07,
+      "loss": 1.3011,
+      "step": 2890
+    },
+    {
+      "epoch": 0.45936955488674164,
+      "grad_norm": 0.8987306952476501,
+      "learning_rate": 3.4486974086366253e-07,
+      "loss": 1.2998,
+      "step": 2900
+    },
+    {
+      "epoch": 0.460953587834627,
+      "grad_norm": 0.7959816455841064,
+      "learning_rate": 2.800201106632205e-07,
+      "loss": 1.3055,
+      "step": 2910
+    },
+    {
+      "epoch": 0.46253762078251226,
+      "grad_norm": 0.9299723505973816,
+      "learning_rate": 2.219017698460002e-07,
+      "loss": 1.3327,
+      "step": 2920
+    },
+    {
+      "epoch": 0.4641216537303976,
+      "grad_norm": 0.9437219500541687,
+      "learning_rate": 1.7052258670501308e-07,
+      "loss": 1.3535,
+      "step": 2930
+    },
+    {
+      "epoch": 0.4657056866782829,
+      "grad_norm": 0.858355700969696,
+      "learning_rate": 1.2588951715921116e-07,
+      "loss": 1.456,
+      "step": 2940
+    },
+    {
+      "epoch": 0.4672897196261682,
+      "grad_norm": 0.8487655520439148,
+      "learning_rate": 8.800860381173448e-08,
+      "loss": 1.1843,
+      "step": 2950
+    },
+    {
+      "epoch": 0.46887375257405356,
+      "grad_norm": 0.7240117788314819,
+      "learning_rate": 5.688497513188229e-08,
+      "loss": 1.352,
+      "step": 2960
+    },
+    {
+      "epoch": 0.47045778552193884,
+      "grad_norm": 0.7505178451538086,
+      "learning_rate": 3.2522844760762836e-08,
+      "loss": 1.3472,
+      "step": 2970
+    },
+    {
+      "epoch": 0.4720418184698242,
+      "grad_norm": 0.8503928184509277,
+      "learning_rate": 1.4925510940844156e-08,
+      "loss": 1.3577,
+      "step": 2980
+    },
+    {
+      "epoch": 0.47362585141770946,
+      "grad_norm": 0.8528128862380981,
+      "learning_rate": 4.095356069439005e-09,
+      "loss": 1.4115,
+      "step": 2990
+    },
+    {
+      "epoch": 0.4752098843655948,
+      "grad_norm": 0.9052889943122864,
+      "learning_rate": 3.384637615733155e-11,
+      "loss": 1.3026,
+      "step": 3000
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 9.8780760244224e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null