Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +284 -4

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6f665aea08d472cc3f5d0f6e71d5e883bc0279c9d062195f885f34c2bb67b48
 size 957942768

 version https://git-lfs.github.com/spec/v1
+oid sha256:f67fb93d73ef689e29fced3646888b9acac71ded7ce8bdc2e47a329b3d916111
 size 957942768

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a2f762093b999ed3fc8a8354947768bf9687041ad4dc1b3381d3beccc4d1ed3
 size 1916174411

 version https://git-lfs.github.com/spec/v1
+oid sha256:74d8c8563d3fd92da4fa183b9c5a3bef0b8fabc91f3062232d31df923404a061
 size 1916174411

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2534e434cd5abbb8f7668d3eab0549db0ef95d6a797a3efa86b712e8e32266a7
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5b517d1b8e2b0f837c8b00170b154961d4d989feba4326ac25583df7a55c57a
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b81e6637930ee4c266e39d1098c46fbcb467cca865ee0c4abd8c44486bdac38
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c4e44404b58ce3af1b46c3d4a85a59edbbc386f340c476e894715a1199e1aed
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -428,6 +428,286 @@
       "learning_rate": 2.361471312710075e-05,
       "loss": 0.5706,
       "step": 60
     }
   ],
   "logging_steps": 1,
@@ -442,12 +722,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.837409766703104e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.361471312710075e-05,
       "loss": 0.5706,
       "step": 60
+    },
+    {
+      "epoch": 3.050632911392405,
+      "grad_norm": 5.2546257972717285,
+      "learning_rate": 2.2693291013417453e-05,
+      "loss": 0.6983,
+      "step": 61
+    },
+    {
+      "epoch": 3.1012658227848102,
+      "grad_norm": 5.815437316894531,
+      "learning_rate": 2.1775019586744923e-05,
+      "loss": 0.9768,
+      "step": 62
+    },
+    {
+      "epoch": 3.151898734177215,
+      "grad_norm": 5.194660186767578,
+      "learning_rate": 2.0861153095396748e-05,
+      "loss": 0.6243,
+      "step": 63
+    },
+    {
+      "epoch": 3.2025316455696204,
+      "grad_norm": 4.012391567230225,
+      "learning_rate": 1.995293977107475e-05,
+      "loss": 0.469,
+      "step": 64
+    },
+    {
+      "epoch": 3.2531645569620253,
+      "grad_norm": 5.675468444824219,
+      "learning_rate": 1.9051620123934537e-05,
+      "loss": 0.6084,
+      "step": 65
+    },
+    {
+      "epoch": 3.3037974683544302,
+      "grad_norm": 5.8908209800720215,
+      "learning_rate": 1.815842524819793e-05,
+      "loss": 0.648,
+      "step": 66
+    },
+    {
+      "epoch": 3.3544303797468356,
+      "grad_norm": 7.725429534912109,
+      "learning_rate": 1.7274575140626318e-05,
+      "loss": 0.6949,
+      "step": 67
+    },
+    {
+      "epoch": 3.4050632911392404,
+      "grad_norm": 6.168173313140869,
+      "learning_rate": 1.6401277034151798e-05,
+      "loss": 0.9213,
+      "step": 68
+    },
+    {
+      "epoch": 3.4556962025316453,
+      "grad_norm": 6.947693347930908,
+      "learning_rate": 1.5539723748942245e-05,
+      "loss": 0.7397,
+      "step": 69
+    },
+    {
+      "epoch": 3.5063291139240507,
+      "grad_norm": 5.9794206619262695,
+      "learning_rate": 1.4691092063152417e-05,
+      "loss": 0.5009,
+      "step": 70
+    },
+    {
+      "epoch": 3.5569620253164556,
+      "grad_norm": 5.66774320602417,
+      "learning_rate": 1.3856541105586545e-05,
+      "loss": 0.5204,
+      "step": 71
+    },
+    {
+      "epoch": 3.607594936708861,
+      "grad_norm": 8.234807014465332,
+      "learning_rate": 1.303721077246784e-05,
+      "loss": 0.8793,
+      "step": 72
+    },
+    {
+      "epoch": 3.6582278481012658,
+      "grad_norm": 8.785400390625,
+      "learning_rate": 1.223422017047733e-05,
+      "loss": 0.6229,
+      "step": 73
+    },
+    {
+      "epoch": 3.708860759493671,
+      "grad_norm": 6.376526832580566,
+      "learning_rate": 1.1448666088188764e-05,
+      "loss": 0.6154,
+      "step": 74
+    },
+    {
+      "epoch": 3.759493670886076,
+      "grad_norm": 7.004448413848877,
+      "learning_rate": 1.068162149798737e-05,
+      "loss": 0.7203,
+      "step": 75
+    },
+    {
+      "epoch": 3.810126582278481,
+      "grad_norm": 5.858279705047607,
+      "learning_rate": 9.934134090518593e-06,
+      "loss": 0.5153,
+      "step": 76
+    },
+    {
+      "epoch": 3.8607594936708862,
+      "grad_norm": 7.578220844268799,
+      "learning_rate": 9.207224843668732e-06,
+      "loss": 0.7153,
+      "step": 77
+    },
+    {
+      "epoch": 3.911392405063291,
+      "grad_norm": 7.869601249694824,
+      "learning_rate": 8.50188662803194e-06,
+      "loss": 0.6988,
+      "step": 78
+    },
+    {
+      "epoch": 3.962025316455696,
+      "grad_norm": 6.777385234832764,
+      "learning_rate": 7.819082850768434e-06,
+      "loss": 0.6007,
+      "step": 79
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 6.161752223968506,
+      "learning_rate": 7.159746139706194e-06,
+      "loss": 0.4779,
+      "step": 80
+    },
+    {
+      "epoch": 4.050632911392405,
+      "grad_norm": 5.206139087677002,
+      "learning_rate": 6.524777069483526e-06,
+      "loss": 0.4173,
+      "step": 81
+    },
+    {
+      "epoch": 4.10126582278481,
+      "grad_norm": 4.832441329956055,
+      "learning_rate": 5.915042931472425e-06,
+      "loss": 0.4491,
+      "step": 82
+    },
+    {
+      "epoch": 4.151898734177215,
+      "grad_norm": 4.783233165740967,
+      "learning_rate": 5.33137654916292e-06,
+      "loss": 0.3311,
+      "step": 83
+    },
+    {
+      "epoch": 4.2025316455696204,
+      "grad_norm": 3.099482536315918,
+      "learning_rate": 4.7745751406263165e-06,
+      "loss": 0.2116,
+      "step": 84
+    },
+    {
+      "epoch": 4.253164556962025,
+      "grad_norm": 5.326932907104492,
+      "learning_rate": 4.245399229611238e-06,
+      "loss": 0.3897,
+      "step": 85
+    },
+    {
+      "epoch": 4.30379746835443,
+      "grad_norm": 4.431222915649414,
+      "learning_rate": 3.7445716067596503e-06,
+      "loss": 0.4973,
+      "step": 86
+    },
+    {
+      "epoch": 4.3544303797468356,
+      "grad_norm": 4.217422008514404,
+      "learning_rate": 3.2727763423617913e-06,
+      "loss": 0.182,
+      "step": 87
+    },
+    {
+      "epoch": 4.405063291139241,
+      "grad_norm": 5.346303462982178,
+      "learning_rate": 2.8306578519984527e-06,
+      "loss": 0.5239,
+      "step": 88
+    },
+    {
+      "epoch": 4.455696202531645,
+      "grad_norm": 8.100042343139648,
+      "learning_rate": 2.418820016346779e-06,
+      "loss": 0.2284,
+      "step": 89
+    },
+    {
+      "epoch": 4.506329113924051,
+      "grad_norm": 4.507992267608643,
+      "learning_rate": 2.0378253563519247e-06,
+      "loss": 0.3344,
+      "step": 90
+    },
+    {
+      "epoch": 4.556962025316456,
+      "grad_norm": 4.841477394104004,
+      "learning_rate": 1.6881942648911076e-06,
+      "loss": 0.2872,
+      "step": 91
+    },
+    {
+      "epoch": 4.6075949367088604,
+      "grad_norm": 4.839809417724609,
+      "learning_rate": 1.3704042959795132e-06,
+      "loss": 0.5436,
+      "step": 92
+    },
+    {
+      "epoch": 4.658227848101266,
+      "grad_norm": 3.7410666942596436,
+      "learning_rate": 1.0848895124889818e-06,
+      "loss": 0.3488,
+      "step": 93
+    },
+    {
+      "epoch": 4.708860759493671,
+      "grad_norm": 5.837460041046143,
+      "learning_rate": 8.320398932703144e-07,
+      "loss": 0.458,
+      "step": 94
+    },
+    {
+      "epoch": 4.759493670886076,
+      "grad_norm": 5.102079391479492,
+      "learning_rate": 6.122008004890851e-07,
+      "loss": 0.2965,
+      "step": 95
+    },
+    {
+      "epoch": 4.810126582278481,
+      "grad_norm": 4.543964385986328,
+      "learning_rate": 4.256725079024554e-07,
+      "loss": 0.2352,
+      "step": 96
+    },
+    {
+      "epoch": 4.860759493670886,
+      "grad_norm": 4.671619415283203,
+      "learning_rate": 2.7270979072135104e-07,
+      "loss": 0.3958,
+      "step": 97
+    },
+    {
+      "epoch": 4.911392405063291,
+      "grad_norm": 5.004724979400635,
+      "learning_rate": 1.5352157761815977e-07,
+      "loss": 0.3075,
+      "step": 98
+    },
+    {
+      "epoch": 4.962025316455696,
+      "grad_norm": 4.00545597076416,
+      "learning_rate": 6.827066535529946e-08,
+      "loss": 0.3152,
+      "step": 99
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 5.139050483703613,
+      "learning_rate": 1.7073496424427348e-08,
+      "loss": 0.1744,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.0794717131554816e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null