Training in progress, epoch 2, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +235 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4054fc3341df3ec62ad23eb40df504bf559ae3fe109c9358a6fe2fbe13c2b5db
 size 203456160

 version https://git-lfs.github.com/spec/v1
+oid sha256:19769e701871b2260697dc643ec4aea0abcb07d9627dba6d33b1c35448ed5445
 size 203456160

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7de5b56bb44d80a59d57ae0d74443cf71e7c3a04fcea2547755d8ae3f6ab98b
 size 407127126

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb487adb67e963378b094acda99d82a64ef2abc767c999372efcbae9e57b9d17
 size 407127126

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4d2e3c9c2c299605f839dd9681034a9a825180b34e15be15b76272f4fb00418
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d90778219ded8bedf9ad8925e5a21e1a56e10161eb0795f8ee240c5509e0b12
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6dfefdd350a9c50a5ce8f17f77222cc43ade97bd1bc4dfe20825b1649c6776a6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:891cad020bf7bee78efa739dc10e1e4315e34b096ed70226b38590ec81d7d418
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9988177339901478,
   "eval_steps": 500,
-  "global_step": 1268,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1274,6 +1274,237 @@
       "learning_rate": 6.680041969810203e-06,
       "loss": 0.5927,
       "step": 1267
     }
   ],
   "logging_steps": 7,
@@ -1288,12 +1519,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.41863001276416e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.3645320197044333,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 6.680041969810203e-06,
       "loss": 0.5927,
       "step": 1267
+    },
+    {
+      "epoch": 2.0082758620689654,
+      "grad_norm": 0.2685578763484955,
+      "learning_rate": 6.293212171147206e-06,
+      "loss": 0.6135,
+      "step": 1274
+    },
+    {
+      "epoch": 2.0193103448275864,
+      "grad_norm": 0.2770611047744751,
+      "learning_rate": 5.917166368382277e-06,
+      "loss": 0.5407,
+      "step": 1281
+    },
+    {
+      "epoch": 2.030344827586207,
+      "grad_norm": 0.2914046049118042,
+      "learning_rate": 5.5519973451903405e-06,
+      "loss": 0.543,
+      "step": 1288
+    },
+    {
+      "epoch": 2.0413793103448277,
+      "grad_norm": 0.29394814372062683,
+      "learning_rate": 5.197795201563743e-06,
+      "loss": 0.5353,
+      "step": 1295
+    },
+    {
+      "epoch": 2.0524137931034483,
+      "grad_norm": 0.28662681579589844,
+      "learning_rate": 4.8546473315813856e-06,
+      "loss": 0.5408,
+      "step": 1302
+    },
+    {
+      "epoch": 2.063448275862069,
+      "grad_norm": 0.28723788261413574,
+      "learning_rate": 4.522638401845547e-06,
+      "loss": 0.5296,
+      "step": 1309
+    },
+    {
+      "epoch": 2.0744827586206895,
+      "grad_norm": 0.29902586340904236,
+      "learning_rate": 4.2018503305916775e-06,
+      "loss": 0.5273,
+      "step": 1316
+    },
+    {
+      "epoch": 2.08551724137931,
+      "grad_norm": 0.28761228919029236,
+      "learning_rate": 3.892362267476313e-06,
+      "loss": 0.5336,
+      "step": 1323
+    },
+    {
+      "epoch": 2.0965517241379312,
+      "grad_norm": 0.2887546420097351,
+      "learning_rate": 3.5942505740480582e-06,
+      "loss": 0.537,
+      "step": 1330
+    },
+    {
+      "epoch": 2.107586206896552,
+      "grad_norm": 0.28455686569213867,
+      "learning_rate": 3.3075888049065196e-06,
+      "loss": 0.5369,
+      "step": 1337
+    },
+    {
+      "epoch": 2.1186206896551725,
+      "grad_norm": 0.2921008765697479,
+      "learning_rate": 3.03244768955383e-06,
+      "loss": 0.5376,
+      "step": 1344
+    },
+    {
+      "epoch": 2.129655172413793,
+      "grad_norm": 0.28860318660736084,
+      "learning_rate": 2.7688951149431595e-06,
+      "loss": 0.5451,
+      "step": 1351
+    },
+    {
+      "epoch": 2.1406896551724137,
+      "grad_norm": 0.29887181520462036,
+      "learning_rate": 2.5169961087286974e-06,
+      "loss": 0.5403,
+      "step": 1358
+    },
+    {
+      "epoch": 2.1517241379310343,
+      "grad_norm": 0.2972882091999054,
+      "learning_rate": 2.276812823220964e-06,
+      "loss": 0.5478,
+      "step": 1365
+    },
+    {
+      "epoch": 2.162758620689655,
+      "grad_norm": 0.2919308841228485,
+      "learning_rate": 2.048404520051722e-06,
+      "loss": 0.526,
+      "step": 1372
+    },
+    {
+      "epoch": 2.173793103448276,
+      "grad_norm": 0.2883777320384979,
+      "learning_rate": 1.8318275555520237e-06,
+      "loss": 0.536,
+      "step": 1379
+    },
+    {
+      "epoch": 2.1848275862068967,
+      "grad_norm": 0.29888492822647095,
+      "learning_rate": 1.6271353668471655e-06,
+      "loss": 0.5425,
+      "step": 1386
+    },
+    {
+      "epoch": 2.1958620689655173,
+      "grad_norm": 0.2822500765323639,
+      "learning_rate": 1.4343784586718311e-06,
+      "loss": 0.5325,
+      "step": 1393
+    },
+    {
+      "epoch": 2.206896551724138,
+      "grad_norm": 0.293379545211792,
+      "learning_rate": 1.2536043909088191e-06,
+      "loss": 0.5186,
+      "step": 1400
+    },
+    {
+      "epoch": 2.2179310344827585,
+      "grad_norm": 0.2903384864330292,
+      "learning_rate": 1.0848577668543802e-06,
+      "loss": 0.5306,
+      "step": 1407
+    },
+    {
+      "epoch": 2.228965517241379,
+      "grad_norm": 0.29725009202957153,
+      "learning_rate": 9.281802222129765e-07,
+      "loss": 0.5289,
+      "step": 1414
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 0.2786073684692383,
+      "learning_rate": 7.836104148243484e-07,
+      "loss": 0.5327,
+      "step": 1421
+    },
+    {
+      "epoch": 2.251034482758621,
+      "grad_norm": 0.288795530796051,
+      "learning_rate": 6.511840151252169e-07,
+      "loss": 0.5236,
+      "step": 1428
+    },
+    {
+      "epoch": 2.2620689655172415,
+      "grad_norm": 0.30113428831100464,
+      "learning_rate": 5.309336973481683e-07,
+      "loss": 0.5374,
+      "step": 1435
+    },
+    {
+      "epoch": 2.273103448275862,
+      "grad_norm": 0.29817473888397217,
+      "learning_rate": 4.228891314597694e-07,
+      "loss": 0.5509,
+      "step": 1442
+    },
+    {
+      "epoch": 2.2841379310344827,
+      "grad_norm": 0.2896219491958618,
+      "learning_rate": 3.2707697583995167e-07,
+      "loss": 0.5215,
+      "step": 1449
+    },
+    {
+      "epoch": 2.2951724137931033,
+      "grad_norm": 0.2960655391216278,
+      "learning_rate": 2.4352087070443895e-07,
+      "loss": 0.5299,
+      "step": 1456
+    },
+    {
+      "epoch": 2.306206896551724,
+      "grad_norm": 0.2985338270664215,
+      "learning_rate": 1.7224143227190236e-07,
+      "loss": 0.529,
+      "step": 1463
+    },
+    {
+      "epoch": 2.317241379310345,
+      "grad_norm": 0.3047700822353363,
+      "learning_rate": 1.132562476771959e-07,
+      "loss": 0.5408,
+      "step": 1470
+    },
+    {
+      "epoch": 2.3282758620689656,
+      "grad_norm": 0.2887052297592163,
+      "learning_rate": 6.657987063200533e-08,
+      "loss": 0.5317,
+      "step": 1477
+    },
+    {
+      "epoch": 2.3393103448275863,
+      "grad_norm": 0.2880987524986267,
+      "learning_rate": 3.2223817833931805e-08,
+      "loss": 0.533,
+      "step": 1484
+    },
+    {
+      "epoch": 2.350344827586207,
+      "grad_norm": 0.2891731262207031,
+      "learning_rate": 1.019656612492592e-08,
+      "loss": 0.533,
+      "step": 1491
+    },
+    {
+      "epoch": 2.3613793103448275,
+      "grad_norm": 0.2875867784023285,
+      "learning_rate": 5.035503997385949e-10,
+      "loss": 0.5369,
+      "step": 1498
     }
   ],
   "logging_steps": 7,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 9.9530601136128e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null