Training in progress, step 1800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38ca30b0a85dcd68fc0dbccc62f56ab8c9f5433e437fc9a0602109942006fbe4
 size 101752088

 version https://git-lfs.github.com/spec/v1
+oid sha256:90e27c540ff144b90538ab4cacac709849d64f98215dc906cc8c8baa494d1e74
 size 101752088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9eb0b3fdfdb8d78958652fd6819c6675c3094960a2dc507442cf2e610af75681
 size 203719079

 version https://git-lfs.github.com/spec/v1
+oid sha256:593a6dd089fbf47d216b98bdf9aaa1ff9d60e7d4765ca76f9bdee22e5bd99278
 size 203719079

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6692322f7c6e3bc68ee2a89437733e388ea9cbf749c02b54be14347a06832463
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:e32012078917f404c8f6386ecc9d3ec9e72ffb254583698b16b344fb93bcee60
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60267096a85446a4c770b4624a4ae7a18d27516875db8612976011f09d3850bc
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b2c2a41069cae9d886e84130c34f3e080d925a2566cc57a8f9380b6563f44c6
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2376049421827974,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1058,6 +1058,216 @@
       "learning_rate": 5.873969678568784e-05,
       "loss": 1.3405,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1077,7 +1287,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.9390380122112e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.28512593061935687,
   "eval_steps": 500,
+  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.873969678568784e-05,
       "loss": 1.3405,
       "step": 1500
+    },
+    {
+      "epoch": 0.2391889751306827,
+      "grad_norm": 0.8088416457176208,
+      "learning_rate": 5.816629811208112e-05,
+      "loss": 1.3383,
+      "step": 1510
+    },
+    {
+      "epoch": 0.24077300807856802,
+      "grad_norm": 0.7820030450820923,
+      "learning_rate": 5.759179385243224e-05,
+      "loss": 1.4342,
+      "step": 1520
+    },
+    {
+      "epoch": 0.24235704102645336,
+      "grad_norm": 0.7880681157112122,
+      "learning_rate": 5.701626178542158e-05,
+      "loss": 1.2435,
+      "step": 1530
+    },
+    {
+      "epoch": 0.24394107397433867,
+      "grad_norm": 0.7700749635696411,
+      "learning_rate": 5.643977982887815e-05,
+      "loss": 1.3295,
+      "step": 1540
+    },
+    {
+      "epoch": 0.24552510692222398,
+      "grad_norm": 0.8325817584991455,
+      "learning_rate": 5.586242602923081e-05,
+      "loss": 1.3995,
+      "step": 1550
+    },
+    {
+      "epoch": 0.2471091398701093,
+      "grad_norm": 0.9384058117866516,
+      "learning_rate": 5.528427855094206e-05,
+      "loss": 1.4681,
+      "step": 1560
+    },
+    {
+      "epoch": 0.2486931728179946,
+      "grad_norm": 0.8473599553108215,
+      "learning_rate": 5.470541566592573e-05,
+      "loss": 1.4149,
+      "step": 1570
+    },
+    {
+      "epoch": 0.2502772057658799,
+      "grad_norm": 0.8693270683288574,
+      "learning_rate": 5.4125915742950275e-05,
+      "loss": 1.3144,
+      "step": 1580
+    },
+    {
+      "epoch": 0.25186123871376526,
+      "grad_norm": 0.9569868445396423,
+      "learning_rate": 5.354585723702893e-05,
+      "loss": 1.4269,
+      "step": 1590
+    },
+    {
+      "epoch": 0.25344527166165054,
+      "grad_norm": 1.0059610605239868,
+      "learning_rate": 5.296531867879809e-05,
+      "loss": 1.404,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2550293046095359,
+      "grad_norm": 0.7387624979019165,
+      "learning_rate": 5.2384378663885545e-05,
+      "loss": 1.3275,
+      "step": 1610
+    },
+    {
+      "epoch": 0.2566133375574212,
+      "grad_norm": 0.7581918239593506,
+      "learning_rate": 5.180311584226991e-05,
+      "loss": 1.3166,
+      "step": 1620
+    },
+    {
+      "epoch": 0.2581973705053065,
+      "grad_norm": 0.9148341417312622,
+      "learning_rate": 5.1221608907632665e-05,
+      "loss": 1.3702,
+      "step": 1630
+    },
+    {
+      "epoch": 0.25978140345319184,
+      "grad_norm": 0.7988713383674622,
+      "learning_rate": 5.063993658670425e-05,
+      "loss": 1.2571,
+      "step": 1640
+    },
+    {
+      "epoch": 0.2613654364010771,
+      "grad_norm": 0.6659321188926697,
+      "learning_rate": 5.0058177628605795e-05,
+      "loss": 1.345,
+      "step": 1650
+    },
+    {
+      "epoch": 0.26294946934896246,
+      "grad_norm": 0.9008516073226929,
+      "learning_rate": 4.947641079418773e-05,
+      "loss": 1.3583,
+      "step": 1660
+    },
+    {
+      "epoch": 0.2645335022968478,
+      "grad_norm": 0.8323536515235901,
+      "learning_rate": 4.889471484536672e-05,
+      "loss": 1.3591,
+      "step": 1670
+    },
+    {
+      "epoch": 0.2661175352447331,
+      "grad_norm": 0.7164818644523621,
+      "learning_rate": 4.83131685344628e-05,
+      "loss": 1.3439,
+      "step": 1680
+    },
+    {
+      "epoch": 0.2677015681926184,
+      "grad_norm": 0.7881910800933838,
+      "learning_rate": 4.773185059353732e-05,
+      "loss": 1.3651,
+      "step": 1690
+    },
+    {
+      "epoch": 0.2692856011405037,
+      "grad_norm": 0.9037622213363647,
+      "learning_rate": 4.715083972373401e-05,
+      "loss": 1.3871,
+      "step": 1700
+    },
+    {
+      "epoch": 0.27086963408838904,
+      "grad_norm": 0.8563185930252075,
+      "learning_rate": 4.657021458462409e-05,
+      "loss": 1.4886,
+      "step": 1710
+    },
+    {
+      "epoch": 0.2724536670362743,
+      "grad_norm": 0.8638001084327698,
+      "learning_rate": 4.599005378355706e-05,
+      "loss": 1.4762,
+      "step": 1720
+    },
+    {
+      "epoch": 0.27403769998415967,
+      "grad_norm": 0.7504866123199463,
+      "learning_rate": 4.541043586501842e-05,
+      "loss": 1.2971,
+      "step": 1730
+    },
+    {
+      "epoch": 0.275621732932045,
+      "grad_norm": 0.786354660987854,
+      "learning_rate": 4.4831439299996084e-05,
+      "loss": 1.3203,
+      "step": 1740
+    },
+    {
+      "epoch": 0.2772057658799303,
+      "grad_norm": 0.7911379337310791,
+      "learning_rate": 4.425314247535668e-05,
+      "loss": 1.3526,
+      "step": 1750
+    },
+    {
+      "epoch": 0.2787897988278156,
+      "grad_norm": 0.9542713165283203,
+      "learning_rate": 4.3675623683233135e-05,
+      "loss": 1.2415,
+      "step": 1760
+    },
+    {
+      "epoch": 0.2803738317757009,
+      "grad_norm": 0.7208961844444275,
+      "learning_rate": 4.309896111042529e-05,
+      "loss": 1.3313,
+      "step": 1770
+    },
+    {
+      "epoch": 0.28195786472358625,
+      "grad_norm": 0.8950613141059875,
+      "learning_rate": 4.252323282781453e-05,
+      "loss": 1.3802,
+      "step": 1780
+    },
+    {
+      "epoch": 0.2835418976714716,
+      "grad_norm": 0.7467291951179504,
+      "learning_rate": 4.1948516779794364e-05,
+      "loss": 1.4616,
+      "step": 1790
+    },
+    {
+      "epoch": 0.28512593061935687,
+      "grad_norm": 0.9284554719924927,
+      "learning_rate": 4.137489077371787e-05,
+      "loss": 1.3483,
+      "step": 1800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.92684561465344e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null