Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8ee894b1399084864bd0049133f814ef9c1956dd17ec3efed13bfc31417de8b
 size 93608

 version https://git-lfs.github.com/spec/v1
+oid sha256:56508a28a224d79b333cc640bb5a3faaee90aa64c9644edcfc2dcfb90c8466d9
 size 93608

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd52f649ddd97046e048c81eff02f483234a5a9741471ca72b80bf94f32fe521
 size 197158

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cf687933d5c42692bfe2cfc1c7b595b0eb20616bc2d533a40d021d971823277
 size 197158

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff03446445e0221dc3ab0d8332cc0c859b75471c23fd0d255d66e2d9c7fdc9ce
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6424ee6f355afc8e9cea008e1d2c45067ec92d5afec48fc30d957681089aa85c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.919342994689941,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.09103322712790168,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 183.579,
       "eval_steps_per_second": 46.044,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 241041408000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.917658805847168,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.18206645425580337,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 183.579,
       "eval_steps_per_second": 46.044,
       "step": 50
+    },
+    {
+      "epoch": 0.09285389167045972,
+      "grad_norm": 0.06608626991510391,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 11.9245,
+      "step": 51
+    },
+    {
+      "epoch": 0.09467455621301775,
+      "grad_norm": 0.07884740829467773,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 11.9238,
+      "step": 52
+    },
+    {
+      "epoch": 0.09649522075557579,
+      "grad_norm": 0.06321306526660919,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 11.9202,
+      "step": 53
+    },
+    {
+      "epoch": 0.09831588529813381,
+      "grad_norm": 0.08037225157022476,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 11.9244,
+      "step": 54
+    },
+    {
+      "epoch": 0.10013654984069185,
+      "grad_norm": 0.06967957317829132,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 11.9206,
+      "step": 55
+    },
+    {
+      "epoch": 0.10195721438324988,
+      "grad_norm": 0.06570564955472946,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 11.9239,
+      "step": 56
+    },
+    {
+      "epoch": 0.10377787892580792,
+      "grad_norm": 0.066615529358387,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 11.9257,
+      "step": 57
+    },
+    {
+      "epoch": 0.10559854346836596,
+      "grad_norm": 0.06762253493070602,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 11.9227,
+      "step": 58
+    },
+    {
+      "epoch": 0.10741920801092399,
+      "grad_norm": 0.06794265657663345,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 11.92,
+      "step": 59
+    },
+    {
+      "epoch": 0.10923987255348203,
+      "grad_norm": 0.054183103144168854,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 11.9229,
+      "step": 60
+    },
+    {
+      "epoch": 0.11106053709604005,
+      "grad_norm": 0.047181401401758194,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 11.9231,
+      "step": 61
+    },
+    {
+      "epoch": 0.11288120163859809,
+      "grad_norm": 0.0388273261487484,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 11.9231,
+      "step": 62
+    },
+    {
+      "epoch": 0.11470186618115612,
+      "grad_norm": 0.07356078177690506,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 11.9207,
+      "step": 63
+    },
+    {
+      "epoch": 0.11652253072371416,
+      "grad_norm": 0.060196008533239365,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 11.9203,
+      "step": 64
+    },
+    {
+      "epoch": 0.11834319526627218,
+      "grad_norm": 0.03406398370862007,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 11.9185,
+      "step": 65
+    },
+    {
+      "epoch": 0.12016385980883022,
+      "grad_norm": 0.04454463720321655,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 11.9204,
+      "step": 66
+    },
+    {
+      "epoch": 0.12198452435138826,
+      "grad_norm": 0.06781654059886932,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 11.9255,
+      "step": 67
+    },
+    {
+      "epoch": 0.12380518889394629,
+      "grad_norm": 0.03592757135629654,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 11.9213,
+      "step": 68
+    },
+    {
+      "epoch": 0.12562585343650431,
+      "grad_norm": 0.053486570715904236,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 11.9207,
+      "step": 69
+    },
+    {
+      "epoch": 0.12744651797906237,
+      "grad_norm": 0.045916493982076645,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 11.9186,
+      "step": 70
+    },
+    {
+      "epoch": 0.1292671825216204,
+      "grad_norm": 0.029214372858405113,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 11.9198,
+      "step": 71
+    },
+    {
+      "epoch": 0.13108784706417842,
+      "grad_norm": 0.04013194516301155,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 11.9189,
+      "step": 72
+    },
+    {
+      "epoch": 0.13290851160673645,
+      "grad_norm": 0.05094152316451073,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 11.9216,
+      "step": 73
+    },
+    {
+      "epoch": 0.1347291761492945,
+      "grad_norm": 0.05009616166353226,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 11.9178,
+      "step": 74
+    },
+    {
+      "epoch": 0.13654984069185253,
+      "grad_norm": 0.030104748904705048,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 11.9162,
+      "step": 75
+    },
+    {
+      "epoch": 0.13837050523441055,
+      "grad_norm": 0.07186371088027954,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 11.919,
+      "step": 76
+    },
+    {
+      "epoch": 0.1401911697769686,
+      "grad_norm": 0.04096841439604759,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 11.9182,
+      "step": 77
+    },
+    {
+      "epoch": 0.14201183431952663,
+      "grad_norm": 0.04554932937026024,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 11.9147,
+      "step": 78
+    },
+    {
+      "epoch": 0.14383249886208466,
+      "grad_norm": 0.036361921578645706,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 11.9184,
+      "step": 79
+    },
+    {
+      "epoch": 0.14565316340464268,
+      "grad_norm": 0.03751020133495331,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 11.9168,
+      "step": 80
+    },
+    {
+      "epoch": 0.14747382794720074,
+      "grad_norm": 0.033168449997901917,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 11.9182,
+      "step": 81
+    },
+    {
+      "epoch": 0.14929449248975876,
+      "grad_norm": 0.02722890116274357,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 11.9191,
+      "step": 82
+    },
+    {
+      "epoch": 0.1511151570323168,
+      "grad_norm": 0.048928141593933105,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 11.9201,
+      "step": 83
+    },
+    {
+      "epoch": 0.15293582157487484,
+      "grad_norm": 0.06329765170812607,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 11.9189,
+      "step": 84
+    },
+    {
+      "epoch": 0.15475648611743287,
+      "grad_norm": 0.04730033501982689,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 11.9143,
+      "step": 85
+    },
+    {
+      "epoch": 0.1565771506599909,
+      "grad_norm": 0.06353859603404999,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 11.9123,
+      "step": 86
+    },
+    {
+      "epoch": 0.15839781520254892,
+      "grad_norm": 0.06514666229486465,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 11.9186,
+      "step": 87
+    },
+    {
+      "epoch": 0.16021847974510697,
+      "grad_norm": 0.06427396088838577,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 11.9153,
+      "step": 88
+    },
+    {
+      "epoch": 0.162039144287665,
+      "grad_norm": 0.04870816320180893,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 11.9147,
+      "step": 89
+    },
+    {
+      "epoch": 0.16385980883022302,
+      "grad_norm": 0.058200716972351074,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 11.9163,
+      "step": 90
+    },
+    {
+      "epoch": 0.16568047337278108,
+      "grad_norm": 0.05362579971551895,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 11.9166,
+      "step": 91
+    },
+    {
+      "epoch": 0.1675011379153391,
+      "grad_norm": 0.06777684390544891,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 11.9144,
+      "step": 92
+    },
+    {
+      "epoch": 0.16932180245789713,
+      "grad_norm": 0.06118669733405113,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 11.9148,
+      "step": 93
+    },
+    {
+      "epoch": 0.17114246700045516,
+      "grad_norm": 0.06644754856824875,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 11.9175,
+      "step": 94
+    },
+    {
+      "epoch": 0.1729631315430132,
+      "grad_norm": 0.04351932927966118,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 11.9143,
+      "step": 95
+    },
+    {
+      "epoch": 0.17478379608557124,
+      "grad_norm": 0.09682610630989075,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 11.9128,
+      "step": 96
+    },
+    {
+      "epoch": 0.17660446062812926,
+      "grad_norm": 0.11314849555492401,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 11.9112,
+      "step": 97
+    },
+    {
+      "epoch": 0.1784251251706873,
+      "grad_norm": 0.09338361769914627,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 11.9097,
+      "step": 98
+    },
+    {
+      "epoch": 0.18024578971324534,
+      "grad_norm": 0.10834107547998428,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 11.9166,
+      "step": 99
+    },
+    {
+      "epoch": 0.18206645425580337,
+      "grad_norm": 0.179707333445549,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 11.9038,
+      "step": 100
+    },
+    {
+      "epoch": 0.18206645425580337,
+      "eval_loss": 11.917658805847168,
+      "eval_runtime": 5.0402,
+      "eval_samples_per_second": 183.523,
+      "eval_steps_per_second": 46.03,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 482082816000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null