Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b0a4923a414900c582331fd22049f7de5ee0db7f8fd4d15b05d9cf5674225a1
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab04bf573bb548b14bc1e4c23c22e82709e2045080c9240f74bca41fed448b35
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cb6366d067a42b226a83492fbf77a22aba61796e9af1ef6a769638edcdc57f7
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:b164e1a32ffbf1d41ebd3d733213f5731c6b474578ae5e8f5250d25bbd5cb190
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08eedfae86f63fa911611647055804c535cf30b6ed10facd00c045870b8470e4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f5c150069ac4edb3b4fa5932ee41620b748c614c83563cbba626c7e7fbf790a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c47119bba3b27dbcf0f80983cad334d515880eace1437aa2031fd1681c9dc21
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:61638fd1c8ee876b663b88bf9611e79d360655e5839812fcd5fc993296ace5e9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1545641422271729,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.4728132387706856,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 9.262,
       "eval_steps_per_second": 2.335,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3371482531325542e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1165207624435425,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.7092198581560284,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.262,
       "eval_steps_per_second": 2.335,
       "step": 100
+    },
+    {
+      "epoch": 0.47754137115839246,
+      "grad_norm": 0.6622450351715088,
+      "learning_rate": 5.774490901070424e-05,
+      "loss": 1.2761,
+      "step": 101
+    },
+    {
+      "epoch": 0.48226950354609927,
+      "grad_norm": 0.49634912610054016,
+      "learning_rate": 5.697576694719616e-05,
+      "loss": 1.2634,
+      "step": 102
+    },
+    {
+      "epoch": 0.48699763593380613,
+      "grad_norm": 0.41559910774230957,
+      "learning_rate": 5.620493763066297e-05,
+      "loss": 1.2799,
+      "step": 103
+    },
+    {
+      "epoch": 0.491725768321513,
+      "grad_norm": 0.38408902287483215,
+      "learning_rate": 5.543260750427373e-05,
+      "loss": 1.1719,
+      "step": 104
+    },
+    {
+      "epoch": 0.49645390070921985,
+      "grad_norm": 0.3431536555290222,
+      "learning_rate": 5.465896337420359e-05,
+      "loss": 1.1056,
+      "step": 105
+    },
+    {
+      "epoch": 0.5011820330969267,
+      "grad_norm": 0.342176228761673,
+      "learning_rate": 5.3884192364450325e-05,
+      "loss": 1.2039,
+      "step": 106
+    },
+    {
+      "epoch": 0.5059101654846335,
+      "grad_norm": 0.37251392006874084,
+      "learning_rate": 5.3108481871574036e-05,
+      "loss": 1.223,
+      "step": 107
+    },
+    {
+      "epoch": 0.5106382978723404,
+      "grad_norm": 0.3797588646411896,
+      "learning_rate": 5.233201951937088e-05,
+      "loss": 1.1501,
+      "step": 108
+    },
+    {
+      "epoch": 0.5153664302600472,
+      "grad_norm": 0.3910278081893921,
+      "learning_rate": 5.155499311349185e-05,
+      "loss": 1.2336,
+      "step": 109
+    },
+    {
+      "epoch": 0.5200945626477541,
+      "grad_norm": 0.3525397479534149,
+      "learning_rate": 5.077759059601755e-05,
+      "loss": 1.1213,
+      "step": 110
+    },
+    {
+      "epoch": 0.524822695035461,
+      "grad_norm": 0.3806985020637512,
+      "learning_rate": 5e-05,
+      "loss": 1.2013,
+      "step": 111
+    },
+    {
+      "epoch": 0.5295508274231678,
+      "grad_norm": 0.38082411885261536,
+      "learning_rate": 4.9222409403982453e-05,
+      "loss": 1.1766,
+      "step": 112
+    },
+    {
+      "epoch": 0.5342789598108747,
+      "grad_norm": 0.35277897119522095,
+      "learning_rate": 4.844500688650816e-05,
+      "loss": 1.1419,
+      "step": 113
+    },
+    {
+      "epoch": 0.5390070921985816,
+      "grad_norm": 0.3725706934928894,
+      "learning_rate": 4.7667980480629124e-05,
+      "loss": 1.1276,
+      "step": 114
+    },
+    {
+      "epoch": 0.5437352245862884,
+      "grad_norm": 0.3541959226131439,
+      "learning_rate": 4.6891518128425976e-05,
+      "loss": 1.0653,
+      "step": 115
+    },
+    {
+      "epoch": 0.5484633569739953,
+      "grad_norm": 0.371341347694397,
+      "learning_rate": 4.611580763554969e-05,
+      "loss": 1.1224,
+      "step": 116
+    },
+    {
+      "epoch": 0.5531914893617021,
+      "grad_norm": 0.38338702917099,
+      "learning_rate": 4.534103662579642e-05,
+      "loss": 1.1465,
+      "step": 117
+    },
+    {
+      "epoch": 0.557919621749409,
+      "grad_norm": 0.3807014226913452,
+      "learning_rate": 4.456739249572627e-05,
+      "loss": 1.1659,
+      "step": 118
+    },
+    {
+      "epoch": 0.5626477541371159,
+      "grad_norm": 0.38342806696891785,
+      "learning_rate": 4.3795062369337034e-05,
+      "loss": 1.1965,
+      "step": 119
+    },
+    {
+      "epoch": 0.5673758865248227,
+      "grad_norm": 0.39216044545173645,
+      "learning_rate": 4.3024233052803855e-05,
+      "loss": 1.2172,
+      "step": 120
+    },
+    {
+      "epoch": 0.5721040189125296,
+      "grad_norm": 0.383404016494751,
+      "learning_rate": 4.2255090989295764e-05,
+      "loss": 1.1739,
+      "step": 121
+    },
+    {
+      "epoch": 0.5768321513002365,
+      "grad_norm": 0.38151639699935913,
+      "learning_rate": 4.148782221388007e-05,
+      "loss": 1.0698,
+      "step": 122
+    },
+    {
+      "epoch": 0.5815602836879432,
+      "grad_norm": 0.35033509135246277,
+      "learning_rate": 4.0722612308525335e-05,
+      "loss": 1.121,
+      "step": 123
+    },
+    {
+      "epoch": 0.5862884160756501,
+      "grad_norm": 0.36325815320014954,
+      "learning_rate": 3.9959646357214084e-05,
+      "loss": 1.0989,
+      "step": 124
+    },
+    {
+      "epoch": 0.5910165484633569,
+      "grad_norm": 0.38052505254745483,
+      "learning_rate": 3.919910890117584e-05,
+      "loss": 1.0776,
+      "step": 125
+    },
+    {
+      "epoch": 0.5957446808510638,
+      "grad_norm": 0.3674011826515198,
+      "learning_rate": 3.844118389425153e-05,
+      "loss": 1.12,
+      "step": 126
+    },
+    {
+      "epoch": 0.6004728132387707,
+      "grad_norm": 0.3708929717540741,
+      "learning_rate": 3.7686054658399935e-05,
+      "loss": 1.1564,
+      "step": 127
+    },
+    {
+      "epoch": 0.6052009456264775,
+      "grad_norm": 0.37105265259742737,
+      "learning_rate": 3.693390383935698e-05,
+      "loss": 1.1331,
+      "step": 128
+    },
+    {
+      "epoch": 0.6099290780141844,
+      "grad_norm": 0.38267219066619873,
+      "learning_rate": 3.618491336245849e-05,
+      "loss": 1.0379,
+      "step": 129
+    },
+    {
+      "epoch": 0.6146572104018913,
+      "grad_norm": 0.3863324522972107,
+      "learning_rate": 3.5439264388637405e-05,
+      "loss": 1.1361,
+      "step": 130
+    },
+    {
+      "epoch": 0.6193853427895981,
+      "grad_norm": 0.3742581307888031,
+      "learning_rate": 3.469713727060564e-05,
+      "loss": 1.0579,
+      "step": 131
+    },
+    {
+      "epoch": 0.624113475177305,
+      "grad_norm": 0.3845396041870117,
+      "learning_rate": 3.395871150923163e-05,
+      "loss": 1.0839,
+      "step": 132
+    },
+    {
+      "epoch": 0.6288416075650118,
+      "grad_norm": 0.4115036129951477,
+      "learning_rate": 3.3224165710123756e-05,
+      "loss": 1.1757,
+      "step": 133
+    },
+    {
+      "epoch": 0.6335697399527187,
+      "grad_norm": 0.39382243156433105,
+      "learning_rate": 3.249367754043047e-05,
+      "loss": 1.1352,
+      "step": 134
+    },
+    {
+      "epoch": 0.6382978723404256,
+      "grad_norm": 0.39766818284988403,
+      "learning_rate": 3.176742368586725e-05,
+      "loss": 1.1353,
+      "step": 135
+    },
+    {
+      "epoch": 0.6430260047281324,
+      "grad_norm": 0.3955276310443878,
+      "learning_rate": 3.104557980798104e-05,
+      "loss": 1.1329,
+      "step": 136
+    },
+    {
+      "epoch": 0.6477541371158393,
+      "grad_norm": 0.4006507396697998,
+      "learning_rate": 3.032832050166239e-05,
+      "loss": 1.0925,
+      "step": 137
+    },
+    {
+      "epoch": 0.6524822695035462,
+      "grad_norm": 0.37227386236190796,
+      "learning_rate": 2.9615819252915565e-05,
+      "loss": 1.0568,
+      "step": 138
+    },
+    {
+      "epoch": 0.6572104018912529,
+      "grad_norm": 0.4012226462364197,
+      "learning_rate": 2.890824839689689e-05,
+      "loss": 1.1103,
+      "step": 139
+    },
+    {
+      "epoch": 0.6619385342789598,
+      "grad_norm": 0.398710697889328,
+      "learning_rate": 2.8205779076231447e-05,
+      "loss": 1.086,
+      "step": 140
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.38928738236427307,
+      "learning_rate": 2.750858119961821e-05,
+      "loss": 1.1066,
+      "step": 141
+    },
+    {
+      "epoch": 0.6713947990543735,
+      "grad_norm": 0.41606059670448303,
+      "learning_rate": 2.6816823400733625e-05,
+      "loss": 1.1212,
+      "step": 142
+    },
+    {
+      "epoch": 0.6761229314420804,
+      "grad_norm": 0.4255363345146179,
+      "learning_rate": 2.613067299744364e-05,
+      "loss": 1.0511,
+      "step": 143
+    },
+    {
+      "epoch": 0.6808510638297872,
+      "grad_norm": 0.422050416469574,
+      "learning_rate": 2.5450295951333896e-05,
+      "loss": 1.1598,
+      "step": 144
+    },
+    {
+      "epoch": 0.6855791962174941,
+      "grad_norm": 0.46749165654182434,
+      "learning_rate": 2.4775856827568016e-05,
+      "loss": 1.111,
+      "step": 145
+    },
+    {
+      "epoch": 0.6903073286052009,
+      "grad_norm": 0.4487079083919525,
+      "learning_rate": 2.410751875508373e-05,
+      "loss": 1.0855,
+      "step": 146
+    },
+    {
+      "epoch": 0.6950354609929078,
+      "grad_norm": 0.45914727449417114,
+      "learning_rate": 2.3445443387136244e-05,
+      "loss": 1.0781,
+      "step": 147
+    },
+    {
+      "epoch": 0.6997635933806147,
+      "grad_norm": 0.4794670045375824,
+      "learning_rate": 2.2789790862198628e-05,
+      "loss": 1.0906,
+      "step": 148
+    },
+    {
+      "epoch": 0.7044917257683215,
+      "grad_norm": 0.49251869320869446,
+      "learning_rate": 2.2140719765228584e-05,
+      "loss": 1.1217,
+      "step": 149
+    },
+    {
+      "epoch": 0.7092198581560284,
+      "grad_norm": 0.6213652491569519,
+      "learning_rate": 2.1498387089310868e-05,
+      "loss": 1.1458,
+      "step": 150
+    },
+    {
+      "epoch": 0.7092198581560284,
+      "eval_loss": 1.1165207624435425,
+      "eval_runtime": 38.5292,
+      "eval_samples_per_second": 9.266,
+      "eval_steps_per_second": 2.336,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.0057223796988314e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null