cilorku commited on
Commit
42071db
·
verified ·
1 Parent(s): f6c7247

Training in progress, step 600, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f0aa512886e44250e3698e28510a14e126747b7bde6d00bde0e5880134fba609
3
  size 671149168
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:16905b32bf7943d40655d3939b1929cd6e40288d9568ae477313136153979f32
3
  size 671149168
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ceeb47d15acda2aa69ef28322c64160dece461218575b468531794eb708932ed
3
  size 341314644
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:18f1fcd81b51e91dea03a7b04c426e640feeeca0d9e6d435497b2f53fceee566
3
  size 341314644
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:783fbbb8fa5849a9038c0f065d363f9b33ed71d004dd3f24476190e5fbc5d5cb
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c2c705e7d56717b5ca50e71396acdc675700f6b7650da47acb9e0cd931ab78aa
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:97217b203f1ec36d5ff0b43e1fbe7c384792a66d6e8afc16c5c4e545b12b1358
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c4b7d5ebd1d82824f6c080341b10910a5587a67df516cd4ded83038671436c74
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.7402325868606567,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-300",
4
- "epoch": 0.15643332029722332,
5
  "eval_steps": 150,
6
- "global_step": 300,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2131,6 +2131,2122 @@
2131
  "eval_samples_per_second": 19.795,
2132
  "eval_steps_per_second": 4.949,
2133
  "step": 300
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2134
  }
2135
  ],
2136
  "logging_steps": 1,
@@ -2154,12 +4270,12 @@
2154
  "should_evaluate": false,
2155
  "should_log": false,
2156
  "should_save": true,
2157
- "should_training_stop": false
2158
  },
2159
  "attributes": {}
2160
  }
2161
  },
2162
- "total_flos": 9.413124731374141e+17,
2163
  "train_batch_size": 16,
2164
  "trial_name": null,
2165
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.6509745717048645,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
+ "epoch": 0.31286664059444663,
5
  "eval_steps": 150,
6
+ "global_step": 600,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2131
  "eval_samples_per_second": 19.795,
2132
  "eval_steps_per_second": 4.949,
2133
  "step": 300
2134
+ },
2135
+ {
2136
+ "epoch": 0.15695476469821407,
2137
+ "grad_norm": 0.9152140617370605,
2138
+ "learning_rate": 8.999753262144806e-05,
2139
+ "loss": 0.4045,
2140
+ "step": 301
2141
+ },
2142
+ {
2143
+ "epoch": 0.1574762090992048,
2144
+ "grad_norm": 0.6910588145256042,
2145
+ "learning_rate": 8.999013075636805e-05,
2146
+ "loss": 0.3735,
2147
+ "step": 302
2148
+ },
2149
+ {
2150
+ "epoch": 0.15799765350019554,
2151
+ "grad_norm": 0.5631867051124573,
2152
+ "learning_rate": 8.997779521645793e-05,
2153
+ "loss": 0.2266,
2154
+ "step": 303
2155
+ },
2156
+ {
2157
+ "epoch": 0.1585190979011863,
2158
+ "grad_norm": 0.48377081751823425,
2159
+ "learning_rate": 8.996052735444863e-05,
2160
+ "loss": 0.2233,
2161
+ "step": 304
2162
+ },
2163
+ {
2164
+ "epoch": 0.15904054230217704,
2165
+ "grad_norm": 0.6671403646469116,
2166
+ "learning_rate": 8.993832906395582e-05,
2167
+ "loss": 0.358,
2168
+ "step": 305
2169
+ },
2170
+ {
2171
+ "epoch": 0.15956198670316776,
2172
+ "grad_norm": 0.8236808180809021,
2173
+ "learning_rate": 8.991120277927223e-05,
2174
+ "loss": 0.4056,
2175
+ "step": 306
2176
+ },
2177
+ {
2178
+ "epoch": 0.1600834311041585,
2179
+ "grad_norm": 1.044965386390686,
2180
+ "learning_rate": 8.987915147510061e-05,
2181
+ "loss": 0.6135,
2182
+ "step": 307
2183
+ },
2184
+ {
2185
+ "epoch": 0.16060487550514926,
2186
+ "grad_norm": 1.1093504428863525,
2187
+ "learning_rate": 8.98421786662277e-05,
2188
+ "loss": 0.675,
2189
+ "step": 308
2190
+ },
2191
+ {
2192
+ "epoch": 0.16112631990614001,
2193
+ "grad_norm": 1.1360151767730713,
2194
+ "learning_rate": 8.98002884071386e-05,
2195
+ "loss": 0.7139,
2196
+ "step": 309
2197
+ },
2198
+ {
2199
+ "epoch": 0.16164776430713076,
2200
+ "grad_norm": 0.9347630739212036,
2201
+ "learning_rate": 8.97534852915723e-05,
2202
+ "loss": 0.5709,
2203
+ "step": 310
2204
+ },
2205
+ {
2206
+ "epoch": 0.1621692087081215,
2207
+ "grad_norm": 1.0603522062301636,
2208
+ "learning_rate": 8.970177445201784e-05,
2209
+ "loss": 0.6105,
2210
+ "step": 311
2211
+ },
2212
+ {
2213
+ "epoch": 0.16269065310911224,
2214
+ "grad_norm": 1.0385960340499878,
2215
+ "learning_rate": 8.964516155915151e-05,
2216
+ "loss": 0.6678,
2217
+ "step": 312
2218
+ },
2219
+ {
2220
+ "epoch": 0.163212097510103,
2221
+ "grad_norm": 1.2471129894256592,
2222
+ "learning_rate": 8.958365282121497e-05,
2223
+ "loss": 0.6955,
2224
+ "step": 313
2225
+ },
2226
+ {
2227
+ "epoch": 0.16373354191109374,
2228
+ "grad_norm": 1.2143276929855347,
2229
+ "learning_rate": 8.951725498333449e-05,
2230
+ "loss": 0.6995,
2231
+ "step": 314
2232
+ },
2233
+ {
2234
+ "epoch": 0.16425498631208446,
2235
+ "grad_norm": 1.2376823425292969,
2236
+ "learning_rate": 8.94459753267812e-05,
2237
+ "loss": 0.8036,
2238
+ "step": 315
2239
+ },
2240
+ {
2241
+ "epoch": 0.1647764307130752,
2242
+ "grad_norm": 1.17597234249115,
2243
+ "learning_rate": 8.936982166817273e-05,
2244
+ "loss": 0.7579,
2245
+ "step": 316
2246
+ },
2247
+ {
2248
+ "epoch": 0.16529787511406596,
2249
+ "grad_norm": 1.0826165676116943,
2250
+ "learning_rate": 8.928880235861588e-05,
2251
+ "loss": 0.6702,
2252
+ "step": 317
2253
+ },
2254
+ {
2255
+ "epoch": 0.1658193195150567,
2256
+ "grad_norm": 1.3289791345596313,
2257
+ "learning_rate": 8.9202926282791e-05,
2258
+ "loss": 0.8136,
2259
+ "step": 318
2260
+ },
2261
+ {
2262
+ "epoch": 0.16634076391604746,
2263
+ "grad_norm": 1.95395827293396,
2264
+ "learning_rate": 8.911220285797748e-05,
2265
+ "loss": 0.8678,
2266
+ "step": 319
2267
+ },
2268
+ {
2269
+ "epoch": 0.16686220831703819,
2270
+ "grad_norm": 1.2291593551635742,
2271
+ "learning_rate": 8.901664203302126e-05,
2272
+ "loss": 0.7329,
2273
+ "step": 320
2274
+ },
2275
+ {
2276
+ "epoch": 0.16738365271802894,
2277
+ "grad_norm": 1.111344337463379,
2278
+ "learning_rate": 8.891625428724365e-05,
2279
+ "loss": 0.7421,
2280
+ "step": 321
2281
+ },
2282
+ {
2283
+ "epoch": 0.1679050971190197,
2284
+ "grad_norm": 1.2865890264511108,
2285
+ "learning_rate": 8.881105062929222e-05,
2286
+ "loss": 0.8722,
2287
+ "step": 322
2288
+ },
2289
+ {
2290
+ "epoch": 0.16842654152001044,
2291
+ "grad_norm": 1.30595064163208,
2292
+ "learning_rate": 8.870104259593363e-05,
2293
+ "loss": 0.8715,
2294
+ "step": 323
2295
+ },
2296
+ {
2297
+ "epoch": 0.1689479859210012,
2298
+ "grad_norm": 1.0691040754318237,
2299
+ "learning_rate": 8.858624225078841e-05,
2300
+ "loss": 0.6839,
2301
+ "step": 324
2302
+ },
2303
+ {
2304
+ "epoch": 0.1694694303219919,
2305
+ "grad_norm": 1.2839759588241577,
2306
+ "learning_rate": 8.846666218300807e-05,
2307
+ "loss": 0.7865,
2308
+ "step": 325
2309
+ },
2310
+ {
2311
+ "epoch": 0.16999087472298266,
2312
+ "grad_norm": 1.0126097202301025,
2313
+ "learning_rate": 8.834231550589462e-05,
2314
+ "loss": 0.6566,
2315
+ "step": 326
2316
+ },
2317
+ {
2318
+ "epoch": 0.1705123191239734,
2319
+ "grad_norm": 1.189987301826477,
2320
+ "learning_rate": 8.821321585546244e-05,
2321
+ "loss": 0.7741,
2322
+ "step": 327
2323
+ },
2324
+ {
2325
+ "epoch": 0.17103376352496416,
2326
+ "grad_norm": 1.129711389541626,
2327
+ "learning_rate": 8.807937738894302e-05,
2328
+ "loss": 0.6625,
2329
+ "step": 328
2330
+ },
2331
+ {
2332
+ "epoch": 0.17155520792595488,
2333
+ "grad_norm": 1.4810699224472046,
2334
+ "learning_rate": 8.794081478323246e-05,
2335
+ "loss": 0.8111,
2336
+ "step": 329
2337
+ },
2338
+ {
2339
+ "epoch": 0.17207665232694563,
2340
+ "grad_norm": 1.334193468093872,
2341
+ "learning_rate": 8.779754323328193e-05,
2342
+ "loss": 0.7845,
2343
+ "step": 330
2344
+ },
2345
+ {
2346
+ "epoch": 0.17259809672793638,
2347
+ "grad_norm": 1.2970231771469116,
2348
+ "learning_rate": 8.764957845043137e-05,
2349
+ "loss": 0.7514,
2350
+ "step": 331
2351
+ },
2352
+ {
2353
+ "epoch": 0.17311954112892713,
2354
+ "grad_norm": 1.3496140241622925,
2355
+ "learning_rate": 8.749693666068665e-05,
2356
+ "loss": 0.7859,
2357
+ "step": 332
2358
+ },
2359
+ {
2360
+ "epoch": 0.17364098552991789,
2361
+ "grad_norm": 1.1188700199127197,
2362
+ "learning_rate": 8.733963460294016e-05,
2363
+ "loss": 0.749,
2364
+ "step": 333
2365
+ },
2366
+ {
2367
+ "epoch": 0.1741624299309086,
2368
+ "grad_norm": 1.1531932353973389,
2369
+ "learning_rate": 8.717768952713513e-05,
2370
+ "loss": 0.7462,
2371
+ "step": 334
2372
+ },
2373
+ {
2374
+ "epoch": 0.17468387433189936,
2375
+ "grad_norm": 1.593352198600769,
2376
+ "learning_rate": 8.701111919237408e-05,
2377
+ "loss": 0.9956,
2378
+ "step": 335
2379
+ },
2380
+ {
2381
+ "epoch": 0.1752053187328901,
2382
+ "grad_norm": 1.2148069143295288,
2383
+ "learning_rate": 8.683994186497131e-05,
2384
+ "loss": 0.7376,
2385
+ "step": 336
2386
+ },
2387
+ {
2388
+ "epoch": 0.17572676313388086,
2389
+ "grad_norm": 1.196800708770752,
2390
+ "learning_rate": 8.666417631644977e-05,
2391
+ "loss": 0.8357,
2392
+ "step": 337
2393
+ },
2394
+ {
2395
+ "epoch": 0.17624820753487158,
2396
+ "grad_norm": 2.3671152591705322,
2397
+ "learning_rate": 8.648384182148252e-05,
2398
+ "loss": 0.802,
2399
+ "step": 338
2400
+ },
2401
+ {
2402
+ "epoch": 0.17676965193586233,
2403
+ "grad_norm": 1.3539149761199951,
2404
+ "learning_rate": 8.629895815577916e-05,
2405
+ "loss": 0.7685,
2406
+ "step": 339
2407
+ },
2408
+ {
2409
+ "epoch": 0.17729109633685308,
2410
+ "grad_norm": 1.4018131494522095,
2411
+ "learning_rate": 8.610954559391704e-05,
2412
+ "loss": 0.8006,
2413
+ "step": 340
2414
+ },
2415
+ {
2416
+ "epoch": 0.17781254073784383,
2417
+ "grad_norm": 1.288794994354248,
2418
+ "learning_rate": 8.59156249071181e-05,
2419
+ "loss": 0.7986,
2420
+ "step": 341
2421
+ },
2422
+ {
2423
+ "epoch": 0.17833398513883458,
2424
+ "grad_norm": 1.3666220903396606,
2425
+ "learning_rate": 8.571721736097089e-05,
2426
+ "loss": 0.8825,
2427
+ "step": 342
2428
+ },
2429
+ {
2430
+ "epoch": 0.1788554295398253,
2431
+ "grad_norm": 1.6995041370391846,
2432
+ "learning_rate": 8.551434471309872e-05,
2433
+ "loss": 0.7511,
2434
+ "step": 343
2435
+ },
2436
+ {
2437
+ "epoch": 0.17937687394081606,
2438
+ "grad_norm": 1.766118049621582,
2439
+ "learning_rate": 8.530702921077359e-05,
2440
+ "loss": 0.8466,
2441
+ "step": 344
2442
+ },
2443
+ {
2444
+ "epoch": 0.1798983183418068,
2445
+ "grad_norm": 1.5338678359985352,
2446
+ "learning_rate": 8.509529358847655e-05,
2447
+ "loss": 0.8606,
2448
+ "step": 345
2449
+ },
2450
+ {
2451
+ "epoch": 0.18041976274279756,
2452
+ "grad_norm": 1.4264774322509766,
2453
+ "learning_rate": 8.487916106540466e-05,
2454
+ "loss": 0.9154,
2455
+ "step": 346
2456
+ },
2457
+ {
2458
+ "epoch": 0.1809412071437883,
2459
+ "grad_norm": 1.4423105716705322,
2460
+ "learning_rate": 8.465865534292465e-05,
2461
+ "loss": 0.8203,
2462
+ "step": 347
2463
+ },
2464
+ {
2465
+ "epoch": 0.18146265154477903,
2466
+ "grad_norm": 1.6251096725463867,
2467
+ "learning_rate": 8.443380060197386e-05,
2468
+ "loss": 0.9229,
2469
+ "step": 348
2470
+ },
2471
+ {
2472
+ "epoch": 0.18198409594576978,
2473
+ "grad_norm": 1.8085907697677612,
2474
+ "learning_rate": 8.420462150040853e-05,
2475
+ "loss": 0.9639,
2476
+ "step": 349
2477
+ },
2478
+ {
2479
+ "epoch": 0.18250554034676053,
2480
+ "grad_norm": 1.7975590229034424,
2481
+ "learning_rate": 8.397114317029975e-05,
2482
+ "loss": 0.9465,
2483
+ "step": 350
2484
+ },
2485
+ {
2486
+ "epoch": 0.18302698474775128,
2487
+ "grad_norm": 0.7071613073348999,
2488
+ "learning_rate": 8.373339121517747e-05,
2489
+ "loss": 0.3601,
2490
+ "step": 351
2491
+ },
2492
+ {
2493
+ "epoch": 0.183548429148742,
2494
+ "grad_norm": 0.8708938360214233,
2495
+ "learning_rate": 8.34913917072228e-05,
2496
+ "loss": 0.4189,
2497
+ "step": 352
2498
+ },
2499
+ {
2500
+ "epoch": 0.18406987354973275,
2501
+ "grad_norm": 0.4563164710998535,
2502
+ "learning_rate": 8.324517118440889e-05,
2503
+ "loss": 0.2105,
2504
+ "step": 353
2505
+ },
2506
+ {
2507
+ "epoch": 0.1845913179507235,
2508
+ "grad_norm": 0.4798504114151001,
2509
+ "learning_rate": 8.299475664759068e-05,
2510
+ "loss": 0.1919,
2511
+ "step": 354
2512
+ },
2513
+ {
2514
+ "epoch": 0.18511276235171426,
2515
+ "grad_norm": 0.7082318663597107,
2516
+ "learning_rate": 8.274017555754409e-05,
2517
+ "loss": 0.3147,
2518
+ "step": 355
2519
+ },
2520
+ {
2521
+ "epoch": 0.185634206752705,
2522
+ "grad_norm": 0.7861395478248596,
2523
+ "learning_rate": 8.248145583195448e-05,
2524
+ "loss": 0.441,
2525
+ "step": 356
2526
+ },
2527
+ {
2528
+ "epoch": 0.18615565115369573,
2529
+ "grad_norm": 0.7495299577713013,
2530
+ "learning_rate": 8.221862584235528e-05,
2531
+ "loss": 0.4194,
2532
+ "step": 357
2533
+ },
2534
+ {
2535
+ "epoch": 0.18667709555468648,
2536
+ "grad_norm": 1.1042672395706177,
2537
+ "learning_rate": 8.195171441101669e-05,
2538
+ "loss": 0.6837,
2539
+ "step": 358
2540
+ },
2541
+ {
2542
+ "epoch": 0.18719853995567723,
2543
+ "grad_norm": 0.9663426280021667,
2544
+ "learning_rate": 8.168075080778494e-05,
2545
+ "loss": 0.5631,
2546
+ "step": 359
2547
+ },
2548
+ {
2549
+ "epoch": 0.18771998435666798,
2550
+ "grad_norm": 1.1327295303344727,
2551
+ "learning_rate": 8.140576474687264e-05,
2552
+ "loss": 0.7862,
2553
+ "step": 360
2554
+ },
2555
+ {
2556
+ "epoch": 0.1882414287576587,
2557
+ "grad_norm": 1.2756463289260864,
2558
+ "learning_rate": 8.112678638360016e-05,
2559
+ "loss": 0.755,
2560
+ "step": 361
2561
+ },
2562
+ {
2563
+ "epoch": 0.18876287315864945,
2564
+ "grad_norm": 1.0837277173995972,
2565
+ "learning_rate": 8.084384631108883e-05,
2566
+ "loss": 0.6897,
2567
+ "step": 362
2568
+ },
2569
+ {
2570
+ "epoch": 0.1892843175596402,
2571
+ "grad_norm": 1.006117343902588,
2572
+ "learning_rate": 8.055697555690607e-05,
2573
+ "loss": 0.708,
2574
+ "step": 363
2575
+ },
2576
+ {
2577
+ "epoch": 0.18980576196063095,
2578
+ "grad_norm": 1.0935845375061035,
2579
+ "learning_rate": 8.02662055796628e-05,
2580
+ "loss": 0.6253,
2581
+ "step": 364
2582
+ },
2583
+ {
2584
+ "epoch": 0.1903272063616217,
2585
+ "grad_norm": 1.0223681926727295,
2586
+ "learning_rate": 7.99715682655637e-05,
2587
+ "loss": 0.6429,
2588
+ "step": 365
2589
+ },
2590
+ {
2591
+ "epoch": 0.19084865076261243,
2592
+ "grad_norm": 1.057639718055725,
2593
+ "learning_rate": 7.967309592491052e-05,
2594
+ "loss": 0.7681,
2595
+ "step": 366
2596
+ },
2597
+ {
2598
+ "epoch": 0.19137009516360318,
2599
+ "grad_norm": 1.2563397884368896,
2600
+ "learning_rate": 7.937082128855891e-05,
2601
+ "loss": 0.7278,
2602
+ "step": 367
2603
+ },
2604
+ {
2605
+ "epoch": 0.19189153956459393,
2606
+ "grad_norm": 1.2409113645553589,
2607
+ "learning_rate": 7.906477750432904e-05,
2608
+ "loss": 0.6566,
2609
+ "step": 368
2610
+ },
2611
+ {
2612
+ "epoch": 0.19241298396558468,
2613
+ "grad_norm": 1.2019901275634766,
2614
+ "learning_rate": 7.875499813337069e-05,
2615
+ "loss": 0.8036,
2616
+ "step": 369
2617
+ },
2618
+ {
2619
+ "epoch": 0.1929344283665754,
2620
+ "grad_norm": 0.9332624077796936,
2621
+ "learning_rate": 7.844151714648274e-05,
2622
+ "loss": 0.5595,
2623
+ "step": 370
2624
+ },
2625
+ {
2626
+ "epoch": 0.19345587276756615,
2627
+ "grad_norm": 1.1587673425674438,
2628
+ "learning_rate": 7.812436892038805e-05,
2629
+ "loss": 0.6916,
2630
+ "step": 371
2631
+ },
2632
+ {
2633
+ "epoch": 0.1939773171685569,
2634
+ "grad_norm": 1.2590214014053345,
2635
+ "learning_rate": 7.780358823396352e-05,
2636
+ "loss": 0.7037,
2637
+ "step": 372
2638
+ },
2639
+ {
2640
+ "epoch": 0.19449876156954765,
2641
+ "grad_norm": 1.5824557542800903,
2642
+ "learning_rate": 7.747921026442631e-05,
2643
+ "loss": 0.8385,
2644
+ "step": 373
2645
+ },
2646
+ {
2647
+ "epoch": 0.1950202059705384,
2648
+ "grad_norm": 1.312893271446228,
2649
+ "learning_rate": 7.715127058347615e-05,
2650
+ "loss": 0.8146,
2651
+ "step": 374
2652
+ },
2653
+ {
2654
+ "epoch": 0.19554165037152912,
2655
+ "grad_norm": 1.2608100175857544,
2656
+ "learning_rate": 7.681980515339464e-05,
2657
+ "loss": 0.7516,
2658
+ "step": 375
2659
+ },
2660
+ {
2661
+ "epoch": 0.19606309477251987,
2662
+ "grad_norm": 1.1570591926574707,
2663
+ "learning_rate": 7.648485032310145e-05,
2664
+ "loss": 0.7294,
2665
+ "step": 376
2666
+ },
2667
+ {
2668
+ "epoch": 0.19658453917351063,
2669
+ "grad_norm": 1.0426164865493774,
2670
+ "learning_rate": 7.614644282416831e-05,
2671
+ "loss": 0.6835,
2672
+ "step": 377
2673
+ },
2674
+ {
2675
+ "epoch": 0.19710598357450138,
2676
+ "grad_norm": 1.0416784286499023,
2677
+ "learning_rate": 7.5804619766791e-05,
2678
+ "loss": 0.6097,
2679
+ "step": 378
2680
+ },
2681
+ {
2682
+ "epoch": 0.19762742797549213,
2683
+ "grad_norm": 1.2640820741653442,
2684
+ "learning_rate": 7.545941863571974e-05,
2685
+ "loss": 0.8251,
2686
+ "step": 379
2687
+ },
2688
+ {
2689
+ "epoch": 0.19814887237648285,
2690
+ "grad_norm": 1.1552680730819702,
2691
+ "learning_rate": 7.511087728614862e-05,
2692
+ "loss": 0.7257,
2693
+ "step": 380
2694
+ },
2695
+ {
2696
+ "epoch": 0.1986703167774736,
2697
+ "grad_norm": 1.2071866989135742,
2698
+ "learning_rate": 7.475903393956434e-05,
2699
+ "loss": 0.7659,
2700
+ "step": 381
2701
+ },
2702
+ {
2703
+ "epoch": 0.19919176117846435,
2704
+ "grad_norm": 1.2022343873977661,
2705
+ "learning_rate": 7.440392717955476e-05,
2706
+ "loss": 0.7332,
2707
+ "step": 382
2708
+ },
2709
+ {
2710
+ "epoch": 0.1997132055794551,
2711
+ "grad_norm": 1.2143396139144897,
2712
+ "learning_rate": 7.404559594757779e-05,
2713
+ "loss": 0.7158,
2714
+ "step": 383
2715
+ },
2716
+ {
2717
+ "epoch": 0.20023464998044582,
2718
+ "grad_norm": 1.2017430067062378,
2719
+ "learning_rate": 7.368407953869104e-05,
2720
+ "loss": 0.7293,
2721
+ "step": 384
2722
+ },
2723
+ {
2724
+ "epoch": 0.20075609438143657,
2725
+ "grad_norm": 1.0218538045883179,
2726
+ "learning_rate": 7.33194175972427e-05,
2727
+ "loss": 0.6618,
2728
+ "step": 385
2729
+ },
2730
+ {
2731
+ "epoch": 0.20127753878242732,
2732
+ "grad_norm": 1.1736619472503662,
2733
+ "learning_rate": 7.295165011252397e-05,
2734
+ "loss": 0.7843,
2735
+ "step": 386
2736
+ },
2737
+ {
2738
+ "epoch": 0.20179898318341807,
2739
+ "grad_norm": 1.3254735469818115,
2740
+ "learning_rate": 7.258081741438396e-05,
2741
+ "loss": 0.7968,
2742
+ "step": 387
2743
+ },
2744
+ {
2745
+ "epoch": 0.20232042758440882,
2746
+ "grad_norm": 1.1880550384521484,
2747
+ "learning_rate": 7.220696016880688e-05,
2748
+ "loss": 0.7715,
2749
+ "step": 388
2750
+ },
2751
+ {
2752
+ "epoch": 0.20284187198539955,
2753
+ "grad_norm": 1.1296610832214355,
2754
+ "learning_rate": 7.183011937345271e-05,
2755
+ "loss": 0.7269,
2756
+ "step": 389
2757
+ },
2758
+ {
2759
+ "epoch": 0.2033633163863903,
2760
+ "grad_norm": 1.3146663904190063,
2761
+ "learning_rate": 7.14503363531613e-05,
2762
+ "loss": 0.8085,
2763
+ "step": 390
2764
+ },
2765
+ {
2766
+ "epoch": 0.20388476078738105,
2767
+ "grad_norm": 1.3790757656097412,
2768
+ "learning_rate": 7.106765275542055e-05,
2769
+ "loss": 0.7678,
2770
+ "step": 391
2771
+ },
2772
+ {
2773
+ "epoch": 0.2044062051883718,
2774
+ "grad_norm": 1.2263914346694946,
2775
+ "learning_rate": 7.068211054579944e-05,
2776
+ "loss": 0.8242,
2777
+ "step": 392
2778
+ },
2779
+ {
2780
+ "epoch": 0.20492764958936252,
2781
+ "grad_norm": 1.492631196975708,
2782
+ "learning_rate": 7.029375200334588e-05,
2783
+ "loss": 0.9098,
2784
+ "step": 393
2785
+ },
2786
+ {
2787
+ "epoch": 0.20544909399035327,
2788
+ "grad_norm": 1.5877786874771118,
2789
+ "learning_rate": 6.99026197159505e-05,
2790
+ "loss": 0.9134,
2791
+ "step": 394
2792
+ },
2793
+ {
2794
+ "epoch": 0.20597053839134402,
2795
+ "grad_norm": 1.2312871217727661,
2796
+ "learning_rate": 6.950875657567623e-05,
2797
+ "loss": 0.7654,
2798
+ "step": 395
2799
+ },
2800
+ {
2801
+ "epoch": 0.20649198279233477,
2802
+ "grad_norm": 1.3052772283554077,
2803
+ "learning_rate": 6.911220577405484e-05,
2804
+ "loss": 0.7572,
2805
+ "step": 396
2806
+ },
2807
+ {
2808
+ "epoch": 0.20701342719332552,
2809
+ "grad_norm": 1.5820766687393188,
2810
+ "learning_rate": 6.87130107973505e-05,
2811
+ "loss": 0.9036,
2812
+ "step": 397
2813
+ },
2814
+ {
2815
+ "epoch": 0.20753487159431624,
2816
+ "grad_norm": 1.7080368995666504,
2817
+ "learning_rate": 6.831121542179087e-05,
2818
+ "loss": 0.8461,
2819
+ "step": 398
2820
+ },
2821
+ {
2822
+ "epoch": 0.208056315995307,
2823
+ "grad_norm": 1.7430877685546875,
2824
+ "learning_rate": 6.790686370876671e-05,
2825
+ "loss": 0.8611,
2826
+ "step": 399
2827
+ },
2828
+ {
2829
+ "epoch": 0.20857776039629775,
2830
+ "grad_norm": 1.6613725423812866,
2831
+ "learning_rate": 6.75e-05,
2832
+ "loss": 0.9955,
2833
+ "step": 400
2834
+ },
2835
+ {
2836
+ "epoch": 0.2090992047972885,
2837
+ "grad_norm": 1.153273105621338,
2838
+ "learning_rate": 6.709066891268135e-05,
2839
+ "loss": 0.3654,
2840
+ "step": 401
2841
+ },
2842
+ {
2843
+ "epoch": 0.20962064919827925,
2844
+ "grad_norm": 2.4963393211364746,
2845
+ "learning_rate": 6.667891533457719e-05,
2846
+ "loss": 0.508,
2847
+ "step": 402
2848
+ },
2849
+ {
2850
+ "epoch": 0.21014209359926997,
2851
+ "grad_norm": 0.5108705759048462,
2852
+ "learning_rate": 6.626478441910744e-05,
2853
+ "loss": 0.2177,
2854
+ "step": 403
2855
+ },
2856
+ {
2857
+ "epoch": 0.21066353800026072,
2858
+ "grad_norm": 0.3899039328098297,
2859
+ "learning_rate": 6.584832158039378e-05,
2860
+ "loss": 0.1517,
2861
+ "step": 404
2862
+ },
2863
+ {
2864
+ "epoch": 0.21118498240125147,
2865
+ "grad_norm": 0.6260213851928711,
2866
+ "learning_rate": 6.542957248827961e-05,
2867
+ "loss": 0.289,
2868
+ "step": 405
2869
+ },
2870
+ {
2871
+ "epoch": 0.21170642680224222,
2872
+ "grad_norm": 0.6745234727859497,
2873
+ "learning_rate": 6.500858306332174e-05,
2874
+ "loss": 0.3188,
2875
+ "step": 406
2876
+ },
2877
+ {
2878
+ "epoch": 0.21222787120323294,
2879
+ "grad_norm": 0.6891493797302246,
2880
+ "learning_rate": 6.458539947175475e-05,
2881
+ "loss": 0.3576,
2882
+ "step": 407
2883
+ },
2884
+ {
2885
+ "epoch": 0.2127493156042237,
2886
+ "grad_norm": 0.7363607287406921,
2887
+ "learning_rate": 6.416006812042828e-05,
2888
+ "loss": 0.45,
2889
+ "step": 408
2890
+ },
2891
+ {
2892
+ "epoch": 0.21327076000521444,
2893
+ "grad_norm": 0.8903110027313232,
2894
+ "learning_rate": 6.373263565171806e-05,
2895
+ "loss": 0.5986,
2896
+ "step": 409
2897
+ },
2898
+ {
2899
+ "epoch": 0.2137922044062052,
2900
+ "grad_norm": 0.8679940700531006,
2901
+ "learning_rate": 6.330314893841102e-05,
2902
+ "loss": 0.5433,
2903
+ "step": 410
2904
+ },
2905
+ {
2906
+ "epoch": 0.21431364880719594,
2907
+ "grad_norm": 0.959732711315155,
2908
+ "learning_rate": 6.287165507856512e-05,
2909
+ "loss": 0.5715,
2910
+ "step": 411
2911
+ },
2912
+ {
2913
+ "epoch": 0.21483509320818667,
2914
+ "grad_norm": 1.0801646709442139,
2915
+ "learning_rate": 6.243820139034464e-05,
2916
+ "loss": 0.6556,
2917
+ "step": 412
2918
+ },
2919
+ {
2920
+ "epoch": 0.21535653760917742,
2921
+ "grad_norm": 1.0459177494049072,
2922
+ "learning_rate": 6.200283540683103e-05,
2923
+ "loss": 0.6967,
2924
+ "step": 413
2925
+ },
2926
+ {
2927
+ "epoch": 0.21587798201016817,
2928
+ "grad_norm": 1.250126600265503,
2929
+ "learning_rate": 6.156560487081051e-05,
2930
+ "loss": 0.6739,
2931
+ "step": 414
2932
+ },
2933
+ {
2934
+ "epoch": 0.21639942641115892,
2935
+ "grad_norm": 1.2173274755477905,
2936
+ "learning_rate": 6.112655772953851e-05,
2937
+ "loss": 0.7337,
2938
+ "step": 415
2939
+ },
2940
+ {
2941
+ "epoch": 0.21692087081214964,
2942
+ "grad_norm": 1.1681318283081055,
2943
+ "learning_rate": 6.068574212948169e-05,
2944
+ "loss": 0.7496,
2945
+ "step": 416
2946
+ },
2947
+ {
2948
+ "epoch": 0.2174423152131404,
2949
+ "grad_norm": 1.147112488746643,
2950
+ "learning_rate": 6.024320641103812e-05,
2951
+ "loss": 0.7061,
2952
+ "step": 417
2953
+ },
2954
+ {
2955
+ "epoch": 0.21796375961413114,
2956
+ "grad_norm": 0.9065099358558655,
2957
+ "learning_rate": 5.979899910323625e-05,
2958
+ "loss": 0.5293,
2959
+ "step": 418
2960
+ },
2961
+ {
2962
+ "epoch": 0.2184852040151219,
2963
+ "grad_norm": 1.4341965913772583,
2964
+ "learning_rate": 5.935316891841316e-05,
2965
+ "loss": 1.0006,
2966
+ "step": 419
2967
+ },
2968
+ {
2969
+ "epoch": 0.21900664841611264,
2970
+ "grad_norm": 1.0058789253234863,
2971
+ "learning_rate": 5.890576474687264e-05,
2972
+ "loss": 0.6819,
2973
+ "step": 420
2974
+ },
2975
+ {
2976
+ "epoch": 0.21952809281710337,
2977
+ "grad_norm": 1.3122864961624146,
2978
+ "learning_rate": 5.845683565152391e-05,
2979
+ "loss": 0.8433,
2980
+ "step": 421
2981
+ },
2982
+ {
2983
+ "epoch": 0.22004953721809412,
2984
+ "grad_norm": 1.0274057388305664,
2985
+ "learning_rate": 5.800643086250122e-05,
2986
+ "loss": 0.702,
2987
+ "step": 422
2988
+ },
2989
+ {
2990
+ "epoch": 0.22057098161908487,
2991
+ "grad_norm": 1.1476062536239624,
2992
+ "learning_rate": 5.7554599771765325e-05,
2993
+ "loss": 0.8239,
2994
+ "step": 423
2995
+ },
2996
+ {
2997
+ "epoch": 0.22109242602007562,
2998
+ "grad_norm": 1.1423624753952026,
2999
+ "learning_rate": 5.710139192768696e-05,
3000
+ "loss": 0.5831,
3001
+ "step": 424
3002
+ },
3003
+ {
3004
+ "epoch": 0.22161387042106637,
3005
+ "grad_norm": 1.2858572006225586,
3006
+ "learning_rate": 5.6646857029613434e-05,
3007
+ "loss": 0.8175,
3008
+ "step": 425
3009
+ },
3010
+ {
3011
+ "epoch": 0.2221353148220571,
3012
+ "grad_norm": 1.2642686367034912,
3013
+ "learning_rate": 5.6191044922418485e-05,
3014
+ "loss": 0.6987,
3015
+ "step": 426
3016
+ },
3017
+ {
3018
+ "epoch": 0.22265675922304784,
3019
+ "grad_norm": 1.0850262641906738,
3020
+ "learning_rate": 5.5734005591036144e-05,
3021
+ "loss": 0.7008,
3022
+ "step": 427
3023
+ },
3024
+ {
3025
+ "epoch": 0.2231782036240386,
3026
+ "grad_norm": 1.059691309928894,
3027
+ "learning_rate": 5.527578915497952e-05,
3028
+ "loss": 0.6485,
3029
+ "step": 428
3030
+ },
3031
+ {
3032
+ "epoch": 0.22369964802502934,
3033
+ "grad_norm": 1.1776199340820312,
3034
+ "learning_rate": 5.4816445862844426e-05,
3035
+ "loss": 0.7816,
3036
+ "step": 429
3037
+ },
3038
+ {
3039
+ "epoch": 0.22422109242602006,
3040
+ "grad_norm": 1.065766453742981,
3041
+ "learning_rate": 5.435602608679916e-05,
3042
+ "loss": 0.6872,
3043
+ "step": 430
3044
+ },
3045
+ {
3046
+ "epoch": 0.2247425368270108,
3047
+ "grad_norm": 1.419598937034607,
3048
+ "learning_rate": 5.3894580317060684e-05,
3049
+ "loss": 0.7295,
3050
+ "step": 431
3051
+ },
3052
+ {
3053
+ "epoch": 0.22526398122800156,
3054
+ "grad_norm": 1.0950857400894165,
3055
+ "learning_rate": 5.343215915635762e-05,
3056
+ "loss": 0.7141,
3057
+ "step": 432
3058
+ },
3059
+ {
3060
+ "epoch": 0.22578542562899231,
3061
+ "grad_norm": 1.2764692306518555,
3062
+ "learning_rate": 5.2968813314381255e-05,
3063
+ "loss": 0.7478,
3064
+ "step": 433
3065
+ },
3066
+ {
3067
+ "epoch": 0.22630687002998306,
3068
+ "grad_norm": 1.3446756601333618,
3069
+ "learning_rate": 5.250459360222461e-05,
3070
+ "loss": 0.7216,
3071
+ "step": 434
3072
+ },
3073
+ {
3074
+ "epoch": 0.2268283144309738,
3075
+ "grad_norm": 1.3674976825714111,
3076
+ "learning_rate": 5.20395509268104e-05,
3077
+ "loss": 0.7942,
3078
+ "step": 435
3079
+ },
3080
+ {
3081
+ "epoch": 0.22734975883196454,
3082
+ "grad_norm": 1.1008920669555664,
3083
+ "learning_rate": 5.157373628530853e-05,
3084
+ "loss": 0.6696,
3085
+ "step": 436
3086
+ },
3087
+ {
3088
+ "epoch": 0.2278712032329553,
3089
+ "grad_norm": 1.119428277015686,
3090
+ "learning_rate": 5.1107200759543704e-05,
3091
+ "loss": 0.6747,
3092
+ "step": 437
3093
+ },
3094
+ {
3095
+ "epoch": 0.22839264763394604,
3096
+ "grad_norm": 1.2905117273330688,
3097
+ "learning_rate": 5.06399955103937e-05,
3098
+ "loss": 0.7237,
3099
+ "step": 438
3100
+ },
3101
+ {
3102
+ "epoch": 0.22891409203493676,
3103
+ "grad_norm": 1.1231979131698608,
3104
+ "learning_rate": 5.017217177217901e-05,
3105
+ "loss": 0.6448,
3106
+ "step": 439
3107
+ },
3108
+ {
3109
+ "epoch": 0.2294355364359275,
3110
+ "grad_norm": 1.430540680885315,
3111
+ "learning_rate": 4.9703780847044415e-05,
3112
+ "loss": 0.9266,
3113
+ "step": 440
3114
+ },
3115
+ {
3116
+ "epoch": 0.22995698083691826,
3117
+ "grad_norm": 1.6048601865768433,
3118
+ "learning_rate": 4.923487409933316e-05,
3119
+ "loss": 0.9436,
3120
+ "step": 441
3121
+ },
3122
+ {
3123
+ "epoch": 0.230478425237909,
3124
+ "grad_norm": 1.4154115915298462,
3125
+ "learning_rate": 4.876550294995421e-05,
3126
+ "loss": 0.8578,
3127
+ "step": 442
3128
+ },
3129
+ {
3130
+ "epoch": 0.23099986963889976,
3131
+ "grad_norm": 1.4124436378479004,
3132
+ "learning_rate": 4.829571887074343e-05,
3133
+ "loss": 0.811,
3134
+ "step": 443
3135
+ },
3136
+ {
3137
+ "epoch": 0.23152131403989049,
3138
+ "grad_norm": 1.3669768571853638,
3139
+ "learning_rate": 4.782557337881911e-05,
3140
+ "loss": 0.8344,
3141
+ "step": 444
3142
+ },
3143
+ {
3144
+ "epoch": 0.23204275844088124,
3145
+ "grad_norm": 1.5078638792037964,
3146
+ "learning_rate": 4.7355118030932484e-05,
3147
+ "loss": 0.7743,
3148
+ "step": 445
3149
+ },
3150
+ {
3151
+ "epoch": 0.232564202841872,
3152
+ "grad_norm": 1.2406189441680908,
3153
+ "learning_rate": 4.688440441781398e-05,
3154
+ "loss": 0.7794,
3155
+ "step": 446
3156
+ },
3157
+ {
3158
+ "epoch": 0.23308564724286274,
3159
+ "grad_norm": 1.4059579372406006,
3160
+ "learning_rate": 4.6413484158515774e-05,
3161
+ "loss": 0.9038,
3162
+ "step": 447
3163
+ },
3164
+ {
3165
+ "epoch": 0.2336070916438535,
3166
+ "grad_norm": 1.6239300966262817,
3167
+ "learning_rate": 4.594240889475107e-05,
3168
+ "loss": 0.8264,
3169
+ "step": 448
3170
+ },
3171
+ {
3172
+ "epoch": 0.2341285360448442,
3173
+ "grad_norm": 1.3349806070327759,
3174
+ "learning_rate": 4.547123028523106e-05,
3175
+ "loss": 0.784,
3176
+ "step": 449
3177
+ },
3178
+ {
3179
+ "epoch": 0.23464998044583496,
3180
+ "grad_norm": 1.809417963027954,
3181
+ "learning_rate": 4.5e-05,
3182
+ "loss": 0.9593,
3183
+ "step": 450
3184
+ },
3185
+ {
3186
+ "epoch": 0.23464998044583496,
3187
+ "eval_loss": 0.6834670901298523,
3188
+ "eval_runtime": 326.3076,
3189
+ "eval_samples_per_second": 19.797,
3190
+ "eval_steps_per_second": 4.949,
3191
+ "step": 450
3192
+ },
3193
+ {
3194
+ "epoch": 0.2351714248468257,
3195
+ "grad_norm": 0.8945098519325256,
3196
+ "learning_rate": 4.452876971476896e-05,
3197
+ "loss": 0.327,
3198
+ "step": 451
3199
+ },
3200
+ {
3201
+ "epoch": 0.23569286924781646,
3202
+ "grad_norm": 0.9733836054801941,
3203
+ "learning_rate": 4.4057591105248945e-05,
3204
+ "loss": 0.3517,
3205
+ "step": 452
3206
+ },
3207
+ {
3208
+ "epoch": 0.23621431364880718,
3209
+ "grad_norm": 0.44081079959869385,
3210
+ "learning_rate": 4.358651584148423e-05,
3211
+ "loss": 0.2293,
3212
+ "step": 453
3213
+ },
3214
+ {
3215
+ "epoch": 0.23673575804979793,
3216
+ "grad_norm": 0.420837938785553,
3217
+ "learning_rate": 4.311559558218603e-05,
3218
+ "loss": 0.2186,
3219
+ "step": 454
3220
+ },
3221
+ {
3222
+ "epoch": 0.23725720245078868,
3223
+ "grad_norm": 0.7009119391441345,
3224
+ "learning_rate": 4.264488196906753e-05,
3225
+ "loss": 0.3505,
3226
+ "step": 455
3227
+ },
3228
+ {
3229
+ "epoch": 0.23777864685177943,
3230
+ "grad_norm": 0.7264213562011719,
3231
+ "learning_rate": 4.21744266211809e-05,
3232
+ "loss": 0.3351,
3233
+ "step": 456
3234
+ },
3235
+ {
3236
+ "epoch": 0.23830009125277019,
3237
+ "grad_norm": 0.7642529606819153,
3238
+ "learning_rate": 4.1704281129256585e-05,
3239
+ "loss": 0.4276,
3240
+ "step": 457
3241
+ },
3242
+ {
3243
+ "epoch": 0.2388215356537609,
3244
+ "grad_norm": 0.9208986759185791,
3245
+ "learning_rate": 4.1234497050045815e-05,
3246
+ "loss": 0.426,
3247
+ "step": 458
3248
+ },
3249
+ {
3250
+ "epoch": 0.23934298005475166,
3251
+ "grad_norm": 1.1265970468521118,
3252
+ "learning_rate": 4.076512590066686e-05,
3253
+ "loss": 0.6691,
3254
+ "step": 459
3255
+ },
3256
+ {
3257
+ "epoch": 0.2398644244557424,
3258
+ "grad_norm": 0.976740300655365,
3259
+ "learning_rate": 4.0296219152955604e-05,
3260
+ "loss": 0.6463,
3261
+ "step": 460
3262
+ },
3263
+ {
3264
+ "epoch": 0.24038586885673316,
3265
+ "grad_norm": 0.9354336261749268,
3266
+ "learning_rate": 3.982782822782101e-05,
3267
+ "loss": 0.5267,
3268
+ "step": 461
3269
+ },
3270
+ {
3271
+ "epoch": 0.24090731325772388,
3272
+ "grad_norm": 0.9918802380561829,
3273
+ "learning_rate": 3.936000448960631e-05,
3274
+ "loss": 0.5501,
3275
+ "step": 462
3276
+ },
3277
+ {
3278
+ "epoch": 0.24142875765871463,
3279
+ "grad_norm": 1.246860384941101,
3280
+ "learning_rate": 3.889279924045631e-05,
3281
+ "loss": 0.6748,
3282
+ "step": 463
3283
+ },
3284
+ {
3285
+ "epoch": 0.24195020205970538,
3286
+ "grad_norm": 0.8496841788291931,
3287
+ "learning_rate": 3.842626371469148e-05,
3288
+ "loss": 0.538,
3289
+ "step": 464
3290
+ },
3291
+ {
3292
+ "epoch": 0.24247164646069613,
3293
+ "grad_norm": 1.2216079235076904,
3294
+ "learning_rate": 3.796044907318961e-05,
3295
+ "loss": 0.7916,
3296
+ "step": 465
3297
+ },
3298
+ {
3299
+ "epoch": 0.24299309086168688,
3300
+ "grad_norm": 1.1502059698104858,
3301
+ "learning_rate": 3.74954063977754e-05,
3302
+ "loss": 0.5625,
3303
+ "step": 466
3304
+ },
3305
+ {
3306
+ "epoch": 0.2435145352626776,
3307
+ "grad_norm": 1.0070570707321167,
3308
+ "learning_rate": 3.703118668561876e-05,
3309
+ "loss": 0.623,
3310
+ "step": 467
3311
+ },
3312
+ {
3313
+ "epoch": 0.24403597966366836,
3314
+ "grad_norm": 1.0661598443984985,
3315
+ "learning_rate": 3.6567840843642385e-05,
3316
+ "loss": 0.7055,
3317
+ "step": 468
3318
+ },
3319
+ {
3320
+ "epoch": 0.2445574240646591,
3321
+ "grad_norm": 1.037097692489624,
3322
+ "learning_rate": 3.610541968293932e-05,
3323
+ "loss": 0.6177,
3324
+ "step": 469
3325
+ },
3326
+ {
3327
+ "epoch": 0.24507886846564986,
3328
+ "grad_norm": 1.8507579565048218,
3329
+ "learning_rate": 3.564397391320084e-05,
3330
+ "loss": 0.7,
3331
+ "step": 470
3332
+ },
3333
+ {
3334
+ "epoch": 0.2456003128666406,
3335
+ "grad_norm": 1.1853182315826416,
3336
+ "learning_rate": 3.51835541371556e-05,
3337
+ "loss": 0.6217,
3338
+ "step": 471
3339
+ },
3340
+ {
3341
+ "epoch": 0.24612175726763133,
3342
+ "grad_norm": 0.8545302152633667,
3343
+ "learning_rate": 3.472421084502049e-05,
3344
+ "loss": 0.5726,
3345
+ "step": 472
3346
+ },
3347
+ {
3348
+ "epoch": 0.24664320166862208,
3349
+ "grad_norm": 1.1831412315368652,
3350
+ "learning_rate": 3.426599440896387e-05,
3351
+ "loss": 0.6007,
3352
+ "step": 473
3353
+ },
3354
+ {
3355
+ "epoch": 0.24716464606961283,
3356
+ "grad_norm": 1.1138157844543457,
3357
+ "learning_rate": 3.380895507758154e-05,
3358
+ "loss": 0.6453,
3359
+ "step": 474
3360
+ },
3361
+ {
3362
+ "epoch": 0.24768609047060358,
3363
+ "grad_norm": 1.097508192062378,
3364
+ "learning_rate": 3.3353142970386565e-05,
3365
+ "loss": 0.6088,
3366
+ "step": 475
3367
+ },
3368
+ {
3369
+ "epoch": 0.2482075348715943,
3370
+ "grad_norm": 1.123647928237915,
3371
+ "learning_rate": 3.2898608072313045e-05,
3372
+ "loss": 0.7489,
3373
+ "step": 476
3374
+ },
3375
+ {
3376
+ "epoch": 0.24872897927258505,
3377
+ "grad_norm": 1.0547268390655518,
3378
+ "learning_rate": 3.244540022823469e-05,
3379
+ "loss": 0.6683,
3380
+ "step": 477
3381
+ },
3382
+ {
3383
+ "epoch": 0.2492504236735758,
3384
+ "grad_norm": 0.9712570905685425,
3385
+ "learning_rate": 3.199356913749877e-05,
3386
+ "loss": 0.5591,
3387
+ "step": 478
3388
+ },
3389
+ {
3390
+ "epoch": 0.24977186807456656,
3391
+ "grad_norm": 1.165372371673584,
3392
+ "learning_rate": 3.1543164348476105e-05,
3393
+ "loss": 0.6808,
3394
+ "step": 479
3395
+ },
3396
+ {
3397
+ "epoch": 0.2502933124755573,
3398
+ "grad_norm": 1.4066596031188965,
3399
+ "learning_rate": 3.1094235253127374e-05,
3400
+ "loss": 0.7196,
3401
+ "step": 480
3402
+ },
3403
+ {
3404
+ "epoch": 0.25081475687654803,
3405
+ "grad_norm": 1.2690683603286743,
3406
+ "learning_rate": 3.064683108158685e-05,
3407
+ "loss": 0.7631,
3408
+ "step": 481
3409
+ },
3410
+ {
3411
+ "epoch": 0.2513362012775388,
3412
+ "grad_norm": 1.2126400470733643,
3413
+ "learning_rate": 3.0201000896763757e-05,
3414
+ "loss": 0.6118,
3415
+ "step": 482
3416
+ },
3417
+ {
3418
+ "epoch": 0.25185764567852953,
3419
+ "grad_norm": 1.2217490673065186,
3420
+ "learning_rate": 2.975679358896189e-05,
3421
+ "loss": 0.8022,
3422
+ "step": 483
3423
+ },
3424
+ {
3425
+ "epoch": 0.25237909007952025,
3426
+ "grad_norm": 1.4065697193145752,
3427
+ "learning_rate": 2.9314257870518325e-05,
3428
+ "loss": 0.8177,
3429
+ "step": 484
3430
+ },
3431
+ {
3432
+ "epoch": 0.25290053448051103,
3433
+ "grad_norm": 1.394194483757019,
3434
+ "learning_rate": 2.887344227046149e-05,
3435
+ "loss": 0.6846,
3436
+ "step": 485
3437
+ },
3438
+ {
3439
+ "epoch": 0.25342197888150175,
3440
+ "grad_norm": 1.2853827476501465,
3441
+ "learning_rate": 2.8434395129189495e-05,
3442
+ "loss": 0.8623,
3443
+ "step": 486
3444
+ },
3445
+ {
3446
+ "epoch": 0.25394342328249253,
3447
+ "grad_norm": 1.3407214879989624,
3448
+ "learning_rate": 2.7997164593168986e-05,
3449
+ "loss": 0.8026,
3450
+ "step": 487
3451
+ },
3452
+ {
3453
+ "epoch": 0.25446486768348325,
3454
+ "grad_norm": 0.9608036875724792,
3455
+ "learning_rate": 2.756179860965537e-05,
3456
+ "loss": 0.5896,
3457
+ "step": 488
3458
+ },
3459
+ {
3460
+ "epoch": 0.254986312084474,
3461
+ "grad_norm": 1.2732912302017212,
3462
+ "learning_rate": 2.7128344921434877e-05,
3463
+ "loss": 0.882,
3464
+ "step": 489
3465
+ },
3466
+ {
3467
+ "epoch": 0.25550775648546475,
3468
+ "grad_norm": 1.3587908744812012,
3469
+ "learning_rate": 2.6696851061589e-05,
3470
+ "loss": 0.7432,
3471
+ "step": 490
3472
+ },
3473
+ {
3474
+ "epoch": 0.2560292008864555,
3475
+ "grad_norm": 1.1746113300323486,
3476
+ "learning_rate": 2.6267364348281954e-05,
3477
+ "loss": 0.7805,
3478
+ "step": 491
3479
+ },
3480
+ {
3481
+ "epoch": 0.2565506452874462,
3482
+ "grad_norm": 1.1895116567611694,
3483
+ "learning_rate": 2.5839931879571733e-05,
3484
+ "loss": 0.8167,
3485
+ "step": 492
3486
+ },
3487
+ {
3488
+ "epoch": 0.257072089688437,
3489
+ "grad_norm": 1.246069312095642,
3490
+ "learning_rate": 2.541460052824527e-05,
3491
+ "loss": 0.7614,
3492
+ "step": 493
3493
+ },
3494
+ {
3495
+ "epoch": 0.2575935340894277,
3496
+ "grad_norm": 1.507230281829834,
3497
+ "learning_rate": 2.4991416936678276e-05,
3498
+ "loss": 0.7661,
3499
+ "step": 494
3500
+ },
3501
+ {
3502
+ "epoch": 0.2581149784904185,
3503
+ "grad_norm": 1.2582144737243652,
3504
+ "learning_rate": 2.4570427511720398e-05,
3505
+ "loss": 0.7222,
3506
+ "step": 495
3507
+ },
3508
+ {
3509
+ "epoch": 0.2586364228914092,
3510
+ "grad_norm": 1.2553263902664185,
3511
+ "learning_rate": 2.4151678419606235e-05,
3512
+ "loss": 0.8181,
3513
+ "step": 496
3514
+ },
3515
+ {
3516
+ "epoch": 0.2591578672923999,
3517
+ "grad_norm": 1.2473095655441284,
3518
+ "learning_rate": 2.3735215580892577e-05,
3519
+ "loss": 0.7124,
3520
+ "step": 497
3521
+ },
3522
+ {
3523
+ "epoch": 0.2596793116933907,
3524
+ "grad_norm": 1.3642276525497437,
3525
+ "learning_rate": 2.3321084665422807e-05,
3526
+ "loss": 0.8353,
3527
+ "step": 498
3528
+ },
3529
+ {
3530
+ "epoch": 0.2602007560943814,
3531
+ "grad_norm": 1.269373893737793,
3532
+ "learning_rate": 2.2909331087318664e-05,
3533
+ "loss": 0.73,
3534
+ "step": 499
3535
+ },
3536
+ {
3537
+ "epoch": 0.2607222004953722,
3538
+ "grad_norm": 1.5897523164749146,
3539
+ "learning_rate": 2.250000000000001e-05,
3540
+ "loss": 0.8818,
3541
+ "step": 500
3542
+ },
3543
+ {
3544
+ "epoch": 0.2612436448963629,
3545
+ "grad_norm": 0.7522194981575012,
3546
+ "learning_rate": 2.209313629123329e-05,
3547
+ "loss": 0.3334,
3548
+ "step": 501
3549
+ },
3550
+ {
3551
+ "epoch": 0.26176508929735365,
3552
+ "grad_norm": 1.1364073753356934,
3553
+ "learning_rate": 2.168878457820915e-05,
3554
+ "loss": 0.4722,
3555
+ "step": 502
3556
+ },
3557
+ {
3558
+ "epoch": 0.2622865336983444,
3559
+ "grad_norm": 0.45651566982269287,
3560
+ "learning_rate": 2.128698920264951e-05,
3561
+ "loss": 0.2023,
3562
+ "step": 503
3563
+ },
3564
+ {
3565
+ "epoch": 0.26280797809933515,
3566
+ "grad_norm": 0.407569944858551,
3567
+ "learning_rate": 2.088779422594514e-05,
3568
+ "loss": 0.2021,
3569
+ "step": 504
3570
+ },
3571
+ {
3572
+ "epoch": 0.2633294225003259,
3573
+ "grad_norm": 0.6987316608428955,
3574
+ "learning_rate": 2.0491243424323783e-05,
3575
+ "loss": 0.2595,
3576
+ "step": 505
3577
+ },
3578
+ {
3579
+ "epoch": 0.26385086690131665,
3580
+ "grad_norm": 0.741063117980957,
3581
+ "learning_rate": 2.009738028404952e-05,
3582
+ "loss": 0.3919,
3583
+ "step": 506
3584
+ },
3585
+ {
3586
+ "epoch": 0.2643723113023074,
3587
+ "grad_norm": 0.7104949951171875,
3588
+ "learning_rate": 1.9706247996654134e-05,
3589
+ "loss": 0.3903,
3590
+ "step": 507
3591
+ },
3592
+ {
3593
+ "epoch": 0.26489375570329815,
3594
+ "grad_norm": 1.1556988954544067,
3595
+ "learning_rate": 1.9317889454200578e-05,
3596
+ "loss": 0.538,
3597
+ "step": 508
3598
+ },
3599
+ {
3600
+ "epoch": 0.2654152001042889,
3601
+ "grad_norm": 0.873782753944397,
3602
+ "learning_rate": 1.8932347244579463e-05,
3603
+ "loss": 0.5209,
3604
+ "step": 509
3605
+ },
3606
+ {
3607
+ "epoch": 0.26593664450527965,
3608
+ "grad_norm": 0.6760383248329163,
3609
+ "learning_rate": 1.8549663646838714e-05,
3610
+ "loss": 0.4616,
3611
+ "step": 510
3612
+ },
3613
+ {
3614
+ "epoch": 0.2664580889062704,
3615
+ "grad_norm": 0.7786940336227417,
3616
+ "learning_rate": 1.8169880626547285e-05,
3617
+ "loss": 0.4068,
3618
+ "step": 511
3619
+ },
3620
+ {
3621
+ "epoch": 0.2669795333072611,
3622
+ "grad_norm": 0.9264464378356934,
3623
+ "learning_rate": 1.7793039831193134e-05,
3624
+ "loss": 0.599,
3625
+ "step": 512
3626
+ },
3627
+ {
3628
+ "epoch": 0.2675009777082519,
3629
+ "grad_norm": 0.9444701671600342,
3630
+ "learning_rate": 1.741918258561607e-05,
3631
+ "loss": 0.6268,
3632
+ "step": 513
3633
+ },
3634
+ {
3635
+ "epoch": 0.2680224221092426,
3636
+ "grad_norm": 1.0351696014404297,
3637
+ "learning_rate": 1.7048349887476038e-05,
3638
+ "loss": 0.7387,
3639
+ "step": 514
3640
+ },
3641
+ {
3642
+ "epoch": 0.2685438665102333,
3643
+ "grad_norm": 1.108831524848938,
3644
+ "learning_rate": 1.6680582402757324e-05,
3645
+ "loss": 0.597,
3646
+ "step": 515
3647
+ },
3648
+ {
3649
+ "epoch": 0.2690653109112241,
3650
+ "grad_norm": 0.933988094329834,
3651
+ "learning_rate": 1.631592046130896e-05,
3652
+ "loss": 0.6301,
3653
+ "step": 516
3654
+ },
3655
+ {
3656
+ "epoch": 0.2695867553122148,
3657
+ "grad_norm": 0.9654362797737122,
3658
+ "learning_rate": 1.5954404052422217e-05,
3659
+ "loss": 0.52,
3660
+ "step": 517
3661
+ },
3662
+ {
3663
+ "epoch": 0.2701081997132056,
3664
+ "grad_norm": 1.1467019319534302,
3665
+ "learning_rate": 1.5596072820445255e-05,
3666
+ "loss": 0.7317,
3667
+ "step": 518
3668
+ },
3669
+ {
3670
+ "epoch": 0.2706296441141963,
3671
+ "grad_norm": 1.1809656620025635,
3672
+ "learning_rate": 1.5240966060435674e-05,
3673
+ "loss": 0.6836,
3674
+ "step": 519
3675
+ },
3676
+ {
3677
+ "epoch": 0.27115108851518704,
3678
+ "grad_norm": 0.8975329995155334,
3679
+ "learning_rate": 1.4889122713851395e-05,
3680
+ "loss": 0.5057,
3681
+ "step": 520
3682
+ },
3683
+ {
3684
+ "epoch": 0.2716725329161778,
3685
+ "grad_norm": 0.9241394996643066,
3686
+ "learning_rate": 1.4540581364280274e-05,
3687
+ "loss": 0.6661,
3688
+ "step": 521
3689
+ },
3690
+ {
3691
+ "epoch": 0.27219397731716855,
3692
+ "grad_norm": 0.7762001156806946,
3693
+ "learning_rate": 1.4195380233209009e-05,
3694
+ "loss": 0.4453,
3695
+ "step": 522
3696
+ },
3697
+ {
3698
+ "epoch": 0.2727154217181593,
3699
+ "grad_norm": 1.1368845701217651,
3700
+ "learning_rate": 1.38535571758317e-05,
3701
+ "loss": 0.8007,
3702
+ "step": 523
3703
+ },
3704
+ {
3705
+ "epoch": 0.27323686611915005,
3706
+ "grad_norm": 1.1444828510284424,
3707
+ "learning_rate": 1.3515149676898551e-05,
3708
+ "loss": 0.6431,
3709
+ "step": 524
3710
+ },
3711
+ {
3712
+ "epoch": 0.27375831052014077,
3713
+ "grad_norm": 1.3276859521865845,
3714
+ "learning_rate": 1.3180194846605365e-05,
3715
+ "loss": 0.7336,
3716
+ "step": 525
3717
+ },
3718
+ {
3719
+ "epoch": 0.27427975492113155,
3720
+ "grad_norm": 0.9438497424125671,
3721
+ "learning_rate": 1.284872941652386e-05,
3722
+ "loss": 0.6664,
3723
+ "step": 526
3724
+ },
3725
+ {
3726
+ "epoch": 0.27480119932212227,
3727
+ "grad_norm": 1.2121400833129883,
3728
+ "learning_rate": 1.2520789735573703e-05,
3729
+ "loss": 0.7121,
3730
+ "step": 527
3731
+ },
3732
+ {
3733
+ "epoch": 0.27532264372311305,
3734
+ "grad_norm": 1.2498886585235596,
3735
+ "learning_rate": 1.2196411766036491e-05,
3736
+ "loss": 0.7712,
3737
+ "step": 528
3738
+ },
3739
+ {
3740
+ "epoch": 0.27584408812410377,
3741
+ "grad_norm": 1.1315795183181763,
3742
+ "learning_rate": 1.1875631079611956e-05,
3743
+ "loss": 0.7224,
3744
+ "step": 529
3745
+ },
3746
+ {
3747
+ "epoch": 0.2763655325250945,
3748
+ "grad_norm": 1.4224852323532104,
3749
+ "learning_rate": 1.1558482853517254e-05,
3750
+ "loss": 0.6649,
3751
+ "step": 530
3752
+ },
3753
+ {
3754
+ "epoch": 0.27688697692608527,
3755
+ "grad_norm": 1.2838762998580933,
3756
+ "learning_rate": 1.124500186662932e-05,
3757
+ "loss": 0.7847,
3758
+ "step": 531
3759
+ },
3760
+ {
3761
+ "epoch": 0.277408421327076,
3762
+ "grad_norm": 1.1303495168685913,
3763
+ "learning_rate": 1.0935222495670969e-05,
3764
+ "loss": 0.7652,
3765
+ "step": 532
3766
+ },
3767
+ {
3768
+ "epoch": 0.27792986572806677,
3769
+ "grad_norm": 1.0751543045043945,
3770
+ "learning_rate": 1.0629178711441115e-05,
3771
+ "loss": 0.6492,
3772
+ "step": 533
3773
+ },
3774
+ {
3775
+ "epoch": 0.2784513101290575,
3776
+ "grad_norm": 1.2806495428085327,
3777
+ "learning_rate": 1.032690407508949e-05,
3778
+ "loss": 0.6801,
3779
+ "step": 534
3780
+ },
3781
+ {
3782
+ "epoch": 0.2789727545300482,
3783
+ "grad_norm": 1.032645583152771,
3784
+ "learning_rate": 1.002843173443631e-05,
3785
+ "loss": 0.6324,
3786
+ "step": 535
3787
+ },
3788
+ {
3789
+ "epoch": 0.279494198931039,
3790
+ "grad_norm": 1.1595271825790405,
3791
+ "learning_rate": 9.733794420337214e-06,
3792
+ "loss": 0.7248,
3793
+ "step": 536
3794
+ },
3795
+ {
3796
+ "epoch": 0.2800156433320297,
3797
+ "grad_norm": 1.2283949851989746,
3798
+ "learning_rate": 9.443024443093932e-06,
3799
+ "loss": 0.6415,
3800
+ "step": 537
3801
+ },
3802
+ {
3803
+ "epoch": 0.28053708773302044,
3804
+ "grad_norm": 1.0101823806762695,
3805
+ "learning_rate": 9.15615368891117e-06,
3806
+ "loss": 0.7115,
3807
+ "step": 538
3808
+ },
3809
+ {
3810
+ "epoch": 0.2810585321340112,
3811
+ "grad_norm": 1.1437267065048218,
3812
+ "learning_rate": 8.873213616399854e-06,
3813
+ "loss": 0.8146,
3814
+ "step": 539
3815
+ },
3816
+ {
3817
+ "epoch": 0.28157997653500194,
3818
+ "grad_norm": 1.395314335823059,
3819
+ "learning_rate": 8.59423525312737e-06,
3820
+ "loss": 0.8216,
3821
+ "step": 540
3822
+ },
3823
+ {
3824
+ "epoch": 0.2821014209359927,
3825
+ "grad_norm": 1.1216462850570679,
3826
+ "learning_rate": 8.319249192215056e-06,
3827
+ "loss": 0.7296,
3828
+ "step": 541
3829
+ },
3830
+ {
3831
+ "epoch": 0.28262286533698344,
3832
+ "grad_norm": 1.1411585807800293,
3833
+ "learning_rate": 8.04828558898332e-06,
3834
+ "loss": 0.7305,
3835
+ "step": 542
3836
+ },
3837
+ {
3838
+ "epoch": 0.28314430973797416,
3839
+ "grad_norm": 1.0510220527648926,
3840
+ "learning_rate": 7.781374157644714e-06,
3841
+ "loss": 0.7393,
3842
+ "step": 543
3843
+ },
3844
+ {
3845
+ "epoch": 0.28366575413896494,
3846
+ "grad_norm": 1.3976047039031982,
3847
+ "learning_rate": 7.518544168045526e-06,
3848
+ "loss": 0.8331,
3849
+ "step": 544
3850
+ },
3851
+ {
3852
+ "epoch": 0.28418719853995567,
3853
+ "grad_norm": 1.1391674280166626,
3854
+ "learning_rate": 7.259824442455923e-06,
3855
+ "loss": 0.7816,
3856
+ "step": 545
3857
+ },
3858
+ {
3859
+ "epoch": 0.28470864294094644,
3860
+ "grad_norm": 1.2341560125350952,
3861
+ "learning_rate": 7.005243352409332e-06,
3862
+ "loss": 0.7965,
3863
+ "step": 546
3864
+ },
3865
+ {
3866
+ "epoch": 0.28523008734193717,
3867
+ "grad_norm": 1.2359131574630737,
3868
+ "learning_rate": 6.754828815591131e-06,
3869
+ "loss": 0.8758,
3870
+ "step": 547
3871
+ },
3872
+ {
3873
+ "epoch": 0.2857515317429279,
3874
+ "grad_norm": 1.5217698812484741,
3875
+ "learning_rate": 6.508608292777203e-06,
3876
+ "loss": 0.9667,
3877
+ "step": 548
3878
+ },
3879
+ {
3880
+ "epoch": 0.28627297614391867,
3881
+ "grad_norm": 1.633954405784607,
3882
+ "learning_rate": 6.266608784822542e-06,
3883
+ "loss": 0.7868,
3884
+ "step": 549
3885
+ },
3886
+ {
3887
+ "epoch": 0.2867944205449094,
3888
+ "grad_norm": 1.9118640422821045,
3889
+ "learning_rate": 6.028856829700258e-06,
3890
+ "loss": 0.8767,
3891
+ "step": 550
3892
+ },
3893
+ {
3894
+ "epoch": 0.28731586494590017,
3895
+ "grad_norm": 0.5335854291915894,
3896
+ "learning_rate": 5.795378499591479e-06,
3897
+ "loss": 0.2677,
3898
+ "step": 551
3899
+ },
3900
+ {
3901
+ "epoch": 0.2878373093468909,
3902
+ "grad_norm": 0.8315818309783936,
3903
+ "learning_rate": 5.566199398026149e-06,
3904
+ "loss": 0.3736,
3905
+ "step": 552
3906
+ },
3907
+ {
3908
+ "epoch": 0.2883587537478816,
3909
+ "grad_norm": 0.4964602589607239,
3910
+ "learning_rate": 5.341344657075353e-06,
3911
+ "loss": 0.1941,
3912
+ "step": 553
3913
+ },
3914
+ {
3915
+ "epoch": 0.2888801981488724,
3916
+ "grad_norm": 0.4502871632575989,
3917
+ "learning_rate": 5.120838934595337e-06,
3918
+ "loss": 0.2058,
3919
+ "step": 554
3920
+ },
3921
+ {
3922
+ "epoch": 0.2894016425498631,
3923
+ "grad_norm": 0.6107041239738464,
3924
+ "learning_rate": 4.90470641152345e-06,
3925
+ "loss": 0.2863,
3926
+ "step": 555
3927
+ },
3928
+ {
3929
+ "epoch": 0.2899230869508539,
3930
+ "grad_norm": 0.5411296486854553,
3931
+ "learning_rate": 4.69297078922642e-06,
3932
+ "loss": 0.3224,
3933
+ "step": 556
3934
+ },
3935
+ {
3936
+ "epoch": 0.2904445313518446,
3937
+ "grad_norm": 0.5916683673858643,
3938
+ "learning_rate": 4.485655286901292e-06,
3939
+ "loss": 0.3624,
3940
+ "step": 557
3941
+ },
3942
+ {
3943
+ "epoch": 0.29096597575283534,
3944
+ "grad_norm": 0.9298704266548157,
3945
+ "learning_rate": 4.28278263902913e-06,
3946
+ "loss": 0.5355,
3947
+ "step": 558
3948
+ },
3949
+ {
3950
+ "epoch": 0.2914874201538261,
3951
+ "grad_norm": 1.085946798324585,
3952
+ "learning_rate": 4.084375092881916e-06,
3953
+ "loss": 0.5446,
3954
+ "step": 559
3955
+ },
3956
+ {
3957
+ "epoch": 0.29200886455481684,
3958
+ "grad_norm": 0.9874389171600342,
3959
+ "learning_rate": 3.890454406082956e-06,
3960
+ "loss": 0.6942,
3961
+ "step": 560
3962
+ },
3963
+ {
3964
+ "epoch": 0.29253030895580756,
3965
+ "grad_norm": 0.7588855028152466,
3966
+ "learning_rate": 3.701041844220849e-06,
3967
+ "loss": 0.5185,
3968
+ "step": 561
3969
+ },
3970
+ {
3971
+ "epoch": 0.29305175335679834,
3972
+ "grad_norm": 0.7749528884887695,
3973
+ "learning_rate": 3.516158178517482e-06,
3974
+ "loss": 0.4994,
3975
+ "step": 562
3976
+ },
3977
+ {
3978
+ "epoch": 0.29357319775778906,
3979
+ "grad_norm": 0.9377657175064087,
3980
+ "learning_rate": 3.335823683550237e-06,
3981
+ "loss": 0.5773,
3982
+ "step": 563
3983
+ },
3984
+ {
3985
+ "epoch": 0.29409464215877984,
3986
+ "grad_norm": 0.9080403447151184,
3987
+ "learning_rate": 3.1600581350286897e-06,
3988
+ "loss": 0.5582,
3989
+ "step": 564
3990
+ },
3991
+ {
3992
+ "epoch": 0.29461608655977056,
3993
+ "grad_norm": 0.9245966672897339,
3994
+ "learning_rate": 2.9888808076259267e-06,
3995
+ "loss": 0.6085,
3996
+ "step": 565
3997
+ },
3998
+ {
3999
+ "epoch": 0.2951375309607613,
4000
+ "grad_norm": 1.0248568058013916,
4001
+ "learning_rate": 2.822310472864885e-06,
4002
+ "loss": 0.6125,
4003
+ "step": 566
4004
+ },
4005
+ {
4006
+ "epoch": 0.29565897536175206,
4007
+ "grad_norm": 1.0454648733139038,
4008
+ "learning_rate": 2.660365397059855e-06,
4009
+ "loss": 0.6444,
4010
+ "step": 567
4011
+ },
4012
+ {
4013
+ "epoch": 0.2961804197627428,
4014
+ "grad_norm": 0.9811504483222961,
4015
+ "learning_rate": 2.503063339313355e-06,
4016
+ "loss": 0.647,
4017
+ "step": 568
4018
+ },
4019
+ {
4020
+ "epoch": 0.29670186416373356,
4021
+ "grad_norm": 1.1872072219848633,
4022
+ "learning_rate": 2.3504215495686498e-06,
4023
+ "loss": 0.7537,
4024
+ "step": 569
4025
+ },
4026
+ {
4027
+ "epoch": 0.2972233085647243,
4028
+ "grad_norm": 0.9496892094612122,
4029
+ "learning_rate": 2.2024567667180914e-06,
4030
+ "loss": 0.6789,
4031
+ "step": 570
4032
+ },
4033
+ {
4034
+ "epoch": 0.297744752965715,
4035
+ "grad_norm": 1.110507607460022,
4036
+ "learning_rate": 2.059185216767543e-06,
4037
+ "loss": 0.64,
4038
+ "step": 571
4039
+ },
4040
+ {
4041
+ "epoch": 0.2982661973667058,
4042
+ "grad_norm": 0.9525758028030396,
4043
+ "learning_rate": 1.9206226110569742e-06,
4044
+ "loss": 0.5955,
4045
+ "step": 572
4046
+ },
4047
+ {
4048
+ "epoch": 0.2987876417676965,
4049
+ "grad_norm": 1.0465561151504517,
4050
+ "learning_rate": 1.7867841445375621e-06,
4051
+ "loss": 0.6887,
4052
+ "step": 573
4053
+ },
4054
+ {
4055
+ "epoch": 0.2993090861686873,
4056
+ "grad_norm": 1.0657908916473389,
4057
+ "learning_rate": 1.6576844941053854e-06,
4058
+ "loss": 0.7477,
4059
+ "step": 574
4060
+ },
4061
+ {
4062
+ "epoch": 0.299830530569678,
4063
+ "grad_norm": 1.0674349069595337,
4064
+ "learning_rate": 1.533337816991931e-06,
4065
+ "loss": 0.7795,
4066
+ "step": 575
4067
+ },
4068
+ {
4069
+ "epoch": 0.30035197497066873,
4070
+ "grad_norm": 1.0765479803085327,
4071
+ "learning_rate": 1.4137577492116016e-06,
4072
+ "loss": 0.7111,
4073
+ "step": 576
4074
+ },
4075
+ {
4076
+ "epoch": 0.3008734193716595,
4077
+ "grad_norm": 1.0293859243392944,
4078
+ "learning_rate": 1.2989574040663816e-06,
4079
+ "loss": 0.6233,
4080
+ "step": 577
4081
+ },
4082
+ {
4083
+ "epoch": 0.30139486377265023,
4084
+ "grad_norm": 1.1408146619796753,
4085
+ "learning_rate": 1.188949370707787e-06,
4086
+ "loss": 0.6778,
4087
+ "step": 578
4088
+ },
4089
+ {
4090
+ "epoch": 0.301916308173641,
4091
+ "grad_norm": 1.2201671600341797,
4092
+ "learning_rate": 1.0837457127563656e-06,
4093
+ "loss": 0.7382,
4094
+ "step": 579
4095
+ },
4096
+ {
4097
+ "epoch": 0.30243775257463174,
4098
+ "grad_norm": 1.1659302711486816,
4099
+ "learning_rate": 9.83357966978744e-07,
4100
+ "loss": 0.7453,
4101
+ "step": 580
4102
+ },
4103
+ {
4104
+ "epoch": 0.30295919697562246,
4105
+ "grad_norm": 1.2378828525543213,
4106
+ "learning_rate": 8.877971420225212e-07,
4107
+ "loss": 0.8273,
4108
+ "step": 581
4109
+ },
4110
+ {
4111
+ "epoch": 0.30348064137661324,
4112
+ "grad_norm": 1.0689337253570557,
4113
+ "learning_rate": 7.970737172090126e-07,
4114
+ "loss": 0.6794,
4115
+ "step": 582
4116
+ },
4117
+ {
4118
+ "epoch": 0.30400208577760396,
4119
+ "grad_norm": 1.2321866750717163,
4120
+ "learning_rate": 7.111976413841153e-07,
4121
+ "loss": 0.7465,
4122
+ "step": 583
4123
+ },
4124
+ {
4125
+ "epoch": 0.3045235301785947,
4126
+ "grad_norm": 1.0835295915603638,
4127
+ "learning_rate": 6.301783318272809e-07,
4128
+ "loss": 0.6639,
4129
+ "step": 584
4130
+ },
4131
+ {
4132
+ "epoch": 0.30504497457958546,
4133
+ "grad_norm": 1.1415941715240479,
4134
+ "learning_rate": 5.540246732188054e-07,
4135
+ "loss": 0.626,
4136
+ "step": 585
4137
+ },
4138
+ {
4139
+ "epoch": 0.3055664189805762,
4140
+ "grad_norm": 1.1108524799346924,
4141
+ "learning_rate": 4.827450166655251e-07,
4142
+ "loss": 0.7758,
4143
+ "step": 586
4144
+ },
4145
+ {
4146
+ "epoch": 0.30608786338156696,
4147
+ "grad_norm": 1.0960720777511597,
4148
+ "learning_rate": 4.1634717878503816e-07,
4149
+ "loss": 0.7627,
4150
+ "step": 587
4151
+ },
4152
+ {
4153
+ "epoch": 0.3066093077825577,
4154
+ "grad_norm": 1.2436336278915405,
4155
+ "learning_rate": 3.548384408485006e-07,
4156
+ "loss": 0.7669,
4157
+ "step": 588
4158
+ },
4159
+ {
4160
+ "epoch": 0.3071307521835484,
4161
+ "grad_norm": 1.194196343421936,
4162
+ "learning_rate": 2.9822554798215994e-07,
4163
+ "loss": 0.7492,
4164
+ "step": 589
4165
+ },
4166
+ {
4167
+ "epoch": 0.3076521965845392,
4168
+ "grad_norm": 1.3664387464523315,
4169
+ "learning_rate": 2.4651470842770196e-07,
4170
+ "loss": 0.7941,
4171
+ "step": 590
4172
+ },
4173
+ {
4174
+ "epoch": 0.3081736409855299,
4175
+ "grad_norm": 1.2188045978546143,
4176
+ "learning_rate": 1.9971159286140017e-07,
4177
+ "loss": 0.7608,
4178
+ "step": 591
4179
+ },
4180
+ {
4181
+ "epoch": 0.3086950853865207,
4182
+ "grad_norm": 1.096019983291626,
4183
+ "learning_rate": 1.5782133377230334e-07,
4184
+ "loss": 0.655,
4185
+ "step": 592
4186
+ },
4187
+ {
4188
+ "epoch": 0.3092165297875114,
4189
+ "grad_norm": 1.2465800046920776,
4190
+ "learning_rate": 1.208485248993857e-07,
4191
+ "loss": 0.7535,
4192
+ "step": 593
4193
+ },
4194
+ {
4195
+ "epoch": 0.30973797418850213,
4196
+ "grad_norm": 1.3181999921798706,
4197
+ "learning_rate": 8.879722072777986e-08,
4198
+ "loss": 0.8335,
4199
+ "step": 594
4200
+ },
4201
+ {
4202
+ "epoch": 0.3102594185894929,
4203
+ "grad_norm": 1.1617658138275146,
4204
+ "learning_rate": 6.167093604417751e-08,
4205
+ "loss": 0.6741,
4206
+ "step": 595
4207
+ },
4208
+ {
4209
+ "epoch": 0.31078086299048363,
4210
+ "grad_norm": 1.2442768812179565,
4211
+ "learning_rate": 3.9472645551372757e-08,
4212
+ "loss": 0.777,
4213
+ "step": 596
4214
+ },
4215
+ {
4216
+ "epoch": 0.3113023073914744,
4217
+ "grad_norm": 2.248586416244507,
4218
+ "learning_rate": 2.2204783542078e-08,
4219
+ "loss": 0.6729,
4220
+ "step": 597
4221
+ },
4222
+ {
4223
+ "epoch": 0.31182375179246513,
4224
+ "grad_norm": 1.264545202255249,
4225
+ "learning_rate": 9.869243631952518e-09,
4226
+ "loss": 0.7514,
4227
+ "step": 598
4228
+ },
4229
+ {
4230
+ "epoch": 0.31234519619345585,
4231
+ "grad_norm": 1.1710125207901,
4232
+ "learning_rate": 2.467378551953559e-09,
4233
+ "loss": 0.7467,
4234
+ "step": 599
4235
+ },
4236
+ {
4237
+ "epoch": 0.31286664059444663,
4238
+ "grad_norm": 1.261979103088379,
4239
+ "learning_rate": 0.0,
4240
+ "loss": 0.7243,
4241
+ "step": 600
4242
+ },
4243
+ {
4244
+ "epoch": 0.31286664059444663,
4245
+ "eval_loss": 0.6509745717048645,
4246
+ "eval_runtime": 326.4655,
4247
+ "eval_samples_per_second": 19.788,
4248
+ "eval_steps_per_second": 4.947,
4249
+ "step": 600
4250
  }
4251
  ],
4252
  "logging_steps": 1,
 
4270
  "should_evaluate": false,
4271
  "should_log": false,
4272
  "should_save": true,
4273
+ "should_training_stop": true
4274
  },
4275
  "attributes": {}
4276
  }
4277
  },
4278
+ "total_flos": 1.8826249462748283e+18,
4279
  "train_batch_size": 16,
4280
  "trial_name": null,
4281
  "trial_params": null