qingy2024 commited on
Commit
3bdd45f
·
verified ·
1 Parent(s): a6be010

Upload checkpoint 400

Browse files
Files changed (6) hide show
  1. README.md +4 -4
  2. adapter_config.json +1 -1
  3. loss.png +2 -2
  4. optimizer.pt +1 -1
  5. scheduler.pt +1 -1
  6. trainer_state.json +703 -3
README.md CHANGED
@@ -2,7 +2,7 @@
2
  base_model: Qwen/Qwen2.5-7B-Instruct
3
  library_name: peft
4
  ---
5
- # Gradience T1 7B (Step 300 Checkpoint)
6
 
7
  > [!NOTE]
8
  > Training in progress...
@@ -38,11 +38,11 @@ library_name: peft
38
  </head>
39
  <body>
40
  <div style="width: 100%; background-color: #e0e0e0; border-radius: 25px; overflow: hidden; margin: 20px 0;">
41
- <div style="height: 30px; width: 6.10%; background-color: #76c7c0; text-align: center; line-height: 30px; color: white; border-radius: 25px 0 0 25px;">
42
- <!-- 6.10% -->
43
  </div>
44
  </div>
45
- <p style="font-family: Arial, sans-serif; font-size: 16px;">Progress: 300 out of 4918 steps</p>
46
  </body>
47
  </html>
48
 
 
2
  base_model: Qwen/Qwen2.5-7B-Instruct
3
  library_name: peft
4
  ---
5
+ # Gradience T1 7B (Step 400 Checkpoint)
6
 
7
  > [!NOTE]
8
  > Training in progress...
 
38
  </head>
39
  <body>
40
  <div style="width: 100%; background-color: #e0e0e0; border-radius: 25px; overflow: hidden; margin: 20px 0;">
41
+ <div style="height: 30px; width: 8.13%; background-color: #76c7c0; text-align: center; line-height: 30px; color: white; border-radius: 25px 0 0 25px;">
42
+ <!-- 8.13% -->
43
  </div>
44
  </div>
45
+ <p style="font-family: Arial, sans-serif; font-size: 16px;">Progress: 400 out of 4918 steps</p>
46
  </body>
47
  </html>
48
 
adapter_config.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "alpha_pattern": {},
3
  "auto_mapping": null,
4
- "base_model_name_or_path": "./Qwen-2.5-7B-Instruct",
5
  "bias": "none",
6
  "eva_config": null,
7
  "exclude_modules": null,
 
1
  {
2
  "alpha_pattern": {},
3
  "auto_mapping": null,
4
+ "base_model_name_or_path": "Qwen/Qwen2.5-7B-Instruct",
5
  "bias": "none",
6
  "eva_config": null,
7
  "exclude_modules": null,
loss.png CHANGED

Git LFS Details

  • SHA256: e810ff40767611568e79a686ad4dfae1865f4945d6d52a68266b97a26749589a
  • Pointer size: 131 Bytes
  • Size of remote file: 160 kB

Git LFS Details

  • SHA256: 01875c9e9f80f8f6b0347549b0f04a0cb2801da395ce89eef4ddb1e2b274a929
  • Pointer size: 131 Bytes
  • Size of remote file: 169 kB
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0c5bf73f01bac2ca2277437d81aec72780e39675c53269ceb990c1a08b4af763
3
  size 82461044
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:eefac9e8208f033b11163601df9a990821a006cdad2f5b671af5e786c9b60212
3
  size 82461044
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4d30110b3009df9d8cb5018c074f6d9745ea65a134336e183ecde2b6b6201f0c
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:880e20dc665fe0d79037c2008c79e9fa46462cda4281c7356b7e603bf120e9f2
3
  size 1064
trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.12197601138442773,
6
  "eval_steps": 500,
7
- "global_step": 300,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -2108,6 +2108,706 @@
2108
  "learning_rate": 0.00018803175249338492,
2109
  "loss": 1.0508,
2110
  "step": 300
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2111
  }
2112
  ],
2113
  "logging_steps": 1,
@@ -2127,7 +2827,7 @@
2127
  "attributes": {}
2128
  }
2129
  },
2130
- "total_flos": 9.511575109617746e+17,
2131
  "train_batch_size": 16,
2132
  "trial_name": null,
2133
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.16263468184590363,
6
  "eval_steps": 500,
7
+ "global_step": 400,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
2108
  "learning_rate": 0.00018803175249338492,
2109
  "loss": 1.0508,
2110
  "step": 300
2111
+ },
2112
+ {
2113
+ "epoch": 0.12238259808904249,
2114
+ "grad_norm": 0.09302002936601639,
2115
+ "learning_rate": 0.00018799104416853248,
2116
+ "loss": 1.0512,
2117
+ "step": 301
2118
+ },
2119
+ {
2120
+ "epoch": 0.12278918479365725,
2121
+ "grad_norm": 0.09081271290779114,
2122
+ "learning_rate": 0.00018795033584368006,
2123
+ "loss": 0.9688,
2124
+ "step": 302
2125
+ },
2126
+ {
2127
+ "epoch": 0.123195771498272,
2128
+ "grad_norm": 0.1059931218624115,
2129
+ "learning_rate": 0.0001879096275188276,
2130
+ "loss": 1.0483,
2131
+ "step": 303
2132
+ },
2133
+ {
2134
+ "epoch": 0.12360235820288677,
2135
+ "grad_norm": 0.1018669605255127,
2136
+ "learning_rate": 0.0001878689191939752,
2137
+ "loss": 1.019,
2138
+ "step": 304
2139
+ },
2140
+ {
2141
+ "epoch": 0.12400894490750153,
2142
+ "grad_norm": 0.1040007546544075,
2143
+ "learning_rate": 0.00018782821086912275,
2144
+ "loss": 1.037,
2145
+ "step": 305
2146
+ },
2147
+ {
2148
+ "epoch": 0.12441553161211628,
2149
+ "grad_norm": 0.10204601287841797,
2150
+ "learning_rate": 0.0001877875025442703,
2151
+ "loss": 0.9816,
2152
+ "step": 306
2153
+ },
2154
+ {
2155
+ "epoch": 0.12482211831673104,
2156
+ "grad_norm": 0.10591764748096466,
2157
+ "learning_rate": 0.00018774679421941788,
2158
+ "loss": 1.0939,
2159
+ "step": 307
2160
+ },
2161
+ {
2162
+ "epoch": 0.1252287050213458,
2163
+ "grad_norm": 0.09306305646896362,
2164
+ "learning_rate": 0.00018770608589456544,
2165
+ "loss": 1.0476,
2166
+ "step": 308
2167
+ },
2168
+ {
2169
+ "epoch": 0.12563529172596055,
2170
+ "grad_norm": 11.22681713104248,
2171
+ "learning_rate": 0.00018766537756971302,
2172
+ "loss": 1.0573,
2173
+ "step": 309
2174
+ },
2175
+ {
2176
+ "epoch": 0.12604187843057532,
2177
+ "grad_norm": 0.09422402083873749,
2178
+ "learning_rate": 0.00018762466924486057,
2179
+ "loss": 0.9993,
2180
+ "step": 310
2181
+ },
2182
+ {
2183
+ "epoch": 0.1264484651351901,
2184
+ "grad_norm": 0.0982229933142662,
2185
+ "learning_rate": 0.00018758396092000815,
2186
+ "loss": 0.9159,
2187
+ "step": 311
2188
+ },
2189
+ {
2190
+ "epoch": 0.12685505183980483,
2191
+ "grad_norm": 0.12579265236854553,
2192
+ "learning_rate": 0.00018754325259515573,
2193
+ "loss": 1.0935,
2194
+ "step": 312
2195
+ },
2196
+ {
2197
+ "epoch": 0.1272616385444196,
2198
+ "grad_norm": 0.10069390386343002,
2199
+ "learning_rate": 0.0001875025442703033,
2200
+ "loss": 1.0127,
2201
+ "step": 313
2202
+ },
2203
+ {
2204
+ "epoch": 0.12766822524903434,
2205
+ "grad_norm": 0.10948827862739563,
2206
+ "learning_rate": 0.00018746183594545087,
2207
+ "loss": 1.0576,
2208
+ "step": 314
2209
+ },
2210
+ {
2211
+ "epoch": 0.12807481195364911,
2212
+ "grad_norm": 0.09232445061206818,
2213
+ "learning_rate": 0.00018742112762059842,
2214
+ "loss": 0.9856,
2215
+ "step": 315
2216
+ },
2217
+ {
2218
+ "epoch": 0.12848139865826388,
2219
+ "grad_norm": 0.08319563418626785,
2220
+ "learning_rate": 0.000187380419295746,
2221
+ "loss": 0.9172,
2222
+ "step": 316
2223
+ },
2224
+ {
2225
+ "epoch": 0.12888798536287863,
2226
+ "grad_norm": 0.09697309136390686,
2227
+ "learning_rate": 0.00018733971097089356,
2228
+ "loss": 1.0567,
2229
+ "step": 317
2230
+ },
2231
+ {
2232
+ "epoch": 0.1292945720674934,
2233
+ "grad_norm": 0.09254255145788193,
2234
+ "learning_rate": 0.0001872990026460411,
2235
+ "loss": 1.0177,
2236
+ "step": 318
2237
+ },
2238
+ {
2239
+ "epoch": 0.12970115877210814,
2240
+ "grad_norm": 0.09254108369350433,
2241
+ "learning_rate": 0.0001872582943211887,
2242
+ "loss": 1.0079,
2243
+ "step": 319
2244
+ },
2245
+ {
2246
+ "epoch": 0.1301077454767229,
2247
+ "grad_norm": 0.09095866233110428,
2248
+ "learning_rate": 0.00018721758599633625,
2249
+ "loss": 1.0633,
2250
+ "step": 320
2251
+ },
2252
+ {
2253
+ "epoch": 0.13051433218133768,
2254
+ "grad_norm": 0.09073010087013245,
2255
+ "learning_rate": 0.00018717687767148383,
2256
+ "loss": 0.9059,
2257
+ "step": 321
2258
+ },
2259
+ {
2260
+ "epoch": 0.13092091888595242,
2261
+ "grad_norm": 0.09842764586210251,
2262
+ "learning_rate": 0.00018713616934663138,
2263
+ "loss": 1.0766,
2264
+ "step": 322
2265
+ },
2266
+ {
2267
+ "epoch": 0.1313275055905672,
2268
+ "grad_norm": 0.09325529634952545,
2269
+ "learning_rate": 0.00018709546102177896,
2270
+ "loss": 1.066,
2271
+ "step": 323
2272
+ },
2273
+ {
2274
+ "epoch": 0.13173409229518196,
2275
+ "grad_norm": 0.09692969918251038,
2276
+ "learning_rate": 0.00018705475269692654,
2277
+ "loss": 0.9743,
2278
+ "step": 324
2279
+ },
2280
+ {
2281
+ "epoch": 0.1321406789997967,
2282
+ "grad_norm": 0.09432708472013474,
2283
+ "learning_rate": 0.0001870140443720741,
2284
+ "loss": 1.0141,
2285
+ "step": 325
2286
+ },
2287
+ {
2288
+ "epoch": 0.13254726570441147,
2289
+ "grad_norm": 0.09226994961500168,
2290
+ "learning_rate": 0.00018697333604722168,
2291
+ "loss": 0.9837,
2292
+ "step": 326
2293
+ },
2294
+ {
2295
+ "epoch": 0.1329538524090262,
2296
+ "grad_norm": 0.10843974351882935,
2297
+ "learning_rate": 0.00018693262772236923,
2298
+ "loss": 1.0248,
2299
+ "step": 327
2300
+ },
2301
+ {
2302
+ "epoch": 0.13336043911364098,
2303
+ "grad_norm": 0.09324774891138077,
2304
+ "learning_rate": 0.00018689191939751681,
2305
+ "loss": 1.0642,
2306
+ "step": 328
2307
+ },
2308
+ {
2309
+ "epoch": 0.13376702581825575,
2310
+ "grad_norm": 0.08934729546308517,
2311
+ "learning_rate": 0.00018685121107266437,
2312
+ "loss": 0.9792,
2313
+ "step": 329
2314
+ },
2315
+ {
2316
+ "epoch": 0.1341736125228705,
2317
+ "grad_norm": 0.09125274419784546,
2318
+ "learning_rate": 0.00018681050274781192,
2319
+ "loss": 1.0093,
2320
+ "step": 330
2321
+ },
2322
+ {
2323
+ "epoch": 0.13458019922748526,
2324
+ "grad_norm": 0.09645108133554459,
2325
+ "learning_rate": 0.0001867697944229595,
2326
+ "loss": 0.9503,
2327
+ "step": 331
2328
+ },
2329
+ {
2330
+ "epoch": 0.13498678593210003,
2331
+ "grad_norm": 0.09900861978530884,
2332
+ "learning_rate": 0.00018672908609810706,
2333
+ "loss": 0.9966,
2334
+ "step": 332
2335
+ },
2336
+ {
2337
+ "epoch": 0.13539337263671478,
2338
+ "grad_norm": 0.09018311649560928,
2339
+ "learning_rate": 0.00018668837777325464,
2340
+ "loss": 0.965,
2341
+ "step": 333
2342
+ },
2343
+ {
2344
+ "epoch": 0.13579995934132955,
2345
+ "grad_norm": 0.10296136885881424,
2346
+ "learning_rate": 0.00018664766944840222,
2347
+ "loss": 1.1011,
2348
+ "step": 334
2349
+ },
2350
+ {
2351
+ "epoch": 0.1362065460459443,
2352
+ "grad_norm": 0.09104129672050476,
2353
+ "learning_rate": 0.00018660696112354977,
2354
+ "loss": 0.9814,
2355
+ "step": 335
2356
+ },
2357
+ {
2358
+ "epoch": 0.13661313275055906,
2359
+ "grad_norm": 0.09881450235843658,
2360
+ "learning_rate": 0.00018656625279869736,
2361
+ "loss": 1.0989,
2362
+ "step": 336
2363
+ },
2364
+ {
2365
+ "epoch": 0.13701971945517383,
2366
+ "grad_norm": 0.09691241383552551,
2367
+ "learning_rate": 0.0001865255444738449,
2368
+ "loss": 1.0967,
2369
+ "step": 337
2370
+ },
2371
+ {
2372
+ "epoch": 0.13742630615978857,
2373
+ "grad_norm": 0.10152243077754974,
2374
+ "learning_rate": 0.0001864848361489925,
2375
+ "loss": 1.0951,
2376
+ "step": 338
2377
+ },
2378
+ {
2379
+ "epoch": 0.13783289286440334,
2380
+ "grad_norm": 0.10802541673183441,
2381
+ "learning_rate": 0.00018644412782414005,
2382
+ "loss": 0.8742,
2383
+ "step": 339
2384
+ },
2385
+ {
2386
+ "epoch": 0.13823947956901808,
2387
+ "grad_norm": 0.09942565858364105,
2388
+ "learning_rate": 0.0001864034194992876,
2389
+ "loss": 0.9961,
2390
+ "step": 340
2391
+ },
2392
+ {
2393
+ "epoch": 0.13864606627363285,
2394
+ "grad_norm": 0.08618199825286865,
2395
+ "learning_rate": 0.00018636271117443518,
2396
+ "loss": 0.9645,
2397
+ "step": 341
2398
+ },
2399
+ {
2400
+ "epoch": 0.13905265297824762,
2401
+ "grad_norm": 0.1056099608540535,
2402
+ "learning_rate": 0.00018632200284958273,
2403
+ "loss": 0.9885,
2404
+ "step": 342
2405
+ },
2406
+ {
2407
+ "epoch": 0.13945923968286236,
2408
+ "grad_norm": 0.08862382173538208,
2409
+ "learning_rate": 0.00018628129452473032,
2410
+ "loss": 0.9316,
2411
+ "step": 343
2412
+ },
2413
+ {
2414
+ "epoch": 0.13986582638747713,
2415
+ "grad_norm": 0.09923135489225388,
2416
+ "learning_rate": 0.00018624058619987787,
2417
+ "loss": 0.9959,
2418
+ "step": 344
2419
+ },
2420
+ {
2421
+ "epoch": 0.1402724130920919,
2422
+ "grad_norm": 0.09120538830757141,
2423
+ "learning_rate": 0.00018619987787502545,
2424
+ "loss": 0.968,
2425
+ "step": 345
2426
+ },
2427
+ {
2428
+ "epoch": 0.14067899979670664,
2429
+ "grad_norm": 0.09669141471385956,
2430
+ "learning_rate": 0.00018615916955017303,
2431
+ "loss": 1.085,
2432
+ "step": 346
2433
+ },
2434
+ {
2435
+ "epoch": 0.1410855865013214,
2436
+ "grad_norm": 0.08598754554986954,
2437
+ "learning_rate": 0.00018611846122532059,
2438
+ "loss": 0.9504,
2439
+ "step": 347
2440
+ },
2441
+ {
2442
+ "epoch": 0.14149217320593616,
2443
+ "grad_norm": 0.09238371253013611,
2444
+ "learning_rate": 0.00018607775290046817,
2445
+ "loss": 0.9742,
2446
+ "step": 348
2447
+ },
2448
+ {
2449
+ "epoch": 0.14189875991055093,
2450
+ "grad_norm": 0.091258205473423,
2451
+ "learning_rate": 0.00018603704457561572,
2452
+ "loss": 0.9341,
2453
+ "step": 349
2454
+ },
2455
+ {
2456
+ "epoch": 0.1423053466151657,
2457
+ "grad_norm": 0.10129548609256744,
2458
+ "learning_rate": 0.0001859963362507633,
2459
+ "loss": 1.0814,
2460
+ "step": 350
2461
+ },
2462
+ {
2463
+ "epoch": 0.14271193331978044,
2464
+ "grad_norm": 0.09523019194602966,
2465
+ "learning_rate": 0.00018595562792591086,
2466
+ "loss": 0.9848,
2467
+ "step": 351
2468
+ },
2469
+ {
2470
+ "epoch": 0.1431185200243952,
2471
+ "grad_norm": 0.09485248476266861,
2472
+ "learning_rate": 0.0001859149196010584,
2473
+ "loss": 0.9828,
2474
+ "step": 352
2475
+ },
2476
+ {
2477
+ "epoch": 0.14352510672900995,
2478
+ "grad_norm": 0.09963666647672653,
2479
+ "learning_rate": 0.000185874211276206,
2480
+ "loss": 1.1075,
2481
+ "step": 353
2482
+ },
2483
+ {
2484
+ "epoch": 0.14393169343362472,
2485
+ "grad_norm": 0.09067155420780182,
2486
+ "learning_rate": 0.00018583350295135355,
2487
+ "loss": 0.971,
2488
+ "step": 354
2489
+ },
2490
+ {
2491
+ "epoch": 0.1443382801382395,
2492
+ "grad_norm": 0.09153544157743454,
2493
+ "learning_rate": 0.00018579279462650113,
2494
+ "loss": 0.9405,
2495
+ "step": 355
2496
+ },
2497
+ {
2498
+ "epoch": 0.14474486684285423,
2499
+ "grad_norm": 0.1024472787976265,
2500
+ "learning_rate": 0.00018575208630164868,
2501
+ "loss": 0.9967,
2502
+ "step": 356
2503
+ },
2504
+ {
2505
+ "epoch": 0.145151453547469,
2506
+ "grad_norm": 0.09804495424032211,
2507
+ "learning_rate": 0.00018571137797679626,
2508
+ "loss": 0.9578,
2509
+ "step": 357
2510
+ },
2511
+ {
2512
+ "epoch": 0.14555804025208377,
2513
+ "grad_norm": 0.099054716527462,
2514
+ "learning_rate": 0.00018567066965194384,
2515
+ "loss": 0.9999,
2516
+ "step": 358
2517
+ },
2518
+ {
2519
+ "epoch": 0.1459646269566985,
2520
+ "grad_norm": 0.09781336784362793,
2521
+ "learning_rate": 0.0001856299613270914,
2522
+ "loss": 1.09,
2523
+ "step": 359
2524
+ },
2525
+ {
2526
+ "epoch": 0.14637121366131328,
2527
+ "grad_norm": 0.08993211388587952,
2528
+ "learning_rate": 0.00018558925300223898,
2529
+ "loss": 1.0719,
2530
+ "step": 360
2531
+ },
2532
+ {
2533
+ "epoch": 0.14677780036592802,
2534
+ "grad_norm": 0.09146003425121307,
2535
+ "learning_rate": 0.00018554854467738653,
2536
+ "loss": 1.0008,
2537
+ "step": 361
2538
+ },
2539
+ {
2540
+ "epoch": 0.1471843870705428,
2541
+ "grad_norm": 0.09643495827913284,
2542
+ "learning_rate": 0.00018550783635253411,
2543
+ "loss": 1.0791,
2544
+ "step": 362
2545
+ },
2546
+ {
2547
+ "epoch": 0.14759097377515756,
2548
+ "grad_norm": 0.09078676998615265,
2549
+ "learning_rate": 0.00018546712802768167,
2550
+ "loss": 0.8641,
2551
+ "step": 363
2552
+ },
2553
+ {
2554
+ "epoch": 0.1479975604797723,
2555
+ "grad_norm": 0.08719085901975632,
2556
+ "learning_rate": 0.00018542641970282922,
2557
+ "loss": 0.985,
2558
+ "step": 364
2559
+ },
2560
+ {
2561
+ "epoch": 0.14840414718438708,
2562
+ "grad_norm": 0.09189736843109131,
2563
+ "learning_rate": 0.0001853857113779768,
2564
+ "loss": 0.9638,
2565
+ "step": 365
2566
+ },
2567
+ {
2568
+ "epoch": 0.14881073388900182,
2569
+ "grad_norm": 0.09381456673145294,
2570
+ "learning_rate": 0.00018534500305312436,
2571
+ "loss": 1.0036,
2572
+ "step": 366
2573
+ },
2574
+ {
2575
+ "epoch": 0.1492173205936166,
2576
+ "grad_norm": 0.0922684445977211,
2577
+ "learning_rate": 0.00018530429472827194,
2578
+ "loss": 1.0391,
2579
+ "step": 367
2580
+ },
2581
+ {
2582
+ "epoch": 0.14962390729823136,
2583
+ "grad_norm": 0.09465248882770538,
2584
+ "learning_rate": 0.0001852635864034195,
2585
+ "loss": 0.8874,
2586
+ "step": 368
2587
+ },
2588
+ {
2589
+ "epoch": 0.1500304940028461,
2590
+ "grad_norm": 0.0938408225774765,
2591
+ "learning_rate": 0.00018522287807856707,
2592
+ "loss": 1.0269,
2593
+ "step": 369
2594
+ },
2595
+ {
2596
+ "epoch": 0.15043708070746087,
2597
+ "grad_norm": 0.09377933293581009,
2598
+ "learning_rate": 0.00018518216975371466,
2599
+ "loss": 1.0142,
2600
+ "step": 370
2601
+ },
2602
+ {
2603
+ "epoch": 0.15084366741207564,
2604
+ "grad_norm": 0.1117277517914772,
2605
+ "learning_rate": 0.0001851414614288622,
2606
+ "loss": 1.0371,
2607
+ "step": 371
2608
+ },
2609
+ {
2610
+ "epoch": 0.15125025411669038,
2611
+ "grad_norm": 0.10293183475732803,
2612
+ "learning_rate": 0.0001851007531040098,
2613
+ "loss": 1.0,
2614
+ "step": 372
2615
+ },
2616
+ {
2617
+ "epoch": 0.15165684082130515,
2618
+ "grad_norm": 0.09216313809156418,
2619
+ "learning_rate": 0.00018506004477915734,
2620
+ "loss": 0.9703,
2621
+ "step": 373
2622
+ },
2623
+ {
2624
+ "epoch": 0.1520634275259199,
2625
+ "grad_norm": 0.09088669717311859,
2626
+ "learning_rate": 0.00018501933645430493,
2627
+ "loss": 0.8766,
2628
+ "step": 374
2629
+ },
2630
+ {
2631
+ "epoch": 0.15247001423053466,
2632
+ "grad_norm": 0.09916643798351288,
2633
+ "learning_rate": 0.00018497862812945248,
2634
+ "loss": 1.0958,
2635
+ "step": 375
2636
+ },
2637
+ {
2638
+ "epoch": 0.15287660093514943,
2639
+ "grad_norm": 0.08404985070228577,
2640
+ "learning_rate": 0.00018493791980460003,
2641
+ "loss": 0.9602,
2642
+ "step": 376
2643
+ },
2644
+ {
2645
+ "epoch": 0.15328318763976417,
2646
+ "grad_norm": 0.10011377185583115,
2647
+ "learning_rate": 0.00018489721147974762,
2648
+ "loss": 1.0377,
2649
+ "step": 377
2650
+ },
2651
+ {
2652
+ "epoch": 0.15368977434437894,
2653
+ "grad_norm": 0.09958089143037796,
2654
+ "learning_rate": 0.00018485650315489517,
2655
+ "loss": 1.0213,
2656
+ "step": 378
2657
+ },
2658
+ {
2659
+ "epoch": 0.15409636104899369,
2660
+ "grad_norm": 0.09488838911056519,
2661
+ "learning_rate": 0.00018481579483004275,
2662
+ "loss": 0.941,
2663
+ "step": 379
2664
+ },
2665
+ {
2666
+ "epoch": 0.15450294775360846,
2667
+ "grad_norm": 0.09099314361810684,
2668
+ "learning_rate": 0.00018477508650519033,
2669
+ "loss": 0.8913,
2670
+ "step": 380
2671
+ },
2672
+ {
2673
+ "epoch": 0.15490953445822322,
2674
+ "grad_norm": 0.0956854447722435,
2675
+ "learning_rate": 0.00018473437818033789,
2676
+ "loss": 1.1478,
2677
+ "step": 381
2678
+ },
2679
+ {
2680
+ "epoch": 0.15531612116283797,
2681
+ "grad_norm": 0.11225584149360657,
2682
+ "learning_rate": 0.00018469366985548547,
2683
+ "loss": 1.0795,
2684
+ "step": 382
2685
+ },
2686
+ {
2687
+ "epoch": 0.15572270786745274,
2688
+ "grad_norm": 0.11592987924814224,
2689
+ "learning_rate": 0.00018465296153063302,
2690
+ "loss": 1.0863,
2691
+ "step": 383
2692
+ },
2693
+ {
2694
+ "epoch": 0.1561292945720675,
2695
+ "grad_norm": 0.09232570976018906,
2696
+ "learning_rate": 0.0001846122532057806,
2697
+ "loss": 0.9551,
2698
+ "step": 384
2699
+ },
2700
+ {
2701
+ "epoch": 0.15653588127668225,
2702
+ "grad_norm": 0.08860056847333908,
2703
+ "learning_rate": 0.00018457154488092816,
2704
+ "loss": 1.0206,
2705
+ "step": 385
2706
+ },
2707
+ {
2708
+ "epoch": 0.15694246798129702,
2709
+ "grad_norm": 0.10788331180810928,
2710
+ "learning_rate": 0.00018453083655607574,
2711
+ "loss": 0.9378,
2712
+ "step": 386
2713
+ },
2714
+ {
2715
+ "epoch": 0.15734905468591176,
2716
+ "grad_norm": 0.10758615285158157,
2717
+ "learning_rate": 0.0001844901282312233,
2718
+ "loss": 1.1149,
2719
+ "step": 387
2720
+ },
2721
+ {
2722
+ "epoch": 0.15775564139052653,
2723
+ "grad_norm": 0.10551386326551437,
2724
+ "learning_rate": 0.00018444941990637085,
2725
+ "loss": 1.0729,
2726
+ "step": 388
2727
+ },
2728
+ {
2729
+ "epoch": 0.1581622280951413,
2730
+ "grad_norm": 0.08733198046684265,
2731
+ "learning_rate": 0.00018440871158151843,
2732
+ "loss": 1.0058,
2733
+ "step": 389
2734
+ },
2735
+ {
2736
+ "epoch": 0.15856881479975604,
2737
+ "grad_norm": 0.1095399409532547,
2738
+ "learning_rate": 0.00018436800325666598,
2739
+ "loss": 1.0566,
2740
+ "step": 390
2741
+ },
2742
+ {
2743
+ "epoch": 0.1589754015043708,
2744
+ "grad_norm": 0.12356330454349518,
2745
+ "learning_rate": 0.00018432729493181356,
2746
+ "loss": 1.0173,
2747
+ "step": 391
2748
+ },
2749
+ {
2750
+ "epoch": 0.15938198820898555,
2751
+ "grad_norm": 0.09934639930725098,
2752
+ "learning_rate": 0.00018428658660696114,
2753
+ "loss": 1.1237,
2754
+ "step": 392
2755
+ },
2756
+ {
2757
+ "epoch": 0.15978857491360032,
2758
+ "grad_norm": 0.09402013570070267,
2759
+ "learning_rate": 0.0001842458782821087,
2760
+ "loss": 1.0018,
2761
+ "step": 393
2762
+ },
2763
+ {
2764
+ "epoch": 0.1601951616182151,
2765
+ "grad_norm": 0.10511749237775803,
2766
+ "learning_rate": 0.00018420516995725628,
2767
+ "loss": 0.9844,
2768
+ "step": 394
2769
+ },
2770
+ {
2771
+ "epoch": 0.16060174832282983,
2772
+ "grad_norm": 0.11193688213825226,
2773
+ "learning_rate": 0.00018416446163240383,
2774
+ "loss": 0.9888,
2775
+ "step": 395
2776
+ },
2777
+ {
2778
+ "epoch": 0.1610083350274446,
2779
+ "grad_norm": 0.09895443916320801,
2780
+ "learning_rate": 0.00018412375330755141,
2781
+ "loss": 1.1045,
2782
+ "step": 396
2783
+ },
2784
+ {
2785
+ "epoch": 0.16141492173205937,
2786
+ "grad_norm": 0.09660319238901138,
2787
+ "learning_rate": 0.00018408304498269897,
2788
+ "loss": 1.0457,
2789
+ "step": 397
2790
+ },
2791
+ {
2792
+ "epoch": 0.16182150843667412,
2793
+ "grad_norm": 0.1339186728000641,
2794
+ "learning_rate": 0.00018404233665784655,
2795
+ "loss": 1.1266,
2796
+ "step": 398
2797
+ },
2798
+ {
2799
+ "epoch": 0.16222809514128889,
2800
+ "grad_norm": 0.1154564693570137,
2801
+ "learning_rate": 0.0001840016283329941,
2802
+ "loss": 1.0299,
2803
+ "step": 399
2804
+ },
2805
+ {
2806
+ "epoch": 0.16263468184590363,
2807
+ "grad_norm": 0.09698904305696487,
2808
+ "learning_rate": 0.00018396092000814166,
2809
+ "loss": 1.1101,
2810
+ "step": 400
2811
  }
2812
  ],
2813
  "logging_steps": 1,
 
2827
  "attributes": {}
2828
  }
2829
  },
2830
+ "total_flos": 1.2713704795934392e+18,
2831
  "train_batch_size": 16,
2832
  "trial_name": null,
2833
  "trial_params": null