{
  "best_metric": 1.4602320194244385,
  "best_model_checkpoint": "miner_id_24/checkpoint-800",
  "epoch": 0.8365492344080667,
  "eval_steps": 100,
  "global_step": 840,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.000995891945723889,
      "grad_norm": 16.56658172607422,
      "learning_rate": 2.5e-05,
      "loss": 27.5358,
      "step": 1
    },
    {
      "epoch": 0.000995891945723889,
      "eval_loss": 3.4175312519073486,
      "eval_runtime": 287.5927,
      "eval_samples_per_second": 4.656,
      "eval_steps_per_second": 1.165,
      "step": 1
    },
    {
      "epoch": 0.001991783891447778,
      "grad_norm": 16.847103118896484,
      "learning_rate": 5e-05,
      "loss": 28.6136,
      "step": 2
    },
    {
      "epoch": 0.002987675837171667,
      "grad_norm": 14.910314559936523,
      "learning_rate": 7.5e-05,
      "loss": 26.2465,
      "step": 3
    },
    {
      "epoch": 0.003983567782895556,
      "grad_norm": 14.995889663696289,
      "learning_rate": 0.0001,
      "loss": 23.7459,
      "step": 4
    },
    {
      "epoch": 0.004979459728619445,
      "grad_norm": 18.5001220703125,
      "learning_rate": 0.000125,
      "loss": 24.4332,
      "step": 5
    },
    {
      "epoch": 0.005975351674343334,
      "grad_norm": 13.621232986450195,
      "learning_rate": 0.00015,
      "loss": 22.1308,
      "step": 6
    },
    {
      "epoch": 0.006971243620067223,
      "grad_norm": 12.984804153442383,
      "learning_rate": 0.000175,
      "loss": 19.3733,
      "step": 7
    },
    {
      "epoch": 0.007967135565791112,
      "grad_norm": 13.488744735717773,
      "learning_rate": 0.0002,
      "loss": 16.8823,
      "step": 8
    },
    {
      "epoch": 0.008963027511515,
      "grad_norm": 16.1417293548584,
      "learning_rate": 0.00022500000000000002,
      "loss": 16.2773,
      "step": 9
    },
    {
      "epoch": 0.00995891945723889,
      "grad_norm": 13.883444786071777,
      "learning_rate": 0.00025,
      "loss": 13.4328,
      "step": 10
    },
    {
      "epoch": 0.010954811402962778,
      "grad_norm": 21.88507843017578,
      "learning_rate": 0.00024999910458769255,
      "loss": 15.1014,
      "step": 11
    },
    {
      "epoch": 0.011950703348686668,
      "grad_norm": 18.264280319213867,
      "learning_rate": 0.0002499964183635983,
      "loss": 13.3915,
      "step": 12
    },
    {
      "epoch": 0.012946595294410557,
      "grad_norm": 21.488842010498047,
      "learning_rate": 0.0002499919413662018,
      "loss": 14.5928,
      "step": 13
    },
    {
      "epoch": 0.013942487240134445,
      "grad_norm": 11.669401168823242,
      "learning_rate": 0.00024998567365964314,
      "loss": 13.6025,
      "step": 14
    },
    {
      "epoch": 0.014938379185858334,
      "grad_norm": 12.027138710021973,
      "learning_rate": 0.0002499776153337172,
      "loss": 14.022,
      "step": 15
    },
    {
      "epoch": 0.015934271131582224,
      "grad_norm": 13.013602256774902,
      "learning_rate": 0.00024996776650387245,
      "loss": 13.9936,
      "step": 16
    },
    {
      "epoch": 0.01693016307730611,
      "grad_norm": 11.030466079711914,
      "learning_rate": 0.000249956127311209,
      "loss": 13.786,
      "step": 17
    },
    {
      "epoch": 0.01792605502303,
      "grad_norm": 10.779586791992188,
      "learning_rate": 0.000249942697922477,
      "loss": 12.499,
      "step": 18
    },
    {
      "epoch": 0.01892194696875389,
      "grad_norm": 11.274680137634277,
      "learning_rate": 0.00024992747853007374,
      "loss": 12.219,
      "step": 19
    },
    {
      "epoch": 0.01991783891447778,
      "grad_norm": 9.957880020141602,
      "learning_rate": 0.00024991046935204144,
      "loss": 13.1162,
      "step": 20
    },
    {
      "epoch": 0.02091373086020167,
      "grad_norm": 8.227347373962402,
      "learning_rate": 0.0002498916706320637,
      "loss": 13.0072,
      "step": 21
    },
    {
      "epoch": 0.021909622805925556,
      "grad_norm": 7.3595051765441895,
      "learning_rate": 0.00024987108263946215,
      "loss": 12.4328,
      "step": 22
    },
    {
      "epoch": 0.022905514751649446,
      "grad_norm": 10.374775886535645,
      "learning_rate": 0.00024984870566919273,
      "loss": 13.644,
      "step": 23
    },
    {
      "epoch": 0.023901406697373336,
      "grad_norm": 7.763638496398926,
      "learning_rate": 0.00024982454004184127,
      "loss": 12.0825,
      "step": 24
    },
    {
      "epoch": 0.024897298643097223,
      "grad_norm": 8.642582893371582,
      "learning_rate": 0.0002497985861036189,
      "loss": 13.2585,
      "step": 25
    },
    {
      "epoch": 0.025893190588821113,
      "grad_norm": 7.242372035980225,
      "learning_rate": 0.0002497708442263573,
      "loss": 11.6953,
      "step": 26
    },
    {
      "epoch": 0.026889082534545,
      "grad_norm": 7.458141326904297,
      "learning_rate": 0.0002497413148075032,
      "loss": 12.0056,
      "step": 27
    },
    {
      "epoch": 0.02788497448026889,
      "grad_norm": 7.2677836418151855,
      "learning_rate": 0.0002497099982701126,
      "loss": 11.1914,
      "step": 28
    },
    {
      "epoch": 0.02888086642599278,
      "grad_norm": 7.0768022537231445,
      "learning_rate": 0.0002496768950628449,
      "loss": 12.0455,
      "step": 29
    },
    {
      "epoch": 0.029876758371716668,
      "grad_norm": 7.336495399475098,
      "learning_rate": 0.0002496420056599565,
      "loss": 13.927,
      "step": 30
    },
    {
      "epoch": 0.030872650317440558,
      "grad_norm": 6.7654829025268555,
      "learning_rate": 0.00024960533056129374,
      "loss": 11.885,
      "step": 31
    },
    {
      "epoch": 0.03186854226316445,
      "grad_norm": 7.940896511077881,
      "learning_rate": 0.000249566870292286,
      "loss": 13.0075,
      "step": 32
    },
    {
      "epoch": 0.032864434208888335,
      "grad_norm": 6.816346168518066,
      "learning_rate": 0.000249526625403938,
      "loss": 12.771,
      "step": 33
    },
    {
      "epoch": 0.03386032615461222,
      "grad_norm": 6.953782081604004,
      "learning_rate": 0.0002494845964728221,
      "loss": 13.2487,
      "step": 34
    },
    {
      "epoch": 0.034856218100336116,
      "grad_norm": 8.73217487335205,
      "learning_rate": 0.0002494407841010699,
      "loss": 13.9326,
      "step": 35
    },
    {
      "epoch": 0.03585211004606,
      "grad_norm": 6.887628078460693,
      "learning_rate": 0.0002493951889163634,
      "loss": 11.7964,
      "step": 36
    },
    {
      "epoch": 0.03684800199178389,
      "grad_norm": 6.188755035400391,
      "learning_rate": 0.00024934781157192666,
      "loss": 12.3109,
      "step": 37
    },
    {
      "epoch": 0.03784389393750778,
      "grad_norm": 6.760220527648926,
      "learning_rate": 0.00024929865274651565,
      "loss": 12.6023,
      "step": 38
    },
    {
      "epoch": 0.03883978588323167,
      "grad_norm": 7.21213436126709,
      "learning_rate": 0.0002492477131444091,
      "loss": 13.9952,
      "step": 39
    },
    {
      "epoch": 0.03983567782895556,
      "grad_norm": 7.4104485511779785,
      "learning_rate": 0.00024919499349539815,
      "loss": 13.8991,
      "step": 40
    },
    {
      "epoch": 0.04083156977467945,
      "grad_norm": 6.497596740722656,
      "learning_rate": 0.0002491404945547759,
      "loss": 12.7215,
      "step": 41
    },
    {
      "epoch": 0.04182746172040334,
      "grad_norm": 7.254849433898926,
      "learning_rate": 0.0002490842171033268,
      "loss": 12.7342,
      "step": 42
    },
    {
      "epoch": 0.042823353666127224,
      "grad_norm": 6.134991645812988,
      "learning_rate": 0.0002490261619473152,
      "loss": 11.3577,
      "step": 43
    },
    {
      "epoch": 0.04381924561185111,
      "grad_norm": 6.685878276824951,
      "learning_rate": 0.0002489663299184738,
      "loss": 12.3739,
      "step": 44
    },
    {
      "epoch": 0.044815137557575005,
      "grad_norm": 7.548392295837402,
      "learning_rate": 0.00024890472187399216,
      "loss": 12.5839,
      "step": 45
    },
    {
      "epoch": 0.04581102950329889,
      "grad_norm": 6.434916973114014,
      "learning_rate": 0.00024884133869650376,
      "loss": 12.3762,
      "step": 46
    },
    {
      "epoch": 0.04680692144902278,
      "grad_norm": 7.479133605957031,
      "learning_rate": 0.00024877618129407386,
      "loss": 13.4078,
      "step": 47
    },
    {
      "epoch": 0.04780281339474667,
      "grad_norm": 6.191986083984375,
      "learning_rate": 0.00024870925060018633,
      "loss": 11.6391,
      "step": 48
    },
    {
      "epoch": 0.04879870534047056,
      "grad_norm": 6.074136257171631,
      "learning_rate": 0.00024864054757373023,
      "loss": 11.4169,
      "step": 49
    },
    {
      "epoch": 0.049794597286194446,
      "grad_norm": 6.535557270050049,
      "learning_rate": 0.0002485700731989861,
      "loss": 12.7648,
      "step": 50
    },
    {
      "epoch": 0.05079048923191834,
      "grad_norm": 7.5086517333984375,
      "learning_rate": 0.0002484978284856119,
      "loss": 13.1785,
      "step": 51
    },
    {
      "epoch": 0.05178638117764223,
      "grad_norm": 6.3925395011901855,
      "learning_rate": 0.00024842381446862856,
      "loss": 12.2323,
      "step": 52
    },
    {
      "epoch": 0.052782273123366114,
      "grad_norm": 6.091940879821777,
      "learning_rate": 0.000248348032208405,
      "loss": 11.4875,
      "step": 53
    },
    {
      "epoch": 0.05377816506909,
      "grad_norm": 6.079466342926025,
      "learning_rate": 0.0002482704827906432,
      "loss": 11.7412,
      "step": 54
    },
    {
      "epoch": 0.054774057014813894,
      "grad_norm": 7.269871234893799,
      "learning_rate": 0.0002481911673263624,
      "loss": 13.4444,
      "step": 55
    },
    {
      "epoch": 0.05576994896053778,
      "grad_norm": 6.833920955657959,
      "learning_rate": 0.00024811008695188326,
      "loss": 13.2974,
      "step": 56
    },
    {
      "epoch": 0.05676584090626167,
      "grad_norm": 6.509270668029785,
      "learning_rate": 0.0002480272428288116,
      "loss": 13.3969,
      "step": 57
    },
    {
      "epoch": 0.05776173285198556,
      "grad_norm": 6.10461950302124,
      "learning_rate": 0.00024794263614402176,
      "loss": 13.0233,
      "step": 58
    },
    {
      "epoch": 0.05875762479770945,
      "grad_norm": 6.248282432556152,
      "learning_rate": 0.0002478562681096397,
      "loss": 11.664,
      "step": 59
    },
    {
      "epoch": 0.059753516743433335,
      "grad_norm": 5.46411657333374,
      "learning_rate": 0.0002477681399630253,
      "loss": 10.8694,
      "step": 60
    },
    {
      "epoch": 0.06074940868915723,
      "grad_norm": 6.836920738220215,
      "learning_rate": 0.00024767825296675516,
      "loss": 12.7564,
      "step": 61
    },
    {
      "epoch": 0.061745300634881116,
      "grad_norm": 8.421375274658203,
      "learning_rate": 0.000247586608408604,
      "loss": 12.9136,
      "step": 62
    },
    {
      "epoch": 0.06274119258060501,
      "grad_norm": 5.612268924713135,
      "learning_rate": 0.00024749320760152635,
      "loss": 11.2727,
      "step": 63
    },
    {
      "epoch": 0.0637370845263289,
      "grad_norm": 7.760491371154785,
      "learning_rate": 0.00024739805188363803,
      "loss": 13.7674,
      "step": 64
    },
    {
      "epoch": 0.06473297647205278,
      "grad_norm": 8.422126770019531,
      "learning_rate": 0.00024730114261819656,
      "loss": 12.9104,
      "step": 65
    },
    {
      "epoch": 0.06572886841777667,
      "grad_norm": 7.5595831871032715,
      "learning_rate": 0.0002472024811935821,
      "loss": 12.0906,
      "step": 66
    },
    {
      "epoch": 0.06672476036350056,
      "grad_norm": 7.558265209197998,
      "learning_rate": 0.0002471020690232769,
      "loss": 11.7225,
      "step": 67
    },
    {
      "epoch": 0.06772065230922444,
      "grad_norm": 8.700068473815918,
      "learning_rate": 0.00024699990754584584,
      "loss": 12.7639,
      "step": 68
    },
    {
      "epoch": 0.06871654425494834,
      "grad_norm": 6.340944766998291,
      "learning_rate": 0.0002468959982249151,
      "loss": 12.6408,
      "step": 69
    },
    {
      "epoch": 0.06971243620067223,
      "grad_norm": 5.689936637878418,
      "learning_rate": 0.0002467903425491517,
      "loss": 11.4365,
      "step": 70
    },
    {
      "epoch": 0.07070832814639612,
      "grad_norm": 6.519106864929199,
      "learning_rate": 0.00024668294203224184,
      "loss": 11.9108,
      "step": 71
    },
    {
      "epoch": 0.07170422009212,
      "grad_norm": 5.775708198547363,
      "learning_rate": 0.00024657379821286954,
      "loss": 11.2813,
      "step": 72
    },
    {
      "epoch": 0.07270011203784389,
      "grad_norm": 6.3621296882629395,
      "learning_rate": 0.00024646291265469425,
      "loss": 11.5422,
      "step": 73
    },
    {
      "epoch": 0.07369600398356778,
      "grad_norm": 6.622462749481201,
      "learning_rate": 0.0002463502869463287,
      "loss": 12.9495,
      "step": 74
    },
    {
      "epoch": 0.07469189592929167,
      "grad_norm": 7.1500163078308105,
      "learning_rate": 0.0002462359227013159,
      "loss": 13.1289,
      "step": 75
    },
    {
      "epoch": 0.07568778787501557,
      "grad_norm": 6.552374362945557,
      "learning_rate": 0.0002461198215581064,
      "loss": 11.7408,
      "step": 76
    },
    {
      "epoch": 0.07668367982073945,
      "grad_norm": 6.086798191070557,
      "learning_rate": 0.00024600198518003453,
      "loss": 11.8846,
      "step": 77
    },
    {
      "epoch": 0.07767957176646334,
      "grad_norm": 7.924241065979004,
      "learning_rate": 0.00024588241525529445,
      "loss": 13.0962,
      "step": 78
    },
    {
      "epoch": 0.07867546371218723,
      "grad_norm": 6.5235090255737305,
      "learning_rate": 0.0002457611134969164,
      "loss": 11.482,
      "step": 79
    },
    {
      "epoch": 0.07967135565791111,
      "grad_norm": 6.921808242797852,
      "learning_rate": 0.0002456380816427417,
      "loss": 12.5718,
      "step": 80
    },
    {
      "epoch": 0.080667247603635,
      "grad_norm": 6.6802077293396,
      "learning_rate": 0.0002455133214553981,
      "loss": 11.822,
      "step": 81
    },
    {
      "epoch": 0.0816631395493589,
      "grad_norm": 6.431028366088867,
      "learning_rate": 0.0002453868347222746,
      "loss": 13.067,
      "step": 82
    },
    {
      "epoch": 0.08265903149508279,
      "grad_norm": 6.637655735015869,
      "learning_rate": 0.0002452586232554956,
      "loss": 13.5535,
      "step": 83
    },
    {
      "epoch": 0.08365492344080667,
      "grad_norm": 6.012635231018066,
      "learning_rate": 0.0002451286888918951,
      "loss": 12.0727,
      "step": 84
    },
    {
      "epoch": 0.08465081538653056,
      "grad_norm": 6.7169508934021,
      "learning_rate": 0.00024499703349299034,
      "loss": 12.3954,
      "step": 85
    },
    {
      "epoch": 0.08564670733225445,
      "grad_norm": 6.19224214553833,
      "learning_rate": 0.0002448636589449552,
      "loss": 12.1299,
      "step": 86
    },
    {
      "epoch": 0.08664259927797834,
      "grad_norm": 5.419031143188477,
      "learning_rate": 0.0002447285671585931,
      "loss": 10.0219,
      "step": 87
    },
    {
      "epoch": 0.08763849122370222,
      "grad_norm": 6.183884143829346,
      "learning_rate": 0.00024459176006930947,
      "loss": 13.1559,
      "step": 88
    },
    {
      "epoch": 0.08863438316942612,
      "grad_norm": 5.832536697387695,
      "learning_rate": 0.0002444532396370844,
      "loss": 11.4276,
      "step": 89
    },
    {
      "epoch": 0.08963027511515001,
      "grad_norm": 6.158980846405029,
      "learning_rate": 0.0002443130078464444,
      "loss": 12.6743,
      "step": 90
    },
    {
      "epoch": 0.0906261670608739,
      "grad_norm": 7.851455211639404,
      "learning_rate": 0.0002441710667064337,
      "loss": 15.0347,
      "step": 91
    },
    {
      "epoch": 0.09162205900659778,
      "grad_norm": 6.618966102600098,
      "learning_rate": 0.00024402741825058576,
      "loss": 12.8038,
      "step": 92
    },
    {
      "epoch": 0.09261795095232167,
      "grad_norm": 7.711861610412598,
      "learning_rate": 0.0002438820645368942,
      "loss": 14.378,
      "step": 93
    },
    {
      "epoch": 0.09361384289804556,
      "grad_norm": 6.327939510345459,
      "learning_rate": 0.00024373500764778307,
      "loss": 11.8801,
      "step": 94
    },
    {
      "epoch": 0.09460973484376944,
      "grad_norm": 6.685515880584717,
      "learning_rate": 0.00024358624969007705,
      "loss": 12.5321,
      "step": 95
    },
    {
      "epoch": 0.09560562678949334,
      "grad_norm": 6.379256725311279,
      "learning_rate": 0.0002434357927949716,
      "loss": 12.7246,
      "step": 96
    },
    {
      "epoch": 0.09660151873521723,
      "grad_norm": 5.819457054138184,
      "learning_rate": 0.00024328363911800183,
      "loss": 11.6533,
      "step": 97
    },
    {
      "epoch": 0.09759741068094112,
      "grad_norm": 6.651020050048828,
      "learning_rate": 0.00024312979083901227,
      "loss": 13.6643,
      "step": 98
    },
    {
      "epoch": 0.098593302626665,
      "grad_norm": 6.834366321563721,
      "learning_rate": 0.00024297425016212517,
      "loss": 12.5779,
      "step": 99
    },
    {
      "epoch": 0.09958919457238889,
      "grad_norm": 5.578615188598633,
      "learning_rate": 0.0002428170193157091,
      "loss": 12.1336,
      "step": 100
    },
    {
      "epoch": 0.09958919457238889,
      "eval_loss": 1.5528450012207031,
      "eval_runtime": 289.8128,
      "eval_samples_per_second": 4.62,
      "eval_steps_per_second": 1.156,
      "step": 100
    },
    {
      "epoch": 0.10058508651811278,
      "grad_norm": 6.1246747970581055,
      "learning_rate": 0.000242658100552347,
      "loss": 12.9692,
      "step": 101
    },
    {
      "epoch": 0.10158097846383668,
      "grad_norm": 6.364856719970703,
      "learning_rate": 0.00024249749614880397,
      "loss": 10.5347,
      "step": 102
    },
    {
      "epoch": 0.10257687040956057,
      "grad_norm": 6.769341945648193,
      "learning_rate": 0.00024233520840599457,
      "loss": 12.3651,
      "step": 103
    },
    {
      "epoch": 0.10357276235528445,
      "grad_norm": 7.491860389709473,
      "learning_rate": 0.00024217123964894986,
      "loss": 12.3008,
      "step": 104
    },
    {
      "epoch": 0.10456865430100834,
      "grad_norm": 6.12730073928833,
      "learning_rate": 0.00024200559222678408,
      "loss": 11.3047,
      "step": 105
    },
    {
      "epoch": 0.10556454624673223,
      "grad_norm": 7.921679496765137,
      "learning_rate": 0.00024183826851266116,
      "loss": 13.0155,
      "step": 106
    },
    {
      "epoch": 0.10656043819245611,
      "grad_norm": 6.370965480804443,
      "learning_rate": 0.00024166927090376052,
      "loss": 12.2079,
      "step": 107
    },
    {
      "epoch": 0.10755633013818,
      "grad_norm": 7.240699768066406,
      "learning_rate": 0.00024149860182124267,
      "loss": 13.1831,
      "step": 108
    },
    {
      "epoch": 0.1085522220839039,
      "grad_norm": 6.247211456298828,
      "learning_rate": 0.0002413262637102148,
      "loss": 12.2088,
      "step": 109
    },
    {
      "epoch": 0.10954811402962779,
      "grad_norm": 6.4018168449401855,
      "learning_rate": 0.00024115225903969568,
      "loss": 12.0962,
      "step": 110
    },
    {
      "epoch": 0.11054400597535168,
      "grad_norm": 6.562201976776123,
      "learning_rate": 0.00024097659030257993,
      "loss": 11.6653,
      "step": 111
    },
    {
      "epoch": 0.11153989792107556,
      "grad_norm": 7.297281742095947,
      "learning_rate": 0.0002407992600156028,
      "loss": 12.4297,
      "step": 112
    },
    {
      "epoch": 0.11253578986679945,
      "grad_norm": 6.0937299728393555,
      "learning_rate": 0.00024062027071930386,
      "loss": 12.2878,
      "step": 113
    },
    {
      "epoch": 0.11353168181252334,
      "grad_norm": 6.412242889404297,
      "learning_rate": 0.0002404396249779906,
      "loss": 12.9066,
      "step": 114
    },
    {
      "epoch": 0.11452757375824724,
      "grad_norm": 6.969156742095947,
      "learning_rate": 0.00024025732537970168,
      "loss": 11.7735,
      "step": 115
    },
    {
      "epoch": 0.11552346570397112,
      "grad_norm": 6.48976993560791,
      "learning_rate": 0.00024007337453617005,
      "loss": 11.5464,
      "step": 116
    },
    {
      "epoch": 0.11651935764969501,
      "grad_norm": 6.79917049407959,
      "learning_rate": 0.00023988777508278524,
      "loss": 14.0385,
      "step": 117
    },
    {
      "epoch": 0.1175152495954189,
      "grad_norm": 5.524596691131592,
      "learning_rate": 0.00023970052967855587,
      "loss": 12.4122,
      "step": 118
    },
    {
      "epoch": 0.11851114154114278,
      "grad_norm": 8.637755393981934,
      "learning_rate": 0.00023951164100607128,
      "loss": 12.9614,
      "step": 119
    },
    {
      "epoch": 0.11950703348686667,
      "grad_norm": 7.299292087554932,
      "learning_rate": 0.00023932111177146342,
      "loss": 12.6715,
      "step": 120
    },
    {
      "epoch": 0.12050292543259056,
      "grad_norm": 6.199335098266602,
      "learning_rate": 0.0002391289447043678,
      "loss": 11.9946,
      "step": 121
    },
    {
      "epoch": 0.12149881737831446,
      "grad_norm": 5.948755741119385,
      "learning_rate": 0.0002389351425578845,
      "loss": 12.3719,
      "step": 122
    },
    {
      "epoch": 0.12249470932403834,
      "grad_norm": 6.023370265960693,
      "learning_rate": 0.00023873970810853884,
      "loss": 11.4807,
      "step": 123
    },
    {
      "epoch": 0.12349060126976223,
      "grad_norm": 5.60730504989624,
      "learning_rate": 0.00023854264415624135,
      "loss": 11.9841,
      "step": 124
    },
    {
      "epoch": 0.12448649321548612,
      "grad_norm": 5.656817436218262,
      "learning_rate": 0.0002383439535242478,
      "loss": 11.3724,
      "step": 125
    },
    {
      "epoch": 0.12548238516121002,
      "grad_norm": 6.920670509338379,
      "learning_rate": 0.0002381436390591189,
      "loss": 12.0686,
      "step": 126
    },
    {
      "epoch": 0.1264782771069339,
      "grad_norm": 7.383021831512451,
      "learning_rate": 0.00023794170363067914,
      "loss": 14.0681,
      "step": 127
    },
    {
      "epoch": 0.1274741690526578,
      "grad_norm": 8.584571838378906,
      "learning_rate": 0.00023773815013197608,
      "loss": 15.4667,
      "step": 128
    },
    {
      "epoch": 0.12847006099838168,
      "grad_norm": 12.736078262329102,
      "learning_rate": 0.00023753298147923858,
      "loss": 12.1753,
      "step": 129
    },
    {
      "epoch": 0.12946595294410557,
      "grad_norm": 6.229617118835449,
      "learning_rate": 0.0002373262006118353,
      "loss": 13.8618,
      "step": 130
    },
    {
      "epoch": 0.13046184488982945,
      "grad_norm": 5.858534336090088,
      "learning_rate": 0.0002371178104922323,
      "loss": 12.3115,
      "step": 131
    },
    {
      "epoch": 0.13145773683555334,
      "grad_norm": 6.3285603523254395,
      "learning_rate": 0.00023690781410595085,
      "loss": 12.8249,
      "step": 132
    },
    {
      "epoch": 0.13245362878127723,
      "grad_norm": 5.9630632400512695,
      "learning_rate": 0.00023669621446152463,
      "loss": 13.0259,
      "step": 133
    },
    {
      "epoch": 0.13344952072700111,
      "grad_norm": 6.730586528778076,
      "learning_rate": 0.0002364830145904563,
      "loss": 12.6343,
      "step": 134
    },
    {
      "epoch": 0.134445412672725,
      "grad_norm": 7.248769760131836,
      "learning_rate": 0.0002362682175471746,
      "loss": 11.8677,
      "step": 135
    },
    {
      "epoch": 0.1354413046184489,
      "grad_norm": 6.6009979248046875,
      "learning_rate": 0.0002360518264089901,
      "loss": 12.3887,
      "step": 136
    },
    {
      "epoch": 0.13643719656417277,
      "grad_norm": 5.64854097366333,
      "learning_rate": 0.00023583384427605146,
      "loss": 10.898,
      "step": 137
    },
    {
      "epoch": 0.1374330885098967,
      "grad_norm": 7.965289115905762,
      "learning_rate": 0.00023561427427130083,
      "loss": 13.6869,
      "step": 138
    },
    {
      "epoch": 0.13842898045562058,
      "grad_norm": 8.878471374511719,
      "learning_rate": 0.00023539311954042912,
      "loss": 12.4927,
      "step": 139
    },
    {
      "epoch": 0.13942487240134446,
      "grad_norm": 6.698742866516113,
      "learning_rate": 0.0002351703832518311,
      "loss": 11.4779,
      "step": 140
    },
    {
      "epoch": 0.14042076434706835,
      "grad_norm": 8.585515975952148,
      "learning_rate": 0.00023494606859655976,
      "loss": 13.2428,
      "step": 141
    },
    {
      "epoch": 0.14141665629279224,
      "grad_norm": 6.803221225738525,
      "learning_rate": 0.00023472017878828073,
      "loss": 11.7988,
      "step": 142
    },
    {
      "epoch": 0.14241254823851612,
      "grad_norm": 7.021427154541016,
      "learning_rate": 0.00023449271706322622,
      "loss": 12.4274,
      "step": 143
    },
    {
      "epoch": 0.14340844018424,
      "grad_norm": 5.856128692626953,
      "learning_rate": 0.00023426368668014874,
      "loss": 12.2856,
      "step": 144
    },
    {
      "epoch": 0.1444043321299639,
      "grad_norm": 6.2399210929870605,
      "learning_rate": 0.00023403309092027424,
      "loss": 12.307,
      "step": 145
    },
    {
      "epoch": 0.14540022407568778,
      "grad_norm": 6.5773210525512695,
      "learning_rate": 0.00023380093308725518,
      "loss": 12.4102,
      "step": 146
    },
    {
      "epoch": 0.14639611602141167,
      "grad_norm": 7.773036479949951,
      "learning_rate": 0.00023356721650712338,
      "loss": 14.0709,
      "step": 147
    },
    {
      "epoch": 0.14739200796713556,
      "grad_norm": 5.980135917663574,
      "learning_rate": 0.00023333194452824195,
      "loss": 11.8756,
      "step": 148
    },
    {
      "epoch": 0.14838789991285944,
      "grad_norm": 6.181486129760742,
      "learning_rate": 0.00023309512052125775,
      "loss": 12.3727,
      "step": 149
    },
    {
      "epoch": 0.14938379185858333,
      "grad_norm": 13.033953666687012,
      "learning_rate": 0.00023285674787905286,
      "loss": 13.3292,
      "step": 150
    },
    {
      "epoch": 0.15037968380430725,
      "grad_norm": 6.594436168670654,
      "learning_rate": 0.00023261683001669602,
      "loss": 13.3059,
      "step": 151
    },
    {
      "epoch": 0.15137557575003113,
      "grad_norm": 7.247442722320557,
      "learning_rate": 0.00023237537037139384,
      "loss": 12.0958,
      "step": 152
    },
    {
      "epoch": 0.15237146769575502,
      "grad_norm": 6.844114303588867,
      "learning_rate": 0.0002321323724024412,
      "loss": 12.2067,
      "step": 153
    },
    {
      "epoch": 0.1533673596414789,
      "grad_norm": 5.828722953796387,
      "learning_rate": 0.0002318878395911721,
      "loss": 11.2265,
      "step": 154
    },
    {
      "epoch": 0.1543632515872028,
      "grad_norm": 7.751287460327148,
      "learning_rate": 0.00023164177544090958,
      "loss": 14.7071,
      "step": 155
    },
    {
      "epoch": 0.15535914353292668,
      "grad_norm": 6.924627780914307,
      "learning_rate": 0.00023139418347691555,
      "loss": 11.9454,
      "step": 156
    },
    {
      "epoch": 0.15635503547865057,
      "grad_norm": 6.240747451782227,
      "learning_rate": 0.0002311450672463402,
      "loss": 12.9397,
      "step": 157
    },
    {
      "epoch": 0.15735092742437445,
      "grad_norm": 6.814810752868652,
      "learning_rate": 0.00023089443031817147,
      "loss": 11.8282,
      "step": 158
    },
    {
      "epoch": 0.15834681937009834,
      "grad_norm": 7.39363956451416,
      "learning_rate": 0.0002306422762831835,
      "loss": 14.9512,
      "step": 159
    },
    {
      "epoch": 0.15934271131582223,
      "grad_norm": 6.947161674499512,
      "learning_rate": 0.00023038860875388556,
      "loss": 12.2441,
      "step": 160
    },
    {
      "epoch": 0.16033860326154611,
      "grad_norm": 6.200173854827881,
      "learning_rate": 0.00023013343136447006,
      "loss": 11.8266,
      "step": 161
    },
    {
      "epoch": 0.16133449520727,
      "grad_norm": 6.987513065338135,
      "learning_rate": 0.00022987674777076068,
      "loss": 12.7667,
      "step": 162
    },
    {
      "epoch": 0.1623303871529939,
      "grad_norm": 6.824809551239014,
      "learning_rate": 0.0002296185616501597,
      "loss": 12.4046,
      "step": 163
    },
    {
      "epoch": 0.1633262790987178,
      "grad_norm": 6.129730701446533,
      "learning_rate": 0.00022935887670159566,
      "loss": 12.8159,
      "step": 164
    },
    {
      "epoch": 0.1643221710444417,
      "grad_norm": 7.575254917144775,
      "learning_rate": 0.00022909769664547014,
      "loss": 11.9914,
      "step": 165
    },
    {
      "epoch": 0.16531806299016558,
      "grad_norm": 6.266209602355957,
      "learning_rate": 0.0002288350252236045,
      "loss": 11.6365,
      "step": 166
    },
    {
      "epoch": 0.16631395493588946,
      "grad_norm": 7.802381992340088,
      "learning_rate": 0.00022857086619918634,
      "loss": 12.7036,
      "step": 167
    },
    {
      "epoch": 0.16730984688161335,
      "grad_norm": 7.222281455993652,
      "learning_rate": 0.00022830522335671555,
      "loss": 11.8082,
      "step": 168
    },
    {
      "epoch": 0.16830573882733724,
      "grad_norm": 7.55634069442749,
      "learning_rate": 0.00022803810050195004,
      "loss": 12.8177,
      "step": 169
    },
    {
      "epoch": 0.16930163077306112,
      "grad_norm": 6.894867420196533,
      "learning_rate": 0.00022776950146185127,
      "loss": 12.4942,
      "step": 170
    },
    {
      "epoch": 0.170297522718785,
      "grad_norm": 7.815672874450684,
      "learning_rate": 0.0002274994300845294,
      "loss": 13.8819,
      "step": 171
    },
    {
      "epoch": 0.1712934146645089,
      "grad_norm": 6.255967140197754,
      "learning_rate": 0.00022722789023918823,
      "loss": 11.8453,
      "step": 172
    },
    {
      "epoch": 0.17228930661023278,
      "grad_norm": 7.725053310394287,
      "learning_rate": 0.0002269548858160697,
      "loss": 12.0805,
      "step": 173
    },
    {
      "epoch": 0.17328519855595667,
      "grad_norm": 8.110404968261719,
      "learning_rate": 0.00022668042072639805,
      "loss": 11.1405,
      "step": 174
    },
    {
      "epoch": 0.17428109050168056,
      "grad_norm": 6.437393665313721,
      "learning_rate": 0.00022640449890232403,
      "loss": 11.7487,
      "step": 175
    },
    {
      "epoch": 0.17527698244740444,
      "grad_norm": 6.381730556488037,
      "learning_rate": 0.00022612712429686844,
      "loss": 12.7643,
      "step": 176
    },
    {
      "epoch": 0.17627287439312836,
      "grad_norm": 5.764153480529785,
      "learning_rate": 0.00022584830088386539,
      "loss": 11.6039,
      "step": 177
    },
    {
      "epoch": 0.17726876633885225,
      "grad_norm": 5.821381568908691,
      "learning_rate": 0.00022556803265790553,
      "loss": 12.7432,
      "step": 178
    },
    {
      "epoch": 0.17826465828457613,
      "grad_norm": 5.812039375305176,
      "learning_rate": 0.00022528632363427882,
      "loss": 11.2202,
      "step": 179
    },
    {
      "epoch": 0.17926055023030002,
      "grad_norm": 6.043585300445557,
      "learning_rate": 0.00022500317784891684,
      "loss": 11.7178,
      "step": 180
    },
    {
      "epoch": 0.1802564421760239,
      "grad_norm": 6.763357639312744,
      "learning_rate": 0.0002247185993583351,
      "loss": 13.0897,
      "step": 181
    },
    {
      "epoch": 0.1812523341217478,
      "grad_norm": 6.222050666809082,
      "learning_rate": 0.00022443259223957498,
      "loss": 12.9561,
      "step": 182
    },
    {
      "epoch": 0.18224822606747168,
      "grad_norm": 6.555530071258545,
      "learning_rate": 0.00022414516059014516,
      "loss": 13.3252,
      "step": 183
    },
    {
      "epoch": 0.18324411801319557,
      "grad_norm": 6.633552551269531,
      "learning_rate": 0.00022385630852796306,
      "loss": 12.5151,
      "step": 184
    },
    {
      "epoch": 0.18424000995891945,
      "grad_norm": 5.674712657928467,
      "learning_rate": 0.00022356604019129573,
      "loss": 10.8516,
      "step": 185
    },
    {
      "epoch": 0.18523590190464334,
      "grad_norm": 6.16930627822876,
      "learning_rate": 0.00022327435973870058,
      "loss": 12.2844,
      "step": 186
    },
    {
      "epoch": 0.18623179385036723,
      "grad_norm": 6.338482856750488,
      "learning_rate": 0.00022298127134896595,
      "loss": 13.021,
      "step": 187
    },
    {
      "epoch": 0.18722768579609111,
      "grad_norm": 5.933238506317139,
      "learning_rate": 0.000222686779221051,
      "loss": 11.8773,
      "step": 188
    },
    {
      "epoch": 0.188223577741815,
      "grad_norm": 6.159973621368408,
      "learning_rate": 0.00022239088757402582,
      "loss": 11.4913,
      "step": 189
    },
    {
      "epoch": 0.1892194696875389,
      "grad_norm": 7.25203800201416,
      "learning_rate": 0.0002220936006470107,
      "loss": 13.7217,
      "step": 190
    },
    {
      "epoch": 0.1902153616332628,
      "grad_norm": 6.028827667236328,
      "learning_rate": 0.00022179492269911564,
      "loss": 11.364,
      "step": 191
    },
    {
      "epoch": 0.1912112535789867,
      "grad_norm": 6.040252685546875,
      "learning_rate": 0.00022149485800937918,
      "loss": 12.5145,
      "step": 192
    },
    {
      "epoch": 0.19220714552471058,
      "grad_norm": 5.860878944396973,
      "learning_rate": 0.00022119341087670723,
      "loss": 11.5606,
      "step": 193
    },
    {
      "epoch": 0.19320303747043446,
      "grad_norm": 6.734287261962891,
      "learning_rate": 0.00022089058561981128,
      "loss": 12.0882,
      "step": 194
    },
    {
      "epoch": 0.19419892941615835,
      "grad_norm": 6.507574558258057,
      "learning_rate": 0.00022058638657714683,
      "loss": 13.0287,
      "step": 195
    },
    {
      "epoch": 0.19519482136188224,
      "grad_norm": 5.8352179527282715,
      "learning_rate": 0.00022028081810685084,
      "loss": 11.9273,
      "step": 196
    },
    {
      "epoch": 0.19619071330760612,
      "grad_norm": 6.327966690063477,
      "learning_rate": 0.00021997388458667972,
      "loss": 11.9534,
      "step": 197
    },
    {
      "epoch": 0.19718660525333,
      "grad_norm": 7.161978721618652,
      "learning_rate": 0.00021966559041394619,
      "loss": 14.3134,
      "step": 198
    },
    {
      "epoch": 0.1981824971990539,
      "grad_norm": 7.602406978607178,
      "learning_rate": 0.00021935594000545663,
      "loss": 13.8131,
      "step": 199
    },
    {
      "epoch": 0.19917838914477778,
      "grad_norm": 6.5593767166137695,
      "learning_rate": 0.00021904493779744766,
      "loss": 12.1681,
      "step": 200
    },
    {
      "epoch": 0.19917838914477778,
      "eval_loss": 1.545896291732788,
      "eval_runtime": 289.9141,
      "eval_samples_per_second": 4.619,
      "eval_steps_per_second": 1.156,
      "step": 200
    },
    {
      "epoch": 0.20017428109050167,
      "grad_norm": 7.11292839050293,
      "learning_rate": 0.00021873258824552257,
      "loss": 11.3805,
      "step": 201
    },
    {
      "epoch": 0.20117017303622556,
      "grad_norm": 5.791740417480469,
      "learning_rate": 0.0002184188958245874,
      "loss": 11.4427,
      "step": 202
    },
    {
      "epoch": 0.20216606498194944,
      "grad_norm": 6.359834671020508,
      "learning_rate": 0.0002181038650287871,
      "loss": 12.8047,
      "step": 203
    },
    {
      "epoch": 0.20316195692767336,
      "grad_norm": 6.810841083526611,
      "learning_rate": 0.00021778750037144086,
      "loss": 12.9342,
      "step": 204
    },
    {
      "epoch": 0.20415784887339725,
      "grad_norm": 6.595353126525879,
      "learning_rate": 0.0002174698063849776,
      "loss": 11.8879,
      "step": 205
    },
    {
      "epoch": 0.20515374081912113,
      "grad_norm": 6.707181453704834,
      "learning_rate": 0.00021715078762087108,
      "loss": 12.4952,
      "step": 206
    },
    {
      "epoch": 0.20614963276484502,
      "grad_norm": 5.755362033843994,
      "learning_rate": 0.00021683044864957444,
      "loss": 12.742,
      "step": 207
    },
    {
      "epoch": 0.2071455247105689,
      "grad_norm": 5.790565490722656,
      "learning_rate": 0.00021650879406045508,
      "loss": 10.6683,
      "step": 208
    },
    {
      "epoch": 0.2081414166562928,
      "grad_norm": 6.435606002807617,
      "learning_rate": 0.0002161858284617286,
      "loss": 12.8725,
      "step": 209
    },
    {
      "epoch": 0.20913730860201668,
      "grad_norm": 6.840058326721191,
      "learning_rate": 0.00021586155648039296,
      "loss": 11.7874,
      "step": 210
    },
    {
      "epoch": 0.21013320054774057,
      "grad_norm": 6.608837604522705,
      "learning_rate": 0.00021553598276216217,
      "loss": 13.3114,
      "step": 211
    },
    {
      "epoch": 0.21112909249346445,
      "grad_norm": 5.996092319488525,
      "learning_rate": 0.00021520911197139958,
      "loss": 11.8956,
      "step": 212
    },
    {
      "epoch": 0.21212498443918834,
      "grad_norm": 5.224332332611084,
      "learning_rate": 0.00021488094879105134,
      "loss": 10.4107,
      "step": 213
    },
    {
      "epoch": 0.21312087638491223,
      "grad_norm": 5.718519687652588,
      "learning_rate": 0.000214551497922579,
      "loss": 11.4343,
      "step": 214
    },
    {
      "epoch": 0.21411676833063611,
      "grad_norm": 6.161787033081055,
      "learning_rate": 0.00021422076408589237,
      "loss": 11.9857,
      "step": 215
    },
    {
      "epoch": 0.21511266027636,
      "grad_norm": 6.545485019683838,
      "learning_rate": 0.00021388875201928183,
      "loss": 13.6983,
      "step": 216
    },
    {
      "epoch": 0.21610855222208392,
      "grad_norm": 6.377624988555908,
      "learning_rate": 0.0002135554664793504,
      "loss": 12.8974,
      "step": 217
    },
    {
      "epoch": 0.2171044441678078,
      "grad_norm": 6.514633655548096,
      "learning_rate": 0.0002132209122409457,
      "loss": 12.2978,
      "step": 218
    },
    {
      "epoch": 0.2181003361135317,
      "grad_norm": 5.409609794616699,
      "learning_rate": 0.00021288509409709148,
      "loss": 10.8475,
      "step": 219
    },
    {
      "epoch": 0.21909622805925558,
      "grad_norm": 5.895532131195068,
      "learning_rate": 0.00021254801685891887,
      "loss": 10.9371,
      "step": 220
    },
    {
      "epoch": 0.22009212000497946,
      "grad_norm": 5.818058013916016,
      "learning_rate": 0.0002122096853555976,
      "loss": 12.6627,
      "step": 221
    },
    {
      "epoch": 0.22108801195070335,
      "grad_norm": 5.7109375,
      "learning_rate": 0.00021187010443426675,
      "loss": 12.3313,
      "step": 222
    },
    {
      "epoch": 0.22208390389642724,
      "grad_norm": 6.082381248474121,
      "learning_rate": 0.0002115292789599653,
      "loss": 11.4319,
      "step": 223
    },
    {
      "epoch": 0.22307979584215112,
      "grad_norm": 5.8958048820495605,
      "learning_rate": 0.00021118721381556245,
      "loss": 11.6646,
      "step": 224
    },
    {
      "epoch": 0.224075687787875,
      "grad_norm": 5.592798233032227,
      "learning_rate": 0.00021084391390168764,
      "loss": 11.1113,
      "step": 225
    },
    {
      "epoch": 0.2250715797335989,
      "grad_norm": 5.9306182861328125,
      "learning_rate": 0.00021049938413666037,
      "loss": 12.4602,
      "step": 226
    },
    {
      "epoch": 0.22606747167932278,
      "grad_norm": 5.919130325317383,
      "learning_rate": 0.0002101536294564197,
      "loss": 11.9998,
      "step": 227
    },
    {
      "epoch": 0.22706336362504667,
      "grad_norm": 6.082193374633789,
      "learning_rate": 0.00020980665481445355,
      "loss": 11.6682,
      "step": 228
    },
    {
      "epoch": 0.22805925557077056,
      "grad_norm": 6.038330078125,
      "learning_rate": 0.00020945846518172776,
      "loss": 11.8126,
      "step": 229
    },
    {
      "epoch": 0.22905514751649447,
      "grad_norm": 6.054876327514648,
      "learning_rate": 0.00020910906554661484,
      "loss": 11.6183,
      "step": 230
    },
    {
      "epoch": 0.23005103946221836,
      "grad_norm": 6.542704105377197,
      "learning_rate": 0.0002087584609148226,
      "loss": 12.4262,
      "step": 231
    },
    {
      "epoch": 0.23104693140794225,
      "grad_norm": 5.895127296447754,
      "learning_rate": 0.00020840665630932225,
      "loss": 11.9887,
      "step": 232
    },
    {
      "epoch": 0.23204282335366613,
      "grad_norm": 6.9951863288879395,
      "learning_rate": 0.00020805365677027646,
      "loss": 12.2263,
      "step": 233
    },
    {
      "epoch": 0.23303871529939002,
      "grad_norm": 6.330830097198486,
      "learning_rate": 0.0002076994673549675,
      "loss": 13.8628,
      "step": 234
    },
    {
      "epoch": 0.2340346072451139,
      "grad_norm": 5.970463752746582,
      "learning_rate": 0.00020734409313772424,
      "loss": 11.4963,
      "step": 235
    },
    {
      "epoch": 0.2350304991908378,
      "grad_norm": 6.236823081970215,
      "learning_rate": 0.00020698753920984987,
      "loss": 12.8625,
      "step": 236
    },
    {
      "epoch": 0.23602639113656168,
      "grad_norm": 5.732664108276367,
      "learning_rate": 0.00020662981067954883,
      "loss": 11.9416,
      "step": 237
    },
    {
      "epoch": 0.23702228308228557,
      "grad_norm": 6.58101224899292,
      "learning_rate": 0.00020627091267185355,
      "loss": 11.9936,
      "step": 238
    },
    {
      "epoch": 0.23801817502800945,
      "grad_norm": 6.880969047546387,
      "learning_rate": 0.0002059108503285511,
      "loss": 13.5075,
      "step": 239
    },
    {
      "epoch": 0.23901406697373334,
      "grad_norm": 5.696409702301025,
      "learning_rate": 0.00020554962880810963,
      "loss": 11.9267,
      "step": 240
    },
    {
      "epoch": 0.24000995891945723,
      "grad_norm": 5.385843276977539,
      "learning_rate": 0.00020518725328560417,
      "loss": 10.0967,
      "step": 241
    },
    {
      "epoch": 0.24100585086518111,
      "grad_norm": 6.039820671081543,
      "learning_rate": 0.00020482372895264282,
      "loss": 10.6372,
      "step": 242
    },
    {
      "epoch": 0.24200174281090503,
      "grad_norm": 5.8607916831970215,
      "learning_rate": 0.00020445906101729212,
      "loss": 11.0905,
      "step": 243
    },
    {
      "epoch": 0.24299763475662892,
      "grad_norm": 6.985530376434326,
      "learning_rate": 0.00020409325470400263,
      "loss": 11.455,
      "step": 244
    },
    {
      "epoch": 0.2439935267023528,
      "grad_norm": 5.882106304168701,
      "learning_rate": 0.0002037263152535339,
      "loss": 12.6405,
      "step": 245
    },
    {
      "epoch": 0.2449894186480767,
      "grad_norm": 5.3988776206970215,
      "learning_rate": 0.0002033582479228796,
      "loss": 11.5435,
      "step": 246
    },
    {
      "epoch": 0.24598531059380058,
      "grad_norm": 7.481232166290283,
      "learning_rate": 0.00020298905798519197,
      "loss": 13.4326,
      "step": 247
    },
    {
      "epoch": 0.24698120253952446,
      "grad_norm": 6.147839546203613,
      "learning_rate": 0.00020261875072970643,
      "loss": 11.5964,
      "step": 248
    },
    {
      "epoch": 0.24797709448524835,
      "grad_norm": 8.947158813476562,
      "learning_rate": 0.0002022473314616658,
      "loss": 12.0333,
      "step": 249
    },
    {
      "epoch": 0.24897298643097224,
      "grad_norm": 6.649617671966553,
      "learning_rate": 0.00020187480550224422,
      "loss": 13.5379,
      "step": 250
    },
    {
      "epoch": 0.24996887837669612,
      "grad_norm": 6.397286891937256,
      "learning_rate": 0.00020150117818847088,
      "loss": 11.1719,
      "step": 251
    },
    {
      "epoch": 0.25096477032242004,
      "grad_norm": 5.593772888183594,
      "learning_rate": 0.0002011264548731538,
      "loss": 11.7092,
      "step": 252
    },
    {
      "epoch": 0.2519606622681439,
      "grad_norm": 6.753810405731201,
      "learning_rate": 0.00020075064092480284,
      "loss": 13.9164,
      "step": 253
    },
    {
      "epoch": 0.2529565542138678,
      "grad_norm": 5.851145267486572,
      "learning_rate": 0.0002003737417275529,
      "loss": 12.3499,
      "step": 254
    },
    {
      "epoch": 0.25395244615959167,
      "grad_norm": 5.922454833984375,
      "learning_rate": 0.00019999576268108694,
      "loss": 12.029,
      "step": 255
    },
    {
      "epoch": 0.2549483381053156,
      "grad_norm": 5.876878261566162,
      "learning_rate": 0.0001996167092005584,
      "loss": 11.8283,
      "step": 256
    },
    {
      "epoch": 0.25594423005103945,
      "grad_norm": 6.563518047332764,
      "learning_rate": 0.00019923658671651363,
      "loss": 13.6434,
      "step": 257
    },
    {
      "epoch": 0.25694012199676336,
      "grad_norm": 5.781143665313721,
      "learning_rate": 0.00019885540067481427,
      "loss": 11.871,
      "step": 258
    },
    {
      "epoch": 0.2579360139424872,
      "grad_norm": 6.5753912925720215,
      "learning_rate": 0.00019847315653655914,
      "loss": 12.0575,
      "step": 259
    },
    {
      "epoch": 0.25893190588821113,
      "grad_norm": 5.838126182556152,
      "learning_rate": 0.0001980898597780059,
      "loss": 12.2294,
      "step": 260
    },
    {
      "epoch": 0.259927797833935,
      "grad_norm": 5.333262920379639,
      "learning_rate": 0.00019770551589049268,
      "loss": 11.7186,
      "step": 261
    },
    {
      "epoch": 0.2609236897796589,
      "grad_norm": 6.755197525024414,
      "learning_rate": 0.00019732013038035952,
      "loss": 12.5457,
      "step": 262
    },
    {
      "epoch": 0.2619195817253828,
      "grad_norm": 6.212986946105957,
      "learning_rate": 0.00019693370876886916,
      "loss": 12.6501,
      "step": 263
    },
    {
      "epoch": 0.2629154736711067,
      "grad_norm": 5.702981948852539,
      "learning_rate": 0.00019654625659212835,
      "loss": 12.1024,
      "step": 264
    },
    {
      "epoch": 0.2639113656168306,
      "grad_norm": 5.915462970733643,
      "learning_rate": 0.00019615777940100825,
      "loss": 11.2701,
      "step": 265
    },
    {
      "epoch": 0.26490725756255445,
      "grad_norm": 6.289284706115723,
      "learning_rate": 0.00019576828276106497,
      "loss": 12.4175,
      "step": 266
    },
    {
      "epoch": 0.26590314950827837,
      "grad_norm": 6.77176570892334,
      "learning_rate": 0.0001953777722524599,
      "loss": 12.4483,
      "step": 267
    },
    {
      "epoch": 0.26689904145400223,
      "grad_norm": 6.126654148101807,
      "learning_rate": 0.00019498625346987963,
      "loss": 11.3449,
      "step": 268
    },
    {
      "epoch": 0.26789493339972614,
      "grad_norm": 5.859162330627441,
      "learning_rate": 0.000194593732022456,
      "loss": 11.2103,
      "step": 269
    },
    {
      "epoch": 0.26889082534545,
      "grad_norm": 6.313859939575195,
      "learning_rate": 0.00019420021353368556,
      "loss": 11.3182,
      "step": 270
    },
    {
      "epoch": 0.2698867172911739,
      "grad_norm": 6.366731643676758,
      "learning_rate": 0.0001938057036413491,
      "loss": 12.3075,
      "step": 271
    },
    {
      "epoch": 0.2708826092368978,
      "grad_norm": 6.110815525054932,
      "learning_rate": 0.00019341020799743075,
      "loss": 12.6064,
      "step": 272
    },
    {
      "epoch": 0.2718785011826217,
      "grad_norm": 6.0649094581604,
      "learning_rate": 0.00019301373226803727,
      "loss": 12.5147,
      "step": 273
    },
    {
      "epoch": 0.27287439312834555,
      "grad_norm": 7.83512020111084,
      "learning_rate": 0.00019261628213331655,
      "loss": 12.0182,
      "step": 274
    },
    {
      "epoch": 0.27387028507406946,
      "grad_norm": 6.209272861480713,
      "learning_rate": 0.00019221786328737651,
      "loss": 13.2367,
      "step": 275
    },
    {
      "epoch": 0.2748661770197934,
      "grad_norm": 5.425859451293945,
      "learning_rate": 0.00019181848143820336,
      "loss": 11.2941,
      "step": 276
    },
    {
      "epoch": 0.27586206896551724,
      "grad_norm": 6.430884838104248,
      "learning_rate": 0.00019141814230757987,
      "loss": 11.9494,
      "step": 277
    },
    {
      "epoch": 0.27685796091124115,
      "grad_norm": 5.499374866485596,
      "learning_rate": 0.00019101685163100342,
      "loss": 11.3679,
      "step": 278
    },
    {
      "epoch": 0.277853852856965,
      "grad_norm": 6.815554141998291,
      "learning_rate": 0.00019061461515760368,
      "loss": 12.3956,
      "step": 279
    },
    {
      "epoch": 0.2788497448026889,
      "grad_norm": 5.373319149017334,
      "learning_rate": 0.00019021143865006058,
      "loss": 11.1815,
      "step": 280
    },
    {
      "epoch": 0.2798456367484128,
      "grad_norm": 5.54528284072876,
      "learning_rate": 0.00018980732788452138,
      "loss": 11.2036,
      "step": 281
    },
    {
      "epoch": 0.2808415286941367,
      "grad_norm": 5.694971084594727,
      "learning_rate": 0.00018940228865051812,
      "loss": 11.9744,
      "step": 282
    },
    {
      "epoch": 0.28183742063986056,
      "grad_norm": 6.034758567810059,
      "learning_rate": 0.0001889963267508847,
      "loss": 12.2473,
      "step": 283
    },
    {
      "epoch": 0.2828333125855845,
      "grad_norm": 5.718782901763916,
      "learning_rate": 0.0001885894480016736,
      "loss": 11.7797,
      "step": 284
    },
    {
      "epoch": 0.28382920453130833,
      "grad_norm": 5.70759391784668,
      "learning_rate": 0.00018818165823207263,
      "loss": 12.6039,
      "step": 285
    },
    {
      "epoch": 0.28482509647703225,
      "grad_norm": 5.922822952270508,
      "learning_rate": 0.00018777296328432143,
      "loss": 12.0609,
      "step": 286
    },
    {
      "epoch": 0.2858209884227561,
      "grad_norm": 6.213382720947266,
      "learning_rate": 0.00018736336901362783,
      "loss": 12.721,
      "step": 287
    },
    {
      "epoch": 0.28681688036848,
      "grad_norm": 5.525908946990967,
      "learning_rate": 0.00018695288128808376,
      "loss": 10.897,
      "step": 288
    },
    {
      "epoch": 0.28781277231420394,
      "grad_norm": 5.966858386993408,
      "learning_rate": 0.00018654150598858152,
      "loss": 11.5072,
      "step": 289
    },
    {
      "epoch": 0.2888086642599278,
      "grad_norm": 6.100443363189697,
      "learning_rate": 0.00018612924900872916,
      "loss": 12.3079,
      "step": 290
    },
    {
      "epoch": 0.2898045562056517,
      "grad_norm": 5.905527591705322,
      "learning_rate": 0.00018571611625476625,
      "loss": 11.6011,
      "step": 291
    },
    {
      "epoch": 0.29080044815137557,
      "grad_norm": 18.4097900390625,
      "learning_rate": 0.0001853021136454792,
      "loss": 12.0392,
      "step": 292
    },
    {
      "epoch": 0.2917963400970995,
      "grad_norm": 6.539964199066162,
      "learning_rate": 0.0001848872471121166,
      "loss": 12.8208,
      "step": 293
    },
    {
      "epoch": 0.29279223204282334,
      "grad_norm": 5.856533527374268,
      "learning_rate": 0.00018447152259830398,
      "loss": 11.9306,
      "step": 294
    },
    {
      "epoch": 0.29378812398854726,
      "grad_norm": 6.079041957855225,
      "learning_rate": 0.00018405494605995887,
      "loss": 11.4677,
      "step": 295
    },
    {
      "epoch": 0.2947840159342711,
      "grad_norm": 7.1472039222717285,
      "learning_rate": 0.00018363752346520548,
      "loss": 12.2707,
      "step": 296
    },
    {
      "epoch": 0.29577990787999503,
      "grad_norm": 6.571793556213379,
      "learning_rate": 0.00018321926079428903,
      "loss": 12.2654,
      "step": 297
    },
    {
      "epoch": 0.2967757998257189,
      "grad_norm": 6.160271644592285,
      "learning_rate": 0.00018280016403949024,
      "loss": 12.8305,
      "step": 298
    },
    {
      "epoch": 0.2977716917714428,
      "grad_norm": 6.2567572593688965,
      "learning_rate": 0.00018238023920503935,
      "loss": 12.1013,
      "step": 299
    },
    {
      "epoch": 0.29876758371716666,
      "grad_norm": 7.734886646270752,
      "learning_rate": 0.00018195949230703022,
      "loss": 13.1276,
      "step": 300
    },
    {
      "epoch": 0.29876758371716666,
      "eval_loss": 1.516517162322998,
      "eval_runtime": 289.8399,
      "eval_samples_per_second": 4.62,
      "eval_steps_per_second": 1.156,
      "step": 300
    },
    {
      "epoch": 0.2997634756628906,
      "grad_norm": 7.519866943359375,
      "learning_rate": 0.00018153792937333405,
      "loss": 12.56,
      "step": 301
    },
    {
      "epoch": 0.3007593676086145,
      "grad_norm": 6.709288120269775,
      "learning_rate": 0.00018111555644351307,
      "loss": 12.5308,
      "step": 302
    },
    {
      "epoch": 0.30175525955433835,
      "grad_norm": 5.9070281982421875,
      "learning_rate": 0.000180692379568734,
      "loss": 10.9037,
      "step": 303
    },
    {
      "epoch": 0.30275115150006227,
      "grad_norm": 7.148046493530273,
      "learning_rate": 0.00018026840481168138,
      "loss": 12.2679,
      "step": 304
    },
    {
      "epoch": 0.3037470434457861,
      "grad_norm": 5.894509315490723,
      "learning_rate": 0.00017984363824647065,
      "loss": 11.3378,
      "step": 305
    },
    {
      "epoch": 0.30474293539151004,
      "grad_norm": 5.6303229331970215,
      "learning_rate": 0.00017941808595856113,
      "loss": 10.7154,
      "step": 306
    },
    {
      "epoch": 0.3057388273372339,
      "grad_norm": 5.428180694580078,
      "learning_rate": 0.00017899175404466897,
      "loss": 10.747,
      "step": 307
    },
    {
      "epoch": 0.3067347192829578,
      "grad_norm": 5.827486038208008,
      "learning_rate": 0.0001785646486126796,
      "loss": 12.2957,
      "step": 308
    },
    {
      "epoch": 0.30773061122868167,
      "grad_norm": 6.739930152893066,
      "learning_rate": 0.0001781367757815604,
      "loss": 13.2347,
      "step": 309
    },
    {
      "epoch": 0.3087265031744056,
      "grad_norm": 6.382988929748535,
      "learning_rate": 0.000177708141681273,
      "loss": 12.367,
      "step": 310
    },
    {
      "epoch": 0.30972239512012945,
      "grad_norm": 6.265737533569336,
      "learning_rate": 0.00017727875245268534,
      "loss": 12.4424,
      "step": 311
    },
    {
      "epoch": 0.31071828706585336,
      "grad_norm": 6.454976558685303,
      "learning_rate": 0.00017684861424748386,
      "loss": 12.2459,
      "step": 312
    },
    {
      "epoch": 0.3117141790115772,
      "grad_norm": 5.488022804260254,
      "learning_rate": 0.00017641773322808518,
      "loss": 10.8191,
      "step": 313
    },
    {
      "epoch": 0.31271007095730113,
      "grad_norm": 9.193635940551758,
      "learning_rate": 0.00017598611556754804,
      "loss": 13.3586,
      "step": 314
    },
    {
      "epoch": 0.31370596290302505,
      "grad_norm": 6.968887805938721,
      "learning_rate": 0.0001755537674494846,
      "loss": 13.9658,
      "step": 315
    },
    {
      "epoch": 0.3147018548487489,
      "grad_norm": 5.535203456878662,
      "learning_rate": 0.00017512069506797224,
      "loss": 12.2494,
      "step": 316
    },
    {
      "epoch": 0.3156977467944728,
      "grad_norm": 5.723720073699951,
      "learning_rate": 0.00017468690462746426,
      "loss": 12.0819,
      "step": 317
    },
    {
      "epoch": 0.3166936387401967,
      "grad_norm": 6.4840850830078125,
      "learning_rate": 0.00017425240234270148,
      "loss": 11.7859,
      "step": 318
    },
    {
      "epoch": 0.3176895306859206,
      "grad_norm": 6.271676063537598,
      "learning_rate": 0.00017381719443862305,
      "loss": 13.0953,
      "step": 319
    },
    {
      "epoch": 0.31868542263164445,
      "grad_norm": 6.508022785186768,
      "learning_rate": 0.00017338128715027717,
      "loss": 11.8154,
      "step": 320
    },
    {
      "epoch": 0.31968131457736837,
      "grad_norm": 5.159334659576416,
      "learning_rate": 0.00017294468672273178,
      "loss": 11.3996,
      "step": 321
    },
    {
      "epoch": 0.32067720652309223,
      "grad_norm": 5.714421272277832,
      "learning_rate": 0.00017250739941098532,
      "loss": 12.8778,
      "step": 322
    },
    {
      "epoch": 0.32167309846881614,
      "grad_norm": 6.049591064453125,
      "learning_rate": 0.00017206943147987677,
      "loss": 12.7078,
      "step": 323
    },
    {
      "epoch": 0.32266899041454,
      "grad_norm": 5.64936637878418,
      "learning_rate": 0.00017163078920399616,
      "loss": 12.0689,
      "step": 324
    },
    {
      "epoch": 0.3236648823602639,
      "grad_norm": 5.128944396972656,
      "learning_rate": 0.00017119147886759462,
      "loss": 11.2092,
      "step": 325
    },
    {
      "epoch": 0.3246607743059878,
      "grad_norm": 5.202014923095703,
      "learning_rate": 0.00017075150676449418,
      "loss": 10.8206,
      "step": 326
    },
    {
      "epoch": 0.3256566662517117,
      "grad_norm": 5.825450420379639,
      "learning_rate": 0.00017031087919799792,
      "loss": 11.1645,
      "step": 327
    },
    {
      "epoch": 0.3266525581974356,
      "grad_norm": 6.169241428375244,
      "learning_rate": 0.0001698696024807993,
      "loss": 12.5059,
      "step": 328
    },
    {
      "epoch": 0.32764845014315946,
      "grad_norm": 5.669341087341309,
      "learning_rate": 0.00016942768293489198,
      "loss": 12.112,
      "step": 329
    },
    {
      "epoch": 0.3286443420888834,
      "grad_norm": 5.91945219039917,
      "learning_rate": 0.00016898512689147912,
      "loss": 12.5704,
      "step": 330
    },
    {
      "epoch": 0.32964023403460724,
      "grad_norm": 5.3270134925842285,
      "learning_rate": 0.0001685419406908829,
      "loss": 11.1185,
      "step": 331
    },
    {
      "epoch": 0.33063612598033115,
      "grad_norm": 6.189324378967285,
      "learning_rate": 0.0001680981306824533,
      "loss": 13.594,
      "step": 332
    },
    {
      "epoch": 0.331632017926055,
      "grad_norm": 5.268672466278076,
      "learning_rate": 0.00016765370322447738,
      "loss": 11.815,
      "step": 333
    },
    {
      "epoch": 0.3326279098717789,
      "grad_norm": 6.1424407958984375,
      "learning_rate": 0.0001672086646840883,
      "loss": 12.4271,
      "step": 334
    },
    {
      "epoch": 0.3336238018175028,
      "grad_norm": 6.57133674621582,
      "learning_rate": 0.00016676302143717376,
      "loss": 11.8458,
      "step": 335
    },
    {
      "epoch": 0.3346196937632267,
      "grad_norm": 6.405190467834473,
      "learning_rate": 0.0001663167798682849,
      "loss": 13.4903,
      "step": 336
    },
    {
      "epoch": 0.33561558570895056,
      "grad_norm": 5.354515075683594,
      "learning_rate": 0.00016586994637054486,
      "loss": 10.9491,
      "step": 337
    },
    {
      "epoch": 0.3366114776546745,
      "grad_norm": 5.805549144744873,
      "learning_rate": 0.00016542252734555706,
      "loss": 12.0369,
      "step": 338
    },
    {
      "epoch": 0.33760736960039833,
      "grad_norm": 7.639823913574219,
      "learning_rate": 0.0001649745292033135,
      "loss": 13.4881,
      "step": 339
    },
    {
      "epoch": 0.33860326154612225,
      "grad_norm": 6.16525936126709,
      "learning_rate": 0.000164525958362103,
      "loss": 11.7652,
      "step": 340
    },
    {
      "epoch": 0.33959915349184616,
      "grad_norm": 6.666656017303467,
      "learning_rate": 0.00016407682124841916,
      "loss": 12.8449,
      "step": 341
    },
    {
      "epoch": 0.34059504543757,
      "grad_norm": 7.354873180389404,
      "learning_rate": 0.00016362712429686844,
      "loss": 10.8402,
      "step": 342
    },
    {
      "epoch": 0.34159093738329394,
      "grad_norm": 6.7231526374816895,
      "learning_rate": 0.00016317687395007774,
      "loss": 13.0444,
      "step": 343
    },
    {
      "epoch": 0.3425868293290178,
      "grad_norm": 6.6920485496521,
      "learning_rate": 0.0001627260766586023,
      "loss": 12.295,
      "step": 344
    },
    {
      "epoch": 0.3435827212747417,
      "grad_norm": 5.398272514343262,
      "learning_rate": 0.00016227473888083318,
      "loss": 11.9999,
      "step": 345
    },
    {
      "epoch": 0.34457861322046557,
      "grad_norm": 6.592508316040039,
      "learning_rate": 0.00016182286708290485,
      "loss": 11.0985,
      "step": 346
    },
    {
      "epoch": 0.3455745051661895,
      "grad_norm": 6.421080589294434,
      "learning_rate": 0.00016137046773860242,
      "loss": 12.2588,
      "step": 347
    },
    {
      "epoch": 0.34657039711191334,
      "grad_norm": 7.451521396636963,
      "learning_rate": 0.0001609175473292689,
      "loss": 11.8329,
      "step": 348
    },
    {
      "epoch": 0.34756628905763726,
      "grad_norm": 7.403144836425781,
      "learning_rate": 0.00016046411234371249,
      "loss": 12.3238,
      "step": 349
    },
    {
      "epoch": 0.3485621810033611,
      "grad_norm": 6.073176383972168,
      "learning_rate": 0.0001600101692781134,
      "loss": 11.3786,
      "step": 350
    },
    {
      "epoch": 0.34955807294908503,
      "grad_norm": 5.982321262359619,
      "learning_rate": 0.00015955572463593093,
      "loss": 12.0612,
      "step": 351
    },
    {
      "epoch": 0.3505539648948089,
      "grad_norm": 6.197265148162842,
      "learning_rate": 0.00015910078492781038,
      "loss": 13.0901,
      "step": 352
    },
    {
      "epoch": 0.3515498568405328,
      "grad_norm": 5.7054443359375,
      "learning_rate": 0.00015864535667148953,
      "loss": 11.8859,
      "step": 353
    },
    {
      "epoch": 0.3525457487862567,
      "grad_norm": 6.113707065582275,
      "learning_rate": 0.00015818944639170538,
      "loss": 12.4638,
      "step": 354
    },
    {
      "epoch": 0.3535416407319806,
      "grad_norm": 5.500970840454102,
      "learning_rate": 0.00015773306062010083,
      "loss": 12.5954,
      "step": 355
    },
    {
      "epoch": 0.3545375326777045,
      "grad_norm": 6.778495788574219,
      "learning_rate": 0.00015727620589513084,
      "loss": 12.1178,
      "step": 356
    },
    {
      "epoch": 0.35553342462342835,
      "grad_norm": 5.658638954162598,
      "learning_rate": 0.0001568188887619689,
      "loss": 12.3659,
      "step": 357
    },
    {
      "epoch": 0.35652931656915227,
      "grad_norm": 5.579876899719238,
      "learning_rate": 0.0001563611157724132,
      "loss": 11.3356,
      "step": 358
    },
    {
      "epoch": 0.3575252085148761,
      "grad_norm": 5.567670822143555,
      "learning_rate": 0.0001559028934847929,
      "loss": 11.3109,
      "step": 359
    },
    {
      "epoch": 0.35852110046060004,
      "grad_norm": 5.965104579925537,
      "learning_rate": 0.00015544422846387398,
      "loss": 11.5413,
      "step": 360
    },
    {
      "epoch": 0.3595169924063239,
      "grad_norm": 5.479038715362549,
      "learning_rate": 0.00015498512728076536,
      "loss": 11.1271,
      "step": 361
    },
    {
      "epoch": 0.3605128843520478,
      "grad_norm": 6.937322616577148,
      "learning_rate": 0.0001545255965128246,
      "loss": 12.4041,
      "step": 362
    },
    {
      "epoch": 0.3615087762977717,
      "grad_norm": 6.604974269866943,
      "learning_rate": 0.00015406564274356377,
      "loss": 13.2388,
      "step": 363
    },
    {
      "epoch": 0.3625046682434956,
      "grad_norm": 5.381167411804199,
      "learning_rate": 0.00015360527256255517,
      "loss": 12.4161,
      "step": 364
    },
    {
      "epoch": 0.36350056018921945,
      "grad_norm": 6.176576137542725,
      "learning_rate": 0.00015314449256533677,
      "loss": 11.5011,
      "step": 365
    },
    {
      "epoch": 0.36449645213494336,
      "grad_norm": 6.568368434906006,
      "learning_rate": 0.00015268330935331787,
      "loss": 12.6016,
      "step": 366
    },
    {
      "epoch": 0.3654923440806673,
      "grad_norm": 6.896481513977051,
      "learning_rate": 0.00015222172953368446,
      "loss": 13.5208,
      "step": 367
    },
    {
      "epoch": 0.36648823602639113,
      "grad_norm": 5.2163262367248535,
      "learning_rate": 0.0001517597597193046,
      "loss": 10.7047,
      "step": 368
    },
    {
      "epoch": 0.36748412797211505,
      "grad_norm": 5.657341480255127,
      "learning_rate": 0.00015129740652863354,
      "loss": 11.5574,
      "step": 369
    },
    {
      "epoch": 0.3684800199178389,
      "grad_norm": 6.786725997924805,
      "learning_rate": 0.0001508346765856191,
      "loss": 12.2539,
      "step": 370
    },
    {
      "epoch": 0.3694759118635628,
      "grad_norm": 5.714908599853516,
      "learning_rate": 0.00015037157651960677,
      "loss": 11.4831,
      "step": 371
    },
    {
      "epoch": 0.3704718038092867,
      "grad_norm": 6.115590572357178,
      "learning_rate": 0.0001499081129652443,
      "loss": 11.983,
      "step": 372
    },
    {
      "epoch": 0.3714676957550106,
      "grad_norm": 5.770305633544922,
      "learning_rate": 0.00014944429256238742,
      "loss": 12.0888,
      "step": 373
    },
    {
      "epoch": 0.37246358770073446,
      "grad_norm": 6.408126354217529,
      "learning_rate": 0.000148980121956004,
      "loss": 12.551,
      "step": 374
    },
    {
      "epoch": 0.37345947964645837,
      "grad_norm": 5.341275215148926,
      "learning_rate": 0.00014851560779607922,
      "loss": 10.8883,
      "step": 375
    },
    {
      "epoch": 0.37445537159218223,
      "grad_norm": 5.945551872253418,
      "learning_rate": 0.00014805075673752022,
      "loss": 11.5723,
      "step": 376
    },
    {
      "epoch": 0.37545126353790614,
      "grad_norm": 5.617563724517822,
      "learning_rate": 0.0001475855754400608,
      "loss": 11.3891,
      "step": 377
    },
    {
      "epoch": 0.37644715548363,
      "grad_norm": 5.866842269897461,
      "learning_rate": 0.00014712007056816583,
      "loss": 11.773,
      "step": 378
    },
    {
      "epoch": 0.3774430474293539,
      "grad_norm": 5.4498796463012695,
      "learning_rate": 0.00014665424879093598,
      "loss": 11.6255,
      "step": 379
    },
    {
      "epoch": 0.3784389393750778,
      "grad_norm": 6.97362756729126,
      "learning_rate": 0.0001461881167820121,
      "loss": 11.3264,
      "step": 380
    },
    {
      "epoch": 0.3794348313208017,
      "grad_norm": 6.620206832885742,
      "learning_rate": 0.0001457216812194796,
      "loss": 12.2684,
      "step": 381
    },
    {
      "epoch": 0.3804307232665256,
      "grad_norm": 6.0084228515625,
      "learning_rate": 0.00014525494878577278,
      "loss": 12.1192,
      "step": 382
    },
    {
      "epoch": 0.38142661521224946,
      "grad_norm": 6.702908515930176,
      "learning_rate": 0.00014478792616757908,
      "loss": 11.2421,
      "step": 383
    },
    {
      "epoch": 0.3824225071579734,
      "grad_norm": 5.771916389465332,
      "learning_rate": 0.00014432062005574332,
      "loss": 12.0659,
      "step": 384
    },
    {
      "epoch": 0.38341839910369724,
      "grad_norm": 6.246331691741943,
      "learning_rate": 0.00014385303714517175,
      "loss": 12.3364,
      "step": 385
    },
    {
      "epoch": 0.38441429104942115,
      "grad_norm": 6.237067699432373,
      "learning_rate": 0.00014338518413473632,
      "loss": 10.9562,
      "step": 386
    },
    {
      "epoch": 0.385410182995145,
      "grad_norm": 5.690719127655029,
      "learning_rate": 0.00014291706772717847,
      "loss": 11.8223,
      "step": 387
    },
    {
      "epoch": 0.3864060749408689,
      "grad_norm": 6.914798259735107,
      "learning_rate": 0.00014244869462901331,
      "loss": 12.0813,
      "step": 388
    },
    {
      "epoch": 0.3874019668865928,
      "grad_norm": 6.975170612335205,
      "learning_rate": 0.00014198007155043343,
      "loss": 10.7795,
      "step": 389
    },
    {
      "epoch": 0.3883978588323167,
      "grad_norm": 5.881531715393066,
      "learning_rate": 0.00014151120520521283,
      "loss": 11.8511,
      "step": 390
    },
    {
      "epoch": 0.38939375077804056,
      "grad_norm": 5.874497413635254,
      "learning_rate": 0.00014104210231061053,
      "loss": 11.0519,
      "step": 391
    },
    {
      "epoch": 0.3903896427237645,
      "grad_norm": 6.757877826690674,
      "learning_rate": 0.00014057276958727468,
      "loss": 12.7317,
      "step": 392
    },
    {
      "epoch": 0.39138553466948833,
      "grad_norm": 7.4160637855529785,
      "learning_rate": 0.0001401032137591461,
      "loss": 11.9433,
      "step": 393
    },
    {
      "epoch": 0.39238142661521225,
      "grad_norm": 5.124035835266113,
      "learning_rate": 0.00013963344155336178,
      "loss": 10.2948,
      "step": 394
    },
    {
      "epoch": 0.39337731856093616,
      "grad_norm": 6.715900897979736,
      "learning_rate": 0.00013916345970015875,
      "loss": 12.0971,
      "step": 395
    },
    {
      "epoch": 0.39437321050666,
      "grad_norm": 6.183508396148682,
      "learning_rate": 0.00013869327493277762,
      "loss": 12.2012,
      "step": 396
    },
    {
      "epoch": 0.39536910245238394,
      "grad_norm": 6.416903018951416,
      "learning_rate": 0.000138222893987366,
      "loss": 12.4187,
      "step": 397
    },
    {
      "epoch": 0.3963649943981078,
      "grad_norm": 6.140800476074219,
      "learning_rate": 0.00013775232360288214,
      "loss": 11.6096,
      "step": 398
    },
    {
      "epoch": 0.3973608863438317,
      "grad_norm": 6.360043048858643,
      "learning_rate": 0.00013728157052099823,
      "loss": 12.4352,
      "step": 399
    },
    {
      "epoch": 0.39835677828955557,
      "grad_norm": 5.971815586090088,
      "learning_rate": 0.00013681064148600392,
      "loss": 10.6359,
      "step": 400
    },
    {
      "epoch": 0.39835677828955557,
      "eval_loss": 1.5056407451629639,
      "eval_runtime": 289.8388,
      "eval_samples_per_second": 4.62,
      "eval_steps_per_second": 1.156,
      "step": 400
    },
    {
      "epoch": 0.3993526702352795,
      "grad_norm": 6.695412635803223,
      "learning_rate": 0.00013633954324470968,
      "loss": 11.4601,
      "step": 401
    },
    {
      "epoch": 0.40034856218100334,
      "grad_norm": 6.6551337242126465,
      "learning_rate": 0.00013586828254635015,
      "loss": 12.2329,
      "step": 402
    },
    {
      "epoch": 0.40134445412672726,
      "grad_norm": 6.626735687255859,
      "learning_rate": 0.0001353968661424873,
      "loss": 12.1324,
      "step": 403
    },
    {
      "epoch": 0.4023403460724511,
      "grad_norm": 6.322345733642578,
      "learning_rate": 0.00013492530078691403,
      "loss": 12.0786,
      "step": 404
    },
    {
      "epoch": 0.40333623801817503,
      "grad_norm": 4.97235631942749,
      "learning_rate": 0.00013445359323555712,
      "loss": 10.4874,
      "step": 405
    },
    {
      "epoch": 0.4043321299638989,
      "grad_norm": 6.183226108551025,
      "learning_rate": 0.0001339817502463804,
      "loss": 12.173,
      "step": 406
    },
    {
      "epoch": 0.4053280219096228,
      "grad_norm": 6.04211950302124,
      "learning_rate": 0.00013350977857928836,
      "loss": 11.1317,
      "step": 407
    },
    {
      "epoch": 0.4063239138553467,
      "grad_norm": 5.817178726196289,
      "learning_rate": 0.0001330376849960287,
      "loss": 12.1543,
      "step": 408
    },
    {
      "epoch": 0.4073198058010706,
      "grad_norm": 7.050534248352051,
      "learning_rate": 0.0001325654762600959,
      "loss": 12.6231,
      "step": 409
    },
    {
      "epoch": 0.4083156977467945,
      "grad_norm": 6.723251819610596,
      "learning_rate": 0.00013209315913663427,
      "loss": 12.7058,
      "step": 410
    },
    {
      "epoch": 0.40931158969251835,
      "grad_norm": 4.917559623718262,
      "learning_rate": 0.0001316207403923408,
      "loss": 10.9655,
      "step": 411
    },
    {
      "epoch": 0.41030748163824227,
      "grad_norm": 6.4542107582092285,
      "learning_rate": 0.00013114822679536836,
      "loss": 13.6992,
      "step": 412
    },
    {
      "epoch": 0.4113033735839661,
      "grad_norm": 6.2309346199035645,
      "learning_rate": 0.0001306756251152289,
      "loss": 12.3255,
      "step": 413
    },
    {
      "epoch": 0.41229926552969004,
      "grad_norm": 6.741308689117432,
      "learning_rate": 0.00013020294212269615,
      "loss": 13.0598,
      "step": 414
    },
    {
      "epoch": 0.4132951574754139,
      "grad_norm": 6.19504976272583,
      "learning_rate": 0.0001297301845897088,
      "loss": 14.3294,
      "step": 415
    },
    {
      "epoch": 0.4142910494211378,
      "grad_norm": 6.095429420471191,
      "learning_rate": 0.0001292573592892735,
      "loss": 12.5742,
      "step": 416
    },
    {
      "epoch": 0.4152869413668617,
      "grad_norm": 5.67078161239624,
      "learning_rate": 0.00012878447299536768,
      "loss": 12.8696,
      "step": 417
    },
    {
      "epoch": 0.4162828333125856,
      "grad_norm": 5.176650524139404,
      "learning_rate": 0.00012831153248284272,
      "loss": 12.2691,
      "step": 418
    },
    {
      "epoch": 0.41727872525830945,
      "grad_norm": 6.270726680755615,
      "learning_rate": 0.00012783854452732668,
      "loss": 11.5467,
      "step": 419
    },
    {
      "epoch": 0.41827461720403336,
      "grad_norm": 6.120121002197266,
      "learning_rate": 0.00012736551590512737,
      "loss": 12.1084,
      "step": 420
    },
    {
      "epoch": 0.4192705091497573,
      "grad_norm": 5.2254862785339355,
      "learning_rate": 0.00012689245339313521,
      "loss": 12.1979,
      "step": 421
    },
    {
      "epoch": 0.42026640109548113,
      "grad_norm": 5.770168781280518,
      "learning_rate": 0.00012641936376872606,
      "loss": 12.6844,
      "step": 422
    },
    {
      "epoch": 0.42126229304120505,
      "grad_norm": 6.377243995666504,
      "learning_rate": 0.00012594625380966436,
      "loss": 12.6859,
      "step": 423
    },
    {
      "epoch": 0.4222581849869289,
      "grad_norm": 5.389707565307617,
      "learning_rate": 0.00012547313029400567,
      "loss": 11.773,
      "step": 424
    },
    {
      "epoch": 0.4232540769326528,
      "grad_norm": 5.801501750946045,
      "learning_rate": 0.000125,
      "loss": 12.0606,
      "step": 425
    },
    {
      "epoch": 0.4242499688783767,
      "grad_norm": 6.649625301361084,
      "learning_rate": 0.0001245268697059943,
      "loss": 12.1181,
      "step": 426
    },
    {
      "epoch": 0.4252458608241006,
      "grad_norm": 6.166293144226074,
      "learning_rate": 0.0001240537461903357,
      "loss": 12.4382,
      "step": 427
    },
    {
      "epoch": 0.42624175276982446,
      "grad_norm": 5.566735744476318,
      "learning_rate": 0.00012358063623127394,
      "loss": 11.7602,
      "step": 428
    },
    {
      "epoch": 0.42723764471554837,
      "grad_norm": 6.631081581115723,
      "learning_rate": 0.00012310754660686482,
      "loss": 12.4029,
      "step": 429
    },
    {
      "epoch": 0.42823353666127223,
      "grad_norm": 5.083254814147949,
      "learning_rate": 0.00012263448409487266,
      "loss": 11.5772,
      "step": 430
    },
    {
      "epoch": 0.42922942860699614,
      "grad_norm": 5.555343151092529,
      "learning_rate": 0.00012216145547267333,
      "loss": 10.4996,
      "step": 431
    },
    {
      "epoch": 0.43022532055272,
      "grad_norm": 4.766176223754883,
      "learning_rate": 0.00012168846751715729,
      "loss": 11.4977,
      "step": 432
    },
    {
      "epoch": 0.4312212124984439,
      "grad_norm": 5.567246437072754,
      "learning_rate": 0.00012121552700463235,
      "loss": 11.6256,
      "step": 433
    },
    {
      "epoch": 0.43221710444416783,
      "grad_norm": 6.13475227355957,
      "learning_rate": 0.00012074264071072653,
      "loss": 12.4283,
      "step": 434
    },
    {
      "epoch": 0.4332129963898917,
      "grad_norm": 5.974978923797607,
      "learning_rate": 0.00012026981541029122,
      "loss": 12.2817,
      "step": 435
    },
    {
      "epoch": 0.4342088883356156,
      "grad_norm": 5.512807846069336,
      "learning_rate": 0.00011979705787730388,
      "loss": 11.7294,
      "step": 436
    },
    {
      "epoch": 0.43520478028133947,
      "grad_norm": 5.102151393890381,
      "learning_rate": 0.00011932437488477113,
      "loss": 9.8982,
      "step": 437
    },
    {
      "epoch": 0.4362006722270634,
      "grad_norm": 6.0491623878479,
      "learning_rate": 0.00011885177320463165,
      "loss": 11.6918,
      "step": 438
    },
    {
      "epoch": 0.43719656417278724,
      "grad_norm": 6.371288299560547,
      "learning_rate": 0.00011837925960765928,
      "loss": 12.9814,
      "step": 439
    },
    {
      "epoch": 0.43819245611851115,
      "grad_norm": 5.732490062713623,
      "learning_rate": 0.00011790684086336576,
      "loss": 12.1104,
      "step": 440
    },
    {
      "epoch": 0.439188348064235,
      "grad_norm": 6.025941848754883,
      "learning_rate": 0.00011743452373990408,
      "loss": 12.2868,
      "step": 441
    },
    {
      "epoch": 0.4401842400099589,
      "grad_norm": 7.7239603996276855,
      "learning_rate": 0.00011696231500397135,
      "loss": 12.834,
      "step": 442
    },
    {
      "epoch": 0.4411801319556828,
      "grad_norm": 6.518691062927246,
      "learning_rate": 0.00011649022142071167,
      "loss": 12.9192,
      "step": 443
    },
    {
      "epoch": 0.4421760239014067,
      "grad_norm": 5.347179889678955,
      "learning_rate": 0.00011601824975361959,
      "loss": 10.4923,
      "step": 444
    },
    {
      "epoch": 0.44317191584713056,
      "grad_norm": 6.918272495269775,
      "learning_rate": 0.00011554640676444295,
      "loss": 11.6119,
      "step": 445
    },
    {
      "epoch": 0.4441678077928545,
      "grad_norm": 6.190727710723877,
      "learning_rate": 0.00011507469921308598,
      "loss": 13.9115,
      "step": 446
    },
    {
      "epoch": 0.4451636997385784,
      "grad_norm": 6.001166343688965,
      "learning_rate": 0.0001146031338575127,
      "loss": 11.5416,
      "step": 447
    },
    {
      "epoch": 0.44615959168430225,
      "grad_norm": 9.23908519744873,
      "learning_rate": 0.00011413171745364992,
      "loss": 13.9503,
      "step": 448
    },
    {
      "epoch": 0.44715548363002616,
      "grad_norm": 6.2685723304748535,
      "learning_rate": 0.00011366045675529033,
      "loss": 10.9264,
      "step": 449
    },
    {
      "epoch": 0.44815137557575,
      "grad_norm": 5.3125901222229,
      "learning_rate": 0.0001131893585139961,
      "loss": 11.8189,
      "step": 450
    },
    {
      "epoch": 0.44914726752147394,
      "grad_norm": 5.640747547149658,
      "learning_rate": 0.00011271842947900179,
      "loss": 10.8639,
      "step": 451
    },
    {
      "epoch": 0.4501431594671978,
      "grad_norm": 6.120314598083496,
      "learning_rate": 0.00011224767639711789,
      "loss": 13.9796,
      "step": 452
    },
    {
      "epoch": 0.4511390514129217,
      "grad_norm": 5.786348342895508,
      "learning_rate": 0.000111777106012634,
      "loss": 12.8427,
      "step": 453
    },
    {
      "epoch": 0.45213494335864557,
      "grad_norm": 5.406647682189941,
      "learning_rate": 0.00011130672506722242,
      "loss": 11.3131,
      "step": 454
    },
    {
      "epoch": 0.4531308353043695,
      "grad_norm": 6.1720099449157715,
      "learning_rate": 0.00011083654029984128,
      "loss": 12.1748,
      "step": 455
    },
    {
      "epoch": 0.45412672725009334,
      "grad_norm": 6.570352554321289,
      "learning_rate": 0.00011036655844663824,
      "loss": 12.7982,
      "step": 456
    },
    {
      "epoch": 0.45512261919581726,
      "grad_norm": 5.541633129119873,
      "learning_rate": 0.00010989678624085394,
      "loss": 11.4866,
      "step": 457
    },
    {
      "epoch": 0.4561185111415411,
      "grad_norm": 6.466024875640869,
      "learning_rate": 0.00010942723041272531,
      "loss": 12.9477,
      "step": 458
    },
    {
      "epoch": 0.45711440308726503,
      "grad_norm": 4.921136379241943,
      "learning_rate": 0.00010895789768938948,
      "loss": 10.5616,
      "step": 459
    },
    {
      "epoch": 0.45811029503298895,
      "grad_norm": 7.542169094085693,
      "learning_rate": 0.00010848879479478724,
      "loss": 13.1838,
      "step": 460
    },
    {
      "epoch": 0.4591061869787128,
      "grad_norm": 6.347965240478516,
      "learning_rate": 0.00010801992844956659,
      "loss": 12.3061,
      "step": 461
    },
    {
      "epoch": 0.4601020789244367,
      "grad_norm": 5.8513689041137695,
      "learning_rate": 0.00010755130537098669,
      "loss": 11.7932,
      "step": 462
    },
    {
      "epoch": 0.4610979708701606,
      "grad_norm": 6.4326677322387695,
      "learning_rate": 0.00010708293227282158,
      "loss": 11.9086,
      "step": 463
    },
    {
      "epoch": 0.4620938628158845,
      "grad_norm": 5.559072494506836,
      "learning_rate": 0.00010661481586526371,
      "loss": 11.826,
      "step": 464
    },
    {
      "epoch": 0.46308975476160835,
      "grad_norm": 5.315805435180664,
      "learning_rate": 0.00010614696285482828,
      "loss": 12.2405,
      "step": 465
    },
    {
      "epoch": 0.46408564670733227,
      "grad_norm": 5.958090305328369,
      "learning_rate": 0.00010567937994425675,
      "loss": 10.8293,
      "step": 466
    },
    {
      "epoch": 0.4650815386530561,
      "grad_norm": 5.258885860443115,
      "learning_rate": 0.00010521207383242094,
      "loss": 10.2966,
      "step": 467
    },
    {
      "epoch": 0.46607743059878004,
      "grad_norm": 5.901886940002441,
      "learning_rate": 0.00010474505121422722,
      "loss": 11.8841,
      "step": 468
    },
    {
      "epoch": 0.4670733225445039,
      "grad_norm": 5.9542341232299805,
      "learning_rate": 0.00010427831878052043,
      "loss": 13.1809,
      "step": 469
    },
    {
      "epoch": 0.4680692144902278,
      "grad_norm": 5.833163738250732,
      "learning_rate": 0.00010381188321798792,
      "loss": 11.8099,
      "step": 470
    },
    {
      "epoch": 0.4690651064359517,
      "grad_norm": 5.479732513427734,
      "learning_rate": 0.00010334575120906404,
      "loss": 11.7125,
      "step": 471
    },
    {
      "epoch": 0.4700609983816756,
      "grad_norm": 5.714720726013184,
      "learning_rate": 0.00010287992943183422,
      "loss": 11.6581,
      "step": 472
    },
    {
      "epoch": 0.4710568903273995,
      "grad_norm": 5.256033420562744,
      "learning_rate": 0.00010241442455993925,
      "loss": 10.8862,
      "step": 473
    },
    {
      "epoch": 0.47205278227312336,
      "grad_norm": 5.788590908050537,
      "learning_rate": 0.00010194924326247976,
      "loss": 12.4129,
      "step": 474
    },
    {
      "epoch": 0.4730486742188473,
      "grad_norm": 6.205699443817139,
      "learning_rate": 0.00010148439220392081,
      "loss": 12.2752,
      "step": 475
    },
    {
      "epoch": 0.47404456616457114,
      "grad_norm": 5.725231170654297,
      "learning_rate": 0.00010101987804399601,
      "loss": 12.1739,
      "step": 476
    },
    {
      "epoch": 0.47504045811029505,
      "grad_norm": 5.984923362731934,
      "learning_rate": 0.00010055570743761256,
      "loss": 10.9013,
      "step": 477
    },
    {
      "epoch": 0.4760363500560189,
      "grad_norm": 6.258663654327393,
      "learning_rate": 0.00010009188703475571,
      "loss": 11.7148,
      "step": 478
    },
    {
      "epoch": 0.4770322420017428,
      "grad_norm": 5.729332447052002,
      "learning_rate": 9.962842348039328e-05,
      "loss": 11.2752,
      "step": 479
    },
    {
      "epoch": 0.4780281339474667,
      "grad_norm": 5.4574995040893555,
      "learning_rate": 9.916532341438088e-05,
      "loss": 12.89,
      "step": 480
    },
    {
      "epoch": 0.4790240258931906,
      "grad_norm": 6.573443412780762,
      "learning_rate": 9.87025934713665e-05,
      "loss": 12.5011,
      "step": 481
    },
    {
      "epoch": 0.48001991783891446,
      "grad_norm": 6.030612468719482,
      "learning_rate": 9.824024028069541e-05,
      "loss": 12.3289,
      "step": 482
    },
    {
      "epoch": 0.48101580978463837,
      "grad_norm": 6.0058698654174805,
      "learning_rate": 9.777827046631553e-05,
      "loss": 13.7869,
      "step": 483
    },
    {
      "epoch": 0.48201170173036223,
      "grad_norm": 5.5297040939331055,
      "learning_rate": 9.731669064668217e-05,
      "loss": 12.0592,
      "step": 484
    },
    {
      "epoch": 0.48300759367608614,
      "grad_norm": 5.423988342285156,
      "learning_rate": 9.685550743466325e-05,
      "loss": 10.2873,
      "step": 485
    },
    {
      "epoch": 0.48400348562181006,
      "grad_norm": 5.130181789398193,
      "learning_rate": 9.639472743744486e-05,
      "loss": 9.5329,
      "step": 486
    },
    {
      "epoch": 0.4849993775675339,
      "grad_norm": 6.554098606109619,
      "learning_rate": 9.593435725643623e-05,
      "loss": 13.0928,
      "step": 487
    },
    {
      "epoch": 0.48599526951325783,
      "grad_norm": 5.409817218780518,
      "learning_rate": 9.547440348717542e-05,
      "loss": 11.0439,
      "step": 488
    },
    {
      "epoch": 0.4869911614589817,
      "grad_norm": 5.266180038452148,
      "learning_rate": 9.501487271923463e-05,
      "loss": 10.6856,
      "step": 489
    },
    {
      "epoch": 0.4879870534047056,
      "grad_norm": 6.0554633140563965,
      "learning_rate": 9.455577153612602e-05,
      "loss": 11.6784,
      "step": 490
    },
    {
      "epoch": 0.48898294535042947,
      "grad_norm": 5.316808223724365,
      "learning_rate": 9.40971065152071e-05,
      "loss": 9.9632,
      "step": 491
    },
    {
      "epoch": 0.4899788372961534,
      "grad_norm": 5.960623264312744,
      "learning_rate": 9.363888422758678e-05,
      "loss": 11.169,
      "step": 492
    },
    {
      "epoch": 0.49097472924187724,
      "grad_norm": 6.7030253410339355,
      "learning_rate": 9.318111123803113e-05,
      "loss": 12.5777,
      "step": 493
    },
    {
      "epoch": 0.49197062118760115,
      "grad_norm": 5.716718673706055,
      "learning_rate": 9.272379410486917e-05,
      "loss": 12.1007,
      "step": 494
    },
    {
      "epoch": 0.492966513133325,
      "grad_norm": 5.541021823883057,
      "learning_rate": 9.226693937989916e-05,
      "loss": 11.0471,
      "step": 495
    },
    {
      "epoch": 0.4939624050790489,
      "grad_norm": 6.103461742401123,
      "learning_rate": 9.181055360829463e-05,
      "loss": 11.6358,
      "step": 496
    },
    {
      "epoch": 0.4949582970247728,
      "grad_norm": 5.171212196350098,
      "learning_rate": 9.135464332851049e-05,
      "loss": 11.737,
      "step": 497
    },
    {
      "epoch": 0.4959541889704967,
      "grad_norm": 6.258893013000488,
      "learning_rate": 9.089921507218962e-05,
      "loss": 12.2711,
      "step": 498
    },
    {
      "epoch": 0.4969500809162206,
      "grad_norm": 5.942646026611328,
      "learning_rate": 9.044427536406909e-05,
      "loss": 12.4533,
      "step": 499
    },
    {
      "epoch": 0.4979459728619445,
      "grad_norm": 5.429832458496094,
      "learning_rate": 8.998983072188663e-05,
      "loss": 11.4921,
      "step": 500
    },
    {
      "epoch": 0.4979459728619445,
      "eval_loss": 1.483846664428711,
      "eval_runtime": 289.886,
      "eval_samples_per_second": 4.619,
      "eval_steps_per_second": 1.156,
      "step": 500
    },
    {
      "epoch": 0.4989418648076684,
      "grad_norm": 6.279896259307861,
      "learning_rate": 8.953588765628753e-05,
      "loss": 12.5236,
      "step": 501
    },
    {
      "epoch": 0.49993775675339225,
      "grad_norm": 7.839783668518066,
      "learning_rate": 8.90824526707311e-05,
      "loss": 11.226,
      "step": 502
    },
    {
      "epoch": 0.5009336486991162,
      "grad_norm": 5.284313678741455,
      "learning_rate": 8.86295322613976e-05,
      "loss": 10.7881,
      "step": 503
    },
    {
      "epoch": 0.5019295406448401,
      "grad_norm": 5.617724418640137,
      "learning_rate": 8.817713291709513e-05,
      "loss": 12.3775,
      "step": 504
    },
    {
      "epoch": 0.5029254325905639,
      "grad_norm": 5.214620113372803,
      "learning_rate": 8.772526111916685e-05,
      "loss": 11.2123,
      "step": 505
    },
    {
      "epoch": 0.5039213245362878,
      "grad_norm": 6.912374973297119,
      "learning_rate": 8.727392334139771e-05,
      "loss": 13.137,
      "step": 506
    },
    {
      "epoch": 0.5049172164820117,
      "grad_norm": 6.51848840713501,
      "learning_rate": 8.682312604992227e-05,
      "loss": 11.9434,
      "step": 507
    },
    {
      "epoch": 0.5059131084277356,
      "grad_norm": 5.211724758148193,
      "learning_rate": 8.637287570313158e-05,
      "loss": 10.2712,
      "step": 508
    },
    {
      "epoch": 0.5069090003734594,
      "grad_norm": 5.400852203369141,
      "learning_rate": 8.592317875158085e-05,
      "loss": 10.2705,
      "step": 509
    },
    {
      "epoch": 0.5079048923191833,
      "grad_norm": 5.548620223999023,
      "learning_rate": 8.5474041637897e-05,
      "loss": 10.4555,
      "step": 510
    },
    {
      "epoch": 0.5089007842649073,
      "grad_norm": 6.38204288482666,
      "learning_rate": 8.502547079668653e-05,
      "loss": 11.8434,
      "step": 511
    },
    {
      "epoch": 0.5098966762106312,
      "grad_norm": 5.735969543457031,
      "learning_rate": 8.457747265444296e-05,
      "loss": 10.9467,
      "step": 512
    },
    {
      "epoch": 0.5108925681563551,
      "grad_norm": 5.540611743927002,
      "learning_rate": 8.413005362945512e-05,
      "loss": 12.3345,
      "step": 513
    },
    {
      "epoch": 0.5118884601020789,
      "grad_norm": 6.0366692543029785,
      "learning_rate": 8.368322013171513e-05,
      "loss": 11.6241,
      "step": 514
    },
    {
      "epoch": 0.5128843520478028,
      "grad_norm": 5.270688056945801,
      "learning_rate": 8.323697856282627e-05,
      "loss": 10.389,
      "step": 515
    },
    {
      "epoch": 0.5138802439935267,
      "grad_norm": 6.122136116027832,
      "learning_rate": 8.27913353159117e-05,
      "loss": 10.98,
      "step": 516
    },
    {
      "epoch": 0.5148761359392506,
      "grad_norm": 6.037084579467773,
      "learning_rate": 8.234629677552263e-05,
      "loss": 12.568,
      "step": 517
    },
    {
      "epoch": 0.5158720278849744,
      "grad_norm": 7.1887125968933105,
      "learning_rate": 8.190186931754673e-05,
      "loss": 12.7303,
      "step": 518
    },
    {
      "epoch": 0.5168679198306984,
      "grad_norm": 5.168606758117676,
      "learning_rate": 8.14580593091171e-05,
      "loss": 11.5019,
      "step": 519
    },
    {
      "epoch": 0.5178638117764223,
      "grad_norm": 5.976624965667725,
      "learning_rate": 8.101487310852087e-05,
      "loss": 12.8172,
      "step": 520
    },
    {
      "epoch": 0.5188597037221462,
      "grad_norm": 5.563510417938232,
      "learning_rate": 8.057231706510807e-05,
      "loss": 11.5814,
      "step": 521
    },
    {
      "epoch": 0.51985559566787,
      "grad_norm": 5.869482040405273,
      "learning_rate": 8.013039751920074e-05,
      "loss": 12.1924,
      "step": 522
    },
    {
      "epoch": 0.5208514876135939,
      "grad_norm": 6.094331741333008,
      "learning_rate": 7.968912080200211e-05,
      "loss": 11.5143,
      "step": 523
    },
    {
      "epoch": 0.5218473795593178,
      "grad_norm": 5.655307769775391,
      "learning_rate": 7.924849323550581e-05,
      "loss": 11.5072,
      "step": 524
    },
    {
      "epoch": 0.5228432715050417,
      "grad_norm": 5.7834367752075195,
      "learning_rate": 7.880852113240539e-05,
      "loss": 11.97,
      "step": 525
    },
    {
      "epoch": 0.5238391634507656,
      "grad_norm": 7.464441776275635,
      "learning_rate": 7.836921079600384e-05,
      "loss": 12.2958,
      "step": 526
    },
    {
      "epoch": 0.5248350553964894,
      "grad_norm": 5.94898796081543,
      "learning_rate": 7.793056852012324e-05,
      "loss": 12.3025,
      "step": 527
    },
    {
      "epoch": 0.5258309473422134,
      "grad_norm": 5.301365852355957,
      "learning_rate": 7.749260058901467e-05,
      "loss": 10.7913,
      "step": 528
    },
    {
      "epoch": 0.5268268392879373,
      "grad_norm": 5.742236137390137,
      "learning_rate": 7.705531327726824e-05,
      "loss": 11.6252,
      "step": 529
    },
    {
      "epoch": 0.5278227312336612,
      "grad_norm": 5.871049404144287,
      "learning_rate": 7.661871284972286e-05,
      "loss": 12.7432,
      "step": 530
    },
    {
      "epoch": 0.528818623179385,
      "grad_norm": 5.6256866455078125,
      "learning_rate": 7.618280556137697e-05,
      "loss": 11.5549,
      "step": 531
    },
    {
      "epoch": 0.5298145151251089,
      "grad_norm": 6.3018903732299805,
      "learning_rate": 7.574759765729853e-05,
      "loss": 11.8701,
      "step": 532
    },
    {
      "epoch": 0.5308104070708328,
      "grad_norm": 5.372267246246338,
      "learning_rate": 7.531309537253574e-05,
      "loss": 10.7988,
      "step": 533
    },
    {
      "epoch": 0.5318062990165567,
      "grad_norm": 5.44589376449585,
      "learning_rate": 7.487930493202783e-05,
      "loss": 12.7583,
      "step": 534
    },
    {
      "epoch": 0.5328021909622805,
      "grad_norm": 6.493985176086426,
      "learning_rate": 7.444623255051538e-05,
      "loss": 12.9094,
      "step": 535
    },
    {
      "epoch": 0.5337980829080045,
      "grad_norm": 5.483232021331787,
      "learning_rate": 7.4013884432452e-05,
      "loss": 12.4428,
      "step": 536
    },
    {
      "epoch": 0.5347939748537284,
      "grad_norm": 6.090009689331055,
      "learning_rate": 7.358226677191488e-05,
      "loss": 13.0753,
      "step": 537
    },
    {
      "epoch": 0.5357898667994523,
      "grad_norm": 5.5943522453308105,
      "learning_rate": 7.315138575251617e-05,
      "loss": 10.7217,
      "step": 538
    },
    {
      "epoch": 0.5367857587451762,
      "grad_norm": 5.108747482299805,
      "learning_rate": 7.272124754731468e-05,
      "loss": 10.47,
      "step": 539
    },
    {
      "epoch": 0.5377816506909,
      "grad_norm": 7.087966442108154,
      "learning_rate": 7.229185831872701e-05,
      "loss": 11.7998,
      "step": 540
    },
    {
      "epoch": 0.5387775426366239,
      "grad_norm": 5.637360095977783,
      "learning_rate": 7.18632242184396e-05,
      "loss": 11.9396,
      "step": 541
    },
    {
      "epoch": 0.5397734345823478,
      "grad_norm": 5.862568378448486,
      "learning_rate": 7.143535138732044e-05,
      "loss": 11.211,
      "step": 542
    },
    {
      "epoch": 0.5407693265280717,
      "grad_norm": 5.098068714141846,
      "learning_rate": 7.100824595533109e-05,
      "loss": 11.7145,
      "step": 543
    },
    {
      "epoch": 0.5417652184737956,
      "grad_norm": 5.469205856323242,
      "learning_rate": 7.05819140414389e-05,
      "loss": 11.3163,
      "step": 544
    },
    {
      "epoch": 0.5427611104195195,
      "grad_norm": 4.86387825012207,
      "learning_rate": 7.015636175352935e-05,
      "loss": 12.6151,
      "step": 545
    },
    {
      "epoch": 0.5437570023652434,
      "grad_norm": 5.209597110748291,
      "learning_rate": 6.973159518831865e-05,
      "loss": 10.7285,
      "step": 546
    },
    {
      "epoch": 0.5447528943109673,
      "grad_norm": 6.904428958892822,
      "learning_rate": 6.930762043126598e-05,
      "loss": 12.6723,
      "step": 547
    },
    {
      "epoch": 0.5457487862566911,
      "grad_norm": 5.574467658996582,
      "learning_rate": 6.888444355648694e-05,
      "loss": 11.2369,
      "step": 548
    },
    {
      "epoch": 0.546744678202415,
      "grad_norm": 5.7822184562683105,
      "learning_rate": 6.846207062666598e-05,
      "loss": 11.7722,
      "step": 549
    },
    {
      "epoch": 0.5477405701481389,
      "grad_norm": 5.367188930511475,
      "learning_rate": 6.804050769296982e-05,
      "loss": 11.7805,
      "step": 550
    },
    {
      "epoch": 0.5487364620938628,
      "grad_norm": 4.832945823669434,
      "learning_rate": 6.761976079496069e-05,
      "loss": 10.9897,
      "step": 551
    },
    {
      "epoch": 0.5497323540395868,
      "grad_norm": 6.3430962562561035,
      "learning_rate": 6.719983596050979e-05,
      "loss": 13.1188,
      "step": 552
    },
    {
      "epoch": 0.5507282459853106,
      "grad_norm": 5.310800075531006,
      "learning_rate": 6.678073920571101e-05,
      "loss": 11.8806,
      "step": 553
    },
    {
      "epoch": 0.5517241379310345,
      "grad_norm": 5.725086688995361,
      "learning_rate": 6.636247653479451e-05,
      "loss": 12.9238,
      "step": 554
    },
    {
      "epoch": 0.5527200298767584,
      "grad_norm": 6.0460920333862305,
      "learning_rate": 6.594505394004116e-05,
      "loss": 12.2236,
      "step": 555
    },
    {
      "epoch": 0.5537159218224823,
      "grad_norm": 5.62431526184082,
      "learning_rate": 6.552847740169603e-05,
      "loss": 12.1332,
      "step": 556
    },
    {
      "epoch": 0.5547118137682061,
      "grad_norm": 5.583924770355225,
      "learning_rate": 6.511275288788341e-05,
      "loss": 11.2317,
      "step": 557
    },
    {
      "epoch": 0.55570770571393,
      "grad_norm": 5.76798677444458,
      "learning_rate": 6.469788635452085e-05,
      "loss": 11.5159,
      "step": 558
    },
    {
      "epoch": 0.5567035976596539,
      "grad_norm": 4.825177192687988,
      "learning_rate": 6.428388374523377e-05,
      "loss": 10.9255,
      "step": 559
    },
    {
      "epoch": 0.5576994896053779,
      "grad_norm": 5.40618896484375,
      "learning_rate": 6.387075099127085e-05,
      "loss": 12.1328,
      "step": 560
    },
    {
      "epoch": 0.5586953815511017,
      "grad_norm": 5.495939254760742,
      "learning_rate": 6.345849401141848e-05,
      "loss": 12.011,
      "step": 561
    },
    {
      "epoch": 0.5596912734968256,
      "grad_norm": 4.913009166717529,
      "learning_rate": 6.304711871191624e-05,
      "loss": 11.018,
      "step": 562
    },
    {
      "epoch": 0.5606871654425495,
      "grad_norm": 6.538085460662842,
      "learning_rate": 6.263663098637223e-05,
      "loss": 12.6505,
      "step": 563
    },
    {
      "epoch": 0.5616830573882734,
      "grad_norm": 5.621396064758301,
      "learning_rate": 6.222703671567862e-05,
      "loss": 11.4574,
      "step": 564
    },
    {
      "epoch": 0.5626789493339973,
      "grad_norm": 5.406931400299072,
      "learning_rate": 6.181834176792743e-05,
      "loss": 11.9075,
      "step": 565
    },
    {
      "epoch": 0.5636748412797211,
      "grad_norm": 5.263576030731201,
      "learning_rate": 6.14105519983264e-05,
      "loss": 12.0203,
      "step": 566
    },
    {
      "epoch": 0.564670733225445,
      "grad_norm": 5.000280857086182,
      "learning_rate": 6.100367324911534e-05,
      "loss": 11.9682,
      "step": 567
    },
    {
      "epoch": 0.565666625171169,
      "grad_norm": 4.999345779418945,
      "learning_rate": 6.059771134948186e-05,
      "loss": 11.1666,
      "step": 568
    },
    {
      "epoch": 0.5666625171168929,
      "grad_norm": 4.500539779663086,
      "learning_rate": 6.019267211547863e-05,
      "loss": 10.7409,
      "step": 569
    },
    {
      "epoch": 0.5676584090626167,
      "grad_norm": 4.902435779571533,
      "learning_rate": 5.978856134993944e-05,
      "loss": 10.0251,
      "step": 570
    },
    {
      "epoch": 0.5686543010083406,
      "grad_norm": 4.8086066246032715,
      "learning_rate": 5.938538484239635e-05,
      "loss": 10.9553,
      "step": 571
    },
    {
      "epoch": 0.5696501929540645,
      "grad_norm": 4.757142543792725,
      "learning_rate": 5.898314836899664e-05,
      "loss": 12.2329,
      "step": 572
    },
    {
      "epoch": 0.5706460848997884,
      "grad_norm": 5.331392288208008,
      "learning_rate": 5.8581857692420166e-05,
      "loss": 11.5873,
      "step": 573
    },
    {
      "epoch": 0.5716419768455122,
      "grad_norm": 6.0972723960876465,
      "learning_rate": 5.8181518561796684e-05,
      "loss": 13.181,
      "step": 574
    },
    {
      "epoch": 0.5726378687912361,
      "grad_norm": 5.213257312774658,
      "learning_rate": 5.7782136712623484e-05,
      "loss": 12.3342,
      "step": 575
    },
    {
      "epoch": 0.57363376073696,
      "grad_norm": 5.662869453430176,
      "learning_rate": 5.7383717866683506e-05,
      "loss": 12.8475,
      "step": 576
    },
    {
      "epoch": 0.574629652682684,
      "grad_norm": 5.137444972991943,
      "learning_rate": 5.6986267731962766e-05,
      "loss": 12.0747,
      "step": 577
    },
    {
      "epoch": 0.5756255446284079,
      "grad_norm": 5.8213677406311035,
      "learning_rate": 5.6589792002569264e-05,
      "loss": 11.4558,
      "step": 578
    },
    {
      "epoch": 0.5766214365741317,
      "grad_norm": 5.571473598480225,
      "learning_rate": 5.6194296358650935e-05,
      "loss": 11.3248,
      "step": 579
    },
    {
      "epoch": 0.5776173285198556,
      "grad_norm": 6.315218925476074,
      "learning_rate": 5.5799786466314435e-05,
      "loss": 14.3275,
      "step": 580
    },
    {
      "epoch": 0.5786132204655795,
      "grad_norm": 5.514521598815918,
      "learning_rate": 5.5406267977544e-05,
      "loss": 11.3491,
      "step": 581
    },
    {
      "epoch": 0.5796091124113034,
      "grad_norm": 5.521172523498535,
      "learning_rate": 5.501374653012038e-05,
      "loss": 12.0774,
      "step": 582
    },
    {
      "epoch": 0.5806050043570272,
      "grad_norm": 4.984793663024902,
      "learning_rate": 5.462222774754014e-05,
      "loss": 11.1853,
      "step": 583
    },
    {
      "epoch": 0.5816008963027511,
      "grad_norm": 5.918780326843262,
      "learning_rate": 5.423171723893501e-05,
      "loss": 11.6143,
      "step": 584
    },
    {
      "epoch": 0.582596788248475,
      "grad_norm": 5.09220027923584,
      "learning_rate": 5.384222059899178e-05,
      "loss": 11.6102,
      "step": 585
    },
    {
      "epoch": 0.583592680194199,
      "grad_norm": 5.182462692260742,
      "learning_rate": 5.345374340787168e-05,
      "loss": 11.4592,
      "step": 586
    },
    {
      "epoch": 0.5845885721399228,
      "grad_norm": 5.29030179977417,
      "learning_rate": 5.306629123113084e-05,
      "loss": 10.9399,
      "step": 587
    },
    {
      "epoch": 0.5855844640856467,
      "grad_norm": 5.2069807052612305,
      "learning_rate": 5.2679869619640555e-05,
      "loss": 11.6267,
      "step": 588
    },
    {
      "epoch": 0.5865803560313706,
      "grad_norm": 5.4248809814453125,
      "learning_rate": 5.229448410950732e-05,
      "loss": 10.9395,
      "step": 589
    },
    {
      "epoch": 0.5875762479770945,
      "grad_norm": 5.220003128051758,
      "learning_rate": 5.1910140221994114e-05,
      "loss": 12.5726,
      "step": 590
    },
    {
      "epoch": 0.5885721399228184,
      "grad_norm": 5.750555038452148,
      "learning_rate": 5.152684346344087e-05,
      "loss": 11.9805,
      "step": 591
    },
    {
      "epoch": 0.5895680318685422,
      "grad_norm": 5.346360683441162,
      "learning_rate": 5.114459932518573e-05,
      "loss": 11.6031,
      "step": 592
    },
    {
      "epoch": 0.5905639238142661,
      "grad_norm": 5.487764358520508,
      "learning_rate": 5.0763413283486394e-05,
      "loss": 11.916,
      "step": 593
    },
    {
      "epoch": 0.5915598157599901,
      "grad_norm": 6.088346004486084,
      "learning_rate": 5.038329079944165e-05,
      "loss": 11.9875,
      "step": 594
    },
    {
      "epoch": 0.592555707705714,
      "grad_norm": 5.190619468688965,
      "learning_rate": 5.000423731891307e-05,
      "loss": 12.271,
      "step": 595
    },
    {
      "epoch": 0.5935515996514378,
      "grad_norm": 5.797019004821777,
      "learning_rate": 4.962625827244707e-05,
      "loss": 12.3821,
      "step": 596
    },
    {
      "epoch": 0.5945474915971617,
      "grad_norm": 5.294320106506348,
      "learning_rate": 4.9249359075197204e-05,
      "loss": 11.1323,
      "step": 597
    },
    {
      "epoch": 0.5955433835428856,
      "grad_norm": 5.5578413009643555,
      "learning_rate": 4.8873545126846195e-05,
      "loss": 12.2285,
      "step": 598
    },
    {
      "epoch": 0.5965392754886095,
      "grad_norm": 6.470888137817383,
      "learning_rate": 4.849882181152911e-05,
      "loss": 13.0034,
      "step": 599
    },
    {
      "epoch": 0.5975351674343333,
      "grad_norm": 5.115138053894043,
      "learning_rate": 4.81251944977558e-05,
      "loss": 11.1868,
      "step": 600
    },
    {
      "epoch": 0.5975351674343333,
      "eval_loss": 1.469951868057251,
      "eval_runtime": 289.9264,
      "eval_samples_per_second": 4.618,
      "eval_steps_per_second": 1.155,
      "step": 600
    },
    {
      "epoch": 0.5985310593800572,
      "grad_norm": 6.162230014801025,
      "learning_rate": 4.775266853833421e-05,
      "loss": 12.9121,
      "step": 601
    },
    {
      "epoch": 0.5995269513257812,
      "grad_norm": 5.4764275550842285,
      "learning_rate": 4.738124927029358e-05,
      "loss": 10.9161,
      "step": 602
    },
    {
      "epoch": 0.6005228432715051,
      "grad_norm": 5.016139507293701,
      "learning_rate": 4.7010942014808056e-05,
      "loss": 11.407,
      "step": 603
    },
    {
      "epoch": 0.601518735217229,
      "grad_norm": 5.546393394470215,
      "learning_rate": 4.664175207712043e-05,
      "loss": 12.3953,
      "step": 604
    },
    {
      "epoch": 0.6025146271629528,
      "grad_norm": 5.607834815979004,
      "learning_rate": 4.627368474646608e-05,
      "loss": 13.2932,
      "step": 605
    },
    {
      "epoch": 0.6035105191086767,
      "grad_norm": 5.625347137451172,
      "learning_rate": 4.590674529599742e-05,
      "loss": 10.9166,
      "step": 606
    },
    {
      "epoch": 0.6045064110544006,
      "grad_norm": 5.0566301345825195,
      "learning_rate": 4.554093898270788e-05,
      "loss": 12.1924,
      "step": 607
    },
    {
      "epoch": 0.6055023030001245,
      "grad_norm": 4.960422515869141,
      "learning_rate": 4.5176271047357196e-05,
      "loss": 12.0646,
      "step": 608
    },
    {
      "epoch": 0.6064981949458483,
      "grad_norm": 5.206432819366455,
      "learning_rate": 4.4812746714395866e-05,
      "loss": 11.2001,
      "step": 609
    },
    {
      "epoch": 0.6074940868915722,
      "grad_norm": 6.366247177124023,
      "learning_rate": 4.4450371191890365e-05,
      "loss": 12.0904,
      "step": 610
    },
    {
      "epoch": 0.6084899788372962,
      "grad_norm": 6.073464393615723,
      "learning_rate": 4.408914967144888e-05,
      "loss": 11.4838,
      "step": 611
    },
    {
      "epoch": 0.6094858707830201,
      "grad_norm": 5.903442859649658,
      "learning_rate": 4.372908732814647e-05,
      "loss": 11.7165,
      "step": 612
    },
    {
      "epoch": 0.6104817627287439,
      "grad_norm": 6.564481735229492,
      "learning_rate": 4.3370189320451195e-05,
      "loss": 12.9723,
      "step": 613
    },
    {
      "epoch": 0.6114776546744678,
      "grad_norm": 6.052420139312744,
      "learning_rate": 4.301246079015016e-05,
      "loss": 12.628,
      "step": 614
    },
    {
      "epoch": 0.6124735466201917,
      "grad_norm": 5.082505226135254,
      "learning_rate": 4.26559068622758e-05,
      "loss": 11.0174,
      "step": 615
    },
    {
      "epoch": 0.6134694385659156,
      "grad_norm": 6.022928714752197,
      "learning_rate": 4.230053264503256e-05,
      "loss": 13.0683,
      "step": 616
    },
    {
      "epoch": 0.6144653305116395,
      "grad_norm": 5.392704963684082,
      "learning_rate": 4.1946343229723514e-05,
      "loss": 12.6063,
      "step": 617
    },
    {
      "epoch": 0.6154612224573633,
      "grad_norm": 6.246056079864502,
      "learning_rate": 4.159334369067781e-05,
      "loss": 13.3403,
      "step": 618
    },
    {
      "epoch": 0.6164571144030873,
      "grad_norm": 7.040495872497559,
      "learning_rate": 4.124153908517739e-05,
      "loss": 11.5163,
      "step": 619
    },
    {
      "epoch": 0.6174530063488112,
      "grad_norm": 5.689401626586914,
      "learning_rate": 4.089093445338514e-05,
      "loss": 12.6618,
      "step": 620
    },
    {
      "epoch": 0.6184488982945351,
      "grad_norm": 5.199860572814941,
      "learning_rate": 4.054153481827226e-05,
      "loss": 11.5894,
      "step": 621
    },
    {
      "epoch": 0.6194447902402589,
      "grad_norm": 4.949602127075195,
      "learning_rate": 4.019334518554649e-05,
      "loss": 11.6394,
      "step": 622
    },
    {
      "epoch": 0.6204406821859828,
      "grad_norm": 5.066486358642578,
      "learning_rate": 3.984637054358034e-05,
      "loss": 10.7524,
      "step": 623
    },
    {
      "epoch": 0.6214365741317067,
      "grad_norm": 5.321683406829834,
      "learning_rate": 3.950061586333967e-05,
      "loss": 12.0487,
      "step": 624
    },
    {
      "epoch": 0.6224324660774306,
      "grad_norm": 5.394808769226074,
      "learning_rate": 3.9156086098312395e-05,
      "loss": 11.734,
      "step": 625
    },
    {
      "epoch": 0.6234283580231544,
      "grad_norm": 5.522308826446533,
      "learning_rate": 3.881278618443754e-05,
      "loss": 10.2733,
      "step": 626
    },
    {
      "epoch": 0.6244242499688784,
      "grad_norm": 4.8424787521362305,
      "learning_rate": 3.847072104003474e-05,
      "loss": 11.1419,
      "step": 627
    },
    {
      "epoch": 0.6254201419146023,
      "grad_norm": 5.075899600982666,
      "learning_rate": 3.812989556573327e-05,
      "loss": 11.4723,
      "step": 628
    },
    {
      "epoch": 0.6264160338603262,
      "grad_norm": 5.3835835456848145,
      "learning_rate": 3.779031464440241e-05,
      "loss": 11.468,
      "step": 629
    },
    {
      "epoch": 0.6274119258060501,
      "grad_norm": 6.307840347290039,
      "learning_rate": 3.7451983141081184e-05,
      "loss": 10.6013,
      "step": 630
    },
    {
      "epoch": 0.6284078177517739,
      "grad_norm": 5.412378311157227,
      "learning_rate": 3.711490590290853e-05,
      "loss": 11.0776,
      "step": 631
    },
    {
      "epoch": 0.6294037096974978,
      "grad_norm": 5.071283340454102,
      "learning_rate": 3.67790877590543e-05,
      "loss": 11.9251,
      "step": 632
    },
    {
      "epoch": 0.6303996016432217,
      "grad_norm": 5.967265605926514,
      "learning_rate": 3.6444533520649594e-05,
      "loss": 11.9519,
      "step": 633
    },
    {
      "epoch": 0.6313954935889456,
      "grad_norm": 5.716352939605713,
      "learning_rate": 3.611124798071819e-05,
      "loss": 11.6726,
      "step": 634
    },
    {
      "epoch": 0.6323913855346694,
      "grad_norm": 5.153800964355469,
      "learning_rate": 3.5779235914107616e-05,
      "loss": 11.6163,
      "step": 635
    },
    {
      "epoch": 0.6333872774803934,
      "grad_norm": 4.7233710289001465,
      "learning_rate": 3.544850207742104e-05,
      "loss": 10.8191,
      "step": 636
    },
    {
      "epoch": 0.6343831694261173,
      "grad_norm": 5.4549384117126465,
      "learning_rate": 3.511905120894869e-05,
      "loss": 12.1209,
      "step": 637
    },
    {
      "epoch": 0.6353790613718412,
      "grad_norm": 4.882791996002197,
      "learning_rate": 3.4790888028600406e-05,
      "loss": 11.3777,
      "step": 638
    },
    {
      "epoch": 0.636374953317565,
      "grad_norm": 6.203968524932861,
      "learning_rate": 3.4464017237837874e-05,
      "loss": 12.2292,
      "step": 639
    },
    {
      "epoch": 0.6373708452632889,
      "grad_norm": 5.759111404418945,
      "learning_rate": 3.413844351960703e-05,
      "loss": 11.9604,
      "step": 640
    },
    {
      "epoch": 0.6383667372090128,
      "grad_norm": 5.6707763671875,
      "learning_rate": 3.3814171538271406e-05,
      "loss": 11.5694,
      "step": 641
    },
    {
      "epoch": 0.6393626291547367,
      "grad_norm": 5.256777286529541,
      "learning_rate": 3.349120593954494e-05,
      "loss": 11.3768,
      "step": 642
    },
    {
      "epoch": 0.6403585211004607,
      "grad_norm": 4.985710620880127,
      "learning_rate": 3.316955135042557e-05,
      "loss": 11.9468,
      "step": 643
    },
    {
      "epoch": 0.6413544130461845,
      "grad_norm": 6.197348117828369,
      "learning_rate": 3.284921237912897e-05,
      "loss": 11.4821,
      "step": 644
    },
    {
      "epoch": 0.6423503049919084,
      "grad_norm": 5.89221715927124,
      "learning_rate": 3.253019361502242e-05,
      "loss": 11.8649,
      "step": 645
    },
    {
      "epoch": 0.6433461969376323,
      "grad_norm": 4.958759784698486,
      "learning_rate": 3.2212499628559183e-05,
      "loss": 11.3049,
      "step": 646
    },
    {
      "epoch": 0.6443420888833562,
      "grad_norm": 6.130683422088623,
      "learning_rate": 3.189613497121291e-05,
      "loss": 11.6303,
      "step": 647
    },
    {
      "epoch": 0.64533798082908,
      "grad_norm": 5.429010391235352,
      "learning_rate": 3.158110417541264e-05,
      "loss": 11.1867,
      "step": 648
    },
    {
      "epoch": 0.6463338727748039,
      "grad_norm": 5.844196796417236,
      "learning_rate": 3.126741175447746e-05,
      "loss": 11.8687,
      "step": 649
    },
    {
      "epoch": 0.6473297647205278,
      "grad_norm": 5.631326675415039,
      "learning_rate": 3.0955062202552344e-05,
      "loss": 12.6221,
      "step": 650
    },
    {
      "epoch": 0.6483256566662517,
      "grad_norm": 4.835573673248291,
      "learning_rate": 3.0644059994543364e-05,
      "loss": 11.0964,
      "step": 651
    },
    {
      "epoch": 0.6493215486119756,
      "grad_norm": 5.213573455810547,
      "learning_rate": 3.0334409586053822e-05,
      "loss": 11.2015,
      "step": 652
    },
    {
      "epoch": 0.6503174405576995,
      "grad_norm": 5.156842231750488,
      "learning_rate": 3.0026115413320316e-05,
      "loss": 11.8143,
      "step": 653
    },
    {
      "epoch": 0.6513133325034234,
      "grad_norm": 5.973851680755615,
      "learning_rate": 2.971918189314915e-05,
      "loss": 10.897,
      "step": 654
    },
    {
      "epoch": 0.6523092244491473,
      "grad_norm": 4.918872356414795,
      "learning_rate": 2.9413613422853187e-05,
      "loss": 11.468,
      "step": 655
    },
    {
      "epoch": 0.6533051163948712,
      "grad_norm": 5.078589916229248,
      "learning_rate": 2.9109414380188673e-05,
      "loss": 11.5197,
      "step": 656
    },
    {
      "epoch": 0.654301008340595,
      "grad_norm": 5.085513114929199,
      "learning_rate": 2.88065891232928e-05,
      "loss": 11.2995,
      "step": 657
    },
    {
      "epoch": 0.6552969002863189,
      "grad_norm": 5.631070613861084,
      "learning_rate": 2.850514199062085e-05,
      "loss": 10.8211,
      "step": 658
    },
    {
      "epoch": 0.6562927922320428,
      "grad_norm": 6.195810794830322,
      "learning_rate": 2.8205077300884367e-05,
      "loss": 11.3694,
      "step": 659
    },
    {
      "epoch": 0.6572886841777668,
      "grad_norm": 5.141655445098877,
      "learning_rate": 2.790639935298933e-05,
      "loss": 11.9514,
      "step": 660
    },
    {
      "epoch": 0.6582845761234906,
      "grad_norm": 4.97012186050415,
      "learning_rate": 2.760911242597418e-05,
      "loss": 10.6117,
      "step": 661
    },
    {
      "epoch": 0.6592804680692145,
      "grad_norm": 5.144041061401367,
      "learning_rate": 2.7313220778948974e-05,
      "loss": 10.5493,
      "step": 662
    },
    {
      "epoch": 0.6602763600149384,
      "grad_norm": 5.334214210510254,
      "learning_rate": 2.7018728651034052e-05,
      "loss": 11.3385,
      "step": 663
    },
    {
      "epoch": 0.6612722519606623,
      "grad_norm": 5.036880016326904,
      "learning_rate": 2.6725640261299408e-05,
      "loss": 12.6018,
      "step": 664
    },
    {
      "epoch": 0.6622681439063861,
      "grad_norm": 5.173761367797852,
      "learning_rate": 2.643395980870428e-05,
      "loss": 10.3298,
      "step": 665
    },
    {
      "epoch": 0.66326403585211,
      "grad_norm": 5.325448513031006,
      "learning_rate": 2.6143691472036934e-05,
      "loss": 11.6448,
      "step": 666
    },
    {
      "epoch": 0.6642599277978339,
      "grad_norm": 5.270651340484619,
      "learning_rate": 2.5854839409854837e-05,
      "loss": 10.9496,
      "step": 667
    },
    {
      "epoch": 0.6652558197435579,
      "grad_norm": 5.0304999351501465,
      "learning_rate": 2.5567407760425002e-05,
      "loss": 12.0285,
      "step": 668
    },
    {
      "epoch": 0.6662517116892818,
      "grad_norm": 5.503153324127197,
      "learning_rate": 2.5281400641664925e-05,
      "loss": 11.4235,
      "step": 669
    },
    {
      "epoch": 0.6672476036350056,
      "grad_norm": 6.423144340515137,
      "learning_rate": 2.499682215108319e-05,
      "loss": 12.1289,
      "step": 670
    },
    {
      "epoch": 0.6682434955807295,
      "grad_norm": 6.0244879722595215,
      "learning_rate": 2.4713676365721194e-05,
      "loss": 12.4105,
      "step": 671
    },
    {
      "epoch": 0.6692393875264534,
      "grad_norm": 5.558983325958252,
      "learning_rate": 2.4431967342094465e-05,
      "loss": 11.8495,
      "step": 672
    },
    {
      "epoch": 0.6702352794721773,
      "grad_norm": 4.985186576843262,
      "learning_rate": 2.415169911613463e-05,
      "loss": 11.2055,
      "step": 673
    },
    {
      "epoch": 0.6712311714179011,
      "grad_norm": 6.300296306610107,
      "learning_rate": 2.3872875703131582e-05,
      "loss": 11.8234,
      "step": 674
    },
    {
      "epoch": 0.672227063363625,
      "grad_norm": 5.401225566864014,
      "learning_rate": 2.359550109767597e-05,
      "loss": 11.3489,
      "step": 675
    },
    {
      "epoch": 0.673222955309349,
      "grad_norm": 5.588122367858887,
      "learning_rate": 2.331957927360198e-05,
      "loss": 11.3187,
      "step": 676
    },
    {
      "epoch": 0.6742188472550729,
      "grad_norm": 5.249821662902832,
      "learning_rate": 2.3045114183930307e-05,
      "loss": 12.5959,
      "step": 677
    },
    {
      "epoch": 0.6752147392007967,
      "grad_norm": 6.340845584869385,
      "learning_rate": 2.2772109760811786e-05,
      "loss": 11.3688,
      "step": 678
    },
    {
      "epoch": 0.6762106311465206,
      "grad_norm": 4.663110256195068,
      "learning_rate": 2.2500569915470588e-05,
      "loss": 11.021,
      "step": 679
    },
    {
      "epoch": 0.6772065230922445,
      "grad_norm": 6.123586654663086,
      "learning_rate": 2.223049853814875e-05,
      "loss": 11.7617,
      "step": 680
    },
    {
      "epoch": 0.6782024150379684,
      "grad_norm": 5.436185836791992,
      "learning_rate": 2.1961899498049997e-05,
      "loss": 11.8642,
      "step": 681
    },
    {
      "epoch": 0.6791983069836923,
      "grad_norm": 5.2976765632629395,
      "learning_rate": 2.1694776643284453e-05,
      "loss": 11.2544,
      "step": 682
    },
    {
      "epoch": 0.6801941989294161,
      "grad_norm": 5.813897609710693,
      "learning_rate": 2.1429133800813654e-05,
      "loss": 11.6754,
      "step": 683
    },
    {
      "epoch": 0.68119009087514,
      "grad_norm": 5.2720184326171875,
      "learning_rate": 2.116497477639552e-05,
      "loss": 12.3032,
      "step": 684
    },
    {
      "epoch": 0.682185982820864,
      "grad_norm": 4.996230125427246,
      "learning_rate": 2.090230335452989e-05,
      "loss": 11.7477,
      "step": 685
    },
    {
      "epoch": 0.6831818747665879,
      "grad_norm": 6.202296733856201,
      "learning_rate": 2.064112329840437e-05,
      "loss": 11.789,
      "step": 686
    },
    {
      "epoch": 0.6841777667123117,
      "grad_norm": 5.982651710510254,
      "learning_rate": 2.0381438349840326e-05,
      "loss": 11.3074,
      "step": 687
    },
    {
      "epoch": 0.6851736586580356,
      "grad_norm": 5.608039379119873,
      "learning_rate": 2.0123252229239357e-05,
      "loss": 11.9267,
      "step": 688
    },
    {
      "epoch": 0.6861695506037595,
      "grad_norm": 5.310582637786865,
      "learning_rate": 1.986656863552992e-05,
      "loss": 12.5416,
      "step": 689
    },
    {
      "epoch": 0.6871654425494834,
      "grad_norm": 5.351050853729248,
      "learning_rate": 1.9611391246114468e-05,
      "loss": 12.0263,
      "step": 690
    },
    {
      "epoch": 0.6881613344952072,
      "grad_norm": 5.318876266479492,
      "learning_rate": 1.93577237168165e-05,
      "loss": 11.4462,
      "step": 691
    },
    {
      "epoch": 0.6891572264409311,
      "grad_norm": 7.177599906921387,
      "learning_rate": 1.910556968182854e-05,
      "loss": 12.3857,
      "step": 692
    },
    {
      "epoch": 0.690153118386655,
      "grad_norm": 4.861364841461182,
      "learning_rate": 1.8854932753659778e-05,
      "loss": 10.3558,
      "step": 693
    },
    {
      "epoch": 0.691149010332379,
      "grad_norm": 4.699554443359375,
      "learning_rate": 1.8605816523084462e-05,
      "loss": 11.7694,
      "step": 694
    },
    {
      "epoch": 0.6921449022781029,
      "grad_norm": 5.567951202392578,
      "learning_rate": 1.8358224559090418e-05,
      "loss": 11.883,
      "step": 695
    },
    {
      "epoch": 0.6931407942238267,
      "grad_norm": 7.005056858062744,
      "learning_rate": 1.8112160408827906e-05,
      "loss": 12.0574,
      "step": 696
    },
    {
      "epoch": 0.6941366861695506,
      "grad_norm": 4.946389198303223,
      "learning_rate": 1.786762759755882e-05,
      "loss": 10.6037,
      "step": 697
    },
    {
      "epoch": 0.6951325781152745,
      "grad_norm": 6.21707820892334,
      "learning_rate": 1.762462962860617e-05,
      "loss": 12.1973,
      "step": 698
    },
    {
      "epoch": 0.6961284700609984,
      "grad_norm": 5.530759334564209,
      "learning_rate": 1.738316998330397e-05,
      "loss": 12.2209,
      "step": 699
    },
    {
      "epoch": 0.6971243620067222,
      "grad_norm": 5.81333065032959,
      "learning_rate": 1.7143252120947138e-05,
      "loss": 11.2614,
      "step": 700
    },
    {
      "epoch": 0.6971243620067222,
      "eval_loss": 1.4631643295288086,
      "eval_runtime": 289.9209,
      "eval_samples_per_second": 4.619,
      "eval_steps_per_second": 1.155,
      "step": 700
    },
    {
      "epoch": 0.6981202539524461,
      "grad_norm": 5.98025369644165,
      "learning_rate": 1.6904879478742253e-05,
      "loss": 12.586,
      "step": 701
    },
    {
      "epoch": 0.6991161458981701,
      "grad_norm": 4.925411701202393,
      "learning_rate": 1.6668055471758064e-05,
      "loss": 11.1688,
      "step": 702
    },
    {
      "epoch": 0.700112037843894,
      "grad_norm": 5.7626566886901855,
      "learning_rate": 1.6432783492876634e-05,
      "loss": 12.3594,
      "step": 703
    },
    {
      "epoch": 0.7011079297896178,
      "grad_norm": 6.179996967315674,
      "learning_rate": 1.6199066912744793e-05,
      "loss": 13.2897,
      "step": 704
    },
    {
      "epoch": 0.7021038217353417,
      "grad_norm": 5.263505458831787,
      "learning_rate": 1.5966909079725783e-05,
      "loss": 11.9709,
      "step": 705
    },
    {
      "epoch": 0.7030997136810656,
      "grad_norm": 5.473526954650879,
      "learning_rate": 1.5736313319851285e-05,
      "loss": 12.4221,
      "step": 706
    },
    {
      "epoch": 0.7040956056267895,
      "grad_norm": 5.03949499130249,
      "learning_rate": 1.5507282936773768e-05,
      "loss": 11.0594,
      "step": 707
    },
    {
      "epoch": 0.7050914975725134,
      "grad_norm": 5.114665508270264,
      "learning_rate": 1.5279821211719307e-05,
      "loss": 10.9889,
      "step": 708
    },
    {
      "epoch": 0.7060873895182372,
      "grad_norm": 6.260105133056641,
      "learning_rate": 1.5053931403440275e-05,
      "loss": 12.1907,
      "step": 709
    },
    {
      "epoch": 0.7070832814639612,
      "grad_norm": 5.071542263031006,
      "learning_rate": 1.4829616748168891e-05,
      "loss": 11.6752,
      "step": 710
    },
    {
      "epoch": 0.7080791734096851,
      "grad_norm": 5.426812171936035,
      "learning_rate": 1.4606880459570884e-05,
      "loss": 12.0812,
      "step": 711
    },
    {
      "epoch": 0.709075065355409,
      "grad_norm": 5.589237689971924,
      "learning_rate": 1.4385725728699187e-05,
      "loss": 12.6791,
      "step": 712
    },
    {
      "epoch": 0.7100709573011328,
      "grad_norm": 5.184196472167969,
      "learning_rate": 1.4166155723948554e-05,
      "loss": 9.6767,
      "step": 713
    },
    {
      "epoch": 0.7110668492468567,
      "grad_norm": 5.003568172454834,
      "learning_rate": 1.3948173591009916e-05,
      "loss": 10.6604,
      "step": 714
    },
    {
      "epoch": 0.7120627411925806,
      "grad_norm": 5.232964038848877,
      "learning_rate": 1.3731782452825428e-05,
      "loss": 12.3529,
      "step": 715
    },
    {
      "epoch": 0.7130586331383045,
      "grad_norm": 5.2426629066467285,
      "learning_rate": 1.35169854095437e-05,
      "loss": 10.9877,
      "step": 716
    },
    {
      "epoch": 0.7140545250840283,
      "grad_norm": 5.008747100830078,
      "learning_rate": 1.3303785538475403e-05,
      "loss": 11.3483,
      "step": 717
    },
    {
      "epoch": 0.7150504170297522,
      "grad_norm": 5.193508148193359,
      "learning_rate": 1.3092185894049133e-05,
      "loss": 11.6414,
      "step": 718
    },
    {
      "epoch": 0.7160463089754762,
      "grad_norm": 4.987440586090088,
      "learning_rate": 1.2882189507767705e-05,
      "loss": 11.1112,
      "step": 719
    },
    {
      "epoch": 0.7170422009212001,
      "grad_norm": 4.958714485168457,
      "learning_rate": 1.267379938816475e-05,
      "loss": 11.5351,
      "step": 720
    },
    {
      "epoch": 0.718038092866924,
      "grad_norm": 5.384908676147461,
      "learning_rate": 1.2467018520761416e-05,
      "loss": 11.5047,
      "step": 721
    },
    {
      "epoch": 0.7190339848126478,
      "grad_norm": 5.524514675140381,
      "learning_rate": 1.2261849868023936e-05,
      "loss": 11.5071,
      "step": 722
    },
    {
      "epoch": 0.7200298767583717,
      "grad_norm": 4.934844970703125,
      "learning_rate": 1.2058296369320848e-05,
      "loss": 11.9821,
      "step": 723
    },
    {
      "epoch": 0.7210257687040956,
      "grad_norm": 5.9136457443237305,
      "learning_rate": 1.1856360940881106e-05,
      "loss": 11.1714,
      "step": 724
    },
    {
      "epoch": 0.7220216606498195,
      "grad_norm": 5.626174449920654,
      "learning_rate": 1.1656046475752178e-05,
      "loss": 11.0057,
      "step": 725
    },
    {
      "epoch": 0.7230175525955433,
      "grad_norm": 6.411077499389648,
      "learning_rate": 1.1457355843758663e-05,
      "loss": 11.485,
      "step": 726
    },
    {
      "epoch": 0.7240134445412673,
      "grad_norm": 5.232149600982666,
      "learning_rate": 1.126029189146116e-05,
      "loss": 11.9511,
      "step": 727
    },
    {
      "epoch": 0.7250093364869912,
      "grad_norm": 6.392588138580322,
      "learning_rate": 1.1064857442115468e-05,
      "loss": 12.3394,
      "step": 728
    },
    {
      "epoch": 0.7260052284327151,
      "grad_norm": 4.912868499755859,
      "learning_rate": 1.0871055295632232e-05,
      "loss": 10.2057,
      "step": 729
    },
    {
      "epoch": 0.7270011203784389,
      "grad_norm": 4.6938652992248535,
      "learning_rate": 1.067888822853659e-05,
      "loss": 10.9687,
      "step": 730
    },
    {
      "epoch": 0.7279970123241628,
      "grad_norm": 7.743927955627441,
      "learning_rate": 1.048835899392872e-05,
      "loss": 12.2057,
      "step": 731
    },
    {
      "epoch": 0.7289929042698867,
      "grad_norm": 7.151386260986328,
      "learning_rate": 1.0299470321444168e-05,
      "loss": 12.7718,
      "step": 732
    },
    {
      "epoch": 0.7299887962156106,
      "grad_norm": 5.987144470214844,
      "learning_rate": 1.0112224917214738e-05,
      "loss": 11.8501,
      "step": 733
    },
    {
      "epoch": 0.7309846881613346,
      "grad_norm": 7.631872653961182,
      "learning_rate": 9.926625463829942e-06,
      "loss": 12.742,
      "step": 734
    },
    {
      "epoch": 0.7319805801070584,
      "grad_norm": 5.5182085037231445,
      "learning_rate": 9.742674620298305e-06,
      "loss": 11.0,
      "step": 735
    },
    {
      "epoch": 0.7329764720527823,
      "grad_norm": 4.892227649688721,
      "learning_rate": 9.560375022009418e-06,
      "loss": 11.4375,
      "step": 736
    },
    {
      "epoch": 0.7339723639985062,
      "grad_norm": 5.391102313995361,
      "learning_rate": 9.37972928069615e-06,
      "loss": 11.0945,
      "step": 737
    },
    {
      "epoch": 0.7349682559442301,
      "grad_norm": 5.407810688018799,
      "learning_rate": 9.200739984397202e-06,
      "loss": 11.0342,
      "step": 738
    },
    {
      "epoch": 0.7359641478899539,
      "grad_norm": 5.871718883514404,
      "learning_rate": 9.02340969742009e-06,
      "loss": 11.9766,
      "step": 739
    },
    {
      "epoch": 0.7369600398356778,
      "grad_norm": 5.485849857330322,
      "learning_rate": 8.847740960304357e-06,
      "loss": 11.4418,
      "step": 740
    },
    {
      "epoch": 0.7379559317814017,
      "grad_norm": 6.5848164558410645,
      "learning_rate": 8.673736289785197e-06,
      "loss": 13.1044,
      "step": 741
    },
    {
      "epoch": 0.7389518237271256,
      "grad_norm": 6.7905473709106445,
      "learning_rate": 8.50139817875735e-06,
      "loss": 10.9534,
      "step": 742
    },
    {
      "epoch": 0.7399477156728494,
      "grad_norm": 4.94359827041626,
      "learning_rate": 8.330729096239539e-06,
      "loss": 11.1527,
      "step": 743
    },
    {
      "epoch": 0.7409436076185734,
      "grad_norm": 5.690808296203613,
      "learning_rate": 8.161731487338827e-06,
      "loss": 12.6257,
      "step": 744
    },
    {
      "epoch": 0.7419394995642973,
      "grad_norm": 5.709432125091553,
      "learning_rate": 7.994407773215903e-06,
      "loss": 11.0885,
      "step": 745
    },
    {
      "epoch": 0.7429353915100212,
      "grad_norm": 5.193820476531982,
      "learning_rate": 7.828760351050165e-06,
      "loss": 11.0625,
      "step": 746
    },
    {
      "epoch": 0.7439312834557451,
      "grad_norm": 5.115967750549316,
      "learning_rate": 7.664791594005433e-06,
      "loss": 9.8947,
      "step": 747
    },
    {
      "epoch": 0.7449271754014689,
      "grad_norm": 5.30134916305542,
      "learning_rate": 7.502503851196024e-06,
      "loss": 11.6142,
      "step": 748
    },
    {
      "epoch": 0.7459230673471928,
      "grad_norm": 5.2966108322143555,
      "learning_rate": 7.341899447652997e-06,
      "loss": 11.1821,
      "step": 749
    },
    {
      "epoch": 0.7469189592929167,
      "grad_norm": 5.26341438293457,
      "learning_rate": 7.182980684290921e-06,
      "loss": 12.1355,
      "step": 750
    },
    {
      "epoch": 0.7479148512386407,
      "grad_norm": 6.888838768005371,
      "learning_rate": 7.0257498378748366e-06,
      "loss": 13.0227,
      "step": 751
    },
    {
      "epoch": 0.7489107431843645,
      "grad_norm": 5.804958343505859,
      "learning_rate": 6.87020916098774e-06,
      "loss": 11.9386,
      "step": 752
    },
    {
      "epoch": 0.7499066351300884,
      "grad_norm": 4.986551284790039,
      "learning_rate": 6.716360881998174e-06,
      "loss": 10.9869,
      "step": 753
    },
    {
      "epoch": 0.7509025270758123,
      "grad_norm": 4.778614044189453,
      "learning_rate": 6.564207205028441e-06,
      "loss": 11.1464,
      "step": 754
    },
    {
      "epoch": 0.7518984190215362,
      "grad_norm": 6.451168060302734,
      "learning_rate": 6.413750309922958e-06,
      "loss": 12.4462,
      "step": 755
    },
    {
      "epoch": 0.75289431096726,
      "grad_norm": 5.491706371307373,
      "learning_rate": 6.264992352216961e-06,
      "loss": 12.6588,
      "step": 756
    },
    {
      "epoch": 0.7538902029129839,
      "grad_norm": 5.205382823944092,
      "learning_rate": 6.117935463105809e-06,
      "loss": 10.741,
      "step": 757
    },
    {
      "epoch": 0.7548860948587078,
      "grad_norm": 5.023211479187012,
      "learning_rate": 5.972581749414244e-06,
      "loss": 11.0733,
      "step": 758
    },
    {
      "epoch": 0.7558819868044317,
      "grad_norm": 5.587502956390381,
      "learning_rate": 5.828933293566333e-06,
      "loss": 11.1592,
      "step": 759
    },
    {
      "epoch": 0.7568778787501556,
      "grad_norm": 5.698174476623535,
      "learning_rate": 5.686992153555614e-06,
      "loss": 12.2832,
      "step": 760
    },
    {
      "epoch": 0.7578737706958795,
      "grad_norm": 5.90291166305542,
      "learning_rate": 5.546760362915571e-06,
      "loss": 12.3435,
      "step": 761
    },
    {
      "epoch": 0.7588696626416034,
      "grad_norm": 5.5049591064453125,
      "learning_rate": 5.408239930690548e-06,
      "loss": 11.5343,
      "step": 762
    },
    {
      "epoch": 0.7598655545873273,
      "grad_norm": 5.788873672485352,
      "learning_rate": 5.271432841406937e-06,
      "loss": 12.3758,
      "step": 763
    },
    {
      "epoch": 0.7608614465330512,
      "grad_norm": 5.662258148193359,
      "learning_rate": 5.1363410550448045e-06,
      "loss": 11.152,
      "step": 764
    },
    {
      "epoch": 0.761857338478775,
      "grad_norm": 5.340865612030029,
      "learning_rate": 5.0029665070096544e-06,
      "loss": 11.2238,
      "step": 765
    },
    {
      "epoch": 0.7628532304244989,
      "grad_norm": 5.056994915008545,
      "learning_rate": 4.871311108104917e-06,
      "loss": 9.9053,
      "step": 766
    },
    {
      "epoch": 0.7638491223702228,
      "grad_norm": 5.196466445922852,
      "learning_rate": 4.741376744504422e-06,
      "loss": 12.2725,
      "step": 767
    },
    {
      "epoch": 0.7648450143159468,
      "grad_norm": 5.003063201904297,
      "learning_rate": 4.613165277725428e-06,
      "loss": 10.418,
      "step": 768
    },
    {
      "epoch": 0.7658409062616706,
      "grad_norm": 5.598369598388672,
      "learning_rate": 4.486678544601913e-06,
      "loss": 10.3517,
      "step": 769
    },
    {
      "epoch": 0.7668367982073945,
      "grad_norm": 5.888363361358643,
      "learning_rate": 4.36191835725834e-06,
      "loss": 11.2754,
      "step": 770
    },
    {
      "epoch": 0.7678326901531184,
      "grad_norm": 5.854308128356934,
      "learning_rate": 4.238886503083628e-06,
      "loss": 13.0128,
      "step": 771
    },
    {
      "epoch": 0.7688285820988423,
      "grad_norm": 6.681763648986816,
      "learning_rate": 4.117584744705527e-06,
      "loss": 12.1851,
      "step": 772
    },
    {
      "epoch": 0.7698244740445661,
      "grad_norm": 6.164341449737549,
      "learning_rate": 3.998014819965479e-06,
      "loss": 11.9651,
      "step": 773
    },
    {
      "epoch": 0.77082036599029,
      "grad_norm": 5.836161136627197,
      "learning_rate": 3.880178441893562e-06,
      "loss": 12.3736,
      "step": 774
    },
    {
      "epoch": 0.7718162579360139,
      "grad_norm": 5.648519039154053,
      "learning_rate": 3.764077298684096e-06,
      "loss": 11.6445,
      "step": 775
    },
    {
      "epoch": 0.7728121498817379,
      "grad_norm": 5.881044387817383,
      "learning_rate": 3.6497130536713716e-06,
      "loss": 13.0027,
      "step": 776
    },
    {
      "epoch": 0.7738080418274618,
      "grad_norm": 5.143442153930664,
      "learning_rate": 3.5370873453057646e-06,
      "loss": 11.9685,
      "step": 777
    },
    {
      "epoch": 0.7748039337731856,
      "grad_norm": 5.579311370849609,
      "learning_rate": 3.426201787130476e-06,
      "loss": 11.7632,
      "step": 778
    },
    {
      "epoch": 0.7757998257189095,
      "grad_norm": 5.457061290740967,
      "learning_rate": 3.3170579677581636e-06,
      "loss": 12.535,
      "step": 779
    },
    {
      "epoch": 0.7767957176646334,
      "grad_norm": 5.1317644119262695,
      "learning_rate": 3.2096574508483357e-06,
      "loss": 10.979,
      "step": 780
    },
    {
      "epoch": 0.7777916096103573,
      "grad_norm": 5.227689266204834,
      "learning_rate": 3.1040017750848943e-06,
      "loss": 11.2438,
      "step": 781
    },
    {
      "epoch": 0.7787875015560811,
      "grad_norm": 6.507405757904053,
      "learning_rate": 3.0000924541541687e-06,
      "loss": 12.94,
      "step": 782
    },
    {
      "epoch": 0.779783393501805,
      "grad_norm": 5.245728492736816,
      "learning_rate": 2.8979309767230844e-06,
      "loss": 11.8061,
      "step": 783
    },
    {
      "epoch": 0.780779285447529,
      "grad_norm": 5.699490547180176,
      "learning_rate": 2.7975188064179173e-06,
      "loss": 11.486,
      "step": 784
    },
    {
      "epoch": 0.7817751773932529,
      "grad_norm": 5.269382476806641,
      "learning_rate": 2.6988573818034213e-06,
      "loss": 11.2483,
      "step": 785
    },
    {
      "epoch": 0.7827710693389767,
      "grad_norm": 5.229419231414795,
      "learning_rate": 2.601948116361996e-06,
      "loss": 11.6245,
      "step": 786
    },
    {
      "epoch": 0.7837669612847006,
      "grad_norm": 5.528886318206787,
      "learning_rate": 2.5067923984736647e-06,
      "loss": 12.4577,
      "step": 787
    },
    {
      "epoch": 0.7847628532304245,
      "grad_norm": 5.435757637023926,
      "learning_rate": 2.413391591396044e-06,
      "loss": 12.7685,
      "step": 788
    },
    {
      "epoch": 0.7857587451761484,
      "grad_norm": 5.185883522033691,
      "learning_rate": 2.3217470332448226e-06,
      "loss": 11.2059,
      "step": 789
    },
    {
      "epoch": 0.7867546371218723,
      "grad_norm": 5.466739177703857,
      "learning_rate": 2.2318600369746754e-06,
      "loss": 11.3974,
      "step": 790
    },
    {
      "epoch": 0.7877505290675961,
      "grad_norm": 5.585619926452637,
      "learning_rate": 2.143731890360337e-06,
      "loss": 11.8463,
      "step": 791
    },
    {
      "epoch": 0.78874642101332,
      "grad_norm": 6.319226264953613,
      "learning_rate": 2.057363855978253e-06,
      "loss": 12.4982,
      "step": 792
    },
    {
      "epoch": 0.789742312959044,
      "grad_norm": 5.821755886077881,
      "learning_rate": 1.972757171188444e-06,
      "loss": 11.5502,
      "step": 793
    },
    {
      "epoch": 0.7907382049047679,
      "grad_norm": 6.314916133880615,
      "learning_rate": 1.8899130481167815e-06,
      "loss": 12.7203,
      "step": 794
    },
    {
      "epoch": 0.7917340968504917,
      "grad_norm": 5.605375289916992,
      "learning_rate": 1.8088326736376004e-06,
      "loss": 11.8973,
      "step": 795
    },
    {
      "epoch": 0.7927299887962156,
      "grad_norm": 5.3746843338012695,
      "learning_rate": 1.729517209356782e-06,
      "loss": 11.2227,
      "step": 796
    },
    {
      "epoch": 0.7937258807419395,
      "grad_norm": 4.950900554656982,
      "learning_rate": 1.6519677915949743e-06,
      "loss": 10.9039,
      "step": 797
    },
    {
      "epoch": 0.7947217726876634,
      "grad_norm": 5.662406921386719,
      "learning_rate": 1.5761855313714684e-06,
      "loss": 12.4767,
      "step": 798
    },
    {
      "epoch": 0.7957176646333872,
      "grad_norm": 6.010452747344971,
      "learning_rate": 1.502171514388112e-06,
      "loss": 11.6454,
      "step": 799
    },
    {
      "epoch": 0.7967135565791111,
      "grad_norm": 6.123356342315674,
      "learning_rate": 1.4299268010139339e-06,
      "loss": 11.4508,
      "step": 800
    },
    {
      "epoch": 0.7967135565791111,
      "eval_loss": 1.4602320194244385,
      "eval_runtime": 289.8374,
      "eval_samples_per_second": 4.62,
      "eval_steps_per_second": 1.156,
      "step": 800
    },
    {
      "epoch": 0.797709448524835,
      "grad_norm": 5.147581100463867,
      "learning_rate": 1.3594524262698082e-06,
      "loss": 11.0485,
      "step": 801
    },
    {
      "epoch": 0.798705340470559,
      "grad_norm": 4.97263765335083,
      "learning_rate": 1.290749399813676e-06,
      "loss": 11.5831,
      "step": 802
    },
    {
      "epoch": 0.7997012324162829,
      "grad_norm": 6.502606391906738,
      "learning_rate": 1.2238187059261384e-06,
      "loss": 10.9787,
      "step": 803
    },
    {
      "epoch": 0.8006971243620067,
      "grad_norm": 5.0996527671813965,
      "learning_rate": 1.1586613034962333e-06,
      "loss": 11.5943,
      "step": 804
    },
    {
      "epoch": 0.8016930163077306,
      "grad_norm": 5.570478439331055,
      "learning_rate": 1.0952781260078342e-06,
      "loss": 12.3992,
      "step": 805
    },
    {
      "epoch": 0.8026889082534545,
      "grad_norm": 5.16178035736084,
      "learning_rate": 1.0336700815261613e-06,
      "loss": 11.8013,
      "step": 806
    },
    {
      "epoch": 0.8036848001991784,
      "grad_norm": 5.67569637298584,
      "learning_rate": 9.738380526848194e-07,
      "loss": 12.3158,
      "step": 807
    },
    {
      "epoch": 0.8046806921449022,
      "grad_norm": 5.282881259918213,
      "learning_rate": 9.157828966731979e-07,
      "loss": 12.0702,
      "step": 808
    },
    {
      "epoch": 0.8056765840906261,
      "grad_norm": 5.958638668060303,
      "learning_rate": 8.595054452241041e-07,
      "loss": 12.2277,
      "step": 809
    },
    {
      "epoch": 0.8066724760363501,
      "grad_norm": 5.30989408493042,
      "learning_rate": 8.050065046018851e-07,
      "loss": 11.5156,
      "step": 810
    },
    {
      "epoch": 0.807668367982074,
      "grad_norm": 4.585794925689697,
      "learning_rate": 7.522868555909223e-07,
      "loss": 10.3803,
      "step": 811
    },
    {
      "epoch": 0.8086642599277978,
      "grad_norm": 5.959741115570068,
      "learning_rate": 7.013472534843635e-07,
      "loss": 13.3266,
      "step": 812
    },
    {
      "epoch": 0.8096601518735217,
      "grad_norm": 6.225035190582275,
      "learning_rate": 6.521884280733526e-07,
      "loss": 12.5264,
      "step": 813
    },
    {
      "epoch": 0.8106560438192456,
      "grad_norm": 4.888844013214111,
      "learning_rate": 6.048110836365666e-07,
      "loss": 10.7281,
      "step": 814
    },
    {
      "epoch": 0.8116519357649695,
      "grad_norm": 5.534932613372803,
      "learning_rate": 5.592158989301405e-07,
      "loss": 12.486,
      "step": 815
    },
    {
      "epoch": 0.8126478277106934,
      "grad_norm": 5.48603630065918,
      "learning_rate": 5.154035271778684e-07,
      "loss": 11.7151,
      "step": 816
    },
    {
      "epoch": 0.8136437196564172,
      "grad_norm": 5.270609378814697,
      "learning_rate": 4.733745960619762e-07,
      "loss": 11.9809,
      "step": 817
    },
    {
      "epoch": 0.8146396116021412,
      "grad_norm": 5.433355331420898,
      "learning_rate": 4.331297077140167e-07,
      "loss": 12.2935,
      "step": 818
    },
    {
      "epoch": 0.8156355035478651,
      "grad_norm": 5.731333255767822,
      "learning_rate": 3.94669438706266e-07,
      "loss": 12.0509,
      "step": 819
    },
    {
      "epoch": 0.816631395493589,
      "grad_norm": 5.320248126983643,
      "learning_rate": 3.579943400434937e-07,
      "loss": 11.0143,
      "step": 820
    },
    {
      "epoch": 0.8176272874393128,
      "grad_norm": 5.686704635620117,
      "learning_rate": 3.231049371550804e-07,
      "loss": 12.9909,
      "step": 821
    },
    {
      "epoch": 0.8186231793850367,
      "grad_norm": 5.398179054260254,
      "learning_rate": 2.900017298874125e-07,
      "loss": 10.8497,
      "step": 822
    },
    {
      "epoch": 0.8196190713307606,
      "grad_norm": 6.222070693969727,
      "learning_rate": 2.5868519249680475e-07,
      "loss": 12.435,
      "step": 823
    },
    {
      "epoch": 0.8206149632764845,
      "grad_norm": 5.970067024230957,
      "learning_rate": 2.2915577364267247e-07,
      "loss": 13.6407,
      "step": 824
    },
    {
      "epoch": 0.8216108552222083,
      "grad_norm": 5.729474067687988,
      "learning_rate": 2.0141389638109187e-07,
      "loss": 12.3141,
      "step": 825
    },
    {
      "epoch": 0.8226067471679323,
      "grad_norm": 6.03525972366333,
      "learning_rate": 1.7545995815876348e-07,
      "loss": 11.4593,
      "step": 826
    },
    {
      "epoch": 0.8236026391136562,
      "grad_norm": 5.3436360359191895,
      "learning_rate": 1.5129433080728062e-07,
      "loss": 11.6677,
      "step": 827
    },
    {
      "epoch": 0.8245985310593801,
      "grad_norm": 4.991388320922852,
      "learning_rate": 1.2891736053785575e-07,
      "loss": 10.8385,
      "step": 828
    },
    {
      "epoch": 0.825594423005104,
      "grad_norm": 5.2977118492126465,
      "learning_rate": 1.0832936793633841e-07,
      "loss": 12.2961,
      "step": 829
    },
    {
      "epoch": 0.8265903149508278,
      "grad_norm": 5.460627555847168,
      "learning_rate": 8.953064795856614e-08,
      "loss": 11.1108,
      "step": 830
    },
    {
      "epoch": 0.8275862068965517,
      "grad_norm": 5.315445423126221,
      "learning_rate": 7.252146992625664e-08,
      "loss": 10.9681,
      "step": 831
    },
    {
      "epoch": 0.8285820988422756,
      "grad_norm": 5.33111572265625,
      "learning_rate": 5.730207752302485e-08,
      "loss": 11.7059,
      "step": 832
    },
    {
      "epoch": 0.8295779907879995,
      "grad_norm": 5.866223335266113,
      "learning_rate": 4.387268879098294e-08,
      "loss": 13.3463,
      "step": 833
    },
    {
      "epoch": 0.8305738827337233,
      "grad_norm": 5.038965225219727,
      "learning_rate": 3.223349612756221e-08,
      "loss": 11.1416,
      "step": 834
    },
    {
      "epoch": 0.8315697746794473,
      "grad_norm": 5.116003036499023,
      "learning_rate": 2.2384666282779244e-08,
      "loss": 11.2051,
      "step": 835
    },
    {
      "epoch": 0.8325656666251712,
      "grad_norm": 5.213040351867676,
      "learning_rate": 1.4326340356862754e-08,
      "loss": 11.9355,
      "step": 836
    },
    {
      "epoch": 0.8335615585708951,
      "grad_norm": 5.077611446380615,
      "learning_rate": 8.058633798199711e-09,
      "loss": 11.5202,
      "step": 837
    },
    {
      "epoch": 0.8345574505166189,
      "grad_norm": 6.297743797302246,
      "learning_rate": 3.58163640169773e-09,
      "loss": 11.4272,
      "step": 838
    },
    {
      "epoch": 0.8355533424623428,
      "grad_norm": 6.544887065887451,
      "learning_rate": 8.954123074805809e-10,
      "loss": 12.609,
      "step": 839
    },
    {
      "epoch": 0.8365492344080667,
      "grad_norm": 5.315311908721924,
      "learning_rate": 0.0,
      "loss": 12.2755,
      "step": 840
    }
  ],
  "logging_steps": 1,
  "max_steps": 840,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 2,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.286387212989235e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}