{
  "best_metric": 1.0815964937210083,
  "best_model_checkpoint": "miner_id_24/checkpoint-400",
  "epoch": 0.026815942077565113,
  "eval_steps": 50,
  "global_step": 400,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 6.703985519391278e-05,
      "grad_norm": 0.25599560141563416,
      "learning_rate": 1e-05,
      "loss": 1.6112,
      "step": 1
    },
    {
      "epoch": 6.703985519391278e-05,
      "eval_loss": 2.151407241821289,
      "eval_runtime": 1031.0834,
      "eval_samples_per_second": 24.366,
      "eval_steps_per_second": 6.092,
      "step": 1
    },
    {
      "epoch": 0.00013407971038782555,
      "grad_norm": 0.30846258997917175,
      "learning_rate": 2e-05,
      "loss": 1.811,
      "step": 2
    },
    {
      "epoch": 0.00020111956558173835,
      "grad_norm": 0.2690434753894806,
      "learning_rate": 3e-05,
      "loss": 1.8002,
      "step": 3
    },
    {
      "epoch": 0.0002681594207756511,
      "grad_norm": 0.3642217516899109,
      "learning_rate": 4e-05,
      "loss": 1.8645,
      "step": 4
    },
    {
      "epoch": 0.0003351992759695639,
      "grad_norm": 0.32599836587905884,
      "learning_rate": 5e-05,
      "loss": 1.9116,
      "step": 5
    },
    {
      "epoch": 0.0004022391311634767,
      "grad_norm": 0.36818188428878784,
      "learning_rate": 6e-05,
      "loss": 1.8864,
      "step": 6
    },
    {
      "epoch": 0.0004692789863573895,
      "grad_norm": 0.3410150706768036,
      "learning_rate": 7e-05,
      "loss": 1.8985,
      "step": 7
    },
    {
      "epoch": 0.0005363188415513022,
      "grad_norm": 0.36711037158966064,
      "learning_rate": 8e-05,
      "loss": 1.9001,
      "step": 8
    },
    {
      "epoch": 0.000603358696745215,
      "grad_norm": 0.3493792712688446,
      "learning_rate": 9e-05,
      "loss": 1.8485,
      "step": 9
    },
    {
      "epoch": 0.0006703985519391278,
      "grad_norm": 0.34874382615089417,
      "learning_rate": 0.0001,
      "loss": 1.7788,
      "step": 10
    },
    {
      "epoch": 0.0007374384071330406,
      "grad_norm": 0.3141089677810669,
      "learning_rate": 9.99983777858264e-05,
      "loss": 1.7442,
      "step": 11
    },
    {
      "epoch": 0.0008044782623269534,
      "grad_norm": 0.29845961928367615,
      "learning_rate": 9.999351124856874e-05,
      "loss": 1.7055,
      "step": 12
    },
    {
      "epoch": 0.0008715181175208661,
      "grad_norm": 0.31879594922065735,
      "learning_rate": 9.998540070400966e-05,
      "loss": 1.6488,
      "step": 13
    },
    {
      "epoch": 0.000938557972714779,
      "grad_norm": 0.3512135148048401,
      "learning_rate": 9.997404667843075e-05,
      "loss": 1.5439,
      "step": 14
    },
    {
      "epoch": 0.0010055978279086917,
      "grad_norm": 0.3341127634048462,
      "learning_rate": 9.995944990857849e-05,
      "loss": 1.5508,
      "step": 15
    },
    {
      "epoch": 0.0010726376831026044,
      "grad_norm": 0.3491503596305847,
      "learning_rate": 9.994161134161634e-05,
      "loss": 1.5654,
      "step": 16
    },
    {
      "epoch": 0.0011396775382965174,
      "grad_norm": 0.35317420959472656,
      "learning_rate": 9.992053213506334e-05,
      "loss": 1.5908,
      "step": 17
    },
    {
      "epoch": 0.00120671739349043,
      "grad_norm": 0.35570135712623596,
      "learning_rate": 9.989621365671902e-05,
      "loss": 1.5044,
      "step": 18
    },
    {
      "epoch": 0.0012737572486843428,
      "grad_norm": 0.3600522577762604,
      "learning_rate": 9.986865748457457e-05,
      "loss": 1.5265,
      "step": 19
    },
    {
      "epoch": 0.0013407971038782555,
      "grad_norm": 0.3516068458557129,
      "learning_rate": 9.983786540671051e-05,
      "loss": 1.466,
      "step": 20
    },
    {
      "epoch": 0.0014078369590721685,
      "grad_norm": 0.3451455533504486,
      "learning_rate": 9.980383942118066e-05,
      "loss": 1.4435,
      "step": 21
    },
    {
      "epoch": 0.0014748768142660812,
      "grad_norm": 0.31296274065971375,
      "learning_rate": 9.976658173588244e-05,
      "loss": 1.3188,
      "step": 22
    },
    {
      "epoch": 0.001541916669459994,
      "grad_norm": 0.32180386781692505,
      "learning_rate": 9.972609476841367e-05,
      "loss": 1.3875,
      "step": 23
    },
    {
      "epoch": 0.0016089565246539068,
      "grad_norm": 0.291793555021286,
      "learning_rate": 9.968238114591566e-05,
      "loss": 1.3398,
      "step": 24
    },
    {
      "epoch": 0.0016759963798478196,
      "grad_norm": 0.29496654868125916,
      "learning_rate": 9.96354437049027e-05,
      "loss": 1.3796,
      "step": 25
    },
    {
      "epoch": 0.0017430362350417323,
      "grad_norm": 0.31238260865211487,
      "learning_rate": 9.95852854910781e-05,
      "loss": 1.4031,
      "step": 26
    },
    {
      "epoch": 0.001810076090235645,
      "grad_norm": 0.3419003486633301,
      "learning_rate": 9.953190975913647e-05,
      "loss": 1.2915,
      "step": 27
    },
    {
      "epoch": 0.001877115945429558,
      "grad_norm": 0.34049153327941895,
      "learning_rate": 9.947531997255256e-05,
      "loss": 1.2549,
      "step": 28
    },
    {
      "epoch": 0.0019441558006234707,
      "grad_norm": 0.38456735014915466,
      "learning_rate": 9.941551980335652e-05,
      "loss": 1.4835,
      "step": 29
    },
    {
      "epoch": 0.0020111956558173834,
      "grad_norm": 0.41046732664108276,
      "learning_rate": 9.935251313189564e-05,
      "loss": 1.3609,
      "step": 30
    },
    {
      "epoch": 0.002078235511011296,
      "grad_norm": 0.39371582865715027,
      "learning_rate": 9.928630404658255e-05,
      "loss": 1.3716,
      "step": 31
    },
    {
      "epoch": 0.002145275366205209,
      "grad_norm": 0.4492931067943573,
      "learning_rate": 9.921689684362989e-05,
      "loss": 1.2324,
      "step": 32
    },
    {
      "epoch": 0.002212315221399122,
      "grad_norm": 0.4032094180583954,
      "learning_rate": 9.914429602677162e-05,
      "loss": 1.2289,
      "step": 33
    },
    {
      "epoch": 0.0022793550765930347,
      "grad_norm": 0.4059237539768219,
      "learning_rate": 9.906850630697068e-05,
      "loss": 1.325,
      "step": 34
    },
    {
      "epoch": 0.0023463949317869474,
      "grad_norm": 0.5026528835296631,
      "learning_rate": 9.898953260211338e-05,
      "loss": 1.2606,
      "step": 35
    },
    {
      "epoch": 0.00241343478698086,
      "grad_norm": 0.7193143367767334,
      "learning_rate": 9.890738003669029e-05,
      "loss": 1.3659,
      "step": 36
    },
    {
      "epoch": 0.002480474642174773,
      "grad_norm": 0.6115249991416931,
      "learning_rate": 9.882205394146361e-05,
      "loss": 1.1424,
      "step": 37
    },
    {
      "epoch": 0.0025475144973686856,
      "grad_norm": 0.6202816367149353,
      "learning_rate": 9.87335598531214e-05,
      "loss": 1.2005,
      "step": 38
    },
    {
      "epoch": 0.0026145543525625983,
      "grad_norm": 0.4979602098464966,
      "learning_rate": 9.864190351391822e-05,
      "loss": 1.2501,
      "step": 39
    },
    {
      "epoch": 0.002681594207756511,
      "grad_norm": 0.38264936208724976,
      "learning_rate": 9.85470908713026e-05,
      "loss": 1.1874,
      "step": 40
    },
    {
      "epoch": 0.002748634062950424,
      "grad_norm": 0.4111687242984772,
      "learning_rate": 9.844912807753104e-05,
      "loss": 1.1559,
      "step": 41
    },
    {
      "epoch": 0.002815673918144337,
      "grad_norm": 0.3952101767063141,
      "learning_rate": 9.834802148926882e-05,
      "loss": 1.2719,
      "step": 42
    },
    {
      "epoch": 0.0028827137733382496,
      "grad_norm": 0.39761704206466675,
      "learning_rate": 9.824377766717759e-05,
      "loss": 1.1902,
      "step": 43
    },
    {
      "epoch": 0.0029497536285321624,
      "grad_norm": 0.45199069380760193,
      "learning_rate": 9.813640337548954e-05,
      "loss": 1.0213,
      "step": 44
    },
    {
      "epoch": 0.003016793483726075,
      "grad_norm": 0.46709805727005005,
      "learning_rate": 9.802590558156862e-05,
      "loss": 1.279,
      "step": 45
    },
    {
      "epoch": 0.003083833338919988,
      "grad_norm": 0.4707021713256836,
      "learning_rate": 9.791229145545831e-05,
      "loss": 1.1081,
      "step": 46
    },
    {
      "epoch": 0.0031508731941139005,
      "grad_norm": 0.5230039358139038,
      "learning_rate": 9.779556836941645e-05,
      "loss": 1.2971,
      "step": 47
    },
    {
      "epoch": 0.0032179130493078137,
      "grad_norm": 0.4483155906200409,
      "learning_rate": 9.767574389743682e-05,
      "loss": 1.0268,
      "step": 48
    },
    {
      "epoch": 0.0032849529045017264,
      "grad_norm": 0.5351650714874268,
      "learning_rate": 9.755282581475769e-05,
      "loss": 1.2639,
      "step": 49
    },
    {
      "epoch": 0.003351992759695639,
      "grad_norm": 1.0029317140579224,
      "learning_rate": 9.742682209735727e-05,
      "loss": 1.5513,
      "step": 50
    },
    {
      "epoch": 0.003351992759695639,
      "eval_loss": 1.5188970565795898,
      "eval_runtime": 1037.1057,
      "eval_samples_per_second": 24.224,
      "eval_steps_per_second": 6.056,
      "step": 50
    },
    {
      "epoch": 0.003419032614889552,
      "grad_norm": 0.9235780239105225,
      "learning_rate": 9.729774092143627e-05,
      "loss": 1.5651,
      "step": 51
    },
    {
      "epoch": 0.0034860724700834646,
      "grad_norm": 0.9111806154251099,
      "learning_rate": 9.716559066288715e-05,
      "loss": 1.6204,
      "step": 52
    },
    {
      "epoch": 0.0035531123252773773,
      "grad_norm": 0.8401377201080322,
      "learning_rate": 9.703037989675087e-05,
      "loss": 1.4973,
      "step": 53
    },
    {
      "epoch": 0.00362015218047129,
      "grad_norm": 0.7678227424621582,
      "learning_rate": 9.689211739666023e-05,
      "loss": 1.4864,
      "step": 54
    },
    {
      "epoch": 0.003687192035665203,
      "grad_norm": 0.7071366906166077,
      "learning_rate": 9.675081213427076e-05,
      "loss": 1.4757,
      "step": 55
    },
    {
      "epoch": 0.003754231890859116,
      "grad_norm": 0.6100834608078003,
      "learning_rate": 9.66064732786784e-05,
      "loss": 1.3719,
      "step": 56
    },
    {
      "epoch": 0.0038212717460530286,
      "grad_norm": 0.5134275555610657,
      "learning_rate": 9.645911019582467e-05,
      "loss": 1.331,
      "step": 57
    },
    {
      "epoch": 0.0038883116012469413,
      "grad_norm": 0.3920186161994934,
      "learning_rate": 9.630873244788883e-05,
      "loss": 1.28,
      "step": 58
    },
    {
      "epoch": 0.003955351456440854,
      "grad_norm": 0.33684292435646057,
      "learning_rate": 9.615534979266745e-05,
      "loss": 1.3474,
      "step": 59
    },
    {
      "epoch": 0.004022391311634767,
      "grad_norm": 0.3125639259815216,
      "learning_rate": 9.599897218294122e-05,
      "loss": 1.2665,
      "step": 60
    },
    {
      "epoch": 0.0040894311668286795,
      "grad_norm": 0.285800039768219,
      "learning_rate": 9.583960976582913e-05,
      "loss": 1.2057,
      "step": 61
    },
    {
      "epoch": 0.004156471022022592,
      "grad_norm": 0.2889978885650635,
      "learning_rate": 9.567727288213005e-05,
      "loss": 1.3292,
      "step": 62
    },
    {
      "epoch": 0.004223510877216505,
      "grad_norm": 0.27289900183677673,
      "learning_rate": 9.551197206565173e-05,
      "loss": 1.2433,
      "step": 63
    },
    {
      "epoch": 0.004290550732410418,
      "grad_norm": 0.2942434847354889,
      "learning_rate": 9.534371804252728e-05,
      "loss": 1.2533,
      "step": 64
    },
    {
      "epoch": 0.00435759058760433,
      "grad_norm": 0.3091346025466919,
      "learning_rate": 9.517252173051911e-05,
      "loss": 1.2981,
      "step": 65
    },
    {
      "epoch": 0.004424630442798244,
      "grad_norm": 0.3000805675983429,
      "learning_rate": 9.49983942383106e-05,
      "loss": 1.2209,
      "step": 66
    },
    {
      "epoch": 0.004491670297992157,
      "grad_norm": 0.2918953001499176,
      "learning_rate": 9.482134686478519e-05,
      "loss": 1.2612,
      "step": 67
    },
    {
      "epoch": 0.004558710153186069,
      "grad_norm": 0.3053470253944397,
      "learning_rate": 9.464139109829321e-05,
      "loss": 1.12,
      "step": 68
    },
    {
      "epoch": 0.004625750008379982,
      "grad_norm": 0.30537164211273193,
      "learning_rate": 9.445853861590647e-05,
      "loss": 1.1807,
      "step": 69
    },
    {
      "epoch": 0.004692789863573895,
      "grad_norm": 0.2915356755256653,
      "learning_rate": 9.42728012826605e-05,
      "loss": 1.2094,
      "step": 70
    },
    {
      "epoch": 0.004759829718767808,
      "grad_norm": 0.3068733811378479,
      "learning_rate": 9.408419115078471e-05,
      "loss": 1.1957,
      "step": 71
    },
    {
      "epoch": 0.00482686957396172,
      "grad_norm": 0.326349675655365,
      "learning_rate": 9.389272045892024e-05,
      "loss": 1.2195,
      "step": 72
    },
    {
      "epoch": 0.004893909429155633,
      "grad_norm": 0.31866076588630676,
      "learning_rate": 9.36984016313259e-05,
      "loss": 1.143,
      "step": 73
    },
    {
      "epoch": 0.004960949284349546,
      "grad_norm": 0.3199828267097473,
      "learning_rate": 9.350124727707197e-05,
      "loss": 1.1963,
      "step": 74
    },
    {
      "epoch": 0.0050279891395434585,
      "grad_norm": 0.31454047560691833,
      "learning_rate": 9.330127018922194e-05,
      "loss": 1.1182,
      "step": 75
    },
    {
      "epoch": 0.005095028994737371,
      "grad_norm": 0.3377918601036072,
      "learning_rate": 9.309848334400246e-05,
      "loss": 1.1914,
      "step": 76
    },
    {
      "epoch": 0.005162068849931284,
      "grad_norm": 0.3115767538547516,
      "learning_rate": 9.289289989996133e-05,
      "loss": 1.2075,
      "step": 77
    },
    {
      "epoch": 0.005229108705125197,
      "grad_norm": 0.31625697016716003,
      "learning_rate": 9.268453319711363e-05,
      "loss": 1.2416,
      "step": 78
    },
    {
      "epoch": 0.005296148560319109,
      "grad_norm": 0.32541561126708984,
      "learning_rate": 9.247339675607605e-05,
      "loss": 1.1933,
      "step": 79
    },
    {
      "epoch": 0.005363188415513022,
      "grad_norm": 0.3447832763195038,
      "learning_rate": 9.225950427718975e-05,
      "loss": 1.2227,
      "step": 80
    },
    {
      "epoch": 0.005430228270706936,
      "grad_norm": 0.38955992460250854,
      "learning_rate": 9.204286963963111e-05,
      "loss": 1.2541,
      "step": 81
    },
    {
      "epoch": 0.005497268125900848,
      "grad_norm": 0.36722826957702637,
      "learning_rate": 9.182350690051133e-05,
      "loss": 1.1834,
      "step": 82
    },
    {
      "epoch": 0.005564307981094761,
      "grad_norm": 0.4929197132587433,
      "learning_rate": 9.160143029396422e-05,
      "loss": 1.1883,
      "step": 83
    },
    {
      "epoch": 0.005631347836288674,
      "grad_norm": 0.5857892632484436,
      "learning_rate": 9.13766542302225e-05,
      "loss": 1.35,
      "step": 84
    },
    {
      "epoch": 0.0056983876914825865,
      "grad_norm": 0.820260226726532,
      "learning_rate": 9.114919329468282e-05,
      "loss": 1.3546,
      "step": 85
    },
    {
      "epoch": 0.005765427546676499,
      "grad_norm": 1.0211095809936523,
      "learning_rate": 9.091906224695935e-05,
      "loss": 1.3456,
      "step": 86
    },
    {
      "epoch": 0.005832467401870412,
      "grad_norm": 0.8868876695632935,
      "learning_rate": 9.068627601992598e-05,
      "loss": 1.3573,
      "step": 87
    },
    {
      "epoch": 0.005899507257064325,
      "grad_norm": 0.8398649096488953,
      "learning_rate": 9.045084971874738e-05,
      "loss": 1.1884,
      "step": 88
    },
    {
      "epoch": 0.005966547112258237,
      "grad_norm": 0.7871533036231995,
      "learning_rate": 9.021279861989885e-05,
      "loss": 1.2436,
      "step": 89
    },
    {
      "epoch": 0.00603358696745215,
      "grad_norm": 0.7212011814117432,
      "learning_rate": 8.997213817017507e-05,
      "loss": 1.1008,
      "step": 90
    },
    {
      "epoch": 0.006100626822646063,
      "grad_norm": 0.5827630758285522,
      "learning_rate": 8.972888398568772e-05,
      "loss": 1.157,
      "step": 91
    },
    {
      "epoch": 0.006167666677839976,
      "grad_norm": 0.4735203683376312,
      "learning_rate": 8.948305185085225e-05,
      "loss": 1.043,
      "step": 92
    },
    {
      "epoch": 0.006234706533033888,
      "grad_norm": 0.4357919692993164,
      "learning_rate": 8.92346577173636e-05,
      "loss": 1.0899,
      "step": 93
    },
    {
      "epoch": 0.006301746388227801,
      "grad_norm": 0.4267778992652893,
      "learning_rate": 8.898371770316111e-05,
      "loss": 1.0134,
      "step": 94
    },
    {
      "epoch": 0.006368786243421715,
      "grad_norm": 0.4290027320384979,
      "learning_rate": 8.873024809138272e-05,
      "loss": 1.1753,
      "step": 95
    },
    {
      "epoch": 0.006435826098615627,
      "grad_norm": 0.46327415108680725,
      "learning_rate": 8.847426532930831e-05,
      "loss": 1.1462,
      "step": 96
    },
    {
      "epoch": 0.00650286595380954,
      "grad_norm": 0.4771614372730255,
      "learning_rate": 8.821578602729242e-05,
      "loss": 1.0805,
      "step": 97
    },
    {
      "epoch": 0.006569905809003453,
      "grad_norm": 0.45650720596313477,
      "learning_rate": 8.795482695768658e-05,
      "loss": 1.094,
      "step": 98
    },
    {
      "epoch": 0.0066369456641973655,
      "grad_norm": 0.536200761795044,
      "learning_rate": 8.769140505375085e-05,
      "loss": 1.1901,
      "step": 99
    },
    {
      "epoch": 0.006703985519391278,
      "grad_norm": 0.8137334585189819,
      "learning_rate": 8.742553740855506e-05,
      "loss": 1.6298,
      "step": 100
    },
    {
      "epoch": 0.006703985519391278,
      "eval_loss": 1.2678145170211792,
      "eval_runtime": 1040.2411,
      "eval_samples_per_second": 24.151,
      "eval_steps_per_second": 6.038,
      "step": 100
    },
    {
      "epoch": 0.006771025374585191,
      "grad_norm": 0.5319846868515015,
      "learning_rate": 8.715724127386972e-05,
      "loss": 1.1397,
      "step": 101
    },
    {
      "epoch": 0.006838065229779104,
      "grad_norm": 0.623857855796814,
      "learning_rate": 8.688653405904652e-05,
      "loss": 1.2862,
      "step": 102
    },
    {
      "epoch": 0.006905105084973016,
      "grad_norm": 0.6206320524215698,
      "learning_rate": 8.661343332988869e-05,
      "loss": 1.2876,
      "step": 103
    },
    {
      "epoch": 0.006972144940166929,
      "grad_norm": 0.5993014574050903,
      "learning_rate": 8.633795680751116e-05,
      "loss": 1.2458,
      "step": 104
    },
    {
      "epoch": 0.007039184795360842,
      "grad_norm": 0.5333062410354614,
      "learning_rate": 8.606012236719073e-05,
      "loss": 1.2455,
      "step": 105
    },
    {
      "epoch": 0.0071062246505547546,
      "grad_norm": 0.4570670425891876,
      "learning_rate": 8.577994803720606e-05,
      "loss": 1.2118,
      "step": 106
    },
    {
      "epoch": 0.007173264505748667,
      "grad_norm": 0.3726344704627991,
      "learning_rate": 8.549745199766792e-05,
      "loss": 1.2447,
      "step": 107
    },
    {
      "epoch": 0.00724030436094258,
      "grad_norm": 0.4074293076992035,
      "learning_rate": 8.521265257933948e-05,
      "loss": 1.2239,
      "step": 108
    },
    {
      "epoch": 0.007307344216136493,
      "grad_norm": 0.3521421253681183,
      "learning_rate": 8.492556826244687e-05,
      "loss": 1.1945,
      "step": 109
    },
    {
      "epoch": 0.007374384071330406,
      "grad_norm": 0.30473753809928894,
      "learning_rate": 8.463621767547998e-05,
      "loss": 1.2252,
      "step": 110
    },
    {
      "epoch": 0.007441423926524319,
      "grad_norm": 0.2909890413284302,
      "learning_rate": 8.434461959398376e-05,
      "loss": 1.2913,
      "step": 111
    },
    {
      "epoch": 0.007508463781718232,
      "grad_norm": 0.27646830677986145,
      "learning_rate": 8.405079293933986e-05,
      "loss": 1.199,
      "step": 112
    },
    {
      "epoch": 0.0075755036369121445,
      "grad_norm": 0.30817779898643494,
      "learning_rate": 8.375475677753881e-05,
      "loss": 1.1399,
      "step": 113
    },
    {
      "epoch": 0.007642543492106057,
      "grad_norm": 0.3279131352901459,
      "learning_rate": 8.345653031794292e-05,
      "loss": 1.1607,
      "step": 114
    },
    {
      "epoch": 0.00770958334729997,
      "grad_norm": 0.30150145292282104,
      "learning_rate": 8.315613291203976e-05,
      "loss": 1.1667,
      "step": 115
    },
    {
      "epoch": 0.007776623202493883,
      "grad_norm": 0.29775872826576233,
      "learning_rate": 8.285358405218655e-05,
      "loss": 1.1354,
      "step": 116
    },
    {
      "epoch": 0.007843663057687796,
      "grad_norm": 0.3042626678943634,
      "learning_rate": 8.25489033703452e-05,
      "loss": 1.1583,
      "step": 117
    },
    {
      "epoch": 0.007910702912881708,
      "grad_norm": 0.28467684984207153,
      "learning_rate": 8.224211063680853e-05,
      "loss": 1.1451,
      "step": 118
    },
    {
      "epoch": 0.007977742768075622,
      "grad_norm": 0.29622867703437805,
      "learning_rate": 8.19332257589174e-05,
      "loss": 1.1929,
      "step": 119
    },
    {
      "epoch": 0.008044782623269534,
      "grad_norm": 0.28289422392845154,
      "learning_rate": 8.162226877976887e-05,
      "loss": 1.1116,
      "step": 120
    },
    {
      "epoch": 0.008111822478463447,
      "grad_norm": 0.330687552690506,
      "learning_rate": 8.130925987691569e-05,
      "loss": 1.1013,
      "step": 121
    },
    {
      "epoch": 0.008178862333657359,
      "grad_norm": 0.3194414973258972,
      "learning_rate": 8.099421936105702e-05,
      "loss": 1.1817,
      "step": 122
    },
    {
      "epoch": 0.008245902188851273,
      "grad_norm": 0.34126564860343933,
      "learning_rate": 8.067716767472045e-05,
      "loss": 1.1751,
      "step": 123
    },
    {
      "epoch": 0.008312942044045184,
      "grad_norm": 0.3506316542625427,
      "learning_rate": 8.035812539093557e-05,
      "loss": 1.1223,
      "step": 124
    },
    {
      "epoch": 0.008379981899239098,
      "grad_norm": 0.34763896465301514,
      "learning_rate": 8.003711321189895e-05,
      "loss": 1.1855,
      "step": 125
    },
    {
      "epoch": 0.00844702175443301,
      "grad_norm": 0.30266106128692627,
      "learning_rate": 7.971415196763088e-05,
      "loss": 1.1126,
      "step": 126
    },
    {
      "epoch": 0.008514061609626923,
      "grad_norm": 0.3373243510723114,
      "learning_rate": 7.938926261462366e-05,
      "loss": 1.1245,
      "step": 127
    },
    {
      "epoch": 0.008581101464820835,
      "grad_norm": 0.321792334318161,
      "learning_rate": 7.906246623448183e-05,
      "loss": 1.1046,
      "step": 128
    },
    {
      "epoch": 0.008648141320014749,
      "grad_norm": 0.3412987291812897,
      "learning_rate": 7.873378403255419e-05,
      "loss": 1.1224,
      "step": 129
    },
    {
      "epoch": 0.00871518117520866,
      "grad_norm": 0.3635982573032379,
      "learning_rate": 7.840323733655778e-05,
      "loss": 1.2174,
      "step": 130
    },
    {
      "epoch": 0.008782221030402574,
      "grad_norm": 0.432616651058197,
      "learning_rate": 7.807084759519405e-05,
      "loss": 1.2281,
      "step": 131
    },
    {
      "epoch": 0.008849260885596488,
      "grad_norm": 0.4720945656299591,
      "learning_rate": 7.773663637675694e-05,
      "loss": 1.1653,
      "step": 132
    },
    {
      "epoch": 0.0089163007407904,
      "grad_norm": 0.8195247650146484,
      "learning_rate": 7.740062536773352e-05,
      "loss": 1.1985,
      "step": 133
    },
    {
      "epoch": 0.008983340595984313,
      "grad_norm": 0.6526580452919006,
      "learning_rate": 7.706283637139658e-05,
      "loss": 1.1927,
      "step": 134
    },
    {
      "epoch": 0.009050380451178225,
      "grad_norm": 1.6686559915542603,
      "learning_rate": 7.672329130639005e-05,
      "loss": 1.2251,
      "step": 135
    },
    {
      "epoch": 0.009117420306372139,
      "grad_norm": 2.392155170440674,
      "learning_rate": 7.638201220530665e-05,
      "loss": 1.1932,
      "step": 136
    },
    {
      "epoch": 0.00918446016156605,
      "grad_norm": 2.0677294731140137,
      "learning_rate": 7.603902121325813e-05,
      "loss": 1.2176,
      "step": 137
    },
    {
      "epoch": 0.009251500016759964,
      "grad_norm": 1.0602939128875732,
      "learning_rate": 7.569434058643844e-05,
      "loss": 1.1775,
      "step": 138
    },
    {
      "epoch": 0.009318539871953876,
      "grad_norm": 0.4264773726463318,
      "learning_rate": 7.534799269067953e-05,
      "loss": 1.0612,
      "step": 139
    },
    {
      "epoch": 0.00938557972714779,
      "grad_norm": 0.40748241543769836,
      "learning_rate": 7.500000000000001e-05,
      "loss": 1.1717,
      "step": 140
    },
    {
      "epoch": 0.009452619582341702,
      "grad_norm": 0.3841473460197449,
      "learning_rate": 7.465038509514688e-05,
      "loss": 1.1268,
      "step": 141
    },
    {
      "epoch": 0.009519659437535615,
      "grad_norm": 0.3521808981895447,
      "learning_rate": 7.42991706621303e-05,
      "loss": 0.9115,
      "step": 142
    },
    {
      "epoch": 0.009586699292729527,
      "grad_norm": 0.3667559325695038,
      "learning_rate": 7.394637949075154e-05,
      "loss": 0.9887,
      "step": 143
    },
    {
      "epoch": 0.00965373914792344,
      "grad_norm": 0.44164109230041504,
      "learning_rate": 7.35920344731241e-05,
      "loss": 1.2336,
      "step": 144
    },
    {
      "epoch": 0.009720779003117352,
      "grad_norm": 0.3817691504955292,
      "learning_rate": 7.323615860218843e-05,
      "loss": 1.0893,
      "step": 145
    },
    {
      "epoch": 0.009787818858311266,
      "grad_norm": 0.4119187295436859,
      "learning_rate": 7.287877497021978e-05,
      "loss": 1.0248,
      "step": 146
    },
    {
      "epoch": 0.00985485871350518,
      "grad_norm": 0.43044421076774597,
      "learning_rate": 7.251990676732984e-05,
      "loss": 1.1244,
      "step": 147
    },
    {
      "epoch": 0.009921898568699091,
      "grad_norm": 0.4233781695365906,
      "learning_rate": 7.215957727996207e-05,
      "loss": 1.037,
      "step": 148
    },
    {
      "epoch": 0.009988938423893005,
      "grad_norm": 0.4645669460296631,
      "learning_rate": 7.179780988938051e-05,
      "loss": 1.127,
      "step": 149
    },
    {
      "epoch": 0.010055978279086917,
      "grad_norm": 0.8371749520301819,
      "learning_rate": 7.143462807015271e-05,
      "loss": 1.6558,
      "step": 150
    },
    {
      "epoch": 0.010055978279086917,
      "eval_loss": 1.1857783794403076,
      "eval_runtime": 1040.3429,
      "eval_samples_per_second": 24.149,
      "eval_steps_per_second": 6.037,
      "step": 150
    },
    {
      "epoch": 0.01012301813428083,
      "grad_norm": 0.5800612568855286,
      "learning_rate": 7.107005538862646e-05,
      "loss": 1.2064,
      "step": 151
    },
    {
      "epoch": 0.010190057989474742,
      "grad_norm": 0.5961897969245911,
      "learning_rate": 7.07041155014006e-05,
      "loss": 1.2641,
      "step": 152
    },
    {
      "epoch": 0.010257097844668656,
      "grad_norm": 0.5829236507415771,
      "learning_rate": 7.033683215379002e-05,
      "loss": 1.1367,
      "step": 153
    },
    {
      "epoch": 0.010324137699862568,
      "grad_norm": 0.573798656463623,
      "learning_rate": 6.996822917828477e-05,
      "loss": 1.1774,
      "step": 154
    },
    {
      "epoch": 0.010391177555056481,
      "grad_norm": 0.568314254283905,
      "learning_rate": 6.959833049300377e-05,
      "loss": 1.2088,
      "step": 155
    },
    {
      "epoch": 0.010458217410250393,
      "grad_norm": 0.49864083528518677,
      "learning_rate": 6.922716010014255e-05,
      "loss": 1.0982,
      "step": 156
    },
    {
      "epoch": 0.010525257265444307,
      "grad_norm": 0.45646151900291443,
      "learning_rate": 6.885474208441603e-05,
      "loss": 1.1809,
      "step": 157
    },
    {
      "epoch": 0.010592297120638219,
      "grad_norm": 0.3855169415473938,
      "learning_rate": 6.848110061149556e-05,
      "loss": 1.1987,
      "step": 158
    },
    {
      "epoch": 0.010659336975832132,
      "grad_norm": 0.2979068458080292,
      "learning_rate": 6.810625992644085e-05,
      "loss": 1.136,
      "step": 159
    },
    {
      "epoch": 0.010726376831026044,
      "grad_norm": 0.2804504930973053,
      "learning_rate": 6.773024435212678e-05,
      "loss": 1.2024,
      "step": 160
    },
    {
      "epoch": 0.010793416686219958,
      "grad_norm": 0.29494619369506836,
      "learning_rate": 6.735307828766515e-05,
      "loss": 1.1888,
      "step": 161
    },
    {
      "epoch": 0.010860456541413871,
      "grad_norm": 0.297201931476593,
      "learning_rate": 6.697478620682137e-05,
      "loss": 1.1476,
      "step": 162
    },
    {
      "epoch": 0.010927496396607783,
      "grad_norm": 0.3088020384311676,
      "learning_rate": 6.659539265642643e-05,
      "loss": 1.1346,
      "step": 163
    },
    {
      "epoch": 0.010994536251801697,
      "grad_norm": 0.33410343527793884,
      "learning_rate": 6.621492225478414e-05,
      "loss": 1.1477,
      "step": 164
    },
    {
      "epoch": 0.011061576106995609,
      "grad_norm": 0.331268310546875,
      "learning_rate": 6.583339969007363e-05,
      "loss": 1.156,
      "step": 165
    },
    {
      "epoch": 0.011128615962189522,
      "grad_norm": 0.40895727276802063,
      "learning_rate": 6.545084971874738e-05,
      "loss": 1.0479,
      "step": 166
    },
    {
      "epoch": 0.011195655817383434,
      "grad_norm": 0.29135289788246155,
      "learning_rate": 6.506729716392481e-05,
      "loss": 1.1363,
      "step": 167
    },
    {
      "epoch": 0.011262695672577348,
      "grad_norm": 0.2851807773113251,
      "learning_rate": 6.468276691378155e-05,
      "loss": 1.0608,
      "step": 168
    },
    {
      "epoch": 0.01132973552777126,
      "grad_norm": 0.28861430287361145,
      "learning_rate": 6.429728391993446e-05,
      "loss": 1.1165,
      "step": 169
    },
    {
      "epoch": 0.011396775382965173,
      "grad_norm": 0.27951496839523315,
      "learning_rate": 6.391087319582264e-05,
      "loss": 1.1329,
      "step": 170
    },
    {
      "epoch": 0.011463815238159085,
      "grad_norm": 0.3118149936199188,
      "learning_rate": 6.35235598150842e-05,
      "loss": 1.1473,
      "step": 171
    },
    {
      "epoch": 0.011530855093352999,
      "grad_norm": 0.29321908950805664,
      "learning_rate": 6.313536890992935e-05,
      "loss": 1.1378,
      "step": 172
    },
    {
      "epoch": 0.01159789494854691,
      "grad_norm": 0.3047763705253601,
      "learning_rate": 6.274632566950967e-05,
      "loss": 1.0712,
      "step": 173
    },
    {
      "epoch": 0.011664934803740824,
      "grad_norm": 0.2890303432941437,
      "learning_rate": 6.235645533828349e-05,
      "loss": 1.0524,
      "step": 174
    },
    {
      "epoch": 0.011731974658934738,
      "grad_norm": 0.3181217312812805,
      "learning_rate": 6.19657832143779e-05,
      "loss": 1.209,
      "step": 175
    },
    {
      "epoch": 0.01179901451412865,
      "grad_norm": 0.3144010305404663,
      "learning_rate": 6.157433464794716e-05,
      "loss": 1.0992,
      "step": 176
    },
    {
      "epoch": 0.011866054369322563,
      "grad_norm": 0.3190297484397888,
      "learning_rate": 6.118213503952779e-05,
      "loss": 1.2004,
      "step": 177
    },
    {
      "epoch": 0.011933094224516475,
      "grad_norm": 0.3281589448451996,
      "learning_rate": 6.078920983839031e-05,
      "loss": 1.1332,
      "step": 178
    },
    {
      "epoch": 0.012000134079710388,
      "grad_norm": 0.3347526788711548,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 1.1554,
      "step": 179
    },
    {
      "epoch": 0.0120671739349043,
      "grad_norm": 0.3549429476261139,
      "learning_rate": 6.0001284688802226e-05,
      "loss": 1.0955,
      "step": 180
    },
    {
      "epoch": 0.012134213790098214,
      "grad_norm": 0.3300512135028839,
      "learning_rate": 5.960633586768543e-05,
      "loss": 1.0729,
      "step": 181
    },
    {
      "epoch": 0.012201253645292126,
      "grad_norm": 0.44254228472709656,
      "learning_rate": 5.921076370520058e-05,
      "loss": 1.1051,
      "step": 182
    },
    {
      "epoch": 0.01226829350048604,
      "grad_norm": 0.5087805986404419,
      "learning_rate": 5.8814593869458455e-05,
      "loss": 1.0687,
      "step": 183
    },
    {
      "epoch": 0.012335333355679951,
      "grad_norm": 0.6336567997932434,
      "learning_rate": 5.841785206735192e-05,
      "loss": 1.0671,
      "step": 184
    },
    {
      "epoch": 0.012402373210873865,
      "grad_norm": 1.1914963722229004,
      "learning_rate": 5.8020564042888015e-05,
      "loss": 1.2282,
      "step": 185
    },
    {
      "epoch": 0.012469413066067777,
      "grad_norm": 0.9801705479621887,
      "learning_rate": 5.762275557551727e-05,
      "loss": 1.1649,
      "step": 186
    },
    {
      "epoch": 0.01253645292126169,
      "grad_norm": 1.1173744201660156,
      "learning_rate": 5.7224452478461064e-05,
      "loss": 1.0758,
      "step": 187
    },
    {
      "epoch": 0.012603492776455602,
      "grad_norm": 1.2497832775115967,
      "learning_rate": 5.682568059703659e-05,
      "loss": 1.1602,
      "step": 188
    },
    {
      "epoch": 0.012670532631649516,
      "grad_norm": 1.0010076761245728,
      "learning_rate": 5.642646580697973e-05,
      "loss": 1.2224,
      "step": 189
    },
    {
      "epoch": 0.01273757248684343,
      "grad_norm": 0.7695754170417786,
      "learning_rate": 5.602683401276615e-05,
      "loss": 0.992,
      "step": 190
    },
    {
      "epoch": 0.012804612342037341,
      "grad_norm": 0.5596631765365601,
      "learning_rate": 5.562681114593028e-05,
      "loss": 0.9417,
      "step": 191
    },
    {
      "epoch": 0.012871652197231255,
      "grad_norm": 0.41532421112060547,
      "learning_rate": 5.522642316338268e-05,
      "loss": 0.9615,
      "step": 192
    },
    {
      "epoch": 0.012938692052425167,
      "grad_norm": 0.4340376853942871,
      "learning_rate": 5.482569604572576e-05,
      "loss": 0.9532,
      "step": 193
    },
    {
      "epoch": 0.01300573190761908,
      "grad_norm": 0.38963085412979126,
      "learning_rate": 5.442465579556793e-05,
      "loss": 0.9681,
      "step": 194
    },
    {
      "epoch": 0.013072771762812992,
      "grad_norm": 0.42174991965293884,
      "learning_rate": 5.402332843583631e-05,
      "loss": 1.0267,
      "step": 195
    },
    {
      "epoch": 0.013139811618006906,
      "grad_norm": 0.4560495615005493,
      "learning_rate": 5.3621740008088126e-05,
      "loss": 1.0119,
      "step": 196
    },
    {
      "epoch": 0.013206851473200817,
      "grad_norm": 0.43530774116516113,
      "learning_rate": 5.321991657082097e-05,
      "loss": 0.9479,
      "step": 197
    },
    {
      "epoch": 0.013273891328394731,
      "grad_norm": 0.4359716475009918,
      "learning_rate": 5.281788419778187e-05,
      "loss": 1.0029,
      "step": 198
    },
    {
      "epoch": 0.013340931183588643,
      "grad_norm": 0.5293024182319641,
      "learning_rate": 5.2415668976275355e-05,
      "loss": 1.1222,
      "step": 199
    },
    {
      "epoch": 0.013407971038782556,
      "grad_norm": 0.6897127628326416,
      "learning_rate": 5.201329700547076e-05,
      "loss": 1.2765,
      "step": 200
    },
    {
      "epoch": 0.013407971038782556,
      "eval_loss": 1.2161105871200562,
      "eval_runtime": 1036.3955,
      "eval_samples_per_second": 24.241,
      "eval_steps_per_second": 6.06,
      "step": 200
    },
    {
      "epoch": 0.013475010893976468,
      "grad_norm": 0.619679868221283,
      "learning_rate": 5.161079439470866e-05,
      "loss": 1.2089,
      "step": 201
    },
    {
      "epoch": 0.013542050749170382,
      "grad_norm": 0.6559606790542603,
      "learning_rate": 5.1208187261806615e-05,
      "loss": 1.2693,
      "step": 202
    },
    {
      "epoch": 0.013609090604364294,
      "grad_norm": 0.6378985047340393,
      "learning_rate": 5.080550173136457e-05,
      "loss": 1.3011,
      "step": 203
    },
    {
      "epoch": 0.013676130459558207,
      "grad_norm": 0.6659349203109741,
      "learning_rate": 5.0402763933069496e-05,
      "loss": 1.1991,
      "step": 204
    },
    {
      "epoch": 0.013743170314752121,
      "grad_norm": 0.6734606623649597,
      "learning_rate": 5e-05,
      "loss": 1.2549,
      "step": 205
    },
    {
      "epoch": 0.013810210169946033,
      "grad_norm": 0.627135694026947,
      "learning_rate": 4.9597236066930516e-05,
      "loss": 1.2123,
      "step": 206
    },
    {
      "epoch": 0.013877250025139946,
      "grad_norm": 0.6325879693031311,
      "learning_rate": 4.919449826863544e-05,
      "loss": 1.2816,
      "step": 207
    },
    {
      "epoch": 0.013944289880333858,
      "grad_norm": 0.6056637763977051,
      "learning_rate": 4.87918127381934e-05,
      "loss": 1.2241,
      "step": 208
    },
    {
      "epoch": 0.014011329735527772,
      "grad_norm": 0.5405154228210449,
      "learning_rate": 4.8389205605291365e-05,
      "loss": 1.2043,
      "step": 209
    },
    {
      "epoch": 0.014078369590721684,
      "grad_norm": 0.5331965088844299,
      "learning_rate": 4.798670299452926e-05,
      "loss": 1.1878,
      "step": 210
    },
    {
      "epoch": 0.014145409445915597,
      "grad_norm": 0.4851110875606537,
      "learning_rate": 4.758433102372466e-05,
      "loss": 1.2348,
      "step": 211
    },
    {
      "epoch": 0.014212449301109509,
      "grad_norm": 0.417728990316391,
      "learning_rate": 4.7182115802218126e-05,
      "loss": 1.1901,
      "step": 212
    },
    {
      "epoch": 0.014279489156303423,
      "grad_norm": 0.38574808835983276,
      "learning_rate": 4.678008342917903e-05,
      "loss": 1.1422,
      "step": 213
    },
    {
      "epoch": 0.014346529011497335,
      "grad_norm": 0.37215033173561096,
      "learning_rate": 4.6378259991911886e-05,
      "loss": 1.175,
      "step": 214
    },
    {
      "epoch": 0.014413568866691248,
      "grad_norm": 0.37689638137817383,
      "learning_rate": 4.597667156416371e-05,
      "loss": 1.1413,
      "step": 215
    },
    {
      "epoch": 0.01448060872188516,
      "grad_norm": 0.3964472711086273,
      "learning_rate": 4.5575344204432084e-05,
      "loss": 1.1809,
      "step": 216
    },
    {
      "epoch": 0.014547648577079074,
      "grad_norm": 0.37030771374702454,
      "learning_rate": 4.5174303954274244e-05,
      "loss": 1.0904,
      "step": 217
    },
    {
      "epoch": 0.014614688432272985,
      "grad_norm": 0.37477368116378784,
      "learning_rate": 4.477357683661734e-05,
      "loss": 1.1403,
      "step": 218
    },
    {
      "epoch": 0.014681728287466899,
      "grad_norm": 0.36941179633140564,
      "learning_rate": 4.437318885406973e-05,
      "loss": 1.0907,
      "step": 219
    },
    {
      "epoch": 0.014748768142660813,
      "grad_norm": 0.3623141944408417,
      "learning_rate": 4.397316598723385e-05,
      "loss": 1.0804,
      "step": 220
    },
    {
      "epoch": 0.014815807997854724,
      "grad_norm": 0.341920405626297,
      "learning_rate": 4.3573534193020274e-05,
      "loss": 1.0823,
      "step": 221
    },
    {
      "epoch": 0.014882847853048638,
      "grad_norm": 0.3682282269001007,
      "learning_rate": 4.317431940296343e-05,
      "loss": 1.239,
      "step": 222
    },
    {
      "epoch": 0.01494988770824255,
      "grad_norm": 0.33824649453163147,
      "learning_rate": 4.277554752153895e-05,
      "loss": 1.1665,
      "step": 223
    },
    {
      "epoch": 0.015016927563436464,
      "grad_norm": 0.31635376811027527,
      "learning_rate": 4.237724442448273e-05,
      "loss": 1.1076,
      "step": 224
    },
    {
      "epoch": 0.015083967418630375,
      "grad_norm": 0.3355288803577423,
      "learning_rate": 4.197943595711198e-05,
      "loss": 1.0319,
      "step": 225
    },
    {
      "epoch": 0.015151007273824289,
      "grad_norm": 0.3200879693031311,
      "learning_rate": 4.1582147932648074e-05,
      "loss": 1.1239,
      "step": 226
    },
    {
      "epoch": 0.0152180471290182,
      "grad_norm": 0.31894201040267944,
      "learning_rate": 4.118540613054156e-05,
      "loss": 1.0775,
      "step": 227
    },
    {
      "epoch": 0.015285086984212114,
      "grad_norm": 0.29961758852005005,
      "learning_rate": 4.078923629479943e-05,
      "loss": 1.0682,
      "step": 228
    },
    {
      "epoch": 0.015352126839406026,
      "grad_norm": 0.30250874161720276,
      "learning_rate": 4.039366413231458e-05,
      "loss": 1.0273,
      "step": 229
    },
    {
      "epoch": 0.01541916669459994,
      "grad_norm": 0.33042725920677185,
      "learning_rate": 3.9998715311197785e-05,
      "loss": 1.1484,
      "step": 230
    },
    {
      "epoch": 0.015486206549793852,
      "grad_norm": 0.3577355146408081,
      "learning_rate": 3.960441545911204e-05,
      "loss": 1.1763,
      "step": 231
    },
    {
      "epoch": 0.015553246404987765,
      "grad_norm": 0.33698660135269165,
      "learning_rate": 3.92107901616097e-05,
      "loss": 1.1,
      "step": 232
    },
    {
      "epoch": 0.015620286260181679,
      "grad_norm": 0.3559073507785797,
      "learning_rate": 3.8817864960472236e-05,
      "loss": 1.1988,
      "step": 233
    },
    {
      "epoch": 0.015687326115375592,
      "grad_norm": 0.3989720344543457,
      "learning_rate": 3.842566535205286e-05,
      "loss": 1.0586,
      "step": 234
    },
    {
      "epoch": 0.015754365970569503,
      "grad_norm": 0.4811747074127197,
      "learning_rate": 3.803421678562213e-05,
      "loss": 1.1085,
      "step": 235
    },
    {
      "epoch": 0.015821405825763416,
      "grad_norm": 0.49198710918426514,
      "learning_rate": 3.764354466171652e-05,
      "loss": 1.0835,
      "step": 236
    },
    {
      "epoch": 0.01588844568095733,
      "grad_norm": 0.5938194990158081,
      "learning_rate": 3.725367433049033e-05,
      "loss": 0.9776,
      "step": 237
    },
    {
      "epoch": 0.015955485536151243,
      "grad_norm": 0.6120234131813049,
      "learning_rate": 3.6864631090070655e-05,
      "loss": 1.0892,
      "step": 238
    },
    {
      "epoch": 0.016022525391345153,
      "grad_norm": 0.7043867111206055,
      "learning_rate": 3.6476440184915815e-05,
      "loss": 1.1725,
      "step": 239
    },
    {
      "epoch": 0.016089565246539067,
      "grad_norm": 0.6934478282928467,
      "learning_rate": 3.608912680417737e-05,
      "loss": 1.0408,
      "step": 240
    },
    {
      "epoch": 0.01615660510173298,
      "grad_norm": 0.6476943492889404,
      "learning_rate": 3.570271608006555e-05,
      "loss": 1.011,
      "step": 241
    },
    {
      "epoch": 0.016223644956926894,
      "grad_norm": 0.6501573920249939,
      "learning_rate": 3.531723308621847e-05,
      "loss": 1.0298,
      "step": 242
    },
    {
      "epoch": 0.016290684812120804,
      "grad_norm": 0.6390800476074219,
      "learning_rate": 3.493270283607522e-05,
      "loss": 1.0251,
      "step": 243
    },
    {
      "epoch": 0.016357724667314718,
      "grad_norm": 0.6230728030204773,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 1.0892,
      "step": 244
    },
    {
      "epoch": 0.01642476452250863,
      "grad_norm": 0.6164510250091553,
      "learning_rate": 3.4166600309926387e-05,
      "loss": 0.984,
      "step": 245
    },
    {
      "epoch": 0.016491804377702545,
      "grad_norm": 0.6495949625968933,
      "learning_rate": 3.3785077745215873e-05,
      "loss": 0.9431,
      "step": 246
    },
    {
      "epoch": 0.016558844232896455,
      "grad_norm": 0.6292153596878052,
      "learning_rate": 3.340460734357359e-05,
      "loss": 1.057,
      "step": 247
    },
    {
      "epoch": 0.01662588408809037,
      "grad_norm": 0.6175395846366882,
      "learning_rate": 3.3025213793178646e-05,
      "loss": 1.1163,
      "step": 248
    },
    {
      "epoch": 0.016692923943284282,
      "grad_norm": 0.6634258031845093,
      "learning_rate": 3.264692171233485e-05,
      "loss": 1.1758,
      "step": 249
    },
    {
      "epoch": 0.016759963798478196,
      "grad_norm": 0.8370860815048218,
      "learning_rate": 3.226975564787322e-05,
      "loss": 1.3833,
      "step": 250
    },
    {
      "epoch": 0.016759963798478196,
      "eval_loss": 1.1178003549575806,
      "eval_runtime": 1037.344,
      "eval_samples_per_second": 24.219,
      "eval_steps_per_second": 6.055,
      "step": 250
    },
    {
      "epoch": 0.01682700365367211,
      "grad_norm": 0.3372362554073334,
      "learning_rate": 3.189374007355917e-05,
      "loss": 1.1418,
      "step": 251
    },
    {
      "epoch": 0.01689404350886602,
      "grad_norm": 0.36599135398864746,
      "learning_rate": 3.151889938850445e-05,
      "loss": 1.1626,
      "step": 252
    },
    {
      "epoch": 0.016961083364059933,
      "grad_norm": 0.3634909987449646,
      "learning_rate": 3.114525791558398e-05,
      "loss": 1.1995,
      "step": 253
    },
    {
      "epoch": 0.017028123219253847,
      "grad_norm": 0.3775339126586914,
      "learning_rate": 3.0772839899857464e-05,
      "loss": 1.1632,
      "step": 254
    },
    {
      "epoch": 0.01709516307444776,
      "grad_norm": 0.3699539005756378,
      "learning_rate": 3.0401669506996256e-05,
      "loss": 1.0698,
      "step": 255
    },
    {
      "epoch": 0.01716220292964167,
      "grad_norm": 0.37172818183898926,
      "learning_rate": 3.003177082171523e-05,
      "loss": 1.088,
      "step": 256
    },
    {
      "epoch": 0.017229242784835584,
      "grad_norm": 0.40617114305496216,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 1.2099,
      "step": 257
    },
    {
      "epoch": 0.017296282640029498,
      "grad_norm": 0.37073609232902527,
      "learning_rate": 2.9295884498599414e-05,
      "loss": 1.1654,
      "step": 258
    },
    {
      "epoch": 0.01736332249522341,
      "grad_norm": 0.3929826617240906,
      "learning_rate": 2.8929944611373554e-05,
      "loss": 1.1869,
      "step": 259
    },
    {
      "epoch": 0.01743036235041732,
      "grad_norm": 0.372763454914093,
      "learning_rate": 2.8565371929847284e-05,
      "loss": 1.1164,
      "step": 260
    },
    {
      "epoch": 0.017497402205611235,
      "grad_norm": 0.38471150398254395,
      "learning_rate": 2.8202190110619493e-05,
      "loss": 1.1731,
      "step": 261
    },
    {
      "epoch": 0.01756444206080515,
      "grad_norm": 0.37678924202919006,
      "learning_rate": 2.784042272003794e-05,
      "loss": 1.1764,
      "step": 262
    },
    {
      "epoch": 0.017631481915999062,
      "grad_norm": 0.3491964638233185,
      "learning_rate": 2.7480093232670158e-05,
      "loss": 1.1549,
      "step": 263
    },
    {
      "epoch": 0.017698521771192976,
      "grad_norm": 0.3635311722755432,
      "learning_rate": 2.712122502978024e-05,
      "loss": 1.0929,
      "step": 264
    },
    {
      "epoch": 0.017765561626386886,
      "grad_norm": 0.366382896900177,
      "learning_rate": 2.6763841397811573e-05,
      "loss": 1.1209,
      "step": 265
    },
    {
      "epoch": 0.0178326014815808,
      "grad_norm": 0.3384551703929901,
      "learning_rate": 2.64079655268759e-05,
      "loss": 1.0053,
      "step": 266
    },
    {
      "epoch": 0.017899641336774713,
      "grad_norm": 0.3336208760738373,
      "learning_rate": 2.605362050924848e-05,
      "loss": 1.2015,
      "step": 267
    },
    {
      "epoch": 0.017966681191968627,
      "grad_norm": 0.33903375267982483,
      "learning_rate": 2.57008293378697e-05,
      "loss": 1.1103,
      "step": 268
    },
    {
      "epoch": 0.018033721047162537,
      "grad_norm": 0.35613352060317993,
      "learning_rate": 2.534961490485313e-05,
      "loss": 1.0992,
      "step": 269
    },
    {
      "epoch": 0.01810076090235645,
      "grad_norm": 0.30473750829696655,
      "learning_rate": 2.500000000000001e-05,
      "loss": 1.0654,
      "step": 270
    },
    {
      "epoch": 0.018167800757550364,
      "grad_norm": 0.33185243606567383,
      "learning_rate": 2.4652007309320498e-05,
      "loss": 1.1417,
      "step": 271
    },
    {
      "epoch": 0.018234840612744278,
      "grad_norm": 0.31621411442756653,
      "learning_rate": 2.430565941356157e-05,
      "loss": 1.0906,
      "step": 272
    },
    {
      "epoch": 0.018301880467938188,
      "grad_norm": 0.33230525255203247,
      "learning_rate": 2.3960978786741877e-05,
      "loss": 1.1523,
      "step": 273
    },
    {
      "epoch": 0.0183689203231321,
      "grad_norm": 0.31938549876213074,
      "learning_rate": 2.361798779469336e-05,
      "loss": 1.1865,
      "step": 274
    },
    {
      "epoch": 0.018435960178326015,
      "grad_norm": 0.330298513174057,
      "learning_rate": 2.3276708693609943e-05,
      "loss": 1.0825,
      "step": 275
    },
    {
      "epoch": 0.01850300003351993,
      "grad_norm": 0.33330580592155457,
      "learning_rate": 2.2937163628603435e-05,
      "loss": 1.0507,
      "step": 276
    },
    {
      "epoch": 0.018570039888713842,
      "grad_norm": 0.32750797271728516,
      "learning_rate": 2.259937463226651e-05,
      "loss": 1.1109,
      "step": 277
    },
    {
      "epoch": 0.018637079743907752,
      "grad_norm": 0.3320873975753784,
      "learning_rate": 2.2263363623243054e-05,
      "loss": 1.153,
      "step": 278
    },
    {
      "epoch": 0.018704119599101666,
      "grad_norm": 0.3652473986148834,
      "learning_rate": 2.192915240480596e-05,
      "loss": 1.1724,
      "step": 279
    },
    {
      "epoch": 0.01877115945429558,
      "grad_norm": 0.36594489216804504,
      "learning_rate": 2.1596762663442218e-05,
      "loss": 1.2155,
      "step": 280
    },
    {
      "epoch": 0.018838199309489493,
      "grad_norm": 0.366986483335495,
      "learning_rate": 2.1266215967445824e-05,
      "loss": 1.1424,
      "step": 281
    },
    {
      "epoch": 0.018905239164683403,
      "grad_norm": 0.3651215136051178,
      "learning_rate": 2.0937533765518187e-05,
      "loss": 1.1316,
      "step": 282
    },
    {
      "epoch": 0.018972279019877317,
      "grad_norm": 0.35455676913261414,
      "learning_rate": 2.061073738537635e-05,
      "loss": 1.0861,
      "step": 283
    },
    {
      "epoch": 0.01903931887507123,
      "grad_norm": 0.35090258717536926,
      "learning_rate": 2.0285848032369137e-05,
      "loss": 1.1086,
      "step": 284
    },
    {
      "epoch": 0.019106358730265144,
      "grad_norm": 0.36630454659461975,
      "learning_rate": 1.996288678810105e-05,
      "loss": 1.1495,
      "step": 285
    },
    {
      "epoch": 0.019173398585459054,
      "grad_norm": 0.3865651786327362,
      "learning_rate": 1.9641874609064443e-05,
      "loss": 1.1343,
      "step": 286
    },
    {
      "epoch": 0.019240438440652968,
      "grad_norm": 0.401056170463562,
      "learning_rate": 1.932283232527956e-05,
      "loss": 1.1114,
      "step": 287
    },
    {
      "epoch": 0.01930747829584688,
      "grad_norm": 0.4500099718570709,
      "learning_rate": 1.9005780638942982e-05,
      "loss": 1.0263,
      "step": 288
    },
    {
      "epoch": 0.019374518151040795,
      "grad_norm": 0.42187684774398804,
      "learning_rate": 1.8690740123084316e-05,
      "loss": 1.0468,
      "step": 289
    },
    {
      "epoch": 0.019441558006234705,
      "grad_norm": 0.45618054270744324,
      "learning_rate": 1.837773122023114e-05,
      "loss": 1.1182,
      "step": 290
    },
    {
      "epoch": 0.01950859786142862,
      "grad_norm": 0.45046761631965637,
      "learning_rate": 1.8066774241082612e-05,
      "loss": 1.0302,
      "step": 291
    },
    {
      "epoch": 0.019575637716622532,
      "grad_norm": 0.47965508699417114,
      "learning_rate": 1.7757889363191483e-05,
      "loss": 0.9214,
      "step": 292
    },
    {
      "epoch": 0.019642677571816446,
      "grad_norm": 0.519105851650238,
      "learning_rate": 1.745109662965481e-05,
      "loss": 1.0197,
      "step": 293
    },
    {
      "epoch": 0.01970971742701036,
      "grad_norm": 0.5404091477394104,
      "learning_rate": 1.714641594781347e-05,
      "loss": 0.9719,
      "step": 294
    },
    {
      "epoch": 0.01977675728220427,
      "grad_norm": 0.5736227035522461,
      "learning_rate": 1.684386708796025e-05,
      "loss": 1.0644,
      "step": 295
    },
    {
      "epoch": 0.019843797137398183,
      "grad_norm": 0.5991939902305603,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 0.9991,
      "step": 296
    },
    {
      "epoch": 0.019910836992592097,
      "grad_norm": 0.6814522743225098,
      "learning_rate": 1.62452432224612e-05,
      "loss": 1.1768,
      "step": 297
    },
    {
      "epoch": 0.01997787684778601,
      "grad_norm": 0.7053101658821106,
      "learning_rate": 1.5949207060660138e-05,
      "loss": 1.1027,
      "step": 298
    },
    {
      "epoch": 0.02004491670297992,
      "grad_norm": 0.7436442971229553,
      "learning_rate": 1.5655380406016235e-05,
      "loss": 1.0253,
      "step": 299
    },
    {
      "epoch": 0.020111956558173834,
      "grad_norm": 0.8508201837539673,
      "learning_rate": 1.536378232452003e-05,
      "loss": 1.3865,
      "step": 300
    },
    {
      "epoch": 0.020111956558173834,
      "eval_loss": 1.0870617628097534,
      "eval_runtime": 1035.0513,
      "eval_samples_per_second": 24.272,
      "eval_steps_per_second": 6.068,
      "step": 300
    },
    {
      "epoch": 0.020178996413367747,
      "grad_norm": 0.3059835731983185,
      "learning_rate": 1.5074431737553157e-05,
      "loss": 1.0647,
      "step": 301
    },
    {
      "epoch": 0.02024603626856166,
      "grad_norm": 0.30562493205070496,
      "learning_rate": 1.4787347420660541e-05,
      "loss": 1.1153,
      "step": 302
    },
    {
      "epoch": 0.02031307612375557,
      "grad_norm": 0.2841683328151703,
      "learning_rate": 1.4502548002332088e-05,
      "loss": 1.0701,
      "step": 303
    },
    {
      "epoch": 0.020380115978949485,
      "grad_norm": 0.2921966314315796,
      "learning_rate": 1.422005196279395e-05,
      "loss": 1.2058,
      "step": 304
    },
    {
      "epoch": 0.0204471558341434,
      "grad_norm": 0.31516599655151367,
      "learning_rate": 1.3939877632809278e-05,
      "loss": 1.1779,
      "step": 305
    },
    {
      "epoch": 0.020514195689337312,
      "grad_norm": 0.2958456575870514,
      "learning_rate": 1.3662043192488849e-05,
      "loss": 1.0468,
      "step": 306
    },
    {
      "epoch": 0.020581235544531225,
      "grad_norm": 0.30697885155677795,
      "learning_rate": 1.338656667011134e-05,
      "loss": 1.1436,
      "step": 307
    },
    {
      "epoch": 0.020648275399725136,
      "grad_norm": 0.2994714677333832,
      "learning_rate": 1.3113465940953495e-05,
      "loss": 1.1031,
      "step": 308
    },
    {
      "epoch": 0.02071531525491905,
      "grad_norm": 0.29838451743125916,
      "learning_rate": 1.2842758726130283e-05,
      "loss": 1.0463,
      "step": 309
    },
    {
      "epoch": 0.020782355110112963,
      "grad_norm": 0.310598224401474,
      "learning_rate": 1.257446259144494e-05,
      "loss": 1.0683,
      "step": 310
    },
    {
      "epoch": 0.020849394965306876,
      "grad_norm": 0.30243346095085144,
      "learning_rate": 1.2308594946249163e-05,
      "loss": 1.196,
      "step": 311
    },
    {
      "epoch": 0.020916434820500786,
      "grad_norm": 0.3084069788455963,
      "learning_rate": 1.204517304231343e-05,
      "loss": 1.127,
      "step": 312
    },
    {
      "epoch": 0.0209834746756947,
      "grad_norm": 0.31617820262908936,
      "learning_rate": 1.178421397270758e-05,
      "loss": 1.1297,
      "step": 313
    },
    {
      "epoch": 0.021050514530888614,
      "grad_norm": 0.3098440170288086,
      "learning_rate": 1.1525734670691701e-05,
      "loss": 1.1487,
      "step": 314
    },
    {
      "epoch": 0.021117554386082527,
      "grad_norm": 0.3126170337200165,
      "learning_rate": 1.1269751908617277e-05,
      "loss": 0.993,
      "step": 315
    },
    {
      "epoch": 0.021184594241276437,
      "grad_norm": 0.30859044194221497,
      "learning_rate": 1.1016282296838887e-05,
      "loss": 1.0666,
      "step": 316
    },
    {
      "epoch": 0.02125163409647035,
      "grad_norm": 0.3028504252433777,
      "learning_rate": 1.0765342282636416e-05,
      "loss": 1.0556,
      "step": 317
    },
    {
      "epoch": 0.021318673951664265,
      "grad_norm": 0.3214432895183563,
      "learning_rate": 1.0516948149147754e-05,
      "loss": 1.063,
      "step": 318
    },
    {
      "epoch": 0.021385713806858178,
      "grad_norm": 0.34124255180358887,
      "learning_rate": 1.0271116014312293e-05,
      "loss": 1.1203,
      "step": 319
    },
    {
      "epoch": 0.021452753662052088,
      "grad_norm": 0.30643144249916077,
      "learning_rate": 1.0027861829824952e-05,
      "loss": 1.0369,
      "step": 320
    },
    {
      "epoch": 0.021519793517246002,
      "grad_norm": 0.3396110534667969,
      "learning_rate": 9.787201380101157e-06,
      "loss": 1.1044,
      "step": 321
    },
    {
      "epoch": 0.021586833372439915,
      "grad_norm": 0.34022727608680725,
      "learning_rate": 9.549150281252633e-06,
      "loss": 1.0156,
      "step": 322
    },
    {
      "epoch": 0.02165387322763383,
      "grad_norm": 0.32174405455589294,
      "learning_rate": 9.313723980074018e-06,
      "loss": 1.0917,
      "step": 323
    },
    {
      "epoch": 0.021720913082827743,
      "grad_norm": 0.31906330585479736,
      "learning_rate": 9.080937753040646e-06,
      "loss": 1.0773,
      "step": 324
    },
    {
      "epoch": 0.021787952938021653,
      "grad_norm": 0.33921849727630615,
      "learning_rate": 8.850806705317183e-06,
      "loss": 1.0534,
      "step": 325
    },
    {
      "epoch": 0.021854992793215566,
      "grad_norm": 0.34328460693359375,
      "learning_rate": 8.623345769777514e-06,
      "loss": 1.0911,
      "step": 326
    },
    {
      "epoch": 0.02192203264840948,
      "grad_norm": 0.3407459855079651,
      "learning_rate": 8.398569706035792e-06,
      "loss": 1.0832,
      "step": 327
    },
    {
      "epoch": 0.021989072503603393,
      "grad_norm": 0.3316934406757355,
      "learning_rate": 8.176493099488663e-06,
      "loss": 1.1085,
      "step": 328
    },
    {
      "epoch": 0.022056112358797304,
      "grad_norm": 0.3303617835044861,
      "learning_rate": 7.957130360368898e-06,
      "loss": 1.102,
      "step": 329
    },
    {
      "epoch": 0.022123152213991217,
      "grad_norm": 0.3431849777698517,
      "learning_rate": 7.740495722810271e-06,
      "loss": 1.1483,
      "step": 330
    },
    {
      "epoch": 0.02219019206918513,
      "grad_norm": 0.3377239406108856,
      "learning_rate": 7.526603243923957e-06,
      "loss": 1.023,
      "step": 331
    },
    {
      "epoch": 0.022257231924379044,
      "grad_norm": 0.36116737127304077,
      "learning_rate": 7.315466802886401e-06,
      "loss": 1.1379,
      "step": 332
    },
    {
      "epoch": 0.022324271779572954,
      "grad_norm": 0.39617905020713806,
      "learning_rate": 7.107100100038671e-06,
      "loss": 1.1422,
      "step": 333
    },
    {
      "epoch": 0.022391311634766868,
      "grad_norm": 0.37068116664886475,
      "learning_rate": 6.901516655997536e-06,
      "loss": 1.034,
      "step": 334
    },
    {
      "epoch": 0.02245835148996078,
      "grad_norm": 0.37303662300109863,
      "learning_rate": 6.698729810778065e-06,
      "loss": 1.1409,
      "step": 335
    },
    {
      "epoch": 0.022525391345154695,
      "grad_norm": 0.3804875612258911,
      "learning_rate": 6.498752722928042e-06,
      "loss": 1.0751,
      "step": 336
    },
    {
      "epoch": 0.02259243120034861,
      "grad_norm": 0.3963068723678589,
      "learning_rate": 6.301598368674105e-06,
      "loss": 1.0463,
      "step": 337
    },
    {
      "epoch": 0.02265947105554252,
      "grad_norm": 0.4121077060699463,
      "learning_rate": 6.107279541079769e-06,
      "loss": 1.1955,
      "step": 338
    },
    {
      "epoch": 0.022726510910736433,
      "grad_norm": 0.41220876574516296,
      "learning_rate": 5.915808849215304e-06,
      "loss": 0.9547,
      "step": 339
    },
    {
      "epoch": 0.022793550765930346,
      "grad_norm": 0.3979315161705017,
      "learning_rate": 5.727198717339511e-06,
      "loss": 1.0269,
      "step": 340
    },
    {
      "epoch": 0.02286059062112426,
      "grad_norm": 0.4455898702144623,
      "learning_rate": 5.54146138409355e-06,
      "loss": 1.0983,
      "step": 341
    },
    {
      "epoch": 0.02292763047631817,
      "grad_norm": 0.4555850923061371,
      "learning_rate": 5.358608901706802e-06,
      "loss": 1.0273,
      "step": 342
    },
    {
      "epoch": 0.022994670331512083,
      "grad_norm": 0.4491156339645386,
      "learning_rate": 5.178653135214812e-06,
      "loss": 0.9581,
      "step": 343
    },
    {
      "epoch": 0.023061710186705997,
      "grad_norm": 0.5024362206459045,
      "learning_rate": 5.001605761689398e-06,
      "loss": 1.0044,
      "step": 344
    },
    {
      "epoch": 0.02312875004189991,
      "grad_norm": 0.5144087076187134,
      "learning_rate": 4.827478269480895e-06,
      "loss": 0.938,
      "step": 345
    },
    {
      "epoch": 0.02319578989709382,
      "grad_norm": 0.5420154929161072,
      "learning_rate": 4.65628195747273e-06,
      "loss": 0.9842,
      "step": 346
    },
    {
      "epoch": 0.023262829752287734,
      "grad_norm": 0.6050488948822021,
      "learning_rate": 4.488027934348271e-06,
      "loss": 1.1901,
      "step": 347
    },
    {
      "epoch": 0.023329869607481648,
      "grad_norm": 0.6180755496025085,
      "learning_rate": 4.322727117869951e-06,
      "loss": 0.9923,
      "step": 348
    },
    {
      "epoch": 0.02339690946267556,
      "grad_norm": 0.6632031202316284,
      "learning_rate": 4.16039023417088e-06,
      "loss": 0.9616,
      "step": 349
    },
    {
      "epoch": 0.023463949317869475,
      "grad_norm": 0.8107603788375854,
      "learning_rate": 4.001027817058789e-06,
      "loss": 1.3576,
      "step": 350
    },
    {
      "epoch": 0.023463949317869475,
      "eval_loss": 1.0824118852615356,
      "eval_runtime": 1034.3259,
      "eval_samples_per_second": 24.289,
      "eval_steps_per_second": 6.073,
      "step": 350
    },
    {
      "epoch": 0.023530989173063385,
      "grad_norm": 0.288426011800766,
      "learning_rate": 3.844650207332562e-06,
      "loss": 1.1302,
      "step": 351
    },
    {
      "epoch": 0.0235980290282573,
      "grad_norm": 0.28361886739730835,
      "learning_rate": 3.691267552111183e-06,
      "loss": 1.0888,
      "step": 352
    },
    {
      "epoch": 0.023665068883451212,
      "grad_norm": 0.28806284070014954,
      "learning_rate": 3.54088980417534e-06,
      "loss": 1.0634,
      "step": 353
    },
    {
      "epoch": 0.023732108738645126,
      "grad_norm": 0.2982894480228424,
      "learning_rate": 3.393526721321616e-06,
      "loss": 1.0926,
      "step": 354
    },
    {
      "epoch": 0.023799148593839036,
      "grad_norm": 0.29122960567474365,
      "learning_rate": 3.249187865729264e-06,
      "loss": 1.0786,
      "step": 355
    },
    {
      "epoch": 0.02386618844903295,
      "grad_norm": 0.30477002263069153,
      "learning_rate": 3.1078826033397843e-06,
      "loss": 1.0664,
      "step": 356
    },
    {
      "epoch": 0.023933228304226863,
      "grad_norm": 0.2922193706035614,
      "learning_rate": 2.9696201032491434e-06,
      "loss": 1.1082,
      "step": 357
    },
    {
      "epoch": 0.024000268159420777,
      "grad_norm": 0.2954815626144409,
      "learning_rate": 2.8344093371128424e-06,
      "loss": 1.1143,
      "step": 358
    },
    {
      "epoch": 0.024067308014614687,
      "grad_norm": 0.28901568055152893,
      "learning_rate": 2.70225907856374e-06,
      "loss": 1.0572,
      "step": 359
    },
    {
      "epoch": 0.0241343478698086,
      "grad_norm": 0.2976773679256439,
      "learning_rate": 2.573177902642726e-06,
      "loss": 1.0953,
      "step": 360
    },
    {
      "epoch": 0.024201387725002514,
      "grad_norm": 0.298807829618454,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 1.059,
      "step": 361
    },
    {
      "epoch": 0.024268427580196428,
      "grad_norm": 0.3115805983543396,
      "learning_rate": 2.324256102563188e-06,
      "loss": 1.0684,
      "step": 362
    },
    {
      "epoch": 0.024335467435390338,
      "grad_norm": 0.3207703232765198,
      "learning_rate": 2.204431630583548e-06,
      "loss": 1.0746,
      "step": 363
    },
    {
      "epoch": 0.02440250729058425,
      "grad_norm": 0.2976981997489929,
      "learning_rate": 2.087708544541689e-06,
      "loss": 1.0713,
      "step": 364
    },
    {
      "epoch": 0.024469547145778165,
      "grad_norm": 0.3164154291152954,
      "learning_rate": 1.974094418431388e-06,
      "loss": 1.1538,
      "step": 365
    },
    {
      "epoch": 0.02453658700097208,
      "grad_norm": 0.3003906011581421,
      "learning_rate": 1.8635966245104664e-06,
      "loss": 1.0924,
      "step": 366
    },
    {
      "epoch": 0.024603626856165992,
      "grad_norm": 0.30181068181991577,
      "learning_rate": 1.7562223328224325e-06,
      "loss": 1.0568,
      "step": 367
    },
    {
      "epoch": 0.024670666711359902,
      "grad_norm": 0.3205750584602356,
      "learning_rate": 1.6519785107311891e-06,
      "loss": 1.0588,
      "step": 368
    },
    {
      "epoch": 0.024737706566553816,
      "grad_norm": 0.3129303753376007,
      "learning_rate": 1.5508719224689717e-06,
      "loss": 1.0774,
      "step": 369
    },
    {
      "epoch": 0.02480474642174773,
      "grad_norm": 0.31309744715690613,
      "learning_rate": 1.4529091286973995e-06,
      "loss": 1.1387,
      "step": 370
    },
    {
      "epoch": 0.024871786276941643,
      "grad_norm": 0.31708234548568726,
      "learning_rate": 1.358096486081778e-06,
      "loss": 1.0754,
      "step": 371
    },
    {
      "epoch": 0.024938826132135553,
      "grad_norm": 0.31589797139167786,
      "learning_rate": 1.2664401468786114e-06,
      "loss": 1.1179,
      "step": 372
    },
    {
      "epoch": 0.025005865987329467,
      "grad_norm": 0.326985627412796,
      "learning_rate": 1.1779460585363944e-06,
      "loss": 1.0237,
      "step": 373
    },
    {
      "epoch": 0.02507290584252338,
      "grad_norm": 0.337021142244339,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 1.0416,
      "step": 374
    },
    {
      "epoch": 0.025139945697717294,
      "grad_norm": 0.3299597501754761,
      "learning_rate": 1.0104673978866164e-06,
      "loss": 1.0428,
      "step": 375
    },
    {
      "epoch": 0.025206985552911204,
      "grad_norm": 0.31924912333488464,
      "learning_rate": 9.314936930293283e-07,
      "loss": 0.9773,
      "step": 376
    },
    {
      "epoch": 0.025274025408105118,
      "grad_norm": 0.33366861939430237,
      "learning_rate": 8.557039732283944e-07,
      "loss": 1.1019,
      "step": 377
    },
    {
      "epoch": 0.02534106526329903,
      "grad_norm": 0.3544885516166687,
      "learning_rate": 7.83103156370113e-07,
      "loss": 1.0851,
      "step": 378
    },
    {
      "epoch": 0.025408105118492945,
      "grad_norm": 0.3410674035549164,
      "learning_rate": 7.136959534174592e-07,
      "loss": 1.1716,
      "step": 379
    },
    {
      "epoch": 0.02547514497368686,
      "grad_norm": 0.3247200548648834,
      "learning_rate": 6.474868681043578e-07,
      "loss": 1.0356,
      "step": 380
    },
    {
      "epoch": 0.02554218482888077,
      "grad_norm": 0.3541271686553955,
      "learning_rate": 5.844801966434832e-07,
      "loss": 1.1073,
      "step": 381
    },
    {
      "epoch": 0.025609224684074682,
      "grad_norm": 0.36653196811676025,
      "learning_rate": 5.246800274474439e-07,
      "loss": 1.0629,
      "step": 382
    },
    {
      "epoch": 0.025676264539268596,
      "grad_norm": 0.39403557777404785,
      "learning_rate": 4.680902408635335e-07,
      "loss": 1.1672,
      "step": 383
    },
    {
      "epoch": 0.02574330439446251,
      "grad_norm": 0.3814004957675934,
      "learning_rate": 4.1471450892189846e-07,
      "loss": 1.1773,
      "step": 384
    },
    {
      "epoch": 0.02581034424965642,
      "grad_norm": 0.36794358491897583,
      "learning_rate": 3.6455629509730136e-07,
      "loss": 1.0303,
      "step": 385
    },
    {
      "epoch": 0.025877384104850333,
      "grad_norm": 0.39013010263442993,
      "learning_rate": 3.1761885408435054e-07,
      "loss": 1.0535,
      "step": 386
    },
    {
      "epoch": 0.025944423960044247,
      "grad_norm": 0.3895156681537628,
      "learning_rate": 2.7390523158633554e-07,
      "loss": 1.1058,
      "step": 387
    },
    {
      "epoch": 0.02601146381523816,
      "grad_norm": 0.4038650393486023,
      "learning_rate": 2.334182641175686e-07,
      "loss": 1.09,
      "step": 388
    },
    {
      "epoch": 0.02607850367043207,
      "grad_norm": 0.4419088363647461,
      "learning_rate": 1.9616057881935436e-07,
      "loss": 1.0795,
      "step": 389
    },
    {
      "epoch": 0.026145543525625984,
      "grad_norm": 0.4492166340351105,
      "learning_rate": 1.6213459328950352e-07,
      "loss": 1.0993,
      "step": 390
    },
    {
      "epoch": 0.026212583380819898,
      "grad_norm": 0.44956785440444946,
      "learning_rate": 1.3134251542544774e-07,
      "loss": 0.9423,
      "step": 391
    },
    {
      "epoch": 0.02627962323601381,
      "grad_norm": 0.47182002663612366,
      "learning_rate": 1.0378634328099269e-07,
      "loss": 1.0153,
      "step": 392
    },
    {
      "epoch": 0.02634666309120772,
      "grad_norm": 0.4756089746952057,
      "learning_rate": 7.946786493666647e-08,
      "loss": 1.0133,
      "step": 393
    },
    {
      "epoch": 0.026413702946401635,
      "grad_norm": 0.4827803671360016,
      "learning_rate": 5.838865838366792e-08,
      "loss": 0.9773,
      "step": 394
    },
    {
      "epoch": 0.02648074280159555,
      "grad_norm": 0.5431700944900513,
      "learning_rate": 4.055009142152067e-08,
      "loss": 0.9337,
      "step": 395
    },
    {
      "epoch": 0.026547782656789462,
      "grad_norm": 0.5491564273834229,
      "learning_rate": 2.595332156925534e-08,
      "loss": 1.0198,
      "step": 396
    },
    {
      "epoch": 0.026614822511983376,
      "grad_norm": 0.618582010269165,
      "learning_rate": 1.4599295990352924e-08,
      "loss": 1.0385,
      "step": 397
    },
    {
      "epoch": 0.026681862367177286,
      "grad_norm": 0.6139496564865112,
      "learning_rate": 6.488751431266149e-09,
      "loss": 1.0359,
      "step": 398
    },
    {
      "epoch": 0.0267489022223712,
      "grad_norm": 0.8561084270477295,
      "learning_rate": 1.622214173602199e-09,
      "loss": 1.2018,
      "step": 399
    },
    {
      "epoch": 0.026815942077565113,
      "grad_norm": 0.8448209762573242,
      "learning_rate": 0.0,
      "loss": 1.2637,
      "step": 400
    },
    {
      "epoch": 0.026815942077565113,
      "eval_loss": 1.0815964937210083,
      "eval_runtime": 1034.6144,
      "eval_samples_per_second": 24.282,
      "eval_steps_per_second": 6.071,
      "step": 400
    }
  ],
  "logging_steps": 1,
  "max_steps": 400,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.323616041959424e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}