{
  "best_metric": 0.6033799052238464,
  "best_model_checkpoint": "miner_id_24/checkpoint-50",
  "epoch": 3.0038910505836576,
  "eval_steps": 50,
  "global_step": 193,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01556420233463035,
      "grad_norm": 9.139370918273926,
      "learning_rate": 1e-05,
      "loss": 0.8535,
      "step": 1
    },
    {
      "epoch": 0.01556420233463035,
      "eval_loss": 0.888887882232666,
      "eval_runtime": 4.8903,
      "eval_samples_per_second": 22.085,
      "eval_steps_per_second": 5.521,
      "step": 1
    },
    {
      "epoch": 0.0311284046692607,
      "grad_norm": 9.370291709899902,
      "learning_rate": 2e-05,
      "loss": 0.9253,
      "step": 2
    },
    {
      "epoch": 0.04669260700389105,
      "grad_norm": 7.656525611877441,
      "learning_rate": 3e-05,
      "loss": 0.9002,
      "step": 3
    },
    {
      "epoch": 0.0622568093385214,
      "grad_norm": 3.6497480869293213,
      "learning_rate": 4e-05,
      "loss": 0.8366,
      "step": 4
    },
    {
      "epoch": 0.07782101167315175,
      "grad_norm": 0.8219636082649231,
      "learning_rate": 5e-05,
      "loss": 0.7402,
      "step": 5
    },
    {
      "epoch": 0.0933852140077821,
      "grad_norm": 0.8171916604042053,
      "learning_rate": 6e-05,
      "loss": 0.7317,
      "step": 6
    },
    {
      "epoch": 0.10894941634241245,
      "grad_norm": 0.7215791940689087,
      "learning_rate": 7e-05,
      "loss": 0.7295,
      "step": 7
    },
    {
      "epoch": 0.1245136186770428,
      "grad_norm": 0.6683509945869446,
      "learning_rate": 8e-05,
      "loss": 0.6973,
      "step": 8
    },
    {
      "epoch": 0.14007782101167315,
      "grad_norm": 0.6624220609664917,
      "learning_rate": 9e-05,
      "loss": 0.7134,
      "step": 9
    },
    {
      "epoch": 0.1556420233463035,
      "grad_norm": 0.7774540781974792,
      "learning_rate": 0.0001,
      "loss": 0.6417,
      "step": 10
    },
    {
      "epoch": 0.17120622568093385,
      "grad_norm": 0.6136654019355774,
      "learning_rate": 9.999263238525136e-05,
      "loss": 0.6314,
      "step": 11
    },
    {
      "epoch": 0.1867704280155642,
      "grad_norm": 0.5942745208740234,
      "learning_rate": 9.997053171227526e-05,
      "loss": 0.6433,
      "step": 12
    },
    {
      "epoch": 0.20233463035019456,
      "grad_norm": 0.7222641706466675,
      "learning_rate": 9.993370449424153e-05,
      "loss": 0.6777,
      "step": 13
    },
    {
      "epoch": 0.2178988326848249,
      "grad_norm": 0.6611757278442383,
      "learning_rate": 9.988216158430033e-05,
      "loss": 0.6507,
      "step": 14
    },
    {
      "epoch": 0.23346303501945526,
      "grad_norm": 0.5460258722305298,
      "learning_rate": 9.981591817238378e-05,
      "loss": 0.625,
      "step": 15
    },
    {
      "epoch": 0.2490272373540856,
      "grad_norm": 0.5874778628349304,
      "learning_rate": 9.973499378072945e-05,
      "loss": 0.6796,
      "step": 16
    },
    {
      "epoch": 0.26459143968871596,
      "grad_norm": 0.42067644000053406,
      "learning_rate": 9.963941225812701e-05,
      "loss": 0.6118,
      "step": 17
    },
    {
      "epoch": 0.2801556420233463,
      "grad_norm": 0.4198527932167053,
      "learning_rate": 9.952920177288986e-05,
      "loss": 0.6576,
      "step": 18
    },
    {
      "epoch": 0.29571984435797666,
      "grad_norm": 0.45528435707092285,
      "learning_rate": 9.940439480455386e-05,
      "loss": 0.6441,
      "step": 19
    },
    {
      "epoch": 0.311284046692607,
      "grad_norm": 0.4378451406955719,
      "learning_rate": 9.926502813430545e-05,
      "loss": 0.5701,
      "step": 20
    },
    {
      "epoch": 0.32684824902723736,
      "grad_norm": 0.4284273386001587,
      "learning_rate": 9.911114283414205e-05,
      "loss": 0.5692,
      "step": 21
    },
    {
      "epoch": 0.3424124513618677,
      "grad_norm": 0.4425485134124756,
      "learning_rate": 9.89427842547679e-05,
      "loss": 0.6107,
      "step": 22
    },
    {
      "epoch": 0.35797665369649806,
      "grad_norm": 0.4803674519062042,
      "learning_rate": 9.876000201222912e-05,
      "loss": 0.6374,
      "step": 23
    },
    {
      "epoch": 0.3735408560311284,
      "grad_norm": 0.45156747102737427,
      "learning_rate": 9.856284997329158e-05,
      "loss": 0.6015,
      "step": 24
    },
    {
      "epoch": 0.38910505836575876,
      "grad_norm": 0.47944512963294983,
      "learning_rate": 9.835138623956603e-05,
      "loss": 0.6153,
      "step": 25
    },
    {
      "epoch": 0.4046692607003891,
      "grad_norm": 0.5218237638473511,
      "learning_rate": 9.812567313038542e-05,
      "loss": 0.6695,
      "step": 26
    },
    {
      "epoch": 0.42023346303501946,
      "grad_norm": 0.4772241711616516,
      "learning_rate": 9.788577716443902e-05,
      "loss": 0.6116,
      "step": 27
    },
    {
      "epoch": 0.4357976653696498,
      "grad_norm": 0.48415690660476685,
      "learning_rate": 9.763176904016913e-05,
      "loss": 0.6178,
      "step": 28
    },
    {
      "epoch": 0.45136186770428016,
      "grad_norm": 0.5117486119270325,
      "learning_rate": 9.736372361493584e-05,
      "loss": 0.6859,
      "step": 29
    },
    {
      "epoch": 0.4669260700389105,
      "grad_norm": 0.4883125126361847,
      "learning_rate": 9.708171988295631e-05,
      "loss": 0.6596,
      "step": 30
    },
    {
      "epoch": 0.48249027237354086,
      "grad_norm": 0.494489848613739,
      "learning_rate": 9.678584095202468e-05,
      "loss": 0.6489,
      "step": 31
    },
    {
      "epoch": 0.4980544747081712,
      "grad_norm": 0.5451928973197937,
      "learning_rate": 9.647617401902002e-05,
      "loss": 0.6672,
      "step": 32
    },
    {
      "epoch": 0.5136186770428015,
      "grad_norm": 0.36875829100608826,
      "learning_rate": 9.61528103442088e-05,
      "loss": 0.5941,
      "step": 33
    },
    {
      "epoch": 0.5291828793774319,
      "grad_norm": 0.39669832587242126,
      "learning_rate": 9.581584522435024e-05,
      "loss": 0.6472,
      "step": 34
    },
    {
      "epoch": 0.5447470817120622,
      "grad_norm": 0.37171563506126404,
      "learning_rate": 9.546537796461179e-05,
      "loss": 0.5654,
      "step": 35
    },
    {
      "epoch": 0.5603112840466926,
      "grad_norm": 0.3935498893260956,
      "learning_rate": 9.510151184930354e-05,
      "loss": 0.6021,
      "step": 36
    },
    {
      "epoch": 0.5758754863813229,
      "grad_norm": 0.43762218952178955,
      "learning_rate": 9.472435411143978e-05,
      "loss": 0.6841,
      "step": 37
    },
    {
      "epoch": 0.5914396887159533,
      "grad_norm": 0.42783230543136597,
      "learning_rate": 9.433401590113701e-05,
      "loss": 0.6359,
      "step": 38
    },
    {
      "epoch": 0.6070038910505836,
      "grad_norm": 0.4376448094844818,
      "learning_rate": 9.393061225285743e-05,
      "loss": 0.656,
      "step": 39
    },
    {
      "epoch": 0.622568093385214,
      "grad_norm": 0.40691596269607544,
      "learning_rate": 9.351426205150777e-05,
      "loss": 0.6235,
      "step": 40
    },
    {
      "epoch": 0.6381322957198443,
      "grad_norm": 0.45587652921676636,
      "learning_rate": 9.308508799740341e-05,
      "loss": 0.6901,
      "step": 41
    },
    {
      "epoch": 0.6536964980544747,
      "grad_norm": 0.4364193379878998,
      "learning_rate": 9.2643216570108e-05,
      "loss": 0.6447,
      "step": 42
    },
    {
      "epoch": 0.669260700389105,
      "grad_norm": 0.4265640079975128,
      "learning_rate": 9.218877799115928e-05,
      "loss": 0.6589,
      "step": 43
    },
    {
      "epoch": 0.6848249027237354,
      "grad_norm": 0.4682093560695648,
      "learning_rate": 9.172190618569236e-05,
      "loss": 0.6511,
      "step": 44
    },
    {
      "epoch": 0.7003891050583657,
      "grad_norm": 0.43623587489128113,
      "learning_rate": 9.124273874297122e-05,
      "loss": 0.5936,
      "step": 45
    },
    {
      "epoch": 0.7159533073929961,
      "grad_norm": 0.48344677686691284,
      "learning_rate": 9.075141687584057e-05,
      "loss": 0.6775,
      "step": 46
    },
    {
      "epoch": 0.7315175097276264,
      "grad_norm": 0.4627096652984619,
      "learning_rate": 9.024808537910981e-05,
      "loss": 0.5983,
      "step": 47
    },
    {
      "epoch": 0.7470817120622568,
      "grad_norm": 0.49207404255867004,
      "learning_rate": 8.973289258688125e-05,
      "loss": 0.6198,
      "step": 48
    },
    {
      "epoch": 0.7626459143968871,
      "grad_norm": 0.3565536439418793,
      "learning_rate": 8.920599032883554e-05,
      "loss": 0.6415,
      "step": 49
    },
    {
      "epoch": 0.7782101167315175,
      "grad_norm": 0.37106260657310486,
      "learning_rate": 8.86675338854865e-05,
      "loss": 0.6197,
      "step": 50
    },
    {
      "epoch": 0.7782101167315175,
      "eval_loss": 0.6033799052238464,
      "eval_runtime": 5.08,
      "eval_samples_per_second": 21.26,
      "eval_steps_per_second": 5.315,
      "step": 50
    },
    {
      "epoch": 0.7937743190661478,
      "grad_norm": 0.3812158405780792,
      "learning_rate": 8.811768194241952e-05,
      "loss": 0.6466,
      "step": 51
    },
    {
      "epoch": 0.8093385214007782,
      "grad_norm": 0.4114275574684143,
      "learning_rate": 8.755659654352599e-05,
      "loss": 0.6215,
      "step": 52
    },
    {
      "epoch": 0.8249027237354085,
      "grad_norm": 0.3699423372745514,
      "learning_rate": 8.698444304324835e-05,
      "loss": 0.5792,
      "step": 53
    },
    {
      "epoch": 0.8404669260700389,
      "grad_norm": 0.4080813229084015,
      "learning_rate": 8.640139005784924e-05,
      "loss": 0.6741,
      "step": 54
    },
    {
      "epoch": 0.8560311284046692,
      "grad_norm": 0.4070660471916199,
      "learning_rate": 8.580760941571967e-05,
      "loss": 0.6164,
      "step": 55
    },
    {
      "epoch": 0.8715953307392996,
      "grad_norm": 0.39940083026885986,
      "learning_rate": 8.520327610674029e-05,
      "loss": 0.6116,
      "step": 56
    },
    {
      "epoch": 0.8871595330739299,
      "grad_norm": 0.4094582498073578,
      "learning_rate": 8.458856823071111e-05,
      "loss": 0.6202,
      "step": 57
    },
    {
      "epoch": 0.9027237354085603,
      "grad_norm": 0.44532322883605957,
      "learning_rate": 8.396366694486466e-05,
      "loss": 0.6058,
      "step": 58
    },
    {
      "epoch": 0.9182879377431906,
      "grad_norm": 0.4130520224571228,
      "learning_rate": 8.332875641047817e-05,
      "loss": 0.5598,
      "step": 59
    },
    {
      "epoch": 0.933852140077821,
      "grad_norm": 0.43592092394828796,
      "learning_rate": 8.26840237386003e-05,
      "loss": 0.6172,
      "step": 60
    },
    {
      "epoch": 0.9494163424124513,
      "grad_norm": 0.45786091685295105,
      "learning_rate": 8.202965893490878e-05,
      "loss": 0.6267,
      "step": 61
    },
    {
      "epoch": 0.9649805447470817,
      "grad_norm": 0.45855090022087097,
      "learning_rate": 8.13658548437147e-05,
      "loss": 0.6167,
      "step": 62
    },
    {
      "epoch": 0.980544747081712,
      "grad_norm": 0.45451149344444275,
      "learning_rate": 8.06928070911306e-05,
      "loss": 0.586,
      "step": 63
    },
    {
      "epoch": 0.9961089494163424,
      "grad_norm": 0.4951208829879761,
      "learning_rate": 8.001071402741842e-05,
      "loss": 0.6162,
      "step": 64
    },
    {
      "epoch": 1.0116731517509727,
      "grad_norm": 1.3052978515625,
      "learning_rate": 7.931977666853479e-05,
      "loss": 0.977,
      "step": 65
    },
    {
      "epoch": 1.027237354085603,
      "grad_norm": 0.31471648812294006,
      "learning_rate": 7.862019863689074e-05,
      "loss": 0.5217,
      "step": 66
    },
    {
      "epoch": 1.0428015564202335,
      "grad_norm": 0.3428443670272827,
      "learning_rate": 7.791218610134323e-05,
      "loss": 0.5546,
      "step": 67
    },
    {
      "epoch": 1.0583657587548638,
      "grad_norm": 0.3472018241882324,
      "learning_rate": 7.719594771643623e-05,
      "loss": 0.557,
      "step": 68
    },
    {
      "epoch": 1.0739299610894941,
      "grad_norm": 0.3405228555202484,
      "learning_rate": 7.647169456090925e-05,
      "loss": 0.4772,
      "step": 69
    },
    {
      "epoch": 1.0894941634241244,
      "grad_norm": 0.3810925781726837,
      "learning_rate": 7.573964007549155e-05,
      "loss": 0.5466,
      "step": 70
    },
    {
      "epoch": 1.105058365758755,
      "grad_norm": 0.39607566595077515,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.567,
      "step": 71
    },
    {
      "epoch": 1.1206225680933852,
      "grad_norm": 0.4235258996486664,
      "learning_rate": 7.425299230975981e-05,
      "loss": 0.5129,
      "step": 72
    },
    {
      "epoch": 1.1361867704280155,
      "grad_norm": 0.3898310363292694,
      "learning_rate": 7.3498837151366e-05,
      "loss": 0.4953,
      "step": 73
    },
    {
      "epoch": 1.1517509727626458,
      "grad_norm": 0.41223570704460144,
      "learning_rate": 7.27377567778053e-05,
      "loss": 0.4791,
      "step": 74
    },
    {
      "epoch": 1.1673151750972763,
      "grad_norm": 0.4607708752155304,
      "learning_rate": 7.196997548295708e-05,
      "loss": 0.4764,
      "step": 75
    },
    {
      "epoch": 1.1828793774319066,
      "grad_norm": 0.4683857560157776,
      "learning_rate": 7.119571953549305e-05,
      "loss": 0.5166,
      "step": 76
    },
    {
      "epoch": 1.198443579766537,
      "grad_norm": 0.4720762372016907,
      "learning_rate": 7.041521711219467e-05,
      "loss": 0.4339,
      "step": 77
    },
    {
      "epoch": 1.2140077821011672,
      "grad_norm": 0.5391163229942322,
      "learning_rate": 6.96286982307086e-05,
      "loss": 0.5268,
      "step": 78
    },
    {
      "epoch": 1.2295719844357977,
      "grad_norm": 0.5148741006851196,
      "learning_rate": 6.883639468175927e-05,
      "loss": 0.4843,
      "step": 79
    },
    {
      "epoch": 1.245136186770428,
      "grad_norm": 0.5421654582023621,
      "learning_rate": 6.803853996083917e-05,
      "loss": 0.4747,
      "step": 80
    },
    {
      "epoch": 1.2607003891050583,
      "grad_norm": 0.4770565629005432,
      "learning_rate": 6.72353691993967e-05,
      "loss": 0.5394,
      "step": 81
    },
    {
      "epoch": 1.2762645914396886,
      "grad_norm": 0.4898952841758728,
      "learning_rate": 6.642711909554174e-05,
      "loss": 0.5543,
      "step": 82
    },
    {
      "epoch": 1.2918287937743191,
      "grad_norm": 0.46590644121170044,
      "learning_rate": 6.561402784428974e-05,
      "loss": 0.5298,
      "step": 83
    },
    {
      "epoch": 1.3073929961089494,
      "grad_norm": 0.43415403366088867,
      "learning_rate": 6.479633506736446e-05,
      "loss": 0.4994,
      "step": 84
    },
    {
      "epoch": 1.3229571984435797,
      "grad_norm": 0.4430665671825409,
      "learning_rate": 6.397428174258047e-05,
      "loss": 0.4923,
      "step": 85
    },
    {
      "epoch": 1.3385214007782102,
      "grad_norm": 0.45373472571372986,
      "learning_rate": 6.314811013282574e-05,
      "loss": 0.5119,
      "step": 86
    },
    {
      "epoch": 1.3540856031128405,
      "grad_norm": 0.4353843331336975,
      "learning_rate": 6.231806371466574e-05,
      "loss": 0.5288,
      "step": 87
    },
    {
      "epoch": 1.3696498054474708,
      "grad_norm": 0.44069042801856995,
      "learning_rate": 6.14843871065898e-05,
      "loss": 0.5187,
      "step": 88
    },
    {
      "epoch": 1.3852140077821011,
      "grad_norm": 0.44631922245025635,
      "learning_rate": 6.064732599692079e-05,
      "loss": 0.4965,
      "step": 89
    },
    {
      "epoch": 1.4007782101167314,
      "grad_norm": 0.4521099925041199,
      "learning_rate": 5.980712707140985e-05,
      "loss": 0.5172,
      "step": 90
    },
    {
      "epoch": 1.416342412451362,
      "grad_norm": 0.45823049545288086,
      "learning_rate": 5.896403794053679e-05,
      "loss": 0.4712,
      "step": 91
    },
    {
      "epoch": 1.4319066147859922,
      "grad_norm": 0.48847663402557373,
      "learning_rate": 5.8118307066538193e-05,
      "loss": 0.5357,
      "step": 92
    },
    {
      "epoch": 1.4474708171206225,
      "grad_norm": 0.500977098941803,
      "learning_rate": 5.7270183690184495e-05,
      "loss": 0.4975,
      "step": 93
    },
    {
      "epoch": 1.463035019455253,
      "grad_norm": 0.5139448642730713,
      "learning_rate": 5.6419917757327555e-05,
      "loss": 0.4624,
      "step": 94
    },
    {
      "epoch": 1.4785992217898833,
      "grad_norm": 0.5556291341781616,
      "learning_rate": 5.5567759845240444e-05,
      "loss": 0.4814,
      "step": 95
    },
    {
      "epoch": 1.4941634241245136,
      "grad_norm": 0.6026065945625305,
      "learning_rate": 5.4713961088771226e-05,
      "loss": 0.503,
      "step": 96
    },
    {
      "epoch": 1.509727626459144,
      "grad_norm": 0.45880773663520813,
      "learning_rate": 5.385877310633233e-05,
      "loss": 0.4885,
      "step": 97
    },
    {
      "epoch": 1.5252918287937742,
      "grad_norm": 0.5178925395011902,
      "learning_rate": 5.300244792574742e-05,
      "loss": 0.4989,
      "step": 98
    },
    {
      "epoch": 1.5408560311284045,
      "grad_norm": 0.5379337072372437,
      "learning_rate": 5.214523790997773e-05,
      "loss": 0.5735,
      "step": 99
    },
    {
      "epoch": 1.556420233463035,
      "grad_norm": 0.48928964138031006,
      "learning_rate": 5.128739568274944e-05,
      "loss": 0.4855,
      "step": 100
    },
    {
      "epoch": 1.556420233463035,
      "eval_loss": 0.6085060238838196,
      "eval_runtime": 4.9531,
      "eval_samples_per_second": 21.804,
      "eval_steps_per_second": 5.451,
      "step": 100
    },
    {
      "epoch": 1.5719844357976653,
      "grad_norm": 0.49557802081108093,
      "learning_rate": 5.0429174054104355e-05,
      "loss": 0.5194,
      "step": 101
    },
    {
      "epoch": 1.5875486381322959,
      "grad_norm": 0.48560023307800293,
      "learning_rate": 4.9570825945895656e-05,
      "loss": 0.5129,
      "step": 102
    },
    {
      "epoch": 1.6031128404669261,
      "grad_norm": 0.45526641607284546,
      "learning_rate": 4.8712604317250576e-05,
      "loss": 0.472,
      "step": 103
    },
    {
      "epoch": 1.6186770428015564,
      "grad_norm": 0.4699691832065582,
      "learning_rate": 4.785476209002227e-05,
      "loss": 0.5073,
      "step": 104
    },
    {
      "epoch": 1.6342412451361867,
      "grad_norm": 0.4863898754119873,
      "learning_rate": 4.699755207425259e-05,
      "loss": 0.5239,
      "step": 105
    },
    {
      "epoch": 1.649805447470817,
      "grad_norm": 0.4627050459384918,
      "learning_rate": 4.6141226893667684e-05,
      "loss": 0.4663,
      "step": 106
    },
    {
      "epoch": 1.6653696498054473,
      "grad_norm": 0.49065157771110535,
      "learning_rate": 4.5286038911228785e-05,
      "loss": 0.4516,
      "step": 107
    },
    {
      "epoch": 1.6809338521400778,
      "grad_norm": 0.5192395448684692,
      "learning_rate": 4.443224015475956e-05,
      "loss": 0.5109,
      "step": 108
    },
    {
      "epoch": 1.6964980544747081,
      "grad_norm": 0.5339919328689575,
      "learning_rate": 4.358008224267245e-05,
      "loss": 0.4682,
      "step": 109
    },
    {
      "epoch": 1.7120622568093387,
      "grad_norm": 0.5536836385726929,
      "learning_rate": 4.272981630981551e-05,
      "loss": 0.5302,
      "step": 110
    },
    {
      "epoch": 1.727626459143969,
      "grad_norm": 0.5098603963851929,
      "learning_rate": 4.188169293346183e-05,
      "loss": 0.4238,
      "step": 111
    },
    {
      "epoch": 1.7431906614785992,
      "grad_norm": 0.560634434223175,
      "learning_rate": 4.103596205946323e-05,
      "loss": 0.4469,
      "step": 112
    },
    {
      "epoch": 1.7587548638132295,
      "grad_norm": 0.4537215232849121,
      "learning_rate": 4.019287292859016e-05,
      "loss": 0.4929,
      "step": 113
    },
    {
      "epoch": 1.7743190661478598,
      "grad_norm": 0.4889776110649109,
      "learning_rate": 3.9352674003079225e-05,
      "loss": 0.5542,
      "step": 114
    },
    {
      "epoch": 1.7898832684824901,
      "grad_norm": 0.53053879737854,
      "learning_rate": 3.851561289341023e-05,
      "loss": 0.5488,
      "step": 115
    },
    {
      "epoch": 1.8054474708171206,
      "grad_norm": 0.5055235624313354,
      "learning_rate": 3.768193628533427e-05,
      "loss": 0.526,
      "step": 116
    },
    {
      "epoch": 1.821011673151751,
      "grad_norm": 0.45300647616386414,
      "learning_rate": 3.6851889867174275e-05,
      "loss": 0.4574,
      "step": 117
    },
    {
      "epoch": 1.8365758754863815,
      "grad_norm": 0.5130643844604492,
      "learning_rate": 3.602571825741953e-05,
      "loss": 0.5181,
      "step": 118
    },
    {
      "epoch": 1.8521400778210118,
      "grad_norm": 0.5187721252441406,
      "learning_rate": 3.520366493263554e-05,
      "loss": 0.473,
      "step": 119
    },
    {
      "epoch": 1.867704280155642,
      "grad_norm": 0.49692848324775696,
      "learning_rate": 3.438597215571027e-05,
      "loss": 0.4956,
      "step": 120
    },
    {
      "epoch": 1.8832684824902723,
      "grad_norm": 0.5215801000595093,
      "learning_rate": 3.357288090445827e-05,
      "loss": 0.5184,
      "step": 121
    },
    {
      "epoch": 1.8988326848249026,
      "grad_norm": 0.5107447504997253,
      "learning_rate": 3.2764630800603314e-05,
      "loss": 0.4692,
      "step": 122
    },
    {
      "epoch": 1.914396887159533,
      "grad_norm": 0.5192711353302002,
      "learning_rate": 3.196146003916084e-05,
      "loss": 0.4586,
      "step": 123
    },
    {
      "epoch": 1.9299610894941635,
      "grad_norm": 0.5539785623550415,
      "learning_rate": 3.116360531824074e-05,
      "loss": 0.4804,
      "step": 124
    },
    {
      "epoch": 1.9455252918287937,
      "grad_norm": 0.5400014519691467,
      "learning_rate": 3.0371301769291417e-05,
      "loss": 0.4848,
      "step": 125
    },
    {
      "epoch": 1.9610894941634243,
      "grad_norm": 0.5370835661888123,
      "learning_rate": 2.9584782887805328e-05,
      "loss": 0.4824,
      "step": 126
    },
    {
      "epoch": 1.9766536964980546,
      "grad_norm": 0.5779125690460205,
      "learning_rate": 2.8804280464506973e-05,
      "loss": 0.4315,
      "step": 127
    },
    {
      "epoch": 1.9922178988326849,
      "grad_norm": 0.594628632068634,
      "learning_rate": 2.8030024517042907e-05,
      "loss": 0.4705,
      "step": 128
    },
    {
      "epoch": 2.007782101167315,
      "grad_norm": 1.617785930633545,
      "learning_rate": 2.726224322219473e-05,
      "loss": 0.9359,
      "step": 129
    },
    {
      "epoch": 2.0233463035019454,
      "grad_norm": 0.37424176931381226,
      "learning_rate": 2.650116284863402e-05,
      "loss": 0.4587,
      "step": 130
    },
    {
      "epoch": 2.0389105058365757,
      "grad_norm": 0.4088106155395508,
      "learning_rate": 2.5747007690240198e-05,
      "loss": 0.4606,
      "step": 131
    },
    {
      "epoch": 2.054474708171206,
      "grad_norm": 0.4124987721443176,
      "learning_rate": 2.500000000000001e-05,
      "loss": 0.4203,
      "step": 132
    },
    {
      "epoch": 2.0700389105058368,
      "grad_norm": 0.407279372215271,
      "learning_rate": 2.426035992450848e-05,
      "loss": 0.388,
      "step": 133
    },
    {
      "epoch": 2.085603112840467,
      "grad_norm": 0.464984655380249,
      "learning_rate": 2.3528305439090743e-05,
      "loss": 0.4589,
      "step": 134
    },
    {
      "epoch": 2.1011673151750974,
      "grad_norm": 0.45201680064201355,
      "learning_rate": 2.280405228356377e-05,
      "loss": 0.4183,
      "step": 135
    },
    {
      "epoch": 2.1167315175097277,
      "grad_norm": 0.4500497877597809,
      "learning_rate": 2.2087813898656774e-05,
      "loss": 0.3647,
      "step": 136
    },
    {
      "epoch": 2.132295719844358,
      "grad_norm": 0.4902769923210144,
      "learning_rate": 2.137980136310926e-05,
      "loss": 0.4002,
      "step": 137
    },
    {
      "epoch": 2.1478599221789882,
      "grad_norm": 0.5157907605171204,
      "learning_rate": 2.068022333146522e-05,
      "loss": 0.3989,
      "step": 138
    },
    {
      "epoch": 2.1634241245136185,
      "grad_norm": 0.5093288421630859,
      "learning_rate": 1.9989285972581595e-05,
      "loss": 0.3689,
      "step": 139
    },
    {
      "epoch": 2.178988326848249,
      "grad_norm": 0.5287076830863953,
      "learning_rate": 1.9307192908869397e-05,
      "loss": 0.3811,
      "step": 140
    },
    {
      "epoch": 2.1945525291828796,
      "grad_norm": 0.5350150465965271,
      "learning_rate": 1.863414515628531e-05,
      "loss": 0.3726,
      "step": 141
    },
    {
      "epoch": 2.21011673151751,
      "grad_norm": 0.6100378632545471,
      "learning_rate": 1.7970341065091245e-05,
      "loss": 0.3755,
      "step": 142
    },
    {
      "epoch": 2.22568093385214,
      "grad_norm": 0.6033766269683838,
      "learning_rate": 1.7315976261399696e-05,
      "loss": 0.3902,
      "step": 143
    },
    {
      "epoch": 2.2412451361867705,
      "grad_norm": 0.5928775668144226,
      "learning_rate": 1.667124358952184e-05,
      "loss": 0.329,
      "step": 144
    },
    {
      "epoch": 2.2568093385214008,
      "grad_norm": 0.5755128860473633,
      "learning_rate": 1.6036333055135344e-05,
      "loss": 0.4069,
      "step": 145
    },
    {
      "epoch": 2.272373540856031,
      "grad_norm": 0.5063963532447815,
      "learning_rate": 1.541143176928891e-05,
      "loss": 0.424,
      "step": 146
    },
    {
      "epoch": 2.2879377431906613,
      "grad_norm": 0.5730318427085876,
      "learning_rate": 1.4796723893259712e-05,
      "loss": 0.4681,
      "step": 147
    },
    {
      "epoch": 2.3035019455252916,
      "grad_norm": 0.5809611678123474,
      "learning_rate": 1.4192390584280346e-05,
      "loss": 0.3956,
      "step": 148
    },
    {
      "epoch": 2.319066147859922,
      "grad_norm": 0.6416669487953186,
      "learning_rate": 1.3598609942150765e-05,
      "loss": 0.4556,
      "step": 149
    },
    {
      "epoch": 2.3346303501945527,
      "grad_norm": 0.5514096021652222,
      "learning_rate": 1.3015556956751669e-05,
      "loss": 0.3517,
      "step": 150
    },
    {
      "epoch": 2.3346303501945527,
      "eval_loss": 0.650618851184845,
      "eval_runtime": 5.0801,
      "eval_samples_per_second": 21.259,
      "eval_steps_per_second": 5.315,
      "step": 150
    },
    {
      "epoch": 2.350194552529183,
      "grad_norm": 0.5971015095710754,
      "learning_rate": 1.2443403456474017e-05,
      "loss": 0.4145,
      "step": 151
    },
    {
      "epoch": 2.3657587548638133,
      "grad_norm": 0.6617476344108582,
      "learning_rate": 1.1882318057580489e-05,
      "loss": 0.4222,
      "step": 152
    },
    {
      "epoch": 2.3813229571984436,
      "grad_norm": 0.6034457683563232,
      "learning_rate": 1.1332466114513512e-05,
      "loss": 0.3922,
      "step": 153
    },
    {
      "epoch": 2.396887159533074,
      "grad_norm": 0.6285126209259033,
      "learning_rate": 1.0794009671164484e-05,
      "loss": 0.4025,
      "step": 154
    },
    {
      "epoch": 2.412451361867704,
      "grad_norm": 0.6398982405662537,
      "learning_rate": 1.0267107413118742e-05,
      "loss": 0.4203,
      "step": 155
    },
    {
      "epoch": 2.4280155642023344,
      "grad_norm": 0.5994781255722046,
      "learning_rate": 9.751914620890206e-06,
      "loss": 0.3805,
      "step": 156
    },
    {
      "epoch": 2.443579766536965,
      "grad_norm": 0.658250629901886,
      "learning_rate": 9.248583124159438e-06,
      "loss": 0.4153,
      "step": 157
    },
    {
      "epoch": 2.4591439688715955,
      "grad_norm": 0.6492132544517517,
      "learning_rate": 8.757261257028777e-06,
      "loss": 0.4068,
      "step": 158
    },
    {
      "epoch": 2.4747081712062258,
      "grad_norm": 0.6202558279037476,
      "learning_rate": 8.278093814307637e-06,
      "loss": 0.3412,
      "step": 159
    },
    {
      "epoch": 2.490272373540856,
      "grad_norm": 0.6671481132507324,
      "learning_rate": 7.81122200884072e-06,
      "loss": 0.3493,
      "step": 160
    },
    {
      "epoch": 2.5058365758754864,
      "grad_norm": 0.5600574612617493,
      "learning_rate": 7.356783429892023e-06,
      "loss": 0.396,
      "step": 161
    },
    {
      "epoch": 2.5214007782101167,
      "grad_norm": 0.5027782320976257,
      "learning_rate": 6.9149120025965905e-06,
      "loss": 0.4683,
      "step": 162
    },
    {
      "epoch": 2.536964980544747,
      "grad_norm": 0.543294370174408,
      "learning_rate": 6.4857379484922375e-06,
      "loss": 0.463,
      "step": 163
    },
    {
      "epoch": 2.5525291828793772,
      "grad_norm": 0.5425387620925903,
      "learning_rate": 6.069387747142591e-06,
      "loss": 0.4566,
      "step": 164
    },
    {
      "epoch": 2.5680933852140075,
      "grad_norm": 0.6051033735275269,
      "learning_rate": 5.665984098862992e-06,
      "loss": 0.4474,
      "step": 165
    },
    {
      "epoch": 2.5836575875486383,
      "grad_norm": 0.5487070679664612,
      "learning_rate": 5.275645888560232e-06,
      "loss": 0.3862,
      "step": 166
    },
    {
      "epoch": 2.5992217898832686,
      "grad_norm": 0.5761958360671997,
      "learning_rate": 4.898488150696467e-06,
      "loss": 0.4531,
      "step": 167
    },
    {
      "epoch": 2.614785992217899,
      "grad_norm": 0.5820438265800476,
      "learning_rate": 4.534622035388214e-06,
      "loss": 0.3959,
      "step": 168
    },
    {
      "epoch": 2.630350194552529,
      "grad_norm": 0.5620247721672058,
      "learning_rate": 4.184154775649768e-06,
      "loss": 0.4076,
      "step": 169
    },
    {
      "epoch": 2.6459143968871595,
      "grad_norm": 0.6107037663459778,
      "learning_rate": 3.8471896557912e-06,
      "loss": 0.3957,
      "step": 170
    },
    {
      "epoch": 2.6614785992217898,
      "grad_norm": 0.6241505146026611,
      "learning_rate": 3.523825980979989e-06,
      "loss": 0.3837,
      "step": 171
    },
    {
      "epoch": 2.6770428015564205,
      "grad_norm": 0.6066166758537292,
      "learning_rate": 3.2141590479753236e-06,
      "loss": 0.3569,
      "step": 172
    },
    {
      "epoch": 2.692607003891051,
      "grad_norm": 0.6315886974334717,
      "learning_rate": 2.918280117043709e-06,
      "loss": 0.3519,
      "step": 173
    },
    {
      "epoch": 2.708171206225681,
      "grad_norm": 0.6186676025390625,
      "learning_rate": 2.636276385064157e-06,
      "loss": 0.3608,
      "step": 174
    },
    {
      "epoch": 2.7237354085603114,
      "grad_norm": 0.7272726893424988,
      "learning_rate": 2.3682309598308747e-06,
      "loss": 0.3455,
      "step": 175
    },
    {
      "epoch": 2.7392996108949417,
      "grad_norm": 0.6932600736618042,
      "learning_rate": 2.114222835560986e-06,
      "loss": 0.3602,
      "step": 176
    },
    {
      "epoch": 2.754863813229572,
      "grad_norm": 0.6167146563529968,
      "learning_rate": 1.8743268696145954e-06,
      "loss": 0.4552,
      "step": 177
    },
    {
      "epoch": 2.7704280155642023,
      "grad_norm": 0.513088583946228,
      "learning_rate": 1.6486137604339813e-06,
      "loss": 0.4297,
      "step": 178
    },
    {
      "epoch": 2.7859922178988326,
      "grad_norm": 0.5175504088401794,
      "learning_rate": 1.4371500267084338e-06,
      "loss": 0.4189,
      "step": 179
    },
    {
      "epoch": 2.801556420233463,
      "grad_norm": 0.5755040645599365,
      "learning_rate": 1.2399979877708745e-06,
      "loss": 0.4935,
      "step": 180
    },
    {
      "epoch": 2.817120622568093,
      "grad_norm": 0.5284141302108765,
      "learning_rate": 1.0572157452321097e-06,
      "loss": 0.3858,
      "step": 181
    },
    {
      "epoch": 2.832684824902724,
      "grad_norm": 0.5612661838531494,
      "learning_rate": 8.888571658579703e-07,
      "loss": 0.4114,
      "step": 182
    },
    {
      "epoch": 2.848249027237354,
      "grad_norm": 0.5765272378921509,
      "learning_rate": 7.349718656945504e-07,
      "loss": 0.4338,
      "step": 183
    },
    {
      "epoch": 2.8638132295719845,
      "grad_norm": 0.566171407699585,
      "learning_rate": 5.956051954461472e-07,
      "loss": 0.394,
      "step": 184
    },
    {
      "epoch": 2.8793774319066148,
      "grad_norm": 0.5965092778205872,
      "learning_rate": 4.7079822711015296e-07,
      "loss": 0.4001,
      "step": 185
    },
    {
      "epoch": 2.894941634241245,
      "grad_norm": 0.6088770031929016,
      "learning_rate": 3.605877418729975e-07,
      "loss": 0.4253,
      "step": 186
    },
    {
      "epoch": 2.9105058365758754,
      "grad_norm": 0.6242673993110657,
      "learning_rate": 2.6500621927054715e-07,
      "loss": 0.3995,
      "step": 187
    },
    {
      "epoch": 2.926070038910506,
      "grad_norm": 0.5981582999229431,
      "learning_rate": 1.840818276162226e-07,
      "loss": 0.3831,
      "step": 188
    },
    {
      "epoch": 2.9416342412451364,
      "grad_norm": 0.7219020128250122,
      "learning_rate": 1.1783841569968367e-07,
      "loss": 0.4012,
      "step": 189
    },
    {
      "epoch": 2.9571984435797667,
      "grad_norm": 0.6175857186317444,
      "learning_rate": 6.629550575847354e-08,
      "loss": 0.3291,
      "step": 190
    },
    {
      "epoch": 2.972762645914397,
      "grad_norm": 0.6946281790733337,
      "learning_rate": 2.946828772473764e-08,
      "loss": 0.3476,
      "step": 191
    },
    {
      "epoch": 2.9883268482490273,
      "grad_norm": 0.6688608527183533,
      "learning_rate": 7.36761474865455e-09,
      "loss": 0.3511,
      "step": 192
    },
    {
      "epoch": 3.0038910505836576,
      "grad_norm": 1.7977206707000732,
      "learning_rate": 0.0,
      "loss": 0.65,
      "step": 193
    }
  ],
  "logging_steps": 1,
  "max_steps": 193,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 2
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9.357291608761958e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}