{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 318,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0031446540880503146,
      "grad_norm": 0.06697794049978256,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 1.3911,
      "step": 1
    },
    {
      "epoch": 0.006289308176100629,
      "grad_norm": 0.06842195242643356,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 1.3973,
      "step": 2
    },
    {
      "epoch": 0.009433962264150943,
      "grad_norm": 0.06460106372833252,
      "learning_rate": 4e-05,
      "loss": 1.4096,
      "step": 3
    },
    {
      "epoch": 0.012578616352201259,
      "grad_norm": 0.0661928579211235,
      "learning_rate": 5.333333333333333e-05,
      "loss": 1.4273,
      "step": 4
    },
    {
      "epoch": 0.015723270440251572,
      "grad_norm": 0.06443281471729279,
      "learning_rate": 6.666666666666667e-05,
      "loss": 1.4056,
      "step": 5
    },
    {
      "epoch": 0.018867924528301886,
      "grad_norm": 0.06869488209486008,
      "learning_rate": 8e-05,
      "loss": 1.3854,
      "step": 6
    },
    {
      "epoch": 0.0220125786163522,
      "grad_norm": 0.06870010495185852,
      "learning_rate": 9.333333333333334e-05,
      "loss": 1.4054,
      "step": 7
    },
    {
      "epoch": 0.025157232704402517,
      "grad_norm": 0.072841115295887,
      "learning_rate": 0.00010666666666666667,
      "loss": 1.3904,
      "step": 8
    },
    {
      "epoch": 0.02830188679245283,
      "grad_norm": 0.06708419322967529,
      "learning_rate": 0.00012,
      "loss": 1.4035,
      "step": 9
    },
    {
      "epoch": 0.031446540880503145,
      "grad_norm": 0.06746525317430496,
      "learning_rate": 0.00013333333333333334,
      "loss": 1.3638,
      "step": 10
    },
    {
      "epoch": 0.03459119496855346,
      "grad_norm": 0.06512407958507538,
      "learning_rate": 0.00014666666666666666,
      "loss": 1.3506,
      "step": 11
    },
    {
      "epoch": 0.03773584905660377,
      "grad_norm": 0.05993957445025444,
      "learning_rate": 0.00016,
      "loss": 1.3772,
      "step": 12
    },
    {
      "epoch": 0.040880503144654086,
      "grad_norm": 0.059435583651065826,
      "learning_rate": 0.00017333333333333334,
      "loss": 1.3517,
      "step": 13
    },
    {
      "epoch": 0.0440251572327044,
      "grad_norm": 0.05579576641321182,
      "learning_rate": 0.0001866666666666667,
      "loss": 1.4105,
      "step": 14
    },
    {
      "epoch": 0.04716981132075472,
      "grad_norm": 0.04974433407187462,
      "learning_rate": 0.0002,
      "loss": 1.3162,
      "step": 15
    },
    {
      "epoch": 0.050314465408805034,
      "grad_norm": 0.04716808721423149,
      "learning_rate": 0.00019999462497359466,
      "loss": 1.3283,
      "step": 16
    },
    {
      "epoch": 0.05345911949685535,
      "grad_norm": 0.04468343406915665,
      "learning_rate": 0.0001999785004721968,
      "loss": 1.359,
      "step": 17
    },
    {
      "epoch": 0.05660377358490566,
      "grad_norm": 0.05088884010910988,
      "learning_rate": 0.00019995162822919883,
      "loss": 1.3484,
      "step": 18
    },
    {
      "epoch": 0.059748427672955975,
      "grad_norm": 0.05735902860760689,
      "learning_rate": 0.00019991401113338104,
      "loss": 1.3326,
      "step": 19
    },
    {
      "epoch": 0.06289308176100629,
      "grad_norm": 0.06404463201761246,
      "learning_rate": 0.00019986565322860115,
      "loss": 1.3403,
      "step": 20
    },
    {
      "epoch": 0.0660377358490566,
      "grad_norm": 0.0681706890463829,
      "learning_rate": 0.00019980655971335945,
      "loss": 1.3228,
      "step": 21
    },
    {
      "epoch": 0.06918238993710692,
      "grad_norm": 0.07040446251630783,
      "learning_rate": 0.00019973673694024,
      "loss": 1.3087,
      "step": 22
    },
    {
      "epoch": 0.07232704402515723,
      "grad_norm": 0.0640912875533104,
      "learning_rate": 0.0001996561924152278,
      "loss": 1.2798,
      "step": 23
    },
    {
      "epoch": 0.07547169811320754,
      "grad_norm": 0.05613941699266434,
      "learning_rate": 0.0001995649347969019,
      "loss": 1.2888,
      "step": 24
    },
    {
      "epoch": 0.07861635220125786,
      "grad_norm": 0.051170893013477325,
      "learning_rate": 0.00019946297389550433,
      "loss": 1.2697,
      "step": 25
    },
    {
      "epoch": 0.08176100628930817,
      "grad_norm": 0.044640567153692245,
      "learning_rate": 0.0001993503206718859,
      "loss": 1.2898,
      "step": 26
    },
    {
      "epoch": 0.08490566037735849,
      "grad_norm": 0.040906600654125214,
      "learning_rate": 0.00019922698723632767,
      "loss": 1.247,
      "step": 27
    },
    {
      "epoch": 0.0880503144654088,
      "grad_norm": 0.03780093416571617,
      "learning_rate": 0.00019909298684723904,
      "loss": 1.2751,
      "step": 28
    },
    {
      "epoch": 0.09119496855345911,
      "grad_norm": 0.03710748627781868,
      "learning_rate": 0.00019894833390973266,
      "loss": 1.287,
      "step": 29
    },
    {
      "epoch": 0.09433962264150944,
      "grad_norm": 0.03594716638326645,
      "learning_rate": 0.0001987930439740757,
      "loss": 1.2385,
      "step": 30
    },
    {
      "epoch": 0.09748427672955975,
      "grad_norm": 0.03679339960217476,
      "learning_rate": 0.0001986271337340182,
      "loss": 1.2415,
      "step": 31
    },
    {
      "epoch": 0.10062893081761007,
      "grad_norm": 0.03725181892514229,
      "learning_rate": 0.0001984506210249986,
      "loss": 1.2268,
      "step": 32
    },
    {
      "epoch": 0.10377358490566038,
      "grad_norm": 0.037984397262334824,
      "learning_rate": 0.00019826352482222638,
      "loss": 1.2402,
      "step": 33
    },
    {
      "epoch": 0.1069182389937107,
      "grad_norm": 0.037509895861148834,
      "learning_rate": 0.0001980658652386421,
      "loss": 1.2221,
      "step": 34
    },
    {
      "epoch": 0.11006289308176101,
      "grad_norm": 0.03687283396720886,
      "learning_rate": 0.00019785766352275542,
      "loss": 1.2386,
      "step": 35
    },
    {
      "epoch": 0.11320754716981132,
      "grad_norm": 0.03444783389568329,
      "learning_rate": 0.00019763894205636072,
      "loss": 1.2427,
      "step": 36
    },
    {
      "epoch": 0.11635220125786164,
      "grad_norm": 0.032733093947172165,
      "learning_rate": 0.00019740972435213115,
      "loss": 1.2309,
      "step": 37
    },
    {
      "epoch": 0.11949685534591195,
      "grad_norm": 0.029699521139264107,
      "learning_rate": 0.00019717003505109095,
      "loss": 1.2479,
      "step": 38
    },
    {
      "epoch": 0.12264150943396226,
      "grad_norm": 0.02603563852608204,
      "learning_rate": 0.00019691989991996663,
      "loss": 1.2196,
      "step": 39
    },
    {
      "epoch": 0.12578616352201258,
      "grad_norm": 0.02650611288845539,
      "learning_rate": 0.00019665934584841682,
      "loss": 1.2269,
      "step": 40
    },
    {
      "epoch": 0.1289308176100629,
      "grad_norm": 0.027458857744932175,
      "learning_rate": 0.00019638840084614182,
      "loss": 1.2625,
      "step": 41
    },
    {
      "epoch": 0.1320754716981132,
      "grad_norm": 0.027038419619202614,
      "learning_rate": 0.00019610709403987246,
      "loss": 1.231,
      "step": 42
    },
    {
      "epoch": 0.13522012578616352,
      "grad_norm": 0.02573474682867527,
      "learning_rate": 0.000195815455670239,
      "loss": 1.1967,
      "step": 43
    },
    {
      "epoch": 0.13836477987421383,
      "grad_norm": 0.026413045823574066,
      "learning_rate": 0.0001955135170885202,
      "loss": 1.1999,
      "step": 44
    },
    {
      "epoch": 0.14150943396226415,
      "grad_norm": 0.02456706203520298,
      "learning_rate": 0.00019520131075327298,
      "loss": 1.1724,
      "step": 45
    },
    {
      "epoch": 0.14465408805031446,
      "grad_norm": 0.02324003167450428,
      "learning_rate": 0.00019487887022684336,
      "loss": 1.1732,
      "step": 46
    },
    {
      "epoch": 0.14779874213836477,
      "grad_norm": 0.02492634579539299,
      "learning_rate": 0.00019454623017175812,
      "loss": 1.1922,
      "step": 47
    },
    {
      "epoch": 0.1509433962264151,
      "grad_norm": 0.026481660082936287,
      "learning_rate": 0.0001942034263469989,
      "loss": 1.1889,
      "step": 48
    },
    {
      "epoch": 0.1540880503144654,
      "grad_norm": 0.023594651371240616,
      "learning_rate": 0.00019385049560415794,
      "loss": 1.1819,
      "step": 49
    },
    {
      "epoch": 0.15723270440251572,
      "grad_norm": 0.024192512035369873,
      "learning_rate": 0.00019348747588347637,
      "loss": 1.1691,
      "step": 50
    },
    {
      "epoch": 0.16037735849056603,
      "grad_norm": 0.023232240229845047,
      "learning_rate": 0.00019311440620976597,
      "loss": 1.1819,
      "step": 51
    },
    {
      "epoch": 0.16352201257861634,
      "grad_norm": 0.02279943972826004,
      "learning_rate": 0.00019273132668821364,
      "loss": 1.2022,
      "step": 52
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.06585303694009781,
      "learning_rate": 0.00019233827850007027,
      "loss": 1.135,
      "step": 53
    },
    {
      "epoch": 0.16981132075471697,
      "grad_norm": 0.024625560268759727,
      "learning_rate": 0.00019193530389822363,
      "loss": 1.1774,
      "step": 54
    },
    {
      "epoch": 0.17295597484276728,
      "grad_norm": 0.024765564128756523,
      "learning_rate": 0.0001915224462026563,
      "loss": 1.1848,
      "step": 55
    },
    {
      "epoch": 0.1761006289308176,
      "grad_norm": 0.0233647171407938,
      "learning_rate": 0.0001910997497957885,
      "loss": 1.1821,
      "step": 56
    },
    {
      "epoch": 0.1792452830188679,
      "grad_norm": 0.02151089534163475,
      "learning_rate": 0.00019066726011770726,
      "loss": 1.1458,
      "step": 57
    },
    {
      "epoch": 0.18238993710691823,
      "grad_norm": 0.022214526310563087,
      "learning_rate": 0.00019022502366128135,
      "loss": 1.1492,
      "step": 58
    },
    {
      "epoch": 0.18553459119496854,
      "grad_norm": 0.0223999060690403,
      "learning_rate": 0.0001897730879671634,
      "loss": 1.1703,
      "step": 59
    },
    {
      "epoch": 0.18867924528301888,
      "grad_norm": 0.023374218493700027,
      "learning_rate": 0.00018931150161867916,
      "loss": 1.1797,
      "step": 60
    },
    {
      "epoch": 0.1918238993710692,
      "grad_norm": 0.02511228248476982,
      "learning_rate": 0.0001888403142366049,
      "loss": 1.2078,
      "step": 61
    },
    {
      "epoch": 0.1949685534591195,
      "grad_norm": 0.02414465881884098,
      "learning_rate": 0.00018835957647383303,
      "loss": 1.1902,
      "step": 62
    },
    {
      "epoch": 0.19811320754716982,
      "grad_norm": 0.02244570665061474,
      "learning_rate": 0.00018786934000992688,
      "loss": 1.1541,
      "step": 63
    },
    {
      "epoch": 0.20125786163522014,
      "grad_norm": 0.023515688255429268,
      "learning_rate": 0.00018736965754556528,
      "loss": 1.1401,
      "step": 64
    },
    {
      "epoch": 0.20440251572327045,
      "grad_norm": 0.02403687871992588,
      "learning_rate": 0.00018686058279687698,
      "loss": 1.1526,
      "step": 65
    },
    {
      "epoch": 0.20754716981132076,
      "grad_norm": 0.022151008248329163,
      "learning_rate": 0.00018634217048966637,
      "loss": 1.164,
      "step": 66
    },
    {
      "epoch": 0.21069182389937108,
      "grad_norm": 0.022764768451452255,
      "learning_rate": 0.0001858144763535302,
      "loss": 1.1572,
      "step": 67
    },
    {
      "epoch": 0.2138364779874214,
      "grad_norm": 0.024172818288207054,
      "learning_rate": 0.00018527755711586678,
      "loss": 1.1561,
      "step": 68
    },
    {
      "epoch": 0.2169811320754717,
      "grad_norm": 0.023120006546378136,
      "learning_rate": 0.00018473147049577774,
      "loss": 1.1264,
      "step": 69
    },
    {
      "epoch": 0.22012578616352202,
      "grad_norm": 0.022340824827551842,
      "learning_rate": 0.00018417627519786315,
      "loss": 1.1471,
      "step": 70
    },
    {
      "epoch": 0.22327044025157233,
      "grad_norm": 0.02570510096848011,
      "learning_rate": 0.00018361203090591071,
      "loss": 1.1302,
      "step": 71
    },
    {
      "epoch": 0.22641509433962265,
      "grad_norm": 0.02528996579349041,
      "learning_rate": 0.00018303879827647975,
      "loss": 1.1347,
      "step": 72
    },
    {
      "epoch": 0.22955974842767296,
      "grad_norm": 0.02298339456319809,
      "learning_rate": 0.00018245663893238075,
      "loss": 1.1202,
      "step": 73
    },
    {
      "epoch": 0.23270440251572327,
      "grad_norm": 0.023198647424578667,
      "learning_rate": 0.00018186561545605054,
      "loss": 1.1285,
      "step": 74
    },
    {
      "epoch": 0.2358490566037736,
      "grad_norm": 0.02332969196140766,
      "learning_rate": 0.00018126579138282503,
      "loss": 1.1382,
      "step": 75
    },
    {
      "epoch": 0.2389937106918239,
      "grad_norm": 0.023921016603708267,
      "learning_rate": 0.00018065723119410884,
      "loss": 1.1508,
      "step": 76
    },
    {
      "epoch": 0.24213836477987422,
      "grad_norm": 0.027694478631019592,
      "learning_rate": 0.0001800400003104436,
      "loss": 1.1209,
      "step": 77
    },
    {
      "epoch": 0.24528301886792453,
      "grad_norm": 0.02638174593448639,
      "learning_rate": 0.00017941416508447536,
      "loss": 1.1551,
      "step": 78
    },
    {
      "epoch": 0.24842767295597484,
      "grad_norm": 0.024342985823750496,
      "learning_rate": 0.00017877979279382135,
      "loss": 1.1033,
      "step": 79
    },
    {
      "epoch": 0.25157232704402516,
      "grad_norm": 0.0234859399497509,
      "learning_rate": 0.0001781369516338378,
      "loss": 1.0988,
      "step": 80
    },
    {
      "epoch": 0.25471698113207547,
      "grad_norm": 0.025128323584794998,
      "learning_rate": 0.000177485710710289,
      "loss": 1.1248,
      "step": 81
    },
    {
      "epoch": 0.2578616352201258,
      "grad_norm": 0.025595176964998245,
      "learning_rate": 0.00017682614003191807,
      "loss": 1.1429,
      "step": 82
    },
    {
      "epoch": 0.2610062893081761,
      "grad_norm": 0.02447207272052765,
      "learning_rate": 0.0001761583105029213,
      "loss": 1.0941,
      "step": 83
    },
    {
      "epoch": 0.2641509433962264,
      "grad_norm": 0.026511628180742264,
      "learning_rate": 0.00017548229391532572,
      "loss": 1.1529,
      "step": 84
    },
    {
      "epoch": 0.2672955974842767,
      "grad_norm": 0.026698730885982513,
      "learning_rate": 0.00017479816294127152,
      "loss": 1.0938,
      "step": 85
    },
    {
      "epoch": 0.27044025157232704,
      "grad_norm": 0.028718404471874237,
      "learning_rate": 0.0001741059911251997,
      "loss": 1.1071,
      "step": 86
    },
    {
      "epoch": 0.27358490566037735,
      "grad_norm": 0.02812567539513111,
      "learning_rate": 0.00017340585287594604,
      "loss": 1.1382,
      "step": 87
    },
    {
      "epoch": 0.27672955974842767,
      "grad_norm": 0.025351839140057564,
      "learning_rate": 0.00017269782345874203,
      "loss": 1.1061,
      "step": 88
    },
    {
      "epoch": 0.279874213836478,
      "grad_norm": 0.02537315897643566,
      "learning_rate": 0.00017198197898712404,
      "loss": 1.0935,
      "step": 89
    },
    {
      "epoch": 0.2830188679245283,
      "grad_norm": 0.027423014864325523,
      "learning_rate": 0.00017125839641475072,
      "loss": 1.0954,
      "step": 90
    },
    {
      "epoch": 0.2861635220125786,
      "grad_norm": 0.027652902528643608,
      "learning_rate": 0.00017052715352713075,
      "loss": 1.0975,
      "step": 91
    },
    {
      "epoch": 0.2893081761006289,
      "grad_norm": 0.029060475528240204,
      "learning_rate": 0.00016978832893326074,
      "loss": 1.1008,
      "step": 92
    },
    {
      "epoch": 0.29245283018867924,
      "grad_norm": 0.02606775052845478,
      "learning_rate": 0.0001690420020571747,
      "loss": 1.1125,
      "step": 93
    },
    {
      "epoch": 0.29559748427672955,
      "grad_norm": 0.025361906737089157,
      "learning_rate": 0.00016828825312940592,
      "loss": 1.1225,
      "step": 94
    },
    {
      "epoch": 0.29874213836477986,
      "grad_norm": 0.029504677280783653,
      "learning_rate": 0.00016752716317836229,
      "loss": 1.1281,
      "step": 95
    },
    {
      "epoch": 0.3018867924528302,
      "grad_norm": 0.027163010090589523,
      "learning_rate": 0.00016675881402161536,
      "loss": 1.0891,
      "step": 96
    },
    {
      "epoch": 0.3050314465408805,
      "grad_norm": 0.028238749131560326,
      "learning_rate": 0.00016598328825710533,
      "loss": 1.0732,
      "step": 97
    },
    {
      "epoch": 0.3081761006289308,
      "grad_norm": 0.02860194444656372,
      "learning_rate": 0.00016520066925426144,
      "loss": 1.1109,
      "step": 98
    },
    {
      "epoch": 0.3113207547169811,
      "grad_norm": 0.027443770319223404,
      "learning_rate": 0.0001644110411450398,
      "loss": 1.1037,
      "step": 99
    },
    {
      "epoch": 0.31446540880503143,
      "grad_norm": 0.02937367372214794,
      "learning_rate": 0.00016361448881487914,
      "loss": 1.1614,
      "step": 100
    },
    {
      "epoch": 0.31761006289308175,
      "grad_norm": 0.028245460242033005,
      "learning_rate": 0.0001628110978935756,
      "loss": 1.1193,
      "step": 101
    },
    {
      "epoch": 0.32075471698113206,
      "grad_norm": 0.03091912530362606,
      "learning_rate": 0.00016200095474607753,
      "loss": 1.0811,
      "step": 102
    },
    {
      "epoch": 0.3238993710691824,
      "grad_norm": 0.029428910464048386,
      "learning_rate": 0.0001611841464632011,
      "loss": 1.0946,
      "step": 103
    },
    {
      "epoch": 0.3270440251572327,
      "grad_norm": 0.02842988260090351,
      "learning_rate": 0.00016036076085226814,
      "loss": 1.0921,
      "step": 104
    },
    {
      "epoch": 0.330188679245283,
      "grad_norm": 0.028155898675322533,
      "learning_rate": 0.0001595308864276666,
      "loss": 1.0929,
      "step": 105
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.03080359846353531,
      "learning_rate": 0.0001586946124013354,
      "loss": 1.1039,
      "step": 106
    },
    {
      "epoch": 0.33647798742138363,
      "grad_norm": 0.03177150338888168,
      "learning_rate": 0.00015785202867317407,
      "loss": 1.0986,
      "step": 107
    },
    {
      "epoch": 0.33962264150943394,
      "grad_norm": 0.026763366535305977,
      "learning_rate": 0.00015700322582137827,
      "loss": 1.0686,
      "step": 108
    },
    {
      "epoch": 0.34276729559748426,
      "grad_norm": 0.027751443907618523,
      "learning_rate": 0.0001561482950927029,
      "loss": 1.1177,
      "step": 109
    },
    {
      "epoch": 0.34591194968553457,
      "grad_norm": 0.031205786392092705,
      "learning_rate": 0.00015528732839265272,
      "loss": 1.1045,
      "step": 110
    },
    {
      "epoch": 0.3490566037735849,
      "grad_norm": 0.029671067371964455,
      "learning_rate": 0.00015442041827560274,
      "loss": 1.0815,
      "step": 111
    },
    {
      "epoch": 0.3522012578616352,
      "grad_norm": 0.03158772736787796,
      "learning_rate": 0.00015354765793484834,
      "loss": 1.0811,
      "step": 112
    },
    {
      "epoch": 0.3553459119496855,
      "grad_norm": 0.03245990723371506,
      "learning_rate": 0.000152669141192587,
      "loss": 1.0923,
      "step": 113
    },
    {
      "epoch": 0.3584905660377358,
      "grad_norm": 0.030182786285877228,
      "learning_rate": 0.00015178496248983254,
      "loss": 1.0831,
      "step": 114
    },
    {
      "epoch": 0.36163522012578614,
      "grad_norm": 0.03249813988804817,
      "learning_rate": 0.00015089521687626243,
      "loss": 1.0955,
      "step": 115
    },
    {
      "epoch": 0.36477987421383645,
      "grad_norm": 0.029901932924985886,
      "learning_rate": 0.00015000000000000001,
      "loss": 1.0567,
      "step": 116
    },
    {
      "epoch": 0.36792452830188677,
      "grad_norm": 0.0314863882958889,
      "learning_rate": 0.00014909940809733222,
      "loss": 1.0759,
      "step": 117
    },
    {
      "epoch": 0.3710691823899371,
      "grad_norm": 0.03128151595592499,
      "learning_rate": 0.00014819353798236427,
      "loss": 1.0878,
      "step": 118
    },
    {
      "epoch": 0.3742138364779874,
      "grad_norm": 0.03267417103052139,
      "learning_rate": 0.00014728248703661182,
      "loss": 1.094,
      "step": 119
    },
    {
      "epoch": 0.37735849056603776,
      "grad_norm": 0.031713493168354034,
      "learning_rate": 0.00014636635319853275,
      "loss": 1.0845,
      "step": 120
    },
    {
      "epoch": 0.3805031446540881,
      "grad_norm": 0.029322847723960876,
      "learning_rate": 0.00014544523495299842,
      "loss": 1.0683,
      "step": 121
    },
    {
      "epoch": 0.3836477987421384,
      "grad_norm": 0.03310471028089523,
      "learning_rate": 0.0001445192313207067,
      "loss": 1.0798,
      "step": 122
    },
    {
      "epoch": 0.3867924528301887,
      "grad_norm": 0.03195233270525932,
      "learning_rate": 0.00014358844184753712,
      "loss": 1.0697,
      "step": 123
    },
    {
      "epoch": 0.389937106918239,
      "grad_norm": 0.034240156412124634,
      "learning_rate": 0.00014265296659384956,
      "loss": 1.0885,
      "step": 124
    },
    {
      "epoch": 0.39308176100628933,
      "grad_norm": 0.03241978958249092,
      "learning_rate": 0.0001417129061237278,
      "loss": 1.0647,
      "step": 125
    },
    {
      "epoch": 0.39622641509433965,
      "grad_norm": 0.03068430908024311,
      "learning_rate": 0.00014076836149416887,
      "loss": 1.0647,
      "step": 126
    },
    {
      "epoch": 0.39937106918238996,
      "grad_norm": 0.03438032045960426,
      "learning_rate": 0.00013981943424421932,
      "loss": 1.0939,
      "step": 127
    },
    {
      "epoch": 0.4025157232704403,
      "grad_norm": 0.031215351074934006,
      "learning_rate": 0.00013886622638405952,
      "loss": 1.0694,
      "step": 128
    },
    {
      "epoch": 0.4056603773584906,
      "grad_norm": 0.035429947078228,
      "learning_rate": 0.00013790884038403795,
      "loss": 1.1149,
      "step": 129
    },
    {
      "epoch": 0.4088050314465409,
      "grad_norm": 0.03237266466021538,
      "learning_rate": 0.00013694737916365517,
      "loss": 1.0778,
      "step": 130
    },
    {
      "epoch": 0.4119496855345912,
      "grad_norm": 0.034300774335861206,
      "learning_rate": 0.0001359819460805001,
      "loss": 1.0872,
      "step": 131
    },
    {
      "epoch": 0.41509433962264153,
      "grad_norm": 0.03338664770126343,
      "learning_rate": 0.00013501264491913906,
      "loss": 1.0809,
      "step": 132
    },
    {
      "epoch": 0.41823899371069184,
      "grad_norm": 0.03169442340731621,
      "learning_rate": 0.00013403957987995882,
      "loss": 1.0436,
      "step": 133
    },
    {
      "epoch": 0.42138364779874216,
      "grad_norm": 0.03536612167954445,
      "learning_rate": 0.00013306285556796495,
      "loss": 1.0643,
      "step": 134
    },
    {
      "epoch": 0.42452830188679247,
      "grad_norm": 0.03312570974230766,
      "learning_rate": 0.00013208257698153677,
      "loss": 1.0879,
      "step": 135
    },
    {
      "epoch": 0.4276729559748428,
      "grad_norm": 0.035323478281497955,
      "learning_rate": 0.00013109884950114007,
      "loss": 1.0946,
      "step": 136
    },
    {
      "epoch": 0.4308176100628931,
      "grad_norm": 0.03307751566171646,
      "learning_rate": 0.00013011177887799845,
      "loss": 1.0574,
      "step": 137
    },
    {
      "epoch": 0.4339622641509434,
      "grad_norm": 0.03208519518375397,
      "learning_rate": 0.00012912147122272523,
      "loss": 1.0563,
      "step": 138
    },
    {
      "epoch": 0.4371069182389937,
      "grad_norm": 0.03215700760483742,
      "learning_rate": 0.00012812803299391628,
      "loss": 1.0615,
      "step": 139
    },
    {
      "epoch": 0.44025157232704404,
      "grad_norm": 0.03540361300110817,
      "learning_rate": 0.0001271315709867059,
      "loss": 1.0903,
      "step": 140
    },
    {
      "epoch": 0.44339622641509435,
      "grad_norm": 0.03418035805225372,
      "learning_rate": 0.00012613219232128608,
      "loss": 1.0589,
      "step": 141
    },
    {
      "epoch": 0.44654088050314467,
      "grad_norm": 0.032720983028411865,
      "learning_rate": 0.00012513000443139112,
      "loss": 1.0394,
      "step": 142
    },
    {
      "epoch": 0.449685534591195,
      "grad_norm": 0.03251456469297409,
      "learning_rate": 0.00012412511505274844,
      "loss": 1.0459,
      "step": 143
    },
    {
      "epoch": 0.4528301886792453,
      "grad_norm": 0.03547577187418938,
      "learning_rate": 0.000123117632211497,
      "loss": 1.0919,
      "step": 144
    },
    {
      "epoch": 0.4559748427672956,
      "grad_norm": 0.03621995821595192,
      "learning_rate": 0.0001221076642125742,
      "loss": 1.0428,
      "step": 145
    },
    {
      "epoch": 0.4591194968553459,
      "grad_norm": 0.03383413329720497,
      "learning_rate": 0.00012109531962807332,
      "loss": 1.0704,
      "step": 146
    },
    {
      "epoch": 0.46226415094339623,
      "grad_norm": 0.031702034175395966,
      "learning_rate": 0.00012008070728557186,
      "loss": 1.0328,
      "step": 147
    },
    {
      "epoch": 0.46540880503144655,
      "grad_norm": 0.039653629064559937,
      "learning_rate": 0.00011906393625643244,
      "loss": 1.0568,
      "step": 148
    },
    {
      "epoch": 0.46855345911949686,
      "grad_norm": 0.037315912544727325,
      "learning_rate": 0.00011804511584407763,
      "loss": 1.0668,
      "step": 149
    },
    {
      "epoch": 0.4716981132075472,
      "grad_norm": 0.03531115874648094,
      "learning_rate": 0.00011702435557223987,
      "loss": 1.0827,
      "step": 150
    },
    {
      "epoch": 0.4748427672955975,
      "grad_norm": 0.03649010509252548,
      "learning_rate": 0.00011600176517318741,
      "loss": 1.0796,
      "step": 151
    },
    {
      "epoch": 0.4779874213836478,
      "grad_norm": 0.04164504259824753,
      "learning_rate": 0.00011497745457592816,
      "loss": 1.0314,
      "step": 152
    },
    {
      "epoch": 0.4811320754716981,
      "grad_norm": 0.037900954484939575,
      "learning_rate": 0.00011395153389439233,
      "loss": 1.0668,
      "step": 153
    },
    {
      "epoch": 0.48427672955974843,
      "grad_norm": 0.034743502736091614,
      "learning_rate": 0.0001129241134155949,
      "loss": 1.0575,
      "step": 154
    },
    {
      "epoch": 0.48742138364779874,
      "grad_norm": 0.05526720732450485,
      "learning_rate": 0.00011189530358778005,
      "loss": 1.0537,
      "step": 155
    },
    {
      "epoch": 0.49056603773584906,
      "grad_norm": 0.03674091398715973,
      "learning_rate": 0.00011086521500854745,
      "loss": 1.0612,
      "step": 156
    },
    {
      "epoch": 0.4937106918238994,
      "grad_norm": 0.03560490161180496,
      "learning_rate": 0.00010983395841296348,
      "loss": 1.0461,
      "step": 157
    },
    {
      "epoch": 0.4968553459119497,
      "grad_norm": 0.03683093190193176,
      "learning_rate": 0.00010880164466165674,
      "loss": 1.0489,
      "step": 158
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.034947801381349564,
      "learning_rate": 0.00010776838472890065,
      "loss": 1.0908,
      "step": 159
    },
    {
      "epoch": 0.5031446540880503,
      "grad_norm": 0.034155167639255524,
      "learning_rate": 0.00010673428969068364,
      "loss": 1.0883,
      "step": 160
    },
    {
      "epoch": 0.5062893081761006,
      "grad_norm": 0.03542330116033554,
      "learning_rate": 0.00010569947071276847,
      "loss": 1.0629,
      "step": 161
    },
    {
      "epoch": 0.5094339622641509,
      "grad_norm": 0.0372898206114769,
      "learning_rate": 0.00010466403903874176,
      "loss": 1.0515,
      "step": 162
    },
    {
      "epoch": 0.5125786163522013,
      "grad_norm": 0.03636344522237778,
      "learning_rate": 0.00010362810597805526,
      "loss": 1.0905,
      "step": 163
    },
    {
      "epoch": 0.5157232704402516,
      "grad_norm": 0.035335466265678406,
      "learning_rate": 0.00010259178289406011,
      "loss": 1.0698,
      "step": 164
    },
    {
      "epoch": 0.5188679245283019,
      "grad_norm": 0.036180030554533005,
      "learning_rate": 0.0001015551811920351,
      "loss": 1.0487,
      "step": 165
    },
    {
      "epoch": 0.5220125786163522,
      "grad_norm": 0.03546663746237755,
      "learning_rate": 0.00010051841230721065,
      "loss": 1.0336,
      "step": 166
    },
    {
      "epoch": 0.5251572327044025,
      "grad_norm": 0.03683155030012131,
      "learning_rate": 9.948158769278939e-05,
      "loss": 1.0628,
      "step": 167
    },
    {
      "epoch": 0.5283018867924528,
      "grad_norm": 0.03633348271250725,
      "learning_rate": 9.844481880796491e-05,
      "loss": 1.0646,
      "step": 168
    },
    {
      "epoch": 0.5314465408805031,
      "grad_norm": 0.03651515021920204,
      "learning_rate": 9.740821710593989e-05,
      "loss": 1.0584,
      "step": 169
    },
    {
      "epoch": 0.5345911949685535,
      "grad_norm": 0.03433886170387268,
      "learning_rate": 9.637189402194476e-05,
      "loss": 1.0537,
      "step": 170
    },
    {
      "epoch": 0.5377358490566038,
      "grad_norm": 0.046192716807127,
      "learning_rate": 9.533596096125825e-05,
      "loss": 1.0409,
      "step": 171
    },
    {
      "epoch": 0.5408805031446541,
      "grad_norm": 0.03568156436085701,
      "learning_rate": 9.430052928723153e-05,
      "loss": 1.0278,
      "step": 172
    },
    {
      "epoch": 0.5440251572327044,
      "grad_norm": 0.040810681879520416,
      "learning_rate": 9.326571030931637e-05,
      "loss": 1.0405,
      "step": 173
    },
    {
      "epoch": 0.5471698113207547,
      "grad_norm": 0.03588728979229927,
      "learning_rate": 9.223161527109937e-05,
      "loss": 1.065,
      "step": 174
    },
    {
      "epoch": 0.550314465408805,
      "grad_norm": 0.03548993915319443,
      "learning_rate": 9.119835533834331e-05,
      "loss": 1.0065,
      "step": 175
    },
    {
      "epoch": 0.5534591194968553,
      "grad_norm": 0.04264102876186371,
      "learning_rate": 9.016604158703654e-05,
      "loss": 1.0668,
      "step": 176
    },
    {
      "epoch": 0.5566037735849056,
      "grad_norm": 0.03986184671521187,
      "learning_rate": 8.913478499145254e-05,
      "loss": 1.0512,
      "step": 177
    },
    {
      "epoch": 0.559748427672956,
      "grad_norm": 0.03871089220046997,
      "learning_rate": 8.810469641222001e-05,
      "loss": 1.0413,
      "step": 178
    },
    {
      "epoch": 0.5628930817610063,
      "grad_norm": 0.03574568033218384,
      "learning_rate": 8.707588658440511e-05,
      "loss": 1.0293,
      "step": 179
    },
    {
      "epoch": 0.5660377358490566,
      "grad_norm": 0.037175796926021576,
      "learning_rate": 8.604846610560771e-05,
      "loss": 1.0246,
      "step": 180
    },
    {
      "epoch": 0.5691823899371069,
      "grad_norm": 0.04187128692865372,
      "learning_rate": 8.502254542407186e-05,
      "loss": 1.023,
      "step": 181
    },
    {
      "epoch": 0.5723270440251572,
      "grad_norm": 0.04172036051750183,
      "learning_rate": 8.399823482681262e-05,
      "loss": 1.0455,
      "step": 182
    },
    {
      "epoch": 0.5754716981132075,
      "grad_norm": 0.03626122325658798,
      "learning_rate": 8.297564442776014e-05,
      "loss": 1.0457,
      "step": 183
    },
    {
      "epoch": 0.5786163522012578,
      "grad_norm": 0.03596337512135506,
      "learning_rate": 8.195488415592238e-05,
      "loss": 1.0521,
      "step": 184
    },
    {
      "epoch": 0.5817610062893082,
      "grad_norm": 0.03914599120616913,
      "learning_rate": 8.093606374356759e-05,
      "loss": 1.0645,
      "step": 185
    },
    {
      "epoch": 0.5849056603773585,
      "grad_norm": 0.044063687324523926,
      "learning_rate": 7.991929271442817e-05,
      "loss": 1.0677,
      "step": 186
    },
    {
      "epoch": 0.5880503144654088,
      "grad_norm": 0.04163552075624466,
      "learning_rate": 7.89046803719267e-05,
      "loss": 1.0568,
      "step": 187
    },
    {
      "epoch": 0.5911949685534591,
      "grad_norm": 0.036366574466228485,
      "learning_rate": 7.789233578742582e-05,
      "loss": 1.0038,
      "step": 188
    },
    {
      "epoch": 0.5943396226415094,
      "grad_norm": 0.04061400517821312,
      "learning_rate": 7.688236778850306e-05,
      "loss": 1.0462,
      "step": 189
    },
    {
      "epoch": 0.5974842767295597,
      "grad_norm": 0.03604275360703468,
      "learning_rate": 7.587488494725157e-05,
      "loss": 1.0275,
      "step": 190
    },
    {
      "epoch": 0.60062893081761,
      "grad_norm": 0.03972569853067398,
      "learning_rate": 7.48699955686089e-05,
      "loss": 1.0402,
      "step": 191
    },
    {
      "epoch": 0.6037735849056604,
      "grad_norm": 0.04172028228640556,
      "learning_rate": 7.386780767871397e-05,
      "loss": 1.0416,
      "step": 192
    },
    {
      "epoch": 0.6069182389937107,
      "grad_norm": 0.03570333123207092,
      "learning_rate": 7.286842901329412e-05,
      "loss": 1.0459,
      "step": 193
    },
    {
      "epoch": 0.610062893081761,
      "grad_norm": 0.037412162870168686,
      "learning_rate": 7.187196700608373e-05,
      "loss": 1.0556,
      "step": 194
    },
    {
      "epoch": 0.6132075471698113,
      "grad_norm": 0.038102056831121445,
      "learning_rate": 7.087852877727481e-05,
      "loss": 1.0301,
      "step": 195
    },
    {
      "epoch": 0.6163522012578616,
      "grad_norm": 0.037487804889678955,
      "learning_rate": 6.988822112200156e-05,
      "loss": 1.0494,
      "step": 196
    },
    {
      "epoch": 0.6194968553459119,
      "grad_norm": 0.03777475655078888,
      "learning_rate": 6.890115049885994e-05,
      "loss": 0.9972,
      "step": 197
    },
    {
      "epoch": 0.6226415094339622,
      "grad_norm": 0.04026506096124649,
      "learning_rate": 6.791742301846326e-05,
      "loss": 1.0068,
      "step": 198
    },
    {
      "epoch": 0.6257861635220126,
      "grad_norm": 0.03857170045375824,
      "learning_rate": 6.693714443203507e-05,
      "loss": 1.0468,
      "step": 199
    },
    {
      "epoch": 0.6289308176100629,
      "grad_norm": 0.038687944412231445,
      "learning_rate": 6.59604201200412e-05,
      "loss": 1.021,
      "step": 200
    },
    {
      "epoch": 0.6320754716981132,
      "grad_norm": 0.03843434900045395,
      "learning_rate": 6.498735508086093e-05,
      "loss": 1.0443,
      "step": 201
    },
    {
      "epoch": 0.6352201257861635,
      "grad_norm": 0.03765735775232315,
      "learning_rate": 6.40180539194999e-05,
      "loss": 1.0068,
      "step": 202
    },
    {
      "epoch": 0.6383647798742138,
      "grad_norm": 0.038186896592378616,
      "learning_rate": 6.305262083634488e-05,
      "loss": 1.0368,
      "step": 203
    },
    {
      "epoch": 0.6415094339622641,
      "grad_norm": 0.03744081035256386,
      "learning_rate": 6.209115961596208e-05,
      "loss": 1.0035,
      "step": 204
    },
    {
      "epoch": 0.6446540880503144,
      "grad_norm": 0.03738857060670853,
      "learning_rate": 6.113377361594049e-05,
      "loss": 1.0343,
      "step": 205
    },
    {
      "epoch": 0.6477987421383647,
      "grad_norm": 0.03938114643096924,
      "learning_rate": 6.018056575578075e-05,
      "loss": 1.041,
      "step": 206
    },
    {
      "epoch": 0.6509433962264151,
      "grad_norm": 0.0429544560611248,
      "learning_rate": 5.923163850583113e-05,
      "loss": 1.0455,
      "step": 207
    },
    {
      "epoch": 0.6540880503144654,
      "grad_norm": 0.03791610524058342,
      "learning_rate": 5.828709387627218e-05,
      "loss": 1.0284,
      "step": 208
    },
    {
      "epoch": 0.6572327044025157,
      "grad_norm": 0.038352545350790024,
      "learning_rate": 5.73470334061505e-05,
      "loss": 1.0279,
      "step": 209
    },
    {
      "epoch": 0.660377358490566,
      "grad_norm": 0.03907958045601845,
      "learning_rate": 5.6411558152462894e-05,
      "loss": 1.0711,
      "step": 210
    },
    {
      "epoch": 0.6635220125786163,
      "grad_norm": 0.03748472407460213,
      "learning_rate": 5.54807686792933e-05,
      "loss": 1.0187,
      "step": 211
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.13872897624969482,
      "learning_rate": 5.4554765047001613e-05,
      "loss": 1.0482,
      "step": 212
    },
    {
      "epoch": 0.6698113207547169,
      "grad_norm": 0.04007211700081825,
      "learning_rate": 5.363364680146725e-05,
      "loss": 1.0525,
      "step": 213
    },
    {
      "epoch": 0.6729559748427673,
      "grad_norm": 0.038152776658535004,
      "learning_rate": 5.271751296338823e-05,
      "loss": 1.0222,
      "step": 214
    },
    {
      "epoch": 0.6761006289308176,
      "grad_norm": 0.03928610309958458,
      "learning_rate": 5.180646201763577e-05,
      "loss": 1.06,
      "step": 215
    },
    {
      "epoch": 0.6792452830188679,
      "grad_norm": 0.03823390603065491,
      "learning_rate": 5.090059190266779e-05,
      "loss": 1.006,
      "step": 216
    },
    {
      "epoch": 0.6823899371069182,
      "grad_norm": 0.03753795474767685,
      "learning_rate": 5.000000000000002e-05,
      "loss": 1.0471,
      "step": 217
    },
    {
      "epoch": 0.6855345911949685,
      "grad_norm": 0.03927240148186684,
      "learning_rate": 4.9104783123737566e-05,
      "loss": 1.0211,
      "step": 218
    },
    {
      "epoch": 0.6886792452830188,
      "grad_norm": 0.038637347519397736,
      "learning_rate": 4.821503751016746e-05,
      "loss": 1.0393,
      "step": 219
    },
    {
      "epoch": 0.6918238993710691,
      "grad_norm": 0.04003263637423515,
      "learning_rate": 4.733085880741301e-05,
      "loss": 1.0387,
      "step": 220
    },
    {
      "epoch": 0.6949685534591195,
      "grad_norm": 0.037788983434438705,
      "learning_rate": 4.645234206515171e-05,
      "loss": 1.0395,
      "step": 221
    },
    {
      "epoch": 0.6981132075471698,
      "grad_norm": 0.037437207996845245,
      "learning_rate": 4.5579581724397255e-05,
      "loss": 1.002,
      "step": 222
    },
    {
      "epoch": 0.7012578616352201,
      "grad_norm": 0.03973449021577835,
      "learning_rate": 4.471267160734731e-05,
      "loss": 1.0101,
      "step": 223
    },
    {
      "epoch": 0.7044025157232704,
      "grad_norm": 0.04157485440373421,
      "learning_rate": 4.385170490729712e-05,
      "loss": 1.0547,
      "step": 224
    },
    {
      "epoch": 0.7075471698113207,
      "grad_norm": 0.03971412032842636,
      "learning_rate": 4.2996774178621736e-05,
      "loss": 1.0327,
      "step": 225
    },
    {
      "epoch": 0.710691823899371,
      "grad_norm": 0.042363688349723816,
      "learning_rate": 4.2147971326825966e-05,
      "loss": 1.0115,
      "step": 226
    },
    {
      "epoch": 0.7138364779874213,
      "grad_norm": 0.03927742689847946,
      "learning_rate": 4.130538759866457e-05,
      "loss": 1.037,
      "step": 227
    },
    {
      "epoch": 0.7169811320754716,
      "grad_norm": 0.04383242875337601,
      "learning_rate": 4.046911357233343e-05,
      "loss": 1.0336,
      "step": 228
    },
    {
      "epoch": 0.720125786163522,
      "grad_norm": 0.041160885244607925,
      "learning_rate": 3.963923914773187e-05,
      "loss": 1.0453,
      "step": 229
    },
    {
      "epoch": 0.7232704402515723,
      "grad_norm": 0.038153354078531265,
      "learning_rate": 3.8815853536798904e-05,
      "loss": 1.0438,
      "step": 230
    },
    {
      "epoch": 0.7264150943396226,
      "grad_norm": 0.039117470383644104,
      "learning_rate": 3.79990452539225e-05,
      "loss": 1.0131,
      "step": 231
    },
    {
      "epoch": 0.7295597484276729,
      "grad_norm": 0.037614606320858,
      "learning_rate": 3.7188902106424416e-05,
      "loss": 1.0308,
      "step": 232
    },
    {
      "epoch": 0.7327044025157232,
      "grad_norm": 0.03742281720042229,
      "learning_rate": 3.638551118512089e-05,
      "loss": 1.0343,
      "step": 233
    },
    {
      "epoch": 0.7358490566037735,
      "grad_norm": 0.040659379214048386,
      "learning_rate": 3.558895885496023e-05,
      "loss": 1.0206,
      "step": 234
    },
    {
      "epoch": 0.7389937106918238,
      "grad_norm": 0.039581410586833954,
      "learning_rate": 3.479933074573858e-05,
      "loss": 1.0209,
      "step": 235
    },
    {
      "epoch": 0.7421383647798742,
      "grad_norm": 0.03877450153231621,
      "learning_rate": 3.401671174289469e-05,
      "loss": 1.0242,
      "step": 236
    },
    {
      "epoch": 0.7452830188679245,
      "grad_norm": 0.03689349815249443,
      "learning_rate": 3.324118597838464e-05,
      "loss": 1.0064,
      "step": 237
    },
    {
      "epoch": 0.7484276729559748,
      "grad_norm": 0.039353396743535995,
      "learning_rate": 3.2472836821637744e-05,
      "loss": 1.0392,
      "step": 238
    },
    {
      "epoch": 0.7515723270440252,
      "grad_norm": 0.04024632275104523,
      "learning_rate": 3.1711746870594086e-05,
      "loss": 1.0398,
      "step": 239
    },
    {
      "epoch": 0.7547169811320755,
      "grad_norm": 0.0384189747273922,
      "learning_rate": 3.0957997942825336e-05,
      "loss": 1.0508,
      "step": 240
    },
    {
      "epoch": 0.7578616352201258,
      "grad_norm": 0.038072239607572556,
      "learning_rate": 3.021167106673928e-05,
      "loss": 1.0274,
      "step": 241
    },
    {
      "epoch": 0.7610062893081762,
      "grad_norm": 0.03652197867631912,
      "learning_rate": 2.9472846472869298e-05,
      "loss": 1.0091,
      "step": 242
    },
    {
      "epoch": 0.7641509433962265,
      "grad_norm": 0.04008382558822632,
      "learning_rate": 2.874160358524931e-05,
      "loss": 1.0118,
      "step": 243
    },
    {
      "epoch": 0.7672955974842768,
      "grad_norm": 0.038193073123693466,
      "learning_rate": 2.8018021012875994e-05,
      "loss": 1.0492,
      "step": 244
    },
    {
      "epoch": 0.7704402515723271,
      "grad_norm": 0.04008280113339424,
      "learning_rate": 2.7302176541257986e-05,
      "loss": 1.0087,
      "step": 245
    },
    {
      "epoch": 0.7735849056603774,
      "grad_norm": 0.040726155042648315,
      "learning_rate": 2.659414712405398e-05,
      "loss": 1.0427,
      "step": 246
    },
    {
      "epoch": 0.7767295597484277,
      "grad_norm": 0.03964506462216377,
      "learning_rate": 2.5894008874800325e-05,
      "loss": 1.0377,
      "step": 247
    },
    {
      "epoch": 0.779874213836478,
      "grad_norm": 0.03894224017858505,
      "learning_rate": 2.5201837058728505e-05,
      "loss": 1.0362,
      "step": 248
    },
    {
      "epoch": 0.7830188679245284,
      "grad_norm": 0.038798924535512924,
      "learning_rate": 2.451770608467432e-05,
      "loss": 1.0383,
      "step": 249
    },
    {
      "epoch": 0.7861635220125787,
      "grad_norm": 0.03763001784682274,
      "learning_rate": 2.3841689497078746e-05,
      "loss": 1.0488,
      "step": 250
    },
    {
      "epoch": 0.789308176100629,
      "grad_norm": 0.04090484231710434,
      "learning_rate": 2.3173859968081944e-05,
      "loss": 1.0297,
      "step": 251
    },
    {
      "epoch": 0.7924528301886793,
      "grad_norm": 0.039545051753520966,
      "learning_rate": 2.251428928971102e-05,
      "loss": 1.0396,
      "step": 252
    },
    {
      "epoch": 0.7955974842767296,
      "grad_norm": 0.037017423659563065,
      "learning_rate": 2.1863048366162208e-05,
      "loss": 1.0178,
      "step": 253
    },
    {
      "epoch": 0.7987421383647799,
      "grad_norm": 0.03963112458586693,
      "learning_rate": 2.1220207206178688e-05,
      "loss": 1.025,
      "step": 254
    },
    {
      "epoch": 0.8018867924528302,
      "grad_norm": 0.03978583589196205,
      "learning_rate": 2.058583491552465e-05,
      "loss": 1.0226,
      "step": 255
    },
    {
      "epoch": 0.8050314465408805,
      "grad_norm": 0.03923904895782471,
      "learning_rate": 1.995999968955641e-05,
      "loss": 1.0291,
      "step": 256
    },
    {
      "epoch": 0.8081761006289309,
      "grad_norm": 0.03717755898833275,
      "learning_rate": 1.9342768805891178e-05,
      "loss": 1.0262,
      "step": 257
    },
    {
      "epoch": 0.8113207547169812,
      "grad_norm": 0.03690655902028084,
      "learning_rate": 1.8734208617174988e-05,
      "loss": 1.0263,
      "step": 258
    },
    {
      "epoch": 0.8144654088050315,
      "grad_norm": 0.038003891706466675,
      "learning_rate": 1.8134384543949478e-05,
      "loss": 1.0279,
      "step": 259
    },
    {
      "epoch": 0.8176100628930818,
      "grad_norm": 0.037383392453193665,
      "learning_rate": 1.754336106761927e-05,
      "loss": 1.0184,
      "step": 260
    },
    {
      "epoch": 0.8207547169811321,
      "grad_norm": 0.038551997393369675,
      "learning_rate": 1.696120172352025e-05,
      "loss": 1.055,
      "step": 261
    },
    {
      "epoch": 0.8238993710691824,
      "grad_norm": 0.03848763927817345,
      "learning_rate": 1.6387969094089316e-05,
      "loss": 1.0276,
      "step": 262
    },
    {
      "epoch": 0.8270440251572327,
      "grad_norm": 0.03697813302278519,
      "learning_rate": 1.5823724802136865e-05,
      "loss": 1.0107,
      "step": 263
    },
    {
      "epoch": 0.8301886792452831,
      "grad_norm": 0.039934322237968445,
      "learning_rate": 1.526852950422226e-05,
      "loss": 1.0184,
      "step": 264
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.04363315552473068,
      "learning_rate": 1.4722442884133214e-05,
      "loss": 0.9912,
      "step": 265
    },
    {
      "epoch": 0.8364779874213837,
      "grad_norm": 0.04497281834483147,
      "learning_rate": 1.4185523646469822e-05,
      "loss": 1.0578,
      "step": 266
    },
    {
      "epoch": 0.839622641509434,
      "grad_norm": 0.03638835996389389,
      "learning_rate": 1.3657829510333654e-05,
      "loss": 1.0259,
      "step": 267
    },
    {
      "epoch": 0.8427672955974843,
      "grad_norm": 0.0390971377491951,
      "learning_rate": 1.3139417203123027e-05,
      "loss": 1.0188,
      "step": 268
    },
    {
      "epoch": 0.8459119496855346,
      "grad_norm": 0.036897242069244385,
      "learning_rate": 1.263034245443473e-05,
      "loss": 1.0333,
      "step": 269
    },
    {
      "epoch": 0.8490566037735849,
      "grad_norm": 0.037717305123806,
      "learning_rate": 1.2130659990073146e-05,
      "loss": 1.0319,
      "step": 270
    },
    {
      "epoch": 0.8522012578616353,
      "grad_norm": 0.038260139524936676,
      "learning_rate": 1.1640423526166988e-05,
      "loss": 1.0063,
      "step": 271
    },
    {
      "epoch": 0.8553459119496856,
      "grad_norm": 0.04040497913956642,
      "learning_rate": 1.1159685763395111e-05,
      "loss": 1.01,
      "step": 272
    },
    {
      "epoch": 0.8584905660377359,
      "grad_norm": 0.036462146788835526,
      "learning_rate": 1.0688498381320855e-05,
      "loss": 1.0137,
      "step": 273
    },
    {
      "epoch": 0.8616352201257862,
      "grad_norm": 0.03783508017659187,
      "learning_rate": 1.0226912032836611e-05,
      "loss": 1.01,
      "step": 274
    },
    {
      "epoch": 0.8647798742138365,
      "grad_norm": 0.036553751677274704,
      "learning_rate": 9.774976338718677e-06,
      "loss": 1.035,
      "step": 275
    },
    {
      "epoch": 0.8679245283018868,
      "grad_norm": 0.038083869963884354,
      "learning_rate": 9.332739882292752e-06,
      "loss": 1.0514,
      "step": 276
    },
    {
      "epoch": 0.8710691823899371,
      "grad_norm": 0.036774635314941406,
      "learning_rate": 8.900250204211514e-06,
      "loss": 1.0211,
      "step": 277
    },
    {
      "epoch": 0.8742138364779874,
      "grad_norm": 0.038534294813871384,
      "learning_rate": 8.47755379734373e-06,
      "loss": 1.011,
      "step": 278
    },
    {
      "epoch": 0.8773584905660378,
      "grad_norm": 0.036409780383110046,
      "learning_rate": 8.064696101776358e-06,
      "loss": 1.0247,
      "step": 279
    },
    {
      "epoch": 0.8805031446540881,
      "grad_norm": 0.04032037407159805,
      "learning_rate": 7.661721499929753e-06,
      "loss": 1.0205,
      "step": 280
    },
    {
      "epoch": 0.8836477987421384,
      "grad_norm": 0.03601597249507904,
      "learning_rate": 7.2686733117863784e-06,
      "loss": 1.0278,
      "step": 281
    },
    {
      "epoch": 0.8867924528301887,
      "grad_norm": 0.03768506646156311,
      "learning_rate": 6.8855937902340576e-06,
      "loss": 1.0256,
      "step": 282
    },
    {
      "epoch": 0.889937106918239,
      "grad_norm": 0.0377877801656723,
      "learning_rate": 6.512524116523633e-06,
      "loss": 1.0238,
      "step": 283
    },
    {
      "epoch": 0.8930817610062893,
      "grad_norm": 0.038199830800294876,
      "learning_rate": 6.149504395842087e-06,
      "loss": 1.0335,
      "step": 284
    },
    {
      "epoch": 0.8962264150943396,
      "grad_norm": 0.03672681748867035,
      "learning_rate": 5.7965736530010916e-06,
      "loss": 1.0089,
      "step": 285
    },
    {
      "epoch": 0.89937106918239,
      "grad_norm": 0.03878109157085419,
      "learning_rate": 5.453769828241872e-06,
      "loss": 1.0007,
      "step": 286
    },
    {
      "epoch": 0.9025157232704403,
      "grad_norm": 0.03794073313474655,
      "learning_rate": 5.121129773156663e-06,
      "loss": 1.0507,
      "step": 287
    },
    {
      "epoch": 0.9056603773584906,
      "grad_norm": 0.03933648765087128,
      "learning_rate": 4.798689246727006e-06,
      "loss": 1.0266,
      "step": 288
    },
    {
      "epoch": 0.9088050314465409,
      "grad_norm": 0.03670027107000351,
      "learning_rate": 4.486482911479839e-06,
      "loss": 1.0367,
      "step": 289
    },
    {
      "epoch": 0.9119496855345912,
      "grad_norm": 0.037638451904058456,
      "learning_rate": 4.184544329761009e-06,
      "loss": 1.0401,
      "step": 290
    },
    {
      "epoch": 0.9150943396226415,
      "grad_norm": 0.03804009407758713,
      "learning_rate": 3.892905960127546e-06,
      "loss": 0.9959,
      "step": 291
    },
    {
      "epoch": 0.9182389937106918,
      "grad_norm": 0.04068181291222572,
      "learning_rate": 3.611599153858214e-06,
      "loss": 1.0631,
      "step": 292
    },
    {
      "epoch": 0.9213836477987422,
      "grad_norm": 0.036831971257925034,
      "learning_rate": 3.3406541515832003e-06,
      "loss": 1.0072,
      "step": 293
    },
    {
      "epoch": 0.9245283018867925,
      "grad_norm": 0.03732535243034363,
      "learning_rate": 3.0801000800333877e-06,
      "loss": 1.0091,
      "step": 294
    },
    {
      "epoch": 0.9276729559748428,
      "grad_norm": 0.03764468804001808,
      "learning_rate": 2.8299649489090475e-06,
      "loss": 1.03,
      "step": 295
    },
    {
      "epoch": 0.9308176100628931,
      "grad_norm": 0.03870733082294464,
      "learning_rate": 2.590275647868867e-06,
      "loss": 1.0281,
      "step": 296
    },
    {
      "epoch": 0.9339622641509434,
      "grad_norm": 0.03789420798420906,
      "learning_rate": 2.3610579436393e-06,
      "loss": 1.0479,
      "step": 297
    },
    {
      "epoch": 0.9371069182389937,
      "grad_norm": 0.039737775921821594,
      "learning_rate": 2.1423364772445887e-06,
      "loss": 1.0584,
      "step": 298
    },
    {
      "epoch": 0.940251572327044,
      "grad_norm": 0.03715479001402855,
      "learning_rate": 1.9341347613579087e-06,
      "loss": 1.0168,
      "step": 299
    },
    {
      "epoch": 0.9433962264150944,
      "grad_norm": 0.03719014674425125,
      "learning_rate": 1.7364751777736332e-06,
      "loss": 0.9956,
      "step": 300
    },
    {
      "epoch": 0.9465408805031447,
      "grad_norm": 0.03842631354928017,
      "learning_rate": 1.5493789750014031e-06,
      "loss": 1.0437,
      "step": 301
    },
    {
      "epoch": 0.949685534591195,
      "grad_norm": 0.038147032260894775,
      "learning_rate": 1.3728662659818204e-06,
      "loss": 1.033,
      "step": 302
    },
    {
      "epoch": 0.9528301886792453,
      "grad_norm": 0.038387030363082886,
      "learning_rate": 1.2069560259243328e-06,
      "loss": 1.0002,
      "step": 303
    },
    {
      "epoch": 0.9559748427672956,
      "grad_norm": 0.03752262517809868,
      "learning_rate": 1.0516660902673448e-06,
      "loss": 1.0258,
      "step": 304
    },
    {
      "epoch": 0.9591194968553459,
      "grad_norm": 0.03641341254115105,
      "learning_rate": 9.070131527609604e-07,
      "loss": 1.0259,
      "step": 305
    },
    {
      "epoch": 0.9622641509433962,
      "grad_norm": 0.03814227133989334,
      "learning_rate": 7.730127636723539e-07,
      "loss": 0.9939,
      "step": 306
    },
    {
      "epoch": 0.9654088050314465,
      "grad_norm": 0.03757226839661598,
      "learning_rate": 6.496793281141056e-07,
      "loss": 0.988,
      "step": 307
    },
    {
      "epoch": 0.9685534591194969,
      "grad_norm": 0.03574439138174057,
      "learning_rate": 5.370261044956971e-07,
      "loss": 1.0257,
      "step": 308
    },
    {
      "epoch": 0.9716981132075472,
      "grad_norm": 0.03881550952792168,
      "learning_rate": 4.3506520309813947e-07,
      "loss": 1.0399,
      "step": 309
    },
    {
      "epoch": 0.9748427672955975,
      "grad_norm": 0.03827887400984764,
      "learning_rate": 3.4380758477219333e-07,
      "loss": 1.0163,
      "step": 310
    },
    {
      "epoch": 0.9779874213836478,
      "grad_norm": 0.03611140325665474,
      "learning_rate": 2.6326305976001055e-07,
      "loss": 1.0014,
      "step": 311
    },
    {
      "epoch": 0.9811320754716981,
      "grad_norm": 0.037388019263744354,
      "learning_rate": 1.9344028664056713e-07,
      "loss": 1.0223,
      "step": 312
    },
    {
      "epoch": 0.9842767295597484,
      "grad_norm": 0.041428446769714355,
      "learning_rate": 1.3434677139885222e-07,
      "loss": 1.0327,
      "step": 313
    },
    {
      "epoch": 0.9874213836477987,
      "grad_norm": 0.036151085048913956,
      "learning_rate": 8.598886661895788e-08,
      "loss": 1.0306,
      "step": 314
    },
    {
      "epoch": 0.9905660377358491,
      "grad_norm": 0.03780834376811981,
      "learning_rate": 4.837177080119215e-08,
      "loss": 1.0196,
      "step": 315
    },
    {
      "epoch": 0.9937106918238994,
      "grad_norm": 0.039815668016672134,
      "learning_rate": 2.1499527803214846e-08,
      "loss": 1.045,
      "step": 316
    },
    {
      "epoch": 0.9968553459119497,
      "grad_norm": 0.03660481423139572,
      "learning_rate": 5.375026405352035e-09,
      "loss": 1.016,
      "step": 317
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.03775152564048767,
      "learning_rate": 0.0,
      "loss": 1.015,
      "step": 318
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.0362061262130737,
      "eval_runtime": 856.4472,
      "eval_samples_per_second": 29.006,
      "eval_steps_per_second": 3.627,
      "step": 318
    }
  ],
  "logging_steps": 1,
  "max_steps": 318,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.9003005260988416e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}