{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 532,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 1.174624726176262,
      "epoch": 0.0018827959519887032,
      "grad_norm": 0.3589564859867096,
      "learning_rate": 0.0005,
      "loss": 1.7667,
      "mean_token_accuracy": 0.6097231954336166,
      "num_tokens": 26212.0,
      "step": 1
    },
    {
      "entropy": 1.3834485709667206,
      "epoch": 0.0037655919039774064,
      "grad_norm": 0.273681104183197,
      "learning_rate": 0.000499812030075188,
      "loss": 1.6137,
      "mean_token_accuracy": 0.6240904033184052,
      "num_tokens": 53331.0,
      "step": 2
    },
    {
      "entropy": 2.3064600229263306,
      "epoch": 0.00564838785596611,
      "grad_norm": 0.8047769665718079,
      "learning_rate": 0.0004996240601503759,
      "loss": 1.6899,
      "mean_token_accuracy": 0.6088793724775314,
      "num_tokens": 80291.0,
      "step": 3
    },
    {
      "entropy": 1.630955085158348,
      "epoch": 0.007531183807954813,
      "grad_norm": 0.30714720487594604,
      "learning_rate": 0.0004994360902255639,
      "loss": 1.5608,
      "mean_token_accuracy": 0.6291212365031242,
      "num_tokens": 106966.0,
      "step": 4
    },
    {
      "entropy": 1.3567735850811005,
      "epoch": 0.009413979759943516,
      "grad_norm": 0.2066618800163269,
      "learning_rate": 0.0004992481203007519,
      "loss": 1.4887,
      "mean_token_accuracy": 0.6415289863944054,
      "num_tokens": 132786.0,
      "step": 5
    },
    {
      "entropy": 1.361013576388359,
      "epoch": 0.01129677571193222,
      "grad_norm": 0.24627672135829926,
      "learning_rate": 0.0004990601503759398,
      "loss": 1.4956,
      "mean_token_accuracy": 0.6329040080308914,
      "num_tokens": 157854.0,
      "step": 6
    },
    {
      "entropy": 1.4551365226507187,
      "epoch": 0.013179571663920923,
      "grad_norm": 0.24504677951335907,
      "learning_rate": 0.0004988721804511278,
      "loss": 1.4555,
      "mean_token_accuracy": 0.6410629153251648,
      "num_tokens": 183628.0,
      "step": 7
    },
    {
      "entropy": 1.558847650885582,
      "epoch": 0.015062367615909626,
      "grad_norm": 0.24714401364326477,
      "learning_rate": 0.0004986842105263158,
      "loss": 1.4574,
      "mean_token_accuracy": 0.6385244429111481,
      "num_tokens": 212024.0,
      "step": 8
    },
    {
      "entropy": 1.4725914895534515,
      "epoch": 0.016945163567898328,
      "grad_norm": 0.14686766266822815,
      "learning_rate": 0.0004984962406015037,
      "loss": 1.4077,
      "mean_token_accuracy": 0.6496255323290825,
      "num_tokens": 239247.0,
      "step": 9
    },
    {
      "entropy": 1.399958148598671,
      "epoch": 0.01882795951988703,
      "grad_norm": 0.2573543190956116,
      "learning_rate": 0.0004983082706766917,
      "loss": 1.4648,
      "mean_token_accuracy": 0.6321976333856583,
      "num_tokens": 265365.0,
      "step": 10
    },
    {
      "entropy": 1.3477602005004883,
      "epoch": 0.020710755471875734,
      "grad_norm": 0.19095759093761444,
      "learning_rate": 0.0004981203007518797,
      "loss": 1.3914,
      "mean_token_accuracy": 0.6472064480185509,
      "num_tokens": 292664.0,
      "step": 11
    },
    {
      "entropy": 1.3985529839992523,
      "epoch": 0.02259355142386444,
      "grad_norm": 0.12443722784519196,
      "learning_rate": 0.0004979323308270676,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6470160931348801,
      "num_tokens": 318823.0,
      "step": 12
    },
    {
      "entropy": 1.4100047498941422,
      "epoch": 0.024476347375853143,
      "grad_norm": 0.18163365125656128,
      "learning_rate": 0.0004977443609022556,
      "loss": 1.3475,
      "mean_token_accuracy": 0.6554316207766533,
      "num_tokens": 345276.0,
      "step": 13
    },
    {
      "entropy": 1.3673983961343765,
      "epoch": 0.026359143327841845,
      "grad_norm": 0.21292470395565033,
      "learning_rate": 0.0004975563909774436,
      "loss": 1.3423,
      "mean_token_accuracy": 0.6571086272597313,
      "num_tokens": 372290.0,
      "step": 14
    },
    {
      "entropy": 1.3170630186796188,
      "epoch": 0.028241939279830548,
      "grad_norm": 0.14680063724517822,
      "learning_rate": 0.0004973684210526315,
      "loss": 1.3433,
      "mean_token_accuracy": 0.6587843522429466,
      "num_tokens": 398806.0,
      "step": 15
    },
    {
      "entropy": 1.4363876283168793,
      "epoch": 0.03012473523181925,
      "grad_norm": 0.1492491513490677,
      "learning_rate": 0.0004971804511278195,
      "loss": 1.3881,
      "mean_token_accuracy": 0.6493127718567848,
      "num_tokens": 427973.0,
      "step": 16
    },
    {
      "entropy": 1.3928384333848953,
      "epoch": 0.032007531183807954,
      "grad_norm": 0.21353831887245178,
      "learning_rate": 0.0004969924812030076,
      "loss": 1.3303,
      "mean_token_accuracy": 0.6532666012644768,
      "num_tokens": 455705.0,
      "step": 17
    },
    {
      "entropy": 1.3039959222078323,
      "epoch": 0.033890327135796657,
      "grad_norm": 0.12421785295009613,
      "learning_rate": 0.0004968045112781954,
      "loss": 1.3078,
      "mean_token_accuracy": 0.6589679047465324,
      "num_tokens": 481697.0,
      "step": 18
    },
    {
      "entropy": 1.323414146900177,
      "epoch": 0.03577312308778536,
      "grad_norm": 0.13252823054790497,
      "learning_rate": 0.0004966165413533834,
      "loss": 1.3682,
      "mean_token_accuracy": 0.6478805840015411,
      "num_tokens": 508637.0,
      "step": 19
    },
    {
      "entropy": 1.320784792304039,
      "epoch": 0.03765591903977406,
      "grad_norm": 0.13821907341480255,
      "learning_rate": 0.0004964285714285715,
      "loss": 1.3087,
      "mean_token_accuracy": 0.6556096524000168,
      "num_tokens": 533762.0,
      "step": 20
    },
    {
      "entropy": 1.435991793870926,
      "epoch": 0.039538714991762765,
      "grad_norm": 0.13946449756622314,
      "learning_rate": 0.0004962406015037594,
      "loss": 1.4031,
      "mean_token_accuracy": 0.6474809646606445,
      "num_tokens": 558068.0,
      "step": 21
    },
    {
      "entropy": 1.3843661397695541,
      "epoch": 0.04142151094375147,
      "grad_norm": 0.14075031876564026,
      "learning_rate": 0.0004960526315789473,
      "loss": 1.3313,
      "mean_token_accuracy": 0.6577248424291611,
      "num_tokens": 585582.0,
      "step": 22
    },
    {
      "entropy": 1.3438803404569626,
      "epoch": 0.04330430689574018,
      "grad_norm": 0.12071845680475235,
      "learning_rate": 0.0004958646616541354,
      "loss": 1.3205,
      "mean_token_accuracy": 0.6598646715283394,
      "num_tokens": 614078.0,
      "step": 23
    },
    {
      "entropy": 1.2872049808502197,
      "epoch": 0.04518710284772888,
      "grad_norm": 0.13585081696510315,
      "learning_rate": 0.0004956766917293234,
      "loss": 1.2847,
      "mean_token_accuracy": 0.6646199747920036,
      "num_tokens": 641604.0,
      "step": 24
    },
    {
      "entropy": 1.4031487703323364,
      "epoch": 0.04706989879971758,
      "grad_norm": 0.16168682277202606,
      "learning_rate": 0.0004954887218045112,
      "loss": 1.3906,
      "mean_token_accuracy": 0.6470670253038406,
      "num_tokens": 668099.0,
      "step": 25
    },
    {
      "entropy": 1.3954781144857407,
      "epoch": 0.048952694751706285,
      "grad_norm": 0.1519748568534851,
      "learning_rate": 0.0004953007518796993,
      "loss": 1.3143,
      "mean_token_accuracy": 0.6569681242108345,
      "num_tokens": 693467.0,
      "step": 26
    },
    {
      "entropy": 1.4201241582632065,
      "epoch": 0.05083549070369499,
      "grad_norm": 0.12228523939847946,
      "learning_rate": 0.0004951127819548873,
      "loss": 1.3585,
      "mean_token_accuracy": 0.6522250324487686,
      "num_tokens": 719428.0,
      "step": 27
    },
    {
      "entropy": 1.3096809834241867,
      "epoch": 0.05271828665568369,
      "grad_norm": 0.12990325689315796,
      "learning_rate": 0.0004949248120300752,
      "loss": 1.3363,
      "mean_token_accuracy": 0.6576437503099442,
      "num_tokens": 743498.0,
      "step": 28
    },
    {
      "entropy": 1.2695416510105133,
      "epoch": 0.054601082607672394,
      "grad_norm": 0.12629908323287964,
      "learning_rate": 0.0004947368421052632,
      "loss": 1.256,
      "mean_token_accuracy": 0.6671914085745811,
      "num_tokens": 771083.0,
      "step": 29
    },
    {
      "entropy": 1.3144675344228745,
      "epoch": 0.056483878559661096,
      "grad_norm": 0.13920928537845612,
      "learning_rate": 0.0004945488721804512,
      "loss": 1.2797,
      "mean_token_accuracy": 0.6726761981844902,
      "num_tokens": 798194.0,
      "step": 30
    },
    {
      "entropy": 1.3235575556755066,
      "epoch": 0.0583666745116498,
      "grad_norm": 0.1421487033367157,
      "learning_rate": 0.0004943609022556391,
      "loss": 1.3095,
      "mean_token_accuracy": 0.6596867814660072,
      "num_tokens": 823348.0,
      "step": 31
    },
    {
      "entropy": 1.2517389357089996,
      "epoch": 0.0602494704636385,
      "grad_norm": 0.11075025051832199,
      "learning_rate": 0.0004941729323308271,
      "loss": 1.2458,
      "mean_token_accuracy": 0.6723818778991699,
      "num_tokens": 849713.0,
      "step": 32
    },
    {
      "entropy": 1.2159670144319534,
      "epoch": 0.062132266415627205,
      "grad_norm": 0.11285679787397385,
      "learning_rate": 0.0004939849624060151,
      "loss": 1.2158,
      "mean_token_accuracy": 0.6808358430862427,
      "num_tokens": 876659.0,
      "step": 33
    },
    {
      "entropy": 1.2742353826761246,
      "epoch": 0.06401506236761591,
      "grad_norm": 0.1200110912322998,
      "learning_rate": 0.000493796992481203,
      "loss": 1.2414,
      "mean_token_accuracy": 0.6697632297873497,
      "num_tokens": 904196.0,
      "step": 34
    },
    {
      "entropy": 1.3724654912948608,
      "epoch": 0.06589785831960461,
      "grad_norm": 0.11141709238290787,
      "learning_rate": 0.000493609022556391,
      "loss": 1.3037,
      "mean_token_accuracy": 0.6641954258084297,
      "num_tokens": 930650.0,
      "step": 35
    },
    {
      "entropy": 1.332644298672676,
      "epoch": 0.06778065427159331,
      "grad_norm": 0.11270242929458618,
      "learning_rate": 0.000493421052631579,
      "loss": 1.2723,
      "mean_token_accuracy": 0.6652832478284836,
      "num_tokens": 958361.0,
      "step": 36
    },
    {
      "entropy": 1.2781042605638504,
      "epoch": 0.06966345022358202,
      "grad_norm": 0.12608197331428528,
      "learning_rate": 0.0004932330827067669,
      "loss": 1.2664,
      "mean_token_accuracy": 0.6701500117778778,
      "num_tokens": 982981.0,
      "step": 37
    },
    {
      "entropy": 1.2652703523635864,
      "epoch": 0.07154624617557072,
      "grad_norm": 0.11680380254983902,
      "learning_rate": 0.0004930451127819549,
      "loss": 1.2363,
      "mean_token_accuracy": 0.6758281961083412,
      "num_tokens": 1010214.0,
      "step": 38
    },
    {
      "entropy": 1.2895056456327438,
      "epoch": 0.07342904212755942,
      "grad_norm": 0.13060909509658813,
      "learning_rate": 0.0004928571428571429,
      "loss": 1.2921,
      "mean_token_accuracy": 0.6617036908864975,
      "num_tokens": 1036007.0,
      "step": 39
    },
    {
      "entropy": 1.2508063912391663,
      "epoch": 0.07531183807954812,
      "grad_norm": 0.11048955470323563,
      "learning_rate": 0.0004926691729323308,
      "loss": 1.2388,
      "mean_token_accuracy": 0.6743078008294106,
      "num_tokens": 1064839.0,
      "step": 40
    },
    {
      "entropy": 1.2910813689231873,
      "epoch": 0.07719463403153683,
      "grad_norm": 0.12634366750717163,
      "learning_rate": 0.0004924812030075188,
      "loss": 1.2923,
      "mean_token_accuracy": 0.6658936813473701,
      "num_tokens": 1089267.0,
      "step": 41
    },
    {
      "entropy": 1.314329817891121,
      "epoch": 0.07907742998352553,
      "grad_norm": 0.11990135908126831,
      "learning_rate": 0.0004922932330827068,
      "loss": 1.2823,
      "mean_token_accuracy": 0.6621334031224251,
      "num_tokens": 1114747.0,
      "step": 42
    },
    {
      "entropy": 1.372491493821144,
      "epoch": 0.08096022593551423,
      "grad_norm": 0.14962127804756165,
      "learning_rate": 0.0004921052631578947,
      "loss": 1.3012,
      "mean_token_accuracy": 0.6624018624424934,
      "num_tokens": 1140568.0,
      "step": 43
    },
    {
      "entropy": 1.3109306246042252,
      "epoch": 0.08284302188750294,
      "grad_norm": 0.1251574158668518,
      "learning_rate": 0.0004919172932330827,
      "loss": 1.2753,
      "mean_token_accuracy": 0.6643748208880424,
      "num_tokens": 1166132.0,
      "step": 44
    },
    {
      "entropy": 1.2547127306461334,
      "epoch": 0.08472581783949165,
      "grad_norm": 0.14988984167575836,
      "learning_rate": 0.0004917293233082707,
      "loss": 1.2591,
      "mean_token_accuracy": 0.6667659133672714,
      "num_tokens": 1191773.0,
      "step": 45
    },
    {
      "entropy": 1.2385195791721344,
      "epoch": 0.08660861379148035,
      "grad_norm": 0.14218594133853912,
      "learning_rate": 0.0004915413533834586,
      "loss": 1.2551,
      "mean_token_accuracy": 0.67237289249897,
      "num_tokens": 1217928.0,
      "step": 46
    },
    {
      "entropy": 1.286237582564354,
      "epoch": 0.08849140974346906,
      "grad_norm": 0.1285715401172638,
      "learning_rate": 0.0004913533834586466,
      "loss": 1.228,
      "mean_token_accuracy": 0.6695188358426094,
      "num_tokens": 1243853.0,
      "step": 47
    },
    {
      "entropy": 1.2577073574066162,
      "epoch": 0.09037420569545776,
      "grad_norm": 0.1297583132982254,
      "learning_rate": 0.0004911654135338346,
      "loss": 1.1889,
      "mean_token_accuracy": 0.6802271753549576,
      "num_tokens": 1270883.0,
      "step": 48
    },
    {
      "entropy": 1.2520407736301422,
      "epoch": 0.09225700164744646,
      "grad_norm": 0.10652397572994232,
      "learning_rate": 0.0004909774436090225,
      "loss": 1.2295,
      "mean_token_accuracy": 0.675907552242279,
      "num_tokens": 1296937.0,
      "step": 49
    },
    {
      "entropy": 1.2889134734869003,
      "epoch": 0.09413979759943517,
      "grad_norm": 0.15478400886058807,
      "learning_rate": 0.0004907894736842106,
      "loss": 1.325,
      "mean_token_accuracy": 0.656628705561161,
      "num_tokens": 1323691.0,
      "step": 50
    },
    {
      "entropy": 1.319000005722046,
      "epoch": 0.09602259355142387,
      "grad_norm": 0.14395709335803986,
      "learning_rate": 0.0004906015037593985,
      "loss": 1.2879,
      "mean_token_accuracy": 0.6644657775759697,
      "num_tokens": 1347574.0,
      "step": 51
    },
    {
      "entropy": 1.265960842370987,
      "epoch": 0.09790538950341257,
      "grad_norm": 0.1301705241203308,
      "learning_rate": 0.0004904135338345864,
      "loss": 1.1913,
      "mean_token_accuracy": 0.6857202649116516,
      "num_tokens": 1376965.0,
      "step": 52
    },
    {
      "entropy": 1.2671979069709778,
      "epoch": 0.09978818545540127,
      "grad_norm": 0.12502525746822357,
      "learning_rate": 0.0004902255639097745,
      "loss": 1.2473,
      "mean_token_accuracy": 0.666202001273632,
      "num_tokens": 1402456.0,
      "step": 53
    },
    {
      "entropy": 1.2768708020448685,
      "epoch": 0.10167098140738998,
      "grad_norm": 0.1106332466006279,
      "learning_rate": 0.0004900375939849624,
      "loss": 1.2406,
      "mean_token_accuracy": 0.6731417253613472,
      "num_tokens": 1430744.0,
      "step": 54
    },
    {
      "entropy": 1.2286315560340881,
      "epoch": 0.10355377735937868,
      "grad_norm": 0.12362819164991379,
      "learning_rate": 0.0004898496240601503,
      "loss": 1.2452,
      "mean_token_accuracy": 0.6803877055644989,
      "num_tokens": 1459596.0,
      "step": 55
    },
    {
      "entropy": 1.2663686275482178,
      "epoch": 0.10543657331136738,
      "grad_norm": 0.11787568777799606,
      "learning_rate": 0.0004896616541353384,
      "loss": 1.2594,
      "mean_token_accuracy": 0.6688775643706322,
      "num_tokens": 1487663.0,
      "step": 56
    },
    {
      "entropy": 1.2797971814870834,
      "epoch": 0.10731936926335608,
      "grad_norm": 0.11497815698385239,
      "learning_rate": 0.0004894736842105264,
      "loss": 1.2556,
      "mean_token_accuracy": 0.6690255850553513,
      "num_tokens": 1514365.0,
      "step": 57
    },
    {
      "entropy": 1.2839107066392899,
      "epoch": 0.10920216521534479,
      "grad_norm": 0.11505855619907379,
      "learning_rate": 0.0004892857142857142,
      "loss": 1.2213,
      "mean_token_accuracy": 0.6812370792031288,
      "num_tokens": 1542885.0,
      "step": 58
    },
    {
      "entropy": 1.290139302611351,
      "epoch": 0.11108496116733349,
      "grad_norm": 0.11844398826360703,
      "learning_rate": 0.0004890977443609023,
      "loss": 1.2462,
      "mean_token_accuracy": 0.6695830523967743,
      "num_tokens": 1567898.0,
      "step": 59
    },
    {
      "entropy": 1.2590511292219162,
      "epoch": 0.11296775711932219,
      "grad_norm": 0.12767820060253143,
      "learning_rate": 0.0004889097744360903,
      "loss": 1.2515,
      "mean_token_accuracy": 0.6738757342100143,
      "num_tokens": 1594742.0,
      "step": 60
    },
    {
      "entropy": 1.2260379791259766,
      "epoch": 0.1148505530713109,
      "grad_norm": 0.11811124533414841,
      "learning_rate": 0.0004887218045112781,
      "loss": 1.1979,
      "mean_token_accuracy": 0.6808087155222893,
      "num_tokens": 1620685.0,
      "step": 61
    },
    {
      "entropy": 1.301318883895874,
      "epoch": 0.1167333490232996,
      "grad_norm": 0.13785120844841003,
      "learning_rate": 0.0004885338345864662,
      "loss": 1.3155,
      "mean_token_accuracy": 0.6592775583267212,
      "num_tokens": 1646541.0,
      "step": 62
    },
    {
      "entropy": 1.2704945504665375,
      "epoch": 0.1186161449752883,
      "grad_norm": 0.11612152308225632,
      "learning_rate": 0.0004883458646616542,
      "loss": 1.2429,
      "mean_token_accuracy": 0.6690341830253601,
      "num_tokens": 1674445.0,
      "step": 63
    },
    {
      "entropy": 1.2772111147642136,
      "epoch": 0.120498940927277,
      "grad_norm": 0.12045788764953613,
      "learning_rate": 0.00048815789473684215,
      "loss": 1.2114,
      "mean_token_accuracy": 0.6808006837964058,
      "num_tokens": 1701277.0,
      "step": 64
    },
    {
      "entropy": 1.2712904959917068,
      "epoch": 0.1223817368792657,
      "grad_norm": 0.11429794877767563,
      "learning_rate": 0.00048796992481203006,
      "loss": 1.216,
      "mean_token_accuracy": 0.6720417365431786,
      "num_tokens": 1728984.0,
      "step": 65
    },
    {
      "entropy": 1.3161986768245697,
      "epoch": 0.12426453283125441,
      "grad_norm": 0.1338111013174057,
      "learning_rate": 0.00048778195488721803,
      "loss": 1.3229,
      "mean_token_accuracy": 0.6602049320936203,
      "num_tokens": 1755598.0,
      "step": 66
    },
    {
      "entropy": 1.2473317682743073,
      "epoch": 0.1261473287832431,
      "grad_norm": 0.10488025099039078,
      "learning_rate": 0.00048759398496240605,
      "loss": 1.2263,
      "mean_token_accuracy": 0.6753234788775444,
      "num_tokens": 1783417.0,
      "step": 67
    },
    {
      "entropy": 1.2551011592149734,
      "epoch": 0.12803012473523182,
      "grad_norm": 0.11638512462377548,
      "learning_rate": 0.000487406015037594,
      "loss": 1.224,
      "mean_token_accuracy": 0.6783930733799934,
      "num_tokens": 1809462.0,
      "step": 68
    },
    {
      "entropy": 1.2382186502218246,
      "epoch": 0.12991292068722052,
      "grad_norm": 0.14887025952339172,
      "learning_rate": 0.00048721804511278193,
      "loss": 1.2175,
      "mean_token_accuracy": 0.6787804737687111,
      "num_tokens": 1835642.0,
      "step": 69
    },
    {
      "entropy": 1.274851605296135,
      "epoch": 0.13179571663920922,
      "grad_norm": 0.13403619825839996,
      "learning_rate": 0.00048703007518796995,
      "loss": 1.2662,
      "mean_token_accuracy": 0.6663196384906769,
      "num_tokens": 1859904.0,
      "step": 70
    },
    {
      "entropy": 1.303640365600586,
      "epoch": 0.13367851259119792,
      "grad_norm": 0.11801115423440933,
      "learning_rate": 0.0004868421052631579,
      "loss": 1.3138,
      "mean_token_accuracy": 0.6627907082438469,
      "num_tokens": 1886915.0,
      "step": 71
    },
    {
      "entropy": 1.2814981341362,
      "epoch": 0.13556130854318663,
      "grad_norm": 0.12543627619743347,
      "learning_rate": 0.00048665413533834583,
      "loss": 1.2599,
      "mean_token_accuracy": 0.6737553998827934,
      "num_tokens": 1912683.0,
      "step": 72
    },
    {
      "entropy": 1.2715606987476349,
      "epoch": 0.13744410449517533,
      "grad_norm": 0.11963653564453125,
      "learning_rate": 0.00048646616541353385,
      "loss": 1.2075,
      "mean_token_accuracy": 0.6787137389183044,
      "num_tokens": 1940455.0,
      "step": 73
    },
    {
      "entropy": 1.2765703648328781,
      "epoch": 0.13932690044716403,
      "grad_norm": 0.13952264189720154,
      "learning_rate": 0.0004862781954887218,
      "loss": 1.2043,
      "mean_token_accuracy": 0.6798917651176453,
      "num_tokens": 1965949.0,
      "step": 74
    },
    {
      "entropy": 1.229781836271286,
      "epoch": 0.14120969639915273,
      "grad_norm": 0.11769476532936096,
      "learning_rate": 0.0004860902255639098,
      "loss": 1.2063,
      "mean_token_accuracy": 0.6715990677475929,
      "num_tokens": 1992293.0,
      "step": 75
    },
    {
      "entropy": 1.1944819241762161,
      "epoch": 0.14309249235114144,
      "grad_norm": 0.12095087021589279,
      "learning_rate": 0.00048590225563909775,
      "loss": 1.217,
      "mean_token_accuracy": 0.6814620569348335,
      "num_tokens": 2019182.0,
      "step": 76
    },
    {
      "entropy": 1.2649260014295578,
      "epoch": 0.14497528830313014,
      "grad_norm": 0.12220579385757446,
      "learning_rate": 0.0004857142857142857,
      "loss": 1.2827,
      "mean_token_accuracy": 0.6689692661166191,
      "num_tokens": 2045357.0,
      "step": 77
    },
    {
      "entropy": 1.2532286047935486,
      "epoch": 0.14685808425511884,
      "grad_norm": 0.12137361615896225,
      "learning_rate": 0.0004855263157894737,
      "loss": 1.202,
      "mean_token_accuracy": 0.6808355078101158,
      "num_tokens": 2071015.0,
      "step": 78
    },
    {
      "entropy": 1.334955409169197,
      "epoch": 0.14874088020710755,
      "grad_norm": 0.12754660844802856,
      "learning_rate": 0.0004853383458646617,
      "loss": 1.2514,
      "mean_token_accuracy": 0.6797578409314156,
      "num_tokens": 2096831.0,
      "step": 79
    },
    {
      "entropy": 1.2261384725570679,
      "epoch": 0.15062367615909625,
      "grad_norm": 0.11096950620412827,
      "learning_rate": 0.0004851503759398496,
      "loss": 1.1933,
      "mean_token_accuracy": 0.6880421414971352,
      "num_tokens": 2126421.0,
      "step": 80
    },
    {
      "entropy": 1.2615373581647873,
      "epoch": 0.15250647211108495,
      "grad_norm": 0.13106736540794373,
      "learning_rate": 0.0004849624060150376,
      "loss": 1.2198,
      "mean_token_accuracy": 0.6821138635277748,
      "num_tokens": 2153303.0,
      "step": 81
    },
    {
      "entropy": 1.2859619706869125,
      "epoch": 0.15438926806307365,
      "grad_norm": 0.13115623593330383,
      "learning_rate": 0.0004847744360902256,
      "loss": 1.2783,
      "mean_token_accuracy": 0.6689222902059555,
      "num_tokens": 2180250.0,
      "step": 82
    },
    {
      "entropy": 1.248913735151291,
      "epoch": 0.15627206401506236,
      "grad_norm": 0.11291101574897766,
      "learning_rate": 0.0004845864661654135,
      "loss": 1.2351,
      "mean_token_accuracy": 0.6730126142501831,
      "num_tokens": 2207001.0,
      "step": 83
    },
    {
      "entropy": 1.2413169145584106,
      "epoch": 0.15815485996705106,
      "grad_norm": 0.1277051717042923,
      "learning_rate": 0.0004843984962406015,
      "loss": 1.2159,
      "mean_token_accuracy": 0.681744784116745,
      "num_tokens": 2232587.0,
      "step": 84
    },
    {
      "entropy": 1.2155817747116089,
      "epoch": 0.16003765591903976,
      "grad_norm": 0.15200501680374146,
      "learning_rate": 0.0004842105263157895,
      "loss": 1.1881,
      "mean_token_accuracy": 0.6845081895589828,
      "num_tokens": 2260040.0,
      "step": 85
    },
    {
      "entropy": 1.1750262528657913,
      "epoch": 0.16192045187102846,
      "grad_norm": 0.13496170938014984,
      "learning_rate": 0.0004840225563909775,
      "loss": 1.1566,
      "mean_token_accuracy": 0.6882026270031929,
      "num_tokens": 2286811.0,
      "step": 86
    },
    {
      "entropy": 1.2582080215215683,
      "epoch": 0.16380324782301717,
      "grad_norm": 0.12751278281211853,
      "learning_rate": 0.0004838345864661654,
      "loss": 1.2334,
      "mean_token_accuracy": 0.6756840199232101,
      "num_tokens": 2312376.0,
      "step": 87
    },
    {
      "entropy": 1.2530706375837326,
      "epoch": 0.16568604377500587,
      "grad_norm": 0.12347429990768433,
      "learning_rate": 0.0004836466165413534,
      "loss": 1.2358,
      "mean_token_accuracy": 0.6713104099035263,
      "num_tokens": 2338959.0,
      "step": 88
    },
    {
      "entropy": 1.2693426012992859,
      "epoch": 0.1675688397269946,
      "grad_norm": 0.16009417176246643,
      "learning_rate": 0.0004834586466165414,
      "loss": 1.2511,
      "mean_token_accuracy": 0.6736921593546867,
      "num_tokens": 2366183.0,
      "step": 89
    },
    {
      "entropy": 1.255973756313324,
      "epoch": 0.1694516356789833,
      "grad_norm": 0.12181756645441055,
      "learning_rate": 0.00048327067669172934,
      "loss": 1.2052,
      "mean_token_accuracy": 0.6734501421451569,
      "num_tokens": 2392856.0,
      "step": 90
    },
    {
      "entropy": 1.2562214732170105,
      "epoch": 0.171334431630972,
      "grad_norm": 0.12082800269126892,
      "learning_rate": 0.0004830827067669173,
      "loss": 1.2519,
      "mean_token_accuracy": 0.6692837849259377,
      "num_tokens": 2419897.0,
      "step": 91
    },
    {
      "entropy": 1.1730956435203552,
      "epoch": 0.1732172275829607,
      "grad_norm": 0.11969847977161407,
      "learning_rate": 0.0004828947368421053,
      "loss": 1.1305,
      "mean_token_accuracy": 0.6944040432572365,
      "num_tokens": 2449131.0,
      "step": 92
    },
    {
      "entropy": 1.2573560923337936,
      "epoch": 0.1751000235349494,
      "grad_norm": 0.1183922290802002,
      "learning_rate": 0.00048270676691729324,
      "loss": 1.224,
      "mean_token_accuracy": 0.6771978959441185,
      "num_tokens": 2474107.0,
      "step": 93
    },
    {
      "entropy": 1.2122257351875305,
      "epoch": 0.17698281948693811,
      "grad_norm": 0.1325969696044922,
      "learning_rate": 0.0004825187969924812,
      "loss": 1.1754,
      "mean_token_accuracy": 0.6865298077464104,
      "num_tokens": 2501837.0,
      "step": 94
    },
    {
      "entropy": 1.2060312926769257,
      "epoch": 0.17886561543892682,
      "grad_norm": 0.12340355664491653,
      "learning_rate": 0.0004823308270676692,
      "loss": 1.2042,
      "mean_token_accuracy": 0.6752656251192093,
      "num_tokens": 2528769.0,
      "step": 95
    },
    {
      "entropy": 1.268461525440216,
      "epoch": 0.18074841139091552,
      "grad_norm": 0.1260639727115631,
      "learning_rate": 0.00048214285714285715,
      "loss": 1.2781,
      "mean_token_accuracy": 0.6681492626667023,
      "num_tokens": 2555451.0,
      "step": 96
    },
    {
      "entropy": 1.2650732845067978,
      "epoch": 0.18263120734290422,
      "grad_norm": 0.12851010262966156,
      "learning_rate": 0.00048195488721804517,
      "loss": 1.2458,
      "mean_token_accuracy": 0.671695739030838,
      "num_tokens": 2582196.0,
      "step": 97
    },
    {
      "entropy": 1.2784437835216522,
      "epoch": 0.18451400329489293,
      "grad_norm": 0.1278950273990631,
      "learning_rate": 0.0004817669172932331,
      "loss": 1.2319,
      "mean_token_accuracy": 0.6702851504087448,
      "num_tokens": 2608444.0,
      "step": 98
    },
    {
      "entropy": 1.2551447749137878,
      "epoch": 0.18639679924688163,
      "grad_norm": 0.1206209808588028,
      "learning_rate": 0.00048157894736842105,
      "loss": 1.2044,
      "mean_token_accuracy": 0.677789680659771,
      "num_tokens": 2634109.0,
      "step": 99
    },
    {
      "entropy": 1.2039145231246948,
      "epoch": 0.18827959519887033,
      "grad_norm": 0.12305069714784622,
      "learning_rate": 0.00048139097744360907,
      "loss": 1.1637,
      "mean_token_accuracy": 0.6861624270677567,
      "num_tokens": 2659548.0,
      "step": 100
    },
    {
      "entropy": 1.2327278852462769,
      "epoch": 0.19016239115085903,
      "grad_norm": 0.13643652200698853,
      "learning_rate": 0.000481203007518797,
      "loss": 1.212,
      "mean_token_accuracy": 0.6804677918553352,
      "num_tokens": 2684638.0,
      "step": 101
    },
    {
      "entropy": 1.194289356470108,
      "epoch": 0.19204518710284774,
      "grad_norm": 0.15666837990283966,
      "learning_rate": 0.00048101503759398495,
      "loss": 1.1797,
      "mean_token_accuracy": 0.683199092745781,
      "num_tokens": 2711970.0,
      "step": 102
    },
    {
      "entropy": 1.2052866965532303,
      "epoch": 0.19392798305483644,
      "grad_norm": 0.12934386730194092,
      "learning_rate": 0.00048082706766917297,
      "loss": 1.1954,
      "mean_token_accuracy": 0.6831924915313721,
      "num_tokens": 2738028.0,
      "step": 103
    },
    {
      "entropy": 1.2316648960113525,
      "epoch": 0.19581077900682514,
      "grad_norm": 0.12603920698165894,
      "learning_rate": 0.00048063909774436094,
      "loss": 1.2112,
      "mean_token_accuracy": 0.6792290285229683,
      "num_tokens": 2765091.0,
      "step": 104
    },
    {
      "entropy": 1.2624593675136566,
      "epoch": 0.19769357495881384,
      "grad_norm": 0.1318008452653885,
      "learning_rate": 0.00048045112781954885,
      "loss": 1.2389,
      "mean_token_accuracy": 0.6782659739255905,
      "num_tokens": 2792661.0,
      "step": 105
    },
    {
      "entropy": 1.2824029475450516,
      "epoch": 0.19957637091080255,
      "grad_norm": 0.13028129935264587,
      "learning_rate": 0.00048026315789473687,
      "loss": 1.2581,
      "mean_token_accuracy": 0.6727664992213249,
      "num_tokens": 2819535.0,
      "step": 106
    },
    {
      "entropy": 1.1964116394519806,
      "epoch": 0.20145916686279125,
      "grad_norm": 0.16565856337547302,
      "learning_rate": 0.00048007518796992484,
      "loss": 1.1427,
      "mean_token_accuracy": 0.6922469958662987,
      "num_tokens": 2848429.0,
      "step": 107
    },
    {
      "entropy": 1.2726367861032486,
      "epoch": 0.20334196281477995,
      "grad_norm": 0.1416698843240738,
      "learning_rate": 0.0004798872180451128,
      "loss": 1.225,
      "mean_token_accuracy": 0.6754879876971245,
      "num_tokens": 2874776.0,
      "step": 108
    },
    {
      "entropy": 1.2357124537229538,
      "epoch": 0.20522475876676866,
      "grad_norm": 0.12491658329963684,
      "learning_rate": 0.00047969924812030077,
      "loss": 1.204,
      "mean_token_accuracy": 0.6739878728985786,
      "num_tokens": 2902602.0,
      "step": 109
    },
    {
      "entropy": 1.2650941908359528,
      "epoch": 0.20710755471875736,
      "grad_norm": 0.13329921662807465,
      "learning_rate": 0.00047951127819548874,
      "loss": 1.2432,
      "mean_token_accuracy": 0.6738255694508553,
      "num_tokens": 2929536.0,
      "step": 110
    },
    {
      "entropy": 1.2259162962436676,
      "epoch": 0.20899035067074606,
      "grad_norm": 0.14152902364730835,
      "learning_rate": 0.0004793233082706767,
      "loss": 1.1886,
      "mean_token_accuracy": 0.6813376769423485,
      "num_tokens": 2955236.0,
      "step": 111
    },
    {
      "entropy": 1.1335331127047539,
      "epoch": 0.21087314662273476,
      "grad_norm": 0.13298991322517395,
      "learning_rate": 0.00047913533834586467,
      "loss": 1.1339,
      "mean_token_accuracy": 0.6916593015193939,
      "num_tokens": 2979921.0,
      "step": 112
    },
    {
      "entropy": 1.2154437899589539,
      "epoch": 0.21275594257472347,
      "grad_norm": 0.15994608402252197,
      "learning_rate": 0.00047894736842105264,
      "loss": 1.2115,
      "mean_token_accuracy": 0.679818794131279,
      "num_tokens": 3005638.0,
      "step": 113
    },
    {
      "entropy": 1.215769276022911,
      "epoch": 0.21463873852671217,
      "grad_norm": 0.11282095313072205,
      "learning_rate": 0.0004787593984962406,
      "loss": 1.1821,
      "mean_token_accuracy": 0.6841456890106201,
      "num_tokens": 3033979.0,
      "step": 114
    },
    {
      "entropy": 1.2786222100257874,
      "epoch": 0.21652153447870087,
      "grad_norm": 0.13811451196670532,
      "learning_rate": 0.0004785714285714286,
      "loss": 1.2177,
      "mean_token_accuracy": 0.6760591194033623,
      "num_tokens": 3060581.0,
      "step": 115
    },
    {
      "entropy": 1.1782392710447311,
      "epoch": 0.21840433043068957,
      "grad_norm": 0.12641046941280365,
      "learning_rate": 0.00047838345864661654,
      "loss": 1.1449,
      "mean_token_accuracy": 0.6954788789153099,
      "num_tokens": 3086594.0,
      "step": 116
    },
    {
      "entropy": 1.2415330708026886,
      "epoch": 0.22028712638267828,
      "grad_norm": 0.1396101415157318,
      "learning_rate": 0.0004781954887218045,
      "loss": 1.2245,
      "mean_token_accuracy": 0.6794020012021065,
      "num_tokens": 3114117.0,
      "step": 117
    },
    {
      "entropy": 1.2689218074083328,
      "epoch": 0.22216992233466698,
      "grad_norm": 0.13006678223609924,
      "learning_rate": 0.00047800751879699253,
      "loss": 1.2523,
      "mean_token_accuracy": 0.6741964370012283,
      "num_tokens": 3140643.0,
      "step": 118
    },
    {
      "entropy": 1.2656696736812592,
      "epoch": 0.22405271828665568,
      "grad_norm": 0.15107867121696472,
      "learning_rate": 0.0004778195488721805,
      "loss": 1.2539,
      "mean_token_accuracy": 0.6682558432221413,
      "num_tokens": 3166141.0,
      "step": 119
    },
    {
      "entropy": 1.1993789225816727,
      "epoch": 0.22593551423864439,
      "grad_norm": 0.11653780192136765,
      "learning_rate": 0.0004776315789473684,
      "loss": 1.1753,
      "mean_token_accuracy": 0.6902748569846153,
      "num_tokens": 3193339.0,
      "step": 120
    },
    {
      "entropy": 1.231392353773117,
      "epoch": 0.2278183101906331,
      "grad_norm": 0.1314115673303604,
      "learning_rate": 0.00047744360902255643,
      "loss": 1.2005,
      "mean_token_accuracy": 0.6799951046705246,
      "num_tokens": 3219993.0,
      "step": 121
    },
    {
      "entropy": 1.2121622115373611,
      "epoch": 0.2297011061426218,
      "grad_norm": 0.12394538521766663,
      "learning_rate": 0.0004772556390977444,
      "loss": 1.1715,
      "mean_token_accuracy": 0.6903199851512909,
      "num_tokens": 3247444.0,
      "step": 122
    },
    {
      "entropy": 1.2413930743932724,
      "epoch": 0.2315839020946105,
      "grad_norm": 0.1266545057296753,
      "learning_rate": 0.0004770676691729323,
      "loss": 1.1899,
      "mean_token_accuracy": 0.682403139770031,
      "num_tokens": 3272627.0,
      "step": 123
    },
    {
      "entropy": 1.1818571537733078,
      "epoch": 0.2334666980465992,
      "grad_norm": 0.15664935111999512,
      "learning_rate": 0.00047687969924812033,
      "loss": 1.1479,
      "mean_token_accuracy": 0.6944203674793243,
      "num_tokens": 3296898.0,
      "step": 124
    },
    {
      "entropy": 1.2419498413801193,
      "epoch": 0.2353494939985879,
      "grad_norm": 0.15578152239322662,
      "learning_rate": 0.0004766917293233083,
      "loss": 1.2335,
      "mean_token_accuracy": 0.6732713803648949,
      "num_tokens": 3322692.0,
      "step": 125
    },
    {
      "entropy": 1.2249382436275482,
      "epoch": 0.2372322899505766,
      "grad_norm": 0.14584508538246155,
      "learning_rate": 0.00047650375939849626,
      "loss": 1.2124,
      "mean_token_accuracy": 0.6797131448984146,
      "num_tokens": 3348376.0,
      "step": 126
    },
    {
      "entropy": 1.2090249583125114,
      "epoch": 0.2391150859025653,
      "grad_norm": 0.15335120260715485,
      "learning_rate": 0.0004763157894736842,
      "loss": 1.1861,
      "mean_token_accuracy": 0.6816836297512054,
      "num_tokens": 3375056.0,
      "step": 127
    },
    {
      "entropy": 1.2331191301345825,
      "epoch": 0.240997881854554,
      "grad_norm": 0.13854444026947021,
      "learning_rate": 0.0004761278195488722,
      "loss": 1.1867,
      "mean_token_accuracy": 0.6822093352675438,
      "num_tokens": 3401338.0,
      "step": 128
    },
    {
      "entropy": 1.2083263993263245,
      "epoch": 0.2428806778065427,
      "grad_norm": 0.1330289989709854,
      "learning_rate": 0.00047593984962406016,
      "loss": 1.1774,
      "mean_token_accuracy": 0.6801193058490753,
      "num_tokens": 3426232.0,
      "step": 129
    },
    {
      "entropy": 1.2008604258298874,
      "epoch": 0.2447634737585314,
      "grad_norm": 0.14914868772029877,
      "learning_rate": 0.00047575187969924813,
      "loss": 1.1679,
      "mean_token_accuracy": 0.6855365261435509,
      "num_tokens": 3454080.0,
      "step": 130
    },
    {
      "entropy": 1.2279947251081467,
      "epoch": 0.24664626971052012,
      "grad_norm": 0.18307369947433472,
      "learning_rate": 0.0004755639097744361,
      "loss": 1.2333,
      "mean_token_accuracy": 0.672551229596138,
      "num_tokens": 3478258.0,
      "step": 131
    },
    {
      "entropy": 1.1894963383674622,
      "epoch": 0.24852906566250882,
      "grad_norm": 0.13398650288581848,
      "learning_rate": 0.00047537593984962407,
      "loss": 1.1953,
      "mean_token_accuracy": 0.6832383349537849,
      "num_tokens": 3504254.0,
      "step": 132
    },
    {
      "entropy": 1.2269657999277115,
      "epoch": 0.2504118616144975,
      "grad_norm": 0.13811668753623962,
      "learning_rate": 0.00047518796992481203,
      "loss": 1.1741,
      "mean_token_accuracy": 0.6880706697702408,
      "num_tokens": 3531225.0,
      "step": 133
    },
    {
      "entropy": 1.198286533355713,
      "epoch": 0.2522946575664862,
      "grad_norm": 0.17705924808979034,
      "learning_rate": 0.000475,
      "loss": 1.1395,
      "mean_token_accuracy": 0.691774420440197,
      "num_tokens": 3556428.0,
      "step": 134
    },
    {
      "entropy": 1.2244715094566345,
      "epoch": 0.2541774535184749,
      "grad_norm": 0.17644067108631134,
      "learning_rate": 0.00047481203007518797,
      "loss": 1.2204,
      "mean_token_accuracy": 0.6757577136158943,
      "num_tokens": 3583373.0,
      "step": 135
    },
    {
      "entropy": 1.208250641822815,
      "epoch": 0.25606024947046363,
      "grad_norm": 0.12975312769412994,
      "learning_rate": 0.00047462406015037593,
      "loss": 1.2032,
      "mean_token_accuracy": 0.68288903683424,
      "num_tokens": 3610878.0,
      "step": 136
    },
    {
      "entropy": 1.1764077246189117,
      "epoch": 0.25794304542245233,
      "grad_norm": 0.13420140743255615,
      "learning_rate": 0.00047443609022556395,
      "loss": 1.1343,
      "mean_token_accuracy": 0.6927010640501976,
      "num_tokens": 3636794.0,
      "step": 137
    },
    {
      "entropy": 1.2354558259248734,
      "epoch": 0.25982584137444104,
      "grad_norm": 0.12880398333072662,
      "learning_rate": 0.00047424812030075187,
      "loss": 1.1809,
      "mean_token_accuracy": 0.682947002351284,
      "num_tokens": 3665578.0,
      "step": 138
    },
    {
      "entropy": 1.175147533416748,
      "epoch": 0.26170863732642974,
      "grad_norm": 0.15634110569953918,
      "learning_rate": 0.00047406015037593983,
      "loss": 1.1483,
      "mean_token_accuracy": 0.6907549053430557,
      "num_tokens": 3691407.0,
      "step": 139
    },
    {
      "entropy": 1.1331272423267365,
      "epoch": 0.26359143327841844,
      "grad_norm": 0.13562822341918945,
      "learning_rate": 0.00047387218045112786,
      "loss": 1.119,
      "mean_token_accuracy": 0.6953889951109886,
      "num_tokens": 3718468.0,
      "step": 140
    },
    {
      "entropy": 1.2285344004631042,
      "epoch": 0.26547422923040714,
      "grad_norm": 0.1443127691745758,
      "learning_rate": 0.00047368421052631577,
      "loss": 1.2352,
      "mean_token_accuracy": 0.6712902784347534,
      "num_tokens": 3744121.0,
      "step": 141
    },
    {
      "entropy": 1.2572973817586899,
      "epoch": 0.26735702518239585,
      "grad_norm": 0.14697600901126862,
      "learning_rate": 0.00047349624060150373,
      "loss": 1.2545,
      "mean_token_accuracy": 0.6712752804160118,
      "num_tokens": 3768665.0,
      "step": 142
    },
    {
      "entropy": 1.2219904512166977,
      "epoch": 0.26923982113438455,
      "grad_norm": 0.1259946972131729,
      "learning_rate": 0.00047330827067669176,
      "loss": 1.1953,
      "mean_token_accuracy": 0.6853306293487549,
      "num_tokens": 3798421.0,
      "step": 143
    },
    {
      "entropy": 1.2031358480453491,
      "epoch": 0.27112261708637325,
      "grad_norm": 0.1336822658777237,
      "learning_rate": 0.0004731203007518797,
      "loss": 1.1158,
      "mean_token_accuracy": 0.7008628249168396,
      "num_tokens": 3826569.0,
      "step": 144
    },
    {
      "entropy": 1.2654242366552353,
      "epoch": 0.27300541303836195,
      "grad_norm": 0.12933260202407837,
      "learning_rate": 0.00047293233082706764,
      "loss": 1.2125,
      "mean_token_accuracy": 0.6849671006202698,
      "num_tokens": 3853128.0,
      "step": 145
    },
    {
      "entropy": 1.1577993482351303,
      "epoch": 0.27488820899035066,
      "grad_norm": 0.13406828045845032,
      "learning_rate": 0.00047274436090225566,
      "loss": 1.1624,
      "mean_token_accuracy": 0.6865072473883629,
      "num_tokens": 3880569.0,
      "step": 146
    },
    {
      "entropy": 1.1901942938566208,
      "epoch": 0.27677100494233936,
      "grad_norm": 0.14410416781902313,
      "learning_rate": 0.0004725563909774436,
      "loss": 1.2313,
      "mean_token_accuracy": 0.6749508231878281,
      "num_tokens": 3907559.0,
      "step": 147
    },
    {
      "entropy": 1.1600831672549248,
      "epoch": 0.27865380089432806,
      "grad_norm": 0.1339792162179947,
      "learning_rate": 0.0004723684210526316,
      "loss": 1.1987,
      "mean_token_accuracy": 0.6836483106017113,
      "num_tokens": 3934255.0,
      "step": 148
    },
    {
      "entropy": 1.2559089958667755,
      "epoch": 0.28053659684631677,
      "grad_norm": 0.12650057673454285,
      "learning_rate": 0.00047218045112781956,
      "loss": 1.2294,
      "mean_token_accuracy": 0.6761154308915138,
      "num_tokens": 3959809.0,
      "step": 149
    },
    {
      "entropy": 1.2887302935123444,
      "epoch": 0.28241939279830547,
      "grad_norm": 0.14123603701591492,
      "learning_rate": 0.0004719924812030075,
      "loss": 1.1892,
      "mean_token_accuracy": 0.6841337457299232,
      "num_tokens": 3984834.0,
      "step": 150
    },
    {
      "entropy": 1.2641656994819641,
      "epoch": 0.28430218875029417,
      "grad_norm": 0.13069137930870056,
      "learning_rate": 0.0004718045112781955,
      "loss": 1.178,
      "mean_token_accuracy": 0.6903347223997116,
      "num_tokens": 4011854.0,
      "step": 151
    },
    {
      "entropy": 1.2745257169008255,
      "epoch": 0.2861849847022829,
      "grad_norm": 0.12974441051483154,
      "learning_rate": 0.00047161654135338346,
      "loss": 1.2299,
      "mean_token_accuracy": 0.6787015795707703,
      "num_tokens": 4038272.0,
      "step": 152
    },
    {
      "entropy": 1.2451976537704468,
      "epoch": 0.2880677806542716,
      "grad_norm": 0.15594416856765747,
      "learning_rate": 0.0004714285714285714,
      "loss": 1.2506,
      "mean_token_accuracy": 0.6727647334337234,
      "num_tokens": 4066761.0,
      "step": 153
    },
    {
      "entropy": 1.1639655232429504,
      "epoch": 0.2899505766062603,
      "grad_norm": 0.12053865194320679,
      "learning_rate": 0.0004712406015037594,
      "loss": 1.167,
      "mean_token_accuracy": 0.6889369264245033,
      "num_tokens": 4094208.0,
      "step": 154
    },
    {
      "entropy": 1.1459853649139404,
      "epoch": 0.291833372558249,
      "grad_norm": 0.15322330594062805,
      "learning_rate": 0.0004710526315789474,
      "loss": 1.1297,
      "mean_token_accuracy": 0.691886380314827,
      "num_tokens": 4121959.0,
      "step": 155
    },
    {
      "entropy": 1.2293187081813812,
      "epoch": 0.2937161685102377,
      "grad_norm": 0.135823056101799,
      "learning_rate": 0.0004708646616541353,
      "loss": 1.2266,
      "mean_token_accuracy": 0.6803058981895447,
      "num_tokens": 4147782.0,
      "step": 156
    },
    {
      "entropy": 1.192505158483982,
      "epoch": 0.2955989644622264,
      "grad_norm": 0.13535255193710327,
      "learning_rate": 0.0004706766917293233,
      "loss": 1.1608,
      "mean_token_accuracy": 0.6955654844641685,
      "num_tokens": 4176277.0,
      "step": 157
    },
    {
      "entropy": 1.2871312350034714,
      "epoch": 0.2974817604142151,
      "grad_norm": 0.12719225883483887,
      "learning_rate": 0.0004704887218045113,
      "loss": 1.2311,
      "mean_token_accuracy": 0.6765939891338348,
      "num_tokens": 4202697.0,
      "step": 158
    },
    {
      "entropy": 1.2744830250740051,
      "epoch": 0.2993645563662038,
      "grad_norm": 0.15343067049980164,
      "learning_rate": 0.0004703007518796993,
      "loss": 1.2229,
      "mean_token_accuracy": 0.671116054058075,
      "num_tokens": 4229068.0,
      "step": 159
    },
    {
      "entropy": 1.2606779783964157,
      "epoch": 0.3012473523181925,
      "grad_norm": 0.12448015809059143,
      "learning_rate": 0.0004701127819548872,
      "loss": 1.2061,
      "mean_token_accuracy": 0.6829146966338158,
      "num_tokens": 4256896.0,
      "step": 160
    },
    {
      "entropy": 1.150521382689476,
      "epoch": 0.3031301482701812,
      "grad_norm": 0.1213938444852829,
      "learning_rate": 0.0004699248120300752,
      "loss": 1.128,
      "mean_token_accuracy": 0.6945177465677261,
      "num_tokens": 4283765.0,
      "step": 161
    },
    {
      "entropy": 1.1809571981430054,
      "epoch": 0.3050129442221699,
      "grad_norm": 0.13989101350307465,
      "learning_rate": 0.0004697368421052632,
      "loss": 1.1549,
      "mean_token_accuracy": 0.6888199374079704,
      "num_tokens": 4308970.0,
      "step": 162
    },
    {
      "entropy": 1.151911549270153,
      "epoch": 0.3068957401741586,
      "grad_norm": 0.2074657380580902,
      "learning_rate": 0.0004695488721804511,
      "loss": 1.1309,
      "mean_token_accuracy": 0.6942140832543373,
      "num_tokens": 4333158.0,
      "step": 163
    },
    {
      "entropy": 1.1968079656362534,
      "epoch": 0.3087785361261473,
      "grad_norm": 0.13570360839366913,
      "learning_rate": 0.0004693609022556391,
      "loss": 1.1814,
      "mean_token_accuracy": 0.6869696602225304,
      "num_tokens": 4360040.0,
      "step": 164
    },
    {
      "entropy": 1.1787877827882767,
      "epoch": 0.310661332078136,
      "grad_norm": 0.13379861414432526,
      "learning_rate": 0.0004691729323308271,
      "loss": 1.1791,
      "mean_token_accuracy": 0.6811994835734367,
      "num_tokens": 4386186.0,
      "step": 165
    },
    {
      "entropy": 1.2168269157409668,
      "epoch": 0.3125441280301247,
      "grad_norm": 0.1466514617204666,
      "learning_rate": 0.00046898496240601505,
      "loss": 1.2131,
      "mean_token_accuracy": 0.6801121830940247,
      "num_tokens": 4412572.0,
      "step": 166
    },
    {
      "entropy": 1.191074714064598,
      "epoch": 0.3144269239821134,
      "grad_norm": 0.13052161037921906,
      "learning_rate": 0.000468796992481203,
      "loss": 1.1818,
      "mean_token_accuracy": 0.6877126544713974,
      "num_tokens": 4439798.0,
      "step": 167
    },
    {
      "entropy": 1.310966208577156,
      "epoch": 0.3163097199341021,
      "grad_norm": 0.14339525997638702,
      "learning_rate": 0.000468609022556391,
      "loss": 1.2826,
      "mean_token_accuracy": 0.6668709591031075,
      "num_tokens": 4465182.0,
      "step": 168
    },
    {
      "entropy": 1.249758929014206,
      "epoch": 0.3181925158860908,
      "grad_norm": 0.14204370975494385,
      "learning_rate": 0.00046842105263157895,
      "loss": 1.1944,
      "mean_token_accuracy": 0.6822869181632996,
      "num_tokens": 4491690.0,
      "step": 169
    },
    {
      "entropy": 1.2281111925840378,
      "epoch": 0.3200753118380795,
      "grad_norm": 0.13778182864189148,
      "learning_rate": 0.0004682330827067669,
      "loss": 1.1821,
      "mean_token_accuracy": 0.6827872395515442,
      "num_tokens": 4518668.0,
      "step": 170
    },
    {
      "entropy": 1.1907898932695389,
      "epoch": 0.3219581077900682,
      "grad_norm": 0.13682714104652405,
      "learning_rate": 0.0004680451127819549,
      "loss": 1.1654,
      "mean_token_accuracy": 0.6878219619393349,
      "num_tokens": 4544500.0,
      "step": 171
    },
    {
      "entropy": 1.2053745537996292,
      "epoch": 0.32384090374205693,
      "grad_norm": 0.1406177431344986,
      "learning_rate": 0.00046785714285714285,
      "loss": 1.2351,
      "mean_token_accuracy": 0.6759226024150848,
      "num_tokens": 4570672.0,
      "step": 172
    },
    {
      "entropy": 1.1686365455389023,
      "epoch": 0.32572369969404563,
      "grad_norm": 0.1390364021062851,
      "learning_rate": 0.0004676691729323309,
      "loss": 1.1563,
      "mean_token_accuracy": 0.6870525777339935,
      "num_tokens": 4597157.0,
      "step": 173
    },
    {
      "entropy": 1.1847928017377853,
      "epoch": 0.32760649564603433,
      "grad_norm": 0.12553362548351288,
      "learning_rate": 0.0004674812030075188,
      "loss": 1.1464,
      "mean_token_accuracy": 0.6896436884999275,
      "num_tokens": 4622963.0,
      "step": 174
    },
    {
      "entropy": 1.2175119668245316,
      "epoch": 0.32948929159802304,
      "grad_norm": 0.12723615765571594,
      "learning_rate": 0.00046729323308270675,
      "loss": 1.1887,
      "mean_token_accuracy": 0.6839049756526947,
      "num_tokens": 4650796.0,
      "step": 175
    },
    {
      "entropy": 1.2538534700870514,
      "epoch": 0.33137208755001174,
      "grad_norm": 0.1439773291349411,
      "learning_rate": 0.0004671052631578948,
      "loss": 1.1796,
      "mean_token_accuracy": 0.6849694699048996,
      "num_tokens": 4675067.0,
      "step": 176
    },
    {
      "entropy": 1.2113288342952728,
      "epoch": 0.33325488350200044,
      "grad_norm": 0.20407459139823914,
      "learning_rate": 0.00046691729323308274,
      "loss": 1.1616,
      "mean_token_accuracy": 0.6856766641139984,
      "num_tokens": 4700943.0,
      "step": 177
    },
    {
      "entropy": 1.1914596557617188,
      "epoch": 0.3351376794539892,
      "grad_norm": 0.13831955194473267,
      "learning_rate": 0.00046672932330827065,
      "loss": 1.1938,
      "mean_token_accuracy": 0.6882949769496918,
      "num_tokens": 4728608.0,
      "step": 178
    },
    {
      "entropy": 1.1632477790117264,
      "epoch": 0.3370204754059779,
      "grad_norm": 0.1430656909942627,
      "learning_rate": 0.0004665413533834587,
      "loss": 1.1745,
      "mean_token_accuracy": 0.6857840716838837,
      "num_tokens": 4754323.0,
      "step": 179
    },
    {
      "entropy": 1.1661407798528671,
      "epoch": 0.3389032713579666,
      "grad_norm": 0.13480572402477264,
      "learning_rate": 0.00046635338345864664,
      "loss": 1.1677,
      "mean_token_accuracy": 0.6842626482248306,
      "num_tokens": 4777734.0,
      "step": 180
    },
    {
      "entropy": 1.2307626903057098,
      "epoch": 0.3407860673099553,
      "grad_norm": 0.14171424508094788,
      "learning_rate": 0.00046616541353383456,
      "loss": 1.2112,
      "mean_token_accuracy": 0.6779276877641678,
      "num_tokens": 4803062.0,
      "step": 181
    },
    {
      "entropy": 1.2344750761985779,
      "epoch": 0.342668863261944,
      "grad_norm": 0.1366141438484192,
      "learning_rate": 0.0004659774436090226,
      "loss": 1.1521,
      "mean_token_accuracy": 0.6871028989553452,
      "num_tokens": 4828406.0,
      "step": 182
    },
    {
      "entropy": 1.2267533838748932,
      "epoch": 0.3445516592139327,
      "grad_norm": 0.12364047765731812,
      "learning_rate": 0.00046578947368421054,
      "loss": 1.157,
      "mean_token_accuracy": 0.6939859166741371,
      "num_tokens": 4855048.0,
      "step": 183
    },
    {
      "entropy": 1.25662961602211,
      "epoch": 0.3464344551659214,
      "grad_norm": 0.14521241188049316,
      "learning_rate": 0.0004656015037593985,
      "loss": 1.2005,
      "mean_token_accuracy": 0.6837843209505081,
      "num_tokens": 4879838.0,
      "step": 184
    },
    {
      "entropy": 1.1265386119484901,
      "epoch": 0.3483172511179101,
      "grad_norm": 0.13281729817390442,
      "learning_rate": 0.0004654135338345865,
      "loss": 1.1245,
      "mean_token_accuracy": 0.7005239203572273,
      "num_tokens": 4906673.0,
      "step": 185
    },
    {
      "entropy": 1.1675947606563568,
      "epoch": 0.3502000470698988,
      "grad_norm": 0.13612613081932068,
      "learning_rate": 0.00046522556390977444,
      "loss": 1.1783,
      "mean_token_accuracy": 0.6867906153202057,
      "num_tokens": 4932081.0,
      "step": 186
    },
    {
      "entropy": 1.1747846454381943,
      "epoch": 0.3520828430218875,
      "grad_norm": 0.14062775671482086,
      "learning_rate": 0.0004650375939849624,
      "loss": 1.1849,
      "mean_token_accuracy": 0.6804407685995102,
      "num_tokens": 4957805.0,
      "step": 187
    },
    {
      "entropy": 1.3040417283773422,
      "epoch": 0.35396563897387623,
      "grad_norm": 0.13647155463695526,
      "learning_rate": 0.00046484962406015043,
      "loss": 1.2723,
      "mean_token_accuracy": 0.6708482652902603,
      "num_tokens": 4982727.0,
      "step": 188
    },
    {
      "entropy": 1.273634523153305,
      "epoch": 0.35584843492586493,
      "grad_norm": 0.2908094823360443,
      "learning_rate": 0.00046466165413533835,
      "loss": 1.2188,
      "mean_token_accuracy": 0.6769787892699242,
      "num_tokens": 5008167.0,
      "step": 189
    },
    {
      "entropy": 1.294351875782013,
      "epoch": 0.35773123087785363,
      "grad_norm": 0.14780114591121674,
      "learning_rate": 0.0004644736842105263,
      "loss": 1.2497,
      "mean_token_accuracy": 0.6740161553025246,
      "num_tokens": 5031994.0,
      "step": 190
    },
    {
      "entropy": 1.164976328611374,
      "epoch": 0.35961402682984234,
      "grad_norm": 0.1321694701910019,
      "learning_rate": 0.00046428571428571433,
      "loss": 1.1297,
      "mean_token_accuracy": 0.6937556862831116,
      "num_tokens": 5058242.0,
      "step": 191
    },
    {
      "entropy": 1.1738992556929588,
      "epoch": 0.36149682278183104,
      "grad_norm": 0.13215236365795135,
      "learning_rate": 0.00046409774436090225,
      "loss": 1.1639,
      "mean_token_accuracy": 0.688830278813839,
      "num_tokens": 5086002.0,
      "step": 192
    },
    {
      "entropy": 1.2423847168684006,
      "epoch": 0.36337961873381974,
      "grad_norm": 0.13844619691371918,
      "learning_rate": 0.0004639097744360902,
      "loss": 1.2462,
      "mean_token_accuracy": 0.6728790327906609,
      "num_tokens": 5115116.0,
      "step": 193
    },
    {
      "entropy": 1.188772901892662,
      "epoch": 0.36526241468580845,
      "grad_norm": 0.1350889950990677,
      "learning_rate": 0.00046372180451127824,
      "loss": 1.162,
      "mean_token_accuracy": 0.6961116194725037,
      "num_tokens": 5141316.0,
      "step": 194
    },
    {
      "entropy": 1.2510673254728317,
      "epoch": 0.36714521063779715,
      "grad_norm": 0.13393868505954742,
      "learning_rate": 0.0004635338345864662,
      "loss": 1.2165,
      "mean_token_accuracy": 0.675739549100399,
      "num_tokens": 5168389.0,
      "step": 195
    },
    {
      "entropy": 1.2140327990055084,
      "epoch": 0.36902800658978585,
      "grad_norm": 0.15341585874557495,
      "learning_rate": 0.0004633458646616541,
      "loss": 1.1891,
      "mean_token_accuracy": 0.6846036836504936,
      "num_tokens": 5196797.0,
      "step": 196
    },
    {
      "entropy": 1.140480324625969,
      "epoch": 0.37091080254177455,
      "grad_norm": 0.14681561291217804,
      "learning_rate": 0.00046315789473684214,
      "loss": 1.1129,
      "mean_token_accuracy": 0.7001371458172798,
      "num_tokens": 5221689.0,
      "step": 197
    },
    {
      "entropy": 1.149554505944252,
      "epoch": 0.37279359849376326,
      "grad_norm": 0.12448862940073013,
      "learning_rate": 0.0004629699248120301,
      "loss": 1.0918,
      "mean_token_accuracy": 0.7011524215340614,
      "num_tokens": 5248151.0,
      "step": 198
    },
    {
      "entropy": 1.1877187192440033,
      "epoch": 0.37467639444575196,
      "grad_norm": 0.12904192507266998,
      "learning_rate": 0.00046278195488721807,
      "loss": 1.1381,
      "mean_token_accuracy": 0.6980564966797829,
      "num_tokens": 5276462.0,
      "step": 199
    },
    {
      "entropy": 1.1336260885000229,
      "epoch": 0.37655919039774066,
      "grad_norm": 0.14019370079040527,
      "learning_rate": 0.00046259398496240604,
      "loss": 1.1408,
      "mean_token_accuracy": 0.6882188692688942,
      "num_tokens": 5303965.0,
      "step": 200
    },
    {
      "entropy": 1.142029918730259,
      "epoch": 0.37844198634972936,
      "grad_norm": 0.12954500317573547,
      "learning_rate": 0.000462406015037594,
      "loss": 1.1225,
      "mean_token_accuracy": 0.7019821628928185,
      "num_tokens": 5333147.0,
      "step": 201
    },
    {
      "entropy": 1.1055554077029228,
      "epoch": 0.38032478230171807,
      "grad_norm": 0.14525440335273743,
      "learning_rate": 0.00046221804511278197,
      "loss": 1.0873,
      "mean_token_accuracy": 0.6984671205282211,
      "num_tokens": 5360603.0,
      "step": 202
    },
    {
      "entropy": 1.1669521182775497,
      "epoch": 0.38220757825370677,
      "grad_norm": 0.12719959020614624,
      "learning_rate": 0.00046203007518796994,
      "loss": 1.1408,
      "mean_token_accuracy": 0.6958698183298111,
      "num_tokens": 5386882.0,
      "step": 203
    },
    {
      "entropy": 1.2504252791404724,
      "epoch": 0.3840903742056955,
      "grad_norm": 0.14054498076438904,
      "learning_rate": 0.0004618421052631579,
      "loss": 1.2147,
      "mean_token_accuracy": 0.6776561290025711,
      "num_tokens": 5413184.0,
      "step": 204
    },
    {
      "entropy": 1.226726457476616,
      "epoch": 0.3859731701576842,
      "grad_norm": 0.13887910544872284,
      "learning_rate": 0.00046165413533834587,
      "loss": 1.193,
      "mean_token_accuracy": 0.6823991388082504,
      "num_tokens": 5438606.0,
      "step": 205
    },
    {
      "entropy": 1.1875706166028976,
      "epoch": 0.3878559661096729,
      "grad_norm": 0.14024114608764648,
      "learning_rate": 0.0004614661654135339,
      "loss": 1.1676,
      "mean_token_accuracy": 0.684231162071228,
      "num_tokens": 5464123.0,
      "step": 206
    },
    {
      "entropy": 1.2047923803329468,
      "epoch": 0.3897387620616616,
      "grad_norm": 0.1310993880033493,
      "learning_rate": 0.0004612781954887218,
      "loss": 1.1851,
      "mean_token_accuracy": 0.6833815798163414,
      "num_tokens": 5491426.0,
      "step": 207
    },
    {
      "entropy": 1.2198069095611572,
      "epoch": 0.3916215580136503,
      "grad_norm": 0.13591070473194122,
      "learning_rate": 0.00046109022556390977,
      "loss": 1.2115,
      "mean_token_accuracy": 0.6876263841986656,
      "num_tokens": 5517873.0,
      "step": 208
    },
    {
      "entropy": 1.2492990344762802,
      "epoch": 0.393504353965639,
      "grad_norm": 0.1313110738992691,
      "learning_rate": 0.0004609022556390978,
      "loss": 1.2303,
      "mean_token_accuracy": 0.6741604581475258,
      "num_tokens": 5545541.0,
      "step": 209
    },
    {
      "entropy": 1.2249716967344284,
      "epoch": 0.3953871499176277,
      "grad_norm": 0.13691024482250214,
      "learning_rate": 0.0004607142857142857,
      "loss": 1.1994,
      "mean_token_accuracy": 0.6825065985321999,
      "num_tokens": 5571818.0,
      "step": 210
    },
    {
      "entropy": 1.2132453471422195,
      "epoch": 0.3972699458696164,
      "grad_norm": 0.13897888362407684,
      "learning_rate": 0.0004605263157894737,
      "loss": 1.2105,
      "mean_token_accuracy": 0.6761833131313324,
      "num_tokens": 5598744.0,
      "step": 211
    },
    {
      "entropy": 1.1871661990880966,
      "epoch": 0.3991527418216051,
      "grad_norm": 0.13007131218910217,
      "learning_rate": 0.00046033834586466164,
      "loss": 1.1726,
      "mean_token_accuracy": 0.6834597215056419,
      "num_tokens": 5625839.0,
      "step": 212
    },
    {
      "entropy": 1.1333737969398499,
      "epoch": 0.4010355377735938,
      "grad_norm": 0.12430460005998611,
      "learning_rate": 0.00046015037593984966,
      "loss": 1.1019,
      "mean_token_accuracy": 0.7014463916420937,
      "num_tokens": 5654141.0,
      "step": 213
    },
    {
      "entropy": 1.2297871708869934,
      "epoch": 0.4029183337255825,
      "grad_norm": 0.13888096809387207,
      "learning_rate": 0.0004599624060150376,
      "loss": 1.1764,
      "mean_token_accuracy": 0.6898130550980568,
      "num_tokens": 5678609.0,
      "step": 214
    },
    {
      "entropy": 1.2013902068138123,
      "epoch": 0.4048011296775712,
      "grad_norm": 0.12778723239898682,
      "learning_rate": 0.00045977443609022554,
      "loss": 1.1552,
      "mean_token_accuracy": 0.6898351311683655,
      "num_tokens": 5705310.0,
      "step": 215
    },
    {
      "entropy": 1.2131111025810242,
      "epoch": 0.4066839256295599,
      "grad_norm": 0.1250849962234497,
      "learning_rate": 0.00045958646616541356,
      "loss": 1.1997,
      "mean_token_accuracy": 0.6817116960883141,
      "num_tokens": 5733075.0,
      "step": 216
    },
    {
      "entropy": 1.195549488067627,
      "epoch": 0.4085667215815486,
      "grad_norm": 0.14742979407310486,
      "learning_rate": 0.00045939849624060153,
      "loss": 1.1542,
      "mean_token_accuracy": 0.6895313560962677,
      "num_tokens": 5758265.0,
      "step": 217
    },
    {
      "entropy": 1.169806808233261,
      "epoch": 0.4104495175335373,
      "grad_norm": 0.13026666641235352,
      "learning_rate": 0.00045921052631578944,
      "loss": 1.1244,
      "mean_token_accuracy": 0.6982120722532272,
      "num_tokens": 5784948.0,
      "step": 218
    },
    {
      "entropy": 1.182911455631256,
      "epoch": 0.412332313485526,
      "grad_norm": 0.13583756983280182,
      "learning_rate": 0.00045902255639097746,
      "loss": 1.168,
      "mean_token_accuracy": 0.6856559291481972,
      "num_tokens": 5811165.0,
      "step": 219
    },
    {
      "entropy": 1.0761431455612183,
      "epoch": 0.4142151094375147,
      "grad_norm": 0.13843543827533722,
      "learning_rate": 0.00045883458646616543,
      "loss": 1.0857,
      "mean_token_accuracy": 0.7090724036097527,
      "num_tokens": 5839268.0,
      "step": 220
    },
    {
      "entropy": 1.1751226484775543,
      "epoch": 0.4160979053895034,
      "grad_norm": 0.13362666964530945,
      "learning_rate": 0.00045864661654135334,
      "loss": 1.1766,
      "mean_token_accuracy": 0.6880608201026917,
      "num_tokens": 5866181.0,
      "step": 221
    },
    {
      "entropy": 1.1817846149206161,
      "epoch": 0.4179807013414921,
      "grad_norm": 0.1283264309167862,
      "learning_rate": 0.00045845864661654136,
      "loss": 1.1698,
      "mean_token_accuracy": 0.6846595779061317,
      "num_tokens": 5894863.0,
      "step": 222
    },
    {
      "entropy": 1.2609765976667404,
      "epoch": 0.4198634972934808,
      "grad_norm": 0.1493021547794342,
      "learning_rate": 0.00045827067669172933,
      "loss": 1.2032,
      "mean_token_accuracy": 0.6831384673714638,
      "num_tokens": 5919134.0,
      "step": 223
    },
    {
      "entropy": 1.239750549197197,
      "epoch": 0.42174629324546953,
      "grad_norm": 0.14113545417785645,
      "learning_rate": 0.0004580827067669173,
      "loss": 1.186,
      "mean_token_accuracy": 0.6857739984989166,
      "num_tokens": 5944399.0,
      "step": 224
    },
    {
      "entropy": 1.2144103646278381,
      "epoch": 0.42362908919745823,
      "grad_norm": 0.13381649553775787,
      "learning_rate": 0.00045789473684210527,
      "loss": 1.1787,
      "mean_token_accuracy": 0.6889763921499252,
      "num_tokens": 5969936.0,
      "step": 225
    },
    {
      "entropy": 1.157375693321228,
      "epoch": 0.42551188514944693,
      "grad_norm": 0.13331881165504456,
      "learning_rate": 0.00045770676691729323,
      "loss": 1.1613,
      "mean_token_accuracy": 0.6869198232889175,
      "num_tokens": 5998086.0,
      "step": 226
    },
    {
      "entropy": 1.16208166629076,
      "epoch": 0.42739468110143564,
      "grad_norm": 0.1284441202878952,
      "learning_rate": 0.0004575187969924812,
      "loss": 1.1593,
      "mean_token_accuracy": 0.6875879392027855,
      "num_tokens": 6027253.0,
      "step": 227
    },
    {
      "entropy": 1.1543057709932327,
      "epoch": 0.42927747705342434,
      "grad_norm": 0.13240714371204376,
      "learning_rate": 0.0004573308270676692,
      "loss": 1.1397,
      "mean_token_accuracy": 0.6932123303413391,
      "num_tokens": 6053458.0,
      "step": 228
    },
    {
      "entropy": 1.2234352231025696,
      "epoch": 0.43116027300541304,
      "grad_norm": 0.13276036083698273,
      "learning_rate": 0.00045714285714285713,
      "loss": 1.1783,
      "mean_token_accuracy": 0.6839658245444298,
      "num_tokens": 6077746.0,
      "step": 229
    },
    {
      "entropy": 1.2401353865861893,
      "epoch": 0.43304306895740174,
      "grad_norm": 0.13763296604156494,
      "learning_rate": 0.0004569548872180451,
      "loss": 1.2126,
      "mean_token_accuracy": 0.6801036223769188,
      "num_tokens": 6104277.0,
      "step": 230
    },
    {
      "entropy": 1.1862784177064896,
      "epoch": 0.43492586490939045,
      "grad_norm": 0.14408177137374878,
      "learning_rate": 0.0004567669172932331,
      "loss": 1.1804,
      "mean_token_accuracy": 0.6879640221595764,
      "num_tokens": 6131048.0,
      "step": 231
    },
    {
      "entropy": 1.2236796170473099,
      "epoch": 0.43680866086137915,
      "grad_norm": 0.1351345330476761,
      "learning_rate": 0.00045657894736842103,
      "loss": 1.1814,
      "mean_token_accuracy": 0.6808154359459877,
      "num_tokens": 6157407.0,
      "step": 232
    },
    {
      "entropy": 1.2412819564342499,
      "epoch": 0.43869145681336785,
      "grad_norm": 0.1346222460269928,
      "learning_rate": 0.000456390977443609,
      "loss": 1.2092,
      "mean_token_accuracy": 0.676831878721714,
      "num_tokens": 6183884.0,
      "step": 233
    },
    {
      "entropy": 1.2513677477836609,
      "epoch": 0.44057425276535656,
      "grad_norm": 0.14077451825141907,
      "learning_rate": 0.000456203007518797,
      "loss": 1.2274,
      "mean_token_accuracy": 0.6783920973539352,
      "num_tokens": 6210214.0,
      "step": 234
    },
    {
      "entropy": 1.1642959266901016,
      "epoch": 0.44245704871734526,
      "grad_norm": 0.1407959908246994,
      "learning_rate": 0.000456015037593985,
      "loss": 1.1149,
      "mean_token_accuracy": 0.6936823204159737,
      "num_tokens": 6237636.0,
      "step": 235
    },
    {
      "entropy": 1.1751240193843842,
      "epoch": 0.44433984466933396,
      "grad_norm": 0.1335555762052536,
      "learning_rate": 0.0004558270676691729,
      "loss": 1.1695,
      "mean_token_accuracy": 0.6895338296890259,
      "num_tokens": 6263952.0,
      "step": 236
    },
    {
      "entropy": 1.1486622989177704,
      "epoch": 0.44622264062132266,
      "grad_norm": 0.17950989305973053,
      "learning_rate": 0.0004556390977443609,
      "loss": 1.155,
      "mean_token_accuracy": 0.6848675832152367,
      "num_tokens": 6292031.0,
      "step": 237
    },
    {
      "entropy": 1.185767188668251,
      "epoch": 0.44810543657331137,
      "grad_norm": 0.1306653767824173,
      "learning_rate": 0.0004554511278195489,
      "loss": 1.1606,
      "mean_token_accuracy": 0.6900418549776077,
      "num_tokens": 6321764.0,
      "step": 238
    },
    {
      "entropy": 1.2462199479341507,
      "epoch": 0.44998823252530007,
      "grad_norm": 0.1400284469127655,
      "learning_rate": 0.00045526315789473686,
      "loss": 1.2094,
      "mean_token_accuracy": 0.6798161789774895,
      "num_tokens": 6347788.0,
      "step": 239
    },
    {
      "entropy": 1.2244273871183395,
      "epoch": 0.45187102847728877,
      "grad_norm": 0.1347157508134842,
      "learning_rate": 0.0004550751879699248,
      "loss": 1.1674,
      "mean_token_accuracy": 0.6886308640241623,
      "num_tokens": 6374007.0,
      "step": 240
    },
    {
      "entropy": 1.2273097336292267,
      "epoch": 0.4537538244292775,
      "grad_norm": 0.1288744956254959,
      "learning_rate": 0.0004548872180451128,
      "loss": 1.1775,
      "mean_token_accuracy": 0.6868400648236275,
      "num_tokens": 6400589.0,
      "step": 241
    },
    {
      "entropy": 1.2171413898468018,
      "epoch": 0.4556366203812662,
      "grad_norm": 0.14212685823440552,
      "learning_rate": 0.00045469924812030076,
      "loss": 1.2173,
      "mean_token_accuracy": 0.680756650865078,
      "num_tokens": 6428529.0,
      "step": 242
    },
    {
      "entropy": 1.1739053502678871,
      "epoch": 0.4575194163332549,
      "grad_norm": 0.13274581730365753,
      "learning_rate": 0.0004545112781954887,
      "loss": 1.1491,
      "mean_token_accuracy": 0.6945304796099663,
      "num_tokens": 6456003.0,
      "step": 243
    },
    {
      "entropy": 1.1879045367240906,
      "epoch": 0.4594022122852436,
      "grad_norm": 0.14754825830459595,
      "learning_rate": 0.0004543233082706767,
      "loss": 1.153,
      "mean_token_accuracy": 0.6907599717378616,
      "num_tokens": 6481488.0,
      "step": 244
    },
    {
      "entropy": 1.1874423921108246,
      "epoch": 0.4612850082372323,
      "grad_norm": 0.14292332530021667,
      "learning_rate": 0.00045413533834586466,
      "loss": 1.1531,
      "mean_token_accuracy": 0.6900304704904556,
      "num_tokens": 6509304.0,
      "step": 245
    },
    {
      "entropy": 1.1584448963403702,
      "epoch": 0.463167804189221,
      "grad_norm": 0.13040532171726227,
      "learning_rate": 0.0004539473684210527,
      "loss": 1.1492,
      "mean_token_accuracy": 0.6877822354435921,
      "num_tokens": 6536066.0,
      "step": 246
    },
    {
      "entropy": 1.1855371445417404,
      "epoch": 0.4650506001412097,
      "grad_norm": 0.13368549942970276,
      "learning_rate": 0.0004537593984962406,
      "loss": 1.1777,
      "mean_token_accuracy": 0.6852287128567696,
      "num_tokens": 6565018.0,
      "step": 247
    },
    {
      "entropy": 1.1443724185228348,
      "epoch": 0.4669333960931984,
      "grad_norm": 0.14028339087963104,
      "learning_rate": 0.00045357142857142856,
      "loss": 1.1356,
      "mean_token_accuracy": 0.6946588978171349,
      "num_tokens": 6592536.0,
      "step": 248
    },
    {
      "entropy": 1.1854888200759888,
      "epoch": 0.4688161920451871,
      "grad_norm": 0.13055366277694702,
      "learning_rate": 0.0004533834586466166,
      "loss": 1.1731,
      "mean_token_accuracy": 0.6873556599020958,
      "num_tokens": 6620329.0,
      "step": 249
    },
    {
      "entropy": 1.1635265052318573,
      "epoch": 0.4706989879971758,
      "grad_norm": 0.12299590557813644,
      "learning_rate": 0.0004531954887218045,
      "loss": 1.1174,
      "mean_token_accuracy": 0.6956649720668793,
      "num_tokens": 6647929.0,
      "step": 250
    },
    {
      "entropy": 1.1612417101860046,
      "epoch": 0.4725817839491645,
      "grad_norm": 0.14049823582172394,
      "learning_rate": 0.00045300751879699246,
      "loss": 1.1348,
      "mean_token_accuracy": 0.694083645939827,
      "num_tokens": 6674419.0,
      "step": 251
    },
    {
      "entropy": 1.2213299870491028,
      "epoch": 0.4744645799011532,
      "grad_norm": 0.13414214551448822,
      "learning_rate": 0.0004528195488721805,
      "loss": 1.2013,
      "mean_token_accuracy": 0.6825797632336617,
      "num_tokens": 6701851.0,
      "step": 252
    },
    {
      "entropy": 1.183507114648819,
      "epoch": 0.4763473758531419,
      "grad_norm": 0.15232087671756744,
      "learning_rate": 0.00045263157894736845,
      "loss": 1.162,
      "mean_token_accuracy": 0.6850753352046013,
      "num_tokens": 6729161.0,
      "step": 253
    },
    {
      "entropy": 1.0959549844264984,
      "epoch": 0.4782301718051306,
      "grad_norm": 0.12658758461475372,
      "learning_rate": 0.00045244360902255636,
      "loss": 1.0808,
      "mean_token_accuracy": 0.7000140845775604,
      "num_tokens": 6756047.0,
      "step": 254
    },
    {
      "entropy": 1.193654179573059,
      "epoch": 0.4801129677571193,
      "grad_norm": 0.14304682612419128,
      "learning_rate": 0.0004522556390977444,
      "loss": 1.1611,
      "mean_token_accuracy": 0.6860647276043892,
      "num_tokens": 6782155.0,
      "step": 255
    },
    {
      "entropy": 1.189740851521492,
      "epoch": 0.481995763709108,
      "grad_norm": 0.1279287487268448,
      "learning_rate": 0.00045206766917293235,
      "loss": 1.1533,
      "mean_token_accuracy": 0.6969729140400887,
      "num_tokens": 6809906.0,
      "step": 256
    },
    {
      "entropy": 1.1370235309004784,
      "epoch": 0.4838785596610967,
      "grad_norm": 0.12549139559268951,
      "learning_rate": 0.0004518796992481203,
      "loss": 1.1005,
      "mean_token_accuracy": 0.6986983045935631,
      "num_tokens": 6837978.0,
      "step": 257
    },
    {
      "entropy": 1.1274943947792053,
      "epoch": 0.4857613556130854,
      "grad_norm": 0.13078007102012634,
      "learning_rate": 0.0004516917293233083,
      "loss": 1.116,
      "mean_token_accuracy": 0.6968672722578049,
      "num_tokens": 6863894.0,
      "step": 258
    },
    {
      "entropy": 1.1707115471363068,
      "epoch": 0.4876441515650741,
      "grad_norm": 0.13655990362167358,
      "learning_rate": 0.00045150375939849625,
      "loss": 1.1502,
      "mean_token_accuracy": 0.6891424879431725,
      "num_tokens": 6889219.0,
      "step": 259
    },
    {
      "entropy": 1.1765428930521011,
      "epoch": 0.4895269475170628,
      "grad_norm": 0.13517631590366364,
      "learning_rate": 0.0004513157894736842,
      "loss": 1.1736,
      "mean_token_accuracy": 0.6828250586986542,
      "num_tokens": 6915957.0,
      "step": 260
    },
    {
      "entropy": 1.1622217297554016,
      "epoch": 0.49140974346905153,
      "grad_norm": 0.1339031159877777,
      "learning_rate": 0.0004511278195488722,
      "loss": 1.1602,
      "mean_token_accuracy": 0.6858406886458397,
      "num_tokens": 6942729.0,
      "step": 261
    },
    {
      "entropy": 1.188800647854805,
      "epoch": 0.49329253942104023,
      "grad_norm": 0.1516953706741333,
      "learning_rate": 0.00045093984962406015,
      "loss": 1.1541,
      "mean_token_accuracy": 0.6871596127748489,
      "num_tokens": 6966884.0,
      "step": 262
    },
    {
      "entropy": 1.1681264340877533,
      "epoch": 0.49517533537302894,
      "grad_norm": 0.14556634426116943,
      "learning_rate": 0.0004507518796992481,
      "loss": 1.1307,
      "mean_token_accuracy": 0.6948810294270515,
      "num_tokens": 6992842.0,
      "step": 263
    },
    {
      "entropy": 1.1910002678632736,
      "epoch": 0.49705813132501764,
      "grad_norm": 0.1371603161096573,
      "learning_rate": 0.00045056390977443614,
      "loss": 1.1469,
      "mean_token_accuracy": 0.6974197626113892,
      "num_tokens": 7018704.0,
      "step": 264
    },
    {
      "entropy": 1.2533641755580902,
      "epoch": 0.49894092727700634,
      "grad_norm": 0.15122705698013306,
      "learning_rate": 0.00045037593984962405,
      "loss": 1.1964,
      "mean_token_accuracy": 0.6835278943181038,
      "num_tokens": 7045985.0,
      "step": 265
    },
    {
      "entropy": 1.18770419806242,
      "epoch": 0.500823723228995,
      "grad_norm": 0.1283893585205078,
      "learning_rate": 0.000450187969924812,
      "loss": 1.1613,
      "mean_token_accuracy": 0.6964623779058456,
      "num_tokens": 7073668.0,
      "step": 266
    },
    {
      "entropy": 1.1760464161634445,
      "epoch": 0.5027065191809837,
      "grad_norm": 0.13645370304584503,
      "learning_rate": 0.00045000000000000004,
      "loss": 1.181,
      "mean_token_accuracy": 0.6851188093423843,
      "num_tokens": 7100612.0,
      "step": 267
    },
    {
      "entropy": 1.1559069901704788,
      "epoch": 0.5045893151329724,
      "grad_norm": 0.14222431182861328,
      "learning_rate": 0.000449812030075188,
      "loss": 1.1661,
      "mean_token_accuracy": 0.6858489215373993,
      "num_tokens": 7127648.0,
      "step": 268
    },
    {
      "entropy": 1.155109003186226,
      "epoch": 0.5064721110849612,
      "grad_norm": 0.14752890169620514,
      "learning_rate": 0.0004496240601503759,
      "loss": 1.1549,
      "mean_token_accuracy": 0.6923946589231491,
      "num_tokens": 7153048.0,
      "step": 269
    },
    {
      "entropy": 1.2506433129310608,
      "epoch": 0.5083549070369499,
      "grad_norm": 0.14298772811889648,
      "learning_rate": 0.00044943609022556394,
      "loss": 1.193,
      "mean_token_accuracy": 0.684316597878933,
      "num_tokens": 7177628.0,
      "step": 270
    },
    {
      "entropy": 1.2653572857379913,
      "epoch": 0.5102377029889386,
      "grad_norm": 0.167319193482399,
      "learning_rate": 0.0004492481203007519,
      "loss": 1.1959,
      "mean_token_accuracy": 0.6871765851974487,
      "num_tokens": 7201577.0,
      "step": 271
    },
    {
      "entropy": 1.2064370959997177,
      "epoch": 0.5121204989409273,
      "grad_norm": 0.15246403217315674,
      "learning_rate": 0.0004490601503759398,
      "loss": 1.1574,
      "mean_token_accuracy": 0.6841192170977592,
      "num_tokens": 7226259.0,
      "step": 272
    },
    {
      "entropy": 1.1363181620836258,
      "epoch": 0.514003294892916,
      "grad_norm": 0.13937003910541534,
      "learning_rate": 0.00044887218045112784,
      "loss": 1.1257,
      "mean_token_accuracy": 0.6941032037138939,
      "num_tokens": 7253373.0,
      "step": 273
    },
    {
      "entropy": 1.1732933074235916,
      "epoch": 0.5158860908449047,
      "grad_norm": 0.14371132850646973,
      "learning_rate": 0.0004486842105263158,
      "loss": 1.1715,
      "mean_token_accuracy": 0.6919308379292488,
      "num_tokens": 7278945.0,
      "step": 274
    },
    {
      "entropy": 1.175576038658619,
      "epoch": 0.5177688867968934,
      "grad_norm": 0.1441759318113327,
      "learning_rate": 0.0004484962406015038,
      "loss": 1.1515,
      "mean_token_accuracy": 0.694126233458519,
      "num_tokens": 7305391.0,
      "step": 275
    },
    {
      "entropy": 1.2058104127645493,
      "epoch": 0.5196516827488821,
      "grad_norm": 0.13355745375156403,
      "learning_rate": 0.00044830827067669174,
      "loss": 1.1916,
      "mean_token_accuracy": 0.687326617538929,
      "num_tokens": 7332607.0,
      "step": 276
    },
    {
      "entropy": 1.2485528588294983,
      "epoch": 0.5215344787008708,
      "grad_norm": 0.14986877143383026,
      "learning_rate": 0.0004481203007518797,
      "loss": 1.2103,
      "mean_token_accuracy": 0.6793005913496017,
      "num_tokens": 7358139.0,
      "step": 277
    },
    {
      "entropy": 1.187769129872322,
      "epoch": 0.5234172746528595,
      "grad_norm": 0.14205658435821533,
      "learning_rate": 0.0004479323308270677,
      "loss": 1.1564,
      "mean_token_accuracy": 0.6925127878785133,
      "num_tokens": 7384537.0,
      "step": 278
    },
    {
      "entropy": 1.1303328722715378,
      "epoch": 0.5253000706048482,
      "grad_norm": 0.14045588672161102,
      "learning_rate": 0.00044774436090225565,
      "loss": 1.1287,
      "mean_token_accuracy": 0.6949460133910179,
      "num_tokens": 7411036.0,
      "step": 279
    },
    {
      "entropy": 1.2028415352106094,
      "epoch": 0.5271828665568369,
      "grad_norm": 0.1550549864768982,
      "learning_rate": 0.0004475563909774436,
      "loss": 1.2004,
      "mean_token_accuracy": 0.6846116036176682,
      "num_tokens": 7437443.0,
      "step": 280
    },
    {
      "entropy": 1.182666465640068,
      "epoch": 0.5290656625088256,
      "grad_norm": 0.2469193935394287,
      "learning_rate": 0.0004473684210526316,
      "loss": 1.1759,
      "mean_token_accuracy": 0.6844401434063911,
      "num_tokens": 7462227.0,
      "step": 281
    },
    {
      "entropy": 1.202811524271965,
      "epoch": 0.5309484584608143,
      "grad_norm": 0.14160913228988647,
      "learning_rate": 0.0004471804511278196,
      "loss": 1.1957,
      "mean_token_accuracy": 0.6817988455295563,
      "num_tokens": 7487080.0,
      "step": 282
    },
    {
      "entropy": 1.1812713742256165,
      "epoch": 0.532831254412803,
      "grad_norm": 0.15075385570526123,
      "learning_rate": 0.0004469924812030075,
      "loss": 1.1481,
      "mean_token_accuracy": 0.6930856108665466,
      "num_tokens": 7511921.0,
      "step": 283
    },
    {
      "entropy": 1.2214877009391785,
      "epoch": 0.5347140503647917,
      "grad_norm": 0.1399138867855072,
      "learning_rate": 0.0004468045112781955,
      "loss": 1.1678,
      "mean_token_accuracy": 0.6885346695780754,
      "num_tokens": 7538663.0,
      "step": 284
    },
    {
      "entropy": 1.2207457572221756,
      "epoch": 0.5365968463167804,
      "grad_norm": 0.16030077636241913,
      "learning_rate": 0.0004466165413533835,
      "loss": 1.1498,
      "mean_token_accuracy": 0.6934774816036224,
      "num_tokens": 7563898.0,
      "step": 285
    },
    {
      "entropy": 1.1787783950567245,
      "epoch": 0.5384796422687691,
      "grad_norm": 0.13601085543632507,
      "learning_rate": 0.00044642857142857147,
      "loss": 1.145,
      "mean_token_accuracy": 0.6905470564961433,
      "num_tokens": 7590702.0,
      "step": 286
    },
    {
      "entropy": 1.081341713666916,
      "epoch": 0.5403624382207578,
      "grad_norm": 0.13594649732112885,
      "learning_rate": 0.0004462406015037594,
      "loss": 1.0881,
      "mean_token_accuracy": 0.7003285214304924,
      "num_tokens": 7618002.0,
      "step": 287
    },
    {
      "entropy": 1.1418119072914124,
      "epoch": 0.5422452341727465,
      "grad_norm": 0.15701550245285034,
      "learning_rate": 0.0004460526315789474,
      "loss": 1.1544,
      "mean_token_accuracy": 0.6906085088849068,
      "num_tokens": 7644482.0,
      "step": 288
    },
    {
      "entropy": 1.1627637073397636,
      "epoch": 0.5441280301247352,
      "grad_norm": 0.13722968101501465,
      "learning_rate": 0.00044586466165413537,
      "loss": 1.1586,
      "mean_token_accuracy": 0.6932996585965157,
      "num_tokens": 7671479.0,
      "step": 289
    },
    {
      "entropy": 1.1320042312145233,
      "epoch": 0.5460108260767239,
      "grad_norm": 0.15330596268177032,
      "learning_rate": 0.0004456766917293233,
      "loss": 1.108,
      "mean_token_accuracy": 0.6965923383831978,
      "num_tokens": 7697013.0,
      "step": 290
    },
    {
      "entropy": 1.2310521453619003,
      "epoch": 0.5478936220287126,
      "grad_norm": 0.14045506715774536,
      "learning_rate": 0.00044548872180451125,
      "loss": 1.1978,
      "mean_token_accuracy": 0.6855576112866402,
      "num_tokens": 7722551.0,
      "step": 291
    },
    {
      "entropy": 1.1880534440279007,
      "epoch": 0.5497764179807013,
      "grad_norm": 0.14293448626995087,
      "learning_rate": 0.00044530075187969927,
      "loss": 1.1251,
      "mean_token_accuracy": 0.701711505651474,
      "num_tokens": 7748016.0,
      "step": 292
    },
    {
      "entropy": 1.141702115535736,
      "epoch": 0.55165921393269,
      "grad_norm": 0.1439259648323059,
      "learning_rate": 0.00044511278195488724,
      "loss": 1.1361,
      "mean_token_accuracy": 0.6944170445203781,
      "num_tokens": 7774858.0,
      "step": 293
    },
    {
      "entropy": 1.1963759511709213,
      "epoch": 0.5535420098846787,
      "grad_norm": 0.15148387849330902,
      "learning_rate": 0.00044492481203007515,
      "loss": 1.1768,
      "mean_token_accuracy": 0.6924594268202782,
      "num_tokens": 7800802.0,
      "step": 294
    },
    {
      "entropy": 1.2073182165622711,
      "epoch": 0.5554248058366674,
      "grad_norm": 0.14503706991672516,
      "learning_rate": 0.00044473684210526317,
      "loss": 1.2075,
      "mean_token_accuracy": 0.6802205815911293,
      "num_tokens": 7825288.0,
      "step": 295
    },
    {
      "entropy": 1.1897266507148743,
      "epoch": 0.5573076017886561,
      "grad_norm": 0.13914930820465088,
      "learning_rate": 0.00044454887218045114,
      "loss": 1.1668,
      "mean_token_accuracy": 0.6842218562960625,
      "num_tokens": 7853255.0,
      "step": 296
    },
    {
      "entropy": 1.138252004981041,
      "epoch": 0.5591903977406448,
      "grad_norm": 0.1277482956647873,
      "learning_rate": 0.0004443609022556391,
      "loss": 1.095,
      "mean_token_accuracy": 0.6993494555354118,
      "num_tokens": 7880497.0,
      "step": 297
    },
    {
      "entropy": 1.1767967641353607,
      "epoch": 0.5610731936926335,
      "grad_norm": 0.14053884148597717,
      "learning_rate": 0.00044417293233082707,
      "loss": 1.1443,
      "mean_token_accuracy": 0.6948733255267143,
      "num_tokens": 7906730.0,
      "step": 298
    },
    {
      "entropy": 1.2134106159210205,
      "epoch": 0.5629559896446222,
      "grad_norm": 0.14005884528160095,
      "learning_rate": 0.00044398496240601504,
      "loss": 1.1822,
      "mean_token_accuracy": 0.6892389133572578,
      "num_tokens": 7933216.0,
      "step": 299
    },
    {
      "entropy": 1.1945680975914001,
      "epoch": 0.5648387855966109,
      "grad_norm": 0.1356893926858902,
      "learning_rate": 0.000443796992481203,
      "loss": 1.1689,
      "mean_token_accuracy": 0.6882117986679077,
      "num_tokens": 7960270.0,
      "step": 300
    },
    {
      "entropy": 1.1890588849782944,
      "epoch": 0.5667215815485996,
      "grad_norm": 0.14139321446418762,
      "learning_rate": 0.000443609022556391,
      "loss": 1.1757,
      "mean_token_accuracy": 0.6851599663496017,
      "num_tokens": 7987900.0,
      "step": 301
    },
    {
      "entropy": 1.1338028833270073,
      "epoch": 0.5686043775005883,
      "grad_norm": 0.14264994859695435,
      "learning_rate": 0.00044342105263157894,
      "loss": 1.1502,
      "mean_token_accuracy": 0.6855240687727928,
      "num_tokens": 8013351.0,
      "step": 302
    },
    {
      "entropy": 1.1318519860506058,
      "epoch": 0.570487173452577,
      "grad_norm": 0.13565586507320404,
      "learning_rate": 0.0004432330827067669,
      "loss": 1.1165,
      "mean_token_accuracy": 0.6999509632587433,
      "num_tokens": 8038918.0,
      "step": 303
    },
    {
      "entropy": 1.2122758030891418,
      "epoch": 0.5723699694045657,
      "grad_norm": 0.13487568497657776,
      "learning_rate": 0.00044304511278195493,
      "loss": 1.1738,
      "mean_token_accuracy": 0.681725949048996,
      "num_tokens": 8066501.0,
      "step": 304
    },
    {
      "entropy": 1.1797229945659637,
      "epoch": 0.5742527653565545,
      "grad_norm": 0.13627903163433075,
      "learning_rate": 0.00044285714285714284,
      "loss": 1.1376,
      "mean_token_accuracy": 0.689607098698616,
      "num_tokens": 8093242.0,
      "step": 305
    },
    {
      "entropy": 1.1857865750789642,
      "epoch": 0.5761355613085432,
      "grad_norm": 0.13779953122138977,
      "learning_rate": 0.0004426691729323308,
      "loss": 1.1367,
      "mean_token_accuracy": 0.6948609203100204,
      "num_tokens": 8121053.0,
      "step": 306
    },
    {
      "entropy": 1.1960344910621643,
      "epoch": 0.5780183572605319,
      "grad_norm": 0.13792765140533447,
      "learning_rate": 0.00044248120300751883,
      "loss": 1.1472,
      "mean_token_accuracy": 0.6897515431046486,
      "num_tokens": 8147832.0,
      "step": 307
    },
    {
      "entropy": 1.19243024289608,
      "epoch": 0.5799011532125206,
      "grad_norm": 0.1438818722963333,
      "learning_rate": 0.0004422932330827068,
      "loss": 1.1905,
      "mean_token_accuracy": 0.6858177557587624,
      "num_tokens": 8173841.0,
      "step": 308
    },
    {
      "entropy": 1.211151197552681,
      "epoch": 0.5817839491645093,
      "grad_norm": 0.1361284852027893,
      "learning_rate": 0.0004421052631578947,
      "loss": 1.214,
      "mean_token_accuracy": 0.67852383852005,
      "num_tokens": 8202120.0,
      "step": 309
    },
    {
      "entropy": 1.1578274965286255,
      "epoch": 0.583666745116498,
      "grad_norm": 0.14872749149799347,
      "learning_rate": 0.00044191729323308273,
      "loss": 1.1497,
      "mean_token_accuracy": 0.6920148581266403,
      "num_tokens": 8229217.0,
      "step": 310
    },
    {
      "entropy": 1.1631289571523666,
      "epoch": 0.5855495410684867,
      "grad_norm": 0.15371911227703094,
      "learning_rate": 0.0004417293233082707,
      "loss": 1.1437,
      "mean_token_accuracy": 0.6945102214813232,
      "num_tokens": 8254581.0,
      "step": 311
    },
    {
      "entropy": 1.1813505440950394,
      "epoch": 0.5874323370204754,
      "grad_norm": 0.14172406494617462,
      "learning_rate": 0.0004415413533834586,
      "loss": 1.1445,
      "mean_token_accuracy": 0.7006291374564171,
      "num_tokens": 8280615.0,
      "step": 312
    },
    {
      "entropy": 1.1823447942733765,
      "epoch": 0.5893151329724641,
      "grad_norm": 0.14375410974025726,
      "learning_rate": 0.00044135338345864663,
      "loss": 1.1497,
      "mean_token_accuracy": 0.6918843537569046,
      "num_tokens": 8307395.0,
      "step": 313
    },
    {
      "entropy": 1.1527684777975082,
      "epoch": 0.5911979289244528,
      "grad_norm": 0.1389397829771042,
      "learning_rate": 0.0004411654135338346,
      "loss": 1.1189,
      "mean_token_accuracy": 0.6944358944892883,
      "num_tokens": 8332107.0,
      "step": 314
    },
    {
      "entropy": 1.165027841925621,
      "epoch": 0.5930807248764415,
      "grad_norm": 0.14531069993972778,
      "learning_rate": 0.00044097744360902257,
      "loss": 1.161,
      "mean_token_accuracy": 0.6896175295114517,
      "num_tokens": 8358194.0,
      "step": 315
    },
    {
      "entropy": 1.2045851200819016,
      "epoch": 0.5949635208284302,
      "grad_norm": 0.1540374457836151,
      "learning_rate": 0.00044078947368421053,
      "loss": 1.1797,
      "mean_token_accuracy": 0.6859044209122658,
      "num_tokens": 8386180.0,
      "step": 316
    },
    {
      "entropy": 1.194406397640705,
      "epoch": 0.5968463167804189,
      "grad_norm": 0.14392457902431488,
      "learning_rate": 0.0004406015037593985,
      "loss": 1.1483,
      "mean_token_accuracy": 0.6856495141983032,
      "num_tokens": 8412257.0,
      "step": 317
    },
    {
      "entropy": 1.1843983232975006,
      "epoch": 0.5987291127324076,
      "grad_norm": 0.12984612584114075,
      "learning_rate": 0.00044041353383458647,
      "loss": 1.159,
      "mean_token_accuracy": 0.6899672672152519,
      "num_tokens": 8440139.0,
      "step": 318
    },
    {
      "entropy": 1.159614846110344,
      "epoch": 0.6006119086843963,
      "grad_norm": 0.13649439811706543,
      "learning_rate": 0.00044022556390977443,
      "loss": 1.1277,
      "mean_token_accuracy": 0.6980894953012466,
      "num_tokens": 8466297.0,
      "step": 319
    },
    {
      "entropy": 1.1729088872671127,
      "epoch": 0.602494704636385,
      "grad_norm": 0.14619147777557373,
      "learning_rate": 0.0004400375939849624,
      "loss": 1.1511,
      "mean_token_accuracy": 0.6904428154230118,
      "num_tokens": 8492672.0,
      "step": 320
    },
    {
      "entropy": 1.1907424926757812,
      "epoch": 0.6043775005883737,
      "grad_norm": 0.14279942214488983,
      "learning_rate": 0.00043984962406015037,
      "loss": 1.1775,
      "mean_token_accuracy": 0.6842730417847633,
      "num_tokens": 8521582.0,
      "step": 321
    },
    {
      "entropy": 1.1668616235256195,
      "epoch": 0.6062602965403624,
      "grad_norm": 0.1608172506093979,
      "learning_rate": 0.0004396616541353384,
      "loss": 1.1169,
      "mean_token_accuracy": 0.6961806491017342,
      "num_tokens": 8549037.0,
      "step": 322
    },
    {
      "entropy": 1.172086626291275,
      "epoch": 0.6081430924923511,
      "grad_norm": 0.13843871653079987,
      "learning_rate": 0.0004394736842105263,
      "loss": 1.1337,
      "mean_token_accuracy": 0.6961240246891975,
      "num_tokens": 8577320.0,
      "step": 323
    },
    {
      "entropy": 1.1471307575702667,
      "epoch": 0.6100258884443398,
      "grad_norm": 0.17384615540504456,
      "learning_rate": 0.00043928571428571427,
      "loss": 1.132,
      "mean_token_accuracy": 0.6966283246874809,
      "num_tokens": 8604513.0,
      "step": 324
    },
    {
      "entropy": 1.1775583177804947,
      "epoch": 0.6119086843963285,
      "grad_norm": 0.1405702829360962,
      "learning_rate": 0.0004390977443609023,
      "loss": 1.1713,
      "mean_token_accuracy": 0.6833978369832039,
      "num_tokens": 8631088.0,
      "step": 325
    },
    {
      "entropy": 1.1986607536673546,
      "epoch": 0.6137914803483172,
      "grad_norm": 0.17384964227676392,
      "learning_rate": 0.00043890977443609026,
      "loss": 1.1903,
      "mean_token_accuracy": 0.6892447099089622,
      "num_tokens": 8658317.0,
      "step": 326
    },
    {
      "entropy": 1.1727805137634277,
      "epoch": 0.6156742763003059,
      "grad_norm": 0.14653940498828888,
      "learning_rate": 0.00043872180451127817,
      "loss": 1.1706,
      "mean_token_accuracy": 0.6892889738082886,
      "num_tokens": 8685883.0,
      "step": 327
    },
    {
      "entropy": 1.1792996972799301,
      "epoch": 0.6175570722522946,
      "grad_norm": 0.14093339443206787,
      "learning_rate": 0.0004385338345864662,
      "loss": 1.1659,
      "mean_token_accuracy": 0.6881109997630119,
      "num_tokens": 8710584.0,
      "step": 328
    },
    {
      "entropy": 1.1784557923674583,
      "epoch": 0.6194398682042833,
      "grad_norm": 0.14964358508586884,
      "learning_rate": 0.00043834586466165416,
      "loss": 1.1098,
      "mean_token_accuracy": 0.6995358616113663,
      "num_tokens": 8737455.0,
      "step": 329
    },
    {
      "entropy": 1.2075697928667068,
      "epoch": 0.621322664156272,
      "grad_norm": 0.14746899902820587,
      "learning_rate": 0.00043815789473684207,
      "loss": 1.1564,
      "mean_token_accuracy": 0.6904364302754402,
      "num_tokens": 8764718.0,
      "step": 330
    },
    {
      "entropy": 1.259048119187355,
      "epoch": 0.6232054601082607,
      "grad_norm": 0.13727432489395142,
      "learning_rate": 0.0004379699248120301,
      "loss": 1.2152,
      "mean_token_accuracy": 0.6816830709576607,
      "num_tokens": 8792699.0,
      "step": 331
    },
    {
      "entropy": 1.176329106092453,
      "epoch": 0.6250882560602494,
      "grad_norm": 0.13555607199668884,
      "learning_rate": 0.00043778195488721806,
      "loss": 1.1337,
      "mean_token_accuracy": 0.6938095465302467,
      "num_tokens": 8818252.0,
      "step": 332
    },
    {
      "entropy": 1.1746894717216492,
      "epoch": 0.6269710520122381,
      "grad_norm": 0.14540338516235352,
      "learning_rate": 0.000437593984962406,
      "loss": 1.1678,
      "mean_token_accuracy": 0.6856407299637794,
      "num_tokens": 8843904.0,
      "step": 333
    },
    {
      "entropy": 1.143667384982109,
      "epoch": 0.6288538479642268,
      "grad_norm": 0.17852836847305298,
      "learning_rate": 0.000437406015037594,
      "loss": 1.1471,
      "mean_token_accuracy": 0.6907041072845459,
      "num_tokens": 8868115.0,
      "step": 334
    },
    {
      "entropy": 1.1293998435139656,
      "epoch": 0.6307366439162155,
      "grad_norm": 0.13162344694137573,
      "learning_rate": 0.00043721804511278196,
      "loss": 1.123,
      "mean_token_accuracy": 0.7001049220561981,
      "num_tokens": 8894871.0,
      "step": 335
    },
    {
      "entropy": 1.1313979178667068,
      "epoch": 0.6326194398682042,
      "grad_norm": 0.1321536898612976,
      "learning_rate": 0.0004370300751879699,
      "loss": 1.0987,
      "mean_token_accuracy": 0.7042840495705605,
      "num_tokens": 8921413.0,
      "step": 336
    },
    {
      "entropy": 1.22024667263031,
      "epoch": 0.6345022358201929,
      "grad_norm": 0.14904777705669403,
      "learning_rate": 0.00043684210526315795,
      "loss": 1.1685,
      "mean_token_accuracy": 0.6839649677276611,
      "num_tokens": 8948016.0,
      "step": 337
    },
    {
      "entropy": 1.200153261423111,
      "epoch": 0.6363850317721816,
      "grad_norm": 0.15332205593585968,
      "learning_rate": 0.00043665413533834586,
      "loss": 1.1599,
      "mean_token_accuracy": 0.6898418813943863,
      "num_tokens": 8974626.0,
      "step": 338
    },
    {
      "entropy": 1.148691438138485,
      "epoch": 0.6382678277241703,
      "grad_norm": 0.1428363174200058,
      "learning_rate": 0.00043646616541353383,
      "loss": 1.1403,
      "mean_token_accuracy": 0.6996031925082207,
      "num_tokens": 9001421.0,
      "step": 339
    },
    {
      "entropy": 1.1665330827236176,
      "epoch": 0.640150623676159,
      "grad_norm": 0.1439882218837738,
      "learning_rate": 0.00043627819548872185,
      "loss": 1.1849,
      "mean_token_accuracy": 0.6867435649037361,
      "num_tokens": 9028615.0,
      "step": 340
    },
    {
      "entropy": 1.1208850890398026,
      "epoch": 0.6420334196281478,
      "grad_norm": 0.14697298407554626,
      "learning_rate": 0.00043609022556390976,
      "loss": 1.1336,
      "mean_token_accuracy": 0.6952601596713066,
      "num_tokens": 9056227.0,
      "step": 341
    },
    {
      "entropy": 1.1804025322198868,
      "epoch": 0.6439162155801365,
      "grad_norm": 0.13762733340263367,
      "learning_rate": 0.00043590225563909773,
      "loss": 1.1556,
      "mean_token_accuracy": 0.6842042878270149,
      "num_tokens": 9081334.0,
      "step": 342
    },
    {
      "entropy": 1.225020870566368,
      "epoch": 0.6457990115321252,
      "grad_norm": 0.15140774846076965,
      "learning_rate": 0.00043571428571428575,
      "loss": 1.1576,
      "mean_token_accuracy": 0.6892690062522888,
      "num_tokens": 9107740.0,
      "step": 343
    },
    {
      "entropy": 1.178776428103447,
      "epoch": 0.6476818074841139,
      "grad_norm": 0.14922155439853668,
      "learning_rate": 0.0004355263157894737,
      "loss": 1.119,
      "mean_token_accuracy": 0.6988128572702408,
      "num_tokens": 9134004.0,
      "step": 344
    },
    {
      "entropy": 1.1870884746313095,
      "epoch": 0.6495646034361026,
      "grad_norm": 0.13645216822624207,
      "learning_rate": 0.00043533834586466163,
      "loss": 1.1258,
      "mean_token_accuracy": 0.7014844194054604,
      "num_tokens": 9161858.0,
      "step": 345
    },
    {
      "entropy": 1.1208381354808807,
      "epoch": 0.6514473993880913,
      "grad_norm": 0.15188747644424438,
      "learning_rate": 0.00043515037593984965,
      "loss": 1.126,
      "mean_token_accuracy": 0.6888753995299339,
      "num_tokens": 9187924.0,
      "step": 346
    },
    {
      "entropy": 1.1246383488178253,
      "epoch": 0.65333019534008,
      "grad_norm": 0.18039844930171967,
      "learning_rate": 0.0004349624060150376,
      "loss": 1.1297,
      "mean_token_accuracy": 0.6954269483685493,
      "num_tokens": 9213952.0,
      "step": 347
    },
    {
      "entropy": 1.181724175810814,
      "epoch": 0.6552129912920687,
      "grad_norm": 0.13552230596542358,
      "learning_rate": 0.0004347744360902256,
      "loss": 1.185,
      "mean_token_accuracy": 0.682334654033184,
      "num_tokens": 9240003.0,
      "step": 348
    },
    {
      "entropy": 1.161278709769249,
      "epoch": 0.6570957872440574,
      "grad_norm": 0.13721586763858795,
      "learning_rate": 0.00043458646616541355,
      "loss": 1.1323,
      "mean_token_accuracy": 0.6919213533401489,
      "num_tokens": 9265180.0,
      "step": 349
    },
    {
      "entropy": 1.167539969086647,
      "epoch": 0.6589785831960461,
      "grad_norm": 0.145475372672081,
      "learning_rate": 0.0004343984962406015,
      "loss": 1.1342,
      "mean_token_accuracy": 0.6932244300842285,
      "num_tokens": 9291467.0,
      "step": 350
    },
    {
      "entropy": 1.2319505363702774,
      "epoch": 0.6608613791480348,
      "grad_norm": 0.13839372992515564,
      "learning_rate": 0.0004342105263157895,
      "loss": 1.2132,
      "mean_token_accuracy": 0.6786127388477325,
      "num_tokens": 9317382.0,
      "step": 351
    },
    {
      "entropy": 1.2023252993822098,
      "epoch": 0.6627441751000235,
      "grad_norm": 0.1364511102437973,
      "learning_rate": 0.00043402255639097745,
      "loss": 1.19,
      "mean_token_accuracy": 0.6843428909778595,
      "num_tokens": 9343464.0,
      "step": 352
    },
    {
      "entropy": 1.173360899090767,
      "epoch": 0.6646269710520122,
      "grad_norm": 0.1326543539762497,
      "learning_rate": 0.0004338345864661654,
      "loss": 1.1469,
      "mean_token_accuracy": 0.6877379715442657,
      "num_tokens": 9371170.0,
      "step": 353
    },
    {
      "entropy": 1.1177352517843246,
      "epoch": 0.6665097670040009,
      "grad_norm": 0.1422666758298874,
      "learning_rate": 0.0004336466165413534,
      "loss": 1.0994,
      "mean_token_accuracy": 0.700407862663269,
      "num_tokens": 9397147.0,
      "step": 354
    },
    {
      "entropy": 1.248588040471077,
      "epoch": 0.6683925629559897,
      "grad_norm": 0.13168664276599884,
      "learning_rate": 0.0004334586466165414,
      "loss": 1.2098,
      "mean_token_accuracy": 0.6834209859371185,
      "num_tokens": 9424363.0,
      "step": 355
    },
    {
      "entropy": 1.1617062538862228,
      "epoch": 0.6702753589079784,
      "grad_norm": 0.15483741462230682,
      "learning_rate": 0.0004332706766917293,
      "loss": 1.114,
      "mean_token_accuracy": 0.7020522281527519,
      "num_tokens": 9450742.0,
      "step": 356
    },
    {
      "entropy": 1.1978859603404999,
      "epoch": 0.6721581548599671,
      "grad_norm": 0.14632469415664673,
      "learning_rate": 0.0004330827067669173,
      "loss": 1.1847,
      "mean_token_accuracy": 0.6837000176310539,
      "num_tokens": 9475697.0,
      "step": 357
    },
    {
      "entropy": 1.1161824762821198,
      "epoch": 0.6740409508119558,
      "grad_norm": 0.14072488248348236,
      "learning_rate": 0.0004328947368421053,
      "loss": 1.1272,
      "mean_token_accuracy": 0.6974566504359245,
      "num_tokens": 9502237.0,
      "step": 358
    },
    {
      "entropy": 1.1397125273942947,
      "epoch": 0.6759237467639445,
      "grad_norm": 0.148344486951828,
      "learning_rate": 0.0004327067669172932,
      "loss": 1.1453,
      "mean_token_accuracy": 0.6873810589313507,
      "num_tokens": 9528201.0,
      "step": 359
    },
    {
      "entropy": 1.2197502925992012,
      "epoch": 0.6778065427159332,
      "grad_norm": 0.14831538498401642,
      "learning_rate": 0.0004325187969924812,
      "loss": 1.1981,
      "mean_token_accuracy": 0.6797335669398308,
      "num_tokens": 9553887.0,
      "step": 360
    },
    {
      "entropy": 1.2503347992897034,
      "epoch": 0.6796893386679219,
      "grad_norm": 0.14289598166942596,
      "learning_rate": 0.0004323308270676692,
      "loss": 1.1754,
      "mean_token_accuracy": 0.682529591023922,
      "num_tokens": 9578439.0,
      "step": 361
    },
    {
      "entropy": 1.2314954698085785,
      "epoch": 0.6815721346199106,
      "grad_norm": 0.14386345446109772,
      "learning_rate": 0.0004321428571428572,
      "loss": 1.1499,
      "mean_token_accuracy": 0.6907836198806763,
      "num_tokens": 9603444.0,
      "step": 362
    },
    {
      "entropy": 1.2456393241882324,
      "epoch": 0.6834549305718993,
      "grad_norm": 0.14364264905452728,
      "learning_rate": 0.0004319548872180451,
      "loss": 1.1933,
      "mean_token_accuracy": 0.6874497607350349,
      "num_tokens": 9629030.0,
      "step": 363
    },
    {
      "entropy": 1.1722253412008286,
      "epoch": 0.685337726523888,
      "grad_norm": 0.1491105556488037,
      "learning_rate": 0.0004317669172932331,
      "loss": 1.152,
      "mean_token_accuracy": 0.6939368024468422,
      "num_tokens": 9656342.0,
      "step": 364
    },
    {
      "entropy": 1.0892303064465523,
      "epoch": 0.6872205224758767,
      "grad_norm": 0.14881175756454468,
      "learning_rate": 0.0004315789473684211,
      "loss": 1.0922,
      "mean_token_accuracy": 0.7064904496073723,
      "num_tokens": 9680706.0,
      "step": 365
    },
    {
      "entropy": 1.090978980064392,
      "epoch": 0.6891033184278654,
      "grad_norm": 0.14446662366390228,
      "learning_rate": 0.00043139097744360904,
      "loss": 1.1148,
      "mean_token_accuracy": 0.696795642375946,
      "num_tokens": 9705331.0,
      "step": 366
    },
    {
      "entropy": 1.1398785412311554,
      "epoch": 0.6909861143798541,
      "grad_norm": 0.13684354722499847,
      "learning_rate": 0.000431203007518797,
      "loss": 1.1497,
      "mean_token_accuracy": 0.6912109777331352,
      "num_tokens": 9732400.0,
      "step": 367
    },
    {
      "entropy": 1.17644502222538,
      "epoch": 0.6928689103318428,
      "grad_norm": 0.14162884652614594,
      "learning_rate": 0.000431015037593985,
      "loss": 1.1495,
      "mean_token_accuracy": 0.6945677846670151,
      "num_tokens": 9758948.0,
      "step": 368
    },
    {
      "entropy": 1.1725402027368546,
      "epoch": 0.6947517062838315,
      "grad_norm": 0.13373105227947235,
      "learning_rate": 0.00043082706766917295,
      "loss": 1.1186,
      "mean_token_accuracy": 0.7017792239785194,
      "num_tokens": 9786609.0,
      "step": 369
    },
    {
      "entropy": 1.1570321172475815,
      "epoch": 0.6966345022358202,
      "grad_norm": 0.13376620411872864,
      "learning_rate": 0.0004306390977443609,
      "loss": 1.1169,
      "mean_token_accuracy": 0.7013789564371109,
      "num_tokens": 9815091.0,
      "step": 370
    },
    {
      "entropy": 1.2269478738307953,
      "epoch": 0.6985172981878089,
      "grad_norm": 0.15718406438827515,
      "learning_rate": 0.0004304511278195489,
      "loss": 1.1795,
      "mean_token_accuracy": 0.6809123381972313,
      "num_tokens": 9838924.0,
      "step": 371
    },
    {
      "entropy": 1.2373632341623306,
      "epoch": 0.7004000941397976,
      "grad_norm": 0.13601046800613403,
      "learning_rate": 0.00043026315789473685,
      "loss": 1.1897,
      "mean_token_accuracy": 0.6842946112155914,
      "num_tokens": 9865745.0,
      "step": 372
    },
    {
      "entropy": 1.2175681740045547,
      "epoch": 0.7022828900917863,
      "grad_norm": 0.14760908484458923,
      "learning_rate": 0.00043007518796992487,
      "loss": 1.2027,
      "mean_token_accuracy": 0.680089496076107,
      "num_tokens": 9891103.0,
      "step": 373
    },
    {
      "entropy": 1.187382310628891,
      "epoch": 0.704165686043775,
      "grad_norm": 0.15881404280662537,
      "learning_rate": 0.0004298872180451128,
      "loss": 1.183,
      "mean_token_accuracy": 0.6840859726071358,
      "num_tokens": 9916491.0,
      "step": 374
    },
    {
      "entropy": 1.1363441050052643,
      "epoch": 0.7060484819957638,
      "grad_norm": 0.14100411534309387,
      "learning_rate": 0.00042969924812030075,
      "loss": 1.1268,
      "mean_token_accuracy": 0.6940664201974869,
      "num_tokens": 9943115.0,
      "step": 375
    },
    {
      "entropy": 1.1373258829116821,
      "epoch": 0.7079312779477525,
      "grad_norm": 0.14058925211429596,
      "learning_rate": 0.00042951127819548877,
      "loss": 1.1312,
      "mean_token_accuracy": 0.6918314695358276,
      "num_tokens": 9971012.0,
      "step": 376
    },
    {
      "entropy": 1.1753637194633484,
      "epoch": 0.7098140738997412,
      "grad_norm": 0.15900634229183197,
      "learning_rate": 0.00042932330827067674,
      "loss": 1.1532,
      "mean_token_accuracy": 0.688523419201374,
      "num_tokens": 9997158.0,
      "step": 377
    },
    {
      "entropy": 1.2038870453834534,
      "epoch": 0.7116968698517299,
      "grad_norm": 0.15579019486904144,
      "learning_rate": 0.00042913533834586465,
      "loss": 1.1634,
      "mean_token_accuracy": 0.6910874620079994,
      "num_tokens": 10023904.0,
      "step": 378
    },
    {
      "entropy": 1.2042047381401062,
      "epoch": 0.7135796658037186,
      "grad_norm": 0.1458210051059723,
      "learning_rate": 0.0004289473684210526,
      "loss": 1.1303,
      "mean_token_accuracy": 0.6955228298902512,
      "num_tokens": 10050044.0,
      "step": 379
    },
    {
      "entropy": 1.199434906244278,
      "epoch": 0.7154624617557073,
      "grad_norm": 0.13873904943466187,
      "learning_rate": 0.00042875939849624064,
      "loss": 1.143,
      "mean_token_accuracy": 0.6911288425326347,
      "num_tokens": 10077533.0,
      "step": 380
    },
    {
      "entropy": 1.179319679737091,
      "epoch": 0.717345257707696,
      "grad_norm": 0.15580423176288605,
      "learning_rate": 0.00042857142857142855,
      "loss": 1.1516,
      "mean_token_accuracy": 0.6900925859808922,
      "num_tokens": 10102103.0,
      "step": 381
    },
    {
      "entropy": 1.1498710662126541,
      "epoch": 0.7192280536596847,
      "grad_norm": 0.1526648849248886,
      "learning_rate": 0.0004283834586466165,
      "loss": 1.1463,
      "mean_token_accuracy": 0.6923620998859406,
      "num_tokens": 10127966.0,
      "step": 382
    },
    {
      "entropy": 1.2051638066768646,
      "epoch": 0.7211108496116734,
      "grad_norm": 0.14739763736724854,
      "learning_rate": 0.00042819548872180454,
      "loss": 1.2125,
      "mean_token_accuracy": 0.6824790090322495,
      "num_tokens": 10153724.0,
      "step": 383
    },
    {
      "entropy": 1.148889034986496,
      "epoch": 0.7229936455636621,
      "grad_norm": 0.13951475918293,
      "learning_rate": 0.0004280075187969925,
      "loss": 1.1431,
      "mean_token_accuracy": 0.6938719674944878,
      "num_tokens": 10178827.0,
      "step": 384
    },
    {
      "entropy": 1.1680803298950195,
      "epoch": 0.7248764415156508,
      "grad_norm": 0.14505353569984436,
      "learning_rate": 0.0004278195488721804,
      "loss": 1.1278,
      "mean_token_accuracy": 0.6925608888268471,
      "num_tokens": 10204362.0,
      "step": 385
    },
    {
      "entropy": 1.1652754694223404,
      "epoch": 0.7267592374676395,
      "grad_norm": 0.15343666076660156,
      "learning_rate": 0.00042763157894736844,
      "loss": 1.1347,
      "mean_token_accuracy": 0.6980648785829544,
      "num_tokens": 10232975.0,
      "step": 386
    },
    {
      "entropy": 1.1660331934690475,
      "epoch": 0.7286420334196282,
      "grad_norm": 0.6029819250106812,
      "learning_rate": 0.0004274436090225564,
      "loss": 1.1252,
      "mean_token_accuracy": 0.6913493424654007,
      "num_tokens": 10258684.0,
      "step": 387
    },
    {
      "entropy": 1.2207347601652145,
      "epoch": 0.7305248293716169,
      "grad_norm": 0.1639021635055542,
      "learning_rate": 0.00042725563909774437,
      "loss": 1.2,
      "mean_token_accuracy": 0.680275171995163,
      "num_tokens": 10284896.0,
      "step": 388
    },
    {
      "entropy": 1.1547054946422577,
      "epoch": 0.7324076253236056,
      "grad_norm": 0.13551250100135803,
      "learning_rate": 0.00042706766917293234,
      "loss": 1.153,
      "mean_token_accuracy": 0.6940227970480919,
      "num_tokens": 10312039.0,
      "step": 389
    },
    {
      "entropy": 1.173499509692192,
      "epoch": 0.7342904212755943,
      "grad_norm": 0.14394164085388184,
      "learning_rate": 0.0004268796992481203,
      "loss": 1.1401,
      "mean_token_accuracy": 0.6948181614279747,
      "num_tokens": 10338001.0,
      "step": 390
    },
    {
      "entropy": 1.108071744441986,
      "epoch": 0.736173217227583,
      "grad_norm": 0.15528494119644165,
      "learning_rate": 0.0004266917293233083,
      "loss": 1.0993,
      "mean_token_accuracy": 0.7045417055487633,
      "num_tokens": 10364257.0,
      "step": 391
    },
    {
      "entropy": 1.1832116544246674,
      "epoch": 0.7380560131795717,
      "grad_norm": 0.14551259577274323,
      "learning_rate": 0.00042650375939849624,
      "loss": 1.1514,
      "mean_token_accuracy": 0.6929153054952621,
      "num_tokens": 10389671.0,
      "step": 392
    },
    {
      "entropy": 1.1930436193943024,
      "epoch": 0.7399388091315604,
      "grad_norm": 0.15499240159988403,
      "learning_rate": 0.0004263157894736842,
      "loss": 1.1429,
      "mean_token_accuracy": 0.688226006925106,
      "num_tokens": 10415575.0,
      "step": 393
    },
    {
      "entropy": 1.2092433124780655,
      "epoch": 0.7418216050835491,
      "grad_norm": 0.15129360556602478,
      "learning_rate": 0.0004261278195488722,
      "loss": 1.1844,
      "mean_token_accuracy": 0.6808707118034363,
      "num_tokens": 10442443.0,
      "step": 394
    },
    {
      "entropy": 1.293672189116478,
      "epoch": 0.7437044010355378,
      "grad_norm": 0.1603565663099289,
      "learning_rate": 0.0004259398496240602,
      "loss": 1.2682,
      "mean_token_accuracy": 0.6722560822963715,
      "num_tokens": 10466233.0,
      "step": 395
    },
    {
      "entropy": 1.1358380764722824,
      "epoch": 0.7455871969875265,
      "grad_norm": 0.1485726684331894,
      "learning_rate": 0.0004257518796992481,
      "loss": 1.1388,
      "mean_token_accuracy": 0.6920513585209846,
      "num_tokens": 10491851.0,
      "step": 396
    },
    {
      "entropy": 1.13677416741848,
      "epoch": 0.7474699929395152,
      "grad_norm": 0.1432713270187378,
      "learning_rate": 0.0004255639097744361,
      "loss": 1.1244,
      "mean_token_accuracy": 0.6951583921909332,
      "num_tokens": 10518737.0,
      "step": 397
    },
    {
      "entropy": 1.2034449130296707,
      "epoch": 0.7493527888915039,
      "grad_norm": 0.16076122224330902,
      "learning_rate": 0.0004253759398496241,
      "loss": 1.2062,
      "mean_token_accuracy": 0.6785011366009712,
      "num_tokens": 10545857.0,
      "step": 398
    },
    {
      "entropy": 1.1623305827379227,
      "epoch": 0.7512355848434926,
      "grad_norm": 0.15050064027309418,
      "learning_rate": 0.000425187969924812,
      "loss": 1.1163,
      "mean_token_accuracy": 0.6948087736964226,
      "num_tokens": 10571770.0,
      "step": 399
    },
    {
      "entropy": 1.1117802858352661,
      "epoch": 0.7531183807954813,
      "grad_norm": 0.21685755252838135,
      "learning_rate": 0.000425,
      "loss": 1.0837,
      "mean_token_accuracy": 0.7059917375445366,
      "num_tokens": 10599528.0,
      "step": 400
    },
    {
      "entropy": 1.1872282922267914,
      "epoch": 0.75500117674747,
      "grad_norm": 0.1475781798362732,
      "learning_rate": 0.000424812030075188,
      "loss": 1.1617,
      "mean_token_accuracy": 0.6920499876141548,
      "num_tokens": 10625575.0,
      "step": 401
    },
    {
      "entropy": 1.1875766217708588,
      "epoch": 0.7568839726994587,
      "grad_norm": 0.15453127026557922,
      "learning_rate": 0.00042462406015037596,
      "loss": 1.1608,
      "mean_token_accuracy": 0.6888900995254517,
      "num_tokens": 10650929.0,
      "step": 402
    },
    {
      "entropy": 1.120169810950756,
      "epoch": 0.7587667686514474,
      "grad_norm": 0.14685072004795074,
      "learning_rate": 0.0004244360902255639,
      "loss": 1.0894,
      "mean_token_accuracy": 0.700760155916214,
      "num_tokens": 10677930.0,
      "step": 403
    },
    {
      "entropy": 1.178112044930458,
      "epoch": 0.7606495646034361,
      "grad_norm": 0.15392844378948212,
      "learning_rate": 0.0004242481203007519,
      "loss": 1.1488,
      "mean_token_accuracy": 0.6943765133619308,
      "num_tokens": 10701759.0,
      "step": 404
    },
    {
      "entropy": 1.139440432190895,
      "epoch": 0.7625323605554248,
      "grad_norm": 0.14876064658164978,
      "learning_rate": 0.00042406015037593987,
      "loss": 1.1175,
      "mean_token_accuracy": 0.6995274350047112,
      "num_tokens": 10727920.0,
      "step": 405
    },
    {
      "entropy": 1.1383692100644112,
      "epoch": 0.7644151565074135,
      "grad_norm": 0.16769041121006012,
      "learning_rate": 0.00042387218045112783,
      "loss": 1.1056,
      "mean_token_accuracy": 0.6987453699111938,
      "num_tokens": 10752826.0,
      "step": 406
    },
    {
      "entropy": 1.219818040728569,
      "epoch": 0.7662979524594022,
      "grad_norm": 0.16228246688842773,
      "learning_rate": 0.0004236842105263158,
      "loss": 1.1982,
      "mean_token_accuracy": 0.6772318556904793,
      "num_tokens": 10777756.0,
      "step": 407
    },
    {
      "entropy": 1.1474368646740913,
      "epoch": 0.768180748411391,
      "grad_norm": 0.14922939240932465,
      "learning_rate": 0.00042349624060150377,
      "loss": 1.1385,
      "mean_token_accuracy": 0.6920562386512756,
      "num_tokens": 10804768.0,
      "step": 408
    },
    {
      "entropy": 1.1331078857183456,
      "epoch": 0.7700635443633796,
      "grad_norm": 0.1535317599773407,
      "learning_rate": 0.00042330827067669173,
      "loss": 1.1359,
      "mean_token_accuracy": 0.6879219114780426,
      "num_tokens": 10830286.0,
      "step": 409
    },
    {
      "entropy": 1.146752119064331,
      "epoch": 0.7719463403153684,
      "grad_norm": 0.1524975448846817,
      "learning_rate": 0.0004231203007518797,
      "loss": 1.1448,
      "mean_token_accuracy": 0.6925338879227638,
      "num_tokens": 10855720.0,
      "step": 410
    },
    {
      "entropy": 1.13744555413723,
      "epoch": 0.773829136267357,
      "grad_norm": 0.16938121616840363,
      "learning_rate": 0.00042293233082706767,
      "loss": 1.1189,
      "mean_token_accuracy": 0.7019513100385666,
      "num_tokens": 10881312.0,
      "step": 411
    },
    {
      "entropy": 1.1643693000078201,
      "epoch": 0.7757119322193458,
      "grad_norm": 0.134382426738739,
      "learning_rate": 0.00042274436090225563,
      "loss": 1.1205,
      "mean_token_accuracy": 0.7012400701642036,
      "num_tokens": 10909609.0,
      "step": 412
    },
    {
      "entropy": 1.1546955406665802,
      "epoch": 0.7775947281713345,
      "grad_norm": 0.15923891961574554,
      "learning_rate": 0.00042255639097744366,
      "loss": 1.1025,
      "mean_token_accuracy": 0.7031391486525536,
      "num_tokens": 10937878.0,
      "step": 413
    },
    {
      "entropy": 1.1441723331809044,
      "epoch": 0.7794775241233232,
      "grad_norm": 0.16663163900375366,
      "learning_rate": 0.00042236842105263157,
      "loss": 1.1092,
      "mean_token_accuracy": 0.6957027688622475,
      "num_tokens": 10963268.0,
      "step": 414
    },
    {
      "entropy": 1.168132722377777,
      "epoch": 0.7813603200753119,
      "grad_norm": 0.13848932087421417,
      "learning_rate": 0.00042218045112781954,
      "loss": 1.132,
      "mean_token_accuracy": 0.6938114240765572,
      "num_tokens": 10990727.0,
      "step": 415
    },
    {
      "entropy": 1.1057742238044739,
      "epoch": 0.7832431160273006,
      "grad_norm": 0.13826268911361694,
      "learning_rate": 0.00042199248120300756,
      "loss": 1.0977,
      "mean_token_accuracy": 0.6982015743851662,
      "num_tokens": 11017384.0,
      "step": 416
    },
    {
      "entropy": 1.1963546127080917,
      "epoch": 0.7851259119792893,
      "grad_norm": 0.1429852694272995,
      "learning_rate": 0.0004218045112781955,
      "loss": 1.1883,
      "mean_token_accuracy": 0.6860344484448433,
      "num_tokens": 11045688.0,
      "step": 417
    },
    {
      "entropy": 1.1521967574954033,
      "epoch": 0.787008707931278,
      "grad_norm": 0.16643297672271729,
      "learning_rate": 0.00042161654135338344,
      "loss": 1.1547,
      "mean_token_accuracy": 0.6908131241798401,
      "num_tokens": 11070352.0,
      "step": 418
    },
    {
      "entropy": 1.1493701189756393,
      "epoch": 0.7888915038832667,
      "grad_norm": 0.15780487656593323,
      "learning_rate": 0.00042142857142857146,
      "loss": 1.1631,
      "mean_token_accuracy": 0.6898321136832237,
      "num_tokens": 11097217.0,
      "step": 419
    },
    {
      "entropy": 1.2399737238883972,
      "epoch": 0.7907742998352554,
      "grad_norm": 0.15339267253875732,
      "learning_rate": 0.0004212406015037594,
      "loss": 1.206,
      "mean_token_accuracy": 0.6820631548762321,
      "num_tokens": 11123692.0,
      "step": 420
    },
    {
      "entropy": 1.1258632093667984,
      "epoch": 0.7926570957872441,
      "grad_norm": 0.1442951112985611,
      "learning_rate": 0.00042105263157894734,
      "loss": 1.0869,
      "mean_token_accuracy": 0.7083057761192322,
      "num_tokens": 11149050.0,
      "step": 421
    },
    {
      "entropy": 1.2205425053834915,
      "epoch": 0.7945398917392328,
      "grad_norm": 0.1388903707265854,
      "learning_rate": 0.00042086466165413536,
      "loss": 1.1843,
      "mean_token_accuracy": 0.6856774613261223,
      "num_tokens": 11175990.0,
      "step": 422
    },
    {
      "entropy": 1.1613269746303558,
      "epoch": 0.7964226876912215,
      "grad_norm": 0.15723979473114014,
      "learning_rate": 0.0004206766917293233,
      "loss": 1.1238,
      "mean_token_accuracy": 0.6957441344857216,
      "num_tokens": 11203684.0,
      "step": 423
    },
    {
      "entropy": 1.15619857609272,
      "epoch": 0.7983054836432102,
      "grad_norm": 0.16091464459896088,
      "learning_rate": 0.0004204887218045113,
      "loss": 1.1275,
      "mean_token_accuracy": 0.6946544200181961,
      "num_tokens": 11230179.0,
      "step": 424
    },
    {
      "entropy": 1.2017978131771088,
      "epoch": 0.8001882795951989,
      "grad_norm": 0.15011471509933472,
      "learning_rate": 0.00042030075187969926,
      "loss": 1.1685,
      "mean_token_accuracy": 0.6920702531933784,
      "num_tokens": 11256384.0,
      "step": 425
    },
    {
      "entropy": 1.2229324877262115,
      "epoch": 0.8020710755471876,
      "grad_norm": 0.14569929242134094,
      "learning_rate": 0.0004201127819548872,
      "loss": 1.2065,
      "mean_token_accuracy": 0.6834921091794968,
      "num_tokens": 11284359.0,
      "step": 426
    },
    {
      "entropy": 1.1204483732581139,
      "epoch": 0.8039538714991763,
      "grad_norm": 0.14004987478256226,
      "learning_rate": 0.0004199248120300752,
      "loss": 1.1147,
      "mean_token_accuracy": 0.7033949047327042,
      "num_tokens": 11313184.0,
      "step": 427
    },
    {
      "entropy": 1.1141091734170914,
      "epoch": 0.805836667451165,
      "grad_norm": 0.14807014167308807,
      "learning_rate": 0.00041973684210526316,
      "loss": 1.1074,
      "mean_token_accuracy": 0.6922068670392036,
      "num_tokens": 11340757.0,
      "step": 428
    },
    {
      "entropy": 1.2002304196357727,
      "epoch": 0.8077194634031537,
      "grad_norm": 0.17711348831653595,
      "learning_rate": 0.00041954887218045113,
      "loss": 1.1973,
      "mean_token_accuracy": 0.6831801310181618,
      "num_tokens": 11366871.0,
      "step": 429
    },
    {
      "entropy": 1.2234468758106232,
      "epoch": 0.8096022593551424,
      "grad_norm": 0.16027556359767914,
      "learning_rate": 0.0004193609022556391,
      "loss": 1.1958,
      "mean_token_accuracy": 0.6806567907333374,
      "num_tokens": 11390392.0,
      "step": 430
    },
    {
      "entropy": 1.1892322599887848,
      "epoch": 0.8114850553071311,
      "grad_norm": 0.14892058074474335,
      "learning_rate": 0.0004191729323308271,
      "loss": 1.124,
      "mean_token_accuracy": 0.6932070925831795,
      "num_tokens": 11415883.0,
      "step": 431
    },
    {
      "entropy": 1.1975643932819366,
      "epoch": 0.8133678512591198,
      "grad_norm": 0.13819143176078796,
      "learning_rate": 0.00041898496240601503,
      "loss": 1.1446,
      "mean_token_accuracy": 0.6961016952991486,
      "num_tokens": 11445261.0,
      "step": 432
    },
    {
      "entropy": 1.231493815779686,
      "epoch": 0.8152506472111085,
      "grad_norm": 0.14783842861652374,
      "learning_rate": 0.000418796992481203,
      "loss": 1.1956,
      "mean_token_accuracy": 0.6879047080874443,
      "num_tokens": 11471660.0,
      "step": 433
    },
    {
      "entropy": 1.1187082305550575,
      "epoch": 0.8171334431630972,
      "grad_norm": 0.1379650980234146,
      "learning_rate": 0.000418609022556391,
      "loss": 1.1226,
      "mean_token_accuracy": 0.6993625611066818,
      "num_tokens": 11498274.0,
      "step": 434
    },
    {
      "entropy": 1.272495910525322,
      "epoch": 0.8190162391150859,
      "grad_norm": 0.1640465259552002,
      "learning_rate": 0.000418421052631579,
      "loss": 1.2792,
      "mean_token_accuracy": 0.6701348200440407,
      "num_tokens": 11525102.0,
      "step": 435
    },
    {
      "entropy": 1.1658570766448975,
      "epoch": 0.8208990350670746,
      "grad_norm": 0.14112910628318787,
      "learning_rate": 0.0004182330827067669,
      "loss": 1.171,
      "mean_token_accuracy": 0.6936748847365379,
      "num_tokens": 11555100.0,
      "step": 436
    },
    {
      "entropy": 1.2729250341653824,
      "epoch": 0.8227818310190633,
      "grad_norm": 0.15435785055160522,
      "learning_rate": 0.0004180451127819549,
      "loss": 1.2133,
      "mean_token_accuracy": 0.6812319383025169,
      "num_tokens": 11580101.0,
      "step": 437
    },
    {
      "entropy": 1.13491952419281,
      "epoch": 0.824664626971052,
      "grad_norm": 0.1388065367937088,
      "learning_rate": 0.0004178571428571429,
      "loss": 1.091,
      "mean_token_accuracy": 0.7023670971393585,
      "num_tokens": 11607990.0,
      "step": 438
    },
    {
      "entropy": 1.1109650805592537,
      "epoch": 0.8265474229230407,
      "grad_norm": 0.13361488282680511,
      "learning_rate": 0.0004176691729323308,
      "loss": 1.0797,
      "mean_token_accuracy": 0.7052409499883652,
      "num_tokens": 11635249.0,
      "step": 439
    },
    {
      "entropy": 1.128780521452427,
      "epoch": 0.8284302188750294,
      "grad_norm": 0.14179299771785736,
      "learning_rate": 0.0004174812030075188,
      "loss": 1.0756,
      "mean_token_accuracy": 0.6986876875162125,
      "num_tokens": 11661132.0,
      "step": 440
    },
    {
      "entropy": 1.1229918599128723,
      "epoch": 0.8303130148270181,
      "grad_norm": 0.13364551961421967,
      "learning_rate": 0.0004172932330827068,
      "loss": 1.1159,
      "mean_token_accuracy": 0.7024848908185959,
      "num_tokens": 11688969.0,
      "step": 441
    },
    {
      "entropy": 1.1451409384608269,
      "epoch": 0.8321958107790068,
      "grad_norm": 0.15363940596580505,
      "learning_rate": 0.00041710526315789475,
      "loss": 1.1742,
      "mean_token_accuracy": 0.6850685179233551,
      "num_tokens": 11714108.0,
      "step": 442
    },
    {
      "entropy": 1.1217172518372536,
      "epoch": 0.8340786067309955,
      "grad_norm": 0.1592985838651657,
      "learning_rate": 0.0004169172932330827,
      "loss": 1.1189,
      "mean_token_accuracy": 0.698178730905056,
      "num_tokens": 11737727.0,
      "step": 443
    },
    {
      "entropy": 1.1448046416044235,
      "epoch": 0.8359614026829842,
      "grad_norm": 0.15717987716197968,
      "learning_rate": 0.0004167293233082707,
      "loss": 1.1271,
      "mean_token_accuracy": 0.696114294230938,
      "num_tokens": 11763503.0,
      "step": 444
    },
    {
      "entropy": 1.1910344362258911,
      "epoch": 0.837844198634973,
      "grad_norm": 0.1563824862241745,
      "learning_rate": 0.00041654135338345865,
      "loss": 1.1685,
      "mean_token_accuracy": 0.6853935644030571,
      "num_tokens": 11788216.0,
      "step": 445
    },
    {
      "entropy": 1.1520782858133316,
      "epoch": 0.8397269945869617,
      "grad_norm": 0.15299555659294128,
      "learning_rate": 0.0004163533834586467,
      "loss": 1.1235,
      "mean_token_accuracy": 0.6957945972681046,
      "num_tokens": 11813250.0,
      "step": 446
    },
    {
      "entropy": 1.157516971230507,
      "epoch": 0.8416097905389504,
      "grad_norm": 0.15409286320209503,
      "learning_rate": 0.0004161654135338346,
      "loss": 1.1292,
      "mean_token_accuracy": 0.6986691579222679,
      "num_tokens": 11840547.0,
      "step": 447
    },
    {
      "entropy": 1.1751955449581146,
      "epoch": 0.8434925864909391,
      "grad_norm": 0.1436087191104889,
      "learning_rate": 0.00041597744360902255,
      "loss": 1.1498,
      "mean_token_accuracy": 0.692206360399723,
      "num_tokens": 11868040.0,
      "step": 448
    },
    {
      "entropy": 1.1962674707174301,
      "epoch": 0.8453753824429278,
      "grad_norm": 0.14213787019252777,
      "learning_rate": 0.0004157894736842106,
      "loss": 1.1349,
      "mean_token_accuracy": 0.6944708526134491,
      "num_tokens": 11894177.0,
      "step": 449
    },
    {
      "entropy": 1.201774999499321,
      "epoch": 0.8472581783949165,
      "grad_norm": 0.15118546783924103,
      "learning_rate": 0.0004156015037593985,
      "loss": 1.1868,
      "mean_token_accuracy": 0.6906943470239639,
      "num_tokens": 11920755.0,
      "step": 450
    },
    {
      "entropy": 1.1439872980117798,
      "epoch": 0.8491409743469052,
      "grad_norm": 0.1536472737789154,
      "learning_rate": 0.00041541353383458646,
      "loss": 1.1091,
      "mean_token_accuracy": 0.6987525522708893,
      "num_tokens": 11946199.0,
      "step": 451
    },
    {
      "entropy": 1.1865400224924088,
      "epoch": 0.8510237702988939,
      "grad_norm": 0.16255781054496765,
      "learning_rate": 0.0004152255639097745,
      "loss": 1.1606,
      "mean_token_accuracy": 0.6941612362861633,
      "num_tokens": 11970559.0,
      "step": 452
    },
    {
      "entropy": 1.1555950492620468,
      "epoch": 0.8529065662508826,
      "grad_norm": 0.15296806395053864,
      "learning_rate": 0.00041503759398496244,
      "loss": 1.1647,
      "mean_token_accuracy": 0.6893363445997238,
      "num_tokens": 11998113.0,
      "step": 453
    },
    {
      "entropy": 1.1035746112465858,
      "epoch": 0.8547893622028713,
      "grad_norm": 0.13151533901691437,
      "learning_rate": 0.00041484962406015036,
      "loss": 1.0917,
      "mean_token_accuracy": 0.7064924463629723,
      "num_tokens": 12025595.0,
      "step": 454
    },
    {
      "entropy": 1.148128904402256,
      "epoch": 0.85667215815486,
      "grad_norm": 0.15572930872440338,
      "learning_rate": 0.0004146616541353384,
      "loss": 1.1516,
      "mean_token_accuracy": 0.6970530971884727,
      "num_tokens": 12051025.0,
      "step": 455
    },
    {
      "entropy": 1.1640497595071793,
      "epoch": 0.8585549541068487,
      "grad_norm": 0.14575503766536713,
      "learning_rate": 0.00041447368421052634,
      "loss": 1.124,
      "mean_token_accuracy": 0.6972140222787857,
      "num_tokens": 12080372.0,
      "step": 456
    },
    {
      "entropy": 1.1797401309013367,
      "epoch": 0.8604377500588374,
      "grad_norm": 0.1724129319190979,
      "learning_rate": 0.0004142857142857143,
      "loss": 1.1266,
      "mean_token_accuracy": 0.6963677033782005,
      "num_tokens": 12107881.0,
      "step": 457
    },
    {
      "entropy": 1.1369287073612213,
      "epoch": 0.8623205460108261,
      "grad_norm": 0.1409987360239029,
      "learning_rate": 0.0004140977443609022,
      "loss": 1.1021,
      "mean_token_accuracy": 0.6983814239501953,
      "num_tokens": 12136975.0,
      "step": 458
    },
    {
      "entropy": 1.203329399228096,
      "epoch": 0.8642033419628148,
      "grad_norm": 0.171426460146904,
      "learning_rate": 0.00041390977443609025,
      "loss": 1.1796,
      "mean_token_accuracy": 0.6895611882209778,
      "num_tokens": 12164452.0,
      "step": 459
    },
    {
      "entropy": 1.1388862580060959,
      "epoch": 0.8660861379148035,
      "grad_norm": 0.1465880423784256,
      "learning_rate": 0.0004137218045112782,
      "loss": 1.1449,
      "mean_token_accuracy": 0.6952017247676849,
      "num_tokens": 12190700.0,
      "step": 460
    },
    {
      "entropy": 1.165066435933113,
      "epoch": 0.8679689338667922,
      "grad_norm": 0.1510019600391388,
      "learning_rate": 0.0004135338345864661,
      "loss": 1.1519,
      "mean_token_accuracy": 0.6902508214116096,
      "num_tokens": 12216248.0,
      "step": 461
    },
    {
      "entropy": 1.1071253940463066,
      "epoch": 0.8698517298187809,
      "grad_norm": 0.1569354087114334,
      "learning_rate": 0.00041334586466165415,
      "loss": 1.1008,
      "mean_token_accuracy": 0.7029130309820175,
      "num_tokens": 12242702.0,
      "step": 462
    },
    {
      "entropy": 1.162157580256462,
      "epoch": 0.8717345257707696,
      "grad_norm": 0.15269963443279266,
      "learning_rate": 0.0004131578947368421,
      "loss": 1.1408,
      "mean_token_accuracy": 0.6991895586252213,
      "num_tokens": 12267065.0,
      "step": 463
    },
    {
      "entropy": 1.164448007941246,
      "epoch": 0.8736173217227583,
      "grad_norm": 0.15020480751991272,
      "learning_rate": 0.0004129699248120301,
      "loss": 1.1331,
      "mean_token_accuracy": 0.6945090070366859,
      "num_tokens": 12294273.0,
      "step": 464
    },
    {
      "entropy": 1.194659799337387,
      "epoch": 0.875500117674747,
      "grad_norm": 0.16067473590373993,
      "learning_rate": 0.00041278195488721805,
      "loss": 1.1384,
      "mean_token_accuracy": 0.692974790930748,
      "num_tokens": 12319075.0,
      "step": 465
    },
    {
      "entropy": 1.1572427451610565,
      "epoch": 0.8773829136267357,
      "grad_norm": 0.14344556629657745,
      "learning_rate": 0.000412593984962406,
      "loss": 1.1239,
      "mean_token_accuracy": 0.6996137872338295,
      "num_tokens": 12345047.0,
      "step": 466
    },
    {
      "entropy": 1.1310506239533424,
      "epoch": 0.8792657095787244,
      "grad_norm": 0.1469915211200714,
      "learning_rate": 0.000412406015037594,
      "loss": 1.1117,
      "mean_token_accuracy": 0.6948174610733986,
      "num_tokens": 12371084.0,
      "step": 467
    },
    {
      "entropy": 1.1873999759554863,
      "epoch": 0.8811485055307131,
      "grad_norm": 0.14283262193202972,
      "learning_rate": 0.00041221804511278195,
      "loss": 1.1725,
      "mean_token_accuracy": 0.6882406696677208,
      "num_tokens": 12397086.0,
      "step": 468
    },
    {
      "entropy": 1.1660784780979156,
      "epoch": 0.8830313014827018,
      "grad_norm": 0.1400137096643448,
      "learning_rate": 0.0004120300751879699,
      "loss": 1.1305,
      "mean_token_accuracy": 0.6928488984704018,
      "num_tokens": 12424840.0,
      "step": 469
    },
    {
      "entropy": 1.1689551174640656,
      "epoch": 0.8849140974346905,
      "grad_norm": 0.17401744425296783,
      "learning_rate": 0.0004118421052631579,
      "loss": 1.1356,
      "mean_token_accuracy": 0.6973849907517433,
      "num_tokens": 12453038.0,
      "step": 470
    },
    {
      "entropy": 1.16590516269207,
      "epoch": 0.8867968933866792,
      "grad_norm": 0.15749803185462952,
      "learning_rate": 0.0004116541353383459,
      "loss": 1.1388,
      "mean_token_accuracy": 0.690193310379982,
      "num_tokens": 12479755.0,
      "step": 471
    },
    {
      "entropy": 1.1534086763858795,
      "epoch": 0.8886796893386679,
      "grad_norm": 0.13575902581214905,
      "learning_rate": 0.0004114661654135338,
      "loss": 1.1333,
      "mean_token_accuracy": 0.6930194050073624,
      "num_tokens": 12507911.0,
      "step": 472
    },
    {
      "entropy": 1.166767194867134,
      "epoch": 0.8905624852906566,
      "grad_norm": 0.14083941280841827,
      "learning_rate": 0.0004112781954887218,
      "loss": 1.1433,
      "mean_token_accuracy": 0.6883162334561348,
      "num_tokens": 12534740.0,
      "step": 473
    },
    {
      "entropy": 1.116583712399006,
      "epoch": 0.8924452812426453,
      "grad_norm": 0.18177185952663422,
      "learning_rate": 0.0004110902255639098,
      "loss": 1.1013,
      "mean_token_accuracy": 0.6984972059726715,
      "num_tokens": 12560495.0,
      "step": 474
    },
    {
      "entropy": 1.0962852016091347,
      "epoch": 0.894328077194634,
      "grad_norm": 0.15513888001441956,
      "learning_rate": 0.00041090225563909777,
      "loss": 1.0659,
      "mean_token_accuracy": 0.7114295363426208,
      "num_tokens": 12586806.0,
      "step": 475
    },
    {
      "entropy": 1.1862118691205978,
      "epoch": 0.8962108731466227,
      "grad_norm": 0.1506270319223404,
      "learning_rate": 0.0004107142857142857,
      "loss": 1.1887,
      "mean_token_accuracy": 0.6871896237134933,
      "num_tokens": 12612493.0,
      "step": 476
    },
    {
      "entropy": 1.1081865057349205,
      "epoch": 0.8980936690986114,
      "grad_norm": 0.14710566401481628,
      "learning_rate": 0.0004105263157894737,
      "loss": 1.1012,
      "mean_token_accuracy": 0.6983359083533287,
      "num_tokens": 12639626.0,
      "step": 477
    },
    {
      "entropy": 1.128834992647171,
      "epoch": 0.8999764650506001,
      "grad_norm": 0.14161938428878784,
      "learning_rate": 0.00041033834586466167,
      "loss": 1.0982,
      "mean_token_accuracy": 0.7014680877327919,
      "num_tokens": 12664733.0,
      "step": 478
    },
    {
      "entropy": 1.1446367651224136,
      "epoch": 0.9018592610025888,
      "grad_norm": 0.14254848659038544,
      "learning_rate": 0.0004101503759398496,
      "loss": 1.082,
      "mean_token_accuracy": 0.7081187888979912,
      "num_tokens": 12690384.0,
      "step": 479
    },
    {
      "entropy": 1.2071665897965431,
      "epoch": 0.9037420569545775,
      "grad_norm": 0.1451028734445572,
      "learning_rate": 0.0004099624060150376,
      "loss": 1.1573,
      "mean_token_accuracy": 0.6878824383020401,
      "num_tokens": 12717190.0,
      "step": 480
    },
    {
      "entropy": 1.1643542423844337,
      "epoch": 0.9056248529065662,
      "grad_norm": 0.16808035969734192,
      "learning_rate": 0.0004097744360902256,
      "loss": 1.1289,
      "mean_token_accuracy": 0.6955900862812996,
      "num_tokens": 12744287.0,
      "step": 481
    },
    {
      "entropy": 1.1430502980947495,
      "epoch": 0.907507648858555,
      "grad_norm": 0.14388366043567657,
      "learning_rate": 0.00040958646616541354,
      "loss": 1.1377,
      "mean_token_accuracy": 0.6985258162021637,
      "num_tokens": 12769478.0,
      "step": 482
    },
    {
      "entropy": 1.171137735247612,
      "epoch": 0.9093904448105437,
      "grad_norm": 0.14661596715450287,
      "learning_rate": 0.0004093984962406015,
      "loss": 1.1764,
      "mean_token_accuracy": 0.6929311379790306,
      "num_tokens": 12795715.0,
      "step": 483
    },
    {
      "entropy": 1.159026637673378,
      "epoch": 0.9112732407625324,
      "grad_norm": 0.14750456809997559,
      "learning_rate": 0.0004092105263157895,
      "loss": 1.1578,
      "mean_token_accuracy": 0.6937888264656067,
      "num_tokens": 12821869.0,
      "step": 484
    },
    {
      "entropy": 1.1478636413812637,
      "epoch": 0.9131560367145211,
      "grad_norm": 0.14371232688426971,
      "learning_rate": 0.00040902255639097744,
      "loss": 1.1218,
      "mean_token_accuracy": 0.7008863463997841,
      "num_tokens": 12848215.0,
      "step": 485
    },
    {
      "entropy": 1.120044082403183,
      "epoch": 0.9150388326665098,
      "grad_norm": 0.1404104232788086,
      "learning_rate": 0.00040883458646616546,
      "loss": 1.0728,
      "mean_token_accuracy": 0.7091679647564888,
      "num_tokens": 12876182.0,
      "step": 486
    },
    {
      "entropy": 1.1101247519254684,
      "epoch": 0.9169216286184985,
      "grad_norm": 0.1421038955450058,
      "learning_rate": 0.0004086466165413534,
      "loss": 1.0967,
      "mean_token_accuracy": 0.7037186399102211,
      "num_tokens": 12902501.0,
      "step": 487
    },
    {
      "entropy": 1.1512123197317123,
      "epoch": 0.9188044245704872,
      "grad_norm": 0.14930035173892975,
      "learning_rate": 0.00040845864661654134,
      "loss": 1.1259,
      "mean_token_accuracy": 0.6954185292124748,
      "num_tokens": 12928275.0,
      "step": 488
    },
    {
      "entropy": 1.136143758893013,
      "epoch": 0.9206872205224759,
      "grad_norm": 0.1431557983160019,
      "learning_rate": 0.00040827067669172936,
      "loss": 1.1053,
      "mean_token_accuracy": 0.7004474848508835,
      "num_tokens": 12954596.0,
      "step": 489
    },
    {
      "entropy": 1.1639841794967651,
      "epoch": 0.9225700164744646,
      "grad_norm": 0.1477883905172348,
      "learning_rate": 0.0004080827067669173,
      "loss": 1.129,
      "mean_token_accuracy": 0.6972065195441246,
      "num_tokens": 12980318.0,
      "step": 490
    },
    {
      "entropy": 1.162917599081993,
      "epoch": 0.9244528124264533,
      "grad_norm": 0.14567728340625763,
      "learning_rate": 0.00040789473684210524,
      "loss": 1.1503,
      "mean_token_accuracy": 0.6907480135560036,
      "num_tokens": 13006238.0,
      "step": 491
    },
    {
      "entropy": 1.1558719277381897,
      "epoch": 0.926335608378442,
      "grad_norm": 0.1421021670103073,
      "learning_rate": 0.00040770676691729326,
      "loss": 1.1429,
      "mean_token_accuracy": 0.6948621720075607,
      "num_tokens": 13034071.0,
      "step": 492
    },
    {
      "entropy": 1.175887256860733,
      "epoch": 0.9282184043304307,
      "grad_norm": 0.14368657767772675,
      "learning_rate": 0.00040751879699248123,
      "loss": 1.1752,
      "mean_token_accuracy": 0.6898396164178848,
      "num_tokens": 13059425.0,
      "step": 493
    },
    {
      "entropy": 1.1281049996614456,
      "epoch": 0.9301012002824194,
      "grad_norm": 0.13681703805923462,
      "learning_rate": 0.00040733082706766914,
      "loss": 1.1437,
      "mean_token_accuracy": 0.6920712366700172,
      "num_tokens": 13087803.0,
      "step": 494
    },
    {
      "entropy": 1.1919779032468796,
      "epoch": 0.9319839962344081,
      "grad_norm": 0.14613422751426697,
      "learning_rate": 0.00040714285714285717,
      "loss": 1.1647,
      "mean_token_accuracy": 0.6862485483288765,
      "num_tokens": 13114083.0,
      "step": 495
    },
    {
      "entropy": 1.1703974455595016,
      "epoch": 0.9338667921863968,
      "grad_norm": 0.13816098868846893,
      "learning_rate": 0.00040695488721804513,
      "loss": 1.1191,
      "mean_token_accuracy": 0.6944621205329895,
      "num_tokens": 13140806.0,
      "step": 496
    },
    {
      "entropy": 1.1625728458166122,
      "epoch": 0.9357495881383855,
      "grad_norm": 0.1374853253364563,
      "learning_rate": 0.0004067669172932331,
      "loss": 1.1311,
      "mean_token_accuracy": 0.693043515086174,
      "num_tokens": 13167072.0,
      "step": 497
    },
    {
      "entropy": 1.1611916273832321,
      "epoch": 0.9376323840903742,
      "grad_norm": 0.14068859815597534,
      "learning_rate": 0.00040657894736842107,
      "loss": 1.0958,
      "mean_token_accuracy": 0.7017333880066872,
      "num_tokens": 13193952.0,
      "step": 498
    },
    {
      "entropy": 1.2519186586141586,
      "epoch": 0.9395151800423629,
      "grad_norm": 0.14739161729812622,
      "learning_rate": 0.00040639097744360903,
      "loss": 1.2033,
      "mean_token_accuracy": 0.6803731620311737,
      "num_tokens": 13219334.0,
      "step": 499
    },
    {
      "entropy": 1.060287207365036,
      "epoch": 0.9413979759943516,
      "grad_norm": 0.13330809772014618,
      "learning_rate": 0.000406203007518797,
      "loss": 1.0607,
      "mean_token_accuracy": 0.7074964344501495,
      "num_tokens": 13247762.0,
      "step": 500
    },
    {
      "entropy": 1.1315688639879227,
      "epoch": 0.9432807719463403,
      "grad_norm": 0.14858287572860718,
      "learning_rate": 0.00040601503759398497,
      "loss": 1.1534,
      "mean_token_accuracy": 0.6925570517778397,
      "num_tokens": 13274542.0,
      "step": 501
    },
    {
      "entropy": 1.1256567761301994,
      "epoch": 0.945163567898329,
      "grad_norm": 0.13854491710662842,
      "learning_rate": 0.00040582706766917293,
      "loss": 1.1164,
      "mean_token_accuracy": 0.697671189904213,
      "num_tokens": 13301954.0,
      "step": 502
    },
    {
      "entropy": 1.1095138639211655,
      "epoch": 0.9470463638503177,
      "grad_norm": 0.14951969683170319,
      "learning_rate": 0.0004056390977443609,
      "loss": 1.0913,
      "mean_token_accuracy": 0.7060349136590958,
      "num_tokens": 13325368.0,
      "step": 503
    },
    {
      "entropy": 1.2117299437522888,
      "epoch": 0.9489291598023064,
      "grad_norm": 0.14555485546588898,
      "learning_rate": 0.0004054511278195489,
      "loss": 1.1771,
      "mean_token_accuracy": 0.6878413483500481,
      "num_tokens": 13350621.0,
      "step": 504
    },
    {
      "entropy": 1.1814142614603043,
      "epoch": 0.9508119557542951,
      "grad_norm": 0.13946305215358734,
      "learning_rate": 0.00040526315789473684,
      "loss": 1.1187,
      "mean_token_accuracy": 0.6975477784872055,
      "num_tokens": 13378436.0,
      "step": 505
    },
    {
      "entropy": 1.1588895320892334,
      "epoch": 0.9526947517062838,
      "grad_norm": 0.14052411913871765,
      "learning_rate": 0.0004050751879699248,
      "loss": 1.1139,
      "mean_token_accuracy": 0.6970377415418625,
      "num_tokens": 13405779.0,
      "step": 506
    },
    {
      "entropy": 1.1744963377714157,
      "epoch": 0.9545775476582725,
      "grad_norm": 0.14011354744434357,
      "learning_rate": 0.0004048872180451128,
      "loss": 1.1443,
      "mean_token_accuracy": 0.6915831044316292,
      "num_tokens": 13431768.0,
      "step": 507
    },
    {
      "entropy": 1.1022943705320358,
      "epoch": 0.9564603436102612,
      "grad_norm": 0.16085639595985413,
      "learning_rate": 0.00040469924812030074,
      "loss": 1.0872,
      "mean_token_accuracy": 0.7034497335553169,
      "num_tokens": 13458430.0,
      "step": 508
    },
    {
      "entropy": 1.1168298870325089,
      "epoch": 0.9583431395622499,
      "grad_norm": 0.14645646512508392,
      "learning_rate": 0.0004045112781954887,
      "loss": 1.1366,
      "mean_token_accuracy": 0.6974723115563393,
      "num_tokens": 13483989.0,
      "step": 509
    },
    {
      "entropy": 1.1111514419317245,
      "epoch": 0.9602259355142386,
      "grad_norm": 0.15530261397361755,
      "learning_rate": 0.0004043233082706767,
      "loss": 1.1068,
      "mean_token_accuracy": 0.7063265517354012,
      "num_tokens": 13510734.0,
      "step": 510
    },
    {
      "entropy": 1.1187052130699158,
      "epoch": 0.9621087314662273,
      "grad_norm": 0.1410273313522339,
      "learning_rate": 0.0004041353383458647,
      "loss": 1.1007,
      "mean_token_accuracy": 0.6978159174323082,
      "num_tokens": 13536200.0,
      "step": 511
    },
    {
      "entropy": 1.2634307444095612,
      "epoch": 0.963991527418216,
      "grad_norm": 0.14832766354084015,
      "learning_rate": 0.0004039473684210526,
      "loss": 1.2454,
      "mean_token_accuracy": 0.674240916967392,
      "num_tokens": 13562180.0,
      "step": 512
    },
    {
      "entropy": 1.209633857011795,
      "epoch": 0.9658743233702047,
      "grad_norm": 0.14852747321128845,
      "learning_rate": 0.0004037593984962406,
      "loss": 1.151,
      "mean_token_accuracy": 0.6942615807056427,
      "num_tokens": 13587252.0,
      "step": 513
    },
    {
      "entropy": 1.1802778542041779,
      "epoch": 0.9677571193221934,
      "grad_norm": 0.14167462289333344,
      "learning_rate": 0.0004035714285714286,
      "loss": 1.1268,
      "mean_token_accuracy": 0.6984767615795135,
      "num_tokens": 13614161.0,
      "step": 514
    },
    {
      "entropy": 1.1260388046503067,
      "epoch": 0.9696399152741821,
      "grad_norm": 0.1389787793159485,
      "learning_rate": 0.00040338345864661656,
      "loss": 1.1044,
      "mean_token_accuracy": 0.698441170156002,
      "num_tokens": 13640906.0,
      "step": 515
    },
    {
      "entropy": 1.1336752623319626,
      "epoch": 0.9715227112261708,
      "grad_norm": 0.13808688521385193,
      "learning_rate": 0.0004031954887218045,
      "loss": 1.1185,
      "mean_token_accuracy": 0.7005246728658676,
      "num_tokens": 13666938.0,
      "step": 516
    },
    {
      "entropy": 1.1089581847190857,
      "epoch": 0.9734055071781595,
      "grad_norm": 0.1490076631307602,
      "learning_rate": 0.0004030075187969925,
      "loss": 1.1037,
      "mean_token_accuracy": 0.699261337518692,
      "num_tokens": 13692343.0,
      "step": 517
    },
    {
      "entropy": 1.1778569370508194,
      "epoch": 0.9752883031301482,
      "grad_norm": 0.1503973752260208,
      "learning_rate": 0.00040281954887218046,
      "loss": 1.1704,
      "mean_token_accuracy": 0.6850240305066109,
      "num_tokens": 13717884.0,
      "step": 518
    },
    {
      "entropy": 1.1599782705307007,
      "epoch": 0.977171099082137,
      "grad_norm": 0.14560772478580475,
      "learning_rate": 0.00040263157894736843,
      "loss": 1.1481,
      "mean_token_accuracy": 0.6967450231313705,
      "num_tokens": 13744454.0,
      "step": 519
    },
    {
      "entropy": 1.2482303828001022,
      "epoch": 0.9790538950341257,
      "grad_norm": 0.1557229459285736,
      "learning_rate": 0.0004024436090225564,
      "loss": 1.2016,
      "mean_token_accuracy": 0.679645448923111,
      "num_tokens": 13771382.0,
      "step": 520
    },
    {
      "entropy": 1.154101237654686,
      "epoch": 0.9809366909861144,
      "grad_norm": 0.1511804610490799,
      "learning_rate": 0.00040225563909774436,
      "loss": 1.1211,
      "mean_token_accuracy": 0.692274309694767,
      "num_tokens": 13797315.0,
      "step": 521
    },
    {
      "entropy": 1.1659268885850906,
      "epoch": 0.9828194869381031,
      "grad_norm": 0.14492999017238617,
      "learning_rate": 0.0004020676691729324,
      "loss": 1.1276,
      "mean_token_accuracy": 0.6957960724830627,
      "num_tokens": 13823504.0,
      "step": 522
    },
    {
      "entropy": 1.2255947291851044,
      "epoch": 0.9847022828900918,
      "grad_norm": 0.16592226922512054,
      "learning_rate": 0.0004018796992481203,
      "loss": 1.2034,
      "mean_token_accuracy": 0.6800813153386116,
      "num_tokens": 13849682.0,
      "step": 523
    },
    {
      "entropy": 1.181060180068016,
      "epoch": 0.9865850788420805,
      "grad_norm": 0.14438042044639587,
      "learning_rate": 0.00040169172932330826,
      "loss": 1.1422,
      "mean_token_accuracy": 0.6908884271979332,
      "num_tokens": 13877151.0,
      "step": 524
    },
    {
      "entropy": 1.195601612329483,
      "epoch": 0.9884678747940692,
      "grad_norm": 0.1490834802389145,
      "learning_rate": 0.0004015037593984963,
      "loss": 1.1609,
      "mean_token_accuracy": 0.687875397503376,
      "num_tokens": 13902812.0,
      "step": 525
    },
    {
      "entropy": 1.1874232441186905,
      "epoch": 0.9903506707460579,
      "grad_norm": 0.15240395069122314,
      "learning_rate": 0.00040131578947368425,
      "loss": 1.171,
      "mean_token_accuracy": 0.6891705989837646,
      "num_tokens": 13926800.0,
      "step": 526
    },
    {
      "entropy": 1.0726541802287102,
      "epoch": 0.9922334666980466,
      "grad_norm": 0.1472628116607666,
      "learning_rate": 0.00040112781954887216,
      "loss": 1.0744,
      "mean_token_accuracy": 0.7090674415230751,
      "num_tokens": 13952161.0,
      "step": 527
    },
    {
      "entropy": 1.1295729503035545,
      "epoch": 0.9941162626500353,
      "grad_norm": 0.1415957808494568,
      "learning_rate": 0.0004009398496240602,
      "loss": 1.1086,
      "mean_token_accuracy": 0.7027467861771584,
      "num_tokens": 13978937.0,
      "step": 528
    },
    {
      "entropy": 1.1615847125649452,
      "epoch": 0.995999058602024,
      "grad_norm": 0.14748550951480865,
      "learning_rate": 0.00040075187969924815,
      "loss": 1.1474,
      "mean_token_accuracy": 0.6950105875730515,
      "num_tokens": 14005138.0,
      "step": 529
    },
    {
      "entropy": 1.176683247089386,
      "epoch": 0.9978818545540127,
      "grad_norm": 0.1543041467666626,
      "learning_rate": 0.00040056390977443606,
      "loss": 1.1807,
      "mean_token_accuracy": 0.684785395860672,
      "num_tokens": 14028706.0,
      "step": 530
    },
    {
      "entropy": 1.1374549865722656,
      "epoch": 0.9997646505060014,
      "grad_norm": 0.13411332666873932,
      "learning_rate": 0.0004003759398496241,
      "loss": 1.0976,
      "mean_token_accuracy": 0.7099665105342865,
      "num_tokens": 14056095.0,
      "step": 531
    },
    {
      "entropy": 1.4449238777160645,
      "epoch": 1.0,
      "grad_norm": 0.5150332450866699,
      "learning_rate": 0.00040018796992481205,
      "loss": 1.4328,
      "mean_token_accuracy": 0.6301905512809753,
      "num_tokens": 14058143.0,
      "step": 532
    },
    {
      "epoch": 1.0,
      "eval_entropy": 1.273110066141401,
      "eval_loss": 1.215613603591919,
      "eval_mean_token_accuracy": 0.6747710279056004,
      "eval_num_tokens": 14058143.0,
      "eval_runtime": 8.5294,
      "eval_samples_per_second": 5.745,
      "eval_steps_per_second": 0.821,
      "step": 532
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 2660,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 9.860994210304512e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}