{
  "best_metric": 0.06736895442008972,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 1.2364760432766615,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0061823802163833074,
      "grad_norm": 0.7046732306480408,
      "learning_rate": 1e-05,
      "loss": 0.9014,
      "step": 1
    },
    {
      "epoch": 0.0061823802163833074,
      "eval_loss": 1.4344593286514282,
      "eval_runtime": 5.499,
      "eval_samples_per_second": 49.646,
      "eval_steps_per_second": 12.548,
      "step": 1
    },
    {
      "epoch": 0.012364760432766615,
      "grad_norm": 0.7162360548973083,
      "learning_rate": 2e-05,
      "loss": 0.9038,
      "step": 2
    },
    {
      "epoch": 0.01854714064914992,
      "grad_norm": 0.7014511823654175,
      "learning_rate": 3e-05,
      "loss": 0.9134,
      "step": 3
    },
    {
      "epoch": 0.02472952086553323,
      "grad_norm": 0.704330325126648,
      "learning_rate": 4e-05,
      "loss": 0.9097,
      "step": 4
    },
    {
      "epoch": 0.030911901081916538,
      "grad_norm": 0.7009629607200623,
      "learning_rate": 5e-05,
      "loss": 0.8809,
      "step": 5
    },
    {
      "epoch": 0.03709428129829984,
      "grad_norm": 0.6580602526664734,
      "learning_rate": 6e-05,
      "loss": 0.8479,
      "step": 6
    },
    {
      "epoch": 0.04327666151468315,
      "grad_norm": 0.5885988473892212,
      "learning_rate": 7e-05,
      "loss": 0.7923,
      "step": 7
    },
    {
      "epoch": 0.04945904173106646,
      "grad_norm": 0.5091739296913147,
      "learning_rate": 8e-05,
      "loss": 0.7074,
      "step": 8
    },
    {
      "epoch": 0.05564142194744977,
      "grad_norm": 0.4579506814479828,
      "learning_rate": 9e-05,
      "loss": 0.6569,
      "step": 9
    },
    {
      "epoch": 0.061823802163833076,
      "grad_norm": 0.4280666410923004,
      "learning_rate": 0.0001,
      "loss": 0.6187,
      "step": 10
    },
    {
      "epoch": 0.06800618238021638,
      "grad_norm": 0.45351147651672363,
      "learning_rate": 9.999316524962345e-05,
      "loss": 0.4839,
      "step": 11
    },
    {
      "epoch": 0.07418856259659969,
      "grad_norm": 0.4613342881202698,
      "learning_rate": 9.997266286704631e-05,
      "loss": 0.4408,
      "step": 12
    },
    {
      "epoch": 0.080370942812983,
      "grad_norm": 0.7251604795455933,
      "learning_rate": 9.993849845741524e-05,
      "loss": 0.3717,
      "step": 13
    },
    {
      "epoch": 0.0865533230293663,
      "grad_norm": 0.6855277419090271,
      "learning_rate": 9.989068136093873e-05,
      "loss": 0.6104,
      "step": 14
    },
    {
      "epoch": 0.09273570324574962,
      "grad_norm": 1.5776333808898926,
      "learning_rate": 9.98292246503335e-05,
      "loss": 1.1992,
      "step": 15
    },
    {
      "epoch": 0.09891808346213292,
      "grad_norm": 1.2704423666000366,
      "learning_rate": 9.975414512725057e-05,
      "loss": 1.1392,
      "step": 16
    },
    {
      "epoch": 0.10510046367851623,
      "grad_norm": 1.2776545286178589,
      "learning_rate": 9.966546331768191e-05,
      "loss": 1.0187,
      "step": 17
    },
    {
      "epoch": 0.11128284389489954,
      "grad_norm": 1.3643944263458252,
      "learning_rate": 9.956320346634876e-05,
      "loss": 0.9102,
      "step": 18
    },
    {
      "epoch": 0.11746522411128284,
      "grad_norm": 1.7785018682479858,
      "learning_rate": 9.944739353007344e-05,
      "loss": 0.6558,
      "step": 19
    },
    {
      "epoch": 0.12364760432766615,
      "grad_norm": 1.257607102394104,
      "learning_rate": 9.931806517013612e-05,
      "loss": 0.5436,
      "step": 20
    },
    {
      "epoch": 0.12982998454404945,
      "grad_norm": 1.1651414632797241,
      "learning_rate": 9.917525374361912e-05,
      "loss": 0.3782,
      "step": 21
    },
    {
      "epoch": 0.13601236476043277,
      "grad_norm": 0.8770898580551147,
      "learning_rate": 9.901899829374047e-05,
      "loss": 0.2996,
      "step": 22
    },
    {
      "epoch": 0.14219474497681608,
      "grad_norm": 0.7041931748390198,
      "learning_rate": 9.884934153917997e-05,
      "loss": 0.2509,
      "step": 23
    },
    {
      "epoch": 0.14837712519319937,
      "grad_norm": 0.41992565989494324,
      "learning_rate": 9.86663298624003e-05,
      "loss": 0.1883,
      "step": 24
    },
    {
      "epoch": 0.1545595054095827,
      "grad_norm": 0.543204665184021,
      "learning_rate": 9.847001329696653e-05,
      "loss": 0.2283,
      "step": 25
    },
    {
      "epoch": 0.160741885625966,
      "grad_norm": 0.3455043137073517,
      "learning_rate": 9.826044551386744e-05,
      "loss": 0.1566,
      "step": 26
    },
    {
      "epoch": 0.16692426584234932,
      "grad_norm": 0.38509395718574524,
      "learning_rate": 9.803768380684242e-05,
      "loss": 0.1338,
      "step": 27
    },
    {
      "epoch": 0.1731066460587326,
      "grad_norm": 0.3171514868736267,
      "learning_rate": 9.780178907671789e-05,
      "loss": 0.1165,
      "step": 28
    },
    {
      "epoch": 0.17928902627511592,
      "grad_norm": 0.3930993974208832,
      "learning_rate": 9.755282581475769e-05,
      "loss": 0.1189,
      "step": 29
    },
    {
      "epoch": 0.18547140649149924,
      "grad_norm": 0.42565444111824036,
      "learning_rate": 9.729086208503174e-05,
      "loss": 0.1265,
      "step": 30
    },
    {
      "epoch": 0.19165378670788252,
      "grad_norm": 0.4470174312591553,
      "learning_rate": 9.701596950580806e-05,
      "loss": 0.1534,
      "step": 31
    },
    {
      "epoch": 0.19783616692426584,
      "grad_norm": 0.3107547163963318,
      "learning_rate": 9.672822322997305e-05,
      "loss": 0.1768,
      "step": 32
    },
    {
      "epoch": 0.20401854714064915,
      "grad_norm": 0.3041976988315582,
      "learning_rate": 9.642770192448536e-05,
      "loss": 0.1344,
      "step": 33
    },
    {
      "epoch": 0.21020092735703247,
      "grad_norm": 0.3155347406864166,
      "learning_rate": 9.611448774886924e-05,
      "loss": 0.1546,
      "step": 34
    },
    {
      "epoch": 0.21638330757341576,
      "grad_norm": 0.2196689397096634,
      "learning_rate": 9.578866633275288e-05,
      "loss": 0.1661,
      "step": 35
    },
    {
      "epoch": 0.22256568778979907,
      "grad_norm": 0.2337467223405838,
      "learning_rate": 9.545032675245813e-05,
      "loss": 0.1684,
      "step": 36
    },
    {
      "epoch": 0.2287480680061824,
      "grad_norm": 0.2257539927959442,
      "learning_rate": 9.509956150664796e-05,
      "loss": 0.1481,
      "step": 37
    },
    {
      "epoch": 0.23493044822256567,
      "grad_norm": 0.1821281909942627,
      "learning_rate": 9.473646649103818e-05,
      "loss": 0.1748,
      "step": 38
    },
    {
      "epoch": 0.241112828438949,
      "grad_norm": 0.16585831344127655,
      "learning_rate": 9.43611409721806e-05,
      "loss": 0.1309,
      "step": 39
    },
    {
      "epoch": 0.2472952086553323,
      "grad_norm": 0.12429387122392654,
      "learning_rate": 9.397368756032445e-05,
      "loss": 0.1453,
      "step": 40
    },
    {
      "epoch": 0.2534775888717156,
      "grad_norm": 7.558984756469727,
      "learning_rate": 9.357421218136386e-05,
      "loss": 0.911,
      "step": 41
    },
    {
      "epoch": 0.2596599690880989,
      "grad_norm": 5.058866024017334,
      "learning_rate": 9.316282404787871e-05,
      "loss": 0.516,
      "step": 42
    },
    {
      "epoch": 0.26584234930448225,
      "grad_norm": 2.027780532836914,
      "learning_rate": 9.273963562927695e-05,
      "loss": 0.2534,
      "step": 43
    },
    {
      "epoch": 0.27202472952086554,
      "grad_norm": 0.9123561978340149,
      "learning_rate": 9.230476262104677e-05,
      "loss": 0.1345,
      "step": 44
    },
    {
      "epoch": 0.2782071097372488,
      "grad_norm": 0.3587602376937866,
      "learning_rate": 9.185832391312644e-05,
      "loss": 0.0774,
      "step": 45
    },
    {
      "epoch": 0.28438948995363217,
      "grad_norm": 0.21639949083328247,
      "learning_rate": 9.140044155740101e-05,
      "loss": 0.0637,
      "step": 46
    },
    {
      "epoch": 0.29057187017001546,
      "grad_norm": 0.18078401684761047,
      "learning_rate": 9.093124073433463e-05,
      "loss": 0.0398,
      "step": 47
    },
    {
      "epoch": 0.29675425038639874,
      "grad_norm": 0.15149831771850586,
      "learning_rate": 9.045084971874738e-05,
      "loss": 0.0507,
      "step": 48
    },
    {
      "epoch": 0.3029366306027821,
      "grad_norm": 0.13558559119701385,
      "learning_rate": 8.995939984474624e-05,
      "loss": 0.0564,
      "step": 49
    },
    {
      "epoch": 0.3091190108191654,
      "grad_norm": 0.13863137364387512,
      "learning_rate": 8.945702546981969e-05,
      "loss": 0.045,
      "step": 50
    },
    {
      "epoch": 0.3091190108191654,
      "eval_loss": 0.08772445470094681,
      "eval_runtime": 5.5012,
      "eval_samples_per_second": 49.626,
      "eval_steps_per_second": 12.543,
      "step": 50
    },
    {
      "epoch": 0.31530139103554866,
      "grad_norm": 0.09701208025217056,
      "learning_rate": 8.894386393810563e-05,
      "loss": 0.0436,
      "step": 51
    },
    {
      "epoch": 0.321483771251932,
      "grad_norm": 0.09931997954845428,
      "learning_rate": 8.842005554284296e-05,
      "loss": 0.036,
      "step": 52
    },
    {
      "epoch": 0.3276661514683153,
      "grad_norm": 0.1121208667755127,
      "learning_rate": 8.788574348801675e-05,
      "loss": 0.039,
      "step": 53
    },
    {
      "epoch": 0.33384853168469864,
      "grad_norm": 0.2304030805826187,
      "learning_rate": 8.73410738492077e-05,
      "loss": 0.0666,
      "step": 54
    },
    {
      "epoch": 0.3400309119010819,
      "grad_norm": 0.45196354389190674,
      "learning_rate": 8.678619553365659e-05,
      "loss": 0.0818,
      "step": 55
    },
    {
      "epoch": 0.3462132921174652,
      "grad_norm": 0.20915654301643372,
      "learning_rate": 8.622126023955446e-05,
      "loss": 0.0785,
      "step": 56
    },
    {
      "epoch": 0.35239567233384855,
      "grad_norm": 0.10331236571073532,
      "learning_rate": 8.564642241456986e-05,
      "loss": 0.0947,
      "step": 57
    },
    {
      "epoch": 0.35857805255023184,
      "grad_norm": 0.09945619106292725,
      "learning_rate": 8.506183921362443e-05,
      "loss": 0.0841,
      "step": 58
    },
    {
      "epoch": 0.36476043276661513,
      "grad_norm": 0.08608353137969971,
      "learning_rate": 8.44676704559283e-05,
      "loss": 0.099,
      "step": 59
    },
    {
      "epoch": 0.37094281298299847,
      "grad_norm": 0.06971795856952667,
      "learning_rate": 8.386407858128706e-05,
      "loss": 0.0909,
      "step": 60
    },
    {
      "epoch": 0.37712519319938176,
      "grad_norm": 0.08237221837043762,
      "learning_rate": 8.32512286056924e-05,
      "loss": 0.0613,
      "step": 61
    },
    {
      "epoch": 0.38330757341576505,
      "grad_norm": 0.08594591915607452,
      "learning_rate": 8.262928807620843e-05,
      "loss": 0.0792,
      "step": 62
    },
    {
      "epoch": 0.3894899536321484,
      "grad_norm": 0.06339319050312042,
      "learning_rate": 8.199842702516583e-05,
      "loss": 0.061,
      "step": 63
    },
    {
      "epoch": 0.3956723338485317,
      "grad_norm": 0.0899580791592598,
      "learning_rate": 8.135881792367686e-05,
      "loss": 0.0738,
      "step": 64
    },
    {
      "epoch": 0.401854714064915,
      "grad_norm": 0.06145675107836723,
      "learning_rate": 8.07106356344834e-05,
      "loss": 0.0988,
      "step": 65
    },
    {
      "epoch": 0.4080370942812983,
      "grad_norm": 0.05957213416695595,
      "learning_rate": 8.005405736415126e-05,
      "loss": 0.0752,
      "step": 66
    },
    {
      "epoch": 0.4142194744976816,
      "grad_norm": 0.08227390795946121,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.0973,
      "step": 67
    },
    {
      "epoch": 0.42040185471406494,
      "grad_norm": 0.05563255399465561,
      "learning_rate": 7.871643313414718e-05,
      "loss": 0.0708,
      "step": 68
    },
    {
      "epoch": 0.4265842349304482,
      "grad_norm": 0.09192028641700745,
      "learning_rate": 7.803575286758364e-05,
      "loss": 0.0843,
      "step": 69
    },
    {
      "epoch": 0.4327666151468315,
      "grad_norm": 0.05860935151576996,
      "learning_rate": 7.734740790612136e-05,
      "loss": 0.0711,
      "step": 70
    },
    {
      "epoch": 0.43894899536321486,
      "grad_norm": 0.09385299682617188,
      "learning_rate": 7.66515864363997e-05,
      "loss": 0.0991,
      "step": 71
    },
    {
      "epoch": 0.44513137557959814,
      "grad_norm": 0.12418725341558456,
      "learning_rate": 7.594847868906076e-05,
      "loss": 0.1394,
      "step": 72
    },
    {
      "epoch": 0.45131375579598143,
      "grad_norm": 0.11011894792318344,
      "learning_rate": 7.52382768867422e-05,
      "loss": 0.1307,
      "step": 73
    },
    {
      "epoch": 0.4574961360123648,
      "grad_norm": 0.14699475467205048,
      "learning_rate": 7.452117519152542e-05,
      "loss": 0.1735,
      "step": 74
    },
    {
      "epoch": 0.46367851622874806,
      "grad_norm": 0.1061205342411995,
      "learning_rate": 7.379736965185368e-05,
      "loss": 0.1722,
      "step": 75
    },
    {
      "epoch": 0.46986089644513135,
      "grad_norm": 0.13778509199619293,
      "learning_rate": 7.30670581489344e-05,
      "loss": 0.1887,
      "step": 76
    },
    {
      "epoch": 0.4760432766615147,
      "grad_norm": 0.14930473268032074,
      "learning_rate": 7.233044034264034e-05,
      "loss": 0.1915,
      "step": 77
    },
    {
      "epoch": 0.482225656877898,
      "grad_norm": 0.12359173595905304,
      "learning_rate": 7.158771761692464e-05,
      "loss": 0.1521,
      "step": 78
    },
    {
      "epoch": 0.4884080370942813,
      "grad_norm": 0.16283033788204193,
      "learning_rate": 7.083909302476453e-05,
      "loss": 0.1192,
      "step": 79
    },
    {
      "epoch": 0.4945904173106646,
      "grad_norm": 0.17497539520263672,
      "learning_rate": 7.008477123264848e-05,
      "loss": 0.1121,
      "step": 80
    },
    {
      "epoch": 0.500772797527048,
      "grad_norm": 0.5904685258865356,
      "learning_rate": 6.932495846462261e-05,
      "loss": 0.0451,
      "step": 81
    },
    {
      "epoch": 0.5069551777434312,
      "grad_norm": 0.060611702501773834,
      "learning_rate": 6.855986244591104e-05,
      "loss": 0.0322,
      "step": 82
    },
    {
      "epoch": 0.5131375579598145,
      "grad_norm": 0.03139381855726242,
      "learning_rate": 6.778969234612584e-05,
      "loss": 0.0281,
      "step": 83
    },
    {
      "epoch": 0.5193199381761978,
      "grad_norm": 0.03067929297685623,
      "learning_rate": 6.701465872208216e-05,
      "loss": 0.0328,
      "step": 84
    },
    {
      "epoch": 0.5255023183925811,
      "grad_norm": 0.026165900751948357,
      "learning_rate": 6.623497346023418e-05,
      "loss": 0.0367,
      "step": 85
    },
    {
      "epoch": 0.5316846986089645,
      "grad_norm": 0.030481263995170593,
      "learning_rate": 6.545084971874738e-05,
      "loss": 0.0337,
      "step": 86
    },
    {
      "epoch": 0.5378670788253478,
      "grad_norm": 0.028614336624741554,
      "learning_rate": 6.466250186922325e-05,
      "loss": 0.0266,
      "step": 87
    },
    {
      "epoch": 0.5440494590417311,
      "grad_norm": 0.029182005673646927,
      "learning_rate": 6.387014543809223e-05,
      "loss": 0.0336,
      "step": 88
    },
    {
      "epoch": 0.5502318392581144,
      "grad_norm": 0.03444831073284149,
      "learning_rate": 6.307399704769099e-05,
      "loss": 0.0318,
      "step": 89
    },
    {
      "epoch": 0.5564142194744977,
      "grad_norm": 0.024809561669826508,
      "learning_rate": 6.227427435703997e-05,
      "loss": 0.0351,
      "step": 90
    },
    {
      "epoch": 0.5625965996908809,
      "grad_norm": 0.036650341004133224,
      "learning_rate": 6.147119600233758e-05,
      "loss": 0.0423,
      "step": 91
    },
    {
      "epoch": 0.5687789799072643,
      "grad_norm": 0.02630997821688652,
      "learning_rate": 6.066498153718735e-05,
      "loss": 0.0235,
      "step": 92
    },
    {
      "epoch": 0.5749613601236476,
      "grad_norm": 0.023355038836598396,
      "learning_rate": 5.985585137257401e-05,
      "loss": 0.0256,
      "step": 93
    },
    {
      "epoch": 0.5811437403400309,
      "grad_norm": 0.03157835826277733,
      "learning_rate": 5.90440267166055e-05,
      "loss": 0.0377,
      "step": 94
    },
    {
      "epoch": 0.5873261205564142,
      "grad_norm": 0.031935982406139374,
      "learning_rate": 5.8229729514036705e-05,
      "loss": 0.037,
      "step": 95
    },
    {
      "epoch": 0.5935085007727975,
      "grad_norm": 0.07638601213693619,
      "learning_rate": 5.74131823855921e-05,
      "loss": 0.0734,
      "step": 96
    },
    {
      "epoch": 0.5996908809891809,
      "grad_norm": 0.07356469333171844,
      "learning_rate": 5.6594608567103456e-05,
      "loss": 0.0647,
      "step": 97
    },
    {
      "epoch": 0.6058732612055642,
      "grad_norm": 0.08144511282444,
      "learning_rate": 5.577423184847932e-05,
      "loss": 0.0822,
      "step": 98
    },
    {
      "epoch": 0.6120556414219475,
      "grad_norm": 0.08834308385848999,
      "learning_rate": 5.495227651252315e-05,
      "loss": 0.0773,
      "step": 99
    },
    {
      "epoch": 0.6182380216383307,
      "grad_norm": 0.06142331287264824,
      "learning_rate": 5.4128967273616625e-05,
      "loss": 0.0692,
      "step": 100
    },
    {
      "epoch": 0.6182380216383307,
      "eval_loss": 0.07065095752477646,
      "eval_runtime": 5.5131,
      "eval_samples_per_second": 49.518,
      "eval_steps_per_second": 12.516,
      "step": 100
    },
    {
      "epoch": 0.624420401854714,
      "grad_norm": 0.0861298069357872,
      "learning_rate": 5.330452921628497e-05,
      "loss": 0.0919,
      "step": 101
    },
    {
      "epoch": 0.6306027820710973,
      "grad_norm": 0.04875423386693001,
      "learning_rate": 5.247918773366112e-05,
      "loss": 0.0512,
      "step": 102
    },
    {
      "epoch": 0.6367851622874807,
      "grad_norm": 0.08116843551397324,
      "learning_rate": 5.165316846586541e-05,
      "loss": 0.0914,
      "step": 103
    },
    {
      "epoch": 0.642967542503864,
      "grad_norm": 0.07430719584226608,
      "learning_rate": 5.0826697238317935e-05,
      "loss": 0.0905,
      "step": 104
    },
    {
      "epoch": 0.6491499227202473,
      "grad_norm": 0.0565401054918766,
      "learning_rate": 5e-05,
      "loss": 0.08,
      "step": 105
    },
    {
      "epoch": 0.6553323029366306,
      "grad_norm": 0.07614312320947647,
      "learning_rate": 4.917330276168208e-05,
      "loss": 0.0687,
      "step": 106
    },
    {
      "epoch": 0.6615146831530139,
      "grad_norm": 0.05415325611829758,
      "learning_rate": 4.834683153413459e-05,
      "loss": 0.1018,
      "step": 107
    },
    {
      "epoch": 0.6676970633693973,
      "grad_norm": 0.05803875997662544,
      "learning_rate": 4.7520812266338885e-05,
      "loss": 0.0738,
      "step": 108
    },
    {
      "epoch": 0.6738794435857806,
      "grad_norm": 0.07506942749023438,
      "learning_rate": 4.669547078371504e-05,
      "loss": 0.0585,
      "step": 109
    },
    {
      "epoch": 0.6800618238021638,
      "grad_norm": 0.08233385533094406,
      "learning_rate": 4.5871032726383386e-05,
      "loss": 0.1079,
      "step": 110
    },
    {
      "epoch": 0.6862442040185471,
      "grad_norm": 0.1070331260561943,
      "learning_rate": 4.504772348747687e-05,
      "loss": 0.1187,
      "step": 111
    },
    {
      "epoch": 0.6924265842349304,
      "grad_norm": 0.07188671827316284,
      "learning_rate": 4.4225768151520694e-05,
      "loss": 0.1203,
      "step": 112
    },
    {
      "epoch": 0.6986089644513137,
      "grad_norm": 0.10996810346841812,
      "learning_rate": 4.3405391432896555e-05,
      "loss": 0.1151,
      "step": 113
    },
    {
      "epoch": 0.7047913446676971,
      "grad_norm": 0.10571317374706268,
      "learning_rate": 4.2586817614407895e-05,
      "loss": 0.1444,
      "step": 114
    },
    {
      "epoch": 0.7109737248840804,
      "grad_norm": 0.12080641835927963,
      "learning_rate": 4.17702704859633e-05,
      "loss": 0.1631,
      "step": 115
    },
    {
      "epoch": 0.7171561051004637,
      "grad_norm": 0.12236452102661133,
      "learning_rate": 4.095597328339452e-05,
      "loss": 0.1392,
      "step": 116
    },
    {
      "epoch": 0.723338485316847,
      "grad_norm": 0.10123718529939651,
      "learning_rate": 4.0144148627425993e-05,
      "loss": 0.1507,
      "step": 117
    },
    {
      "epoch": 0.7295208655332303,
      "grad_norm": 0.10937009751796722,
      "learning_rate": 3.933501846281267e-05,
      "loss": 0.1077,
      "step": 118
    },
    {
      "epoch": 0.7357032457496137,
      "grad_norm": 0.10601434111595154,
      "learning_rate": 3.852880399766243e-05,
      "loss": 0.0933,
      "step": 119
    },
    {
      "epoch": 0.7418856259659969,
      "grad_norm": 0.12326169013977051,
      "learning_rate": 3.772572564296005e-05,
      "loss": 0.1243,
      "step": 120
    },
    {
      "epoch": 0.7480680061823802,
      "grad_norm": 0.03345995396375656,
      "learning_rate": 3.6926002952309016e-05,
      "loss": 0.0396,
      "step": 121
    },
    {
      "epoch": 0.7542503863987635,
      "grad_norm": 0.02183113619685173,
      "learning_rate": 3.612985456190778e-05,
      "loss": 0.0241,
      "step": 122
    },
    {
      "epoch": 0.7604327666151468,
      "grad_norm": 0.034045446664094925,
      "learning_rate": 3.533749813077677e-05,
      "loss": 0.0311,
      "step": 123
    },
    {
      "epoch": 0.7666151468315301,
      "grad_norm": 0.02918507158756256,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.0324,
      "step": 124
    },
    {
      "epoch": 0.7727975270479135,
      "grad_norm": 0.03378276899456978,
      "learning_rate": 3.3765026539765834e-05,
      "loss": 0.0376,
      "step": 125
    },
    {
      "epoch": 0.7789799072642968,
      "grad_norm": 0.034735891968011856,
      "learning_rate": 3.298534127791785e-05,
      "loss": 0.0361,
      "step": 126
    },
    {
      "epoch": 0.7851622874806801,
      "grad_norm": 0.02379162609577179,
      "learning_rate": 3.221030765387417e-05,
      "loss": 0.03,
      "step": 127
    },
    {
      "epoch": 0.7913446676970634,
      "grad_norm": 0.03231632709503174,
      "learning_rate": 3.144013755408895e-05,
      "loss": 0.0378,
      "step": 128
    },
    {
      "epoch": 0.7975270479134466,
      "grad_norm": 0.026890065521001816,
      "learning_rate": 3.0675041535377405e-05,
      "loss": 0.0321,
      "step": 129
    },
    {
      "epoch": 0.80370942812983,
      "grad_norm": 0.02761516161262989,
      "learning_rate": 2.991522876735154e-05,
      "loss": 0.0322,
      "step": 130
    },
    {
      "epoch": 0.8098918083462133,
      "grad_norm": 0.03337293490767479,
      "learning_rate": 2.916090697523549e-05,
      "loss": 0.0264,
      "step": 131
    },
    {
      "epoch": 0.8160741885625966,
      "grad_norm": 0.02159067615866661,
      "learning_rate": 2.8412282383075363e-05,
      "loss": 0.0279,
      "step": 132
    },
    {
      "epoch": 0.8222565687789799,
      "grad_norm": 0.024149876087903976,
      "learning_rate": 2.766955965735968e-05,
      "loss": 0.0258,
      "step": 133
    },
    {
      "epoch": 0.8284389489953632,
      "grad_norm": 0.04995239898562431,
      "learning_rate": 2.693294185106562e-05,
      "loss": 0.0492,
      "step": 134
    },
    {
      "epoch": 0.8346213292117465,
      "grad_norm": 0.055764585733413696,
      "learning_rate": 2.6202630348146324e-05,
      "loss": 0.0626,
      "step": 135
    },
    {
      "epoch": 0.8408037094281299,
      "grad_norm": 0.057029642164707184,
      "learning_rate": 2.547882480847461e-05,
      "loss": 0.055,
      "step": 136
    },
    {
      "epoch": 0.8469860896445132,
      "grad_norm": 0.08656567335128784,
      "learning_rate": 2.476172311325783e-05,
      "loss": 0.0723,
      "step": 137
    },
    {
      "epoch": 0.8531684698608965,
      "grad_norm": 0.0557289682328701,
      "learning_rate": 2.405152131093926e-05,
      "loss": 0.0699,
      "step": 138
    },
    {
      "epoch": 0.8593508500772797,
      "grad_norm": 0.06906598061323166,
      "learning_rate": 2.3348413563600325e-05,
      "loss": 0.0703,
      "step": 139
    },
    {
      "epoch": 0.865533230293663,
      "grad_norm": 0.06671453267335892,
      "learning_rate": 2.2652592093878666e-05,
      "loss": 0.0716,
      "step": 140
    },
    {
      "epoch": 0.8717156105100463,
      "grad_norm": 0.0541725680232048,
      "learning_rate": 2.196424713241637e-05,
      "loss": 0.0554,
      "step": 141
    },
    {
      "epoch": 0.8778979907264297,
      "grad_norm": 0.05449613183736801,
      "learning_rate": 2.128356686585282e-05,
      "loss": 0.0554,
      "step": 142
    },
    {
      "epoch": 0.884080370942813,
      "grad_norm": 0.06350822746753693,
      "learning_rate": 2.061073738537635e-05,
      "loss": 0.0831,
      "step": 143
    },
    {
      "epoch": 0.8902627511591963,
      "grad_norm": 0.058875709772109985,
      "learning_rate": 1.9945942635848748e-05,
      "loss": 0.0787,
      "step": 144
    },
    {
      "epoch": 0.8964451313755796,
      "grad_norm": 0.0638042464852333,
      "learning_rate": 1.928936436551661e-05,
      "loss": 0.078,
      "step": 145
    },
    {
      "epoch": 0.9026275115919629,
      "grad_norm": 0.0712515190243721,
      "learning_rate": 1.8641182076323148e-05,
      "loss": 0.0957,
      "step": 146
    },
    {
      "epoch": 0.9088098918083463,
      "grad_norm": 0.07816080749034882,
      "learning_rate": 1.800157297483417e-05,
      "loss": 0.1148,
      "step": 147
    },
    {
      "epoch": 0.9149922720247295,
      "grad_norm": 0.059558551758527756,
      "learning_rate": 1.7370711923791567e-05,
      "loss": 0.0572,
      "step": 148
    },
    {
      "epoch": 0.9211746522411128,
      "grad_norm": 0.05272268131375313,
      "learning_rate": 1.6748771394307585e-05,
      "loss": 0.0562,
      "step": 149
    },
    {
      "epoch": 0.9273570324574961,
      "grad_norm": 0.11955559998750687,
      "learning_rate": 1.6135921418712956e-05,
      "loss": 0.135,
      "step": 150
    },
    {
      "epoch": 0.9273570324574961,
      "eval_loss": 0.06857249140739441,
      "eval_runtime": 5.514,
      "eval_samples_per_second": 49.511,
      "eval_steps_per_second": 12.514,
      "step": 150
    },
    {
      "epoch": 0.9335394126738794,
      "grad_norm": 0.07927730679512024,
      "learning_rate": 1.553232954407171e-05,
      "loss": 0.1002,
      "step": 151
    },
    {
      "epoch": 0.9397217928902627,
      "grad_norm": 0.11686775088310242,
      "learning_rate": 1.4938160786375572e-05,
      "loss": 0.1481,
      "step": 152
    },
    {
      "epoch": 0.9459041731066461,
      "grad_norm": 0.09868727624416351,
      "learning_rate": 1.435357758543015e-05,
      "loss": 0.0949,
      "step": 153
    },
    {
      "epoch": 0.9520865533230294,
      "grad_norm": 0.08376035839319229,
      "learning_rate": 1.3778739760445552e-05,
      "loss": 0.1368,
      "step": 154
    },
    {
      "epoch": 0.9582689335394127,
      "grad_norm": 0.10080867260694504,
      "learning_rate": 1.3213804466343421e-05,
      "loss": 0.0974,
      "step": 155
    },
    {
      "epoch": 0.964451313755796,
      "grad_norm": 0.09424585849046707,
      "learning_rate": 1.2658926150792322e-05,
      "loss": 0.1178,
      "step": 156
    },
    {
      "epoch": 0.9706336939721792,
      "grad_norm": 0.12882882356643677,
      "learning_rate": 1.2114256511983274e-05,
      "loss": 0.19,
      "step": 157
    },
    {
      "epoch": 0.9768160741885626,
      "grad_norm": 0.10375382006168365,
      "learning_rate": 1.157994445715706e-05,
      "loss": 0.0978,
      "step": 158
    },
    {
      "epoch": 0.9829984544049459,
      "grad_norm": 0.10177513211965561,
      "learning_rate": 1.1056136061894384e-05,
      "loss": 0.1095,
      "step": 159
    },
    {
      "epoch": 0.9891808346213292,
      "grad_norm": 0.1246931403875351,
      "learning_rate": 1.0542974530180327e-05,
      "loss": 0.1929,
      "step": 160
    },
    {
      "epoch": 0.9953632148377125,
      "grad_norm": 0.03230239450931549,
      "learning_rate": 1.0040600155253765e-05,
      "loss": 0.0366,
      "step": 161
    },
    {
      "epoch": 1.001545595054096,
      "grad_norm": 0.07059313356876373,
      "learning_rate": 9.549150281252633e-06,
      "loss": 0.0696,
      "step": 162
    },
    {
      "epoch": 1.007727975270479,
      "grad_norm": 0.03946077451109886,
      "learning_rate": 9.068759265665384e-06,
      "loss": 0.0278,
      "step": 163
    },
    {
      "epoch": 1.0139103554868625,
      "grad_norm": 0.026573503389954567,
      "learning_rate": 8.599558442598998e-06,
      "loss": 0.0282,
      "step": 164
    },
    {
      "epoch": 1.0200927357032457,
      "grad_norm": 0.028409384191036224,
      "learning_rate": 8.141676086873572e-06,
      "loss": 0.03,
      "step": 165
    },
    {
      "epoch": 1.026275115919629,
      "grad_norm": 0.02546733431518078,
      "learning_rate": 7.695237378953223e-06,
      "loss": 0.0313,
      "step": 166
    },
    {
      "epoch": 1.0324574961360125,
      "grad_norm": 0.025494728237390518,
      "learning_rate": 7.260364370723044e-06,
      "loss": 0.0332,
      "step": 167
    },
    {
      "epoch": 1.0386398763523956,
      "grad_norm": 0.027573363855481148,
      "learning_rate": 6.837175952121306e-06,
      "loss": 0.0325,
      "step": 168
    },
    {
      "epoch": 1.044822256568779,
      "grad_norm": 0.03296926990151405,
      "learning_rate": 6.425787818636131e-06,
      "loss": 0.0256,
      "step": 169
    },
    {
      "epoch": 1.0510046367851622,
      "grad_norm": 0.03755498304963112,
      "learning_rate": 6.026312439675552e-06,
      "loss": 0.0475,
      "step": 170
    },
    {
      "epoch": 1.0571870170015456,
      "grad_norm": 0.03160750865936279,
      "learning_rate": 5.6388590278194096e-06,
      "loss": 0.0294,
      "step": 171
    },
    {
      "epoch": 1.063369397217929,
      "grad_norm": 0.030579503625631332,
      "learning_rate": 5.263533508961827e-06,
      "loss": 0.0346,
      "step": 172
    },
    {
      "epoch": 1.0695517774343122,
      "grad_norm": 0.025405822321772575,
      "learning_rate": 4.900438493352055e-06,
      "loss": 0.0371,
      "step": 173
    },
    {
      "epoch": 1.0757341576506956,
      "grad_norm": 0.025918610394001007,
      "learning_rate": 4.549673247541875e-06,
      "loss": 0.0268,
      "step": 174
    },
    {
      "epoch": 1.0819165378670788,
      "grad_norm": 0.032863494008779526,
      "learning_rate": 4.2113336672471245e-06,
      "loss": 0.0236,
      "step": 175
    },
    {
      "epoch": 1.0880989180834622,
      "grad_norm": 0.034572046250104904,
      "learning_rate": 3.885512251130763e-06,
      "loss": 0.0365,
      "step": 176
    },
    {
      "epoch": 1.0942812982998453,
      "grad_norm": 0.046874385327100754,
      "learning_rate": 3.5722980755146517e-06,
      "loss": 0.0557,
      "step": 177
    },
    {
      "epoch": 1.1004636785162287,
      "grad_norm": 0.04901492968201637,
      "learning_rate": 3.271776770026963e-06,
      "loss": 0.0593,
      "step": 178
    },
    {
      "epoch": 1.1066460587326121,
      "grad_norm": 0.05979045107960701,
      "learning_rate": 2.9840304941919415e-06,
      "loss": 0.0651,
      "step": 179
    },
    {
      "epoch": 1.1128284389489953,
      "grad_norm": 0.05601680278778076,
      "learning_rate": 2.7091379149682685e-06,
      "loss": 0.0819,
      "step": 180
    },
    {
      "epoch": 1.1190108191653787,
      "grad_norm": 0.0761902779340744,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 0.0713,
      "step": 181
    },
    {
      "epoch": 1.125193199381762,
      "grad_norm": 0.05143177509307861,
      "learning_rate": 2.1982109232821178e-06,
      "loss": 0.0791,
      "step": 182
    },
    {
      "epoch": 1.1313755795981453,
      "grad_norm": 0.06408868730068207,
      "learning_rate": 1.962316193157593e-06,
      "loss": 0.0717,
      "step": 183
    },
    {
      "epoch": 1.1375579598145287,
      "grad_norm": 0.05212021991610527,
      "learning_rate": 1.7395544861325718e-06,
      "loss": 0.0557,
      "step": 184
    },
    {
      "epoch": 1.1437403400309119,
      "grad_norm": 0.05530843511223793,
      "learning_rate": 1.5299867030334814e-06,
      "loss": 0.074,
      "step": 185
    },
    {
      "epoch": 1.1499227202472952,
      "grad_norm": 0.07621589303016663,
      "learning_rate": 1.333670137599713e-06,
      "loss": 0.1034,
      "step": 186
    },
    {
      "epoch": 1.1561051004636784,
      "grad_norm": 0.052267253398895264,
      "learning_rate": 1.1506584608200367e-06,
      "loss": 0.0692,
      "step": 187
    },
    {
      "epoch": 1.1622874806800618,
      "grad_norm": 0.05556660518050194,
      "learning_rate": 9.810017062595322e-07,
      "loss": 0.0701,
      "step": 188
    },
    {
      "epoch": 1.1684698608964452,
      "grad_norm": 0.07082415372133255,
      "learning_rate": 8.247462563808817e-07,
      "loss": 0.0924,
      "step": 189
    },
    {
      "epoch": 1.1746522411128284,
      "grad_norm": 0.05150453373789787,
      "learning_rate": 6.819348298638839e-07,
      "loss": 0.0879,
      "step": 190
    },
    {
      "epoch": 1.1808346213292118,
      "grad_norm": 0.05410479009151459,
      "learning_rate": 5.526064699265753e-07,
      "loss": 0.0681,
      "step": 191
    },
    {
      "epoch": 1.187017001545595,
      "grad_norm": 0.07340589910745621,
      "learning_rate": 4.367965336512403e-07,
      "loss": 0.0703,
      "step": 192
    },
    {
      "epoch": 1.1931993817619784,
      "grad_norm": 0.06983581185340881,
      "learning_rate": 3.3453668231809286e-07,
      "loss": 0.0868,
      "step": 193
    },
    {
      "epoch": 1.1993817619783615,
      "grad_norm": 0.09015076607465744,
      "learning_rate": 2.458548727494292e-07,
      "loss": 0.1295,
      "step": 194
    },
    {
      "epoch": 1.205564142194745,
      "grad_norm": 0.08907996863126755,
      "learning_rate": 1.7077534966650766e-07,
      "loss": 0.1115,
      "step": 195
    },
    {
      "epoch": 1.2117465224111283,
      "grad_norm": 0.0957234650850296,
      "learning_rate": 1.0931863906127327e-07,
      "loss": 0.1177,
      "step": 196
    },
    {
      "epoch": 1.2179289026275115,
      "grad_norm": 0.13698334991931915,
      "learning_rate": 6.150154258476315e-08,
      "loss": 0.2054,
      "step": 197
    },
    {
      "epoch": 1.224111282843895,
      "grad_norm": 0.10444821417331696,
      "learning_rate": 2.7337132953697554e-08,
      "loss": 0.1576,
      "step": 198
    },
    {
      "epoch": 1.2302936630602783,
      "grad_norm": 0.10824877768754959,
      "learning_rate": 6.834750376549792e-09,
      "loss": 0.1621,
      "step": 199
    },
    {
      "epoch": 1.2364760432766615,
      "grad_norm": 0.08922790735960007,
      "learning_rate": 0.0,
      "loss": 0.1465,
      "step": 200
    },
    {
      "epoch": 1.2364760432766615,
      "eval_loss": 0.06736895442008972,
      "eval_runtime": 5.5074,
      "eval_samples_per_second": 49.57,
      "eval_steps_per_second": 12.529,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.26629570494464e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}