{
  "best_metric": 0.5813084244728088,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.330169211721007,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0016508460586050352,
      "grad_norm": 0.2560625672340393,
      "learning_rate": 1e-05,
      "loss": 0.9607,
      "step": 1
    },
    {
      "epoch": 0.0016508460586050352,
      "eval_loss": 1.3502591848373413,
      "eval_runtime": 71.4014,
      "eval_samples_per_second": 14.299,
      "eval_steps_per_second": 3.585,
      "step": 1
    },
    {
      "epoch": 0.0033016921172100704,
      "grad_norm": 0.33027830719947815,
      "learning_rate": 2e-05,
      "loss": 0.976,
      "step": 2
    },
    {
      "epoch": 0.004952538175815105,
      "grad_norm": 0.3408716022968292,
      "learning_rate": 3e-05,
      "loss": 1.0007,
      "step": 3
    },
    {
      "epoch": 0.006603384234420141,
      "grad_norm": 0.31021541357040405,
      "learning_rate": 4e-05,
      "loss": 0.9829,
      "step": 4
    },
    {
      "epoch": 0.008254230293025175,
      "grad_norm": 0.38000208139419556,
      "learning_rate": 5e-05,
      "loss": 1.0785,
      "step": 5
    },
    {
      "epoch": 0.00990507635163021,
      "grad_norm": 0.3509998023509979,
      "learning_rate": 6e-05,
      "loss": 1.0294,
      "step": 6
    },
    {
      "epoch": 0.011555922410235245,
      "grad_norm": 0.3928355276584625,
      "learning_rate": 7e-05,
      "loss": 1.099,
      "step": 7
    },
    {
      "epoch": 0.013206768468840282,
      "grad_norm": 0.3882705867290497,
      "learning_rate": 8e-05,
      "loss": 1.0098,
      "step": 8
    },
    {
      "epoch": 0.014857614527445316,
      "grad_norm": 0.3973172903060913,
      "learning_rate": 9e-05,
      "loss": 1.0609,
      "step": 9
    },
    {
      "epoch": 0.01650846058605035,
      "grad_norm": 0.34281566739082336,
      "learning_rate": 0.0001,
      "loss": 0.9052,
      "step": 10
    },
    {
      "epoch": 0.018159306644655385,
      "grad_norm": 0.3078821003437042,
      "learning_rate": 9.999316524962345e-05,
      "loss": 0.9152,
      "step": 11
    },
    {
      "epoch": 0.01981015270326042,
      "grad_norm": 0.2813267707824707,
      "learning_rate": 9.997266286704631e-05,
      "loss": 0.8063,
      "step": 12
    },
    {
      "epoch": 0.021460998761865455,
      "grad_norm": 0.2816712558269501,
      "learning_rate": 9.993849845741524e-05,
      "loss": 0.8193,
      "step": 13
    },
    {
      "epoch": 0.02311184482047049,
      "grad_norm": 0.3556971848011017,
      "learning_rate": 9.989068136093873e-05,
      "loss": 0.7879,
      "step": 14
    },
    {
      "epoch": 0.024762690879075525,
      "grad_norm": 0.2937436103820801,
      "learning_rate": 9.98292246503335e-05,
      "loss": 0.7815,
      "step": 15
    },
    {
      "epoch": 0.026413536937680563,
      "grad_norm": 0.3161066770553589,
      "learning_rate": 9.975414512725057e-05,
      "loss": 0.6553,
      "step": 16
    },
    {
      "epoch": 0.028064382996285598,
      "grad_norm": 0.26922377943992615,
      "learning_rate": 9.966546331768191e-05,
      "loss": 0.7633,
      "step": 17
    },
    {
      "epoch": 0.029715229054890633,
      "grad_norm": 0.24018901586532593,
      "learning_rate": 9.956320346634876e-05,
      "loss": 0.6671,
      "step": 18
    },
    {
      "epoch": 0.031366075113495664,
      "grad_norm": 0.25884905457496643,
      "learning_rate": 9.944739353007344e-05,
      "loss": 0.6975,
      "step": 19
    },
    {
      "epoch": 0.0330169211721007,
      "grad_norm": 0.28652656078338623,
      "learning_rate": 9.931806517013612e-05,
      "loss": 0.6259,
      "step": 20
    },
    {
      "epoch": 0.034667767230705734,
      "grad_norm": 0.29780396819114685,
      "learning_rate": 9.917525374361912e-05,
      "loss": 0.7639,
      "step": 21
    },
    {
      "epoch": 0.03631861328931077,
      "grad_norm": 0.2604987621307373,
      "learning_rate": 9.901899829374047e-05,
      "loss": 0.6674,
      "step": 22
    },
    {
      "epoch": 0.037969459347915804,
      "grad_norm": 0.26153746247291565,
      "learning_rate": 9.884934153917997e-05,
      "loss": 0.7088,
      "step": 23
    },
    {
      "epoch": 0.03962030540652084,
      "grad_norm": 0.2684410810470581,
      "learning_rate": 9.86663298624003e-05,
      "loss": 0.8006,
      "step": 24
    },
    {
      "epoch": 0.041271151465125874,
      "grad_norm": 0.24207377433776855,
      "learning_rate": 9.847001329696653e-05,
      "loss": 0.7576,
      "step": 25
    },
    {
      "epoch": 0.04292199752373091,
      "grad_norm": 0.27220287919044495,
      "learning_rate": 9.826044551386744e-05,
      "loss": 0.6823,
      "step": 26
    },
    {
      "epoch": 0.044572843582335944,
      "grad_norm": 0.23922260105609894,
      "learning_rate": 9.803768380684242e-05,
      "loss": 0.6182,
      "step": 27
    },
    {
      "epoch": 0.04622368964094098,
      "grad_norm": 0.2326200157403946,
      "learning_rate": 9.780178907671789e-05,
      "loss": 0.6437,
      "step": 28
    },
    {
      "epoch": 0.047874535699546014,
      "grad_norm": 0.2182694673538208,
      "learning_rate": 9.755282581475769e-05,
      "loss": 0.6625,
      "step": 29
    },
    {
      "epoch": 0.04952538175815105,
      "grad_norm": 0.2716551125049591,
      "learning_rate": 9.729086208503174e-05,
      "loss": 0.6672,
      "step": 30
    },
    {
      "epoch": 0.051176227816756084,
      "grad_norm": 0.21890808641910553,
      "learning_rate": 9.701596950580806e-05,
      "loss": 0.6124,
      "step": 31
    },
    {
      "epoch": 0.052827073875361126,
      "grad_norm": 0.25690513849258423,
      "learning_rate": 9.672822322997305e-05,
      "loss": 0.6886,
      "step": 32
    },
    {
      "epoch": 0.05447791993396616,
      "grad_norm": 0.22338497638702393,
      "learning_rate": 9.642770192448536e-05,
      "loss": 0.5841,
      "step": 33
    },
    {
      "epoch": 0.056128765992571196,
      "grad_norm": 0.2854442000389099,
      "learning_rate": 9.611448774886924e-05,
      "loss": 0.7523,
      "step": 34
    },
    {
      "epoch": 0.05777961205117623,
      "grad_norm": 0.26308608055114746,
      "learning_rate": 9.578866633275288e-05,
      "loss": 0.6761,
      "step": 35
    },
    {
      "epoch": 0.059430458109781266,
      "grad_norm": 0.2807048559188843,
      "learning_rate": 9.545032675245813e-05,
      "loss": 0.6084,
      "step": 36
    },
    {
      "epoch": 0.0610813041683863,
      "grad_norm": 0.2431553155183792,
      "learning_rate": 9.509956150664796e-05,
      "loss": 0.6483,
      "step": 37
    },
    {
      "epoch": 0.06273215022699133,
      "grad_norm": 0.22250640392303467,
      "learning_rate": 9.473646649103818e-05,
      "loss": 0.5193,
      "step": 38
    },
    {
      "epoch": 0.06438299628559636,
      "grad_norm": 0.2634449005126953,
      "learning_rate": 9.43611409721806e-05,
      "loss": 0.7592,
      "step": 39
    },
    {
      "epoch": 0.0660338423442014,
      "grad_norm": 0.2679572105407715,
      "learning_rate": 9.397368756032445e-05,
      "loss": 0.7292,
      "step": 40
    },
    {
      "epoch": 0.06768468840280643,
      "grad_norm": 0.22559991478919983,
      "learning_rate": 9.357421218136386e-05,
      "loss": 0.5708,
      "step": 41
    },
    {
      "epoch": 0.06933553446141147,
      "grad_norm": 0.26351451873779297,
      "learning_rate": 9.316282404787871e-05,
      "loss": 0.5519,
      "step": 42
    },
    {
      "epoch": 0.0709863805200165,
      "grad_norm": 0.273133784532547,
      "learning_rate": 9.273963562927695e-05,
      "loss": 0.673,
      "step": 43
    },
    {
      "epoch": 0.07263722657862154,
      "grad_norm": 0.25958889722824097,
      "learning_rate": 9.230476262104677e-05,
      "loss": 0.5961,
      "step": 44
    },
    {
      "epoch": 0.07428807263722657,
      "grad_norm": 0.30905693769454956,
      "learning_rate": 9.185832391312644e-05,
      "loss": 0.779,
      "step": 45
    },
    {
      "epoch": 0.07593891869583161,
      "grad_norm": 0.28190961480140686,
      "learning_rate": 9.140044155740101e-05,
      "loss": 0.6835,
      "step": 46
    },
    {
      "epoch": 0.07758976475443664,
      "grad_norm": 0.28009501099586487,
      "learning_rate": 9.093124073433463e-05,
      "loss": 0.735,
      "step": 47
    },
    {
      "epoch": 0.07924061081304168,
      "grad_norm": 0.3300161361694336,
      "learning_rate": 9.045084971874738e-05,
      "loss": 0.7033,
      "step": 48
    },
    {
      "epoch": 0.08089145687164671,
      "grad_norm": 0.32903996109962463,
      "learning_rate": 8.995939984474624e-05,
      "loss": 0.7585,
      "step": 49
    },
    {
      "epoch": 0.08254230293025175,
      "grad_norm": 0.29829880595207214,
      "learning_rate": 8.945702546981969e-05,
      "loss": 0.6854,
      "step": 50
    },
    {
      "epoch": 0.08254230293025175,
      "eval_loss": 0.6593804359436035,
      "eval_runtime": 72.592,
      "eval_samples_per_second": 14.065,
      "eval_steps_per_second": 3.527,
      "step": 50
    },
    {
      "epoch": 0.08419314898885678,
      "grad_norm": 0.23477086424827576,
      "learning_rate": 8.894386393810563e-05,
      "loss": 0.876,
      "step": 51
    },
    {
      "epoch": 0.08584399504746182,
      "grad_norm": 0.25313249230384827,
      "learning_rate": 8.842005554284296e-05,
      "loss": 0.6697,
      "step": 52
    },
    {
      "epoch": 0.08749484110606685,
      "grad_norm": 0.2344631403684616,
      "learning_rate": 8.788574348801675e-05,
      "loss": 0.714,
      "step": 53
    },
    {
      "epoch": 0.08914568716467189,
      "grad_norm": 0.21662768721580505,
      "learning_rate": 8.73410738492077e-05,
      "loss": 0.6629,
      "step": 54
    },
    {
      "epoch": 0.09079653322327692,
      "grad_norm": 0.20041006803512573,
      "learning_rate": 8.678619553365659e-05,
      "loss": 0.677,
      "step": 55
    },
    {
      "epoch": 0.09244737928188196,
      "grad_norm": 0.1851261407136917,
      "learning_rate": 8.622126023955446e-05,
      "loss": 0.6478,
      "step": 56
    },
    {
      "epoch": 0.094098225340487,
      "grad_norm": 0.16951732337474823,
      "learning_rate": 8.564642241456986e-05,
      "loss": 0.6262,
      "step": 57
    },
    {
      "epoch": 0.09574907139909203,
      "grad_norm": 0.20076300203800201,
      "learning_rate": 8.506183921362443e-05,
      "loss": 0.6615,
      "step": 58
    },
    {
      "epoch": 0.09739991745769706,
      "grad_norm": 0.1771518439054489,
      "learning_rate": 8.44676704559283e-05,
      "loss": 0.6573,
      "step": 59
    },
    {
      "epoch": 0.0990507635163021,
      "grad_norm": 0.17681466042995453,
      "learning_rate": 8.386407858128706e-05,
      "loss": 0.6032,
      "step": 60
    },
    {
      "epoch": 0.10070160957490713,
      "grad_norm": 0.19098013639450073,
      "learning_rate": 8.32512286056924e-05,
      "loss": 0.6772,
      "step": 61
    },
    {
      "epoch": 0.10235245563351217,
      "grad_norm": 0.16194474697113037,
      "learning_rate": 8.262928807620843e-05,
      "loss": 0.6369,
      "step": 62
    },
    {
      "epoch": 0.1040033016921172,
      "grad_norm": 0.17490923404693604,
      "learning_rate": 8.199842702516583e-05,
      "loss": 0.6643,
      "step": 63
    },
    {
      "epoch": 0.10565414775072225,
      "grad_norm": 0.17459066212177277,
      "learning_rate": 8.135881792367686e-05,
      "loss": 0.6589,
      "step": 64
    },
    {
      "epoch": 0.10730499380932729,
      "grad_norm": 0.16591382026672363,
      "learning_rate": 8.07106356344834e-05,
      "loss": 0.573,
      "step": 65
    },
    {
      "epoch": 0.10895583986793232,
      "grad_norm": 0.17958876490592957,
      "learning_rate": 8.005405736415126e-05,
      "loss": 0.587,
      "step": 66
    },
    {
      "epoch": 0.11060668592653736,
      "grad_norm": 0.20583461225032806,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.5865,
      "step": 67
    },
    {
      "epoch": 0.11225753198514239,
      "grad_norm": 0.2053106129169464,
      "learning_rate": 7.871643313414718e-05,
      "loss": 0.5709,
      "step": 68
    },
    {
      "epoch": 0.11390837804374743,
      "grad_norm": 0.2355458289384842,
      "learning_rate": 7.803575286758364e-05,
      "loss": 0.6094,
      "step": 69
    },
    {
      "epoch": 0.11555922410235246,
      "grad_norm": 0.17099037766456604,
      "learning_rate": 7.734740790612136e-05,
      "loss": 0.5351,
      "step": 70
    },
    {
      "epoch": 0.1172100701609575,
      "grad_norm": 0.16788853704929352,
      "learning_rate": 7.66515864363997e-05,
      "loss": 0.6576,
      "step": 71
    },
    {
      "epoch": 0.11886091621956253,
      "grad_norm": 0.1761666089296341,
      "learning_rate": 7.594847868906076e-05,
      "loss": 0.5923,
      "step": 72
    },
    {
      "epoch": 0.12051176227816757,
      "grad_norm": 0.19576600193977356,
      "learning_rate": 7.52382768867422e-05,
      "loss": 0.6179,
      "step": 73
    },
    {
      "epoch": 0.1221626083367726,
      "grad_norm": 0.18496063351631165,
      "learning_rate": 7.452117519152542e-05,
      "loss": 0.5956,
      "step": 74
    },
    {
      "epoch": 0.12381345439537764,
      "grad_norm": 0.17690011858940125,
      "learning_rate": 7.379736965185368e-05,
      "loss": 0.5493,
      "step": 75
    },
    {
      "epoch": 0.12546430045398266,
      "grad_norm": 0.21138237416744232,
      "learning_rate": 7.30670581489344e-05,
      "loss": 0.6679,
      "step": 76
    },
    {
      "epoch": 0.1271151465125877,
      "grad_norm": 0.18569734692573547,
      "learning_rate": 7.233044034264034e-05,
      "loss": 0.4962,
      "step": 77
    },
    {
      "epoch": 0.12876599257119273,
      "grad_norm": 0.21759828925132751,
      "learning_rate": 7.158771761692464e-05,
      "loss": 0.6541,
      "step": 78
    },
    {
      "epoch": 0.13041683862979778,
      "grad_norm": 0.2235463410615921,
      "learning_rate": 7.083909302476453e-05,
      "loss": 0.6687,
      "step": 79
    },
    {
      "epoch": 0.1320676846884028,
      "grad_norm": 0.1946304738521576,
      "learning_rate": 7.008477123264848e-05,
      "loss": 0.5596,
      "step": 80
    },
    {
      "epoch": 0.13371853074700785,
      "grad_norm": 0.22201764583587646,
      "learning_rate": 6.932495846462261e-05,
      "loss": 0.654,
      "step": 81
    },
    {
      "epoch": 0.13536937680561287,
      "grad_norm": 0.20443212985992432,
      "learning_rate": 6.855986244591104e-05,
      "loss": 0.5617,
      "step": 82
    },
    {
      "epoch": 0.13702022286421792,
      "grad_norm": 0.2160077691078186,
      "learning_rate": 6.778969234612584e-05,
      "loss": 0.7056,
      "step": 83
    },
    {
      "epoch": 0.13867106892282294,
      "grad_norm": 0.21228303015232086,
      "learning_rate": 6.701465872208216e-05,
      "loss": 0.5509,
      "step": 84
    },
    {
      "epoch": 0.140321914981428,
      "grad_norm": 0.1984761357307434,
      "learning_rate": 6.623497346023418e-05,
      "loss": 0.5392,
      "step": 85
    },
    {
      "epoch": 0.141972761040033,
      "grad_norm": 0.20984303951263428,
      "learning_rate": 6.545084971874738e-05,
      "loss": 0.577,
      "step": 86
    },
    {
      "epoch": 0.14362360709863806,
      "grad_norm": 0.22560612857341766,
      "learning_rate": 6.466250186922325e-05,
      "loss": 0.5898,
      "step": 87
    },
    {
      "epoch": 0.14527445315724308,
      "grad_norm": 0.21773897111415863,
      "learning_rate": 6.387014543809223e-05,
      "loss": 0.541,
      "step": 88
    },
    {
      "epoch": 0.14692529921584813,
      "grad_norm": 0.23149403929710388,
      "learning_rate": 6.307399704769099e-05,
      "loss": 0.5936,
      "step": 89
    },
    {
      "epoch": 0.14857614527445315,
      "grad_norm": 0.2580919861793518,
      "learning_rate": 6.227427435703997e-05,
      "loss": 0.6293,
      "step": 90
    },
    {
      "epoch": 0.1502269913330582,
      "grad_norm": 0.25908052921295166,
      "learning_rate": 6.147119600233758e-05,
      "loss": 0.5987,
      "step": 91
    },
    {
      "epoch": 0.15187783739166322,
      "grad_norm": 0.25093501806259155,
      "learning_rate": 6.066498153718735e-05,
      "loss": 0.6699,
      "step": 92
    },
    {
      "epoch": 0.15352868345026827,
      "grad_norm": 0.2367548942565918,
      "learning_rate": 5.985585137257401e-05,
      "loss": 0.5907,
      "step": 93
    },
    {
      "epoch": 0.1551795295088733,
      "grad_norm": 0.26955339312553406,
      "learning_rate": 5.90440267166055e-05,
      "loss": 0.7484,
      "step": 94
    },
    {
      "epoch": 0.15683037556747834,
      "grad_norm": 0.270084023475647,
      "learning_rate": 5.8229729514036705e-05,
      "loss": 0.6561,
      "step": 95
    },
    {
      "epoch": 0.15848122162608336,
      "grad_norm": 0.2891033887863159,
      "learning_rate": 5.74131823855921e-05,
      "loss": 0.6398,
      "step": 96
    },
    {
      "epoch": 0.1601320676846884,
      "grad_norm": 0.2848244309425354,
      "learning_rate": 5.6594608567103456e-05,
      "loss": 0.7025,
      "step": 97
    },
    {
      "epoch": 0.16178291374329343,
      "grad_norm": 0.280148446559906,
      "learning_rate": 5.577423184847932e-05,
      "loss": 0.6605,
      "step": 98
    },
    {
      "epoch": 0.16343375980189848,
      "grad_norm": 0.2701184153556824,
      "learning_rate": 5.495227651252315e-05,
      "loss": 0.6698,
      "step": 99
    },
    {
      "epoch": 0.1650846058605035,
      "grad_norm": 0.35316723585128784,
      "learning_rate": 5.4128967273616625e-05,
      "loss": 0.6639,
      "step": 100
    },
    {
      "epoch": 0.1650846058605035,
      "eval_loss": 0.6248738765716553,
      "eval_runtime": 72.5806,
      "eval_samples_per_second": 14.067,
      "eval_steps_per_second": 3.527,
      "step": 100
    },
    {
      "epoch": 0.16673545191910855,
      "grad_norm": 0.1904301792383194,
      "learning_rate": 5.330452921628497e-05,
      "loss": 0.7954,
      "step": 101
    },
    {
      "epoch": 0.16838629797771357,
      "grad_norm": 0.21981488168239594,
      "learning_rate": 5.247918773366112e-05,
      "loss": 0.6125,
      "step": 102
    },
    {
      "epoch": 0.17003714403631862,
      "grad_norm": 0.2113095223903656,
      "learning_rate": 5.165316846586541e-05,
      "loss": 0.5696,
      "step": 103
    },
    {
      "epoch": 0.17168799009492364,
      "grad_norm": 0.21203678846359253,
      "learning_rate": 5.0826697238317935e-05,
      "loss": 0.636,
      "step": 104
    },
    {
      "epoch": 0.17333883615352869,
      "grad_norm": 0.2564646899700165,
      "learning_rate": 5e-05,
      "loss": 0.69,
      "step": 105
    },
    {
      "epoch": 0.1749896822121337,
      "grad_norm": 0.21588250994682312,
      "learning_rate": 4.917330276168208e-05,
      "loss": 0.6763,
      "step": 106
    },
    {
      "epoch": 0.17664052827073876,
      "grad_norm": 0.2413017600774765,
      "learning_rate": 4.834683153413459e-05,
      "loss": 0.6754,
      "step": 107
    },
    {
      "epoch": 0.17829137432934378,
      "grad_norm": 0.18978208303451538,
      "learning_rate": 4.7520812266338885e-05,
      "loss": 0.7073,
      "step": 108
    },
    {
      "epoch": 0.17994222038794883,
      "grad_norm": 0.1950594186782837,
      "learning_rate": 4.669547078371504e-05,
      "loss": 0.6717,
      "step": 109
    },
    {
      "epoch": 0.18159306644655385,
      "grad_norm": 0.26451554894447327,
      "learning_rate": 4.5871032726383386e-05,
      "loss": 0.5529,
      "step": 110
    },
    {
      "epoch": 0.1832439125051589,
      "grad_norm": 0.17904111742973328,
      "learning_rate": 4.504772348747687e-05,
      "loss": 0.6181,
      "step": 111
    },
    {
      "epoch": 0.18489475856376392,
      "grad_norm": 0.20207734405994415,
      "learning_rate": 4.4225768151520694e-05,
      "loss": 0.6429,
      "step": 112
    },
    {
      "epoch": 0.18654560462236897,
      "grad_norm": 0.18880465626716614,
      "learning_rate": 4.3405391432896555e-05,
      "loss": 0.6705,
      "step": 113
    },
    {
      "epoch": 0.188196450680974,
      "grad_norm": 0.21350637078285217,
      "learning_rate": 4.2586817614407895e-05,
      "loss": 0.6387,
      "step": 114
    },
    {
      "epoch": 0.18984729673957904,
      "grad_norm": 0.19119741022586823,
      "learning_rate": 4.17702704859633e-05,
      "loss": 0.5692,
      "step": 115
    },
    {
      "epoch": 0.19149814279818406,
      "grad_norm": 0.20653676986694336,
      "learning_rate": 4.095597328339452e-05,
      "loss": 0.5674,
      "step": 116
    },
    {
      "epoch": 0.1931489888567891,
      "grad_norm": 0.19498352706432343,
      "learning_rate": 4.0144148627425993e-05,
      "loss": 0.6179,
      "step": 117
    },
    {
      "epoch": 0.19479983491539413,
      "grad_norm": 0.21825550496578217,
      "learning_rate": 3.933501846281267e-05,
      "loss": 0.6305,
      "step": 118
    },
    {
      "epoch": 0.19645068097399918,
      "grad_norm": 0.27745306491851807,
      "learning_rate": 3.852880399766243e-05,
      "loss": 0.5451,
      "step": 119
    },
    {
      "epoch": 0.1981015270326042,
      "grad_norm": 0.18952183425426483,
      "learning_rate": 3.772572564296005e-05,
      "loss": 0.5501,
      "step": 120
    },
    {
      "epoch": 0.19975237309120925,
      "grad_norm": 0.2599913775920868,
      "learning_rate": 3.6926002952309016e-05,
      "loss": 0.6375,
      "step": 121
    },
    {
      "epoch": 0.20140321914981427,
      "grad_norm": 0.2103678584098816,
      "learning_rate": 3.612985456190778e-05,
      "loss": 0.5747,
      "step": 122
    },
    {
      "epoch": 0.20305406520841932,
      "grad_norm": 0.2067909836769104,
      "learning_rate": 3.533749813077677e-05,
      "loss": 0.6364,
      "step": 123
    },
    {
      "epoch": 0.20470491126702434,
      "grad_norm": 0.2508917450904846,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.6517,
      "step": 124
    },
    {
      "epoch": 0.20635575732562939,
      "grad_norm": 0.22479701042175293,
      "learning_rate": 3.3765026539765834e-05,
      "loss": 0.6982,
      "step": 125
    },
    {
      "epoch": 0.2080066033842344,
      "grad_norm": 0.21036198735237122,
      "learning_rate": 3.298534127791785e-05,
      "loss": 0.6001,
      "step": 126
    },
    {
      "epoch": 0.20965744944283946,
      "grad_norm": 0.2051810920238495,
      "learning_rate": 3.221030765387417e-05,
      "loss": 0.5417,
      "step": 127
    },
    {
      "epoch": 0.2113082955014445,
      "grad_norm": 0.22976362705230713,
      "learning_rate": 3.144013755408895e-05,
      "loss": 0.5489,
      "step": 128
    },
    {
      "epoch": 0.21295914156004953,
      "grad_norm": 0.20730365812778473,
      "learning_rate": 3.0675041535377405e-05,
      "loss": 0.5818,
      "step": 129
    },
    {
      "epoch": 0.21460998761865457,
      "grad_norm": 0.21078069508075714,
      "learning_rate": 2.991522876735154e-05,
      "loss": 0.4759,
      "step": 130
    },
    {
      "epoch": 0.2162608336772596,
      "grad_norm": 0.23136229813098907,
      "learning_rate": 2.916090697523549e-05,
      "loss": 0.6533,
      "step": 131
    },
    {
      "epoch": 0.21791167973586464,
      "grad_norm": 0.2582150995731354,
      "learning_rate": 2.8412282383075363e-05,
      "loss": 0.5859,
      "step": 132
    },
    {
      "epoch": 0.21956252579446967,
      "grad_norm": 0.2428181916475296,
      "learning_rate": 2.766955965735968e-05,
      "loss": 0.5134,
      "step": 133
    },
    {
      "epoch": 0.22121337185307471,
      "grad_norm": 0.28875431418418884,
      "learning_rate": 2.693294185106562e-05,
      "loss": 0.6194,
      "step": 134
    },
    {
      "epoch": 0.22286421791167974,
      "grad_norm": 0.2511507272720337,
      "learning_rate": 2.6202630348146324e-05,
      "loss": 0.5355,
      "step": 135
    },
    {
      "epoch": 0.22451506397028478,
      "grad_norm": 0.2614213526248932,
      "learning_rate": 2.547882480847461e-05,
      "loss": 0.6288,
      "step": 136
    },
    {
      "epoch": 0.2261659100288898,
      "grad_norm": 0.2493879348039627,
      "learning_rate": 2.476172311325783e-05,
      "loss": 0.6068,
      "step": 137
    },
    {
      "epoch": 0.22781675608749485,
      "grad_norm": 0.268344908952713,
      "learning_rate": 2.405152131093926e-05,
      "loss": 0.5762,
      "step": 138
    },
    {
      "epoch": 0.22946760214609987,
      "grad_norm": 0.2588580548763275,
      "learning_rate": 2.3348413563600325e-05,
      "loss": 0.5725,
      "step": 139
    },
    {
      "epoch": 0.23111844820470492,
      "grad_norm": 0.29401543736457825,
      "learning_rate": 2.2652592093878666e-05,
      "loss": 0.6001,
      "step": 140
    },
    {
      "epoch": 0.23276929426330994,
      "grad_norm": 0.2772828936576843,
      "learning_rate": 2.196424713241637e-05,
      "loss": 0.6358,
      "step": 141
    },
    {
      "epoch": 0.234420140321915,
      "grad_norm": 0.2482953667640686,
      "learning_rate": 2.128356686585282e-05,
      "loss": 0.5381,
      "step": 142
    },
    {
      "epoch": 0.23607098638052001,
      "grad_norm": 0.2740285098552704,
      "learning_rate": 2.061073738537635e-05,
      "loss": 0.5146,
      "step": 143
    },
    {
      "epoch": 0.23772183243912506,
      "grad_norm": 0.24838632345199585,
      "learning_rate": 1.9945942635848748e-05,
      "loss": 0.4826,
      "step": 144
    },
    {
      "epoch": 0.23937267849773008,
      "grad_norm": 0.3089372515678406,
      "learning_rate": 1.928936436551661e-05,
      "loss": 0.6034,
      "step": 145
    },
    {
      "epoch": 0.24102352455633513,
      "grad_norm": 0.2932491898536682,
      "learning_rate": 1.8641182076323148e-05,
      "loss": 0.6071,
      "step": 146
    },
    {
      "epoch": 0.24267437061494015,
      "grad_norm": 0.34207552671432495,
      "learning_rate": 1.800157297483417e-05,
      "loss": 0.7243,
      "step": 147
    },
    {
      "epoch": 0.2443252166735452,
      "grad_norm": 0.3280658423900604,
      "learning_rate": 1.7370711923791567e-05,
      "loss": 0.6401,
      "step": 148
    },
    {
      "epoch": 0.24597606273215022,
      "grad_norm": 0.4872935116291046,
      "learning_rate": 1.6748771394307585e-05,
      "loss": 0.6228,
      "step": 149
    },
    {
      "epoch": 0.24762690879075527,
      "grad_norm": 0.39920157194137573,
      "learning_rate": 1.6135921418712956e-05,
      "loss": 0.818,
      "step": 150
    },
    {
      "epoch": 0.24762690879075527,
      "eval_loss": 0.5871883630752563,
      "eval_runtime": 72.6007,
      "eval_samples_per_second": 14.063,
      "eval_steps_per_second": 3.526,
      "step": 150
    },
    {
      "epoch": 0.2492777548493603,
      "grad_norm": 0.15522903203964233,
      "learning_rate": 1.553232954407171e-05,
      "loss": 0.774,
      "step": 151
    },
    {
      "epoch": 0.2509286009079653,
      "grad_norm": 0.21422216296195984,
      "learning_rate": 1.4938160786375572e-05,
      "loss": 0.6581,
      "step": 152
    },
    {
      "epoch": 0.25257944696657036,
      "grad_norm": 0.17812831699848175,
      "learning_rate": 1.435357758543015e-05,
      "loss": 0.6978,
      "step": 153
    },
    {
      "epoch": 0.2542302930251754,
      "grad_norm": 0.1998952478170395,
      "learning_rate": 1.3778739760445552e-05,
      "loss": 0.6815,
      "step": 154
    },
    {
      "epoch": 0.25588113908378046,
      "grad_norm": 0.20503534376621246,
      "learning_rate": 1.3213804466343421e-05,
      "loss": 0.627,
      "step": 155
    },
    {
      "epoch": 0.25753198514238546,
      "grad_norm": 0.21488811075687408,
      "learning_rate": 1.2658926150792322e-05,
      "loss": 0.6151,
      "step": 156
    },
    {
      "epoch": 0.2591828312009905,
      "grad_norm": 0.21296918392181396,
      "learning_rate": 1.2114256511983274e-05,
      "loss": 0.6561,
      "step": 157
    },
    {
      "epoch": 0.26083367725959555,
      "grad_norm": 0.24403434991836548,
      "learning_rate": 1.157994445715706e-05,
      "loss": 0.6736,
      "step": 158
    },
    {
      "epoch": 0.2624845233182006,
      "grad_norm": 0.21449525654315948,
      "learning_rate": 1.1056136061894384e-05,
      "loss": 0.5852,
      "step": 159
    },
    {
      "epoch": 0.2641353693768056,
      "grad_norm": 0.23653489351272583,
      "learning_rate": 1.0542974530180327e-05,
      "loss": 0.6386,
      "step": 160
    },
    {
      "epoch": 0.26578621543541064,
      "grad_norm": 0.19819791615009308,
      "learning_rate": 1.0040600155253765e-05,
      "loss": 0.5125,
      "step": 161
    },
    {
      "epoch": 0.2674370614940157,
      "grad_norm": 0.21805880963802338,
      "learning_rate": 9.549150281252633e-06,
      "loss": 0.5658,
      "step": 162
    },
    {
      "epoch": 0.26908790755262074,
      "grad_norm": 0.21676641702651978,
      "learning_rate": 9.068759265665384e-06,
      "loss": 0.6519,
      "step": 163
    },
    {
      "epoch": 0.27073875361122574,
      "grad_norm": 0.2117118239402771,
      "learning_rate": 8.599558442598998e-06,
      "loss": 0.5926,
      "step": 164
    },
    {
      "epoch": 0.2723895996698308,
      "grad_norm": 0.2226344645023346,
      "learning_rate": 8.141676086873572e-06,
      "loss": 0.6401,
      "step": 165
    },
    {
      "epoch": 0.27404044572843583,
      "grad_norm": 0.23327304422855377,
      "learning_rate": 7.695237378953223e-06,
      "loss": 0.5609,
      "step": 166
    },
    {
      "epoch": 0.2756912917870409,
      "grad_norm": 0.23623056709766388,
      "learning_rate": 7.260364370723044e-06,
      "loss": 0.6225,
      "step": 167
    },
    {
      "epoch": 0.2773421378456459,
      "grad_norm": 0.18823650479316711,
      "learning_rate": 6.837175952121306e-06,
      "loss": 0.5133,
      "step": 168
    },
    {
      "epoch": 0.2789929839042509,
      "grad_norm": 0.23068156838417053,
      "learning_rate": 6.425787818636131e-06,
      "loss": 0.5236,
      "step": 169
    },
    {
      "epoch": 0.280643829962856,
      "grad_norm": 0.21507234871387482,
      "learning_rate": 6.026312439675552e-06,
      "loss": 0.5308,
      "step": 170
    },
    {
      "epoch": 0.282294676021461,
      "grad_norm": 0.2187921404838562,
      "learning_rate": 5.6388590278194096e-06,
      "loss": 0.5114,
      "step": 171
    },
    {
      "epoch": 0.283945522080066,
      "grad_norm": 0.21848897635936737,
      "learning_rate": 5.263533508961827e-06,
      "loss": 0.5985,
      "step": 172
    },
    {
      "epoch": 0.28559636813867106,
      "grad_norm": 0.2574464976787567,
      "learning_rate": 4.900438493352055e-06,
      "loss": 0.6254,
      "step": 173
    },
    {
      "epoch": 0.2872472141972761,
      "grad_norm": 0.23257973790168762,
      "learning_rate": 4.549673247541875e-06,
      "loss": 0.5533,
      "step": 174
    },
    {
      "epoch": 0.28889806025588116,
      "grad_norm": 0.24500185251235962,
      "learning_rate": 4.2113336672471245e-06,
      "loss": 0.6346,
      "step": 175
    },
    {
      "epoch": 0.29054890631448616,
      "grad_norm": 0.23288589715957642,
      "learning_rate": 3.885512251130763e-06,
      "loss": 0.5333,
      "step": 176
    },
    {
      "epoch": 0.2921997523730912,
      "grad_norm": 0.2174212485551834,
      "learning_rate": 3.5722980755146517e-06,
      "loss": 0.518,
      "step": 177
    },
    {
      "epoch": 0.29385059843169625,
      "grad_norm": 0.23198111355304718,
      "learning_rate": 3.271776770026963e-06,
      "loss": 0.5124,
      "step": 178
    },
    {
      "epoch": 0.2955014444903013,
      "grad_norm": 0.23097451031208038,
      "learning_rate": 2.9840304941919415e-06,
      "loss": 0.5682,
      "step": 179
    },
    {
      "epoch": 0.2971522905489063,
      "grad_norm": 0.24188712239265442,
      "learning_rate": 2.7091379149682685e-06,
      "loss": 0.5857,
      "step": 180
    },
    {
      "epoch": 0.29880313660751134,
      "grad_norm": 0.26490819454193115,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 0.6491,
      "step": 181
    },
    {
      "epoch": 0.3004539826661164,
      "grad_norm": 0.25387632846832275,
      "learning_rate": 2.1982109232821178e-06,
      "loss": 0.5418,
      "step": 182
    },
    {
      "epoch": 0.30210482872472144,
      "grad_norm": 0.30178356170654297,
      "learning_rate": 1.962316193157593e-06,
      "loss": 0.6062,
      "step": 183
    },
    {
      "epoch": 0.30375567478332643,
      "grad_norm": 0.27345380187034607,
      "learning_rate": 1.7395544861325718e-06,
      "loss": 0.6,
      "step": 184
    },
    {
      "epoch": 0.3054065208419315,
      "grad_norm": 0.23860813677310944,
      "learning_rate": 1.5299867030334814e-06,
      "loss": 0.5552,
      "step": 185
    },
    {
      "epoch": 0.30705736690053653,
      "grad_norm": 0.25391387939453125,
      "learning_rate": 1.333670137599713e-06,
      "loss": 0.554,
      "step": 186
    },
    {
      "epoch": 0.3087082129591416,
      "grad_norm": 0.25020214915275574,
      "learning_rate": 1.1506584608200367e-06,
      "loss": 0.5132,
      "step": 187
    },
    {
      "epoch": 0.3103590590177466,
      "grad_norm": 0.23362231254577637,
      "learning_rate": 9.810017062595322e-07,
      "loss": 0.5067,
      "step": 188
    },
    {
      "epoch": 0.3120099050763516,
      "grad_norm": 0.2940603196620941,
      "learning_rate": 8.247462563808817e-07,
      "loss": 0.5168,
      "step": 189
    },
    {
      "epoch": 0.3136607511349567,
      "grad_norm": 0.2708841860294342,
      "learning_rate": 6.819348298638839e-07,
      "loss": 0.587,
      "step": 190
    },
    {
      "epoch": 0.3153115971935617,
      "grad_norm": 0.25616341829299927,
      "learning_rate": 5.526064699265753e-07,
      "loss": 0.5479,
      "step": 191
    },
    {
      "epoch": 0.3169624432521667,
      "grad_norm": 0.2606678903102875,
      "learning_rate": 4.367965336512403e-07,
      "loss": 0.4722,
      "step": 192
    },
    {
      "epoch": 0.31861328931077176,
      "grad_norm": 0.2579118609428406,
      "learning_rate": 3.3453668231809286e-07,
      "loss": 0.541,
      "step": 193
    },
    {
      "epoch": 0.3202641353693768,
      "grad_norm": 0.2647886276245117,
      "learning_rate": 2.458548727494292e-07,
      "loss": 0.5243,
      "step": 194
    },
    {
      "epoch": 0.32191498142798186,
      "grad_norm": 0.31791844964027405,
      "learning_rate": 1.7077534966650766e-07,
      "loss": 0.5536,
      "step": 195
    },
    {
      "epoch": 0.32356582748658685,
      "grad_norm": 0.35215336084365845,
      "learning_rate": 1.0931863906127327e-07,
      "loss": 0.6755,
      "step": 196
    },
    {
      "epoch": 0.3252166735451919,
      "grad_norm": 0.3021624684333801,
      "learning_rate": 6.150154258476315e-08,
      "loss": 0.6041,
      "step": 197
    },
    {
      "epoch": 0.32686751960379695,
      "grad_norm": 0.3271404206752777,
      "learning_rate": 2.7337132953697554e-08,
      "loss": 0.5797,
      "step": 198
    },
    {
      "epoch": 0.328518365662402,
      "grad_norm": 0.306445449590683,
      "learning_rate": 6.834750376549792e-09,
      "loss": 0.6545,
      "step": 199
    },
    {
      "epoch": 0.330169211721007,
      "grad_norm": 0.42992183566093445,
      "learning_rate": 0.0,
      "loss": 0.616,
      "step": 200
    },
    {
      "epoch": 0.330169211721007,
      "eval_loss": 0.5813084244728088,
      "eval_runtime": 72.6281,
      "eval_samples_per_second": 14.058,
      "eval_steps_per_second": 3.525,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.6680573750463693e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}