{
  "best_global_step": 3333,
  "best_metric": 0.39062577,
  "best_model_checkpoint": "/global/D1/homes/sushant/Kvasir-VQA-x1/output_vqa_x1/v0-20250521-005603/checkpoint-3333",
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 3333,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0009000900090009,
      "grad_norm": 7.174169063568115,
      "learning_rate": 2.0000000000000002e-07,
      "loss": 3.304050922393799,
      "memory(GiB)": 66.97,
      "step": 1,
      "token_acc": 0.4874715261958998,
      "train_speed(iter/s)": 0.019902
    },
    {
      "epoch": 0.009000900090009001,
      "grad_norm": 6.479684829711914,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 3.1309598286946616,
      "memory(GiB)": 67.86,
      "step": 10,
      "token_acc": 0.4754664823773324,
      "train_speed(iter/s)": 0.036367
    },
    {
      "epoch": 0.018001800180018002,
      "grad_norm": 7.254239559173584,
      "learning_rate": 4.000000000000001e-06,
      "loss": 3.1008956909179686,
      "memory(GiB)": 67.86,
      "step": 20,
      "token_acc": 0.4788295278208823,
      "train_speed(iter/s)": 0.038518
    },
    {
      "epoch": 0.027002700270027002,
      "grad_norm": 7.573488712310791,
      "learning_rate": 6e-06,
      "loss": 2.772838592529297,
      "memory(GiB)": 67.86,
      "step": 30,
      "token_acc": 0.5009667024704618,
      "train_speed(iter/s)": 0.039255
    },
    {
      "epoch": 0.036003600360036005,
      "grad_norm": 4.112278938293457,
      "learning_rate": 8.000000000000001e-06,
      "loss": 2.004438781738281,
      "memory(GiB)": 67.86,
      "step": 40,
      "token_acc": 0.5291459557162224,
      "train_speed(iter/s)": 0.03954
    },
    {
      "epoch": 0.045004500450045004,
      "grad_norm": 1.6541378498077393,
      "learning_rate": 1e-05,
      "loss": 1.8318557739257812,
      "memory(GiB)": 67.86,
      "step": 50,
      "token_acc": 0.5645268034414295,
      "train_speed(iter/s)": 0.039725
    },
    {
      "epoch": 0.054005400540054004,
      "grad_norm": 1.6028215885162354,
      "learning_rate": 1.2e-05,
      "loss": 1.5337283134460449,
      "memory(GiB)": 67.86,
      "step": 60,
      "token_acc": 0.6214239621423963,
      "train_speed(iter/s)": 0.039848
    },
    {
      "epoch": 0.063006300630063,
      "grad_norm": 1.5401345491409302,
      "learning_rate": 1.4e-05,
      "loss": 1.361149787902832,
      "memory(GiB)": 68.03,
      "step": 70,
      "token_acc": 0.6230786366674093,
      "train_speed(iter/s)": 0.040044
    },
    {
      "epoch": 0.07200720072007201,
      "grad_norm": 1.1455940008163452,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 1.1177097320556642,
      "memory(GiB)": 68.03,
      "step": 80,
      "token_acc": 0.6871520342612419,
      "train_speed(iter/s)": 0.040185
    },
    {
      "epoch": 0.081008100810081,
      "grad_norm": 1.6210144758224487,
      "learning_rate": 1.8e-05,
      "loss": 0.9828067779541015,
      "memory(GiB)": 68.03,
      "step": 90,
      "token_acc": 0.727211495285137,
      "train_speed(iter/s)": 0.040239
    },
    {
      "epoch": 0.09000900090009001,
      "grad_norm": 1.810027837753296,
      "learning_rate": 2e-05,
      "loss": 0.9005414962768554,
      "memory(GiB)": 68.08,
      "step": 100,
      "token_acc": 0.7328737613097802,
      "train_speed(iter/s)": 0.040295
    },
    {
      "epoch": 0.09900990099009901,
      "grad_norm": 1.3532379865646362,
      "learning_rate": 1.9999527877255423e-05,
      "loss": 0.7943315982818604,
      "memory(GiB)": 68.08,
      "step": 110,
      "token_acc": 0.7508290957329207,
      "train_speed(iter/s)": 0.040336
    },
    {
      "epoch": 0.10801080108010801,
      "grad_norm": 1.267624855041504,
      "learning_rate": 1.999811155360166e-05,
      "loss": 0.7341960906982422,
      "memory(GiB)": 68.08,
      "step": 120,
      "token_acc": 0.7815533980582524,
      "train_speed(iter/s)": 0.040377
    },
    {
      "epoch": 0.11701170117011701,
      "grad_norm": 1.372360348701477,
      "learning_rate": 1.9995751162774435e-05,
      "loss": 0.7223796844482422,
      "memory(GiB)": 68.08,
      "step": 130,
      "token_acc": 0.7679759605065465,
      "train_speed(iter/s)": 0.040454
    },
    {
      "epoch": 0.126012601260126,
      "grad_norm": 1.3093749284744263,
      "learning_rate": 1.9992446927652592e-05,
      "loss": 0.6822004318237305,
      "memory(GiB)": 68.08,
      "step": 140,
      "token_acc": 0.7690819178671253,
      "train_speed(iter/s)": 0.04049
    },
    {
      "epoch": 0.135013501350135,
      "grad_norm": 1.5192912817001343,
      "learning_rate": 1.9988199160237038e-05,
      "loss": 0.6598445892333984,
      "memory(GiB)": 68.08,
      "step": 150,
      "token_acc": 0.794921875,
      "train_speed(iter/s)": 0.040521
    },
    {
      "epoch": 0.14401440144014402,
      "grad_norm": 1.4876294136047363,
      "learning_rate": 1.9983008261621295e-05,
      "loss": 0.6424094200134277,
      "memory(GiB)": 68.08,
      "step": 160,
      "token_acc": 0.784965034965035,
      "train_speed(iter/s)": 0.040569
    },
    {
      "epoch": 0.15301530153015303,
      "grad_norm": 1.7920929193496704,
      "learning_rate": 1.9976874721953625e-05,
      "loss": 0.6222011089324951,
      "memory(GiB)": 68.08,
      "step": 170,
      "token_acc": 0.7873362445414848,
      "train_speed(iter/s)": 0.040571
    },
    {
      "epoch": 0.162016201620162,
      "grad_norm": 1.496816873550415,
      "learning_rate": 1.996979912039074e-05,
      "loss": 0.6065957069396972,
      "memory(GiB)": 68.08,
      "step": 180,
      "token_acc": 0.797979797979798,
      "train_speed(iter/s)": 0.040601
    },
    {
      "epoch": 0.171017101710171,
      "grad_norm": 1.631809949874878,
      "learning_rate": 1.9961782125043134e-05,
      "loss": 0.6100308895111084,
      "memory(GiB)": 68.08,
      "step": 190,
      "token_acc": 0.7921653971708379,
      "train_speed(iter/s)": 0.040622
    },
    {
      "epoch": 0.18001800180018002,
      "grad_norm": 1.635206937789917,
      "learning_rate": 1.9952824492911967e-05,
      "loss": 0.597900390625,
      "memory(GiB)": 68.08,
      "step": 200,
      "token_acc": 0.8024363233665559,
      "train_speed(iter/s)": 0.040621
    },
    {
      "epoch": 0.18901890189018902,
      "grad_norm": 1.7094358205795288,
      "learning_rate": 1.9942927069817618e-05,
      "loss": 0.5765604972839355,
      "memory(GiB)": 68.08,
      "step": 210,
      "token_acc": 0.8184182015167931,
      "train_speed(iter/s)": 0.040647
    },
    {
      "epoch": 0.19801980198019803,
      "grad_norm": 1.7368491888046265,
      "learning_rate": 1.99320907903198e-05,
      "loss": 0.5700692176818848,
      "memory(GiB)": 68.08,
      "step": 220,
      "token_acc": 0.8155997378195324,
      "train_speed(iter/s)": 0.040667
    },
    {
      "epoch": 0.207020702070207,
      "grad_norm": 1.6970064640045166,
      "learning_rate": 1.9920316677629312e-05,
      "loss": 0.5586367607116699,
      "memory(GiB)": 68.08,
      "step": 230,
      "token_acc": 0.8134110787172012,
      "train_speed(iter/s)": 0.040669
    },
    {
      "epoch": 0.21602160216021601,
      "grad_norm": 1.6440980434417725,
      "learning_rate": 1.9907605843511434e-05,
      "loss": 0.5400181293487549,
      "memory(GiB)": 68.08,
      "step": 240,
      "token_acc": 0.8248341625207297,
      "train_speed(iter/s)": 0.040672
    },
    {
      "epoch": 0.22502250225022502,
      "grad_norm": 1.848779559135437,
      "learning_rate": 1.9893959488180948e-05,
      "loss": 0.5552643775939942,
      "memory(GiB)": 68.08,
      "step": 250,
      "token_acc": 0.8090929154711984,
      "train_speed(iter/s)": 0.040677
    },
    {
      "epoch": 0.23402340234023403,
      "grad_norm": 1.746717929840088,
      "learning_rate": 1.9879378900188796e-05,
      "loss": 0.5367072105407715,
      "memory(GiB)": 68.08,
      "step": 260,
      "token_acc": 0.8096885813148789,
      "train_speed(iter/s)": 0.040681
    },
    {
      "epoch": 0.24302430243024303,
      "grad_norm": 2.212620973587036,
      "learning_rate": 1.9863865456300422e-05,
      "loss": 0.5621134757995605,
      "memory(GiB)": 68.08,
      "step": 270,
      "token_acc": 0.8111765989958525,
      "train_speed(iter/s)": 0.040691
    },
    {
      "epoch": 0.252025202520252,
      "grad_norm": 1.815075159072876,
      "learning_rate": 1.9847420621365773e-05,
      "loss": 0.5444355964660644,
      "memory(GiB)": 68.08,
      "step": 280,
      "token_acc": 0.8252319929297393,
      "train_speed(iter/s)": 0.040694
    },
    {
      "epoch": 0.26102610261026105,
      "grad_norm": 1.6822190284729004,
      "learning_rate": 1.983004594818096e-05,
      "loss": 0.509169626235962,
      "memory(GiB)": 68.08,
      "step": 290,
      "token_acc": 0.8245873889123995,
      "train_speed(iter/s)": 0.040697
    },
    {
      "epoch": 0.27002700270027,
      "grad_norm": 1.7498018741607666,
      "learning_rate": 1.981174307734167e-05,
      "loss": 0.5199090480804444,
      "memory(GiB)": 68.08,
      "step": 300,
      "token_acc": 0.8331916702082448,
      "train_speed(iter/s)": 0.040678
    },
    {
      "epoch": 0.279027902790279,
      "grad_norm": 1.875012755393982,
      "learning_rate": 1.9792513737088223e-05,
      "loss": 0.5095804691314697,
      "memory(GiB)": 68.08,
      "step": 310,
      "token_acc": 0.8261736049601417,
      "train_speed(iter/s)": 0.040669
    },
    {
      "epoch": 0.28802880288028804,
      "grad_norm": 1.8016622066497803,
      "learning_rate": 1.9772359743142396e-05,
      "loss": 0.49691128730773926,
      "memory(GiB)": 68.08,
      "step": 320,
      "token_acc": 0.8243214362043172,
      "train_speed(iter/s)": 0.04068
    },
    {
      "epoch": 0.297029702970297,
      "grad_norm": 1.927909016609192,
      "learning_rate": 1.975128299853598e-05,
      "loss": 0.5156735897064209,
      "memory(GiB)": 68.08,
      "step": 330,
      "token_acc": 0.8241394527802295,
      "train_speed(iter/s)": 0.040684
    },
    {
      "epoch": 0.30603060306030605,
      "grad_norm": 1.7440602779388428,
      "learning_rate": 1.9729285493431074e-05,
      "loss": 0.5245149612426758,
      "memory(GiB)": 68.24,
      "step": 340,
      "token_acc": 0.8179177837354781,
      "train_speed(iter/s)": 0.040684
    },
    {
      "epoch": 0.31503150315031503,
      "grad_norm": 1.9903383255004883,
      "learning_rate": 1.9706369304932176e-05,
      "loss": 0.5069475173950195,
      "memory(GiB)": 68.3,
      "step": 350,
      "token_acc": 0.8318876497315159,
      "train_speed(iter/s)": 0.040686
    },
    {
      "epoch": 0.324032403240324,
      "grad_norm": 1.9196044206619263,
      "learning_rate": 1.968253659689005e-05,
      "loss": 0.5040374279022217,
      "memory(GiB)": 68.3,
      "step": 360,
      "token_acc": 0.8283985303652475,
      "train_speed(iter/s)": 0.040682
    },
    {
      "epoch": 0.33303330333033304,
      "grad_norm": 1.9835383892059326,
      "learning_rate": 1.96577896196974e-05,
      "loss": 0.5163045883178711,
      "memory(GiB)": 68.3,
      "step": 370,
      "token_acc": 0.8187339406680683,
      "train_speed(iter/s)": 0.040679
    },
    {
      "epoch": 0.342034203420342,
      "grad_norm": 2.098388195037842,
      "learning_rate": 1.9632130710076383e-05,
      "loss": 0.5065926074981689,
      "memory(GiB)": 68.3,
      "step": 380,
      "token_acc": 0.8242616033755275,
      "train_speed(iter/s)": 0.04068
    },
    {
      "epoch": 0.35103510351035105,
      "grad_norm": 1.8806556463241577,
      "learning_rate": 1.960556229085797e-05,
      "loss": 0.4967801094055176,
      "memory(GiB)": 68.3,
      "step": 390,
      "token_acc": 0.8285966071821987,
      "train_speed(iter/s)": 0.040692
    },
    {
      "epoch": 0.36003600360036003,
      "grad_norm": 2.0447497367858887,
      "learning_rate": 1.9578086870753153e-05,
      "loss": 0.5042286872863769,
      "memory(GiB)": 68.3,
      "step": 400,
      "token_acc": 0.8263780406159339,
      "train_speed(iter/s)": 0.040693
    },
    {
      "epoch": 0.369036903690369,
      "grad_norm": 1.947168231010437,
      "learning_rate": 1.954970704411609e-05,
      "loss": 0.5015206336975098,
      "memory(GiB)": 68.3,
      "step": 410,
      "token_acc": 0.8200773860705073,
      "train_speed(iter/s)": 0.04069
    },
    {
      "epoch": 0.37803780378037805,
      "grad_norm": 1.855016827583313,
      "learning_rate": 1.9520425490699107e-05,
      "loss": 0.4870131492614746,
      "memory(GiB)": 68.3,
      "step": 420,
      "token_acc": 0.8407563025210084,
      "train_speed(iter/s)": 0.040704
    },
    {
      "epoch": 0.387038703870387,
      "grad_norm": 1.8995352983474731,
      "learning_rate": 1.9490244975399678e-05,
      "loss": 0.48991098403930666,
      "memory(GiB)": 68.3,
      "step": 430,
      "token_acc": 0.8367172472750588,
      "train_speed(iter/s)": 0.040707
    },
    {
      "epoch": 0.39603960396039606,
      "grad_norm": 1.9746062755584717,
      "learning_rate": 1.9459168347999343e-05,
      "loss": 0.49413495063781737,
      "memory(GiB)": 68.3,
      "step": 440,
      "token_acc": 0.8217993079584776,
      "train_speed(iter/s)": 0.040722
    },
    {
      "epoch": 0.40504050405040504,
      "grad_norm": 1.9922826290130615,
      "learning_rate": 1.9427198542894628e-05,
      "loss": 0.478054141998291,
      "memory(GiB)": 68.3,
      "step": 450,
      "token_acc": 0.8396687194733489,
      "train_speed(iter/s)": 0.040729
    },
    {
      "epoch": 0.414041404140414,
      "grad_norm": 1.8262529373168945,
      "learning_rate": 1.9394338578819957e-05,
      "loss": 0.4965967178344727,
      "memory(GiB)": 68.3,
      "step": 460,
      "token_acc": 0.8291083916083916,
      "train_speed(iter/s)": 0.04073
    },
    {
      "epoch": 0.42304230423042305,
      "grad_norm": 1.6194044351577759,
      "learning_rate": 1.936059155856262e-05,
      "loss": 0.47453508377075193,
      "memory(GiB)": 68.3,
      "step": 470,
      "token_acc": 0.8382074479276247,
      "train_speed(iter/s)": 0.040729
    },
    {
      "epoch": 0.43204320432043203,
      "grad_norm": 1.9184072017669678,
      "learning_rate": 1.932596066866978e-05,
      "loss": 0.4665153980255127,
      "memory(GiB)": 68.3,
      "step": 480,
      "token_acc": 0.8344993441189331,
      "train_speed(iter/s)": 0.040723
    },
    {
      "epoch": 0.44104410441044106,
      "grad_norm": 1.7491145133972168,
      "learning_rate": 1.929044917914759e-05,
      "loss": 0.4606966972351074,
      "memory(GiB)": 68.3,
      "step": 490,
      "token_acc": 0.84466817341278,
      "train_speed(iter/s)": 0.040709
    },
    {
      "epoch": 0.45004500450045004,
      "grad_norm": 1.97507643699646,
      "learning_rate": 1.9254060443152435e-05,
      "loss": 0.47635550498962403,
      "memory(GiB)": 68.3,
      "step": 500,
      "token_acc": 0.8395522388059702,
      "train_speed(iter/s)": 0.040715
    },
    {
      "epoch": 0.45004500450045004,
      "eval_loss": 0.48444515466690063,
      "eval_runtime": 117.4773,
      "eval_samples_per_second": 12.215,
      "eval_steps_per_second": 0.383,
      "eval_token_acc": 0.8321749696233293,
      "step": 500
    },
    {
      "epoch": 0.459045904590459,
      "grad_norm": 2.1366748809814453,
      "learning_rate": 1.921679789667429e-05,
      "loss": 0.4868021965026855,
      "memory(GiB)": 74.54,
      "step": 510,
      "token_acc": 0.8326992287917738,
      "train_speed(iter/s)": 0.040314
    },
    {
      "epoch": 0.46804680468046805,
      "grad_norm": 2.1436243057250977,
      "learning_rate": 1.9178665058212306e-05,
      "loss": 0.4831557273864746,
      "memory(GiB)": 74.54,
      "step": 520,
      "token_acc": 0.8337397472844159,
      "train_speed(iter/s)": 0.04031
    },
    {
      "epoch": 0.47704770477047703,
      "grad_norm": 1.887610673904419,
      "learning_rate": 1.9139665528442544e-05,
      "loss": 0.4900979995727539,
      "memory(GiB)": 74.54,
      "step": 530,
      "token_acc": 0.8252338580880675,
      "train_speed(iter/s)": 0.040315
    },
    {
      "epoch": 0.48604860486048607,
      "grad_norm": 1.778539776802063,
      "learning_rate": 1.909980298987802e-05,
      "loss": 0.4595688819885254,
      "memory(GiB)": 74.54,
      "step": 540,
      "token_acc": 0.8390126692878986,
      "train_speed(iter/s)": 0.040313
    },
    {
      "epoch": 0.49504950495049505,
      "grad_norm": 2.031074285507202,
      "learning_rate": 1.9059081206520954e-05,
      "loss": 0.47982397079467776,
      "memory(GiB)": 74.54,
      "step": 550,
      "token_acc": 0.8332963374028857,
      "train_speed(iter/s)": 0.040319
    },
    {
      "epoch": 0.504050405040504,
      "grad_norm": 1.7411119937896729,
      "learning_rate": 1.9017504023507366e-05,
      "loss": 0.47092242240905763,
      "memory(GiB)": 74.54,
      "step": 560,
      "token_acc": 0.8331826401446655,
      "train_speed(iter/s)": 0.040327
    },
    {
      "epoch": 0.513051305130513,
      "grad_norm": 1.9507403373718262,
      "learning_rate": 1.897507536674401e-05,
      "loss": 0.473051929473877,
      "memory(GiB)": 74.54,
      "step": 570,
      "token_acc": 0.8324808184143222,
      "train_speed(iter/s)": 0.040337
    },
    {
      "epoch": 0.5220522052205221,
      "grad_norm": 1.8194775581359863,
      "learning_rate": 1.8931799242537664e-05,
      "loss": 0.4804567813873291,
      "memory(GiB)": 74.54,
      "step": 580,
      "token_acc": 0.8376344086021505,
      "train_speed(iter/s)": 0.04034
    },
    {
      "epoch": 0.5310531053105311,
      "grad_norm": 1.663552165031433,
      "learning_rate": 1.8887679737216835e-05,
      "loss": 0.4625405311584473,
      "memory(GiB)": 74.54,
      "step": 590,
      "token_acc": 0.8455850369725968,
      "train_speed(iter/s)": 0.04034
    },
    {
      "epoch": 0.54005400540054,
      "grad_norm": 1.968461036682129,
      "learning_rate": 1.8842721016745905e-05,
      "loss": 0.4602372646331787,
      "memory(GiB)": 74.54,
      "step": 600,
      "token_acc": 0.8317933641327173,
      "train_speed(iter/s)": 0.040343
    },
    {
      "epoch": 0.549054905490549,
      "grad_norm": 1.9484490156173706,
      "learning_rate": 1.8796927326331783e-05,
      "loss": 0.45257129669189455,
      "memory(GiB)": 74.54,
      "step": 610,
      "token_acc": 0.8373316498316499,
      "train_speed(iter/s)": 0.040343
    },
    {
      "epoch": 0.558055805580558,
      "grad_norm": 2.0010809898376465,
      "learning_rate": 1.8750302990023023e-05,
      "loss": 0.4624796390533447,
      "memory(GiB)": 74.54,
      "step": 620,
      "token_acc": 0.8330117899249732,
      "train_speed(iter/s)": 0.04035
    },
    {
      "epoch": 0.5670567056705671,
      "grad_norm": 2.1292455196380615,
      "learning_rate": 1.8702852410301556e-05,
      "loss": 0.4666603565216064,
      "memory(GiB)": 74.54,
      "step": 630,
      "token_acc": 0.8413180143073922,
      "train_speed(iter/s)": 0.040354
    },
    {
      "epoch": 0.5760576057605761,
      "grad_norm": 1.8475803136825562,
      "learning_rate": 1.865458006766696e-05,
      "loss": 0.4536900520324707,
      "memory(GiB)": 74.54,
      "step": 640,
      "token_acc": 0.8346206269877329,
      "train_speed(iter/s)": 0.040359
    },
    {
      "epoch": 0.585058505850585,
      "grad_norm": 1.9390885829925537,
      "learning_rate": 1.860549052021342e-05,
      "loss": 0.4544112205505371,
      "memory(GiB)": 74.54,
      "step": 650,
      "token_acc": 0.8367626886145405,
      "train_speed(iter/s)": 0.040355
    },
    {
      "epoch": 0.594059405940594,
      "grad_norm": 1.7429540157318115,
      "learning_rate": 1.8555588403199304e-05,
      "loss": 0.4384955406188965,
      "memory(GiB)": 74.54,
      "step": 660,
      "token_acc": 0.8417298261257244,
      "train_speed(iter/s)": 0.04035
    },
    {
      "epoch": 0.603060306030603,
      "grad_norm": 2.0337181091308594,
      "learning_rate": 1.8504878428609506e-05,
      "loss": 0.46024494171142577,
      "memory(GiB)": 74.54,
      "step": 670,
      "token_acc": 0.8392979256895373,
      "train_speed(iter/s)": 0.040343
    },
    {
      "epoch": 0.6120612061206121,
      "grad_norm": 1.9363151788711548,
      "learning_rate": 1.8453365384710506e-05,
      "loss": 0.4446521759033203,
      "memory(GiB)": 74.54,
      "step": 680,
      "token_acc": 0.8308807379749615,
      "train_speed(iter/s)": 0.04034
    },
    {
      "epoch": 0.6210621062106211,
      "grad_norm": 1.9249675273895264,
      "learning_rate": 1.8401054135598228e-05,
      "loss": 0.44910879135131837,
      "memory(GiB)": 74.54,
      "step": 690,
      "token_acc": 0.8436960276338514,
      "train_speed(iter/s)": 0.040347
    },
    {
      "epoch": 0.6300630063006301,
      "grad_norm": 2.0293335914611816,
      "learning_rate": 1.834794962073878e-05,
      "loss": 0.4501783847808838,
      "memory(GiB)": 74.54,
      "step": 700,
      "token_acc": 0.8366346742903819,
      "train_speed(iter/s)": 0.040353
    },
    {
      "epoch": 0.639063906390639,
      "grad_norm": 2.1260316371917725,
      "learning_rate": 1.829405685450202e-05,
      "loss": 0.4506657600402832,
      "memory(GiB)": 74.54,
      "step": 710,
      "token_acc": 0.8333333333333334,
      "train_speed(iter/s)": 0.040362
    },
    {
      "epoch": 0.648064806480648,
      "grad_norm": 1.8729071617126465,
      "learning_rate": 1.8239380925688087e-05,
      "loss": 0.4430402755737305,
      "memory(GiB)": 74.54,
      "step": 720,
      "token_acc": 0.8478399659502022,
      "train_speed(iter/s)": 0.040365
    },
    {
      "epoch": 0.6570657065706571,
      "grad_norm": 1.9187947511672974,
      "learning_rate": 1.8183926997046905e-05,
      "loss": 0.4478912353515625,
      "memory(GiB)": 74.54,
      "step": 730,
      "token_acc": 0.8519141775347077,
      "train_speed(iter/s)": 0.040364
    },
    {
      "epoch": 0.6660666066606661,
      "grad_norm": 2.07631254196167,
      "learning_rate": 1.812770030479066e-05,
      "loss": 0.4402505397796631,
      "memory(GiB)": 74.54,
      "step": 740,
      "token_acc": 0.8526605893576426,
      "train_speed(iter/s)": 0.040366
    },
    {
      "epoch": 0.6750675067506751,
      "grad_norm": 1.8189442157745361,
      "learning_rate": 1.8070706158099417e-05,
      "loss": 0.4404914855957031,
      "memory(GiB)": 74.54,
      "step": 750,
      "token_acc": 0.8409304511278195,
      "train_speed(iter/s)": 0.040367
    },
    {
      "epoch": 0.684068406840684,
      "grad_norm": 1.9871678352355957,
      "learning_rate": 1.8012949938619756e-05,
      "loss": 0.4483049392700195,
      "memory(GiB)": 74.54,
      "step": 760,
      "token_acc": 0.8431750106974754,
      "train_speed(iter/s)": 0.040371
    },
    {
      "epoch": 0.693069306930693,
      "grad_norm": 1.8938976526260376,
      "learning_rate": 1.7954437099956657e-05,
      "loss": 0.44423818588256836,
      "memory(GiB)": 74.54,
      "step": 770,
      "token_acc": 0.8477157360406091,
      "train_speed(iter/s)": 0.040371
    },
    {
      "epoch": 0.7020702070207021,
      "grad_norm": 1.8947218656539917,
      "learning_rate": 1.7895173167158514e-05,
      "loss": 0.4492767333984375,
      "memory(GiB)": 74.54,
      "step": 780,
      "token_acc": 0.837278737470676,
      "train_speed(iter/s)": 0.040374
    },
    {
      "epoch": 0.7110711071107111,
      "grad_norm": 1.9695574045181274,
      "learning_rate": 1.7835163736195447e-05,
      "loss": 0.44904842376708987,
      "memory(GiB)": 74.54,
      "step": 790,
      "token_acc": 0.8408003479773815,
      "train_speed(iter/s)": 0.040375
    },
    {
      "epoch": 0.7200720072007201,
      "grad_norm": 2.00817608833313,
      "learning_rate": 1.777441447343091e-05,
      "loss": 0.45390868186950684,
      "memory(GiB)": 74.54,
      "step": 800,
      "token_acc": 0.8411726099321811,
      "train_speed(iter/s)": 0.040379
    },
    {
      "epoch": 0.729072907290729,
      "grad_norm": 2.0400583744049072,
      "learning_rate": 1.7712931115086633e-05,
      "loss": 0.4411576747894287,
      "memory(GiB)": 74.54,
      "step": 810,
      "token_acc": 0.8399218071242398,
      "train_speed(iter/s)": 0.04038
    },
    {
      "epoch": 0.738073807380738,
      "grad_norm": 2.0157155990600586,
      "learning_rate": 1.7650719466700994e-05,
      "loss": 0.44756488800048827,
      "memory(GiB)": 74.54,
      "step": 820,
      "token_acc": 0.842788038698329,
      "train_speed(iter/s)": 0.040376
    },
    {
      "epoch": 0.7470747074707471,
      "grad_norm": 1.7088335752487183,
      "learning_rate": 1.7587785402580828e-05,
      "loss": 0.43597002029418946,
      "memory(GiB)": 74.54,
      "step": 830,
      "token_acc": 0.8466036887089519,
      "train_speed(iter/s)": 0.040379
    },
    {
      "epoch": 0.7560756075607561,
      "grad_norm": 2.1911604404449463,
      "learning_rate": 1.752413486524675e-05,
      "loss": 0.44062347412109376,
      "memory(GiB)": 74.54,
      "step": 840,
      "token_acc": 0.8505315822388994,
      "train_speed(iter/s)": 0.040375
    },
    {
      "epoch": 0.7650765076507651,
      "grad_norm": 2.0149848461151123,
      "learning_rate": 1.7459773864872042e-05,
      "loss": 0.4424751281738281,
      "memory(GiB)": 74.54,
      "step": 850,
      "token_acc": 0.8476879246110015,
      "train_speed(iter/s)": 0.040376
    },
    {
      "epoch": 0.774077407740774,
      "grad_norm": 1.9014195203781128,
      "learning_rate": 1.7394708478715127e-05,
      "loss": 0.4621281623840332,
      "memory(GiB)": 74.54,
      "step": 860,
      "token_acc": 0.8423601937472479,
      "train_speed(iter/s)": 0.040378
    },
    {
      "epoch": 0.783078307830783,
      "grad_norm": 2.0565760135650635,
      "learning_rate": 1.7328944850545745e-05,
      "loss": 0.4593350410461426,
      "memory(GiB)": 74.54,
      "step": 870,
      "token_acc": 0.8399521531100479,
      "train_speed(iter/s)": 0.040378
    },
    {
      "epoch": 0.7920792079207921,
      "grad_norm": 2.0428307056427,
      "learning_rate": 1.7262489190064818e-05,
      "loss": 0.43943395614624026,
      "memory(GiB)": 74.54,
      "step": 880,
      "token_acc": 0.8423470453121737,
      "train_speed(iter/s)": 0.04038
    },
    {
      "epoch": 0.8010801080108011,
      "grad_norm": 2.316945791244507,
      "learning_rate": 1.7195347772318116e-05,
      "loss": 0.43985910415649415,
      "memory(GiB)": 74.54,
      "step": 890,
      "token_acc": 0.8351231838281743,
      "train_speed(iter/s)": 0.040379
    },
    {
      "epoch": 0.8100810081008101,
      "grad_norm": 2.041092872619629,
      "learning_rate": 1.7127526937103713e-05,
      "loss": 0.4424757957458496,
      "memory(GiB)": 74.54,
      "step": 900,
      "token_acc": 0.841919080256467,
      "train_speed(iter/s)": 0.04038
    },
    {
      "epoch": 0.819081908190819,
      "grad_norm": 2.2010583877563477,
      "learning_rate": 1.705903308837339e-05,
      "loss": 0.4423489570617676,
      "memory(GiB)": 74.54,
      "step": 910,
      "token_acc": 0.8436460412508316,
      "train_speed(iter/s)": 0.040384
    },
    {
      "epoch": 0.828082808280828,
      "grad_norm": 1.804849624633789,
      "learning_rate": 1.6989872693627916e-05,
      "loss": 0.43178791999816896,
      "memory(GiB)": 74.54,
      "step": 920,
      "token_acc": 0.8569312169312169,
      "train_speed(iter/s)": 0.040391
    },
    {
      "epoch": 0.8370837083708371,
      "grad_norm": 2.3260996341705322,
      "learning_rate": 1.6920052283306364e-05,
      "loss": 0.4507165431976318,
      "memory(GiB)": 74.54,
      "step": 930,
      "token_acc": 0.8385640099345225,
      "train_speed(iter/s)": 0.040389
    },
    {
      "epoch": 0.8460846084608461,
      "grad_norm": 2.029878616333008,
      "learning_rate": 1.684957845016949e-05,
      "loss": 0.423465633392334,
      "memory(GiB)": 74.54,
      "step": 940,
      "token_acc": 0.8474983613720778,
      "train_speed(iter/s)": 0.040396
    },
    {
      "epoch": 0.8550855085508551,
      "grad_norm": 2.0568127632141113,
      "learning_rate": 1.677845784867719e-05,
      "loss": 0.426534366607666,
      "memory(GiB)": 74.54,
      "step": 950,
      "token_acc": 0.8443046506403056,
      "train_speed(iter/s)": 0.040397
    },
    {
      "epoch": 0.8640864086408641,
      "grad_norm": 2.0447678565979004,
      "learning_rate": 1.6706697194360186e-05,
      "loss": 0.43904976844787597,
      "memory(GiB)": 74.54,
      "step": 960,
      "token_acc": 0.843986543313709,
      "train_speed(iter/s)": 0.040403
    },
    {
      "epoch": 0.873087308730873,
      "grad_norm": 1.8627592325210571,
      "learning_rate": 1.6634303263185885e-05,
      "loss": 0.4334832191467285,
      "memory(GiB)": 74.54,
      "step": 970,
      "token_acc": 0.8500109003706126,
      "train_speed(iter/s)": 0.040406
    },
    {
      "epoch": 0.8820882088208821,
      "grad_norm": 2.1592624187469482,
      "learning_rate": 1.656128289091859e-05,
      "loss": 0.43813695907592776,
      "memory(GiB)": 74.54,
      "step": 980,
      "token_acc": 0.8389203308663474,
      "train_speed(iter/s)": 0.040402
    },
    {
      "epoch": 0.8910891089108911,
      "grad_norm": 1.7612345218658447,
      "learning_rate": 1.6487642972474006e-05,
      "loss": 0.43879289627075196,
      "memory(GiB)": 74.54,
      "step": 990,
      "token_acc": 0.8460222412318221,
      "train_speed(iter/s)": 0.040402
    },
    {
      "epoch": 0.9000900090009001,
      "grad_norm": 2.0122318267822266,
      "learning_rate": 1.641339046126822e-05,
      "loss": 0.4455322265625,
      "memory(GiB)": 74.54,
      "step": 1000,
      "token_acc": 0.8455068614431164,
      "train_speed(iter/s)": 0.040397
    },
    {
      "epoch": 0.9000900090009001,
      "eval_loss": 0.43926388025283813,
      "eval_runtime": 113.4684,
      "eval_samples_per_second": 12.647,
      "eval_steps_per_second": 0.397,
      "eval_token_acc": 0.8410206561360875,
      "step": 1000
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 2.066300630569458,
      "learning_rate": 1.6338532368561105e-05,
      "loss": 0.4375774383544922,
      "memory(GiB)": 74.54,
      "step": 1010,
      "token_acc": 0.8390414378432351,
      "train_speed(iter/s)": 0.040187
    },
    {
      "epoch": 0.918091809180918,
      "grad_norm": 2.2568578720092773,
      "learning_rate": 1.62630757627943e-05,
      "loss": 0.4385653495788574,
      "memory(GiB)": 74.54,
      "step": 1020,
      "token_acc": 0.8342480790340285,
      "train_speed(iter/s)": 0.040185
    },
    {
      "epoch": 0.9270927092709271,
      "grad_norm": 1.963052749633789,
      "learning_rate": 1.6187027768923767e-05,
      "loss": 0.43105306625366213,
      "memory(GiB)": 74.54,
      "step": 1030,
      "token_acc": 0.8509454949944383,
      "train_speed(iter/s)": 0.040187
    },
    {
      "epoch": 0.9360936093609361,
      "grad_norm": 1.902685523033142,
      "learning_rate": 1.6110395567747025e-05,
      "loss": 0.4382938385009766,
      "memory(GiB)": 74.54,
      "step": 1040,
      "token_acc": 0.8346938775510204,
      "train_speed(iter/s)": 0.040185
    },
    {
      "epoch": 0.9450945094509451,
      "grad_norm": 1.8732327222824097,
      "learning_rate": 1.6033186395225095e-05,
      "loss": 0.41572961807250974,
      "memory(GiB)": 74.54,
      "step": 1050,
      "token_acc": 0.85475935828877,
      "train_speed(iter/s)": 0.04019
    },
    {
      "epoch": 0.9540954095409541,
      "grad_norm": 1.869422197341919,
      "learning_rate": 1.5955407541799274e-05,
      "loss": 0.43001718521118165,
      "memory(GiB)": 74.54,
      "step": 1060,
      "token_acc": 0.8342636324602833,
      "train_speed(iter/s)": 0.040189
    },
    {
      "epoch": 0.963096309630963,
      "grad_norm": 2.065873861312866,
      "learning_rate": 1.5877066351702707e-05,
      "loss": 0.43995866775512693,
      "memory(GiB)": 74.54,
      "step": 1070,
      "token_acc": 0.8477516059957173,
      "train_speed(iter/s)": 0.040194
    },
    {
      "epoch": 0.9720972097209721,
      "grad_norm": 2.1846609115600586,
      "learning_rate": 1.5798170222266933e-05,
      "loss": 0.4312899589538574,
      "memory(GiB)": 74.54,
      "step": 1080,
      "token_acc": 0.8568353067814855,
      "train_speed(iter/s)": 0.040196
    },
    {
      "epoch": 0.9810981098109811,
      "grad_norm": 2.151474714279175,
      "learning_rate": 1.571872660322338e-05,
      "loss": 0.431905460357666,
      "memory(GiB)": 74.54,
      "step": 1090,
      "token_acc": 0.8473539953615855,
      "train_speed(iter/s)": 0.040202
    },
    {
      "epoch": 0.9900990099009901,
      "grad_norm": 2.0136258602142334,
      "learning_rate": 1.563874299599995e-05,
      "loss": 0.4207723140716553,
      "memory(GiB)": 74.54,
      "step": 1100,
      "token_acc": 0.8404571428571429,
      "train_speed(iter/s)": 0.040206
    },
    {
      "epoch": 0.9990999099909991,
      "grad_norm": 2.0286359786987305,
      "learning_rate": 1.555822695301266e-05,
      "loss": 0.41998815536499023,
      "memory(GiB)": 74.54,
      "step": 1110,
      "token_acc": 0.8462002412545235,
      "train_speed(iter/s)": 0.040207
    },
    {
      "epoch": 1.008100810081008,
      "grad_norm": 2.1229543685913086,
      "learning_rate": 1.5477186076952567e-05,
      "loss": 0.41786656379699705,
      "memory(GiB)": 74.54,
      "step": 1120,
      "token_acc": 0.8457294195541823,
      "train_speed(iter/s)": 0.040226
    },
    {
      "epoch": 1.0171017101710171,
      "grad_norm": 2.2496182918548584,
      "learning_rate": 1.5395628020067825e-05,
      "loss": 0.41992764472961425,
      "memory(GiB)": 74.54,
      "step": 1130,
      "token_acc": 0.8452407614781635,
      "train_speed(iter/s)": 0.040225
    },
    {
      "epoch": 1.026102610261026,
      "grad_norm": 2.0818288326263428,
      "learning_rate": 1.531356048344117e-05,
      "loss": 0.41519851684570314,
      "memory(GiB)": 74.54,
      "step": 1140,
      "token_acc": 0.8480816145486804,
      "train_speed(iter/s)": 0.040226
    },
    {
      "epoch": 1.035103510351035,
      "grad_norm": 1.9498157501220703,
      "learning_rate": 1.523099121626273e-05,
      "loss": 0.4007615089416504,
      "memory(GiB)": 74.54,
      "step": 1150,
      "token_acc": 0.8642224012892828,
      "train_speed(iter/s)": 0.040229
    },
    {
      "epoch": 1.0441044104410442,
      "grad_norm": 2.238085985183716,
      "learning_rate": 1.5147928015098309e-05,
      "loss": 0.416591739654541,
      "memory(GiB)": 74.54,
      "step": 1160,
      "token_acc": 0.8449678800856532,
      "train_speed(iter/s)": 0.040231
    },
    {
      "epoch": 1.053105310531053,
      "grad_norm": 1.884536862373352,
      "learning_rate": 1.506437872315321e-05,
      "loss": 0.4058389663696289,
      "memory(GiB)": 74.54,
      "step": 1170,
      "token_acc": 0.8544316996871741,
      "train_speed(iter/s)": 0.040234
    },
    {
      "epoch": 1.0621062106210621,
      "grad_norm": 2.506772041320801,
      "learning_rate": 1.4980351229531642e-05,
      "loss": 0.4066319465637207,
      "memory(GiB)": 74.54,
      "step": 1180,
      "token_acc": 0.8476423487544484,
      "train_speed(iter/s)": 0.040236
    },
    {
      "epoch": 1.071107110711071,
      "grad_norm": 2.208542823791504,
      "learning_rate": 1.4895853468491779e-05,
      "loss": 0.4183638572692871,
      "memory(GiB)": 74.54,
      "step": 1190,
      "token_acc": 0.8479634066652145,
      "train_speed(iter/s)": 0.040233
    },
    {
      "epoch": 1.08010801080108,
      "grad_norm": 2.0623791217803955,
      "learning_rate": 1.4810893418696595e-05,
      "loss": 0.4236001014709473,
      "memory(GiB)": 74.54,
      "step": 1200,
      "token_acc": 0.8621627274628739,
      "train_speed(iter/s)": 0.040231
    },
    {
      "epoch": 1.0891089108910892,
      "grad_norm": 1.9633852243423462,
      "learning_rate": 1.4725479102460467e-05,
      "loss": 0.4070269584655762,
      "memory(GiB)": 74.54,
      "step": 1210,
      "token_acc": 0.8519945602901179,
      "train_speed(iter/s)": 0.040233
    },
    {
      "epoch": 1.098109810981098,
      "grad_norm": 2.425140857696533,
      "learning_rate": 1.4639618584991679e-05,
      "loss": 0.4048626899719238,
      "memory(GiB)": 74.54,
      "step": 1220,
      "token_acc": 0.8575699338031176,
      "train_speed(iter/s)": 0.040237
    },
    {
      "epoch": 1.1071107110711071,
      "grad_norm": 1.9179662466049194,
      "learning_rate": 1.455331997363086e-05,
      "loss": 0.41301331520080564,
      "memory(GiB)": 74.54,
      "step": 1230,
      "token_acc": 0.8553283100107643,
      "train_speed(iter/s)": 0.040242
    },
    {
      "epoch": 1.116111611161116,
      "grad_norm": 2.332228660583496,
      "learning_rate": 1.4466591417085462e-05,
      "loss": 0.4197710037231445,
      "memory(GiB)": 74.54,
      "step": 1240,
      "token_acc": 0.8447427293064877,
      "train_speed(iter/s)": 0.040246
    },
    {
      "epoch": 1.125112511251125,
      "grad_norm": 2.093475580215454,
      "learning_rate": 1.4379441104660313e-05,
      "loss": 0.4093982696533203,
      "memory(GiB)": 74.54,
      "step": 1250,
      "token_acc": 0.8562723261189326,
      "train_speed(iter/s)": 0.040245
    },
    {
      "epoch": 1.1341134113411342,
      "grad_norm": 2.2746119499206543,
      "learning_rate": 1.4291877265484352e-05,
      "loss": 0.4102977752685547,
      "memory(GiB)": 74.54,
      "step": 1260,
      "token_acc": 0.854287556415216,
      "train_speed(iter/s)": 0.040249
    },
    {
      "epoch": 1.143114311431143,
      "grad_norm": 2.2232649326324463,
      "learning_rate": 1.4203908167733596e-05,
      "loss": 0.418546724319458,
      "memory(GiB)": 74.54,
      "step": 1270,
      "token_acc": 0.8427280550774526,
      "train_speed(iter/s)": 0.040255
    },
    {
      "epoch": 1.1521152115211521,
      "grad_norm": 1.9787334203720093,
      "learning_rate": 1.4115542117850415e-05,
      "loss": 0.410016393661499,
      "memory(GiB)": 74.54,
      "step": 1280,
      "token_acc": 0.86048545812377,
      "train_speed(iter/s)": 0.040258
    },
    {
      "epoch": 1.161116111611161,
      "grad_norm": 2.3660764694213867,
      "learning_rate": 1.4026787459759215e-05,
      "loss": 0.4094221591949463,
      "memory(GiB)": 74.54,
      "step": 1290,
      "token_acc": 0.8500684618895481,
      "train_speed(iter/s)": 0.040257
    },
    {
      "epoch": 1.17011701170117,
      "grad_norm": 2.0939202308654785,
      "learning_rate": 1.3937652574078543e-05,
      "loss": 0.40435123443603516,
      "memory(GiB)": 74.54,
      "step": 1300,
      "token_acc": 0.8442178346712953,
      "train_speed(iter/s)": 0.040258
    },
    {
      "epoch": 1.1791179117911792,
      "grad_norm": 2.3308207988739014,
      "learning_rate": 1.3848145877329778e-05,
      "loss": 0.4132570743560791,
      "memory(GiB)": 74.54,
      "step": 1310,
      "token_acc": 0.8504208935894668,
      "train_speed(iter/s)": 0.040261
    },
    {
      "epoch": 1.188118811881188,
      "grad_norm": 2.053710460662842,
      "learning_rate": 1.3758275821142382e-05,
      "loss": 0.39916296005249025,
      "memory(GiB)": 74.54,
      "step": 1320,
      "token_acc": 0.8543060651845457,
      "train_speed(iter/s)": 0.04026
    },
    {
      "epoch": 1.1971197119711972,
      "grad_norm": 2.4674737453460693,
      "learning_rate": 1.3668050891455873e-05,
      "loss": 0.3984804630279541,
      "memory(GiB)": 74.54,
      "step": 1330,
      "token_acc": 0.8585640138408305,
      "train_speed(iter/s)": 0.040259
    },
    {
      "epoch": 1.206120612061206,
      "grad_norm": 2.1947102546691895,
      "learning_rate": 1.357747960771854e-05,
      "loss": 0.42041912078857424,
      "memory(GiB)": 74.54,
      "step": 1340,
      "token_acc": 0.8391608391608392,
      "train_speed(iter/s)": 0.040262
    },
    {
      "epoch": 1.215121512151215,
      "grad_norm": 2.0035359859466553,
      "learning_rate": 1.3486570522082989e-05,
      "loss": 0.4119097709655762,
      "memory(GiB)": 74.54,
      "step": 1350,
      "token_acc": 0.8620765508139023,
      "train_speed(iter/s)": 0.040265
    },
    {
      "epoch": 1.2241224122412242,
      "grad_norm": 2.161275863647461,
      "learning_rate": 1.3395332218598629e-05,
      "loss": 0.4057816982269287,
      "memory(GiB)": 74.54,
      "step": 1360,
      "token_acc": 0.8410107334525939,
      "train_speed(iter/s)": 0.040268
    },
    {
      "epoch": 1.233123312331233,
      "grad_norm": 2.300550937652588,
      "learning_rate": 1.3303773312401107e-05,
      "loss": 0.40541529655456543,
      "memory(GiB)": 74.54,
      "step": 1370,
      "token_acc": 0.8559489773477018,
      "train_speed(iter/s)": 0.040269
    },
    {
      "epoch": 1.2421242124212422,
      "grad_norm": 2.306222915649414,
      "learning_rate": 1.3211902448898841e-05,
      "loss": 0.40516185760498047,
      "memory(GiB)": 74.54,
      "step": 1380,
      "token_acc": 0.8569854561480829,
      "train_speed(iter/s)": 0.04027
    },
    {
      "epoch": 1.251125112511251,
      "grad_norm": 2.1976640224456787,
      "learning_rate": 1.3119728302956676e-05,
      "loss": 0.4062767505645752,
      "memory(GiB)": 74.54,
      "step": 1390,
      "token_acc": 0.8493668073761387,
      "train_speed(iter/s)": 0.040273
    },
    {
      "epoch": 1.2601260126012601,
      "grad_norm": 2.333188056945801,
      "learning_rate": 1.302725957807676e-05,
      "loss": 0.39322872161865235,
      "memory(GiB)": 74.54,
      "step": 1400,
      "token_acc": 0.860806663743972,
      "train_speed(iter/s)": 0.040272
    },
    {
      "epoch": 1.2691269126912692,
      "grad_norm": 2.356128215789795,
      "learning_rate": 1.2934505005576738e-05,
      "loss": 0.39969046115875245,
      "memory(GiB)": 74.54,
      "step": 1410,
      "token_acc": 0.8573583279465632,
      "train_speed(iter/s)": 0.040268
    },
    {
      "epoch": 1.278127812781278,
      "grad_norm": 2.1411805152893066,
      "learning_rate": 1.2841473343765269e-05,
      "loss": 0.39504408836364746,
      "memory(GiB)": 74.54,
      "step": 1420,
      "token_acc": 0.8612200435729848,
      "train_speed(iter/s)": 0.040269
    },
    {
      "epoch": 1.2871287128712872,
      "grad_norm": 2.187964677810669,
      "learning_rate": 1.274817337711506e-05,
      "loss": 0.4120161056518555,
      "memory(GiB)": 74.54,
      "step": 1430,
      "token_acc": 0.849435382685069,
      "train_speed(iter/s)": 0.040272
    },
    {
      "epoch": 1.296129612961296,
      "grad_norm": 2.098618745803833,
      "learning_rate": 1.2654613915433373e-05,
      "loss": 0.39701004028320314,
      "memory(GiB)": 74.54,
      "step": 1440,
      "token_acc": 0.8512253307308609,
      "train_speed(iter/s)": 0.040274
    },
    {
      "epoch": 1.3051305130513051,
      "grad_norm": 2.000491142272949,
      "learning_rate": 1.2560803793030179e-05,
      "loss": 0.40303592681884765,
      "memory(GiB)": 74.54,
      "step": 1450,
      "token_acc": 0.8583260680034873,
      "train_speed(iter/s)": 0.040274
    },
    {
      "epoch": 1.3141314131413142,
      "grad_norm": 2.1380844116210938,
      "learning_rate": 1.2466751867883959e-05,
      "loss": 0.397491455078125,
      "memory(GiB)": 74.54,
      "step": 1460,
      "token_acc": 0.8592755214050494,
      "train_speed(iter/s)": 0.040276
    },
    {
      "epoch": 1.323132313231323,
      "grad_norm": 2.110633611679077,
      "learning_rate": 1.2372467020805332e-05,
      "loss": 0.4155548095703125,
      "memory(GiB)": 74.54,
      "step": 1470,
      "token_acc": 0.8501522401043932,
      "train_speed(iter/s)": 0.040278
    },
    {
      "epoch": 1.3321332133213322,
      "grad_norm": 2.1096761226654053,
      "learning_rate": 1.2277958154598444e-05,
      "loss": 0.41139373779296873,
      "memory(GiB)": 74.54,
      "step": 1480,
      "token_acc": 0.8384369287020109,
      "train_speed(iter/s)": 0.040279
    },
    {
      "epoch": 1.341134113411341,
      "grad_norm": 2.346917152404785,
      "learning_rate": 1.2183234193220362e-05,
      "loss": 0.3898932456970215,
      "memory(GiB)": 74.54,
      "step": 1490,
      "token_acc": 0.8620309050772627,
      "train_speed(iter/s)": 0.04028
    },
    {
      "epoch": 1.3501350135013501,
      "grad_norm": 2.1962385177612305,
      "learning_rate": 1.2088304080938404e-05,
      "loss": 0.3953920841217041,
      "memory(GiB)": 74.54,
      "step": 1500,
      "token_acc": 0.8660930950805207,
      "train_speed(iter/s)": 0.040278
    },
    {
      "epoch": 1.3501350135013501,
      "eval_loss": 0.42292386293411255,
      "eval_runtime": 112.5032,
      "eval_samples_per_second": 12.755,
      "eval_steps_per_second": 0.4,
      "eval_token_acc": 0.8482138517618469,
      "step": 1500
    },
    {
      "epoch": 1.3591359135913592,
      "grad_norm": 2.1046359539031982,
      "learning_rate": 1.1993176781485608e-05,
      "loss": 0.4179078578948975,
      "memory(GiB)": 74.54,
      "step": 1510,
      "token_acc": 0.8453704665904603,
      "train_speed(iter/s)": 0.040153
    },
    {
      "epoch": 1.368136813681368,
      "grad_norm": 2.0981786251068115,
      "learning_rate": 1.1897861277214304e-05,
      "loss": 0.38443617820739745,
      "memory(GiB)": 74.54,
      "step": 1520,
      "token_acc": 0.8514383855732074,
      "train_speed(iter/s)": 0.040151
    },
    {
      "epoch": 1.3771377137713772,
      "grad_norm": 2.335702419281006,
      "learning_rate": 1.1802366568247998e-05,
      "loss": 0.39206039905548096,
      "memory(GiB)": 74.54,
      "step": 1530,
      "token_acc": 0.8556973163220414,
      "train_speed(iter/s)": 0.040152
    },
    {
      "epoch": 1.386138613861386,
      "grad_norm": 2.2659618854522705,
      "learning_rate": 1.1706701671631504e-05,
      "loss": 0.39416942596435545,
      "memory(GiB)": 74.54,
      "step": 1540,
      "token_acc": 0.8575920934411501,
      "train_speed(iter/s)": 0.040154
    },
    {
      "epoch": 1.3951395139513951,
      "grad_norm": 2.3435161113739014,
      "learning_rate": 1.1610875620479531e-05,
      "loss": 0.4044766426086426,
      "memory(GiB)": 74.54,
      "step": 1550,
      "token_acc": 0.8510254676583277,
      "train_speed(iter/s)": 0.040156
    },
    {
      "epoch": 1.4041404140414042,
      "grad_norm": 2.155761241912842,
      "learning_rate": 1.1514897463123735e-05,
      "loss": 0.39972786903381347,
      "memory(GiB)": 74.54,
      "step": 1560,
      "token_acc": 0.858606101091071,
      "train_speed(iter/s)": 0.040158
    },
    {
      "epoch": 1.413141314131413,
      "grad_norm": 2.231323719024658,
      "learning_rate": 1.141877626225833e-05,
      "loss": 0.4081737518310547,
      "memory(GiB)": 74.54,
      "step": 1570,
      "token_acc": 0.8568965517241379,
      "train_speed(iter/s)": 0.040158
    },
    {
      "epoch": 1.4221422142214222,
      "grad_norm": 2.0848968029022217,
      "learning_rate": 1.1322521094084352e-05,
      "loss": 0.4104423999786377,
      "memory(GiB)": 74.54,
      "step": 1580,
      "token_acc": 0.8589771972548151,
      "train_speed(iter/s)": 0.04016
    },
    {
      "epoch": 1.431143114311431,
      "grad_norm": 2.1602284908294678,
      "learning_rate": 1.1226141047452628e-05,
      "loss": 0.39746341705322263,
      "memory(GiB)": 74.54,
      "step": 1590,
      "token_acc": 0.8528940745824755,
      "train_speed(iter/s)": 0.040163
    },
    {
      "epoch": 1.4401440144014401,
      "grad_norm": 2.202800750732422,
      "learning_rate": 1.1129645223005592e-05,
      "loss": 0.3975072383880615,
      "memory(GiB)": 74.54,
      "step": 1600,
      "token_acc": 0.85933056224021,
      "train_speed(iter/s)": 0.040165
    },
    {
      "epoch": 1.4491449144914492,
      "grad_norm": 2.0750746726989746,
      "learning_rate": 1.103304273231794e-05,
      "loss": 0.4078987598419189,
      "memory(GiB)": 74.54,
      "step": 1610,
      "token_acc": 0.8481820114820328,
      "train_speed(iter/s)": 0.040169
    },
    {
      "epoch": 1.458145814581458,
      "grad_norm": 2.0705268383026123,
      "learning_rate": 1.0936342697036276e-05,
      "loss": 0.40749187469482423,
      "memory(GiB)": 74.54,
      "step": 1620,
      "token_acc": 0.8431718061674008,
      "train_speed(iter/s)": 0.04017
    },
    {
      "epoch": 1.4671467146714672,
      "grad_norm": 2.2939624786376953,
      "learning_rate": 1.0839554248017816e-05,
      "loss": 0.39917492866516113,
      "memory(GiB)": 74.54,
      "step": 1630,
      "token_acc": 0.8533273981749387,
      "train_speed(iter/s)": 0.040171
    },
    {
      "epoch": 1.476147614761476,
      "grad_norm": 2.232426166534424,
      "learning_rate": 1.0742686524468193e-05,
      "loss": 0.3895902156829834,
      "memory(GiB)": 74.54,
      "step": 1640,
      "token_acc": 0.8666959964804224,
      "train_speed(iter/s)": 0.040172
    },
    {
      "epoch": 1.4851485148514851,
      "grad_norm": 2.317064046859741,
      "learning_rate": 1.0645748673078513e-05,
      "loss": 0.4001925468444824,
      "memory(GiB)": 74.54,
      "step": 1650,
      "token_acc": 0.8580047403576815,
      "train_speed(iter/s)": 0.040177
    },
    {
      "epoch": 1.4941494149414942,
      "grad_norm": 2.4603018760681152,
      "learning_rate": 1.0548749847161666e-05,
      "loss": 0.4078868865966797,
      "memory(GiB)": 74.54,
      "step": 1660,
      "token_acc": 0.8525682355469589,
      "train_speed(iter/s)": 0.04018
    },
    {
      "epoch": 1.5031503150315033,
      "grad_norm": 2.2700588703155518,
      "learning_rate": 1.0451699205788031e-05,
      "loss": 0.3826925277709961,
      "memory(GiB)": 74.54,
      "step": 1670,
      "token_acc": 0.8540529189416212,
      "train_speed(iter/s)": 0.040177
    },
    {
      "epoch": 1.5121512151215122,
      "grad_norm": 2.1843454837799072,
      "learning_rate": 1.0354605912920643e-05,
      "loss": 0.39476428031921384,
      "memory(GiB)": 74.54,
      "step": 1680,
      "token_acc": 0.8572723153602175,
      "train_speed(iter/s)": 0.040177
    },
    {
      "epoch": 1.521152115211521,
      "grad_norm": 2.183195114135742,
      "learning_rate": 1.0257479136549889e-05,
      "loss": 0.4017205715179443,
      "memory(GiB)": 74.54,
      "step": 1690,
      "token_acc": 0.858510389913612,
      "train_speed(iter/s)": 0.040177
    },
    {
      "epoch": 1.5301530153015301,
      "grad_norm": 2.2219948768615723,
      "learning_rate": 1.0160328047827805e-05,
      "loss": 0.3950798988342285,
      "memory(GiB)": 74.54,
      "step": 1700,
      "token_acc": 0.859968881973772,
      "train_speed(iter/s)": 0.04018
    },
    {
      "epoch": 1.5391539153915392,
      "grad_norm": 2.1306684017181396,
      "learning_rate": 1.006316182020213e-05,
      "loss": 0.3851861238479614,
      "memory(GiB)": 74.54,
      "step": 1710,
      "token_acc": 0.8605112384310268,
      "train_speed(iter/s)": 0.040185
    },
    {
      "epoch": 1.5481548154815483,
      "grad_norm": 2.3634705543518066,
      "learning_rate": 9.965989628550073e-06,
      "loss": 0.3927136421203613,
      "memory(GiB)": 74.54,
      "step": 1720,
      "token_acc": 0.8631741821396994,
      "train_speed(iter/s)": 0.040185
    },
    {
      "epoch": 1.5571557155715572,
      "grad_norm": 2.1868417263031006,
      "learning_rate": 9.868820648311998e-06,
      "loss": 0.3937791585922241,
      "memory(GiB)": 74.54,
      "step": 1730,
      "token_acc": 0.8506729331339458,
      "train_speed(iter/s)": 0.04019
    },
    {
      "epoch": 1.566156615661566,
      "grad_norm": 2.058154344558716,
      "learning_rate": 9.771664054625036e-06,
      "loss": 0.4051863193511963,
      "memory(GiB)": 74.54,
      "step": 1740,
      "token_acc": 0.8571127057830308,
      "train_speed(iter/s)": 0.04019
    },
    {
      "epoch": 1.5751575157515751,
      "grad_norm": 2.278233051300049,
      "learning_rate": 9.674529021456711e-06,
      "loss": 0.3995014429092407,
      "memory(GiB)": 74.54,
      "step": 1750,
      "token_acc": 0.8531134736385333,
      "train_speed(iter/s)": 0.04019
    },
    {
      "epoch": 1.5841584158415842,
      "grad_norm": 2.4994163513183594,
      "learning_rate": 9.577424720738725e-06,
      "loss": 0.3964822769165039,
      "memory(GiB)": 74.54,
      "step": 1760,
      "token_acc": 0.8614113159567705,
      "train_speed(iter/s)": 0.040189
    },
    {
      "epoch": 1.5931593159315933,
      "grad_norm": 2.2877440452575684,
      "learning_rate": 9.480360321500866e-06,
      "loss": 0.3912468433380127,
      "memory(GiB)": 74.54,
      "step": 1770,
      "token_acc": 0.8542329726288987,
      "train_speed(iter/s)": 0.04019
    },
    {
      "epoch": 1.6021602160216022,
      "grad_norm": 2.2842419147491455,
      "learning_rate": 9.38334498900525e-06,
      "loss": 0.396860408782959,
      "memory(GiB)": 74.54,
      "step": 1780,
      "token_acc": 0.8597612958226769,
      "train_speed(iter/s)": 0.040193
    },
    {
      "epoch": 1.611161116111611,
      "grad_norm": 2.171830415725708,
      "learning_rate": 9.28638788388088e-06,
      "loss": 0.39132468700408934,
      "memory(GiB)": 74.54,
      "step": 1790,
      "token_acc": 0.8446624087591241,
      "train_speed(iter/s)": 0.040193
    },
    {
      "epoch": 1.6201620162016201,
      "grad_norm": 2.2504782676696777,
      "learning_rate": 9.189498161258678e-06,
      "loss": 0.39133219718933104,
      "memory(GiB)": 74.54,
      "step": 1800,
      "token_acc": 0.8526747195858498,
      "train_speed(iter/s)": 0.040193
    },
    {
      "epoch": 1.6291629162916292,
      "grad_norm": 2.2380685806274414,
      "learning_rate": 9.092684969906994e-06,
      "loss": 0.39520695209503176,
      "memory(GiB)": 74.54,
      "step": 1810,
      "token_acc": 0.8510874389702618,
      "train_speed(iter/s)": 0.040195
    },
    {
      "epoch": 1.6381638163816383,
      "grad_norm": 2.3991379737854004,
      "learning_rate": 8.995957451367751e-06,
      "loss": 0.39344358444213867,
      "memory(GiB)": 74.54,
      "step": 1820,
      "token_acc": 0.8661971830985915,
      "train_speed(iter/s)": 0.040196
    },
    {
      "epoch": 1.6471647164716472,
      "grad_norm": 2.167818307876587,
      "learning_rate": 8.899324739093255e-06,
      "loss": 0.38270139694213867,
      "memory(GiB)": 74.54,
      "step": 1830,
      "token_acc": 0.8632143593975655,
      "train_speed(iter/s)": 0.040195
    },
    {
      "epoch": 1.656165616561656,
      "grad_norm": 2.1482577323913574,
      "learning_rate": 8.802795957583774e-06,
      "loss": 0.38856942653656007,
      "memory(GiB)": 74.54,
      "step": 1840,
      "token_acc": 0.8508108108108108,
      "train_speed(iter/s)": 0.040197
    },
    {
      "epoch": 1.6651665166516652,
      "grad_norm": 2.223714828491211,
      "learning_rate": 8.706380221525959e-06,
      "loss": 0.3878568172454834,
      "memory(GiB)": 74.54,
      "step": 1850,
      "token_acc": 0.8518351722585004,
      "train_speed(iter/s)": 0.040198
    },
    {
      "epoch": 1.6741674167416742,
      "grad_norm": 2.1293275356292725,
      "learning_rate": 8.610086634932195e-06,
      "loss": 0.3860627174377441,
      "memory(GiB)": 74.54,
      "step": 1860,
      "token_acc": 0.8636664460622104,
      "train_speed(iter/s)": 0.0402
    },
    {
      "epoch": 1.6831683168316833,
      "grad_norm": 2.2796740531921387,
      "learning_rate": 8.513924290280955e-06,
      "loss": 0.4010897636413574,
      "memory(GiB)": 74.54,
      "step": 1870,
      "token_acc": 0.8624,
      "train_speed(iter/s)": 0.040198
    },
    {
      "epoch": 1.6921692169216922,
      "grad_norm": 2.063302516937256,
      "learning_rate": 8.417902267658264e-06,
      "loss": 0.3978671312332153,
      "memory(GiB)": 74.54,
      "step": 1880,
      "token_acc": 0.8563941299790356,
      "train_speed(iter/s)": 0.040199
    },
    {
      "epoch": 1.701170117011701,
      "grad_norm": 2.589029550552368,
      "learning_rate": 8.322029633900293e-06,
      "loss": 0.4007380485534668,
      "memory(GiB)": 74.54,
      "step": 1890,
      "token_acc": 0.8558875219683656,
      "train_speed(iter/s)": 0.040201
    },
    {
      "epoch": 1.7101710171017102,
      "grad_norm": 2.1972382068634033,
      "learning_rate": 8.226315441737232e-06,
      "loss": 0.39293272495269777,
      "memory(GiB)": 74.54,
      "step": 1900,
      "token_acc": 0.8606382978723405,
      "train_speed(iter/s)": 0.040201
    },
    {
      "epoch": 1.7191719171917192,
      "grad_norm": 2.1070621013641357,
      "learning_rate": 8.130768728938503e-06,
      "loss": 0.4030153274536133,
      "memory(GiB)": 74.54,
      "step": 1910,
      "token_acc": 0.858612883309323,
      "train_speed(iter/s)": 0.040199
    },
    {
      "epoch": 1.7281728172817283,
      "grad_norm": 2.4515891075134277,
      "learning_rate": 8.035398517459367e-06,
      "loss": 0.3846758842468262,
      "memory(GiB)": 74.54,
      "step": 1920,
      "token_acc": 0.8604975587072774,
      "train_speed(iter/s)": 0.040203
    },
    {
      "epoch": 1.7371737173717372,
      "grad_norm": 2.4625024795532227,
      "learning_rate": 7.940213812589018e-06,
      "loss": 0.3977564096450806,
      "memory(GiB)": 74.54,
      "step": 1930,
      "token_acc": 0.8620689655172413,
      "train_speed(iter/s)": 0.040207
    },
    {
      "epoch": 1.746174617461746,
      "grad_norm": 2.358564853668213,
      "learning_rate": 7.84522360210028e-06,
      "loss": 0.3818389415740967,
      "memory(GiB)": 74.54,
      "step": 1940,
      "token_acc": 0.8622779519331244,
      "train_speed(iter/s)": 0.040208
    },
    {
      "epoch": 1.7551755175517552,
      "grad_norm": 2.43326473236084,
      "learning_rate": 7.750436855400924e-06,
      "loss": 0.40569381713867186,
      "memory(GiB)": 74.54,
      "step": 1950,
      "token_acc": 0.8431502316346791,
      "train_speed(iter/s)": 0.040209
    },
    {
      "epoch": 1.7641764176417642,
      "grad_norm": 2.141272783279419,
      "learning_rate": 7.655862522686759e-06,
      "loss": 0.4061896324157715,
      "memory(GiB)": 74.54,
      "step": 1960,
      "token_acc": 0.8561802484733628,
      "train_speed(iter/s)": 0.040213
    },
    {
      "epoch": 1.7731773177317733,
      "grad_norm": 2.1799638271331787,
      "learning_rate": 7.561509534096486e-06,
      "loss": 0.3843768835067749,
      "memory(GiB)": 74.54,
      "step": 1970,
      "token_acc": 0.8601476840456478,
      "train_speed(iter/s)": 0.040213
    },
    {
      "epoch": 1.7821782178217822,
      "grad_norm": 2.2130813598632812,
      "learning_rate": 7.467386798868492e-06,
      "loss": 0.383782172203064,
      "memory(GiB)": 74.54,
      "step": 1980,
      "token_acc": 0.8536738538831903,
      "train_speed(iter/s)": 0.040213
    },
    {
      "epoch": 1.791179117911791,
      "grad_norm": 2.2999327182769775,
      "learning_rate": 7.373503204499589e-06,
      "loss": 0.3898015975952148,
      "memory(GiB)": 74.54,
      "step": 1990,
      "token_acc": 0.8597833014659019,
      "train_speed(iter/s)": 0.040213
    },
    {
      "epoch": 1.8001800180018002,
      "grad_norm": 2.0685296058654785,
      "learning_rate": 7.279867615905836e-06,
      "loss": 0.39383411407470703,
      "memory(GiB)": 74.54,
      "step": 2000,
      "token_acc": 0.8522530329289428,
      "train_speed(iter/s)": 0.040217
    },
    {
      "epoch": 1.8001800180018002,
      "eval_loss": 0.40739279985427856,
      "eval_runtime": 113.0562,
      "eval_samples_per_second": 12.693,
      "eval_steps_per_second": 0.398,
      "eval_token_acc": 0.8513244228432564,
      "step": 2000
    },
    {
      "epoch": 1.8091809180918093,
      "grad_norm": 2.3695876598358154,
      "learning_rate": 7.186488874585441e-06,
      "loss": 0.38712072372436523,
      "memory(GiB)": 76.18,
      "step": 2010,
      "token_acc": 0.8560460652591171,
      "train_speed(iter/s)": 0.040111
    },
    {
      "epoch": 1.8181818181818183,
      "grad_norm": 2.2949750423431396,
      "learning_rate": 7.093375797783935e-06,
      "loss": 0.38932750225067136,
      "memory(GiB)": 76.18,
      "step": 2020,
      "token_acc": 0.8515789473684211,
      "train_speed(iter/s)": 0.040113
    },
    {
      "epoch": 1.8271827182718272,
      "grad_norm": 2.102889060974121,
      "learning_rate": 7.0005371776615884e-06,
      "loss": 0.3895460844039917,
      "memory(GiB)": 76.18,
      "step": 2030,
      "token_acc": 0.8582169709989259,
      "train_speed(iter/s)": 0.040117
    },
    {
      "epoch": 1.836183618361836,
      "grad_norm": 2.2533607482910156,
      "learning_rate": 6.907981780463233e-06,
      "loss": 0.3849326133728027,
      "memory(GiB)": 76.18,
      "step": 2040,
      "token_acc": 0.8707364762111667,
      "train_speed(iter/s)": 0.040118
    },
    {
      "epoch": 1.8451845184518452,
      "grad_norm": 2.058211326599121,
      "learning_rate": 6.815718345690496e-06,
      "loss": 0.38345019817352294,
      "memory(GiB)": 76.18,
      "step": 2050,
      "token_acc": 0.85548358275631,
      "train_speed(iter/s)": 0.040122
    },
    {
      "epoch": 1.8541854185418543,
      "grad_norm": 2.466780424118042,
      "learning_rate": 6.72375558527659e-06,
      "loss": 0.38396077156066893,
      "memory(GiB)": 76.18,
      "step": 2060,
      "token_acc": 0.8563974591651543,
      "train_speed(iter/s)": 0.040122
    },
    {
      "epoch": 1.8631863186318633,
      "grad_norm": 2.325998544692993,
      "learning_rate": 6.632102182763681e-06,
      "loss": 0.3884021759033203,
      "memory(GiB)": 76.18,
      "step": 2070,
      "token_acc": 0.8589527027027027,
      "train_speed(iter/s)": 0.040123
    },
    {
      "epoch": 1.8721872187218722,
      "grad_norm": 2.3079795837402344,
      "learning_rate": 6.540766792482962e-06,
      "loss": 0.4022721290588379,
      "memory(GiB)": 76.18,
      "step": 2080,
      "token_acc": 0.8444188722669735,
      "train_speed(iter/s)": 0.040126
    },
    {
      "epoch": 1.881188118811881,
      "grad_norm": 2.305443525314331,
      "learning_rate": 6.449758038737458e-06,
      "loss": 0.3774123668670654,
      "memory(GiB)": 76.18,
      "step": 2090,
      "token_acc": 0.859161246916349,
      "train_speed(iter/s)": 0.040128
    },
    {
      "epoch": 1.8901890189018902,
      "grad_norm": 2.306131362915039,
      "learning_rate": 6.359084514987688e-06,
      "loss": 0.38950314521789553,
      "memory(GiB)": 76.18,
      "step": 2100,
      "token_acc": 0.8646680942184154,
      "train_speed(iter/s)": 0.040128
    },
    {
      "epoch": 1.8991899189918993,
      "grad_norm": 2.5018227100372314,
      "learning_rate": 6.268754783040228e-06,
      "loss": 0.3790890693664551,
      "memory(GiB)": 76.18,
      "step": 2110,
      "token_acc": 0.8660165359338563,
      "train_speed(iter/s)": 0.040128
    },
    {
      "epoch": 1.9081908190819084,
      "grad_norm": 2.1461129188537598,
      "learning_rate": 6.17877737223928e-06,
      "loss": 0.37567844390869143,
      "memory(GiB)": 76.18,
      "step": 2120,
      "token_acc": 0.8673469387755102,
      "train_speed(iter/s)": 0.040129
    },
    {
      "epoch": 1.9171917191719172,
      "grad_norm": 2.1912460327148438,
      "learning_rate": 6.089160778661262e-06,
      "loss": 0.37552733421325685,
      "memory(GiB)": 76.18,
      "step": 2130,
      "token_acc": 0.8715083798882681,
      "train_speed(iter/s)": 0.040128
    },
    {
      "epoch": 1.926192619261926,
      "grad_norm": 2.2097115516662598,
      "learning_rate": 5.999913464312606e-06,
      "loss": 0.37886598110198977,
      "memory(GiB)": 76.18,
      "step": 2140,
      "token_acc": 0.8663426488456865,
      "train_speed(iter/s)": 0.040129
    },
    {
      "epoch": 1.9351935193519352,
      "grad_norm": 2.239027976989746,
      "learning_rate": 5.911043856330701e-06,
      "loss": 0.4021574020385742,
      "memory(GiB)": 76.18,
      "step": 2150,
      "token_acc": 0.8618796662274923,
      "train_speed(iter/s)": 0.040132
    },
    {
      "epoch": 1.9441944194419443,
      "grad_norm": 2.1112523078918457,
      "learning_rate": 5.822560346188204e-06,
      "loss": 0.3870594024658203,
      "memory(GiB)": 76.18,
      "step": 2160,
      "token_acc": 0.8622662266226623,
      "train_speed(iter/s)": 0.040134
    },
    {
      "epoch": 1.9531953195319534,
      "grad_norm": 2.1353354454040527,
      "learning_rate": 5.7344712889006424e-06,
      "loss": 0.38895013332366946,
      "memory(GiB)": 76.18,
      "step": 2170,
      "token_acc": 0.8509840674789129,
      "train_speed(iter/s)": 0.040134
    },
    {
      "epoch": 1.9621962196219622,
      "grad_norm": 2.064527988433838,
      "learning_rate": 5.646785002237509e-06,
      "loss": 0.3719027519226074,
      "memory(GiB)": 76.18,
      "step": 2180,
      "token_acc": 0.8651858368154828,
      "train_speed(iter/s)": 0.040134
    },
    {
      "epoch": 1.971197119711971,
      "grad_norm": 2.2494568824768066,
      "learning_rate": 5.5595097659368765e-06,
      "loss": 0.37720603942871095,
      "memory(GiB)": 76.18,
      "step": 2190,
      "token_acc": 0.8660617844026788,
      "train_speed(iter/s)": 0.040134
    },
    {
      "epoch": 1.9801980198019802,
      "grad_norm": 2.422858715057373,
      "learning_rate": 5.472653820923564e-06,
      "loss": 0.3978924036026001,
      "memory(GiB)": 76.18,
      "step": 2200,
      "token_acc": 0.8567662565905096,
      "train_speed(iter/s)": 0.040138
    },
    {
      "epoch": 1.9891989198919893,
      "grad_norm": 2.5676939487457275,
      "learning_rate": 5.386225368530995e-06,
      "loss": 0.39810938835144044,
      "memory(GiB)": 76.18,
      "step": 2210,
      "token_acc": 0.8570179274158286,
      "train_speed(iter/s)": 0.04014
    },
    {
      "epoch": 1.9981998199819984,
      "grad_norm": 2.2991700172424316,
      "learning_rate": 5.300232569726805e-06,
      "loss": 0.3851327657699585,
      "memory(GiB)": 76.18,
      "step": 2220,
      "token_acc": 0.8624459120929173,
      "train_speed(iter/s)": 0.040141
    },
    {
      "epoch": 2.007200720072007,
      "grad_norm": 2.1788246631622314,
      "learning_rate": 5.2146835443422215e-06,
      "loss": 0.3738105773925781,
      "memory(GiB)": 76.18,
      "step": 2230,
      "token_acc": 0.8664259927797834,
      "train_speed(iter/s)": 0.04015
    },
    {
      "epoch": 2.016201620162016,
      "grad_norm": 2.2583391666412354,
      "learning_rate": 5.129586370305389e-06,
      "loss": 0.37696280479431155,
      "memory(GiB)": 76.18,
      "step": 2240,
      "token_acc": 0.8627628306579245,
      "train_speed(iter/s)": 0.040149
    },
    {
      "epoch": 2.025202520252025,
      "grad_norm": 2.3937697410583496,
      "learning_rate": 5.0449490828785745e-06,
      "loss": 0.35777480602264405,
      "memory(GiB)": 76.18,
      "step": 2250,
      "token_acc": 0.8723312486521457,
      "train_speed(iter/s)": 0.040148
    },
    {
      "epoch": 2.0342034203420343,
      "grad_norm": 2.3122761249542236,
      "learning_rate": 4.960779673899465e-06,
      "loss": 0.3647487163543701,
      "memory(GiB)": 76.18,
      "step": 2260,
      "token_acc": 0.8682050144220103,
      "train_speed(iter/s)": 0.04015
    },
    {
      "epoch": 2.0432043204320434,
      "grad_norm": 2.3489394187927246,
      "learning_rate": 4.8770860910265315e-06,
      "loss": 0.3610623836517334,
      "memory(GiB)": 76.18,
      "step": 2270,
      "token_acc": 0.8642826367944851,
      "train_speed(iter/s)": 0.040151
    },
    {
      "epoch": 2.052205220522052,
      "grad_norm": 2.564075469970703,
      "learning_rate": 4.793876236988593e-06,
      "loss": 0.3656606674194336,
      "memory(GiB)": 76.18,
      "step": 2280,
      "token_acc": 0.8674548848786559,
      "train_speed(iter/s)": 0.040152
    },
    {
      "epoch": 2.061206120612061,
      "grad_norm": 2.3542511463165283,
      "learning_rate": 4.711157968838577e-06,
      "loss": 0.38109097480773924,
      "memory(GiB)": 76.18,
      "step": 2290,
      "token_acc": 0.8542568542568543,
      "train_speed(iter/s)": 0.040154
    },
    {
      "epoch": 2.07020702070207,
      "grad_norm": 2.5607492923736572,
      "learning_rate": 4.628939097211641e-06,
      "loss": 0.3731189966201782,
      "memory(GiB)": 76.18,
      "step": 2300,
      "token_acc": 0.8808107512667989,
      "train_speed(iter/s)": 0.040155
    },
    {
      "epoch": 2.0792079207920793,
      "grad_norm": 2.4762189388275146,
      "learning_rate": 4.547227385587648e-06,
      "loss": 0.3798922300338745,
      "memory(GiB)": 76.18,
      "step": 2310,
      "token_acc": 0.8597145993413831,
      "train_speed(iter/s)": 0.040157
    },
    {
      "epoch": 2.0882088208820884,
      "grad_norm": 2.485635280609131,
      "learning_rate": 4.466030549558116e-06,
      "loss": 0.3755971670150757,
      "memory(GiB)": 76.18,
      "step": 2320,
      "token_acc": 0.8549968704360525,
      "train_speed(iter/s)": 0.040157
    },
    {
      "epoch": 2.097209720972097,
      "grad_norm": 2.2108871936798096,
      "learning_rate": 4.385356256097656e-06,
      "loss": 0.35892772674560547,
      "memory(GiB)": 76.18,
      "step": 2330,
      "token_acc": 0.8641063515509602,
      "train_speed(iter/s)": 0.040157
    },
    {
      "epoch": 2.106210621062106,
      "grad_norm": 2.559431791305542,
      "learning_rate": 4.305212122840038e-06,
      "loss": 0.36676650047302245,
      "memory(GiB)": 76.18,
      "step": 2340,
      "token_acc": 0.8685561258647624,
      "train_speed(iter/s)": 0.040159
    },
    {
      "epoch": 2.115211521152115,
      "grad_norm": 2.3263328075408936,
      "learning_rate": 4.22560571735889e-06,
      "loss": 0.3723811149597168,
      "memory(GiB)": 76.18,
      "step": 2350,
      "token_acc": 0.8562313908974905,
      "train_speed(iter/s)": 0.04016
    },
    {
      "epoch": 2.1242124212421243,
      "grad_norm": 2.4957282543182373,
      "learning_rate": 4.146544556453146e-06,
      "loss": 0.3725306987762451,
      "memory(GiB)": 76.18,
      "step": 2360,
      "token_acc": 0.8700726712177934,
      "train_speed(iter/s)": 0.040162
    },
    {
      "epoch": 2.1332133213321334,
      "grad_norm": 2.5752525329589844,
      "learning_rate": 4.068036105437259e-06,
      "loss": 0.3709956884384155,
      "memory(GiB)": 76.18,
      "step": 2370,
      "token_acc": 0.8635585970915313,
      "train_speed(iter/s)": 0.040163
    },
    {
      "epoch": 2.142214221422142,
      "grad_norm": 2.509699583053589,
      "learning_rate": 3.990087777436303e-06,
      "loss": 0.37915217876434326,
      "memory(GiB)": 76.18,
      "step": 2380,
      "token_acc": 0.8585365853658536,
      "train_speed(iter/s)": 0.040161
    },
    {
      "epoch": 2.151215121512151,
      "grad_norm": 2.5639617443084717,
      "learning_rate": 3.9127069326859815e-06,
      "loss": 0.36791577339172366,
      "memory(GiB)": 76.18,
      "step": 2390,
      "token_acc": 0.8695652173913043,
      "train_speed(iter/s)": 0.040161
    },
    {
      "epoch": 2.16021602160216,
      "grad_norm": 2.5950934886932373,
      "learning_rate": 3.835900877837665e-06,
      "loss": 0.37401318550109863,
      "memory(GiB)": 76.18,
      "step": 2400,
      "token_acc": 0.8627917026793431,
      "train_speed(iter/s)": 0.04016
    },
    {
      "epoch": 2.1692169216921693,
      "grad_norm": 2.627086639404297,
      "learning_rate": 3.7596768652684324e-06,
      "loss": 0.37379937171936034,
      "memory(GiB)": 76.18,
      "step": 2410,
      "token_acc": 0.8596715717637022,
      "train_speed(iter/s)": 0.040162
    },
    {
      "epoch": 2.1782178217821784,
      "grad_norm": 3.0903186798095703,
      "learning_rate": 3.6840420923962873e-06,
      "loss": 0.36346681118011476,
      "memory(GiB)": 76.18,
      "step": 2420,
      "token_acc": 0.8670668953687821,
      "train_speed(iter/s)": 0.040164
    },
    {
      "epoch": 2.187218721872187,
      "grad_norm": 2.4955599308013916,
      "learning_rate": 3.609003701000535e-06,
      "loss": 0.35879087448120117,
      "memory(GiB)": 76.18,
      "step": 2430,
      "token_acc": 0.8731778425655977,
      "train_speed(iter/s)": 0.040165
    },
    {
      "epoch": 2.196219621962196,
      "grad_norm": 2.3009448051452637,
      "learning_rate": 3.5345687765474444e-06,
      "loss": 0.37301011085510255,
      "memory(GiB)": 76.18,
      "step": 2440,
      "token_acc": 0.8637790332705587,
      "train_speed(iter/s)": 0.040167
    },
    {
      "epoch": 2.205220522052205,
      "grad_norm": 2.5973548889160156,
      "learning_rate": 3.4607443475211745e-06,
      "loss": 0.37910096645355223,
      "memory(GiB)": 76.18,
      "step": 2450,
      "token_acc": 0.862,
      "train_speed(iter/s)": 0.040169
    },
    {
      "epoch": 2.2142214221422143,
      "grad_norm": 2.7337653636932373,
      "learning_rate": 3.3875373847601365e-06,
      "loss": 0.36832966804504397,
      "memory(GiB)": 76.18,
      "step": 2460,
      "token_acc": 0.8709608843537415,
      "train_speed(iter/s)": 0.040171
    },
    {
      "epoch": 2.2232223222322234,
      "grad_norm": 2.4979779720306396,
      "learning_rate": 3.314954800798763e-06,
      "loss": 0.35463604927062986,
      "memory(GiB)": 76.18,
      "step": 2470,
      "token_acc": 0.8807906114885732,
      "train_speed(iter/s)": 0.040173
    },
    {
      "epoch": 2.232223222322232,
      "grad_norm": 2.651418685913086,
      "learning_rate": 3.24300344921481e-06,
      "loss": 0.3576260805130005,
      "memory(GiB)": 76.18,
      "step": 2480,
      "token_acc": 0.8673512154233026,
      "train_speed(iter/s)": 0.040173
    },
    {
      "epoch": 2.241224122412241,
      "grad_norm": 2.2821831703186035,
      "learning_rate": 3.1716901239821918e-06,
      "loss": 0.3680659294128418,
      "memory(GiB)": 76.18,
      "step": 2490,
      "token_acc": 0.8615550755939525,
      "train_speed(iter/s)": 0.040176
    },
    {
      "epoch": 2.25022502250225,
      "grad_norm": 2.532939910888672,
      "learning_rate": 3.1010215588294724e-06,
      "loss": 0.3763418674468994,
      "memory(GiB)": 76.18,
      "step": 2500,
      "token_acc": 0.8679738562091504,
      "train_speed(iter/s)": 0.040176
    },
    {
      "epoch": 2.25022502250225,
      "eval_loss": 0.39449381828308105,
      "eval_runtime": 112.8212,
      "eval_samples_per_second": 12.719,
      "eval_steps_per_second": 0.399,
      "eval_token_acc": 0.8566221142162819,
      "step": 2500
    },
    {
      "epoch": 2.2592259225922593,
      "grad_norm": 2.495901584625244,
      "learning_rate": 3.031004426604044e-06,
      "loss": 0.3614701271057129,
      "memory(GiB)": 76.18,
      "step": 2510,
      "token_acc": 0.8576721210250077,
      "train_speed(iter/s)": 0.040102
    },
    {
      "epoch": 2.2682268226822684,
      "grad_norm": 2.6652517318725586,
      "learning_rate": 2.961645338642032e-06,
      "loss": 0.3705326557159424,
      "memory(GiB)": 76.18,
      "step": 2520,
      "token_acc": 0.8555579261787924,
      "train_speed(iter/s)": 0.040101
    },
    {
      "epoch": 2.2772277227722775,
      "grad_norm": 2.2919044494628906,
      "learning_rate": 2.892950844144028e-06,
      "loss": 0.3567212581634521,
      "memory(GiB)": 76.18,
      "step": 2530,
      "token_acc": 0.8672348060103162,
      "train_speed(iter/s)": 0.0401
    },
    {
      "epoch": 2.286228622862286,
      "grad_norm": 2.7642829418182373,
      "learning_rate": 2.8249274295566863e-06,
      "loss": 0.3735655784606934,
      "memory(GiB)": 76.18,
      "step": 2540,
      "token_acc": 0.8645260611392127,
      "train_speed(iter/s)": 0.040102
    },
    {
      "epoch": 2.295229522952295,
      "grad_norm": 2.2890052795410156,
      "learning_rate": 2.7575815179602527e-06,
      "loss": 0.36810617446899413,
      "memory(GiB)": 76.18,
      "step": 2550,
      "token_acc": 0.8708510638297873,
      "train_speed(iter/s)": 0.040105
    },
    {
      "epoch": 2.3042304230423043,
      "grad_norm": 2.5169107913970947,
      "learning_rate": 2.6909194684620453e-06,
      "loss": 0.3683924674987793,
      "memory(GiB)": 76.18,
      "step": 2560,
      "token_acc": 0.8675250982103885,
      "train_speed(iter/s)": 0.040108
    },
    {
      "epoch": 2.3132313231323134,
      "grad_norm": 2.696864128112793,
      "learning_rate": 2.6249475755960185e-06,
      "loss": 0.3705678701400757,
      "memory(GiB)": 76.18,
      "step": 2570,
      "token_acc": 0.8628597122302158,
      "train_speed(iter/s)": 0.040109
    },
    {
      "epoch": 2.322232223222322,
      "grad_norm": 2.4484846591949463,
      "learning_rate": 2.559672068728398e-06,
      "loss": 0.36278524398803713,
      "memory(GiB)": 76.18,
      "step": 2580,
      "token_acc": 0.8645696810834426,
      "train_speed(iter/s)": 0.04011
    },
    {
      "epoch": 2.331233123312331,
      "grad_norm": 2.4576802253723145,
      "learning_rate": 2.4950991114694755e-06,
      "loss": 0.3606465578079224,
      "memory(GiB)": 76.18,
      "step": 2590,
      "token_acc": 0.8734927015020097,
      "train_speed(iter/s)": 0.040113
    },
    {
      "epoch": 2.34023402340234,
      "grad_norm": 2.6191623210906982,
      "learning_rate": 2.4312348010916088e-06,
      "loss": 0.36288201808929443,
      "memory(GiB)": 76.18,
      "step": 2600,
      "token_acc": 0.8631202691337259,
      "train_speed(iter/s)": 0.040113
    },
    {
      "epoch": 2.3492349234923493,
      "grad_norm": 2.6887686252593994,
      "learning_rate": 2.3680851679535024e-06,
      "loss": 0.3752190589904785,
      "memory(GiB)": 76.18,
      "step": 2610,
      "token_acc": 0.8617521367521368,
      "train_speed(iter/s)": 0.040114
    },
    {
      "epoch": 2.3582358235823584,
      "grad_norm": 2.481362819671631,
      "learning_rate": 2.305656174930776e-06,
      "loss": 0.36593198776245117,
      "memory(GiB)": 76.18,
      "step": 2620,
      "token_acc": 0.8668838219326819,
      "train_speed(iter/s)": 0.040116
    },
    {
      "epoch": 2.3672367236723675,
      "grad_norm": 2.629666328430176,
      "learning_rate": 2.243953716852938e-06,
      "loss": 0.3610795021057129,
      "memory(GiB)": 76.18,
      "step": 2630,
      "token_acc": 0.8612348822406111,
      "train_speed(iter/s)": 0.040117
    },
    {
      "epoch": 2.376237623762376,
      "grad_norm": 2.433375597000122,
      "learning_rate": 2.1829836199467568e-06,
      "loss": 0.3648895263671875,
      "memory(GiB)": 76.18,
      "step": 2640,
      "token_acc": 0.8715654952076677,
      "train_speed(iter/s)": 0.040119
    },
    {
      "epoch": 2.385238523852385,
      "grad_norm": 2.5231969356536865,
      "learning_rate": 2.1227516412861303e-06,
      "loss": 0.34891419410705565,
      "memory(GiB)": 76.18,
      "step": 2650,
      "token_acc": 0.8747478822105688,
      "train_speed(iter/s)": 0.040119
    },
    {
      "epoch": 2.3942394239423943,
      "grad_norm": 2.6941776275634766,
      "learning_rate": 2.063263468248472e-06,
      "loss": 0.35621964931488037,
      "memory(GiB)": 76.18,
      "step": 2660,
      "token_acc": 0.8614357262103506,
      "train_speed(iter/s)": 0.040119
    },
    {
      "epoch": 2.4032403240324034,
      "grad_norm": 2.4811367988586426,
      "learning_rate": 2.0045247179776927e-06,
      "loss": 0.36508636474609374,
      "memory(GiB)": 76.18,
      "step": 2670,
      "token_acc": 0.865956984575277,
      "train_speed(iter/s)": 0.040122
    },
    {
      "epoch": 2.412241224122412,
      "grad_norm": 2.5584983825683594,
      "learning_rate": 1.946540936853787e-06,
      "loss": 0.36142873764038086,
      "memory(GiB)": 76.18,
      "step": 2680,
      "token_acc": 0.8618881118881119,
      "train_speed(iter/s)": 0.040122
    },
    {
      "epoch": 2.421242124212421,
      "grad_norm": 2.639416217803955,
      "learning_rate": 1.8893175999691315e-06,
      "loss": 0.3669375658035278,
      "memory(GiB)": 76.18,
      "step": 2690,
      "token_acc": 0.8706407137064072,
      "train_speed(iter/s)": 0.040123
    },
    {
      "epoch": 2.43024302430243,
      "grad_norm": 2.526108980178833,
      "learning_rate": 1.8328601106114974e-06,
      "loss": 0.36782519817352294,
      "memory(GiB)": 76.18,
      "step": 2700,
      "token_acc": 0.8681867535287731,
      "train_speed(iter/s)": 0.040125
    },
    {
      "epoch": 2.4392439243924393,
      "grad_norm": 2.4853765964508057,
      "learning_rate": 1.7771737997538551e-06,
      "loss": 0.3661306858062744,
      "memory(GiB)": 76.18,
      "step": 2710,
      "token_acc": 0.8591703056768559,
      "train_speed(iter/s)": 0.040126
    },
    {
      "epoch": 2.4482448244824484,
      "grad_norm": 2.546694040298462,
      "learning_rate": 1.7222639255509855e-06,
      "loss": 0.3565016269683838,
      "memory(GiB)": 76.18,
      "step": 2720,
      "token_acc": 0.8700276536907041,
      "train_speed(iter/s)": 0.040126
    },
    {
      "epoch": 2.4572457245724575,
      "grad_norm": 2.6145668029785156,
      "learning_rate": 1.6681356728429909e-06,
      "loss": 0.3617668628692627,
      "memory(GiB)": 76.18,
      "step": 2730,
      "token_acc": 0.8759859772129711,
      "train_speed(iter/s)": 0.040127
    },
    {
      "epoch": 2.466246624662466,
      "grad_norm": 2.4962821006774902,
      "learning_rate": 1.6147941526657151e-06,
      "loss": 0.36135101318359375,
      "memory(GiB)": 76.18,
      "step": 2740,
      "token_acc": 0.8689489751417357,
      "train_speed(iter/s)": 0.040127
    },
    {
      "epoch": 2.4752475247524752,
      "grad_norm": 2.476327896118164,
      "learning_rate": 1.5622444017681438e-06,
      "loss": 0.3584137916564941,
      "memory(GiB)": 76.18,
      "step": 2750,
      "token_acc": 0.8637279033340792,
      "train_speed(iter/s)": 0.040128
    },
    {
      "epoch": 2.4842484248424843,
      "grad_norm": 2.5135715007781982,
      "learning_rate": 1.5104913821367995e-06,
      "loss": 0.352571439743042,
      "memory(GiB)": 76.18,
      "step": 2760,
      "token_acc": 0.8638624119353502,
      "train_speed(iter/s)": 0.040127
    },
    {
      "epoch": 2.4932493249324934,
      "grad_norm": 2.535942316055298,
      "learning_rate": 1.4595399805272138e-06,
      "loss": 0.35703449249267577,
      "memory(GiB)": 76.18,
      "step": 2770,
      "token_acc": 0.8715143715143715,
      "train_speed(iter/s)": 0.040129
    },
    {
      "epoch": 2.502250225022502,
      "grad_norm": 2.5901577472686768,
      "learning_rate": 1.409395008002501e-06,
      "loss": 0.3632636070251465,
      "memory(GiB)": 76.18,
      "step": 2780,
      "token_acc": 0.8740141137401412,
      "train_speed(iter/s)": 0.040131
    },
    {
      "epoch": 2.511251125112511,
      "grad_norm": 2.4865550994873047,
      "learning_rate": 1.3600611994790737e-06,
      "loss": 0.36820478439331056,
      "memory(GiB)": 76.18,
      "step": 2790,
      "token_acc": 0.8674225904928042,
      "train_speed(iter/s)": 0.040131
    },
    {
      "epoch": 2.5202520252025202,
      "grad_norm": 2.745784044265747,
      "learning_rate": 1.311543213279548e-06,
      "loss": 0.36357576847076417,
      "memory(GiB)": 76.18,
      "step": 2800,
      "token_acc": 0.8688079619995476,
      "train_speed(iter/s)": 0.040134
    },
    {
      "epoch": 2.5292529252925293,
      "grad_norm": 2.613213300704956,
      "learning_rate": 1.2638456306928838e-06,
      "loss": 0.35836281776428225,
      "memory(GiB)": 76.18,
      "step": 2810,
      "token_acc": 0.8775203775203775,
      "train_speed(iter/s)": 0.040135
    },
    {
      "epoch": 2.5382538253825384,
      "grad_norm": 2.856757879257202,
      "learning_rate": 1.2169729555418008e-06,
      "loss": 0.35776748657226565,
      "memory(GiB)": 76.18,
      "step": 2820,
      "token_acc": 0.8681778169014085,
      "train_speed(iter/s)": 0.040136
    },
    {
      "epoch": 2.5472547254725475,
      "grad_norm": 2.5222392082214355,
      "learning_rate": 1.1709296137575088e-06,
      "loss": 0.357517409324646,
      "memory(GiB)": 76.18,
      "step": 2830,
      "token_acc": 0.8692437684833122,
      "train_speed(iter/s)": 0.040138
    },
    {
      "epoch": 2.556255625562556,
      "grad_norm": 2.6644461154937744,
      "learning_rate": 1.1257199529617846e-06,
      "loss": 0.3525848388671875,
      "memory(GiB)": 76.18,
      "step": 2840,
      "token_acc": 0.8726828274597678,
      "train_speed(iter/s)": 0.04014
    },
    {
      "epoch": 2.5652565256525652,
      "grad_norm": 3.0361390113830566,
      "learning_rate": 1.0813482420564569e-06,
      "loss": 0.36429810523986816,
      "memory(GiB)": 76.18,
      "step": 2850,
      "token_acc": 0.8605402909258831,
      "train_speed(iter/s)": 0.040142
    },
    {
      "epoch": 2.5742574257425743,
      "grad_norm": 2.2939305305480957,
      "learning_rate": 1.0378186708203097e-06,
      "loss": 0.3595736026763916,
      "memory(GiB)": 76.18,
      "step": 2860,
      "token_acc": 0.8699784017278618,
      "train_speed(iter/s)": 0.040145
    },
    {
      "epoch": 2.5832583258325834,
      "grad_norm": 2.8929970264434814,
      "learning_rate": 9.951353495134741e-07,
      "loss": 0.3722720146179199,
      "memory(GiB)": 76.18,
      "step": 2870,
      "token_acc": 0.8633415343323642,
      "train_speed(iter/s)": 0.040147
    },
    {
      "epoch": 2.592259225922592,
      "grad_norm": 2.766711711883545,
      "learning_rate": 9.533023084893112e-07,
      "loss": 0.3628982067108154,
      "memory(GiB)": 76.18,
      "step": 2880,
      "token_acc": 0.8731262220291115,
      "train_speed(iter/s)": 0.040148
    },
    {
      "epoch": 2.601260126012601,
      "grad_norm": 2.6322643756866455,
      "learning_rate": 9.123234978138485e-07,
      "loss": 0.3563962459564209,
      "memory(GiB)": 76.18,
      "step": 2890,
      "token_acc": 0.8709398007795582,
      "train_speed(iter/s)": 0.040149
    },
    {
      "epoch": 2.6102610261026102,
      "grad_norm": 2.3969507217407227,
      "learning_rate": 8.722027868927973e-07,
      "loss": 0.3593640089035034,
      "memory(GiB)": 76.18,
      "step": 2900,
      "token_acc": 0.8687513763488218,
      "train_speed(iter/s)": 0.040149
    },
    {
      "epoch": 2.6192619261926193,
      "grad_norm": 2.662048101425171,
      "learning_rate": 8.32943964106192e-07,
      "loss": 0.36847290992736814,
      "memory(GiB)": 76.18,
      "step": 2910,
      "token_acc": 0.8610752688172043,
      "train_speed(iter/s)": 0.040152
    },
    {
      "epoch": 2.6282628262826284,
      "grad_norm": 2.6064634323120117,
      "learning_rate": 7.945507364506632e-07,
      "loss": 0.3641893625259399,
      "memory(GiB)": 76.18,
      "step": 2920,
      "token_acc": 0.8610666056305791,
      "train_speed(iter/s)": 0.040154
    },
    {
      "epoch": 2.6372637263726375,
      "grad_norm": 2.4192819595336914,
      "learning_rate": 7.57026729189414e-07,
      "loss": 0.3702700138092041,
      "memory(GiB)": 76.18,
      "step": 2930,
      "token_acc": 0.8613074204946997,
      "train_speed(iter/s)": 0.040157
    },
    {
      "epoch": 2.646264626462646,
      "grad_norm": 2.3483784198760986,
      "learning_rate": 7.203754855099009e-07,
      "loss": 0.36264016628265383,
      "memory(GiB)": 76.18,
      "step": 2940,
      "token_acc": 0.8588575238941987,
      "train_speed(iter/s)": 0.04016
    },
    {
      "epoch": 2.6552655265526552,
      "grad_norm": 2.5846633911132812,
      "learning_rate": 6.846004661892813e-07,
      "loss": 0.37308740615844727,
      "memory(GiB)": 76.18,
      "step": 2950,
      "token_acc": 0.8615806304248516,
      "train_speed(iter/s)": 0.040161
    },
    {
      "epoch": 2.6642664266426643,
      "grad_norm": 2.6962997913360596,
      "learning_rate": 6.497050492676126e-07,
      "loss": 0.36321473121643066,
      "memory(GiB)": 76.18,
      "step": 2960,
      "token_acc": 0.8618261826182618,
      "train_speed(iter/s)": 0.040163
    },
    {
      "epoch": 2.6732673267326734,
      "grad_norm": 2.416895627975464,
      "learning_rate": 6.156925297288996e-07,
      "loss": 0.34958364963531496,
      "memory(GiB)": 76.18,
      "step": 2970,
      "token_acc": 0.8714713430282293,
      "train_speed(iter/s)": 0.040164
    },
    {
      "epoch": 2.682268226822682,
      "grad_norm": 2.3380393981933594,
      "learning_rate": 5.825661191899534e-07,
      "loss": 0.36399097442626954,
      "memory(GiB)": 76.18,
      "step": 2980,
      "token_acc": 0.8697334479793637,
      "train_speed(iter/s)": 0.040165
    },
    {
      "epoch": 2.691269126912691,
      "grad_norm": 2.4997997283935547,
      "learning_rate": 5.503289455971495e-07,
      "loss": 0.3497540235519409,
      "memory(GiB)": 76.18,
      "step": 2990,
      "token_acc": 0.8589799476896252,
      "train_speed(iter/s)": 0.040167
    },
    {
      "epoch": 2.7002700270027002,
      "grad_norm": 2.7024405002593994,
      "learning_rate": 5.18984052931063e-07,
      "loss": 0.36266303062438965,
      "memory(GiB)": 76.18,
      "step": 3000,
      "token_acc": 0.8634655532359081,
      "train_speed(iter/s)": 0.040168
    },
    {
      "epoch": 2.7002700270027002,
      "eval_loss": 0.3909822702407837,
      "eval_runtime": 113.741,
      "eval_samples_per_second": 12.616,
      "eval_steps_per_second": 0.396,
      "eval_token_acc": 0.8578371810449574,
      "step": 3000
    },
    {
      "epoch": 2.7092709270927093,
      "grad_norm": 2.7375988960266113,
      "learning_rate": 4.885344009190429e-07,
      "loss": 0.36505513191223143,
      "memory(GiB)": 76.18,
      "step": 3010,
      "token_acc": 0.8647040722125346,
      "train_speed(iter/s)": 0.040096
    },
    {
      "epoch": 2.7182718271827184,
      "grad_norm": 2.5784595012664795,
      "learning_rate": 4.5898286475574483e-07,
      "loss": 0.36314241886138915,
      "memory(GiB)": 76.18,
      "step": 3020,
      "token_acc": 0.8750795334040297,
      "train_speed(iter/s)": 0.040096
    },
    {
      "epoch": 2.7272727272727275,
      "grad_norm": 2.59897518157959,
      "learning_rate": 4.30332234831643e-07,
      "loss": 0.3617940664291382,
      "memory(GiB)": 76.18,
      "step": 3030,
      "token_acc": 0.8697020562316408,
      "train_speed(iter/s)": 0.040097
    },
    {
      "epoch": 2.736273627362736,
      "grad_norm": 2.331024646759033,
      "learning_rate": 4.025852164695432e-07,
      "loss": 0.35245676040649415,
      "memory(GiB)": 76.18,
      "step": 3040,
      "token_acc": 0.8609855820959759,
      "train_speed(iter/s)": 0.040098
    },
    {
      "epoch": 2.7452745274527453,
      "grad_norm": 2.9060468673706055,
      "learning_rate": 3.7574442966913816e-07,
      "loss": 0.37049217224121095,
      "memory(GiB)": 76.18,
      "step": 3050,
      "token_acc": 0.8594235033259423,
      "train_speed(iter/s)": 0.040099
    },
    {
      "epoch": 2.7542754275427543,
      "grad_norm": 2.7476565837860107,
      "learning_rate": 3.498124088596133e-07,
      "loss": 0.35335454940795896,
      "memory(GiB)": 76.18,
      "step": 3060,
      "token_acc": 0.8769035532994924,
      "train_speed(iter/s)": 0.040098
    },
    {
      "epoch": 2.7632763276327634,
      "grad_norm": 2.47446346282959,
      "learning_rate": 3.2479160266033595e-07,
      "loss": 0.3646056652069092,
      "memory(GiB)": 76.18,
      "step": 3070,
      "token_acc": 0.8609637488947833,
      "train_speed(iter/s)": 0.040099
    },
    {
      "epoch": 2.772277227722772,
      "grad_norm": 2.518899440765381,
      "learning_rate": 3.0068437364964563e-07,
      "loss": 0.36437718868255614,
      "memory(GiB)": 76.18,
      "step": 3080,
      "token_acc": 0.8751534997953336,
      "train_speed(iter/s)": 0.040101
    },
    {
      "epoch": 2.781278127812781,
      "grad_norm": 2.4832963943481445,
      "learning_rate": 2.774929981417662e-07,
      "loss": 0.36618633270263673,
      "memory(GiB)": 76.18,
      "step": 3090,
      "token_acc": 0.8648288128056915,
      "train_speed(iter/s)": 0.040101
    },
    {
      "epoch": 2.7902790279027903,
      "grad_norm": 2.6481244564056396,
      "learning_rate": 2.5521966597186976e-07,
      "loss": 0.3651879787445068,
      "memory(GiB)": 76.18,
      "step": 3100,
      "token_acc": 0.8597326082030364,
      "train_speed(iter/s)": 0.040102
    },
    {
      "epoch": 2.7992799279927993,
      "grad_norm": 2.6947715282440186,
      "learning_rate": 2.3386648028930093e-07,
      "loss": 0.35363340377807617,
      "memory(GiB)": 76.18,
      "step": 3110,
      "token_acc": 0.8761429758935994,
      "train_speed(iter/s)": 0.040104
    },
    {
      "epoch": 2.8082808280828084,
      "grad_norm": 2.7126548290252686,
      "learning_rate": 2.134354573589825e-07,
      "loss": 0.3739881753921509,
      "memory(GiB)": 76.18,
      "step": 3120,
      "token_acc": 0.8569641367806505,
      "train_speed(iter/s)": 0.040106
    },
    {
      "epoch": 2.8172817281728175,
      "grad_norm": 2.6334176063537598,
      "learning_rate": 1.939285263710411e-07,
      "loss": 0.37378754615783694,
      "memory(GiB)": 76.18,
      "step": 3130,
      "token_acc": 0.8621212121212121,
      "train_speed(iter/s)": 0.040109
    },
    {
      "epoch": 2.826282628262826,
      "grad_norm": 2.6771504878997803,
      "learning_rate": 1.7534752925863264e-07,
      "loss": 0.3727731227874756,
      "memory(GiB)": 76.18,
      "step": 3140,
      "token_acc": 0.8573262032085561,
      "train_speed(iter/s)": 0.040111
    },
    {
      "epoch": 2.8352835283528353,
      "grad_norm": 2.7885513305664062,
      "learning_rate": 1.5769422052403172e-07,
      "loss": 0.3634767770767212,
      "memory(GiB)": 76.18,
      "step": 3150,
      "token_acc": 0.8657498362802881,
      "train_speed(iter/s)": 0.040111
    },
    {
      "epoch": 2.8442844284428443,
      "grad_norm": 2.770448684692383,
      "learning_rate": 1.409702670729518e-07,
      "loss": 0.3641348123550415,
      "memory(GiB)": 76.18,
      "step": 3160,
      "token_acc": 0.8695652173913043,
      "train_speed(iter/s)": 0.040111
    },
    {
      "epoch": 2.8532853285328534,
      "grad_norm": 2.716731309890747,
      "learning_rate": 1.2517724805715115e-07,
      "loss": 0.36133828163146975,
      "memory(GiB)": 76.18,
      "step": 3170,
      "token_acc": 0.8693168837103039,
      "train_speed(iter/s)": 0.040112
    },
    {
      "epoch": 2.862286228622862,
      "grad_norm": 2.320976734161377,
      "learning_rate": 1.1031665472532871e-07,
      "loss": 0.3573209285736084,
      "memory(GiB)": 76.18,
      "step": 3180,
      "token_acc": 0.8647353517752123,
      "train_speed(iter/s)": 0.040115
    },
    {
      "epoch": 2.871287128712871,
      "grad_norm": 2.6834940910339355,
      "learning_rate": 9.638989028230572e-08,
      "loss": 0.3642300605773926,
      "memory(GiB)": 76.18,
      "step": 3190,
      "token_acc": 0.8666237113402062,
      "train_speed(iter/s)": 0.040116
    },
    {
      "epoch": 2.8802880288028803,
      "grad_norm": 2.8395378589630127,
      "learning_rate": 8.339826975653165e-08,
      "loss": 0.3668497562408447,
      "memory(GiB)": 76.18,
      "step": 3200,
      "token_acc": 0.8565969880872106,
      "train_speed(iter/s)": 0.040118
    },
    {
      "epoch": 2.8892889288928894,
      "grad_norm": 2.8500564098358154,
      "learning_rate": 7.134301987591686e-08,
      "loss": 0.35763015747070315,
      "memory(GiB)": 76.18,
      "step": 3210,
      "token_acc": 0.8680448647459864,
      "train_speed(iter/s)": 0.04012
    },
    {
      "epoch": 2.8982898289828984,
      "grad_norm": 2.391807794570923,
      "learning_rate": 6.022527895198971e-08,
      "loss": 0.3681647300720215,
      "memory(GiB)": 76.18,
      "step": 3220,
      "token_acc": 0.8623626989464246,
      "train_speed(iter/s)": 0.040122
    },
    {
      "epoch": 2.9072907290729075,
      "grad_norm": 2.870159149169922,
      "learning_rate": 5.004609677242478e-08,
      "loss": 0.3709531307220459,
      "memory(GiB)": 76.18,
      "step": 3230,
      "token_acc": 0.8634751773049646,
      "train_speed(iter/s)": 0.040123
    },
    {
      "epoch": 2.916291629162916,
      "grad_norm": 2.3860719203948975,
      "learning_rate": 4.0806434501907686e-08,
      "loss": 0.3573091745376587,
      "memory(GiB)": 76.18,
      "step": 3240,
      "token_acc": 0.8636980108499096,
      "train_speed(iter/s)": 0.040125
    },
    {
      "epoch": 2.9252925292529253,
      "grad_norm": 2.533841609954834,
      "learning_rate": 3.2507164591378817e-08,
      "loss": 0.35629446506500245,
      "memory(GiB)": 76.18,
      "step": 3250,
      "token_acc": 0.8767689962987154,
      "train_speed(iter/s)": 0.040126
    },
    {
      "epoch": 2.9342934293429344,
      "grad_norm": 2.7338736057281494,
      "learning_rate": 2.5149070695656974e-08,
      "loss": 0.36386995315551757,
      "memory(GiB)": 76.18,
      "step": 3260,
      "token_acc": 0.8695070265447246,
      "train_speed(iter/s)": 0.040129
    },
    {
      "epoch": 2.9432943294329434,
      "grad_norm": 2.5814294815063477,
      "learning_rate": 1.873284759943861e-08,
      "loss": 0.3609006881713867,
      "memory(GiB)": 76.18,
      "step": 3270,
      "token_acc": 0.8714535137494543,
      "train_speed(iter/s)": 0.040129
    },
    {
      "epoch": 2.952295229522952,
      "grad_norm": 2.6087794303894043,
      "learning_rate": 1.325910115169471e-08,
      "loss": 0.36290225982666013,
      "memory(GiB)": 76.18,
      "step": 3280,
      "token_acc": 0.8663007683863886,
      "train_speed(iter/s)": 0.04013
    },
    {
      "epoch": 2.961296129612961,
      "grad_norm": 2.4624176025390625,
      "learning_rate": 8.728348208466575e-09,
      "loss": 0.36122841835021974,
      "memory(GiB)": 76.18,
      "step": 3290,
      "token_acc": 0.8651804670912951,
      "train_speed(iter/s)": 0.040133
    },
    {
      "epoch": 2.9702970297029703,
      "grad_norm": 2.5794880390167236,
      "learning_rate": 5.1410165840548586e-09,
      "loss": 0.35005528926849366,
      "memory(GiB)": 76.18,
      "step": 3300,
      "token_acc": 0.873643074250977,
      "train_speed(iter/s)": 0.040135
    },
    {
      "epoch": 2.9792979297929794,
      "grad_norm": 2.730228900909424,
      "learning_rate": 2.4974450106318715e-09,
      "loss": 0.3484092473983765,
      "memory(GiB)": 76.18,
      "step": 3310,
      "token_acc": 0.8741692512184316,
      "train_speed(iter/s)": 0.040137
    },
    {
      "epoch": 2.9882988298829884,
      "grad_norm": 2.4973952770233154,
      "learning_rate": 7.978831062493975e-10,
      "loss": 0.360276198387146,
      "memory(GiB)": 76.18,
      "step": 3320,
      "token_acc": 0.8717892425905598,
      "train_speed(iter/s)": 0.040139
    },
    {
      "epoch": 2.9972997299729975,
      "grad_norm": 2.646111488342285,
      "learning_rate": 4.249135127420978e-11,
      "loss": 0.34623007774353026,
      "memory(GiB)": 76.18,
      "step": 3330,
      "token_acc": 0.8752749670039596,
      "train_speed(iter/s)": 0.040141
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.3906257748603821,
      "eval_runtime": 111.4189,
      "eval_samples_per_second": 12.879,
      "eval_steps_per_second": 0.404,
      "eval_token_acc": 0.8578371810449574,
      "step": 3333
    }
  ],
  "logging_steps": 10,
  "max_steps": 3333,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.3350909053056844e+19,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}