{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 6.666666666666667,
  "eval_steps": 100,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 0.733142614364624,
      "learning_rate": 0.0,
      "loss": 2.7474,
      "step": 1
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.7082222700119019,
      "learning_rate": 1e-05,
      "loss": 2.8671,
      "step": 2
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7156753540039062,
      "learning_rate": 2e-05,
      "loss": 2.8479,
      "step": 3
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.7719346880912781,
      "learning_rate": 3e-05,
      "loss": 2.8989,
      "step": 4
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.814845085144043,
      "learning_rate": 4e-05,
      "loss": 2.7546,
      "step": 5
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8349032402038574,
      "learning_rate": 5e-05,
      "loss": 2.8458,
      "step": 6
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 1.065384030342102,
      "learning_rate": 6e-05,
      "loss": 2.8249,
      "step": 7
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.6681477427482605,
      "learning_rate": 7e-05,
      "loss": 2.7824,
      "step": 8
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0740437507629395,
      "learning_rate": 8e-05,
      "loss": 2.9306,
      "step": 9
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 1.0546737909317017,
      "learning_rate": 9e-05,
      "loss": 2.939,
      "step": 10
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 0.9720574617385864,
      "learning_rate": 0.0001,
      "loss": 2.7357,
      "step": 11
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.983596920967102,
      "learning_rate": 9.888888888888889e-05,
      "loss": 2.6738,
      "step": 12
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 0.9169068932533264,
      "learning_rate": 9.777777777777778e-05,
      "loss": 2.6552,
      "step": 13
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.8015550374984741,
      "learning_rate": 9.666666666666667e-05,
      "loss": 2.5642,
      "step": 14
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.8038486242294312,
      "learning_rate": 9.555555555555557e-05,
      "loss": 2.4029,
      "step": 15
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.8706344366073608,
      "learning_rate": 9.444444444444444e-05,
      "loss": 2.6234,
      "step": 16
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 0.677805483341217,
      "learning_rate": 9.333333333333334e-05,
      "loss": 2.4712,
      "step": 17
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.668885350227356,
      "learning_rate": 9.222222222222223e-05,
      "loss": 2.4324,
      "step": 18
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 0.621063232421875,
      "learning_rate": 9.111111111111112e-05,
      "loss": 2.4978,
      "step": 19
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.5217775106430054,
      "learning_rate": 9e-05,
      "loss": 2.5097,
      "step": 20
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.5018688440322876,
      "learning_rate": 8.888888888888889e-05,
      "loss": 2.2759,
      "step": 21
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 0.4376298785209656,
      "learning_rate": 8.777777777777778e-05,
      "loss": 2.365,
      "step": 22
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 0.5041708946228027,
      "learning_rate": 8.666666666666667e-05,
      "loss": 2.3715,
      "step": 23
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4602866768836975,
      "learning_rate": 8.555555555555556e-05,
      "loss": 2.1463,
      "step": 24
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.6645720601081848,
      "learning_rate": 8.444444444444444e-05,
      "loss": 2.1332,
      "step": 25
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 0.7342559099197388,
      "learning_rate": 8.333333333333334e-05,
      "loss": 2.2053,
      "step": 26
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5737171173095703,
      "learning_rate": 8.222222222222222e-05,
      "loss": 2.0652,
      "step": 27
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 0.6144342422485352,
      "learning_rate": 8.111111111111112e-05,
      "loss": 1.9382,
      "step": 28
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 0.5887655019760132,
      "learning_rate": 8e-05,
      "loss": 1.8721,
      "step": 29
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.7062218189239502,
      "learning_rate": 7.88888888888889e-05,
      "loss": 2.0372,
      "step": 30
    },
    {
      "epoch": 2.066666666666667,
      "grad_norm": 0.7043253779411316,
      "learning_rate": 7.777777777777778e-05,
      "loss": 1.8838,
      "step": 31
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 0.5582801699638367,
      "learning_rate": 7.666666666666667e-05,
      "loss": 1.8038,
      "step": 32
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6259142756462097,
      "learning_rate": 7.555555555555556e-05,
      "loss": 1.7119,
      "step": 33
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 0.5368759036064148,
      "learning_rate": 7.444444444444444e-05,
      "loss": 1.6938,
      "step": 34
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.49931296706199646,
      "learning_rate": 7.333333333333333e-05,
      "loss": 1.8223,
      "step": 35
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.4806089401245117,
      "learning_rate": 7.222222222222222e-05,
      "loss": 1.726,
      "step": 36
    },
    {
      "epoch": 2.466666666666667,
      "grad_norm": 0.4066745638847351,
      "learning_rate": 7.111111111111112e-05,
      "loss": 1.6725,
      "step": 37
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 0.4452306032180786,
      "learning_rate": 7e-05,
      "loss": 1.6484,
      "step": 38
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.34567996859550476,
      "learning_rate": 6.88888888888889e-05,
      "loss": 1.6381,
      "step": 39
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.3328630030155182,
      "learning_rate": 6.777777777777778e-05,
      "loss": 1.6572,
      "step": 40
    },
    {
      "epoch": 2.7333333333333334,
      "grad_norm": 0.36440032720565796,
      "learning_rate": 6.666666666666667e-05,
      "loss": 1.7318,
      "step": 41
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.33294692635536194,
      "learning_rate": 6.555555555555556e-05,
      "loss": 1.7912,
      "step": 42
    },
    {
      "epoch": 2.8666666666666667,
      "grad_norm": 0.31701400876045227,
      "learning_rate": 6.444444444444446e-05,
      "loss": 1.7404,
      "step": 43
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 0.30862560868263245,
      "learning_rate": 6.333333333333333e-05,
      "loss": 1.6505,
      "step": 44
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.2848629951477051,
      "learning_rate": 6.222222222222222e-05,
      "loss": 1.6235,
      "step": 45
    },
    {
      "epoch": 3.066666666666667,
      "grad_norm": 0.28497689962387085,
      "learning_rate": 6.111111111111112e-05,
      "loss": 1.5434,
      "step": 46
    },
    {
      "epoch": 3.1333333333333333,
      "grad_norm": 0.3002818822860718,
      "learning_rate": 6e-05,
      "loss": 1.6097,
      "step": 47
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.33632948994636536,
      "learning_rate": 5.8888888888888896e-05,
      "loss": 1.6355,
      "step": 48
    },
    {
      "epoch": 3.2666666666666666,
      "grad_norm": 0.30760228633880615,
      "learning_rate": 5.7777777777777776e-05,
      "loss": 1.5129,
      "step": 49
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.30270498991012573,
      "learning_rate": 5.666666666666667e-05,
      "loss": 1.4779,
      "step": 50
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.2827644348144531,
      "learning_rate": 5.555555555555556e-05,
      "loss": 1.5369,
      "step": 51
    },
    {
      "epoch": 3.466666666666667,
      "grad_norm": 0.2687201499938965,
      "learning_rate": 5.4444444444444446e-05,
      "loss": 1.6235,
      "step": 52
    },
    {
      "epoch": 3.533333333333333,
      "grad_norm": 0.2946271002292633,
      "learning_rate": 5.333333333333333e-05,
      "loss": 1.3945,
      "step": 53
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.35983872413635254,
      "learning_rate": 5.222222222222223e-05,
      "loss": 1.366,
      "step": 54
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 0.3201320767402649,
      "learning_rate": 5.111111111111111e-05,
      "loss": 1.3845,
      "step": 55
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 0.3141458332538605,
      "learning_rate": 5e-05,
      "loss": 1.4633,
      "step": 56
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.2921360433101654,
      "learning_rate": 4.888888888888889e-05,
      "loss": 1.4951,
      "step": 57
    },
    {
      "epoch": 3.8666666666666667,
      "grad_norm": 0.28471639752388,
      "learning_rate": 4.7777777777777784e-05,
      "loss": 1.3276,
      "step": 58
    },
    {
      "epoch": 3.9333333333333336,
      "grad_norm": 0.2909541428089142,
      "learning_rate": 4.666666666666667e-05,
      "loss": 1.5276,
      "step": 59
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.2951456606388092,
      "learning_rate": 4.555555555555556e-05,
      "loss": 1.198,
      "step": 60
    },
    {
      "epoch": 4.066666666666666,
      "grad_norm": 0.3027033507823944,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 1.4048,
      "step": 61
    },
    {
      "epoch": 4.133333333333334,
      "grad_norm": 0.30131033062934875,
      "learning_rate": 4.3333333333333334e-05,
      "loss": 1.22,
      "step": 62
    },
    {
      "epoch": 4.2,
      "grad_norm": 0.3127223253250122,
      "learning_rate": 4.222222222222222e-05,
      "loss": 1.514,
      "step": 63
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 0.3008202910423279,
      "learning_rate": 4.111111111111111e-05,
      "loss": 1.3467,
      "step": 64
    },
    {
      "epoch": 4.333333333333333,
      "grad_norm": 0.28429150581359863,
      "learning_rate": 4e-05,
      "loss": 1.3054,
      "step": 65
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.3230237066745758,
      "learning_rate": 3.888888888888889e-05,
      "loss": 1.3287,
      "step": 66
    },
    {
      "epoch": 4.466666666666667,
      "grad_norm": 0.31111180782318115,
      "learning_rate": 3.777777777777778e-05,
      "loss": 1.3407,
      "step": 67
    },
    {
      "epoch": 4.533333333333333,
      "grad_norm": 0.31739020347595215,
      "learning_rate": 3.6666666666666666e-05,
      "loss": 1.3904,
      "step": 68
    },
    {
      "epoch": 4.6,
      "grad_norm": 0.3273875415325165,
      "learning_rate": 3.555555555555556e-05,
      "loss": 1.455,
      "step": 69
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.3052203059196472,
      "learning_rate": 3.444444444444445e-05,
      "loss": 1.3952,
      "step": 70
    },
    {
      "epoch": 4.733333333333333,
      "grad_norm": 0.2899569272994995,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 1.2909,
      "step": 71
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.276749849319458,
      "learning_rate": 3.222222222222223e-05,
      "loss": 1.2101,
      "step": 72
    },
    {
      "epoch": 4.866666666666667,
      "grad_norm": 0.3540794849395752,
      "learning_rate": 3.111111111111111e-05,
      "loss": 1.3549,
      "step": 73
    },
    {
      "epoch": 4.933333333333334,
      "grad_norm": 0.32609379291534424,
      "learning_rate": 3e-05,
      "loss": 1.2117,
      "step": 74
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.2820020318031311,
      "learning_rate": 2.8888888888888888e-05,
      "loss": 1.1956,
      "step": 75
    },
    {
      "epoch": 5.066666666666666,
      "grad_norm": 0.3044751286506653,
      "learning_rate": 2.777777777777778e-05,
      "loss": 1.2652,
      "step": 76
    },
    {
      "epoch": 5.133333333333334,
      "grad_norm": 0.3216099739074707,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 1.2025,
      "step": 77
    },
    {
      "epoch": 5.2,
      "grad_norm": 0.3329092860221863,
      "learning_rate": 2.5555555555555554e-05,
      "loss": 1.2819,
      "step": 78
    },
    {
      "epoch": 5.266666666666667,
      "grad_norm": 0.31766918301582336,
      "learning_rate": 2.4444444444444445e-05,
      "loss": 1.3804,
      "step": 79
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 0.3335654139518738,
      "learning_rate": 2.3333333333333336e-05,
      "loss": 1.173,
      "step": 80
    },
    {
      "epoch": 5.4,
      "grad_norm": 0.3530268371105194,
      "learning_rate": 2.2222222222222223e-05,
      "loss": 1.2424,
      "step": 81
    },
    {
      "epoch": 5.466666666666667,
      "grad_norm": 0.31249693036079407,
      "learning_rate": 2.111111111111111e-05,
      "loss": 1.3019,
      "step": 82
    },
    {
      "epoch": 5.533333333333333,
      "grad_norm": 0.3150791823863983,
      "learning_rate": 2e-05,
      "loss": 1.2267,
      "step": 83
    },
    {
      "epoch": 5.6,
      "grad_norm": 0.33219119906425476,
      "learning_rate": 1.888888888888889e-05,
      "loss": 1.3542,
      "step": 84
    },
    {
      "epoch": 5.666666666666667,
      "grad_norm": 0.3171168863773346,
      "learning_rate": 1.777777777777778e-05,
      "loss": 1.1991,
      "step": 85
    },
    {
      "epoch": 5.733333333333333,
      "grad_norm": 0.34596115350723267,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 1.2592,
      "step": 86
    },
    {
      "epoch": 5.8,
      "grad_norm": 0.3701634705066681,
      "learning_rate": 1.5555555555555555e-05,
      "loss": 1.2076,
      "step": 87
    },
    {
      "epoch": 5.866666666666667,
      "grad_norm": 0.29532861709594727,
      "learning_rate": 1.4444444444444444e-05,
      "loss": 1.1813,
      "step": 88
    },
    {
      "epoch": 5.933333333333334,
      "grad_norm": 0.33255264163017273,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 1.1249,
      "step": 89
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.3383205831050873,
      "learning_rate": 1.2222222222222222e-05,
      "loss": 1.106,
      "step": 90
    },
    {
      "epoch": 6.066666666666666,
      "grad_norm": 0.36962229013442993,
      "learning_rate": 1.1111111111111112e-05,
      "loss": 1.1753,
      "step": 91
    },
    {
      "epoch": 6.133333333333334,
      "grad_norm": 0.32880401611328125,
      "learning_rate": 1e-05,
      "loss": 1.1999,
      "step": 92
    },
    {
      "epoch": 6.2,
      "grad_norm": 0.30431675910949707,
      "learning_rate": 8.88888888888889e-06,
      "loss": 1.2455,
      "step": 93
    },
    {
      "epoch": 6.266666666666667,
      "grad_norm": 0.3235240876674652,
      "learning_rate": 7.777777777777777e-06,
      "loss": 1.2734,
      "step": 94
    },
    {
      "epoch": 6.333333333333333,
      "grad_norm": 0.37093859910964966,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.0349,
      "step": 95
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.29784905910491943,
      "learning_rate": 5.555555555555556e-06,
      "loss": 1.2052,
      "step": 96
    },
    {
      "epoch": 6.466666666666667,
      "grad_norm": 0.3389764130115509,
      "learning_rate": 4.444444444444445e-06,
      "loss": 1.104,
      "step": 97
    },
    {
      "epoch": 6.533333333333333,
      "grad_norm": 0.35047677159309387,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 1.3427,
      "step": 98
    },
    {
      "epoch": 6.6,
      "grad_norm": 0.39436471462249756,
      "learning_rate": 2.2222222222222225e-06,
      "loss": 1.1728,
      "step": 99
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.30415549874305725,
      "learning_rate": 1.1111111111111112e-06,
      "loss": 1.1293,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 7,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2654950269517824.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}