{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 6.666666666666667, "eval_steps": 100, "global_step": 100, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.06666666666666667, "grad_norm": 0.733142614364624, "learning_rate": 0.0, "loss": 2.7474, "step": 1 }, { "epoch": 0.13333333333333333, "grad_norm": 0.7082222700119019, "learning_rate": 1e-05, "loss": 2.8671, "step": 2 }, { "epoch": 0.2, "grad_norm": 0.7156753540039062, "learning_rate": 2e-05, "loss": 2.8479, "step": 3 }, { "epoch": 0.26666666666666666, "grad_norm": 0.7719346880912781, "learning_rate": 3e-05, "loss": 2.8989, "step": 4 }, { "epoch": 0.3333333333333333, "grad_norm": 0.814845085144043, "learning_rate": 4e-05, "loss": 2.7546, "step": 5 }, { "epoch": 0.4, "grad_norm": 0.8349032402038574, "learning_rate": 5e-05, "loss": 2.8458, "step": 6 }, { "epoch": 0.4666666666666667, "grad_norm": 1.065384030342102, "learning_rate": 6e-05, "loss": 2.8249, "step": 7 }, { "epoch": 0.5333333333333333, "grad_norm": 0.6681477427482605, "learning_rate": 7e-05, "loss": 2.7824, "step": 8 }, { "epoch": 0.6, "grad_norm": 1.0740437507629395, "learning_rate": 8e-05, "loss": 2.9306, "step": 9 }, { "epoch": 0.6666666666666666, "grad_norm": 1.0546737909317017, "learning_rate": 9e-05, "loss": 2.939, "step": 10 }, { "epoch": 0.7333333333333333, "grad_norm": 0.9720574617385864, "learning_rate": 0.0001, "loss": 2.7357, "step": 11 }, { "epoch": 0.8, "grad_norm": 0.983596920967102, "learning_rate": 9.888888888888889e-05, "loss": 2.6738, "step": 12 }, { "epoch": 0.8666666666666667, "grad_norm": 0.9169068932533264, "learning_rate": 9.777777777777778e-05, "loss": 2.6552, "step": 13 }, { "epoch": 0.9333333333333333, "grad_norm": 0.8015550374984741, "learning_rate": 9.666666666666667e-05, "loss": 2.5642, "step": 14 }, { "epoch": 1.0, "grad_norm": 0.8038486242294312, "learning_rate": 9.555555555555557e-05, "loss": 2.4029, "step": 15 }, { "epoch": 1.0666666666666667, "grad_norm": 0.8706344366073608, "learning_rate": 9.444444444444444e-05, "loss": 2.6234, "step": 16 }, { "epoch": 1.1333333333333333, "grad_norm": 0.677805483341217, "learning_rate": 9.333333333333334e-05, "loss": 2.4712, "step": 17 }, { "epoch": 1.2, "grad_norm": 0.668885350227356, "learning_rate": 9.222222222222223e-05, "loss": 2.4324, "step": 18 }, { "epoch": 1.2666666666666666, "grad_norm": 0.621063232421875, "learning_rate": 9.111111111111112e-05, "loss": 2.4978, "step": 19 }, { "epoch": 1.3333333333333333, "grad_norm": 0.5217775106430054, "learning_rate": 9e-05, "loss": 2.5097, "step": 20 }, { "epoch": 1.4, "grad_norm": 0.5018688440322876, "learning_rate": 8.888888888888889e-05, "loss": 2.2759, "step": 21 }, { "epoch": 1.4666666666666668, "grad_norm": 0.4376298785209656, "learning_rate": 8.777777777777778e-05, "loss": 2.365, "step": 22 }, { "epoch": 1.5333333333333332, "grad_norm": 0.5041708946228027, "learning_rate": 8.666666666666667e-05, "loss": 2.3715, "step": 23 }, { "epoch": 1.6, "grad_norm": 0.4602866768836975, "learning_rate": 8.555555555555556e-05, "loss": 2.1463, "step": 24 }, { "epoch": 1.6666666666666665, "grad_norm": 0.6645720601081848, "learning_rate": 8.444444444444444e-05, "loss": 2.1332, "step": 25 }, { "epoch": 1.7333333333333334, "grad_norm": 0.7342559099197388, "learning_rate": 8.333333333333334e-05, "loss": 2.2053, "step": 26 }, { "epoch": 1.8, "grad_norm": 0.5737171173095703, "learning_rate": 8.222222222222222e-05, "loss": 2.0652, "step": 27 }, { "epoch": 1.8666666666666667, "grad_norm": 0.6144342422485352, "learning_rate": 8.111111111111112e-05, "loss": 1.9382, "step": 28 }, { "epoch": 1.9333333333333333, "grad_norm": 0.5887655019760132, "learning_rate": 8e-05, "loss": 1.8721, "step": 29 }, { "epoch": 2.0, "grad_norm": 0.7062218189239502, "learning_rate": 7.88888888888889e-05, "loss": 2.0372, "step": 30 }, { "epoch": 2.066666666666667, "grad_norm": 0.7043253779411316, "learning_rate": 7.777777777777778e-05, "loss": 1.8838, "step": 31 }, { "epoch": 2.1333333333333333, "grad_norm": 0.5582801699638367, "learning_rate": 7.666666666666667e-05, "loss": 1.8038, "step": 32 }, { "epoch": 2.2, "grad_norm": 0.6259142756462097, "learning_rate": 7.555555555555556e-05, "loss": 1.7119, "step": 33 }, { "epoch": 2.2666666666666666, "grad_norm": 0.5368759036064148, "learning_rate": 7.444444444444444e-05, "loss": 1.6938, "step": 34 }, { "epoch": 2.3333333333333335, "grad_norm": 0.49931296706199646, "learning_rate": 7.333333333333333e-05, "loss": 1.8223, "step": 35 }, { "epoch": 2.4, "grad_norm": 0.4806089401245117, "learning_rate": 7.222222222222222e-05, "loss": 1.726, "step": 36 }, { "epoch": 2.466666666666667, "grad_norm": 0.4066745638847351, "learning_rate": 7.111111111111112e-05, "loss": 1.6725, "step": 37 }, { "epoch": 2.533333333333333, "grad_norm": 0.4452306032180786, "learning_rate": 7e-05, "loss": 1.6484, "step": 38 }, { "epoch": 2.6, "grad_norm": 0.34567996859550476, "learning_rate": 6.88888888888889e-05, "loss": 1.6381, "step": 39 }, { "epoch": 2.6666666666666665, "grad_norm": 0.3328630030155182, "learning_rate": 6.777777777777778e-05, "loss": 1.6572, "step": 40 }, { "epoch": 2.7333333333333334, "grad_norm": 0.36440032720565796, "learning_rate": 6.666666666666667e-05, "loss": 1.7318, "step": 41 }, { "epoch": 2.8, "grad_norm": 0.33294692635536194, "learning_rate": 6.555555555555556e-05, "loss": 1.7912, "step": 42 }, { "epoch": 2.8666666666666667, "grad_norm": 0.31701400876045227, "learning_rate": 6.444444444444446e-05, "loss": 1.7404, "step": 43 }, { "epoch": 2.9333333333333336, "grad_norm": 0.30862560868263245, "learning_rate": 6.333333333333333e-05, "loss": 1.6505, "step": 44 }, { "epoch": 3.0, "grad_norm": 0.2848629951477051, "learning_rate": 6.222222222222222e-05, "loss": 1.6235, "step": 45 }, { "epoch": 3.066666666666667, "grad_norm": 0.28497689962387085, "learning_rate": 6.111111111111112e-05, "loss": 1.5434, "step": 46 }, { "epoch": 3.1333333333333333, "grad_norm": 0.3002818822860718, "learning_rate": 6e-05, "loss": 1.6097, "step": 47 }, { "epoch": 3.2, "grad_norm": 0.33632948994636536, "learning_rate": 5.8888888888888896e-05, "loss": 1.6355, "step": 48 }, { "epoch": 3.2666666666666666, "grad_norm": 0.30760228633880615, "learning_rate": 5.7777777777777776e-05, "loss": 1.5129, "step": 49 }, { "epoch": 3.3333333333333335, "grad_norm": 0.30270498991012573, "learning_rate": 5.666666666666667e-05, "loss": 1.4779, "step": 50 }, { "epoch": 3.4, "grad_norm": 0.2827644348144531, "learning_rate": 5.555555555555556e-05, "loss": 1.5369, "step": 51 }, { "epoch": 3.466666666666667, "grad_norm": 0.2687201499938965, "learning_rate": 5.4444444444444446e-05, "loss": 1.6235, "step": 52 }, { "epoch": 3.533333333333333, "grad_norm": 0.2946271002292633, "learning_rate": 5.333333333333333e-05, "loss": 1.3945, "step": 53 }, { "epoch": 3.6, "grad_norm": 0.35983872413635254, "learning_rate": 5.222222222222223e-05, "loss": 1.366, "step": 54 }, { "epoch": 3.6666666666666665, "grad_norm": 0.3201320767402649, "learning_rate": 5.111111111111111e-05, "loss": 1.3845, "step": 55 }, { "epoch": 3.7333333333333334, "grad_norm": 0.3141458332538605, "learning_rate": 5e-05, "loss": 1.4633, "step": 56 }, { "epoch": 3.8, "grad_norm": 0.2921360433101654, "learning_rate": 4.888888888888889e-05, "loss": 1.4951, "step": 57 }, { "epoch": 3.8666666666666667, "grad_norm": 0.28471639752388, "learning_rate": 4.7777777777777784e-05, "loss": 1.3276, "step": 58 }, { "epoch": 3.9333333333333336, "grad_norm": 0.2909541428089142, "learning_rate": 4.666666666666667e-05, "loss": 1.5276, "step": 59 }, { "epoch": 4.0, "grad_norm": 0.2951456606388092, "learning_rate": 4.555555555555556e-05, "loss": 1.198, "step": 60 }, { "epoch": 4.066666666666666, "grad_norm": 0.3027033507823944, "learning_rate": 4.4444444444444447e-05, "loss": 1.4048, "step": 61 }, { "epoch": 4.133333333333334, "grad_norm": 0.30131033062934875, "learning_rate": 4.3333333333333334e-05, "loss": 1.22, "step": 62 }, { "epoch": 4.2, "grad_norm": 0.3127223253250122, "learning_rate": 4.222222222222222e-05, "loss": 1.514, "step": 63 }, { "epoch": 4.266666666666667, "grad_norm": 0.3008202910423279, "learning_rate": 4.111111111111111e-05, "loss": 1.3467, "step": 64 }, { "epoch": 4.333333333333333, "grad_norm": 0.28429150581359863, "learning_rate": 4e-05, "loss": 1.3054, "step": 65 }, { "epoch": 4.4, "grad_norm": 0.3230237066745758, "learning_rate": 3.888888888888889e-05, "loss": 1.3287, "step": 66 }, { "epoch": 4.466666666666667, "grad_norm": 0.31111180782318115, "learning_rate": 3.777777777777778e-05, "loss": 1.3407, "step": 67 }, { "epoch": 4.533333333333333, "grad_norm": 0.31739020347595215, "learning_rate": 3.6666666666666666e-05, "loss": 1.3904, "step": 68 }, { "epoch": 4.6, "grad_norm": 0.3273875415325165, "learning_rate": 3.555555555555556e-05, "loss": 1.455, "step": 69 }, { "epoch": 4.666666666666667, "grad_norm": 0.3052203059196472, "learning_rate": 3.444444444444445e-05, "loss": 1.3952, "step": 70 }, { "epoch": 4.733333333333333, "grad_norm": 0.2899569272994995, "learning_rate": 3.3333333333333335e-05, "loss": 1.2909, "step": 71 }, { "epoch": 4.8, "grad_norm": 0.276749849319458, "learning_rate": 3.222222222222223e-05, "loss": 1.2101, "step": 72 }, { "epoch": 4.866666666666667, "grad_norm": 0.3540794849395752, "learning_rate": 3.111111111111111e-05, "loss": 1.3549, "step": 73 }, { "epoch": 4.933333333333334, "grad_norm": 0.32609379291534424, "learning_rate": 3e-05, "loss": 1.2117, "step": 74 }, { "epoch": 5.0, "grad_norm": 0.2820020318031311, "learning_rate": 2.8888888888888888e-05, "loss": 1.1956, "step": 75 }, { "epoch": 5.066666666666666, "grad_norm": 0.3044751286506653, "learning_rate": 2.777777777777778e-05, "loss": 1.2652, "step": 76 }, { "epoch": 5.133333333333334, "grad_norm": 0.3216099739074707, "learning_rate": 2.6666666666666667e-05, "loss": 1.2025, "step": 77 }, { "epoch": 5.2, "grad_norm": 0.3329092860221863, "learning_rate": 2.5555555555555554e-05, "loss": 1.2819, "step": 78 }, { "epoch": 5.266666666666667, "grad_norm": 0.31766918301582336, "learning_rate": 2.4444444444444445e-05, "loss": 1.3804, "step": 79 }, { "epoch": 5.333333333333333, "grad_norm": 0.3335654139518738, "learning_rate": 2.3333333333333336e-05, "loss": 1.173, "step": 80 }, { "epoch": 5.4, "grad_norm": 0.3530268371105194, "learning_rate": 2.2222222222222223e-05, "loss": 1.2424, "step": 81 }, { "epoch": 5.466666666666667, "grad_norm": 0.31249693036079407, "learning_rate": 2.111111111111111e-05, "loss": 1.3019, "step": 82 }, { "epoch": 5.533333333333333, "grad_norm": 0.3150791823863983, "learning_rate": 2e-05, "loss": 1.2267, "step": 83 }, { "epoch": 5.6, "grad_norm": 0.33219119906425476, "learning_rate": 1.888888888888889e-05, "loss": 1.3542, "step": 84 }, { "epoch": 5.666666666666667, "grad_norm": 0.3171168863773346, "learning_rate": 1.777777777777778e-05, "loss": 1.1991, "step": 85 }, { "epoch": 5.733333333333333, "grad_norm": 0.34596115350723267, "learning_rate": 1.6666666666666667e-05, "loss": 1.2592, "step": 86 }, { "epoch": 5.8, "grad_norm": 0.3701634705066681, "learning_rate": 1.5555555555555555e-05, "loss": 1.2076, "step": 87 }, { "epoch": 5.866666666666667, "grad_norm": 0.29532861709594727, "learning_rate": 1.4444444444444444e-05, "loss": 1.1813, "step": 88 }, { "epoch": 5.933333333333334, "grad_norm": 0.33255264163017273, "learning_rate": 1.3333333333333333e-05, "loss": 1.1249, "step": 89 }, { "epoch": 6.0, "grad_norm": 0.3383205831050873, "learning_rate": 1.2222222222222222e-05, "loss": 1.106, "step": 90 }, { "epoch": 6.066666666666666, "grad_norm": 0.36962229013442993, "learning_rate": 1.1111111111111112e-05, "loss": 1.1753, "step": 91 }, { "epoch": 6.133333333333334, "grad_norm": 0.32880401611328125, "learning_rate": 1e-05, "loss": 1.1999, "step": 92 }, { "epoch": 6.2, "grad_norm": 0.30431675910949707, "learning_rate": 8.88888888888889e-06, "loss": 1.2455, "step": 93 }, { "epoch": 6.266666666666667, "grad_norm": 0.3235240876674652, "learning_rate": 7.777777777777777e-06, "loss": 1.2734, "step": 94 }, { "epoch": 6.333333333333333, "grad_norm": 0.37093859910964966, "learning_rate": 6.666666666666667e-06, "loss": 1.0349, "step": 95 }, { "epoch": 6.4, "grad_norm": 0.29784905910491943, "learning_rate": 5.555555555555556e-06, "loss": 1.2052, "step": 96 }, { "epoch": 6.466666666666667, "grad_norm": 0.3389764130115509, "learning_rate": 4.444444444444445e-06, "loss": 1.104, "step": 97 }, { "epoch": 6.533333333333333, "grad_norm": 0.35047677159309387, "learning_rate": 3.3333333333333333e-06, "loss": 1.3427, "step": 98 }, { "epoch": 6.6, "grad_norm": 0.39436471462249756, "learning_rate": 2.2222222222222225e-06, "loss": 1.1728, "step": 99 }, { "epoch": 6.666666666666667, "grad_norm": 0.30415549874305725, "learning_rate": 1.1111111111111112e-06, "loss": 1.1293, "step": 100 } ], "logging_steps": 1, "max_steps": 100, "num_input_tokens_seen": 0, "num_train_epochs": 7, "save_steps": 10, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2654950269517824.0, "train_batch_size": 4, "trial_name": null, "trial_params": null }