RigoBERTa-2.0 / trainer_state.json

Initial commit

8de8d3c verified 3 months ago

116 kB

	{
	"best_metric": 1.4579006433486938,
	"best_model_checkpoint": "/home/alejandro.vaca/new_checkpoints_xlm_roberta/checkpoint-78800",
	"epoch": 0.22749530494715703,
	"global_step": 141600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 1.5191565642755143e-09,
	"loss": 2.6373,
	"step": 1
	},
	{
	"epoch": 0.0,
	"learning_rate": 6.076626257102056e-07,
	"loss": 2.2331,
	"step": 400
	},
	{
	"epoch": 0.0,
	"eval_loss": 1.9753497838974,
	"eval_runtime": 146.0905,
	"eval_samples_per_second": 136.901,
	"eval_steps_per_second": 2.143,
	"step": 400
	},
	{
	"epoch": 0.01,
	"learning_rate": 1.2153252514204113e-06,
	"loss": 2.0391,
	"step": 800
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.9167841672897339,
	"eval_runtime": 146.7121,
	"eval_samples_per_second": 136.321,
	"eval_steps_per_second": 2.133,
	"step": 800
	},
	{
	"epoch": 0.01,
	"learning_rate": 1.822987877130617e-06,
	"loss": 1.9963,
	"step": 1200
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.8917230367660522,
	"eval_runtime": 144.3485,
	"eval_samples_per_second": 138.554,
	"eval_steps_per_second": 2.168,
	"step": 1200
	},
	{
	"epoch": 0.01,
	"learning_rate": 2.4306505028408226e-06,
	"loss": 1.9736,
	"step": 1600
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.8841623067855835,
	"eval_runtime": 142.7005,
	"eval_samples_per_second": 140.154,
	"eval_steps_per_second": 2.193,
	"step": 1600
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.0383131285510288e-06,
	"loss": 1.9579,
	"step": 2000
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.8723009824752808,
	"eval_runtime": 144.148,
	"eval_samples_per_second": 138.746,
	"eval_steps_per_second": 2.171,
	"step": 2000
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.645975754261234e-06,
	"loss": 1.9465,
	"step": 2400
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.8523199558258057,
	"eval_runtime": 143.784,
	"eval_samples_per_second": 139.098,
	"eval_steps_per_second": 2.177,
	"step": 2400
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.25363837997144e-06,
	"loss": 1.9352,
	"step": 2800
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.843543529510498,
	"eval_runtime": 146.189,
	"eval_samples_per_second": 136.809,
	"eval_steps_per_second": 2.141,
	"step": 2800
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.861301005681645e-06,
	"loss": 1.9244,
	"step": 3200
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.8356839418411255,
	"eval_runtime": 143.4998,
	"eval_samples_per_second": 139.373,
	"eval_steps_per_second": 2.181,
	"step": 3200
	},
	{
	"epoch": 0.03,
	"learning_rate": 5.468963631391851e-06,
	"loss": 1.9143,
	"step": 3600
	},
	{
	"epoch": 0.03,
	"eval_loss": 1.8183759450912476,
	"eval_runtime": 144.8799,
	"eval_samples_per_second": 138.045,
	"eval_steps_per_second": 2.16,
	"step": 3600
	},
	{
	"epoch": 0.03,
	"learning_rate": 6.0766262571020576e-06,
	"loss": 1.9042,
	"step": 4000
	},
	{
	"epoch": 0.03,
	"eval_loss": 1.8169724941253662,
	"eval_runtime": 145.0112,
	"eval_samples_per_second": 137.92,
	"eval_steps_per_second": 2.158,
	"step": 4000
	},
	{
	"epoch": 0.03,
	"learning_rate": 6.684288882812263e-06,
	"loss": 1.8971,
	"step": 4400
	},
	{
	"epoch": 0.03,
	"eval_loss": 1.808371901512146,
	"eval_runtime": 147.4613,
	"eval_samples_per_second": 135.629,
	"eval_steps_per_second": 2.123,
	"step": 4400
	},
	{
	"epoch": 0.04,
	"learning_rate": 7.291951508522468e-06,
	"loss": 1.888,
	"step": 4800
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.8037678003311157,
	"eval_runtime": 150.0493,
	"eval_samples_per_second": 133.29,
	"eval_steps_per_second": 2.086,
	"step": 4800
	},
	{
	"epoch": 0.04,
	"learning_rate": 7.899614134232675e-06,
	"loss": 1.8809,
	"step": 5200
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.7955741882324219,
	"eval_runtime": 148.2714,
	"eval_samples_per_second": 134.888,
	"eval_steps_per_second": 2.111,
	"step": 5200
	},
	{
	"epoch": 0.04,
	"learning_rate": 8.50727675994288e-06,
	"loss": 1.8741,
	"step": 5600
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.7888526916503906,
	"eval_runtime": 147.2993,
	"eval_samples_per_second": 135.778,
	"eval_steps_per_second": 2.125,
	"step": 5600
	},
	{
	"epoch": 0.04,
	"learning_rate": 9.114939385653086e-06,
	"loss": 1.8685,
	"step": 6000
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.785848617553711,
	"eval_runtime": 143.6092,
	"eval_samples_per_second": 139.267,
	"eval_steps_per_second": 2.18,
	"step": 6000
	},
	{
	"epoch": 0.05,
	"learning_rate": 9.72260201136329e-06,
	"loss": 1.8589,
	"step": 6400
	},
	{
	"epoch": 0.05,
	"eval_loss": 1.781029462814331,
	"eval_runtime": 147.7751,
	"eval_samples_per_second": 135.341,
	"eval_steps_per_second": 2.118,
	"step": 6400
	},
	{
	"epoch": 0.05,
	"learning_rate": 1.0330264637073497e-05,
	"loss": 1.8544,
	"step": 6800
	},
	{
	"epoch": 0.05,
	"eval_loss": 1.7769867181777954,
	"eval_runtime": 147.2523,
	"eval_samples_per_second": 135.821,
	"eval_steps_per_second": 2.126,
	"step": 6800
	},
	{
	"epoch": 0.05,
	"learning_rate": 1.0937927262783703e-05,
	"loss": 1.8481,
	"step": 7200
	},
	{
	"epoch": 0.05,
	"eval_loss": 1.7637484073638916,
	"eval_runtime": 143.1769,
	"eval_samples_per_second": 139.687,
	"eval_steps_per_second": 2.186,
	"step": 7200
	},
	{
	"epoch": 0.06,
	"learning_rate": 1.1545589888493909e-05,
	"loss": 1.8428,
	"step": 7600
	},
	{
	"epoch": 0.06,
	"eval_loss": 1.756960391998291,
	"eval_runtime": 145.8319,
	"eval_samples_per_second": 137.144,
	"eval_steps_per_second": 2.146,
	"step": 7600
	},
	{
	"epoch": 0.06,
	"learning_rate": 1.2153252514204115e-05,
	"loss": 1.8373,
	"step": 8000
	},
	{
	"epoch": 0.06,
	"eval_loss": 1.7565785646438599,
	"eval_runtime": 144.3741,
	"eval_samples_per_second": 138.529,
	"eval_steps_per_second": 2.168,
	"step": 8000
	},
	{
	"epoch": 0.06,
	"learning_rate": 1.276091513991432e-05,
	"loss": 1.8304,
	"step": 8400
	},
	{
	"epoch": 0.06,
	"eval_loss": 1.742794156074524,
	"eval_runtime": 146.6168,
	"eval_samples_per_second": 136.41,
	"eval_steps_per_second": 2.135,
	"step": 8400
	},
	{
	"epoch": 0.06,
	"learning_rate": 1.3368577765624526e-05,
	"loss": 1.8259,
	"step": 8800
	},
	{
	"epoch": 0.06,
	"eval_loss": 1.7337759733200073,
	"eval_runtime": 145.9226,
	"eval_samples_per_second": 137.059,
	"eval_steps_per_second": 2.145,
	"step": 8800
	},
	{
	"epoch": 0.07,
	"learning_rate": 1.3976240391334734e-05,
	"loss": 1.8219,
	"step": 9200
	},
	{
	"epoch": 0.07,
	"eval_loss": 1.7424650192260742,
	"eval_runtime": 145.6453,
	"eval_samples_per_second": 137.32,
	"eval_steps_per_second": 2.149,
	"step": 9200
	},
	{
	"epoch": 0.07,
	"learning_rate": 1.4583903017044936e-05,
	"loss": 1.8162,
	"step": 9600
	},
	{
	"epoch": 0.07,
	"eval_loss": 1.7316113710403442,
	"eval_runtime": 145.2248,
	"eval_samples_per_second": 137.718,
	"eval_steps_per_second": 2.155,
	"step": 9600
	},
	{
	"epoch": 0.07,
	"learning_rate": 1.5191565642755143e-05,
	"loss": 1.8112,
	"step": 10000
	},
	{
	"epoch": 0.07,
	"eval_loss": 1.7247357368469238,
	"eval_runtime": 146.3969,
	"eval_samples_per_second": 136.615,
	"eval_steps_per_second": 2.138,
	"step": 10000
	},
	{
	"epoch": 0.08,
	"learning_rate": 1.579922826846535e-05,
	"loss": 1.807,
	"step": 10400
	},
	{
	"epoch": 0.08,
	"eval_loss": 1.725953459739685,
	"eval_runtime": 144.2953,
	"eval_samples_per_second": 138.605,
	"eval_steps_per_second": 2.169,
	"step": 10400
	},
	{
	"epoch": 0.08,
	"learning_rate": 1.6406890894175555e-05,
	"loss": 1.8034,
	"step": 10800
	},
	{
	"epoch": 0.08,
	"eval_loss": 1.721238136291504,
	"eval_runtime": 145.7833,
	"eval_samples_per_second": 137.19,
	"eval_steps_per_second": 2.147,
	"step": 10800
	},
	{
	"epoch": 0.08,
	"learning_rate": 1.701455351988576e-05,
	"loss": 1.7984,
	"step": 11200
	},
	{
	"epoch": 0.08,
	"eval_loss": 1.7204127311706543,
	"eval_runtime": 147.5961,
	"eval_samples_per_second": 135.505,
	"eval_steps_per_second": 2.121,
	"step": 11200
	},
	{
	"epoch": 0.08,
	"learning_rate": 1.7622216145595964e-05,
	"loss": 1.7944,
	"step": 11600
	},
	{
	"epoch": 0.08,
	"eval_loss": 1.7186585664749146,
	"eval_runtime": 143.1913,
	"eval_samples_per_second": 139.673,
	"eval_steps_per_second": 2.186,
	"step": 11600
	},
	{
	"epoch": 0.09,
	"learning_rate": 1.8229878771306172e-05,
	"loss": 1.7915,
	"step": 12000
	},
	{
	"epoch": 0.09,
	"eval_loss": 1.7116312980651855,
	"eval_runtime": 149.8115,
	"eval_samples_per_second": 133.501,
	"eval_steps_per_second": 2.089,
	"step": 12000
	},
	{
	"epoch": 0.09,
	"learning_rate": 1.883754139701638e-05,
	"loss": 1.7864,
	"step": 12400
	},
	{
	"epoch": 0.09,
	"eval_loss": 1.705054521560669,
	"eval_runtime": 147.1783,
	"eval_samples_per_second": 135.89,
	"eval_steps_per_second": 2.127,
	"step": 12400
	},
	{
	"epoch": 0.09,
	"learning_rate": 1.944520402272658e-05,
	"loss": 1.7819,
	"step": 12800
	},
	{
	"epoch": 0.09,
	"eval_loss": 1.6974027156829834,
	"eval_runtime": 151.8787,
	"eval_samples_per_second": 131.684,
	"eval_steps_per_second": 2.061,
	"step": 12800
	},
	{
	"epoch": 0.1,
	"learning_rate": 2.005286664843679e-05,
	"loss": 1.7751,
	"step": 13200
	},
	{
	"epoch": 0.1,
	"eval_loss": 1.7015215158462524,
	"eval_runtime": 166.3617,
	"eval_samples_per_second": 120.22,
	"eval_steps_per_second": 1.881,
	"step": 13200
	},
	{
	"epoch": 0.1,
	"learning_rate": 2.0660529274146993e-05,
	"loss": 1.774,
	"step": 13600
	},
	{
	"epoch": 0.1,
	"eval_loss": 1.697357177734375,
	"eval_runtime": 210.2219,
	"eval_samples_per_second": 95.138,
	"eval_steps_per_second": 1.489,
	"step": 13600
	},
	{
	"epoch": 0.1,
	"learning_rate": 2.12681918998572e-05,
	"loss": 1.7685,
	"step": 14000
	},
	{
	"epoch": 0.1,
	"eval_loss": 1.7000294923782349,
	"eval_runtime": 388.8288,
	"eval_samples_per_second": 51.437,
	"eval_steps_per_second": 0.805,
	"step": 14000
	},
	{
	"epoch": 0.11,
	"learning_rate": 2.1875854525567406e-05,
	"loss": 1.7656,
	"step": 14400
	},
	{
	"epoch": 0.11,
	"eval_loss": 1.6891347169876099,
	"eval_runtime": 149.9008,
	"eval_samples_per_second": 133.422,
	"eval_steps_per_second": 2.088,
	"step": 14400
	},
	{
	"epoch": 0.11,
	"learning_rate": 2.248351715127761e-05,
	"loss": 1.7601,
	"step": 14800
	},
	{
	"epoch": 0.11,
	"eval_loss": 1.691114902496338,
	"eval_runtime": 148.0615,
	"eval_samples_per_second": 135.079,
	"eval_steps_per_second": 2.114,
	"step": 14800
	},
	{
	"epoch": 0.11,
	"learning_rate": 2.3091179776987818e-05,
	"loss": 1.7574,
	"step": 15200
	},
	{
	"epoch": 0.11,
	"eval_loss": 1.6803953647613525,
	"eval_runtime": 162.6955,
	"eval_samples_per_second": 122.929,
	"eval_steps_per_second": 1.924,
	"step": 15200
	},
	{
	"epoch": 0.11,
	"learning_rate": 2.3698842402698022e-05,
	"loss": 1.7528,
	"step": 15600
	},
	{
	"epoch": 0.11,
	"eval_loss": 1.6794207096099854,
	"eval_runtime": 152.5086,
	"eval_samples_per_second": 131.14,
	"eval_steps_per_second": 2.052,
	"step": 15600
	},
	{
	"epoch": 0.12,
	"learning_rate": 2.430650502840823e-05,
	"loss": 1.7494,
	"step": 16000
	},
	{
	"epoch": 0.12,
	"eval_loss": 1.6750398874282837,
	"eval_runtime": 150.7356,
	"eval_samples_per_second": 132.683,
	"eval_steps_per_second": 2.076,
	"step": 16000
	},
	{
	"epoch": 0.12,
	"learning_rate": 2.4914167654118435e-05,
	"loss": 1.7441,
	"step": 16400
	},
	{
	"epoch": 0.12,
	"eval_loss": 1.6635680198669434,
	"eval_runtime": 158.1954,
	"eval_samples_per_second": 126.426,
	"eval_steps_per_second": 1.979,
	"step": 16400
	},
	{
	"epoch": 0.12,
	"learning_rate": 2.552183027982864e-05,
	"loss": 1.7405,
	"step": 16800
	},
	{
	"epoch": 0.12,
	"eval_loss": 1.660568118095398,
	"eval_runtime": 144.9472,
	"eval_samples_per_second": 137.981,
	"eval_steps_per_second": 2.159,
	"step": 16800
	},
	{
	"epoch": 0.13,
	"learning_rate": 2.6129492905538844e-05,
	"loss": 1.7373,
	"step": 17200
	},
	{
	"epoch": 0.13,
	"eval_loss": 1.6654884815216064,
	"eval_runtime": 161.3267,
	"eval_samples_per_second": 123.972,
	"eval_steps_per_second": 1.94,
	"step": 17200
	},
	{
	"epoch": 0.13,
	"learning_rate": 2.673715553124905e-05,
	"loss": 1.7336,
	"step": 17600
	},
	{
	"epoch": 0.13,
	"eval_loss": 1.6575931310653687,
	"eval_runtime": 248.169,
	"eval_samples_per_second": 80.59,
	"eval_steps_per_second": 1.261,
	"step": 17600
	},
	{
	"epoch": 0.13,
	"learning_rate": 2.7344818156959256e-05,
	"loss": 1.7291,
	"step": 18000
	},
	{
	"epoch": 0.13,
	"eval_loss": 1.6604431867599487,
	"eval_runtime": 145.1056,
	"eval_samples_per_second": 137.831,
	"eval_steps_per_second": 2.157,
	"step": 18000
	},
	{
	"epoch": 0.13,
	"learning_rate": 2.7952480782669467e-05,
	"loss": 1.7243,
	"step": 18400
	},
	{
	"epoch": 0.13,
	"eval_loss": 1.6801910400390625,
	"eval_runtime": 153.7947,
	"eval_samples_per_second": 130.043,
	"eval_steps_per_second": 2.035,
	"step": 18400
	},
	{
	"epoch": 0.14,
	"learning_rate": 2.856014340837967e-05,
	"loss": 1.7214,
	"step": 18800
	},
	{
	"epoch": 0.14,
	"eval_loss": 1.6495254039764404,
	"eval_runtime": 148.9903,
	"eval_samples_per_second": 134.237,
	"eval_steps_per_second": 2.101,
	"step": 18800
	},
	{
	"epoch": 0.14,
	"learning_rate": 2.9167806034089873e-05,
	"loss": 1.7178,
	"step": 19200
	},
	{
	"epoch": 0.14,
	"eval_loss": 1.6446107625961304,
	"eval_runtime": 149.3174,
	"eval_samples_per_second": 133.943,
	"eval_steps_per_second": 2.096,
	"step": 19200
	},
	{
	"epoch": 0.14,
	"learning_rate": 2.977546865980008e-05,
	"loss": 1.7146,
	"step": 19600
	},
	{
	"epoch": 0.14,
	"eval_loss": 1.641605019569397,
	"eval_runtime": 154.456,
	"eval_samples_per_second": 129.487,
	"eval_steps_per_second": 2.026,
	"step": 19600
	},
	{
	"epoch": 0.15,
	"learning_rate": 3.0383131285510285e-05,
	"loss": 1.7118,
	"step": 20000
	},
	{
	"epoch": 0.15,
	"eval_loss": 1.6381052732467651,
	"eval_runtime": 151.3863,
	"eval_samples_per_second": 132.112,
	"eval_steps_per_second": 2.068,
	"step": 20000
	},
	{
	"epoch": 0.15,
	"learning_rate": 3.099079391122049e-05,
	"loss": 1.7083,
	"step": 20400
	},
	{
	"epoch": 0.15,
	"eval_loss": 1.6341092586517334,
	"eval_runtime": 238.9093,
	"eval_samples_per_second": 83.714,
	"eval_steps_per_second": 1.31,
	"step": 20400
	},
	{
	"epoch": 0.15,
	"learning_rate": 3.15984565369307e-05,
	"loss": 1.7062,
	"step": 20800
	},
	{
	"epoch": 0.15,
	"eval_loss": 1.6292831897735596,
	"eval_runtime": 152.4932,
	"eval_samples_per_second": 131.153,
	"eval_steps_per_second": 2.053,
	"step": 20800
	},
	{
	"epoch": 0.15,
	"learning_rate": 3.22061191626409e-05,
	"loss": 1.7054,
	"step": 21200
	},
	{
	"epoch": 0.15,
	"eval_loss": 1.6273330450057983,
	"eval_runtime": 151.097,
	"eval_samples_per_second": 132.365,
	"eval_steps_per_second": 2.072,
	"step": 21200
	},
	{
	"epoch": 0.16,
	"learning_rate": 3.281378178835111e-05,
	"loss": 1.7012,
	"step": 21600
	},
	{
	"epoch": 0.16,
	"eval_loss": 1.6267642974853516,
	"eval_runtime": 149.0125,
	"eval_samples_per_second": 134.217,
	"eval_steps_per_second": 2.1,
	"step": 21600
	},
	{
	"epoch": 0.16,
	"learning_rate": 3.3421444414061314e-05,
	"loss": 1.6993,
	"step": 22000
	},
	{
	"epoch": 0.16,
	"eval_loss": 1.6256201267242432,
	"eval_runtime": 149.4973,
	"eval_samples_per_second": 133.782,
	"eval_steps_per_second": 2.094,
	"step": 22000
	},
	{
	"epoch": 0.16,
	"learning_rate": 3.402910703977152e-05,
	"loss": 1.697,
	"step": 22400
	},
	{
	"epoch": 0.16,
	"eval_loss": 1.6158908605575562,
	"eval_runtime": 152.4757,
	"eval_samples_per_second": 131.168,
	"eval_steps_per_second": 2.053,
	"step": 22400
	},
	{
	"epoch": 0.17,
	"learning_rate": 3.463676966548173e-05,
	"loss": 1.6938,
	"step": 22800
	},
	{
	"epoch": 0.17,
	"eval_loss": 1.6134721040725708,
	"eval_runtime": 152.3857,
	"eval_samples_per_second": 131.246,
	"eval_steps_per_second": 2.054,
	"step": 22800
	},
	{
	"epoch": 0.17,
	"learning_rate": 3.524443229119193e-05,
	"loss": 1.6923,
	"step": 23200
	},
	{
	"epoch": 0.17,
	"eval_loss": 1.6194721460342407,
	"eval_runtime": 149.9763,
	"eval_samples_per_second": 133.354,
	"eval_steps_per_second": 2.087,
	"step": 23200
	},
	{
	"epoch": 0.17,
	"learning_rate": 3.585209491690214e-05,
	"loss": 1.6888,
	"step": 23600
	},
	{
	"epoch": 0.17,
	"eval_loss": 1.6149234771728516,
	"eval_runtime": 150.7266,
	"eval_samples_per_second": 132.691,
	"eval_steps_per_second": 2.077,
	"step": 23600
	},
	{
	"epoch": 0.18,
	"learning_rate": 3.6459757542612344e-05,
	"loss": 1.687,
	"step": 24000
	},
	{
	"epoch": 0.18,
	"eval_loss": 1.6148015260696411,
	"eval_runtime": 152.1295,
	"eval_samples_per_second": 131.467,
	"eval_steps_per_second": 2.057,
	"step": 24000
	},
	{
	"epoch": 0.18,
	"learning_rate": 3.706742016832255e-05,
	"loss": 1.6886,
	"step": 24400
	},
	{
	"epoch": 0.18,
	"eval_loss": 1.6169975996017456,
	"eval_runtime": 152.146,
	"eval_samples_per_second": 131.453,
	"eval_steps_per_second": 2.057,
	"step": 24400
	},
	{
	"epoch": 0.18,
	"learning_rate": 3.767508279403276e-05,
	"loss": 1.6865,
	"step": 24800
	},
	{
	"epoch": 0.18,
	"eval_loss": 1.6124180555343628,
	"eval_runtime": 174.6369,
	"eval_samples_per_second": 114.523,
	"eval_steps_per_second": 1.792,
	"step": 24800
	},
	{
	"epoch": 0.18,
	"learning_rate": 3.828274541974296e-05,
	"loss": 1.6829,
	"step": 25200
	},
	{
	"epoch": 0.18,
	"eval_loss": 1.6170154809951782,
	"eval_runtime": 262.8027,
	"eval_samples_per_second": 76.103,
	"eval_steps_per_second": 1.191,
	"step": 25200
	},
	{
	"epoch": 0.19,
	"learning_rate": 3.889040804545316e-05,
	"loss": 1.6813,
	"step": 25600
	},
	{
	"epoch": 0.19,
	"eval_loss": 1.6040676832199097,
	"eval_runtime": 255.431,
	"eval_samples_per_second": 78.299,
	"eval_steps_per_second": 1.225,
	"step": 25600
	},
	{
	"epoch": 0.19,
	"learning_rate": 3.949807067116337e-05,
	"loss": 1.6806,
	"step": 26000
	},
	{
	"epoch": 0.19,
	"eval_loss": 1.6070351600646973,
	"eval_runtime": 151.6507,
	"eval_samples_per_second": 131.882,
	"eval_steps_per_second": 2.064,
	"step": 26000
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.010573329687358e-05,
	"loss": 1.6763,
	"step": 26400
	},
	{
	"epoch": 0.19,
	"eval_loss": 1.599661946296692,
	"eval_runtime": 150.2287,
	"eval_samples_per_second": 133.13,
	"eval_steps_per_second": 2.083,
	"step": 26400
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.071339592258379e-05,
	"loss": 1.6733,
	"step": 26800
	},
	{
	"epoch": 0.2,
	"eval_loss": 1.6072720289230347,
	"eval_runtime": 152.0466,
	"eval_samples_per_second": 131.539,
	"eval_steps_per_second": 2.059,
	"step": 26800
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.1321058548293986e-05,
	"loss": 1.6695,
	"step": 27200
	},
	{
	"epoch": 0.2,
	"eval_loss": 1.6115573644638062,
	"eval_runtime": 148.9069,
	"eval_samples_per_second": 134.312,
	"eval_steps_per_second": 2.102,
	"step": 27200
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.192872117400419e-05,
	"loss": 1.6687,
	"step": 27600
	},
	{
	"epoch": 0.2,
	"eval_loss": 1.611473798751831,
	"eval_runtime": 158.4393,
	"eval_samples_per_second": 126.231,
	"eval_steps_per_second": 1.976,
	"step": 27600
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.25363837997144e-05,
	"loss": 1.6673,
	"step": 28000
	},
	{
	"epoch": 0.2,
	"eval_loss": 1.606929898262024,
	"eval_runtime": 159.9938,
	"eval_samples_per_second": 125.005,
	"eval_steps_per_second": 1.956,
	"step": 28000
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.3144046425424607e-05,
	"loss": 1.6655,
	"step": 28400
	},
	{
	"epoch": 0.21,
	"eval_loss": 1.5869165658950806,
	"eval_runtime": 154.5639,
	"eval_samples_per_second": 129.396,
	"eval_steps_per_second": 2.025,
	"step": 28400
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.375170905113481e-05,
	"loss": 1.6622,
	"step": 28800
	},
	{
	"epoch": 0.21,
	"eval_loss": 1.6052591800689697,
	"eval_runtime": 368.5722,
	"eval_samples_per_second": 54.263,
	"eval_steps_per_second": 0.849,
	"step": 28800
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.4359371676845016e-05,
	"loss": 1.6598,
	"step": 29200
	},
	{
	"epoch": 0.21,
	"eval_loss": 1.58935546875,
	"eval_runtime": 152.6646,
	"eval_samples_per_second": 131.006,
	"eval_steps_per_second": 2.05,
	"step": 29200
	},
	{
	"epoch": 0.22,
	"learning_rate": 4.496703430255522e-05,
	"loss": 1.659,
	"step": 29600
	},
	{
	"epoch": 0.22,
	"eval_loss": 1.5808852910995483,
	"eval_runtime": 155.4857,
	"eval_samples_per_second": 128.629,
	"eval_steps_per_second": 2.013,
	"step": 29600
	},
	{
	"epoch": 0.22,
	"learning_rate": 4.557469692826543e-05,
	"loss": 1.6583,
	"step": 30000
	},
	{
	"epoch": 0.22,
	"eval_loss": 1.588645100593567,
	"eval_runtime": 277.2998,
	"eval_samples_per_second": 72.124,
	"eval_steps_per_second": 1.129,
	"step": 30000
	},
	{
	"epoch": 0.22,
	"learning_rate": 4.6182359553975636e-05,
	"loss": 1.6555,
	"step": 30400
	},
	{
	"epoch": 0.22,
	"eval_loss": 1.5864471197128296,
	"eval_runtime": 161.6086,
	"eval_samples_per_second": 123.756,
	"eval_steps_per_second": 1.937,
	"step": 30400
	},
	{
	"epoch": 0.22,
	"learning_rate": 4.679002217968584e-05,
	"loss": 1.6559,
	"step": 30800
	},
	{
	"epoch": 0.22,
	"eval_loss": 1.583774209022522,
	"eval_runtime": 346.1205,
	"eval_samples_per_second": 57.783,
	"eval_steps_per_second": 0.904,
	"step": 30800
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.7397684805396045e-05,
	"loss": 1.6522,
	"step": 31200
	},
	{
	"epoch": 0.23,
	"eval_loss": 1.5791034698486328,
	"eval_runtime": 326.2692,
	"eval_samples_per_second": 61.299,
	"eval_steps_per_second": 0.959,
	"step": 31200
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.800534743110625e-05,
	"loss": 1.6499,
	"step": 31600
	},
	{
	"epoch": 0.23,
	"eval_loss": 1.5826290845870972,
	"eval_runtime": 175.7208,
	"eval_samples_per_second": 113.817,
	"eval_steps_per_second": 1.781,
	"step": 31600
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.861301005681646e-05,
	"loss": 1.6506,
	"step": 32000
	},
	{
	"epoch": 0.23,
	"eval_loss": 1.5759295225143433,
	"eval_runtime": 317.0144,
	"eval_samples_per_second": 63.089,
	"eval_steps_per_second": 0.987,
	"step": 32000
	},
	{
	"epoch": 0.24,
	"learning_rate": 4.9220672682526665e-05,
	"loss": 1.6498,
	"step": 32400
	},
	{
	"epoch": 0.24,
	"eval_loss": 1.5828478336334229,
	"eval_runtime": 219.1147,
	"eval_samples_per_second": 91.276,
	"eval_steps_per_second": 1.428,
	"step": 32400
	},
	{
	"epoch": 0.24,
	"learning_rate": 4.982833530823687e-05,
	"loss": 1.6473,
	"step": 32800
	},
	{
	"epoch": 0.24,
	"eval_loss": 1.572839617729187,
	"eval_runtime": 188.3492,
	"eval_samples_per_second": 106.186,
	"eval_steps_per_second": 1.662,
	"step": 32800
	},
	{
	"epoch": 0.24,
	"learning_rate": 4.99405445046135e-05,
	"loss": 1.644,
	"step": 33200
	},
	{
	"epoch": 0.24,
	"eval_loss": 1.5747781991958618,
	"eval_runtime": 261.2843,
	"eval_samples_per_second": 76.545,
	"eval_steps_per_second": 1.198,
	"step": 33200
	},
	{
	"epoch": 0.25,
	"learning_rate": 4.9857679702681096e-05,
	"loss": 1.6419,
	"step": 33600
	},
	{
	"epoch": 0.25,
	"eval_loss": 1.569125771522522,
	"eval_runtime": 238.4252,
	"eval_samples_per_second": 83.884,
	"eval_steps_per_second": 1.313,
	"step": 33600
	},
	{
	"epoch": 0.25,
	"learning_rate": 4.977481490074868e-05,
	"loss": 1.6416,
	"step": 34000
	},
	{
	"epoch": 0.25,
	"eval_loss": 1.5649021863937378,
	"eval_runtime": 403.1613,
	"eval_samples_per_second": 49.608,
	"eval_steps_per_second": 0.776,
	"step": 34000
	},
	{
	"epoch": 0.25,
	"learning_rate": 4.969195009881628e-05,
	"loss": 1.6365,
	"step": 34400
	},
	{
	"epoch": 0.25,
	"eval_loss": 1.5665974617004395,
	"eval_runtime": 154.8734,
	"eval_samples_per_second": 129.138,
	"eval_steps_per_second": 2.021,
	"step": 34400
	},
	{
	"epoch": 0.25,
	"learning_rate": 4.9609085296883874e-05,
	"loss": 1.6348,
	"step": 34800
	},
	{
	"epoch": 0.25,
	"eval_loss": 1.5668097734451294,
	"eval_runtime": 193.4192,
	"eval_samples_per_second": 103.402,
	"eval_steps_per_second": 1.618,
	"step": 34800
	},
	{
	"epoch": 0.26,
	"learning_rate": 4.9526220494951466e-05,
	"loss": 1.6342,
	"step": 35200
	},
	{
	"epoch": 0.26,
	"eval_loss": 1.5644603967666626,
	"eval_runtime": 525.4863,
	"eval_samples_per_second": 38.06,
	"eval_steps_per_second": 0.596,
	"step": 35200
	},
	{
	"epoch": 0.26,
	"learning_rate": 4.944335569301905e-05,
	"loss": 1.6319,
	"step": 35600
	},
	{
	"epoch": 0.26,
	"eval_loss": 1.5583738088607788,
	"eval_runtime": 152.5499,
	"eval_samples_per_second": 131.105,
	"eval_steps_per_second": 2.052,
	"step": 35600
	},
	{
	"epoch": 0.26,
	"learning_rate": 4.936049089108665e-05,
	"loss": 1.6304,
	"step": 36000
	},
	{
	"epoch": 0.26,
	"eval_loss": 1.5624059438705444,
	"eval_runtime": 195.0553,
	"eval_samples_per_second": 102.535,
	"eval_steps_per_second": 1.605,
	"step": 36000
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.9277626089154245e-05,
	"loss": 1.6287,
	"step": 36400
	},
	{
	"epoch": 0.27,
	"eval_loss": 1.5545308589935303,
	"eval_runtime": 220.9752,
	"eval_samples_per_second": 90.508,
	"eval_steps_per_second": 1.416,
	"step": 36400
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.919476128722184e-05,
	"loss": 1.6301,
	"step": 36800
	},
	{
	"epoch": 0.27,
	"eval_loss": 1.5592070817947388,
	"eval_runtime": 213.6052,
	"eval_samples_per_second": 93.631,
	"eval_steps_per_second": 1.465,
	"step": 36800
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.911189648528943e-05,
	"loss": 1.6272,
	"step": 37200
	},
	{
	"epoch": 0.27,
	"eval_loss": 1.5615522861480713,
	"eval_runtime": 263.8607,
	"eval_samples_per_second": 75.798,
	"eval_steps_per_second": 1.186,
	"step": 37200
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.9029031683357016e-05,
	"loss": 1.6267,
	"step": 37600
	},
	{
	"epoch": 0.27,
	"eval_loss": 1.558023452758789,
	"eval_runtime": 1163.3408,
	"eval_samples_per_second": 17.192,
	"eval_steps_per_second": 0.269,
	"step": 37600
	},
	{
	"epoch": 0.28,
	"learning_rate": 4.8946166881424615e-05,
	"loss": 1.624,
	"step": 38000
	},
	{
	"epoch": 0.28,
	"eval_loss": 1.550244688987732,
	"eval_runtime": 156.4776,
	"eval_samples_per_second": 127.814,
	"eval_steps_per_second": 2.0,
	"step": 38000
	},
	{
	"epoch": 0.28,
	"learning_rate": 4.886330207949221e-05,
	"loss": 1.6238,
	"step": 38400
	},
	{
	"epoch": 0.28,
	"eval_loss": 1.5512545108795166,
	"eval_runtime": 178.078,
	"eval_samples_per_second": 112.31,
	"eval_steps_per_second": 1.758,
	"step": 38400
	},
	{
	"epoch": 0.28,
	"learning_rate": 4.87804372775598e-05,
	"loss": 1.623,
	"step": 38800
	},
	{
	"epoch": 0.28,
	"eval_loss": 1.5499157905578613,
	"eval_runtime": 411.8408,
	"eval_samples_per_second": 48.562,
	"eval_steps_per_second": 0.76,
	"step": 38800
	},
	{
	"epoch": 0.29,
	"learning_rate": 4.869757247562739e-05,
	"loss": 1.6214,
	"step": 39200
	},
	{
	"epoch": 0.29,
	"eval_loss": 1.554477572441101,
	"eval_runtime": 152.8841,
	"eval_samples_per_second": 130.818,
	"eval_steps_per_second": 2.047,
	"step": 39200
	},
	{
	"epoch": 0.29,
	"learning_rate": 4.8614707673694986e-05,
	"loss": 1.6173,
	"step": 39600
	},
	{
	"epoch": 0.29,
	"eval_loss": 1.5494047403335571,
	"eval_runtime": 154.2296,
	"eval_samples_per_second": 129.677,
	"eval_steps_per_second": 2.029,
	"step": 39600
	},
	{
	"epoch": 0.29,
	"learning_rate": 4.853184287176258e-05,
	"loss": 1.6159,
	"step": 40000
	},
	{
	"epoch": 0.29,
	"eval_loss": 1.5492123365402222,
	"eval_runtime": 358.728,
	"eval_samples_per_second": 55.753,
	"eval_steps_per_second": 0.873,
	"step": 40000
	},
	{
	"epoch": 0.29,
	"learning_rate": 4.844897806983017e-05,
	"loss": 1.6131,
	"step": 40400
	},
	{
	"epoch": 0.29,
	"eval_loss": 1.5435105562210083,
	"eval_runtime": 424.1722,
	"eval_samples_per_second": 47.151,
	"eval_steps_per_second": 0.738,
	"step": 40400
	},
	{
	"epoch": 0.3,
	"learning_rate": 4.8366113267897764e-05,
	"loss": 1.6125,
	"step": 40800
	},
	{
	"epoch": 0.3,
	"eval_loss": 1.5407049655914307,
	"eval_runtime": 233.4949,
	"eval_samples_per_second": 85.655,
	"eval_steps_per_second": 1.341,
	"step": 40800
	},
	{
	"epoch": 0.3,
	"learning_rate": 4.828324846596536e-05,
	"loss": 1.6129,
	"step": 41200
	},
	{
	"epoch": 0.3,
	"eval_loss": 1.5503147840499878,
	"eval_runtime": 154.5487,
	"eval_samples_per_second": 129.409,
	"eval_steps_per_second": 2.025,
	"step": 41200
	},
	{
	"epoch": 0.3,
	"learning_rate": 4.820038366403295e-05,
	"loss": 1.61,
	"step": 41600
	},
	{
	"epoch": 0.3,
	"eval_loss": 1.5319013595581055,
	"eval_runtime": 229.3937,
	"eval_samples_per_second": 87.186,
	"eval_steps_per_second": 1.364,
	"step": 41600
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.811751886210054e-05,
	"loss": 1.6083,
	"step": 42000
	},
	{
	"epoch": 0.31,
	"eval_loss": 1.540002465248108,
	"eval_runtime": 200.5559,
	"eval_samples_per_second": 99.723,
	"eval_steps_per_second": 1.561,
	"step": 42000
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.8034654060168135e-05,
	"loss": 1.6049,
	"step": 42400
	},
	{
	"epoch": 0.31,
	"eval_loss": 1.5374138355255127,
	"eval_runtime": 353.7763,
	"eval_samples_per_second": 56.533,
	"eval_steps_per_second": 0.885,
	"step": 42400
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.795178925823573e-05,
	"loss": 1.6048,
	"step": 42800
	},
	{
	"epoch": 0.31,
	"eval_loss": 1.5372508764266968,
	"eval_runtime": 306.8656,
	"eval_samples_per_second": 65.175,
	"eval_steps_per_second": 1.02,
	"step": 42800
	},
	{
	"epoch": 0.32,
	"learning_rate": 4.786892445630332e-05,
	"loss": 1.6036,
	"step": 43200
	},
	{
	"epoch": 0.32,
	"eval_loss": 1.538548469543457,
	"eval_runtime": 875.5249,
	"eval_samples_per_second": 22.843,
	"eval_steps_per_second": 0.357,
	"step": 43200
	},
	{
	"epoch": 0.32,
	"learning_rate": 4.778605965437091e-05,
	"loss": 1.6025,
	"step": 43600
	},
	{
	"epoch": 0.32,
	"eval_loss": 1.5447686910629272,
	"eval_runtime": 216.6802,
	"eval_samples_per_second": 92.302,
	"eval_steps_per_second": 1.445,
	"step": 43600
	},
	{
	"epoch": 0.32,
	"learning_rate": 4.7703194852438506e-05,
	"loss": 1.5987,
	"step": 44000
	},
	{
	"epoch": 0.32,
	"eval_loss": 1.534464716911316,
	"eval_runtime": 527.5707,
	"eval_samples_per_second": 37.91,
	"eval_steps_per_second": 0.593,
	"step": 44000
	},
	{
	"epoch": 0.32,
	"learning_rate": 4.76203300505061e-05,
	"loss": 1.5995,
	"step": 44400
	},
	{
	"epoch": 0.32,
	"eval_loss": 1.537174105644226,
	"eval_runtime": 157.1885,
	"eval_samples_per_second": 127.236,
	"eval_steps_per_second": 1.991,
	"step": 44400
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.753746524857369e-05,
	"loss": 1.5995,
	"step": 44800
	},
	{
	"epoch": 0.33,
	"eval_loss": 1.5312557220458984,
	"eval_runtime": 590.8847,
	"eval_samples_per_second": 33.848,
	"eval_steps_per_second": 0.53,
	"step": 44800
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.7454600446641284e-05,
	"loss": 1.6002,
	"step": 45200
	},
	{
	"epoch": 0.33,
	"eval_loss": 1.5247910022735596,
	"eval_runtime": 197.0178,
	"eval_samples_per_second": 101.514,
	"eval_steps_per_second": 1.589,
	"step": 45200
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.737173564470888e-05,
	"loss": 1.5985,
	"step": 45600
	},
	{
	"epoch": 0.33,
	"eval_loss": 1.5312753915786743,
	"eval_runtime": 217.2767,
	"eval_samples_per_second": 92.049,
	"eval_steps_per_second": 1.441,
	"step": 45600
	},
	{
	"epoch": 0.34,
	"learning_rate": 4.728887084277647e-05,
	"loss": 1.5975,
	"step": 46000
	},
	{
	"epoch": 0.34,
	"eval_loss": 1.5283282995224,
	"eval_runtime": 247.4783,
	"eval_samples_per_second": 80.815,
	"eval_steps_per_second": 1.265,
	"step": 46000
	},
	{
	"epoch": 0.34,
	"learning_rate": 4.720600604084406e-05,
	"loss": 1.5942,
	"step": 46400
	},
	{
	"epoch": 0.34,
	"eval_loss": 1.5262142419815063,
	"eval_runtime": 943.4579,
	"eval_samples_per_second": 21.199,
	"eval_steps_per_second": 0.332,
	"step": 46400
	},
	{
	"epoch": 0.34,
	"learning_rate": 4.7123141238911655e-05,
	"loss": 1.5946,
	"step": 46800
	},
	{
	"epoch": 0.34,
	"eval_loss": 1.5237544775009155,
	"eval_runtime": 157.7499,
	"eval_samples_per_second": 126.783,
	"eval_steps_per_second": 1.984,
	"step": 46800
	},
	{
	"epoch": 0.34,
	"learning_rate": 4.704027643697925e-05,
	"loss": 1.592,
	"step": 47200
	},
	{
	"epoch": 0.34,
	"eval_loss": 1.5289279222488403,
	"eval_runtime": 380.6257,
	"eval_samples_per_second": 52.545,
	"eval_steps_per_second": 0.822,
	"step": 47200
	},
	{
	"epoch": 0.35,
	"learning_rate": 4.695741163504685e-05,
	"loss": 1.5924,
	"step": 47600
	},
	{
	"epoch": 0.35,
	"eval_loss": 1.523956298828125,
	"eval_runtime": 154.9689,
	"eval_samples_per_second": 129.058,
	"eval_steps_per_second": 2.02,
	"step": 47600
	},
	{
	"epoch": 0.35,
	"learning_rate": 4.687454683311443e-05,
	"loss": 1.5901,
	"step": 48000
	},
	{
	"epoch": 0.35,
	"eval_loss": 1.5227019786834717,
	"eval_runtime": 728.6822,
	"eval_samples_per_second": 27.447,
	"eval_steps_per_second": 0.43,
	"step": 48000
	},
	{
	"epoch": 0.35,
	"learning_rate": 4.6791682031182026e-05,
	"loss": 1.589,
	"step": 48400
	},
	{
	"epoch": 0.35,
	"eval_loss": 1.5262556076049805,
	"eval_runtime": 156.5557,
	"eval_samples_per_second": 127.75,
	"eval_steps_per_second": 1.999,
	"step": 48400
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.670881722924962e-05,
	"loss": 1.5875,
	"step": 48800
	},
	{
	"epoch": 0.36,
	"eval_loss": 1.5185788869857788,
	"eval_runtime": 355.4244,
	"eval_samples_per_second": 56.271,
	"eval_steps_per_second": 0.881,
	"step": 48800
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.662595242731722e-05,
	"loss": 1.5867,
	"step": 49200
	},
	{
	"epoch": 0.36,
	"eval_loss": 1.51908278465271,
	"eval_runtime": 729.5519,
	"eval_samples_per_second": 27.414,
	"eval_steps_per_second": 0.429,
	"step": 49200
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.6543087625384804e-05,
	"loss": 1.5849,
	"step": 49600
	},
	{
	"epoch": 0.36,
	"eval_loss": 1.5164732933044434,
	"eval_runtime": 852.7453,
	"eval_samples_per_second": 23.454,
	"eval_steps_per_second": 0.367,
	"step": 49600
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.64602228234524e-05,
	"loss": 1.5828,
	"step": 50000
	},
	{
	"epoch": 0.36,
	"eval_loss": 1.5202162265777588,
	"eval_runtime": 157.0148,
	"eval_samples_per_second": 127.377,
	"eval_steps_per_second": 1.993,
	"step": 50000
	},
	{
	"epoch": 0.37,
	"learning_rate": 4.637735802151999e-05,
	"loss": 1.5816,
	"step": 50400
	},
	{
	"epoch": 0.37,
	"eval_loss": 1.5152881145477295,
	"eval_runtime": 211.7581,
	"eval_samples_per_second": 94.447,
	"eval_steps_per_second": 1.478,
	"step": 50400
	},
	{
	"epoch": 0.37,
	"learning_rate": 4.629449321958758e-05,
	"loss": 1.5809,
	"step": 50800
	},
	{
	"epoch": 0.37,
	"eval_loss": 1.5141160488128662,
	"eval_runtime": 164.3824,
	"eval_samples_per_second": 121.668,
	"eval_steps_per_second": 1.904,
	"step": 50800
	},
	{
	"epoch": 0.37,
	"learning_rate": 4.621162841765518e-05,
	"loss": 1.5771,
	"step": 51200
	},
	{
	"epoch": 0.37,
	"eval_loss": 1.5138821601867676,
	"eval_runtime": 462.6007,
	"eval_samples_per_second": 43.234,
	"eval_steps_per_second": 0.677,
	"step": 51200
	},
	{
	"epoch": 0.38,
	"learning_rate": 4.612876361572277e-05,
	"loss": 1.5775,
	"step": 51600
	},
	{
	"epoch": 0.38,
	"eval_loss": 1.509470820426941,
	"eval_runtime": 775.3154,
	"eval_samples_per_second": 25.796,
	"eval_steps_per_second": 0.404,
	"step": 51600
	},
	{
	"epoch": 0.38,
	"learning_rate": 4.604589881379036e-05,
	"loss": 1.5767,
	"step": 52000
	},
	{
	"epoch": 0.38,
	"eval_loss": 1.5092774629592896,
	"eval_runtime": 186.3503,
	"eval_samples_per_second": 107.325,
	"eval_steps_per_second": 1.68,
	"step": 52000
	},
	{
	"epoch": 0.38,
	"learning_rate": 4.596303401185795e-05,
	"loss": 1.5757,
	"step": 52400
	},
	{
	"epoch": 0.38,
	"eval_loss": 1.5057079792022705,
	"eval_runtime": 159.2417,
	"eval_samples_per_second": 125.595,
	"eval_steps_per_second": 1.966,
	"step": 52400
	},
	{
	"epoch": 0.39,
	"learning_rate": 4.588016920992555e-05,
	"loss": 1.5752,
	"step": 52800
	},
	{
	"epoch": 0.39,
	"eval_loss": 1.5144433975219727,
	"eval_runtime": 159.6541,
	"eval_samples_per_second": 125.271,
	"eval_steps_per_second": 1.96,
	"step": 52800
	},
	{
	"epoch": 0.39,
	"learning_rate": 4.579730440799314e-05,
	"loss": 1.5752,
	"step": 53200
	},
	{
	"epoch": 0.39,
	"eval_loss": 1.506042242050171,
	"eval_runtime": 406.841,
	"eval_samples_per_second": 49.159,
	"eval_steps_per_second": 0.769,
	"step": 53200
	},
	{
	"epoch": 0.39,
	"learning_rate": 4.571443960606073e-05,
	"loss": 1.5759,
	"step": 53600
	},
	{
	"epoch": 0.39,
	"eval_loss": 1.511734962463379,
	"eval_runtime": 956.1026,
	"eval_samples_per_second": 20.918,
	"eval_steps_per_second": 0.327,
	"step": 53600
	},
	{
	"epoch": 0.39,
	"learning_rate": 4.5631574804128324e-05,
	"loss": 1.5749,
	"step": 54000
	},
	{
	"epoch": 0.39,
	"eval_loss": 1.5020769834518433,
	"eval_runtime": 261.4557,
	"eval_samples_per_second": 76.495,
	"eval_steps_per_second": 1.197,
	"step": 54000
	},
	{
	"epoch": 0.4,
	"learning_rate": 4.554871000219592e-05,
	"loss": 1.5732,
	"step": 54400
	},
	{
	"epoch": 0.4,
	"eval_loss": 1.536434531211853,
	"eval_runtime": 200.7371,
	"eval_samples_per_second": 99.633,
	"eval_steps_per_second": 1.559,
	"step": 54400
	},
	{
	"epoch": 0.4,
	"learning_rate": 4.5465845200263516e-05,
	"loss": 1.5728,
	"step": 54800
	},
	{
	"epoch": 0.4,
	"eval_loss": 1.5178890228271484,
	"eval_runtime": 188.6203,
	"eval_samples_per_second": 106.033,
	"eval_steps_per_second": 1.659,
	"step": 54800
	},
	{
	"epoch": 0.4,
	"learning_rate": 4.53829803983311e-05,
	"loss": 1.5742,
	"step": 55200
	},
	{
	"epoch": 0.4,
	"eval_loss": 1.503977656364441,
	"eval_runtime": 232.3531,
	"eval_samples_per_second": 86.076,
	"eval_steps_per_second": 1.347,
	"step": 55200
	},
	{
	"epoch": 0.41,
	"learning_rate": 4.5300115596398695e-05,
	"loss": 1.5701,
	"step": 55600
	},
	{
	"epoch": 0.41,
	"eval_loss": 1.5044046640396118,
	"eval_runtime": 248.7056,
	"eval_samples_per_second": 80.416,
	"eval_steps_per_second": 1.259,
	"step": 55600
	},
	{
	"epoch": 0.41,
	"learning_rate": 4.5217250794466294e-05,
	"loss": 1.569,
	"step": 56000
	},
	{
	"epoch": 0.41,
	"eval_loss": 1.5002530813217163,
	"eval_runtime": 155.8533,
	"eval_samples_per_second": 128.326,
	"eval_steps_per_second": 2.008,
	"step": 56000
	},
	{
	"epoch": 0.41,
	"learning_rate": 4.513438599253389e-05,
	"loss": 1.5671,
	"step": 56400
	},
	{
	"epoch": 0.41,
	"eval_loss": 1.5035356283187866,
	"eval_runtime": 591.7888,
	"eval_samples_per_second": 33.796,
	"eval_steps_per_second": 0.529,
	"step": 56400
	},
	{
	"epoch": 0.41,
	"learning_rate": 4.505152119060147e-05,
	"loss": 1.5663,
	"step": 56800
	},
	{
	"epoch": 0.41,
	"eval_loss": 1.5083376169204712,
	"eval_runtime": 235.8323,
	"eval_samples_per_second": 84.806,
	"eval_steps_per_second": 1.327,
	"step": 56800
	},
	{
	"epoch": 0.0,
	"learning_rate": 4.4968656388669065e-05,
	"loss": 1.566,
	"step": 57200
	},
	{
	"epoch": 0.0,
	"eval_loss": 1.500092625617981,
	"eval_runtime": 122.1502,
	"eval_samples_per_second": 163.733,
	"eval_steps_per_second": 2.562,
	"step": 57200
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.4885791586736665e-05,
	"loss": 1.5667,
	"step": 57600
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.4975863695144653,
	"eval_runtime": 122.6954,
	"eval_samples_per_second": 163.005,
	"eval_steps_per_second": 2.551,
	"step": 57600
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.480292678480426e-05,
	"loss": 1.5657,
	"step": 58000
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.4931672811508179,
	"eval_runtime": 123.0954,
	"eval_samples_per_second": 162.476,
	"eval_steps_per_second": 2.543,
	"step": 58000
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.472006198287185e-05,
	"loss": 1.5642,
	"step": 58400
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.4972225427627563,
	"eval_runtime": 123.364,
	"eval_samples_per_second": 162.122,
	"eval_steps_per_second": 2.537,
	"step": 58400
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.4637197180939436e-05,
	"loss": 1.5622,
	"step": 58800
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.49701988697052,
	"eval_runtime": 123.4986,
	"eval_samples_per_second": 161.945,
	"eval_steps_per_second": 2.534,
	"step": 58800
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.4554332379007036e-05,
	"loss": 1.5607,
	"step": 59200
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.4874858856201172,
	"eval_runtime": 123.9331,
	"eval_samples_per_second": 161.377,
	"eval_steps_per_second": 2.526,
	"step": 59200
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.447146757707463e-05,
	"loss": 1.5607,
	"step": 59600
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.4898470640182495,
	"eval_runtime": 120.8464,
	"eval_samples_per_second": 165.499,
	"eval_steps_per_second": 2.59,
	"step": 59600
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.438860277514222e-05,
	"loss": 1.5586,
	"step": 60000
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.494850754737854,
	"eval_runtime": 124.1267,
	"eval_samples_per_second": 161.126,
	"eval_steps_per_second": 2.522,
	"step": 60000
	},
	{
	"epoch": 0.03,
	"learning_rate": 4.430573797320981e-05,
	"loss": 1.5582,
	"step": 60400
	},
	{
	"epoch": 0.03,
	"eval_loss": 1.4933040142059326,
	"eval_runtime": 122.7367,
	"eval_samples_per_second": 162.95,
	"eval_steps_per_second": 2.55,
	"step": 60400
	},
	{
	"epoch": 0.03,
	"learning_rate": 4.4222873171277407e-05,
	"loss": 1.5579,
	"step": 60800
	},
	{
	"epoch": 0.03,
	"eval_loss": 1.4987492561340332,
	"eval_runtime": 123.7785,
	"eval_samples_per_second": 161.579,
	"eval_steps_per_second": 2.529,
	"step": 60800
	},
	{
	"epoch": 0.03,
	"learning_rate": 4.4140008369345e-05,
	"loss": 1.5577,
	"step": 61200
	},
	{
	"epoch": 0.03,
	"eval_loss": 1.489683747291565,
	"eval_runtime": 121.2724,
	"eval_samples_per_second": 164.918,
	"eval_steps_per_second": 2.581,
	"step": 61200
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.405714356741259e-05,
	"loss": 1.5574,
	"step": 61600
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.4959229230880737,
	"eval_runtime": 121.5786,
	"eval_samples_per_second": 164.503,
	"eval_steps_per_second": 2.574,
	"step": 61600
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.397427876548018e-05,
	"loss": 1.5551,
	"step": 62000
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.496133804321289,
	"eval_runtime": 121.3994,
	"eval_samples_per_second": 164.746,
	"eval_steps_per_second": 2.578,
	"step": 62000
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.389141396354778e-05,
	"loss": 1.5549,
	"step": 62400
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.4901236295700073,
	"eval_runtime": 122.3573,
	"eval_samples_per_second": 163.456,
	"eval_steps_per_second": 2.558,
	"step": 62400
	},
	{
	"epoch": 0.0,
	"learning_rate": 4.380854916161537e-05,
	"loss": 1.5535,
	"step": 62800
	},
	{
	"epoch": 0.0,
	"eval_loss": 1.4875001907348633,
	"eval_runtime": 105.5644,
	"eval_samples_per_second": 189.458,
	"eval_steps_per_second": 2.965,
	"step": 62800
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.372568435968296e-05,
	"loss": 1.5542,
	"step": 63200
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.4935693740844727,
	"eval_runtime": 112.1109,
	"eval_samples_per_second": 178.395,
	"eval_steps_per_second": 2.792,
	"step": 63200
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.3642819557750556e-05,
	"loss": 1.5512,
	"step": 63600
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.4915146827697754,
	"eval_runtime": 109.7302,
	"eval_samples_per_second": 182.265,
	"eval_steps_per_second": 2.852,
	"step": 63600
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.355995475581814e-05,
	"loss": 1.5515,
	"step": 64000
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.4876190423965454,
	"eval_runtime": 111.5094,
	"eval_samples_per_second": 179.357,
	"eval_steps_per_second": 2.807,
	"step": 64000
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.347708995388574e-05,
	"loss": 1.549,
	"step": 64400
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.4836992025375366,
	"eval_runtime": 112.3893,
	"eval_samples_per_second": 177.953,
	"eval_steps_per_second": 2.785,
	"step": 64400
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.3394225151953334e-05,
	"loss": 1.5479,
	"step": 64800
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.4897727966308594,
	"eval_runtime": 111.5923,
	"eval_samples_per_second": 179.224,
	"eval_steps_per_second": 2.805,
	"step": 64800
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.3311360350020926e-05,
	"loss": 1.5492,
	"step": 65200
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.484372615814209,
	"eval_runtime": 111.9819,
	"eval_samples_per_second": 178.6,
	"eval_steps_per_second": 2.795,
	"step": 65200
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.322849554808851e-05,
	"loss": 1.5468,
	"step": 65600
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.4826014041900635,
	"eval_runtime": 112.199,
	"eval_samples_per_second": 178.255,
	"eval_steps_per_second": 2.79,
	"step": 65600
	},
	{
	"epoch": 0.03,
	"learning_rate": 4.314563074615611e-05,
	"loss": 1.5476,
	"step": 66000
	},
	{
	"epoch": 0.03,
	"eval_loss": 1.4857112169265747,
	"eval_runtime": 112.9874,
	"eval_samples_per_second": 177.011,
	"eval_steps_per_second": 2.77,
	"step": 66000
	},
	{
	"epoch": 0.03,
	"learning_rate": 4.3062765944223705e-05,
	"loss": 1.5473,
	"step": 66400
	},
	{
	"epoch": 0.03,
	"eval_loss": 1.487414836883545,
	"eval_runtime": 114.6833,
	"eval_samples_per_second": 174.393,
	"eval_steps_per_second": 2.729,
	"step": 66400
	},
	{
	"epoch": 0.03,
	"learning_rate": 4.29799011422913e-05,
	"loss": 1.5487,
	"step": 66800
	},
	{
	"epoch": 0.03,
	"eval_loss": 1.4894484281539917,
	"eval_runtime": 109.3915,
	"eval_samples_per_second": 182.83,
	"eval_steps_per_second": 2.861,
	"step": 66800
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.289703634035889e-05,
	"loss": 1.5476,
	"step": 67200
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.4839718341827393,
	"eval_runtime": 114.1702,
	"eval_samples_per_second": 175.177,
	"eval_steps_per_second": 2.742,
	"step": 67200
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.281417153842648e-05,
	"loss": 1.5459,
	"step": 67600
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.4786709547042847,
	"eval_runtime": 112.7446,
	"eval_samples_per_second": 177.392,
	"eval_steps_per_second": 2.776,
	"step": 67600
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.2731306736494075e-05,
	"loss": 1.5431,
	"step": 68000
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.48154616355896,
	"eval_runtime": 113.692,
	"eval_samples_per_second": 175.914,
	"eval_steps_per_second": 2.753,
	"step": 68000
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.264844193456167e-05,
	"loss": 1.544,
	"step": 68400
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.4801952838897705,
	"eval_runtime": 111.6945,
	"eval_samples_per_second": 179.06,
	"eval_steps_per_second": 2.802,
	"step": 68400
	},
	{
	"epoch": 0.05,
	"learning_rate": 4.256557713262926e-05,
	"loss": 1.5436,
	"step": 68800
	},
	{
	"epoch": 0.05,
	"eval_loss": 1.478300929069519,
	"eval_runtime": 114.4135,
	"eval_samples_per_second": 174.805,
	"eval_steps_per_second": 2.736,
	"step": 68800
	},
	{
	"epoch": 0.05,
	"learning_rate": 4.2482712330696853e-05,
	"loss": 1.5411,
	"step": 69200
	},
	{
	"epoch": 0.05,
	"eval_loss": 1.484221339225769,
	"eval_runtime": 114.3599,
	"eval_samples_per_second": 174.886,
	"eval_steps_per_second": 2.737,
	"step": 69200
	},
	{
	"epoch": 0.05,
	"learning_rate": 4.2399847528764446e-05,
	"loss": 1.5446,
	"step": 69600
	},
	{
	"epoch": 0.05,
	"eval_loss": 1.4805113077163696,
	"eval_runtime": 115.5225,
	"eval_samples_per_second": 173.126,
	"eval_steps_per_second": 2.709,
	"step": 69600
	},
	{
	"epoch": 0.06,
	"learning_rate": 4.231698272683204e-05,
	"loss": 1.5441,
	"step": 70000
	},
	{
	"epoch": 0.06,
	"eval_loss": 1.4875138998031616,
	"eval_runtime": 114.7419,
	"eval_samples_per_second": 174.304,
	"eval_steps_per_second": 2.728,
	"step": 70000
	},
	{
	"epoch": 0.06,
	"learning_rate": 4.223411792489963e-05,
	"loss": 1.5446,
	"step": 70400
	},
	{
	"epoch": 0.06,
	"eval_loss": 1.4801757335662842,
	"eval_runtime": 119.231,
	"eval_samples_per_second": 167.742,
	"eval_steps_per_second": 2.625,
	"step": 70400
	},
	{
	"epoch": 0.06,
	"learning_rate": 4.2151253122967224e-05,
	"loss": 1.5443,
	"step": 70800
	},
	{
	"epoch": 0.06,
	"eval_loss": 1.4772462844848633,
	"eval_runtime": 115.591,
	"eval_samples_per_second": 173.024,
	"eval_steps_per_second": 2.708,
	"step": 70800
	},
	{
	"epoch": 0.06,
	"learning_rate": 4.206838832103482e-05,
	"loss": 1.5411,
	"step": 71200
	},
	{
	"epoch": 0.06,
	"eval_loss": 1.4795691967010498,
	"eval_runtime": 118.6003,
	"eval_samples_per_second": 168.634,
	"eval_steps_per_second": 2.639,
	"step": 71200
	},
	{
	"epoch": 0.07,
	"learning_rate": 4.198552351910241e-05,
	"loss": 1.5413,
	"step": 71600
	},
	{
	"epoch": 0.07,
	"eval_loss": 1.4804329872131348,
	"eval_runtime": 119.1285,
	"eval_samples_per_second": 167.886,
	"eval_steps_per_second": 2.627,
	"step": 71600
	},
	{
	"epoch": 0.07,
	"learning_rate": 4.190265871717e-05,
	"loss": 1.5415,
	"step": 72000
	},
	{
	"epoch": 0.07,
	"eval_loss": 1.4793719053268433,
	"eval_runtime": 117.4287,
	"eval_samples_per_second": 170.316,
	"eval_steps_per_second": 2.665,
	"step": 72000
	},
	{
	"epoch": 0.07,
	"learning_rate": 4.1819793915237595e-05,
	"loss": 1.5414,
	"step": 72400
	},
	{
	"epoch": 0.07,
	"eval_loss": 1.4818830490112305,
	"eval_runtime": 119.5626,
	"eval_samples_per_second": 167.276,
	"eval_steps_per_second": 2.618,
	"step": 72400
	},
	{
	"epoch": 0.08,
	"learning_rate": 4.173692911330519e-05,
	"loss": 1.5423,
	"step": 72800
	},
	{
	"epoch": 0.08,
	"eval_loss": 1.4779819250106812,
	"eval_runtime": 118.4406,
	"eval_samples_per_second": 168.861,
	"eval_steps_per_second": 2.643,
	"step": 72800
	},
	{
	"epoch": 0.08,
	"learning_rate": 4.165406431137278e-05,
	"loss": 1.5386,
	"step": 73200
	},
	{
	"epoch": 0.08,
	"eval_loss": 1.4759750366210938,
	"eval_runtime": 115.7547,
	"eval_samples_per_second": 172.779,
	"eval_steps_per_second": 2.704,
	"step": 73200
	},
	{
	"epoch": 0.08,
	"learning_rate": 4.157119950944037e-05,
	"loss": 1.5386,
	"step": 73600
	},
	{
	"epoch": 0.08,
	"eval_loss": 1.4726980924606323,
	"eval_runtime": 119.2625,
	"eval_samples_per_second": 167.697,
	"eval_steps_per_second": 2.624,
	"step": 73600
	},
	{
	"epoch": 0.08,
	"learning_rate": 4.148833470750797e-05,
	"loss": 1.5375,
	"step": 74000
	},
	{
	"epoch": 0.08,
	"eval_loss": 1.4739803075790405,
	"eval_runtime": 118.9815,
	"eval_samples_per_second": 168.093,
	"eval_steps_per_second": 2.631,
	"step": 74000
	},
	{
	"epoch": 0.09,
	"learning_rate": 4.140546990557556e-05,
	"loss": 1.5376,
	"step": 74400
	},
	{
	"epoch": 0.09,
	"eval_loss": 1.4678592681884766,
	"eval_runtime": 117.6181,
	"eval_samples_per_second": 170.042,
	"eval_steps_per_second": 2.661,
	"step": 74400
	},
	{
	"epoch": 0.09,
	"learning_rate": 4.132260510364315e-05,
	"loss": 1.5365,
	"step": 74800
	},
	{
	"epoch": 0.09,
	"eval_loss": 1.4694132804870605,
	"eval_runtime": 118.0975,
	"eval_samples_per_second": 169.352,
	"eval_steps_per_second": 2.65,
	"step": 74800
	},
	{
	"epoch": 0.09,
	"learning_rate": 4.1239740301710744e-05,
	"loss": 1.5356,
	"step": 75200
	},
	{
	"epoch": 0.09,
	"eval_loss": 1.4689810276031494,
	"eval_runtime": 119.48,
	"eval_samples_per_second": 167.392,
	"eval_steps_per_second": 2.62,
	"step": 75200
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.1156875499778344e-05,
	"loss": 1.5353,
	"step": 75600
	},
	{
	"epoch": 0.1,
	"eval_loss": 1.4731059074401855,
	"eval_runtime": 117.5581,
	"eval_samples_per_second": 170.129,
	"eval_steps_per_second": 2.663,
	"step": 75600
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.107401069784593e-05,
	"loss": 1.5348,
	"step": 76000
	},
	{
	"epoch": 0.1,
	"eval_loss": 1.466073751449585,
	"eval_runtime": 118.6436,
	"eval_samples_per_second": 168.572,
	"eval_steps_per_second": 2.638,
	"step": 76000
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.099114589591352e-05,
	"loss": 1.5336,
	"step": 76400
	},
	{
	"epoch": 0.1,
	"eval_loss": 1.4694697856903076,
	"eval_runtime": 117.8705,
	"eval_samples_per_second": 169.678,
	"eval_steps_per_second": 2.655,
	"step": 76400
	},
	{
	"epoch": 0.11,
	"learning_rate": 4.0908281093981115e-05,
	"loss": 1.5331,
	"step": 76800
	},
	{
	"epoch": 0.11,
	"eval_loss": 1.470395803451538,
	"eval_runtime": 119.1567,
	"eval_samples_per_second": 167.846,
	"eval_steps_per_second": 2.627,
	"step": 76800
	},
	{
	"epoch": 0.11,
	"learning_rate": 4.0825416292048714e-05,
	"loss": 1.5336,
	"step": 77200
	},
	{
	"epoch": 0.11,
	"eval_loss": 1.4707101583480835,
	"eval_runtime": 217.6239,
	"eval_samples_per_second": 91.902,
	"eval_steps_per_second": 1.438,
	"step": 77200
	},
	{
	"epoch": 0.0,
	"learning_rate": 4.074255149011631e-05,
	"loss": 1.5303,
	"step": 77600
	},
	{
	"epoch": 0.0,
	"eval_loss": 1.4677211046218872,
	"eval_runtime": 111.0323,
	"eval_samples_per_second": 180.128,
	"eval_steps_per_second": 2.819,
	"step": 77600
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.065968668818389e-05,
	"loss": 1.5302,
	"step": 78000
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.4664534330368042,
	"eval_runtime": 111.6113,
	"eval_samples_per_second": 179.193,
	"eval_steps_per_second": 2.804,
	"step": 78000
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.0576821886251486e-05,
	"loss": 1.5288,
	"step": 78400
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.4657336473464966,
	"eval_runtime": 109.321,
	"eval_samples_per_second": 182.947,
	"eval_steps_per_second": 2.863,
	"step": 78400
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.049395708431908e-05,
	"loss": 1.5284,
	"step": 78800
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.4579006433486938,
	"eval_runtime": 109.1836,
	"eval_samples_per_second": 183.178,
	"eval_steps_per_second": 2.867,
	"step": 78800
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.041109228238668e-05,
	"loss": 1.5277,
	"step": 79200
	},
	{
	"epoch": 0.01,
	"eval_loss": 1.4642364978790283,
	"eval_runtime": 108.8787,
	"eval_samples_per_second": 183.691,
	"eval_steps_per_second": 2.875,
	"step": 79200
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.0328227480454264e-05,
	"loss": 1.5254,
	"step": 79600
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.4699641466140747,
	"eval_runtime": 110.6507,
	"eval_samples_per_second": 180.749,
	"eval_steps_per_second": 2.829,
	"step": 79600
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.024536267852186e-05,
	"loss": 1.526,
	"step": 80000
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.4663636684417725,
	"eval_runtime": 108.472,
	"eval_samples_per_second": 184.379,
	"eval_steps_per_second": 2.886,
	"step": 80000
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.016249787658945e-05,
	"loss": 1.5242,
	"step": 80400
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.4651668071746826,
	"eval_runtime": 111.7826,
	"eval_samples_per_second": 178.919,
	"eval_steps_per_second": 2.8,
	"step": 80400
	},
	{
	"epoch": 0.03,
	"learning_rate": 4.007963307465705e-05,
	"loss": 1.523,
	"step": 80800
	},
	{
	"epoch": 0.03,
	"eval_loss": 1.4634953737258911,
	"eval_runtime": 110.7712,
	"eval_samples_per_second": 180.552,
	"eval_steps_per_second": 2.826,
	"step": 80800
	},
	{
	"epoch": 0.0,
	"learning_rate": 3.9109053272894466e-05,
	"loss": 1.524,
	"step": 81200
	},
	{
	"epoch": 0.0,
	"eval_loss": 2.39056134223938,
	"eval_runtime": 20.0958,
	"eval_samples_per_second": 175.112,
	"eval_steps_per_second": 5.474,
	"step": 81200
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.902803602027052e-05,
	"loss": 1.5242,
	"step": 81600
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.3666460514068604,
	"eval_runtime": 18.7692,
	"eval_samples_per_second": 187.488,
	"eval_steps_per_second": 5.861,
	"step": 81600
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.894701876764657e-05,
	"loss": 1.5237,
	"step": 82000
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.385453939437866,
	"eval_runtime": 19.4223,
	"eval_samples_per_second": 181.184,
	"eval_steps_per_second": 5.664,
	"step": 82000
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.886600151502263e-05,
	"loss": 1.5226,
	"step": 82400
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.393972396850586,
	"eval_runtime": 19.0938,
	"eval_samples_per_second": 184.301,
	"eval_steps_per_second": 5.761,
	"step": 82400
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.8784984262398676e-05,
	"loss": 1.5218,
	"step": 82800
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.456040620803833,
	"eval_runtime": 18.9643,
	"eval_samples_per_second": 185.56,
	"eval_steps_per_second": 5.8,
	"step": 82800
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.870396700977473e-05,
	"loss": 1.5215,
	"step": 83200
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.395426034927368,
	"eval_runtime": 19.2189,
	"eval_samples_per_second": 183.101,
	"eval_steps_per_second": 5.724,
	"step": 83200
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.862294975715079e-05,
	"loss": 1.521,
	"step": 83600
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.4465413093566895,
	"eval_runtime": 18.8719,
	"eval_samples_per_second": 186.468,
	"eval_steps_per_second": 5.829,
	"step": 83600
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.854193250452684e-05,
	"loss": 1.5209,
	"step": 84000
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.396277904510498,
	"eval_runtime": 18.9346,
	"eval_samples_per_second": 185.85,
	"eval_steps_per_second": 5.809,
	"step": 84000
	},
	{
	"epoch": 0.0,
	"learning_rate": 3.846091525190289e-05,
	"loss": 1.5188,
	"step": 84400
	},
	{
	"epoch": 0.0,
	"eval_loss": 2.4277689456939697,
	"eval_runtime": 20.9367,
	"eval_samples_per_second": 168.078,
	"eval_steps_per_second": 5.254,
	"step": 84400
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.837989799927895e-05,
	"loss": 1.5177,
	"step": 84800
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.378986120223999,
	"eval_runtime": 20.2239,
	"eval_samples_per_second": 174.002,
	"eval_steps_per_second": 5.439,
	"step": 84800
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.8298880746655e-05,
	"loss": 1.5184,
	"step": 85200
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.395463705062866,
	"eval_runtime": 19.3659,
	"eval_samples_per_second": 181.711,
	"eval_steps_per_second": 5.68,
	"step": 85200
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.8217863494031056e-05,
	"loss": 1.5166,
	"step": 85600
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.421231269836426,
	"eval_runtime": 20.4856,
	"eval_samples_per_second": 171.779,
	"eval_steps_per_second": 5.37,
	"step": 85600
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.813684624140711e-05,
	"loss": 1.5158,
	"step": 86000
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.4270944595336914,
	"eval_runtime": 19.2825,
	"eval_samples_per_second": 182.497,
	"eval_steps_per_second": 5.705,
	"step": 86000
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.8055828988783165e-05,
	"loss": 1.5157,
	"step": 86400
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.4186675548553467,
	"eval_runtime": 19.3721,
	"eval_samples_per_second": 181.653,
	"eval_steps_per_second": 5.678,
	"step": 86400
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.797481173615922e-05,
	"loss": 1.5156,
	"step": 86800
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.4075629711151123,
	"eval_runtime": 19.2183,
	"eval_samples_per_second": 183.107,
	"eval_steps_per_second": 5.724,
	"step": 86800
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.789379448353527e-05,
	"loss": 1.5147,
	"step": 87200
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.471975803375244,
	"eval_runtime": 20.3949,
	"eval_samples_per_second": 172.543,
	"eval_steps_per_second": 5.394,
	"step": 87200
	},
	{
	"epoch": 0.0,
	"learning_rate": 3.781277723091132e-05,
	"loss": 1.5127,
	"step": 87600
	},
	{
	"epoch": 0.0,
	"eval_loss": 2.3385655879974365,
	"eval_runtime": 20.157,
	"eval_samples_per_second": 174.58,
	"eval_steps_per_second": 5.457,
	"step": 87600
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.773175997828738e-05,
	"loss": 1.5129,
	"step": 88000
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.381673574447632,
	"eval_runtime": 20.5337,
	"eval_samples_per_second": 171.377,
	"eval_steps_per_second": 5.357,
	"step": 88000
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.765074272566343e-05,
	"loss": 1.5123,
	"step": 88400
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.35689377784729,
	"eval_runtime": 20.7328,
	"eval_samples_per_second": 169.731,
	"eval_steps_per_second": 5.306,
	"step": 88400
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.7569725473039484e-05,
	"loss": 1.5121,
	"step": 88800
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.3643054962158203,
	"eval_runtime": 19.1222,
	"eval_samples_per_second": 184.026,
	"eval_steps_per_second": 5.752,
	"step": 88800
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.7488708220415545e-05,
	"loss": 1.5118,
	"step": 89200
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.334357261657715,
	"eval_runtime": 19.3908,
	"eval_samples_per_second": 181.478,
	"eval_steps_per_second": 5.673,
	"step": 89200
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.740769096779159e-05,
	"loss": 1.5102,
	"step": 89600
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.401927947998047,
	"eval_runtime": 20.1285,
	"eval_samples_per_second": 174.827,
	"eval_steps_per_second": 5.465,
	"step": 89600
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.7326673715167647e-05,
	"loss": 1.5097,
	"step": 90000
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.4241695404052734,
	"eval_runtime": 20.5668,
	"eval_samples_per_second": 171.101,
	"eval_steps_per_second": 5.348,
	"step": 90000
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.72456564625437e-05,
	"loss": 1.5103,
	"step": 90400
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.393686532974243,
	"eval_runtime": 19.2168,
	"eval_samples_per_second": 183.121,
	"eval_steps_per_second": 5.724,
	"step": 90400
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.7164639209919755e-05,
	"loss": 1.5112,
	"step": 90800
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.3694939613342285,
	"eval_runtime": 20.1373,
	"eval_samples_per_second": 174.751,
	"eval_steps_per_second": 5.463,
	"step": 90800
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.70836219572958e-05,
	"loss": 1.5108,
	"step": 91200
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.345815420150757,
	"eval_runtime": 20.1959,
	"eval_samples_per_second": 174.243,
	"eval_steps_per_second": 5.447,
	"step": 91200
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.7002604704671864e-05,
	"loss": 1.511,
	"step": 91600
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.3629839420318604,
	"eval_runtime": 19.3875,
	"eval_samples_per_second": 181.508,
	"eval_steps_per_second": 5.674,
	"step": 91600
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.692158745204792e-05,
	"loss": 1.5089,
	"step": 92000
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.385115385055542,
	"eval_runtime": 20.4471,
	"eval_samples_per_second": 172.103,
	"eval_steps_per_second": 5.38,
	"step": 92000
	},
	{
	"epoch": 0.04,
	"learning_rate": 3.6840570199423966e-05,
	"loss": 1.5095,
	"step": 92400
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.319392442703247,
	"eval_runtime": 19.8755,
	"eval_samples_per_second": 177.052,
	"eval_steps_per_second": 5.534,
	"step": 92400
	},
	{
	"epoch": 0.04,
	"learning_rate": 3.6759552946800027e-05,
	"loss": 1.5094,
	"step": 92800
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.3495166301727295,
	"eval_runtime": 19.4501,
	"eval_samples_per_second": 180.925,
	"eval_steps_per_second": 5.656,
	"step": 92800
	},
	{
	"epoch": 0.04,
	"learning_rate": 3.6678535694176074e-05,
	"loss": 1.5101,
	"step": 93200
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.365245819091797,
	"eval_runtime": 19.578,
	"eval_samples_per_second": 179.743,
	"eval_steps_per_second": 5.619,
	"step": 93200
	},
	{
	"epoch": 0.05,
	"learning_rate": 3.659751844155213e-05,
	"loss": 1.5089,
	"step": 93600
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.371981143951416,
	"eval_runtime": 19.798,
	"eval_samples_per_second": 177.745,
	"eval_steps_per_second": 5.556,
	"step": 93600
	},
	{
	"epoch": 0.05,
	"learning_rate": 3.651650118892818e-05,
	"loss": 1.509,
	"step": 94000
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.332063913345337,
	"eval_runtime": 19.3403,
	"eval_samples_per_second": 181.952,
	"eval_steps_per_second": 5.688,
	"step": 94000
	},
	{
	"epoch": 0.05,
	"learning_rate": 3.643548393630424e-05,
	"loss": 1.5096,
	"step": 94400
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.404459238052368,
	"eval_runtime": 19.2128,
	"eval_samples_per_second": 183.159,
	"eval_steps_per_second": 5.725,
	"step": 94400
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.635446668368029e-05,
	"loss": 1.5089,
	"step": 94800
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.3641324043273926,
	"eval_runtime": 19.4859,
	"eval_samples_per_second": 180.592,
	"eval_steps_per_second": 5.645,
	"step": 94800
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.6273449431056346e-05,
	"loss": 1.5084,
	"step": 95200
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.3842105865478516,
	"eval_runtime": 19.764,
	"eval_samples_per_second": 178.051,
	"eval_steps_per_second": 5.566,
	"step": 95200
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.61924321784324e-05,
	"loss": 1.5089,
	"step": 95600
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.3656747341156006,
	"eval_runtime": 20.585,
	"eval_samples_per_second": 170.949,
	"eval_steps_per_second": 5.344,
	"step": 95600
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.6111414925808454e-05,
	"loss": 1.5097,
	"step": 96000
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.374446153640747,
	"eval_runtime": 19.4426,
	"eval_samples_per_second": 180.994,
	"eval_steps_per_second": 5.658,
	"step": 96000
	},
	{
	"epoch": 0.07,
	"learning_rate": 3.603039767318451e-05,
	"loss": 1.5072,
	"step": 96400
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.385554552078247,
	"eval_runtime": 20.3681,
	"eval_samples_per_second": 172.771,
	"eval_steps_per_second": 5.401,
	"step": 96400
	},
	{
	"epoch": 0.0,
	"learning_rate": 3.5949380420560556e-05,
	"loss": 1.5041,
	"step": 96800
	},
	{
	"epoch": 0.0,
	"eval_loss": 2.3629019260406494,
	"eval_runtime": 18.0818,
	"eval_samples_per_second": 194.616,
	"eval_steps_per_second": 6.083,
	"step": 96800
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.586836316793662e-05,
	"loss": 1.5036,
	"step": 97200
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.3723270893096924,
	"eval_runtime": 17.4087,
	"eval_samples_per_second": 202.14,
	"eval_steps_per_second": 6.319,
	"step": 97200
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.578734591531267e-05,
	"loss": 1.504,
	"step": 97600
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.390188217163086,
	"eval_runtime": 17.5005,
	"eval_samples_per_second": 201.081,
	"eval_steps_per_second": 6.286,
	"step": 97600
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.570632866268872e-05,
	"loss": 1.5034,
	"step": 98000
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.3117146492004395,
	"eval_runtime": 17.3837,
	"eval_samples_per_second": 202.431,
	"eval_steps_per_second": 6.328,
	"step": 98000
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.562531141006478e-05,
	"loss": 1.5021,
	"step": 98400
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.3584558963775635,
	"eval_runtime": 18.524,
	"eval_samples_per_second": 189.97,
	"eval_steps_per_second": 5.938,
	"step": 98400
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.554429415744083e-05,
	"loss": 1.501,
	"step": 98800
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.2931323051452637,
	"eval_runtime": 17.3901,
	"eval_samples_per_second": 202.357,
	"eval_steps_per_second": 6.325,
	"step": 98800
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.546327690481688e-05,
	"loss": 1.501,
	"step": 99200
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.3333306312561035,
	"eval_runtime": 17.4003,
	"eval_samples_per_second": 202.238,
	"eval_steps_per_second": 6.322,
	"step": 99200
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.5382259652192936e-05,
	"loss": 1.4992,
	"step": 99600
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.342263698577881,
	"eval_runtime": 17.3606,
	"eval_samples_per_second": 202.701,
	"eval_steps_per_second": 6.336,
	"step": 99600
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.530124239956899e-05,
	"loss": 1.5008,
	"step": 100000
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.336986541748047,
	"eval_runtime": 17.0114,
	"eval_samples_per_second": 206.861,
	"eval_steps_per_second": 6.466,
	"step": 100000
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.5220225146945045e-05,
	"loss": 1.5002,
	"step": 100400
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.3513643741607666,
	"eval_runtime": 17.6104,
	"eval_samples_per_second": 199.825,
	"eval_steps_per_second": 6.246,
	"step": 100400
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.51392078943211e-05,
	"loss": 1.5016,
	"step": 100800
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.3241846561431885,
	"eval_runtime": 17.6475,
	"eval_samples_per_second": 199.405,
	"eval_steps_per_second": 6.233,
	"step": 100800
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.505819064169715e-05,
	"loss": 1.4988,
	"step": 101200
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.359363317489624,
	"eval_runtime": 17.067,
	"eval_samples_per_second": 206.187,
	"eval_steps_per_second": 6.445,
	"step": 101200
	},
	{
	"epoch": 0.04,
	"learning_rate": 3.49771733890732e-05,
	"loss": 1.4992,
	"step": 101600
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.348477363586426,
	"eval_runtime": 17.779,
	"eval_samples_per_second": 197.93,
	"eval_steps_per_second": 6.187,
	"step": 101600
	},
	{
	"epoch": 0.04,
	"learning_rate": 3.489615613644926e-05,
	"loss": 1.5003,
	"step": 102000
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.4026684761047363,
	"eval_runtime": 17.0398,
	"eval_samples_per_second": 206.516,
	"eval_steps_per_second": 6.455,
	"step": 102000
	},
	{
	"epoch": 0.04,
	"learning_rate": 3.481513888382531e-05,
	"loss": 1.4994,
	"step": 102400
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.365537643432617,
	"eval_runtime": 17.5601,
	"eval_samples_per_second": 200.397,
	"eval_steps_per_second": 6.264,
	"step": 102400
	},
	{
	"epoch": 0.05,
	"learning_rate": 3.4734121631201364e-05,
	"loss": 1.499,
	"step": 102800
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.381800651550293,
	"eval_runtime": 16.8498,
	"eval_samples_per_second": 208.846,
	"eval_steps_per_second": 6.528,
	"step": 102800
	},
	{
	"epoch": 0.05,
	"learning_rate": 3.4653104378577425e-05,
	"loss": 1.4996,
	"step": 103200
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.401005506515503,
	"eval_runtime": 16.9826,
	"eval_samples_per_second": 207.212,
	"eval_steps_per_second": 6.477,
	"step": 103200
	},
	{
	"epoch": 0.05,
	"learning_rate": 3.457208712595347e-05,
	"loss": 1.4985,
	"step": 103600
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.399085283279419,
	"eval_runtime": 17.0074,
	"eval_samples_per_second": 206.91,
	"eval_steps_per_second": 6.468,
	"step": 103600
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.4491069873329527e-05,
	"loss": 1.4984,
	"step": 104000
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.3661704063415527,
	"eval_runtime": 16.9552,
	"eval_samples_per_second": 207.547,
	"eval_steps_per_second": 6.488,
	"step": 104000
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.441005262070558e-05,
	"loss": 1.4975,
	"step": 104400
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.4111948013305664,
	"eval_runtime": 16.975,
	"eval_samples_per_second": 207.304,
	"eval_steps_per_second": 6.48,
	"step": 104400
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.4329035368081635e-05,
	"loss": 1.4987,
	"step": 104800
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.3549654483795166,
	"eval_runtime": 17.004,
	"eval_samples_per_second": 206.951,
	"eval_steps_per_second": 6.469,
	"step": 104800
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.424801811545769e-05,
	"loss": 1.4975,
	"step": 105200
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.3696866035461426,
	"eval_runtime": 16.9769,
	"eval_samples_per_second": 207.282,
	"eval_steps_per_second": 6.479,
	"step": 105200
	},
	{
	"epoch": 0.07,
	"learning_rate": 3.4167000862833744e-05,
	"loss": 1.4978,
	"step": 105600
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.4747281074523926,
	"eval_runtime": 17.0304,
	"eval_samples_per_second": 206.63,
	"eval_steps_per_second": 6.459,
	"step": 105600
	},
	{
	"epoch": 0.07,
	"learning_rate": 3.40859836102098e-05,
	"loss": 1.4985,
	"step": 106000
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.3790531158447266,
	"eval_runtime": 16.9847,
	"eval_samples_per_second": 207.187,
	"eval_steps_per_second": 6.476,
	"step": 106000
	},
	{
	"epoch": 0.07,
	"learning_rate": 3.400496635758585e-05,
	"loss": 1.4961,
	"step": 106400
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.390604019165039,
	"eval_runtime": 17.3582,
	"eval_samples_per_second": 202.729,
	"eval_steps_per_second": 6.337,
	"step": 106400
	},
	{
	"epoch": 0.0,
	"learning_rate": 3.392394910496191e-05,
	"loss": 1.4959,
	"step": 106800
	},
	{
	"epoch": 0.0,
	"eval_loss": 2.415346622467041,
	"eval_runtime": 20.0907,
	"eval_samples_per_second": 175.156,
	"eval_steps_per_second": 5.475,
	"step": 106800
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.3842931852337954e-05,
	"loss": 1.4956,
	"step": 107200
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.4299123287200928,
	"eval_runtime": 18.8725,
	"eval_samples_per_second": 186.462,
	"eval_steps_per_second": 5.829,
	"step": 107200
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.376191459971401e-05,
	"loss": 1.4964,
	"step": 107600
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.448073625564575,
	"eval_runtime": 18.7704,
	"eval_samples_per_second": 187.476,
	"eval_steps_per_second": 5.86,
	"step": 107600
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.368089734709006e-05,
	"loss": 1.497,
	"step": 108000
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.390690565109253,
	"eval_runtime": 18.5096,
	"eval_samples_per_second": 190.118,
	"eval_steps_per_second": 5.943,
	"step": 108000
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.359988009446612e-05,
	"loss": 1.4955,
	"step": 108400
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.383636713027954,
	"eval_runtime": 18.4941,
	"eval_samples_per_second": 190.277,
	"eval_steps_per_second": 5.948,
	"step": 108400
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.351886284184217e-05,
	"loss": 1.4953,
	"step": 108800
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.400592565536499,
	"eval_runtime": 18.4735,
	"eval_samples_per_second": 190.489,
	"eval_steps_per_second": 5.954,
	"step": 108800
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.3437845589218226e-05,
	"loss": 1.4939,
	"step": 109200
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.349822759628296,
	"eval_runtime": 18.6128,
	"eval_samples_per_second": 189.063,
	"eval_steps_per_second": 5.91,
	"step": 109200
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.335682833659428e-05,
	"loss": 1.4943,
	"step": 109600
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.3708629608154297,
	"eval_runtime": 18.5009,
	"eval_samples_per_second": 190.207,
	"eval_steps_per_second": 5.946,
	"step": 109600
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.3275811083970334e-05,
	"loss": 1.4942,
	"step": 110000
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.338743209838867,
	"eval_runtime": 18.4865,
	"eval_samples_per_second": 190.355,
	"eval_steps_per_second": 5.95,
	"step": 110000
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.319479383134639e-05,
	"loss": 1.4923,
	"step": 110400
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.4041731357574463,
	"eval_runtime": 18.5038,
	"eval_samples_per_second": 190.177,
	"eval_steps_per_second": 5.945,
	"step": 110400
	},
	{
	"epoch": 0.0,
	"learning_rate": 3.3113776578722436e-05,
	"loss": 1.4934,
	"step": 110800
	},
	{
	"epoch": 0.0,
	"eval_loss": 2.4086883068084717,
	"eval_runtime": 17.8895,
	"eval_samples_per_second": 196.707,
	"eval_steps_per_second": 6.149,
	"step": 110800
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.30327593260985e-05,
	"loss": 1.4917,
	"step": 111200
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.3683786392211914,
	"eval_runtime": 17.4874,
	"eval_samples_per_second": 201.23,
	"eval_steps_per_second": 6.29,
	"step": 111200
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.2951742073474545e-05,
	"loss": 1.4926,
	"step": 111600
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.3743233680725098,
	"eval_runtime": 17.4669,
	"eval_samples_per_second": 201.467,
	"eval_steps_per_second": 6.298,
	"step": 111600
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.28707248208506e-05,
	"loss": 1.4913,
	"step": 112000
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.3969030380249023,
	"eval_runtime": 17.4406,
	"eval_samples_per_second": 201.77,
	"eval_steps_per_second": 6.307,
	"step": 112000
	},
	{
	"epoch": 0.01,
	"learning_rate": 3.278970756822666e-05,
	"loss": 1.4923,
	"step": 112400
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.373997688293457,
	"eval_runtime": 17.6827,
	"eval_samples_per_second": 199.008,
	"eval_steps_per_second": 6.221,
	"step": 112400
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.270869031560271e-05,
	"loss": 1.4913,
	"step": 112800
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.3612871170043945,
	"eval_runtime": 17.4041,
	"eval_samples_per_second": 202.193,
	"eval_steps_per_second": 6.32,
	"step": 112800
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.262767306297876e-05,
	"loss": 1.4909,
	"step": 113200
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.3404111862182617,
	"eval_runtime": 17.5513,
	"eval_samples_per_second": 200.498,
	"eval_steps_per_second": 6.267,
	"step": 113200
	},
	{
	"epoch": 0.02,
	"learning_rate": 3.2546655810354816e-05,
	"loss": 1.491,
	"step": 113600
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.2388041019439697,
	"eval_runtime": 17.6295,
	"eval_samples_per_second": 199.609,
	"eval_steps_per_second": 6.24,
	"step": 113600
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.246563855773087e-05,
	"loss": 1.4896,
	"step": 114000
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.3492588996887207,
	"eval_runtime": 17.3833,
	"eval_samples_per_second": 202.436,
	"eval_steps_per_second": 6.328,
	"step": 114000
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.238462130510692e-05,
	"loss": 1.4899,
	"step": 114400
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.347364664077759,
	"eval_runtime": 17.468,
	"eval_samples_per_second": 201.454,
	"eval_steps_per_second": 6.297,
	"step": 114400
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.230360405248298e-05,
	"loss": 1.4881,
	"step": 114800
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.315025568008423,
	"eval_runtime": 17.4,
	"eval_samples_per_second": 202.242,
	"eval_steps_per_second": 6.322,
	"step": 114800
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.2222586799859033e-05,
	"loss": 1.4905,
	"step": 115200
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.344813346862793,
	"eval_runtime": 17.3103,
	"eval_samples_per_second": 203.29,
	"eval_steps_per_second": 6.355,
	"step": 115200
	},
	{
	"epoch": 0.04,
	"learning_rate": 3.214156954723508e-05,
	"loss": 1.4894,
	"step": 115600
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.350853443145752,
	"eval_runtime": 17.3476,
	"eval_samples_per_second": 202.852,
	"eval_steps_per_second": 6.341,
	"step": 115600
	},
	{
	"epoch": 0.04,
	"learning_rate": 3.206055229461114e-05,
	"loss": 1.4885,
	"step": 116000
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.273857355117798,
	"eval_runtime": 17.3165,
	"eval_samples_per_second": 203.217,
	"eval_steps_per_second": 6.352,
	"step": 116000
	},
	{
	"epoch": 0.04,
	"learning_rate": 3.197953504198719e-05,
	"loss": 1.4895,
	"step": 116400
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.3339993953704834,
	"eval_runtime": 17.3637,
	"eval_samples_per_second": 202.664,
	"eval_steps_per_second": 6.335,
	"step": 116400
	},
	{
	"epoch": 0.05,
	"learning_rate": 3.1898517789363244e-05,
	"loss": 1.4886,
	"step": 116800
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.3035190105438232,
	"eval_runtime": 17.249,
	"eval_samples_per_second": 204.011,
	"eval_steps_per_second": 6.377,
	"step": 116800
	},
	{
	"epoch": 0.05,
	"learning_rate": 3.18175005367393e-05,
	"loss": 1.4867,
	"step": 117200
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.355330467224121,
	"eval_runtime": 17.2592,
	"eval_samples_per_second": 203.891,
	"eval_steps_per_second": 6.373,
	"step": 117200
	},
	{
	"epoch": 0.05,
	"learning_rate": 3.173648328411535e-05,
	"loss": 1.4859,
	"step": 117600
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.3306944370269775,
	"eval_runtime": 17.5199,
	"eval_samples_per_second": 200.857,
	"eval_steps_per_second": 6.279,
	"step": 117600
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.165546603149141e-05,
	"loss": 1.4879,
	"step": 118000
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.3352627754211426,
	"eval_runtime": 17.5475,
	"eval_samples_per_second": 200.542,
	"eval_steps_per_second": 6.269,
	"step": 118000
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.157444877886746e-05,
	"loss": 1.4863,
	"step": 118400
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.357405662536621,
	"eval_runtime": 17.7502,
	"eval_samples_per_second": 198.252,
	"eval_steps_per_second": 6.197,
	"step": 118400
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.1493431526243515e-05,
	"loss": 1.4858,
	"step": 118800
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.3991518020629883,
	"eval_runtime": 17.6792,
	"eval_samples_per_second": 199.048,
	"eval_steps_per_second": 6.222,
	"step": 118800
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.141241427361957e-05,
	"loss": 1.4855,
	"step": 119200
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.353144884109497,
	"eval_runtime": 17.7114,
	"eval_samples_per_second": 198.685,
	"eval_steps_per_second": 6.211,
	"step": 119200
	},
	{
	"epoch": 0.07,
	"learning_rate": 3.1331397020995624e-05,
	"loss": 1.4856,
	"step": 119600
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.409151315689087,
	"eval_runtime": 17.7645,
	"eval_samples_per_second": 198.092,
	"eval_steps_per_second": 6.192,
	"step": 119600
	},
	{
	"epoch": 0.07,
	"learning_rate": 3.125037976837167e-05,
	"loss": 1.4876,
	"step": 120000
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.3355095386505127,
	"eval_runtime": 17.7334,
	"eval_samples_per_second": 198.439,
	"eval_steps_per_second": 6.203,
	"step": 120000
	},
	{
	"epoch": 0.07,
	"learning_rate": 3.116936251574773e-05,
	"loss": 1.4874,
	"step": 120400
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.3579752445220947,
	"eval_runtime": 17.7018,
	"eval_samples_per_second": 198.793,
	"eval_steps_per_second": 6.214,
	"step": 120400
	},
	{
	"epoch": 0.08,
	"learning_rate": 3.108834526312379e-05,
	"loss": 1.4867,
	"step": 120800
	},
	{
	"epoch": 0.08,
	"eval_loss": 2.3405985832214355,
	"eval_runtime": 17.7175,
	"eval_samples_per_second": 198.617,
	"eval_steps_per_second": 6.209,
	"step": 120800
	},
	{
	"epoch": 0.08,
	"learning_rate": 3.1007328010499834e-05,
	"loss": 1.4847,
	"step": 121200
	},
	{
	"epoch": 0.08,
	"eval_loss": 2.321049213409424,
	"eval_runtime": 17.748,
	"eval_samples_per_second": 198.276,
	"eval_steps_per_second": 6.198,
	"step": 121200
	},
	{
	"epoch": 0.08,
	"learning_rate": 3.0926310757875895e-05,
	"loss": 1.4842,
	"step": 121600
	},
	{
	"epoch": 0.08,
	"eval_loss": 2.3495261669158936,
	"eval_runtime": 17.6755,
	"eval_samples_per_second": 199.09,
	"eval_steps_per_second": 6.223,
	"step": 121600
	},
	{
	"epoch": 0.08,
	"learning_rate": 3.084529350525194e-05,
	"loss": 1.484,
	"step": 122000
	},
	{
	"epoch": 0.08,
	"eval_loss": 2.3278751373291016,
	"eval_runtime": 17.6587,
	"eval_samples_per_second": 199.278,
	"eval_steps_per_second": 6.229,
	"step": 122000
	},
	{
	"epoch": 0.09,
	"learning_rate": 3.0764276252628e-05,
	"loss": 1.4817,
	"step": 122400
	},
	{
	"epoch": 0.09,
	"eval_loss": 2.352627754211426,
	"eval_runtime": 17.7968,
	"eval_samples_per_second": 197.732,
	"eval_steps_per_second": 6.181,
	"step": 122400
	},
	{
	"epoch": 0.09,
	"learning_rate": 3.068325900000405e-05,
	"loss": 1.4823,
	"step": 122800
	},
	{
	"epoch": 0.09,
	"eval_loss": 2.3326263427734375,
	"eval_runtime": 17.8301,
	"eval_samples_per_second": 197.363,
	"eval_steps_per_second": 6.169,
	"step": 122800
	},
	{
	"epoch": 0.09,
	"learning_rate": 3.0602241747380106e-05,
	"loss": 1.4814,
	"step": 123200
	},
	{
	"epoch": 0.09,
	"eval_loss": 2.4039418697357178,
	"eval_runtime": 17.726,
	"eval_samples_per_second": 198.522,
	"eval_steps_per_second": 6.206,
	"step": 123200
	},
	{
	"epoch": 0.1,
	"learning_rate": 3.052122449475616e-05,
	"loss": 1.4802,
	"step": 123600
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.3534297943115234,
	"eval_runtime": 18.0233,
	"eval_samples_per_second": 195.247,
	"eval_steps_per_second": 6.103,
	"step": 123600
	},
	{
	"epoch": 0.1,
	"learning_rate": 3.044020724213221e-05,
	"loss": 1.4823,
	"step": 124000
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.3589508533477783,
	"eval_runtime": 18.0015,
	"eval_samples_per_second": 195.484,
	"eval_steps_per_second": 6.111,
	"step": 124000
	},
	{
	"epoch": 0.1,
	"learning_rate": 3.035918998950827e-05,
	"loss": 1.4806,
	"step": 124400
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.3476579189300537,
	"eval_runtime": 18.054,
	"eval_samples_per_second": 194.916,
	"eval_steps_per_second": 6.093,
	"step": 124400
	},
	{
	"epoch": 0.1,
	"learning_rate": 3.027817273688432e-05,
	"loss": 1.481,
	"step": 124800
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.3086392879486084,
	"eval_runtime": 18.0863,
	"eval_samples_per_second": 194.567,
	"eval_steps_per_second": 6.082,
	"step": 124800
	},
	{
	"epoch": 0.11,
	"learning_rate": 3.0197155484260374e-05,
	"loss": 1.4798,
	"step": 125200
	},
	{
	"epoch": 0.11,
	"eval_loss": 2.331632375717163,
	"eval_runtime": 18.0209,
	"eval_samples_per_second": 195.274,
	"eval_steps_per_second": 6.104,
	"step": 125200
	},
	{
	"epoch": 0.11,
	"learning_rate": 3.0116138231636425e-05,
	"loss": 1.481,
	"step": 125600
	},
	{
	"epoch": 0.11,
	"eval_loss": 2.321038246154785,
	"eval_runtime": 18.138,
	"eval_samples_per_second": 194.012,
	"eval_steps_per_second": 6.065,
	"step": 125600
	},
	{
	"epoch": 0.11,
	"learning_rate": 3.0035120979012482e-05,
	"loss": 1.4792,
	"step": 126000
	},
	{
	"epoch": 0.11,
	"eval_loss": 2.3609230518341064,
	"eval_runtime": 18.1227,
	"eval_samples_per_second": 194.176,
	"eval_steps_per_second": 6.07,
	"step": 126000
	},
	{
	"epoch": 0.12,
	"learning_rate": 2.9954103726388537e-05,
	"loss": 1.4783,
	"step": 126400
	},
	{
	"epoch": 0.12,
	"eval_loss": 2.348484516143799,
	"eval_runtime": 18.2068,
	"eval_samples_per_second": 193.279,
	"eval_steps_per_second": 6.042,
	"step": 126400
	},
	{
	"epoch": 0.12,
	"learning_rate": 2.9873086473764588e-05,
	"loss": 1.4783,
	"step": 126800
	},
	{
	"epoch": 0.12,
	"eval_loss": 2.3550658226013184,
	"eval_runtime": 18.1831,
	"eval_samples_per_second": 193.532,
	"eval_steps_per_second": 6.05,
	"step": 126800
	},
	{
	"epoch": 0.12,
	"learning_rate": 2.9792069221140645e-05,
	"loss": 1.478,
	"step": 127200
	},
	{
	"epoch": 0.12,
	"eval_loss": 2.352349042892456,
	"eval_runtime": 18.3773,
	"eval_samples_per_second": 191.487,
	"eval_steps_per_second": 5.986,
	"step": 127200
	},
	{
	"epoch": 0.13,
	"learning_rate": 2.9711051968516696e-05,
	"loss": 1.479,
	"step": 127600
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.3229057788848877,
	"eval_runtime": 18.4727,
	"eval_samples_per_second": 190.498,
	"eval_steps_per_second": 5.955,
	"step": 127600
	},
	{
	"epoch": 0.13,
	"learning_rate": 2.963003471589275e-05,
	"loss": 1.4787,
	"step": 128000
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.3134686946868896,
	"eval_runtime": 18.5086,
	"eval_samples_per_second": 190.128,
	"eval_steps_per_second": 5.943,
	"step": 128000
	},
	{
	"epoch": 0.13,
	"learning_rate": 2.95490174632688e-05,
	"loss": 1.4775,
	"step": 128400
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.27996826171875,
	"eval_runtime": 18.3605,
	"eval_samples_per_second": 191.661,
	"eval_steps_per_second": 5.991,
	"step": 128400
	},
	{
	"epoch": 0.13,
	"learning_rate": 2.946800021064486e-05,
	"loss": 1.4766,
	"step": 128800
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.2963178157806396,
	"eval_runtime": 18.3042,
	"eval_samples_per_second": 192.251,
	"eval_steps_per_second": 6.01,
	"step": 128800
	},
	{
	"epoch": 0.14,
	"learning_rate": 2.9386982958020913e-05,
	"loss": 1.4762,
	"step": 129200
	},
	{
	"epoch": 0.14,
	"eval_loss": 2.3238120079040527,
	"eval_runtime": 18.4678,
	"eval_samples_per_second": 190.548,
	"eval_steps_per_second": 5.956,
	"step": 129200
	},
	{
	"epoch": 0.14,
	"learning_rate": 2.9305965705396964e-05,
	"loss": 1.4769,
	"step": 129600
	},
	{
	"epoch": 0.14,
	"eval_loss": 2.3036534786224365,
	"eval_runtime": 18.3198,
	"eval_samples_per_second": 192.087,
	"eval_steps_per_second": 6.004,
	"step": 129600
	},
	{
	"epoch": 0.14,
	"learning_rate": 2.9224948452773022e-05,
	"loss": 1.4756,
	"step": 130000
	},
	{
	"epoch": 0.14,
	"eval_loss": 2.3685128688812256,
	"eval_runtime": 18.2275,
	"eval_samples_per_second": 193.06,
	"eval_steps_per_second": 6.035,
	"step": 130000
	},
	{
	"epoch": 0.15,
	"learning_rate": 2.9143931200149073e-05,
	"loss": 1.4752,
	"step": 130400
	},
	{
	"epoch": 0.15,
	"eval_loss": 2.288372278213501,
	"eval_runtime": 18.3274,
	"eval_samples_per_second": 192.008,
	"eval_steps_per_second": 6.002,
	"step": 130400
	},
	{
	"epoch": 0.15,
	"learning_rate": 2.9062913947525127e-05,
	"loss": 1.4747,
	"step": 130800
	},
	{
	"epoch": 0.15,
	"eval_loss": 2.3392255306243896,
	"eval_runtime": 18.2629,
	"eval_samples_per_second": 192.686,
	"eval_steps_per_second": 6.023,
	"step": 130800
	},
	{
	"epoch": 0.15,
	"learning_rate": 2.8981896694901178e-05,
	"loss": 1.4738,
	"step": 131200
	},
	{
	"epoch": 0.15,
	"eval_loss": 2.3563013076782227,
	"eval_runtime": 18.4362,
	"eval_samples_per_second": 190.875,
	"eval_steps_per_second": 5.967,
	"step": 131200
	},
	{
	"epoch": 0.15,
	"learning_rate": 2.8900879442277236e-05,
	"loss": 1.4749,
	"step": 131600
	},
	{
	"epoch": 0.15,
	"eval_loss": 2.330927610397339,
	"eval_runtime": 18.1578,
	"eval_samples_per_second": 193.801,
	"eval_steps_per_second": 6.058,
	"step": 131600
	},
	{
	"epoch": 0.16,
	"learning_rate": 2.881986218965329e-05,
	"loss": 1.4748,
	"step": 132000
	},
	{
	"epoch": 0.16,
	"eval_loss": 2.33650279045105,
	"eval_runtime": 18.3527,
	"eval_samples_per_second": 191.743,
	"eval_steps_per_second": 5.994,
	"step": 132000
	},
	{
	"epoch": 0.16,
	"learning_rate": 2.873884493702934e-05,
	"loss": 1.4737,
	"step": 132400
	},
	{
	"epoch": 0.16,
	"eval_loss": 2.3835794925689697,
	"eval_runtime": 18.2768,
	"eval_samples_per_second": 192.539,
	"eval_steps_per_second": 6.019,
	"step": 132400
	},
	{
	"epoch": 0.16,
	"learning_rate": 2.86578276844054e-05,
	"loss": 1.474,
	"step": 132800
	},
	{
	"epoch": 0.16,
	"eval_loss": 2.4150733947753906,
	"eval_runtime": 18.2593,
	"eval_samples_per_second": 192.724,
	"eval_steps_per_second": 6.024,
	"step": 132800
	},
	{
	"epoch": 0.17,
	"learning_rate": 2.8576810431781446e-05,
	"loss": 1.4743,
	"step": 133200
	},
	{
	"epoch": 0.17,
	"eval_loss": 2.36186146736145,
	"eval_runtime": 18.123,
	"eval_samples_per_second": 194.173,
	"eval_steps_per_second": 6.07,
	"step": 133200
	},
	{
	"epoch": 0.17,
	"learning_rate": 2.8495793179157504e-05,
	"loss": 1.4735,
	"step": 133600
	},
	{
	"epoch": 0.17,
	"eval_loss": 2.356795310974121,
	"eval_runtime": 18.2043,
	"eval_samples_per_second": 193.306,
	"eval_steps_per_second": 6.043,
	"step": 133600
	},
	{
	"epoch": 0.17,
	"learning_rate": 2.8414775926533555e-05,
	"loss": 1.4735,
	"step": 134000
	},
	{
	"epoch": 0.17,
	"eval_loss": 2.3677237033843994,
	"eval_runtime": 18.253,
	"eval_samples_per_second": 192.791,
	"eval_steps_per_second": 6.026,
	"step": 134000
	},
	{
	"epoch": 0.17,
	"learning_rate": 2.833375867390961e-05,
	"loss": 1.4715,
	"step": 134400
	},
	{
	"epoch": 0.17,
	"eval_loss": 2.361776113510132,
	"eval_runtime": 18.182,
	"eval_samples_per_second": 193.543,
	"eval_steps_per_second": 6.05,
	"step": 134400
	},
	{
	"epoch": 0.18,
	"learning_rate": 2.8252741421285667e-05,
	"loss": 1.4726,
	"step": 134800
	},
	{
	"epoch": 0.18,
	"eval_loss": 2.3906137943267822,
	"eval_runtime": 18.0913,
	"eval_samples_per_second": 194.513,
	"eval_steps_per_second": 6.08,
	"step": 134800
	},
	{
	"epoch": 0.18,
	"learning_rate": 2.8171724168661718e-05,
	"loss": 1.4716,
	"step": 135200
	},
	{
	"epoch": 0.18,
	"eval_loss": 2.340426445007324,
	"eval_runtime": 18.1553,
	"eval_samples_per_second": 193.828,
	"eval_steps_per_second": 6.059,
	"step": 135200
	},
	{
	"epoch": 0.18,
	"learning_rate": 2.8090706916037772e-05,
	"loss": 1.4719,
	"step": 135600
	},
	{
	"epoch": 0.18,
	"eval_loss": 2.340381383895874,
	"eval_runtime": 18.1363,
	"eval_samples_per_second": 194.031,
	"eval_steps_per_second": 6.065,
	"step": 135600
	},
	{
	"epoch": 0.19,
	"learning_rate": 2.8009689663413823e-05,
	"loss": 1.4725,
	"step": 136000
	},
	{
	"epoch": 0.19,
	"eval_loss": 2.370542526245117,
	"eval_runtime": 18.2157,
	"eval_samples_per_second": 193.185,
	"eval_steps_per_second": 6.039,
	"step": 136000
	},
	{
	"epoch": 0.19,
	"learning_rate": 2.792867241078988e-05,
	"loss": 1.4713,
	"step": 136400
	},
	{
	"epoch": 0.19,
	"eval_loss": 2.360673189163208,
	"eval_runtime": 18.2181,
	"eval_samples_per_second": 193.159,
	"eval_steps_per_second": 6.038,
	"step": 136400
	},
	{
	"epoch": 0.19,
	"learning_rate": 2.784765515816593e-05,
	"loss": 1.4714,
	"step": 136800
	},
	{
	"epoch": 0.19,
	"eval_loss": 2.3657426834106445,
	"eval_runtime": 18.2301,
	"eval_samples_per_second": 193.032,
	"eval_steps_per_second": 6.034,
	"step": 136800
	},
	{
	"epoch": 0.2,
	"learning_rate": 2.7766637905541986e-05,
	"loss": 1.4706,
	"step": 137200
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.3723626136779785,
	"eval_runtime": 18.1723,
	"eval_samples_per_second": 193.646,
	"eval_steps_per_second": 6.053,
	"step": 137200
	},
	{
	"epoch": 0.2,
	"learning_rate": 2.7685620652918044e-05,
	"loss": 1.47,
	"step": 137600
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.3738961219787598,
	"eval_runtime": 18.1983,
	"eval_samples_per_second": 193.37,
	"eval_steps_per_second": 6.045,
	"step": 137600
	},
	{
	"epoch": 0.2,
	"learning_rate": 2.7604603400294094e-05,
	"loss": 1.4686,
	"step": 138000
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.3388829231262207,
	"eval_runtime": 18.2362,
	"eval_samples_per_second": 192.968,
	"eval_steps_per_second": 6.032,
	"step": 138000
	},
	{
	"epoch": 0.2,
	"learning_rate": 2.752358614767015e-05,
	"loss": 1.469,
	"step": 138400
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.3783812522888184,
	"eval_runtime": 18.2567,
	"eval_samples_per_second": 192.751,
	"eval_steps_per_second": 6.025,
	"step": 138400
	},
	{
	"epoch": 0.21,
	"learning_rate": 2.74425688950462e-05,
	"loss": 1.4682,
	"step": 138800
	},
	{
	"epoch": 0.21,
	"eval_loss": 2.3429505825042725,
	"eval_runtime": 18.2164,
	"eval_samples_per_second": 193.177,
	"eval_steps_per_second": 6.039,
	"step": 138800
	},
	{
	"epoch": 0.21,
	"learning_rate": 2.7361551642422257e-05,
	"loss": 1.4698,
	"step": 139200
	},
	{
	"epoch": 0.21,
	"eval_loss": 2.3579936027526855,
	"eval_runtime": 18.1836,
	"eval_samples_per_second": 193.526,
	"eval_steps_per_second": 6.049,
	"step": 139200
	},
	{
	"epoch": 0.21,
	"learning_rate": 2.7280534389798308e-05,
	"loss": 1.4676,
	"step": 139600
	},
	{
	"epoch": 0.21,
	"eval_loss": 2.3819713592529297,
	"eval_runtime": 18.2677,
	"eval_samples_per_second": 192.635,
	"eval_steps_per_second": 6.022,
	"step": 139600
	},
	{
	"epoch": 0.22,
	"learning_rate": 2.7199517137174363e-05,
	"loss": 1.4683,
	"step": 140000
	},
	{
	"epoch": 0.22,
	"eval_loss": 2.426044225692749,
	"eval_runtime": 18.2225,
	"eval_samples_per_second": 193.113,
	"eval_steps_per_second": 6.036,
	"step": 140000
	},
	{
	"epoch": 0.22,
	"learning_rate": 2.711849988455042e-05,
	"loss": 1.4677,
	"step": 140400
	},
	{
	"epoch": 0.22,
	"eval_loss": 2.3789823055267334,
	"eval_runtime": 31.3826,
	"eval_samples_per_second": 112.132,
	"eval_steps_per_second": 3.505,
	"step": 140400
	},
	{
	"epoch": 0.22,
	"learning_rate": 2.703748263192647e-05,
	"loss": 1.4686,
	"step": 140800
	},
	{
	"epoch": 0.22,
	"eval_loss": 2.329643487930298,
	"eval_runtime": 18.3935,
	"eval_samples_per_second": 191.317,
	"eval_steps_per_second": 5.98,
	"step": 140800
	},
	{
	"epoch": 0.22,
	"learning_rate": 2.6956465379302525e-05,
	"loss": 1.4679,
	"step": 141200
	},
	{
	"epoch": 0.22,
	"eval_loss": 2.4011151790618896,
	"eval_runtime": 18.2288,
	"eval_samples_per_second": 193.046,
	"eval_steps_per_second": 6.034,
	"step": 141200
	},
	{
	"epoch": 0.23,
	"learning_rate": 2.6875448126678576e-05,
	"loss": 1.4676,
	"step": 141600
	},
	{
	"epoch": 0.23,
	"eval_loss": 2.377561092376709,
	"eval_runtime": 20.2447,
	"eval_samples_per_second": 173.823,
	"eval_steps_per_second": 5.434,
	"step": 141600
	}
	],
	"max_steps": 274290,
	"num_train_epochs": 2,
	"total_flos": 2.641163282310901e+20,
	"trial_name": null,
	"trial_params": null
	}