PeptideGPT_non_hemolytic / trainer_state.json

Uploaded PeptideGPT non-hemolytic model

05f67a6 verified 4 months ago

179 kB

	{
	"best_metric": 3.9793689250946045,
	"best_model_checkpoint": "output_hemo_neg_3/checkpoint-18392",
	"epoch": 500.0,
	"eval_steps": 500,
	"global_step": 19000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"learning_rate": 9.98e-07,
	"loss": 5.9415,
	"step": 38
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.30840664711632454,
	"eval_loss": 5.606841087341309,
	"eval_runtime": 0.5994,
	"eval_samples_per_second": 6.673,
	"eval_steps_per_second": 1.668,
	"step": 38
	},
	{
	"epoch": 2.0,
	"learning_rate": 9.959999999999999e-07,
	"loss": 5.7302,
	"step": 76
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.32038123167155425,
	"eval_loss": 5.426336288452148,
	"eval_runtime": 0.6035,
	"eval_samples_per_second": 6.628,
	"eval_steps_per_second": 1.657,
	"step": 76
	},
	{
	"epoch": 3.0,
	"learning_rate": 9.94e-07,
	"loss": 5.5675,
	"step": 114
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.323069403714565,
	"eval_loss": 5.287517070770264,
	"eval_runtime": 0.6089,
	"eval_samples_per_second": 6.57,
	"eval_steps_per_second": 1.642,
	"step": 114
	},
	{
	"epoch": 4.0,
	"learning_rate": 9.92e-07,
	"loss": 5.4594,
	"step": 152
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.3250244379276637,
	"eval_loss": 5.205501556396484,
	"eval_runtime": 0.6097,
	"eval_samples_per_second": 6.56,
	"eval_steps_per_second": 1.64,
	"step": 152
	},
	{
	"epoch": 5.0,
	"learning_rate": 9.9e-07,
	"loss": 5.3808,
	"step": 190
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.3296676441837732,
	"eval_loss": 5.158883094787598,
	"eval_runtime": 0.6099,
	"eval_samples_per_second": 6.558,
	"eval_steps_per_second": 1.639,
	"step": 190
	},
	{
	"epoch": 6.0,
	"learning_rate": 9.88e-07,
	"loss": 5.3353,
	"step": 228
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.3321114369501466,
	"eval_loss": 5.119546413421631,
	"eval_runtime": 0.6108,
	"eval_samples_per_second": 6.549,
	"eval_steps_per_second": 1.637,
	"step": 228
	},
	{
	"epoch": 7.0,
	"learning_rate": 9.86e-07,
	"loss": 5.2946,
	"step": 266
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.333822091886608,
	"eval_loss": 5.077916622161865,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.528,
	"eval_steps_per_second": 1.632,
	"step": 266
	},
	{
	"epoch": 8.0,
	"learning_rate": 9.84e-07,
	"loss": 5.2632,
	"step": 304
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.33699902248289343,
	"eval_loss": 5.043184280395508,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 304
	},
	{
	"epoch": 9.0,
	"learning_rate": 9.819999999999999e-07,
	"loss": 5.2279,
	"step": 342
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.33724340175953077,
	"eval_loss": 5.015382766723633,
	"eval_runtime": 0.6122,
	"eval_samples_per_second": 6.534,
	"eval_steps_per_second": 1.634,
	"step": 342
	},
	{
	"epoch": 10.0,
	"learning_rate": 9.8e-07,
	"loss": 5.1999,
	"step": 380
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.33773216031280545,
	"eval_loss": 4.993128299713135,
	"eval_runtime": 0.612,
	"eval_samples_per_second": 6.535,
	"eval_steps_per_second": 1.634,
	"step": 380
	},
	{
	"epoch": 11.0,
	"learning_rate": 9.78e-07,
	"loss": 5.1853,
	"step": 418
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.3399315738025415,
	"eval_loss": 4.970090389251709,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 418
	},
	{
	"epoch": 12.0,
	"learning_rate": 9.759999999999998e-07,
	"loss": 5.1619,
	"step": 456
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.3428641251221896,
	"eval_loss": 4.94577693939209,
	"eval_runtime": 0.6122,
	"eval_samples_per_second": 6.534,
	"eval_steps_per_second": 1.634,
	"step": 456
	},
	{
	"epoch": 13.0,
	"learning_rate": 9.74e-07,
	"loss": 5.1395,
	"step": 494
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.34384164222873903,
	"eval_loss": 4.927363395690918,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 494
	},
	{
	"epoch": 14.0,
	"learning_rate": 9.72e-07,
	"loss": 5.1179,
	"step": 532
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.34628543499511244,
	"eval_loss": 4.908015251159668,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 532
	},
	{
	"epoch": 15.0,
	"learning_rate": 9.7e-07,
	"loss": 5.1048,
	"step": 570
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.3465298142717498,
	"eval_loss": 4.892131805419922,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 570
	},
	{
	"epoch": 16.0,
	"learning_rate": 9.679999999999999e-07,
	"loss": 5.0837,
	"step": 608
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.34701857282502446,
	"eval_loss": 4.875644683837891,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 608
	},
	{
	"epoch": 17.0,
	"learning_rate": 9.66e-07,
	"loss": 5.067,
	"step": 646
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.34921798631476053,
	"eval_loss": 4.860612869262695,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 646
	},
	{
	"epoch": 18.0,
	"learning_rate": 9.64e-07,
	"loss": 5.0516,
	"step": 684
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.3506842619745846,
	"eval_loss": 4.846870422363281,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 684
	},
	{
	"epoch": 19.0,
	"learning_rate": 9.619999999999999e-07,
	"loss": 5.0313,
	"step": 722
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.3521505376344086,
	"eval_loss": 4.836608409881592,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 722
	},
	{
	"epoch": 20.0,
	"learning_rate": 9.6e-07,
	"loss": 5.0225,
	"step": 760
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.3526392961876833,
	"eval_loss": 4.827553749084473,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.629,
	"step": 760
	},
	{
	"epoch": 21.0,
	"learning_rate": 9.58e-07,
	"loss": 5.0068,
	"step": 798
	},
	{
	"epoch": 21.0,
	"eval_accuracy": 0.3521505376344086,
	"eval_loss": 4.817898273468018,
	"eval_runtime": 0.6125,
	"eval_samples_per_second": 6.53,
	"eval_steps_per_second": 1.633,
	"step": 798
	},
	{
	"epoch": 22.0,
	"learning_rate": 9.559999999999998e-07,
	"loss": 4.9942,
	"step": 836
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 0.3521505376344086,
	"eval_loss": 4.805068016052246,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.631,
	"step": 836
	},
	{
	"epoch": 23.0,
	"learning_rate": 9.539999999999999e-07,
	"loss": 4.9758,
	"step": 874
	},
	{
	"epoch": 23.0,
	"eval_accuracy": 0.3526392961876833,
	"eval_loss": 4.796260356903076,
	"eval_runtime": 0.6145,
	"eval_samples_per_second": 6.509,
	"eval_steps_per_second": 1.627,
	"step": 874
	},
	{
	"epoch": 24.0,
	"learning_rate": 9.52e-07,
	"loss": 4.9605,
	"step": 912
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.35288367546432065,
	"eval_loss": 4.78426456451416,
	"eval_runtime": 0.6125,
	"eval_samples_per_second": 6.53,
	"eval_steps_per_second": 1.633,
	"step": 912
	},
	{
	"epoch": 25.0,
	"learning_rate": 9.499999999999999e-07,
	"loss": 4.9525,
	"step": 950
	},
	{
	"epoch": 25.0,
	"eval_accuracy": 0.353128054740958,
	"eval_loss": 4.772826671600342,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 950
	},
	{
	"epoch": 26.0,
	"learning_rate": 9.479999999999999e-07,
	"loss": 4.9409,
	"step": 988
	},
	{
	"epoch": 26.0,
	"eval_accuracy": 0.35239491691104596,
	"eval_loss": 4.761840343475342,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.63,
	"step": 988
	},
	{
	"epoch": 27.0,
	"learning_rate": 9.459999999999999e-07,
	"loss": 4.9328,
	"step": 1026
	},
	{
	"epoch": 27.0,
	"eval_accuracy": 0.3519061583577713,
	"eval_loss": 4.75234317779541,
	"eval_runtime": 0.6227,
	"eval_samples_per_second": 6.424,
	"eval_steps_per_second": 1.606,
	"step": 1026
	},
	{
	"epoch": 28.0,
	"learning_rate": 9.439999999999999e-07,
	"loss": 4.9168,
	"step": 1064
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.3526392961876833,
	"eval_loss": 4.744428634643555,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 1064
	},
	{
	"epoch": 29.0,
	"learning_rate": 9.419999999999999e-07,
	"loss": 4.9057,
	"step": 1102
	},
	{
	"epoch": 29.0,
	"eval_accuracy": 0.3550830889540567,
	"eval_loss": 4.733183860778809,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 1102
	},
	{
	"epoch": 30.0,
	"learning_rate": 9.399999999999999e-07,
	"loss": 4.8896,
	"step": 1140
	},
	{
	"epoch": 30.0,
	"eval_accuracy": 0.3560606060606061,
	"eval_loss": 4.723690986633301,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 1140
	},
	{
	"epoch": 31.0,
	"learning_rate": 9.379999999999998e-07,
	"loss": 4.8869,
	"step": 1178
	},
	{
	"epoch": 31.0,
	"eval_accuracy": 0.35654936461388076,
	"eval_loss": 4.715620994567871,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 1178
	},
	{
	"epoch": 32.0,
	"learning_rate": 9.36e-07,
	"loss": 4.8798,
	"step": 1216
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.3567937438905181,
	"eval_loss": 4.709283828735352,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 1216
	},
	{
	"epoch": 33.0,
	"learning_rate": 9.34e-07,
	"loss": 4.8591,
	"step": 1254
	},
	{
	"epoch": 33.0,
	"eval_accuracy": 0.3575268817204301,
	"eval_loss": 4.702914714813232,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 1254
	},
	{
	"epoch": 34.0,
	"learning_rate": 9.32e-07,
	"loss": 4.8548,
	"step": 1292
	},
	{
	"epoch": 34.0,
	"eval_accuracy": 0.35703812316715544,
	"eval_loss": 4.694584369659424,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 1292
	},
	{
	"epoch": 35.0,
	"learning_rate": 9.3e-07,
	"loss": 4.8502,
	"step": 1330
	},
	{
	"epoch": 35.0,
	"eval_accuracy": 0.35948191593352885,
	"eval_loss": 4.687127590179443,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 1330
	},
	{
	"epoch": 36.0,
	"learning_rate": 9.28e-07,
	"loss": 4.8378,
	"step": 1368
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.35948191593352885,
	"eval_loss": 4.680301189422607,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 1368
	},
	{
	"epoch": 37.0,
	"learning_rate": 9.26e-07,
	"loss": 4.829,
	"step": 1406
	},
	{
	"epoch": 37.0,
	"eval_accuracy": 0.35997067448680353,
	"eval_loss": 4.673268795013428,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.628,
	"step": 1406
	},
	{
	"epoch": 38.0,
	"learning_rate": 9.24e-07,
	"loss": 4.8177,
	"step": 1444
	},
	{
	"epoch": 38.0,
	"eval_accuracy": 0.3602150537634409,
	"eval_loss": 4.66432523727417,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 1.627,
	"step": 1444
	},
	{
	"epoch": 39.0,
	"learning_rate": 9.22e-07,
	"loss": 4.809,
	"step": 1482
	},
	{
	"epoch": 39.0,
	"eval_accuracy": 0.36070381231671556,
	"eval_loss": 4.6591081619262695,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.631,
	"step": 1482
	},
	{
	"epoch": 40.0,
	"learning_rate": 9.2e-07,
	"loss": 4.8002,
	"step": 1520
	},
	{
	"epoch": 40.0,
	"eval_accuracy": 0.36070381231671556,
	"eval_loss": 4.650698661804199,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 1520
	},
	{
	"epoch": 41.0,
	"learning_rate": 9.18e-07,
	"loss": 4.7938,
	"step": 1558
	},
	{
	"epoch": 41.0,
	"eval_accuracy": 0.3614369501466276,
	"eval_loss": 4.643824577331543,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 1558
	},
	{
	"epoch": 42.0,
	"learning_rate": 9.16e-07,
	"loss": 4.7787,
	"step": 1596
	},
	{
	"epoch": 42.0,
	"eval_accuracy": 0.3616813294232649,
	"eval_loss": 4.636685848236084,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 1596
	},
	{
	"epoch": 43.0,
	"learning_rate": 9.14e-07,
	"loss": 4.7685,
	"step": 1634
	},
	{
	"epoch": 43.0,
	"eval_accuracy": 0.3629032258064516,
	"eval_loss": 4.630648136138916,
	"eval_runtime": 0.6149,
	"eval_samples_per_second": 6.505,
	"eval_steps_per_second": 1.626,
	"step": 1634
	},
	{
	"epoch": 44.0,
	"learning_rate": 9.12e-07,
	"loss": 4.762,
	"step": 1672
	},
	{
	"epoch": 44.0,
	"eval_accuracy": 0.36363636363636365,
	"eval_loss": 4.621088981628418,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 1672
	},
	{
	"epoch": 45.0,
	"learning_rate": 9.1e-07,
	"loss": 4.7487,
	"step": 1710
	},
	{
	"epoch": 45.0,
	"eval_accuracy": 0.36412512218963833,
	"eval_loss": 4.61327600479126,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.63,
	"step": 1710
	},
	{
	"epoch": 46.0,
	"learning_rate": 9.08e-07,
	"loss": 4.7451,
	"step": 1748
	},
	{
	"epoch": 46.0,
	"eval_accuracy": 0.364613880742913,
	"eval_loss": 4.605830669403076,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 1748
	},
	{
	"epoch": 47.0,
	"learning_rate": 9.06e-07,
	"loss": 4.7378,
	"step": 1786
	},
	{
	"epoch": 47.0,
	"eval_accuracy": 0.3658357771260997,
	"eval_loss": 4.600909233093262,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 1786
	},
	{
	"epoch": 48.0,
	"learning_rate": 9.039999999999999e-07,
	"loss": 4.7281,
	"step": 1824
	},
	{
	"epoch": 48.0,
	"eval_accuracy": 0.3658357771260997,
	"eval_loss": 4.5931782722473145,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.628,
	"step": 1824
	},
	{
	"epoch": 49.0,
	"learning_rate": 9.02e-07,
	"loss": 4.7196,
	"step": 1862
	},
	{
	"epoch": 49.0,
	"eval_accuracy": 0.3655913978494624,
	"eval_loss": 4.5888590812683105,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 1862
	},
	{
	"epoch": 50.0,
	"learning_rate": 9e-07,
	"loss": 4.7091,
	"step": 1900
	},
	{
	"epoch": 50.0,
	"eval_accuracy": 0.36656891495601174,
	"eval_loss": 4.581442356109619,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 1900
	},
	{
	"epoch": 51.0,
	"learning_rate": 8.98e-07,
	"loss": 4.7032,
	"step": 1938
	},
	{
	"epoch": 51.0,
	"eval_accuracy": 0.3668132942326491,
	"eval_loss": 4.5762939453125,
	"eval_runtime": 0.6259,
	"eval_samples_per_second": 6.391,
	"eval_steps_per_second": 1.598,
	"step": 1938
	},
	{
	"epoch": 52.0,
	"learning_rate": 8.96e-07,
	"loss": 4.6978,
	"step": 1976
	},
	{
	"epoch": 52.0,
	"eval_accuracy": 0.3668132942326491,
	"eval_loss": 4.573066711425781,
	"eval_runtime": 0.6125,
	"eval_samples_per_second": 6.53,
	"eval_steps_per_second": 1.633,
	"step": 1976
	},
	{
	"epoch": 53.0,
	"learning_rate": 8.939999999999999e-07,
	"loss": 4.6908,
	"step": 2014
	},
	{
	"epoch": 53.0,
	"eval_accuracy": 0.36730205278592376,
	"eval_loss": 4.5681657791137695,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 2014
	},
	{
	"epoch": 54.0,
	"learning_rate": 8.92e-07,
	"loss": 4.6776,
	"step": 2052
	},
	{
	"epoch": 54.0,
	"eval_accuracy": 0.36730205278592376,
	"eval_loss": 4.56380558013916,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 2052
	},
	{
	"epoch": 55.0,
	"learning_rate": 8.9e-07,
	"loss": 4.6667,
	"step": 2090
	},
	{
	"epoch": 55.0,
	"eval_accuracy": 0.3680351906158358,
	"eval_loss": 4.558794975280762,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.629,
	"step": 2090
	},
	{
	"epoch": 56.0,
	"learning_rate": 8.88e-07,
	"loss": 4.6662,
	"step": 2128
	},
	{
	"epoch": 56.0,
	"eval_accuracy": 0.36852394916911047,
	"eval_loss": 4.5535197257995605,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 2128
	},
	{
	"epoch": 57.0,
	"learning_rate": 8.86e-07,
	"loss": 4.6567,
	"step": 2166
	},
	{
	"epoch": 57.0,
	"eval_accuracy": 0.36974584555229717,
	"eval_loss": 4.549376964569092,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 2166
	},
	{
	"epoch": 58.0,
	"learning_rate": 8.839999999999999e-07,
	"loss": 4.6492,
	"step": 2204
	},
	{
	"epoch": 58.0,
	"eval_accuracy": 0.36974584555229717,
	"eval_loss": 4.543338298797607,
	"eval_runtime": 0.6159,
	"eval_samples_per_second": 6.494,
	"eval_steps_per_second": 1.624,
	"step": 2204
	},
	{
	"epoch": 59.0,
	"learning_rate": 8.82e-07,
	"loss": 4.6442,
	"step": 2242
	},
	{
	"epoch": 59.0,
	"eval_accuracy": 0.36974584555229717,
	"eval_loss": 4.5420732498168945,
	"eval_runtime": 0.6226,
	"eval_samples_per_second": 6.424,
	"eval_steps_per_second": 1.606,
	"step": 2242
	},
	{
	"epoch": 60.0,
	"learning_rate": 8.799999999999999e-07,
	"loss": 4.632,
	"step": 2280
	},
	{
	"epoch": 60.0,
	"eval_accuracy": 0.3699902248289345,
	"eval_loss": 4.5368475914001465,
	"eval_runtime": 0.615,
	"eval_samples_per_second": 6.504,
	"eval_steps_per_second": 1.626,
	"step": 2280
	},
	{
	"epoch": 61.0,
	"learning_rate": 8.78e-07,
	"loss": 4.6256,
	"step": 2318
	},
	{
	"epoch": 61.0,
	"eval_accuracy": 0.3704789833822092,
	"eval_loss": 4.532083511352539,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 2318
	},
	{
	"epoch": 62.0,
	"learning_rate": 8.76e-07,
	"loss": 4.6215,
	"step": 2356
	},
	{
	"epoch": 62.0,
	"eval_accuracy": 0.3699902248289345,
	"eval_loss": 4.528621673583984,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 2356
	},
	{
	"epoch": 63.0,
	"learning_rate": 8.739999999999999e-07,
	"loss": 4.6142,
	"step": 2394
	},
	{
	"epoch": 63.0,
	"eval_accuracy": 0.37023460410557185,
	"eval_loss": 4.524003982543945,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 2394
	},
	{
	"epoch": 64.0,
	"learning_rate": 8.72e-07,
	"loss": 4.6041,
	"step": 2432
	},
	{
	"epoch": 64.0,
	"eval_accuracy": 0.3709677419354839,
	"eval_loss": 4.519542694091797,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.628,
	"step": 2432
	},
	{
	"epoch": 65.0,
	"learning_rate": 8.699999999999999e-07,
	"loss": 4.5984,
	"step": 2470
	},
	{
	"epoch": 65.0,
	"eval_accuracy": 0.37145650048875856,
	"eval_loss": 4.514742851257324,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 2470
	},
	{
	"epoch": 66.0,
	"learning_rate": 8.68e-07,
	"loss": 4.5919,
	"step": 2508
	},
	{
	"epoch": 66.0,
	"eval_accuracy": 0.37267839687194526,
	"eval_loss": 4.511608600616455,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 2508
	},
	{
	"epoch": 67.0,
	"learning_rate": 8.659999999999999e-07,
	"loss": 4.5838,
	"step": 2546
	},
	{
	"epoch": 67.0,
	"eval_accuracy": 0.3724340175953079,
	"eval_loss": 4.5069780349731445,
	"eval_runtime": 0.6152,
	"eval_samples_per_second": 6.502,
	"eval_steps_per_second": 1.626,
	"step": 2546
	},
	{
	"epoch": 68.0,
	"learning_rate": 8.639999999999999e-07,
	"loss": 4.5733,
	"step": 2584
	},
	{
	"epoch": 68.0,
	"eval_accuracy": 0.3724340175953079,
	"eval_loss": 4.503517150878906,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.628,
	"step": 2584
	},
	{
	"epoch": 69.0,
	"learning_rate": 8.62e-07,
	"loss": 4.5642,
	"step": 2622
	},
	{
	"epoch": 69.0,
	"eval_accuracy": 0.3721896383186706,
	"eval_loss": 4.500667095184326,
	"eval_runtime": 0.6248,
	"eval_samples_per_second": 6.402,
	"eval_steps_per_second": 1.6,
	"step": 2622
	},
	{
	"epoch": 70.0,
	"learning_rate": 8.599999999999999e-07,
	"loss": 4.5607,
	"step": 2660
	},
	{
	"epoch": 70.0,
	"eval_accuracy": 0.37194525904203324,
	"eval_loss": 4.4967780113220215,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.627,
	"step": 2660
	},
	{
	"epoch": 71.0,
	"learning_rate": 8.58e-07,
	"loss": 4.5543,
	"step": 2698
	},
	{
	"epoch": 71.0,
	"eval_accuracy": 0.3729227761485826,
	"eval_loss": 4.492751121520996,
	"eval_runtime": 0.615,
	"eval_samples_per_second": 6.505,
	"eval_steps_per_second": 1.626,
	"step": 2698
	},
	{
	"epoch": 72.0,
	"learning_rate": 8.559999999999999e-07,
	"loss": 4.5502,
	"step": 2736
	},
	{
	"epoch": 72.0,
	"eval_accuracy": 0.3729227761485826,
	"eval_loss": 4.489741325378418,
	"eval_runtime": 0.6243,
	"eval_samples_per_second": 6.407,
	"eval_steps_per_second": 1.602,
	"step": 2736
	},
	{
	"epoch": 73.0,
	"learning_rate": 8.539999999999999e-07,
	"loss": 4.5505,
	"step": 2774
	},
	{
	"epoch": 73.0,
	"eval_accuracy": 0.3736559139784946,
	"eval_loss": 4.487486839294434,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 2774
	},
	{
	"epoch": 74.0,
	"learning_rate": 8.52e-07,
	"loss": 4.537,
	"step": 2812
	},
	{
	"epoch": 74.0,
	"eval_accuracy": 0.37316715542521994,
	"eval_loss": 4.483956813812256,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 2812
	},
	{
	"epoch": 75.0,
	"learning_rate": 8.499999999999999e-07,
	"loss": 4.529,
	"step": 2850
	},
	{
	"epoch": 75.0,
	"eval_accuracy": 0.374633431085044,
	"eval_loss": 4.480215549468994,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.527,
	"eval_steps_per_second": 1.632,
	"step": 2850
	},
	{
	"epoch": 76.0,
	"learning_rate": 8.48e-07,
	"loss": 4.5201,
	"step": 2888
	},
	{
	"epoch": 76.0,
	"eval_accuracy": 0.37487781036168133,
	"eval_loss": 4.4763689041137695,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.629,
	"step": 2888
	},
	{
	"epoch": 77.0,
	"learning_rate": 8.459999999999999e-07,
	"loss": 4.5176,
	"step": 2926
	},
	{
	"epoch": 77.0,
	"eval_accuracy": 0.37512218963831867,
	"eval_loss": 4.472899436950684,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 2926
	},
	{
	"epoch": 78.0,
	"learning_rate": 8.439999999999999e-07,
	"loss": 4.5087,
	"step": 2964
	},
	{
	"epoch": 78.0,
	"eval_accuracy": 0.37512218963831867,
	"eval_loss": 4.4715986251831055,
	"eval_runtime": 0.627,
	"eval_samples_per_second": 6.379,
	"eval_steps_per_second": 1.595,
	"step": 2964
	},
	{
	"epoch": 79.0,
	"learning_rate": 8.419999999999999e-07,
	"loss": 4.504,
	"step": 3002
	},
	{
	"epoch": 79.0,
	"eval_accuracy": 0.37438905180840665,
	"eval_loss": 4.468360900878906,
	"eval_runtime": 0.6153,
	"eval_samples_per_second": 6.501,
	"eval_steps_per_second": 1.625,
	"step": 3002
	},
	{
	"epoch": 80.0,
	"learning_rate": 8.399999999999999e-07,
	"loss": 4.4914,
	"step": 3040
	},
	{
	"epoch": 80.0,
	"eval_accuracy": 0.37512218963831867,
	"eval_loss": 4.463363170623779,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 3040
	},
	{
	"epoch": 81.0,
	"learning_rate": 8.38e-07,
	"loss": 4.4907,
	"step": 3078
	},
	{
	"epoch": 81.0,
	"eval_accuracy": 0.37512218963831867,
	"eval_loss": 4.461572170257568,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 3078
	},
	{
	"epoch": 82.0,
	"learning_rate": 8.359999999999999e-07,
	"loss": 4.483,
	"step": 3116
	},
	{
	"epoch": 82.0,
	"eval_accuracy": 0.375366568914956,
	"eval_loss": 4.45780086517334,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 3116
	},
	{
	"epoch": 83.0,
	"learning_rate": 8.34e-07,
	"loss": 4.4792,
	"step": 3154
	},
	{
	"epoch": 83.0,
	"eval_accuracy": 0.3741446725317693,
	"eval_loss": 4.454073429107666,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 3154
	},
	{
	"epoch": 84.0,
	"learning_rate": 8.319999999999999e-07,
	"loss": 4.4705,
	"step": 3192
	},
	{
	"epoch": 84.0,
	"eval_accuracy": 0.37438905180840665,
	"eval_loss": 4.451131820678711,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.506,
	"eval_steps_per_second": 1.627,
	"step": 3192
	},
	{
	"epoch": 85.0,
	"learning_rate": 8.299999999999999e-07,
	"loss": 4.4647,
	"step": 3230
	},
	{
	"epoch": 85.0,
	"eval_accuracy": 0.37487781036168133,
	"eval_loss": 4.448835372924805,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 3230
	},
	{
	"epoch": 86.0,
	"learning_rate": 8.28e-07,
	"loss": 4.4617,
	"step": 3268
	},
	{
	"epoch": 86.0,
	"eval_accuracy": 0.37512218963831867,
	"eval_loss": 4.444460391998291,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 3268
	},
	{
	"epoch": 87.0,
	"learning_rate": 8.259999999999999e-07,
	"loss": 4.453,
	"step": 3306
	},
	{
	"epoch": 87.0,
	"eval_accuracy": 0.37512218963831867,
	"eval_loss": 4.438481330871582,
	"eval_runtime": 0.6245,
	"eval_samples_per_second": 6.405,
	"eval_steps_per_second": 1.601,
	"step": 3306
	},
	{
	"epoch": 88.0,
	"learning_rate": 8.24e-07,
	"loss": 4.4488,
	"step": 3344
	},
	{
	"epoch": 88.0,
	"eval_accuracy": 0.3763440860215054,
	"eval_loss": 4.435319423675537,
	"eval_runtime": 0.6159,
	"eval_samples_per_second": 6.494,
	"eval_steps_per_second": 1.624,
	"step": 3344
	},
	{
	"epoch": 89.0,
	"learning_rate": 8.219999999999999e-07,
	"loss": 4.4424,
	"step": 3382
	},
	{
	"epoch": 89.0,
	"eval_accuracy": 0.3765884652981427,
	"eval_loss": 4.432227611541748,
	"eval_runtime": 0.6169,
	"eval_samples_per_second": 6.484,
	"eval_steps_per_second": 1.621,
	"step": 3382
	},
	{
	"epoch": 90.0,
	"learning_rate": 8.199999999999999e-07,
	"loss": 4.433,
	"step": 3420
	},
	{
	"epoch": 90.0,
	"eval_accuracy": 0.3765884652981427,
	"eval_loss": 4.4299702644348145,
	"eval_runtime": 0.6255,
	"eval_samples_per_second": 6.395,
	"eval_steps_per_second": 1.599,
	"step": 3420
	},
	{
	"epoch": 91.0,
	"learning_rate": 8.179999999999999e-07,
	"loss": 4.4252,
	"step": 3458
	},
	{
	"epoch": 91.0,
	"eval_accuracy": 0.3763440860215054,
	"eval_loss": 4.425891399383545,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 3458
	},
	{
	"epoch": 92.0,
	"learning_rate": 8.159999999999999e-07,
	"loss": 4.4226,
	"step": 3496
	},
	{
	"epoch": 92.0,
	"eval_accuracy": 0.37732160312805474,
	"eval_loss": 4.421455383300781,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 3496
	},
	{
	"epoch": 93.0,
	"learning_rate": 8.14e-07,
	"loss": 4.4144,
	"step": 3534
	},
	{
	"epoch": 93.0,
	"eval_accuracy": 0.3770772238514174,
	"eval_loss": 4.41888427734375,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 3534
	},
	{
	"epoch": 94.0,
	"learning_rate": 8.12e-07,
	"loss": 4.4047,
	"step": 3572
	},
	{
	"epoch": 94.0,
	"eval_accuracy": 0.3770772238514174,
	"eval_loss": 4.416011333465576,
	"eval_runtime": 0.6125,
	"eval_samples_per_second": 6.53,
	"eval_steps_per_second": 1.633,
	"step": 3572
	},
	{
	"epoch": 95.0,
	"learning_rate": 8.1e-07,
	"loss": 4.4071,
	"step": 3610
	},
	{
	"epoch": 95.0,
	"eval_accuracy": 0.37732160312805474,
	"eval_loss": 4.413094997406006,
	"eval_runtime": 0.6249,
	"eval_samples_per_second": 6.401,
	"eval_steps_per_second": 1.6,
	"step": 3610
	},
	{
	"epoch": 96.0,
	"learning_rate": 8.08e-07,
	"loss": 4.3975,
	"step": 3648
	},
	{
	"epoch": 96.0,
	"eval_accuracy": 0.37732160312805474,
	"eval_loss": 4.409505367279053,
	"eval_runtime": 0.6123,
	"eval_samples_per_second": 6.532,
	"eval_steps_per_second": 1.633,
	"step": 3648
	},
	{
	"epoch": 97.0,
	"learning_rate": 8.06e-07,
	"loss": 4.3897,
	"step": 3686
	},
	{
	"epoch": 97.0,
	"eval_accuracy": 0.3770772238514174,
	"eval_loss": 4.408539772033691,
	"eval_runtime": 1.9183,
	"eval_samples_per_second": 2.085,
	"eval_steps_per_second": 0.521,
	"step": 3686
	},
	{
	"epoch": 98.0,
	"learning_rate": 8.04e-07,
	"loss": 4.3869,
	"step": 3724
	},
	{
	"epoch": 98.0,
	"eval_accuracy": 0.3770772238514174,
	"eval_loss": 4.405216693878174,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 3724
	},
	{
	"epoch": 99.0,
	"learning_rate": 8.02e-07,
	"loss": 4.3751,
	"step": 3762
	},
	{
	"epoch": 99.0,
	"eval_accuracy": 0.37732160312805474,
	"eval_loss": 4.402120113372803,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.628,
	"step": 3762
	},
	{
	"epoch": 100.0,
	"learning_rate": 8e-07,
	"loss": 4.3698,
	"step": 3800
	},
	{
	"epoch": 100.0,
	"eval_accuracy": 0.37683284457478006,
	"eval_loss": 4.398764610290527,
	"eval_runtime": 0.6238,
	"eval_samples_per_second": 6.412,
	"eval_steps_per_second": 1.603,
	"step": 3800
	},
	{
	"epoch": 101.0,
	"learning_rate": 7.98e-07,
	"loss": 4.368,
	"step": 3838
	},
	{
	"epoch": 101.0,
	"eval_accuracy": 0.37683284457478006,
	"eval_loss": 4.394458293914795,
	"eval_runtime": 0.6261,
	"eval_samples_per_second": 6.388,
	"eval_steps_per_second": 1.597,
	"step": 3838
	},
	{
	"epoch": 102.0,
	"learning_rate": 7.96e-07,
	"loss": 4.3643,
	"step": 3876
	},
	{
	"epoch": 102.0,
	"eval_accuracy": 0.3770772238514174,
	"eval_loss": 4.391842842102051,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 3876
	},
	{
	"epoch": 103.0,
	"learning_rate": 7.94e-07,
	"loss": 4.3552,
	"step": 3914
	},
	{
	"epoch": 103.0,
	"eval_accuracy": 0.3765884652981427,
	"eval_loss": 4.389264106750488,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 3914
	},
	{
	"epoch": 104.0,
	"learning_rate": 7.92e-07,
	"loss": 4.3478,
	"step": 3952
	},
	{
	"epoch": 104.0,
	"eval_accuracy": 0.3775659824046921,
	"eval_loss": 4.386912822723389,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 3952
	},
	{
	"epoch": 105.0,
	"learning_rate": 7.9e-07,
	"loss": 4.3438,
	"step": 3990
	},
	{
	"epoch": 105.0,
	"eval_accuracy": 0.37805474095796676,
	"eval_loss": 4.3847856521606445,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 3990
	},
	{
	"epoch": 106.0,
	"learning_rate": 7.88e-07,
	"loss": 4.3362,
	"step": 4028
	},
	{
	"epoch": 106.0,
	"eval_accuracy": 0.37732160312805474,
	"eval_loss": 4.38198184967041,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.528,
	"eval_steps_per_second": 1.632,
	"step": 4028
	},
	{
	"epoch": 107.0,
	"learning_rate": 7.86e-07,
	"loss": 4.3356,
	"step": 4066
	},
	{
	"epoch": 107.0,
	"eval_accuracy": 0.3778103616813294,
	"eval_loss": 4.37683629989624,
	"eval_runtime": 0.6124,
	"eval_samples_per_second": 6.531,
	"eval_steps_per_second": 1.633,
	"step": 4066
	},
	{
	"epoch": 108.0,
	"learning_rate": 7.84e-07,
	"loss": 4.3263,
	"step": 4104
	},
	{
	"epoch": 108.0,
	"eval_accuracy": 0.3775659824046921,
	"eval_loss": 4.376446723937988,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 4104
	},
	{
	"epoch": 109.0,
	"learning_rate": 7.82e-07,
	"loss": 4.3238,
	"step": 4142
	},
	{
	"epoch": 109.0,
	"eval_accuracy": 0.3778103616813294,
	"eval_loss": 4.373225688934326,
	"eval_runtime": 0.6125,
	"eval_samples_per_second": 6.531,
	"eval_steps_per_second": 1.633,
	"step": 4142
	},
	{
	"epoch": 110.0,
	"learning_rate": 7.799999999999999e-07,
	"loss": 4.3157,
	"step": 4180
	},
	{
	"epoch": 110.0,
	"eval_accuracy": 0.37805474095796676,
	"eval_loss": 4.369943618774414,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.63,
	"step": 4180
	},
	{
	"epoch": 111.0,
	"learning_rate": 7.78e-07,
	"loss": 4.311,
	"step": 4218
	},
	{
	"epoch": 111.0,
	"eval_accuracy": 0.37805474095796676,
	"eval_loss": 4.367816925048828,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 4218
	},
	{
	"epoch": 112.0,
	"learning_rate": 7.76e-07,
	"loss": 4.3048,
	"step": 4256
	},
	{
	"epoch": 112.0,
	"eval_accuracy": 0.3787878787878788,
	"eval_loss": 4.364564895629883,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 4256
	},
	{
	"epoch": 113.0,
	"learning_rate": 7.74e-07,
	"loss": 4.2955,
	"step": 4294
	},
	{
	"epoch": 113.0,
	"eval_accuracy": 0.37927663734115347,
	"eval_loss": 4.364035606384277,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 4294
	},
	{
	"epoch": 114.0,
	"learning_rate": 7.72e-07,
	"loss": 4.2914,
	"step": 4332
	},
	{
	"epoch": 114.0,
	"eval_accuracy": 0.37927663734115347,
	"eval_loss": 4.360426425933838,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 4332
	},
	{
	"epoch": 115.0,
	"learning_rate": 7.699999999999999e-07,
	"loss": 4.286,
	"step": 4370
	},
	{
	"epoch": 115.0,
	"eval_accuracy": 0.3790322580645161,
	"eval_loss": 4.3580002784729,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 4370
	},
	{
	"epoch": 116.0,
	"learning_rate": 7.68e-07,
	"loss": 4.2857,
	"step": 4408
	},
	{
	"epoch": 116.0,
	"eval_accuracy": 0.3790322580645161,
	"eval_loss": 4.354123115539551,
	"eval_runtime": 0.6123,
	"eval_samples_per_second": 6.533,
	"eval_steps_per_second": 1.633,
	"step": 4408
	},
	{
	"epoch": 117.0,
	"learning_rate": 7.66e-07,
	"loss": 4.2776,
	"step": 4446
	},
	{
	"epoch": 117.0,
	"eval_accuracy": 0.37927663734115347,
	"eval_loss": 4.352733612060547,
	"eval_runtime": 0.6122,
	"eval_samples_per_second": 6.534,
	"eval_steps_per_second": 1.633,
	"step": 4446
	},
	{
	"epoch": 118.0,
	"learning_rate": 7.64e-07,
	"loss": 4.2734,
	"step": 4484
	},
	{
	"epoch": 118.0,
	"eval_accuracy": 0.38025415444770283,
	"eval_loss": 4.348194599151611,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 4484
	},
	{
	"epoch": 119.0,
	"learning_rate": 7.62e-07,
	"loss": 4.2646,
	"step": 4522
	},
	{
	"epoch": 119.0,
	"eval_accuracy": 0.3800097751710655,
	"eval_loss": 4.346100330352783,
	"eval_runtime": 0.7901,
	"eval_samples_per_second": 5.062,
	"eval_steps_per_second": 1.266,
	"step": 4522
	},
	{
	"epoch": 120.0,
	"learning_rate": 7.599999999999999e-07,
	"loss": 4.2632,
	"step": 4560
	},
	{
	"epoch": 120.0,
	"eval_accuracy": 0.38025415444770283,
	"eval_loss": 4.3445892333984375,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.527,
	"eval_steps_per_second": 1.632,
	"step": 4560
	},
	{
	"epoch": 121.0,
	"learning_rate": 7.58e-07,
	"loss": 4.2586,
	"step": 4598
	},
	{
	"epoch": 121.0,
	"eval_accuracy": 0.3807429130009775,
	"eval_loss": 4.340865135192871,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 4598
	},
	{
	"epoch": 122.0,
	"learning_rate": 7.559999999999999e-07,
	"loss": 4.2564,
	"step": 4636
	},
	{
	"epoch": 122.0,
	"eval_accuracy": 0.3812316715542522,
	"eval_loss": 4.3399505615234375,
	"eval_runtime": 0.6124,
	"eval_samples_per_second": 6.532,
	"eval_steps_per_second": 1.633,
	"step": 4636
	},
	{
	"epoch": 123.0,
	"learning_rate": 7.54e-07,
	"loss": 4.2423,
	"step": 4674
	},
	{
	"epoch": 123.0,
	"eval_accuracy": 0.3807429130009775,
	"eval_loss": 4.335657596588135,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 4674
	},
	{
	"epoch": 124.0,
	"learning_rate": 7.52e-07,
	"loss": 4.2425,
	"step": 4712
	},
	{
	"epoch": 124.0,
	"eval_accuracy": 0.3807429130009775,
	"eval_loss": 4.3334856033325195,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 4712
	},
	{
	"epoch": 125.0,
	"learning_rate": 7.5e-07,
	"loss": 4.2367,
	"step": 4750
	},
	{
	"epoch": 125.0,
	"eval_accuracy": 0.38098729227761485,
	"eval_loss": 4.330577373504639,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.631,
	"step": 4750
	},
	{
	"epoch": 126.0,
	"learning_rate": 7.48e-07,
	"loss": 4.2301,
	"step": 4788
	},
	{
	"epoch": 126.0,
	"eval_accuracy": 0.38147605083088953,
	"eval_loss": 4.3291544914245605,
	"eval_runtime": 0.6122,
	"eval_samples_per_second": 6.534,
	"eval_steps_per_second": 1.633,
	"step": 4788
	},
	{
	"epoch": 127.0,
	"learning_rate": 7.459999999999999e-07,
	"loss": 4.2286,
	"step": 4826
	},
	{
	"epoch": 127.0,
	"eval_accuracy": 0.3812316715542522,
	"eval_loss": 4.327591419219971,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 4826
	},
	{
	"epoch": 128.0,
	"learning_rate": 7.44e-07,
	"loss": 4.2184,
	"step": 4864
	},
	{
	"epoch": 128.0,
	"eval_accuracy": 0.38220918866080156,
	"eval_loss": 4.32462215423584,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.527,
	"eval_steps_per_second": 1.632,
	"step": 4864
	},
	{
	"epoch": 129.0,
	"learning_rate": 7.42e-07,
	"loss": 4.2156,
	"step": 4902
	},
	{
	"epoch": 129.0,
	"eval_accuracy": 0.38269794721407624,
	"eval_loss": 4.3210039138793945,
	"eval_runtime": 0.6123,
	"eval_samples_per_second": 6.533,
	"eval_steps_per_second": 1.633,
	"step": 4902
	},
	{
	"epoch": 130.0,
	"learning_rate": 7.4e-07,
	"loss": 4.2116,
	"step": 4940
	},
	{
	"epoch": 130.0,
	"eval_accuracy": 0.38343108504398826,
	"eval_loss": 4.318737506866455,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 4940
	},
	{
	"epoch": 131.0,
	"learning_rate": 7.38e-07,
	"loss": 4.2008,
	"step": 4978
	},
	{
	"epoch": 131.0,
	"eval_accuracy": 0.38343108504398826,
	"eval_loss": 4.316496849060059,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.527,
	"eval_steps_per_second": 1.632,
	"step": 4978
	},
	{
	"epoch": 132.0,
	"learning_rate": 7.359999999999999e-07,
	"loss": 4.1995,
	"step": 5016
	},
	{
	"epoch": 132.0,
	"eval_accuracy": 0.38343108504398826,
	"eval_loss": 4.3134074211120605,
	"eval_runtime": 0.6223,
	"eval_samples_per_second": 6.428,
	"eval_steps_per_second": 1.607,
	"step": 5016
	},
	{
	"epoch": 133.0,
	"learning_rate": 7.34e-07,
	"loss": 4.19,
	"step": 5054
	},
	{
	"epoch": 133.0,
	"eval_accuracy": 0.3841642228739003,
	"eval_loss": 4.313587665557861,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 5054
	},
	{
	"epoch": 134.0,
	"learning_rate": 7.319999999999999e-07,
	"loss": 4.1828,
	"step": 5092
	},
	{
	"epoch": 134.0,
	"eval_accuracy": 0.3841642228739003,
	"eval_loss": 4.311624050140381,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.631,
	"step": 5092
	},
	{
	"epoch": 135.0,
	"learning_rate": 7.3e-07,
	"loss": 4.1815,
	"step": 5130
	},
	{
	"epoch": 135.0,
	"eval_accuracy": 0.38465298142717497,
	"eval_loss": 4.306524276733398,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 5130
	},
	{
	"epoch": 136.0,
	"learning_rate": 7.28e-07,
	"loss": 4.1771,
	"step": 5168
	},
	{
	"epoch": 136.0,
	"eval_accuracy": 0.38391984359726294,
	"eval_loss": 4.305095195770264,
	"eval_runtime": 0.6123,
	"eval_samples_per_second": 6.533,
	"eval_steps_per_second": 1.633,
	"step": 5168
	},
	{
	"epoch": 137.0,
	"learning_rate": 7.259999999999999e-07,
	"loss": 4.1744,
	"step": 5206
	},
	{
	"epoch": 137.0,
	"eval_accuracy": 0.38465298142717497,
	"eval_loss": 4.301632881164551,
	"eval_runtime": 1.3483,
	"eval_samples_per_second": 2.967,
	"eval_steps_per_second": 0.742,
	"step": 5206
	},
	{
	"epoch": 138.0,
	"learning_rate": 7.24e-07,
	"loss": 4.1717,
	"step": 5244
	},
	{
	"epoch": 138.0,
	"eval_accuracy": 0.38465298142717497,
	"eval_loss": 4.297549247741699,
	"eval_runtime": 0.6216,
	"eval_samples_per_second": 6.435,
	"eval_steps_per_second": 1.609,
	"step": 5244
	},
	{
	"epoch": 139.0,
	"learning_rate": 7.219999999999999e-07,
	"loss": 4.1616,
	"step": 5282
	},
	{
	"epoch": 139.0,
	"eval_accuracy": 0.38465298142717497,
	"eval_loss": 4.296638488769531,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 5282
	},
	{
	"epoch": 140.0,
	"learning_rate": 7.2e-07,
	"loss": 4.1582,
	"step": 5320
	},
	{
	"epoch": 140.0,
	"eval_accuracy": 0.38465298142717497,
	"eval_loss": 4.29475212097168,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 5320
	},
	{
	"epoch": 141.0,
	"learning_rate": 7.179999999999999e-07,
	"loss": 4.1583,
	"step": 5358
	},
	{
	"epoch": 141.0,
	"eval_accuracy": 0.3848973607038123,
	"eval_loss": 4.293056488037109,
	"eval_runtime": 3.2385,
	"eval_samples_per_second": 1.235,
	"eval_steps_per_second": 0.309,
	"step": 5358
	},
	{
	"epoch": 142.0,
	"learning_rate": 7.159999999999999e-07,
	"loss": 4.148,
	"step": 5396
	},
	{
	"epoch": 142.0,
	"eval_accuracy": 0.385386119257087,
	"eval_loss": 4.289401054382324,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.528,
	"eval_steps_per_second": 1.632,
	"step": 5396
	},
	{
	"epoch": 143.0,
	"learning_rate": 7.14e-07,
	"loss": 4.1417,
	"step": 5434
	},
	{
	"epoch": 143.0,
	"eval_accuracy": 0.3848973607038123,
	"eval_loss": 4.286114692687988,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.63,
	"step": 5434
	},
	{
	"epoch": 144.0,
	"learning_rate": 7.119999999999999e-07,
	"loss": 4.1386,
	"step": 5472
	},
	{
	"epoch": 144.0,
	"eval_accuracy": 0.386119257086999,
	"eval_loss": 4.286536693572998,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 5472
	},
	{
	"epoch": 145.0,
	"learning_rate": 7.1e-07,
	"loss": 4.133,
	"step": 5510
	},
	{
	"epoch": 145.0,
	"eval_accuracy": 0.386119257086999,
	"eval_loss": 4.283446311950684,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.528,
	"eval_steps_per_second": 1.632,
	"step": 5510
	},
	{
	"epoch": 146.0,
	"learning_rate": 7.079999999999999e-07,
	"loss": 4.129,
	"step": 5548
	},
	{
	"epoch": 146.0,
	"eval_accuracy": 0.38636363636363635,
	"eval_loss": 4.279318332672119,
	"eval_runtime": 0.6163,
	"eval_samples_per_second": 6.491,
	"eval_steps_per_second": 1.623,
	"step": 5548
	},
	{
	"epoch": 147.0,
	"learning_rate": 7.059999999999999e-07,
	"loss": 4.12,
	"step": 5586
	},
	{
	"epoch": 147.0,
	"eval_accuracy": 0.386119257086999,
	"eval_loss": 4.278520584106445,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.631,
	"step": 5586
	},
	{
	"epoch": 148.0,
	"learning_rate": 7.04e-07,
	"loss": 4.1206,
	"step": 5624
	},
	{
	"epoch": 148.0,
	"eval_accuracy": 0.38636363636363635,
	"eval_loss": 4.274984836578369,
	"eval_runtime": 0.6214,
	"eval_samples_per_second": 6.437,
	"eval_steps_per_second": 1.609,
	"step": 5624
	},
	{
	"epoch": 149.0,
	"learning_rate": 7.019999999999999e-07,
	"loss": 4.1226,
	"step": 5662
	},
	{
	"epoch": 149.0,
	"eval_accuracy": 0.3870967741935484,
	"eval_loss": 4.274369716644287,
	"eval_runtime": 0.6123,
	"eval_samples_per_second": 6.533,
	"eval_steps_per_second": 1.633,
	"step": 5662
	},
	{
	"epoch": 150.0,
	"learning_rate": 7e-07,
	"loss": 4.1104,
	"step": 5700
	},
	{
	"epoch": 150.0,
	"eval_accuracy": 0.3866080156402737,
	"eval_loss": 4.272345066070557,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 5700
	},
	{
	"epoch": 151.0,
	"learning_rate": 6.979999999999999e-07,
	"loss": 4.1093,
	"step": 5738
	},
	{
	"epoch": 151.0,
	"eval_accuracy": 0.3870967741935484,
	"eval_loss": 4.267661094665527,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.509,
	"eval_steps_per_second": 1.627,
	"step": 5738
	},
	{
	"epoch": 152.0,
	"learning_rate": 6.959999999999999e-07,
	"loss": 4.0989,
	"step": 5776
	},
	{
	"epoch": 152.0,
	"eval_accuracy": 0.38685239491691104,
	"eval_loss": 4.265379428863525,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 5776
	},
	{
	"epoch": 153.0,
	"learning_rate": 6.939999999999999e-07,
	"loss": 4.1035,
	"step": 5814
	},
	{
	"epoch": 153.0,
	"eval_accuracy": 0.3878299120234604,
	"eval_loss": 4.264577865600586,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 5814
	},
	{
	"epoch": 154.0,
	"learning_rate": 6.919999999999999e-07,
	"loss": 4.0949,
	"step": 5852
	},
	{
	"epoch": 154.0,
	"eval_accuracy": 0.38807429130009774,
	"eval_loss": 4.263481616973877,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 5852
	},
	{
	"epoch": 155.0,
	"learning_rate": 6.9e-07,
	"loss": 4.0921,
	"step": 5890
	},
	{
	"epoch": 155.0,
	"eval_accuracy": 0.3883186705767351,
	"eval_loss": 4.260597229003906,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 5890
	},
	{
	"epoch": 156.0,
	"learning_rate": 6.879999999999999e-07,
	"loss": 4.0883,
	"step": 5928
	},
	{
	"epoch": 156.0,
	"eval_accuracy": 0.3885630498533724,
	"eval_loss": 4.256484508514404,
	"eval_runtime": 0.6125,
	"eval_samples_per_second": 6.531,
	"eval_steps_per_second": 1.633,
	"step": 5928
	},
	{
	"epoch": 157.0,
	"learning_rate": 6.86e-07,
	"loss": 4.0794,
	"step": 5966
	},
	{
	"epoch": 157.0,
	"eval_accuracy": 0.38929618768328444,
	"eval_loss": 4.25582218170166,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.528,
	"eval_steps_per_second": 1.632,
	"step": 5966
	},
	{
	"epoch": 158.0,
	"learning_rate": 6.84e-07,
	"loss": 4.0754,
	"step": 6004
	},
	{
	"epoch": 158.0,
	"eval_accuracy": 0.38880742913000976,
	"eval_loss": 4.2530412673950195,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 6004
	},
	{
	"epoch": 159.0,
	"learning_rate": 6.82e-07,
	"loss": 4.0756,
	"step": 6042
	},
	{
	"epoch": 159.0,
	"eval_accuracy": 0.38929618768328444,
	"eval_loss": 4.249640464782715,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.628,
	"step": 6042
	},
	{
	"epoch": 160.0,
	"learning_rate": 6.800000000000001e-07,
	"loss": 4.067,
	"step": 6080
	},
	{
	"epoch": 160.0,
	"eval_accuracy": 0.38880742913000976,
	"eval_loss": 4.250114917755127,
	"eval_runtime": 0.6115,
	"eval_samples_per_second": 6.541,
	"eval_steps_per_second": 1.635,
	"step": 6080
	},
	{
	"epoch": 161.0,
	"learning_rate": 6.78e-07,
	"loss": 4.0627,
	"step": 6118
	},
	{
	"epoch": 161.0,
	"eval_accuracy": 0.3890518084066471,
	"eval_loss": 4.24841833114624,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.63,
	"step": 6118
	},
	{
	"epoch": 162.0,
	"learning_rate": 6.76e-07,
	"loss": 4.0586,
	"step": 6156
	},
	{
	"epoch": 162.0,
	"eval_accuracy": 0.3897849462365591,
	"eval_loss": 4.243945121765137,
	"eval_runtime": 0.6246,
	"eval_samples_per_second": 6.404,
	"eval_steps_per_second": 1.601,
	"step": 6156
	},
	{
	"epoch": 163.0,
	"learning_rate": 6.74e-07,
	"loss": 4.0577,
	"step": 6194
	},
	{
	"epoch": 163.0,
	"eval_accuracy": 0.38929618768328444,
	"eval_loss": 4.243143081665039,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.527,
	"eval_steps_per_second": 1.632,
	"step": 6194
	},
	{
	"epoch": 164.0,
	"learning_rate": 6.72e-07,
	"loss": 4.055,
	"step": 6232
	},
	{
	"epoch": 164.0,
	"eval_accuracy": 0.3895405669599218,
	"eval_loss": 4.239078044891357,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.527,
	"eval_steps_per_second": 1.632,
	"step": 6232
	},
	{
	"epoch": 165.0,
	"learning_rate": 6.7e-07,
	"loss": 4.0419,
	"step": 6270
	},
	{
	"epoch": 165.0,
	"eval_accuracy": 0.3895405669599218,
	"eval_loss": 4.239559650421143,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 6270
	},
	{
	"epoch": 166.0,
	"learning_rate": 6.68e-07,
	"loss": 4.0411,
	"step": 6308
	},
	{
	"epoch": 166.0,
	"eval_accuracy": 0.3902737047898338,
	"eval_loss": 4.236454486846924,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.631,
	"step": 6308
	},
	{
	"epoch": 167.0,
	"learning_rate": 6.66e-07,
	"loss": 4.0405,
	"step": 6346
	},
	{
	"epoch": 167.0,
	"eval_accuracy": 0.3907624633431085,
	"eval_loss": 4.235616683959961,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.527,
	"eval_steps_per_second": 1.632,
	"step": 6346
	},
	{
	"epoch": 168.0,
	"learning_rate": 6.64e-07,
	"loss": 4.0327,
	"step": 6384
	},
	{
	"epoch": 168.0,
	"eval_accuracy": 0.39051808406647115,
	"eval_loss": 4.234899044036865,
	"eval_runtime": 0.6121,
	"eval_samples_per_second": 6.534,
	"eval_steps_per_second": 1.634,
	"step": 6384
	},
	{
	"epoch": 169.0,
	"learning_rate": 6.62e-07,
	"loss": 4.0262,
	"step": 6422
	},
	{
	"epoch": 169.0,
	"eval_accuracy": 0.3912512218963832,
	"eval_loss": 4.231151580810547,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.506,
	"eval_steps_per_second": 1.626,
	"step": 6422
	},
	{
	"epoch": 170.0,
	"learning_rate": 6.6e-07,
	"loss": 4.0252,
	"step": 6460
	},
	{
	"epoch": 170.0,
	"eval_accuracy": 0.3912512218963832,
	"eval_loss": 4.230025291442871,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 6460
	},
	{
	"epoch": 171.0,
	"learning_rate": 6.58e-07,
	"loss": 4.0237,
	"step": 6498
	},
	{
	"epoch": 171.0,
	"eval_accuracy": 0.3914956011730205,
	"eval_loss": 4.225388526916504,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 6498
	},
	{
	"epoch": 172.0,
	"learning_rate": 6.56e-07,
	"loss": 4.024,
	"step": 6536
	},
	{
	"epoch": 172.0,
	"eval_accuracy": 0.3919843597262952,
	"eval_loss": 4.224780082702637,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 6536
	},
	{
	"epoch": 173.0,
	"learning_rate": 6.54e-07,
	"loss": 4.0137,
	"step": 6574
	},
	{
	"epoch": 173.0,
	"eval_accuracy": 0.39222873900293254,
	"eval_loss": 4.221837997436523,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 6574
	},
	{
	"epoch": 174.0,
	"learning_rate": 6.52e-07,
	"loss": 4.0108,
	"step": 6612
	},
	{
	"epoch": 174.0,
	"eval_accuracy": 0.3927174975562072,
	"eval_loss": 4.222439765930176,
	"eval_runtime": 0.6168,
	"eval_samples_per_second": 6.485,
	"eval_steps_per_second": 1.621,
	"step": 6612
	},
	{
	"epoch": 175.0,
	"learning_rate": 6.5e-07,
	"loss": 4.0037,
	"step": 6650
	},
	{
	"epoch": 175.0,
	"eval_accuracy": 0.3939393939393939,
	"eval_loss": 4.219006538391113,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 6650
	},
	{
	"epoch": 176.0,
	"learning_rate": 6.48e-07,
	"loss": 4.0021,
	"step": 6688
	},
	{
	"epoch": 176.0,
	"eval_accuracy": 0.3936950146627566,
	"eval_loss": 4.218034267425537,
	"eval_runtime": 0.6156,
	"eval_samples_per_second": 6.498,
	"eval_steps_per_second": 1.625,
	"step": 6688
	},
	{
	"epoch": 177.0,
	"learning_rate": 6.46e-07,
	"loss": 3.9949,
	"step": 6726
	},
	{
	"epoch": 177.0,
	"eval_accuracy": 0.39418377321603126,
	"eval_loss": 4.215020656585693,
	"eval_runtime": 0.6221,
	"eval_samples_per_second": 6.43,
	"eval_steps_per_second": 1.607,
	"step": 6726
	},
	{
	"epoch": 178.0,
	"learning_rate": 6.44e-07,
	"loss": 3.9957,
	"step": 6764
	},
	{
	"epoch": 178.0,
	"eval_accuracy": 0.3939393939393939,
	"eval_loss": 4.213464260101318,
	"eval_runtime": 0.6127,
	"eval_samples_per_second": 6.528,
	"eval_steps_per_second": 1.632,
	"step": 6764
	},
	{
	"epoch": 179.0,
	"learning_rate": 6.42e-07,
	"loss": 3.9923,
	"step": 6802
	},
	{
	"epoch": 179.0,
	"eval_accuracy": 0.39418377321603126,
	"eval_loss": 4.209378242492676,
	"eval_runtime": 0.6122,
	"eval_samples_per_second": 6.534,
	"eval_steps_per_second": 1.634,
	"step": 6802
	},
	{
	"epoch": 180.0,
	"learning_rate": 6.4e-07,
	"loss": 3.9853,
	"step": 6840
	},
	{
	"epoch": 180.0,
	"eval_accuracy": 0.3949169110459433,
	"eval_loss": 4.209150314331055,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 6840
	},
	{
	"epoch": 181.0,
	"learning_rate": 6.38e-07,
	"loss": 3.9779,
	"step": 6878
	},
	{
	"epoch": 181.0,
	"eval_accuracy": 0.3949169110459433,
	"eval_loss": 4.2085700035095215,
	"eval_runtime": 0.6125,
	"eval_samples_per_second": 6.531,
	"eval_steps_per_second": 1.633,
	"step": 6878
	},
	{
	"epoch": 182.0,
	"learning_rate": 6.36e-07,
	"loss": 3.9826,
	"step": 6916
	},
	{
	"epoch": 182.0,
	"eval_accuracy": 0.39467253176930595,
	"eval_loss": 4.204543590545654,
	"eval_runtime": 0.6126,
	"eval_samples_per_second": 6.529,
	"eval_steps_per_second": 1.632,
	"step": 6916
	},
	{
	"epoch": 183.0,
	"learning_rate": 6.34e-07,
	"loss": 3.9775,
	"step": 6954
	},
	{
	"epoch": 183.0,
	"eval_accuracy": 0.3949169110459433,
	"eval_loss": 4.201192855834961,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 6954
	},
	{
	"epoch": 184.0,
	"learning_rate": 6.319999999999999e-07,
	"loss": 3.9706,
	"step": 6992
	},
	{
	"epoch": 184.0,
	"eval_accuracy": 0.39613880742913,
	"eval_loss": 4.200508117675781,
	"eval_runtime": 0.6124,
	"eval_samples_per_second": 6.531,
	"eval_steps_per_second": 1.633,
	"step": 6992
	},
	{
	"epoch": 185.0,
	"learning_rate": 6.3e-07,
	"loss": 3.9672,
	"step": 7030
	},
	{
	"epoch": 185.0,
	"eval_accuracy": 0.3956500488758553,
	"eval_loss": 4.19916296005249,
	"eval_runtime": 0.6242,
	"eval_samples_per_second": 6.408,
	"eval_steps_per_second": 1.602,
	"step": 7030
	},
	{
	"epoch": 186.0,
	"learning_rate": 6.28e-07,
	"loss": 3.9707,
	"step": 7068
	},
	{
	"epoch": 186.0,
	"eval_accuracy": 0.3966275659824047,
	"eval_loss": 4.196375370025635,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 7068
	},
	{
	"epoch": 187.0,
	"learning_rate": 6.26e-07,
	"loss": 3.9585,
	"step": 7106
	},
	{
	"epoch": 187.0,
	"eval_accuracy": 0.39711632453567935,
	"eval_loss": 4.195079326629639,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 7106
	},
	{
	"epoch": 188.0,
	"learning_rate": 6.24e-07,
	"loss": 3.9552,
	"step": 7144
	},
	{
	"epoch": 188.0,
	"eval_accuracy": 0.3966275659824047,
	"eval_loss": 4.192666530609131,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 7144
	},
	{
	"epoch": 189.0,
	"learning_rate": 6.219999999999999e-07,
	"loss": 3.9526,
	"step": 7182
	},
	{
	"epoch": 189.0,
	"eval_accuracy": 0.3966275659824047,
	"eval_loss": 4.1922197341918945,
	"eval_runtime": 0.6118,
	"eval_samples_per_second": 6.538,
	"eval_steps_per_second": 1.635,
	"step": 7182
	},
	{
	"epoch": 190.0,
	"learning_rate": 6.2e-07,
	"loss": 3.9514,
	"step": 7220
	},
	{
	"epoch": 190.0,
	"eval_accuracy": 0.396871945259042,
	"eval_loss": 4.18861722946167,
	"eval_runtime": 0.6118,
	"eval_samples_per_second": 6.538,
	"eval_steps_per_second": 1.635,
	"step": 7220
	},
	{
	"epoch": 191.0,
	"learning_rate": 6.18e-07,
	"loss": 3.9464,
	"step": 7258
	},
	{
	"epoch": 191.0,
	"eval_accuracy": 0.39760508308895404,
	"eval_loss": 4.188557147979736,
	"eval_runtime": 0.667,
	"eval_samples_per_second": 5.997,
	"eval_steps_per_second": 1.499,
	"step": 7258
	},
	{
	"epoch": 192.0,
	"learning_rate": 6.16e-07,
	"loss": 3.9433,
	"step": 7296
	},
	{
	"epoch": 192.0,
	"eval_accuracy": 0.3980938416422287,
	"eval_loss": 4.185554504394531,
	"eval_runtime": 0.6187,
	"eval_samples_per_second": 6.466,
	"eval_steps_per_second": 1.616,
	"step": 7296
	},
	{
	"epoch": 193.0,
	"learning_rate": 6.14e-07,
	"loss": 3.9378,
	"step": 7334
	},
	{
	"epoch": 193.0,
	"eval_accuracy": 0.3978494623655914,
	"eval_loss": 4.184579372406006,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 7334
	},
	{
	"epoch": 194.0,
	"learning_rate": 6.119999999999999e-07,
	"loss": 3.9362,
	"step": 7372
	},
	{
	"epoch": 194.0,
	"eval_accuracy": 0.3980938416422287,
	"eval_loss": 4.1830949783325195,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 7372
	},
	{
	"epoch": 195.0,
	"learning_rate": 6.1e-07,
	"loss": 3.9307,
	"step": 7410
	},
	{
	"epoch": 195.0,
	"eval_accuracy": 0.3980938416422287,
	"eval_loss": 4.182034969329834,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 7410
	},
	{
	"epoch": 196.0,
	"learning_rate": 6.079999999999999e-07,
	"loss": 3.9324,
	"step": 7448
	},
	{
	"epoch": 196.0,
	"eval_accuracy": 0.3978494623655914,
	"eval_loss": 4.176692485809326,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 7448
	},
	{
	"epoch": 197.0,
	"learning_rate": 6.06e-07,
	"loss": 3.9223,
	"step": 7486
	},
	{
	"epoch": 197.0,
	"eval_accuracy": 0.39833822091886606,
	"eval_loss": 4.179370403289795,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 7486
	},
	{
	"epoch": 198.0,
	"learning_rate": 6.04e-07,
	"loss": 3.9279,
	"step": 7524
	},
	{
	"epoch": 198.0,
	"eval_accuracy": 0.3985826001955034,
	"eval_loss": 4.1752119064331055,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 7524
	},
	{
	"epoch": 199.0,
	"learning_rate": 6.019999999999999e-07,
	"loss": 3.9214,
	"step": 7562
	},
	{
	"epoch": 199.0,
	"eval_accuracy": 0.3980938416422287,
	"eval_loss": 4.172707557678223,
	"eval_runtime": 0.6174,
	"eval_samples_per_second": 6.479,
	"eval_steps_per_second": 1.62,
	"step": 7562
	},
	{
	"epoch": 200.0,
	"learning_rate": 6e-07,
	"loss": 3.9122,
	"step": 7600
	},
	{
	"epoch": 200.0,
	"eval_accuracy": 0.39882697947214074,
	"eval_loss": 4.174560070037842,
	"eval_runtime": 0.7746,
	"eval_samples_per_second": 5.164,
	"eval_steps_per_second": 1.291,
	"step": 7600
	},
	{
	"epoch": 201.0,
	"learning_rate": 5.979999999999999e-07,
	"loss": 3.9099,
	"step": 7638
	},
	{
	"epoch": 201.0,
	"eval_accuracy": 0.39956011730205276,
	"eval_loss": 4.169778823852539,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 7638
	},
	{
	"epoch": 202.0,
	"learning_rate": 5.96e-07,
	"loss": 3.9075,
	"step": 7676
	},
	{
	"epoch": 202.0,
	"eval_accuracy": 0.3993157380254154,
	"eval_loss": 4.169203758239746,
	"eval_runtime": 0.6199,
	"eval_samples_per_second": 6.452,
	"eval_steps_per_second": 1.613,
	"step": 7676
	},
	{
	"epoch": 203.0,
	"learning_rate": 5.939999999999999e-07,
	"loss": 3.9095,
	"step": 7714
	},
	{
	"epoch": 203.0,
	"eval_accuracy": 0.40004887585532745,
	"eval_loss": 4.16612434387207,
	"eval_runtime": 0.615,
	"eval_samples_per_second": 6.505,
	"eval_steps_per_second": 1.626,
	"step": 7714
	},
	{
	"epoch": 204.0,
	"learning_rate": 5.919999999999999e-07,
	"loss": 3.9,
	"step": 7752
	},
	{
	"epoch": 204.0,
	"eval_accuracy": 0.40078201368523947,
	"eval_loss": 4.163661956787109,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.628,
	"step": 7752
	},
	{
	"epoch": 205.0,
	"learning_rate": 5.9e-07,
	"loss": 3.9004,
	"step": 7790
	},
	{
	"epoch": 205.0,
	"eval_accuracy": 0.4002932551319648,
	"eval_loss": 4.161859512329102,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 7790
	},
	{
	"epoch": 206.0,
	"learning_rate": 5.879999999999999e-07,
	"loss": 3.8978,
	"step": 7828
	},
	{
	"epoch": 206.0,
	"eval_accuracy": 0.40053763440860213,
	"eval_loss": 4.160345554351807,
	"eval_runtime": 0.6636,
	"eval_samples_per_second": 6.028,
	"eval_steps_per_second": 1.507,
	"step": 7828
	},
	{
	"epoch": 207.0,
	"learning_rate": 5.86e-07,
	"loss": 3.8918,
	"step": 7866
	},
	{
	"epoch": 207.0,
	"eval_accuracy": 0.40053763440860213,
	"eval_loss": 4.158294677734375,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 7866
	},
	{
	"epoch": 208.0,
	"learning_rate": 5.839999999999999e-07,
	"loss": 3.8848,
	"step": 7904
	},
	{
	"epoch": 208.0,
	"eval_accuracy": 0.40078201368523947,
	"eval_loss": 4.158019542694092,
	"eval_runtime": 0.6145,
	"eval_samples_per_second": 6.509,
	"eval_steps_per_second": 1.627,
	"step": 7904
	},
	{
	"epoch": 209.0,
	"learning_rate": 5.819999999999999e-07,
	"loss": 3.8831,
	"step": 7942
	},
	{
	"epoch": 209.0,
	"eval_accuracy": 0.40004887585532745,
	"eval_loss": 4.1576619148254395,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 7942
	},
	{
	"epoch": 210.0,
	"learning_rate": 5.8e-07,
	"loss": 3.8821,
	"step": 7980
	},
	{
	"epoch": 210.0,
	"eval_accuracy": 0.40053763440860213,
	"eval_loss": 4.154994487762451,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 7980
	},
	{
	"epoch": 211.0,
	"learning_rate": 5.779999999999999e-07,
	"loss": 3.8818,
	"step": 8018
	},
	{
	"epoch": 211.0,
	"eval_accuracy": 0.40078201368523947,
	"eval_loss": 4.152185440063477,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 8018
	},
	{
	"epoch": 212.0,
	"learning_rate": 5.76e-07,
	"loss": 3.8764,
	"step": 8056
	},
	{
	"epoch": 212.0,
	"eval_accuracy": 0.40078201368523947,
	"eval_loss": 4.152061462402344,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 8056
	},
	{
	"epoch": 213.0,
	"learning_rate": 5.739999999999999e-07,
	"loss": 3.8704,
	"step": 8094
	},
	{
	"epoch": 213.0,
	"eval_accuracy": 0.4010263929618768,
	"eval_loss": 4.14907693862915,
	"eval_runtime": 0.6221,
	"eval_samples_per_second": 6.43,
	"eval_steps_per_second": 1.607,
	"step": 8094
	},
	{
	"epoch": 214.0,
	"learning_rate": 5.719999999999999e-07,
	"loss": 3.8725,
	"step": 8132
	},
	{
	"epoch": 214.0,
	"eval_accuracy": 0.4010263929618768,
	"eval_loss": 4.149218559265137,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 8132
	},
	{
	"epoch": 215.0,
	"learning_rate": 5.699999999999999e-07,
	"loss": 3.8698,
	"step": 8170
	},
	{
	"epoch": 215.0,
	"eval_accuracy": 0.4010263929618768,
	"eval_loss": 4.146964073181152,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 8170
	},
	{
	"epoch": 216.0,
	"learning_rate": 5.679999999999999e-07,
	"loss": 3.8654,
	"step": 8208
	},
	{
	"epoch": 216.0,
	"eval_accuracy": 0.40175953079178883,
	"eval_loss": 4.146454811096191,
	"eval_runtime": 0.6121,
	"eval_samples_per_second": 6.535,
	"eval_steps_per_second": 1.634,
	"step": 8208
	},
	{
	"epoch": 217.0,
	"learning_rate": 5.66e-07,
	"loss": 3.8608,
	"step": 8246
	},
	{
	"epoch": 217.0,
	"eval_accuracy": 0.4020039100684262,
	"eval_loss": 4.145140171051025,
	"eval_runtime": 0.6127,
	"eval_samples_per_second": 6.528,
	"eval_steps_per_second": 1.632,
	"step": 8246
	},
	{
	"epoch": 218.0,
	"learning_rate": 5.639999999999999e-07,
	"loss": 3.8584,
	"step": 8284
	},
	{
	"epoch": 218.0,
	"eval_accuracy": 0.4015151515151515,
	"eval_loss": 4.142205715179443,
	"eval_runtime": 0.6251,
	"eval_samples_per_second": 6.399,
	"eval_steps_per_second": 1.6,
	"step": 8284
	},
	{
	"epoch": 219.0,
	"learning_rate": 5.620000000000001e-07,
	"loss": 3.8546,
	"step": 8322
	},
	{
	"epoch": 219.0,
	"eval_accuracy": 0.40249266862170086,
	"eval_loss": 4.1411662101745605,
	"eval_runtime": 0.6119,
	"eval_samples_per_second": 6.537,
	"eval_steps_per_second": 1.634,
	"step": 8322
	},
	{
	"epoch": 220.0,
	"learning_rate": 5.6e-07,
	"loss": 3.8494,
	"step": 8360
	},
	{
	"epoch": 220.0,
	"eval_accuracy": 0.4022482893450635,
	"eval_loss": 4.140811920166016,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 8360
	},
	{
	"epoch": 221.0,
	"learning_rate": 5.58e-07,
	"loss": 3.8479,
	"step": 8398
	},
	{
	"epoch": 221.0,
	"eval_accuracy": 0.40249266862170086,
	"eval_loss": 4.13836145401001,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.631,
	"step": 8398
	},
	{
	"epoch": 222.0,
	"learning_rate": 5.560000000000001e-07,
	"loss": 3.8463,
	"step": 8436
	},
	{
	"epoch": 222.0,
	"eval_accuracy": 0.40249266862170086,
	"eval_loss": 4.136462688446045,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 8436
	},
	{
	"epoch": 223.0,
	"learning_rate": 5.54e-07,
	"loss": 3.8422,
	"step": 8474
	},
	{
	"epoch": 223.0,
	"eval_accuracy": 0.40298142717497554,
	"eval_loss": 4.1326165199279785,
	"eval_runtime": 0.6246,
	"eval_samples_per_second": 6.404,
	"eval_steps_per_second": 1.601,
	"step": 8474
	},
	{
	"epoch": 224.0,
	"learning_rate": 5.520000000000001e-07,
	"loss": 3.8395,
	"step": 8512
	},
	{
	"epoch": 224.0,
	"eval_accuracy": 0.4022482893450635,
	"eval_loss": 4.133283615112305,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 8512
	},
	{
	"epoch": 225.0,
	"learning_rate": 5.5e-07,
	"loss": 3.8369,
	"step": 8550
	},
	{
	"epoch": 225.0,
	"eval_accuracy": 0.4034701857282502,
	"eval_loss": 4.133824825286865,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 8550
	},
	{
	"epoch": 226.0,
	"learning_rate": 5.48e-07,
	"loss": 3.8357,
	"step": 8588
	},
	{
	"epoch": 226.0,
	"eval_accuracy": 0.4046920821114369,
	"eval_loss": 4.129902362823486,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 8588
	},
	{
	"epoch": 227.0,
	"learning_rate": 5.46e-07,
	"loss": 3.8318,
	"step": 8626
	},
	{
	"epoch": 227.0,
	"eval_accuracy": 0.40420332355816224,
	"eval_loss": 4.129788398742676,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 8626
	},
	{
	"epoch": 228.0,
	"learning_rate": 5.44e-07,
	"loss": 3.8258,
	"step": 8664
	},
	{
	"epoch": 228.0,
	"eval_accuracy": 0.4039589442815249,
	"eval_loss": 4.129807472229004,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 8664
	},
	{
	"epoch": 229.0,
	"learning_rate": 5.420000000000001e-07,
	"loss": 3.8265,
	"step": 8702
	},
	{
	"epoch": 229.0,
	"eval_accuracy": 0.4044477028347996,
	"eval_loss": 4.127597332000732,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 8702
	},
	{
	"epoch": 230.0,
	"learning_rate": 5.4e-07,
	"loss": 3.8229,
	"step": 8740
	},
	{
	"epoch": 230.0,
	"eval_accuracy": 0.40420332355816224,
	"eval_loss": 4.126589298248291,
	"eval_runtime": 0.6331,
	"eval_samples_per_second": 6.318,
	"eval_steps_per_second": 1.58,
	"step": 8740
	},
	{
	"epoch": 231.0,
	"learning_rate": 5.38e-07,
	"loss": 3.8139,
	"step": 8778
	},
	{
	"epoch": 231.0,
	"eval_accuracy": 0.40420332355816224,
	"eval_loss": 4.125330448150635,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 8778
	},
	{
	"epoch": 232.0,
	"learning_rate": 5.36e-07,
	"loss": 3.8132,
	"step": 8816
	},
	{
	"epoch": 232.0,
	"eval_accuracy": 0.4046920821114369,
	"eval_loss": 4.1250810623168945,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 8816
	},
	{
	"epoch": 233.0,
	"learning_rate": 5.34e-07,
	"loss": 3.8126,
	"step": 8854
	},
	{
	"epoch": 233.0,
	"eval_accuracy": 0.4046920821114369,
	"eval_loss": 4.122879505157471,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 8854
	},
	{
	"epoch": 234.0,
	"learning_rate": 5.32e-07,
	"loss": 3.8074,
	"step": 8892
	},
	{
	"epoch": 234.0,
	"eval_accuracy": 0.40640273704789837,
	"eval_loss": 4.121622085571289,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 8892
	},
	{
	"epoch": 235.0,
	"learning_rate": 5.3e-07,
	"loss": 3.8072,
	"step": 8930
	},
	{
	"epoch": 235.0,
	"eval_accuracy": 0.4066471163245357,
	"eval_loss": 4.121754169464111,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.63,
	"step": 8930
	},
	{
	"epoch": 236.0,
	"learning_rate": 5.28e-07,
	"loss": 3.8056,
	"step": 8968
	},
	{
	"epoch": 236.0,
	"eval_accuracy": 0.4066471163245357,
	"eval_loss": 4.116854667663574,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 8968
	},
	{
	"epoch": 237.0,
	"learning_rate": 5.26e-07,
	"loss": 3.8038,
	"step": 9006
	},
	{
	"epoch": 237.0,
	"eval_accuracy": 0.4066471163245357,
	"eval_loss": 4.116855621337891,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.527,
	"eval_steps_per_second": 1.632,
	"step": 9006
	},
	{
	"epoch": 238.0,
	"learning_rate": 5.24e-07,
	"loss": 3.8025,
	"step": 9044
	},
	{
	"epoch": 238.0,
	"eval_accuracy": 0.4066471163245357,
	"eval_loss": 4.115084648132324,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 9044
	},
	{
	"epoch": 239.0,
	"learning_rate": 5.22e-07,
	"loss": 3.7948,
	"step": 9082
	},
	{
	"epoch": 239.0,
	"eval_accuracy": 0.40689149560117305,
	"eval_loss": 4.11461877822876,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.63,
	"step": 9082
	},
	{
	"epoch": 240.0,
	"learning_rate": 5.2e-07,
	"loss": 3.7929,
	"step": 9120
	},
	{
	"epoch": 240.0,
	"eval_accuracy": 0.4066471163245357,
	"eval_loss": 4.1119794845581055,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 9120
	},
	{
	"epoch": 241.0,
	"learning_rate": 5.18e-07,
	"loss": 3.7922,
	"step": 9158
	},
	{
	"epoch": 241.0,
	"eval_accuracy": 0.40689149560117305,
	"eval_loss": 4.111790180206299,
	"eval_runtime": 0.6215,
	"eval_samples_per_second": 6.436,
	"eval_steps_per_second": 1.609,
	"step": 9158
	},
	{
	"epoch": 242.0,
	"learning_rate": 5.16e-07,
	"loss": 3.7897,
	"step": 9196
	},
	{
	"epoch": 242.0,
	"eval_accuracy": 0.40762463343108507,
	"eval_loss": 4.109217166900635,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 9196
	},
	{
	"epoch": 243.0,
	"learning_rate": 5.14e-07,
	"loss": 3.7877,
	"step": 9234
	},
	{
	"epoch": 243.0,
	"eval_accuracy": 0.4078690127077224,
	"eval_loss": 4.107990741729736,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 9234
	},
	{
	"epoch": 244.0,
	"learning_rate": 5.12e-07,
	"loss": 3.7829,
	"step": 9272
	},
	{
	"epoch": 244.0,
	"eval_accuracy": 0.4071358748778104,
	"eval_loss": 4.1082682609558105,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 9272
	},
	{
	"epoch": 245.0,
	"learning_rate": 5.1e-07,
	"loss": 3.7814,
	"step": 9310
	},
	{
	"epoch": 245.0,
	"eval_accuracy": 0.40762463343108507,
	"eval_loss": 4.108653545379639,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.628,
	"step": 9310
	},
	{
	"epoch": 246.0,
	"learning_rate": 5.079999999999999e-07,
	"loss": 3.781,
	"step": 9348
	},
	{
	"epoch": 246.0,
	"eval_accuracy": 0.4071358748778104,
	"eval_loss": 4.1042561531066895,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 9348
	},
	{
	"epoch": 247.0,
	"learning_rate": 5.06e-07,
	"loss": 3.7728,
	"step": 9386
	},
	{
	"epoch": 247.0,
	"eval_accuracy": 0.40811339198435975,
	"eval_loss": 4.102220058441162,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 9386
	},
	{
	"epoch": 248.0,
	"learning_rate": 5.04e-07,
	"loss": 3.779,
	"step": 9424
	},
	{
	"epoch": 248.0,
	"eval_accuracy": 0.40811339198435975,
	"eval_loss": 4.101465225219727,
	"eval_runtime": 0.6127,
	"eval_samples_per_second": 6.529,
	"eval_steps_per_second": 1.632,
	"step": 9424
	},
	{
	"epoch": 249.0,
	"learning_rate": 5.02e-07,
	"loss": 3.7716,
	"step": 9462
	},
	{
	"epoch": 249.0,
	"eval_accuracy": 0.4078690127077224,
	"eval_loss": 4.103041172027588,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 9462
	},
	{
	"epoch": 250.0,
	"learning_rate": 5e-07,
	"loss": 3.7674,
	"step": 9500
	},
	{
	"epoch": 250.0,
	"eval_accuracy": 0.4078690127077224,
	"eval_loss": 4.099481105804443,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 9500
	},
	{
	"epoch": 251.0,
	"learning_rate": 4.979999999999999e-07,
	"loss": 3.7665,
	"step": 9538
	},
	{
	"epoch": 251.0,
	"eval_accuracy": 0.40860215053763443,
	"eval_loss": 4.0990800857543945,
	"eval_runtime": 0.6218,
	"eval_samples_per_second": 6.433,
	"eval_steps_per_second": 1.608,
	"step": 9538
	},
	{
	"epoch": 252.0,
	"learning_rate": 4.96e-07,
	"loss": 3.7603,
	"step": 9576
	},
	{
	"epoch": 252.0,
	"eval_accuracy": 0.40738025415444773,
	"eval_loss": 4.100230693817139,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 9576
	},
	{
	"epoch": 253.0,
	"learning_rate": 4.94e-07,
	"loss": 3.7645,
	"step": 9614
	},
	{
	"epoch": 253.0,
	"eval_accuracy": 0.40860215053763443,
	"eval_loss": 4.095699787139893,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 9614
	},
	{
	"epoch": 254.0,
	"learning_rate": 4.92e-07,
	"loss": 3.7622,
	"step": 9652
	},
	{
	"epoch": 254.0,
	"eval_accuracy": 0.4083577712609971,
	"eval_loss": 4.0959062576293945,
	"eval_runtime": 2.189,
	"eval_samples_per_second": 1.827,
	"eval_steps_per_second": 0.457,
	"step": 9652
	},
	{
	"epoch": 255.0,
	"learning_rate": 4.9e-07,
	"loss": 3.7583,
	"step": 9690
	},
	{
	"epoch": 255.0,
	"eval_accuracy": 0.4083577712609971,
	"eval_loss": 4.0954976081848145,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 9690
	},
	{
	"epoch": 256.0,
	"learning_rate": 4.879999999999999e-07,
	"loss": 3.752,
	"step": 9728
	},
	{
	"epoch": 256.0,
	"eval_accuracy": 0.40860215053763443,
	"eval_loss": 4.0929741859436035,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 9728
	},
	{
	"epoch": 257.0,
	"learning_rate": 4.86e-07,
	"loss": 3.7545,
	"step": 9766
	},
	{
	"epoch": 257.0,
	"eval_accuracy": 0.4090909090909091,
	"eval_loss": 4.0912184715271,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 9766
	},
	{
	"epoch": 258.0,
	"learning_rate": 4.839999999999999e-07,
	"loss": 3.7447,
	"step": 9804
	},
	{
	"epoch": 258.0,
	"eval_accuracy": 0.4090909090909091,
	"eval_loss": 4.092291831970215,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.509,
	"eval_steps_per_second": 1.627,
	"step": 9804
	},
	{
	"epoch": 259.0,
	"learning_rate": 4.82e-07,
	"loss": 3.7483,
	"step": 9842
	},
	{
	"epoch": 259.0,
	"eval_accuracy": 0.40860215053763443,
	"eval_loss": 4.089372158050537,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 9842
	},
	{
	"epoch": 260.0,
	"learning_rate": 4.8e-07,
	"loss": 3.7428,
	"step": 9880
	},
	{
	"epoch": 260.0,
	"eval_accuracy": 0.40860215053763443,
	"eval_loss": 4.090963840484619,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 9880
	},
	{
	"epoch": 261.0,
	"learning_rate": 4.779999999999999e-07,
	"loss": 3.7407,
	"step": 9918
	},
	{
	"epoch": 261.0,
	"eval_accuracy": 0.40860215053763443,
	"eval_loss": 4.087746620178223,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 1.627,
	"step": 9918
	},
	{
	"epoch": 262.0,
	"learning_rate": 4.76e-07,
	"loss": 3.7405,
	"step": 9956
	},
	{
	"epoch": 262.0,
	"eval_accuracy": 0.4090909090909091,
	"eval_loss": 4.089057922363281,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 9956
	},
	{
	"epoch": 263.0,
	"learning_rate": 4.7399999999999993e-07,
	"loss": 3.7354,
	"step": 9994
	},
	{
	"epoch": 263.0,
	"eval_accuracy": 0.4088465298142718,
	"eval_loss": 4.0869574546813965,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 9994
	},
	{
	"epoch": 264.0,
	"learning_rate": 4.7199999999999994e-07,
	"loss": 3.7353,
	"step": 10032
	},
	{
	"epoch": 264.0,
	"eval_accuracy": 0.40860215053763443,
	"eval_loss": 4.085577487945557,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.629,
	"step": 10032
	},
	{
	"epoch": 265.0,
	"learning_rate": 4.6999999999999995e-07,
	"loss": 3.7312,
	"step": 10070
	},
	{
	"epoch": 265.0,
	"eval_accuracy": 0.4090909090909091,
	"eval_loss": 4.083754062652588,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 10070
	},
	{
	"epoch": 266.0,
	"learning_rate": 4.68e-07,
	"loss": 3.7313,
	"step": 10108
	},
	{
	"epoch": 266.0,
	"eval_accuracy": 0.4090909090909091,
	"eval_loss": 4.082942485809326,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.629,
	"step": 10108
	},
	{
	"epoch": 267.0,
	"learning_rate": 4.66e-07,
	"loss": 3.7264,
	"step": 10146
	},
	{
	"epoch": 267.0,
	"eval_accuracy": 0.4090909090909091,
	"eval_loss": 4.0826802253723145,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 1.627,
	"step": 10146
	},
	{
	"epoch": 268.0,
	"learning_rate": 4.64e-07,
	"loss": 3.7221,
	"step": 10184
	},
	{
	"epoch": 268.0,
	"eval_accuracy": 0.40933528836754646,
	"eval_loss": 4.081498622894287,
	"eval_runtime": 0.6152,
	"eval_samples_per_second": 6.502,
	"eval_steps_per_second": 1.625,
	"step": 10184
	},
	{
	"epoch": 269.0,
	"learning_rate": 4.62e-07,
	"loss": 3.7211,
	"step": 10222
	},
	{
	"epoch": 269.0,
	"eval_accuracy": 0.4090909090909091,
	"eval_loss": 4.0801472663879395,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 10222
	},
	{
	"epoch": 270.0,
	"learning_rate": 4.6e-07,
	"loss": 3.7232,
	"step": 10260
	},
	{
	"epoch": 270.0,
	"eval_accuracy": 0.40933528836754646,
	"eval_loss": 4.0787458419799805,
	"eval_runtime": 0.6151,
	"eval_samples_per_second": 6.503,
	"eval_steps_per_second": 1.626,
	"step": 10260
	},
	{
	"epoch": 271.0,
	"learning_rate": 4.58e-07,
	"loss": 3.718,
	"step": 10298
	},
	{
	"epoch": 271.0,
	"eval_accuracy": 0.4100684261974585,
	"eval_loss": 4.07801628112793,
	"eval_runtime": 0.6249,
	"eval_samples_per_second": 6.401,
	"eval_steps_per_second": 1.6,
	"step": 10298
	},
	{
	"epoch": 272.0,
	"learning_rate": 4.56e-07,
	"loss": 3.7208,
	"step": 10336
	},
	{
	"epoch": 272.0,
	"eval_accuracy": 0.4108015640273705,
	"eval_loss": 4.077081203460693,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.628,
	"step": 10336
	},
	{
	"epoch": 273.0,
	"learning_rate": 4.54e-07,
	"loss": 3.7109,
	"step": 10374
	},
	{
	"epoch": 273.0,
	"eval_accuracy": 0.4115347018572825,
	"eval_loss": 4.07664155960083,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 10374
	},
	{
	"epoch": 274.0,
	"learning_rate": 4.5199999999999997e-07,
	"loss": 3.7146,
	"step": 10412
	},
	{
	"epoch": 274.0,
	"eval_accuracy": 0.41104594330400784,
	"eval_loss": 4.073920249938965,
	"eval_runtime": 0.626,
	"eval_samples_per_second": 6.39,
	"eval_steps_per_second": 1.597,
	"step": 10412
	},
	{
	"epoch": 275.0,
	"learning_rate": 4.5e-07,
	"loss": 3.7071,
	"step": 10450
	},
	{
	"epoch": 275.0,
	"eval_accuracy": 0.41177908113391987,
	"eval_loss": 4.073719501495361,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 10450
	},
	{
	"epoch": 276.0,
	"learning_rate": 4.48e-07,
	"loss": 3.7044,
	"step": 10488
	},
	{
	"epoch": 276.0,
	"eval_accuracy": 0.41226783968719455,
	"eval_loss": 4.074197769165039,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 10488
	},
	{
	"epoch": 277.0,
	"learning_rate": 4.46e-07,
	"loss": 3.7094,
	"step": 10526
	},
	{
	"epoch": 277.0,
	"eval_accuracy": 0.4125122189638319,
	"eval_loss": 4.071889400482178,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 10526
	},
	{
	"epoch": 278.0,
	"learning_rate": 4.44e-07,
	"loss": 3.7028,
	"step": 10564
	},
	{
	"epoch": 278.0,
	"eval_accuracy": 0.4120234604105572,
	"eval_loss": 4.071835994720459,
	"eval_runtime": 0.6231,
	"eval_samples_per_second": 6.419,
	"eval_steps_per_second": 1.605,
	"step": 10564
	},
	{
	"epoch": 279.0,
	"learning_rate": 4.4199999999999996e-07,
	"loss": 3.7051,
	"step": 10602
	},
	{
	"epoch": 279.0,
	"eval_accuracy": 0.4120234604105572,
	"eval_loss": 4.069863319396973,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.63,
	"step": 10602
	},
	{
	"epoch": 280.0,
	"learning_rate": 4.3999999999999997e-07,
	"loss": 3.7011,
	"step": 10640
	},
	{
	"epoch": 280.0,
	"eval_accuracy": 0.4125122189638319,
	"eval_loss": 4.068091869354248,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 10640
	},
	{
	"epoch": 281.0,
	"learning_rate": 4.38e-07,
	"loss": 3.6954,
	"step": 10678
	},
	{
	"epoch": 281.0,
	"eval_accuracy": 0.4120234604105572,
	"eval_loss": 4.066802501678467,
	"eval_runtime": 0.6149,
	"eval_samples_per_second": 6.505,
	"eval_steps_per_second": 1.626,
	"step": 10678
	},
	{
	"epoch": 282.0,
	"learning_rate": 4.36e-07,
	"loss": 3.6933,
	"step": 10716
	},
	{
	"epoch": 282.0,
	"eval_accuracy": 0.41226783968719455,
	"eval_loss": 4.066892623901367,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 10716
	},
	{
	"epoch": 283.0,
	"learning_rate": 4.34e-07,
	"loss": 3.6935,
	"step": 10754
	},
	{
	"epoch": 283.0,
	"eval_accuracy": 0.4125122189638319,
	"eval_loss": 4.063753128051758,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 10754
	},
	{
	"epoch": 284.0,
	"learning_rate": 4.3199999999999995e-07,
	"loss": 3.6867,
	"step": 10792
	},
	{
	"epoch": 284.0,
	"eval_accuracy": 0.4125122189638319,
	"eval_loss": 4.065001964569092,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.506,
	"eval_steps_per_second": 1.627,
	"step": 10792
	},
	{
	"epoch": 285.0,
	"learning_rate": 4.2999999999999996e-07,
	"loss": 3.6888,
	"step": 10830
	},
	{
	"epoch": 285.0,
	"eval_accuracy": 0.4120234604105572,
	"eval_loss": 4.0640668869018555,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 10830
	},
	{
	"epoch": 286.0,
	"learning_rate": 4.2799999999999997e-07,
	"loss": 3.6843,
	"step": 10868
	},
	{
	"epoch": 286.0,
	"eval_accuracy": 0.4115347018572825,
	"eval_loss": 4.0637993812561035,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 10868
	},
	{
	"epoch": 287.0,
	"learning_rate": 4.26e-07,
	"loss": 3.6824,
	"step": 10906
	},
	{
	"epoch": 287.0,
	"eval_accuracy": 0.4125122189638319,
	"eval_loss": 4.06214714050293,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.528,
	"eval_steps_per_second": 1.632,
	"step": 10906
	},
	{
	"epoch": 288.0,
	"learning_rate": 4.24e-07,
	"loss": 3.6821,
	"step": 10944
	},
	{
	"epoch": 288.0,
	"eval_accuracy": 0.41226783968719455,
	"eval_loss": 4.060315132141113,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 10944
	},
	{
	"epoch": 289.0,
	"learning_rate": 4.2199999999999994e-07,
	"loss": 3.6802,
	"step": 10982
	},
	{
	"epoch": 289.0,
	"eval_accuracy": 0.4125122189638319,
	"eval_loss": 4.062171459197998,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 10982
	},
	{
	"epoch": 290.0,
	"learning_rate": 4.1999999999999995e-07,
	"loss": 3.6789,
	"step": 11020
	},
	{
	"epoch": 290.0,
	"eval_accuracy": 0.41275659824046923,
	"eval_loss": 4.057875633239746,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.527,
	"eval_steps_per_second": 1.632,
	"step": 11020
	},
	{
	"epoch": 291.0,
	"learning_rate": 4.1799999999999996e-07,
	"loss": 3.6767,
	"step": 11058
	},
	{
	"epoch": 291.0,
	"eval_accuracy": 0.41300097751710657,
	"eval_loss": 4.057925701141357,
	"eval_runtime": 0.6126,
	"eval_samples_per_second": 6.53,
	"eval_steps_per_second": 1.632,
	"step": 11058
	},
	{
	"epoch": 292.0,
	"learning_rate": 4.1599999999999997e-07,
	"loss": 3.6751,
	"step": 11096
	},
	{
	"epoch": 292.0,
	"eval_accuracy": 0.4137341153470186,
	"eval_loss": 4.058208465576172,
	"eval_runtime": 0.6175,
	"eval_samples_per_second": 6.478,
	"eval_steps_per_second": 1.62,
	"step": 11096
	},
	{
	"epoch": 293.0,
	"learning_rate": 4.14e-07,
	"loss": 3.6726,
	"step": 11134
	},
	{
	"epoch": 293.0,
	"eval_accuracy": 0.4137341153470186,
	"eval_loss": 4.055559158325195,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 11134
	},
	{
	"epoch": 294.0,
	"learning_rate": 4.12e-07,
	"loss": 3.6704,
	"step": 11172
	},
	{
	"epoch": 294.0,
	"eval_accuracy": 0.4137341153470186,
	"eval_loss": 4.058291435241699,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 11172
	},
	{
	"epoch": 295.0,
	"learning_rate": 4.0999999999999994e-07,
	"loss": 3.6703,
	"step": 11210
	},
	{
	"epoch": 295.0,
	"eval_accuracy": 0.4142228739002933,
	"eval_loss": 4.055552005767822,
	"eval_runtime": 0.626,
	"eval_samples_per_second": 6.39,
	"eval_steps_per_second": 1.598,
	"step": 11210
	},
	{
	"epoch": 296.0,
	"learning_rate": 4.0799999999999995e-07,
	"loss": 3.6662,
	"step": 11248
	},
	{
	"epoch": 296.0,
	"eval_accuracy": 0.41471163245356796,
	"eval_loss": 4.05183219909668,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 11248
	},
	{
	"epoch": 297.0,
	"learning_rate": 4.06e-07,
	"loss": 3.6643,
	"step": 11286
	},
	{
	"epoch": 297.0,
	"eval_accuracy": 0.41471163245356796,
	"eval_loss": 4.05209493637085,
	"eval_runtime": 0.626,
	"eval_samples_per_second": 6.39,
	"eval_steps_per_second": 1.597,
	"step": 11286
	},
	{
	"epoch": 298.0,
	"learning_rate": 4.04e-07,
	"loss": 3.6623,
	"step": 11324
	},
	{
	"epoch": 298.0,
	"eval_accuracy": 0.4144672531769306,
	"eval_loss": 4.054409980773926,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.628,
	"step": 11324
	},
	{
	"epoch": 299.0,
	"learning_rate": 4.02e-07,
	"loss": 3.6626,
	"step": 11362
	},
	{
	"epoch": 299.0,
	"eval_accuracy": 0.41471163245356796,
	"eval_loss": 4.051777362823486,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 11362
	},
	{
	"epoch": 300.0,
	"learning_rate": 4e-07,
	"loss": 3.661,
	"step": 11400
	},
	{
	"epoch": 300.0,
	"eval_accuracy": 0.41471163245356796,
	"eval_loss": 4.049643516540527,
	"eval_runtime": 0.7928,
	"eval_samples_per_second": 5.046,
	"eval_steps_per_second": 1.261,
	"step": 11400
	},
	{
	"epoch": 301.0,
	"learning_rate": 3.98e-07,
	"loss": 3.6553,
	"step": 11438
	},
	{
	"epoch": 301.0,
	"eval_accuracy": 0.4149560117302053,
	"eval_loss": 4.048153400421143,
	"eval_runtime": 0.6123,
	"eval_samples_per_second": 6.533,
	"eval_steps_per_second": 1.633,
	"step": 11438
	},
	{
	"epoch": 302.0,
	"learning_rate": 3.96e-07,
	"loss": 3.6573,
	"step": 11476
	},
	{
	"epoch": 302.0,
	"eval_accuracy": 0.41471163245356796,
	"eval_loss": 4.047247886657715,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 11476
	},
	{
	"epoch": 303.0,
	"learning_rate": 3.94e-07,
	"loss": 3.6548,
	"step": 11514
	},
	{
	"epoch": 303.0,
	"eval_accuracy": 0.41520039100684264,
	"eval_loss": 4.046008586883545,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 1.627,
	"step": 11514
	},
	{
	"epoch": 304.0,
	"learning_rate": 3.92e-07,
	"loss": 3.6531,
	"step": 11552
	},
	{
	"epoch": 304.0,
	"eval_accuracy": 0.41471163245356796,
	"eval_loss": 4.046994209289551,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 11552
	},
	{
	"epoch": 305.0,
	"learning_rate": 3.8999999999999997e-07,
	"loss": 3.6549,
	"step": 11590
	},
	{
	"epoch": 305.0,
	"eval_accuracy": 0.4149560117302053,
	"eval_loss": 4.046128273010254,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 11590
	},
	{
	"epoch": 306.0,
	"learning_rate": 3.88e-07,
	"loss": 3.6485,
	"step": 11628
	},
	{
	"epoch": 306.0,
	"eval_accuracy": 0.41471163245356796,
	"eval_loss": 4.0460734367370605,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 11628
	},
	{
	"epoch": 307.0,
	"learning_rate": 3.86e-07,
	"loss": 3.6441,
	"step": 11666
	},
	{
	"epoch": 307.0,
	"eval_accuracy": 0.4149560117302053,
	"eval_loss": 4.046470642089844,
	"eval_runtime": 0.6145,
	"eval_samples_per_second": 6.509,
	"eval_steps_per_second": 1.627,
	"step": 11666
	},
	{
	"epoch": 308.0,
	"learning_rate": 3.84e-07,
	"loss": 3.6438,
	"step": 11704
	},
	{
	"epoch": 308.0,
	"eval_accuracy": 0.41593352883675466,
	"eval_loss": 4.042454719543457,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 11704
	},
	{
	"epoch": 309.0,
	"learning_rate": 3.82e-07,
	"loss": 3.6435,
	"step": 11742
	},
	{
	"epoch": 309.0,
	"eval_accuracy": 0.4156891495601173,
	"eval_loss": 4.040951251983643,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 11742
	},
	{
	"epoch": 310.0,
	"learning_rate": 3.7999999999999996e-07,
	"loss": 3.6397,
	"step": 11780
	},
	{
	"epoch": 310.0,
	"eval_accuracy": 0.41593352883675466,
	"eval_loss": 4.040650844573975,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 11780
	},
	{
	"epoch": 311.0,
	"learning_rate": 3.7799999999999997e-07,
	"loss": 3.6363,
	"step": 11818
	},
	{
	"epoch": 311.0,
	"eval_accuracy": 0.41544477028348,
	"eval_loss": 4.042422294616699,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 11818
	},
	{
	"epoch": 312.0,
	"learning_rate": 3.76e-07,
	"loss": 3.6315,
	"step": 11856
	},
	{
	"epoch": 312.0,
	"eval_accuracy": 0.41544477028348,
	"eval_loss": 4.043632984161377,
	"eval_runtime": 0.6149,
	"eval_samples_per_second": 6.505,
	"eval_steps_per_second": 1.626,
	"step": 11856
	},
	{
	"epoch": 313.0,
	"learning_rate": 3.74e-07,
	"loss": 3.6323,
	"step": 11894
	},
	{
	"epoch": 313.0,
	"eval_accuracy": 0.4156891495601173,
	"eval_loss": 4.040919303894043,
	"eval_runtime": 0.628,
	"eval_samples_per_second": 6.369,
	"eval_steps_per_second": 1.592,
	"step": 11894
	},
	{
	"epoch": 314.0,
	"learning_rate": 3.72e-07,
	"loss": 3.6386,
	"step": 11932
	},
	{
	"epoch": 314.0,
	"eval_accuracy": 0.4156891495601173,
	"eval_loss": 4.038565158843994,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 11932
	},
	{
	"epoch": 315.0,
	"learning_rate": 3.7e-07,
	"loss": 3.6303,
	"step": 11970
	},
	{
	"epoch": 315.0,
	"eval_accuracy": 0.41544477028348,
	"eval_loss": 4.0388689041137695,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 11970
	},
	{
	"epoch": 316.0,
	"learning_rate": 3.6799999999999996e-07,
	"loss": 3.6336,
	"step": 12008
	},
	{
	"epoch": 316.0,
	"eval_accuracy": 0.41642228739002934,
	"eval_loss": 4.039405345916748,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.629,
	"step": 12008
	},
	{
	"epoch": 317.0,
	"learning_rate": 3.6599999999999997e-07,
	"loss": 3.6281,
	"step": 12046
	},
	{
	"epoch": 317.0,
	"eval_accuracy": 0.4166666666666667,
	"eval_loss": 4.038857460021973,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 12046
	},
	{
	"epoch": 318.0,
	"learning_rate": 3.64e-07,
	"loss": 3.6249,
	"step": 12084
	},
	{
	"epoch": 318.0,
	"eval_accuracy": 0.41764418377321605,
	"eval_loss": 4.037881374359131,
	"eval_runtime": 0.7782,
	"eval_samples_per_second": 5.14,
	"eval_steps_per_second": 1.285,
	"step": 12084
	},
	{
	"epoch": 319.0,
	"learning_rate": 3.62e-07,
	"loss": 3.6277,
	"step": 12122
	},
	{
	"epoch": 319.0,
	"eval_accuracy": 0.41764418377321605,
	"eval_loss": 4.037135601043701,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 12122
	},
	{
	"epoch": 320.0,
	"learning_rate": 3.6e-07,
	"loss": 3.6232,
	"step": 12160
	},
	{
	"epoch": 320.0,
	"eval_accuracy": 0.41715542521994137,
	"eval_loss": 4.035280704498291,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 12160
	},
	{
	"epoch": 321.0,
	"learning_rate": 3.5799999999999995e-07,
	"loss": 3.6177,
	"step": 12198
	},
	{
	"epoch": 321.0,
	"eval_accuracy": 0.41764418377321605,
	"eval_loss": 4.036287307739258,
	"eval_runtime": 0.6153,
	"eval_samples_per_second": 6.501,
	"eval_steps_per_second": 1.625,
	"step": 12198
	},
	{
	"epoch": 322.0,
	"learning_rate": 3.5599999999999996e-07,
	"loss": 3.626,
	"step": 12236
	},
	{
	"epoch": 322.0,
	"eval_accuracy": 0.4173998044965787,
	"eval_loss": 4.031866073608398,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 6.527,
	"eval_steps_per_second": 1.632,
	"step": 12236
	},
	{
	"epoch": 323.0,
	"learning_rate": 3.5399999999999997e-07,
	"loss": 3.6181,
	"step": 12274
	},
	{
	"epoch": 323.0,
	"eval_accuracy": 0.41715542521994137,
	"eval_loss": 4.031935691833496,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.509,
	"eval_steps_per_second": 1.627,
	"step": 12274
	},
	{
	"epoch": 324.0,
	"learning_rate": 3.52e-07,
	"loss": 3.6183,
	"step": 12312
	},
	{
	"epoch": 324.0,
	"eval_accuracy": 0.41764418377321605,
	"eval_loss": 4.03291130065918,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 12312
	},
	{
	"epoch": 325.0,
	"learning_rate": 3.5e-07,
	"loss": 3.6169,
	"step": 12350
	},
	{
	"epoch": 325.0,
	"eval_accuracy": 0.41764418377321605,
	"eval_loss": 4.032841682434082,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 12350
	},
	{
	"epoch": 326.0,
	"learning_rate": 3.4799999999999994e-07,
	"loss": 3.6094,
	"step": 12388
	},
	{
	"epoch": 326.0,
	"eval_accuracy": 0.4178885630498534,
	"eval_loss": 4.031832218170166,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 12388
	},
	{
	"epoch": 327.0,
	"learning_rate": 3.4599999999999995e-07,
	"loss": 3.6138,
	"step": 12426
	},
	{
	"epoch": 327.0,
	"eval_accuracy": 0.4178885630498534,
	"eval_loss": 4.029395580291748,
	"eval_runtime": 0.6125,
	"eval_samples_per_second": 6.531,
	"eval_steps_per_second": 1.633,
	"step": 12426
	},
	{
	"epoch": 328.0,
	"learning_rate": 3.4399999999999996e-07,
	"loss": 3.6101,
	"step": 12464
	},
	{
	"epoch": 328.0,
	"eval_accuracy": 0.41813294232649073,
	"eval_loss": 4.031092166900635,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 12464
	},
	{
	"epoch": 329.0,
	"learning_rate": 3.42e-07,
	"loss": 3.6062,
	"step": 12502
	},
	{
	"epoch": 329.0,
	"eval_accuracy": 0.41837732160312807,
	"eval_loss": 4.029919624328613,
	"eval_runtime": 0.6173,
	"eval_samples_per_second": 6.48,
	"eval_steps_per_second": 1.62,
	"step": 12502
	},
	{
	"epoch": 330.0,
	"learning_rate": 3.4000000000000003e-07,
	"loss": 3.6093,
	"step": 12540
	},
	{
	"epoch": 330.0,
	"eval_accuracy": 0.41813294232649073,
	"eval_loss": 4.027568817138672,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.628,
	"step": 12540
	},
	{
	"epoch": 331.0,
	"learning_rate": 3.38e-07,
	"loss": 3.6071,
	"step": 12578
	},
	{
	"epoch": 331.0,
	"eval_accuracy": 0.41813294232649073,
	"eval_loss": 4.030076503753662,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.506,
	"eval_steps_per_second": 1.627,
	"step": 12578
	},
	{
	"epoch": 332.0,
	"learning_rate": 3.36e-07,
	"loss": 3.6064,
	"step": 12616
	},
	{
	"epoch": 332.0,
	"eval_accuracy": 0.41837732160312807,
	"eval_loss": 4.027680397033691,
	"eval_runtime": 0.6131,
	"eval_samples_per_second": 6.524,
	"eval_steps_per_second": 1.631,
	"step": 12616
	},
	{
	"epoch": 333.0,
	"learning_rate": 3.34e-07,
	"loss": 3.5982,
	"step": 12654
	},
	{
	"epoch": 333.0,
	"eval_accuracy": 0.41837732160312807,
	"eval_loss": 4.028773784637451,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 12654
	},
	{
	"epoch": 334.0,
	"learning_rate": 3.32e-07,
	"loss": 3.6064,
	"step": 12692
	},
	{
	"epoch": 334.0,
	"eval_accuracy": 0.4178885630498534,
	"eval_loss": 4.0255818367004395,
	"eval_runtime": 0.6242,
	"eval_samples_per_second": 6.408,
	"eval_steps_per_second": 1.602,
	"step": 12692
	},
	{
	"epoch": 335.0,
	"learning_rate": 3.3e-07,
	"loss": 3.6023,
	"step": 12730
	},
	{
	"epoch": 335.0,
	"eval_accuracy": 0.41837732160312807,
	"eval_loss": 4.025238037109375,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 12730
	},
	{
	"epoch": 336.0,
	"learning_rate": 3.28e-07,
	"loss": 3.5992,
	"step": 12768
	},
	{
	"epoch": 336.0,
	"eval_accuracy": 0.4186217008797654,
	"eval_loss": 4.024014472961426,
	"eval_runtime": 0.6127,
	"eval_samples_per_second": 6.529,
	"eval_steps_per_second": 1.632,
	"step": 12768
	},
	{
	"epoch": 337.0,
	"learning_rate": 3.26e-07,
	"loss": 3.5997,
	"step": 12806
	},
	{
	"epoch": 337.0,
	"eval_accuracy": 0.41886608015640275,
	"eval_loss": 4.0236945152282715,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 12806
	},
	{
	"epoch": 338.0,
	"learning_rate": 3.24e-07,
	"loss": 3.5955,
	"step": 12844
	},
	{
	"epoch": 338.0,
	"eval_accuracy": 0.4186217008797654,
	"eval_loss": 4.02353048324585,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 12844
	},
	{
	"epoch": 339.0,
	"learning_rate": 3.22e-07,
	"loss": 3.5929,
	"step": 12882
	},
	{
	"epoch": 339.0,
	"eval_accuracy": 0.4186217008797654,
	"eval_loss": 4.023321151733398,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 12882
	},
	{
	"epoch": 340.0,
	"learning_rate": 3.2e-07,
	"loss": 3.5953,
	"step": 12920
	},
	{
	"epoch": 340.0,
	"eval_accuracy": 0.41886608015640275,
	"eval_loss": 4.020965099334717,
	"eval_runtime": 0.6126,
	"eval_samples_per_second": 6.53,
	"eval_steps_per_second": 1.632,
	"step": 12920
	},
	{
	"epoch": 341.0,
	"learning_rate": 3.18e-07,
	"loss": 3.5915,
	"step": 12958
	},
	{
	"epoch": 341.0,
	"eval_accuracy": 0.41837732160312807,
	"eval_loss": 4.020979404449463,
	"eval_runtime": 0.6256,
	"eval_samples_per_second": 6.394,
	"eval_steps_per_second": 1.598,
	"step": 12958
	},
	{
	"epoch": 342.0,
	"learning_rate": 3.1599999999999997e-07,
	"loss": 3.5835,
	"step": 12996
	},
	{
	"epoch": 342.0,
	"eval_accuracy": 0.41886608015640275,
	"eval_loss": 4.022586345672607,
	"eval_runtime": 0.6251,
	"eval_samples_per_second": 6.399,
	"eval_steps_per_second": 1.6,
	"step": 12996
	},
	{
	"epoch": 343.0,
	"learning_rate": 3.14e-07,
	"loss": 3.5852,
	"step": 13034
	},
	{
	"epoch": 343.0,
	"eval_accuracy": 0.41886608015640275,
	"eval_loss": 4.022684574127197,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 1.627,
	"step": 13034
	},
	{
	"epoch": 344.0,
	"learning_rate": 3.12e-07,
	"loss": 3.5894,
	"step": 13072
	},
	{
	"epoch": 344.0,
	"eval_accuracy": 0.4191104594330401,
	"eval_loss": 4.022200584411621,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 13072
	},
	{
	"epoch": 345.0,
	"learning_rate": 3.1e-07,
	"loss": 3.5864,
	"step": 13110
	},
	{
	"epoch": 345.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.022695541381836,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 13110
	},
	{
	"epoch": 346.0,
	"learning_rate": 3.08e-07,
	"loss": 3.5854,
	"step": 13148
	},
	{
	"epoch": 346.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.018957138061523,
	"eval_runtime": 0.6145,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.627,
	"step": 13148
	},
	{
	"epoch": 347.0,
	"learning_rate": 3.0599999999999996e-07,
	"loss": 3.5841,
	"step": 13186
	},
	{
	"epoch": 347.0,
	"eval_accuracy": 0.4191104594330401,
	"eval_loss": 4.017984390258789,
	"eval_runtime": 0.6155,
	"eval_samples_per_second": 6.499,
	"eval_steps_per_second": 1.625,
	"step": 13186
	},
	{
	"epoch": 348.0,
	"learning_rate": 3.0399999999999997e-07,
	"loss": 3.5821,
	"step": 13224
	},
	{
	"epoch": 348.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.018927097320557,
	"eval_runtime": 0.6152,
	"eval_samples_per_second": 6.502,
	"eval_steps_per_second": 1.626,
	"step": 13224
	},
	{
	"epoch": 349.0,
	"learning_rate": 3.02e-07,
	"loss": 3.5823,
	"step": 13262
	},
	{
	"epoch": 349.0,
	"eval_accuracy": 0.4191104594330401,
	"eval_loss": 4.0175862312316895,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 1.627,
	"step": 13262
	},
	{
	"epoch": 350.0,
	"learning_rate": 3e-07,
	"loss": 3.5772,
	"step": 13300
	},
	{
	"epoch": 350.0,
	"eval_accuracy": 0.4191104594330401,
	"eval_loss": 4.016434669494629,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 13300
	},
	{
	"epoch": 351.0,
	"learning_rate": 2.98e-07,
	"loss": 3.5827,
	"step": 13338
	},
	{
	"epoch": 351.0,
	"eval_accuracy": 0.4186217008797654,
	"eval_loss": 4.014683723449707,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 13338
	},
	{
	"epoch": 352.0,
	"learning_rate": 2.9599999999999995e-07,
	"loss": 3.5747,
	"step": 13376
	},
	{
	"epoch": 352.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.014786720275879,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 13376
	},
	{
	"epoch": 353.0,
	"learning_rate": 2.9399999999999996e-07,
	"loss": 3.5745,
	"step": 13414
	},
	{
	"epoch": 353.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.016923904418945,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 13414
	},
	{
	"epoch": 354.0,
	"learning_rate": 2.9199999999999997e-07,
	"loss": 3.576,
	"step": 13452
	},
	{
	"epoch": 354.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.0161919593811035,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.506,
	"eval_steps_per_second": 1.627,
	"step": 13452
	},
	{
	"epoch": 355.0,
	"learning_rate": 2.9e-07,
	"loss": 3.5723,
	"step": 13490
	},
	{
	"epoch": 355.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.012264728546143,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 13490
	},
	{
	"epoch": 356.0,
	"learning_rate": 2.88e-07,
	"loss": 3.5669,
	"step": 13528
	},
	{
	"epoch": 356.0,
	"eval_accuracy": 0.4195992179863148,
	"eval_loss": 4.014427185058594,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 1.627,
	"step": 13528
	},
	{
	"epoch": 357.0,
	"learning_rate": 2.8599999999999994e-07,
	"loss": 3.5721,
	"step": 13566
	},
	{
	"epoch": 357.0,
	"eval_accuracy": 0.41886608015640275,
	"eval_loss": 4.0136189460754395,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 13566
	},
	{
	"epoch": 358.0,
	"learning_rate": 2.8399999999999995e-07,
	"loss": 3.5725,
	"step": 13604
	},
	{
	"epoch": 358.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.01244592666626,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 13604
	},
	{
	"epoch": 359.0,
	"learning_rate": 2.8199999999999996e-07,
	"loss": 3.5627,
	"step": 13642
	},
	{
	"epoch": 359.0,
	"eval_accuracy": 0.4195992179863148,
	"eval_loss": 4.012938976287842,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 13642
	},
	{
	"epoch": 360.0,
	"learning_rate": 2.8e-07,
	"loss": 3.5632,
	"step": 13680
	},
	{
	"epoch": 360.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.012718677520752,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.632,
	"step": 13680
	},
	{
	"epoch": 361.0,
	"learning_rate": 2.7800000000000003e-07,
	"loss": 3.5641,
	"step": 13718
	},
	{
	"epoch": 361.0,
	"eval_accuracy": 0.4195992179863148,
	"eval_loss": 4.01040506362915,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.631,
	"step": 13718
	},
	{
	"epoch": 362.0,
	"learning_rate": 2.7600000000000004e-07,
	"loss": 3.5636,
	"step": 13756
	},
	{
	"epoch": 362.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.010016918182373,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 13756
	},
	{
	"epoch": 363.0,
	"learning_rate": 2.74e-07,
	"loss": 3.5566,
	"step": 13794
	},
	{
	"epoch": 363.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.01265811920166,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.506,
	"eval_steps_per_second": 1.627,
	"step": 13794
	},
	{
	"epoch": 364.0,
	"learning_rate": 2.72e-07,
	"loss": 3.5556,
	"step": 13832
	},
	{
	"epoch": 364.0,
	"eval_accuracy": 0.4198435972629521,
	"eval_loss": 4.013090133666992,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.627,
	"step": 13832
	},
	{
	"epoch": 365.0,
	"learning_rate": 2.7e-07,
	"loss": 3.5606,
	"step": 13870
	},
	{
	"epoch": 365.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.01081657409668,
	"eval_runtime": 0.6265,
	"eval_samples_per_second": 6.385,
	"eval_steps_per_second": 1.596,
	"step": 13870
	},
	{
	"epoch": 366.0,
	"learning_rate": 2.68e-07,
	"loss": 3.5573,
	"step": 13908
	},
	{
	"epoch": 366.0,
	"eval_accuracy": 0.4195992179863148,
	"eval_loss": 4.009543418884277,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.628,
	"step": 13908
	},
	{
	"epoch": 367.0,
	"learning_rate": 2.66e-07,
	"loss": 3.5603,
	"step": 13946
	},
	{
	"epoch": 367.0,
	"eval_accuracy": 0.4191104594330401,
	"eval_loss": 4.007948875427246,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 13946
	},
	{
	"epoch": 368.0,
	"learning_rate": 2.64e-07,
	"loss": 3.5552,
	"step": 13984
	},
	{
	"epoch": 368.0,
	"eval_accuracy": 0.4191104594330401,
	"eval_loss": 4.007278919219971,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 13984
	},
	{
	"epoch": 369.0,
	"learning_rate": 2.62e-07,
	"loss": 3.5594,
	"step": 14022
	},
	{
	"epoch": 369.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.007977485656738,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 14022
	},
	{
	"epoch": 370.0,
	"learning_rate": 2.6e-07,
	"loss": 3.5557,
	"step": 14060
	},
	{
	"epoch": 370.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.006712913513184,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 14060
	},
	{
	"epoch": 371.0,
	"learning_rate": 2.58e-07,
	"loss": 3.5523,
	"step": 14098
	},
	{
	"epoch": 371.0,
	"eval_accuracy": 0.4195992179863148,
	"eval_loss": 4.006473541259766,
	"eval_runtime": 0.615,
	"eval_samples_per_second": 6.504,
	"eval_steps_per_second": 1.626,
	"step": 14098
	},
	{
	"epoch": 372.0,
	"learning_rate": 2.56e-07,
	"loss": 3.5516,
	"step": 14136
	},
	{
	"epoch": 372.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.007019519805908,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 14136
	},
	{
	"epoch": 373.0,
	"learning_rate": 2.5399999999999997e-07,
	"loss": 3.5466,
	"step": 14174
	},
	{
	"epoch": 373.0,
	"eval_accuracy": 0.4195992179863148,
	"eval_loss": 4.007321834564209,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 14174
	},
	{
	"epoch": 374.0,
	"learning_rate": 2.52e-07,
	"loss": 3.5474,
	"step": 14212
	},
	{
	"epoch": 374.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.004045486450195,
	"eval_runtime": 0.6268,
	"eval_samples_per_second": 6.381,
	"eval_steps_per_second": 1.595,
	"step": 14212
	},
	{
	"epoch": 375.0,
	"learning_rate": 2.5e-07,
	"loss": 3.5481,
	"step": 14250
	},
	{
	"epoch": 375.0,
	"eval_accuracy": 0.4195992179863148,
	"eval_loss": 4.003184795379639,
	"eval_runtime": 0.6149,
	"eval_samples_per_second": 6.505,
	"eval_steps_per_second": 1.626,
	"step": 14250
	},
	{
	"epoch": 376.0,
	"learning_rate": 2.48e-07,
	"loss": 3.5496,
	"step": 14288
	},
	{
	"epoch": 376.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.00510311126709,
	"eval_runtime": 0.6153,
	"eval_samples_per_second": 6.501,
	"eval_steps_per_second": 1.625,
	"step": 14288
	},
	{
	"epoch": 377.0,
	"learning_rate": 2.46e-07,
	"loss": 3.5489,
	"step": 14326
	},
	{
	"epoch": 377.0,
	"eval_accuracy": 0.41935483870967744,
	"eval_loss": 4.003530502319336,
	"eval_runtime": 0.6149,
	"eval_samples_per_second": 6.505,
	"eval_steps_per_second": 1.626,
	"step": 14326
	},
	{
	"epoch": 378.0,
	"learning_rate": 2.4399999999999996e-07,
	"loss": 3.5439,
	"step": 14364
	},
	{
	"epoch": 378.0,
	"eval_accuracy": 0.4198435972629521,
	"eval_loss": 4.0032219886779785,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 1.627,
	"step": 14364
	},
	{
	"epoch": 379.0,
	"learning_rate": 2.4199999999999997e-07,
	"loss": 3.5464,
	"step": 14402
	},
	{
	"epoch": 379.0,
	"eval_accuracy": 0.42057673509286414,
	"eval_loss": 4.002893924713135,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 14402
	},
	{
	"epoch": 380.0,
	"learning_rate": 2.4e-07,
	"loss": 3.5455,
	"step": 14440
	},
	{
	"epoch": 380.0,
	"eval_accuracy": 0.4198435972629521,
	"eval_loss": 4.003747463226318,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 14440
	},
	{
	"epoch": 381.0,
	"learning_rate": 2.38e-07,
	"loss": 3.5439,
	"step": 14478
	},
	{
	"epoch": 381.0,
	"eval_accuracy": 0.42057673509286414,
	"eval_loss": 4.002392292022705,
	"eval_runtime": 0.6152,
	"eval_samples_per_second": 6.502,
	"eval_steps_per_second": 1.626,
	"step": 14478
	},
	{
	"epoch": 382.0,
	"learning_rate": 2.3599999999999997e-07,
	"loss": 3.542,
	"step": 14516
	},
	{
	"epoch": 382.0,
	"eval_accuracy": 0.4203323558162268,
	"eval_loss": 4.001096725463867,
	"eval_runtime": 0.6126,
	"eval_samples_per_second": 6.529,
	"eval_steps_per_second": 1.632,
	"step": 14516
	},
	{
	"epoch": 383.0,
	"learning_rate": 2.34e-07,
	"loss": 3.5366,
	"step": 14554
	},
	{
	"epoch": 383.0,
	"eval_accuracy": 0.4203323558162268,
	"eval_loss": 4.001129150390625,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 14554
	},
	{
	"epoch": 384.0,
	"learning_rate": 2.32e-07,
	"loss": 3.5368,
	"step": 14592
	},
	{
	"epoch": 384.0,
	"eval_accuracy": 0.42057673509286414,
	"eval_loss": 4.001524448394775,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 14592
	},
	{
	"epoch": 385.0,
	"learning_rate": 2.3e-07,
	"loss": 3.5382,
	"step": 14630
	},
	{
	"epoch": 385.0,
	"eval_accuracy": 0.4210654936461388,
	"eval_loss": 4.0017523765563965,
	"eval_runtime": 0.6151,
	"eval_samples_per_second": 6.503,
	"eval_steps_per_second": 1.626,
	"step": 14630
	},
	{
	"epoch": 386.0,
	"learning_rate": 2.28e-07,
	"loss": 3.5358,
	"step": 14668
	},
	{
	"epoch": 386.0,
	"eval_accuracy": 0.42008797653958946,
	"eval_loss": 4.000154495239258,
	"eval_runtime": 0.6297,
	"eval_samples_per_second": 6.352,
	"eval_steps_per_second": 1.588,
	"step": 14668
	},
	{
	"epoch": 387.0,
	"learning_rate": 2.2599999999999999e-07,
	"loss": 3.5324,
	"step": 14706
	},
	{
	"epoch": 387.0,
	"eval_accuracy": 0.4198435972629521,
	"eval_loss": 3.9989571571350098,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 14706
	},
	{
	"epoch": 388.0,
	"learning_rate": 2.24e-07,
	"loss": 3.5378,
	"step": 14744
	},
	{
	"epoch": 388.0,
	"eval_accuracy": 0.42057673509286414,
	"eval_loss": 4.000235080718994,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 1.627,
	"step": 14744
	},
	{
	"epoch": 389.0,
	"learning_rate": 2.22e-07,
	"loss": 3.5334,
	"step": 14782
	},
	{
	"epoch": 389.0,
	"eval_accuracy": 0.4208211143695015,
	"eval_loss": 3.9985251426696777,
	"eval_runtime": 0.6145,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.627,
	"step": 14782
	},
	{
	"epoch": 390.0,
	"learning_rate": 2.1999999999999998e-07,
	"loss": 3.5349,
	"step": 14820
	},
	{
	"epoch": 390.0,
	"eval_accuracy": 0.4210654936461388,
	"eval_loss": 3.998689651489258,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 14820
	},
	{
	"epoch": 391.0,
	"learning_rate": 2.18e-07,
	"loss": 3.5378,
	"step": 14858
	},
	{
	"epoch": 391.0,
	"eval_accuracy": 0.4210654936461388,
	"eval_loss": 3.9983861446380615,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 14858
	},
	{
	"epoch": 392.0,
	"learning_rate": 2.1599999999999998e-07,
	"loss": 3.5304,
	"step": 14896
	},
	{
	"epoch": 392.0,
	"eval_accuracy": 0.42057673509286414,
	"eval_loss": 3.9976606369018555,
	"eval_runtime": 0.6239,
	"eval_samples_per_second": 6.411,
	"eval_steps_per_second": 1.603,
	"step": 14896
	},
	{
	"epoch": 393.0,
	"learning_rate": 2.1399999999999998e-07,
	"loss": 3.5241,
	"step": 14934
	},
	{
	"epoch": 393.0,
	"eval_accuracy": 0.42130987292277616,
	"eval_loss": 3.9984891414642334,
	"eval_runtime": 0.6127,
	"eval_samples_per_second": 6.528,
	"eval_steps_per_second": 1.632,
	"step": 14934
	},
	{
	"epoch": 394.0,
	"learning_rate": 2.12e-07,
	"loss": 3.527,
	"step": 14972
	},
	{
	"epoch": 394.0,
	"eval_accuracy": 0.4210654936461388,
	"eval_loss": 3.9997339248657227,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.506,
	"eval_steps_per_second": 1.627,
	"step": 14972
	},
	{
	"epoch": 395.0,
	"learning_rate": 2.0999999999999997e-07,
	"loss": 3.5261,
	"step": 15010
	},
	{
	"epoch": 395.0,
	"eval_accuracy": 0.4210654936461388,
	"eval_loss": 3.9985299110412598,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 15010
	},
	{
	"epoch": 396.0,
	"learning_rate": 2.0799999999999998e-07,
	"loss": 3.5233,
	"step": 15048
	},
	{
	"epoch": 396.0,
	"eval_accuracy": 0.4215542521994135,
	"eval_loss": 3.9982762336730957,
	"eval_runtime": 0.6145,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.627,
	"step": 15048
	},
	{
	"epoch": 397.0,
	"learning_rate": 2.06e-07,
	"loss": 3.5279,
	"step": 15086
	},
	{
	"epoch": 397.0,
	"eval_accuracy": 0.42130987292277616,
	"eval_loss": 3.9965884685516357,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 15086
	},
	{
	"epoch": 398.0,
	"learning_rate": 2.0399999999999997e-07,
	"loss": 3.5276,
	"step": 15124
	},
	{
	"epoch": 398.0,
	"eval_accuracy": 0.42130987292277616,
	"eval_loss": 3.995763063430786,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 15124
	},
	{
	"epoch": 399.0,
	"learning_rate": 2.02e-07,
	"loss": 3.5214,
	"step": 15162
	},
	{
	"epoch": 399.0,
	"eval_accuracy": 0.42130987292277616,
	"eval_loss": 3.9957404136657715,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 15162
	},
	{
	"epoch": 400.0,
	"learning_rate": 2e-07,
	"loss": 3.5222,
	"step": 15200
	},
	{
	"epoch": 400.0,
	"eval_accuracy": 0.4210654936461388,
	"eval_loss": 3.995762586593628,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 15200
	},
	{
	"epoch": 401.0,
	"learning_rate": 1.98e-07,
	"loss": 3.5163,
	"step": 15238
	},
	{
	"epoch": 401.0,
	"eval_accuracy": 0.42130987292277616,
	"eval_loss": 3.9957165718078613,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.509,
	"eval_steps_per_second": 1.627,
	"step": 15238
	},
	{
	"epoch": 402.0,
	"learning_rate": 1.96e-07,
	"loss": 3.5208,
	"step": 15276
	},
	{
	"epoch": 402.0,
	"eval_accuracy": 0.42179863147605084,
	"eval_loss": 3.995258092880249,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 15276
	},
	{
	"epoch": 403.0,
	"learning_rate": 1.94e-07,
	"loss": 3.5168,
	"step": 15314
	},
	{
	"epoch": 403.0,
	"eval_accuracy": 0.42179863147605084,
	"eval_loss": 3.994943380355835,
	"eval_runtime": 0.616,
	"eval_samples_per_second": 6.494,
	"eval_steps_per_second": 1.623,
	"step": 15314
	},
	{
	"epoch": 404.0,
	"learning_rate": 1.92e-07,
	"loss": 3.5242,
	"step": 15352
	},
	{
	"epoch": 404.0,
	"eval_accuracy": 0.4215542521994135,
	"eval_loss": 3.994105577468872,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.63,
	"step": 15352
	},
	{
	"epoch": 405.0,
	"learning_rate": 1.8999999999999998e-07,
	"loss": 3.5205,
	"step": 15390
	},
	{
	"epoch": 405.0,
	"eval_accuracy": 0.42130987292277616,
	"eval_loss": 3.993699789047241,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 15390
	},
	{
	"epoch": 406.0,
	"learning_rate": 1.88e-07,
	"loss": 3.5158,
	"step": 15428
	},
	{
	"epoch": 406.0,
	"eval_accuracy": 0.42179863147605084,
	"eval_loss": 3.9949395656585693,
	"eval_runtime": 0.6145,
	"eval_samples_per_second": 6.509,
	"eval_steps_per_second": 1.627,
	"step": 15428
	},
	{
	"epoch": 407.0,
	"learning_rate": 1.86e-07,
	"loss": 3.517,
	"step": 15466
	},
	{
	"epoch": 407.0,
	"eval_accuracy": 0.42130987292277616,
	"eval_loss": 3.9939072132110596,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 1.627,
	"step": 15466
	},
	{
	"epoch": 408.0,
	"learning_rate": 1.8399999999999998e-07,
	"loss": 3.519,
	"step": 15504
	},
	{
	"epoch": 408.0,
	"eval_accuracy": 0.4215542521994135,
	"eval_loss": 3.9944329261779785,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 15504
	},
	{
	"epoch": 409.0,
	"learning_rate": 1.82e-07,
	"loss": 3.5164,
	"step": 15542
	},
	{
	"epoch": 409.0,
	"eval_accuracy": 0.42130987292277616,
	"eval_loss": 3.9929213523864746,
	"eval_runtime": 0.6175,
	"eval_samples_per_second": 6.478,
	"eval_steps_per_second": 1.619,
	"step": 15542
	},
	{
	"epoch": 410.0,
	"learning_rate": 1.8e-07,
	"loss": 3.5133,
	"step": 15580
	},
	{
	"epoch": 410.0,
	"eval_accuracy": 0.4210654936461388,
	"eval_loss": 3.9925248622894287,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 15580
	},
	{
	"epoch": 411.0,
	"learning_rate": 1.7799999999999998e-07,
	"loss": 3.5199,
	"step": 15618
	},
	{
	"epoch": 411.0,
	"eval_accuracy": 0.4210654936461388,
	"eval_loss": 3.9905953407287598,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 15618
	},
	{
	"epoch": 412.0,
	"learning_rate": 1.76e-07,
	"loss": 3.5117,
	"step": 15656
	},
	{
	"epoch": 412.0,
	"eval_accuracy": 0.4215542521994135,
	"eval_loss": 3.9919614791870117,
	"eval_runtime": 0.6189,
	"eval_samples_per_second": 6.463,
	"eval_steps_per_second": 1.616,
	"step": 15656
	},
	{
	"epoch": 413.0,
	"learning_rate": 1.7399999999999997e-07,
	"loss": 3.5151,
	"step": 15694
	},
	{
	"epoch": 413.0,
	"eval_accuracy": 0.42179863147605084,
	"eval_loss": 3.9906229972839355,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.628,
	"step": 15694
	},
	{
	"epoch": 414.0,
	"learning_rate": 1.7199999999999998e-07,
	"loss": 3.5093,
	"step": 15732
	},
	{
	"epoch": 414.0,
	"eval_accuracy": 0.42179863147605084,
	"eval_loss": 3.9914052486419678,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 15732
	},
	{
	"epoch": 415.0,
	"learning_rate": 1.7000000000000001e-07,
	"loss": 3.512,
	"step": 15770
	},
	{
	"epoch": 415.0,
	"eval_accuracy": 0.4215542521994135,
	"eval_loss": 3.9908926486968994,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 15770
	},
	{
	"epoch": 416.0,
	"learning_rate": 1.68e-07,
	"loss": 3.5076,
	"step": 15808
	},
	{
	"epoch": 416.0,
	"eval_accuracy": 0.42179863147605084,
	"eval_loss": 3.9911580085754395,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 15808
	},
	{
	"epoch": 417.0,
	"learning_rate": 1.66e-07,
	"loss": 3.5059,
	"step": 15846
	},
	{
	"epoch": 417.0,
	"eval_accuracy": 0.4220430107526882,
	"eval_loss": 3.9916296005249023,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 15846
	},
	{
	"epoch": 418.0,
	"learning_rate": 1.64e-07,
	"loss": 3.5096,
	"step": 15884
	},
	{
	"epoch": 418.0,
	"eval_accuracy": 0.42130987292277616,
	"eval_loss": 3.990671396255493,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 15884
	},
	{
	"epoch": 419.0,
	"learning_rate": 1.62e-07,
	"loss": 3.5038,
	"step": 15922
	},
	{
	"epoch": 419.0,
	"eval_accuracy": 0.42130987292277616,
	"eval_loss": 3.9902234077453613,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 15922
	},
	{
	"epoch": 420.0,
	"learning_rate": 1.6e-07,
	"loss": 3.5089,
	"step": 15960
	},
	{
	"epoch": 420.0,
	"eval_accuracy": 0.4215542521994135,
	"eval_loss": 3.989504814147949,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 15960
	},
	{
	"epoch": 421.0,
	"learning_rate": 1.5799999999999999e-07,
	"loss": 3.5091,
	"step": 15998
	},
	{
	"epoch": 421.0,
	"eval_accuracy": 0.42130987292277616,
	"eval_loss": 3.9893267154693604,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 15998
	},
	{
	"epoch": 422.0,
	"learning_rate": 1.56e-07,
	"loss": 3.5101,
	"step": 16036
	},
	{
	"epoch": 422.0,
	"eval_accuracy": 0.42179863147605084,
	"eval_loss": 3.9890270233154297,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 16036
	},
	{
	"epoch": 423.0,
	"learning_rate": 1.54e-07,
	"loss": 3.5061,
	"step": 16074
	},
	{
	"epoch": 423.0,
	"eval_accuracy": 0.4220430107526882,
	"eval_loss": 3.990032434463501,
	"eval_runtime": 0.6149,
	"eval_samples_per_second": 6.505,
	"eval_steps_per_second": 1.626,
	"step": 16074
	},
	{
	"epoch": 424.0,
	"learning_rate": 1.5199999999999998e-07,
	"loss": 3.5048,
	"step": 16112
	},
	{
	"epoch": 424.0,
	"eval_accuracy": 0.42179863147605084,
	"eval_loss": 3.9888319969177246,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 16112
	},
	{
	"epoch": 425.0,
	"learning_rate": 1.5e-07,
	"loss": 3.501,
	"step": 16150
	},
	{
	"epoch": 425.0,
	"eval_accuracy": 0.42179863147605084,
	"eval_loss": 3.9880638122558594,
	"eval_runtime": 0.6256,
	"eval_samples_per_second": 6.394,
	"eval_steps_per_second": 1.599,
	"step": 16150
	},
	{
	"epoch": 426.0,
	"learning_rate": 1.4799999999999998e-07,
	"loss": 3.5067,
	"step": 16188
	},
	{
	"epoch": 426.0,
	"eval_accuracy": 0.42179863147605084,
	"eval_loss": 3.987746000289917,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.631,
	"step": 16188
	},
	{
	"epoch": 427.0,
	"learning_rate": 1.4599999999999998e-07,
	"loss": 3.5037,
	"step": 16226
	},
	{
	"epoch": 427.0,
	"eval_accuracy": 0.4222873900293255,
	"eval_loss": 3.986624002456665,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 16226
	},
	{
	"epoch": 428.0,
	"learning_rate": 1.44e-07,
	"loss": 3.5052,
	"step": 16264
	},
	{
	"epoch": 428.0,
	"eval_accuracy": 0.4222873900293255,
	"eval_loss": 3.985456943511963,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.525,
	"eval_steps_per_second": 1.631,
	"step": 16264
	},
	{
	"epoch": 429.0,
	"learning_rate": 1.4199999999999997e-07,
	"loss": 3.5049,
	"step": 16302
	},
	{
	"epoch": 429.0,
	"eval_accuracy": 0.4222873900293255,
	"eval_loss": 3.9861788749694824,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 16302
	},
	{
	"epoch": 430.0,
	"learning_rate": 1.4e-07,
	"loss": 3.5017,
	"step": 16340
	},
	{
	"epoch": 430.0,
	"eval_accuracy": 0.4227761485826002,
	"eval_loss": 3.987318992614746,
	"eval_runtime": 0.6129,
	"eval_samples_per_second": 6.527,
	"eval_steps_per_second": 1.632,
	"step": 16340
	},
	{
	"epoch": 431.0,
	"learning_rate": 1.3800000000000002e-07,
	"loss": 3.5038,
	"step": 16378
	},
	{
	"epoch": 431.0,
	"eval_accuracy": 0.4227761485826002,
	"eval_loss": 3.9872233867645264,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 16378
	},
	{
	"epoch": 432.0,
	"learning_rate": 1.36e-07,
	"loss": 3.5072,
	"step": 16416
	},
	{
	"epoch": 432.0,
	"eval_accuracy": 0.42253176930596287,
	"eval_loss": 3.985309362411499,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 16416
	},
	{
	"epoch": 433.0,
	"learning_rate": 1.34e-07,
	"loss": 3.5009,
	"step": 16454
	},
	{
	"epoch": 433.0,
	"eval_accuracy": 0.42253176930596287,
	"eval_loss": 3.9849016666412354,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.628,
	"step": 16454
	},
	{
	"epoch": 434.0,
	"learning_rate": 1.32e-07,
	"loss": 3.5023,
	"step": 16492
	},
	{
	"epoch": 434.0,
	"eval_accuracy": 0.4227761485826002,
	"eval_loss": 3.9856038093566895,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 16492
	},
	{
	"epoch": 435.0,
	"learning_rate": 1.3e-07,
	"loss": 3.4982,
	"step": 16530
	},
	{
	"epoch": 435.0,
	"eval_accuracy": 0.4227761485826002,
	"eval_loss": 3.9859957695007324,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 16530
	},
	{
	"epoch": 436.0,
	"learning_rate": 1.28e-07,
	"loss": 3.4927,
	"step": 16568
	},
	{
	"epoch": 436.0,
	"eval_accuracy": 0.42302052785923755,
	"eval_loss": 3.9858930110931396,
	"eval_runtime": 0.6145,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.627,
	"step": 16568
	},
	{
	"epoch": 437.0,
	"learning_rate": 1.26e-07,
	"loss": 3.4959,
	"step": 16606
	},
	{
	"epoch": 437.0,
	"eval_accuracy": 0.42302052785923755,
	"eval_loss": 3.986088514328003,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 16606
	},
	{
	"epoch": 438.0,
	"learning_rate": 1.24e-07,
	"loss": 3.4984,
	"step": 16644
	},
	{
	"epoch": 438.0,
	"eval_accuracy": 0.4227761485826002,
	"eval_loss": 3.9860339164733887,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 16644
	},
	{
	"epoch": 439.0,
	"learning_rate": 1.2199999999999998e-07,
	"loss": 3.5005,
	"step": 16682
	},
	{
	"epoch": 439.0,
	"eval_accuracy": 0.42302052785923755,
	"eval_loss": 3.9846749305725098,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.629,
	"step": 16682
	},
	{
	"epoch": 440.0,
	"learning_rate": 1.2e-07,
	"loss": 3.4947,
	"step": 16720
	},
	{
	"epoch": 440.0,
	"eval_accuracy": 0.42302052785923755,
	"eval_loss": 3.9845149517059326,
	"eval_runtime": 0.6202,
	"eval_samples_per_second": 6.45,
	"eval_steps_per_second": 1.612,
	"step": 16720
	},
	{
	"epoch": 441.0,
	"learning_rate": 1.1799999999999998e-07,
	"loss": 3.4964,
	"step": 16758
	},
	{
	"epoch": 441.0,
	"eval_accuracy": 0.42302052785923755,
	"eval_loss": 3.9842681884765625,
	"eval_runtime": 0.6165,
	"eval_samples_per_second": 6.488,
	"eval_steps_per_second": 1.622,
	"step": 16758
	},
	{
	"epoch": 442.0,
	"learning_rate": 1.16e-07,
	"loss": 3.4955,
	"step": 16796
	},
	{
	"epoch": 442.0,
	"eval_accuracy": 0.4232649071358749,
	"eval_loss": 3.9844443798065186,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 16796
	},
	{
	"epoch": 443.0,
	"learning_rate": 1.14e-07,
	"loss": 3.4923,
	"step": 16834
	},
	{
	"epoch": 443.0,
	"eval_accuracy": 0.4232649071358749,
	"eval_loss": 3.9843380451202393,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 16834
	},
	{
	"epoch": 444.0,
	"learning_rate": 1.12e-07,
	"loss": 3.4993,
	"step": 16872
	},
	{
	"epoch": 444.0,
	"eval_accuracy": 0.42302052785923755,
	"eval_loss": 3.9841716289520264,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.63,
	"step": 16872
	},
	{
	"epoch": 445.0,
	"learning_rate": 1.0999999999999999e-07,
	"loss": 3.4889,
	"step": 16910
	},
	{
	"epoch": 445.0,
	"eval_accuracy": 0.4232649071358749,
	"eval_loss": 3.9846384525299072,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 16910
	},
	{
	"epoch": 446.0,
	"learning_rate": 1.0799999999999999e-07,
	"loss": 3.487,
	"step": 16948
	},
	{
	"epoch": 446.0,
	"eval_accuracy": 0.4232649071358749,
	"eval_loss": 3.98549485206604,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 16948
	},
	{
	"epoch": 447.0,
	"learning_rate": 1.06e-07,
	"loss": 3.4965,
	"step": 16986
	},
	{
	"epoch": 447.0,
	"eval_accuracy": 0.4232649071358749,
	"eval_loss": 3.985051155090332,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 16986
	},
	{
	"epoch": 448.0,
	"learning_rate": 1.0399999999999999e-07,
	"loss": 3.4873,
	"step": 17024
	},
	{
	"epoch": 448.0,
	"eval_accuracy": 0.4232649071358749,
	"eval_loss": 3.9851512908935547,
	"eval_runtime": 0.6232,
	"eval_samples_per_second": 6.419,
	"eval_steps_per_second": 1.605,
	"step": 17024
	},
	{
	"epoch": 449.0,
	"learning_rate": 1.0199999999999999e-07,
	"loss": 3.4936,
	"step": 17062
	},
	{
	"epoch": 449.0,
	"eval_accuracy": 0.4232649071358749,
	"eval_loss": 3.984747886657715,
	"eval_runtime": 0.6132,
	"eval_samples_per_second": 6.523,
	"eval_steps_per_second": 1.631,
	"step": 17062
	},
	{
	"epoch": 450.0,
	"learning_rate": 1e-07,
	"loss": 3.494,
	"step": 17100
	},
	{
	"epoch": 450.0,
	"eval_accuracy": 0.4232649071358749,
	"eval_loss": 3.984121084213257,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 17100
	},
	{
	"epoch": 451.0,
	"learning_rate": 9.8e-08,
	"loss": 3.4855,
	"step": 17138
	},
	{
	"epoch": 451.0,
	"eval_accuracy": 0.4232649071358749,
	"eval_loss": 3.9835801124572754,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 17138
	},
	{
	"epoch": 452.0,
	"learning_rate": 9.6e-08,
	"loss": 3.4898,
	"step": 17176
	},
	{
	"epoch": 452.0,
	"eval_accuracy": 0.42302052785923755,
	"eval_loss": 3.983008623123169,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.63,
	"step": 17176
	},
	{
	"epoch": 453.0,
	"learning_rate": 9.4e-08,
	"loss": 3.4866,
	"step": 17214
	},
	{
	"epoch": 453.0,
	"eval_accuracy": 0.4232649071358749,
	"eval_loss": 3.9831044673919678,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 17214
	},
	{
	"epoch": 454.0,
	"learning_rate": 9.199999999999999e-08,
	"loss": 3.4866,
	"step": 17252
	},
	{
	"epoch": 454.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.983053207397461,
	"eval_runtime": 0.6145,
	"eval_samples_per_second": 6.509,
	"eval_steps_per_second": 1.627,
	"step": 17252
	},
	{
	"epoch": 455.0,
	"learning_rate": 9e-08,
	"loss": 3.4886,
	"step": 17290
	},
	{
	"epoch": 455.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.9836299419403076,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 17290
	},
	{
	"epoch": 456.0,
	"learning_rate": 8.8e-08,
	"loss": 3.4874,
	"step": 17328
	},
	{
	"epoch": 456.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.983760118484497,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.506,
	"eval_steps_per_second": 1.627,
	"step": 17328
	},
	{
	"epoch": 457.0,
	"learning_rate": 8.599999999999999e-08,
	"loss": 3.486,
	"step": 17366
	},
	{
	"epoch": 457.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.983823776245117,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.63,
	"step": 17366
	},
	{
	"epoch": 458.0,
	"learning_rate": 8.4e-08,
	"loss": 3.4869,
	"step": 17404
	},
	{
	"epoch": 458.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.983541488647461,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 17404
	},
	{
	"epoch": 459.0,
	"learning_rate": 8.2e-08,
	"loss": 3.4845,
	"step": 17442
	},
	{
	"epoch": 459.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.9833405017852783,
	"eval_runtime": 0.6146,
	"eval_samples_per_second": 6.508,
	"eval_steps_per_second": 1.627,
	"step": 17442
	},
	{
	"epoch": 460.0,
	"learning_rate": 8e-08,
	"loss": 3.4849,
	"step": 17480
	},
	{
	"epoch": 460.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.9825379848480225,
	"eval_runtime": 0.6139,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 17480
	},
	{
	"epoch": 461.0,
	"learning_rate": 7.8e-08,
	"loss": 3.4841,
	"step": 17518
	},
	{
	"epoch": 461.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.981783628463745,
	"eval_runtime": 0.6149,
	"eval_samples_per_second": 6.505,
	"eval_steps_per_second": 1.626,
	"step": 17518
	},
	{
	"epoch": 462.0,
	"learning_rate": 7.599999999999999e-08,
	"loss": 3.4924,
	"step": 17556
	},
	{
	"epoch": 462.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.9813952445983887,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.512,
	"eval_steps_per_second": 1.628,
	"step": 17556
	},
	{
	"epoch": 463.0,
	"learning_rate": 7.399999999999999e-08,
	"loss": 3.571,
	"step": 17594
	},
	{
	"epoch": 463.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.981501579284668,
	"eval_runtime": 0.6142,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 17594
	},
	{
	"epoch": 464.0,
	"learning_rate": 7.2e-08,
	"loss": 3.4811,
	"step": 17632
	},
	{
	"epoch": 464.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.981280565261841,
	"eval_runtime": 0.6153,
	"eval_samples_per_second": 6.501,
	"eval_steps_per_second": 1.625,
	"step": 17632
	},
	{
	"epoch": 465.0,
	"learning_rate": 7e-08,
	"loss": 3.4851,
	"step": 17670
	},
	{
	"epoch": 465.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.9809834957122803,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 17670
	},
	{
	"epoch": 466.0,
	"learning_rate": 6.8e-08,
	"loss": 3.4776,
	"step": 17708
	},
	{
	"epoch": 466.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.9812755584716797,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.628,
	"step": 17708
	},
	{
	"epoch": 467.0,
	"learning_rate": 6.6e-08,
	"loss": 3.4849,
	"step": 17746
	},
	{
	"epoch": 467.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.981030225753784,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.514,
	"eval_steps_per_second": 1.629,
	"step": 17746
	},
	{
	"epoch": 468.0,
	"learning_rate": 6.4e-08,
	"loss": 3.4766,
	"step": 17784
	},
	{
	"epoch": 468.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.9813342094421387,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 17784
	},
	{
	"epoch": 469.0,
	"learning_rate": 6.2e-08,
	"loss": 3.4791,
	"step": 17822
	},
	{
	"epoch": 469.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.981501817703247,
	"eval_runtime": 0.6135,
	"eval_samples_per_second": 6.52,
	"eval_steps_per_second": 1.63,
	"step": 17822
	},
	{
	"epoch": 470.0,
	"learning_rate": 6e-08,
	"loss": 3.4814,
	"step": 17860
	},
	{
	"epoch": 470.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.98130464553833,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.506,
	"eval_steps_per_second": 1.627,
	"step": 17860
	},
	{
	"epoch": 471.0,
	"learning_rate": 5.8e-08,
	"loss": 3.4861,
	"step": 17898
	},
	{
	"epoch": 471.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.980907917022705,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.63,
	"step": 17898
	},
	{
	"epoch": 472.0,
	"learning_rate": 5.6e-08,
	"loss": 3.4861,
	"step": 17936
	},
	{
	"epoch": 472.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.9806013107299805,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.631,
	"step": 17936
	},
	{
	"epoch": 473.0,
	"learning_rate": 5.3999999999999994e-08,
	"loss": 3.4825,
	"step": 17974
	},
	{
	"epoch": 473.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.9808974266052246,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 17974
	},
	{
	"epoch": 474.0,
	"learning_rate": 5.1999999999999996e-08,
	"loss": 3.4758,
	"step": 18012
	},
	{
	"epoch": 474.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.98111629486084,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 18012
	},
	{
	"epoch": 475.0,
	"learning_rate": 5e-08,
	"loss": 3.4811,
	"step": 18050
	},
	{
	"epoch": 475.0,
	"eval_accuracy": 0.42350928641251223,
	"eval_loss": 3.980703592300415,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.629,
	"step": 18050
	},
	{
	"epoch": 476.0,
	"learning_rate": 4.8e-08,
	"loss": 3.4831,
	"step": 18088
	},
	{
	"epoch": 476.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.980832815170288,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 18088
	},
	{
	"epoch": 477.0,
	"learning_rate": 4.5999999999999995e-08,
	"loss": 3.4837,
	"step": 18126
	},
	{
	"epoch": 477.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.980334758758545,
	"eval_runtime": 0.613,
	"eval_samples_per_second": 6.526,
	"eval_steps_per_second": 1.631,
	"step": 18126
	},
	{
	"epoch": 478.0,
	"learning_rate": 4.4e-08,
	"loss": 3.4843,
	"step": 18164
	},
	{
	"epoch": 478.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.9802615642547607,
	"eval_runtime": 0.6137,
	"eval_samples_per_second": 6.518,
	"eval_steps_per_second": 1.63,
	"step": 18164
	},
	{
	"epoch": 479.0,
	"learning_rate": 4.2e-08,
	"loss": 3.4825,
	"step": 18202
	},
	{
	"epoch": 479.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.9801557064056396,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.628,
	"step": 18202
	},
	{
	"epoch": 480.0,
	"learning_rate": 4e-08,
	"loss": 3.4807,
	"step": 18240
	},
	{
	"epoch": 480.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.979966163635254,
	"eval_runtime": 0.6189,
	"eval_samples_per_second": 6.463,
	"eval_steps_per_second": 1.616,
	"step": 18240
	},
	{
	"epoch": 481.0,
	"learning_rate": 3.7999999999999996e-08,
	"loss": 3.4808,
	"step": 18278
	},
	{
	"epoch": 481.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.9796664714813232,
	"eval_runtime": 0.618,
	"eval_samples_per_second": 6.473,
	"eval_steps_per_second": 1.618,
	"step": 18278
	},
	{
	"epoch": 482.0,
	"learning_rate": 3.6e-08,
	"loss": 3.4805,
	"step": 18316
	},
	{
	"epoch": 482.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.9796643257141113,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 18316
	},
	{
	"epoch": 483.0,
	"learning_rate": 3.4e-08,
	"loss": 3.4818,
	"step": 18354
	},
	{
	"epoch": 483.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.979565382003784,
	"eval_runtime": 0.6125,
	"eval_samples_per_second": 6.531,
	"eval_steps_per_second": 1.633,
	"step": 18354
	},
	{
	"epoch": 484.0,
	"learning_rate": 3.2e-08,
	"loss": 3.4821,
	"step": 18392
	},
	{
	"epoch": 484.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.9793689250946045,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.517,
	"eval_steps_per_second": 1.629,
	"step": 18392
	},
	{
	"epoch": 485.0,
	"learning_rate": 3e-08,
	"loss": 3.4802,
	"step": 18430
	},
	{
	"epoch": 485.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.979444980621338,
	"eval_runtime": 0.6144,
	"eval_samples_per_second": 6.51,
	"eval_steps_per_second": 1.628,
	"step": 18430
	},
	{
	"epoch": 486.0,
	"learning_rate": 2.8e-08,
	"loss": 3.4805,
	"step": 18468
	},
	{
	"epoch": 486.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.979588508605957,
	"eval_runtime": 0.6134,
	"eval_samples_per_second": 6.521,
	"eval_steps_per_second": 1.63,
	"step": 18468
	},
	{
	"epoch": 487.0,
	"learning_rate": 2.5999999999999998e-08,
	"loss": 3.4831,
	"step": 18506
	},
	{
	"epoch": 487.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.9796085357666016,
	"eval_runtime": 0.6257,
	"eval_samples_per_second": 6.393,
	"eval_steps_per_second": 1.598,
	"step": 18506
	},
	{
	"epoch": 488.0,
	"learning_rate": 2.4e-08,
	"loss": 3.4846,
	"step": 18544
	},
	{
	"epoch": 488.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.97976016998291,
	"eval_runtime": 0.6147,
	"eval_samples_per_second": 6.507,
	"eval_steps_per_second": 1.627,
	"step": 18544
	},
	{
	"epoch": 489.0,
	"learning_rate": 2.2e-08,
	"loss": 3.4824,
	"step": 18582
	},
	{
	"epoch": 489.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.9797983169555664,
	"eval_runtime": 0.6255,
	"eval_samples_per_second": 6.395,
	"eval_steps_per_second": 1.599,
	"step": 18582
	},
	{
	"epoch": 490.0,
	"learning_rate": 2e-08,
	"loss": 3.4807,
	"step": 18620
	},
	{
	"epoch": 490.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.9798743724823,
	"eval_runtime": 0.6145,
	"eval_samples_per_second": 6.509,
	"eval_steps_per_second": 1.627,
	"step": 18620
	},
	{
	"epoch": 491.0,
	"learning_rate": 1.8e-08,
	"loss": 3.4809,
	"step": 18658
	},
	{
	"epoch": 491.0,
	"eval_accuracy": 0.4239980449657869,
	"eval_loss": 3.9799368381500244,
	"eval_runtime": 0.6143,
	"eval_samples_per_second": 6.511,
	"eval_steps_per_second": 1.628,
	"step": 18658
	},
	{
	"epoch": 492.0,
	"learning_rate": 1.6e-08,
	"loss": 3.4801,
	"step": 18696
	},
	{
	"epoch": 492.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.9799206256866455,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 18696
	},
	{
	"epoch": 493.0,
	"learning_rate": 1.4e-08,
	"loss": 3.479,
	"step": 18734
	},
	{
	"epoch": 493.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.9799153804779053,
	"eval_runtime": 0.6136,
	"eval_samples_per_second": 6.519,
	"eval_steps_per_second": 1.63,
	"step": 18734
	},
	{
	"epoch": 494.0,
	"learning_rate": 1.2e-08,
	"loss": 3.48,
	"step": 18772
	},
	{
	"epoch": 494.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.9799201488494873,
	"eval_runtime": 0.6126,
	"eval_samples_per_second": 6.529,
	"eval_steps_per_second": 1.632,
	"step": 18772
	},
	{
	"epoch": 495.0,
	"learning_rate": 1e-08,
	"loss": 3.4828,
	"step": 18810
	},
	{
	"epoch": 495.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.9799094200134277,
	"eval_runtime": 0.6243,
	"eval_samples_per_second": 6.407,
	"eval_steps_per_second": 1.602,
	"step": 18810
	},
	{
	"epoch": 496.0,
	"learning_rate": 8e-09,
	"loss": 3.4812,
	"step": 18848
	},
	{
	"epoch": 496.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.979907512664795,
	"eval_runtime": 0.6138,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 1.629,
	"step": 18848
	},
	{
	"epoch": 497.0,
	"learning_rate": 6e-09,
	"loss": 3.4798,
	"step": 18886
	},
	{
	"epoch": 497.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.9798967838287354,
	"eval_runtime": 0.6148,
	"eval_samples_per_second": 6.506,
	"eval_steps_per_second": 1.626,
	"step": 18886
	},
	{
	"epoch": 498.0,
	"learning_rate": 4e-09,
	"loss": 3.4866,
	"step": 18924
	},
	{
	"epoch": 498.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.979888677597046,
	"eval_runtime": 0.614,
	"eval_samples_per_second": 6.515,
	"eval_steps_per_second": 1.629,
	"step": 18924
	},
	{
	"epoch": 499.0,
	"learning_rate": 2e-09,
	"loss": 3.4785,
	"step": 18962
	},
	{
	"epoch": 499.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.979886054992676,
	"eval_runtime": 0.6141,
	"eval_samples_per_second": 6.513,
	"eval_steps_per_second": 1.628,
	"step": 18962
	},
	{
	"epoch": 500.0,
	"learning_rate": 0.0,
	"loss": 3.4893,
	"step": 19000
	},
	{
	"epoch": 500.0,
	"eval_accuracy": 0.4237536656891496,
	"eval_loss": 3.979886293411255,
	"eval_runtime": 0.6133,
	"eval_samples_per_second": 6.522,
	"eval_steps_per_second": 1.63,
	"step": 19000
	},
	{
	"epoch": 500.0,
	"step": 19000,
	"total_flos": 8.26946617344e+16,
	"train_loss": 3.948820646587171,
	"train_runtime": 16522.6397,
	"train_samples_per_second": 1.15,
	"train_steps_per_second": 1.15
	}
	],
	"logging_steps": 500,
	"max_steps": 19000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 500,
	"save_steps": 500,
	"total_flos": 8.26946617344e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}