swiftformer-xs-dmae-va-U-80 / trainer_state.json

End of training

eeb99df verified 10 months ago

25.3 kB

	{
	"best_metric": 0.8256880733944955,
	"best_model_checkpoint": "swiftformer-xs-dmae-va-U-80/checkpoint-480",
	"epoch": 72.25806451612904,
	"eval_steps": 500,
	"global_step": 560,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.9,
	"eval_accuracy": 0.28440366972477066,
	"eval_loss": 1.3862813711166382,
	"eval_runtime": 0.4815,
	"eval_samples_per_second": 226.357,
	"eval_steps_per_second": 8.307,
	"step": 7
	},
	{
	"epoch": 1.29,
	"learning_rate": 8.92857142857143e-06,
	"loss": 1.4158,
	"step": 10
	},
	{
	"epoch": 1.94,
	"eval_accuracy": 0.3119266055045872,
	"eval_loss": 1.376009225845337,
	"eval_runtime": 0.4374,
	"eval_samples_per_second": 249.207,
	"eval_steps_per_second": 9.145,
	"step": 15
	},
	{
	"epoch": 2.58,
	"learning_rate": 1.785714285714286e-05,
	"loss": 1.3853,
	"step": 20
	},
	{
	"epoch": 2.97,
	"eval_accuracy": 0.3853211009174312,
	"eval_loss": 1.3548262119293213,
	"eval_runtime": 0.4385,
	"eval_samples_per_second": 248.6,
	"eval_steps_per_second": 9.123,
	"step": 23
	},
	{
	"epoch": 3.87,
	"learning_rate": 2.6785714285714288e-05,
	"loss": 1.3745,
	"step": 30
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.3394495412844037,
	"eval_loss": 1.3327373266220093,
	"eval_runtime": 0.4339,
	"eval_samples_per_second": 251.182,
	"eval_steps_per_second": 9.218,
	"step": 31
	},
	{
	"epoch": 4.9,
	"eval_accuracy": 0.42201834862385323,
	"eval_loss": 1.2938013076782227,
	"eval_runtime": 0.425,
	"eval_samples_per_second": 256.451,
	"eval_steps_per_second": 9.411,
	"step": 38
	},
	{
	"epoch": 5.16,
	"learning_rate": 3.571428571428572e-05,
	"loss": 1.3435,
	"step": 40
	},
	{
	"epoch": 5.94,
	"eval_accuracy": 0.46788990825688076,
	"eval_loss": 1.244996428489685,
	"eval_runtime": 0.4464,
	"eval_samples_per_second": 244.203,
	"eval_steps_per_second": 8.962,
	"step": 46
	},
	{
	"epoch": 6.45,
	"learning_rate": 4.464285714285715e-05,
	"loss": 1.2681,
	"step": 50
	},
	{
	"epoch": 6.97,
	"eval_accuracy": 0.5596330275229358,
	"eval_loss": 1.193323016166687,
	"eval_runtime": 0.4543,
	"eval_samples_per_second": 239.924,
	"eval_steps_per_second": 8.805,
	"step": 54
	},
	{
	"epoch": 7.74,
	"learning_rate": 4.960317460317461e-05,
	"loss": 1.1803,
	"step": 60
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.47706422018348627,
	"eval_loss": 1.1410021781921387,
	"eval_runtime": 0.5443,
	"eval_samples_per_second": 200.245,
	"eval_steps_per_second": 7.348,
	"step": 62
	},
	{
	"epoch": 8.9,
	"eval_accuracy": 0.5045871559633027,
	"eval_loss": 1.1014117002487183,
	"eval_runtime": 0.4243,
	"eval_samples_per_second": 256.877,
	"eval_steps_per_second": 9.427,
	"step": 69
	},
	{
	"epoch": 9.03,
	"learning_rate": 4.8611111111111115e-05,
	"loss": 1.1277,
	"step": 70
	},
	{
	"epoch": 9.94,
	"eval_accuracy": 0.5321100917431193,
	"eval_loss": 1.0785263776779175,
	"eval_runtime": 0.5813,
	"eval_samples_per_second": 187.522,
	"eval_steps_per_second": 6.882,
	"step": 77
	},
	{
	"epoch": 10.32,
	"learning_rate": 4.761904761904762e-05,
	"loss": 1.0674,
	"step": 80
	},
	{
	"epoch": 10.97,
	"eval_accuracy": 0.5596330275229358,
	"eval_loss": 1.0439504384994507,
	"eval_runtime": 0.877,
	"eval_samples_per_second": 124.292,
	"eval_steps_per_second": 4.561,
	"step": 85
	},
	{
	"epoch": 11.61,
	"learning_rate": 4.662698412698413e-05,
	"loss": 1.0353,
	"step": 90
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.5779816513761468,
	"eval_loss": 0.9961591362953186,
	"eval_runtime": 0.4276,
	"eval_samples_per_second": 254.912,
	"eval_steps_per_second": 9.355,
	"step": 93
	},
	{
	"epoch": 12.9,
	"learning_rate": 4.563492063492064e-05,
	"loss": 0.9859,
	"step": 100
	},
	{
	"epoch": 12.9,
	"eval_accuracy": 0.5871559633027523,
	"eval_loss": 0.9699747562408447,
	"eval_runtime": 0.488,
	"eval_samples_per_second": 223.356,
	"eval_steps_per_second": 8.197,
	"step": 100
	},
	{
	"epoch": 13.94,
	"eval_accuracy": 0.6422018348623854,
	"eval_loss": 0.9401906728744507,
	"eval_runtime": 0.426,
	"eval_samples_per_second": 255.868,
	"eval_steps_per_second": 9.39,
	"step": 108
	},
	{
	"epoch": 14.19,
	"learning_rate": 4.464285714285715e-05,
	"loss": 0.9397,
	"step": 110
	},
	{
	"epoch": 14.97,
	"eval_accuracy": 0.6238532110091743,
	"eval_loss": 0.9215461015701294,
	"eval_runtime": 0.595,
	"eval_samples_per_second": 183.202,
	"eval_steps_per_second": 6.723,
	"step": 116
	},
	{
	"epoch": 15.48,
	"learning_rate": 4.3650793650793655e-05,
	"loss": 0.8959,
	"step": 120
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.6605504587155964,
	"eval_loss": 0.8744844794273376,
	"eval_runtime": 0.4502,
	"eval_samples_per_second": 242.121,
	"eval_steps_per_second": 8.885,
	"step": 124
	},
	{
	"epoch": 16.77,
	"learning_rate": 4.265873015873016e-05,
	"loss": 0.8663,
	"step": 130
	},
	{
	"epoch": 16.9,
	"eval_accuracy": 0.6697247706422018,
	"eval_loss": 0.8560922145843506,
	"eval_runtime": 0.4537,
	"eval_samples_per_second": 240.261,
	"eval_steps_per_second": 8.817,
	"step": 131
	},
	{
	"epoch": 17.94,
	"eval_accuracy": 0.6788990825688074,
	"eval_loss": 0.8181523084640503,
	"eval_runtime": 0.4306,
	"eval_samples_per_second": 253.131,
	"eval_steps_per_second": 9.289,
	"step": 139
	},
	{
	"epoch": 18.06,
	"learning_rate": 4.166666666666667e-05,
	"loss": 0.8405,
	"step": 140
	},
	{
	"epoch": 18.97,
	"eval_accuracy": 0.6513761467889908,
	"eval_loss": 0.8167656660079956,
	"eval_runtime": 0.4512,
	"eval_samples_per_second": 241.596,
	"eval_steps_per_second": 8.866,
	"step": 147
	},
	{
	"epoch": 19.35,
	"learning_rate": 4.067460317460318e-05,
	"loss": 0.8093,
	"step": 150
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.6788990825688074,
	"eval_loss": 0.8038831949234009,
	"eval_runtime": 0.434,
	"eval_samples_per_second": 251.165,
	"eval_steps_per_second": 9.217,
	"step": 155
	},
	{
	"epoch": 20.65,
	"learning_rate": 3.968253968253968e-05,
	"loss": 0.7396,
	"step": 160
	},
	{
	"epoch": 20.9,
	"eval_accuracy": 0.7064220183486238,
	"eval_loss": 0.7477715015411377,
	"eval_runtime": 0.44,
	"eval_samples_per_second": 247.725,
	"eval_steps_per_second": 9.091,
	"step": 162
	},
	{
	"epoch": 21.94,
	"learning_rate": 3.8690476190476195e-05,
	"loss": 0.7588,
	"step": 170
	},
	{
	"epoch": 21.94,
	"eval_accuracy": 0.6972477064220184,
	"eval_loss": 0.7236711978912354,
	"eval_runtime": 0.6128,
	"eval_samples_per_second": 177.862,
	"eval_steps_per_second": 6.527,
	"step": 170
	},
	{
	"epoch": 22.97,
	"eval_accuracy": 0.7155963302752294,
	"eval_loss": 0.7030771374702454,
	"eval_runtime": 0.4488,
	"eval_samples_per_second": 242.893,
	"eval_steps_per_second": 8.913,
	"step": 178
	},
	{
	"epoch": 23.23,
	"learning_rate": 3.76984126984127e-05,
	"loss": 0.7189,
	"step": 180
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.6972477064220184,
	"eval_loss": 0.6955855488777161,
	"eval_runtime": 0.4384,
	"eval_samples_per_second": 248.655,
	"eval_steps_per_second": 9.125,
	"step": 186
	},
	{
	"epoch": 24.52,
	"learning_rate": 3.6706349206349205e-05,
	"loss": 0.7111,
	"step": 190
	},
	{
	"epoch": 24.9,
	"eval_accuracy": 0.7247706422018348,
	"eval_loss": 0.6749173998832703,
	"eval_runtime": 0.4278,
	"eval_samples_per_second": 254.789,
	"eval_steps_per_second": 9.35,
	"step": 193
	},
	{
	"epoch": 25.81,
	"learning_rate": 3.571428571428572e-05,
	"loss": 0.6577,
	"step": 200
	},
	{
	"epoch": 25.94,
	"eval_accuracy": 0.6972477064220184,
	"eval_loss": 0.6757855415344238,
	"eval_runtime": 0.433,
	"eval_samples_per_second": 251.741,
	"eval_steps_per_second": 9.238,
	"step": 201
	},
	{
	"epoch": 26.97,
	"eval_accuracy": 0.7339449541284404,
	"eval_loss": 0.6429359316825867,
	"eval_runtime": 0.6106,
	"eval_samples_per_second": 178.522,
	"eval_steps_per_second": 6.551,
	"step": 209
	},
	{
	"epoch": 27.1,
	"learning_rate": 3.472222222222222e-05,
	"loss": 0.6681,
	"step": 210
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.7064220183486238,
	"eval_loss": 0.6450981497764587,
	"eval_runtime": 0.4394,
	"eval_samples_per_second": 248.065,
	"eval_steps_per_second": 9.103,
	"step": 217
	},
	{
	"epoch": 28.39,
	"learning_rate": 3.3730158730158734e-05,
	"loss": 0.6238,
	"step": 220
	},
	{
	"epoch": 28.9,
	"eval_accuracy": 0.7339449541284404,
	"eval_loss": 0.6367726922035217,
	"eval_runtime": 0.61,
	"eval_samples_per_second": 178.699,
	"eval_steps_per_second": 6.558,
	"step": 224
	},
	{
	"epoch": 29.68,
	"learning_rate": 3.273809523809524e-05,
	"loss": 0.6136,
	"step": 230
	},
	{
	"epoch": 29.94,
	"eval_accuracy": 0.7706422018348624,
	"eval_loss": 0.6232722997665405,
	"eval_runtime": 0.4356,
	"eval_samples_per_second": 250.256,
	"eval_steps_per_second": 9.184,
	"step": 232
	},
	{
	"epoch": 30.97,
	"learning_rate": 3.1746031746031745e-05,
	"loss": 0.5934,
	"step": 240
	},
	{
	"epoch": 30.97,
	"eval_accuracy": 0.7706422018348624,
	"eval_loss": 0.6160764098167419,
	"eval_runtime": 0.4496,
	"eval_samples_per_second": 242.42,
	"eval_steps_per_second": 8.896,
	"step": 240
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.7431192660550459,
	"eval_loss": 0.626839816570282,
	"eval_runtime": 0.44,
	"eval_samples_per_second": 247.748,
	"eval_steps_per_second": 9.092,
	"step": 248
	},
	{
	"epoch": 32.26,
	"learning_rate": 3.075396825396826e-05,
	"loss": 0.5807,
	"step": 250
	},
	{
	"epoch": 32.9,
	"eval_accuracy": 0.7981651376146789,
	"eval_loss": 0.5879014730453491,
	"eval_runtime": 0.449,
	"eval_samples_per_second": 242.778,
	"eval_steps_per_second": 8.909,
	"step": 255
	},
	{
	"epoch": 33.55,
	"learning_rate": 2.9761904761904762e-05,
	"loss": 0.575,
	"step": 260
	},
	{
	"epoch": 33.94,
	"eval_accuracy": 0.7706422018348624,
	"eval_loss": 0.5772398710250854,
	"eval_runtime": 0.4322,
	"eval_samples_per_second": 252.185,
	"eval_steps_per_second": 9.254,
	"step": 263
	},
	{
	"epoch": 34.84,
	"learning_rate": 2.876984126984127e-05,
	"loss": 0.5409,
	"step": 270
	},
	{
	"epoch": 34.97,
	"eval_accuracy": 0.7798165137614679,
	"eval_loss": 0.5702607035636902,
	"eval_runtime": 0.4332,
	"eval_samples_per_second": 251.604,
	"eval_steps_per_second": 9.233,
	"step": 271
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.7889908256880734,
	"eval_loss": 0.5603441596031189,
	"eval_runtime": 0.6241,
	"eval_samples_per_second": 174.639,
	"eval_steps_per_second": 6.409,
	"step": 279
	},
	{
	"epoch": 36.13,
	"learning_rate": 2.777777777777778e-05,
	"loss": 0.553,
	"step": 280
	},
	{
	"epoch": 36.9,
	"eval_accuracy": 0.8073394495412844,
	"eval_loss": 0.5560410022735596,
	"eval_runtime": 0.4375,
	"eval_samples_per_second": 249.161,
	"eval_steps_per_second": 9.144,
	"step": 286
	},
	{
	"epoch": 37.42,
	"learning_rate": 2.6785714285714288e-05,
	"loss": 0.515,
	"step": 290
	},
	{
	"epoch": 37.94,
	"eval_accuracy": 0.7706422018348624,
	"eval_loss": 0.5639447569847107,
	"eval_runtime": 0.4367,
	"eval_samples_per_second": 249.625,
	"eval_steps_per_second": 9.161,
	"step": 294
	},
	{
	"epoch": 38.71,
	"learning_rate": 2.5793650793650796e-05,
	"loss": 0.5424,
	"step": 300
	},
	{
	"epoch": 38.97,
	"eval_accuracy": 0.7889908256880734,
	"eval_loss": 0.5483418107032776,
	"eval_runtime": 0.4272,
	"eval_samples_per_second": 255.167,
	"eval_steps_per_second": 9.364,
	"step": 302
	},
	{
	"epoch": 40.0,
	"learning_rate": 2.4801587301587305e-05,
	"loss": 0.5193,
	"step": 310
	},
	{
	"epoch": 40.0,
	"eval_accuracy": 0.7798165137614679,
	"eval_loss": 0.5505456924438477,
	"eval_runtime": 0.4357,
	"eval_samples_per_second": 250.151,
	"eval_steps_per_second": 9.18,
	"step": 310
	},
	{
	"epoch": 40.9,
	"eval_accuracy": 0.8073394495412844,
	"eval_loss": 0.5322768092155457,
	"eval_runtime": 0.438,
	"eval_samples_per_second": 248.859,
	"eval_steps_per_second": 9.132,
	"step": 317
	},
	{
	"epoch": 41.29,
	"learning_rate": 2.380952380952381e-05,
	"loss": 0.5123,
	"step": 320
	},
	{
	"epoch": 41.94,
	"eval_accuracy": 0.7981651376146789,
	"eval_loss": 0.5257070064544678,
	"eval_runtime": 0.4489,
	"eval_samples_per_second": 242.816,
	"eval_steps_per_second": 8.911,
	"step": 325
	},
	{
	"epoch": 42.58,
	"learning_rate": 2.281746031746032e-05,
	"loss": 0.4719,
	"step": 330
	},
	{
	"epoch": 42.97,
	"eval_accuracy": 0.7798165137614679,
	"eval_loss": 0.5269966125488281,
	"eval_runtime": 0.7214,
	"eval_samples_per_second": 151.1,
	"eval_steps_per_second": 5.545,
	"step": 333
	},
	{
	"epoch": 43.87,
	"learning_rate": 2.1825396825396827e-05,
	"loss": 0.4583,
	"step": 340
	},
	{
	"epoch": 44.0,
	"eval_accuracy": 0.7706422018348624,
	"eval_loss": 0.5304660201072693,
	"eval_runtime": 0.4302,
	"eval_samples_per_second": 253.364,
	"eval_steps_per_second": 9.298,
	"step": 341
	},
	{
	"epoch": 44.9,
	"eval_accuracy": 0.7798165137614679,
	"eval_loss": 0.5281646251678467,
	"eval_runtime": 0.6252,
	"eval_samples_per_second": 174.336,
	"eval_steps_per_second": 6.398,
	"step": 348
	},
	{
	"epoch": 45.16,
	"learning_rate": 2.0833333333333336e-05,
	"loss": 0.4568,
	"step": 350
	},
	{
	"epoch": 45.94,
	"eval_accuracy": 0.7889908256880734,
	"eval_loss": 0.5177940130233765,
	"eval_runtime": 0.4569,
	"eval_samples_per_second": 238.568,
	"eval_steps_per_second": 8.755,
	"step": 356
	},
	{
	"epoch": 46.45,
	"learning_rate": 1.984126984126984e-05,
	"loss": 0.4717,
	"step": 360
	},
	{
	"epoch": 46.97,
	"eval_accuracy": 0.7981651376146789,
	"eval_loss": 0.49453452229499817,
	"eval_runtime": 0.4248,
	"eval_samples_per_second": 256.572,
	"eval_steps_per_second": 9.415,
	"step": 364
	},
	{
	"epoch": 47.74,
	"learning_rate": 1.884920634920635e-05,
	"loss": 0.4587,
	"step": 370
	},
	{
	"epoch": 48.0,
	"eval_accuracy": 0.7981651376146789,
	"eval_loss": 0.4978266656398773,
	"eval_runtime": 0.4615,
	"eval_samples_per_second": 236.178,
	"eval_steps_per_second": 8.667,
	"step": 372
	},
	{
	"epoch": 48.9,
	"eval_accuracy": 0.7889908256880734,
	"eval_loss": 0.4887874722480774,
	"eval_runtime": 0.4558,
	"eval_samples_per_second": 239.119,
	"eval_steps_per_second": 8.775,
	"step": 379
	},
	{
	"epoch": 49.03,
	"learning_rate": 1.785714285714286e-05,
	"loss": 0.4314,
	"step": 380
	},
	{
	"epoch": 49.94,
	"eval_accuracy": 0.7981651376146789,
	"eval_loss": 0.48671984672546387,
	"eval_runtime": 0.4423,
	"eval_samples_per_second": 246.43,
	"eval_steps_per_second": 9.043,
	"step": 387
	},
	{
	"epoch": 50.32,
	"learning_rate": 1.6865079365079367e-05,
	"loss": 0.4389,
	"step": 390
	},
	{
	"epoch": 50.97,
	"eval_accuracy": 0.7889908256880734,
	"eval_loss": 0.4739398658275604,
	"eval_runtime": 0.4484,
	"eval_samples_per_second": 243.061,
	"eval_steps_per_second": 8.92,
	"step": 395
	},
	{
	"epoch": 51.61,
	"learning_rate": 1.5873015873015872e-05,
	"loss": 0.4115,
	"step": 400
	},
	{
	"epoch": 52.0,
	"eval_accuracy": 0.7981651376146789,
	"eval_loss": 0.4844360053539276,
	"eval_runtime": 0.6269,
	"eval_samples_per_second": 173.869,
	"eval_steps_per_second": 6.381,
	"step": 403
	},
	{
	"epoch": 52.9,
	"learning_rate": 1.4880952380952381e-05,
	"loss": 0.4323,
	"step": 410
	},
	{
	"epoch": 52.9,
	"eval_accuracy": 0.7981651376146789,
	"eval_loss": 0.4818795323371887,
	"eval_runtime": 0.4584,
	"eval_samples_per_second": 237.796,
	"eval_steps_per_second": 8.726,
	"step": 410
	},
	{
	"epoch": 53.94,
	"eval_accuracy": 0.7981651376146789,
	"eval_loss": 0.45617520809173584,
	"eval_runtime": 0.4517,
	"eval_samples_per_second": 241.332,
	"eval_steps_per_second": 8.856,
	"step": 418
	},
	{
	"epoch": 54.19,
	"learning_rate": 1.388888888888889e-05,
	"loss": 0.3855,
	"step": 420
	},
	{
	"epoch": 54.97,
	"eval_accuracy": 0.8073394495412844,
	"eval_loss": 0.4639626145362854,
	"eval_runtime": 0.4274,
	"eval_samples_per_second": 255.051,
	"eval_steps_per_second": 9.36,
	"step": 426
	},
	{
	"epoch": 55.48,
	"learning_rate": 1.2896825396825398e-05,
	"loss": 0.4113,
	"step": 430
	},
	{
	"epoch": 56.0,
	"eval_accuracy": 0.8165137614678899,
	"eval_loss": 0.44737786054611206,
	"eval_runtime": 0.4453,
	"eval_samples_per_second": 244.764,
	"eval_steps_per_second": 8.982,
	"step": 434
	},
	{
	"epoch": 56.77,
	"learning_rate": 1.1904761904761905e-05,
	"loss": 0.4282,
	"step": 440
	},
	{
	"epoch": 56.9,
	"eval_accuracy": 0.7981651376146789,
	"eval_loss": 0.45404085516929626,
	"eval_runtime": 0.4314,
	"eval_samples_per_second": 252.681,
	"eval_steps_per_second": 9.273,
	"step": 441
	},
	{
	"epoch": 57.94,
	"eval_accuracy": 0.8165137614678899,
	"eval_loss": 0.44497042894363403,
	"eval_runtime": 0.4614,
	"eval_samples_per_second": 236.26,
	"eval_steps_per_second": 8.67,
	"step": 449
	},
	{
	"epoch": 58.06,
	"learning_rate": 1.0912698412698414e-05,
	"loss": 0.4499,
	"step": 450
	},
	{
	"epoch": 58.97,
	"eval_accuracy": 0.8165137614678899,
	"eval_loss": 0.44970786571502686,
	"eval_runtime": 0.633,
	"eval_samples_per_second": 172.2,
	"eval_steps_per_second": 6.319,
	"step": 457
	},
	{
	"epoch": 59.35,
	"learning_rate": 9.92063492063492e-06,
	"loss": 0.4179,
	"step": 460
	},
	{
	"epoch": 60.0,
	"eval_accuracy": 0.8073394495412844,
	"eval_loss": 0.44003376364707947,
	"eval_runtime": 0.4509,
	"eval_samples_per_second": 241.755,
	"eval_steps_per_second": 8.872,
	"step": 465
	},
	{
	"epoch": 60.65,
	"learning_rate": 8.92857142857143e-06,
	"loss": 0.4213,
	"step": 470
	},
	{
	"epoch": 60.9,
	"eval_accuracy": 0.8073394495412844,
	"eval_loss": 0.4391891658306122,
	"eval_runtime": 0.4498,
	"eval_samples_per_second": 242.327,
	"eval_steps_per_second": 8.893,
	"step": 472
	},
	{
	"epoch": 61.94,
	"learning_rate": 7.936507936507936e-06,
	"loss": 0.4176,
	"step": 480
	},
	{
	"epoch": 61.94,
	"eval_accuracy": 0.8256880733944955,
	"eval_loss": 0.43245241045951843,
	"eval_runtime": 0.4412,
	"eval_samples_per_second": 247.039,
	"eval_steps_per_second": 9.066,
	"step": 480
	},
	{
	"epoch": 62.97,
	"eval_accuracy": 0.8165137614678899,
	"eval_loss": 0.42957109212875366,
	"eval_runtime": 0.4491,
	"eval_samples_per_second": 242.688,
	"eval_steps_per_second": 8.906,
	"step": 488
	},
	{
	"epoch": 63.23,
	"learning_rate": 6.944444444444445e-06,
	"loss": 0.4083,
	"step": 490
	},
	{
	"epoch": 64.0,
	"eval_accuracy": 0.8165137614678899,
	"eval_loss": 0.43877631425857544,
	"eval_runtime": 0.4459,
	"eval_samples_per_second": 244.475,
	"eval_steps_per_second": 8.972,
	"step": 496
	},
	{
	"epoch": 64.52,
	"learning_rate": 5.9523809523809525e-06,
	"loss": 0.3853,
	"step": 500
	},
	{
	"epoch": 64.9,
	"eval_accuracy": 0.8073394495412844,
	"eval_loss": 0.43918871879577637,
	"eval_runtime": 0.4466,
	"eval_samples_per_second": 244.06,
	"eval_steps_per_second": 8.956,
	"step": 503
	},
	{
	"epoch": 65.81,
	"learning_rate": 4.96031746031746e-06,
	"loss": 0.3647,
	"step": 510
	},
	{
	"epoch": 65.94,
	"eval_accuracy": 0.8073394495412844,
	"eval_loss": 0.4348970353603363,
	"eval_runtime": 0.6039,
	"eval_samples_per_second": 180.506,
	"eval_steps_per_second": 6.624,
	"step": 511
	},
	{
	"epoch": 66.97,
	"eval_accuracy": 0.8256880733944955,
	"eval_loss": 0.4343608319759369,
	"eval_runtime": 0.4394,
	"eval_samples_per_second": 248.071,
	"eval_steps_per_second": 9.104,
	"step": 519
	},
	{
	"epoch": 67.1,
	"learning_rate": 3.968253968253968e-06,
	"loss": 0.3927,
	"step": 520
	},
	{
	"epoch": 68.0,
	"eval_accuracy": 0.8073394495412844,
	"eval_loss": 0.43479177355766296,
	"eval_runtime": 0.4462,
	"eval_samples_per_second": 244.289,
	"eval_steps_per_second": 8.965,
	"step": 527
	},
	{
	"epoch": 68.39,
	"learning_rate": 2.9761904761904763e-06,
	"loss": 0.3833,
	"step": 530
	},
	{
	"epoch": 68.9,
	"eval_accuracy": 0.8073394495412844,
	"eval_loss": 0.4351903796195984,
	"eval_runtime": 0.4439,
	"eval_samples_per_second": 245.538,
	"eval_steps_per_second": 9.011,
	"step": 534
	},
	{
	"epoch": 69.68,
	"learning_rate": 1.984126984126984e-06,
	"loss": 0.3932,
	"step": 540
	},
	{
	"epoch": 69.94,
	"eval_accuracy": 0.8165137614678899,
	"eval_loss": 0.4294258952140808,
	"eval_runtime": 0.4336,
	"eval_samples_per_second": 251.361,
	"eval_steps_per_second": 9.224,
	"step": 542
	},
	{
	"epoch": 70.97,
	"learning_rate": 9.92063492063492e-07,
	"loss": 0.4085,
	"step": 550
	},
	{
	"epoch": 70.97,
	"eval_accuracy": 0.8073394495412844,
	"eval_loss": 0.42758503556251526,
	"eval_runtime": 0.4574,
	"eval_samples_per_second": 238.283,
	"eval_steps_per_second": 8.744,
	"step": 550
	},
	{
	"epoch": 72.0,
	"eval_accuracy": 0.8073394495412844,
	"eval_loss": 0.4231923222541809,
	"eval_runtime": 0.4385,
	"eval_samples_per_second": 248.573,
	"eval_steps_per_second": 9.122,
	"step": 558
	},
	{
	"epoch": 72.26,
	"learning_rate": 0.0,
	"loss": 0.4029,
	"step": 560
	},
	{
	"epoch": 72.26,
	"eval_accuracy": 0.8165137614678899,
	"eval_loss": 0.435944139957428,
	"eval_runtime": 0.466,
	"eval_samples_per_second": 233.911,
	"eval_steps_per_second": 8.584,
	"step": 560
	},
	{
	"epoch": 72.26,
	"step": 560,
	"total_flos": 1.937282408715387e+17,
	"train_loss": 0.6618133915322167,
	"train_runtime": 514.9079,
	"train_samples_per_second": 151.95,
	"train_steps_per_second": 1.088
	}
	],
	"logging_steps": 10,
	"max_steps": 560,
	"num_train_epochs": 80,
	"save_steps": 500,
	"total_flos": 1.937282408715387e+17,
	"trial_name": null,
	"trial_params": null
	}