newsSum / checkpoint-8000 /trainer_state.json

initial

1bf7d4a verified 8 months ago

153 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 438.35616438356163,
	"eval_steps": 500,
	"global_step": 8000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.99,
	"eval_gen_len": 14.6545,
	"eval_loss": 21.487245559692383,
	"eval_rouge1": 0.0812,
	"eval_rouge2": 0.0183,
	"eval_rougeL": 0.0668,
	"eval_rougeLsum": 0.0663,
	"eval_runtime": 5.8972,
	"eval_samples_per_second": 18.653,
	"eval_steps_per_second": 3.222,
	"step": 18
	},
	{
	"epoch": 1.97,
	"eval_gen_len": 14.5091,
	"eval_loss": 21.332395553588867,
	"eval_rouge1": 0.0808,
	"eval_rouge2": 0.0191,
	"eval_rougeL": 0.0657,
	"eval_rougeLsum": 0.0652,
	"eval_runtime": 5.8919,
	"eval_samples_per_second": 18.67,
	"eval_steps_per_second": 3.225,
	"step": 36
	},
	{
	"epoch": 2.96,
	"eval_gen_len": 14.0727,
	"eval_loss": 21.108753204345703,
	"eval_rouge1": 0.0819,
	"eval_rouge2": 0.0203,
	"eval_rougeL": 0.0671,
	"eval_rougeLsum": 0.0665,
	"eval_runtime": 5.8908,
	"eval_samples_per_second": 18.673,
	"eval_steps_per_second": 3.225,
	"step": 54
	},
	{
	"epoch": 4.0,
	"eval_gen_len": 14.0727,
	"eval_loss": 20.799583435058594,
	"eval_rouge1": 0.0824,
	"eval_rouge2": 0.0206,
	"eval_rougeL": 0.0665,
	"eval_rougeLsum": 0.0659,
	"eval_runtime": 5.8851,
	"eval_samples_per_second": 18.691,
	"eval_steps_per_second": 3.228,
	"step": 73
	},
	{
	"epoch": 4.99,
	"eval_gen_len": 14.2182,
	"eval_loss": 20.4609317779541,
	"eval_rouge1": 0.0814,
	"eval_rouge2": 0.0212,
	"eval_rougeL": 0.0669,
	"eval_rougeLsum": 0.0664,
	"eval_runtime": 5.8894,
	"eval_samples_per_second": 18.677,
	"eval_steps_per_second": 3.226,
	"step": 91
	},
	{
	"epoch": 5.97,
	"eval_gen_len": 14.2182,
	"eval_loss": 20.145660400390625,
	"eval_rouge1": 0.0847,
	"eval_rouge2": 0.0208,
	"eval_rougeL": 0.067,
	"eval_rougeLsum": 0.0666,
	"eval_runtime": 5.8963,
	"eval_samples_per_second": 18.656,
	"eval_steps_per_second": 3.222,
	"step": 109
	},
	{
	"epoch": 6.96,
	"eval_gen_len": 14.0727,
	"eval_loss": 19.89990234375,
	"eval_rouge1": 0.084,
	"eval_rouge2": 0.0184,
	"eval_rougeL": 0.0662,
	"eval_rougeLsum": 0.0657,
	"eval_runtime": 5.8939,
	"eval_samples_per_second": 18.663,
	"eval_steps_per_second": 3.224,
	"step": 127
	},
	{
	"epoch": 8.0,
	"eval_gen_len": 14.1455,
	"eval_loss": 19.661205291748047,
	"eval_rouge1": 0.0882,
	"eval_rouge2": 0.0219,
	"eval_rougeL": 0.0703,
	"eval_rougeLsum": 0.0699,
	"eval_runtime": 5.9009,
	"eval_samples_per_second": 18.641,
	"eval_steps_per_second": 3.22,
	"step": 146
	},
	{
	"epoch": 8.99,
	"eval_gen_len": 14.9273,
	"eval_loss": 19.420059204101562,
	"eval_rouge1": 0.0958,
	"eval_rouge2": 0.0243,
	"eval_rougeL": 0.0775,
	"eval_rougeLsum": 0.0772,
	"eval_runtime": 5.8976,
	"eval_samples_per_second": 18.652,
	"eval_steps_per_second": 3.222,
	"step": 164
	},
	{
	"epoch": 9.97,
	"eval_gen_len": 14.9273,
	"eval_loss": 19.1621036529541,
	"eval_rouge1": 0.0915,
	"eval_rouge2": 0.0256,
	"eval_rougeL": 0.0769,
	"eval_rougeLsum": 0.0763,
	"eval_runtime": 5.937,
	"eval_samples_per_second": 18.528,
	"eval_steps_per_second": 3.2,
	"step": 182
	},
	{
	"epoch": 10.96,
	"eval_gen_len": 14.7818,
	"eval_loss": 18.873458862304688,
	"eval_rouge1": 0.0968,
	"eval_rouge2": 0.0284,
	"eval_rougeL": 0.0786,
	"eval_rougeLsum": 0.0786,
	"eval_runtime": 5.8869,
	"eval_samples_per_second": 18.686,
	"eval_steps_per_second": 3.228,
	"step": 200
	},
	{
	"epoch": 12.0,
	"eval_gen_len": 14.6364,
	"eval_loss": 18.52387237548828,
	"eval_rouge1": 0.0901,
	"eval_rouge2": 0.0262,
	"eval_rougeL": 0.0738,
	"eval_rougeLsum": 0.0741,
	"eval_runtime": 5.9384,
	"eval_samples_per_second": 18.524,
	"eval_steps_per_second": 3.2,
	"step": 219
	},
	{
	"epoch": 12.99,
	"eval_gen_len": 14.4909,
	"eval_loss": 18.13555145263672,
	"eval_rouge1": 0.0886,
	"eval_rouge2": 0.0263,
	"eval_rougeL": 0.0714,
	"eval_rougeLsum": 0.0717,
	"eval_runtime": 5.9432,
	"eval_samples_per_second": 18.509,
	"eval_steps_per_second": 3.197,
	"step": 237
	},
	{
	"epoch": 13.97,
	"eval_gen_len": 14.4909,
	"eval_loss": 17.66015625,
	"eval_rouge1": 0.0915,
	"eval_rouge2": 0.03,
	"eval_rougeL": 0.0712,
	"eval_rougeLsum": 0.0713,
	"eval_runtime": 5.9005,
	"eval_samples_per_second": 18.643,
	"eval_steps_per_second": 3.22,
	"step": 255
	},
	{
	"epoch": 14.96,
	"eval_gen_len": 15.2182,
	"eval_loss": 17.107126235961914,
	"eval_rouge1": 0.0933,
	"eval_rouge2": 0.0295,
	"eval_rougeL": 0.0733,
	"eval_rougeLsum": 0.0734,
	"eval_runtime": 5.9126,
	"eval_samples_per_second": 18.604,
	"eval_steps_per_second": 3.213,
	"step": 273
	},
	{
	"epoch": 16.0,
	"eval_gen_len": 15.2182,
	"eval_loss": 16.4465389251709,
	"eval_rouge1": 0.0792,
	"eval_rouge2": 0.02,
	"eval_rougeL": 0.0637,
	"eval_rougeLsum": 0.0639,
	"eval_runtime": 5.893,
	"eval_samples_per_second": 18.666,
	"eval_steps_per_second": 3.224,
	"step": 292
	},
	{
	"epoch": 16.99,
	"eval_gen_len": 14.7818,
	"eval_loss": 15.7671480178833,
	"eval_rouge1": 0.069,
	"eval_rouge2": 0.0176,
	"eval_rougeL": 0.0534,
	"eval_rougeLsum": 0.0537,
	"eval_runtime": 5.8934,
	"eval_samples_per_second": 18.665,
	"eval_steps_per_second": 3.224,
	"step": 310
	},
	{
	"epoch": 17.97,
	"eval_gen_len": 13.1545,
	"eval_loss": 14.998970031738281,
	"eval_rouge1": 0.0566,
	"eval_rouge2": 0.0124,
	"eval_rougeL": 0.0449,
	"eval_rougeLsum": 0.0451,
	"eval_runtime": 5.8867,
	"eval_samples_per_second": 18.686,
	"eval_steps_per_second": 3.228,
	"step": 328
	},
	{
	"epoch": 18.96,
	"eval_gen_len": 11.1091,
	"eval_loss": 14.060928344726562,
	"eval_rouge1": 0.0498,
	"eval_rouge2": 0.0171,
	"eval_rougeL": 0.0368,
	"eval_rougeLsum": 0.0367,
	"eval_runtime": 5.6651,
	"eval_samples_per_second": 19.417,
	"eval_steps_per_second": 3.354,
	"step": 346
	},
	{
	"epoch": 20.0,
	"eval_gen_len": 8.7273,
	"eval_loss": 13.174235343933105,
	"eval_rouge1": 0.0205,
	"eval_rouge2": 0.0044,
	"eval_rougeL": 0.0165,
	"eval_rougeLsum": 0.0164,
	"eval_runtime": 5.7609,
	"eval_samples_per_second": 19.094,
	"eval_steps_per_second": 3.298,
	"step": 365
	},
	{
	"epoch": 20.99,
	"eval_gen_len": 6.8636,
	"eval_loss": 12.371671676635742,
	"eval_rouge1": 0.0139,
	"eval_rouge2": 0.0028,
	"eval_rougeL": 0.0124,
	"eval_rougeLsum": 0.0123,
	"eval_runtime": 5.2236,
	"eval_samples_per_second": 21.058,
	"eval_steps_per_second": 3.637,
	"step": 383
	},
	{
	"epoch": 21.97,
	"eval_gen_len": 6.8727,
	"eval_loss": 11.577987670898438,
	"eval_rouge1": 0.0053,
	"eval_rouge2": 0.0005,
	"eval_rougeL": 0.0047,
	"eval_rougeLsum": 0.0048,
	"eval_runtime": 5.7472,
	"eval_samples_per_second": 19.14,
	"eval_steps_per_second": 3.306,
	"step": 401
	},
	{
	"epoch": 22.96,
	"eval_gen_len": 7.3818,
	"eval_loss": 10.78397274017334,
	"eval_rouge1": 0.0021,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0021,
	"eval_rougeLsum": 0.0021,
	"eval_runtime": 5.7621,
	"eval_samples_per_second": 19.09,
	"eval_steps_per_second": 3.297,
	"step": 419
	},
	{
	"epoch": 24.0,
	"eval_gen_len": 6.8273,
	"eval_loss": 9.95447826385498,
	"eval_rouge1": 0.0009,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0008,
	"eval_rougeLsum": 0.0008,
	"eval_runtime": 5.4394,
	"eval_samples_per_second": 20.223,
	"eval_steps_per_second": 3.493,
	"step": 438
	},
	{
	"epoch": 24.99,
	"eval_gen_len": 7.0909,
	"eval_loss": 9.179459571838379,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.4343,
	"eval_samples_per_second": 20.242,
	"eval_steps_per_second": 3.496,
	"step": 456
	},
	{
	"epoch": 25.97,
	"eval_gen_len": 8.1,
	"eval_loss": 8.421984672546387,
	"eval_rouge1": 0.0005,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0005,
	"eval_rougeLsum": 0.0005,
	"eval_runtime": 5.7592,
	"eval_samples_per_second": 19.1,
	"eval_steps_per_second": 3.299,
	"step": 474
	},
	{
	"epoch": 26.96,
	"eval_gen_len": 8.2636,
	"eval_loss": 7.694218158721924,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8511,
	"eval_samples_per_second": 18.8,
	"eval_steps_per_second": 3.247,
	"step": 492
	},
	{
	"epoch": 27.4,
	"grad_norm": 5.483399868011475,
	"learning_rate": 1.8893333333333334e-05,
	"loss": 16.3522,
	"step": 500
	},
	{
	"epoch": 28.0,
	"eval_gen_len": 11.3818,
	"eval_loss": 6.939992427825928,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.887,
	"eval_samples_per_second": 18.685,
	"eval_steps_per_second": 3.227,
	"step": 511
	},
	{
	"epoch": 28.99,
	"eval_gen_len": 12.6273,
	"eval_loss": 6.2829270362854,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.905,
	"eval_samples_per_second": 18.628,
	"eval_steps_per_second": 3.218,
	"step": 529
	},
	{
	"epoch": 29.97,
	"eval_gen_len": 15.3091,
	"eval_loss": 5.604813575744629,
	"eval_rouge1": 0.0002,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0002,
	"eval_rougeLsum": 0.0002,
	"eval_runtime": 5.8732,
	"eval_samples_per_second": 18.729,
	"eval_steps_per_second": 3.235,
	"step": 547
	},
	{
	"epoch": 30.96,
	"eval_gen_len": 17.3182,
	"eval_loss": 4.977880954742432,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9021,
	"eval_samples_per_second": 18.637,
	"eval_steps_per_second": 3.219,
	"step": 565
	},
	{
	"epoch": 32.0,
	"eval_gen_len": 18.3273,
	"eval_loss": 4.37266731262207,
	"eval_rouge1": 0.0002,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0002,
	"eval_rougeLsum": 0.0002,
	"eval_runtime": 5.9191,
	"eval_samples_per_second": 18.584,
	"eval_steps_per_second": 3.21,
	"step": 584
	},
	{
	"epoch": 32.99,
	"eval_gen_len": 18.7091,
	"eval_loss": 3.8430399894714355,
	"eval_rouge1": 0.0002,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0002,
	"eval_rougeLsum": 0.0002,
	"eval_runtime": 5.8717,
	"eval_samples_per_second": 18.734,
	"eval_steps_per_second": 3.236,
	"step": 602
	},
	{
	"epoch": 33.97,
	"eval_gen_len": 18.8545,
	"eval_loss": 3.400059938430786,
	"eval_rouge1": 0.0005,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0005,
	"eval_rougeLsum": 0.0005,
	"eval_runtime": 5.9022,
	"eval_samples_per_second": 18.637,
	"eval_steps_per_second": 3.219,
	"step": 620
	},
	{
	"epoch": 34.96,
	"eval_gen_len": 19.0,
	"eval_loss": 3.0639424324035645,
	"eval_rouge1": 0.0003,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0003,
	"eval_rougeLsum": 0.0003,
	"eval_runtime": 5.8543,
	"eval_samples_per_second": 18.79,
	"eval_steps_per_second": 3.245,
	"step": 638
	},
	{
	"epoch": 36.0,
	"eval_gen_len": 19.0,
	"eval_loss": 2.758321762084961,
	"eval_rouge1": 0.0003,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0003,
	"eval_rougeLsum": 0.0003,
	"eval_runtime": 5.9112,
	"eval_samples_per_second": 18.609,
	"eval_steps_per_second": 3.214,
	"step": 657
	},
	{
	"epoch": 36.99,
	"eval_gen_len": 18.4364,
	"eval_loss": 2.5352485179901123,
	"eval_rouge1": 0.0003,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0003,
	"eval_rougeLsum": 0.0003,
	"eval_runtime": 5.8968,
	"eval_samples_per_second": 18.654,
	"eval_steps_per_second": 3.222,
	"step": 675
	},
	{
	"epoch": 37.97,
	"eval_gen_len": 14.8909,
	"eval_loss": 2.3651320934295654,
	"eval_rouge1": 0.0005,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0005,
	"eval_rougeLsum": 0.0005,
	"eval_runtime": 5.8625,
	"eval_samples_per_second": 18.763,
	"eval_steps_per_second": 3.241,
	"step": 693
	},
	{
	"epoch": 38.96,
	"eval_gen_len": 10.8273,
	"eval_loss": 2.230059862136841,
	"eval_rouge1": 0.0014,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0014,
	"eval_rougeLsum": 0.0014,
	"eval_runtime": 5.852,
	"eval_samples_per_second": 18.797,
	"eval_steps_per_second": 3.247,
	"step": 711
	},
	{
	"epoch": 40.0,
	"eval_gen_len": 7.9545,
	"eval_loss": 2.111604928970337,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8625,
	"eval_samples_per_second": 18.763,
	"eval_steps_per_second": 3.241,
	"step": 730
	},
	{
	"epoch": 40.99,
	"eval_gen_len": 6.8364,
	"eval_loss": 2.019117832183838,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8494,
	"eval_samples_per_second": 18.805,
	"eval_steps_per_second": 3.248,
	"step": 748
	},
	{
	"epoch": 41.97,
	"eval_gen_len": 6.1727,
	"eval_loss": 1.950454831123352,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8618,
	"eval_samples_per_second": 18.765,
	"eval_steps_per_second": 3.241,
	"step": 766
	},
	{
	"epoch": 42.96,
	"eval_gen_len": 5.6,
	"eval_loss": 1.9009199142456055,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8848,
	"eval_samples_per_second": 18.692,
	"eval_steps_per_second": 3.229,
	"step": 784
	},
	{
	"epoch": 44.0,
	"eval_gen_len": 5.4455,
	"eval_loss": 1.8568826913833618,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8517,
	"eval_samples_per_second": 18.798,
	"eval_steps_per_second": 3.247,
	"step": 803
	},
	{
	"epoch": 44.99,
	"eval_gen_len": 5.1909,
	"eval_loss": 1.8185267448425293,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8682,
	"eval_samples_per_second": 18.745,
	"eval_steps_per_second": 3.238,
	"step": 821
	},
	{
	"epoch": 45.97,
	"eval_gen_len": 5.1182,
	"eval_loss": 1.7847113609313965,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8488,
	"eval_samples_per_second": 18.807,
	"eval_steps_per_second": 3.249,
	"step": 839
	},
	{
	"epoch": 46.96,
	"eval_gen_len": 4.9455,
	"eval_loss": 1.7547551393508911,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8518,
	"eval_samples_per_second": 18.798,
	"eval_steps_per_second": 3.247,
	"step": 857
	},
	{
	"epoch": 48.0,
	"eval_gen_len": 4.9455,
	"eval_loss": 1.7266695499420166,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8585,
	"eval_samples_per_second": 18.776,
	"eval_steps_per_second": 3.243,
	"step": 876
	},
	{
	"epoch": 48.99,
	"eval_gen_len": 4.7455,
	"eval_loss": 1.7055079936981201,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8511,
	"eval_samples_per_second": 18.8,
	"eval_steps_per_second": 3.247,
	"step": 894
	},
	{
	"epoch": 49.97,
	"eval_gen_len": 4.4727,
	"eval_loss": 1.6864752769470215,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.848,
	"eval_samples_per_second": 18.81,
	"eval_steps_per_second": 3.249,
	"step": 912
	},
	{
	"epoch": 50.96,
	"eval_gen_len": 4.4,
	"eval_loss": 1.6679636240005493,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8942,
	"eval_samples_per_second": 18.662,
	"eval_steps_per_second": 3.223,
	"step": 930
	},
	{
	"epoch": 52.0,
	"eval_gen_len": 4.8273,
	"eval_loss": 1.6500035524368286,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8572,
	"eval_samples_per_second": 18.78,
	"eval_steps_per_second": 3.244,
	"step": 949
	},
	{
	"epoch": 52.99,
	"eval_gen_len": 5.4273,
	"eval_loss": 1.6347858905792236,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8874,
	"eval_samples_per_second": 18.684,
	"eval_steps_per_second": 3.227,
	"step": 967
	},
	{
	"epoch": 53.97,
	"eval_gen_len": 5.4727,
	"eval_loss": 1.620485782623291,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8561,
	"eval_samples_per_second": 18.784,
	"eval_steps_per_second": 3.244,
	"step": 985
	},
	{
	"epoch": 54.79,
	"grad_norm": 3.8756470680236816,
	"learning_rate": 1.7786666666666667e-05,
	"loss": 3.4786,
	"step": 1000
	},
	{
	"epoch": 54.96,
	"eval_gen_len": 4.9909,
	"eval_loss": 1.6101189851760864,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9013,
	"eval_samples_per_second": 18.64,
	"eval_steps_per_second": 3.22,
	"step": 1003
	},
	{
	"epoch": 56.0,
	"eval_gen_len": 4.9727,
	"eval_loss": 1.5964934825897217,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8515,
	"eval_samples_per_second": 18.799,
	"eval_steps_per_second": 3.247,
	"step": 1022
	},
	{
	"epoch": 56.99,
	"eval_gen_len": 5.3,
	"eval_loss": 1.583103060722351,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8488,
	"eval_samples_per_second": 18.807,
	"eval_steps_per_second": 3.249,
	"step": 1040
	},
	{
	"epoch": 57.97,
	"eval_gen_len": 5.2273,
	"eval_loss": 1.5738121271133423,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8912,
	"eval_samples_per_second": 18.672,
	"eval_steps_per_second": 3.225,
	"step": 1058
	},
	{
	"epoch": 58.96,
	"eval_gen_len": 5.5273,
	"eval_loss": 1.5626448392868042,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8527,
	"eval_samples_per_second": 18.795,
	"eval_steps_per_second": 3.246,
	"step": 1076
	},
	{
	"epoch": 60.0,
	"eval_gen_len": 6.3273,
	"eval_loss": 1.5520726442337036,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8887,
	"eval_samples_per_second": 18.68,
	"eval_steps_per_second": 3.227,
	"step": 1095
	},
	{
	"epoch": 60.99,
	"eval_gen_len": 7.1091,
	"eval_loss": 1.5398296117782593,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8838,
	"eval_samples_per_second": 18.695,
	"eval_steps_per_second": 3.229,
	"step": 1113
	},
	{
	"epoch": 61.97,
	"eval_gen_len": 7.9182,
	"eval_loss": 1.5261036157608032,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8837,
	"eval_samples_per_second": 18.696,
	"eval_steps_per_second": 3.229,
	"step": 1131
	},
	{
	"epoch": 62.96,
	"eval_gen_len": 8.6,
	"eval_loss": 1.5135173797607422,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8878,
	"eval_samples_per_second": 18.683,
	"eval_steps_per_second": 3.227,
	"step": 1149
	},
	{
	"epoch": 64.0,
	"eval_gen_len": 8.9727,
	"eval_loss": 1.5019876956939697,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8993,
	"eval_samples_per_second": 18.646,
	"eval_steps_per_second": 3.221,
	"step": 1168
	},
	{
	"epoch": 64.99,
	"eval_gen_len": 9.1455,
	"eval_loss": 1.4927572011947632,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8898,
	"eval_samples_per_second": 18.676,
	"eval_steps_per_second": 3.226,
	"step": 1186
	},
	{
	"epoch": 65.97,
	"eval_gen_len": 9.3636,
	"eval_loss": 1.4839699268341064,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8485,
	"eval_samples_per_second": 18.808,
	"eval_steps_per_second": 3.249,
	"step": 1204
	},
	{
	"epoch": 66.96,
	"eval_gen_len": 9.6727,
	"eval_loss": 1.4724147319793701,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8498,
	"eval_samples_per_second": 18.804,
	"eval_steps_per_second": 3.248,
	"step": 1222
	},
	{
	"epoch": 68.0,
	"eval_gen_len": 9.6545,
	"eval_loss": 1.4610724449157715,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.857,
	"eval_samples_per_second": 18.781,
	"eval_steps_per_second": 3.244,
	"step": 1241
	},
	{
	"epoch": 68.99,
	"eval_gen_len": 9.7182,
	"eval_loss": 1.4491708278656006,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8545,
	"eval_samples_per_second": 18.789,
	"eval_steps_per_second": 3.245,
	"step": 1259
	},
	{
	"epoch": 69.97,
	"eval_gen_len": 9.6727,
	"eval_loss": 1.4401447772979736,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8617,
	"eval_samples_per_second": 18.766,
	"eval_steps_per_second": 3.241,
	"step": 1277
	},
	{
	"epoch": 70.96,
	"eval_gen_len": 9.6818,
	"eval_loss": 1.4306913614273071,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.861,
	"eval_samples_per_second": 18.768,
	"eval_steps_per_second": 3.242,
	"step": 1295
	},
	{
	"epoch": 72.0,
	"eval_gen_len": 9.7636,
	"eval_loss": 1.4177192449569702,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8583,
	"eval_samples_per_second": 18.777,
	"eval_steps_per_second": 3.243,
	"step": 1314
	},
	{
	"epoch": 72.99,
	"eval_gen_len": 9.8182,
	"eval_loss": 1.4081608057022095,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8574,
	"eval_samples_per_second": 18.78,
	"eval_steps_per_second": 3.244,
	"step": 1332
	},
	{
	"epoch": 73.97,
	"eval_gen_len": 9.8,
	"eval_loss": 1.3982936143875122,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8596,
	"eval_samples_per_second": 18.773,
	"eval_steps_per_second": 3.243,
	"step": 1350
	},
	{
	"epoch": 74.96,
	"eval_gen_len": 9.7545,
	"eval_loss": 1.385299563407898,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8543,
	"eval_samples_per_second": 18.79,
	"eval_steps_per_second": 3.245,
	"step": 1368
	},
	{
	"epoch": 76.0,
	"eval_gen_len": 9.8727,
	"eval_loss": 1.3723993301391602,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9071,
	"eval_samples_per_second": 18.622,
	"eval_steps_per_second": 3.216,
	"step": 1387
	},
	{
	"epoch": 76.99,
	"eval_gen_len": 9.8636,
	"eval_loss": 1.3635698556900024,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8955,
	"eval_samples_per_second": 18.658,
	"eval_steps_per_second": 3.223,
	"step": 1405
	},
	{
	"epoch": 77.97,
	"eval_gen_len": 9.7727,
	"eval_loss": 1.3577702045440674,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8571,
	"eval_samples_per_second": 18.781,
	"eval_steps_per_second": 3.244,
	"step": 1423
	},
	{
	"epoch": 78.96,
	"eval_gen_len": 9.8455,
	"eval_loss": 1.350039005279541,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8893,
	"eval_samples_per_second": 18.678,
	"eval_steps_per_second": 3.226,
	"step": 1441
	},
	{
	"epoch": 80.0,
	"eval_gen_len": 9.8,
	"eval_loss": 1.3370468616485596,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9191,
	"eval_samples_per_second": 18.584,
	"eval_steps_per_second": 3.21,
	"step": 1460
	},
	{
	"epoch": 80.99,
	"eval_gen_len": 9.7909,
	"eval_loss": 1.3282612562179565,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8938,
	"eval_samples_per_second": 18.664,
	"eval_steps_per_second": 3.224,
	"step": 1478
	},
	{
	"epoch": 81.97,
	"eval_gen_len": 9.7273,
	"eval_loss": 1.3168359994888306,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8597,
	"eval_samples_per_second": 18.772,
	"eval_steps_per_second": 3.242,
	"step": 1496
	},
	{
	"epoch": 82.19,
	"grad_norm": 2.8337929248809814,
	"learning_rate": 1.667777777777778e-05,
	"loss": 1.7958,
	"step": 1500
	},
	{
	"epoch": 82.96,
	"eval_gen_len": 9.8727,
	"eval_loss": 1.3036466836929321,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8558,
	"eval_samples_per_second": 18.785,
	"eval_steps_per_second": 3.245,
	"step": 1514
	},
	{
	"epoch": 84.0,
	"eval_gen_len": 9.9455,
	"eval_loss": 1.2935236692428589,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8683,
	"eval_samples_per_second": 18.745,
	"eval_steps_per_second": 3.238,
	"step": 1533
	},
	{
	"epoch": 84.99,
	"eval_gen_len": 9.9182,
	"eval_loss": 1.2810677289962769,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8603,
	"eval_samples_per_second": 18.77,
	"eval_steps_per_second": 3.242,
	"step": 1551
	},
	{
	"epoch": 85.97,
	"eval_gen_len": 9.9364,
	"eval_loss": 1.2679041624069214,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8561,
	"eval_samples_per_second": 18.784,
	"eval_steps_per_second": 3.244,
	"step": 1569
	},
	{
	"epoch": 86.96,
	"eval_gen_len": 9.9091,
	"eval_loss": 1.259030818939209,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.855,
	"eval_samples_per_second": 18.787,
	"eval_steps_per_second": 3.245,
	"step": 1587
	},
	{
	"epoch": 88.0,
	"eval_gen_len": 9.9636,
	"eval_loss": 1.2463934421539307,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8568,
	"eval_samples_per_second": 18.782,
	"eval_steps_per_second": 3.244,
	"step": 1606
	},
	{
	"epoch": 88.99,
	"eval_gen_len": 9.9091,
	"eval_loss": 1.2380764484405518,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8541,
	"eval_samples_per_second": 18.79,
	"eval_steps_per_second": 3.246,
	"step": 1624
	},
	{
	"epoch": 89.97,
	"eval_gen_len": 9.9091,
	"eval_loss": 1.2272734642028809,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8679,
	"eval_samples_per_second": 18.746,
	"eval_steps_per_second": 3.238,
	"step": 1642
	},
	{
	"epoch": 90.96,
	"eval_gen_len": 9.9091,
	"eval_loss": 1.2162261009216309,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8611,
	"eval_samples_per_second": 18.768,
	"eval_steps_per_second": 3.242,
	"step": 1660
	},
	{
	"epoch": 92.0,
	"eval_gen_len": 9.9273,
	"eval_loss": 1.2035719156265259,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8669,
	"eval_samples_per_second": 18.749,
	"eval_steps_per_second": 3.239,
	"step": 1679
	},
	{
	"epoch": 92.99,
	"eval_gen_len": 9.9727,
	"eval_loss": 1.1865819692611694,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8764,
	"eval_samples_per_second": 18.719,
	"eval_steps_per_second": 3.233,
	"step": 1697
	},
	{
	"epoch": 93.97,
	"eval_gen_len": 9.9273,
	"eval_loss": 1.1713649034500122,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8739,
	"eval_samples_per_second": 18.727,
	"eval_steps_per_second": 3.235,
	"step": 1715
	},
	{
	"epoch": 94.96,
	"eval_gen_len": 9.8818,
	"eval_loss": 1.1566345691680908,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8775,
	"eval_samples_per_second": 18.715,
	"eval_steps_per_second": 3.233,
	"step": 1733
	},
	{
	"epoch": 96.0,
	"eval_gen_len": 9.6818,
	"eval_loss": 1.141555905342102,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8697,
	"eval_samples_per_second": 18.74,
	"eval_steps_per_second": 3.237,
	"step": 1752
	},
	{
	"epoch": 96.99,
	"eval_gen_len": 9.5,
	"eval_loss": 1.1269311904907227,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8514,
	"eval_samples_per_second": 18.799,
	"eval_steps_per_second": 3.247,
	"step": 1770
	},
	{
	"epoch": 97.97,
	"eval_gen_len": 9.6545,
	"eval_loss": 1.1134684085845947,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8582,
	"eval_samples_per_second": 18.777,
	"eval_steps_per_second": 3.243,
	"step": 1788
	},
	{
	"epoch": 98.96,
	"eval_gen_len": 9.7,
	"eval_loss": 1.099327564239502,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8567,
	"eval_samples_per_second": 18.782,
	"eval_steps_per_second": 3.244,
	"step": 1806
	},
	{
	"epoch": 100.0,
	"eval_gen_len": 9.7909,
	"eval_loss": 1.0843485593795776,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8693,
	"eval_samples_per_second": 18.741,
	"eval_steps_per_second": 3.237,
	"step": 1825
	},
	{
	"epoch": 100.99,
	"eval_gen_len": 9.8909,
	"eval_loss": 1.0678842067718506,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8524,
	"eval_samples_per_second": 18.796,
	"eval_steps_per_second": 3.247,
	"step": 1843
	},
	{
	"epoch": 101.97,
	"eval_gen_len": 9.8636,
	"eval_loss": 1.0531669855117798,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8548,
	"eval_samples_per_second": 18.788,
	"eval_steps_per_second": 3.245,
	"step": 1861
	},
	{
	"epoch": 102.96,
	"eval_gen_len": 9.8364,
	"eval_loss": 1.0373491048812866,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8537,
	"eval_samples_per_second": 18.792,
	"eval_steps_per_second": 3.246,
	"step": 1879
	},
	{
	"epoch": 104.0,
	"eval_gen_len": 9.8636,
	"eval_loss": 1.0185768604278564,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8656,
	"eval_samples_per_second": 18.754,
	"eval_steps_per_second": 3.239,
	"step": 1898
	},
	{
	"epoch": 104.99,
	"eval_gen_len": 9.9091,
	"eval_loss": 1.0003846883773804,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8601,
	"eval_samples_per_second": 18.771,
	"eval_steps_per_second": 3.242,
	"step": 1916
	},
	{
	"epoch": 105.97,
	"eval_gen_len": 9.9364,
	"eval_loss": 0.9851242899894714,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8522,
	"eval_samples_per_second": 18.796,
	"eval_steps_per_second": 3.247,
	"step": 1934
	},
	{
	"epoch": 106.96,
	"eval_gen_len": 9.9545,
	"eval_loss": 0.9700939059257507,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8548,
	"eval_samples_per_second": 18.788,
	"eval_steps_per_second": 3.245,
	"step": 1952
	},
	{
	"epoch": 108.0,
	"eval_gen_len": 9.9182,
	"eval_loss": 0.9482754468917847,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8554,
	"eval_samples_per_second": 18.786,
	"eval_steps_per_second": 3.245,
	"step": 1971
	},
	{
	"epoch": 108.99,
	"eval_gen_len": 9.9273,
	"eval_loss": 0.9286762475967407,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8532,
	"eval_samples_per_second": 18.793,
	"eval_steps_per_second": 3.246,
	"step": 1989
	},
	{
	"epoch": 109.59,
	"grad_norm": 1.9006233215332031,
	"learning_rate": 1.5566666666666668e-05,
	"loss": 1.4343,
	"step": 2000
	},
	{
	"epoch": 109.97,
	"eval_gen_len": 9.8364,
	"eval_loss": 0.906920850276947,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8648,
	"eval_samples_per_second": 18.756,
	"eval_steps_per_second": 3.24,
	"step": 2007
	},
	{
	"epoch": 110.96,
	"eval_gen_len": 9.9273,
	"eval_loss": 0.8903268575668335,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8436,
	"eval_samples_per_second": 18.824,
	"eval_steps_per_second": 3.251,
	"step": 2025
	},
	{
	"epoch": 112.0,
	"eval_gen_len": 9.8818,
	"eval_loss": 0.8693720102310181,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8617,
	"eval_samples_per_second": 18.766,
	"eval_steps_per_second": 3.241,
	"step": 2044
	},
	{
	"epoch": 112.99,
	"eval_gen_len": 9.8182,
	"eval_loss": 0.8487831354141235,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8484,
	"eval_samples_per_second": 18.808,
	"eval_steps_per_second": 3.249,
	"step": 2062
	},
	{
	"epoch": 113.97,
	"eval_gen_len": 9.8,
	"eval_loss": 0.8259497284889221,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8508,
	"eval_samples_per_second": 18.801,
	"eval_steps_per_second": 3.247,
	"step": 2080
	},
	{
	"epoch": 114.96,
	"eval_gen_len": 9.7818,
	"eval_loss": 0.8031529784202576,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8573,
	"eval_samples_per_second": 18.78,
	"eval_steps_per_second": 3.244,
	"step": 2098
	},
	{
	"epoch": 116.0,
	"eval_gen_len": 9.7273,
	"eval_loss": 0.7789543271064758,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8581,
	"eval_samples_per_second": 18.777,
	"eval_steps_per_second": 3.243,
	"step": 2117
	},
	{
	"epoch": 116.99,
	"eval_gen_len": 9.5909,
	"eval_loss": 0.7579861283302307,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8897,
	"eval_samples_per_second": 18.677,
	"eval_steps_per_second": 3.226,
	"step": 2135
	},
	{
	"epoch": 117.97,
	"eval_gen_len": 9.7273,
	"eval_loss": 0.7319938540458679,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8872,
	"eval_samples_per_second": 18.684,
	"eval_steps_per_second": 3.227,
	"step": 2153
	},
	{
	"epoch": 118.96,
	"eval_gen_len": 9.7455,
	"eval_loss": 0.710875928401947,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8965,
	"eval_samples_per_second": 18.655,
	"eval_steps_per_second": 3.222,
	"step": 2171
	},
	{
	"epoch": 120.0,
	"eval_gen_len": 9.8182,
	"eval_loss": 0.6845319271087646,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8634,
	"eval_samples_per_second": 18.76,
	"eval_steps_per_second": 3.24,
	"step": 2190
	},
	{
	"epoch": 120.99,
	"eval_gen_len": 9.8455,
	"eval_loss": 0.6633948683738708,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8707,
	"eval_samples_per_second": 18.737,
	"eval_steps_per_second": 3.236,
	"step": 2208
	},
	{
	"epoch": 121.97,
	"eval_gen_len": 9.8364,
	"eval_loss": 0.6423484683036804,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8549,
	"eval_samples_per_second": 18.788,
	"eval_steps_per_second": 3.245,
	"step": 2226
	},
	{
	"epoch": 122.96,
	"eval_gen_len": 9.8273,
	"eval_loss": 0.6260173916816711,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8887,
	"eval_samples_per_second": 18.68,
	"eval_steps_per_second": 3.227,
	"step": 2244
	},
	{
	"epoch": 124.0,
	"eval_gen_len": 9.7636,
	"eval_loss": 0.604343056678772,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8959,
	"eval_samples_per_second": 18.657,
	"eval_steps_per_second": 3.223,
	"step": 2263
	},
	{
	"epoch": 124.99,
	"eval_gen_len": 9.7273,
	"eval_loss": 0.5872541666030884,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8541,
	"eval_samples_per_second": 18.79,
	"eval_steps_per_second": 3.246,
	"step": 2281
	},
	{
	"epoch": 125.97,
	"eval_gen_len": 9.7818,
	"eval_loss": 0.5708852410316467,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8564,
	"eval_samples_per_second": 18.783,
	"eval_steps_per_second": 3.244,
	"step": 2299
	},
	{
	"epoch": 126.96,
	"eval_gen_len": 9.8364,
	"eval_loss": 0.5527102947235107,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.854,
	"eval_samples_per_second": 18.79,
	"eval_steps_per_second": 3.246,
	"step": 2317
	},
	{
	"epoch": 128.0,
	"eval_gen_len": 9.7545,
	"eval_loss": 0.537294864654541,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8561,
	"eval_samples_per_second": 18.784,
	"eval_steps_per_second": 3.244,
	"step": 2336
	},
	{
	"epoch": 128.99,
	"eval_gen_len": 9.5636,
	"eval_loss": 0.5231500864028931,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8429,
	"eval_samples_per_second": 18.826,
	"eval_steps_per_second": 3.252,
	"step": 2354
	},
	{
	"epoch": 129.97,
	"eval_gen_len": 9.7091,
	"eval_loss": 0.5122325420379639,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8959,
	"eval_samples_per_second": 18.657,
	"eval_steps_per_second": 3.223,
	"step": 2372
	},
	{
	"epoch": 130.96,
	"eval_gen_len": 9.6,
	"eval_loss": 0.501021683216095,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8801,
	"eval_samples_per_second": 18.707,
	"eval_steps_per_second": 3.231,
	"step": 2390
	},
	{
	"epoch": 132.0,
	"eval_gen_len": 9.7,
	"eval_loss": 0.4930221140384674,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8944,
	"eval_samples_per_second": 18.662,
	"eval_steps_per_second": 3.223,
	"step": 2409
	},
	{
	"epoch": 132.99,
	"eval_gen_len": 9.5909,
	"eval_loss": 0.48477092385292053,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8544,
	"eval_samples_per_second": 18.789,
	"eval_steps_per_second": 3.245,
	"step": 2427
	},
	{
	"epoch": 133.97,
	"eval_gen_len": 9.4818,
	"eval_loss": 0.47620585560798645,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8504,
	"eval_samples_per_second": 18.802,
	"eval_steps_per_second": 3.248,
	"step": 2445
	},
	{
	"epoch": 134.96,
	"eval_gen_len": 9.4727,
	"eval_loss": 0.4678414463996887,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8619,
	"eval_samples_per_second": 18.765,
	"eval_steps_per_second": 3.241,
	"step": 2463
	},
	{
	"epoch": 136.0,
	"eval_gen_len": 8.9727,
	"eval_loss": 0.46089962124824524,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9034,
	"eval_samples_per_second": 18.633,
	"eval_steps_per_second": 3.219,
	"step": 2482
	},
	{
	"epoch": 136.99,
	"grad_norm": 0.9683671593666077,
	"learning_rate": 1.4455555555555555e-05,
	"loss": 0.904,
	"step": 2500
	},
	{
	"epoch": 136.99,
	"eval_gen_len": 8.8182,
	"eval_loss": 0.45609110593795776,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8499,
	"eval_samples_per_second": 18.804,
	"eval_steps_per_second": 3.248,
	"step": 2500
	},
	{
	"epoch": 137.97,
	"eval_gen_len": 8.8,
	"eval_loss": 0.448975533246994,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8901,
	"eval_samples_per_second": 18.676,
	"eval_steps_per_second": 3.226,
	"step": 2518
	},
	{
	"epoch": 138.96,
	"eval_gen_len": 8.7091,
	"eval_loss": 0.44343459606170654,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8897,
	"eval_samples_per_second": 18.677,
	"eval_steps_per_second": 3.226,
	"step": 2536
	},
	{
	"epoch": 140.0,
	"eval_gen_len": 8.6818,
	"eval_loss": 0.4378666877746582,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9063,
	"eval_samples_per_second": 18.624,
	"eval_steps_per_second": 3.217,
	"step": 2555
	},
	{
	"epoch": 140.99,
	"eval_gen_len": 8.1182,
	"eval_loss": 0.4321661591529846,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8879,
	"eval_samples_per_second": 18.682,
	"eval_steps_per_second": 3.227,
	"step": 2573
	},
	{
	"epoch": 141.97,
	"eval_gen_len": 8.0455,
	"eval_loss": 0.42785531282424927,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8597,
	"eval_samples_per_second": 18.772,
	"eval_steps_per_second": 3.242,
	"step": 2591
	},
	{
	"epoch": 142.96,
	"eval_gen_len": 7.8909,
	"eval_loss": 0.42234906554222107,
	"eval_rouge1": 0.0026,
	"eval_rouge2": 0.002,
	"eval_rougeL": 0.0021,
	"eval_rougeLsum": 0.0021,
	"eval_runtime": 5.8591,
	"eval_samples_per_second": 18.774,
	"eval_steps_per_second": 3.243,
	"step": 2609
	},
	{
	"epoch": 144.0,
	"eval_gen_len": 7.5727,
	"eval_loss": 0.4168229401111603,
	"eval_rouge1": 0.0026,
	"eval_rouge2": 0.002,
	"eval_rougeL": 0.0021,
	"eval_rougeLsum": 0.0021,
	"eval_runtime": 5.862,
	"eval_samples_per_second": 18.765,
	"eval_steps_per_second": 3.241,
	"step": 2628
	},
	{
	"epoch": 144.99,
	"eval_gen_len": 7.4182,
	"eval_loss": 0.4125988185405731,
	"eval_rouge1": 0.0026,
	"eval_rouge2": 0.002,
	"eval_rougeL": 0.0021,
	"eval_rougeLsum": 0.0021,
	"eval_runtime": 5.855,
	"eval_samples_per_second": 18.787,
	"eval_steps_per_second": 3.245,
	"step": 2646
	},
	{
	"epoch": 145.97,
	"eval_gen_len": 6.8545,
	"eval_loss": 0.40698733925819397,
	"eval_rouge1": 0.0026,
	"eval_rouge2": 0.002,
	"eval_rougeL": 0.0021,
	"eval_rougeLsum": 0.0021,
	"eval_runtime": 5.8558,
	"eval_samples_per_second": 18.785,
	"eval_steps_per_second": 3.245,
	"step": 2664
	},
	{
	"epoch": 146.96,
	"eval_gen_len": 6.6,
	"eval_loss": 0.4030015468597412,
	"eval_rouge1": 0.0026,
	"eval_rouge2": 0.002,
	"eval_rougeL": 0.0021,
	"eval_rougeLsum": 0.0021,
	"eval_runtime": 5.8557,
	"eval_samples_per_second": 18.785,
	"eval_steps_per_second": 3.245,
	"step": 2682
	},
	{
	"epoch": 148.0,
	"eval_gen_len": 6.5273,
	"eval_loss": 0.39865967631340027,
	"eval_rouge1": 0.0044,
	"eval_rouge2": 0.0035,
	"eval_rougeL": 0.0039,
	"eval_rougeLsum": 0.0031,
	"eval_runtime": 5.863,
	"eval_samples_per_second": 18.762,
	"eval_steps_per_second": 3.241,
	"step": 2701
	},
	{
	"epoch": 148.99,
	"eval_gen_len": 6.5273,
	"eval_loss": 0.3959006071090698,
	"eval_rouge1": 0.0041,
	"eval_rouge2": 0.0035,
	"eval_rougeL": 0.0041,
	"eval_rougeLsum": 0.0035,
	"eval_runtime": 5.857,
	"eval_samples_per_second": 18.781,
	"eval_steps_per_second": 3.244,
	"step": 2719
	},
	{
	"epoch": 149.97,
	"eval_gen_len": 6.3,
	"eval_loss": 0.3902026414871216,
	"eval_rouge1": 0.0049,
	"eval_rouge2": 0.0041,
	"eval_rougeL": 0.004,
	"eval_rougeLsum": 0.0033,
	"eval_runtime": 5.855,
	"eval_samples_per_second": 18.787,
	"eval_steps_per_second": 3.245,
	"step": 2737
	},
	{
	"epoch": 150.96,
	"eval_gen_len": 6.1909,
	"eval_loss": 0.3883272707462311,
	"eval_rouge1": 0.0049,
	"eval_rouge2": 0.0041,
	"eval_rougeL": 0.004,
	"eval_rougeLsum": 0.0033,
	"eval_runtime": 5.853,
	"eval_samples_per_second": 18.794,
	"eval_steps_per_second": 3.246,
	"step": 2755
	},
	{
	"epoch": 152.0,
	"eval_gen_len": 6.1182,
	"eval_loss": 0.38500654697418213,
	"eval_rouge1": 0.006,
	"eval_rouge2": 0.0046,
	"eval_rougeL": 0.0058,
	"eval_rougeLsum": 0.0049,
	"eval_runtime": 5.8626,
	"eval_samples_per_second": 18.763,
	"eval_steps_per_second": 3.241,
	"step": 2774
	},
	{
	"epoch": 152.99,
	"eval_gen_len": 6.3818,
	"eval_loss": 0.38074272871017456,
	"eval_rouge1": 0.0065,
	"eval_rouge2": 0.0043,
	"eval_rougeL": 0.0058,
	"eval_rougeLsum": 0.0058,
	"eval_runtime": 5.8533,
	"eval_samples_per_second": 18.793,
	"eval_steps_per_second": 3.246,
	"step": 2792
	},
	{
	"epoch": 153.97,
	"eval_gen_len": 6.2,
	"eval_loss": 0.3779795467853546,
	"eval_rouge1": 0.0045,
	"eval_rouge2": 0.0022,
	"eval_rougeL": 0.0039,
	"eval_rougeLsum": 0.0038,
	"eval_runtime": 5.8616,
	"eval_samples_per_second": 18.766,
	"eval_steps_per_second": 3.241,
	"step": 2810
	},
	{
	"epoch": 154.96,
	"eval_gen_len": 6.3636,
	"eval_loss": 0.37300601601600647,
	"eval_rouge1": 0.0136,
	"eval_rouge2": 0.0099,
	"eval_rougeL": 0.0122,
	"eval_rougeLsum": 0.0117,
	"eval_runtime": 5.8638,
	"eval_samples_per_second": 18.759,
	"eval_steps_per_second": 3.24,
	"step": 2828
	},
	{
	"epoch": 156.0,
	"eval_gen_len": 6.4909,
	"eval_loss": 0.36999648809432983,
	"eval_rouge1": 0.0195,
	"eval_rouge2": 0.0152,
	"eval_rougeL": 0.0179,
	"eval_rougeLsum": 0.0173,
	"eval_runtime": 5.8779,
	"eval_samples_per_second": 18.714,
	"eval_steps_per_second": 3.232,
	"step": 2847
	},
	{
	"epoch": 156.99,
	"eval_gen_len": 6.5455,
	"eval_loss": 0.3666529059410095,
	"eval_rouge1": 0.0193,
	"eval_rouge2": 0.0135,
	"eval_rougeL": 0.0174,
	"eval_rougeLsum": 0.0171,
	"eval_runtime": 5.8596,
	"eval_samples_per_second": 18.773,
	"eval_steps_per_second": 3.243,
	"step": 2865
	},
	{
	"epoch": 157.97,
	"eval_gen_len": 6.1909,
	"eval_loss": 0.3615466058254242,
	"eval_rouge1": 0.019,
	"eval_rouge2": 0.0133,
	"eval_rougeL": 0.0169,
	"eval_rougeLsum": 0.0168,
	"eval_runtime": 5.8587,
	"eval_samples_per_second": 18.776,
	"eval_steps_per_second": 3.243,
	"step": 2883
	},
	{
	"epoch": 158.96,
	"eval_gen_len": 7.5,
	"eval_loss": 0.3599731922149658,
	"eval_rouge1": 0.0283,
	"eval_rouge2": 0.0195,
	"eval_rougeL": 0.0269,
	"eval_rougeLsum": 0.0268,
	"eval_runtime": 5.8597,
	"eval_samples_per_second": 18.772,
	"eval_steps_per_second": 3.242,
	"step": 2901
	},
	{
	"epoch": 160.0,
	"eval_gen_len": 6.8,
	"eval_loss": 0.3567432165145874,
	"eval_rouge1": 0.0241,
	"eval_rouge2": 0.0168,
	"eval_rougeL": 0.022,
	"eval_rougeLsum": 0.0216,
	"eval_runtime": 5.8734,
	"eval_samples_per_second": 18.729,
	"eval_steps_per_second": 3.235,
	"step": 2920
	},
	{
	"epoch": 160.99,
	"eval_gen_len": 6.6,
	"eval_loss": 0.35366886854171753,
	"eval_rouge1": 0.021,
	"eval_rouge2": 0.0135,
	"eval_rougeL": 0.0189,
	"eval_rougeLsum": 0.0184,
	"eval_runtime": 5.8665,
	"eval_samples_per_second": 18.751,
	"eval_steps_per_second": 3.239,
	"step": 2938
	},
	{
	"epoch": 161.97,
	"eval_gen_len": 8.6818,
	"eval_loss": 0.35154151916503906,
	"eval_rouge1": 0.0438,
	"eval_rouge2": 0.0277,
	"eval_rougeL": 0.0401,
	"eval_rougeLsum": 0.0401,
	"eval_runtime": 5.8694,
	"eval_samples_per_second": 18.741,
	"eval_steps_per_second": 3.237,
	"step": 2956
	},
	{
	"epoch": 162.96,
	"eval_gen_len": 8.2636,
	"eval_loss": 0.3467026948928833,
	"eval_rouge1": 0.0374,
	"eval_rouge2": 0.023,
	"eval_rougeL": 0.0346,
	"eval_rougeLsum": 0.0341,
	"eval_runtime": 5.8684,
	"eval_samples_per_second": 18.745,
	"eval_steps_per_second": 3.238,
	"step": 2974
	},
	{
	"epoch": 164.0,
	"eval_gen_len": 7.4636,
	"eval_loss": 0.343766987323761,
	"eval_rouge1": 0.0284,
	"eval_rouge2": 0.0184,
	"eval_rougeL": 0.0267,
	"eval_rougeLsum": 0.027,
	"eval_runtime": 5.876,
	"eval_samples_per_second": 18.72,
	"eval_steps_per_second": 3.233,
	"step": 2993
	},
	{
	"epoch": 164.38,
	"grad_norm": 0.7337635159492493,
	"learning_rate": 1.3346666666666667e-05,
	"loss": 0.5395,
	"step": 3000
	},
	{
	"epoch": 164.99,
	"eval_gen_len": 8.9909,
	"eval_loss": 0.3419288694858551,
	"eval_rouge1": 0.0445,
	"eval_rouge2": 0.0276,
	"eval_rougeL": 0.0414,
	"eval_rougeLsum": 0.0408,
	"eval_runtime": 5.8707,
	"eval_samples_per_second": 18.737,
	"eval_steps_per_second": 3.236,
	"step": 3011
	},
	{
	"epoch": 165.97,
	"eval_gen_len": 8.8909,
	"eval_loss": 0.33906012773513794,
	"eval_rouge1": 0.0446,
	"eval_rouge2": 0.0294,
	"eval_rougeL": 0.0415,
	"eval_rougeLsum": 0.0412,
	"eval_runtime": 5.8733,
	"eval_samples_per_second": 18.729,
	"eval_steps_per_second": 3.235,
	"step": 3029
	},
	{
	"epoch": 166.96,
	"eval_gen_len": 9.5455,
	"eval_loss": 0.3354407548904419,
	"eval_rouge1": 0.0498,
	"eval_rouge2": 0.032,
	"eval_rougeL": 0.0452,
	"eval_rougeLsum": 0.0453,
	"eval_runtime": 5.8714,
	"eval_samples_per_second": 18.735,
	"eval_steps_per_second": 3.236,
	"step": 3047
	},
	{
	"epoch": 168.0,
	"eval_gen_len": 10.0818,
	"eval_loss": 0.33422771096229553,
	"eval_rouge1": 0.0579,
	"eval_rouge2": 0.0388,
	"eval_rougeL": 0.0549,
	"eval_rougeLsum": 0.0553,
	"eval_runtime": 5.8768,
	"eval_samples_per_second": 18.718,
	"eval_steps_per_second": 3.233,
	"step": 3066
	},
	{
	"epoch": 168.99,
	"eval_gen_len": 10.2,
	"eval_loss": 0.331695020198822,
	"eval_rouge1": 0.0542,
	"eval_rouge2": 0.0353,
	"eval_rougeL": 0.0508,
	"eval_rougeLsum": 0.051,
	"eval_runtime": 5.8711,
	"eval_samples_per_second": 18.736,
	"eval_steps_per_second": 3.236,
	"step": 3084
	},
	{
	"epoch": 169.97,
	"eval_gen_len": 10.1364,
	"eval_loss": 0.3284001052379608,
	"eval_rouge1": 0.0555,
	"eval_rouge2": 0.0363,
	"eval_rougeL": 0.0523,
	"eval_rougeLsum": 0.0521,
	"eval_runtime": 5.8689,
	"eval_samples_per_second": 18.743,
	"eval_steps_per_second": 3.237,
	"step": 3102
	},
	{
	"epoch": 170.96,
	"eval_gen_len": 10.6727,
	"eval_loss": 0.32654786109924316,
	"eval_rouge1": 0.0562,
	"eval_rouge2": 0.0353,
	"eval_rougeL": 0.0519,
	"eval_rougeLsum": 0.0521,
	"eval_runtime": 5.8762,
	"eval_samples_per_second": 18.72,
	"eval_steps_per_second": 3.233,
	"step": 3120
	},
	{
	"epoch": 172.0,
	"eval_gen_len": 10.7818,
	"eval_loss": 0.3229809105396271,
	"eval_rouge1": 0.0551,
	"eval_rouge2": 0.0346,
	"eval_rougeL": 0.0523,
	"eval_rougeLsum": 0.0525,
	"eval_runtime": 5.8825,
	"eval_samples_per_second": 18.699,
	"eval_steps_per_second": 3.23,
	"step": 3139
	},
	{
	"epoch": 172.99,
	"eval_gen_len": 11.3727,
	"eval_loss": 0.3223954439163208,
	"eval_rouge1": 0.0614,
	"eval_rouge2": 0.0388,
	"eval_rougeL": 0.0579,
	"eval_rougeLsum": 0.0585,
	"eval_runtime": 5.8822,
	"eval_samples_per_second": 18.701,
	"eval_steps_per_second": 3.23,
	"step": 3157
	},
	{
	"epoch": 173.97,
	"eval_gen_len": 11.2909,
	"eval_loss": 0.31792977452278137,
	"eval_rouge1": 0.0584,
	"eval_rouge2": 0.0328,
	"eval_rougeL": 0.055,
	"eval_rougeLsum": 0.0553,
	"eval_runtime": 5.8754,
	"eval_samples_per_second": 18.722,
	"eval_steps_per_second": 3.234,
	"step": 3175
	},
	{
	"epoch": 174.96,
	"eval_gen_len": 12.2455,
	"eval_loss": 0.31657084822654724,
	"eval_rouge1": 0.0649,
	"eval_rouge2": 0.0392,
	"eval_rougeL": 0.0615,
	"eval_rougeLsum": 0.0619,
	"eval_runtime": 5.9198,
	"eval_samples_per_second": 18.582,
	"eval_steps_per_second": 3.21,
	"step": 3193
	},
	{
	"epoch": 176.0,
	"eval_gen_len": 11.7545,
	"eval_loss": 0.3131771981716156,
	"eval_rouge1": 0.0605,
	"eval_rouge2": 0.0341,
	"eval_rougeL": 0.0568,
	"eval_rougeLsum": 0.0571,
	"eval_runtime": 5.8941,
	"eval_samples_per_second": 18.663,
	"eval_steps_per_second": 3.224,
	"step": 3212
	},
	{
	"epoch": 176.99,
	"eval_gen_len": 12.2364,
	"eval_loss": 0.3109656870365143,
	"eval_rouge1": 0.0639,
	"eval_rouge2": 0.0396,
	"eval_rougeL": 0.0614,
	"eval_rougeLsum": 0.0619,
	"eval_runtime": 5.8859,
	"eval_samples_per_second": 18.689,
	"eval_steps_per_second": 3.228,
	"step": 3230
	},
	{
	"epoch": 177.97,
	"eval_gen_len": 11.9273,
	"eval_loss": 0.3089582324028015,
	"eval_rouge1": 0.0664,
	"eval_rouge2": 0.04,
	"eval_rougeL": 0.0619,
	"eval_rougeLsum": 0.0626,
	"eval_runtime": 5.873,
	"eval_samples_per_second": 18.73,
	"eval_steps_per_second": 3.235,
	"step": 3248
	},
	{
	"epoch": 178.96,
	"eval_gen_len": 12.3364,
	"eval_loss": 0.30663853883743286,
	"eval_rouge1": 0.0721,
	"eval_rouge2": 0.0455,
	"eval_rougeL": 0.0685,
	"eval_rougeLsum": 0.0688,
	"eval_runtime": 5.8871,
	"eval_samples_per_second": 18.685,
	"eval_steps_per_second": 3.227,
	"step": 3266
	},
	{
	"epoch": 180.0,
	"eval_gen_len": 12.6,
	"eval_loss": 0.3049904704093933,
	"eval_rouge1": 0.0727,
	"eval_rouge2": 0.0447,
	"eval_rougeL": 0.0691,
	"eval_rougeLsum": 0.0693,
	"eval_runtime": 5.8952,
	"eval_samples_per_second": 18.659,
	"eval_steps_per_second": 3.223,
	"step": 3285
	},
	{
	"epoch": 180.99,
	"eval_gen_len": 12.2636,
	"eval_loss": 0.30238986015319824,
	"eval_rouge1": 0.0716,
	"eval_rouge2": 0.0436,
	"eval_rougeL": 0.0684,
	"eval_rougeLsum": 0.0688,
	"eval_runtime": 5.8902,
	"eval_samples_per_second": 18.675,
	"eval_steps_per_second": 3.226,
	"step": 3303
	},
	{
	"epoch": 181.97,
	"eval_gen_len": 15.2,
	"eval_loss": 0.29928120970726013,
	"eval_rouge1": 0.0901,
	"eval_rouge2": 0.0567,
	"eval_rougeL": 0.0848,
	"eval_rougeLsum": 0.0851,
	"eval_runtime": 5.9062,
	"eval_samples_per_second": 18.624,
	"eval_steps_per_second": 3.217,
	"step": 3321
	},
	{
	"epoch": 182.96,
	"eval_gen_len": 13.8182,
	"eval_loss": 0.2973878085613251,
	"eval_rouge1": 0.0874,
	"eval_rouge2": 0.0583,
	"eval_rougeL": 0.084,
	"eval_rougeLsum": 0.0838,
	"eval_runtime": 5.892,
	"eval_samples_per_second": 18.67,
	"eval_steps_per_second": 3.225,
	"step": 3339
	},
	{
	"epoch": 184.0,
	"eval_gen_len": 14.8091,
	"eval_loss": 0.29529863595962524,
	"eval_rouge1": 0.0924,
	"eval_rouge2": 0.0616,
	"eval_rougeL": 0.0892,
	"eval_rougeLsum": 0.0893,
	"eval_runtime": 5.9216,
	"eval_samples_per_second": 18.576,
	"eval_steps_per_second": 3.209,
	"step": 3358
	},
	{
	"epoch": 184.99,
	"eval_gen_len": 16.4,
	"eval_loss": 0.29348161816596985,
	"eval_rouge1": 0.1029,
	"eval_rouge2": 0.0663,
	"eval_rougeL": 0.0987,
	"eval_rougeLsum": 0.0984,
	"eval_runtime": 5.8929,
	"eval_samples_per_second": 18.666,
	"eval_steps_per_second": 3.224,
	"step": 3376
	},
	{
	"epoch": 185.97,
	"eval_gen_len": 15.0364,
	"eval_loss": 0.2902657389640808,
	"eval_rouge1": 0.0923,
	"eval_rouge2": 0.0603,
	"eval_rougeL": 0.089,
	"eval_rougeLsum": 0.0887,
	"eval_runtime": 5.8988,
	"eval_samples_per_second": 18.648,
	"eval_steps_per_second": 3.221,
	"step": 3394
	},
	{
	"epoch": 186.96,
	"eval_gen_len": 16.7,
	"eval_loss": 0.2885950207710266,
	"eval_rouge1": 0.1027,
	"eval_rouge2": 0.0661,
	"eval_rougeL": 0.0985,
	"eval_rougeLsum": 0.099,
	"eval_runtime": 5.9087,
	"eval_samples_per_second": 18.617,
	"eval_steps_per_second": 3.216,
	"step": 3412
	},
	{
	"epoch": 188.0,
	"eval_gen_len": 15.0455,
	"eval_loss": 0.2858668267726898,
	"eval_rouge1": 0.0998,
	"eval_rouge2": 0.0686,
	"eval_rougeL": 0.0979,
	"eval_rougeLsum": 0.0973,
	"eval_runtime": 5.9128,
	"eval_samples_per_second": 18.604,
	"eval_steps_per_second": 3.213,
	"step": 3431
	},
	{
	"epoch": 188.99,
	"eval_gen_len": 16.7,
	"eval_loss": 0.28371575474739075,
	"eval_rouge1": 0.1081,
	"eval_rouge2": 0.0733,
	"eval_rougeL": 0.105,
	"eval_rougeLsum": 0.1051,
	"eval_runtime": 5.9179,
	"eval_samples_per_second": 18.588,
	"eval_steps_per_second": 3.211,
	"step": 3449
	},
	{
	"epoch": 189.97,
	"eval_gen_len": 16.9364,
	"eval_loss": 0.28239956498146057,
	"eval_rouge1": 0.1176,
	"eval_rouge2": 0.0809,
	"eval_rougeL": 0.1142,
	"eval_rougeLsum": 0.1136,
	"eval_runtime": 5.9392,
	"eval_samples_per_second": 18.521,
	"eval_steps_per_second": 3.199,
	"step": 3467
	},
	{
	"epoch": 190.96,
	"eval_gen_len": 17.1545,
	"eval_loss": 0.28112414479255676,
	"eval_rouge1": 0.1281,
	"eval_rouge2": 0.0923,
	"eval_rougeL": 0.1251,
	"eval_rougeLsum": 0.1247,
	"eval_runtime": 5.9439,
	"eval_samples_per_second": 18.506,
	"eval_steps_per_second": 3.197,
	"step": 3485
	},
	{
	"epoch": 191.78,
	"grad_norm": 0.6559975743293762,
	"learning_rate": 1.2235555555555556e-05,
	"loss": 0.4165,
	"step": 3500
	},
	{
	"epoch": 192.0,
	"eval_gen_len": 16.9909,
	"eval_loss": 0.2794179916381836,
	"eval_rouge1": 0.1326,
	"eval_rouge2": 0.0983,
	"eval_rougeL": 0.1308,
	"eval_rougeLsum": 0.1303,
	"eval_runtime": 5.9583,
	"eval_samples_per_second": 18.462,
	"eval_steps_per_second": 3.189,
	"step": 3504
	},
	{
	"epoch": 192.99,
	"eval_gen_len": 17.2818,
	"eval_loss": 0.2769763767719269,
	"eval_rouge1": 0.1377,
	"eval_rouge2": 0.1021,
	"eval_rougeL": 0.1352,
	"eval_rougeLsum": 0.1352,
	"eval_runtime": 5.9436,
	"eval_samples_per_second": 18.507,
	"eval_steps_per_second": 3.197,
	"step": 3522
	},
	{
	"epoch": 193.97,
	"eval_gen_len": 16.6727,
	"eval_loss": 0.27478569746017456,
	"eval_rouge1": 0.1421,
	"eval_rouge2": 0.1072,
	"eval_rougeL": 0.1391,
	"eval_rougeLsum": 0.1389,
	"eval_runtime": 5.9492,
	"eval_samples_per_second": 18.49,
	"eval_steps_per_second": 3.194,
	"step": 3540
	},
	{
	"epoch": 194.96,
	"eval_gen_len": 17.6273,
	"eval_loss": 0.273343026638031,
	"eval_rouge1": 0.1536,
	"eval_rouge2": 0.1166,
	"eval_rougeL": 0.1499,
	"eval_rougeLsum": 0.15,
	"eval_runtime": 5.9258,
	"eval_samples_per_second": 18.563,
	"eval_steps_per_second": 3.206,
	"step": 3558
	},
	{
	"epoch": 196.0,
	"eval_gen_len": 17.6182,
	"eval_loss": 0.27078884840011597,
	"eval_rouge1": 0.1575,
	"eval_rouge2": 0.1196,
	"eval_rougeL": 0.1531,
	"eval_rougeLsum": 0.1529,
	"eval_runtime": 5.9196,
	"eval_samples_per_second": 18.582,
	"eval_steps_per_second": 3.21,
	"step": 3577
	},
	{
	"epoch": 196.99,
	"eval_gen_len": 18.1727,
	"eval_loss": 0.2679530382156372,
	"eval_rouge1": 0.1544,
	"eval_rouge2": 0.1152,
	"eval_rougeL": 0.1492,
	"eval_rougeLsum": 0.1492,
	"eval_runtime": 5.9115,
	"eval_samples_per_second": 18.608,
	"eval_steps_per_second": 3.214,
	"step": 3595
	},
	{
	"epoch": 197.97,
	"eval_gen_len": 17.6636,
	"eval_loss": 0.26689696311950684,
	"eval_rouge1": 0.1615,
	"eval_rouge2": 0.1264,
	"eval_rougeL": 0.1579,
	"eval_rougeLsum": 0.1577,
	"eval_runtime": 5.911,
	"eval_samples_per_second": 18.609,
	"eval_steps_per_second": 3.214,
	"step": 3613
	},
	{
	"epoch": 198.96,
	"eval_gen_len": 18.3182,
	"eval_loss": 0.26582667231559753,
	"eval_rouge1": 0.1687,
	"eval_rouge2": 0.1322,
	"eval_rougeL": 0.165,
	"eval_rougeLsum": 0.1646,
	"eval_runtime": 5.9133,
	"eval_samples_per_second": 18.602,
	"eval_steps_per_second": 3.213,
	"step": 3631
	},
	{
	"epoch": 200.0,
	"eval_gen_len": 18.3091,
	"eval_loss": 0.262999951839447,
	"eval_rouge1": 0.1753,
	"eval_rouge2": 0.1408,
	"eval_rougeL": 0.1726,
	"eval_rougeLsum": 0.1721,
	"eval_runtime": 5.9621,
	"eval_samples_per_second": 18.45,
	"eval_steps_per_second": 3.187,
	"step": 3650
	},
	{
	"epoch": 200.99,
	"eval_gen_len": 18.6182,
	"eval_loss": 0.2615664601325989,
	"eval_rouge1": 0.1803,
	"eval_rouge2": 0.1452,
	"eval_rougeL": 0.1776,
	"eval_rougeLsum": 0.1767,
	"eval_runtime": 5.9566,
	"eval_samples_per_second": 18.467,
	"eval_steps_per_second": 3.19,
	"step": 3668
	},
	{
	"epoch": 201.97,
	"eval_gen_len": 18.4818,
	"eval_loss": 0.26064223051071167,
	"eval_rouge1": 0.1883,
	"eval_rouge2": 0.1542,
	"eval_rougeL": 0.1857,
	"eval_rougeLsum": 0.1854,
	"eval_runtime": 5.9305,
	"eval_samples_per_second": 18.548,
	"eval_steps_per_second": 3.204,
	"step": 3686
	},
	{
	"epoch": 202.96,
	"eval_gen_len": 18.6364,
	"eval_loss": 0.2593740224838257,
	"eval_rouge1": 0.1822,
	"eval_rouge2": 0.1461,
	"eval_rougeL": 0.179,
	"eval_rougeLsum": 0.1784,
	"eval_runtime": 5.9634,
	"eval_samples_per_second": 18.446,
	"eval_steps_per_second": 3.186,
	"step": 3704
	},
	{
	"epoch": 204.0,
	"eval_gen_len": 18.5909,
	"eval_loss": 0.2574484348297119,
	"eval_rouge1": 0.1785,
	"eval_rouge2": 0.1424,
	"eval_rougeL": 0.1754,
	"eval_rougeLsum": 0.1741,
	"eval_runtime": 5.9326,
	"eval_samples_per_second": 18.542,
	"eval_steps_per_second": 3.203,
	"step": 3723
	},
	{
	"epoch": 204.99,
	"eval_gen_len": 18.5909,
	"eval_loss": 0.255962997674942,
	"eval_rouge1": 0.182,
	"eval_rouge2": 0.1475,
	"eval_rougeL": 0.1799,
	"eval_rougeLsum": 0.1789,
	"eval_runtime": 5.9645,
	"eval_samples_per_second": 18.442,
	"eval_steps_per_second": 3.186,
	"step": 3741
	},
	{
	"epoch": 205.97,
	"eval_gen_len": 18.3818,
	"eval_loss": 0.25388580560684204,
	"eval_rouge1": 0.1899,
	"eval_rouge2": 0.1557,
	"eval_rougeL": 0.1862,
	"eval_rougeLsum": 0.1861,
	"eval_runtime": 5.9231,
	"eval_samples_per_second": 18.571,
	"eval_steps_per_second": 3.208,
	"step": 3759
	},
	{
	"epoch": 206.96,
	"eval_gen_len": 18.3727,
	"eval_loss": 0.251926988363266,
	"eval_rouge1": 0.1962,
	"eval_rouge2": 0.1635,
	"eval_rougeL": 0.1935,
	"eval_rougeLsum": 0.1929,
	"eval_runtime": 5.9351,
	"eval_samples_per_second": 18.534,
	"eval_steps_per_second": 3.201,
	"step": 3777
	},
	{
	"epoch": 208.0,
	"eval_gen_len": 18.5818,
	"eval_loss": 0.25200676918029785,
	"eval_rouge1": 0.2002,
	"eval_rouge2": 0.1666,
	"eval_rougeL": 0.197,
	"eval_rougeLsum": 0.1964,
	"eval_runtime": 5.9349,
	"eval_samples_per_second": 18.535,
	"eval_steps_per_second": 3.201,
	"step": 3796
	},
	{
	"epoch": 208.99,
	"eval_gen_len": 18.4182,
	"eval_loss": 0.24954193830490112,
	"eval_rouge1": 0.2016,
	"eval_rouge2": 0.1708,
	"eval_rougeL": 0.1997,
	"eval_rougeLsum": 0.1994,
	"eval_runtime": 5.9236,
	"eval_samples_per_second": 18.57,
	"eval_steps_per_second": 3.208,
	"step": 3814
	},
	{
	"epoch": 209.97,
	"eval_gen_len": 18.5182,
	"eval_loss": 0.2487880438566208,
	"eval_rouge1": 0.2029,
	"eval_rouge2": 0.172,
	"eval_rougeL": 0.2008,
	"eval_rougeLsum": 0.2005,
	"eval_runtime": 5.9666,
	"eval_samples_per_second": 18.436,
	"eval_steps_per_second": 3.184,
	"step": 3832
	},
	{
	"epoch": 210.96,
	"eval_gen_len": 18.7455,
	"eval_loss": 0.246944397687912,
	"eval_rouge1": 0.2126,
	"eval_rouge2": 0.183,
	"eval_rougeL": 0.2107,
	"eval_rougeLsum": 0.2102,
	"eval_runtime": 5.9334,
	"eval_samples_per_second": 18.539,
	"eval_steps_per_second": 3.202,
	"step": 3850
	},
	{
	"epoch": 212.0,
	"eval_gen_len": 18.7455,
	"eval_loss": 0.24503479897975922,
	"eval_rouge1": 0.2153,
	"eval_rouge2": 0.1832,
	"eval_rougeL": 0.213,
	"eval_rougeLsum": 0.2126,
	"eval_runtime": 5.9384,
	"eval_samples_per_second": 18.524,
	"eval_steps_per_second": 3.2,
	"step": 3869
	},
	{
	"epoch": 212.99,
	"eval_gen_len": 18.8,
	"eval_loss": 0.24539507925510406,
	"eval_rouge1": 0.2199,
	"eval_rouge2": 0.1891,
	"eval_rougeL": 0.2176,
	"eval_rougeLsum": 0.2173,
	"eval_runtime": 5.9326,
	"eval_samples_per_second": 18.542,
	"eval_steps_per_second": 3.203,
	"step": 3887
	},
	{
	"epoch": 213.97,
	"eval_gen_len": 18.7455,
	"eval_loss": 0.24339380860328674,
	"eval_rouge1": 0.2253,
	"eval_rouge2": 0.1972,
	"eval_rougeL": 0.2239,
	"eval_rougeLsum": 0.2238,
	"eval_runtime": 5.9368,
	"eval_samples_per_second": 18.529,
	"eval_steps_per_second": 3.2,
	"step": 3905
	},
	{
	"epoch": 214.96,
	"eval_gen_len": 18.8,
	"eval_loss": 0.24222548305988312,
	"eval_rouge1": 0.2245,
	"eval_rouge2": 0.1953,
	"eval_rougeL": 0.2234,
	"eval_rougeLsum": 0.2227,
	"eval_runtime": 5.9303,
	"eval_samples_per_second": 18.549,
	"eval_steps_per_second": 3.204,
	"step": 3923
	},
	{
	"epoch": 216.0,
	"eval_gen_len": 18.8,
	"eval_loss": 0.24038065969944,
	"eval_rouge1": 0.2269,
	"eval_rouge2": 0.1974,
	"eval_rougeL": 0.2255,
	"eval_rougeLsum": 0.2251,
	"eval_runtime": 5.9423,
	"eval_samples_per_second": 18.511,
	"eval_steps_per_second": 3.197,
	"step": 3942
	},
	{
	"epoch": 216.99,
	"eval_gen_len": 18.8,
	"eval_loss": 0.24085824191570282,
	"eval_rouge1": 0.2324,
	"eval_rouge2": 0.203,
	"eval_rougeL": 0.2305,
	"eval_rougeLsum": 0.2302,
	"eval_runtime": 5.9374,
	"eval_samples_per_second": 18.527,
	"eval_steps_per_second": 3.2,
	"step": 3960
	},
	{
	"epoch": 217.97,
	"eval_gen_len": 18.8,
	"eval_loss": 0.2390824556350708,
	"eval_rouge1": 0.2328,
	"eval_rouge2": 0.204,
	"eval_rougeL": 0.2309,
	"eval_rougeLsum": 0.2307,
	"eval_runtime": 5.9716,
	"eval_samples_per_second": 18.421,
	"eval_steps_per_second": 3.182,
	"step": 3978
	},
	{
	"epoch": 218.96,
	"eval_gen_len": 18.9636,
	"eval_loss": 0.23841167986392975,
	"eval_rouge1": 0.2394,
	"eval_rouge2": 0.2109,
	"eval_rougeL": 0.2381,
	"eval_rougeLsum": 0.238,
	"eval_runtime": 5.9528,
	"eval_samples_per_second": 18.479,
	"eval_steps_per_second": 3.192,
	"step": 3996
	},
	{
	"epoch": 219.18,
	"grad_norm": 1.037503957748413,
	"learning_rate": 1.1124444444444444e-05,
	"loss": 0.3439,
	"step": 4000
	},
	{
	"epoch": 220.0,
	"eval_gen_len": 18.9636,
	"eval_loss": 0.2358517199754715,
	"eval_rouge1": 0.2413,
	"eval_rouge2": 0.2128,
	"eval_rougeL": 0.2404,
	"eval_rougeLsum": 0.2403,
	"eval_runtime": 5.9869,
	"eval_samples_per_second": 18.373,
	"eval_steps_per_second": 3.174,
	"step": 4015
	},
	{
	"epoch": 220.99,
	"eval_gen_len": 18.9636,
	"eval_loss": 0.2353217452764511,
	"eval_rouge1": 0.2411,
	"eval_rouge2": 0.2122,
	"eval_rougeL": 0.2401,
	"eval_rougeLsum": 0.2398,
	"eval_runtime": 5.9744,
	"eval_samples_per_second": 18.412,
	"eval_steps_per_second": 3.18,
	"step": 4033
	},
	{
	"epoch": 221.97,
	"eval_gen_len": 18.9636,
	"eval_loss": 0.23452366888523102,
	"eval_rouge1": 0.2423,
	"eval_rouge2": 0.2131,
	"eval_rougeL": 0.2414,
	"eval_rougeLsum": 0.2409,
	"eval_runtime": 5.9345,
	"eval_samples_per_second": 18.536,
	"eval_steps_per_second": 3.202,
	"step": 4051
	},
	{
	"epoch": 222.96,
	"eval_gen_len": 18.9636,
	"eval_loss": 0.23285672068595886,
	"eval_rouge1": 0.2417,
	"eval_rouge2": 0.2133,
	"eval_rougeL": 0.2407,
	"eval_rougeLsum": 0.2404,
	"eval_runtime": 5.9399,
	"eval_samples_per_second": 18.519,
	"eval_steps_per_second": 3.199,
	"step": 4069
	},
	{
	"epoch": 224.0,
	"eval_gen_len": 18.9636,
	"eval_loss": 0.23224669694900513,
	"eval_rouge1": 0.2439,
	"eval_rouge2": 0.2166,
	"eval_rougeL": 0.2434,
	"eval_rougeLsum": 0.2431,
	"eval_runtime": 5.9565,
	"eval_samples_per_second": 18.467,
	"eval_steps_per_second": 3.19,
	"step": 4088
	},
	{
	"epoch": 224.99,
	"eval_gen_len": 18.9636,
	"eval_loss": 0.231593519449234,
	"eval_rouge1": 0.2416,
	"eval_rouge2": 0.2138,
	"eval_rougeL": 0.2413,
	"eval_rougeLsum": 0.2409,
	"eval_runtime": 5.9359,
	"eval_samples_per_second": 18.531,
	"eval_steps_per_second": 3.201,
	"step": 4106
	},
	{
	"epoch": 225.97,
	"eval_gen_len": 18.9636,
	"eval_loss": 0.23053088784217834,
	"eval_rouge1": 0.2423,
	"eval_rouge2": 0.2147,
	"eval_rougeL": 0.242,
	"eval_rougeLsum": 0.2414,
	"eval_runtime": 5.9359,
	"eval_samples_per_second": 18.531,
	"eval_steps_per_second": 3.201,
	"step": 4124
	},
	{
	"epoch": 226.96,
	"eval_gen_len": 18.9636,
	"eval_loss": 0.22999462485313416,
	"eval_rouge1": 0.243,
	"eval_rouge2": 0.215,
	"eval_rougeL": 0.2427,
	"eval_rougeLsum": 0.242,
	"eval_runtime": 5.939,
	"eval_samples_per_second": 18.522,
	"eval_steps_per_second": 3.199,
	"step": 4142
	},
	{
	"epoch": 228.0,
	"eval_gen_len": 18.9182,
	"eval_loss": 0.22881445288658142,
	"eval_rouge1": 0.2472,
	"eval_rouge2": 0.2201,
	"eval_rougeL": 0.2469,
	"eval_rougeLsum": 0.2466,
	"eval_runtime": 5.9542,
	"eval_samples_per_second": 18.474,
	"eval_steps_per_second": 3.191,
	"step": 4161
	},
	{
	"epoch": 228.99,
	"eval_gen_len": 18.9636,
	"eval_loss": 0.2282283455133438,
	"eval_rouge1": 0.247,
	"eval_rouge2": 0.2195,
	"eval_rougeL": 0.2468,
	"eval_rougeLsum": 0.2464,
	"eval_runtime": 5.9427,
	"eval_samples_per_second": 18.51,
	"eval_steps_per_second": 3.197,
	"step": 4179
	},
	{
	"epoch": 229.97,
	"eval_gen_len": 18.9182,
	"eval_loss": 0.22686214745044708,
	"eval_rouge1": 0.2437,
	"eval_rouge2": 0.2163,
	"eval_rougeL": 0.2436,
	"eval_rougeLsum": 0.2434,
	"eval_runtime": 5.9383,
	"eval_samples_per_second": 18.524,
	"eval_steps_per_second": 3.2,
	"step": 4197
	},
	{
	"epoch": 230.96,
	"eval_gen_len": 18.9636,
	"eval_loss": 0.22540777921676636,
	"eval_rouge1": 0.2485,
	"eval_rouge2": 0.2218,
	"eval_rougeL": 0.2484,
	"eval_rougeLsum": 0.2478,
	"eval_runtime": 5.9379,
	"eval_samples_per_second": 18.525,
	"eval_steps_per_second": 3.2,
	"step": 4215
	},
	{
	"epoch": 232.0,
	"eval_gen_len": 18.7455,
	"eval_loss": 0.22596728801727295,
	"eval_rouge1": 0.2458,
	"eval_rouge2": 0.2194,
	"eval_rougeL": 0.2456,
	"eval_rougeLsum": 0.2455,
	"eval_runtime": 5.9457,
	"eval_samples_per_second": 18.501,
	"eval_steps_per_second": 3.196,
	"step": 4234
	},
	{
	"epoch": 232.99,
	"eval_gen_len": 18.6182,
	"eval_loss": 0.22396238148212433,
	"eval_rouge1": 0.2482,
	"eval_rouge2": 0.2227,
	"eval_rougeL": 0.2481,
	"eval_rougeLsum": 0.248,
	"eval_runtime": 5.9411,
	"eval_samples_per_second": 18.515,
	"eval_steps_per_second": 3.198,
	"step": 4252
	},
	{
	"epoch": 233.97,
	"eval_gen_len": 18.6182,
	"eval_loss": 0.22270821034908295,
	"eval_rouge1": 0.2442,
	"eval_rouge2": 0.2178,
	"eval_rougeL": 0.2438,
	"eval_rougeLsum": 0.2435,
	"eval_runtime": 5.9443,
	"eval_samples_per_second": 18.505,
	"eval_steps_per_second": 3.196,
	"step": 4270
	},
	{
	"epoch": 234.96,
	"eval_gen_len": 18.6182,
	"eval_loss": 0.222365602850914,
	"eval_rouge1": 0.2491,
	"eval_rouge2": 0.2241,
	"eval_rougeL": 0.2487,
	"eval_rougeLsum": 0.2488,
	"eval_runtime": 5.9399,
	"eval_samples_per_second": 18.519,
	"eval_steps_per_second": 3.199,
	"step": 4288
	},
	{
	"epoch": 236.0,
	"eval_gen_len": 18.6182,
	"eval_loss": 0.22221778333187103,
	"eval_rouge1": 0.2486,
	"eval_rouge2": 0.2233,
	"eval_rougeL": 0.2484,
	"eval_rougeLsum": 0.2484,
	"eval_runtime": 5.9418,
	"eval_samples_per_second": 18.513,
	"eval_steps_per_second": 3.198,
	"step": 4307
	},
	{
	"epoch": 236.99,
	"eval_gen_len": 18.2727,
	"eval_loss": 0.2206820845603943,
	"eval_rouge1": 0.2443,
	"eval_rouge2": 0.219,
	"eval_rougeL": 0.2434,
	"eval_rougeLsum": 0.2434,
	"eval_runtime": 5.9282,
	"eval_samples_per_second": 18.555,
	"eval_steps_per_second": 3.205,
	"step": 4325
	},
	{
	"epoch": 237.97,
	"eval_gen_len": 17.4091,
	"eval_loss": 0.22046072781085968,
	"eval_rouge1": 0.2327,
	"eval_rouge2": 0.2091,
	"eval_rougeL": 0.2321,
	"eval_rougeLsum": 0.2325,
	"eval_runtime": 5.9336,
	"eval_samples_per_second": 18.539,
	"eval_steps_per_second": 3.202,
	"step": 4343
	},
	{
	"epoch": 238.96,
	"eval_gen_len": 15.1636,
	"eval_loss": 0.21863390505313873,
	"eval_rouge1": 0.1989,
	"eval_rouge2": 0.1774,
	"eval_rougeL": 0.1978,
	"eval_rougeLsum": 0.1979,
	"eval_runtime": 5.9311,
	"eval_samples_per_second": 18.546,
	"eval_steps_per_second": 3.203,
	"step": 4361
	},
	{
	"epoch": 240.0,
	"eval_gen_len": 16.1909,
	"eval_loss": 0.2192383110523224,
	"eval_rouge1": 0.2148,
	"eval_rouge2": 0.1923,
	"eval_rougeL": 0.2137,
	"eval_rougeLsum": 0.2144,
	"eval_runtime": 5.9365,
	"eval_samples_per_second": 18.529,
	"eval_steps_per_second": 3.201,
	"step": 4380
	},
	{
	"epoch": 240.99,
	"eval_gen_len": 13.0909,
	"eval_loss": 0.2176760584115982,
	"eval_rouge1": 0.1742,
	"eval_rouge2": 0.1548,
	"eval_rougeL": 0.1725,
	"eval_rougeLsum": 0.1723,
	"eval_runtime": 5.9161,
	"eval_samples_per_second": 18.593,
	"eval_steps_per_second": 3.212,
	"step": 4398
	},
	{
	"epoch": 241.97,
	"eval_gen_len": 11.7091,
	"eval_loss": 0.21764642000198364,
	"eval_rouge1": 0.1541,
	"eval_rouge2": 0.1376,
	"eval_rougeL": 0.1529,
	"eval_rougeLsum": 0.1537,
	"eval_runtime": 5.9162,
	"eval_samples_per_second": 18.593,
	"eval_steps_per_second": 3.212,
	"step": 4416
	},
	{
	"epoch": 242.96,
	"eval_gen_len": 12.9,
	"eval_loss": 0.21736116707324982,
	"eval_rouge1": 0.1671,
	"eval_rouge2": 0.1495,
	"eval_rougeL": 0.1661,
	"eval_rougeLsum": 0.1671,
	"eval_runtime": 5.9221,
	"eval_samples_per_second": 18.574,
	"eval_steps_per_second": 3.208,
	"step": 4434
	},
	{
	"epoch": 244.0,
	"eval_gen_len": 10.4818,
	"eval_loss": 0.21571263670921326,
	"eval_rouge1": 0.1364,
	"eval_rouge2": 0.1201,
	"eval_rougeL": 0.1354,
	"eval_rougeLsum": 0.135,
	"eval_runtime": 5.9422,
	"eval_samples_per_second": 18.512,
	"eval_steps_per_second": 3.197,
	"step": 4453
	},
	{
	"epoch": 244.99,
	"eval_gen_len": 8.9273,
	"eval_loss": 0.21506664156913757,
	"eval_rouge1": 0.1149,
	"eval_rouge2": 0.101,
	"eval_rougeL": 0.1133,
	"eval_rougeLsum": 0.1136,
	"eval_runtime": 5.9071,
	"eval_samples_per_second": 18.622,
	"eval_steps_per_second": 3.216,
	"step": 4471
	},
	{
	"epoch": 245.97,
	"eval_gen_len": 7.7182,
	"eval_loss": 0.21382498741149902,
	"eval_rouge1": 0.0989,
	"eval_rouge2": 0.0866,
	"eval_rougeL": 0.0976,
	"eval_rougeLsum": 0.0981,
	"eval_runtime": 5.9086,
	"eval_samples_per_second": 18.617,
	"eval_steps_per_second": 3.216,
	"step": 4489
	},
	{
	"epoch": 246.58,
	"grad_norm": 0.4568144977092743,
	"learning_rate": 1.0013333333333335e-05,
	"loss": 0.2977,
	"step": 4500
	},
	{
	"epoch": 246.96,
	"eval_gen_len": 7.3727,
	"eval_loss": 0.21434056758880615,
	"eval_rouge1": 0.0942,
	"eval_rouge2": 0.0823,
	"eval_rougeL": 0.093,
	"eval_rougeLsum": 0.0937,
	"eval_runtime": 5.9102,
	"eval_samples_per_second": 18.612,
	"eval_steps_per_second": 3.215,
	"step": 4507
	},
	{
	"epoch": 248.0,
	"eval_gen_len": 6.8636,
	"eval_loss": 0.2125895619392395,
	"eval_rouge1": 0.0884,
	"eval_rouge2": 0.0777,
	"eval_rougeL": 0.0876,
	"eval_rougeLsum": 0.0884,
	"eval_runtime": 5.9078,
	"eval_samples_per_second": 18.619,
	"eval_steps_per_second": 3.216,
	"step": 4526
	},
	{
	"epoch": 248.99,
	"eval_gen_len": 6.6909,
	"eval_loss": 0.21264444291591644,
	"eval_rouge1": 0.0856,
	"eval_rouge2": 0.0753,
	"eval_rougeL": 0.0851,
	"eval_rougeLsum": 0.0853,
	"eval_runtime": 5.9128,
	"eval_samples_per_second": 18.604,
	"eval_steps_per_second": 3.213,
	"step": 4544
	},
	{
	"epoch": 249.97,
	"eval_gen_len": 6.8636,
	"eval_loss": 0.2110782116651535,
	"eval_rouge1": 0.0871,
	"eval_rouge2": 0.0764,
	"eval_rougeL": 0.0865,
	"eval_rougeLsum": 0.0866,
	"eval_runtime": 5.911,
	"eval_samples_per_second": 18.609,
	"eval_steps_per_second": 3.214,
	"step": 4562
	},
	{
	"epoch": 250.96,
	"eval_gen_len": 6.3455,
	"eval_loss": 0.2114747315645218,
	"eval_rouge1": 0.0813,
	"eval_rouge2": 0.071,
	"eval_rougeL": 0.0805,
	"eval_rougeLsum": 0.0808,
	"eval_runtime": 5.9048,
	"eval_samples_per_second": 18.629,
	"eval_steps_per_second": 3.218,
	"step": 4580
	},
	{
	"epoch": 252.0,
	"eval_gen_len": 5.1364,
	"eval_loss": 0.21088837087154388,
	"eval_rouge1": 0.0658,
	"eval_rouge2": 0.0587,
	"eval_rougeL": 0.0647,
	"eval_rougeLsum": 0.0656,
	"eval_runtime": 5.9122,
	"eval_samples_per_second": 18.606,
	"eval_steps_per_second": 3.214,
	"step": 4599
	},
	{
	"epoch": 252.99,
	"eval_gen_len": 4.1,
	"eval_loss": 0.21026724576950073,
	"eval_rouge1": 0.0525,
	"eval_rouge2": 0.0474,
	"eval_rougeL": 0.0523,
	"eval_rougeLsum": 0.0531,
	"eval_runtime": 5.8924,
	"eval_samples_per_second": 18.668,
	"eval_steps_per_second": 3.225,
	"step": 4617
	},
	{
	"epoch": 253.97,
	"eval_gen_len": 3.4091,
	"eval_loss": 0.20923300087451935,
	"eval_rouge1": 0.0422,
	"eval_rouge2": 0.0371,
	"eval_rougeL": 0.0417,
	"eval_rougeLsum": 0.0427,
	"eval_runtime": 5.9069,
	"eval_samples_per_second": 18.622,
	"eval_steps_per_second": 3.217,
	"step": 4635
	},
	{
	"epoch": 254.96,
	"eval_gen_len": 3.4091,
	"eval_loss": 0.20883551239967346,
	"eval_rouge1": 0.0425,
	"eval_rouge2": 0.0373,
	"eval_rougeL": 0.0421,
	"eval_rougeLsum": 0.0432,
	"eval_runtime": 5.8899,
	"eval_samples_per_second": 18.676,
	"eval_steps_per_second": 3.226,
	"step": 4653
	},
	{
	"epoch": 256.0,
	"eval_gen_len": 3.0545,
	"eval_loss": 0.20799440145492554,
	"eval_rouge1": 0.0383,
	"eval_rouge2": 0.0339,
	"eval_rougeL": 0.0381,
	"eval_rougeLsum": 0.0386,
	"eval_runtime": 5.8948,
	"eval_samples_per_second": 18.66,
	"eval_steps_per_second": 3.223,
	"step": 4672
	},
	{
	"epoch": 256.99,
	"eval_gen_len": 2.0364,
	"eval_loss": 0.20746435225009918,
	"eval_rouge1": 0.0256,
	"eval_rouge2": 0.0228,
	"eval_rougeL": 0.0255,
	"eval_rougeLsum": 0.0259,
	"eval_runtime": 5.8826,
	"eval_samples_per_second": 18.699,
	"eval_steps_per_second": 3.23,
	"step": 4690
	},
	{
	"epoch": 257.97,
	"eval_gen_len": 2.0364,
	"eval_loss": 0.2079101800918579,
	"eval_rouge1": 0.026,
	"eval_rouge2": 0.0231,
	"eval_rougeL": 0.0258,
	"eval_rougeLsum": 0.0263,
	"eval_runtime": 5.9214,
	"eval_samples_per_second": 18.577,
	"eval_steps_per_second": 3.209,
	"step": 4708
	},
	{
	"epoch": 258.96,
	"eval_gen_len": 2.0182,
	"eval_loss": 0.20639775693416595,
	"eval_rouge1": 0.0232,
	"eval_rouge2": 0.0203,
	"eval_rougeL": 0.0231,
	"eval_rougeLsum": 0.0233,
	"eval_runtime": 5.9298,
	"eval_samples_per_second": 18.55,
	"eval_steps_per_second": 3.204,
	"step": 4726
	},
	{
	"epoch": 260.0,
	"eval_gen_len": 2.0182,
	"eval_loss": 0.20615024864673615,
	"eval_rouge1": 0.0238,
	"eval_rouge2": 0.0202,
	"eval_rougeL": 0.0237,
	"eval_rougeLsum": 0.0238,
	"eval_runtime": 5.9324,
	"eval_samples_per_second": 18.542,
	"eval_steps_per_second": 3.203,
	"step": 4745
	},
	{
	"epoch": 260.99,
	"eval_gen_len": 1.7091,
	"eval_loss": 0.20586760342121124,
	"eval_rouge1": 0.02,
	"eval_rouge2": 0.0175,
	"eval_rougeL": 0.0202,
	"eval_rougeLsum": 0.0201,
	"eval_runtime": 5.8796,
	"eval_samples_per_second": 18.709,
	"eval_steps_per_second": 3.231,
	"step": 4763
	},
	{
	"epoch": 261.97,
	"eval_gen_len": 0.6909,
	"eval_loss": 0.20486456155776978,
	"eval_rouge1": 0.0091,
	"eval_rouge2": 0.0079,
	"eval_rougeL": 0.0091,
	"eval_rougeLsum": 0.0091,
	"eval_runtime": 5.8759,
	"eval_samples_per_second": 18.721,
	"eval_steps_per_second": 3.234,
	"step": 4781
	},
	{
	"epoch": 262.96,
	"eval_gen_len": 0.6909,
	"eval_loss": 0.20466168224811554,
	"eval_rouge1": 0.0091,
	"eval_rouge2": 0.0079,
	"eval_rougeL": 0.0091,
	"eval_rougeLsum": 0.0091,
	"eval_runtime": 5.9163,
	"eval_samples_per_second": 18.593,
	"eval_steps_per_second": 3.211,
	"step": 4799
	},
	{
	"epoch": 264.0,
	"eval_gen_len": 0.6818,
	"eval_loss": 0.20416179299354553,
	"eval_rouge1": 0.0082,
	"eval_rouge2": 0.0071,
	"eval_rougeL": 0.0081,
	"eval_rougeLsum": 0.0082,
	"eval_runtime": 5.8989,
	"eval_samples_per_second": 18.647,
	"eval_steps_per_second": 3.221,
	"step": 4818
	},
	{
	"epoch": 264.99,
	"eval_gen_len": 0.3364,
	"eval_loss": 0.20311486721038818,
	"eval_rouge1": 0.0044,
	"eval_rouge2": 0.0038,
	"eval_rougeL": 0.0044,
	"eval_rougeLsum": 0.0046,
	"eval_runtime": 5.8639,
	"eval_samples_per_second": 18.759,
	"eval_steps_per_second": 3.24,
	"step": 4836
	},
	{
	"epoch": 265.97,
	"eval_gen_len": 0.3455,
	"eval_loss": 0.20284703373908997,
	"eval_rouge1": 0.0057,
	"eval_rouge2": 0.0051,
	"eval_rougeL": 0.0057,
	"eval_rougeLsum": 0.0057,
	"eval_runtime": 5.874,
	"eval_samples_per_second": 18.726,
	"eval_steps_per_second": 3.235,
	"step": 4854
	},
	{
	"epoch": 266.96,
	"eval_gen_len": 0.3455,
	"eval_loss": 0.20207703113555908,
	"eval_rouge1": 0.0057,
	"eval_rouge2": 0.0051,
	"eval_rougeL": 0.0057,
	"eval_rougeLsum": 0.0057,
	"eval_runtime": 5.871,
	"eval_samples_per_second": 18.736,
	"eval_steps_per_second": 3.236,
	"step": 4872
	},
	{
	"epoch": 268.0,
	"eval_gen_len": 0.3455,
	"eval_loss": 0.20189516246318817,
	"eval_rouge1": 0.0057,
	"eval_rouge2": 0.0051,
	"eval_rougeL": 0.0057,
	"eval_rougeLsum": 0.0057,
	"eval_runtime": 5.8784,
	"eval_samples_per_second": 18.713,
	"eval_steps_per_second": 3.232,
	"step": 4891
	},
	{
	"epoch": 268.99,
	"eval_gen_len": 0.3455,
	"eval_loss": 0.20159202814102173,
	"eval_rouge1": 0.0057,
	"eval_rouge2": 0.0051,
	"eval_rougeL": 0.0057,
	"eval_rougeLsum": 0.0057,
	"eval_runtime": 5.8675,
	"eval_samples_per_second": 18.747,
	"eval_steps_per_second": 3.238,
	"step": 4909
	},
	{
	"epoch": 269.97,
	"eval_gen_len": 0.3455,
	"eval_loss": 0.20119339227676392,
	"eval_rouge1": 0.0057,
	"eval_rouge2": 0.0051,
	"eval_rougeL": 0.0057,
	"eval_rougeLsum": 0.0057,
	"eval_runtime": 5.8693,
	"eval_samples_per_second": 18.741,
	"eval_steps_per_second": 3.237,
	"step": 4927
	},
	{
	"epoch": 270.96,
	"eval_gen_len": 0.3455,
	"eval_loss": 0.20063255727291107,
	"eval_rouge1": 0.0057,
	"eval_rouge2": 0.0051,
	"eval_rougeL": 0.0057,
	"eval_rougeLsum": 0.0057,
	"eval_runtime": 5.8634,
	"eval_samples_per_second": 18.76,
	"eval_steps_per_second": 3.24,
	"step": 4945
	},
	{
	"epoch": 272.0,
	"eval_gen_len": 0.3455,
	"eval_loss": 0.20042632520198822,
	"eval_rouge1": 0.0057,
	"eval_rouge2": 0.0051,
	"eval_rougeL": 0.0057,
	"eval_rougeLsum": 0.0057,
	"eval_runtime": 5.9002,
	"eval_samples_per_second": 18.644,
	"eval_steps_per_second": 3.22,
	"step": 4964
	},
	{
	"epoch": 272.99,
	"eval_gen_len": 0.3455,
	"eval_loss": 0.19937776029109955,
	"eval_rouge1": 0.0057,
	"eval_rouge2": 0.0051,
	"eval_rougeL": 0.0057,
	"eval_rougeLsum": 0.0057,
	"eval_runtime": 5.866,
	"eval_samples_per_second": 18.752,
	"eval_steps_per_second": 3.239,
	"step": 4982
	},
	{
	"epoch": 273.97,
	"grad_norm": 0.47718000411987305,
	"learning_rate": 8.902222222222224e-06,
	"loss": 0.2666,
	"step": 5000
	},
	{
	"epoch": 273.97,
	"eval_gen_len": 0.5182,
	"eval_loss": 0.199092298746109,
	"eval_rouge1": 0.008,
	"eval_rouge2": 0.0071,
	"eval_rougeL": 0.008,
	"eval_rougeLsum": 0.008,
	"eval_runtime": 5.8818,
	"eval_samples_per_second": 18.702,
	"eval_steps_per_second": 3.23,
	"step": 5000
	},
	{
	"epoch": 274.96,
	"eval_gen_len": 0.5182,
	"eval_loss": 0.1990521252155304,
	"eval_rouge1": 0.008,
	"eval_rouge2": 0.0071,
	"eval_rougeL": 0.008,
	"eval_rougeLsum": 0.008,
	"eval_runtime": 5.8794,
	"eval_samples_per_second": 18.709,
	"eval_steps_per_second": 3.232,
	"step": 5018
	},
	{
	"epoch": 276.0,
	"eval_gen_len": 0.5182,
	"eval_loss": 0.19846394658088684,
	"eval_rouge1": 0.008,
	"eval_rouge2": 0.0071,
	"eval_rougeL": 0.008,
	"eval_rougeLsum": 0.008,
	"eval_runtime": 5.8793,
	"eval_samples_per_second": 18.71,
	"eval_steps_per_second": 3.232,
	"step": 5037
	},
	{
	"epoch": 276.99,
	"eval_gen_len": 0.5182,
	"eval_loss": 0.1975831538438797,
	"eval_rouge1": 0.008,
	"eval_rouge2": 0.0071,
	"eval_rougeL": 0.008,
	"eval_rougeLsum": 0.008,
	"eval_runtime": 5.8684,
	"eval_samples_per_second": 18.744,
	"eval_steps_per_second": 3.238,
	"step": 5055
	},
	{
	"epoch": 277.97,
	"eval_gen_len": 0.1727,
	"eval_loss": 0.19685131311416626,
	"eval_rouge1": 0.0025,
	"eval_rouge2": 0.0024,
	"eval_rougeL": 0.0025,
	"eval_rougeLsum": 0.0025,
	"eval_runtime": 5.8685,
	"eval_samples_per_second": 18.744,
	"eval_steps_per_second": 3.238,
	"step": 5073
	},
	{
	"epoch": 278.96,
	"eval_gen_len": 0.1727,
	"eval_loss": 0.19685351848602295,
	"eval_rouge1": 0.0025,
	"eval_rouge2": 0.0024,
	"eval_rougeL": 0.0025,
	"eval_rougeLsum": 0.0025,
	"eval_runtime": 5.87,
	"eval_samples_per_second": 18.739,
	"eval_steps_per_second": 3.237,
	"step": 5091
	},
	{
	"epoch": 280.0,
	"eval_gen_len": 0.3455,
	"eval_loss": 0.19706358015537262,
	"eval_rouge1": 0.0057,
	"eval_rouge2": 0.0051,
	"eval_rougeL": 0.0057,
	"eval_rougeLsum": 0.0057,
	"eval_runtime": 5.8807,
	"eval_samples_per_second": 18.705,
	"eval_steps_per_second": 3.231,
	"step": 5110
	},
	{
	"epoch": 280.99,
	"eval_gen_len": 0.1727,
	"eval_loss": 0.19580155611038208,
	"eval_rouge1": 0.0025,
	"eval_rouge2": 0.0024,
	"eval_rougeL": 0.0025,
	"eval_rougeLsum": 0.0025,
	"eval_runtime": 5.8696,
	"eval_samples_per_second": 18.741,
	"eval_steps_per_second": 3.237,
	"step": 5128
	},
	{
	"epoch": 281.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1954393833875656,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8668,
	"eval_samples_per_second": 18.75,
	"eval_steps_per_second": 3.239,
	"step": 5146
	},
	{
	"epoch": 282.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.19552475214004517,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8798,
	"eval_samples_per_second": 18.708,
	"eval_steps_per_second": 3.231,
	"step": 5164
	},
	{
	"epoch": 284.0,
	"eval_gen_len": 0.1727,
	"eval_loss": 0.1950557678937912,
	"eval_rouge1": 0.0025,
	"eval_rouge2": 0.0024,
	"eval_rougeL": 0.0025,
	"eval_rougeLsum": 0.0025,
	"eval_runtime": 5.8764,
	"eval_samples_per_second": 18.719,
	"eval_steps_per_second": 3.233,
	"step": 5183
	},
	{
	"epoch": 284.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1939947009086609,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8768,
	"eval_samples_per_second": 18.718,
	"eval_steps_per_second": 3.233,
	"step": 5201
	},
	{
	"epoch": 285.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.19393964111804962,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8764,
	"eval_samples_per_second": 18.719,
	"eval_steps_per_second": 3.233,
	"step": 5219
	},
	{
	"epoch": 286.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.19383706152439117,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8701,
	"eval_samples_per_second": 18.739,
	"eval_steps_per_second": 3.237,
	"step": 5237
	},
	{
	"epoch": 288.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1930641084909439,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8828,
	"eval_samples_per_second": 18.699,
	"eval_steps_per_second": 3.23,
	"step": 5256
	},
	{
	"epoch": 288.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.19216330349445343,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8721,
	"eval_samples_per_second": 18.733,
	"eval_steps_per_second": 3.236,
	"step": 5274
	},
	{
	"epoch": 289.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1919858455657959,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.886,
	"eval_samples_per_second": 18.688,
	"eval_steps_per_second": 3.228,
	"step": 5292
	},
	{
	"epoch": 290.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.19181759655475616,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8804,
	"eval_samples_per_second": 18.706,
	"eval_steps_per_second": 3.231,
	"step": 5310
	},
	{
	"epoch": 292.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1913154274225235,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8887,
	"eval_samples_per_second": 18.68,
	"eval_steps_per_second": 3.227,
	"step": 5329
	},
	{
	"epoch": 292.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.19096632301807404,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8809,
	"eval_samples_per_second": 18.704,
	"eval_steps_per_second": 3.231,
	"step": 5347
	},
	{
	"epoch": 293.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.19034302234649658,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.886,
	"eval_samples_per_second": 18.688,
	"eval_steps_per_second": 3.228,
	"step": 5365
	},
	{
	"epoch": 294.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18984819948673248,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8905,
	"eval_samples_per_second": 18.674,
	"eval_steps_per_second": 3.226,
	"step": 5383
	},
	{
	"epoch": 296.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1901622861623764,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8956,
	"eval_samples_per_second": 18.658,
	"eval_steps_per_second": 3.223,
	"step": 5402
	},
	{
	"epoch": 296.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18923012912273407,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8738,
	"eval_samples_per_second": 18.727,
	"eval_steps_per_second": 3.235,
	"step": 5420
	},
	{
	"epoch": 297.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18847127258777618,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8804,
	"eval_samples_per_second": 18.706,
	"eval_steps_per_second": 3.231,
	"step": 5438
	},
	{
	"epoch": 298.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1884116530418396,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8771,
	"eval_samples_per_second": 18.717,
	"eval_steps_per_second": 3.233,
	"step": 5456
	},
	{
	"epoch": 300.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18776828050613403,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8882,
	"eval_samples_per_second": 18.681,
	"eval_steps_per_second": 3.227,
	"step": 5475
	},
	{
	"epoch": 300.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18751147389411926,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8894,
	"eval_samples_per_second": 18.677,
	"eval_steps_per_second": 3.226,
	"step": 5493
	},
	{
	"epoch": 301.37,
	"grad_norm": 0.6001901030540466,
	"learning_rate": 7.791111111111111e-06,
	"loss": 0.2463,
	"step": 5500
	},
	{
	"epoch": 301.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18754757940769196,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8862,
	"eval_samples_per_second": 18.688,
	"eval_steps_per_second": 3.228,
	"step": 5511
	},
	{
	"epoch": 302.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18714185059070587,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8804,
	"eval_samples_per_second": 18.706,
	"eval_steps_per_second": 3.231,
	"step": 5529
	},
	{
	"epoch": 304.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18668492138385773,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8924,
	"eval_samples_per_second": 18.668,
	"eval_steps_per_second": 3.225,
	"step": 5548
	},
	{
	"epoch": 304.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18612505495548248,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8787,
	"eval_samples_per_second": 18.712,
	"eval_steps_per_second": 3.232,
	"step": 5566
	},
	{
	"epoch": 305.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18622124195098877,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8963,
	"eval_samples_per_second": 18.656,
	"eval_steps_per_second": 3.222,
	"step": 5584
	},
	{
	"epoch": 306.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18581855297088623,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8851,
	"eval_samples_per_second": 18.691,
	"eval_steps_per_second": 3.228,
	"step": 5602
	},
	{
	"epoch": 308.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1851491779088974,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8834,
	"eval_samples_per_second": 18.697,
	"eval_steps_per_second": 3.229,
	"step": 5621
	},
	{
	"epoch": 308.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18541742861270905,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8802,
	"eval_samples_per_second": 18.707,
	"eval_steps_per_second": 3.231,
	"step": 5639
	},
	{
	"epoch": 309.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1846253126859665,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.88,
	"eval_samples_per_second": 18.708,
	"eval_steps_per_second": 3.231,
	"step": 5657
	},
	{
	"epoch": 310.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1842205971479416,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8908,
	"eval_samples_per_second": 18.673,
	"eval_steps_per_second": 3.225,
	"step": 5675
	},
	{
	"epoch": 312.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1838139295578003,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8826,
	"eval_samples_per_second": 18.699,
	"eval_steps_per_second": 3.23,
	"step": 5694
	},
	{
	"epoch": 312.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18346160650253296,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8686,
	"eval_samples_per_second": 18.744,
	"eval_steps_per_second": 3.238,
	"step": 5712
	},
	{
	"epoch": 313.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18300552666187286,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8811,
	"eval_samples_per_second": 18.704,
	"eval_steps_per_second": 3.231,
	"step": 5730
	},
	{
	"epoch": 314.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18304497003555298,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8736,
	"eval_samples_per_second": 18.728,
	"eval_steps_per_second": 3.235,
	"step": 5748
	},
	{
	"epoch": 316.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1824423372745514,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9117,
	"eval_samples_per_second": 18.607,
	"eval_steps_per_second": 3.214,
	"step": 5767
	},
	{
	"epoch": 316.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18214993178844452,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8772,
	"eval_samples_per_second": 18.716,
	"eval_steps_per_second": 3.233,
	"step": 5785
	},
	{
	"epoch": 317.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1819440871477127,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8707,
	"eval_samples_per_second": 18.737,
	"eval_steps_per_second": 3.236,
	"step": 5803
	},
	{
	"epoch": 318.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18124094605445862,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9162,
	"eval_samples_per_second": 18.593,
	"eval_steps_per_second": 3.212,
	"step": 5821
	},
	{
	"epoch": 320.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.18139633536338806,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.874,
	"eval_samples_per_second": 18.726,
	"eval_steps_per_second": 3.235,
	"step": 5840
	},
	{
	"epoch": 320.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1810206174850464,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8919,
	"eval_samples_per_second": 18.67,
	"eval_steps_per_second": 3.225,
	"step": 5858
	},
	{
	"epoch": 321.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1808764487504959,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9173,
	"eval_samples_per_second": 18.589,
	"eval_steps_per_second": 3.211,
	"step": 5876
	},
	{
	"epoch": 322.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1801535189151764,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9176,
	"eval_samples_per_second": 18.589,
	"eval_steps_per_second": 3.211,
	"step": 5894
	},
	{
	"epoch": 324.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1799170821905136,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9289,
	"eval_samples_per_second": 18.553,
	"eval_steps_per_second": 3.205,
	"step": 5913
	},
	{
	"epoch": 324.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1797485649585724,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9221,
	"eval_samples_per_second": 18.575,
	"eval_steps_per_second": 3.208,
	"step": 5931
	},
	{
	"epoch": 325.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17966806888580322,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9096,
	"eval_samples_per_second": 18.614,
	"eval_steps_per_second": 3.215,
	"step": 5949
	},
	{
	"epoch": 326.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17945848405361176,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8715,
	"eval_samples_per_second": 18.735,
	"eval_steps_per_second": 3.236,
	"step": 5967
	},
	{
	"epoch": 328.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17859123647212982,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8842,
	"eval_samples_per_second": 18.694,
	"eval_steps_per_second": 3.229,
	"step": 5986
	},
	{
	"epoch": 328.77,
	"grad_norm": 0.45411407947540283,
	"learning_rate": 6.680000000000001e-06,
	"loss": 0.2311,
	"step": 6000
	},
	{
	"epoch": 328.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17845258116722107,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8879,
	"eval_samples_per_second": 18.682,
	"eval_steps_per_second": 3.227,
	"step": 6004
	},
	{
	"epoch": 329.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17820703983306885,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8859,
	"eval_samples_per_second": 18.689,
	"eval_steps_per_second": 3.228,
	"step": 6022
	},
	{
	"epoch": 330.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17832966148853302,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8753,
	"eval_samples_per_second": 18.723,
	"eval_steps_per_second": 3.234,
	"step": 6040
	},
	{
	"epoch": 332.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17780448496341705,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8819,
	"eval_samples_per_second": 18.702,
	"eval_steps_per_second": 3.23,
	"step": 6059
	},
	{
	"epoch": 332.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17747904360294342,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8701,
	"eval_samples_per_second": 18.739,
	"eval_steps_per_second": 3.237,
	"step": 6077
	},
	{
	"epoch": 333.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17767922580242157,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8742,
	"eval_samples_per_second": 18.726,
	"eval_steps_per_second": 3.234,
	"step": 6095
	},
	{
	"epoch": 334.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1771049201488495,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9091,
	"eval_samples_per_second": 18.615,
	"eval_steps_per_second": 3.215,
	"step": 6113
	},
	{
	"epoch": 336.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1770164966583252,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8812,
	"eval_samples_per_second": 18.704,
	"eval_steps_per_second": 3.231,
	"step": 6132
	},
	{
	"epoch": 336.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17682689428329468,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8773,
	"eval_samples_per_second": 18.716,
	"eval_steps_per_second": 3.233,
	"step": 6150
	},
	{
	"epoch": 337.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1767437607049942,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8745,
	"eval_samples_per_second": 18.725,
	"eval_steps_per_second": 3.234,
	"step": 6168
	},
	{
	"epoch": 338.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17660827934741974,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.876,
	"eval_samples_per_second": 18.72,
	"eval_steps_per_second": 3.233,
	"step": 6186
	},
	{
	"epoch": 340.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1762937307357788,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8747,
	"eval_samples_per_second": 18.724,
	"eval_steps_per_second": 3.234,
	"step": 6205
	},
	{
	"epoch": 340.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17532125115394592,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.877,
	"eval_samples_per_second": 18.717,
	"eval_steps_per_second": 3.233,
	"step": 6223
	},
	{
	"epoch": 341.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17553770542144775,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8818,
	"eval_samples_per_second": 18.702,
	"eval_steps_per_second": 3.23,
	"step": 6241
	},
	{
	"epoch": 342.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17563851177692413,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8839,
	"eval_samples_per_second": 18.695,
	"eval_steps_per_second": 3.229,
	"step": 6259
	},
	{
	"epoch": 344.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17437517642974854,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8841,
	"eval_samples_per_second": 18.694,
	"eval_steps_per_second": 3.229,
	"step": 6278
	},
	{
	"epoch": 344.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17455054819583893,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8746,
	"eval_samples_per_second": 18.725,
	"eval_steps_per_second": 3.234,
	"step": 6296
	},
	{
	"epoch": 345.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17481422424316406,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8787,
	"eval_samples_per_second": 18.712,
	"eval_steps_per_second": 3.232,
	"step": 6314
	},
	{
	"epoch": 346.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1744970828294754,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8781,
	"eval_samples_per_second": 18.713,
	"eval_steps_per_second": 3.232,
	"step": 6332
	},
	{
	"epoch": 348.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17412132024765015,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8833,
	"eval_samples_per_second": 18.697,
	"eval_steps_per_second": 3.229,
	"step": 6351
	},
	{
	"epoch": 348.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1738380789756775,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9075,
	"eval_samples_per_second": 18.621,
	"eval_steps_per_second": 3.216,
	"step": 6369
	},
	{
	"epoch": 349.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17379747331142426,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.876,
	"eval_samples_per_second": 18.72,
	"eval_steps_per_second": 3.234,
	"step": 6387
	},
	{
	"epoch": 350.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17336434125900269,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8785,
	"eval_samples_per_second": 18.712,
	"eval_steps_per_second": 3.232,
	"step": 6405
	},
	{
	"epoch": 352.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17307358980178833,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9197,
	"eval_samples_per_second": 18.582,
	"eval_steps_per_second": 3.21,
	"step": 6424
	},
	{
	"epoch": 352.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17290958762168884,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8928,
	"eval_samples_per_second": 18.667,
	"eval_steps_per_second": 3.224,
	"step": 6442
	},
	{
	"epoch": 353.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1726769059896469,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8785,
	"eval_samples_per_second": 18.712,
	"eval_steps_per_second": 3.232,
	"step": 6460
	},
	{
	"epoch": 354.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17268246412277222,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8721,
	"eval_samples_per_second": 18.733,
	"eval_steps_per_second": 3.236,
	"step": 6478
	},
	{
	"epoch": 356.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17257879674434662,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8803,
	"eval_samples_per_second": 18.706,
	"eval_steps_per_second": 3.231,
	"step": 6497
	},
	{
	"epoch": 356.16,
	"grad_norm": 0.3692683279514313,
	"learning_rate": 5.56888888888889e-06,
	"loss": 0.2192,
	"step": 6500
	},
	{
	"epoch": 356.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17185170948505402,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8845,
	"eval_samples_per_second": 18.693,
	"eval_steps_per_second": 3.229,
	"step": 6515
	},
	{
	"epoch": 357.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17126674950122833,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8816,
	"eval_samples_per_second": 18.702,
	"eval_steps_per_second": 3.23,
	"step": 6533
	},
	{
	"epoch": 358.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17136740684509277,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8802,
	"eval_samples_per_second": 18.707,
	"eval_steps_per_second": 3.231,
	"step": 6551
	},
	{
	"epoch": 360.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1711340844631195,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8839,
	"eval_samples_per_second": 18.695,
	"eval_steps_per_second": 3.229,
	"step": 6570
	},
	{
	"epoch": 360.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1712319403886795,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8782,
	"eval_samples_per_second": 18.713,
	"eval_steps_per_second": 3.232,
	"step": 6588
	},
	{
	"epoch": 361.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1710105836391449,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8829,
	"eval_samples_per_second": 18.698,
	"eval_steps_per_second": 3.23,
	"step": 6606
	},
	{
	"epoch": 362.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17070402204990387,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9043,
	"eval_samples_per_second": 18.631,
	"eval_steps_per_second": 3.218,
	"step": 6624
	},
	{
	"epoch": 364.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1703125238418579,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9174,
	"eval_samples_per_second": 18.589,
	"eval_steps_per_second": 3.211,
	"step": 6643
	},
	{
	"epoch": 364.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.17009203135967255,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9165,
	"eval_samples_per_second": 18.592,
	"eval_steps_per_second": 3.211,
	"step": 6661
	},
	{
	"epoch": 365.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1701081246137619,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8801,
	"eval_samples_per_second": 18.707,
	"eval_steps_per_second": 3.231,
	"step": 6679
	},
	{
	"epoch": 366.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16997285187244415,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8816,
	"eval_samples_per_second": 18.703,
	"eval_steps_per_second": 3.23,
	"step": 6697
	},
	{
	"epoch": 368.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16970933973789215,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8906,
	"eval_samples_per_second": 18.674,
	"eval_steps_per_second": 3.225,
	"step": 6716
	},
	{
	"epoch": 368.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1696108877658844,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8896,
	"eval_samples_per_second": 18.677,
	"eval_steps_per_second": 3.226,
	"step": 6734
	},
	{
	"epoch": 369.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1694546341896057,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9145,
	"eval_samples_per_second": 18.598,
	"eval_steps_per_second": 3.212,
	"step": 6752
	},
	{
	"epoch": 370.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16927814483642578,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9179,
	"eval_samples_per_second": 18.588,
	"eval_steps_per_second": 3.211,
	"step": 6770
	},
	{
	"epoch": 372.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16911160945892334,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8804,
	"eval_samples_per_second": 18.706,
	"eval_steps_per_second": 3.231,
	"step": 6789
	},
	{
	"epoch": 372.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16869549453258514,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8847,
	"eval_samples_per_second": 18.693,
	"eval_steps_per_second": 3.229,
	"step": 6807
	},
	{
	"epoch": 373.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16840766370296478,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9184,
	"eval_samples_per_second": 18.586,
	"eval_steps_per_second": 3.21,
	"step": 6825
	},
	{
	"epoch": 374.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16836071014404297,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9124,
	"eval_samples_per_second": 18.605,
	"eval_steps_per_second": 3.214,
	"step": 6843
	},
	{
	"epoch": 376.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.168260395526886,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8823,
	"eval_samples_per_second": 18.7,
	"eval_steps_per_second": 3.23,
	"step": 6862
	},
	{
	"epoch": 376.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16808076202869415,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8791,
	"eval_samples_per_second": 18.71,
	"eval_steps_per_second": 3.232,
	"step": 6880
	},
	{
	"epoch": 377.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16791433095932007,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8871,
	"eval_samples_per_second": 18.685,
	"eval_steps_per_second": 3.227,
	"step": 6898
	},
	{
	"epoch": 378.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16784635186195374,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8948,
	"eval_samples_per_second": 18.661,
	"eval_steps_per_second": 3.223,
	"step": 6916
	},
	{
	"epoch": 380.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16753236949443817,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8837,
	"eval_samples_per_second": 18.696,
	"eval_steps_per_second": 3.229,
	"step": 6935
	},
	{
	"epoch": 380.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16738325357437134,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8709,
	"eval_samples_per_second": 18.736,
	"eval_steps_per_second": 3.236,
	"step": 6953
	},
	{
	"epoch": 381.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16733896732330322,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8784,
	"eval_samples_per_second": 18.713,
	"eval_steps_per_second": 3.232,
	"step": 6971
	},
	{
	"epoch": 382.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16720926761627197,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8818,
	"eval_samples_per_second": 18.702,
	"eval_steps_per_second": 3.23,
	"step": 6989
	},
	{
	"epoch": 383.56,
	"grad_norm": 0.32142043113708496,
	"learning_rate": 4.457777777777778e-06,
	"loss": 0.211,
	"step": 7000
	},
	{
	"epoch": 384.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16671238839626312,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8769,
	"eval_samples_per_second": 18.717,
	"eval_steps_per_second": 3.233,
	"step": 7008
	},
	{
	"epoch": 384.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16662339866161346,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8678,
	"eval_samples_per_second": 18.746,
	"eval_steps_per_second": 3.238,
	"step": 7026
	},
	{
	"epoch": 385.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16629952192306519,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8786,
	"eval_samples_per_second": 18.712,
	"eval_steps_per_second": 3.232,
	"step": 7044
	},
	{
	"epoch": 386.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16644792258739471,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8767,
	"eval_samples_per_second": 18.718,
	"eval_steps_per_second": 3.233,
	"step": 7062
	},
	{
	"epoch": 388.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1665712594985962,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8895,
	"eval_samples_per_second": 18.677,
	"eval_steps_per_second": 3.226,
	"step": 7081
	},
	{
	"epoch": 388.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16607053577899933,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8751,
	"eval_samples_per_second": 18.723,
	"eval_steps_per_second": 3.234,
	"step": 7099
	},
	{
	"epoch": 389.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16597412526607513,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8717,
	"eval_samples_per_second": 18.734,
	"eval_steps_per_second": 3.236,
	"step": 7117
	},
	{
	"epoch": 390.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16590653359889984,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8807,
	"eval_samples_per_second": 18.705,
	"eval_steps_per_second": 3.231,
	"step": 7135
	},
	{
	"epoch": 392.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16565540432929993,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8901,
	"eval_samples_per_second": 18.675,
	"eval_steps_per_second": 3.226,
	"step": 7154
	},
	{
	"epoch": 392.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1656540036201477,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8795,
	"eval_samples_per_second": 18.709,
	"eval_steps_per_second": 3.232,
	"step": 7172
	},
	{
	"epoch": 393.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16561686992645264,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.891,
	"eval_samples_per_second": 18.672,
	"eval_steps_per_second": 3.225,
	"step": 7190
	},
	{
	"epoch": 394.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16566209495067596,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8782,
	"eval_samples_per_second": 18.713,
	"eval_steps_per_second": 3.232,
	"step": 7208
	},
	{
	"epoch": 396.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16528266668319702,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9003,
	"eval_samples_per_second": 18.643,
	"eval_steps_per_second": 3.22,
	"step": 7227
	},
	{
	"epoch": 396.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16509102284908295,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8787,
	"eval_samples_per_second": 18.712,
	"eval_steps_per_second": 3.232,
	"step": 7245
	},
	{
	"epoch": 397.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16473665833473206,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8817,
	"eval_samples_per_second": 18.702,
	"eval_steps_per_second": 3.23,
	"step": 7263
	},
	{
	"epoch": 398.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16476485133171082,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8783,
	"eval_samples_per_second": 18.713,
	"eval_steps_per_second": 3.232,
	"step": 7281
	},
	{
	"epoch": 400.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1648998111486435,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8847,
	"eval_samples_per_second": 18.692,
	"eval_steps_per_second": 3.229,
	"step": 7300
	},
	{
	"epoch": 400.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16450464725494385,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8833,
	"eval_samples_per_second": 18.697,
	"eval_steps_per_second": 3.23,
	"step": 7318
	},
	{
	"epoch": 401.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16408170759677887,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9273,
	"eval_samples_per_second": 18.558,
	"eval_steps_per_second": 3.206,
	"step": 7336
	},
	{
	"epoch": 402.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16408471763134003,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9148,
	"eval_samples_per_second": 18.597,
	"eval_steps_per_second": 3.212,
	"step": 7354
	},
	{
	"epoch": 404.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1640195995569229,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.924,
	"eval_samples_per_second": 18.569,
	"eval_steps_per_second": 3.207,
	"step": 7373
	},
	{
	"epoch": 404.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16400323808193207,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9183,
	"eval_samples_per_second": 18.586,
	"eval_steps_per_second": 3.21,
	"step": 7391
	},
	{
	"epoch": 405.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16385148465633392,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9116,
	"eval_samples_per_second": 18.608,
	"eval_steps_per_second": 3.214,
	"step": 7409
	},
	{
	"epoch": 406.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.163739874958992,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9025,
	"eval_samples_per_second": 18.636,
	"eval_steps_per_second": 3.219,
	"step": 7427
	},
	{
	"epoch": 408.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1632901281118393,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8717,
	"eval_samples_per_second": 18.734,
	"eval_steps_per_second": 3.236,
	"step": 7446
	},
	{
	"epoch": 408.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1632470041513443,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8869,
	"eval_samples_per_second": 18.686,
	"eval_steps_per_second": 3.228,
	"step": 7464
	},
	{
	"epoch": 409.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16338156163692474,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.903,
	"eval_samples_per_second": 18.635,
	"eval_steps_per_second": 3.219,
	"step": 7482
	},
	{
	"epoch": 410.96,
	"grad_norm": 0.4017387628555298,
	"learning_rate": 3.346666666666667e-06,
	"loss": 0.2061,
	"step": 7500
	},
	{
	"epoch": 410.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16326506435871124,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8869,
	"eval_samples_per_second": 18.686,
	"eval_steps_per_second": 3.228,
	"step": 7500
	},
	{
	"epoch": 412.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1629171222448349,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8877,
	"eval_samples_per_second": 18.683,
	"eval_steps_per_second": 3.227,
	"step": 7519
	},
	{
	"epoch": 412.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1628817468881607,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9117,
	"eval_samples_per_second": 18.607,
	"eval_steps_per_second": 3.214,
	"step": 7537
	},
	{
	"epoch": 413.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16285060346126556,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9244,
	"eval_samples_per_second": 18.567,
	"eval_steps_per_second": 3.207,
	"step": 7555
	},
	{
	"epoch": 414.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16274811327457428,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8821,
	"eval_samples_per_second": 18.701,
	"eval_steps_per_second": 3.23,
	"step": 7573
	},
	{
	"epoch": 416.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16286291182041168,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.918,
	"eval_samples_per_second": 18.587,
	"eval_steps_per_second": 3.211,
	"step": 7592
	},
	{
	"epoch": 416.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16281896829605103,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8847,
	"eval_samples_per_second": 18.693,
	"eval_steps_per_second": 3.229,
	"step": 7610
	},
	{
	"epoch": 417.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16268208622932434,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9077,
	"eval_samples_per_second": 18.62,
	"eval_steps_per_second": 3.216,
	"step": 7628
	},
	{
	"epoch": 418.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16232354938983917,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9153,
	"eval_samples_per_second": 18.596,
	"eval_steps_per_second": 3.212,
	"step": 7646
	},
	{
	"epoch": 420.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16238705813884735,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9249,
	"eval_samples_per_second": 18.566,
	"eval_steps_per_second": 3.207,
	"step": 7665
	},
	{
	"epoch": 420.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16214394569396973,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8853,
	"eval_samples_per_second": 18.691,
	"eval_steps_per_second": 3.228,
	"step": 7683
	},
	{
	"epoch": 421.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16213367879390717,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.869,
	"eval_samples_per_second": 18.743,
	"eval_steps_per_second": 3.237,
	"step": 7701
	},
	{
	"epoch": 422.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1621711403131485,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.869,
	"eval_samples_per_second": 18.743,
	"eval_steps_per_second": 3.237,
	"step": 7719
	},
	{
	"epoch": 424.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16199961304664612,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8763,
	"eval_samples_per_second": 18.719,
	"eval_steps_per_second": 3.233,
	"step": 7738
	},
	{
	"epoch": 424.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1616300344467163,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9176,
	"eval_samples_per_second": 18.589,
	"eval_steps_per_second": 3.211,
	"step": 7756
	},
	{
	"epoch": 425.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16134707629680634,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9055,
	"eval_samples_per_second": 18.627,
	"eval_steps_per_second": 3.217,
	"step": 7774
	},
	{
	"epoch": 426.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1613784283399582,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8741,
	"eval_samples_per_second": 18.726,
	"eval_steps_per_second": 3.235,
	"step": 7792
	},
	{
	"epoch": 428.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1613391935825348,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.9229,
	"eval_samples_per_second": 18.572,
	"eval_steps_per_second": 3.208,
	"step": 7811
	},
	{
	"epoch": 428.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1613980233669281,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8737,
	"eval_samples_per_second": 18.728,
	"eval_steps_per_second": 3.235,
	"step": 7829
	},
	{
	"epoch": 429.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16145525872707367,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8935,
	"eval_samples_per_second": 18.664,
	"eval_steps_per_second": 3.224,
	"step": 7847
	},
	{
	"epoch": 430.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16126497089862823,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8806,
	"eval_samples_per_second": 18.705,
	"eval_steps_per_second": 3.231,
	"step": 7865
	},
	{
	"epoch": 432.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16113270819187164,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8882,
	"eval_samples_per_second": 18.681,
	"eval_steps_per_second": 3.227,
	"step": 7884
	},
	{
	"epoch": 432.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16119304299354553,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8803,
	"eval_samples_per_second": 18.707,
	"eval_steps_per_second": 3.231,
	"step": 7902
	},
	{
	"epoch": 433.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16113385558128357,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8923,
	"eval_samples_per_second": 18.668,
	"eval_steps_per_second": 3.225,
	"step": 7920
	},
	{
	"epoch": 434.96,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1608574539422989,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8855,
	"eval_samples_per_second": 18.69,
	"eval_steps_per_second": 3.228,
	"step": 7938
	},
	{
	"epoch": 436.0,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16086578369140625,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8752,
	"eval_samples_per_second": 18.723,
	"eval_steps_per_second": 3.234,
	"step": 7957
	},
	{
	"epoch": 436.99,
	"eval_gen_len": 0.0,
	"eval_loss": 0.1609336882829666,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8764,
	"eval_samples_per_second": 18.719,
	"eval_steps_per_second": 3.233,
	"step": 7975
	},
	{
	"epoch": 437.97,
	"eval_gen_len": 0.0,
	"eval_loss": 0.16086000204086304,
	"eval_rouge1": 0.0,
	"eval_rouge2": 0.0,
	"eval_rougeL": 0.0,
	"eval_rougeLsum": 0.0,
	"eval_runtime": 5.8862,
	"eval_samples_per_second": 18.688,
	"eval_steps_per_second": 3.228,
	"step": 7993
	},
	{
	"epoch": 438.36,
	"grad_norm": 0.3427538573741913,
	"learning_rate": 2.235555555555556e-06,
	"loss": 0.2001,
	"step": 8000
	}
	],
	"logging_steps": 500,
	"max_steps": 9000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 500,
	"save_steps": 500,
	"total_flos": 2.332923933889659e+17,
	"train_batch_size": 6,
	"trial_name": null,
	"trial_params": null
	}