nerugm-lora-r16-2 / trainer_state.json

End of training

fbde14b verified 5 months ago

10.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 20.0,
	"eval_steps": 500,
	"global_step": 2120,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 1.7648299932479858,
	"learning_rate": 4.75e-05,
	"loss": 1.1483,
	"step": 106
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.8448836627470603,
	"eval_f1": 0.0,
	"eval_loss": 0.6899715065956116,
	"eval_precision": 0.0,
	"eval_recall": 0.0,
	"eval_runtime": 0.8894,
	"eval_samples_per_second": 210.248,
	"eval_steps_per_second": 3.373,
	"step": 106
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.372132420539856,
	"learning_rate": 4.5e-05,
	"loss": 0.6875,
	"step": 212
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.8463847885914436,
	"eval_f1": 0.0,
	"eval_loss": 0.5737118721008301,
	"eval_precision": 0.0,
	"eval_recall": 0.0,
	"eval_runtime": 0.926,
	"eval_samples_per_second": 201.946,
	"eval_steps_per_second": 3.24,
	"step": 212
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.2157526016235352,
	"learning_rate": 4.25e-05,
	"loss": 0.5874,
	"step": 318
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.8633975481611208,
	"eval_f1": 0.10071942446043167,
	"eval_loss": 0.4661254584789276,
	"eval_precision": 0.2692307692307692,
	"eval_recall": 0.061946902654867256,
	"eval_runtime": 0.9773,
	"eval_samples_per_second": 191.347,
	"eval_steps_per_second": 3.07,
	"step": 318
	},
	{
	"epoch": 4.0,
	"grad_norm": 2.093184232711792,
	"learning_rate": 4e-05,
	"loss": 0.4729,
	"step": 424
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.898173630222667,
	"eval_f1": 0.37722419928825623,
	"eval_loss": 0.3599094748497009,
	"eval_precision": 0.47533632286995514,
	"eval_recall": 0.31268436578171094,
	"eval_runtime": 0.9352,
	"eval_samples_per_second": 199.961,
	"eval_steps_per_second": 3.208,
	"step": 424
	},
	{
	"epoch": 5.0,
	"grad_norm": 4.716677665710449,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.3692,
	"step": 530
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9246935201401051,
	"eval_f1": 0.5917496443812232,
	"eval_loss": 0.29404327273368835,
	"eval_precision": 0.5714285714285714,
	"eval_recall": 0.6135693215339233,
	"eval_runtime": 0.899,
	"eval_samples_per_second": 208.018,
	"eval_steps_per_second": 3.337,
	"step": 530
	},
	{
	"epoch": 6.0,
	"grad_norm": 1.1444728374481201,
	"learning_rate": 3.5e-05,
	"loss": 0.3058,
	"step": 636
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.9334500875656743,
	"eval_f1": 0.6621621621621622,
	"eval_loss": 0.2527407705783844,
	"eval_precision": 0.6109725685785536,
	"eval_recall": 0.7227138643067846,
	"eval_runtime": 0.8914,
	"eval_samples_per_second": 209.792,
	"eval_steps_per_second": 3.366,
	"step": 636
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.998134434223175,
	"learning_rate": 3.2500000000000004e-05,
	"loss": 0.2636,
	"step": 742
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.937453089817363,
	"eval_f1": 0.6954177897574124,
	"eval_loss": 0.22462092339992523,
	"eval_precision": 0.6401985111662531,
	"eval_recall": 0.7610619469026548,
	"eval_runtime": 0.9047,
	"eval_samples_per_second": 206.701,
	"eval_steps_per_second": 3.316,
	"step": 742
	},
	{
	"epoch": 8.0,
	"grad_norm": 1.480947732925415,
	"learning_rate": 3e-05,
	"loss": 0.24,
	"step": 848
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.9417062797097824,
	"eval_f1": 0.7241379310344828,
	"eval_loss": 0.20909550786018372,
	"eval_precision": 0.6578313253012048,
	"eval_recall": 0.8053097345132744,
	"eval_runtime": 0.9189,
	"eval_samples_per_second": 203.503,
	"eval_steps_per_second": 3.265,
	"step": 848
	},
	{
	"epoch": 9.0,
	"grad_norm": 1.5677202939987183,
	"learning_rate": 2.7500000000000004e-05,
	"loss": 0.2228,
	"step": 954
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.940205153865399,
	"eval_f1": 0.716883116883117,
	"eval_loss": 0.1985715925693512,
	"eval_precision": 0.6403712296983759,
	"eval_recall": 0.8141592920353983,
	"eval_runtime": 0.9225,
	"eval_samples_per_second": 202.716,
	"eval_steps_per_second": 3.252,
	"step": 954
	},
	{
	"epoch": 10.0,
	"grad_norm": 4.242694854736328,
	"learning_rate": 2.5e-05,
	"loss": 0.2105,
	"step": 1060
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.9417062797097824,
	"eval_f1": 0.733245729303548,
	"eval_loss": 0.1821284145116806,
	"eval_precision": 0.6611374407582938,
	"eval_recall": 0.8230088495575221,
	"eval_runtime": 0.925,
	"eval_samples_per_second": 202.159,
	"eval_steps_per_second": 3.243,
	"step": 1060
	},
	{
	"epoch": 11.0,
	"grad_norm": 1.5337995290756226,
	"learning_rate": 2.25e-05,
	"loss": 0.2007,
	"step": 1166
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.9432074055541656,
	"eval_f1": 0.7394736842105263,
	"eval_loss": 0.17939399182796478,
	"eval_precision": 0.667458432304038,
	"eval_recall": 0.8289085545722714,
	"eval_runtime": 0.9211,
	"eval_samples_per_second": 203.028,
	"eval_steps_per_second": 3.257,
	"step": 1166
	},
	{
	"epoch": 12.0,
	"grad_norm": 2.7884016036987305,
	"learning_rate": 2e-05,
	"loss": 0.195,
	"step": 1272
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.9429572179134351,
	"eval_f1": 0.7392996108949417,
	"eval_loss": 0.18079817295074463,
	"eval_precision": 0.6597222222222222,
	"eval_recall": 0.8407079646017699,
	"eval_runtime": 0.9116,
	"eval_samples_per_second": 205.139,
	"eval_steps_per_second": 3.291,
	"step": 1272
	},
	{
	"epoch": 13.0,
	"grad_norm": 1.4956753253936768,
	"learning_rate": 1.75e-05,
	"loss": 0.19,
	"step": 1378
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.9459594696022017,
	"eval_f1": 0.7463479415670652,
	"eval_loss": 0.16896921396255493,
	"eval_precision": 0.678743961352657,
	"eval_recall": 0.8289085545722714,
	"eval_runtime": 0.9045,
	"eval_samples_per_second": 206.741,
	"eval_steps_per_second": 3.317,
	"step": 1378
	},
	{
	"epoch": 14.0,
	"grad_norm": 1.4634425640106201,
	"learning_rate": 1.5e-05,
	"loss": 0.1835,
	"step": 1484
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.9477107830873155,
	"eval_f1": 0.751336898395722,
	"eval_loss": 0.16314250230789185,
	"eval_precision": 0.687041564792176,
	"eval_recall": 0.8289085545722714,
	"eval_runtime": 0.9091,
	"eval_samples_per_second": 205.694,
	"eval_steps_per_second": 3.3,
	"step": 1484
	},
	{
	"epoch": 15.0,
	"grad_norm": 2.0593953132629395,
	"learning_rate": 1.25e-05,
	"loss": 0.1821,
	"step": 1590
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.9472104078058544,
	"eval_f1": 0.753968253968254,
	"eval_loss": 0.16711552441120148,
	"eval_precision": 0.6834532374100719,
	"eval_recall": 0.8407079646017699,
	"eval_runtime": 0.9129,
	"eval_samples_per_second": 204.846,
	"eval_steps_per_second": 3.286,
	"step": 1590
	},
	{
	"epoch": 16.0,
	"grad_norm": 1.1103074550628662,
	"learning_rate": 1e-05,
	"loss": 0.1774,
	"step": 1696
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.9472104078058544,
	"eval_f1": 0.7647831800262812,
	"eval_loss": 0.16675202548503876,
	"eval_precision": 0.6895734597156398,
	"eval_recall": 0.8584070796460177,
	"eval_runtime": 0.913,
	"eval_samples_per_second": 204.819,
	"eval_steps_per_second": 3.286,
	"step": 1696
	},
	{
	"epoch": 17.0,
	"grad_norm": 2.5177829265594482,
	"learning_rate": 7.5e-06,
	"loss": 0.1764,
	"step": 1802
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.9477107830873155,
	"eval_f1": 0.7602649006622517,
	"eval_loss": 0.16347847878932953,
	"eval_precision": 0.6899038461538461,
	"eval_recall": 0.8466076696165191,
	"eval_runtime": 0.9243,
	"eval_samples_per_second": 202.326,
	"eval_steps_per_second": 3.246,
	"step": 1802
	},
	{
	"epoch": 18.0,
	"grad_norm": 0.8699701428413391,
	"learning_rate": 5e-06,
	"loss": 0.1729,
	"step": 1908
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.9472104078058544,
	"eval_f1": 0.7611548556430445,
	"eval_loss": 0.16536261141300201,
	"eval_precision": 0.6855791962174941,
	"eval_recall": 0.855457227138643,
	"eval_runtime": 0.9101,
	"eval_samples_per_second": 205.482,
	"eval_steps_per_second": 3.297,
	"step": 1908
	},
	{
	"epoch": 19.0,
	"grad_norm": 2.786510705947876,
	"learning_rate": 2.5e-06,
	"loss": 0.1726,
	"step": 2014
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.9477107830873155,
	"eval_f1": 0.7621550591327202,
	"eval_loss": 0.16280074417591095,
	"eval_precision": 0.6872037914691943,
	"eval_recall": 0.855457227138643,
	"eval_runtime": 0.9163,
	"eval_samples_per_second": 204.074,
	"eval_steps_per_second": 3.274,
	"step": 2014
	},
	{
	"epoch": 20.0,
	"grad_norm": 1.0649765729904175,
	"learning_rate": 0.0,
	"loss": 0.1684,
	"step": 2120
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.9472104078058544,
	"eval_f1": 0.7595269382391592,
	"eval_loss": 0.16256052255630493,
	"eval_precision": 0.6848341232227488,
	"eval_recall": 0.8525073746312685,
	"eval_runtime": 0.9134,
	"eval_samples_per_second": 204.735,
	"eval_steps_per_second": 3.285,
	"step": 2120
	},
	{
	"epoch": 20.0,
	"step": 2120,
	"total_flos": 904262544144960.0,
	"train_loss": 0.3163445589677343,
	"train_runtime": 244.3626,
	"train_samples_per_second": 138.074,
	"train_steps_per_second": 8.676
	}
	],
	"logging_steps": 500,
	"max_steps": 2120,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 20,
	"save_steps": 500,
	"total_flos": 904262544144960.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}