nllb-finetuned-jpn-to-ain-2 / last-checkpoint /trainer_state.json

Training in progress, step 4000, checkpoint

eb32d55 verified 5 months ago

3.08 kB

	{
	"best_metric": 2.2251899242401123,
	"best_model_checkpoint": "smilemikan/nllb-finetuned-jpn-to-ain-2/checkpoint-4000",
	"epoch": 0.8812513769552764,
	"eval_steps": 500,
	"global_step": 4000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.11,
	"learning_rate": 1.9833333333333335e-05,
	"loss": 4.6196,
	"step": 500
	},
	{
	"epoch": 0.11,
	"eval_loss": 3.7452237606048584,
	"eval_runtime": 43.586,
	"eval_samples_per_second": 208.278,
	"eval_steps_per_second": 13.032,
	"step": 500
	},
	{
	"epoch": 0.22,
	"learning_rate": 1.9666666666666666e-05,
	"loss": 3.5915,
	"step": 1000
	},
	{
	"epoch": 0.22,
	"eval_loss": 3.2064383029937744,
	"eval_runtime": 43.0726,
	"eval_samples_per_second": 210.76,
	"eval_steps_per_second": 13.187,
	"step": 1000
	},
	{
	"epoch": 0.33,
	"learning_rate": 1.95e-05,
	"loss": 3.1484,
	"step": 1500
	},
	{
	"epoch": 0.33,
	"eval_loss": 2.8919074535369873,
	"eval_runtime": 42.8255,
	"eval_samples_per_second": 211.977,
	"eval_steps_per_second": 13.263,
	"step": 1500
	},
	{
	"epoch": 0.44,
	"learning_rate": 1.9333333333333333e-05,
	"loss": 2.902,
	"step": 2000
	},
	{
	"epoch": 0.44,
	"eval_loss": 2.679006338119507,
	"eval_runtime": 43.6162,
	"eval_samples_per_second": 208.134,
	"eval_steps_per_second": 13.023,
	"step": 2000
	},
	{
	"epoch": 0.55,
	"learning_rate": 1.916666666666667e-05,
	"loss": 2.7296,
	"step": 2500
	},
	{
	"epoch": 0.55,
	"eval_loss": 2.5206823348999023,
	"eval_runtime": 42.8291,
	"eval_samples_per_second": 211.959,
	"eval_steps_per_second": 13.262,
	"step": 2500
	},
	{
	"epoch": 0.66,
	"learning_rate": 1.9000333333333335e-05,
	"loss": 2.6105,
	"step": 3000
	},
	{
	"epoch": 0.66,
	"eval_loss": 2.394014835357666,
	"eval_runtime": 42.8022,
	"eval_samples_per_second": 212.092,
	"eval_steps_per_second": 13.27,
	"step": 3000
	},
	{
	"epoch": 0.77,
	"learning_rate": 1.883366666666667e-05,
	"loss": 2.5068,
	"step": 3500
	},
	{
	"epoch": 0.77,
	"eval_loss": 2.30385422706604,
	"eval_runtime": 44.6981,
	"eval_samples_per_second": 203.096,
	"eval_steps_per_second": 12.707,
	"step": 3500
	},
	{
	"epoch": 0.88,
	"learning_rate": 1.8667000000000003e-05,
	"loss": 2.3848,
	"step": 4000
	},
	{
	"epoch": 0.88,
	"eval_loss": 2.2251899242401123,
	"eval_runtime": 42.8042,
	"eval_samples_per_second": 212.082,
	"eval_steps_per_second": 13.27,
	"step": 4000
	}
	],
	"logging_steps": 500,
	"max_steps": 60000,
	"num_train_epochs": 14,
	"save_steps": 500,
	"total_flos": 4045442515992576.0,
	"trial_name": null,
	"trial_params": null
	}