cocoruta2-llama3-1-8b-regex-only-valid / trainer_state.json

Model save

0890c91 verified 19 days ago

11.1 kB

	{
	"best_metric": 0.4858,
	"best_model_checkpoint": "runs/cocoruta2-llama3-1-8b-regex-only-valid/checkpoint-350",
	"epoch": 0.9992542878448919,
	"eval_steps": 25,
	"global_step": 670,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.037285607755406416,
	"grad_norm": 0.5538629931679852,
	"learning_rate": 7.46268656716418e-05,
	"loss": 0.8987,
	"step": 25
	},
	{
	"epoch": 0.037285607755406416,
	"eval_loss": 0.6527890563011169,
	"eval_runtime": 4.7198,
	"eval_samples_per_second": 1.059,
	"eval_steps_per_second": 0.636,
	"step": 25
	},
	{
	"epoch": 0.07457121551081283,
	"grad_norm": 0.2341721772038344,
	"learning_rate": 0.0001492537313432836,
	"loss": 0.6394,
	"step": 50
	},
	{
	"epoch": 0.07457121551081283,
	"eval_loss": 0.5486425757408142,
	"eval_runtime": 4.7295,
	"eval_samples_per_second": 1.057,
	"eval_steps_per_second": 0.634,
	"step": 50
	},
	{
	"epoch": 0.11185682326621924,
	"grad_norm": 0.19912920431393782,
	"learning_rate": 0.00019991315351855748,
	"loss": 0.6007,
	"step": 75
	},
	{
	"epoch": 0.11185682326621924,
	"eval_loss": 0.5331323146820068,
	"eval_runtime": 4.6724,
	"eval_samples_per_second": 1.07,
	"eval_steps_per_second": 0.642,
	"step": 75
	},
	{
	"epoch": 0.14914243102162567,
	"grad_norm": 0.22498739924316974,
	"learning_rate": 0.0001985256759242359,
	"loss": 0.5696,
	"step": 100
	},
	{
	"epoch": 0.14914243102162567,
	"eval_loss": 0.49856358766555786,
	"eval_runtime": 4.7327,
	"eval_samples_per_second": 1.056,
	"eval_steps_per_second": 0.634,
	"step": 100
	},
	{
	"epoch": 0.18642803877703207,
	"grad_norm": 0.14018935803156768,
	"learning_rate": 0.00019546910545535558,
	"loss": 0.5523,
	"step": 125
	},
	{
	"epoch": 0.18642803877703207,
	"eval_loss": 0.48138752579689026,
	"eval_runtime": 4.6757,
	"eval_samples_per_second": 1.069,
	"eval_steps_per_second": 0.642,
	"step": 125
	},
	{
	"epoch": 0.22371364653243847,
	"grad_norm": 0.16571925714609734,
	"learning_rate": 0.00019079522252288386,
	"loss": 0.5779,
	"step": 150
	},
	{
	"epoch": 0.22371364653243847,
	"eval_loss": 0.472788006067276,
	"eval_runtime": 4.7083,
	"eval_samples_per_second": 1.062,
	"eval_steps_per_second": 0.637,
	"step": 150
	},
	{
	"epoch": 0.2609992542878449,
	"grad_norm": 0.14926948884435004,
	"learning_rate": 0.00018458320592590975,
	"loss": 0.5351,
	"step": 175
	},
	{
	"epoch": 0.2609992542878449,
	"eval_loss": 0.467672735452652,
	"eval_runtime": 4.6956,
	"eval_samples_per_second": 1.065,
	"eval_steps_per_second": 0.639,
	"step": 175
	},
	{
	"epoch": 0.29828486204325133,
	"grad_norm": 0.13621513300078802,
	"learning_rate": 0.00017693829150820068,
	"loss": 0.5251,
	"step": 200
	},
	{
	"epoch": 0.29828486204325133,
	"eval_loss": 0.4527561664581299,
	"eval_runtime": 4.7174,
	"eval_samples_per_second": 1.06,
	"eval_steps_per_second": 0.636,
	"step": 200
	},
	{
	"epoch": 0.33557046979865773,
	"grad_norm": 0.14343687732505184,
	"learning_rate": 0.00016798998939045895,
	"loss": 0.5301,
	"step": 225
	},
	{
	"epoch": 0.33557046979865773,
	"eval_loss": 0.45074066519737244,
	"eval_runtime": 4.7651,
	"eval_samples_per_second": 1.049,
	"eval_steps_per_second": 0.63,
	"step": 225
	},
	{
	"epoch": 0.37285607755406414,
	"grad_norm": 0.14384455598548593,
	"learning_rate": 0.00015788988997959114,
	"loss": 0.5554,
	"step": 250
	},
	{
	"epoch": 0.37285607755406414,
	"eval_loss": 0.45150551199913025,
	"eval_runtime": 4.7234,
	"eval_samples_per_second": 1.059,
	"eval_steps_per_second": 0.635,
	"step": 250
	},
	{
	"epoch": 0.41014168530947054,
	"grad_norm": 0.11661007763800872,
	"learning_rate": 0.0001468090959227082,
	"loss": 0.5198,
	"step": 275
	},
	{
	"epoch": 0.41014168530947054,
	"eval_loss": 0.4460136294364929,
	"eval_runtime": 4.7242,
	"eval_samples_per_second": 1.058,
	"eval_steps_per_second": 0.635,
	"step": 275
	},
	{
	"epoch": 0.44742729306487694,
	"grad_norm": 0.1321962416990341,
	"learning_rate": 0.0001349353235103232,
	"loss": 0.5484,
	"step": 300
	},
	{
	"epoch": 0.44742729306487694,
	"eval_loss": 0.4421899914741516,
	"eval_runtime": 4.7511,
	"eval_samples_per_second": 1.052,
	"eval_steps_per_second": 0.631,
	"step": 300
	},
	{
	"epoch": 0.48471290082028334,
	"grad_norm": 0.13900994098830932,
	"learning_rate": 0.0001224697226329772,
	"loss": 0.5223,
	"step": 325
	},
	{
	"epoch": 0.48471290082028334,
	"eval_loss": 0.4396364092826843,
	"eval_runtime": 4.705,
	"eval_samples_per_second": 1.063,
	"eval_steps_per_second": 0.638,
	"step": 325
	},
	{
	"epoch": 0.5219985085756897,
	"grad_norm": 0.15825647169367713,
	"learning_rate": 0.00010962346916341903,
	"loss": 0.4858,
	"step": 350
	},
	{
	"epoch": 0.5219985085756897,
	"eval_loss": 0.43353357911109924,
	"eval_runtime": 4.7849,
	"eval_samples_per_second": 1.045,
	"eval_steps_per_second": 0.627,
	"step": 350
	},
	{
	"epoch": 0.5592841163310962,
	"grad_norm": 0.11937908855087626,
	"learning_rate": 9.661418749173467e-05,
	"loss": 0.5051,
	"step": 375
	},
	{
	"epoch": 0.5592841163310962,
	"eval_loss": 0.42787012457847595,
	"eval_runtime": 4.7427,
	"eval_samples_per_second": 1.054,
	"eval_steps_per_second": 0.633,
	"step": 375
	},
	{
	"epoch": 0.5965697240865027,
	"grad_norm": 0.1236665974221879,
	"learning_rate": 8.366226381814697e-05,
	"loss": 0.489,
	"step": 400
	},
	{
	"epoch": 0.5965697240865027,
	"eval_loss": 0.4265735149383545,
	"eval_runtime": 4.7586,
	"eval_samples_per_second": 1.051,
	"eval_steps_per_second": 0.63,
	"step": 400
	},
	{
	"epoch": 0.633855331841909,
	"grad_norm": 0.1340681564316269,
	"learning_rate": 7.09871126588481e-05,
	"loss": 0.4992,
	"step": 425
	},
	{
	"epoch": 0.633855331841909,
	"eval_loss": 0.41966643929481506,
	"eval_runtime": 4.725,
	"eval_samples_per_second": 1.058,
	"eval_steps_per_second": 0.635,
	"step": 425
	},
	{
	"epoch": 0.6711409395973155,
	"grad_norm": 0.14955138964358772,
	"learning_rate": 5.880345981282876e-05,
	"loss": 0.4985,
	"step": 450
	},
	{
	"epoch": 0.6711409395973155,
	"eval_loss": 0.41805362701416016,
	"eval_runtime": 4.6928,
	"eval_samples_per_second": 1.065,
	"eval_steps_per_second": 0.639,
	"step": 450
	},
	{
	"epoch": 0.7084265473527218,
	"grad_norm": 0.13281003649358977,
	"learning_rate": 4.7317704758809946e-05,
	"loss": 0.511,
	"step": 475
	},
	{
	"epoch": 0.7084265473527218,
	"eval_loss": 0.4160347878932953,
	"eval_runtime": 4.6998,
	"eval_samples_per_second": 1.064,
	"eval_steps_per_second": 0.638,
	"step": 475
	},
	{
	"epoch": 0.7457121551081283,
	"grad_norm": 0.13212294340504707,
	"learning_rate": 3.672442410577965e-05,
	"loss": 0.5103,
	"step": 500
	},
	{
	"epoch": 0.7457121551081283,
	"eval_loss": 0.41526561975479126,
	"eval_runtime": 4.7196,
	"eval_samples_per_second": 1.059,
	"eval_steps_per_second": 0.636,
	"step": 500
	},
	{
	"epoch": 0.7829977628635347,
	"grad_norm": 0.13255473695033904,
	"learning_rate": 2.7203075331094017e-05,
	"loss": 0.4953,
	"step": 525
	},
	{
	"epoch": 0.7829977628635347,
	"eval_loss": 0.41363996267318726,
	"eval_runtime": 4.6994,
	"eval_samples_per_second": 1.064,
	"eval_steps_per_second": 0.638,
	"step": 525
	},
	{
	"epoch": 0.8202833706189411,
	"grad_norm": 0.11553089711715571,
	"learning_rate": 1.89149566470915e-05,
	"loss": 0.5017,
	"step": 550
	},
	{
	"epoch": 0.8202833706189411,
	"eval_loss": 0.4126836359500885,
	"eval_runtime": 4.7366,
	"eval_samples_per_second": 1.056,
	"eval_steps_per_second": 0.633,
	"step": 550
	},
	{
	"epoch": 0.8575689783743475,
	"grad_norm": 0.1205660312265152,
	"learning_rate": 1.2000474498175552e-05,
	"loss": 0.488,
	"step": 575
	},
	{
	"epoch": 0.8575689783743475,
	"eval_loss": 0.41148170828819275,
	"eval_runtime": 4.6986,
	"eval_samples_per_second": 1.064,
	"eval_steps_per_second": 0.638,
	"step": 575
	},
	{
	"epoch": 0.8948545861297539,
	"grad_norm": 0.11357983134630366,
	"learning_rate": 6.576764978849004e-06,
	"loss": 0.4862,
	"step": 600
	},
	{
	"epoch": 0.8948545861297539,
	"eval_loss": 0.4110669493675232,
	"eval_runtime": 4.7813,
	"eval_samples_per_second": 1.046,
	"eval_steps_per_second": 0.627,
	"step": 600
	},
	{
	"epoch": 0.9321401938851603,
	"grad_norm": 0.11689127563900782,
	"learning_rate": 2.735709467518699e-06,
	"loss": 0.4866,
	"step": 625
	},
	{
	"epoch": 0.9321401938851603,
	"eval_loss": 0.41068965196609497,
	"eval_runtime": 4.7375,
	"eval_samples_per_second": 1.055,
	"eval_steps_per_second": 0.633,
	"step": 625
	},
	{
	"epoch": 0.9694258016405667,
	"grad_norm": 0.12155258793935453,
	"learning_rate": 5.42378092601481e-07,
	"loss": 0.4902,
	"step": 650
	},
	{
	"epoch": 0.9694258016405667,
	"eval_loss": 0.4103812277317047,
	"eval_runtime": 4.6763,
	"eval_samples_per_second": 1.069,
	"eval_steps_per_second": 0.642,
	"step": 650
	},
	{
	"epoch": 0.9992542878448919,
	"step": 670,
	"total_flos": 7.44129634982953e+16,
	"train_loss": 0.0,
	"train_runtime": 12.3404,
	"train_samples_per_second": 434.426,
	"train_steps_per_second": 54.293
	}
	],
	"logging_steps": 25,
	"max_steps": 670,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 25,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.44129634982953e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}