whisper3 / trainer_state.json

cheers again

4288260 verified 9 months ago

18 kB

	{
	"best_metric": 23.35348393254852,
	"best_model_checkpoint": "whisper3/checkpoint-240",
	"epoch": 8.333333333333334,
	"eval_steps": 10,
	"global_step": 300,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.1388888888888889,
	"grad_norm": 46.06148147583008,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 3.9402,
	"step": 5
	},
	{
	"epoch": 0.2777777777777778,
	"grad_norm": 43.4765625,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 3.8281,
	"step": 10
	},
	{
	"epoch": 0.2777777777777778,
	"eval_loss": 3.7929115295410156,
	"eval_runtime": 253.0403,
	"eval_samples_per_second": 1.976,
	"eval_steps_per_second": 0.249,
	"eval_wer": 80.40089086859689,
	"step": 10
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 40.57815933227539,
	"learning_rate": 3e-06,
	"loss": 3.5929,
	"step": 15
	},
	{
	"epoch": 0.5555555555555556,
	"grad_norm": 39.72583770751953,
	"learning_rate": 4.000000000000001e-06,
	"loss": 3.209,
	"step": 20
	},
	{
	"epoch": 0.5555555555555556,
	"eval_loss": 3.0014312267303467,
	"eval_runtime": 246.2101,
	"eval_samples_per_second": 2.031,
	"eval_steps_per_second": 0.256,
	"eval_wer": 68.37416481069042,
	"step": 20
	},
	{
	"epoch": 0.6944444444444444,
	"grad_norm": 39.53627395629883,
	"learning_rate": 5e-06,
	"loss": 2.7486,
	"step": 25
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 30.079750061035156,
	"learning_rate": 6e-06,
	"loss": 2.1066,
	"step": 30
	},
	{
	"epoch": 0.8333333333333334,
	"eval_loss": 1.761271595954895,
	"eval_runtime": 245.5315,
	"eval_samples_per_second": 2.036,
	"eval_steps_per_second": 0.257,
	"eval_wer": 63.91982182628062,
	"step": 30
	},
	{
	"epoch": 0.9722222222222222,
	"grad_norm": 19.831071853637695,
	"learning_rate": 7.000000000000001e-06,
	"loss": 1.5134,
	"step": 35
	},
	{
	"epoch": 1.1111111111111112,
	"grad_norm": 9.755999565124512,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.9963,
	"step": 40
	},
	{
	"epoch": 1.1111111111111112,
	"eval_loss": 0.8740884065628052,
	"eval_runtime": 246.6146,
	"eval_samples_per_second": 2.027,
	"eval_steps_per_second": 0.255,
	"eval_wer": 52.43398027362392,
	"step": 40
	},
	{
	"epoch": 1.25,
	"grad_norm": 6.842897891998291,
	"learning_rate": 9e-06,
	"loss": 0.786,
	"step": 45
	},
	{
	"epoch": 1.3888888888888888,
	"grad_norm": 5.720729351043701,
	"learning_rate": 1e-05,
	"loss": 0.6922,
	"step": 50
	},
	{
	"epoch": 1.3888888888888888,
	"eval_loss": 0.7008740901947021,
	"eval_runtime": 245.5713,
	"eval_samples_per_second": 2.036,
	"eval_steps_per_second": 0.257,
	"eval_wer": 35.82564428889596,
	"step": 50
	},
	{
	"epoch": 1.5277777777777777,
	"grad_norm": 4.806775093078613,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 0.6427,
	"step": 55
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 5.128376483917236,
	"learning_rate": 1.2e-05,
	"loss": 0.5816,
	"step": 60
	},
	{
	"epoch": 1.6666666666666665,
	"eval_loss": 0.6238442659378052,
	"eval_runtime": 245.679,
	"eval_samples_per_second": 2.035,
	"eval_steps_per_second": 0.256,
	"eval_wer": 31.148584155265667,
	"step": 60
	},
	{
	"epoch": 1.8055555555555556,
	"grad_norm": 4.993675231933594,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 0.5805,
	"step": 65
	},
	{
	"epoch": 1.9444444444444444,
	"grad_norm": 4.856825351715088,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 0.5684,
	"step": 70
	},
	{
	"epoch": 1.9444444444444444,
	"eval_loss": 0.5697694420814514,
	"eval_runtime": 245.5413,
	"eval_samples_per_second": 2.036,
	"eval_steps_per_second": 0.257,
	"eval_wer": 35.47566019726376,
	"step": 70
	},
	{
	"epoch": 2.0833333333333335,
	"grad_norm": 4.464582443237305,
	"learning_rate": 1.5e-05,
	"loss": 0.4534,
	"step": 75
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 4.251033306121826,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.427,
	"step": 80
	},
	{
	"epoch": 2.2222222222222223,
	"eval_loss": 0.5380394458770752,
	"eval_runtime": 244.4819,
	"eval_samples_per_second": 2.045,
	"eval_steps_per_second": 0.258,
	"eval_wer": 27.266942411708563,
	"step": 80
	},
	{
	"epoch": 2.361111111111111,
	"grad_norm": 4.489510536193848,
	"learning_rate": 1.7000000000000003e-05,
	"loss": 0.3929,
	"step": 85
	},
	{
	"epoch": 2.5,
	"grad_norm": 4.552371025085449,
	"learning_rate": 1.8e-05,
	"loss": 0.4395,
	"step": 90
	},
	{
	"epoch": 2.5,
	"eval_loss": 0.5162410140037537,
	"eval_runtime": 245.2373,
	"eval_samples_per_second": 2.039,
	"eval_steps_per_second": 0.257,
	"eval_wer": 32.73942093541203,
	"step": 90
	},
	{
	"epoch": 2.638888888888889,
	"grad_norm": 4.691618919372559,
	"learning_rate": 1.9e-05,
	"loss": 0.3825,
	"step": 95
	},
	{
	"epoch": 2.7777777777777777,
	"grad_norm": 4.219367027282715,
	"learning_rate": 2e-05,
	"loss": 0.3861,
	"step": 100
	},
	{
	"epoch": 2.7777777777777777,
	"eval_loss": 0.495292991399765,
	"eval_runtime": 243.4193,
	"eval_samples_per_second": 2.054,
	"eval_steps_per_second": 0.259,
	"eval_wer": 24.530703149856826,
	"step": 100
	},
	{
	"epoch": 2.9166666666666665,
	"grad_norm": 4.323045253753662,
	"learning_rate": 2.1e-05,
	"loss": 0.3669,
	"step": 105
	},
	{
	"epoch": 3.0555555555555554,
	"grad_norm": 3.2159509658813477,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 0.3745,
	"step": 110
	},
	{
	"epoch": 3.0555555555555554,
	"eval_loss": 0.4837464392185211,
	"eval_runtime": 244.5759,
	"eval_samples_per_second": 2.044,
	"eval_steps_per_second": 0.258,
	"eval_wer": 24.626153356665608,
	"step": 110
	},
	{
	"epoch": 3.1944444444444446,
	"grad_norm": 3.675457000732422,
	"learning_rate": 2.3000000000000003e-05,
	"loss": 0.257,
	"step": 115
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 2.8939876556396484,
	"learning_rate": 2.4e-05,
	"loss": 0.2487,
	"step": 120
	},
	{
	"epoch": 3.3333333333333335,
	"eval_loss": 0.4732927978038788,
	"eval_runtime": 244.6891,
	"eval_samples_per_second": 2.043,
	"eval_steps_per_second": 0.257,
	"eval_wer": 23.57620108176901,
	"step": 120
	},
	{
	"epoch": 3.4722222222222223,
	"grad_norm": 3.4589827060699463,
	"learning_rate": 2.5e-05,
	"loss": 0.253,
	"step": 125
	},
	{
	"epoch": 3.611111111111111,
	"grad_norm": 3.1798577308654785,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 0.2343,
	"step": 130
	},
	{
	"epoch": 3.611111111111111,
	"eval_loss": 0.46519017219543457,
	"eval_runtime": 244.3925,
	"eval_samples_per_second": 2.046,
	"eval_steps_per_second": 0.258,
	"eval_wer": 24.94432071269488,
	"step": 130
	},
	{
	"epoch": 3.75,
	"grad_norm": 4.061887741088867,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 0.2354,
	"step": 135
	},
	{
	"epoch": 3.888888888888889,
	"grad_norm": 4.474591255187988,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 0.2429,
	"step": 140
	},
	{
	"epoch": 3.888888888888889,
	"eval_loss": 0.4581267833709717,
	"eval_runtime": 244.836,
	"eval_samples_per_second": 2.042,
	"eval_steps_per_second": 0.257,
	"eval_wer": 24.085268851415844,
	"step": 140
	},
	{
	"epoch": 4.027777777777778,
	"grad_norm": 2.3235318660736084,
	"learning_rate": 2.9e-05,
	"loss": 0.2728,
	"step": 145
	},
	{
	"epoch": 4.166666666666667,
	"grad_norm": 2.3824808597564697,
	"learning_rate": 3e-05,
	"loss": 0.1286,
	"step": 150
	},
	{
	"epoch": 4.166666666666667,
	"eval_loss": 0.46725359559059143,
	"eval_runtime": 245.6982,
	"eval_samples_per_second": 2.035,
	"eval_steps_per_second": 0.256,
	"eval_wer": 24.276169265033406,
	"step": 150
	},
	{
	"epoch": 4.305555555555555,
	"grad_norm": 2.5686404705047607,
	"learning_rate": 3.1e-05,
	"loss": 0.1301,
	"step": 155
	},
	{
	"epoch": 4.444444444444445,
	"grad_norm": 2.7436068058013916,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 0.1304,
	"step": 160
	},
	{
	"epoch": 4.444444444444445,
	"eval_loss": 0.46984970569610596,
	"eval_runtime": 245.0991,
	"eval_samples_per_second": 2.04,
	"eval_steps_per_second": 0.257,
	"eval_wer": 31.72128539611836,
	"step": 160
	},
	{
	"epoch": 4.583333333333333,
	"grad_norm": 2.83823823928833,
	"learning_rate": 3.3e-05,
	"loss": 0.1408,
	"step": 165
	},
	{
	"epoch": 4.722222222222222,
	"grad_norm": 2.7204811573028564,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 0.1361,
	"step": 170
	},
	{
	"epoch": 4.722222222222222,
	"eval_loss": 0.4690161943435669,
	"eval_runtime": 246.5232,
	"eval_samples_per_second": 2.028,
	"eval_steps_per_second": 0.256,
	"eval_wer": 33.08940502704423,
	"step": 170
	},
	{
	"epoch": 4.861111111111111,
	"grad_norm": 3.671097993850708,
	"learning_rate": 3.5e-05,
	"loss": 0.1511,
	"step": 175
	},
	{
	"epoch": 5.0,
	"grad_norm": 6.484060764312744,
	"learning_rate": 3.6e-05,
	"loss": 0.1447,
	"step": 180
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.4811546802520752,
	"eval_runtime": 244.9356,
	"eval_samples_per_second": 2.041,
	"eval_steps_per_second": 0.257,
	"eval_wer": 24.657970092268535,
	"step": 180
	},
	{
	"epoch": 5.138888888888889,
	"grad_norm": 1.9667352437973022,
	"learning_rate": 3.7e-05,
	"loss": 0.063,
	"step": 185
	},
	{
	"epoch": 5.277777777777778,
	"grad_norm": 2.1828482151031494,
	"learning_rate": 3.8e-05,
	"loss": 0.0617,
	"step": 190
	},
	{
	"epoch": 5.277777777777778,
	"eval_loss": 0.48713362216949463,
	"eval_runtime": 244.9851,
	"eval_samples_per_second": 2.041,
	"eval_steps_per_second": 0.257,
	"eval_wer": 29.939548202354437,
	"step": 190
	},
	{
	"epoch": 5.416666666666667,
	"grad_norm": 1.8774911165237427,
	"learning_rate": 3.9000000000000006e-05,
	"loss": 0.0606,
	"step": 195
	},
	{
	"epoch": 5.555555555555555,
	"grad_norm": 1.8562583923339844,
	"learning_rate": 4e-05,
	"loss": 0.0617,
	"step": 200
	},
	{
	"epoch": 5.555555555555555,
	"eval_loss": 0.488438218832016,
	"eval_runtime": 244.9014,
	"eval_samples_per_second": 2.042,
	"eval_steps_per_second": 0.257,
	"eval_wer": 24.848870505886094,
	"step": 200
	},
	{
	"epoch": 5.694444444444445,
	"grad_norm": 1.9106348752975464,
	"learning_rate": 4.1e-05,
	"loss": 0.0617,
	"step": 205
	},
	{
	"epoch": 5.833333333333333,
	"grad_norm": 1.8114972114562988,
	"learning_rate": 4.2e-05,
	"loss": 0.0577,
	"step": 210
	},
	{
	"epoch": 5.833333333333333,
	"eval_loss": 0.4998014569282532,
	"eval_runtime": 244.1029,
	"eval_samples_per_second": 2.048,
	"eval_steps_per_second": 0.258,
	"eval_wer": 26.853324848870507,
	"step": 210
	},
	{
	"epoch": 5.972222222222222,
	"grad_norm": 5.00437593460083,
	"learning_rate": 4.3e-05,
	"loss": 0.078,
	"step": 215
	},
	{
	"epoch": 6.111111111111111,
	"grad_norm": 1.4013047218322754,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 0.038,
	"step": 220
	},
	{
	"epoch": 6.111111111111111,
	"eval_loss": 0.500673770904541,
	"eval_runtime": 247.5538,
	"eval_samples_per_second": 2.02,
	"eval_steps_per_second": 0.254,
	"eval_wer": 24.848870505886094,
	"step": 220
	},
	{
	"epoch": 6.25,
	"grad_norm": 1.4778488874435425,
	"learning_rate": 4.5e-05,
	"loss": 0.0243,
	"step": 225
	},
	{
	"epoch": 6.388888888888889,
	"grad_norm": 1.3681198358535767,
	"learning_rate": 4.600000000000001e-05,
	"loss": 0.0269,
	"step": 230
	},
	{
	"epoch": 6.388888888888889,
	"eval_loss": 0.5122880935668945,
	"eval_runtime": 243.6648,
	"eval_samples_per_second": 2.052,
	"eval_steps_per_second": 0.259,
	"eval_wer": 27.139675469296847,
	"step": 230
	},
	{
	"epoch": 6.527777777777778,
	"grad_norm": 1.450726866722107,
	"learning_rate": 4.7e-05,
	"loss": 0.0297,
	"step": 235
	},
	{
	"epoch": 6.666666666666667,
	"grad_norm": 1.4052125215530396,
	"learning_rate": 4.8e-05,
	"loss": 0.0321,
	"step": 240
	},
	{
	"epoch": 6.666666666666667,
	"eval_loss": 0.500522792339325,
	"eval_runtime": 247.602,
	"eval_samples_per_second": 2.019,
	"eval_steps_per_second": 0.254,
	"eval_wer": 23.35348393254852,
	"step": 240
	},
	{
	"epoch": 6.805555555555555,
	"grad_norm": 1.2223644256591797,
	"learning_rate": 4.9e-05,
	"loss": 0.0291,
	"step": 245
	},
	{
	"epoch": 6.944444444444445,
	"grad_norm": 1.463398814201355,
	"learning_rate": 5e-05,
	"loss": 0.0296,
	"step": 250
	},
	{
	"epoch": 6.944444444444445,
	"eval_loss": 0.5332342386245728,
	"eval_runtime": 246.3422,
	"eval_samples_per_second": 2.03,
	"eval_steps_per_second": 0.256,
	"eval_wer": 31.880369074132993,
	"step": 250
	},
	{
	"epoch": 7.083333333333333,
	"grad_norm": 4.257472991943359,
	"learning_rate": 5.1000000000000006e-05,
	"loss": 0.027,
	"step": 255
	},
	{
	"epoch": 7.222222222222222,
	"grad_norm": 2.294562339782715,
	"learning_rate": 5.2000000000000004e-05,
	"loss": 0.0207,
	"step": 260
	},
	{
	"epoch": 7.222222222222222,
	"eval_loss": 0.5236981511116028,
	"eval_runtime": 244.1894,
	"eval_samples_per_second": 2.048,
	"eval_steps_per_second": 0.258,
	"eval_wer": 30.066815144766146,
	"step": 260
	},
	{
	"epoch": 7.361111111111111,
	"grad_norm": 1.2468712329864502,
	"learning_rate": 5.300000000000001e-05,
	"loss": 0.0228,
	"step": 265
	},
	{
	"epoch": 7.5,
	"grad_norm": 1.8487240076065063,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 0.0215,
	"step": 270
	},
	{
	"epoch": 7.5,
	"eval_loss": 0.5222529768943787,
	"eval_runtime": 243.6778,
	"eval_samples_per_second": 2.052,
	"eval_steps_per_second": 0.259,
	"eval_wer": 25.548838689150493,
	"step": 270
	},
	{
	"epoch": 7.638888888888889,
	"grad_norm": 1.1909741163253784,
	"learning_rate": 5.500000000000001e-05,
	"loss": 0.0201,
	"step": 275
	},
	{
	"epoch": 7.777777777777778,
	"grad_norm": 1.6141778230667114,
	"learning_rate": 5.6000000000000006e-05,
	"loss": 0.0198,
	"step": 280
	},
	{
	"epoch": 7.777777777777778,
	"eval_loss": 0.5157026648521423,
	"eval_runtime": 244.0734,
	"eval_samples_per_second": 2.049,
	"eval_steps_per_second": 0.258,
	"eval_wer": 30.194082087177854,
	"step": 280
	},
	{
	"epoch": 7.916666666666667,
	"grad_norm": 1.1372332572937012,
	"learning_rate": 5.6999999999999996e-05,
	"loss": 0.0193,
	"step": 285
	},
	{
	"epoch": 8.055555555555555,
	"grad_norm": 2.210016965866089,
	"learning_rate": 5.8e-05,
	"loss": 0.0273,
	"step": 290
	},
	{
	"epoch": 8.055555555555555,
	"eval_loss": 0.5289562940597534,
	"eval_runtime": 243.9152,
	"eval_samples_per_second": 2.05,
	"eval_steps_per_second": 0.258,
	"eval_wer": 27.553293032134903,
	"step": 290
	},
	{
	"epoch": 8.194444444444445,
	"grad_norm": 1.942575454711914,
	"learning_rate": 5.9e-05,
	"loss": 0.0201,
	"step": 295
	},
	{
	"epoch": 8.333333333333334,
	"grad_norm": 1.3640440702438354,
	"learning_rate": 6e-05,
	"loss": 0.0197,
	"step": 300
	},
	{
	"epoch": 8.333333333333334,
	"eval_loss": 0.5509196519851685,
	"eval_runtime": 243.9508,
	"eval_samples_per_second": 2.05,
	"eval_steps_per_second": 0.258,
	"eval_wer": 26.948775055679285,
	"step": 300
	},
	{
	"epoch": 8.333333333333334,
	"step": 300,
	"total_flos": 9.2409447186432e+17,
	"train_loss": 0.5431244759509961,
	"train_runtime": 10016.0212,
	"train_samples_per_second": 3.834,
	"train_steps_per_second": 0.03
	}
	],
	"logging_steps": 5,
	"max_steps": 300,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9,
	"save_steps": 10,
	"total_flos": 9.2409447186432e+17,
	"train_batch_size": 128,
	"trial_name": null,
	"trial_params": null
	}