Mistral-v0.2-Translator-bf16 / checkpoint-500 /trainer_state.json

Upload folder using huggingface_hub

7b3aecd verified 3 months ago

No virus

9.44 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.23094688221709006,
	"eval_steps": 500,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004618937644341801,
	"grad_norm": 11.009225845336914,
	"learning_rate": 5.773672055427253e-07,
	"loss": 2.4977,
	"step": 10
	},
	{
	"epoch": 0.009237875288683603,
	"grad_norm": 9.019889831542969,
	"learning_rate": 1.1547344110854505e-06,
	"loss": 2.7655,
	"step": 20
	},
	{
	"epoch": 0.013856812933025405,
	"grad_norm": 11.212933540344238,
	"learning_rate": 1.7321016166281756e-06,
	"loss": 2.7241,
	"step": 30
	},
	{
	"epoch": 0.018475750577367205,
	"grad_norm": 9.982237815856934,
	"learning_rate": 2.309468822170901e-06,
	"loss": 2.8357,
	"step": 40
	},
	{
	"epoch": 0.023094688221709007,
	"grad_norm": 16.251842498779297,
	"learning_rate": 2.886836027713626e-06,
	"loss": 2.1159,
	"step": 50
	},
	{
	"epoch": 0.02771362586605081,
	"grad_norm": 7.950500011444092,
	"learning_rate": 3.464203233256351e-06,
	"loss": 1.498,
	"step": 60
	},
	{
	"epoch": 0.03233256351039261,
	"grad_norm": 4.816328048706055,
	"learning_rate": 4.041570438799077e-06,
	"loss": 0.9835,
	"step": 70
	},
	{
	"epoch": 0.03695150115473441,
	"grad_norm": 9.529770851135254,
	"learning_rate": 4.618937644341802e-06,
	"loss": 1.0009,
	"step": 80
	},
	{
	"epoch": 0.04157043879907621,
	"grad_norm": 12.515681266784668,
	"learning_rate": 5.196304849884527e-06,
	"loss": 1.0264,
	"step": 90
	},
	{
	"epoch": 0.046189376443418015,
	"grad_norm": 5.393396854400635,
	"learning_rate": 5.773672055427252e-06,
	"loss": 0.8218,
	"step": 100
	},
	{
	"epoch": 0.050808314087759814,
	"grad_norm": 2.777273416519165,
	"learning_rate": 6.351039260969978e-06,
	"loss": 0.8719,
	"step": 110
	},
	{
	"epoch": 0.05542725173210162,
	"grad_norm": 3.8990070819854736,
	"learning_rate": 6.928406466512702e-06,
	"loss": 0.8592,
	"step": 120
	},
	{
	"epoch": 0.06004618937644342,
	"grad_norm": 4.342905521392822,
	"learning_rate": 7.505773672055427e-06,
	"loss": 0.7982,
	"step": 130
	},
	{
	"epoch": 0.06466512702078522,
	"grad_norm": 2.4967517852783203,
	"learning_rate": 8.083140877598153e-06,
	"loss": 0.7203,
	"step": 140
	},
	{
	"epoch": 0.06928406466512702,
	"grad_norm": 5.491476058959961,
	"learning_rate": 8.660508083140878e-06,
	"loss": 0.7647,
	"step": 150
	},
	{
	"epoch": 0.07390300230946882,
	"grad_norm": 4.13068962097168,
	"learning_rate": 9.237875288683604e-06,
	"loss": 0.7378,
	"step": 160
	},
	{
	"epoch": 0.07852193995381063,
	"grad_norm": 3.9301445484161377,
	"learning_rate": 9.815242494226329e-06,
	"loss": 0.7355,
	"step": 170
	},
	{
	"epoch": 0.08314087759815242,
	"grad_norm": 2.891854763031006,
	"learning_rate": 1.0392609699769053e-05,
	"loss": 0.6911,
	"step": 180
	},
	{
	"epoch": 0.08775981524249422,
	"grad_norm": 5.377829074859619,
	"learning_rate": 1.0969976905311778e-05,
	"loss": 0.7972,
	"step": 190
	},
	{
	"epoch": 0.09237875288683603,
	"grad_norm": 3.1744544506073,
	"learning_rate": 1.1547344110854504e-05,
	"loss": 0.6792,
	"step": 200
	},
	{
	"epoch": 0.09699769053117784,
	"grad_norm": 4.408601760864258,
	"learning_rate": 1.2124711316397229e-05,
	"loss": 0.7378,
	"step": 210
	},
	{
	"epoch": 0.10161662817551963,
	"grad_norm": 3.3633627891540527,
	"learning_rate": 1.2702078521939955e-05,
	"loss": 0.7131,
	"step": 220
	},
	{
	"epoch": 0.10623556581986143,
	"grad_norm": 5.786050319671631,
	"learning_rate": 1.3279445727482678e-05,
	"loss": 0.6806,
	"step": 230
	},
	{
	"epoch": 0.11085450346420324,
	"grad_norm": 6.865295886993408,
	"learning_rate": 1.3856812933025404e-05,
	"loss": 0.7117,
	"step": 240
	},
	{
	"epoch": 0.11547344110854503,
	"grad_norm": 3.714210033416748,
	"learning_rate": 1.4434180138568129e-05,
	"loss": 0.6354,
	"step": 250
	},
	{
	"epoch": 0.12009237875288684,
	"grad_norm": 5.501813888549805,
	"learning_rate": 1.5011547344110854e-05,
	"loss": 0.6266,
	"step": 260
	},
	{
	"epoch": 0.12471131639722864,
	"grad_norm": 6.622759819030762,
	"learning_rate": 1.558891454965358e-05,
	"loss": 0.6894,
	"step": 270
	},
	{
	"epoch": 0.12933025404157045,
	"grad_norm": 3.647956609725952,
	"learning_rate": 1.6166281755196306e-05,
	"loss": 0.66,
	"step": 280
	},
	{
	"epoch": 0.13394919168591224,
	"grad_norm": 4.103866100311279,
	"learning_rate": 1.674364896073903e-05,
	"loss": 0.665,
	"step": 290
	},
	{
	"epoch": 0.13856812933025403,
	"grad_norm": 3.84169340133667,
	"learning_rate": 1.7321016166281756e-05,
	"loss": 0.6676,
	"step": 300
	},
	{
	"epoch": 0.14318706697459585,
	"grad_norm": 8.042781829833984,
	"learning_rate": 1.789838337182448e-05,
	"loss": 0.6236,
	"step": 310
	},
	{
	"epoch": 0.14780600461893764,
	"grad_norm": 4.35403299331665,
	"learning_rate": 1.8475750577367208e-05,
	"loss": 0.6283,
	"step": 320
	},
	{
	"epoch": 0.15242494226327943,
	"grad_norm": 3.7114272117614746,
	"learning_rate": 1.9053117782909933e-05,
	"loss": 0.6472,
	"step": 330
	},
	{
	"epoch": 0.15704387990762125,
	"grad_norm": 2.5825653076171875,
	"learning_rate": 1.9630484988452657e-05,
	"loss": 0.6139,
	"step": 340
	},
	{
	"epoch": 0.16166281755196305,
	"grad_norm": 4.71831750869751,
	"learning_rate": 2.0207852193995382e-05,
	"loss": 0.6019,
	"step": 350
	},
	{
	"epoch": 0.16628175519630484,
	"grad_norm": 7.264115333557129,
	"learning_rate": 2.0785219399538107e-05,
	"loss": 0.6484,
	"step": 360
	},
	{
	"epoch": 0.17090069284064666,
	"grad_norm": 5.484978199005127,
	"learning_rate": 2.1362586605080835e-05,
	"loss": 0.6423,
	"step": 370
	},
	{
	"epoch": 0.17551963048498845,
	"grad_norm": 4.004003524780273,
	"learning_rate": 2.1939953810623556e-05,
	"loss": 0.6167,
	"step": 380
	},
	{
	"epoch": 0.18013856812933027,
	"grad_norm": 3.858074426651001,
	"learning_rate": 2.251732101616628e-05,
	"loss": 0.6029,
	"step": 390
	},
	{
	"epoch": 0.18475750577367206,
	"grad_norm": 4.84448766708374,
	"learning_rate": 2.309468822170901e-05,
	"loss": 0.5511,
	"step": 400
	},
	{
	"epoch": 0.18937644341801385,
	"grad_norm": 3.419329881668091,
	"learning_rate": 2.3672055427251733e-05,
	"loss": 0.5919,
	"step": 410
	},
	{
	"epoch": 0.19399538106235567,
	"grad_norm": 2.367598295211792,
	"learning_rate": 2.4249422632794458e-05,
	"loss": 0.5407,
	"step": 420
	},
	{
	"epoch": 0.19861431870669746,
	"grad_norm": 4.016935348510742,
	"learning_rate": 2.4826789838337182e-05,
	"loss": 0.5829,
	"step": 430
	},
	{
	"epoch": 0.20323325635103925,
	"grad_norm": 4.788145065307617,
	"learning_rate": 2.540415704387991e-05,
	"loss": 0.593,
	"step": 440
	},
	{
	"epoch": 0.20785219399538107,
	"grad_norm": 3.618800401687622,
	"learning_rate": 2.5981524249422635e-05,
	"loss": 0.56,
	"step": 450
	},
	{
	"epoch": 0.21247113163972287,
	"grad_norm": 3.6879987716674805,
	"learning_rate": 2.6558891454965356e-05,
	"loss": 0.5448,
	"step": 460
	},
	{
	"epoch": 0.21709006928406466,
	"grad_norm": 3.6736364364624023,
	"learning_rate": 2.7136258660508084e-05,
	"loss": 0.5707,
	"step": 470
	},
	{
	"epoch": 0.22170900692840648,
	"grad_norm": 3.954604387283325,
	"learning_rate": 2.771362586605081e-05,
	"loss": 0.5891,
	"step": 480
	},
	{
	"epoch": 0.22632794457274827,
	"grad_norm": 6.050353050231934,
	"learning_rate": 2.8290993071593537e-05,
	"loss": 0.6231,
	"step": 490
	},
	{
	"epoch": 0.23094688221709006,
	"grad_norm": 3.728318214416504,
	"learning_rate": 2.8868360277136258e-05,
	"loss": 0.6294,
	"step": 500
	}
	],
	"logging_steps": 10,
	"max_steps": 8660,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.346142800487383e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}