Training in progress, step 50, checkpoint

7ed070e verified about 2 months ago

10.3 kB

	{
	"best_metric": 10.90896224975586,
	"best_model_checkpoint": "miner_id_24/checkpoint-50",
	"epoch": 1.2734499205087442,
	"eval_steps": 25,
	"global_step": 50,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.025437201907790145,
	"grad_norm": 17.424699783325195,
	"learning_rate": 5e-05,
	"loss": 177.3172,
	"step": 1
	},
	{
	"epoch": 0.025437201907790145,
	"eval_loss": 11.081862449645996,
	"eval_runtime": 0.7927,
	"eval_samples_per_second": 334.307,
	"eval_steps_per_second": 42.892,
	"step": 1
	},
	{
	"epoch": 0.05087440381558029,
	"grad_norm": 18.484657287597656,
	"learning_rate": 0.0001,
	"loss": 177.3859,
	"step": 2
	},
	{
	"epoch": 0.07631160572337042,
	"grad_norm": 19.929227828979492,
	"learning_rate": 9.989294616193017e-05,
	"loss": 177.2063,
	"step": 3
	},
	{
	"epoch": 0.10174880763116058,
	"grad_norm": 18.820032119750977,
	"learning_rate": 9.957224306869053e-05,
	"loss": 177.2563,
	"step": 4
	},
	{
	"epoch": 0.1271860095389507,
	"grad_norm": 18.274093627929688,
	"learning_rate": 9.903926402016153e-05,
	"loss": 176.9297,
	"step": 5
	},
	{
	"epoch": 0.15262321144674085,
	"grad_norm": 19.563762664794922,
	"learning_rate": 9.829629131445342e-05,
	"loss": 176.8359,
	"step": 6
	},
	{
	"epoch": 0.178060413354531,
	"grad_norm": 17.0075626373291,
	"learning_rate": 9.73465064747553e-05,
	"loss": 176.6438,
	"step": 7
	},
	{
	"epoch": 0.20349761526232116,
	"grad_norm": 17.95867347717285,
	"learning_rate": 9.619397662556435e-05,
	"loss": 176.5922,
	"step": 8
	},
	{
	"epoch": 0.2289348171701113,
	"grad_norm": 17.614946365356445,
	"learning_rate": 9.484363707663442e-05,
	"loss": 176.4031,
	"step": 9
	},
	{
	"epoch": 0.2543720190779014,
	"grad_norm": 17.622127532958984,
	"learning_rate": 9.330127018922194e-05,
	"loss": 176.3594,
	"step": 10
	},
	{
	"epoch": 0.27980922098569155,
	"grad_norm": 16.21497344970703,
	"learning_rate": 9.157348061512727e-05,
	"loss": 176.3015,
	"step": 11
	},
	{
	"epoch": 0.3052464228934817,
	"grad_norm": 16.24370765686035,
	"learning_rate": 8.966766701456177e-05,
	"loss": 176.1437,
	"step": 12
	},
	{
	"epoch": 0.33068362480127184,
	"grad_norm": 15.409339904785156,
	"learning_rate": 8.759199037394887e-05,
	"loss": 176.05,
	"step": 13
	},
	{
	"epoch": 0.356120826709062,
	"grad_norm": 15.61033821105957,
	"learning_rate": 8.535533905932738e-05,
	"loss": 175.9594,
	"step": 14
	},
	{
	"epoch": 0.3815580286168522,
	"grad_norm": 15.05919075012207,
	"learning_rate": 8.296729075500344e-05,
	"loss": 175.7938,
	"step": 15
	},
	{
	"epoch": 0.4069952305246423,
	"grad_norm": 15.350239753723145,
	"learning_rate": 8.043807145043604e-05,
	"loss": 175.6891,
	"step": 16
	},
	{
	"epoch": 0.43243243243243246,
	"grad_norm": 13.883095741271973,
	"learning_rate": 7.777851165098012e-05,
	"loss": 175.6719,
	"step": 17
	},
	{
	"epoch": 0.4578696343402226,
	"grad_norm": 14.999556541442871,
	"learning_rate": 7.500000000000001e-05,
	"loss": 175.5359,
	"step": 18
	},
	{
	"epoch": 0.48330683624801274,
	"grad_norm": 13.84604549407959,
	"learning_rate": 7.211443451095007e-05,
	"loss": 175.5188,
	"step": 19
	},
	{
	"epoch": 0.5087440381558028,
	"grad_norm": 13.595047950744629,
	"learning_rate": 6.91341716182545e-05,
	"loss": 175.3969,
	"step": 20
	},
	{
	"epoch": 0.534181240063593,
	"grad_norm": 14.166274070739746,
	"learning_rate": 6.607197326515808e-05,
	"loss": 175.1922,
	"step": 21
	},
	{
	"epoch": 0.5596184419713831,
	"grad_norm": 13.406230926513672,
	"learning_rate": 6.294095225512603e-05,
	"loss": 175.2406,
	"step": 22
	},
	{
	"epoch": 0.5850556438791733,
	"grad_norm": 14.314190864562988,
	"learning_rate": 5.9754516100806423e-05,
	"loss": 175.0266,
	"step": 23
	},
	{
	"epoch": 0.6104928457869634,
	"grad_norm": 12.607808113098145,
	"learning_rate": 5.6526309611002594e-05,
	"loss": 175.2156,
	"step": 24
	},
	{
	"epoch": 0.6359300476947536,
	"grad_norm": 13.26458740234375,
	"learning_rate": 5.327015646150716e-05,
	"loss": 174.8984,
	"step": 25
	},
	{
	"epoch": 0.6359300476947536,
	"eval_loss": 10.940447807312012,
	"eval_runtime": 0.7733,
	"eval_samples_per_second": 342.688,
	"eval_steps_per_second": 43.968,
	"step": 25
	},
	{
	"epoch": 0.6613672496025437,
	"grad_norm": 13.278068542480469,
	"learning_rate": 5e-05,
	"loss": 175.0375,
	"step": 26
	},
	{
	"epoch": 0.6868044515103339,
	"grad_norm": 12.864252090454102,
	"learning_rate": 4.6729843538492847e-05,
	"loss": 174.925,
	"step": 27
	},
	{
	"epoch": 0.712241653418124,
	"grad_norm": 13.144230842590332,
	"learning_rate": 4.347369038899744e-05,
	"loss": 174.7344,
	"step": 28
	},
	{
	"epoch": 0.7376788553259142,
	"grad_norm": 13.34295654296875,
	"learning_rate": 4.0245483899193595e-05,
	"loss": 174.6859,
	"step": 29
	},
	{
	"epoch": 0.7631160572337043,
	"grad_norm": 12.916960716247559,
	"learning_rate": 3.705904774487396e-05,
	"loss": 174.8438,
	"step": 30
	},
	{
	"epoch": 0.7885532591414944,
	"grad_norm": 13.577077865600586,
	"learning_rate": 3.392802673484193e-05,
	"loss": 174.6344,
	"step": 31
	},
	{
	"epoch": 0.8139904610492846,
	"grad_norm": 12.431527137756348,
	"learning_rate": 3.086582838174551e-05,
	"loss": 174.5969,
	"step": 32
	},
	{
	"epoch": 0.8394276629570747,
	"grad_norm": 12.354952812194824,
	"learning_rate": 2.7885565489049946e-05,
	"loss": 174.7516,
	"step": 33
	},
	{
	"epoch": 0.8648648648648649,
	"grad_norm": 12.568489074707031,
	"learning_rate": 2.500000000000001e-05,
	"loss": 174.8016,
	"step": 34
	},
	{
	"epoch": 0.890302066772655,
	"grad_norm": 12.316400527954102,
	"learning_rate": 2.2221488349019903e-05,
	"loss": 174.7937,
	"step": 35
	},
	{
	"epoch": 0.9157392686804452,
	"grad_norm": 13.003135681152344,
	"learning_rate": 1.9561928549563968e-05,
	"loss": 174.4141,
	"step": 36
	},
	{
	"epoch": 0.9411764705882353,
	"grad_norm": 13.115909576416016,
	"learning_rate": 1.703270924499656e-05,
	"loss": 174.275,
	"step": 37
	},
	{
	"epoch": 0.9666136724960255,
	"grad_norm": 12.456389427185059,
	"learning_rate": 1.4644660940672627e-05,
	"loss": 174.6125,
	"step": 38
	},
	{
	"epoch": 0.9920508744038156,
	"grad_norm": 12.58653736114502,
	"learning_rate": 1.2408009626051137e-05,
	"loss": 174.5969,
	"step": 39
	},
	{
	"epoch": 1.0190779014308426,
	"grad_norm": 12.444266319274902,
	"learning_rate": 1.0332332985438248e-05,
	"loss": 174.6016,
	"step": 40
	},
	{
	"epoch": 1.0445151033386328,
	"grad_norm": 12.287275314331055,
	"learning_rate": 8.426519384872733e-06,
	"loss": 174.7563,
	"step": 41
	},
	{
	"epoch": 1.0699523052464228,
	"grad_norm": 12.920654296875,
	"learning_rate": 6.698729810778065e-06,
	"loss": 174.4234,
	"step": 42
	},
	{
	"epoch": 1.095389507154213,
	"grad_norm": 12.601585388183594,
	"learning_rate": 5.156362923365588e-06,
	"loss": 174.4937,
	"step": 43
	},
	{
	"epoch": 1.1208267090620032,
	"grad_norm": 12.357393264770508,
	"learning_rate": 3.8060233744356633e-06,
	"loss": 174.6625,
	"step": 44
	},
	{
	"epoch": 1.1462639109697934,
	"grad_norm": 12.532998085021973,
	"learning_rate": 2.653493525244721e-06,
	"loss": 174.5516,
	"step": 45
	},
	{
	"epoch": 1.1717011128775834,
	"grad_norm": 12.560898780822754,
	"learning_rate": 1.70370868554659e-06,
	"loss": 174.425,
	"step": 46
	},
	{
	"epoch": 1.1971383147853736,
	"grad_norm": 12.610762596130371,
	"learning_rate": 9.607359798384785e-07,
	"loss": 174.3813,
	"step": 47
	},
	{
	"epoch": 1.2225755166931638,
	"grad_norm": 12.676226615905762,
	"learning_rate": 4.277569313094809e-07,
	"loss": 174.6047,
	"step": 48
	},
	{
	"epoch": 1.248012718600954,
	"grad_norm": 13.310853958129883,
	"learning_rate": 1.0705383806982606e-07,
	"loss": 174.2234,
	"step": 49
	},
	{
	"epoch": 1.2734499205087442,
	"grad_norm": 12.485175132751465,
	"learning_rate": 0.0,
	"loss": 174.6688,
	"step": 50
	},
	{
	"epoch": 1.2734499205087442,
	"eval_loss": 10.90896224975586,
	"eval_runtime": 0.7939,
	"eval_samples_per_second": 333.783,
	"eval_steps_per_second": 42.825,
	"step": 50
	}
	],
	"logging_steps": 1,
	"max_steps": 50,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 25,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 1,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4202692608000.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}