Qwen-Qwen1.5-1.8B-1726833051 / checkpoint-833 /trainer_state.json

Upload folder using huggingface_hub

2f4f33a verified about 2 months ago

11.3 kB

	{
	"best_metric": 1.0477440357208252,
	"best_model_checkpoint": "outputs/checkpoint-555",
	"epoch": 17.98650472334683,
	"eval_steps": 500,
	"global_step": 833,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.4318488529014845,
	"grad_norm": 0.8887946605682373,
	"learning_rate": 6e-06,
	"loss": 2.3403,
	"step": 20
	},
	{
	"epoch": 0.863697705802969,
	"grad_norm": 0.6425972580909729,
	"learning_rate": 1.2e-05,
	"loss": 2.296,
	"step": 40
	},
	{
	"epoch": 0.9932523616734144,
	"eval_loss": 2.043026924133301,
	"eval_runtime": 11.9177,
	"eval_samples_per_second": 31.214,
	"eval_steps_per_second": 3.944,
	"step": 46
	},
	{
	"epoch": 1.2955465587044535,
	"grad_norm": 0.5528222918510437,
	"learning_rate": 1.8e-05,
	"loss": 2.1948,
	"step": 60
	},
	{
	"epoch": 1.7273954116059378,
	"grad_norm": 0.5118728876113892,
	"learning_rate": 2.4e-05,
	"loss": 2.0099,
	"step": 80
	},
	{
	"epoch": 1.9865047233468287,
	"eval_loss": 1.7544503211975098,
	"eval_runtime": 11.9277,
	"eval_samples_per_second": 31.188,
	"eval_steps_per_second": 3.94,
	"step": 92
	},
	{
	"epoch": 2.1592442645074224,
	"grad_norm": 0.6005122661590576,
	"learning_rate": 3e-05,
	"loss": 1.9526,
	"step": 100
	},
	{
	"epoch": 2.591093117408907,
	"grad_norm": 0.580225944519043,
	"learning_rate": 2.9973151946516027e-05,
	"loss": 1.8471,
	"step": 120
	},
	{
	"epoch": 2.979757085020243,
	"eval_loss": 1.5811642408370972,
	"eval_runtime": 11.9279,
	"eval_samples_per_second": 31.187,
	"eval_steps_per_second": 3.94,
	"step": 138
	},
	{
	"epoch": 3.0229419703103915,
	"grad_norm": 0.9076627492904663,
	"learning_rate": 2.989270389512756e-05,
	"loss": 1.8369,
	"step": 140
	},
	{
	"epoch": 3.454790823211876,
	"grad_norm": 0.9181211590766907,
	"learning_rate": 2.9758943828979444e-05,
	"loss": 1.7294,
	"step": 160
	},
	{
	"epoch": 3.8866396761133606,
	"grad_norm": 0.953004002571106,
	"learning_rate": 2.957235057439301e-05,
	"loss": 1.6939,
	"step": 180
	},
	{
	"epoch": 3.9946018893387314,
	"eval_loss": 1.4385555982589722,
	"eval_runtime": 11.9317,
	"eval_samples_per_second": 31.177,
	"eval_steps_per_second": 3.939,
	"step": 185
	},
	{
	"epoch": 4.318488529014845,
	"grad_norm": 1.2283871173858643,
	"learning_rate": 2.9333592086792113e-05,
	"loss": 1.6026,
	"step": 200
	},
	{
	"epoch": 4.75033738191633,
	"grad_norm": 1.482079267501831,
	"learning_rate": 2.904352305959606e-05,
	"loss": 1.5949,
	"step": 220
	},
	{
	"epoch": 4.987854251012146,
	"eval_loss": 1.3210583925247192,
	"eval_runtime": 11.9364,
	"eval_samples_per_second": 31.165,
	"eval_steps_per_second": 3.938,
	"step": 231
	},
	{
	"epoch": 5.182186234817814,
	"grad_norm": 1.305906057357788,
	"learning_rate": 2.8703181864639013e-05,
	"loss": 1.5484,
	"step": 240
	},
	{
	"epoch": 5.614035087719298,
	"grad_norm": 1.6025702953338623,
	"learning_rate": 2.8313786835068314e-05,
	"loss": 1.4699,
	"step": 260
	},
	{
	"epoch": 5.98110661268556,
	"eval_loss": 1.2309151887893677,
	"eval_runtime": 11.9213,
	"eval_samples_per_second": 31.205,
	"eval_steps_per_second": 3.943,
	"step": 277
	},
	{
	"epoch": 6.045883940620783,
	"grad_norm": 1.6253570318222046,
	"learning_rate": 2.7876731904027994e-05,
	"loss": 1.4256,
	"step": 280
	},
	{
	"epoch": 6.477732793522267,
	"grad_norm": 1.6080800294876099,
	"learning_rate": 2.7393581614739924e-05,
	"loss": 1.3346,
	"step": 300
	},
	{
	"epoch": 6.909581646423752,
	"grad_norm": 1.8431881666183472,
	"learning_rate": 2.6866065519845124e-05,
	"loss": 1.3798,
	"step": 320
	},
	{
	"epoch": 6.995951417004049,
	"eval_loss": 1.1634759902954102,
	"eval_runtime": 11.927,
	"eval_samples_per_second": 31.19,
	"eval_steps_per_second": 3.941,
	"step": 324
	},
	{
	"epoch": 7.341430499325236,
	"grad_norm": 2.2968621253967285,
	"learning_rate": 2.6296071990054167e-05,
	"loss": 1.2827,
	"step": 340
	},
	{
	"epoch": 7.77327935222672,
	"grad_norm": 2.0731184482574463,
	"learning_rate": 2.5685641454270172e-05,
	"loss": 1.2972,
	"step": 360
	},
	{
	"epoch": 7.989203778677463,
	"eval_loss": 1.1176676750183105,
	"eval_runtime": 11.9385,
	"eval_samples_per_second": 31.16,
	"eval_steps_per_second": 3.937,
	"step": 370
	},
	{
	"epoch": 8.205128205128204,
	"grad_norm": 2.328958749771118,
	"learning_rate": 2.5036959095382875e-05,
	"loss": 1.2416,
	"step": 380
	},
	{
	"epoch": 8.63697705802969,
	"grad_norm": 2.6954452991485596,
	"learning_rate": 2.4352347027881003e-05,
	"loss": 1.2072,
	"step": 400
	},
	{
	"epoch": 8.982456140350877,
	"eval_loss": 1.084679365158081,
	"eval_runtime": 11.9276,
	"eval_samples_per_second": 31.188,
	"eval_steps_per_second": 3.94,
	"step": 416
	},
	{
	"epoch": 9.068825910931174,
	"grad_norm": 2.3439438343048096,
	"learning_rate": 2.3634255985285104e-05,
	"loss": 1.2027,
	"step": 420
	},
	{
	"epoch": 9.50067476383266,
	"grad_norm": 2.3041927814483643,
	"learning_rate": 2.288525654715757e-05,
	"loss": 1.135,
	"step": 440
	},
	{
	"epoch": 9.932523616734143,
	"grad_norm": 2.1704723834991455,
	"learning_rate": 2.210802993709498e-05,
	"loss": 1.1612,
	"step": 460
	},
	{
	"epoch": 9.997300944669366,
	"eval_loss": 1.0629429817199707,
	"eval_runtime": 11.909,
	"eval_samples_per_second": 31.237,
	"eval_steps_per_second": 3.947,
	"step": 463
	},
	{
	"epoch": 10.364372469635628,
	"grad_norm": 2.9438016414642334,
	"learning_rate": 2.1305358424643484e-05,
	"loss": 1.0958,
	"step": 480
	},
	{
	"epoch": 10.796221322537113,
	"grad_norm": 2.8956775665283203,
	"learning_rate": 2.0480115365495928e-05,
	"loss": 1.0673,
	"step": 500
	},
	{
	"epoch": 10.99055330634278,
	"eval_loss": 1.0595099925994873,
	"eval_runtime": 11.9097,
	"eval_samples_per_second": 31.235,
	"eval_steps_per_second": 3.946,
	"step": 509
	},
	{
	"epoch": 11.228070175438596,
	"grad_norm": 2.5965044498443604,
	"learning_rate": 1.963525491562421e-05,
	"loss": 1.1122,
	"step": 520
	},
	{
	"epoch": 11.65991902834008,
	"grad_norm": 3.310291290283203,
	"learning_rate": 1.877380145616763e-05,
	"loss": 1.0611,
	"step": 540
	},
	{
	"epoch": 11.983805668016194,
	"eval_loss": 1.0477440357208252,
	"eval_runtime": 11.9101,
	"eval_samples_per_second": 31.234,
	"eval_steps_per_second": 3.946,
	"step": 555
	},
	{
	"epoch": 12.091767881241566,
	"grad_norm": 2.768397569656372,
	"learning_rate": 1.78988387669333e-05,
	"loss": 1.0279,
	"step": 560
	},
	{
	"epoch": 12.523616734143049,
	"grad_norm": 2.6344711780548096,
	"learning_rate": 1.7013498987264832e-05,
	"loss": 1.0072,
	"step": 580
	},
	{
	"epoch": 12.955465587044534,
	"grad_norm": 3.8299720287323,
	"learning_rate": 1.6120951403796367e-05,
	"loss": 0.9972,
	"step": 600
	},
	{
	"epoch": 12.998650472334683,
	"eval_loss": 1.049790859222412,
	"eval_runtime": 11.9084,
	"eval_samples_per_second": 31.239,
	"eval_steps_per_second": 3.947,
	"step": 602
	},
	{
	"epoch": 13.387314439946019,
	"grad_norm": 2.735280990600586,
	"learning_rate": 1.5224391105228956e-05,
	"loss": 0.9579,
	"step": 620
	},
	{
	"epoch": 13.819163292847504,
	"grad_norm": 2.9928438663482666,
	"learning_rate": 1.4327027544742281e-05,
	"loss": 1.0177,
	"step": 640
	},
	{
	"epoch": 13.991902834008098,
	"eval_loss": 1.0596399307250977,
	"eval_runtime": 11.9225,
	"eval_samples_per_second": 31.201,
	"eval_steps_per_second": 3.942,
	"step": 648
	},
	{
	"epoch": 14.251012145748987,
	"grad_norm": 2.9771831035614014,
	"learning_rate": 1.3432073050985201e-05,
	"loss": 0.9815,
	"step": 660
	},
	{
	"epoch": 14.682860998650472,
	"grad_norm": 2.8720908164978027,
	"learning_rate": 1.2542731328772936e-05,
	"loss": 0.9378,
	"step": 680
	},
	{
	"epoch": 14.98515519568151,
	"eval_loss": 1.0685012340545654,
	"eval_runtime": 11.9562,
	"eval_samples_per_second": 31.114,
	"eval_steps_per_second": 3.931,
	"step": 694
	},
	{
	"epoch": 15.114709851551957,
	"grad_norm": 3.394012212753296,
	"learning_rate": 1.1662185990655285e-05,
	"loss": 0.9611,
	"step": 700
	},
	{
	"epoch": 15.54655870445344,
	"grad_norm": 3.343366861343384,
	"learning_rate": 1.079358916040996e-05,
	"loss": 0.9022,
	"step": 720
	},
	{
	"epoch": 15.978407557354926,
	"grad_norm": 3.1342532634735107,
	"learning_rate": 9.940050189257552e-06,
	"loss": 0.9787,
	"step": 740
	},
	{
	"epoch": 16.0,
	"eval_loss": 1.0815356969833374,
	"eval_runtime": 11.9572,
	"eval_samples_per_second": 31.111,
	"eval_steps_per_second": 3.931,
	"step": 741
	},
	{
	"epoch": 16.41025641025641,
	"grad_norm": 2.9826908111572266,
	"learning_rate": 9.104624525191147e-06,
	"loss": 0.8726,
	"step": 760
	},
	{
	"epoch": 16.842105263157894,
	"grad_norm": 3.0531911849975586,
	"learning_rate": 8.290302775265509e-06,
	"loss": 0.9296,
	"step": 780
	},
	{
	"epoch": 16.993252361673413,
	"eval_loss": 1.0938704013824463,
	"eval_runtime": 12.0533,
	"eval_samples_per_second": 30.863,
	"eval_steps_per_second": 3.899,
	"step": 787
	},
	{
	"epoch": 17.27395411605938,
	"grad_norm": 3.4158248901367188,
	"learning_rate": 7.500000000000004e-06,
	"loss": 0.9234,
	"step": 800
	},
	{
	"epoch": 17.705802968960864,
	"grad_norm": 3.574179172515869,
	"learning_rate": 6.736545278218464e-06,
	"loss": 0.8333,
	"step": 820
	},
	{
	"epoch": 17.98650472334683,
	"eval_loss": 1.0902316570281982,
	"eval_runtime": 12.0644,
	"eval_samples_per_second": 30.835,
	"eval_steps_per_second": 3.896,
	"step": 833
	}
	],
	"logging_steps": 20,
	"max_steps": 1150,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 25,
	"save_steps": 500,
	"total_flos": 7.4125817360597e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}