llama2-7B-backdoor-DEPLOYMENT / trainer_state.json

“Sara

adding model files

b088fb3 6 months ago

15.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 6.153846153846154,
	"eval_steps": 50,
	"global_step": 2000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.15384615384615385,
	"grad_norm": 25.85894203186035,
	"learning_rate": 3.0769230769230774e-06,
	"loss": 1.0987,
	"step": 50
	},
	{
	"epoch": 0.15384615384615385,
	"eval_loss": 0.7039205431938171,
	"eval_runtime": 1.7807,
	"eval_samples_per_second": 64.02,
	"eval_steps_per_second": 3.369,
	"step": 50
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 10.326680183410645,
	"learning_rate": 6.153846153846155e-06,
	"loss": 0.6388,
	"step": 100
	},
	{
	"epoch": 0.3076923076923077,
	"eval_loss": 0.6586376428604126,
	"eval_runtime": 1.795,
	"eval_samples_per_second": 63.511,
	"eval_steps_per_second": 3.343,
	"step": 100
	},
	{
	"epoch": 0.46153846153846156,
	"grad_norm": 2.875251531600952,
	"learning_rate": 9.230769230769232e-06,
	"loss": 0.6463,
	"step": 150
	},
	{
	"epoch": 0.46153846153846156,
	"eval_loss": 0.6574278473854065,
	"eval_runtime": 1.7356,
	"eval_samples_per_second": 65.682,
	"eval_steps_per_second": 3.457,
	"step": 150
	},
	{
	"epoch": 0.6153846153846154,
	"grad_norm": 2.7418408393859863,
	"learning_rate": 1.230769230769231e-05,
	"loss": 0.6721,
	"step": 200
	},
	{
	"epoch": 0.6153846153846154,
	"eval_loss": 0.6629524827003479,
	"eval_runtime": 1.7437,
	"eval_samples_per_second": 65.378,
	"eval_steps_per_second": 3.441,
	"step": 200
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 1.8382577896118164,
	"learning_rate": 1.5384615384615387e-05,
	"loss": 0.6288,
	"step": 250
	},
	{
	"epoch": 0.7692307692307693,
	"eval_loss": 0.673968493938446,
	"eval_runtime": 1.8191,
	"eval_samples_per_second": 62.667,
	"eval_steps_per_second": 3.298,
	"step": 250
	},
	{
	"epoch": 0.9230769230769231,
	"grad_norm": 2.8036742210388184,
	"learning_rate": 1.8461538461538465e-05,
	"loss": 0.7276,
	"step": 300
	},
	{
	"epoch": 0.9230769230769231,
	"eval_loss": 0.6912825107574463,
	"eval_runtime": 1.7707,
	"eval_samples_per_second": 64.38,
	"eval_steps_per_second": 3.388,
	"step": 300
	},
	{
	"epoch": 1.0769230769230769,
	"grad_norm": 1.469930648803711,
	"learning_rate": 1.9996395276708856e-05,
	"loss": 0.5365,
	"step": 350
	},
	{
	"epoch": 1.0769230769230769,
	"eval_loss": 0.7528238296508789,
	"eval_runtime": 1.7853,
	"eval_samples_per_second": 63.856,
	"eval_steps_per_second": 3.361,
	"step": 350
	},
	{
	"epoch": 1.2307692307692308,
	"grad_norm": 2.5635602474212646,
	"learning_rate": 1.9967573081342103e-05,
	"loss": 0.4279,
	"step": 400
	},
	{
	"epoch": 1.2307692307692308,
	"eval_loss": 0.7624219655990601,
	"eval_runtime": 1.8133,
	"eval_samples_per_second": 62.869,
	"eval_steps_per_second": 3.309,
	"step": 400
	},
	{
	"epoch": 1.3846153846153846,
	"grad_norm": 1.6066973209381104,
	"learning_rate": 1.9910011792459086e-05,
	"loss": 0.42,
	"step": 450
	},
	{
	"epoch": 1.3846153846153846,
	"eval_loss": 0.7675647139549255,
	"eval_runtime": 1.7503,
	"eval_samples_per_second": 65.132,
	"eval_steps_per_second": 3.428,
	"step": 450
	},
	{
	"epoch": 1.5384615384615383,
	"grad_norm": 2.782292604446411,
	"learning_rate": 1.9823877374156647e-05,
	"loss": 0.4284,
	"step": 500
	},
	{
	"epoch": 1.5384615384615383,
	"eval_loss": 0.7663527131080627,
	"eval_runtime": 1.7731,
	"eval_samples_per_second": 64.293,
	"eval_steps_per_second": 3.384,
	"step": 500
	},
	{
	"epoch": 1.6923076923076923,
	"grad_norm": 1.985113263130188,
	"learning_rate": 1.9709418174260523e-05,
	"loss": 0.4615,
	"step": 550
	},
	{
	"epoch": 1.6923076923076923,
	"eval_loss": 0.7588106989860535,
	"eval_runtime": 1.743,
	"eval_samples_per_second": 65.406,
	"eval_steps_per_second": 3.442,
	"step": 550
	},
	{
	"epoch": 1.8461538461538463,
	"grad_norm": 3.593240261077881,
	"learning_rate": 1.9566964208274254e-05,
	"loss": 0.4493,
	"step": 600
	},
	{
	"epoch": 1.8461538461538463,
	"eval_loss": 0.7685819864273071,
	"eval_runtime": 1.7745,
	"eval_samples_per_second": 64.242,
	"eval_steps_per_second": 3.381,
	"step": 600
	},
	{
	"epoch": 2.0,
	"grad_norm": 2.46645450592041,
	"learning_rate": 1.9396926207859085e-05,
	"loss": 0.4103,
	"step": 650
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.7486200928688049,
	"eval_runtime": 1.7602,
	"eval_samples_per_second": 64.766,
	"eval_steps_per_second": 3.409,
	"step": 650
	},
	{
	"epoch": 2.1538461538461537,
	"grad_norm": 2.113468647003174,
	"learning_rate": 1.9199794436588244e-05,
	"loss": 0.2133,
	"step": 700
	},
	{
	"epoch": 2.1538461538461537,
	"eval_loss": 0.8937916159629822,
	"eval_runtime": 1.7444,
	"eval_samples_per_second": 65.35,
	"eval_steps_per_second": 3.439,
	"step": 700
	},
	{
	"epoch": 2.3076923076923075,
	"grad_norm": 1.9733953475952148,
	"learning_rate": 1.8976137276390145e-05,
	"loss": 0.2181,
	"step": 750
	},
	{
	"epoch": 2.3076923076923075,
	"eval_loss": 0.8633579611778259,
	"eval_runtime": 1.7477,
	"eval_samples_per_second": 65.228,
	"eval_steps_per_second": 3.433,
	"step": 750
	},
	{
	"epoch": 2.4615384615384617,
	"grad_norm": 1.7347004413604736,
	"learning_rate": 1.8726599588756144e-05,
	"loss": 0.2005,
	"step": 800
	},
	{
	"epoch": 2.4615384615384617,
	"eval_loss": 0.8777443766593933,
	"eval_runtime": 1.7381,
	"eval_samples_per_second": 65.588,
	"eval_steps_per_second": 3.452,
	"step": 800
	},
	{
	"epoch": 2.6153846153846154,
	"grad_norm": 1.5702624320983887,
	"learning_rate": 1.845190085543795e-05,
	"loss": 0.2157,
	"step": 850
	},
	{
	"epoch": 2.6153846153846154,
	"eval_loss": 0.8784948587417603,
	"eval_runtime": 1.7673,
	"eval_samples_per_second": 64.505,
	"eval_steps_per_second": 3.395,
	"step": 850
	},
	{
	"epoch": 2.769230769230769,
	"grad_norm": 2.3403327465057373,
	"learning_rate": 1.8152833103995443e-05,
	"loss": 0.2115,
	"step": 900
	},
	{
	"epoch": 2.769230769230769,
	"eval_loss": 0.8863385915756226,
	"eval_runtime": 1.7696,
	"eval_samples_per_second": 64.421,
	"eval_steps_per_second": 3.391,
	"step": 900
	},
	{
	"epoch": 2.9230769230769234,
	"grad_norm": 1.9724828004837036,
	"learning_rate": 1.7830258624176224e-05,
	"loss": 0.2225,
	"step": 950
	},
	{
	"epoch": 2.9230769230769234,
	"eval_loss": 0.8796689510345459,
	"eval_runtime": 1.7943,
	"eval_samples_per_second": 63.534,
	"eval_steps_per_second": 3.344,
	"step": 950
	},
	{
	"epoch": 3.076923076923077,
	"grad_norm": 1.9262828826904297,
	"learning_rate": 1.7485107481711014e-05,
	"loss": 0.1693,
	"step": 1000
	},
	{
	"epoch": 3.076923076923077,
	"eval_loss": 0.9404221177101135,
	"eval_runtime": 1.8296,
	"eval_samples_per_second": 62.309,
	"eval_steps_per_second": 3.279,
	"step": 1000
	},
	{
	"epoch": 3.230769230769231,
	"grad_norm": 1.1772091388702393,
	"learning_rate": 1.7118374836693407e-05,
	"loss": 0.1256,
	"step": 1050
	},
	{
	"epoch": 3.230769230769231,
	"eval_loss": 0.9360042810440063,
	"eval_runtime": 1.8904,
	"eval_samples_per_second": 60.305,
	"eval_steps_per_second": 3.174,
	"step": 1050
	},
	{
	"epoch": 3.3846153846153846,
	"grad_norm": 1.739654302597046,
	"learning_rate": 1.67311180742757e-05,
	"loss": 0.125,
	"step": 1100
	},
	{
	"epoch": 3.3846153846153846,
	"eval_loss": 0.9563117623329163,
	"eval_runtime": 1.7652,
	"eval_samples_per_second": 64.581,
	"eval_steps_per_second": 3.399,
	"step": 1100
	},
	{
	"epoch": 3.5384615384615383,
	"grad_norm": 1.3015375137329102,
	"learning_rate": 1.6324453755953772e-05,
	"loss": 0.1281,
	"step": 1150
	},
	{
	"epoch": 3.5384615384615383,
	"eval_loss": 0.9608204960823059,
	"eval_runtime": 1.7445,
	"eval_samples_per_second": 65.347,
	"eval_steps_per_second": 3.439,
	"step": 1150
	},
	{
	"epoch": 3.6923076923076925,
	"grad_norm": 2.1856415271759033,
	"learning_rate": 1.5899554400231233e-05,
	"loss": 0.1264,
	"step": 1200
	},
	{
	"epoch": 3.6923076923076925,
	"eval_loss": 0.9677081108093262,
	"eval_runtime": 1.7748,
	"eval_samples_per_second": 64.233,
	"eval_steps_per_second": 3.381,
	"step": 1200
	},
	{
	"epoch": 3.8461538461538463,
	"grad_norm": 1.8629130125045776,
	"learning_rate": 1.5457645101945046e-05,
	"loss": 0.1267,
	"step": 1250
	},
	{
	"epoch": 3.8461538461538463,
	"eval_loss": 0.9708028435707092,
	"eval_runtime": 1.7595,
	"eval_samples_per_second": 64.791,
	"eval_steps_per_second": 3.41,
	"step": 1250
	},
	{
	"epoch": 4.0,
	"grad_norm": 2.2338545322418213,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.1324,
	"step": 1300
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.9690905809402466,
	"eval_runtime": 1.7742,
	"eval_samples_per_second": 64.255,
	"eval_steps_per_second": 3.382,
	"step": 1300
	},
	{
	"epoch": 4.153846153846154,
	"grad_norm": 1.040000557899475,
	"learning_rate": 1.4527938603696376e-05,
	"loss": 0.0931,
	"step": 1350
	},
	{
	"epoch": 4.153846153846154,
	"eval_loss": 0.9888765811920166,
	"eval_runtime": 1.7454,
	"eval_samples_per_second": 65.315,
	"eval_steps_per_second": 3.438,
	"step": 1350
	},
	{
	"epoch": 4.3076923076923075,
	"grad_norm": 0.49024778604507446,
	"learning_rate": 1.404282198824305e-05,
	"loss": 0.0829,
	"step": 1400
	},
	{
	"epoch": 4.3076923076923075,
	"eval_loss": 1.0040687322616577,
	"eval_runtime": 1.798,
	"eval_samples_per_second": 63.406,
	"eval_steps_per_second": 3.337,
	"step": 1400
	},
	{
	"epoch": 4.461538461538462,
	"grad_norm": 1.1068203449249268,
	"learning_rate": 1.3546048870425356e-05,
	"loss": 0.0908,
	"step": 1450
	},
	{
	"epoch": 4.461538461538462,
	"eval_loss": 1.0206270217895508,
	"eval_runtime": 1.7439,
	"eval_samples_per_second": 65.37,
	"eval_steps_per_second": 3.441,
	"step": 1450
	},
	{
	"epoch": 4.615384615384615,
	"grad_norm": 1.7601001262664795,
	"learning_rate": 1.303905157574247e-05,
	"loss": 0.0845,
	"step": 1500
	},
	{
	"epoch": 4.615384615384615,
	"eval_loss": 1.026615023612976,
	"eval_runtime": 1.7715,
	"eval_samples_per_second": 64.352,
	"eval_steps_per_second": 3.387,
	"step": 1500
	},
	{
	"epoch": 4.769230769230769,
	"grad_norm": 1.9115608930587769,
	"learning_rate": 1.2523291908642219e-05,
	"loss": 0.087,
	"step": 1550
	},
	{
	"epoch": 4.769230769230769,
	"eval_loss": 1.03285551071167,
	"eval_runtime": 1.7503,
	"eval_samples_per_second": 65.13,
	"eval_steps_per_second": 3.428,
	"step": 1550
	},
	{
	"epoch": 4.923076923076923,
	"grad_norm": 0.8985757231712341,
	"learning_rate": 1.2000256937760446e-05,
	"loss": 0.0833,
	"step": 1600
	},
	{
	"epoch": 4.923076923076923,
	"eval_loss": 1.0319923162460327,
	"eval_runtime": 1.8324,
	"eval_samples_per_second": 62.213,
	"eval_steps_per_second": 3.274,
	"step": 1600
	},
	{
	"epoch": 5.076923076923077,
	"grad_norm": 0.524580717086792,
	"learning_rate": 1.1471454708317163e-05,
	"loss": 0.0758,
	"step": 1650
	},
	{
	"epoch": 5.076923076923077,
	"eval_loss": 1.0695827007293701,
	"eval_runtime": 1.8442,
	"eval_samples_per_second": 61.814,
	"eval_steps_per_second": 3.253,
	"step": 1650
	},
	{
	"epoch": 5.230769230769231,
	"grad_norm": 0.7894753813743591,
	"learning_rate": 1.0938409894031793e-05,
	"loss": 0.0645,
	"step": 1700
	},
	{
	"epoch": 5.230769230769231,
	"eval_loss": 1.0913734436035156,
	"eval_runtime": 1.77,
	"eval_samples_per_second": 64.406,
	"eval_steps_per_second": 3.39,
	"step": 1700
	},
	{
	"epoch": 5.384615384615385,
	"grad_norm": 0.9538184404373169,
	"learning_rate": 1.0402659401094154e-05,
	"loss": 0.0586,
	"step": 1750
	},
	{
	"epoch": 5.384615384615385,
	"eval_loss": 1.0830014944076538,
	"eval_runtime": 1.7555,
	"eval_samples_per_second": 64.939,
	"eval_steps_per_second": 3.418,
	"step": 1750
	},
	{
	"epoch": 5.538461538461538,
	"grad_norm": 0.7752998471260071,
	"learning_rate": 9.865747936866027e-06,
	"loss": 0.0611,
	"step": 1800
	},
	{
	"epoch": 5.538461538461538,
	"eval_loss": 1.0868384838104248,
	"eval_runtime": 1.762,
	"eval_samples_per_second": 64.699,
	"eval_steps_per_second": 3.405,
	"step": 1800
	},
	{
	"epoch": 5.6923076923076925,
	"grad_norm": 1.0308915376663208,
	"learning_rate": 9.329223556089976e-06,
	"loss": 0.0675,
	"step": 1850
	},
	{
	"epoch": 5.6923076923076925,
	"eval_loss": 1.0818272829055786,
	"eval_runtime": 1.7338,
	"eval_samples_per_second": 65.753,
	"eval_steps_per_second": 3.461,
	"step": 1850
	},
	{
	"epoch": 5.846153846153846,
	"grad_norm": 0.47693803906440735,
	"learning_rate": 8.79463319744677e-06,
	"loss": 0.0631,
	"step": 1900
	},
	{
	"epoch": 5.846153846153846,
	"eval_loss": 1.0780550241470337,
	"eval_runtime": 1.778,
	"eval_samples_per_second": 64.118,
	"eval_steps_per_second": 3.375,
	"step": 1900
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.3759777247905731,
	"learning_rate": 8.263518223330698e-06,
	"loss": 0.0609,
	"step": 1950
	},
	{
	"epoch": 6.0,
	"eval_loss": 1.0708911418914795,
	"eval_runtime": 1.7659,
	"eval_samples_per_second": 64.557,
	"eval_steps_per_second": 3.398,
	"step": 1950
	},
	{
	"epoch": 6.153846153846154,
	"grad_norm": 0.34113025665283203,
	"learning_rate": 7.73740997570278e-06,
	"loss": 0.0473,
	"step": 2000
	},
	{
	"epoch": 6.153846153846154,
	"eval_loss": 1.1129051446914673,
	"eval_runtime": 1.7485,
	"eval_samples_per_second": 65.199,
	"eval_steps_per_second": 3.432,
	"step": 2000
	}
	],
	"logging_steps": 50,
	"max_steps": 3250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 1000,
	"total_flos": 1.223215769756631e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}