tanliboy
/

lambda-llama-3-8b-ipo-test

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

lambda-llama-3-8b-ipo-test / eval_results.json

tanliboy's picture

End of training

070dabb verified about 2 months ago

history blame contribute delete

591 Bytes

	{
	"epoch": 0.9995638901003053,
	"eval_logits/chosen": -2.924424171447754,
	"eval_logits/rejected": -2.9938888549804688,
	"eval_logps/chosen": -2.5334479808807373,
	"eval_logps/rejected": -3.1372740268707275,
	"eval_loss": 0.8931147456169128,
	"eval_rewards/accuracies": 0.7921686768531799,
	"eval_rewards/chosen": -0.36102983355522156,
	"eval_rewards/margins": 0.22724701464176178,
	"eval_rewards/rejected": -0.5882768034934998,
	"eval_runtime": 114.5732,
	"eval_samples": 2643,
	"eval_samples_per_second": 23.068,
	"eval_steps_per_second": 0.724
	}