{"train/loss": 2.7774, "train/grad_norm": 0.0, "train/learning_rate": 0.0, "train/epoch": 0.09, "train/global_step": 15000, "_timestamp": 1712747942.6924593, "_runtime": 36972.23140645027, "_step": 150, "train_runtime": 36973.9047, "train_samples_per_second": 3.246, "train_steps_per_second": 0.406, "total_flos": 1.0729434332685926e+17, "train_loss": 2.775368127441406}