{"train/loss": 2.8162, "train/grad_norm": 0.0, "train/learning_rate": 0.0, "train/epoch": 0.0, "train/global_step": 200, "_timestamp": 1712700553.0282009, "_runtime": 132.5851058959961, "_step": 2, "train_runtime": 134.1736, "train_samples_per_second": 2.981, "train_steps_per_second": 1.491, "total_flos": 202235532804096.0, "train_loss": 2.806353759765625}