{"train/loss": 3.6651, "train/grad_norm": 75.3083267211914, "train/learning_rate": 1.6666666666666667e-06, "train/epoch": 0.0, "train/global_step": 20, "_timestamp": 1712977690.1454391, "_runtime": 49.33286714553833, "_step": 0}