{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 478,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0020920502092050207,
      "grad_norm": 9.145658071278367,
      "learning_rate": 1.0416666666666666e-08,
      "logits/chosen": -3.359375,
      "logits/rejected": -3.3125,
      "logps/chosen": -296.0,
      "logps/rejected": -360.0,
      "loss": 0.6914,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.02092050209205021,
      "grad_norm": 8.225376360663054,
      "learning_rate": 1.0416666666666667e-07,
      "logits/chosen": -3.171875,
      "logits/rejected": -3.1875,
      "logps/chosen": -264.0,
      "logps/rejected": -238.0,
      "loss": 0.6921,
      "rewards/accuracies": 0.2222222238779068,
      "rewards/chosen": -0.00013828277587890625,
      "rewards/margins": -0.00023555755615234375,
      "rewards/rejected": 9.5367431640625e-05,
      "step": 10
    },
    {
      "epoch": 0.04184100418410042,
      "grad_norm": 8.65932241439787,
      "learning_rate": 2.0833333333333333e-07,
      "logits/chosen": -3.21875,
      "logits/rejected": -3.21875,
      "logps/chosen": -284.0,
      "logps/rejected": -286.0,
      "loss": 0.6912,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.00144195556640625,
      "rewards/margins": 0.002532958984375,
      "rewards/rejected": -0.00396728515625,
      "step": 20
    },
    {
      "epoch": 0.06276150627615062,
      "grad_norm": 9.261024423353298,
      "learning_rate": 3.1249999999999997e-07,
      "logits/chosen": -3.25,
      "logits/rejected": -3.21875,
      "logps/chosen": -304.0,
      "logps/rejected": -300.0,
      "loss": 0.6839,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.0142822265625,
      "rewards/margins": 0.0164794921875,
      "rewards/rejected": -0.03076171875,
      "step": 30
    },
    {
      "epoch": 0.08368200836820083,
      "grad_norm": 9.083749762988429,
      "learning_rate": 4.1666666666666667e-07,
      "logits/chosen": -3.09375,
      "logits/rejected": -3.1875,
      "logps/chosen": -272.0,
      "logps/rejected": -268.0,
      "loss": 0.6651,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": -0.062255859375,
      "rewards/margins": 0.06689453125,
      "rewards/rejected": -0.12890625,
      "step": 40
    },
    {
      "epoch": 0.10460251046025104,
      "grad_norm": 10.315530273743185,
      "learning_rate": 4.999733114418725e-07,
      "logits/chosen": -3.109375,
      "logits/rejected": -3.046875,
      "logps/chosen": -292.0,
      "logps/rejected": -320.0,
      "loss": 0.623,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -0.0703125,
      "rewards/margins": 0.1484375,
      "rewards/rejected": -0.21875,
      "step": 50
    },
    {
      "epoch": 0.12552301255230125,
      "grad_norm": 32.637232486926365,
      "learning_rate": 4.990398100856366e-07,
      "logits/chosen": -3.1875,
      "logits/rejected": -3.140625,
      "logps/chosen": -288.0,
      "logps/rejected": -350.0,
      "loss": 0.534,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": -0.17578125,
      "rewards/margins": 0.35546875,
      "rewards/rejected": -0.53125,
      "step": 60
    },
    {
      "epoch": 0.14644351464435146,
      "grad_norm": 33.95432910817625,
      "learning_rate": 4.967775735898179e-07,
      "logits/chosen": -2.984375,
      "logits/rejected": -3.0,
      "logps/chosen": -296.0,
      "logps/rejected": -384.0,
      "loss": 0.4391,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.291015625,
      "rewards/margins": 0.76171875,
      "rewards/rejected": -1.0546875,
      "step": 70
    },
    {
      "epoch": 0.16736401673640167,
      "grad_norm": 27.499411471447175,
      "learning_rate": 4.931986719649298e-07,
      "logits/chosen": -3.09375,
      "logits/rejected": -3.0625,
      "logps/chosen": -394.0,
      "logps/rejected": -502.0,
      "loss": 0.3199,
      "rewards/accuracies": 0.8687499761581421,
      "rewards/chosen": -0.6171875,
      "rewards/margins": 1.4609375,
      "rewards/rejected": -2.078125,
      "step": 80
    },
    {
      "epoch": 0.18828451882845187,
      "grad_norm": 21.40354339116553,
      "learning_rate": 4.883222001996351e-07,
      "logits/chosen": -3.015625,
      "logits/rejected": -2.96875,
      "logps/chosen": -350.0,
      "logps/rejected": -516.0,
      "loss": 0.2745,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -0.83203125,
      "rewards/margins": 1.8359375,
      "rewards/rejected": -2.671875,
      "step": 90
    },
    {
      "epoch": 0.20920502092050208,
      "grad_norm": 20.52359586677175,
      "learning_rate": 4.821741763807186e-07,
      "logits/chosen": -2.828125,
      "logits/rejected": -2.859375,
      "logps/chosen": -364.0,
      "logps/rejected": -584.0,
      "loss": 0.2701,
      "rewards/accuracies": 0.9125000238418579,
      "rewards/chosen": -0.95703125,
      "rewards/margins": 2.28125,
      "rewards/rejected": -3.234375,
      "step": 100
    },
    {
      "epoch": 0.2301255230125523,
      "grad_norm": 30.593807304187447,
      "learning_rate": 4.747874028753375e-07,
      "logits/chosen": -2.859375,
      "logits/rejected": -2.75,
      "logps/chosen": -420.0,
      "logps/rejected": -624.0,
      "loss": 0.2621,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.125,
      "rewards/margins": 2.1875,
      "rewards/rejected": -3.3125,
      "step": 110
    },
    {
      "epoch": 0.2510460251046025,
      "grad_norm": 37.65365408858647,
      "learning_rate": 4.662012913161997e-07,
      "logits/chosen": -2.703125,
      "logits/rejected": -2.625,
      "logps/chosen": -396.0,
      "logps/rejected": -616.0,
      "loss": 0.2139,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -1.140625,
      "rewards/margins": 2.328125,
      "rewards/rejected": -3.46875,
      "step": 120
    },
    {
      "epoch": 0.2719665271966527,
      "grad_norm": 35.99185396815652,
      "learning_rate": 4.5646165232345103e-07,
      "logits/chosen": -2.71875,
      "logits/rejected": -2.609375,
      "logps/chosen": -412.0,
      "logps/rejected": -664.0,
      "loss": 0.2198,
      "rewards/accuracies": 0.925000011920929,
      "rewards/chosen": -1.3359375,
      "rewards/margins": 2.578125,
      "rewards/rejected": -3.90625,
      "step": 130
    },
    {
      "epoch": 0.2928870292887029,
      "grad_norm": 26.13817903104149,
      "learning_rate": 4.456204510851956e-07,
      "logits/chosen": -2.6875,
      "logits/rejected": -2.625,
      "logps/chosen": -440.0,
      "logps/rejected": -700.0,
      "loss": 0.2258,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -1.25,
      "rewards/margins": 2.875,
      "rewards/rejected": -4.125,
      "step": 140
    },
    {
      "epoch": 0.3138075313807531,
      "grad_norm": 31.228558796234093,
      "learning_rate": 4.337355301007335e-07,
      "logits/chosen": -2.6875,
      "logits/rejected": -2.515625,
      "logps/chosen": -416.0,
      "logps/rejected": -732.0,
      "loss": 0.2131,
      "rewards/accuracies": 0.956250011920929,
      "rewards/chosen": -1.296875,
      "rewards/margins": 3.203125,
      "rewards/rejected": -4.5,
      "step": 150
    },
    {
      "epoch": 0.33472803347280333,
      "grad_norm": 30.201619705797096,
      "learning_rate": 4.2087030056579986e-07,
      "logits/chosen": -2.65625,
      "logits/rejected": -2.53125,
      "logps/chosen": -394.0,
      "logps/rejected": -712.0,
      "loss": 0.19,
      "rewards/accuracies": 0.862500011920929,
      "rewards/chosen": -1.1796875,
      "rewards/margins": 3.171875,
      "rewards/rejected": -4.34375,
      "step": 160
    },
    {
      "epoch": 0.35564853556485354,
      "grad_norm": 26.763640340828882,
      "learning_rate": 4.070934040463998e-07,
      "logits/chosen": -2.46875,
      "logits/rejected": -2.359375,
      "logps/chosen": -402.0,
      "logps/rejected": -740.0,
      "loss": 0.2061,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -1.4921875,
      "rewards/margins": 3.3125,
      "rewards/rejected": -4.8125,
      "step": 170
    },
    {
      "epoch": 0.37656903765690375,
      "grad_norm": 28.727616900983932,
      "learning_rate": 3.9247834624635404e-07,
      "logits/chosen": -2.546875,
      "logits/rejected": -2.46875,
      "logps/chosen": -390.0,
      "logps/rejected": -764.0,
      "loss": 0.2096,
      "rewards/accuracies": 0.9125000238418579,
      "rewards/chosen": -1.3125,
      "rewards/margins": 3.6875,
      "rewards/rejected": -5.0,
      "step": 180
    },
    {
      "epoch": 0.39748953974895396,
      "grad_norm": 19.39344848925985,
      "learning_rate": 3.7710310482256523e-07,
      "logits/chosen": -2.640625,
      "logits/rejected": -2.453125,
      "logps/chosen": -412.0,
      "logps/rejected": -720.0,
      "loss": 0.2038,
      "rewards/accuracies": 0.918749988079071,
      "rewards/chosen": -1.28125,
      "rewards/margins": 3.0625,
      "rewards/rejected": -4.34375,
      "step": 190
    },
    {
      "epoch": 0.41841004184100417,
      "grad_norm": 32.55796809410975,
      "learning_rate": 3.610497133404795e-07,
      "logits/chosen": -2.46875,
      "logits/rejected": -2.484375,
      "logps/chosen": -392.0,
      "logps/rejected": -756.0,
      "loss": 0.196,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -1.2421875,
      "rewards/margins": 3.53125,
      "rewards/rejected": -4.78125,
      "step": 200
    },
    {
      "epoch": 0.4393305439330544,
      "grad_norm": 29.973419334522905,
      "learning_rate": 3.4440382358952115e-07,
      "logits/chosen": -2.609375,
      "logits/rejected": -2.421875,
      "logps/chosen": -464.0,
      "logps/rejected": -848.0,
      "loss": 0.2005,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -1.640625,
      "rewards/margins": 3.875,
      "rewards/rejected": -5.5,
      "step": 210
    },
    {
      "epoch": 0.4602510460251046,
      "grad_norm": 28.710262137906923,
      "learning_rate": 3.272542485937368e-07,
      "logits/chosen": -2.484375,
      "logits/rejected": -2.453125,
      "logps/chosen": -402.0,
      "logps/rejected": -776.0,
      "loss": 0.1869,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -1.390625,
      "rewards/margins": 3.65625,
      "rewards/rejected": -5.03125,
      "step": 220
    },
    {
      "epoch": 0.4811715481171548,
      "grad_norm": 60.380748603406246,
      "learning_rate": 3.096924887558854e-07,
      "logits/chosen": -2.375,
      "logits/rejected": -2.359375,
      "logps/chosen": -400.0,
      "logps/rejected": -804.0,
      "loss": 0.1905,
      "rewards/accuracies": 0.918749988079071,
      "rewards/chosen": -1.5234375,
      "rewards/margins": 4.0,
      "rewards/rejected": -5.53125,
      "step": 230
    },
    {
      "epoch": 0.502092050209205,
      "grad_norm": 31.98560347251394,
      "learning_rate": 2.9181224366319943e-07,
      "logits/chosen": -2.46875,
      "logits/rejected": -2.265625,
      "logps/chosen": -456.0,
      "logps/rejected": -832.0,
      "loss": 0.1961,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.859375,
      "rewards/margins": 3.84375,
      "rewards/rejected": -5.6875,
      "step": 240
    },
    {
      "epoch": 0.5230125523012552,
      "grad_norm": 26.951237850793813,
      "learning_rate": 2.7370891215954565e-07,
      "logits/chosen": -2.484375,
      "logits/rejected": -2.265625,
      "logps/chosen": -462.0,
      "logps/rejected": -844.0,
      "loss": 0.1536,
      "rewards/accuracies": 0.9437500238418579,
      "rewards/chosen": -1.5703125,
      "rewards/margins": 4.125,
      "rewards/rejected": -5.6875,
      "step": 250
    },
    {
      "epoch": 0.5439330543933054,
      "grad_norm": 31.682901778430733,
      "learning_rate": 2.55479083351317e-07,
      "logits/chosen": -2.421875,
      "logits/rejected": -2.203125,
      "logps/chosen": -524.0,
      "logps/rejected": -988.0,
      "loss": 0.1713,
      "rewards/accuracies": 0.9312499761581421,
      "rewards/chosen": -2.28125,
      "rewards/margins": 4.71875,
      "rewards/rejected": -7.03125,
      "step": 260
    },
    {
      "epoch": 0.5648535564853556,
      "grad_norm": 37.952603826080356,
      "learning_rate": 2.3722002126275822e-07,
      "logits/chosen": -2.375,
      "logits/rejected": -2.21875,
      "logps/chosen": -466.0,
      "logps/rejected": -848.0,
      "loss": 0.1822,
      "rewards/accuracies": 0.893750011920929,
      "rewards/chosen": -1.8671875,
      "rewards/margins": 3.8125,
      "rewards/rejected": -5.65625,
      "step": 270
    },
    {
      "epoch": 0.5857740585774058,
      "grad_norm": 33.73231464126618,
      "learning_rate": 2.19029145890313e-07,
      "logits/chosen": -2.375,
      "logits/rejected": -2.21875,
      "logps/chosen": -408.0,
      "logps/rejected": -816.0,
      "loss": 0.1832,
      "rewards/accuracies": 0.9312499761581421,
      "rewards/chosen": -1.4140625,
      "rewards/margins": 4.0,
      "rewards/rejected": -5.40625,
      "step": 280
    },
    {
      "epoch": 0.606694560669456,
      "grad_norm": 26.354844682908944,
      "learning_rate": 2.0100351342479216e-07,
      "logits/chosen": -2.5,
      "logits/rejected": -2.3125,
      "logps/chosen": -440.0,
      "logps/rejected": -760.0,
      "loss": 0.1894,
      "rewards/accuracies": 0.8812500238418579,
      "rewards/chosen": -1.8046875,
      "rewards/margins": 3.328125,
      "rewards/rejected": -5.125,
      "step": 290
    },
    {
      "epoch": 0.6276150627615062,
      "grad_norm": 22.5573563238024,
      "learning_rate": 1.8323929841460178e-07,
      "logits/chosen": -2.515625,
      "logits/rejected": -2.234375,
      "logps/chosen": -438.0,
      "logps/rejected": -852.0,
      "loss": 0.1666,
      "rewards/accuracies": 0.9312499761581421,
      "rewards/chosen": -1.390625,
      "rewards/margins": 4.40625,
      "rewards/rejected": -5.8125,
      "step": 300
    },
    {
      "epoch": 0.6485355648535565,
      "grad_norm": 39.53793068190583,
      "learning_rate": 1.6583128063291573e-07,
      "logits/chosen": -2.3125,
      "logits/rejected": -2.21875,
      "logps/chosen": -454.0,
      "logps/rejected": -856.0,
      "loss": 0.1671,
      "rewards/accuracies": 0.9375,
      "rewards/chosen": -1.5546875,
      "rewards/margins": 4.3125,
      "rewards/rejected": -5.875,
      "step": 310
    },
    {
      "epoch": 0.6694560669456067,
      "grad_norm": 35.78221559654461,
      "learning_rate": 1.488723393865766e-07,
      "logits/chosen": -2.453125,
      "logits/rejected": -2.140625,
      "logps/chosen": -476.0,
      "logps/rejected": -952.0,
      "loss": 0.1683,
      "rewards/accuracies": 0.918749988079071,
      "rewards/chosen": -1.8046875,
      "rewards/margins": 4.875,
      "rewards/rejected": -6.6875,
      "step": 320
    },
    {
      "epoch": 0.6903765690376569,
      "grad_norm": 22.677030349977123,
      "learning_rate": 1.3245295796480788e-07,
      "logits/chosen": -2.484375,
      "logits/rejected": -2.21875,
      "logps/chosen": -444.0,
      "logps/rejected": -844.0,
      "loss": 0.1831,
      "rewards/accuracies": 0.9125000238418579,
      "rewards/chosen": -1.7265625,
      "rewards/margins": 4.03125,
      "rewards/rejected": -5.78125,
      "step": 330
    },
    {
      "epoch": 0.7112970711297071,
      "grad_norm": 38.64724110061085,
      "learning_rate": 1.1666074087171627e-07,
      "logits/chosen": -2.546875,
      "logits/rejected": -2.3125,
      "logps/chosen": -484.0,
      "logps/rejected": -936.0,
      "loss": 0.1595,
      "rewards/accuracies": 0.9375,
      "rewards/chosen": -1.84375,
      "rewards/margins": 4.53125,
      "rewards/rejected": -6.375,
      "step": 340
    },
    {
      "epoch": 0.7322175732217573,
      "grad_norm": 31.433046366718926,
      "learning_rate": 1.0157994641835734e-07,
      "logits/chosen": -2.34375,
      "logits/rejected": -2.125,
      "logps/chosen": -442.0,
      "logps/rejected": -896.0,
      "loss": 0.1288,
      "rewards/accuracies": 0.96875,
      "rewards/chosen": -1.75,
      "rewards/margins": 4.53125,
      "rewards/rejected": -6.28125,
      "step": 350
    },
    {
      "epoch": 0.7531380753138075,
      "grad_norm": 25.40116484053092,
      "learning_rate": 8.729103716819111e-08,
      "logits/chosen": -2.515625,
      "logits/rejected": -2.140625,
      "logps/chosen": -520.0,
      "logps/rejected": -972.0,
      "loss": 0.1427,
      "rewards/accuracies": 0.956250011920929,
      "rewards/chosen": -2.140625,
      "rewards/margins": 4.65625,
      "rewards/rejected": -6.8125,
      "step": 360
    },
    {
      "epoch": 0.7740585774058577,
      "grad_norm": 48.591768244953315,
      "learning_rate": 7.387025063449081e-08,
      "logits/chosen": -2.328125,
      "logits/rejected": -2.015625,
      "logps/chosen": -478.0,
      "logps/rejected": -924.0,
      "loss": 0.1851,
      "rewards/accuracies": 0.925000011920929,
      "rewards/chosen": -2.0,
      "rewards/margins": 4.8125,
      "rewards/rejected": -6.8125,
      "step": 370
    },
    {
      "epoch": 0.7949790794979079,
      "grad_norm": 22.613325771906077,
      "learning_rate": 6.138919252022435e-08,
      "logits/chosen": -2.234375,
      "logits/rejected": -2.0,
      "logps/chosen": -414.0,
      "logps/rejected": -892.0,
      "loss": 0.1637,
      "rewards/accuracies": 0.9312499761581421,
      "rewards/chosen": -1.6953125,
      "rewards/margins": 4.5,
      "rewards/rejected": -6.21875,
      "step": 380
    },
    {
      "epoch": 0.8158995815899581,
      "grad_norm": 30.921763783465405,
      "learning_rate": 4.991445467064689e-08,
      "logits/chosen": -2.4375,
      "logits/rejected": -2.125,
      "logps/chosen": -496.0,
      "logps/rejected": -944.0,
      "loss": 0.1531,
      "rewards/accuracies": 0.9312499761581421,
      "rewards/chosen": -1.859375,
      "rewards/margins": 4.625,
      "rewards/rejected": -6.46875,
      "step": 390
    },
    {
      "epoch": 0.8368200836820083,
      "grad_norm": 28.127290852155298,
      "learning_rate": 3.9507259776993954e-08,
      "logits/chosen": -2.375,
      "logits/rejected": -2.125,
      "logps/chosen": -452.0,
      "logps/rejected": -960.0,
      "loss": 0.1497,
      "rewards/accuracies": 0.925000011920929,
      "rewards/chosen": -1.7734375,
      "rewards/margins": 4.96875,
      "rewards/rejected": -6.75,
      "step": 400
    },
    {
      "epoch": 0.8577405857740585,
      "grad_norm": 27.178847714931162,
      "learning_rate": 3.022313472693447e-08,
      "logits/chosen": -2.4375,
      "logits/rejected": -2.15625,
      "logps/chosen": -472.0,
      "logps/rejected": -932.0,
      "loss": 0.1588,
      "rewards/accuracies": 0.9437500238418579,
      "rewards/chosen": -1.7734375,
      "rewards/margins": 4.90625,
      "rewards/rejected": -6.6875,
      "step": 410
    },
    {
      "epoch": 0.8786610878661087,
      "grad_norm": 26.395514423886947,
      "learning_rate": 2.2111614344599684e-08,
      "logits/chosen": -2.28125,
      "logits/rejected": -2.125,
      "logps/chosen": -496.0,
      "logps/rejected": -936.0,
      "loss": 0.1616,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -1.859375,
      "rewards/margins": 4.6875,
      "rewards/rejected": -6.5625,
      "step": 420
    },
    {
      "epoch": 0.899581589958159,
      "grad_norm": 17.01826694159393,
      "learning_rate": 1.521597710086439e-08,
      "logits/chosen": -2.234375,
      "logits/rejected": -1.8046875,
      "logps/chosen": -462.0,
      "logps/rejected": -944.0,
      "loss": 0.1501,
      "rewards/accuracies": 0.918749988079071,
      "rewards/chosen": -1.8046875,
      "rewards/margins": 5.21875,
      "rewards/rejected": -7.03125,
      "step": 430
    },
    {
      "epoch": 0.9205020920502092,
      "grad_norm": 44.77843694208592,
      "learning_rate": 9.57301420397924e-09,
      "logits/chosen": -2.328125,
      "logits/rejected": -2.046875,
      "logps/chosen": -472.0,
      "logps/rejected": -1032.0,
      "loss": 0.155,
      "rewards/accuracies": 0.9375,
      "rewards/chosen": -1.8046875,
      "rewards/margins": 5.53125,
      "rewards/rejected": -7.34375,
      "step": 440
    },
    {
      "epoch": 0.9414225941422594,
      "grad_norm": 25.544543347881593,
      "learning_rate": 5.212833302556258e-09,
      "logits/chosen": -2.3125,
      "logits/rejected": -2.046875,
      "logps/chosen": -470.0,
      "logps/rejected": -996.0,
      "loss": 0.154,
      "rewards/accuracies": 0.9624999761581421,
      "rewards/chosen": -1.7734375,
      "rewards/margins": 5.25,
      "rewards/rejected": -7.03125,
      "step": 450
    },
    {
      "epoch": 0.9623430962343096,
      "grad_norm": 20.61099998716699,
      "learning_rate": 2.158697848236607e-09,
      "logits/chosen": -2.28125,
      "logits/rejected": -2.0,
      "logps/chosen": -464.0,
      "logps/rejected": -964.0,
      "loss": 0.1452,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.890625,
      "rewards/margins": 5.03125,
      "rewards/rejected": -6.9375,
      "step": 460
    },
    {
      "epoch": 0.9832635983263598,
      "grad_norm": 29.65187089685154,
      "learning_rate": 4.269029751107489e-10,
      "logits/chosen": -2.25,
      "logits/rejected": -1.984375,
      "logps/chosen": -490.0,
      "logps/rejected": -920.0,
      "loss": 0.1536,
      "rewards/accuracies": 0.925000011920929,
      "rewards/chosen": -2.0625,
      "rewards/margins": 4.46875,
      "rewards/rejected": -6.53125,
      "step": 470
    },
    {
      "epoch": 1.0,
      "step": 478,
      "total_flos": 0.0,
      "train_loss": 0.24929137409481544,
      "train_runtime": 6934.4318,
      "train_samples_per_second": 8.816,
      "train_steps_per_second": 0.069
    }
  ],
  "logging_steps": 10,
  "max_steps": 478,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}