{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 25.0,
  "global_step": 94375,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 5e-09,
      "loss": 10.521,
      "step": 1
    },
    {
      "epoch": 0.13,
      "learning_rate": 2.5e-06,
      "loss": 9.5586,
      "step": 500
    },
    {
      "epoch": 0.26,
      "learning_rate": 5e-06,
      "loss": 7.9673,
      "step": 1000
    },
    {
      "epoch": 0.4,
      "learning_rate": 7.5e-06,
      "loss": 6.9267,
      "step": 1500
    },
    {
      "epoch": 0.53,
      "learning_rate": 1e-05,
      "loss": 6.6261,
      "step": 2000
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.25e-05,
      "loss": 6.4609,
      "step": 2500
    },
    {
      "epoch": 0.79,
      "learning_rate": 1.5e-05,
      "loss": 6.348,
      "step": 3000
    },
    {
      "epoch": 0.93,
      "learning_rate": 1.75e-05,
      "loss": 6.2548,
      "step": 3500
    },
    {
      "epoch": 1.06,
      "learning_rate": 2e-05,
      "loss": 6.184,
      "step": 4000
    },
    {
      "epoch": 1.19,
      "learning_rate": 2.25e-05,
      "loss": 6.1235,
      "step": 4500
    },
    {
      "epoch": 1.32,
      "learning_rate": 2.5e-05,
      "loss": 6.0675,
      "step": 5000
    },
    {
      "epoch": 1.46,
      "learning_rate": 2.7500000000000004e-05,
      "loss": 6.0239,
      "step": 5500
    },
    {
      "epoch": 1.59,
      "learning_rate": 3e-05,
      "loss": 5.9851,
      "step": 6000
    },
    {
      "epoch": 1.72,
      "learning_rate": 3.2500000000000004e-05,
      "loss": 5.946,
      "step": 6500
    },
    {
      "epoch": 1.85,
      "learning_rate": 3.5e-05,
      "loss": 5.9148,
      "step": 7000
    },
    {
      "epoch": 1.99,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 5.8876,
      "step": 7500
    },
    {
      "epoch": 2.12,
      "learning_rate": 3.9995000000000006e-05,
      "loss": 5.8606,
      "step": 8000
    },
    {
      "epoch": 2.25,
      "learning_rate": 4.2495e-05,
      "loss": 5.8384,
      "step": 8500
    },
    {
      "epoch": 2.38,
      "learning_rate": 4.4995000000000005e-05,
      "loss": 5.8196,
      "step": 9000
    },
    {
      "epoch": 2.52,
      "learning_rate": 4.7495e-05,
      "loss": 5.7986,
      "step": 9500
    },
    {
      "epoch": 2.65,
      "learning_rate": 4.9995000000000005e-05,
      "loss": 5.784,
      "step": 10000
    },
    {
      "epoch": 2.78,
      "learning_rate": 4.998336666666667e-05,
      "loss": 5.7669,
      "step": 10500
    },
    {
      "epoch": 2.91,
      "learning_rate": 4.99667e-05,
      "loss": 5.7503,
      "step": 11000
    },
    {
      "epoch": 3.05,
      "learning_rate": 4.995006666666667e-05,
      "loss": 5.7376,
      "step": 11500
    },
    {
      "epoch": 3.18,
      "learning_rate": 4.9933400000000005e-05,
      "loss": 5.7264,
      "step": 12000
    },
    {
      "epoch": 3.31,
      "learning_rate": 4.9916733333333336e-05,
      "loss": 5.713,
      "step": 12500
    },
    {
      "epoch": 3.44,
      "learning_rate": 4.990006666666667e-05,
      "loss": 5.7022,
      "step": 13000
    },
    {
      "epoch": 3.58,
      "learning_rate": 4.9883400000000004e-05,
      "loss": 5.6969,
      "step": 13500
    },
    {
      "epoch": 3.71,
      "learning_rate": 4.9866733333333335e-05,
      "loss": 5.6838,
      "step": 14000
    },
    {
      "epoch": 3.84,
      "learning_rate": 4.9850066666666666e-05,
      "loss": 5.6765,
      "step": 14500
    },
    {
      "epoch": 3.97,
      "learning_rate": 4.98334e-05,
      "loss": 5.6707,
      "step": 15000
    },
    {
      "epoch": 4.11,
      "learning_rate": 4.981676666666667e-05,
      "loss": 5.6607,
      "step": 15500
    },
    {
      "epoch": 4.24,
      "learning_rate": 4.9800100000000005e-05,
      "loss": 5.6535,
      "step": 16000
    },
    {
      "epoch": 4.37,
      "learning_rate": 4.9783433333333335e-05,
      "loss": 5.6476,
      "step": 16500
    },
    {
      "epoch": 4.5,
      "learning_rate": 4.976676666666667e-05,
      "loss": 5.6409,
      "step": 17000
    },
    {
      "epoch": 4.64,
      "learning_rate": 4.97501e-05,
      "loss": 5.6365,
      "step": 17500
    },
    {
      "epoch": 4.77,
      "learning_rate": 4.973346666666667e-05,
      "loss": 5.6273,
      "step": 18000
    },
    {
      "epoch": 4.9,
      "learning_rate": 4.9716800000000005e-05,
      "loss": 5.6247,
      "step": 18500
    },
    {
      "epoch": 5.03,
      "learning_rate": 4.970016666666667e-05,
      "loss": 5.6217,
      "step": 19000
    },
    {
      "epoch": 5.17,
      "learning_rate": 4.9683500000000006e-05,
      "loss": 5.6159,
      "step": 19500
    },
    {
      "epoch": 5.3,
      "learning_rate": 4.966683333333334e-05,
      "loss": 5.609,
      "step": 20000
    },
    {
      "epoch": 5.43,
      "learning_rate": 4.965016666666667e-05,
      "loss": 5.6066,
      "step": 20500
    },
    {
      "epoch": 5.56,
      "learning_rate": 4.9633500000000005e-05,
      "loss": 5.6022,
      "step": 21000
    },
    {
      "epoch": 5.7,
      "learning_rate": 4.9616833333333336e-05,
      "loss": 5.596,
      "step": 21500
    },
    {
      "epoch": 5.83,
      "learning_rate": 4.9600166666666666e-05,
      "loss": 5.5916,
      "step": 22000
    },
    {
      "epoch": 5.96,
      "learning_rate": 4.9583500000000004e-05,
      "loss": 5.5868,
      "step": 22500
    },
    {
      "epoch": 6.09,
      "learning_rate": 4.956686666666667e-05,
      "loss": 5.5814,
      "step": 23000
    },
    {
      "epoch": 6.23,
      "learning_rate": 4.9550200000000005e-05,
      "loss": 5.5785,
      "step": 23500
    },
    {
      "epoch": 6.36,
      "learning_rate": 4.9533533333333336e-05,
      "loss": 5.5769,
      "step": 24000
    },
    {
      "epoch": 6.49,
      "learning_rate": 4.951686666666667e-05,
      "loss": 5.5725,
      "step": 24500
    },
    {
      "epoch": 6.62,
      "learning_rate": 4.9500200000000004e-05,
      "loss": 5.572,
      "step": 25000
    },
    {
      "epoch": 6.75,
      "learning_rate": 4.9483533333333335e-05,
      "loss": 5.5661,
      "step": 25500
    },
    {
      "epoch": 6.89,
      "learning_rate": 4.9466866666666666e-05,
      "loss": 5.5659,
      "step": 26000
    },
    {
      "epoch": 7.02,
      "learning_rate": 4.9450233333333336e-05,
      "loss": 5.5605,
      "step": 26500
    },
    {
      "epoch": 7.15,
      "learning_rate": 4.943356666666667e-05,
      "loss": 5.5572,
      "step": 27000
    },
    {
      "epoch": 7.28,
      "learning_rate": 4.9416900000000005e-05,
      "loss": 5.5525,
      "step": 27500
    },
    {
      "epoch": 7.42,
      "learning_rate": 4.9400233333333335e-05,
      "loss": 5.5517,
      "step": 28000
    },
    {
      "epoch": 7.55,
      "learning_rate": 4.938356666666667e-05,
      "loss": 5.5477,
      "step": 28500
    },
    {
      "epoch": 7.68,
      "learning_rate": 4.93669e-05,
      "loss": 5.5431,
      "step": 29000
    },
    {
      "epoch": 7.81,
      "learning_rate": 4.9350233333333334e-05,
      "loss": 5.5412,
      "step": 29500
    },
    {
      "epoch": 7.95,
      "learning_rate": 4.933356666666667e-05,
      "loss": 5.538,
      "step": 30000
    },
    {
      "epoch": 8.08,
      "learning_rate": 4.93169e-05,
      "loss": 5.5347,
      "step": 30500
    },
    {
      "epoch": 8.21,
      "learning_rate": 4.930023333333333e-05,
      "loss": 5.5302,
      "step": 31000
    },
    {
      "epoch": 8.34,
      "learning_rate": 4.928356666666667e-05,
      "loss": 5.5291,
      "step": 31500
    },
    {
      "epoch": 8.48,
      "learning_rate": 4.926690000000001e-05,
      "loss": 5.5277,
      "step": 32000
    },
    {
      "epoch": 8.61,
      "learning_rate": 4.9250266666666665e-05,
      "loss": 5.525,
      "step": 32500
    },
    {
      "epoch": 8.74,
      "learning_rate": 4.92336e-05,
      "loss": 5.519,
      "step": 33000
    },
    {
      "epoch": 8.87,
      "learning_rate": 4.921693333333334e-05,
      "loss": 5.5216,
      "step": 33500
    },
    {
      "epoch": 9.01,
      "learning_rate": 4.920033333333334e-05,
      "loss": 5.5153,
      "step": 34000
    },
    {
      "epoch": 9.14,
      "learning_rate": 4.918366666666667e-05,
      "loss": 5.513,
      "step": 34500
    },
    {
      "epoch": 9.27,
      "learning_rate": 4.9167e-05,
      "loss": 5.5123,
      "step": 35000
    },
    {
      "epoch": 9.4,
      "learning_rate": 4.9150333333333336e-05,
      "loss": 5.5077,
      "step": 35500
    },
    {
      "epoch": 9.54,
      "learning_rate": 4.913366666666667e-05,
      "loss": 5.5034,
      "step": 36000
    },
    {
      "epoch": 9.67,
      "learning_rate": 4.9117000000000004e-05,
      "loss": 5.5053,
      "step": 36500
    },
    {
      "epoch": 9.8,
      "learning_rate": 4.9100333333333335e-05,
      "loss": 5.5026,
      "step": 37000
    },
    {
      "epoch": 9.93,
      "learning_rate": 4.9083666666666666e-05,
      "loss": 5.4711,
      "step": 37500
    },
    {
      "epoch": 10.07,
      "learning_rate": 4.9067033333333336e-05,
      "loss": 5.1945,
      "step": 38000
    },
    {
      "epoch": 10.2,
      "learning_rate": 4.905036666666667e-05,
      "loss": 4.9767,
      "step": 38500
    },
    {
      "epoch": 10.33,
      "learning_rate": 4.9033700000000005e-05,
      "loss": 4.7965,
      "step": 39000
    },
    {
      "epoch": 10.46,
      "learning_rate": 4.9017033333333335e-05,
      "loss": 4.6281,
      "step": 39500
    },
    {
      "epoch": 10.6,
      "learning_rate": 4.900036666666667e-05,
      "loss": 4.4679,
      "step": 40000
    },
    {
      "epoch": 10.73,
      "learning_rate": 4.89837e-05,
      "loss": 4.3017,
      "step": 40500
    },
    {
      "epoch": 10.86,
      "learning_rate": 4.8967033333333334e-05,
      "loss": 4.1427,
      "step": 41000
    },
    {
      "epoch": 10.99,
      "learning_rate": 4.895036666666667e-05,
      "loss": 3.9857,
      "step": 41500
    },
    {
      "epoch": 11.13,
      "learning_rate": 4.8933733333333336e-05,
      "loss": 3.8272,
      "step": 42000
    },
    {
      "epoch": 11.26,
      "learning_rate": 4.8917066666666666e-05,
      "loss": 3.6712,
      "step": 42500
    },
    {
      "epoch": 11.39,
      "learning_rate": 4.8900400000000004e-05,
      "loss": 3.4158,
      "step": 43000
    },
    {
      "epoch": 11.52,
      "learning_rate": 4.8883733333333334e-05,
      "loss": 2.7896,
      "step": 43500
    },
    {
      "epoch": 11.66,
      "learning_rate": 4.8867066666666665e-05,
      "loss": 2.3599,
      "step": 44000
    },
    {
      "epoch": 11.79,
      "learning_rate": 4.88504e-05,
      "loss": 2.149,
      "step": 44500
    },
    {
      "epoch": 11.92,
      "learning_rate": 4.883373333333334e-05,
      "loss": 2.0239,
      "step": 45000
    },
    {
      "epoch": 12.05,
      "learning_rate": 4.8817100000000004e-05,
      "loss": 1.9323,
      "step": 45500
    },
    {
      "epoch": 12.19,
      "learning_rate": 4.8800433333333335e-05,
      "loss": 1.8612,
      "step": 46000
    },
    {
      "epoch": 12.32,
      "learning_rate": 4.878376666666667e-05,
      "loss": 1.8034,
      "step": 46500
    },
    {
      "epoch": 12.45,
      "learning_rate": 4.87671e-05,
      "loss": 1.7511,
      "step": 47000
    },
    {
      "epoch": 12.58,
      "learning_rate": 4.8750433333333333e-05,
      "loss": 1.7082,
      "step": 47500
    },
    {
      "epoch": 12.72,
      "learning_rate": 4.873376666666667e-05,
      "loss": 1.6691,
      "step": 48000
    },
    {
      "epoch": 12.85,
      "learning_rate": 4.87171e-05,
      "loss": 1.6354,
      "step": 48500
    },
    {
      "epoch": 12.98,
      "learning_rate": 4.8700466666666666e-05,
      "loss": 1.6044,
      "step": 49000
    },
    {
      "epoch": 13.11,
      "learning_rate": 4.86838e-05,
      "loss": 1.5762,
      "step": 49500
    },
    {
      "epoch": 13.25,
      "learning_rate": 4.8667133333333334e-05,
      "loss": 1.552,
      "step": 50000
    },
    {
      "epoch": 13.38,
      "learning_rate": 4.8650466666666664e-05,
      "loss": 1.5254,
      "step": 50500
    },
    {
      "epoch": 13.51,
      "learning_rate": 4.86338e-05,
      "loss": 1.5016,
      "step": 51000
    },
    {
      "epoch": 13.64,
      "learning_rate": 4.861713333333334e-05,
      "loss": 1.4854,
      "step": 51500
    },
    {
      "epoch": 13.77,
      "learning_rate": 4.860046666666666e-05,
      "loss": 1.4639,
      "step": 52000
    },
    {
      "epoch": 13.91,
      "learning_rate": 4.85838e-05,
      "loss": 1.4464,
      "step": 52500
    },
    {
      "epoch": 14.04,
      "learning_rate": 4.856716666666667e-05,
      "loss": 1.428,
      "step": 53000
    },
    {
      "epoch": 14.17,
      "learning_rate": 4.85505e-05,
      "loss": 1.4108,
      "step": 53500
    },
    {
      "epoch": 14.3,
      "learning_rate": 4.853383333333333e-05,
      "loss": 1.394,
      "step": 54000
    },
    {
      "epoch": 14.44,
      "learning_rate": 4.851716666666667e-05,
      "loss": 1.381,
      "step": 54500
    },
    {
      "epoch": 14.57,
      "learning_rate": 4.85005e-05,
      "loss": 1.3665,
      "step": 55000
    },
    {
      "epoch": 14.7,
      "learning_rate": 4.848383333333333e-05,
      "loss": 1.3524,
      "step": 55500
    },
    {
      "epoch": 14.83,
      "learning_rate": 4.846716666666667e-05,
      "loss": 1.3421,
      "step": 56000
    },
    {
      "epoch": 14.97,
      "learning_rate": 4.8450500000000006e-05,
      "loss": 1.3328,
      "step": 56500
    },
    {
      "epoch": 15.1,
      "learning_rate": 4.8433866666666664e-05,
      "loss": 1.3186,
      "step": 57000
    },
    {
      "epoch": 15.23,
      "learning_rate": 4.84172e-05,
      "loss": 1.3081,
      "step": 57500
    },
    {
      "epoch": 15.36,
      "learning_rate": 4.840053333333334e-05,
      "loss": 1.2977,
      "step": 58000
    },
    {
      "epoch": 15.5,
      "learning_rate": 4.838386666666667e-05,
      "loss": 1.2858,
      "step": 58500
    },
    {
      "epoch": 15.63,
      "learning_rate": 4.83672e-05,
      "loss": 1.2789,
      "step": 59000
    },
    {
      "epoch": 15.76,
      "learning_rate": 4.835053333333334e-05,
      "loss": 1.2705,
      "step": 59500
    },
    {
      "epoch": 15.89,
      "learning_rate": 4.8333866666666675e-05,
      "loss": 1.2606,
      "step": 60000
    },
    {
      "epoch": 16.03,
      "learning_rate": 4.831723333333333e-05,
      "loss": 1.2506,
      "step": 60500
    },
    {
      "epoch": 16.16,
      "learning_rate": 4.830056666666667e-05,
      "loss": 1.2413,
      "step": 61000
    },
    {
      "epoch": 16.29,
      "learning_rate": 4.828390000000001e-05,
      "loss": 1.234,
      "step": 61500
    },
    {
      "epoch": 16.42,
      "learning_rate": 4.826723333333333e-05,
      "loss": 1.2269,
      "step": 62000
    },
    {
      "epoch": 16.56,
      "learning_rate": 4.825056666666667e-05,
      "loss": 1.2201,
      "step": 62500
    },
    {
      "epoch": 16.69,
      "learning_rate": 4.823393333333334e-05,
      "loss": 1.2118,
      "step": 63000
    },
    {
      "epoch": 16.82,
      "learning_rate": 4.821726666666667e-05,
      "loss": 1.206,
      "step": 63500
    },
    {
      "epoch": 16.95,
      "learning_rate": 4.82006e-05,
      "loss": 1.1987,
      "step": 64000
    },
    {
      "epoch": 17.09,
      "learning_rate": 4.818396666666667e-05,
      "loss": 1.1924,
      "step": 64500
    },
    {
      "epoch": 17.22,
      "learning_rate": 4.81673e-05,
      "loss": 1.1856,
      "step": 65000
    },
    {
      "epoch": 17.35,
      "learning_rate": 4.815063333333333e-05,
      "loss": 1.1776,
      "step": 65500
    },
    {
      "epoch": 17.48,
      "learning_rate": 4.813396666666667e-05,
      "loss": 1.1722,
      "step": 66000
    },
    {
      "epoch": 17.62,
      "learning_rate": 4.8117333333333334e-05,
      "loss": 1.1657,
      "step": 66500
    },
    {
      "epoch": 17.75,
      "learning_rate": 4.810066666666667e-05,
      "loss": 1.1609,
      "step": 67000
    },
    {
      "epoch": 17.88,
      "learning_rate": 4.8084e-05,
      "loss": 1.1547,
      "step": 67500
    },
    {
      "epoch": 18.01,
      "learning_rate": 4.806733333333333e-05,
      "loss": 1.1505,
      "step": 68000
    },
    {
      "epoch": 18.15,
      "learning_rate": 4.805066666666667e-05,
      "loss": 1.1429,
      "step": 68500
    },
    {
      "epoch": 18.28,
      "learning_rate": 4.8034033333333335e-05,
      "loss": 1.1364,
      "step": 69000
    },
    {
      "epoch": 18.41,
      "learning_rate": 4.801736666666667e-05,
      "loss": 1.132,
      "step": 69500
    },
    {
      "epoch": 18.54,
      "learning_rate": 4.80007e-05,
      "loss": 1.1247,
      "step": 70000
    },
    {
      "epoch": 18.68,
      "learning_rate": 4.7984033333333333e-05,
      "loss": 1.1205,
      "step": 70500
    },
    {
      "epoch": 18.81,
      "learning_rate": 4.796736666666667e-05,
      "loss": 1.1149,
      "step": 71000
    },
    {
      "epoch": 18.94,
      "learning_rate": 4.79507e-05,
      "loss": 1.1095,
      "step": 71500
    },
    {
      "epoch": 19.07,
      "learning_rate": 4.793403333333333e-05,
      "loss": 1.107,
      "step": 72000
    },
    {
      "epoch": 19.21,
      "learning_rate": 4.79174e-05,
      "loss": 1.1018,
      "step": 72500
    },
    {
      "epoch": 19.34,
      "learning_rate": 4.7900733333333334e-05,
      "loss": 1.0968,
      "step": 73000
    },
    {
      "epoch": 19.47,
      "learning_rate": 4.788406666666667e-05,
      "loss": 1.0896,
      "step": 73500
    },
    {
      "epoch": 19.6,
      "learning_rate": 4.78674e-05,
      "loss": 1.0893,
      "step": 74000
    },
    {
      "epoch": 19.74,
      "learning_rate": 4.785073333333334e-05,
      "loss": 1.0843,
      "step": 74500
    },
    {
      "epoch": 19.87,
      "learning_rate": 4.783406666666667e-05,
      "loss": 1.0809,
      "step": 75000
    },
    {
      "epoch": 20.0,
      "learning_rate": 4.7817433333333334e-05,
      "loss": 1.0753,
      "step": 75500
    },
    {
      "epoch": 20.13,
      "learning_rate": 4.780076666666667e-05,
      "loss": 1.0712,
      "step": 76000
    },
    {
      "epoch": 20.26,
      "learning_rate": 4.77841e-05,
      "loss": 1.0647,
      "step": 76500
    },
    {
      "epoch": 20.4,
      "learning_rate": 4.776743333333333e-05,
      "loss": 1.0644,
      "step": 77000
    },
    {
      "epoch": 20.53,
      "learning_rate": 4.775076666666667e-05,
      "loss": 1.0597,
      "step": 77500
    },
    {
      "epoch": 20.66,
      "learning_rate": 4.7734133333333334e-05,
      "loss": 1.0567,
      "step": 78000
    },
    {
      "epoch": 20.79,
      "learning_rate": 4.771746666666667e-05,
      "loss": 1.0532,
      "step": 78500
    },
    {
      "epoch": 20.93,
      "learning_rate": 4.77008e-05,
      "loss": 1.0511,
      "step": 79000
    },
    {
      "epoch": 21.06,
      "learning_rate": 4.768413333333333e-05,
      "loss": 1.0451,
      "step": 79500
    },
    {
      "epoch": 21.19,
      "learning_rate": 4.7667500000000004e-05,
      "loss": 1.0436,
      "step": 80000
    },
    {
      "epoch": 21.32,
      "learning_rate": 4.7650833333333335e-05,
      "loss": 1.0398,
      "step": 80500
    },
    {
      "epoch": 21.46,
      "learning_rate": 4.7634166666666665e-05,
      "loss": 1.0375,
      "step": 81000
    },
    {
      "epoch": 21.59,
      "learning_rate": 4.76175e-05,
      "loss": 1.0348,
      "step": 81500
    },
    {
      "epoch": 21.72,
      "learning_rate": 4.7600833333333333e-05,
      "loss": 1.0292,
      "step": 82000
    },
    {
      "epoch": 21.85,
      "learning_rate": 4.7584200000000004e-05,
      "loss": 1.0275,
      "step": 82500
    },
    {
      "epoch": 21.99,
      "learning_rate": 4.7567533333333335e-05,
      "loss": 1.0226,
      "step": 83000
    },
    {
      "epoch": 22.12,
      "learning_rate": 4.755086666666667e-05,
      "loss": 1.0204,
      "step": 83500
    },
    {
      "epoch": 22.25,
      "learning_rate": 4.75342e-05,
      "loss": 1.0165,
      "step": 84000
    },
    {
      "epoch": 22.38,
      "learning_rate": 4.7517533333333334e-05,
      "loss": 1.0138,
      "step": 84500
    },
    {
      "epoch": 22.52,
      "learning_rate": 4.7500900000000005e-05,
      "loss": 1.0138,
      "step": 85000
    },
    {
      "epoch": 22.65,
      "learning_rate": 4.7484233333333335e-05,
      "loss": 1.0097,
      "step": 85500
    },
    {
      "epoch": 22.78,
      "learning_rate": 4.7467566666666666e-05,
      "loss": 1.0066,
      "step": 86000
    },
    {
      "epoch": 22.91,
      "learning_rate": 4.74509e-05,
      "loss": 1.0057,
      "step": 86500
    },
    {
      "epoch": 23.05,
      "learning_rate": 4.7434266666666674e-05,
      "loss": 1.0003,
      "step": 87000
    },
    {
      "epoch": 23.18,
      "learning_rate": 4.74176e-05,
      "loss": 0.9995,
      "step": 87500
    },
    {
      "epoch": 23.31,
      "learning_rate": 4.7400933333333336e-05,
      "loss": 0.997,
      "step": 88000
    },
    {
      "epoch": 23.44,
      "learning_rate": 4.738426666666667e-05,
      "loss": 0.9945,
      "step": 88500
    },
    {
      "epoch": 23.58,
      "learning_rate": 4.7367600000000004e-05,
      "loss": 0.9905,
      "step": 89000
    },
    {
      "epoch": 23.71,
      "learning_rate": 4.735096666666667e-05,
      "loss": 0.9884,
      "step": 89500
    },
    {
      "epoch": 23.84,
      "learning_rate": 4.7334300000000005e-05,
      "loss": 0.9881,
      "step": 90000
    },
    {
      "epoch": 23.97,
      "learning_rate": 4.7317633333333336e-05,
      "loss": 0.9845,
      "step": 90500
    },
    {
      "epoch": 24.11,
      "learning_rate": 4.7300966666666667e-05,
      "loss": 0.982,
      "step": 91000
    },
    {
      "epoch": 24.24,
      "learning_rate": 4.7284300000000004e-05,
      "loss": 0.9799,
      "step": 91500
    },
    {
      "epoch": 24.37,
      "learning_rate": 4.7267633333333335e-05,
      "loss": 0.9751,
      "step": 92000
    },
    {
      "epoch": 24.5,
      "learning_rate": 4.7251e-05,
      "loss": 0.9743,
      "step": 92500
    },
    {
      "epoch": 24.64,
      "learning_rate": 4.7234333333333336e-05,
      "loss": 0.9752,
      "step": 93000
    },
    {
      "epoch": 24.77,
      "learning_rate": 4.7217666666666674e-05,
      "loss": 0.9711,
      "step": 93500
    },
    {
      "epoch": 24.9,
      "learning_rate": 4.7201e-05,
      "loss": 0.971,
      "step": 94000
    }
  ],
  "max_steps": 1510000,
  "num_train_epochs": 400,
  "total_flos": 2.5430025926080463e+19,
  "trial_name": null,
  "trial_params": null
}