{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 42.10526315789474,
  "eval_steps": 500,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.63,
      "learning_rate": 0.0003,
      "loss": 1.3677,
      "step": 3
    },
    {
      "epoch": 1.26,
      "learning_rate": 0.0006,
      "loss": 1.0177,
      "step": 6
    },
    {
      "epoch": 1.89,
      "learning_rate": 0.0008,
      "loss": 0.8893,
      "step": 9
    },
    {
      "epoch": 2.53,
      "learning_rate": 0.001,
      "loss": 1.0625,
      "step": 12
    },
    {
      "epoch": 3.16,
      "learning_rate": 0.0013000000000000002,
      "loss": 0.7547,
      "step": 15
    },
    {
      "epoch": 3.79,
      "learning_rate": 0.0016,
      "loss": 0.4742,
      "step": 18
    },
    {
      "epoch": 4.42,
      "learning_rate": 0.0019,
      "loss": 0.3748,
      "step": 21
    },
    {
      "epoch": 5.05,
      "learning_rate": 0.001977777777777778,
      "loss": 0.4516,
      "step": 24
    },
    {
      "epoch": 5.68,
      "learning_rate": 0.0019555555555555554,
      "loss": 0.3278,
      "step": 27
    },
    {
      "epoch": 6.32,
      "learning_rate": 0.0019222222222222223,
      "loss": 0.421,
      "step": 30
    },
    {
      "epoch": 6.95,
      "learning_rate": 0.001888888888888889,
      "loss": 0.2738,
      "step": 33
    },
    {
      "epoch": 7.58,
      "learning_rate": 0.0018555555555555556,
      "loss": 0.2307,
      "step": 36
    },
    {
      "epoch": 8.21,
      "learning_rate": 0.0018222222222222223,
      "loss": 0.2955,
      "step": 39
    },
    {
      "epoch": 8.84,
      "learning_rate": 0.0018000000000000002,
      "loss": 0.399,
      "step": 42
    },
    {
      "epoch": 9.47,
      "learning_rate": 0.001788888888888889,
      "loss": 0.6656,
      "step": 45
    },
    {
      "epoch": 10.11,
      "learning_rate": 0.0017666666666666666,
      "loss": 0.7389,
      "step": 48
    },
    {
      "epoch": 10.74,
      "learning_rate": 0.0017333333333333335,
      "loss": 0.1417,
      "step": 51
    },
    {
      "epoch": 11.37,
      "learning_rate": 0.0017,
      "loss": 0.2441,
      "step": 54
    },
    {
      "epoch": 12.0,
      "learning_rate": 0.0016666666666666668,
      "loss": 0.1786,
      "step": 57
    },
    {
      "epoch": 12.63,
      "learning_rate": 0.0016333333333333334,
      "loss": 0.0805,
      "step": 60
    },
    {
      "epoch": 13.26,
      "learning_rate": 0.0016,
      "loss": 0.1806,
      "step": 63
    },
    {
      "epoch": 13.89,
      "learning_rate": 0.0015666666666666667,
      "loss": 0.1011,
      "step": 66
    },
    {
      "epoch": 14.53,
      "learning_rate": 0.0015333333333333334,
      "loss": 0.08,
      "step": 69
    },
    {
      "epoch": 15.16,
      "learning_rate": 0.0015,
      "loss": 0.0982,
      "step": 72
    },
    {
      "epoch": 15.79,
      "learning_rate": 0.0014666666666666667,
      "loss": 0.1105,
      "step": 75
    },
    {
      "epoch": 16.42,
      "learning_rate": 0.0014333333333333333,
      "loss": 0.1103,
      "step": 78
    },
    {
      "epoch": 17.05,
      "learning_rate": 0.0014,
      "loss": 0.086,
      "step": 81
    },
    {
      "epoch": 17.68,
      "learning_rate": 0.0013666666666666666,
      "loss": 0.0764,
      "step": 84
    },
    {
      "epoch": 18.32,
      "learning_rate": 0.0013333333333333333,
      "loss": 0.0748,
      "step": 87
    },
    {
      "epoch": 18.95,
      "learning_rate": 0.0013000000000000002,
      "loss": 0.1183,
      "step": 90
    },
    {
      "epoch": 19.58,
      "learning_rate": 0.0012666666666666666,
      "loss": 0.059,
      "step": 93
    },
    {
      "epoch": 20.21,
      "learning_rate": 0.0012333333333333335,
      "loss": 0.0706,
      "step": 96
    },
    {
      "epoch": 20.84,
      "learning_rate": 0.0012,
      "loss": 0.0499,
      "step": 99
    },
    {
      "epoch": 21.47,
      "learning_rate": 0.0011666666666666668,
      "loss": 0.0406,
      "step": 102
    },
    {
      "epoch": 22.11,
      "learning_rate": 0.0011333333333333334,
      "loss": 0.0569,
      "step": 105
    },
    {
      "epoch": 22.74,
      "learning_rate": 0.0011,
      "loss": 0.0354,
      "step": 108
    },
    {
      "epoch": 23.37,
      "learning_rate": 0.0010666666666666667,
      "loss": 0.0362,
      "step": 111
    },
    {
      "epoch": 24.0,
      "learning_rate": 0.0010333333333333334,
      "loss": 0.0752,
      "step": 114
    },
    {
      "epoch": 24.63,
      "learning_rate": 0.001,
      "loss": 0.026,
      "step": 117
    },
    {
      "epoch": 25.26,
      "learning_rate": 0.0009666666666666667,
      "loss": 0.0418,
      "step": 120
    },
    {
      "epoch": 25.89,
      "learning_rate": 0.0009333333333333333,
      "loss": 0.0332,
      "step": 123
    },
    {
      "epoch": 26.53,
      "learning_rate": 0.0009000000000000001,
      "loss": 0.0245,
      "step": 126
    },
    {
      "epoch": 27.16,
      "learning_rate": 0.0008666666666666667,
      "loss": 0.036,
      "step": 129
    },
    {
      "epoch": 27.79,
      "learning_rate": 0.0008333333333333334,
      "loss": 0.0233,
      "step": 132
    },
    {
      "epoch": 28.42,
      "learning_rate": 0.0008,
      "loss": 0.0246,
      "step": 135
    },
    {
      "epoch": 29.05,
      "learning_rate": 0.0007666666666666667,
      "loss": 0.0249,
      "step": 138
    },
    {
      "epoch": 29.68,
      "learning_rate": 0.0007333333333333333,
      "loss": 0.0217,
      "step": 141
    },
    {
      "epoch": 30.32,
      "learning_rate": 0.0007,
      "loss": 0.0157,
      "step": 144
    },
    {
      "epoch": 30.95,
      "learning_rate": 0.0006666666666666666,
      "loss": 0.0185,
      "step": 147
    },
    {
      "epoch": 31.58,
      "learning_rate": 0.0006333333333333333,
      "loss": 0.0122,
      "step": 150
    },
    {
      "epoch": 32.21,
      "learning_rate": 0.0006,
      "loss": 0.0106,
      "step": 153
    },
    {
      "epoch": 32.84,
      "learning_rate": 0.0005666666666666667,
      "loss": 0.0143,
      "step": 156
    },
    {
      "epoch": 33.47,
      "learning_rate": 0.0005333333333333334,
      "loss": 0.0085,
      "step": 159
    },
    {
      "epoch": 34.11,
      "learning_rate": 0.0005,
      "loss": 0.011,
      "step": 162
    },
    {
      "epoch": 34.74,
      "learning_rate": 0.00046666666666666666,
      "loss": 0.0077,
      "step": 165
    },
    {
      "epoch": 35.37,
      "learning_rate": 0.00043333333333333337,
      "loss": 0.0075,
      "step": 168
    },
    {
      "epoch": 36.0,
      "learning_rate": 0.0004,
      "loss": 0.0062,
      "step": 171
    },
    {
      "epoch": 36.63,
      "learning_rate": 0.00036666666666666667,
      "loss": 0.0049,
      "step": 174
    },
    {
      "epoch": 37.26,
      "learning_rate": 0.0003333333333333333,
      "loss": 0.0057,
      "step": 177
    },
    {
      "epoch": 37.89,
      "learning_rate": 0.0003,
      "loss": 0.0068,
      "step": 180
    },
    {
      "epoch": 38.53,
      "learning_rate": 0.0002666666666666667,
      "loss": 0.0055,
      "step": 183
    },
    {
      "epoch": 39.16,
      "learning_rate": 0.00023333333333333333,
      "loss": 0.0046,
      "step": 186
    },
    {
      "epoch": 39.79,
      "learning_rate": 0.0002,
      "loss": 0.0053,
      "step": 189
    },
    {
      "epoch": 40.42,
      "learning_rate": 0.00016666666666666666,
      "loss": 0.004,
      "step": 192
    },
    {
      "epoch": 41.05,
      "learning_rate": 0.00013333333333333334,
      "loss": 0.005,
      "step": 195
    },
    {
      "epoch": 41.68,
      "learning_rate": 0.0001,
      "loss": 0.004,
      "step": 198
    }
  ],
  "logging_steps": 3,
  "max_steps": 200,
  "num_train_epochs": 50,
  "save_steps": 500,
  "total_flos": 3.4983817248768e+16,
  "trial_name": null,
  "trial_params": null
}