{
  "best_metric": 0.43324727666295126,
  "best_model_checkpoint": "distilbert-base-uncased-finetuned-cola/run-3/checkpoint-6414",
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 6414,
  "is_hyper_param_search": true,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.23386342376052385,
      "grad_norm": 5.5802998542785645,
      "learning_rate": 3.2594792755956787e-05,
      "loss": 0.6107,
      "step": 500
    },
    {
      "epoch": 0.4677268475210477,
      "grad_norm": 9.347123146057129,
      "learning_rate": 3.0570774328488035e-05,
      "loss": 0.6033,
      "step": 1000
    },
    {
      "epoch": 0.7015902712815716,
      "grad_norm": 8.453703880310059,
      "learning_rate": 2.8546755901019283e-05,
      "loss": 0.5638,
      "step": 1500
    },
    {
      "epoch": 0.9354536950420954,
      "grad_norm": 22.564891815185547,
      "learning_rate": 2.652273747355053e-05,
      "loss": 0.5621,
      "step": 2000
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.6280548572540283,
      "eval_matthews_correlation": 0.40366439212980376,
      "eval_runtime": 0.746,
      "eval_samples_per_second": 1398.063,
      "eval_steps_per_second": 88.468,
      "step": 2138
    },
    {
      "epoch": 1.1693171188026192,
      "grad_norm": 32.08448791503906,
      "learning_rate": 2.449871904608178e-05,
      "loss": 0.4895,
      "step": 2500
    },
    {
      "epoch": 1.4031805425631432,
      "grad_norm": 142.33758544921875,
      "learning_rate": 2.2474700618613024e-05,
      "loss": 0.4803,
      "step": 3000
    },
    {
      "epoch": 1.637043966323667,
      "grad_norm": 0.26033705472946167,
      "learning_rate": 2.0450682191144272e-05,
      "loss": 0.496,
      "step": 3500
    },
    {
      "epoch": 1.8709073900841908,
      "grad_norm": 0.21774961054325104,
      "learning_rate": 1.842666376367552e-05,
      "loss": 0.4973,
      "step": 4000
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.7891594171524048,
      "eval_matthews_correlation": 0.4205775146937564,
      "eval_runtime": 0.7577,
      "eval_samples_per_second": 1376.591,
      "eval_steps_per_second": 87.109,
      "step": 4276
    },
    {
      "epoch": 2.1047708138447145,
      "grad_norm": 153.6420135498047,
      "learning_rate": 1.6402645336206768e-05,
      "loss": 0.3969,
      "step": 4500
    },
    {
      "epoch": 2.3386342376052385,
      "grad_norm": 6.752998352050781,
      "learning_rate": 1.4378626908738016e-05,
      "loss": 0.3002,
      "step": 5000
    },
    {
      "epoch": 2.5724976613657624,
      "grad_norm": 0.23360666632652283,
      "learning_rate": 1.2354608481269264e-05,
      "loss": 0.3187,
      "step": 5500
    },
    {
      "epoch": 2.8063610851262863,
      "grad_norm": 0.040108609944581985,
      "learning_rate": 1.033059005380051e-05,
      "loss": 0.2948,
      "step": 6000
    },
    {
      "epoch": 3.0,
      "eval_loss": 1.0743186473846436,
      "eval_matthews_correlation": 0.43324727666295126,
      "eval_runtime": 0.8224,
      "eval_samples_per_second": 1268.249,
      "eval_steps_per_second": 80.254,
      "step": 6414
    }
  ],
  "logging_steps": 500,
  "max_steps": 8552,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 97836746746812.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": {
    "learning_rate": 3.461881118342554e-05,
    "num_train_epochs": 4,
    "per_device_train_batch_size": 4,
    "seed": 15
  }
}