{
  "best_metric": 0.6910818815231323,
  "best_model_checkpoint": "bert_tiny_lda_100_v1_rte/checkpoint-50",
  "epoch": 10.0,
  "eval_steps": 500,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 0.8250333070755005,
      "learning_rate": 0.00098,
      "loss": 0.8226,
      "step": 10
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.5270758122743683,
      "eval_loss": 0.7099644541740417,
      "eval_runtime": 0.0907,
      "eval_samples_per_second": 3054.549,
      "eval_steps_per_second": 22.055,
      "step": 10
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.27419352531433105,
      "learning_rate": 0.00096,
      "loss": 0.7009,
      "step": 20
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.4729241877256318,
      "eval_loss": 0.7083004713058472,
      "eval_runtime": 0.0923,
      "eval_samples_per_second": 3001.194,
      "eval_steps_per_second": 21.669,
      "step": 20
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.2973408102989197,
      "learning_rate": 0.00094,
      "loss": 0.696,
      "step": 30
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.4729241877256318,
      "eval_loss": 0.6955804228782654,
      "eval_runtime": 0.0912,
      "eval_samples_per_second": 3038.309,
      "eval_steps_per_second": 21.937,
      "step": 30
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.25628429651260376,
      "learning_rate": 0.00092,
      "loss": 0.695,
      "step": 40
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.5270758122743683,
      "eval_loss": 0.6930421590805054,
      "eval_runtime": 0.0958,
      "eval_samples_per_second": 2892.623,
      "eval_steps_per_second": 20.885,
      "step": 40
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.6449291706085205,
      "learning_rate": 0.0009000000000000001,
      "loss": 0.6933,
      "step": 50
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.5270758122743683,
      "eval_loss": 0.6910818815231323,
      "eval_runtime": 0.0889,
      "eval_samples_per_second": 3114.696,
      "eval_steps_per_second": 22.489,
      "step": 50
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.27499687671661377,
      "learning_rate": 0.00088,
      "loss": 0.6964,
      "step": 60
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.4729241877256318,
      "eval_loss": 0.698697030544281,
      "eval_runtime": 0.0888,
      "eval_samples_per_second": 3117.998,
      "eval_steps_per_second": 22.513,
      "step": 60
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.1044619083404541,
      "learning_rate": 0.00086,
      "loss": 0.694,
      "step": 70
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.5270758122743683,
      "eval_loss": 0.6921958923339844,
      "eval_runtime": 0.0893,
      "eval_samples_per_second": 3100.888,
      "eval_steps_per_second": 22.389,
      "step": 70
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.16408830881118774,
      "learning_rate": 0.00084,
      "loss": 0.6941,
      "step": 80
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.4729241877256318,
      "eval_loss": 0.6951573491096497,
      "eval_runtime": 0.0897,
      "eval_samples_per_second": 3088.335,
      "eval_steps_per_second": 22.298,
      "step": 80
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.14835208654403687,
      "learning_rate": 0.00082,
      "loss": 0.6942,
      "step": 90
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.5270758122743683,
      "eval_loss": 0.6926190257072449,
      "eval_runtime": 0.092,
      "eval_samples_per_second": 3011.868,
      "eval_steps_per_second": 21.746,
      "step": 90
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.11492882668972015,
      "learning_rate": 0.0008,
      "loss": 0.6932,
      "step": 100
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.4729241877256318,
      "eval_loss": 0.6936765909194946,
      "eval_runtime": 0.0892,
      "eval_samples_per_second": 3106.792,
      "eval_steps_per_second": 22.432,
      "step": 100
    },
    {
      "epoch": 10.0,
      "step": 100,
      "total_flos": 652967094988800.0,
      "train_loss": 0.7079746341705322,
      "train_runtime": 20.9087,
      "train_samples_per_second": 5954.454,
      "train_steps_per_second": 23.913
    }
  ],
  "logging_steps": 1,
  "max_steps": 500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 5
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 652967094988800.0,
  "train_batch_size": 256,
  "trial_name": null,
  "trial_params": null
}