{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 669,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07,
      "learning_rate": 1.1194029850746268e-07,
      "loss": 2.3842,
      "step": 15
    },
    {
      "epoch": 0.13,
      "learning_rate": 2.2388059701492537e-07,
      "loss": 2.1216,
      "step": 30
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.3582089552238805e-07,
      "loss": 1.209,
      "step": 45
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.4776119402985074e-07,
      "loss": 0.3572,
      "step": 60
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.997821619858613e-07,
      "loss": 0.2376,
      "step": 75
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.982013320674148e-07,
      "loss": 0.2259,
      "step": 90
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.951004040601898e-07,
      "loss": 0.2179,
      "step": 105
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.904983694607182e-07,
      "loss": 0.2312,
      "step": 120
    },
    {
      "epoch": 0.61,
      "learning_rate": 4.844234132265139e-07,
      "loss": 0.2625,
      "step": 135
    },
    {
      "epoch": 0.67,
      "learning_rate": 4.769127411585451e-07,
      "loss": 0.2149,
      "step": 150
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.680123520359519e-07,
      "loss": 0.2285,
      "step": 165
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.577767558985552e-07,
      "loss": 0.1952,
      "step": 180
    },
    {
      "epoch": 0.87,
      "learning_rate": 4.4626864020252767e-07,
      "loss": 0.216,
      "step": 195
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.3355848589383875e-07,
      "loss": 0.2209,
      "step": 210
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.1885647028684616,
      "eval_runtime": 84.9949,
      "eval_samples_per_second": 4.424,
      "eval_steps_per_second": 0.553,
      "step": 223
    },
    {
      "epoch": 1.01,
      "learning_rate": 4.197241357508159e-07,
      "loss": 0.2079,
      "step": 225
    },
    {
      "epoch": 1.08,
      "learning_rate": 4.048503176394893e-07,
      "loss": 0.1639,
      "step": 240
    },
    {
      "epoch": 1.14,
      "learning_rate": 3.8902812560152067e-07,
      "loss": 0.2003,
      "step": 255
    },
    {
      "epoch": 1.21,
      "learning_rate": 3.7235446195277136e-07,
      "loss": 0.2023,
      "step": 270
    },
    {
      "epoch": 1.28,
      "learning_rate": 3.5493144380935153e-07,
      "loss": 0.2093,
      "step": 285
    },
    {
      "epoch": 1.35,
      "learning_rate": 3.3686577767585543e-07,
      "loss": 0.1862,
      "step": 300
    },
    {
      "epoch": 1.41,
      "learning_rate": 3.182681059260903e-07,
      "loss": 0.2173,
      "step": 315
    },
    {
      "epoch": 1.48,
      "learning_rate": 2.992523291787476e-07,
      "loss": 0.1854,
      "step": 330
    },
    {
      "epoch": 1.55,
      "learning_rate": 2.79934908718098e-07,
      "loss": 0.1846,
      "step": 345
    },
    {
      "epoch": 1.61,
      "learning_rate": 2.604341532320033e-07,
      "loss": 0.2093,
      "step": 360
    },
    {
      "epoch": 1.68,
      "learning_rate": 2.4086949423558525e-07,
      "loss": 0.215,
      "step": 375
    },
    {
      "epoch": 1.75,
      "learning_rate": 2.21360754618191e-07,
      "loss": 0.2203,
      "step": 390
    },
    {
      "epoch": 1.82,
      "learning_rate": 2.020274147934019e-07,
      "loss": 0.2012,
      "step": 405
    },
    {
      "epoch": 1.88,
      "learning_rate": 1.8298788094652156e-07,
      "loss": 0.1801,
      "step": 420
    },
    {
      "epoch": 1.95,
      "learning_rate": 1.6435875986112683e-07,
      "loss": 0.232,
      "step": 435
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.1808764636516571,
      "eval_runtime": 84.9305,
      "eval_samples_per_second": 4.427,
      "eval_steps_per_second": 0.553,
      "step": 446
    },
    {
      "epoch": 2.02,
      "learning_rate": 1.4625414476597541e-07,
      "loss": 0.1974,
      "step": 450
    },
    {
      "epoch": 2.09,
      "learning_rate": 1.287849165760687e-07,
      "loss": 0.2059,
      "step": 465
    },
    {
      "epoch": 2.15,
      "learning_rate": 1.120580648073885e-07,
      "loss": 0.1932,
      "step": 480
    },
    {
      "epoch": 2.22,
      "learning_rate": 9.617603232433475e-08,
      "loss": 0.1538,
      "step": 495
    },
    {
      "epoch": 2.29,
      "learning_rate": 8.123608793292986e-08,
      "loss": 0.2281,
      "step": 510
    },
    {
      "epoch": 2.35,
      "learning_rate": 6.732973066231562e-08,
      "loss": 0.1934,
      "step": 525
    },
    {
      "epoch": 2.42,
      "learning_rate": 5.454212938299255e-08,
      "loss": 0.2006,
      "step": 540
    },
    {
      "epoch": 2.49,
      "learning_rate": 4.295160119383712e-08,
      "loss": 0.1785,
      "step": 555
    },
    {
      "epoch": 2.56,
      "learning_rate": 3.2629131772490434e-08,
      "loss": 0.1655,
      "step": 570
    },
    {
      "epoch": 2.62,
      "learning_rate": 2.3637940626713342e-08,
      "loss": 0.1975,
      "step": 585
    },
    {
      "epoch": 2.69,
      "learning_rate": 1.6033093909304853e-08,
      "loss": 0.1877,
      "step": 600
    },
    {
      "epoch": 2.76,
      "learning_rate": 9.861167167883044e-09,
      "loss": 0.1972,
      "step": 615
    },
    {
      "epoch": 2.83,
      "learning_rate": 5.1599600950022195e-09,
      "loss": 0.2058,
      "step": 630
    },
    {
      "epoch": 2.89,
      "learning_rate": 1.9582650256064203e-09,
      "loss": 0.1942,
      "step": 645
    },
    {
      "epoch": 2.96,
      "learning_rate": 2.75690599646522e-10,
      "loss": 0.1667,
      "step": 660
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.1806206852197647,
      "eval_runtime": 84.9152,
      "eval_samples_per_second": 4.428,
      "eval_steps_per_second": 0.553,
      "step": 669
    },
    {
      "epoch": 3.0,
      "step": 669,
      "total_flos": 331458329182208.0,
      "train_loss": 0.3205718675180045,
      "train_runtime": 57740.8386,
      "train_samples_per_second": 0.37,
      "train_steps_per_second": 0.012
    }
  ],
  "logging_steps": 15,
  "max_steps": 669,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "total_flos": 331458329182208.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}