{
  "best_metric": 1.42880117893219,
  "best_model_checkpoint": "outputs/checkpoint-828",
  "epoch": 17.878542510121456,
  "eval_steps": 500,
  "global_step": 828,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.4318488529014845,
      "grad_norm": 0.9647712111473083,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 2.3464,
      "step": 20
    },
    {
      "epoch": 0.863697705802969,
      "grad_norm": 0.7620949149131775,
      "learning_rate": 4.000000000000001e-06,
      "loss": 2.3457,
      "step": 40
    },
    {
      "epoch": 0.9932523616734144,
      "eval_loss": 2.172492504119873,
      "eval_runtime": 12.5552,
      "eval_samples_per_second": 29.629,
      "eval_steps_per_second": 3.743,
      "step": 46
    },
    {
      "epoch": 1.2955465587044535,
      "grad_norm": 0.7905983924865723,
      "learning_rate": 6e-06,
      "loss": 2.3256,
      "step": 60
    },
    {
      "epoch": 1.7273954116059378,
      "grad_norm": 0.8448758721351624,
      "learning_rate": 8.000000000000001e-06,
      "loss": 2.1999,
      "step": 80
    },
    {
      "epoch": 1.9865047233468287,
      "eval_loss": 1.9573273658752441,
      "eval_runtime": 12.2982,
      "eval_samples_per_second": 30.248,
      "eval_steps_per_second": 3.822,
      "step": 92
    },
    {
      "epoch": 2.1592442645074224,
      "grad_norm": 0.665162980556488,
      "learning_rate": 1e-05,
      "loss": 2.1343,
      "step": 100
    },
    {
      "epoch": 2.591093117408907,
      "grad_norm": 0.5304886698722839,
      "learning_rate": 9.981389099710132e-06,
      "loss": 2.0325,
      "step": 120
    },
    {
      "epoch": 2.979757085020243,
      "eval_loss": 1.8101614713668823,
      "eval_runtime": 12.0422,
      "eval_samples_per_second": 30.891,
      "eval_steps_per_second": 3.903,
      "step": 138
    },
    {
      "epoch": 3.0229419703103915,
      "grad_norm": 0.6249691247940063,
      "learning_rate": 9.925694945084369e-06,
      "loss": 2.038,
      "step": 140
    },
    {
      "epoch": 3.454790823211876,
      "grad_norm": 0.549341082572937,
      "learning_rate": 9.833332143466099e-06,
      "loss": 1.9539,
      "step": 160
    },
    {
      "epoch": 3.8866396761133606,
      "grad_norm": 0.5345794558525085,
      "learning_rate": 9.704988276811883e-06,
      "loss": 1.9295,
      "step": 180
    },
    {
      "epoch": 3.9946018893387314,
      "eval_loss": 1.7296996116638184,
      "eval_runtime": 12.0445,
      "eval_samples_per_second": 30.885,
      "eval_steps_per_second": 3.902,
      "step": 185
    },
    {
      "epoch": 4.318488529014845,
      "grad_norm": 0.6139589548110962,
      "learning_rate": 9.54161878308377e-06,
      "loss": 1.8949,
      "step": 200
    },
    {
      "epoch": 4.75033738191633,
      "grad_norm": 0.6864662766456604,
      "learning_rate": 9.344439843625034e-06,
      "loss": 1.8976,
      "step": 220
    },
    {
      "epoch": 4.987854251012146,
      "eval_loss": 1.6704739332199097,
      "eval_runtime": 12.0592,
      "eval_samples_per_second": 30.848,
      "eval_steps_per_second": 3.897,
      "step": 231
    },
    {
      "epoch": 5.182186234817814,
      "grad_norm": 0.5886803865432739,
      "learning_rate": 9.114919329468283e-06,
      "loss": 1.8686,
      "step": 240
    },
    {
      "epoch": 5.614035087719298,
      "grad_norm": 0.6739407181739807,
      "learning_rate": 8.854765873974898e-06,
      "loss": 1.8265,
      "step": 260
    },
    {
      "epoch": 5.98110661268556,
      "eval_loss": 1.6191655397415161,
      "eval_runtime": 12.0582,
      "eval_samples_per_second": 30.85,
      "eval_steps_per_second": 3.898,
      "step": 277
    },
    {
      "epoch": 6.045883940620783,
      "grad_norm": 0.7047673463821411,
      "learning_rate": 8.565916153152982e-06,
      "loss": 1.8201,
      "step": 280
    },
    {
      "epoch": 6.477732793522267,
      "grad_norm": 0.6909105777740479,
      "learning_rate": 8.250520468343722e-06,
      "loss": 1.7656,
      "step": 300
    },
    {
      "epoch": 6.909581646423752,
      "grad_norm": 0.7460944056510925,
      "learning_rate": 7.910926738603855e-06,
      "loss": 1.8038,
      "step": 320
    },
    {
      "epoch": 6.995951417004049,
      "eval_loss": 1.5762709379196167,
      "eval_runtime": 12.0686,
      "eval_samples_per_second": 30.824,
      "eval_steps_per_second": 3.894,
      "step": 324
    },
    {
      "epoch": 7.341430499325236,
      "grad_norm": 0.8885225653648376,
      "learning_rate": 7.5496630219506805e-06,
      "loss": 1.7428,
      "step": 340
    },
    {
      "epoch": 7.77327935222672,
      "grad_norm": 0.771353542804718,
      "learning_rate": 7.169418695587791e-06,
      "loss": 1.7608,
      "step": 360
    },
    {
      "epoch": 7.989203778677463,
      "eval_loss": 1.5418975353240967,
      "eval_runtime": 12.0558,
      "eval_samples_per_second": 30.857,
      "eval_steps_per_second": 3.899,
      "step": 370
    },
    {
      "epoch": 8.205128205128204,
      "grad_norm": 0.7849822640419006,
      "learning_rate": 6.773024435212678e-06,
      "loss": 1.7396,
      "step": 380
    },
    {
      "epoch": 8.63697705802969,
      "grad_norm": 0.997053325176239,
      "learning_rate": 6.363431142447469e-06,
      "loss": 1.7123,
      "step": 400
    },
    {
      "epoch": 8.982456140350877,
      "eval_loss": 1.5107336044311523,
      "eval_runtime": 12.0487,
      "eval_samples_per_second": 30.875,
      "eval_steps_per_second": 3.901,
      "step": 416
    },
    {
      "epoch": 9.068825910931174,
      "grad_norm": 0.8057714104652405,
      "learning_rate": 5.943687977264584e-06,
      "loss": 1.7143,
      "step": 420
    },
    {
      "epoch": 9.50067476383266,
      "grad_norm": 1.0519981384277344,
      "learning_rate": 5.51691965894185e-06,
      "loss": 1.6754,
      "step": 440
    },
    {
      "epoch": 9.932523616734143,
      "grad_norm": 0.8790378570556641,
      "learning_rate": 5.0863032045269435e-06,
      "loss": 1.7078,
      "step": 460
    },
    {
      "epoch": 9.997300944669366,
      "eval_loss": 1.4861911535263062,
      "eval_runtime": 12.0616,
      "eval_samples_per_second": 30.842,
      "eval_steps_per_second": 3.897,
      "step": 463
    },
    {
      "epoch": 10.364372469635628,
      "grad_norm": 0.9965023994445801,
      "learning_rate": 4.6550442779783755e-06,
      "loss": 1.6729,
      "step": 480
    },
    {
      "epoch": 10.796221322537113,
      "grad_norm": 0.9378894567489624,
      "learning_rate": 4.226353326048594e-06,
      "loss": 1.6375,
      "step": 500
    },
    {
      "epoch": 10.99055330634278,
      "eval_loss": 1.4666177034378052,
      "eval_runtime": 12.0581,
      "eval_samples_per_second": 30.851,
      "eval_steps_per_second": 3.898,
      "step": 509
    },
    {
      "epoch": 11.228070175438596,
      "grad_norm": 1.088391900062561,
      "learning_rate": 3.803421678562213e-06,
      "loss": 1.6817,
      "step": 520
    },
    {
      "epoch": 11.65991902834008,
      "grad_norm": 1.2648347616195679,
      "learning_rate": 3.389397791007548e-06,
      "loss": 1.6618,
      "step": 540
    },
    {
      "epoch": 11.983805668016194,
      "eval_loss": 1.4524654150009155,
      "eval_runtime": 12.0523,
      "eval_samples_per_second": 30.866,
      "eval_steps_per_second": 3.9,
      "step": 555
    },
    {
      "epoch": 12.091767881241566,
      "grad_norm": 1.1444419622421265,
      "learning_rate": 2.9873638063001633e-06,
      "loss": 1.637,
      "step": 560
    },
    {
      "epoch": 12.523616734143049,
      "grad_norm": 0.8730684518814087,
      "learning_rate": 2.6003126102010696e-06,
      "loss": 1.6219,
      "step": 580
    },
    {
      "epoch": 12.955465587044534,
      "grad_norm": 1.3365355730056763,
      "learning_rate": 2.2311255511973347e-06,
      "loss": 1.629,
      "step": 600
    },
    {
      "epoch": 12.998650472334683,
      "eval_loss": 1.4416956901550293,
      "eval_runtime": 12.0642,
      "eval_samples_per_second": 30.835,
      "eval_steps_per_second": 3.896,
      "step": 602
    },
    {
      "epoch": 13.387314439946019,
      "grad_norm": 1.1396286487579346,
      "learning_rate": 1.8825509907063328e-06,
      "loss": 1.5987,
      "step": 620
    },
    {
      "epoch": 13.819163292847504,
      "grad_norm": 1.1069096326828003,
      "learning_rate": 1.557183843283614e-06,
      "loss": 1.6634,
      "step": 640
    },
    {
      "epoch": 13.991902834008098,
      "eval_loss": 1.4354872703552246,
      "eval_runtime": 12.0604,
      "eval_samples_per_second": 30.845,
      "eval_steps_per_second": 3.897,
      "step": 648
    },
    {
      "epoch": 14.251012145748987,
      "grad_norm": 0.929169237613678,
      "learning_rate": 1.257446259144494e-06,
      "loss": 1.6245,
      "step": 660
    },
    {
      "epoch": 14.682860998650472,
      "grad_norm": 1.1899679899215698,
      "learning_rate": 9.85569592805588e-07,
      "loss": 1.6097,
      "step": 680
    },
    {
      "epoch": 14.98515519568151,
      "eval_loss": 1.4315454959869385,
      "eval_runtime": 12.0693,
      "eval_samples_per_second": 30.822,
      "eval_steps_per_second": 3.894,
      "step": 694
    },
    {
      "epoch": 15.114709851551957,
      "grad_norm": 1.0818545818328857,
      "learning_rate": 7.435777920782444e-07,
      "loss": 1.6349,
      "step": 700
    },
    {
      "epoch": 15.54655870445344,
      "grad_norm": 1.077989935874939,
      "learning_rate": 5.332723310721855e-07,
      "loss": 1.6035,
      "step": 720
    },
    {
      "epoch": 15.978407557354926,
      "grad_norm": 1.1727399826049805,
      "learning_rate": 3.5621879937348836e-07,
      "loss": 1.6489,
      "step": 740
    },
    {
      "epoch": 16.0,
      "eval_loss": 1.4295289516448975,
      "eval_runtime": 12.0333,
      "eval_samples_per_second": 30.914,
      "eval_steps_per_second": 3.906,
      "step": 741
    },
    {
      "epoch": 16.41025641025641,
      "grad_norm": 1.0742014646530151,
      "learning_rate": 2.137352472319215e-07,
      "loss": 1.5994,
      "step": 760
    },
    {
      "epoch": 16.842105263157894,
      "grad_norm": 1.0748684406280518,
      "learning_rate": 1.0688237352022346e-07,
      "loss": 1.6251,
      "step": 780
    },
    {
      "epoch": 16.993252361673413,
      "eval_loss": 1.4288655519485474,
      "eval_runtime": 11.987,
      "eval_samples_per_second": 31.034,
      "eval_steps_per_second": 3.921,
      "step": 787
    },
    {
      "epoch": 17.27395411605938,
      "grad_norm": 1.1126863956451416,
      "learning_rate": 3.645562950973014e-08,
      "loss": 1.6199,
      "step": 800
    },
    {
      "epoch": 17.705802968960864,
      "grad_norm": 1.1560289859771729,
      "learning_rate": 2.9792972446479605e-09,
      "loss": 1.5742,
      "step": 820
    },
    {
      "epoch": 17.878542510121456,
      "eval_loss": 1.42880117893219,
      "eval_runtime": 11.9734,
      "eval_samples_per_second": 31.069,
      "eval_steps_per_second": 3.925,
      "step": 828
    }
  ],
  "logging_steps": 20,
  "max_steps": 828,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 18,
  "save_steps": 500,
  "total_flos": 7.361856849884774e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}