{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.0,
  "eval_steps": 500,
  "global_step": 63788,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.006270771932024832,
      "grad_norm": 92.5528793334961,
      "learning_rate": 3.041229032763756e-07,
      "loss": 11.9622,
      "step": 100
    },
    {
      "epoch": 0.012541543864049664,
      "grad_norm": 85.98809814453125,
      "learning_rate": 6.176516695406804e-07,
      "loss": 11.265,
      "step": 200
    },
    {
      "epoch": 0.018812315796074498,
      "grad_norm": 82.95439910888672,
      "learning_rate": 9.311804358049851e-07,
      "loss": 10.5195,
      "step": 300
    },
    {
      "epoch": 0.025083087728099328,
      "grad_norm": 74.84368896484375,
      "learning_rate": 1.2447092020692899e-06,
      "loss": 9.4744,
      "step": 400
    },
    {
      "epoch": 0.03135385966012416,
      "grad_norm": 71.96393585205078,
      "learning_rate": 1.5582379683335947e-06,
      "loss": 8.4815,
      "step": 500
    },
    {
      "epoch": 0.03135385966012416,
      "eval_loss": 8.621713638305664,
      "eval_runtime": 232.9735,
      "eval_samples_per_second": 547.582,
      "eval_steps_per_second": 17.114,
      "step": 500
    },
    {
      "epoch": 0.037624631592148995,
      "grad_norm": 82.08424377441406,
      "learning_rate": 1.8717667345978996e-06,
      "loss": 7.6105,
      "step": 600
    },
    {
      "epoch": 0.04389540352417383,
      "grad_norm": 82.3794937133789,
      "learning_rate": 2.1852955008622044e-06,
      "loss": 6.8023,
      "step": 700
    },
    {
      "epoch": 0.050166175456198656,
      "grad_norm": 42.44660186767578,
      "learning_rate": 2.4988242671265088e-06,
      "loss": 6.1258,
      "step": 800
    },
    {
      "epoch": 0.05643694738822349,
      "grad_norm": 42.748497009277344,
      "learning_rate": 2.812353033390814e-06,
      "loss": 5.5032,
      "step": 900
    },
    {
      "epoch": 0.06270771932024832,
      "grad_norm": 49.40472412109375,
      "learning_rate": 3.1258817996551187e-06,
      "loss": 5.0397,
      "step": 1000
    },
    {
      "epoch": 0.06270771932024832,
      "eval_loss": 5.194935321807861,
      "eval_runtime": 248.6107,
      "eval_samples_per_second": 513.14,
      "eval_steps_per_second": 16.037,
      "step": 1000
    },
    {
      "epoch": 0.06897849125227315,
      "grad_norm": 54.32060623168945,
      "learning_rate": 3.439410565919423e-06,
      "loss": 4.6909,
      "step": 1100
    },
    {
      "epoch": 0.07524926318429799,
      "grad_norm": 50.955474853515625,
      "learning_rate": 3.7529393321837283e-06,
      "loss": 4.5716,
      "step": 1200
    },
    {
      "epoch": 0.08152003511632282,
      "grad_norm": 42.99276351928711,
      "learning_rate": 4.066468098448033e-06,
      "loss": 4.3983,
      "step": 1300
    },
    {
      "epoch": 0.08779080704834766,
      "grad_norm": 56.20285415649414,
      "learning_rate": 4.379996864712338e-06,
      "loss": 4.2073,
      "step": 1400
    },
    {
      "epoch": 0.09406157898037248,
      "grad_norm": 47.72187805175781,
      "learning_rate": 4.693525630976643e-06,
      "loss": 4.2164,
      "step": 1500
    },
    {
      "epoch": 0.09406157898037248,
      "eval_loss": 4.142153263092041,
      "eval_runtime": 255.6642,
      "eval_samples_per_second": 498.983,
      "eval_steps_per_second": 15.595,
      "step": 1500
    },
    {
      "epoch": 0.10033235091239731,
      "grad_norm": 53.83956527709961,
      "learning_rate": 5.0070543972409465e-06,
      "loss": 4.0921,
      "step": 1600
    },
    {
      "epoch": 0.10660312284442215,
      "grad_norm": 35.98961639404297,
      "learning_rate": 5.320583163505252e-06,
      "loss": 4.1785,
      "step": 1700
    },
    {
      "epoch": 0.11287389477644698,
      "grad_norm": 90.68247985839844,
      "learning_rate": 5.634111929769557e-06,
      "loss": 4.0503,
      "step": 1800
    },
    {
      "epoch": 0.11914466670847182,
      "grad_norm": 64.07307434082031,
      "learning_rate": 5.947640696033862e-06,
      "loss": 3.8969,
      "step": 1900
    },
    {
      "epoch": 0.12541543864049665,
      "grad_norm": 58.8675537109375,
      "learning_rate": 6.2611694622981665e-06,
      "loss": 3.8538,
      "step": 2000
    },
    {
      "epoch": 0.12541543864049665,
      "eval_loss": 3.910861015319824,
      "eval_runtime": 257.3903,
      "eval_samples_per_second": 495.636,
      "eval_steps_per_second": 15.49,
      "step": 2000
    },
    {
      "epoch": 0.13168621057252147,
      "grad_norm": 58.32042694091797,
      "learning_rate": 6.574698228562471e-06,
      "loss": 3.872,
      "step": 2100
    },
    {
      "epoch": 0.1379569825045463,
      "grad_norm": 38.084102630615234,
      "learning_rate": 6.885091707164133e-06,
      "loss": 3.851,
      "step": 2200
    },
    {
      "epoch": 0.14422775443657115,
      "grad_norm": 62.679237365722656,
      "learning_rate": 7.198620473428438e-06,
      "loss": 3.6301,
      "step": 2300
    },
    {
      "epoch": 0.15049852636859598,
      "grad_norm": 60.0799446105957,
      "learning_rate": 7.512149239692742e-06,
      "loss": 3.5202,
      "step": 2400
    },
    {
      "epoch": 0.1567692983006208,
      "grad_norm": 30.11835289001465,
      "learning_rate": 7.825678005957047e-06,
      "loss": 3.6759,
      "step": 2500
    },
    {
      "epoch": 0.1567692983006208,
      "eval_loss": 3.638855218887329,
      "eval_runtime": 259.3655,
      "eval_samples_per_second": 491.862,
      "eval_steps_per_second": 15.372,
      "step": 2500
    },
    {
      "epoch": 0.16304007023264563,
      "grad_norm": 72.76881408691406,
      "learning_rate": 8.139206772221352e-06,
      "loss": 3.4106,
      "step": 2600
    },
    {
      "epoch": 0.16931084216467046,
      "grad_norm": 89.71743774414062,
      "learning_rate": 8.452735538485657e-06,
      "loss": 3.69,
      "step": 2700
    },
    {
      "epoch": 0.17558161409669532,
      "grad_norm": 81.42703247070312,
      "learning_rate": 8.766264304749962e-06,
      "loss": 3.6336,
      "step": 2800
    },
    {
      "epoch": 0.18185238602872014,
      "grad_norm": 84.91463470458984,
      "learning_rate": 9.079793071014266e-06,
      "loss": 3.4715,
      "step": 2900
    },
    {
      "epoch": 0.18812315796074497,
      "grad_norm": 50.145713806152344,
      "learning_rate": 9.393321837278571e-06,
      "loss": 3.2166,
      "step": 3000
    },
    {
      "epoch": 0.18812315796074497,
      "eval_loss": 3.273871898651123,
      "eval_runtime": 257.8101,
      "eval_samples_per_second": 494.829,
      "eval_steps_per_second": 15.465,
      "step": 3000
    },
    {
      "epoch": 0.1943939298927698,
      "grad_norm": 62.13496780395508,
      "learning_rate": 9.706850603542876e-06,
      "loss": 3.3844,
      "step": 3100
    },
    {
      "epoch": 0.20066470182479462,
      "grad_norm": 74.26377868652344,
      "learning_rate": 1.002037936980718e-05,
      "loss": 3.4449,
      "step": 3200
    },
    {
      "epoch": 0.20693547375681948,
      "grad_norm": 112.08758544921875,
      "learning_rate": 1.0333908136071484e-05,
      "loss": 3.0811,
      "step": 3300
    },
    {
      "epoch": 0.2132062456888443,
      "grad_norm": 40.37177276611328,
      "learning_rate": 1.0644301614673146e-05,
      "loss": 3.2777,
      "step": 3400
    },
    {
      "epoch": 0.21947701762086913,
      "grad_norm": 65.6463623046875,
      "learning_rate": 1.0957830380937451e-05,
      "loss": 2.9505,
      "step": 3500
    },
    {
      "epoch": 0.21947701762086913,
      "eval_loss": 3.0864851474761963,
      "eval_runtime": 252.3303,
      "eval_samples_per_second": 505.575,
      "eval_steps_per_second": 15.801,
      "step": 3500
    },
    {
      "epoch": 0.22574778955289396,
      "grad_norm": 103.7303466796875,
      "learning_rate": 1.1271359147201758e-05,
      "loss": 3.1534,
      "step": 3600
    },
    {
      "epoch": 0.23201856148491878,
      "grad_norm": 145.92767333984375,
      "learning_rate": 1.158488791346606e-05,
      "loss": 2.9669,
      "step": 3700
    },
    {
      "epoch": 0.23828933341694364,
      "grad_norm": 78.69353485107422,
      "learning_rate": 1.1898416679730367e-05,
      "loss": 2.9416,
      "step": 3800
    },
    {
      "epoch": 0.24456010534896847,
      "grad_norm": 55.99378204345703,
      "learning_rate": 1.221194544599467e-05,
      "loss": 2.9637,
      "step": 3900
    },
    {
      "epoch": 0.2508308772809933,
      "grad_norm": 104.32599639892578,
      "learning_rate": 1.2525474212258977e-05,
      "loss": 2.9322,
      "step": 4000
    },
    {
      "epoch": 0.2508308772809933,
      "eval_loss": 2.844682455062866,
      "eval_runtime": 252.142,
      "eval_samples_per_second": 505.953,
      "eval_steps_per_second": 15.813,
      "step": 4000
    },
    {
      "epoch": 0.25710164921301815,
      "grad_norm": 68.12931823730469,
      "learning_rate": 1.283900297852328e-05,
      "loss": 2.6926,
      "step": 4100
    },
    {
      "epoch": 0.26337242114504295,
      "grad_norm": 208.65591430664062,
      "learning_rate": 1.3152531744787585e-05,
      "loss": 2.9353,
      "step": 4200
    },
    {
      "epoch": 0.2696431930770678,
      "grad_norm": 91.44706726074219,
      "learning_rate": 1.3466060511051891e-05,
      "loss": 2.635,
      "step": 4300
    },
    {
      "epoch": 0.2759139650090926,
      "grad_norm": 92.03852081298828,
      "learning_rate": 1.3779589277316194e-05,
      "loss": 2.5692,
      "step": 4400
    },
    {
      "epoch": 0.28218473694111745,
      "grad_norm": 138.34088134765625,
      "learning_rate": 1.4089982755917857e-05,
      "loss": 3.0283,
      "step": 4500
    },
    {
      "epoch": 0.28218473694111745,
      "eval_loss": 2.9033422470092773,
      "eval_runtime": 248.9921,
      "eval_samples_per_second": 512.354,
      "eval_steps_per_second": 16.013,
      "step": 4500
    },
    {
      "epoch": 0.2884555088731423,
      "grad_norm": 57.657936096191406,
      "learning_rate": 1.4403511522182162e-05,
      "loss": 2.5804,
      "step": 4600
    },
    {
      "epoch": 0.2947262808051671,
      "grad_norm": 52.86611557006836,
      "learning_rate": 1.4717040288446466e-05,
      "loss": 3.1374,
      "step": 4700
    },
    {
      "epoch": 0.30099705273719196,
      "grad_norm": 80.26192474365234,
      "learning_rate": 1.5030569054710771e-05,
      "loss": 2.8479,
      "step": 4800
    },
    {
      "epoch": 0.30726782466921676,
      "grad_norm": 7.4570465087890625,
      "learning_rate": 1.5344097820975076e-05,
      "loss": 2.6809,
      "step": 4900
    },
    {
      "epoch": 0.3135385966012416,
      "grad_norm": 4.543123722076416,
      "learning_rate": 1.5657626587239382e-05,
      "loss": 2.8267,
      "step": 5000
    },
    {
      "epoch": 0.3135385966012416,
      "eval_loss": 2.6946306228637695,
      "eval_runtime": 249.1581,
      "eval_samples_per_second": 512.012,
      "eval_steps_per_second": 16.002,
      "step": 5000
    },
    {
      "epoch": 0.31980936853326647,
      "grad_norm": 29.848108291625977,
      "learning_rate": 1.5971155353503685e-05,
      "loss": 2.7341,
      "step": 5100
    },
    {
      "epoch": 0.32608014046529127,
      "grad_norm": 139.14234924316406,
      "learning_rate": 1.6284684119767992e-05,
      "loss": 2.8157,
      "step": 5200
    },
    {
      "epoch": 0.3323509123973161,
      "grad_norm": 65.15583038330078,
      "learning_rate": 1.659507759836965e-05,
      "loss": 2.5867,
      "step": 5300
    },
    {
      "epoch": 0.3386216843293409,
      "grad_norm": 76.32029724121094,
      "learning_rate": 1.6908606364633958e-05,
      "loss": 2.8622,
      "step": 5400
    },
    {
      "epoch": 0.3448924562613658,
      "grad_norm": 85.2268295288086,
      "learning_rate": 1.722213513089826e-05,
      "loss": 2.9063,
      "step": 5500
    },
    {
      "epoch": 0.3448924562613658,
      "eval_loss": 2.6115071773529053,
      "eval_runtime": 249.5988,
      "eval_samples_per_second": 511.108,
      "eval_steps_per_second": 15.974,
      "step": 5500
    },
    {
      "epoch": 0.35116322819339063,
      "grad_norm": 21.968101501464844,
      "learning_rate": 1.7535663897162567e-05,
      "loss": 2.1514,
      "step": 5600
    },
    {
      "epoch": 0.35743400012541543,
      "grad_norm": 159.9650421142578,
      "learning_rate": 1.784919266342687e-05,
      "loss": 2.3755,
      "step": 5700
    },
    {
      "epoch": 0.3637047720574403,
      "grad_norm": 53.702919006347656,
      "learning_rate": 1.8162721429691173e-05,
      "loss": 2.5055,
      "step": 5800
    },
    {
      "epoch": 0.3699755439894651,
      "grad_norm": 16.580570220947266,
      "learning_rate": 1.847625019595548e-05,
      "loss": 3.3237,
      "step": 5900
    },
    {
      "epoch": 0.37624631592148994,
      "grad_norm": 77.9209213256836,
      "learning_rate": 1.8789778962219786e-05,
      "loss": 2.561,
      "step": 6000
    },
    {
      "epoch": 0.37624631592148994,
      "eval_loss": 2.7512075901031494,
      "eval_runtime": 252.3158,
      "eval_samples_per_second": 505.605,
      "eval_steps_per_second": 15.802,
      "step": 6000
    },
    {
      "epoch": 0.3825170878535148,
      "grad_norm": 181.68307495117188,
      "learning_rate": 1.910330772848409e-05,
      "loss": 2.4351,
      "step": 6100
    },
    {
      "epoch": 0.3887878597855396,
      "grad_norm": 405.9890441894531,
      "learning_rate": 1.9416836494748396e-05,
      "loss": 2.8472,
      "step": 6200
    },
    {
      "epoch": 0.39505863171756445,
      "grad_norm": 65.42109680175781,
      "learning_rate": 1.9730365261012702e-05,
      "loss": 2.76,
      "step": 6300
    },
    {
      "epoch": 0.40132940364958924,
      "grad_norm": 1.5880606174468994,
      "learning_rate": 1.999512271595046e-05,
      "loss": 2.1947,
      "step": 6400
    },
    {
      "epoch": 0.4076001755816141,
      "grad_norm": 147.59877014160156,
      "learning_rate": 1.9960284972739466e-05,
      "loss": 2.6409,
      "step": 6500
    },
    {
      "epoch": 0.4076001755816141,
      "eval_loss": 2.536679267883301,
      "eval_runtime": 247.9993,
      "eval_samples_per_second": 514.405,
      "eval_steps_per_second": 16.077,
      "step": 6500
    },
    {
      "epoch": 0.41387094751363895,
      "grad_norm": 147.17579650878906,
      "learning_rate": 1.9925447229528472e-05,
      "loss": 2.7262,
      "step": 6600
    },
    {
      "epoch": 0.42014171944566375,
      "grad_norm": 42.11772155761719,
      "learning_rate": 1.989060948631748e-05,
      "loss": 2.7781,
      "step": 6700
    },
    {
      "epoch": 0.4264124913776886,
      "grad_norm": 194.7137451171875,
      "learning_rate": 1.985577174310648e-05,
      "loss": 2.4718,
      "step": 6800
    },
    {
      "epoch": 0.4326832633097134,
      "grad_norm": 63.2336540222168,
      "learning_rate": 1.9820933999895488e-05,
      "loss": 2.567,
      "step": 6900
    },
    {
      "epoch": 0.43895403524173826,
      "grad_norm": 122.4419174194336,
      "learning_rate": 1.9786096256684494e-05,
      "loss": 2.4215,
      "step": 7000
    },
    {
      "epoch": 0.43895403524173826,
      "eval_loss": 2.340890407562256,
      "eval_runtime": 249.0613,
      "eval_samples_per_second": 512.211,
      "eval_steps_per_second": 16.008,
      "step": 7000
    },
    {
      "epoch": 0.4452248071737631,
      "grad_norm": 173.85031127929688,
      "learning_rate": 1.97512585134735e-05,
      "loss": 1.9308,
      "step": 7100
    },
    {
      "epoch": 0.4514955791057879,
      "grad_norm": 200.34971618652344,
      "learning_rate": 1.9716420770262504e-05,
      "loss": 2.1232,
      "step": 7200
    },
    {
      "epoch": 0.45776635103781277,
      "grad_norm": 208.45030212402344,
      "learning_rate": 1.968158302705151e-05,
      "loss": 2.421,
      "step": 7300
    },
    {
      "epoch": 0.46403712296983757,
      "grad_norm": 148.36253356933594,
      "learning_rate": 1.9646745283840513e-05,
      "loss": 2.3232,
      "step": 7400
    },
    {
      "epoch": 0.4703078949018624,
      "grad_norm": 24.392248153686523,
      "learning_rate": 1.961190754062952e-05,
      "loss": 2.8543,
      "step": 7500
    },
    {
      "epoch": 0.4703078949018624,
      "eval_loss": 2.3705639839172363,
      "eval_runtime": 247.4495,
      "eval_samples_per_second": 515.548,
      "eval_steps_per_second": 16.112,
      "step": 7500
    },
    {
      "epoch": 0.4765786668338873,
      "grad_norm": 217.60328674316406,
      "learning_rate": 1.9577069797418526e-05,
      "loss": 2.4276,
      "step": 7600
    },
    {
      "epoch": 0.4828494387659121,
      "grad_norm": 91.55315399169922,
      "learning_rate": 1.9542232054207532e-05,
      "loss": 2.4507,
      "step": 7700
    },
    {
      "epoch": 0.48912021069793693,
      "grad_norm": 246.22488403320312,
      "learning_rate": 1.9507394310996535e-05,
      "loss": 2.1963,
      "step": 7800
    },
    {
      "epoch": 0.49539098262996173,
      "grad_norm": 76.7205810546875,
      "learning_rate": 1.947255656778554e-05,
      "loss": 2.4247,
      "step": 7900
    },
    {
      "epoch": 0.5016617545619866,
      "grad_norm": 0.794611394405365,
      "learning_rate": 1.9437718824574544e-05,
      "loss": 2.1948,
      "step": 8000
    },
    {
      "epoch": 0.5016617545619866,
      "eval_loss": 2.5728752613067627,
      "eval_runtime": 248.1179,
      "eval_samples_per_second": 514.159,
      "eval_steps_per_second": 16.069,
      "step": 8000
    },
    {
      "epoch": 0.5079325264940114,
      "grad_norm": 75.7978744506836,
      "learning_rate": 1.940288108136355e-05,
      "loss": 2.4069,
      "step": 8100
    },
    {
      "epoch": 0.5142032984260363,
      "grad_norm": 81.46521759033203,
      "learning_rate": 1.9368043338152557e-05,
      "loss": 2.4328,
      "step": 8200
    },
    {
      "epoch": 0.520474070358061,
      "grad_norm": 153.08226013183594,
      "learning_rate": 1.9333205594941563e-05,
      "loss": 2.2198,
      "step": 8300
    },
    {
      "epoch": 0.5267448422900859,
      "grad_norm": 1.353060245513916,
      "learning_rate": 1.9298367851730566e-05,
      "loss": 2.1746,
      "step": 8400
    },
    {
      "epoch": 0.5330156142221107,
      "grad_norm": 298.2365417480469,
      "learning_rate": 1.9263878485951682e-05,
      "loss": 2.2618,
      "step": 8500
    },
    {
      "epoch": 0.5330156142221107,
      "eval_loss": 2.345949411392212,
      "eval_runtime": 249.317,
      "eval_samples_per_second": 511.686,
      "eval_steps_per_second": 15.992,
      "step": 8500
    },
    {
      "epoch": 0.5392863861541356,
      "grad_norm": 409.5244140625,
      "learning_rate": 1.922904074274069e-05,
      "loss": 2.3909,
      "step": 8600
    },
    {
      "epoch": 0.5455571580861605,
      "grad_norm": 0.6597223877906799,
      "learning_rate": 1.919420299952969e-05,
      "loss": 2.035,
      "step": 8700
    },
    {
      "epoch": 0.5518279300181852,
      "grad_norm": 365.05914306640625,
      "learning_rate": 1.9159365256318698e-05,
      "loss": 2.2626,
      "step": 8800
    },
    {
      "epoch": 0.55809870195021,
      "grad_norm": 103.37579345703125,
      "learning_rate": 1.91245275131077e-05,
      "loss": 2.1541,
      "step": 8900
    },
    {
      "epoch": 0.5643694738822349,
      "grad_norm": 4.599234104156494,
      "learning_rate": 1.9089689769896707e-05,
      "loss": 1.9424,
      "step": 9000
    },
    {
      "epoch": 0.5643694738822349,
      "eval_loss": 2.1624536514282227,
      "eval_runtime": 248.0391,
      "eval_samples_per_second": 514.322,
      "eval_steps_per_second": 16.074,
      "step": 9000
    },
    {
      "epoch": 0.5706402458142598,
      "grad_norm": 0.6885708570480347,
      "learning_rate": 1.9054852026685714e-05,
      "loss": 2.5152,
      "step": 9100
    },
    {
      "epoch": 0.5769110177462846,
      "grad_norm": 103.164794921875,
      "learning_rate": 1.9020014283474716e-05,
      "loss": 2.0462,
      "step": 9200
    },
    {
      "epoch": 0.5831817896783094,
      "grad_norm": 0.7507800459861755,
      "learning_rate": 1.8985176540263723e-05,
      "loss": 1.6124,
      "step": 9300
    },
    {
      "epoch": 0.5894525616103342,
      "grad_norm": 38.5381965637207,
      "learning_rate": 1.895033879705273e-05,
      "loss": 2.2236,
      "step": 9400
    },
    {
      "epoch": 0.5957233335423591,
      "grad_norm": 374.18011474609375,
      "learning_rate": 1.8915501053841735e-05,
      "loss": 2.4706,
      "step": 9500
    },
    {
      "epoch": 0.5957233335423591,
      "eval_loss": 2.0568950176239014,
      "eval_runtime": 250.2023,
      "eval_samples_per_second": 509.875,
      "eval_steps_per_second": 15.935,
      "step": 9500
    },
    {
      "epoch": 0.6019941054743839,
      "grad_norm": 115.00419616699219,
      "learning_rate": 1.888066331063074e-05,
      "loss": 2.4612,
      "step": 9600
    },
    {
      "epoch": 0.6082648774064088,
      "grad_norm": 302.7066955566406,
      "learning_rate": 1.8845825567419745e-05,
      "loss": 2.2784,
      "step": 9700
    },
    {
      "epoch": 0.6145356493384335,
      "grad_norm": 0.18385061621665955,
      "learning_rate": 1.8810987824208748e-05,
      "loss": 1.9335,
      "step": 9800
    },
    {
      "epoch": 0.6208064212704584,
      "grad_norm": 9.742902755737305,
      "learning_rate": 1.8776150080997754e-05,
      "loss": 2.3779,
      "step": 9900
    },
    {
      "epoch": 0.6270771932024832,
      "grad_norm": 12.202372550964355,
      "learning_rate": 1.874131233778676e-05,
      "loss": 1.6778,
      "step": 10000
    },
    {
      "epoch": 0.6270771932024832,
      "eval_loss": 2.112342596054077,
      "eval_runtime": 247.5759,
      "eval_samples_per_second": 515.284,
      "eval_steps_per_second": 16.104,
      "step": 10000
    },
    {
      "epoch": 0.6333479651345081,
      "grad_norm": 47.51719284057617,
      "learning_rate": 1.8706474594575767e-05,
      "loss": 2.4721,
      "step": 10100
    },
    {
      "epoch": 0.6396187370665329,
      "grad_norm": 330.02703857421875,
      "learning_rate": 1.867163685136477e-05,
      "loss": 1.7822,
      "step": 10200
    },
    {
      "epoch": 0.6458895089985577,
      "grad_norm": 110.14346313476562,
      "learning_rate": 1.8636799108153776e-05,
      "loss": 2.077,
      "step": 10300
    },
    {
      "epoch": 0.6521602809305825,
      "grad_norm": 28.561458587646484,
      "learning_rate": 1.860196136494278e-05,
      "loss": 1.9223,
      "step": 10400
    },
    {
      "epoch": 0.6584310528626074,
      "grad_norm": 14.915325164794922,
      "learning_rate": 1.8567123621731785e-05,
      "loss": 2.3513,
      "step": 10500
    },
    {
      "epoch": 0.6584310528626074,
      "eval_loss": 1.8402663469314575,
      "eval_runtime": 246.8028,
      "eval_samples_per_second": 516.899,
      "eval_steps_per_second": 16.155,
      "step": 10500
    },
    {
      "epoch": 0.6647018247946322,
      "grad_norm": 142.3553009033203,
      "learning_rate": 1.853228587852079e-05,
      "loss": 2.1387,
      "step": 10600
    },
    {
      "epoch": 0.6709725967266571,
      "grad_norm": 2.4230360984802246,
      "learning_rate": 1.8497448135309798e-05,
      "loss": 2.1853,
      "step": 10700
    },
    {
      "epoch": 0.6772433686586818,
      "grad_norm": 85.05690002441406,
      "learning_rate": 1.84626103920988e-05,
      "loss": 1.8715,
      "step": 10800
    },
    {
      "epoch": 0.6835141405907067,
      "grad_norm": 88.9746322631836,
      "learning_rate": 1.8427772648887807e-05,
      "loss": 1.8581,
      "step": 10900
    },
    {
      "epoch": 0.6897849125227316,
      "grad_norm": 191.67779541015625,
      "learning_rate": 1.839293490567681e-05,
      "loss": 2.0076,
      "step": 11000
    },
    {
      "epoch": 0.6897849125227316,
      "eval_loss": 2.00632643699646,
      "eval_runtime": 246.7856,
      "eval_samples_per_second": 516.934,
      "eval_steps_per_second": 16.156,
      "step": 11000
    },
    {
      "epoch": 0.6960556844547564,
      "grad_norm": 157.76986694335938,
      "learning_rate": 1.8358097162465817e-05,
      "loss": 2.3144,
      "step": 11100
    },
    {
      "epoch": 0.7023264563867813,
      "grad_norm": 52.53676223754883,
      "learning_rate": 1.8323259419254823e-05,
      "loss": 2.0942,
      "step": 11200
    },
    {
      "epoch": 0.708597228318806,
      "grad_norm": 61.30582046508789,
      "learning_rate": 1.828842167604383e-05,
      "loss": 1.9117,
      "step": 11300
    },
    {
      "epoch": 0.7148680002508309,
      "grad_norm": 146.37437438964844,
      "learning_rate": 1.8253583932832832e-05,
      "loss": 2.2214,
      "step": 11400
    },
    {
      "epoch": 0.7211387721828557,
      "grad_norm": 214.81398010253906,
      "learning_rate": 1.821874618962184e-05,
      "loss": 1.9678,
      "step": 11500
    },
    {
      "epoch": 0.7211387721828557,
      "eval_loss": 1.9028793573379517,
      "eval_runtime": 244.7222,
      "eval_samples_per_second": 521.293,
      "eval_steps_per_second": 16.292,
      "step": 11500
    },
    {
      "epoch": 0.7274095441148806,
      "grad_norm": 5.435591220855713,
      "learning_rate": 1.818390844641084e-05,
      "loss": 1.7459,
      "step": 11600
    },
    {
      "epoch": 0.7336803160469054,
      "grad_norm": 107.97034454345703,
      "learning_rate": 1.8149070703199848e-05,
      "loss": 2.0616,
      "step": 11700
    },
    {
      "epoch": 0.7399510879789302,
      "grad_norm": 63.21007537841797,
      "learning_rate": 1.8114232959988854e-05,
      "loss": 1.6169,
      "step": 11800
    },
    {
      "epoch": 0.746221859910955,
      "grad_norm": 113.56210327148438,
      "learning_rate": 1.8079743594209967e-05,
      "loss": 1.5674,
      "step": 11900
    },
    {
      "epoch": 0.7524926318429799,
      "grad_norm": 107.1183090209961,
      "learning_rate": 1.8044905850998973e-05,
      "loss": 1.4956,
      "step": 12000
    },
    {
      "epoch": 0.7524926318429799,
      "eval_loss": 1.8266816139221191,
      "eval_runtime": 244.3373,
      "eval_samples_per_second": 522.114,
      "eval_steps_per_second": 16.318,
      "step": 12000
    },
    {
      "epoch": 0.7587634037750047,
      "grad_norm": 151.79904174804688,
      "learning_rate": 1.801006810778798e-05,
      "loss": 2.3816,
      "step": 12100
    },
    {
      "epoch": 0.7650341757070296,
      "grad_norm": 323.1309814453125,
      "learning_rate": 1.7975230364576983e-05,
      "loss": 2.2387,
      "step": 12200
    },
    {
      "epoch": 0.7713049476390543,
      "grad_norm": 4.0979743003845215,
      "learning_rate": 1.794039262136599e-05,
      "loss": 1.4625,
      "step": 12300
    },
    {
      "epoch": 0.7775757195710792,
      "grad_norm": 126.16666412353516,
      "learning_rate": 1.7905554878154995e-05,
      "loss": 2.028,
      "step": 12400
    },
    {
      "epoch": 0.783846491503104,
      "grad_norm": 42.80760955810547,
      "learning_rate": 1.7870717134944e-05,
      "loss": 2.151,
      "step": 12500
    },
    {
      "epoch": 0.783846491503104,
      "eval_loss": 1.7581337690353394,
      "eval_runtime": 244.6209,
      "eval_samples_per_second": 521.509,
      "eval_steps_per_second": 16.299,
      "step": 12500
    },
    {
      "epoch": 0.7901172634351289,
      "grad_norm": 0.3076690435409546,
      "learning_rate": 1.7835879391733005e-05,
      "loss": 1.6896,
      "step": 12600
    },
    {
      "epoch": 0.7963880353671537,
      "grad_norm": 1.4938758611679077,
      "learning_rate": 1.780104164852201e-05,
      "loss": 1.8526,
      "step": 12700
    },
    {
      "epoch": 0.8026588072991785,
      "grad_norm": 208.20004272460938,
      "learning_rate": 1.7766203905311014e-05,
      "loss": 1.9745,
      "step": 12800
    },
    {
      "epoch": 0.8089295792312033,
      "grad_norm": 14.515748023986816,
      "learning_rate": 1.773136616210002e-05,
      "loss": 2.1042,
      "step": 12900
    },
    {
      "epoch": 0.8152003511632282,
      "grad_norm": 170.497314453125,
      "learning_rate": 1.7696528418889027e-05,
      "loss": 1.83,
      "step": 13000
    },
    {
      "epoch": 0.8152003511632282,
      "eval_loss": 1.5666632652282715,
      "eval_runtime": 244.9634,
      "eval_samples_per_second": 520.78,
      "eval_steps_per_second": 16.276,
      "step": 13000
    },
    {
      "epoch": 0.821471123095253,
      "grad_norm": 37.14794158935547,
      "learning_rate": 1.7661690675678033e-05,
      "loss": 1.7451,
      "step": 13100
    },
    {
      "epoch": 0.8277418950272779,
      "grad_norm": 97.6008529663086,
      "learning_rate": 1.7626852932467036e-05,
      "loss": 1.568,
      "step": 13200
    },
    {
      "epoch": 0.8340126669593027,
      "grad_norm": 1.4752888679504395,
      "learning_rate": 1.7592015189256042e-05,
      "loss": 1.4432,
      "step": 13300
    },
    {
      "epoch": 0.8402834388913275,
      "grad_norm": 100.85454559326172,
      "learning_rate": 1.7557177446045045e-05,
      "loss": 1.9172,
      "step": 13400
    },
    {
      "epoch": 0.8465542108233524,
      "grad_norm": 169.63970947265625,
      "learning_rate": 1.752233970283405e-05,
      "loss": 1.9438,
      "step": 13500
    },
    {
      "epoch": 0.8465542108233524,
      "eval_loss": 1.6055145263671875,
      "eval_runtime": 239.684,
      "eval_samples_per_second": 532.251,
      "eval_steps_per_second": 16.634,
      "step": 13500
    },
    {
      "epoch": 0.8528249827553772,
      "grad_norm": 145.4659881591797,
      "learning_rate": 1.7487501959623058e-05,
      "loss": 1.6488,
      "step": 13600
    },
    {
      "epoch": 0.8590957546874021,
      "grad_norm": 9.112565994262695,
      "learning_rate": 1.7452664216412064e-05,
      "loss": 1.8166,
      "step": 13700
    },
    {
      "epoch": 0.8653665266194268,
      "grad_norm": 122.40379333496094,
      "learning_rate": 1.7417826473201067e-05,
      "loss": 1.5929,
      "step": 13800
    },
    {
      "epoch": 0.8716372985514517,
      "grad_norm": 1.4977953433990479,
      "learning_rate": 1.7382988729990073e-05,
      "loss": 1.2476,
      "step": 13900
    },
    {
      "epoch": 0.8779080704834765,
      "grad_norm": 264.9580078125,
      "learning_rate": 1.7348150986779076e-05,
      "loss": 1.5236,
      "step": 14000
    },
    {
      "epoch": 0.8779080704834765,
      "eval_loss": 1.8921126127243042,
      "eval_runtime": 242.2787,
      "eval_samples_per_second": 526.551,
      "eval_steps_per_second": 16.456,
      "step": 14000
    },
    {
      "epoch": 0.8841788424155014,
      "grad_norm": 0.0032478359062224627,
      "learning_rate": 1.7313661621000193e-05,
      "loss": 1.6538,
      "step": 14100
    },
    {
      "epoch": 0.8904496143475262,
      "grad_norm": 169.41224670410156,
      "learning_rate": 1.72788238777892e-05,
      "loss": 1.8689,
      "step": 14200
    },
    {
      "epoch": 0.896720386279551,
      "grad_norm": 91.79679107666016,
      "learning_rate": 1.7243986134578202e-05,
      "loss": 1.0831,
      "step": 14300
    },
    {
      "epoch": 0.9029911582115758,
      "grad_norm": 1.378010869026184,
      "learning_rate": 1.7209148391367208e-05,
      "loss": 1.7765,
      "step": 14400
    },
    {
      "epoch": 0.9092619301436007,
      "grad_norm": 86.2571792602539,
      "learning_rate": 1.7174310648156215e-05,
      "loss": 1.3548,
      "step": 14500
    },
    {
      "epoch": 0.9092619301436007,
      "eval_loss": 1.668320894241333,
      "eval_runtime": 242.597,
      "eval_samples_per_second": 525.86,
      "eval_steps_per_second": 16.435,
      "step": 14500
    },
    {
      "epoch": 0.9155327020756255,
      "grad_norm": 42.63466262817383,
      "learning_rate": 1.7139472904945218e-05,
      "loss": 1.7792,
      "step": 14600
    },
    {
      "epoch": 0.9218034740076504,
      "grad_norm": 31.874799728393555,
      "learning_rate": 1.7104635161734224e-05,
      "loss": 1.73,
      "step": 14700
    },
    {
      "epoch": 0.9280742459396751,
      "grad_norm": 288.0302734375,
      "learning_rate": 1.7069797418523227e-05,
      "loss": 1.5979,
      "step": 14800
    },
    {
      "epoch": 0.9343450178717,
      "grad_norm": 76.91877746582031,
      "learning_rate": 1.7034959675312233e-05,
      "loss": 1.3678,
      "step": 14900
    },
    {
      "epoch": 0.9406157898037248,
      "grad_norm": 153.2476348876953,
      "learning_rate": 1.700012193210124e-05,
      "loss": 2.0664,
      "step": 15000
    },
    {
      "epoch": 0.9406157898037248,
      "eval_loss": 1.5160768032073975,
      "eval_runtime": 241.7632,
      "eval_samples_per_second": 527.673,
      "eval_steps_per_second": 16.491,
      "step": 15000
    },
    {
      "epoch": 0.9468865617357497,
      "grad_norm": 204.87367248535156,
      "learning_rate": 1.6965284188890246e-05,
      "loss": 1.4472,
      "step": 15100
    },
    {
      "epoch": 0.9531573336677746,
      "grad_norm": 107.19727325439453,
      "learning_rate": 1.693044644567925e-05,
      "loss": 1.447,
      "step": 15200
    },
    {
      "epoch": 0.9594281055997993,
      "grad_norm": 0.9635588526725769,
      "learning_rate": 1.6895608702468255e-05,
      "loss": 1.7261,
      "step": 15300
    },
    {
      "epoch": 0.9656988775318242,
      "grad_norm": 21.72879981994629,
      "learning_rate": 1.686077095925726e-05,
      "loss": 1.4881,
      "step": 15400
    },
    {
      "epoch": 0.971969649463849,
      "grad_norm": 3.110539197921753,
      "learning_rate": 1.6825933216046268e-05,
      "loss": 1.313,
      "step": 15500
    },
    {
      "epoch": 0.971969649463849,
      "eval_loss": 1.6226599216461182,
      "eval_runtime": 241.336,
      "eval_samples_per_second": 528.607,
      "eval_steps_per_second": 16.521,
      "step": 15500
    },
    {
      "epoch": 0.9782404213958739,
      "grad_norm": 4.804477691650391,
      "learning_rate": 1.679109547283527e-05,
      "loss": 1.4587,
      "step": 15600
    },
    {
      "epoch": 0.9845111933278987,
      "grad_norm": 159.54579162597656,
      "learning_rate": 1.6756257729624277e-05,
      "loss": 2.0982,
      "step": 15700
    },
    {
      "epoch": 0.9907819652599235,
      "grad_norm": 0.04496179521083832,
      "learning_rate": 1.672141998641328e-05,
      "loss": 1.4854,
      "step": 15800
    },
    {
      "epoch": 0.9970527371919483,
      "grad_norm": 178.064453125,
      "learning_rate": 1.6686582243202286e-05,
      "loss": 1.343,
      "step": 15900
    },
    {
      "epoch": 1.0033235091239732,
      "grad_norm": 60.21414566040039,
      "learning_rate": 1.6651744499991293e-05,
      "loss": 1.1795,
      "step": 16000
    },
    {
      "epoch": 1.0033235091239732,
      "eval_loss": 1.5639160871505737,
      "eval_runtime": 239.9545,
      "eval_samples_per_second": 531.651,
      "eval_steps_per_second": 16.616,
      "step": 16000
    },
    {
      "epoch": 1.009594281055998,
      "grad_norm": 28.01744842529297,
      "learning_rate": 1.66169067567803e-05,
      "loss": 1.4001,
      "step": 16100
    },
    {
      "epoch": 1.0158650529880229,
      "grad_norm": 0.9447069764137268,
      "learning_rate": 1.6582069013569302e-05,
      "loss": 1.3867,
      "step": 16200
    },
    {
      "epoch": 1.0221358249200476,
      "grad_norm": 271.91583251953125,
      "learning_rate": 1.654723127035831e-05,
      "loss": 1.5191,
      "step": 16300
    },
    {
      "epoch": 1.0284065968520726,
      "grad_norm": 50.53108596801758,
      "learning_rate": 1.651239352714731e-05,
      "loss": 1.4693,
      "step": 16400
    },
    {
      "epoch": 1.0346773687840973,
      "grad_norm": 37.87648010253906,
      "learning_rate": 1.6477555783936318e-05,
      "loss": 1.628,
      "step": 16500
    },
    {
      "epoch": 1.0346773687840973,
      "eval_loss": 1.4715627431869507,
      "eval_runtime": 243.7121,
      "eval_samples_per_second": 523.454,
      "eval_steps_per_second": 16.359,
      "step": 16500
    },
    {
      "epoch": 1.040948140716122,
      "grad_norm": 0.5571967363357544,
      "learning_rate": 1.6442718040725324e-05,
      "loss": 1.0041,
      "step": 16600
    },
    {
      "epoch": 1.047218912648147,
      "grad_norm": 410.87158203125,
      "learning_rate": 1.6408228674946437e-05,
      "loss": 1.7728,
      "step": 16700
    },
    {
      "epoch": 1.0534896845801718,
      "grad_norm": 0.04839416220784187,
      "learning_rate": 1.6373390931735443e-05,
      "loss": 1.5586,
      "step": 16800
    },
    {
      "epoch": 1.0597604565121967,
      "grad_norm": 15.377680778503418,
      "learning_rate": 1.633855318852445e-05,
      "loss": 1.7229,
      "step": 16900
    },
    {
      "epoch": 1.0660312284442215,
      "grad_norm": 156.4866943359375,
      "learning_rate": 1.6304063822745562e-05,
      "loss": 1.5556,
      "step": 17000
    },
    {
      "epoch": 1.0660312284442215,
      "eval_loss": 1.467575192451477,
      "eval_runtime": 244.9859,
      "eval_samples_per_second": 520.732,
      "eval_steps_per_second": 16.274,
      "step": 17000
    },
    {
      "epoch": 1.0723020003762462,
      "grad_norm": 0.4987052083015442,
      "learning_rate": 1.626922607953457e-05,
      "loss": 1.2529,
      "step": 17100
    },
    {
      "epoch": 1.0785727723082712,
      "grad_norm": 0.12283490598201752,
      "learning_rate": 1.6234388336323575e-05,
      "loss": 1.4787,
      "step": 17200
    },
    {
      "epoch": 1.084843544240296,
      "grad_norm": 0.2928747534751892,
      "learning_rate": 1.6199550593112578e-05,
      "loss": 1.1947,
      "step": 17300
    },
    {
      "epoch": 1.091114316172321,
      "grad_norm": 0.06402698904275894,
      "learning_rate": 1.6164712849901584e-05,
      "loss": 1.3014,
      "step": 17400
    },
    {
      "epoch": 1.0973850881043457,
      "grad_norm": 38.54865646362305,
      "learning_rate": 1.612987510669059e-05,
      "loss": 1.3743,
      "step": 17500
    },
    {
      "epoch": 1.0973850881043457,
      "eval_loss": 1.4624249935150146,
      "eval_runtime": 242.5321,
      "eval_samples_per_second": 526.0,
      "eval_steps_per_second": 16.439,
      "step": 17500
    },
    {
      "epoch": 1.1036558600363704,
      "grad_norm": 4.770035266876221,
      "learning_rate": 1.6095037363479597e-05,
      "loss": 1.3397,
      "step": 17600
    },
    {
      "epoch": 1.1099266319683954,
      "grad_norm": 73.70013427734375,
      "learning_rate": 1.60601996202686e-05,
      "loss": 1.3062,
      "step": 17700
    },
    {
      "epoch": 1.11619740390042,
      "grad_norm": 0.7905834317207336,
      "learning_rate": 1.6025361877057606e-05,
      "loss": 1.3288,
      "step": 17800
    },
    {
      "epoch": 1.122468175832445,
      "grad_norm": 85.46574401855469,
      "learning_rate": 1.599052413384661e-05,
      "loss": 2.0002,
      "step": 17900
    },
    {
      "epoch": 1.1287389477644698,
      "grad_norm": 101.38238525390625,
      "learning_rate": 1.5955686390635616e-05,
      "loss": 2.0294,
      "step": 18000
    },
    {
      "epoch": 1.1287389477644698,
      "eval_loss": 1.4184610843658447,
      "eval_runtime": 243.202,
      "eval_samples_per_second": 524.552,
      "eval_steps_per_second": 16.394,
      "step": 18000
    },
    {
      "epoch": 1.1350097196964946,
      "grad_norm": 177.34451293945312,
      "learning_rate": 1.5920848647424622e-05,
      "loss": 1.5053,
      "step": 18100
    },
    {
      "epoch": 1.1412804916285195,
      "grad_norm": 0.12398409098386765,
      "learning_rate": 1.5886010904213628e-05,
      "loss": 1.3657,
      "step": 18200
    },
    {
      "epoch": 1.1475512635605443,
      "grad_norm": 1.1212390661239624,
      "learning_rate": 1.585117316100263e-05,
      "loss": 1.3877,
      "step": 18300
    },
    {
      "epoch": 1.1538220354925692,
      "grad_norm": 132.34060668945312,
      "learning_rate": 1.5816335417791638e-05,
      "loss": 1.9034,
      "step": 18400
    },
    {
      "epoch": 1.160092807424594,
      "grad_norm": 8.030499458312988,
      "learning_rate": 1.578149767458064e-05,
      "loss": 1.4001,
      "step": 18500
    },
    {
      "epoch": 1.160092807424594,
      "eval_loss": 1.3812620639801025,
      "eval_runtime": 242.7932,
      "eval_samples_per_second": 525.435,
      "eval_steps_per_second": 16.421,
      "step": 18500
    },
    {
      "epoch": 1.1663635793566187,
      "grad_norm": 100.8308334350586,
      "learning_rate": 1.5746659931369647e-05,
      "loss": 1.7503,
      "step": 18600
    },
    {
      "epoch": 1.1726343512886437,
      "grad_norm": 57.332176208496094,
      "learning_rate": 1.5711822188158653e-05,
      "loss": 1.1482,
      "step": 18700
    },
    {
      "epoch": 1.1789051232206684,
      "grad_norm": 0.38618066906929016,
      "learning_rate": 1.567698444494766e-05,
      "loss": 1.0958,
      "step": 18800
    },
    {
      "epoch": 1.1851758951526934,
      "grad_norm": 29.31690216064453,
      "learning_rate": 1.5642146701736662e-05,
      "loss": 1.2657,
      "step": 18900
    },
    {
      "epoch": 1.1914466670847181,
      "grad_norm": 98.16004180908203,
      "learning_rate": 1.560730895852567e-05,
      "loss": 1.3721,
      "step": 19000
    },
    {
      "epoch": 1.1914466670847181,
      "eval_loss": 1.4701639413833618,
      "eval_runtime": 242.7602,
      "eval_samples_per_second": 525.506,
      "eval_steps_per_second": 16.424,
      "step": 19000
    },
    {
      "epoch": 1.1977174390167429,
      "grad_norm": 18.174930572509766,
      "learning_rate": 1.5572471215314672e-05,
      "loss": 1.2361,
      "step": 19100
    },
    {
      "epoch": 1.2039882109487678,
      "grad_norm": 18.77554702758789,
      "learning_rate": 1.5537633472103678e-05,
      "loss": 1.003,
      "step": 19200
    },
    {
      "epoch": 1.2102589828807926,
      "grad_norm": 105.063720703125,
      "learning_rate": 1.5502795728892684e-05,
      "loss": 1.3677,
      "step": 19300
    },
    {
      "epoch": 1.2165297548128176,
      "grad_norm": 65.42724609375,
      "learning_rate": 1.546795798568169e-05,
      "loss": 1.668,
      "step": 19400
    },
    {
      "epoch": 1.2228005267448423,
      "grad_norm": 57.190792083740234,
      "learning_rate": 1.5433120242470694e-05,
      "loss": 1.2026,
      "step": 19500
    },
    {
      "epoch": 1.2228005267448423,
      "eval_loss": 1.3641443252563477,
      "eval_runtime": 244.6626,
      "eval_samples_per_second": 521.42,
      "eval_steps_per_second": 16.296,
      "step": 19500
    },
    {
      "epoch": 1.229071298676867,
      "grad_norm": 291.0449523925781,
      "learning_rate": 1.53982824992597e-05,
      "loss": 1.1754,
      "step": 19600
    },
    {
      "epoch": 1.235342070608892,
      "grad_norm": 0.6484419703483582,
      "learning_rate": 1.5363444756048703e-05,
      "loss": 1.3196,
      "step": 19700
    },
    {
      "epoch": 1.2416128425409168,
      "grad_norm": 10.18918514251709,
      "learning_rate": 1.532860701283771e-05,
      "loss": 1.4766,
      "step": 19800
    },
    {
      "epoch": 1.2478836144729417,
      "grad_norm": 0.408495157957077,
      "learning_rate": 1.5293769269626716e-05,
      "loss": 1.389,
      "step": 19900
    },
    {
      "epoch": 1.2541543864049665,
      "grad_norm": 1.5292593240737915,
      "learning_rate": 1.525893152641572e-05,
      "loss": 1.6974,
      "step": 20000
    },
    {
      "epoch": 1.2541543864049665,
      "eval_loss": 1.3344130516052246,
      "eval_runtime": 243.5732,
      "eval_samples_per_second": 523.752,
      "eval_steps_per_second": 16.369,
      "step": 20000
    },
    {
      "epoch": 1.2604251583369912,
      "grad_norm": 0.13364413380622864,
      "learning_rate": 1.5224093783204725e-05,
      "loss": 1.5036,
      "step": 20100
    },
    {
      "epoch": 1.2666959302690162,
      "grad_norm": 68.8973617553711,
      "learning_rate": 1.518925603999373e-05,
      "loss": 1.1728,
      "step": 20200
    },
    {
      "epoch": 1.272966702201041,
      "grad_norm": 2.0211031436920166,
      "learning_rate": 1.5154418296782736e-05,
      "loss": 1.6058,
      "step": 20300
    },
    {
      "epoch": 1.2792374741330659,
      "grad_norm": 16.78483009338379,
      "learning_rate": 1.511958055357174e-05,
      "loss": 1.5191,
      "step": 20400
    },
    {
      "epoch": 1.2855082460650906,
      "grad_norm": 36.06229019165039,
      "learning_rate": 1.5084742810360747e-05,
      "loss": 1.4516,
      "step": 20500
    },
    {
      "epoch": 1.2855082460650906,
      "eval_loss": 1.320965051651001,
      "eval_runtime": 237.9506,
      "eval_samples_per_second": 536.128,
      "eval_steps_per_second": 16.756,
      "step": 20500
    },
    {
      "epoch": 1.2917790179971154,
      "grad_norm": 0.42136240005493164,
      "learning_rate": 1.504990506714975e-05,
      "loss": 1.3485,
      "step": 20600
    },
    {
      "epoch": 1.2980497899291403,
      "grad_norm": 69.18399810791016,
      "learning_rate": 1.5015067323938756e-05,
      "loss": 1.2598,
      "step": 20700
    },
    {
      "epoch": 1.304320561861165,
      "grad_norm": 0.9956406354904175,
      "learning_rate": 1.4980229580727761e-05,
      "loss": 1.5871,
      "step": 20800
    },
    {
      "epoch": 1.31059133379319,
      "grad_norm": 296.9071044921875,
      "learning_rate": 1.4945391837516767e-05,
      "loss": 1.1965,
      "step": 20900
    },
    {
      "epoch": 1.3168621057252148,
      "grad_norm": 135.63108825683594,
      "learning_rate": 1.4910554094305772e-05,
      "loss": 1.3983,
      "step": 21000
    },
    {
      "epoch": 1.3168621057252148,
      "eval_loss": 1.2516661882400513,
      "eval_runtime": 243.3539,
      "eval_samples_per_second": 524.224,
      "eval_steps_per_second": 16.384,
      "step": 21000
    },
    {
      "epoch": 1.3231328776572395,
      "grad_norm": 0.29125073552131653,
      "learning_rate": 1.4875716351094778e-05,
      "loss": 1.2605,
      "step": 21100
    },
    {
      "epoch": 1.3294036495892645,
      "grad_norm": 120.13431549072266,
      "learning_rate": 1.4840878607883781e-05,
      "loss": 1.5629,
      "step": 21200
    },
    {
      "epoch": 1.3356744215212892,
      "grad_norm": 0.6574529409408569,
      "learning_rate": 1.4806040864672787e-05,
      "loss": 1.0668,
      "step": 21300
    },
    {
      "epoch": 1.3419451934533142,
      "grad_norm": 0.08501740545034409,
      "learning_rate": 1.4771203121461792e-05,
      "loss": 1.1879,
      "step": 21400
    },
    {
      "epoch": 1.348215965385339,
      "grad_norm": 0.06920505315065384,
      "learning_rate": 1.4736365378250798e-05,
      "loss": 1.132,
      "step": 21500
    },
    {
      "epoch": 1.348215965385339,
      "eval_loss": 1.3881497383117676,
      "eval_runtime": 239.3274,
      "eval_samples_per_second": 533.044,
      "eval_steps_per_second": 16.659,
      "step": 21500
    },
    {
      "epoch": 1.3544867373173637,
      "grad_norm": 119.1258773803711,
      "learning_rate": 1.4701876012471915e-05,
      "loss": 1.7231,
      "step": 21600
    },
    {
      "epoch": 1.3607575092493887,
      "grad_norm": 219.5289764404297,
      "learning_rate": 1.4667038269260918e-05,
      "loss": 1.7636,
      "step": 21700
    },
    {
      "epoch": 1.3670282811814134,
      "grad_norm": 27.880413055419922,
      "learning_rate": 1.4632548903482034e-05,
      "loss": 1.1193,
      "step": 21800
    },
    {
      "epoch": 1.3732990531134384,
      "grad_norm": 5.331712245941162,
      "learning_rate": 1.459771116027104e-05,
      "loss": 1.4662,
      "step": 21900
    },
    {
      "epoch": 1.379569825045463,
      "grad_norm": 53.37089538574219,
      "learning_rate": 1.4562873417060043e-05,
      "loss": 2.0394,
      "step": 22000
    },
    {
      "epoch": 1.379569825045463,
      "eval_loss": 1.1926569938659668,
      "eval_runtime": 241.0069,
      "eval_samples_per_second": 529.329,
      "eval_steps_per_second": 16.543,
      "step": 22000
    },
    {
      "epoch": 1.3858405969774878,
      "grad_norm": 22.226316452026367,
      "learning_rate": 1.452803567384905e-05,
      "loss": 1.1535,
      "step": 22100
    },
    {
      "epoch": 1.3921113689095128,
      "grad_norm": 2.272599458694458,
      "learning_rate": 1.4493197930638054e-05,
      "loss": 1.4592,
      "step": 22200
    },
    {
      "epoch": 1.3983821408415376,
      "grad_norm": 25.961870193481445,
      "learning_rate": 1.445836018742706e-05,
      "loss": 1.276,
      "step": 22300
    },
    {
      "epoch": 1.4046529127735625,
      "grad_norm": 73.93904113769531,
      "learning_rate": 1.4423522444216065e-05,
      "loss": 1.2984,
      "step": 22400
    },
    {
      "epoch": 1.4109236847055873,
      "grad_norm": 122.38665771484375,
      "learning_rate": 1.438868470100507e-05,
      "loss": 0.9741,
      "step": 22500
    },
    {
      "epoch": 1.4109236847055873,
      "eval_loss": 1.2707290649414062,
      "eval_runtime": 241.8021,
      "eval_samples_per_second": 527.588,
      "eval_steps_per_second": 16.489,
      "step": 22500
    },
    {
      "epoch": 1.417194456637612,
      "grad_norm": 402.4999084472656,
      "learning_rate": 1.4353846957794076e-05,
      "loss": 1.4253,
      "step": 22600
    },
    {
      "epoch": 1.423465228569637,
      "grad_norm": 0.6434441208839417,
      "learning_rate": 1.4319009214583079e-05,
      "loss": 1.0769,
      "step": 22700
    },
    {
      "epoch": 1.4297360005016617,
      "grad_norm": 43.16348648071289,
      "learning_rate": 1.4284171471372085e-05,
      "loss": 0.8276,
      "step": 22800
    },
    {
      "epoch": 1.4360067724336867,
      "grad_norm": 91.6303482055664,
      "learning_rate": 1.424933372816109e-05,
      "loss": 1.2689,
      "step": 22900
    },
    {
      "epoch": 1.4422775443657114,
      "grad_norm": 123.81659698486328,
      "learning_rate": 1.4214495984950096e-05,
      "loss": 1.4817,
      "step": 23000
    },
    {
      "epoch": 1.4422775443657114,
      "eval_loss": 1.2094941139221191,
      "eval_runtime": 235.8497,
      "eval_samples_per_second": 540.904,
      "eval_steps_per_second": 16.905,
      "step": 23000
    },
    {
      "epoch": 1.4485483162977362,
      "grad_norm": 33.1621208190918,
      "learning_rate": 1.4179658241739101e-05,
      "loss": 1.1522,
      "step": 23100
    },
    {
      "epoch": 1.4548190882297611,
      "grad_norm": 0.6552605628967285,
      "learning_rate": 1.4144820498528107e-05,
      "loss": 0.8978,
      "step": 23200
    },
    {
      "epoch": 1.4610898601617859,
      "grad_norm": 1.6054786443710327,
      "learning_rate": 1.410998275531711e-05,
      "loss": 1.015,
      "step": 23300
    },
    {
      "epoch": 1.4673606320938108,
      "grad_norm": 30.116901397705078,
      "learning_rate": 1.4075145012106117e-05,
      "loss": 1.0351,
      "step": 23400
    },
    {
      "epoch": 1.4736314040258356,
      "grad_norm": 74.74423217773438,
      "learning_rate": 1.4040307268895121e-05,
      "loss": 1.3959,
      "step": 23500
    },
    {
      "epoch": 1.4736314040258356,
      "eval_loss": 1.1969189643859863,
      "eval_runtime": 238.5287,
      "eval_samples_per_second": 534.829,
      "eval_steps_per_second": 16.715,
      "step": 23500
    },
    {
      "epoch": 1.4799021759578603,
      "grad_norm": 4.446337699890137,
      "learning_rate": 1.4005469525684128e-05,
      "loss": 1.2879,
      "step": 23600
    },
    {
      "epoch": 1.4861729478898853,
      "grad_norm": 132.61671447753906,
      "learning_rate": 1.3970631782473132e-05,
      "loss": 1.0651,
      "step": 23700
    },
    {
      "epoch": 1.49244371982191,
      "grad_norm": 64.33197784423828,
      "learning_rate": 1.3935794039262139e-05,
      "loss": 1.1601,
      "step": 23800
    },
    {
      "epoch": 1.498714491753935,
      "grad_norm": 0.5995836853981018,
      "learning_rate": 1.3900956296051142e-05,
      "loss": 1.0034,
      "step": 23900
    },
    {
      "epoch": 1.5049852636859598,
      "grad_norm": 0.1931271255016327,
      "learning_rate": 1.3866118552840148e-05,
      "loss": 1.3386,
      "step": 24000
    },
    {
      "epoch": 1.5049852636859598,
      "eval_loss": 1.1590368747711182,
      "eval_runtime": 241.3271,
      "eval_samples_per_second": 528.627,
      "eval_steps_per_second": 16.521,
      "step": 24000
    },
    {
      "epoch": 1.5112560356179845,
      "grad_norm": 38.5876579284668,
      "learning_rate": 1.3831280809629153e-05,
      "loss": 1.142,
      "step": 24100
    },
    {
      "epoch": 1.5175268075500095,
      "grad_norm": 8.049750328063965,
      "learning_rate": 1.3796443066418159e-05,
      "loss": 1.3495,
      "step": 24200
    },
    {
      "epoch": 1.5237975794820342,
      "grad_norm": 32.30927658081055,
      "learning_rate": 1.3761605323207164e-05,
      "loss": 0.9993,
      "step": 24300
    },
    {
      "epoch": 1.5300683514140592,
      "grad_norm": 0.47087952494621277,
      "learning_rate": 1.372676757999617e-05,
      "loss": 0.9363,
      "step": 24400
    },
    {
      "epoch": 1.536339123346084,
      "grad_norm": 160.12139892578125,
      "learning_rate": 1.3691929836785175e-05,
      "loss": 1.4402,
      "step": 24500
    },
    {
      "epoch": 1.536339123346084,
      "eval_loss": 1.2178274393081665,
      "eval_runtime": 241.2634,
      "eval_samples_per_second": 528.767,
      "eval_steps_per_second": 16.526,
      "step": 24500
    },
    {
      "epoch": 1.5426098952781087,
      "grad_norm": 43.729827880859375,
      "learning_rate": 1.3657092093574181e-05,
      "loss": 1.0648,
      "step": 24600
    },
    {
      "epoch": 1.5488806672101336,
      "grad_norm": 16.396068572998047,
      "learning_rate": 1.3622254350363184e-05,
      "loss": 1.5102,
      "step": 24700
    },
    {
      "epoch": 1.5551514391421584,
      "grad_norm": 280.9241027832031,
      "learning_rate": 1.358741660715219e-05,
      "loss": 1.3415,
      "step": 24800
    },
    {
      "epoch": 1.5614222110741833,
      "grad_norm": 0.3944130539894104,
      "learning_rate": 1.3552578863941195e-05,
      "loss": 0.7441,
      "step": 24900
    },
    {
      "epoch": 1.567692983006208,
      "grad_norm": 242.84613037109375,
      "learning_rate": 1.3517741120730201e-05,
      "loss": 0.901,
      "step": 25000
    },
    {
      "epoch": 1.567692983006208,
      "eval_loss": 1.1982382535934448,
      "eval_runtime": 241.5382,
      "eval_samples_per_second": 528.165,
      "eval_steps_per_second": 16.507,
      "step": 25000
    },
    {
      "epoch": 1.5739637549382328,
      "grad_norm": 61.62953567504883,
      "learning_rate": 1.3482903377519206e-05,
      "loss": 1.3147,
      "step": 25100
    },
    {
      "epoch": 1.5802345268702578,
      "grad_norm": 2.465519905090332,
      "learning_rate": 1.3448065634308212e-05,
      "loss": 0.971,
      "step": 25200
    },
    {
      "epoch": 1.5865052988022825,
      "grad_norm": 184.7733612060547,
      "learning_rate": 1.3413227891097215e-05,
      "loss": 0.9988,
      "step": 25300
    },
    {
      "epoch": 1.5927760707343075,
      "grad_norm": 221.9571533203125,
      "learning_rate": 1.337839014788622e-05,
      "loss": 1.1445,
      "step": 25400
    },
    {
      "epoch": 1.5990468426663322,
      "grad_norm": 14.548208236694336,
      "learning_rate": 1.3343552404675226e-05,
      "loss": 1.1018,
      "step": 25500
    },
    {
      "epoch": 1.5990468426663322,
      "eval_loss": 1.142329454421997,
      "eval_runtime": 238.9747,
      "eval_samples_per_second": 533.831,
      "eval_steps_per_second": 16.684,
      "step": 25500
    },
    {
      "epoch": 1.605317614598357,
      "grad_norm": 0.4988707900047302,
      "learning_rate": 1.330871466146423e-05,
      "loss": 1.0902,
      "step": 25600
    },
    {
      "epoch": 1.611588386530382,
      "grad_norm": 213.1658477783203,
      "learning_rate": 1.3273876918253237e-05,
      "loss": 1.2577,
      "step": 25700
    },
    {
      "epoch": 1.6178591584624067,
      "grad_norm": 74.17716217041016,
      "learning_rate": 1.3239039175042242e-05,
      "loss": 1.2005,
      "step": 25800
    },
    {
      "epoch": 1.6241299303944317,
      "grad_norm": 196.46742248535156,
      "learning_rate": 1.3204201431831248e-05,
      "loss": 1.2839,
      "step": 25900
    },
    {
      "epoch": 1.6304007023264564,
      "grad_norm": 264.5187072753906,
      "learning_rate": 1.3169363688620251e-05,
      "loss": 1.4122,
      "step": 26000
    },
    {
      "epoch": 1.6304007023264564,
      "eval_loss": 1.1125129461288452,
      "eval_runtime": 238.2144,
      "eval_samples_per_second": 535.534,
      "eval_steps_per_second": 16.737,
      "step": 26000
    },
    {
      "epoch": 1.6366714742584811,
      "grad_norm": 0.5429248213768005,
      "learning_rate": 1.3134525945409257e-05,
      "loss": 0.7832,
      "step": 26100
    },
    {
      "epoch": 1.642942246190506,
      "grad_norm": 0.07243086397647858,
      "learning_rate": 1.3099688202198262e-05,
      "loss": 1.3278,
      "step": 26200
    },
    {
      "epoch": 1.6492130181225308,
      "grad_norm": 176.74636840820312,
      "learning_rate": 1.3064850458987268e-05,
      "loss": 1.2055,
      "step": 26300
    },
    {
      "epoch": 1.6554837900545558,
      "grad_norm": 1.1564711332321167,
      "learning_rate": 1.3030012715776273e-05,
      "loss": 1.5814,
      "step": 26400
    },
    {
      "epoch": 1.6617545619865806,
      "grad_norm": 0.3095082640647888,
      "learning_rate": 1.299517497256528e-05,
      "loss": 1.0393,
      "step": 26500
    },
    {
      "epoch": 1.6617545619865806,
      "eval_loss": 1.0945708751678467,
      "eval_runtime": 240.297,
      "eval_samples_per_second": 530.893,
      "eval_steps_per_second": 16.592,
      "step": 26500
    },
    {
      "epoch": 1.6680253339186053,
      "grad_norm": 0.8863621354103088,
      "learning_rate": 1.2960337229354282e-05,
      "loss": 1.4531,
      "step": 26600
    },
    {
      "epoch": 1.6742961058506303,
      "grad_norm": 0.15211889147758484,
      "learning_rate": 1.2925499486143289e-05,
      "loss": 1.4162,
      "step": 26700
    },
    {
      "epoch": 1.680566877782655,
      "grad_norm": 0.271015465259552,
      "learning_rate": 1.2890661742932293e-05,
      "loss": 0.8498,
      "step": 26800
    },
    {
      "epoch": 1.68683764971468,
      "grad_norm": 1.462451457977295,
      "learning_rate": 1.285617237715341e-05,
      "loss": 1.1318,
      "step": 26900
    },
    {
      "epoch": 1.6931084216467047,
      "grad_norm": 1.1144922971725464,
      "learning_rate": 1.2821334633942416e-05,
      "loss": 1.3287,
      "step": 27000
    },
    {
      "epoch": 1.6931084216467047,
      "eval_loss": 1.0439221858978271,
      "eval_runtime": 239.1496,
      "eval_samples_per_second": 533.44,
      "eval_steps_per_second": 16.672,
      "step": 27000
    },
    {
      "epoch": 1.6993791935787295,
      "grad_norm": 1.3803671598434448,
      "learning_rate": 1.2786496890731419e-05,
      "loss": 1.0886,
      "step": 27100
    },
    {
      "epoch": 1.7056499655107544,
      "grad_norm": 51.79226303100586,
      "learning_rate": 1.2752007524952535e-05,
      "loss": 0.8991,
      "step": 27200
    },
    {
      "epoch": 1.7119207374427792,
      "grad_norm": 17.195894241333008,
      "learning_rate": 1.2717169781741541e-05,
      "loss": 0.7563,
      "step": 27300
    },
    {
      "epoch": 1.7181915093748041,
      "grad_norm": 0.548939049243927,
      "learning_rate": 1.2682332038530544e-05,
      "loss": 0.9284,
      "step": 27400
    },
    {
      "epoch": 1.7244622813068289,
      "grad_norm": 3.179530620574951,
      "learning_rate": 1.264749429531955e-05,
      "loss": 1.3388,
      "step": 27500
    },
    {
      "epoch": 1.7244622813068289,
      "eval_loss": 1.0940054655075073,
      "eval_runtime": 239.4702,
      "eval_samples_per_second": 532.726,
      "eval_steps_per_second": 16.649,
      "step": 27500
    },
    {
      "epoch": 1.7307330532388536,
      "grad_norm": 0.8089356422424316,
      "learning_rate": 1.2612656552108555e-05,
      "loss": 1.2951,
      "step": 27600
    },
    {
      "epoch": 1.7370038251708786,
      "grad_norm": 698.0848388671875,
      "learning_rate": 1.2577818808897562e-05,
      "loss": 0.9789,
      "step": 27700
    },
    {
      "epoch": 1.7432745971029033,
      "grad_norm": 156.7066192626953,
      "learning_rate": 1.2542981065686566e-05,
      "loss": 1.2898,
      "step": 27800
    },
    {
      "epoch": 1.7495453690349283,
      "grad_norm": 59.603519439697266,
      "learning_rate": 1.2508143322475569e-05,
      "loss": 0.9915,
      "step": 27900
    },
    {
      "epoch": 1.755816140966953,
      "grad_norm": 5.36550760269165,
      "learning_rate": 1.2473305579264575e-05,
      "loss": 1.5349,
      "step": 28000
    },
    {
      "epoch": 1.755816140966953,
      "eval_loss": 1.0266426801681519,
      "eval_runtime": 240.254,
      "eval_samples_per_second": 530.988,
      "eval_steps_per_second": 16.595,
      "step": 28000
    },
    {
      "epoch": 1.7620869128989778,
      "grad_norm": 3.0849006175994873,
      "learning_rate": 1.243846783605358e-05,
      "loss": 1.124,
      "step": 28100
    },
    {
      "epoch": 1.7683576848310028,
      "grad_norm": 2.890775442123413,
      "learning_rate": 1.2403630092842586e-05,
      "loss": 0.809,
      "step": 28200
    },
    {
      "epoch": 1.7746284567630275,
      "grad_norm": 0.6994801163673401,
      "learning_rate": 1.2368792349631591e-05,
      "loss": 0.9617,
      "step": 28300
    },
    {
      "epoch": 1.7808992286950525,
      "grad_norm": 14.703944206237793,
      "learning_rate": 1.2333954606420597e-05,
      "loss": 1.3061,
      "step": 28400
    },
    {
      "epoch": 1.7871700006270772,
      "grad_norm": 188.39633178710938,
      "learning_rate": 1.2299116863209602e-05,
      "loss": 1.1323,
      "step": 28500
    },
    {
      "epoch": 1.7871700006270772,
      "eval_loss": 1.0488332509994507,
      "eval_runtime": 240.6796,
      "eval_samples_per_second": 530.049,
      "eval_steps_per_second": 16.566,
      "step": 28500
    },
    {
      "epoch": 1.793440772559102,
      "grad_norm": 12.853857040405273,
      "learning_rate": 1.2264279119998608e-05,
      "loss": 1.2991,
      "step": 28600
    },
    {
      "epoch": 1.7997115444911267,
      "grad_norm": 17.315292358398438,
      "learning_rate": 1.2229441376787611e-05,
      "loss": 0.8708,
      "step": 28700
    },
    {
      "epoch": 1.8059823164231517,
      "grad_norm": 24.514192581176758,
      "learning_rate": 1.2194603633576618e-05,
      "loss": 0.7493,
      "step": 28800
    },
    {
      "epoch": 1.8122530883551766,
      "grad_norm": 17.776947021484375,
      "learning_rate": 1.2159765890365622e-05,
      "loss": 1.004,
      "step": 28900
    },
    {
      "epoch": 1.8185238602872014,
      "grad_norm": 154.2757110595703,
      "learning_rate": 1.2124928147154629e-05,
      "loss": 1.1477,
      "step": 29000
    },
    {
      "epoch": 1.8185238602872014,
      "eval_loss": 1.0206255912780762,
      "eval_runtime": 238.9764,
      "eval_samples_per_second": 533.827,
      "eval_steps_per_second": 16.684,
      "step": 29000
    },
    {
      "epoch": 1.824794632219226,
      "grad_norm": 174.9512939453125,
      "learning_rate": 1.2090090403943633e-05,
      "loss": 1.1826,
      "step": 29100
    },
    {
      "epoch": 1.8310654041512509,
      "grad_norm": 251.60848999023438,
      "learning_rate": 1.205525266073264e-05,
      "loss": 1.0961,
      "step": 29200
    },
    {
      "epoch": 1.8373361760832758,
      "grad_norm": 15.37478256225586,
      "learning_rate": 1.2020414917521643e-05,
      "loss": 1.4743,
      "step": 29300
    },
    {
      "epoch": 1.8436069480153008,
      "grad_norm": 17.250076293945312,
      "learning_rate": 1.1985577174310649e-05,
      "loss": 0.8413,
      "step": 29400
    },
    {
      "epoch": 1.8498777199473255,
      "grad_norm": 0.08943232893943787,
      "learning_rate": 1.1950739431099654e-05,
      "loss": 1.2623,
      "step": 29500
    },
    {
      "epoch": 1.8498777199473255,
      "eval_loss": 1.004668951034546,
      "eval_runtime": 241.047,
      "eval_samples_per_second": 529.241,
      "eval_steps_per_second": 16.54,
      "step": 29500
    },
    {
      "epoch": 1.8561484918793503,
      "grad_norm": 66.96379089355469,
      "learning_rate": 1.191590168788866e-05,
      "loss": 0.8486,
      "step": 29600
    },
    {
      "epoch": 1.862419263811375,
      "grad_norm": 62.850799560546875,
      "learning_rate": 1.1881063944677665e-05,
      "loss": 1.4481,
      "step": 29700
    },
    {
      "epoch": 1.8686900357434,
      "grad_norm": 1.5179458856582642,
      "learning_rate": 1.1846226201466671e-05,
      "loss": 1.2704,
      "step": 29800
    },
    {
      "epoch": 1.874960807675425,
      "grad_norm": 0.09656574577093124,
      "learning_rate": 1.1811388458255676e-05,
      "loss": 1.1913,
      "step": 29900
    },
    {
      "epoch": 1.8812315796074497,
      "grad_norm": 0.12182077020406723,
      "learning_rate": 1.1776550715044682e-05,
      "loss": 0.9369,
      "step": 30000
    },
    {
      "epoch": 1.8812315796074497,
      "eval_loss": 1.0277103185653687,
      "eval_runtime": 240.7265,
      "eval_samples_per_second": 529.946,
      "eval_steps_per_second": 16.562,
      "step": 30000
    },
    {
      "epoch": 1.8875023515394744,
      "grad_norm": 171.4630126953125,
      "learning_rate": 1.1741712971833685e-05,
      "loss": 1.2427,
      "step": 30100
    },
    {
      "epoch": 1.8937731234714992,
      "grad_norm": 14.272507667541504,
      "learning_rate": 1.1706875228622691e-05,
      "loss": 1.0576,
      "step": 30200
    },
    {
      "epoch": 1.9000438954035241,
      "grad_norm": 8.003202438354492,
      "learning_rate": 1.1672037485411696e-05,
      "loss": 0.9188,
      "step": 30300
    },
    {
      "epoch": 1.906314667335549,
      "grad_norm": 72.2535629272461,
      "learning_rate": 1.1637199742200702e-05,
      "loss": 1.3227,
      "step": 30400
    },
    {
      "epoch": 1.9125854392675739,
      "grad_norm": 60.970176696777344,
      "learning_rate": 1.1602361998989707e-05,
      "loss": 1.4614,
      "step": 30500
    },
    {
      "epoch": 1.9125854392675739,
      "eval_loss": 1.0549676418304443,
      "eval_runtime": 232.0087,
      "eval_samples_per_second": 549.859,
      "eval_steps_per_second": 17.185,
      "step": 30500
    },
    {
      "epoch": 1.9188562111995986,
      "grad_norm": 113.54409790039062,
      "learning_rate": 1.1567524255778713e-05,
      "loss": 1.2316,
      "step": 30600
    },
    {
      "epoch": 1.9251269831316233,
      "grad_norm": 1.6219086647033691,
      "learning_rate": 1.1532686512567716e-05,
      "loss": 0.9487,
      "step": 30700
    },
    {
      "epoch": 1.9313977550636483,
      "grad_norm": 74.66547393798828,
      "learning_rate": 1.1497848769356722e-05,
      "loss": 1.1651,
      "step": 30800
    },
    {
      "epoch": 1.9376685269956733,
      "grad_norm": 0.036245282739400864,
      "learning_rate": 1.1463011026145727e-05,
      "loss": 1.1622,
      "step": 30900
    },
    {
      "epoch": 1.943939298927698,
      "grad_norm": 1.6117188930511475,
      "learning_rate": 1.1428173282934732e-05,
      "loss": 1.1801,
      "step": 31000
    },
    {
      "epoch": 1.943939298927698,
      "eval_loss": 0.9981088042259216,
      "eval_runtime": 241.2373,
      "eval_samples_per_second": 528.824,
      "eval_steps_per_second": 16.527,
      "step": 31000
    },
    {
      "epoch": 1.9502100708597228,
      "grad_norm": 4.923341751098633,
      "learning_rate": 1.1393335539723738e-05,
      "loss": 0.8798,
      "step": 31100
    },
    {
      "epoch": 1.9564808427917475,
      "grad_norm": 214.46116638183594,
      "learning_rate": 1.1358497796512741e-05,
      "loss": 0.7196,
      "step": 31200
    },
    {
      "epoch": 1.9627516147237725,
      "grad_norm": 16.161603927612305,
      "learning_rate": 1.1323660053301749e-05,
      "loss": 1.2003,
      "step": 31300
    },
    {
      "epoch": 1.9690223866557974,
      "grad_norm": 249.83189392089844,
      "learning_rate": 1.1289170687522864e-05,
      "loss": 1.1823,
      "step": 31400
    },
    {
      "epoch": 1.9752931585878222,
      "grad_norm": 18.310449600219727,
      "learning_rate": 1.1254332944311868e-05,
      "loss": 1.1453,
      "step": 31500
    },
    {
      "epoch": 1.9752931585878222,
      "eval_loss": 1.0320409536361694,
      "eval_runtime": 237.3095,
      "eval_samples_per_second": 537.576,
      "eval_steps_per_second": 16.801,
      "step": 31500
    },
    {
      "epoch": 1.981563930519847,
      "grad_norm": 221.7801513671875,
      "learning_rate": 1.1219495201100875e-05,
      "loss": 1.4751,
      "step": 31600
    },
    {
      "epoch": 1.9878347024518717,
      "grad_norm": 20.95890235900879,
      "learning_rate": 1.1184657457889878e-05,
      "loss": 0.8502,
      "step": 31700
    },
    {
      "epoch": 1.9941054743838966,
      "grad_norm": 2.7732744216918945,
      "learning_rate": 1.1149819714678884e-05,
      "loss": 0.8757,
      "step": 31800
    },
    {
      "epoch": 2.0003762463159216,
      "grad_norm": 1.1170719861984253,
      "learning_rate": 1.1114981971467889e-05,
      "loss": 1.0489,
      "step": 31900
    },
    {
      "epoch": 2.0066470182479463,
      "grad_norm": 31.308385848999023,
      "learning_rate": 1.1080144228256895e-05,
      "loss": 1.4672,
      "step": 32000
    },
    {
      "epoch": 2.0066470182479463,
      "eval_loss": 1.0570933818817139,
      "eval_runtime": 236.2248,
      "eval_samples_per_second": 540.045,
      "eval_steps_per_second": 16.878,
      "step": 32000
    },
    {
      "epoch": 2.012917790179971,
      "grad_norm": 0.2743261754512787,
      "learning_rate": 1.10453064850459e-05,
      "loss": 0.9474,
      "step": 32100
    },
    {
      "epoch": 2.019188562111996,
      "grad_norm": 2.2496840953826904,
      "learning_rate": 1.1010468741834906e-05,
      "loss": 0.8037,
      "step": 32200
    },
    {
      "epoch": 2.025459334044021,
      "grad_norm": 32.999935150146484,
      "learning_rate": 1.0975630998623909e-05,
      "loss": 0.9782,
      "step": 32300
    },
    {
      "epoch": 2.0317301059760458,
      "grad_norm": 19.94236183166504,
      "learning_rate": 1.0940793255412915e-05,
      "loss": 0.6943,
      "step": 32400
    },
    {
      "epoch": 2.0380008779080705,
      "grad_norm": 0.7693130373954773,
      "learning_rate": 1.090595551220192e-05,
      "loss": 1.0097,
      "step": 32500
    },
    {
      "epoch": 2.0380008779080705,
      "eval_loss": 0.9797225594520569,
      "eval_runtime": 237.8696,
      "eval_samples_per_second": 536.311,
      "eval_steps_per_second": 16.761,
      "step": 32500
    },
    {
      "epoch": 2.0442716498400952,
      "grad_norm": 156.60507202148438,
      "learning_rate": 1.0871117768990926e-05,
      "loss": 0.9067,
      "step": 32600
    },
    {
      "epoch": 2.05054242177212,
      "grad_norm": 45.05233383178711,
      "learning_rate": 1.083628002577993e-05,
      "loss": 1.09,
      "step": 32700
    },
    {
      "epoch": 2.056813193704145,
      "grad_norm": 0.9790059328079224,
      "learning_rate": 1.0801442282568937e-05,
      "loss": 0.8464,
      "step": 32800
    },
    {
      "epoch": 2.06308396563617,
      "grad_norm": 311.8387145996094,
      "learning_rate": 1.0766604539357942e-05,
      "loss": 0.9359,
      "step": 32900
    },
    {
      "epoch": 2.0693547375681947,
      "grad_norm": 2.4389493465423584,
      "learning_rate": 1.0731766796146948e-05,
      "loss": 0.813,
      "step": 33000
    },
    {
      "epoch": 2.0693547375681947,
      "eval_loss": 0.990721583366394,
      "eval_runtime": 239.867,
      "eval_samples_per_second": 531.845,
      "eval_steps_per_second": 16.622,
      "step": 33000
    },
    {
      "epoch": 2.0756255095002194,
      "grad_norm": 40.27507781982422,
      "learning_rate": 1.0696929052935951e-05,
      "loss": 0.8738,
      "step": 33100
    },
    {
      "epoch": 2.081896281432244,
      "grad_norm": 0.029316190630197525,
      "learning_rate": 1.0662091309724957e-05,
      "loss": 0.8178,
      "step": 33200
    },
    {
      "epoch": 2.0881670533642693,
      "grad_norm": 0.06512907892465591,
      "learning_rate": 1.0627253566513962e-05,
      "loss": 1.1704,
      "step": 33300
    },
    {
      "epoch": 2.094437825296294,
      "grad_norm": 14.495019912719727,
      "learning_rate": 1.0592415823302968e-05,
      "loss": 1.0073,
      "step": 33400
    },
    {
      "epoch": 2.100708597228319,
      "grad_norm": 85.92517852783203,
      "learning_rate": 1.0557578080091973e-05,
      "loss": 1.1849,
      "step": 33500
    },
    {
      "epoch": 2.100708597228319,
      "eval_loss": 0.9582126140594482,
      "eval_runtime": 238.5255,
      "eval_samples_per_second": 534.836,
      "eval_steps_per_second": 16.715,
      "step": 33500
    },
    {
      "epoch": 2.1069793691603436,
      "grad_norm": 0.8284154534339905,
      "learning_rate": 1.0522740336880976e-05,
      "loss": 0.7795,
      "step": 33600
    },
    {
      "epoch": 2.1132501410923683,
      "grad_norm": 3.656404972076416,
      "learning_rate": 1.0487902593669982e-05,
      "loss": 0.7688,
      "step": 33700
    },
    {
      "epoch": 2.1195209130243935,
      "grad_norm": 0.08456479012966156,
      "learning_rate": 1.0453064850458987e-05,
      "loss": 0.9465,
      "step": 33800
    },
    {
      "epoch": 2.1257916849564182,
      "grad_norm": 27.962339401245117,
      "learning_rate": 1.0418227107247993e-05,
      "loss": 1.0883,
      "step": 33900
    },
    {
      "epoch": 2.132062456888443,
      "grad_norm": 37.31398010253906,
      "learning_rate": 1.0383389364036998e-05,
      "loss": 0.7711,
      "step": 34000
    },
    {
      "epoch": 2.132062456888443,
      "eval_loss": 0.955656886100769,
      "eval_runtime": 237.3977,
      "eval_samples_per_second": 537.377,
      "eval_steps_per_second": 16.795,
      "step": 34000
    },
    {
      "epoch": 2.1383332288204677,
      "grad_norm": 3.700526714324951,
      "learning_rate": 1.0348551620826004e-05,
      "loss": 0.9767,
      "step": 34100
    },
    {
      "epoch": 2.1446040007524925,
      "grad_norm": 111.15718841552734,
      "learning_rate": 1.0313713877615009e-05,
      "loss": 0.6702,
      "step": 34200
    },
    {
      "epoch": 2.1508747726845177,
      "grad_norm": 0.5821614861488342,
      "learning_rate": 1.0278876134404015e-05,
      "loss": 0.9444,
      "step": 34300
    },
    {
      "epoch": 2.1571455446165424,
      "grad_norm": 20.9290771484375,
      "learning_rate": 1.0244038391193018e-05,
      "loss": 0.8741,
      "step": 34400
    },
    {
      "epoch": 2.163416316548567,
      "grad_norm": 52.165771484375,
      "learning_rate": 1.0209200647982025e-05,
      "loss": 1.0717,
      "step": 34500
    },
    {
      "epoch": 2.163416316548567,
      "eval_loss": 0.9526209831237793,
      "eval_runtime": 235.6861,
      "eval_samples_per_second": 541.279,
      "eval_steps_per_second": 16.917,
      "step": 34500
    },
    {
      "epoch": 2.169687088480592,
      "grad_norm": 0.01671871915459633,
      "learning_rate": 1.017436290477103e-05,
      "loss": 0.8584,
      "step": 34600
    },
    {
      "epoch": 2.1759578604126166,
      "grad_norm": 12.125747680664062,
      "learning_rate": 1.0139525161560035e-05,
      "loss": 0.8926,
      "step": 34700
    },
    {
      "epoch": 2.182228632344642,
      "grad_norm": 114.18839263916016,
      "learning_rate": 1.010468741834904e-05,
      "loss": 0.8567,
      "step": 34800
    },
    {
      "epoch": 2.1884994042766666,
      "grad_norm": 0.2531642019748688,
      "learning_rate": 1.0069849675138046e-05,
      "loss": 0.71,
      "step": 34900
    },
    {
      "epoch": 2.1947701762086913,
      "grad_norm": 160.1878662109375,
      "learning_rate": 1.0035360309359161e-05,
      "loss": 1.1285,
      "step": 35000
    },
    {
      "epoch": 2.1947701762086913,
      "eval_loss": 0.958905816078186,
      "eval_runtime": 235.6565,
      "eval_samples_per_second": 541.347,
      "eval_steps_per_second": 16.919,
      "step": 35000
    },
    {
      "epoch": 2.201040948140716,
      "grad_norm": 42.54741287231445,
      "learning_rate": 1.0000522566148166e-05,
      "loss": 0.8999,
      "step": 35100
    },
    {
      "epoch": 2.207311720072741,
      "grad_norm": 291.0119323730469,
      "learning_rate": 9.96568482293717e-06,
      "loss": 0.8459,
      "step": 35200
    },
    {
      "epoch": 2.213582492004766,
      "grad_norm": 3.8935604095458984,
      "learning_rate": 9.930847079726175e-06,
      "loss": 1.0608,
      "step": 35300
    },
    {
      "epoch": 2.2198532639367907,
      "grad_norm": 73.73111724853516,
      "learning_rate": 9.896009336515181e-06,
      "loss": 0.6115,
      "step": 35400
    },
    {
      "epoch": 2.2261240358688155,
      "grad_norm": 137.14573669433594,
      "learning_rate": 9.861171593304186e-06,
      "loss": 1.2468,
      "step": 35500
    },
    {
      "epoch": 2.2261240358688155,
      "eval_loss": 0.9768953323364258,
      "eval_runtime": 237.6341,
      "eval_samples_per_second": 536.842,
      "eval_steps_per_second": 16.778,
      "step": 35500
    },
    {
      "epoch": 2.23239480780084,
      "grad_norm": 72.25751495361328,
      "learning_rate": 9.826333850093192e-06,
      "loss": 0.9987,
      "step": 35600
    },
    {
      "epoch": 2.238665579732865,
      "grad_norm": 310.7902526855469,
      "learning_rate": 9.791496106882197e-06,
      "loss": 0.9186,
      "step": 35700
    },
    {
      "epoch": 2.24493635166489,
      "grad_norm": 0.11791533976793289,
      "learning_rate": 9.756658363671202e-06,
      "loss": 1.0505,
      "step": 35800
    },
    {
      "epoch": 2.251207123596915,
      "grad_norm": 43.25834274291992,
      "learning_rate": 9.721820620460208e-06,
      "loss": 0.6253,
      "step": 35900
    },
    {
      "epoch": 2.2574778955289396,
      "grad_norm": 29.648263931274414,
      "learning_rate": 9.686982877249213e-06,
      "loss": 0.6523,
      "step": 36000
    },
    {
      "epoch": 2.2574778955289396,
      "eval_loss": 0.9501162171363831,
      "eval_runtime": 238.1223,
      "eval_samples_per_second": 535.742,
      "eval_steps_per_second": 16.743,
      "step": 36000
    },
    {
      "epoch": 2.2637486674609644,
      "grad_norm": 5.313396453857422,
      "learning_rate": 9.652145134038217e-06,
      "loss": 0.8252,
      "step": 36100
    },
    {
      "epoch": 2.270019439392989,
      "grad_norm": 0.04373766854405403,
      "learning_rate": 9.617307390827224e-06,
      "loss": 0.9793,
      "step": 36200
    },
    {
      "epoch": 2.2762902113250143,
      "grad_norm": 118.00153350830078,
      "learning_rate": 9.582469647616228e-06,
      "loss": 0.8845,
      "step": 36300
    },
    {
      "epoch": 2.282560983257039,
      "grad_norm": 99.67394256591797,
      "learning_rate": 9.547631904405233e-06,
      "loss": 1.0121,
      "step": 36400
    },
    {
      "epoch": 2.288831755189064,
      "grad_norm": 0.7632407546043396,
      "learning_rate": 9.51279416119424e-06,
      "loss": 0.9849,
      "step": 36500
    },
    {
      "epoch": 2.288831755189064,
      "eval_loss": 0.9245060086250305,
      "eval_runtime": 237.5388,
      "eval_samples_per_second": 537.058,
      "eval_steps_per_second": 16.785,
      "step": 36500
    },
    {
      "epoch": 2.2951025271210885,
      "grad_norm": 0.21792149543762207,
      "learning_rate": 9.477956417983244e-06,
      "loss": 1.2937,
      "step": 36600
    },
    {
      "epoch": 2.3013732990531133,
      "grad_norm": 161.54714965820312,
      "learning_rate": 9.443118674772248e-06,
      "loss": 1.0484,
      "step": 36700
    },
    {
      "epoch": 2.3076440709851385,
      "grad_norm": 1.5865380764007568,
      "learning_rate": 9.408280931561255e-06,
      "loss": 0.8801,
      "step": 36800
    },
    {
      "epoch": 2.313914842917163,
      "grad_norm": 52.73973846435547,
      "learning_rate": 9.37344318835026e-06,
      "loss": 0.7552,
      "step": 36900
    },
    {
      "epoch": 2.320185614849188,
      "grad_norm": 72.2259750366211,
      "learning_rate": 9.338605445139266e-06,
      "loss": 0.7641,
      "step": 37000
    },
    {
      "epoch": 2.320185614849188,
      "eval_loss": 0.9280443787574768,
      "eval_runtime": 234.7895,
      "eval_samples_per_second": 543.346,
      "eval_steps_per_second": 16.981,
      "step": 37000
    },
    {
      "epoch": 2.3264563867812127,
      "grad_norm": 161.67674255371094,
      "learning_rate": 9.30376770192827e-06,
      "loss": 0.883,
      "step": 37100
    },
    {
      "epoch": 2.3327271587132374,
      "grad_norm": 0.07621905952692032,
      "learning_rate": 9.269278336149385e-06,
      "loss": 0.77,
      "step": 37200
    },
    {
      "epoch": 2.3389979306452626,
      "grad_norm": 0.2586478292942047,
      "learning_rate": 9.234440592938391e-06,
      "loss": 1.2699,
      "step": 37300
    },
    {
      "epoch": 2.3452687025772874,
      "grad_norm": 79.81159973144531,
      "learning_rate": 9.199602849727396e-06,
      "loss": 0.8766,
      "step": 37400
    },
    {
      "epoch": 2.351539474509312,
      "grad_norm": 7.059108257293701,
      "learning_rate": 9.1647651065164e-06,
      "loss": 1.1154,
      "step": 37500
    },
    {
      "epoch": 2.351539474509312,
      "eval_loss": 0.962340772151947,
      "eval_runtime": 238.8795,
      "eval_samples_per_second": 534.043,
      "eval_steps_per_second": 16.69,
      "step": 37500
    },
    {
      "epoch": 2.357810246441337,
      "grad_norm": 1.4081709384918213,
      "learning_rate": 9.129927363305405e-06,
      "loss": 1.0634,
      "step": 37600
    },
    {
      "epoch": 2.3640810183733616,
      "grad_norm": 0.605450451374054,
      "learning_rate": 9.09508962009441e-06,
      "loss": 0.8822,
      "step": 37700
    },
    {
      "epoch": 2.370351790305387,
      "grad_norm": 1.7804793119430542,
      "learning_rate": 9.060251876883416e-06,
      "loss": 0.839,
      "step": 37800
    },
    {
      "epoch": 2.3766225622374115,
      "grad_norm": 0.285157710313797,
      "learning_rate": 9.025414133672421e-06,
      "loss": 0.684,
      "step": 37900
    },
    {
      "epoch": 2.3828933341694363,
      "grad_norm": 1.6291695833206177,
      "learning_rate": 8.990576390461425e-06,
      "loss": 0.8051,
      "step": 38000
    },
    {
      "epoch": 2.3828933341694363,
      "eval_loss": 0.9198396801948547,
      "eval_runtime": 235.4699,
      "eval_samples_per_second": 541.776,
      "eval_steps_per_second": 16.932,
      "step": 38000
    },
    {
      "epoch": 2.389164106101461,
      "grad_norm": 0.22198112308979034,
      "learning_rate": 8.955738647250432e-06,
      "loss": 0.9585,
      "step": 38100
    },
    {
      "epoch": 2.3954348780334858,
      "grad_norm": 0.15497685968875885,
      "learning_rate": 8.920900904039436e-06,
      "loss": 0.7156,
      "step": 38200
    },
    {
      "epoch": 2.401705649965511,
      "grad_norm": 3.716522216796875,
      "learning_rate": 8.886063160828443e-06,
      "loss": 0.5271,
      "step": 38300
    },
    {
      "epoch": 2.4079764218975357,
      "grad_norm": 211.54660034179688,
      "learning_rate": 8.851225417617447e-06,
      "loss": 0.805,
      "step": 38400
    },
    {
      "epoch": 2.4142471938295604,
      "grad_norm": 104.68868255615234,
      "learning_rate": 8.816387674406452e-06,
      "loss": 0.7898,
      "step": 38500
    },
    {
      "epoch": 2.4142471938295604,
      "eval_loss": 0.8785400986671448,
      "eval_runtime": 236.3653,
      "eval_samples_per_second": 539.724,
      "eval_steps_per_second": 16.868,
      "step": 38500
    },
    {
      "epoch": 2.420517965761585,
      "grad_norm": 117.63562774658203,
      "learning_rate": 8.781549931195458e-06,
      "loss": 0.6935,
      "step": 38600
    },
    {
      "epoch": 2.42678873769361,
      "grad_norm": 6.395357131958008,
      "learning_rate": 8.746712187984463e-06,
      "loss": 0.8011,
      "step": 38700
    },
    {
      "epoch": 2.433059509625635,
      "grad_norm": 146.0078582763672,
      "learning_rate": 8.711874444773468e-06,
      "loss": 0.9812,
      "step": 38800
    },
    {
      "epoch": 2.43933028155766,
      "grad_norm": 0.07249762117862701,
      "learning_rate": 8.677036701562474e-06,
      "loss": 0.4427,
      "step": 38900
    },
    {
      "epoch": 2.4456010534896846,
      "grad_norm": 113.86747741699219,
      "learning_rate": 8.642198958351479e-06,
      "loss": 0.492,
      "step": 39000
    },
    {
      "epoch": 2.4456010534896846,
      "eval_loss": 0.9312570095062256,
      "eval_runtime": 235.7259,
      "eval_samples_per_second": 541.188,
      "eval_steps_per_second": 16.914,
      "step": 39000
    },
    {
      "epoch": 2.4518718254217093,
      "grad_norm": 174.28895568847656,
      "learning_rate": 8.607361215140483e-06,
      "loss": 0.47,
      "step": 39100
    },
    {
      "epoch": 2.458142597353734,
      "grad_norm": 1.0906648635864258,
      "learning_rate": 8.5728718493616e-06,
      "loss": 1.1876,
      "step": 39200
    },
    {
      "epoch": 2.4644133692857593,
      "grad_norm": 1.2390027046203613,
      "learning_rate": 8.538034106150604e-06,
      "loss": 0.5778,
      "step": 39300
    },
    {
      "epoch": 2.470684141217784,
      "grad_norm": 8.68694019317627,
      "learning_rate": 8.503196362939609e-06,
      "loss": 0.6763,
      "step": 39400
    },
    {
      "epoch": 2.4769549131498088,
      "grad_norm": 0.0290305744856596,
      "learning_rate": 8.468358619728615e-06,
      "loss": 0.6896,
      "step": 39500
    },
    {
      "epoch": 2.4769549131498088,
      "eval_loss": 0.8978257179260254,
      "eval_runtime": 238.5786,
      "eval_samples_per_second": 534.717,
      "eval_steps_per_second": 16.711,
      "step": 39500
    },
    {
      "epoch": 2.4832256850818335,
      "grad_norm": NaN,
      "learning_rate": 8.43386925394973e-06,
      "loss": 0.8905,
      "step": 39600
    },
    {
      "epoch": 2.4894964570138582,
      "grad_norm": 0.6685202121734619,
      "learning_rate": 8.399031510738736e-06,
      "loss": 0.7845,
      "step": 39700
    },
    {
      "epoch": 2.4957672289458834,
      "grad_norm": 0.6609179377555847,
      "learning_rate": 8.36419376752774e-06,
      "loss": 0.8691,
      "step": 39800
    },
    {
      "epoch": 2.502038000877908,
      "grad_norm": 0.44005250930786133,
      "learning_rate": 8.329356024316745e-06,
      "loss": 0.55,
      "step": 39900
    },
    {
      "epoch": 2.508308772809933,
      "grad_norm": 191.84471130371094,
      "learning_rate": 8.294518281105752e-06,
      "loss": 0.6978,
      "step": 40000
    },
    {
      "epoch": 2.508308772809933,
      "eval_loss": 0.9054428935050964,
      "eval_runtime": 236.0808,
      "eval_samples_per_second": 540.374,
      "eval_steps_per_second": 16.888,
      "step": 40000
    },
    {
      "epoch": 2.5145795447419577,
      "grad_norm": 20.063995361328125,
      "learning_rate": 8.259680537894755e-06,
      "loss": 0.6378,
      "step": 40100
    },
    {
      "epoch": 2.5208503166739824,
      "grad_norm": 1.4460866451263428,
      "learning_rate": 8.224842794683761e-06,
      "loss": 0.895,
      "step": 40200
    },
    {
      "epoch": 2.527121088606007,
      "grad_norm": 0.06669195741415024,
      "learning_rate": 8.190353428904876e-06,
      "loss": 0.9683,
      "step": 40300
    },
    {
      "epoch": 2.5333918605380323,
      "grad_norm": 80.40859985351562,
      "learning_rate": 8.155515685693882e-06,
      "loss": 0.9373,
      "step": 40400
    },
    {
      "epoch": 2.539662632470057,
      "grad_norm": 0.014817653223872185,
      "learning_rate": 8.120677942482887e-06,
      "loss": 0.7406,
      "step": 40500
    },
    {
      "epoch": 2.539662632470057,
      "eval_loss": 0.912805438041687,
      "eval_runtime": 230.5789,
      "eval_samples_per_second": 553.268,
      "eval_steps_per_second": 17.291,
      "step": 40500
    },
    {
      "epoch": 2.545933404402082,
      "grad_norm": 41.673622131347656,
      "learning_rate": 8.085840199271891e-06,
      "loss": 0.8917,
      "step": 40600
    },
    {
      "epoch": 2.5522041763341066,
      "grad_norm": 213.1597900390625,
      "learning_rate": 8.051002456060898e-06,
      "loss": 1.0552,
      "step": 40700
    },
    {
      "epoch": 2.5584749482661318,
      "grad_norm": 65.40398406982422,
      "learning_rate": 8.016164712849902e-06,
      "loss": 0.5281,
      "step": 40800
    },
    {
      "epoch": 2.5647457201981565,
      "grad_norm": 4.673154830932617,
      "learning_rate": 7.981326969638907e-06,
      "loss": 0.9064,
      "step": 40900
    },
    {
      "epoch": 2.5710164921301812,
      "grad_norm": 187.15573120117188,
      "learning_rate": 7.946489226427913e-06,
      "loss": 0.6886,
      "step": 41000
    },
    {
      "epoch": 2.5710164921301812,
      "eval_loss": 0.9048876166343689,
      "eval_runtime": 269.6795,
      "eval_samples_per_second": 473.05,
      "eval_steps_per_second": 14.784,
      "step": 41000
    },
    {
      "epoch": 2.577287264062206,
      "grad_norm": 0.14457735419273376,
      "learning_rate": 7.911651483216918e-06,
      "loss": 0.7166,
      "step": 41100
    },
    {
      "epoch": 2.5835580359942307,
      "grad_norm": 126.45314025878906,
      "learning_rate": 7.876813740005922e-06,
      "loss": 0.8343,
      "step": 41200
    },
    {
      "epoch": 2.5898288079262555,
      "grad_norm": 0.15031389892101288,
      "learning_rate": 7.841975996794929e-06,
      "loss": 0.9468,
      "step": 41300
    },
    {
      "epoch": 2.5960995798582807,
      "grad_norm": 0.14378446340560913,
      "learning_rate": 7.807138253583933e-06,
      "loss": 0.8529,
      "step": 41400
    },
    {
      "epoch": 2.6023703517903054,
      "grad_norm": 0.031118595972657204,
      "learning_rate": 7.772300510372938e-06,
      "loss": 0.8092,
      "step": 41500
    },
    {
      "epoch": 2.6023703517903054,
      "eval_loss": 0.8954480886459351,
      "eval_runtime": 246.3441,
      "eval_samples_per_second": 517.861,
      "eval_steps_per_second": 16.185,
      "step": 41500
    },
    {
      "epoch": 2.60864112372233,
      "grad_norm": 17.187223434448242,
      "learning_rate": 7.737462767161944e-06,
      "loss": 0.8501,
      "step": 41600
    },
    {
      "epoch": 2.614911895654355,
      "grad_norm": 3.00113844871521,
      "learning_rate": 7.702625023950949e-06,
      "loss": 0.9877,
      "step": 41700
    },
    {
      "epoch": 2.62118266758638,
      "grad_norm": 0.45281580090522766,
      "learning_rate": 7.667787280739954e-06,
      "loss": 0.8592,
      "step": 41800
    },
    {
      "epoch": 2.627453439518405,
      "grad_norm": 79.49444580078125,
      "learning_rate": 7.63294953752896e-06,
      "loss": 0.8632,
      "step": 41900
    },
    {
      "epoch": 2.6337242114504296,
      "grad_norm": 0.05600200593471527,
      "learning_rate": 7.598111794317965e-06,
      "loss": 0.6766,
      "step": 42000
    },
    {
      "epoch": 2.6337242114504296,
      "eval_loss": 0.8706979751586914,
      "eval_runtime": 245.6205,
      "eval_samples_per_second": 519.387,
      "eval_steps_per_second": 16.232,
      "step": 42000
    },
    {
      "epoch": 2.6399949833824543,
      "grad_norm": 20.844148635864258,
      "learning_rate": 7.56327405110697e-06,
      "loss": 0.7587,
      "step": 42100
    },
    {
      "epoch": 2.646265755314479,
      "grad_norm": 0.24995607137680054,
      "learning_rate": 7.528436307895976e-06,
      "loss": 0.8949,
      "step": 42200
    },
    {
      "epoch": 2.652536527246504,
      "grad_norm": 80.21415710449219,
      "learning_rate": 7.49359856468498e-06,
      "loss": 0.4173,
      "step": 42300
    },
    {
      "epoch": 2.658807299178529,
      "grad_norm": 24.900297164916992,
      "learning_rate": 7.458760821473986e-06,
      "loss": 0.5995,
      "step": 42400
    },
    {
      "epoch": 2.6650780711105537,
      "grad_norm": 231.90145874023438,
      "learning_rate": 7.423923078262991e-06,
      "loss": 0.8157,
      "step": 42500
    },
    {
      "epoch": 2.6650780711105537,
      "eval_loss": 0.8680915236473083,
      "eval_runtime": 245.7882,
      "eval_samples_per_second": 519.032,
      "eval_steps_per_second": 16.221,
      "step": 42500
    },
    {
      "epoch": 2.6713488430425785,
      "grad_norm": 0.030076002702116966,
      "learning_rate": 7.389085335051997e-06,
      "loss": 0.92,
      "step": 42600
    },
    {
      "epoch": 2.677619614974603,
      "grad_norm": 391.046875,
      "learning_rate": 7.354247591841001e-06,
      "loss": 0.9118,
      "step": 42700
    },
    {
      "epoch": 2.6838903869066284,
      "grad_norm": 0.29524192214012146,
      "learning_rate": 7.319409848630006e-06,
      "loss": 0.7446,
      "step": 42800
    },
    {
      "epoch": 2.690161158838653,
      "grad_norm": 0.06050710007548332,
      "learning_rate": 7.284572105419011e-06,
      "loss": 0.6835,
      "step": 42900
    },
    {
      "epoch": 2.696431930770678,
      "grad_norm": 0.3519326150417328,
      "learning_rate": 7.249734362208016e-06,
      "loss": 0.6157,
      "step": 43000
    },
    {
      "epoch": 2.696431930770678,
      "eval_loss": 0.8691079020500183,
      "eval_runtime": 245.1929,
      "eval_samples_per_second": 520.292,
      "eval_steps_per_second": 16.261,
      "step": 43000
    },
    {
      "epoch": 2.7027027027027026,
      "grad_norm": 3.0073323249816895,
      "learning_rate": 7.214896618997022e-06,
      "loss": 0.5423,
      "step": 43100
    },
    {
      "epoch": 2.7089734746347274,
      "grad_norm": 47.103782653808594,
      "learning_rate": 7.180058875786027e-06,
      "loss": 0.8098,
      "step": 43200
    },
    {
      "epoch": 2.715244246566752,
      "grad_norm": 1.3290644884109497,
      "learning_rate": 7.145221132575032e-06,
      "loss": 0.8908,
      "step": 43300
    },
    {
      "epoch": 2.7215150184987773,
      "grad_norm": 51.733924865722656,
      "learning_rate": 7.110383389364037e-06,
      "loss": 1.1275,
      "step": 43400
    },
    {
      "epoch": 2.727785790430802,
      "grad_norm": 7.54064416885376,
      "learning_rate": 7.075545646153043e-06,
      "loss": 1.0345,
      "step": 43500
    },
    {
      "epoch": 2.727785790430802,
      "eval_loss": 0.8884279131889343,
      "eval_runtime": 250.7463,
      "eval_samples_per_second": 508.769,
      "eval_steps_per_second": 15.901,
      "step": 43500
    },
    {
      "epoch": 2.734056562362827,
      "grad_norm": 0.2361198216676712,
      "learning_rate": 7.0407079029420475e-06,
      "loss": 0.6198,
      "step": 43600
    },
    {
      "epoch": 2.7403273342948515,
      "grad_norm": 0.045945364981889725,
      "learning_rate": 7.005870159731053e-06,
      "loss": 0.8315,
      "step": 43700
    },
    {
      "epoch": 2.7465981062268767,
      "grad_norm": 1.2798868417739868,
      "learning_rate": 6.9710324165200584e-06,
      "loss": 0.9317,
      "step": 43800
    },
    {
      "epoch": 2.7528688781589015,
      "grad_norm": 0.2944384217262268,
      "learning_rate": 6.936194673309063e-06,
      "loss": 0.516,
      "step": 43900
    },
    {
      "epoch": 2.759139650090926,
      "grad_norm": 0.38825371861457825,
      "learning_rate": 6.9013569300980686e-06,
      "loss": 0.8229,
      "step": 44000
    },
    {
      "epoch": 2.759139650090926,
      "eval_loss": 0.8659059405326843,
      "eval_runtime": 250.2562,
      "eval_samples_per_second": 509.766,
      "eval_steps_per_second": 15.932,
      "step": 44000
    },
    {
      "epoch": 2.765410422022951,
      "grad_norm": 121.3291015625,
      "learning_rate": 6.866519186887074e-06,
      "loss": 0.7989,
      "step": 44100
    },
    {
      "epoch": 2.7716811939549757,
      "grad_norm": 0.05258101224899292,
      "learning_rate": 6.8316814436760795e-06,
      "loss": 0.9291,
      "step": 44200
    },
    {
      "epoch": 2.7779519658870004,
      "grad_norm": 13.635845184326172,
      "learning_rate": 6.796843700465084e-06,
      "loss": 0.5954,
      "step": 44300
    },
    {
      "epoch": 2.7842227378190256,
      "grad_norm": 0.01324045192450285,
      "learning_rate": 6.76200595725409e-06,
      "loss": 0.8537,
      "step": 44400
    },
    {
      "epoch": 2.7904935097510504,
      "grad_norm": 0.1794157326221466,
      "learning_rate": 6.727168214043095e-06,
      "loss": 0.9506,
      "step": 44500
    },
    {
      "epoch": 2.7904935097510504,
      "eval_loss": 0.8657113909721375,
      "eval_runtime": 251.0944,
      "eval_samples_per_second": 508.064,
      "eval_steps_per_second": 15.878,
      "step": 44500
    },
    {
      "epoch": 2.796764281683075,
      "grad_norm": 1.5337361097335815,
      "learning_rate": 6.6923304708321e-06,
      "loss": 0.5789,
      "step": 44600
    },
    {
      "epoch": 2.8030350536151,
      "grad_norm": 67.04114532470703,
      "learning_rate": 6.657492727621105e-06,
      "loss": 0.4861,
      "step": 44700
    },
    {
      "epoch": 2.809305825547125,
      "grad_norm": 0.7064642310142517,
      "learning_rate": 6.622654984410111e-06,
      "loss": 0.9614,
      "step": 44800
    },
    {
      "epoch": 2.81557659747915,
      "grad_norm": 182.1068572998047,
      "learning_rate": 6.587817241199116e-06,
      "loss": 1.0069,
      "step": 44900
    },
    {
      "epoch": 2.8218473694111745,
      "grad_norm": 11.14926528930664,
      "learning_rate": 6.552979497988121e-06,
      "loss": 0.5599,
      "step": 45000
    },
    {
      "epoch": 2.8218473694111745,
      "eval_loss": 0.8618975281715393,
      "eval_runtime": 253.2257,
      "eval_samples_per_second": 503.788,
      "eval_steps_per_second": 15.745,
      "step": 45000
    },
    {
      "epoch": 2.8281181413431993,
      "grad_norm": 3.852113723754883,
      "learning_rate": 6.5181417547771264e-06,
      "loss": 1.3747,
      "step": 45100
    },
    {
      "epoch": 2.834388913275224,
      "grad_norm": 0.024370471015572548,
      "learning_rate": 6.483304011566132e-06,
      "loss": 0.5638,
      "step": 45200
    },
    {
      "epoch": 2.8406596852072488,
      "grad_norm": 30.42238998413086,
      "learning_rate": 6.4484662683551366e-06,
      "loss": 1.2095,
      "step": 45300
    },
    {
      "epoch": 2.846930457139274,
      "grad_norm": 54.890380859375,
      "learning_rate": 6.413628525144142e-06,
      "loss": 0.7364,
      "step": 45400
    },
    {
      "epoch": 2.8532012290712987,
      "grad_norm": 0.05865807831287384,
      "learning_rate": 6.3787907819331475e-06,
      "loss": 0.5692,
      "step": 45500
    },
    {
      "epoch": 2.8532012290712987,
      "eval_loss": 0.8817957043647766,
      "eval_runtime": 250.5213,
      "eval_samples_per_second": 509.226,
      "eval_steps_per_second": 15.915,
      "step": 45500
    },
    {
      "epoch": 2.8594720010033234,
      "grad_norm": 0.23342262208461761,
      "learning_rate": 6.343953038722153e-06,
      "loss": 0.8848,
      "step": 45600
    },
    {
      "epoch": 2.865742772935348,
      "grad_norm": 0.24238887429237366,
      "learning_rate": 6.309115295511157e-06,
      "loss": 0.9063,
      "step": 45700
    },
    {
      "epoch": 2.8720135448673734,
      "grad_norm": 303.49761962890625,
      "learning_rate": 6.274277552300162e-06,
      "loss": 0.8675,
      "step": 45800
    },
    {
      "epoch": 2.878284316799398,
      "grad_norm": 27.475610733032227,
      "learning_rate": 6.239439809089167e-06,
      "loss": 0.9703,
      "step": 45900
    },
    {
      "epoch": 2.884555088731423,
      "grad_norm": 0.12018956989049911,
      "learning_rate": 6.2046020658781725e-06,
      "loss": 0.6657,
      "step": 46000
    },
    {
      "epoch": 2.884555088731423,
      "eval_loss": 0.842439591884613,
      "eval_runtime": 250.5638,
      "eval_samples_per_second": 509.14,
      "eval_steps_per_second": 15.912,
      "step": 46000
    },
    {
      "epoch": 2.8908258606634476,
      "grad_norm": 36.39583969116211,
      "learning_rate": 6.169764322667178e-06,
      "loss": 0.6564,
      "step": 46100
    },
    {
      "epoch": 2.8970966325954723,
      "grad_norm": 6.755324840545654,
      "learning_rate": 6.135274956888293e-06,
      "loss": 0.7945,
      "step": 46200
    },
    {
      "epoch": 2.903367404527497,
      "grad_norm": 0.24825870990753174,
      "learning_rate": 6.100437213677298e-06,
      "loss": 0.6341,
      "step": 46300
    },
    {
      "epoch": 2.9096381764595223,
      "grad_norm": 0.06013401225209236,
      "learning_rate": 6.0655994704663035e-06,
      "loss": 1.042,
      "step": 46400
    },
    {
      "epoch": 2.915908948391547,
      "grad_norm": 14.515037536621094,
      "learning_rate": 6.030761727255309e-06,
      "loss": 1.0812,
      "step": 46500
    },
    {
      "epoch": 2.915908948391547,
      "eval_loss": 0.8509716987609863,
      "eval_runtime": 247.7079,
      "eval_samples_per_second": 515.01,
      "eval_steps_per_second": 16.096,
      "step": 46500
    },
    {
      "epoch": 2.9221797203235718,
      "grad_norm": 0.9338593482971191,
      "learning_rate": 5.995923984044314e-06,
      "loss": 0.9787,
      "step": 46600
    },
    {
      "epoch": 2.9284504922555965,
      "grad_norm": 241.10589599609375,
      "learning_rate": 5.961086240833319e-06,
      "loss": 0.8732,
      "step": 46700
    },
    {
      "epoch": 2.9347212641876217,
      "grad_norm": 119.96747589111328,
      "learning_rate": 5.926248497622325e-06,
      "loss": 1.1872,
      "step": 46800
    },
    {
      "epoch": 2.9409920361196464,
      "grad_norm": 28.35833740234375,
      "learning_rate": 5.89141075441133e-06,
      "loss": 0.989,
      "step": 46900
    },
    {
      "epoch": 2.947262808051671,
      "grad_norm": 0.007068769074976444,
      "learning_rate": 5.856573011200335e-06,
      "loss": 0.874,
      "step": 47000
    },
    {
      "epoch": 2.947262808051671,
      "eval_loss": 0.8214829564094543,
      "eval_runtime": 243.5295,
      "eval_samples_per_second": 523.846,
      "eval_steps_per_second": 16.372,
      "step": 47000
    },
    {
      "epoch": 2.953533579983696,
      "grad_norm": 0.0442727729678154,
      "learning_rate": 5.82173526798934e-06,
      "loss": 1.0229,
      "step": 47100
    },
    {
      "epoch": 2.9598043519157207,
      "grad_norm": 0.031402587890625,
      "learning_rate": 5.786897524778346e-06,
      "loss": 0.9888,
      "step": 47200
    },
    {
      "epoch": 2.9660751238477454,
      "grad_norm": 2.0282115936279297,
      "learning_rate": 5.75205978156735e-06,
      "loss": 0.4883,
      "step": 47300
    },
    {
      "epoch": 2.9723458957797706,
      "grad_norm": 7.441370487213135,
      "learning_rate": 5.717222038356356e-06,
      "loss": 0.7474,
      "step": 47400
    },
    {
      "epoch": 2.9786166677117953,
      "grad_norm": 20.524629592895508,
      "learning_rate": 5.682384295145361e-06,
      "loss": 0.7615,
      "step": 47500
    },
    {
      "epoch": 2.9786166677117953,
      "eval_loss": 0.8217635750770569,
      "eval_runtime": 249.4571,
      "eval_samples_per_second": 511.399,
      "eval_steps_per_second": 15.983,
      "step": 47500
    },
    {
      "epoch": 2.98488743964382,
      "grad_norm": 0.4798177182674408,
      "learning_rate": 5.647546551934367e-06,
      "loss": 0.6208,
      "step": 47600
    },
    {
      "epoch": 2.991158211575845,
      "grad_norm": 112.3564224243164,
      "learning_rate": 5.6127088087233715e-06,
      "loss": 0.8332,
      "step": 47700
    },
    {
      "epoch": 2.99742898350787,
      "grad_norm": 52.40660095214844,
      "learning_rate": 5.577871065512377e-06,
      "loss": 0.6734,
      "step": 47800
    },
    {
      "epoch": 3.0036997554398948,
      "grad_norm": 0.9568219184875488,
      "learning_rate": 5.5430333223013825e-06,
      "loss": 0.5095,
      "step": 47900
    },
    {
      "epoch": 3.0099705273719195,
      "grad_norm": 0.40387988090515137,
      "learning_rate": 5.508195579090387e-06,
      "loss": 0.7709,
      "step": 48000
    },
    {
      "epoch": 3.0099705273719195,
      "eval_loss": 0.8220009803771973,
      "eval_runtime": 248.6927,
      "eval_samples_per_second": 512.97,
      "eval_steps_per_second": 16.032,
      "step": 48000
    },
    {
      "epoch": 3.0162412993039442,
      "grad_norm": 192.66201782226562,
      "learning_rate": 5.473357835879393e-06,
      "loss": 0.5449,
      "step": 48100
    },
    {
      "epoch": 3.022512071235969,
      "grad_norm": 0.026696085929870605,
      "learning_rate": 5.438520092668398e-06,
      "loss": 0.772,
      "step": 48200
    },
    {
      "epoch": 3.028782843167994,
      "grad_norm": 7.1632232666015625,
      "learning_rate": 5.403682349457403e-06,
      "loss": 0.8582,
      "step": 48300
    },
    {
      "epoch": 3.035053615100019,
      "grad_norm": 4.1231584548950195,
      "learning_rate": 5.369192983678517e-06,
      "loss": 0.5742,
      "step": 48400
    },
    {
      "epoch": 3.0413243870320437,
      "grad_norm": 0.08916144073009491,
      "learning_rate": 5.334355240467523e-06,
      "loss": 0.5584,
      "step": 48500
    },
    {
      "epoch": 3.0413243870320437,
      "eval_loss": 0.8492663502693176,
      "eval_runtime": 247.0758,
      "eval_samples_per_second": 516.327,
      "eval_steps_per_second": 16.137,
      "step": 48500
    },
    {
      "epoch": 3.0475951589640684,
      "grad_norm": 15.887138366699219,
      "learning_rate": 5.299517497256527e-06,
      "loss": 0.9766,
      "step": 48600
    },
    {
      "epoch": 3.053865930896093,
      "grad_norm": 3.1666200160980225,
      "learning_rate": 5.264679754045533e-06,
      "loss": 0.6473,
      "step": 48700
    },
    {
      "epoch": 3.0601367028281183,
      "grad_norm": 4.730705261230469,
      "learning_rate": 5.229842010834538e-06,
      "loss": 0.5861,
      "step": 48800
    },
    {
      "epoch": 3.066407474760143,
      "grad_norm": 0.19111567735671997,
      "learning_rate": 5.195004267623544e-06,
      "loss": 0.6377,
      "step": 48900
    },
    {
      "epoch": 3.072678246692168,
      "grad_norm": 0.17477057874202728,
      "learning_rate": 5.1601665244125485e-06,
      "loss": 0.8393,
      "step": 49000
    },
    {
      "epoch": 3.072678246692168,
      "eval_loss": 0.8429604768753052,
      "eval_runtime": 246.6172,
      "eval_samples_per_second": 517.288,
      "eval_steps_per_second": 16.167,
      "step": 49000
    },
    {
      "epoch": 3.0789490186241926,
      "grad_norm": 0.47240251302719116,
      "learning_rate": 5.125328781201554e-06,
      "loss": 0.8385,
      "step": 49100
    },
    {
      "epoch": 3.0852197905562173,
      "grad_norm": 1.6392873525619507,
      "learning_rate": 5.0904910379905595e-06,
      "loss": 0.5523,
      "step": 49200
    },
    {
      "epoch": 3.0914905624882425,
      "grad_norm": 0.08180980384349823,
      "learning_rate": 5.055653294779564e-06,
      "loss": 0.6217,
      "step": 49300
    },
    {
      "epoch": 3.0977613344202672,
      "grad_norm": 10.683464050292969,
      "learning_rate": 5.02081555156857e-06,
      "loss": 0.5515,
      "step": 49400
    },
    {
      "epoch": 3.104032106352292,
      "grad_norm": 154.55838012695312,
      "learning_rate": 4.985977808357575e-06,
      "loss": 0.851,
      "step": 49500
    },
    {
      "epoch": 3.104032106352292,
      "eval_loss": 0.8000255227088928,
      "eval_runtime": 245.3365,
      "eval_samples_per_second": 519.988,
      "eval_steps_per_second": 16.251,
      "step": 49500
    },
    {
      "epoch": 3.1103028782843167,
      "grad_norm": 0.106838159263134,
      "learning_rate": 4.95114006514658e-06,
      "loss": 0.9247,
      "step": 49600
    },
    {
      "epoch": 3.1165736502163415,
      "grad_norm": 0.03634607046842575,
      "learning_rate": 4.916302321935585e-06,
      "loss": 0.655,
      "step": 49700
    },
    {
      "epoch": 3.1228444221483667,
      "grad_norm": 118.1080322265625,
      "learning_rate": 4.881464578724591e-06,
      "loss": 0.4979,
      "step": 49800
    },
    {
      "epoch": 3.1291151940803914,
      "grad_norm": 0.2726267874240875,
      "learning_rate": 4.846626835513596e-06,
      "loss": 0.7521,
      "step": 49900
    },
    {
      "epoch": 3.135385966012416,
      "grad_norm": 0.031166499480605125,
      "learning_rate": 4.811789092302601e-06,
      "loss": 0.53,
      "step": 50000
    },
    {
      "epoch": 3.135385966012416,
      "eval_loss": 0.8105431795120239,
      "eval_runtime": 248.1106,
      "eval_samples_per_second": 514.174,
      "eval_steps_per_second": 16.069,
      "step": 50000
    },
    {
      "epoch": 3.141656737944441,
      "grad_norm": 88.85710144042969,
      "learning_rate": 4.776951349091606e-06,
      "loss": 0.5943,
      "step": 50100
    },
    {
      "epoch": 3.1479275098764656,
      "grad_norm": 11.926735877990723,
      "learning_rate": 4.742113605880612e-06,
      "loss": 0.4659,
      "step": 50200
    },
    {
      "epoch": 3.154198281808491,
      "grad_norm": 17.817556381225586,
      "learning_rate": 4.7072758626696165e-06,
      "loss": 0.4843,
      "step": 50300
    },
    {
      "epoch": 3.1604690537405156,
      "grad_norm": 95.25701904296875,
      "learning_rate": 4.672438119458621e-06,
      "loss": 0.7577,
      "step": 50400
    },
    {
      "epoch": 3.1667398256725403,
      "grad_norm": 0.007618566509336233,
      "learning_rate": 4.637600376247627e-06,
      "loss": 0.3448,
      "step": 50500
    },
    {
      "epoch": 3.1667398256725403,
      "eval_loss": 0.8055439591407776,
      "eval_runtime": 246.7777,
      "eval_samples_per_second": 516.951,
      "eval_steps_per_second": 16.156,
      "step": 50500
    },
    {
      "epoch": 3.173010597604565,
      "grad_norm": 45.008056640625,
      "learning_rate": 4.602762633036632e-06,
      "loss": 0.8392,
      "step": 50600
    },
    {
      "epoch": 3.17928136953659,
      "grad_norm": 0.11749571561813354,
      "learning_rate": 4.567924889825638e-06,
      "loss": 0.75,
      "step": 50700
    },
    {
      "epoch": 3.185552141468615,
      "grad_norm": 0.04399213567376137,
      "learning_rate": 4.533087146614642e-06,
      "loss": 0.5195,
      "step": 50800
    },
    {
      "epoch": 3.1918229134006397,
      "grad_norm": 0.1250951737165451,
      "learning_rate": 4.498249403403648e-06,
      "loss": 0.617,
      "step": 50900
    },
    {
      "epoch": 3.1980936853326645,
      "grad_norm": 213.82589721679688,
      "learning_rate": 4.463411660192653e-06,
      "loss": 0.6892,
      "step": 51000
    },
    {
      "epoch": 3.1980936853326645,
      "eval_loss": 0.8293086290359497,
      "eval_runtime": 244.3828,
      "eval_samples_per_second": 522.017,
      "eval_steps_per_second": 16.315,
      "step": 51000
    },
    {
      "epoch": 3.204364457264689,
      "grad_norm": 12.81237506866455,
      "learning_rate": 4.428573916981658e-06,
      "loss": 0.497,
      "step": 51100
    },
    {
      "epoch": 3.210635229196714,
      "grad_norm": 0.06836537271738052,
      "learning_rate": 4.393736173770663e-06,
      "loss": 0.6793,
      "step": 51200
    },
    {
      "epoch": 3.216906001128739,
      "grad_norm": 0.30741751194000244,
      "learning_rate": 4.358898430559669e-06,
      "loss": 0.7251,
      "step": 51300
    },
    {
      "epoch": 3.223176773060764,
      "grad_norm": 299.8288269042969,
      "learning_rate": 4.324060687348674e-06,
      "loss": 0.6471,
      "step": 51400
    },
    {
      "epoch": 3.2294475449927886,
      "grad_norm": 39.92329406738281,
      "learning_rate": 4.289222944137679e-06,
      "loss": 0.775,
      "step": 51500
    },
    {
      "epoch": 3.2294475449927886,
      "eval_loss": 0.8012564778327942,
      "eval_runtime": 245.7294,
      "eval_samples_per_second": 519.157,
      "eval_steps_per_second": 16.225,
      "step": 51500
    },
    {
      "epoch": 3.2357183169248134,
      "grad_norm": 7.386813640594482,
      "learning_rate": 4.2543852009266845e-06,
      "loss": 0.7289,
      "step": 51600
    },
    {
      "epoch": 3.241989088856838,
      "grad_norm": 0.8339570760726929,
      "learning_rate": 4.21954745771569e-06,
      "loss": 0.6894,
      "step": 51700
    },
    {
      "epoch": 3.2482598607888633,
      "grad_norm": 103.696533203125,
      "learning_rate": 4.184709714504695e-06,
      "loss": 0.5677,
      "step": 51800
    },
    {
      "epoch": 3.254530632720888,
      "grad_norm": 157.94912719726562,
      "learning_rate": 4.149871971293699e-06,
      "loss": 0.317,
      "step": 51900
    },
    {
      "epoch": 3.260801404652913,
      "grad_norm": 0.6201029419898987,
      "learning_rate": 4.115034228082705e-06,
      "loss": 0.5376,
      "step": 52000
    },
    {
      "epoch": 3.260801404652913,
      "eval_loss": 0.785252034664154,
      "eval_runtime": 247.2797,
      "eval_samples_per_second": 515.902,
      "eval_steps_per_second": 16.123,
      "step": 52000
    },
    {
      "epoch": 3.2670721765849375,
      "grad_norm": 5.9356913566589355,
      "learning_rate": 4.08019648487171e-06,
      "loss": 0.4582,
      "step": 52100
    },
    {
      "epoch": 3.2733429485169623,
      "grad_norm": 99.29075622558594,
      "learning_rate": 4.045358741660716e-06,
      "loss": 0.8505,
      "step": 52200
    },
    {
      "epoch": 3.279613720448987,
      "grad_norm": 7.142418384552002,
      "learning_rate": 4.01052099844972e-06,
      "loss": 0.6236,
      "step": 52300
    },
    {
      "epoch": 3.285884492381012,
      "grad_norm": 0.18595051765441895,
      "learning_rate": 3.975683255238726e-06,
      "loss": 0.7388,
      "step": 52400
    },
    {
      "epoch": 3.292155264313037,
      "grad_norm": 0.26398783922195435,
      "learning_rate": 3.940845512027731e-06,
      "loss": 0.7061,
      "step": 52500
    },
    {
      "epoch": 3.292155264313037,
      "eval_loss": 0.786342203617096,
      "eval_runtime": 246.6236,
      "eval_samples_per_second": 517.274,
      "eval_steps_per_second": 16.166,
      "step": 52500
    },
    {
      "epoch": 3.2984260362450617,
      "grad_norm": 0.15353605151176453,
      "learning_rate": 3.906007768816736e-06,
      "loss": 0.5411,
      "step": 52600
    },
    {
      "epoch": 3.3046968081770864,
      "grad_norm": 0.6905626654624939,
      "learning_rate": 3.8711700256057415e-06,
      "loss": 0.9511,
      "step": 52700
    },
    {
      "epoch": 3.3109675801091116,
      "grad_norm": 120.66680145263672,
      "learning_rate": 3.836332282394747e-06,
      "loss": 0.5364,
      "step": 52800
    },
    {
      "epoch": 3.3172383520411364,
      "grad_norm": 22.492393493652344,
      "learning_rate": 3.801494539183752e-06,
      "loss": 0.5795,
      "step": 52900
    },
    {
      "epoch": 3.323509123973161,
      "grad_norm": 11.335774421691895,
      "learning_rate": 3.766656795972757e-06,
      "loss": 0.5305,
      "step": 53000
    },
    {
      "epoch": 3.323509123973161,
      "eval_loss": 0.787602961063385,
      "eval_runtime": 250.8532,
      "eval_samples_per_second": 508.552,
      "eval_steps_per_second": 15.894,
      "step": 53000
    },
    {
      "epoch": 3.329779895905186,
      "grad_norm": 0.07559686154127121,
      "learning_rate": 3.7318190527617626e-06,
      "loss": 0.8051,
      "step": 53100
    },
    {
      "epoch": 3.3360506678372106,
      "grad_norm": 0.06827156990766525,
      "learning_rate": 3.6969813095507677e-06,
      "loss": 0.5342,
      "step": 53200
    },
    {
      "epoch": 3.3423214397692353,
      "grad_norm": 1.358184576034546,
      "learning_rate": 3.662143566339773e-06,
      "loss": 0.4567,
      "step": 53300
    },
    {
      "epoch": 3.3485922117012605,
      "grad_norm": 58.48233413696289,
      "learning_rate": 3.627305823128778e-06,
      "loss": 0.9751,
      "step": 53400
    },
    {
      "epoch": 3.3548629836332853,
      "grad_norm": 0.13244691491127014,
      "learning_rate": 3.592468079917783e-06,
      "loss": 0.4413,
      "step": 53500
    },
    {
      "epoch": 3.3548629836332853,
      "eval_loss": 0.8008161783218384,
      "eval_runtime": 248.8641,
      "eval_samples_per_second": 512.617,
      "eval_steps_per_second": 16.021,
      "step": 53500
    },
    {
      "epoch": 3.36113375556531,
      "grad_norm": 5.010788917541504,
      "learning_rate": 3.5576303367067884e-06,
      "loss": 0.6011,
      "step": 53600
    },
    {
      "epoch": 3.3674045274973348,
      "grad_norm": 0.032868873327970505,
      "learning_rate": 3.5227925934957935e-06,
      "loss": 0.4708,
      "step": 53700
    },
    {
      "epoch": 3.37367529942936,
      "grad_norm": 2.3022570610046387,
      "learning_rate": 3.488303227716909e-06,
      "loss": 0.6167,
      "step": 53800
    },
    {
      "epoch": 3.3799460713613847,
      "grad_norm": 0.7494950890541077,
      "learning_rate": 3.453465484505914e-06,
      "loss": 0.7653,
      "step": 53900
    },
    {
      "epoch": 3.3862168432934094,
      "grad_norm": 1.9640907049179077,
      "learning_rate": 3.4186277412949194e-06,
      "loss": 0.7781,
      "step": 54000
    },
    {
      "epoch": 3.3862168432934094,
      "eval_loss": 0.7897498607635498,
      "eval_runtime": 250.7968,
      "eval_samples_per_second": 508.667,
      "eval_steps_per_second": 15.897,
      "step": 54000
    },
    {
      "epoch": 3.392487615225434,
      "grad_norm": 95.03298950195312,
      "learning_rate": 3.3837899980839245e-06,
      "loss": 0.9323,
      "step": 54100
    },
    {
      "epoch": 3.398758387157459,
      "grad_norm": 1.3489042520523071,
      "learning_rate": 3.3489522548729296e-06,
      "loss": 0.6003,
      "step": 54200
    },
    {
      "epoch": 3.4050291590894837,
      "grad_norm": 1.4920170307159424,
      "learning_rate": 3.314114511661935e-06,
      "loss": 0.5268,
      "step": 54300
    },
    {
      "epoch": 3.411299931021509,
      "grad_norm": 71.25545501708984,
      "learning_rate": 3.27927676845094e-06,
      "loss": 0.6639,
      "step": 54400
    },
    {
      "epoch": 3.4175707029535336,
      "grad_norm": 1.5343536138534546,
      "learning_rate": 3.2444390252399456e-06,
      "loss": 0.388,
      "step": 54500
    },
    {
      "epoch": 3.4175707029535336,
      "eval_loss": 0.7854874730110168,
      "eval_runtime": 247.7117,
      "eval_samples_per_second": 515.002,
      "eval_steps_per_second": 16.095,
      "step": 54500
    },
    {
      "epoch": 3.4238414748855583,
      "grad_norm": 0.22106263041496277,
      "learning_rate": 3.2096012820289502e-06,
      "loss": 0.7258,
      "step": 54600
    },
    {
      "epoch": 3.430112246817583,
      "grad_norm": 0.10803945362567902,
      "learning_rate": 3.1747635388179553e-06,
      "loss": 0.6475,
      "step": 54700
    },
    {
      "epoch": 3.4363830187496083,
      "grad_norm": 89.42733764648438,
      "learning_rate": 3.139925795606961e-06,
      "loss": 0.795,
      "step": 54800
    },
    {
      "epoch": 3.442653790681633,
      "grad_norm": 0.15668845176696777,
      "learning_rate": 3.105088052395966e-06,
      "loss": 0.4978,
      "step": 54900
    },
    {
      "epoch": 3.4489245626136578,
      "grad_norm": 60.56550216674805,
      "learning_rate": 3.070250309184971e-06,
      "loss": 0.6259,
      "step": 55000
    },
    {
      "epoch": 3.4489245626136578,
      "eval_loss": 0.7704712748527527,
      "eval_runtime": 250.1048,
      "eval_samples_per_second": 510.074,
      "eval_steps_per_second": 15.941,
      "step": 55000
    },
    {
      "epoch": 3.4551953345456825,
      "grad_norm": 0.28135305643081665,
      "learning_rate": 3.0354125659739764e-06,
      "loss": 0.791,
      "step": 55100
    },
    {
      "epoch": 3.4614661064777072,
      "grad_norm": 120.33629608154297,
      "learning_rate": 3.0005748227629815e-06,
      "loss": 0.7602,
      "step": 55200
    },
    {
      "epoch": 3.467736878409732,
      "grad_norm": 0.6213288903236389,
      "learning_rate": 2.965737079551987e-06,
      "loss": 0.2236,
      "step": 55300
    },
    {
      "epoch": 3.474007650341757,
      "grad_norm": 0.051405176520347595,
      "learning_rate": 2.930899336340992e-06,
      "loss": 0.5577,
      "step": 55400
    },
    {
      "epoch": 3.480278422273782,
      "grad_norm": 6.140790939331055,
      "learning_rate": 2.8960615931299975e-06,
      "loss": 0.4214,
      "step": 55500
    },
    {
      "epoch": 3.480278422273782,
      "eval_loss": 0.768252432346344,
      "eval_runtime": 248.6626,
      "eval_samples_per_second": 513.032,
      "eval_steps_per_second": 16.034,
      "step": 55500
    },
    {
      "epoch": 3.4865491942058067,
      "grad_norm": 0.051673661917448044,
      "learning_rate": 2.8612238499190026e-06,
      "loss": 0.7335,
      "step": 55600
    },
    {
      "epoch": 3.4928199661378314,
      "grad_norm": 5.123118877410889,
      "learning_rate": 2.8263861067080077e-06,
      "loss": 0.7536,
      "step": 55700
    },
    {
      "epoch": 3.4990907380698566,
      "grad_norm": 0.7104228734970093,
      "learning_rate": 2.791548363497013e-06,
      "loss": 0.4577,
      "step": 55800
    },
    {
      "epoch": 3.5053615100018813,
      "grad_norm": 49.410400390625,
      "learning_rate": 2.7567106202860182e-06,
      "loss": 0.5869,
      "step": 55900
    },
    {
      "epoch": 3.511632281933906,
      "grad_norm": 0.0593554824590683,
      "learning_rate": 2.7218728770750237e-06,
      "loss": 0.8563,
      "step": 56000
    },
    {
      "epoch": 3.511632281933906,
      "eval_loss": 0.7587498426437378,
      "eval_runtime": 247.0433,
      "eval_samples_per_second": 516.395,
      "eval_steps_per_second": 16.139,
      "step": 56000
    },
    {
      "epoch": 3.517903053865931,
      "grad_norm": 8.727328300476074,
      "learning_rate": 2.6870351338640284e-06,
      "loss": 0.9291,
      "step": 56100
    },
    {
      "epoch": 3.5241738257979556,
      "grad_norm": 0.023664651438593864,
      "learning_rate": 2.6521973906530334e-06,
      "loss": 0.4387,
      "step": 56200
    },
    {
      "epoch": 3.5304445977299803,
      "grad_norm": 2.834498405456543,
      "learning_rate": 2.617359647442039e-06,
      "loss": 0.4491,
      "step": 56300
    },
    {
      "epoch": 3.5367153696620055,
      "grad_norm": 1.9824761152267456,
      "learning_rate": 2.582870281663154e-06,
      "loss": 0.506,
      "step": 56400
    },
    {
      "epoch": 3.5429861415940302,
      "grad_norm": 0.7142437100410461,
      "learning_rate": 2.5480325384521594e-06,
      "loss": 0.6626,
      "step": 56500
    },
    {
      "epoch": 3.5429861415940302,
      "eval_loss": 0.7634491920471191,
      "eval_runtime": 247.6797,
      "eval_samples_per_second": 515.068,
      "eval_steps_per_second": 16.097,
      "step": 56500
    },
    {
      "epoch": 3.549256913526055,
      "grad_norm": 0.030130065977573395,
      "learning_rate": 2.5131947952411645e-06,
      "loss": 0.8654,
      "step": 56600
    },
    {
      "epoch": 3.5555276854580797,
      "grad_norm": 0.757265031337738,
      "learning_rate": 2.4783570520301695e-06,
      "loss": 0.4455,
      "step": 56700
    },
    {
      "epoch": 3.561798457390105,
      "grad_norm": 130.99807739257812,
      "learning_rate": 2.443519308819175e-06,
      "loss": 0.4593,
      "step": 56800
    },
    {
      "epoch": 3.5680692293221297,
      "grad_norm": 86.36803436279297,
      "learning_rate": 2.40868156560818e-06,
      "loss": 0.878,
      "step": 56900
    },
    {
      "epoch": 3.5743400012541544,
      "grad_norm": 0.8545703887939453,
      "learning_rate": 2.373843822397185e-06,
      "loss": 0.3737,
      "step": 57000
    },
    {
      "epoch": 3.5743400012541544,
      "eval_loss": 0.7617383599281311,
      "eval_runtime": 246.3862,
      "eval_samples_per_second": 517.773,
      "eval_steps_per_second": 16.182,
      "step": 57000
    },
    {
      "epoch": 3.580610773186179,
      "grad_norm": 100.52796173095703,
      "learning_rate": 2.3390060791861902e-06,
      "loss": 0.377,
      "step": 57100
    },
    {
      "epoch": 3.586881545118204,
      "grad_norm": 31.44060516357422,
      "learning_rate": 2.3041683359751957e-06,
      "loss": 0.6894,
      "step": 57200
    },
    {
      "epoch": 3.5931523170502286,
      "grad_norm": 0.2915436625480652,
      "learning_rate": 2.2693305927642008e-06,
      "loss": 0.6635,
      "step": 57300
    },
    {
      "epoch": 3.599423088982254,
      "grad_norm": 0.009617321193218231,
      "learning_rate": 2.2344928495532063e-06,
      "loss": 0.9224,
      "step": 57400
    },
    {
      "epoch": 3.6056938609142786,
      "grad_norm": 0.21305809915065765,
      "learning_rate": 2.1996551063422113e-06,
      "loss": 0.635,
      "step": 57500
    },
    {
      "epoch": 3.6056938609142786,
      "eval_loss": 0.7668555974960327,
      "eval_runtime": 248.1105,
      "eval_samples_per_second": 514.174,
      "eval_steps_per_second": 16.069,
      "step": 57500
    },
    {
      "epoch": 3.6119646328463033,
      "grad_norm": 11.654231071472168,
      "learning_rate": 2.164817363131217e-06,
      "loss": 0.6797,
      "step": 57600
    },
    {
      "epoch": 3.618235404778328,
      "grad_norm": 1.0893511772155762,
      "learning_rate": 2.1299796199202215e-06,
      "loss": 0.9814,
      "step": 57700
    },
    {
      "epoch": 3.6245061767103532,
      "grad_norm": 0.3305797278881073,
      "learning_rate": 2.095141876709227e-06,
      "loss": 0.9893,
      "step": 57800
    },
    {
      "epoch": 3.630776948642378,
      "grad_norm": 0.10635466873645782,
      "learning_rate": 2.060304133498232e-06,
      "loss": 0.6753,
      "step": 57900
    },
    {
      "epoch": 3.6370477205744027,
      "grad_norm": 0.09898664057254791,
      "learning_rate": 2.0254663902872375e-06,
      "loss": 0.8349,
      "step": 58000
    },
    {
      "epoch": 3.6370477205744027,
      "eval_loss": 0.7500940561294556,
      "eval_runtime": 252.1601,
      "eval_samples_per_second": 505.917,
      "eval_steps_per_second": 15.811,
      "step": 58000
    },
    {
      "epoch": 3.6433184925064275,
      "grad_norm": 0.05218241736292839,
      "learning_rate": 1.9906286470762426e-06,
      "loss": 0.8523,
      "step": 58100
    },
    {
      "epoch": 3.649589264438452,
      "grad_norm": 0.648098886013031,
      "learning_rate": 1.9557909038652477e-06,
      "loss": 0.2962,
      "step": 58200
    },
    {
      "epoch": 3.655860036370477,
      "grad_norm": 19.993263244628906,
      "learning_rate": 1.920953160654253e-06,
      "loss": 0.6585,
      "step": 58300
    },
    {
      "epoch": 3.662130808302502,
      "grad_norm": 549.2650146484375,
      "learning_rate": 1.886115417443258e-06,
      "loss": 1.0247,
      "step": 58400
    },
    {
      "epoch": 3.668401580234527,
      "grad_norm": 53.44794464111328,
      "learning_rate": 1.8516260516643734e-06,
      "loss": 0.8638,
      "step": 58500
    },
    {
      "epoch": 3.668401580234527,
      "eval_loss": 0.7576786279678345,
      "eval_runtime": 251.8307,
      "eval_samples_per_second": 506.578,
      "eval_steps_per_second": 15.832,
      "step": 58500
    },
    {
      "epoch": 3.6746723521665516,
      "grad_norm": 0.11638414114713669,
      "learning_rate": 1.8167883084533785e-06,
      "loss": 0.9456,
      "step": 58600
    },
    {
      "epoch": 3.6809431240985764,
      "grad_norm": 0.16805872321128845,
      "learning_rate": 1.7819505652423837e-06,
      "loss": 0.5401,
      "step": 58700
    },
    {
      "epoch": 3.6872138960306016,
      "grad_norm": 161.84934997558594,
      "learning_rate": 1.747112822031389e-06,
      "loss": 0.6602,
      "step": 58800
    },
    {
      "epoch": 3.6934846679626263,
      "grad_norm": 0.16537758708000183,
      "learning_rate": 1.7122750788203943e-06,
      "loss": 0.7543,
      "step": 58900
    },
    {
      "epoch": 3.699755439894651,
      "grad_norm": 82.06924438476562,
      "learning_rate": 1.6774373356093992e-06,
      "loss": 0.7893,
      "step": 59000
    },
    {
      "epoch": 3.699755439894651,
      "eval_loss": 0.7599766850471497,
      "eval_runtime": 255.6784,
      "eval_samples_per_second": 498.955,
      "eval_steps_per_second": 15.594,
      "step": 59000
    },
    {
      "epoch": 3.706026211826676,
      "grad_norm": 123.94532012939453,
      "learning_rate": 1.6425995923984044e-06,
      "loss": 0.7746,
      "step": 59100
    },
    {
      "epoch": 3.7122969837587005,
      "grad_norm": 0.06561436504125595,
      "learning_rate": 1.6077618491874097e-06,
      "loss": 0.6539,
      "step": 59200
    },
    {
      "epoch": 3.7185677556907253,
      "grad_norm": 243.56668090820312,
      "learning_rate": 1.572924105976415e-06,
      "loss": 0.8083,
      "step": 59300
    },
    {
      "epoch": 3.7248385276227505,
      "grad_norm": 0.13773566484451294,
      "learning_rate": 1.5380863627654203e-06,
      "loss": 0.3429,
      "step": 59400
    },
    {
      "epoch": 3.731109299554775,
      "grad_norm": 412.2792053222656,
      "learning_rate": 1.5032486195544256e-06,
      "loss": 0.5005,
      "step": 59500
    },
    {
      "epoch": 3.731109299554775,
      "eval_loss": 0.7445316314697266,
      "eval_runtime": 251.276,
      "eval_samples_per_second": 507.697,
      "eval_steps_per_second": 15.867,
      "step": 59500
    },
    {
      "epoch": 3.7373800714868,
      "grad_norm": 10.323953628540039,
      "learning_rate": 1.4684108763434306e-06,
      "loss": 0.6238,
      "step": 59600
    },
    {
      "epoch": 3.7436508434188247,
      "grad_norm": 34.32875061035156,
      "learning_rate": 1.4335731331324357e-06,
      "loss": 0.4343,
      "step": 59700
    },
    {
      "epoch": 3.74992161535085,
      "grad_norm": 0.08429472893476486,
      "learning_rate": 1.398735389921441e-06,
      "loss": 0.8189,
      "step": 59800
    },
    {
      "epoch": 3.7561923872828746,
      "grad_norm": 68.88423156738281,
      "learning_rate": 1.3638976467104463e-06,
      "loss": 0.6272,
      "step": 59900
    },
    {
      "epoch": 3.7624631592148994,
      "grad_norm": 0.1870589703321457,
      "learning_rate": 1.3290599034994513e-06,
      "loss": 0.2982,
      "step": 60000
    },
    {
      "epoch": 3.7624631592148994,
      "eval_loss": 0.7597461342811584,
      "eval_runtime": 254.4738,
      "eval_samples_per_second": 501.317,
      "eval_steps_per_second": 15.668,
      "step": 60000
    },
    {
      "epoch": 3.768733931146924,
      "grad_norm": 0.051242515444755554,
      "learning_rate": 1.2942221602884566e-06,
      "loss": 0.7028,
      "step": 60100
    },
    {
      "epoch": 3.775004703078949,
      "grad_norm": 187.53872680664062,
      "learning_rate": 1.2593844170774619e-06,
      "loss": 0.9447,
      "step": 60200
    },
    {
      "epoch": 3.7812754750109736,
      "grad_norm": 64.70340728759766,
      "learning_rate": 1.224546673866467e-06,
      "loss": 0.6175,
      "step": 60300
    },
    {
      "epoch": 3.787546246942999,
      "grad_norm": 0.8817376494407654,
      "learning_rate": 1.1897089306554722e-06,
      "loss": 0.5856,
      "step": 60400
    },
    {
      "epoch": 3.7938170188750235,
      "grad_norm": 88.64114379882812,
      "learning_rate": 1.1548711874444775e-06,
      "loss": 0.8249,
      "step": 60500
    },
    {
      "epoch": 3.7938170188750235,
      "eval_loss": 0.750523030757904,
      "eval_runtime": 252.8744,
      "eval_samples_per_second": 504.488,
      "eval_steps_per_second": 15.767,
      "step": 60500
    },
    {
      "epoch": 3.8000877908070483,
      "grad_norm": 0.041767679154872894,
      "learning_rate": 1.1203818216655927e-06,
      "loss": 0.6617,
      "step": 60600
    },
    {
      "epoch": 3.806358562739073,
      "grad_norm": 74.78905487060547,
      "learning_rate": 1.085544078454598e-06,
      "loss": 0.5767,
      "step": 60700
    },
    {
      "epoch": 3.812629334671098,
      "grad_norm": 0.11142675578594208,
      "learning_rate": 1.050706335243603e-06,
      "loss": 1.0094,
      "step": 60800
    },
    {
      "epoch": 3.818900106603123,
      "grad_norm": 92.60441589355469,
      "learning_rate": 1.0158685920326083e-06,
      "loss": 0.471,
      "step": 60900
    },
    {
      "epoch": 3.8251708785351477,
      "grad_norm": 42.58308410644531,
      "learning_rate": 9.810308488216134e-07,
      "loss": 0.6313,
      "step": 61000
    },
    {
      "epoch": 3.8251708785351477,
      "eval_loss": 0.7488948702812195,
      "eval_runtime": 251.0082,
      "eval_samples_per_second": 508.238,
      "eval_steps_per_second": 15.884,
      "step": 61000
    },
    {
      "epoch": 3.8314416504671724,
      "grad_norm": 46.6805305480957,
      "learning_rate": 9.461931056106186e-07,
      "loss": 0.6545,
      "step": 61100
    },
    {
      "epoch": 3.837712422399197,
      "grad_norm": 0.06978940218687057,
      "learning_rate": 9.113553623996238e-07,
      "loss": 0.699,
      "step": 61200
    },
    {
      "epoch": 3.843983194331222,
      "grad_norm": 0.933862030506134,
      "learning_rate": 8.76517619188629e-07,
      "loss": 0.6272,
      "step": 61300
    },
    {
      "epoch": 3.850253966263247,
      "grad_norm": 44.13498306274414,
      "learning_rate": 8.416798759776343e-07,
      "loss": 0.7375,
      "step": 61400
    },
    {
      "epoch": 3.856524738195272,
      "grad_norm": 3.0953245162963867,
      "learning_rate": 8.068421327666394e-07,
      "loss": 0.4213,
      "step": 61500
    },
    {
      "epoch": 3.856524738195272,
      "eval_loss": 0.7490043640136719,
      "eval_runtime": 251.9621,
      "eval_samples_per_second": 506.314,
      "eval_steps_per_second": 15.824,
      "step": 61500
    },
    {
      "epoch": 3.8627955101272966,
      "grad_norm": 15.084046363830566,
      "learning_rate": 7.720043895556446e-07,
      "loss": 0.6631,
      "step": 61600
    },
    {
      "epoch": 3.8690662820593213,
      "grad_norm": 34.3710823059082,
      "learning_rate": 7.371666463446499e-07,
      "loss": 0.552,
      "step": 61700
    },
    {
      "epoch": 3.8753370539913465,
      "grad_norm": 0.2596281170845032,
      "learning_rate": 7.023289031336551e-07,
      "loss": 0.7041,
      "step": 61800
    },
    {
      "epoch": 3.8816078259233713,
      "grad_norm": 0.04028361290693283,
      "learning_rate": 6.674911599226603e-07,
      "loss": 0.8457,
      "step": 61900
    },
    {
      "epoch": 3.887878597855396,
      "grad_norm": 0.2941274344921112,
      "learning_rate": 6.326534167116654e-07,
      "loss": 0.8104,
      "step": 62000
    },
    {
      "epoch": 3.887878597855396,
      "eval_loss": 0.7476946115493774,
      "eval_runtime": 276.1611,
      "eval_samples_per_second": 461.948,
      "eval_steps_per_second": 14.437,
      "step": 62000
    },
    {
      "epoch": 3.8941493697874208,
      "grad_norm": 51.24428939819336,
      "learning_rate": 5.978156735006706e-07,
      "loss": 0.4494,
      "step": 62100
    },
    {
      "epoch": 3.9004201417194455,
      "grad_norm": 89.3067855834961,
      "learning_rate": 5.629779302896759e-07,
      "loss": 0.6947,
      "step": 62200
    },
    {
      "epoch": 3.9066909136514703,
      "grad_norm": 0.06883756071329117,
      "learning_rate": 5.281401870786811e-07,
      "loss": 0.8061,
      "step": 62300
    },
    {
      "epoch": 3.9129616855834954,
      "grad_norm": 0.8000829219818115,
      "learning_rate": 4.933024438676863e-07,
      "loss": 0.416,
      "step": 62400
    },
    {
      "epoch": 3.91923245751552,
      "grad_norm": 119.61589813232422,
      "learning_rate": 4.5846470065669146e-07,
      "loss": 0.7359,
      "step": 62500
    },
    {
      "epoch": 3.91923245751552,
      "eval_loss": 0.7468039989471436,
      "eval_runtime": 257.4303,
      "eval_samples_per_second": 495.559,
      "eval_steps_per_second": 15.488,
      "step": 62500
    },
    {
      "epoch": 3.925503229447545,
      "grad_norm": 0.29899609088897705,
      "learning_rate": 4.2362695744569673e-07,
      "loss": 0.7408,
      "step": 62600
    },
    {
      "epoch": 3.9317740013795697,
      "grad_norm": 112.43661499023438,
      "learning_rate": 3.887892142347019e-07,
      "loss": 0.6255,
      "step": 62700
    },
    {
      "epoch": 3.938044773311595,
      "grad_norm": 474.4875793457031,
      "learning_rate": 3.5395147102370713e-07,
      "loss": 0.7865,
      "step": 62800
    },
    {
      "epoch": 3.9443155452436196,
      "grad_norm": 0.3225669860839844,
      "learning_rate": 3.191137278127123e-07,
      "loss": 0.4879,
      "step": 62900
    },
    {
      "epoch": 3.9505863171756443,
      "grad_norm": 7.089817047119141,
      "learning_rate": 2.8427598460171753e-07,
      "loss": 0.5196,
      "step": 63000
    },
    {
      "epoch": 3.9505863171756443,
      "eval_loss": 0.7484961748123169,
      "eval_runtime": 258.5356,
      "eval_samples_per_second": 493.441,
      "eval_steps_per_second": 15.421,
      "step": 63000
    },
    {
      "epoch": 3.956857089107669,
      "grad_norm": 0.09167669713497162,
      "learning_rate": 2.494382413907227e-07,
      "loss": 0.5683,
      "step": 63100
    },
    {
      "epoch": 3.963127861039694,
      "grad_norm": 12.482440948486328,
      "learning_rate": 2.1460049817972793e-07,
      "loss": 0.5141,
      "step": 63200
    },
    {
      "epoch": 3.9693986329717186,
      "grad_norm": 8.954193115234375,
      "learning_rate": 1.8011113240084312e-07,
      "loss": 0.6068,
      "step": 63300
    },
    {
      "epoch": 3.9756694049037438,
      "grad_norm": 219.27337646484375,
      "learning_rate": 1.452733891898483e-07,
      "loss": 0.5929,
      "step": 63400
    },
    {
      "epoch": 3.9819401768357685,
      "grad_norm": 1.6949673891067505,
      "learning_rate": 1.104356459788535e-07,
      "loss": 0.7513,
      "step": 63500
    },
    {
      "epoch": 3.9819401768357685,
      "eval_loss": 0.7482015490531921,
      "eval_runtime": 257.9174,
      "eval_samples_per_second": 494.623,
      "eval_steps_per_second": 15.458,
      "step": 63500
    },
    {
      "epoch": 3.9882109487677933,
      "grad_norm": 0.34383705258369446,
      "learning_rate": 7.55979027678587e-08,
      "loss": 0.5053,
      "step": 63600
    },
    {
      "epoch": 3.994481720699818,
      "grad_norm": 0.20212756097316742,
      "learning_rate": 4.0760159556863914e-08,
      "loss": 0.5707,
      "step": 63700
    }
  ],
  "logging_steps": 100,
  "max_steps": 63788,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}