{
  "best_metric": 0.16189107298851013,
  "best_model_checkpoint": "checkpoints/rft-finetune-llama-3.1-8b-math50k/math50k/finetune-llama-3.1-8b-math50k-step-1/checkpoint-2421",
  "epoch": 0.999721059972106,
  "eval_steps": 269,
  "global_step": 2688,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0018596001859600185,
      "grad_norm": 23.25,
      "learning_rate": 1.8587360594795542e-07,
      "loss": 0.5644,
      "step": 5
    },
    {
      "epoch": 0.003719200371920037,
      "grad_norm": 24.625,
      "learning_rate": 3.7174721189591085e-07,
      "loss": 0.5677,
      "step": 10
    },
    {
      "epoch": 0.005578800557880056,
      "grad_norm": 20.625,
      "learning_rate": 5.576208178438662e-07,
      "loss": 0.5478,
      "step": 15
    },
    {
      "epoch": 0.007438400743840074,
      "grad_norm": 18.125,
      "learning_rate": 7.434944237918217e-07,
      "loss": 0.5364,
      "step": 20
    },
    {
      "epoch": 0.009298000929800094,
      "grad_norm": 17.875,
      "learning_rate": 9.29368029739777e-07,
      "loss": 0.4842,
      "step": 25
    },
    {
      "epoch": 0.011157601115760111,
      "grad_norm": 14.3125,
      "learning_rate": 1.1152416356877324e-06,
      "loss": 0.4142,
      "step": 30
    },
    {
      "epoch": 0.01301720130172013,
      "grad_norm": 14.75,
      "learning_rate": 1.3011152416356879e-06,
      "loss": 0.3353,
      "step": 35
    },
    {
      "epoch": 0.014876801487680148,
      "grad_norm": 8.4375,
      "learning_rate": 1.4869888475836434e-06,
      "loss": 0.2517,
      "step": 40
    },
    {
      "epoch": 0.016736401673640166,
      "grad_norm": 5.875,
      "learning_rate": 1.6728624535315987e-06,
      "loss": 0.1879,
      "step": 45
    },
    {
      "epoch": 0.018596001859600187,
      "grad_norm": 3.5625,
      "learning_rate": 1.858736059479554e-06,
      "loss": 0.1624,
      "step": 50
    },
    {
      "epoch": 0.020455602045560205,
      "grad_norm": 2.984375,
      "learning_rate": 2.0446096654275095e-06,
      "loss": 0.1526,
      "step": 55
    },
    {
      "epoch": 0.022315202231520222,
      "grad_norm": 3.328125,
      "learning_rate": 2.2304832713754648e-06,
      "loss": 0.1651,
      "step": 60
    },
    {
      "epoch": 0.02417480241748024,
      "grad_norm": 3.046875,
      "learning_rate": 2.41635687732342e-06,
      "loss": 0.1557,
      "step": 65
    },
    {
      "epoch": 0.02603440260344026,
      "grad_norm": 2.890625,
      "learning_rate": 2.6022304832713758e-06,
      "loss": 0.1586,
      "step": 70
    },
    {
      "epoch": 0.02789400278940028,
      "grad_norm": 2.546875,
      "learning_rate": 2.788104089219331e-06,
      "loss": 0.1491,
      "step": 75
    },
    {
      "epoch": 0.029753602975360297,
      "grad_norm": 2.671875,
      "learning_rate": 2.973977695167287e-06,
      "loss": 0.1569,
      "step": 80
    },
    {
      "epoch": 0.03161320316132032,
      "grad_norm": 2.640625,
      "learning_rate": 3.159851301115242e-06,
      "loss": 0.1491,
      "step": 85
    },
    {
      "epoch": 0.03347280334728033,
      "grad_norm": 2.234375,
      "learning_rate": 3.3457249070631974e-06,
      "loss": 0.1459,
      "step": 90
    },
    {
      "epoch": 0.03533240353324035,
      "grad_norm": 2.453125,
      "learning_rate": 3.531598513011153e-06,
      "loss": 0.1548,
      "step": 95
    },
    {
      "epoch": 0.037192003719200374,
      "grad_norm": 2.265625,
      "learning_rate": 3.717472118959108e-06,
      "loss": 0.1529,
      "step": 100
    },
    {
      "epoch": 0.03905160390516039,
      "grad_norm": 2.5625,
      "learning_rate": 3.903345724907064e-06,
      "loss": 0.1543,
      "step": 105
    },
    {
      "epoch": 0.04091120409112041,
      "grad_norm": 2.453125,
      "learning_rate": 4.089219330855019e-06,
      "loss": 0.1521,
      "step": 110
    },
    {
      "epoch": 0.04277080427708043,
      "grad_norm": 2.5,
      "learning_rate": 4.275092936802974e-06,
      "loss": 0.153,
      "step": 115
    },
    {
      "epoch": 0.044630404463040445,
      "grad_norm": 2.515625,
      "learning_rate": 4.4609665427509296e-06,
      "loss": 0.1423,
      "step": 120
    },
    {
      "epoch": 0.046490004649000466,
      "grad_norm": 2.609375,
      "learning_rate": 4.646840148698885e-06,
      "loss": 0.1479,
      "step": 125
    },
    {
      "epoch": 0.04834960483496048,
      "grad_norm": 2.328125,
      "learning_rate": 4.83271375464684e-06,
      "loss": 0.1501,
      "step": 130
    },
    {
      "epoch": 0.0502092050209205,
      "grad_norm": 2.796875,
      "learning_rate": 5.0185873605947954e-06,
      "loss": 0.1611,
      "step": 135
    },
    {
      "epoch": 0.05206880520688052,
      "grad_norm": 2.484375,
      "learning_rate": 5.2044609665427516e-06,
      "loss": 0.1506,
      "step": 140
    },
    {
      "epoch": 0.05392840539284054,
      "grad_norm": 2.578125,
      "learning_rate": 5.390334572490706e-06,
      "loss": 0.1532,
      "step": 145
    },
    {
      "epoch": 0.05578800557880056,
      "grad_norm": 2.5625,
      "learning_rate": 5.576208178438662e-06,
      "loss": 0.1523,
      "step": 150
    },
    {
      "epoch": 0.05764760576476058,
      "grad_norm": 2.859375,
      "learning_rate": 5.7620817843866174e-06,
      "loss": 0.1584,
      "step": 155
    },
    {
      "epoch": 0.05950720595072059,
      "grad_norm": 2.59375,
      "learning_rate": 5.947955390334574e-06,
      "loss": 0.1504,
      "step": 160
    },
    {
      "epoch": 0.061366806136680614,
      "grad_norm": 2.609375,
      "learning_rate": 6.133828996282528e-06,
      "loss": 0.1609,
      "step": 165
    },
    {
      "epoch": 0.06322640632264064,
      "grad_norm": 2.28125,
      "learning_rate": 6.319702602230484e-06,
      "loss": 0.1546,
      "step": 170
    },
    {
      "epoch": 0.06508600650860065,
      "grad_norm": 2.421875,
      "learning_rate": 6.5055762081784395e-06,
      "loss": 0.1492,
      "step": 175
    },
    {
      "epoch": 0.06694560669456066,
      "grad_norm": 3.34375,
      "learning_rate": 6.691449814126395e-06,
      "loss": 0.1427,
      "step": 180
    },
    {
      "epoch": 0.06880520688052069,
      "grad_norm": 2.625,
      "learning_rate": 6.87732342007435e-06,
      "loss": 0.1569,
      "step": 185
    },
    {
      "epoch": 0.0706648070664807,
      "grad_norm": 2.21875,
      "learning_rate": 7.063197026022306e-06,
      "loss": 0.1523,
      "step": 190
    },
    {
      "epoch": 0.07252440725244072,
      "grad_norm": 3.046875,
      "learning_rate": 7.249070631970261e-06,
      "loss": 0.1609,
      "step": 195
    },
    {
      "epoch": 0.07438400743840075,
      "grad_norm": 2.359375,
      "learning_rate": 7.434944237918216e-06,
      "loss": 0.1586,
      "step": 200
    },
    {
      "epoch": 0.07624360762436076,
      "grad_norm": 2.609375,
      "learning_rate": 7.620817843866172e-06,
      "loss": 0.1536,
      "step": 205
    },
    {
      "epoch": 0.07810320781032078,
      "grad_norm": 2.671875,
      "learning_rate": 7.806691449814127e-06,
      "loss": 0.1632,
      "step": 210
    },
    {
      "epoch": 0.0799628079962808,
      "grad_norm": 2.4375,
      "learning_rate": 7.992565055762083e-06,
      "loss": 0.1558,
      "step": 215
    },
    {
      "epoch": 0.08182240818224082,
      "grad_norm": 2.4375,
      "learning_rate": 8.178438661710038e-06,
      "loss": 0.1534,
      "step": 220
    },
    {
      "epoch": 0.08368200836820083,
      "grad_norm": 2.78125,
      "learning_rate": 8.364312267657993e-06,
      "loss": 0.1576,
      "step": 225
    },
    {
      "epoch": 0.08554160855416086,
      "grad_norm": 2.40625,
      "learning_rate": 8.550185873605949e-06,
      "loss": 0.1643,
      "step": 230
    },
    {
      "epoch": 0.08740120874012088,
      "grad_norm": 2.609375,
      "learning_rate": 8.736059479553904e-06,
      "loss": 0.1599,
      "step": 235
    },
    {
      "epoch": 0.08926080892608089,
      "grad_norm": 2.5625,
      "learning_rate": 8.921933085501859e-06,
      "loss": 0.1573,
      "step": 240
    },
    {
      "epoch": 0.09112040911204092,
      "grad_norm": 2.828125,
      "learning_rate": 9.107806691449816e-06,
      "loss": 0.1614,
      "step": 245
    },
    {
      "epoch": 0.09298000929800093,
      "grad_norm": 2.296875,
      "learning_rate": 9.29368029739777e-06,
      "loss": 0.152,
      "step": 250
    },
    {
      "epoch": 0.09483960948396095,
      "grad_norm": 2.625,
      "learning_rate": 9.479553903345727e-06,
      "loss": 0.1531,
      "step": 255
    },
    {
      "epoch": 0.09669920966992096,
      "grad_norm": 2.4375,
      "learning_rate": 9.66542750929368e-06,
      "loss": 0.1592,
      "step": 260
    },
    {
      "epoch": 0.09855880985588099,
      "grad_norm": 2.609375,
      "learning_rate": 9.851301115241636e-06,
      "loss": 0.158,
      "step": 265
    },
    {
      "epoch": 0.100046490004649,
      "eval_loss": 0.182636097073555,
      "eval_runtime": 33.5333,
      "eval_samples_per_second": 306.71,
      "eval_steps_per_second": 9.602,
      "step": 269
    },
    {
      "epoch": 0.100418410041841,
      "grad_norm": 2.71875,
      "learning_rate": 9.99586606035552e-06,
      "loss": 0.1626,
      "step": 270
    },
    {
      "epoch": 0.10227801022780102,
      "grad_norm": 2.609375,
      "learning_rate": 9.975196362133114e-06,
      "loss": 0.1612,
      "step": 275
    },
    {
      "epoch": 0.10413761041376104,
      "grad_norm": 2.875,
      "learning_rate": 9.954526663910708e-06,
      "loss": 0.1575,
      "step": 280
    },
    {
      "epoch": 0.10599721059972106,
      "grad_norm": 2.421875,
      "learning_rate": 9.933856965688302e-06,
      "loss": 0.1661,
      "step": 285
    },
    {
      "epoch": 0.10785681078568107,
      "grad_norm": 2.46875,
      "learning_rate": 9.913187267465896e-06,
      "loss": 0.1663,
      "step": 290
    },
    {
      "epoch": 0.1097164109716411,
      "grad_norm": 2.578125,
      "learning_rate": 9.89251756924349e-06,
      "loss": 0.1742,
      "step": 295
    },
    {
      "epoch": 0.11157601115760112,
      "grad_norm": 2.578125,
      "learning_rate": 9.871847871021084e-06,
      "loss": 0.1564,
      "step": 300
    },
    {
      "epoch": 0.11343561134356113,
      "grad_norm": 4.125,
      "learning_rate": 9.851178172798678e-06,
      "loss": 0.1633,
      "step": 305
    },
    {
      "epoch": 0.11529521152952116,
      "grad_norm": 2.765625,
      "learning_rate": 9.830508474576272e-06,
      "loss": 0.1665,
      "step": 310
    },
    {
      "epoch": 0.11715481171548117,
      "grad_norm": 2.921875,
      "learning_rate": 9.809838776353866e-06,
      "loss": 0.1739,
      "step": 315
    },
    {
      "epoch": 0.11901441190144119,
      "grad_norm": 2.296875,
      "learning_rate": 9.78916907813146e-06,
      "loss": 0.1621,
      "step": 320
    },
    {
      "epoch": 0.12087401208740121,
      "grad_norm": 2.5625,
      "learning_rate": 9.768499379909055e-06,
      "loss": 0.167,
      "step": 325
    },
    {
      "epoch": 0.12273361227336123,
      "grad_norm": 2.703125,
      "learning_rate": 9.747829681686649e-06,
      "loss": 0.167,
      "step": 330
    },
    {
      "epoch": 0.12459321245932124,
      "grad_norm": 2.75,
      "learning_rate": 9.727159983464243e-06,
      "loss": 0.1601,
      "step": 335
    },
    {
      "epoch": 0.12645281264528127,
      "grad_norm": 2.703125,
      "learning_rate": 9.706490285241837e-06,
      "loss": 0.1705,
      "step": 340
    },
    {
      "epoch": 0.12831241283124128,
      "grad_norm": 2.59375,
      "learning_rate": 9.685820587019429e-06,
      "loss": 0.1575,
      "step": 345
    },
    {
      "epoch": 0.1301720130172013,
      "grad_norm": 2.40625,
      "learning_rate": 9.665150888797025e-06,
      "loss": 0.161,
      "step": 350
    },
    {
      "epoch": 0.1320316132031613,
      "grad_norm": 2.3125,
      "learning_rate": 9.644481190574619e-06,
      "loss": 0.1734,
      "step": 355
    },
    {
      "epoch": 0.13389121338912133,
      "grad_norm": 2.40625,
      "learning_rate": 9.623811492352211e-06,
      "loss": 0.1635,
      "step": 360
    },
    {
      "epoch": 0.13575081357508137,
      "grad_norm": 2.53125,
      "learning_rate": 9.603141794129807e-06,
      "loss": 0.1536,
      "step": 365
    },
    {
      "epoch": 0.13761041376104138,
      "grad_norm": 2.5625,
      "learning_rate": 9.5824720959074e-06,
      "loss": 0.1595,
      "step": 370
    },
    {
      "epoch": 0.1394700139470014,
      "grad_norm": 2.96875,
      "learning_rate": 9.561802397684995e-06,
      "loss": 0.1638,
      "step": 375
    },
    {
      "epoch": 0.1413296141329614,
      "grad_norm": 2.46875,
      "learning_rate": 9.54113269946259e-06,
      "loss": 0.1649,
      "step": 380
    },
    {
      "epoch": 0.14318921431892143,
      "grad_norm": 2.65625,
      "learning_rate": 9.520463001240182e-06,
      "loss": 0.1559,
      "step": 385
    },
    {
      "epoch": 0.14504881450488144,
      "grad_norm": 2.84375,
      "learning_rate": 9.499793303017778e-06,
      "loss": 0.1628,
      "step": 390
    },
    {
      "epoch": 0.14690841469084148,
      "grad_norm": 2.484375,
      "learning_rate": 9.47912360479537e-06,
      "loss": 0.1653,
      "step": 395
    },
    {
      "epoch": 0.1487680148768015,
      "grad_norm": 2.78125,
      "learning_rate": 9.458453906572966e-06,
      "loss": 0.1589,
      "step": 400
    },
    {
      "epoch": 0.1506276150627615,
      "grad_norm": 2.265625,
      "learning_rate": 9.437784208350558e-06,
      "loss": 0.1548,
      "step": 405
    },
    {
      "epoch": 0.15248721524872152,
      "grad_norm": 2.34375,
      "learning_rate": 9.417114510128152e-06,
      "loss": 0.1567,
      "step": 410
    },
    {
      "epoch": 0.15434681543468154,
      "grad_norm": 3.0625,
      "learning_rate": 9.396444811905748e-06,
      "loss": 0.1611,
      "step": 415
    },
    {
      "epoch": 0.15620641562064155,
      "grad_norm": 2.65625,
      "learning_rate": 9.37577511368334e-06,
      "loss": 0.1647,
      "step": 420
    },
    {
      "epoch": 0.15806601580660157,
      "grad_norm": 2.796875,
      "learning_rate": 9.355105415460936e-06,
      "loss": 0.1594,
      "step": 425
    },
    {
      "epoch": 0.1599256159925616,
      "grad_norm": 2.34375,
      "learning_rate": 9.334435717238529e-06,
      "loss": 0.1607,
      "step": 430
    },
    {
      "epoch": 0.16178521617852162,
      "grad_norm": 2.421875,
      "learning_rate": 9.313766019016123e-06,
      "loss": 0.1591,
      "step": 435
    },
    {
      "epoch": 0.16364481636448164,
      "grad_norm": 2.359375,
      "learning_rate": 9.293096320793717e-06,
      "loss": 0.1596,
      "step": 440
    },
    {
      "epoch": 0.16550441655044165,
      "grad_norm": 2.53125,
      "learning_rate": 9.27242662257131e-06,
      "loss": 0.1562,
      "step": 445
    },
    {
      "epoch": 0.16736401673640167,
      "grad_norm": 2.359375,
      "learning_rate": 9.251756924348905e-06,
      "loss": 0.1604,
      "step": 450
    },
    {
      "epoch": 0.16922361692236168,
      "grad_norm": 2.578125,
      "learning_rate": 9.231087226126499e-06,
      "loss": 0.1637,
      "step": 455
    },
    {
      "epoch": 0.17108321710832172,
      "grad_norm": 2.734375,
      "learning_rate": 9.210417527904093e-06,
      "loss": 0.1543,
      "step": 460
    },
    {
      "epoch": 0.17294281729428174,
      "grad_norm": 2.375,
      "learning_rate": 9.189747829681687e-06,
      "loss": 0.1573,
      "step": 465
    },
    {
      "epoch": 0.17480241748024175,
      "grad_norm": 2.34375,
      "learning_rate": 9.169078131459281e-06,
      "loss": 0.1511,
      "step": 470
    },
    {
      "epoch": 0.17666201766620176,
      "grad_norm": 2.3125,
      "learning_rate": 9.148408433236875e-06,
      "loss": 0.152,
      "step": 475
    },
    {
      "epoch": 0.17852161785216178,
      "grad_norm": 2.90625,
      "learning_rate": 9.12773873501447e-06,
      "loss": 0.1561,
      "step": 480
    },
    {
      "epoch": 0.1803812180381218,
      "grad_norm": 2.375,
      "learning_rate": 9.107069036792063e-06,
      "loss": 0.1557,
      "step": 485
    },
    {
      "epoch": 0.18224081822408184,
      "grad_norm": 2.234375,
      "learning_rate": 9.086399338569657e-06,
      "loss": 0.159,
      "step": 490
    },
    {
      "epoch": 0.18410041841004185,
      "grad_norm": 2.359375,
      "learning_rate": 9.065729640347252e-06,
      "loss": 0.1493,
      "step": 495
    },
    {
      "epoch": 0.18596001859600186,
      "grad_norm": 2.765625,
      "learning_rate": 9.045059942124846e-06,
      "loss": 0.1604,
      "step": 500
    },
    {
      "epoch": 0.18781961878196188,
      "grad_norm": 2.28125,
      "learning_rate": 9.02439024390244e-06,
      "loss": 0.159,
      "step": 505
    },
    {
      "epoch": 0.1896792189679219,
      "grad_norm": 2.625,
      "learning_rate": 9.003720545680034e-06,
      "loss": 0.1663,
      "step": 510
    },
    {
      "epoch": 0.1915388191538819,
      "grad_norm": 2.609375,
      "learning_rate": 8.983050847457628e-06,
      "loss": 0.1559,
      "step": 515
    },
    {
      "epoch": 0.19339841933984192,
      "grad_norm": 2.421875,
      "learning_rate": 8.962381149235222e-06,
      "loss": 0.1528,
      "step": 520
    },
    {
      "epoch": 0.19525801952580196,
      "grad_norm": 2.234375,
      "learning_rate": 8.941711451012816e-06,
      "loss": 0.1544,
      "step": 525
    },
    {
      "epoch": 0.19711761971176198,
      "grad_norm": 2.609375,
      "learning_rate": 8.92104175279041e-06,
      "loss": 0.1559,
      "step": 530
    },
    {
      "epoch": 0.198977219897722,
      "grad_norm": 2.640625,
      "learning_rate": 8.900372054568004e-06,
      "loss": 0.1648,
      "step": 535
    },
    {
      "epoch": 0.200092980009298,
      "eval_loss": 0.17836953699588776,
      "eval_runtime": 33.5274,
      "eval_samples_per_second": 306.764,
      "eval_steps_per_second": 9.604,
      "step": 538
    },
    {
      "epoch": 0.200836820083682,
      "grad_norm": 2.3125,
      "learning_rate": 8.879702356345598e-06,
      "loss": 0.168,
      "step": 540
    },
    {
      "epoch": 0.20269642026964202,
      "grad_norm": 2.109375,
      "learning_rate": 8.859032658123192e-06,
      "loss": 0.1605,
      "step": 545
    },
    {
      "epoch": 0.20455602045560203,
      "grad_norm": 2.796875,
      "learning_rate": 8.838362959900786e-06,
      "loss": 0.1626,
      "step": 550
    },
    {
      "epoch": 0.20641562064156208,
      "grad_norm": 2.203125,
      "learning_rate": 8.81769326167838e-06,
      "loss": 0.1535,
      "step": 555
    },
    {
      "epoch": 0.2082752208275221,
      "grad_norm": 2.546875,
      "learning_rate": 8.797023563455975e-06,
      "loss": 0.1566,
      "step": 560
    },
    {
      "epoch": 0.2101348210134821,
      "grad_norm": 2.4375,
      "learning_rate": 8.776353865233567e-06,
      "loss": 0.1587,
      "step": 565
    },
    {
      "epoch": 0.21199442119944212,
      "grad_norm": 2.640625,
      "learning_rate": 8.755684167011163e-06,
      "loss": 0.1609,
      "step": 570
    },
    {
      "epoch": 0.21385402138540213,
      "grad_norm": 2.828125,
      "learning_rate": 8.735014468788757e-06,
      "loss": 0.1522,
      "step": 575
    },
    {
      "epoch": 0.21571362157136215,
      "grad_norm": 2.28125,
      "learning_rate": 8.714344770566351e-06,
      "loss": 0.1631,
      "step": 580
    },
    {
      "epoch": 0.2175732217573222,
      "grad_norm": 2.28125,
      "learning_rate": 8.693675072343945e-06,
      "loss": 0.1662,
      "step": 585
    },
    {
      "epoch": 0.2194328219432822,
      "grad_norm": 2.328125,
      "learning_rate": 8.673005374121537e-06,
      "loss": 0.154,
      "step": 590
    },
    {
      "epoch": 0.22129242212924222,
      "grad_norm": 2.171875,
      "learning_rate": 8.652335675899133e-06,
      "loss": 0.1576,
      "step": 595
    },
    {
      "epoch": 0.22315202231520223,
      "grad_norm": 2.53125,
      "learning_rate": 8.631665977676727e-06,
      "loss": 0.1599,
      "step": 600
    },
    {
      "epoch": 0.22501162250116225,
      "grad_norm": 2.046875,
      "learning_rate": 8.610996279454321e-06,
      "loss": 0.1563,
      "step": 605
    },
    {
      "epoch": 0.22687122268712226,
      "grad_norm": 2.453125,
      "learning_rate": 8.590326581231915e-06,
      "loss": 0.1585,
      "step": 610
    },
    {
      "epoch": 0.22873082287308227,
      "grad_norm": 2.40625,
      "learning_rate": 8.569656883009508e-06,
      "loss": 0.1566,
      "step": 615
    },
    {
      "epoch": 0.23059042305904232,
      "grad_norm": 2.328125,
      "learning_rate": 8.548987184787104e-06,
      "loss": 0.16,
      "step": 620
    },
    {
      "epoch": 0.23245002324500233,
      "grad_norm": 2.109375,
      "learning_rate": 8.528317486564696e-06,
      "loss": 0.1503,
      "step": 625
    },
    {
      "epoch": 0.23430962343096234,
      "grad_norm": 2.375,
      "learning_rate": 8.507647788342292e-06,
      "loss": 0.158,
      "step": 630
    },
    {
      "epoch": 0.23616922361692236,
      "grad_norm": 2.609375,
      "learning_rate": 8.486978090119886e-06,
      "loss": 0.1615,
      "step": 635
    },
    {
      "epoch": 0.23802882380288237,
      "grad_norm": 2.296875,
      "learning_rate": 8.466308391897478e-06,
      "loss": 0.1569,
      "step": 640
    },
    {
      "epoch": 0.2398884239888424,
      "grad_norm": 2.953125,
      "learning_rate": 8.445638693675074e-06,
      "loss": 0.1536,
      "step": 645
    },
    {
      "epoch": 0.24174802417480243,
      "grad_norm": 2.4375,
      "learning_rate": 8.424968995452666e-06,
      "loss": 0.1525,
      "step": 650
    },
    {
      "epoch": 0.24360762436076244,
      "grad_norm": 2.359375,
      "learning_rate": 8.40429929723026e-06,
      "loss": 0.1461,
      "step": 655
    },
    {
      "epoch": 0.24546722454672246,
      "grad_norm": 2.546875,
      "learning_rate": 8.383629599007855e-06,
      "loss": 0.1585,
      "step": 660
    },
    {
      "epoch": 0.24732682473268247,
      "grad_norm": 2.390625,
      "learning_rate": 8.362959900785449e-06,
      "loss": 0.1494,
      "step": 665
    },
    {
      "epoch": 0.24918642491864249,
      "grad_norm": 2.53125,
      "learning_rate": 8.342290202563044e-06,
      "loss": 0.1589,
      "step": 670
    },
    {
      "epoch": 0.2510460251046025,
      "grad_norm": 2.5,
      "learning_rate": 8.321620504340637e-06,
      "loss": 0.1554,
      "step": 675
    },
    {
      "epoch": 0.25290562529056254,
      "grad_norm": 2.515625,
      "learning_rate": 8.30095080611823e-06,
      "loss": 0.1539,
      "step": 680
    },
    {
      "epoch": 0.2547652254765225,
      "grad_norm": 2.296875,
      "learning_rate": 8.280281107895825e-06,
      "loss": 0.1518,
      "step": 685
    },
    {
      "epoch": 0.25662482566248257,
      "grad_norm": 2.578125,
      "learning_rate": 8.259611409673419e-06,
      "loss": 0.1545,
      "step": 690
    },
    {
      "epoch": 0.2584844258484426,
      "grad_norm": 2.515625,
      "learning_rate": 8.238941711451015e-06,
      "loss": 0.1535,
      "step": 695
    },
    {
      "epoch": 0.2603440260344026,
      "grad_norm": 2.484375,
      "learning_rate": 8.218272013228607e-06,
      "loss": 0.1541,
      "step": 700
    },
    {
      "epoch": 0.26220362622036264,
      "grad_norm": 2.3125,
      "learning_rate": 8.197602315006201e-06,
      "loss": 0.1518,
      "step": 705
    },
    {
      "epoch": 0.2640632264063226,
      "grad_norm": 2.328125,
      "learning_rate": 8.176932616783795e-06,
      "loss": 0.1532,
      "step": 710
    },
    {
      "epoch": 0.26592282659228267,
      "grad_norm": 2.3125,
      "learning_rate": 8.15626291856139e-06,
      "loss": 0.1554,
      "step": 715
    },
    {
      "epoch": 0.26778242677824265,
      "grad_norm": 2.09375,
      "learning_rate": 8.135593220338983e-06,
      "loss": 0.1485,
      "step": 720
    },
    {
      "epoch": 0.2696420269642027,
      "grad_norm": 2.234375,
      "learning_rate": 8.114923522116578e-06,
      "loss": 0.1564,
      "step": 725
    },
    {
      "epoch": 0.27150162715016274,
      "grad_norm": 2.171875,
      "learning_rate": 8.094253823894172e-06,
      "loss": 0.1523,
      "step": 730
    },
    {
      "epoch": 0.2733612273361227,
      "grad_norm": 2.28125,
      "learning_rate": 8.073584125671766e-06,
      "loss": 0.1565,
      "step": 735
    },
    {
      "epoch": 0.27522082752208277,
      "grad_norm": 2.171875,
      "learning_rate": 8.05291442744936e-06,
      "loss": 0.1482,
      "step": 740
    },
    {
      "epoch": 0.27708042770804275,
      "grad_norm": 2.296875,
      "learning_rate": 8.032244729226954e-06,
      "loss": 0.155,
      "step": 745
    },
    {
      "epoch": 0.2789400278940028,
      "grad_norm": 2.390625,
      "learning_rate": 8.011575031004548e-06,
      "loss": 0.1449,
      "step": 750
    },
    {
      "epoch": 0.2807996280799628,
      "grad_norm": 2.109375,
      "learning_rate": 7.990905332782142e-06,
      "loss": 0.151,
      "step": 755
    },
    {
      "epoch": 0.2826592282659228,
      "grad_norm": 2.5,
      "learning_rate": 7.970235634559736e-06,
      "loss": 0.1576,
      "step": 760
    },
    {
      "epoch": 0.28451882845188287,
      "grad_norm": 2.296875,
      "learning_rate": 7.94956593633733e-06,
      "loss": 0.1625,
      "step": 765
    },
    {
      "epoch": 0.28637842863784285,
      "grad_norm": 2.5,
      "learning_rate": 7.928896238114924e-06,
      "loss": 0.1558,
      "step": 770
    },
    {
      "epoch": 0.2882380288238029,
      "grad_norm": 2.453125,
      "learning_rate": 7.908226539892518e-06,
      "loss": 0.1512,
      "step": 775
    },
    {
      "epoch": 0.2900976290097629,
      "grad_norm": 2.171875,
      "learning_rate": 7.887556841670112e-06,
      "loss": 0.1568,
      "step": 780
    },
    {
      "epoch": 0.2919572291957229,
      "grad_norm": 2.34375,
      "learning_rate": 7.866887143447707e-06,
      "loss": 0.1561,
      "step": 785
    },
    {
      "epoch": 0.29381682938168296,
      "grad_norm": 2.40625,
      "learning_rate": 7.8462174452253e-06,
      "loss": 0.1592,
      "step": 790
    },
    {
      "epoch": 0.29567642956764295,
      "grad_norm": 2.1875,
      "learning_rate": 7.825547747002895e-06,
      "loss": 0.1481,
      "step": 795
    },
    {
      "epoch": 0.297536029753603,
      "grad_norm": 2.015625,
      "learning_rate": 7.804878048780489e-06,
      "loss": 0.1478,
      "step": 800
    },
    {
      "epoch": 0.299395629939563,
      "grad_norm": 2.125,
      "learning_rate": 7.784208350558083e-06,
      "loss": 0.1562,
      "step": 805
    },
    {
      "epoch": 0.300139470013947,
      "eval_loss": 0.17311781644821167,
      "eval_runtime": 33.5454,
      "eval_samples_per_second": 306.599,
      "eval_steps_per_second": 9.599,
      "step": 807
    },
    {
      "epoch": 0.301255230125523,
      "grad_norm": 2.234375,
      "learning_rate": 7.763538652335677e-06,
      "loss": 0.1632,
      "step": 810
    },
    {
      "epoch": 0.303114830311483,
      "grad_norm": 2.25,
      "learning_rate": 7.742868954113271e-06,
      "loss": 0.1533,
      "step": 815
    },
    {
      "epoch": 0.30497443049744305,
      "grad_norm": 2.3125,
      "learning_rate": 7.722199255890865e-06,
      "loss": 0.1567,
      "step": 820
    },
    {
      "epoch": 0.3068340306834031,
      "grad_norm": 2.46875,
      "learning_rate": 7.70152955766846e-06,
      "loss": 0.1494,
      "step": 825
    },
    {
      "epoch": 0.3086936308693631,
      "grad_norm": 2.375,
      "learning_rate": 7.680859859446053e-06,
      "loss": 0.1539,
      "step": 830
    },
    {
      "epoch": 0.3105532310553231,
      "grad_norm": 2.453125,
      "learning_rate": 7.660190161223646e-06,
      "loss": 0.152,
      "step": 835
    },
    {
      "epoch": 0.3124128312412831,
      "grad_norm": 2.234375,
      "learning_rate": 7.639520463001241e-06,
      "loss": 0.1491,
      "step": 840
    },
    {
      "epoch": 0.31427243142724315,
      "grad_norm": 2.4375,
      "learning_rate": 7.618850764778835e-06,
      "loss": 0.1475,
      "step": 845
    },
    {
      "epoch": 0.31613203161320313,
      "grad_norm": 2.546875,
      "learning_rate": 7.59818106655643e-06,
      "loss": 0.1527,
      "step": 850
    },
    {
      "epoch": 0.3179916317991632,
      "grad_norm": 2.453125,
      "learning_rate": 7.577511368334023e-06,
      "loss": 0.1527,
      "step": 855
    },
    {
      "epoch": 0.3198512319851232,
      "grad_norm": 2.09375,
      "learning_rate": 7.556841670111617e-06,
      "loss": 0.1491,
      "step": 860
    },
    {
      "epoch": 0.3217108321710832,
      "grad_norm": 2.578125,
      "learning_rate": 7.536171971889211e-06,
      "loss": 0.1509,
      "step": 865
    },
    {
      "epoch": 0.32357043235704325,
      "grad_norm": 2.390625,
      "learning_rate": 7.515502273666805e-06,
      "loss": 0.1501,
      "step": 870
    },
    {
      "epoch": 0.32543003254300323,
      "grad_norm": 2.46875,
      "learning_rate": 7.4948325754444e-06,
      "loss": 0.1509,
      "step": 875
    },
    {
      "epoch": 0.3272896327289633,
      "grad_norm": 1.9296875,
      "learning_rate": 7.474162877221993e-06,
      "loss": 0.1449,
      "step": 880
    },
    {
      "epoch": 0.3291492329149233,
      "grad_norm": 2.125,
      "learning_rate": 7.4534931789995864e-06,
      "loss": 0.148,
      "step": 885
    },
    {
      "epoch": 0.3310088331008833,
      "grad_norm": 1.8984375,
      "learning_rate": 7.432823480777181e-06,
      "loss": 0.1459,
      "step": 890
    },
    {
      "epoch": 0.33286843328684335,
      "grad_norm": 2.28125,
      "learning_rate": 7.4121537825547755e-06,
      "loss": 0.1604,
      "step": 895
    },
    {
      "epoch": 0.33472803347280333,
      "grad_norm": 2.171875,
      "learning_rate": 7.3914840843323695e-06,
      "loss": 0.1491,
      "step": 900
    },
    {
      "epoch": 0.3365876336587634,
      "grad_norm": 1.8828125,
      "learning_rate": 7.370814386109964e-06,
      "loss": 0.1453,
      "step": 905
    },
    {
      "epoch": 0.33844723384472336,
      "grad_norm": 2.203125,
      "learning_rate": 7.350144687887557e-06,
      "loss": 0.1485,
      "step": 910
    },
    {
      "epoch": 0.3403068340306834,
      "grad_norm": 2.921875,
      "learning_rate": 7.329474989665152e-06,
      "loss": 0.1503,
      "step": 915
    },
    {
      "epoch": 0.34216643421664344,
      "grad_norm": 2.21875,
      "learning_rate": 7.308805291442745e-06,
      "loss": 0.1553,
      "step": 920
    },
    {
      "epoch": 0.34402603440260343,
      "grad_norm": 2.1875,
      "learning_rate": 7.288135593220339e-06,
      "loss": 0.1485,
      "step": 925
    },
    {
      "epoch": 0.3458856345885635,
      "grad_norm": 2.125,
      "learning_rate": 7.267465894997934e-06,
      "loss": 0.1616,
      "step": 930
    },
    {
      "epoch": 0.34774523477452346,
      "grad_norm": 2.09375,
      "learning_rate": 7.246796196775527e-06,
      "loss": 0.1444,
      "step": 935
    },
    {
      "epoch": 0.3496048349604835,
      "grad_norm": 2.03125,
      "learning_rate": 7.226126498553122e-06,
      "loss": 0.1489,
      "step": 940
    },
    {
      "epoch": 0.3514644351464435,
      "grad_norm": 2.421875,
      "learning_rate": 7.205456800330715e-06,
      "loss": 0.1459,
      "step": 945
    },
    {
      "epoch": 0.35332403533240353,
      "grad_norm": 2.21875,
      "learning_rate": 7.1847871021083095e-06,
      "loss": 0.1472,
      "step": 950
    },
    {
      "epoch": 0.35518363551836357,
      "grad_norm": 2.546875,
      "learning_rate": 7.164117403885904e-06,
      "loss": 0.1488,
      "step": 955
    },
    {
      "epoch": 0.35704323570432356,
      "grad_norm": 2.1875,
      "learning_rate": 7.143447705663498e-06,
      "loss": 0.1418,
      "step": 960
    },
    {
      "epoch": 0.3589028358902836,
      "grad_norm": 2.359375,
      "learning_rate": 7.122778007441093e-06,
      "loss": 0.1523,
      "step": 965
    },
    {
      "epoch": 0.3607624360762436,
      "grad_norm": 1.9375,
      "learning_rate": 7.102108309218686e-06,
      "loss": 0.1517,
      "step": 970
    },
    {
      "epoch": 0.36262203626220363,
      "grad_norm": 2.234375,
      "learning_rate": 7.08143861099628e-06,
      "loss": 0.1486,
      "step": 975
    },
    {
      "epoch": 0.36448163644816367,
      "grad_norm": 2.46875,
      "learning_rate": 7.060768912773874e-06,
      "loss": 0.1517,
      "step": 980
    },
    {
      "epoch": 0.36634123663412366,
      "grad_norm": 2.25,
      "learning_rate": 7.040099214551468e-06,
      "loss": 0.1514,
      "step": 985
    },
    {
      "epoch": 0.3682008368200837,
      "grad_norm": 2.171875,
      "learning_rate": 7.019429516329063e-06,
      "loss": 0.1442,
      "step": 990
    },
    {
      "epoch": 0.3700604370060437,
      "grad_norm": 2.234375,
      "learning_rate": 6.998759818106656e-06,
      "loss": 0.1558,
      "step": 995
    },
    {
      "epoch": 0.3719200371920037,
      "grad_norm": 2.015625,
      "learning_rate": 6.97809011988425e-06,
      "loss": 0.1462,
      "step": 1000
    },
    {
      "epoch": 0.3737796373779637,
      "grad_norm": 2.234375,
      "learning_rate": 6.957420421661844e-06,
      "loss": 0.1455,
      "step": 1005
    },
    {
      "epoch": 0.37563923756392376,
      "grad_norm": 1.9765625,
      "learning_rate": 6.9367507234394385e-06,
      "loss": 0.1477,
      "step": 1010
    },
    {
      "epoch": 0.3774988377498838,
      "grad_norm": 2.5,
      "learning_rate": 6.9160810252170325e-06,
      "loss": 0.1542,
      "step": 1015
    },
    {
      "epoch": 0.3793584379358438,
      "grad_norm": 2.046875,
      "learning_rate": 6.895411326994627e-06,
      "loss": 0.1518,
      "step": 1020
    },
    {
      "epoch": 0.3812180381218038,
      "grad_norm": 2.21875,
      "learning_rate": 6.87474162877222e-06,
      "loss": 0.1554,
      "step": 1025
    },
    {
      "epoch": 0.3830776383077638,
      "grad_norm": 2.21875,
      "learning_rate": 6.854071930549815e-06,
      "loss": 0.1465,
      "step": 1030
    },
    {
      "epoch": 0.38493723849372385,
      "grad_norm": 2.5,
      "learning_rate": 6.833402232327409e-06,
      "loss": 0.1462,
      "step": 1035
    },
    {
      "epoch": 0.38679683867968384,
      "grad_norm": 2.90625,
      "learning_rate": 6.812732534105002e-06,
      "loss": 0.1509,
      "step": 1040
    },
    {
      "epoch": 0.3886564388656439,
      "grad_norm": 2.046875,
      "learning_rate": 6.792062835882597e-06,
      "loss": 0.1497,
      "step": 1045
    },
    {
      "epoch": 0.3905160390516039,
      "grad_norm": 2.375,
      "learning_rate": 6.77139313766019e-06,
      "loss": 0.1496,
      "step": 1050
    },
    {
      "epoch": 0.3923756392375639,
      "grad_norm": 2.328125,
      "learning_rate": 6.750723439437785e-06,
      "loss": 0.1439,
      "step": 1055
    },
    {
      "epoch": 0.39423523942352395,
      "grad_norm": 2.1875,
      "learning_rate": 6.730053741215378e-06,
      "loss": 0.1433,
      "step": 1060
    },
    {
      "epoch": 0.39609483960948394,
      "grad_norm": 2.015625,
      "learning_rate": 6.7093840429929725e-06,
      "loss": 0.1542,
      "step": 1065
    },
    {
      "epoch": 0.397954439795444,
      "grad_norm": 2.125,
      "learning_rate": 6.6887143447705674e-06,
      "loss": 0.1373,
      "step": 1070
    },
    {
      "epoch": 0.399814039981404,
      "grad_norm": 2.328125,
      "learning_rate": 6.668044646548161e-06,
      "loss": 0.1475,
      "step": 1075
    },
    {
      "epoch": 0.400185960018596,
      "eval_loss": 0.16861507296562195,
      "eval_runtime": 33.5378,
      "eval_samples_per_second": 306.669,
      "eval_steps_per_second": 9.601,
      "step": 1076
    },
    {
      "epoch": 0.401673640167364,
      "grad_norm": 2.3125,
      "learning_rate": 6.647374948325756e-06,
      "loss": 0.1518,
      "step": 1080
    },
    {
      "epoch": 0.40353324035332405,
      "grad_norm": 2.125,
      "learning_rate": 6.626705250103349e-06,
      "loss": 0.1466,
      "step": 1085
    },
    {
      "epoch": 0.40539284053928404,
      "grad_norm": 2.328125,
      "learning_rate": 6.606035551880943e-06,
      "loss": 0.1472,
      "step": 1090
    },
    {
      "epoch": 0.4072524407252441,
      "grad_norm": 2.46875,
      "learning_rate": 6.585365853658538e-06,
      "loss": 0.1469,
      "step": 1095
    },
    {
      "epoch": 0.40911204091120407,
      "grad_norm": 2.015625,
      "learning_rate": 6.564696155436131e-06,
      "loss": 0.1413,
      "step": 1100
    },
    {
      "epoch": 0.4109716410971641,
      "grad_norm": 2.078125,
      "learning_rate": 6.544026457213726e-06,
      "loss": 0.151,
      "step": 1105
    },
    {
      "epoch": 0.41283124128312415,
      "grad_norm": 2.1875,
      "learning_rate": 6.523356758991319e-06,
      "loss": 0.1492,
      "step": 1110
    },
    {
      "epoch": 0.41469084146908414,
      "grad_norm": 2.640625,
      "learning_rate": 6.502687060768913e-06,
      "loss": 0.1415,
      "step": 1115
    },
    {
      "epoch": 0.4165504416550442,
      "grad_norm": 2.40625,
      "learning_rate": 6.482017362546507e-06,
      "loss": 0.1425,
      "step": 1120
    },
    {
      "epoch": 0.41841004184100417,
      "grad_norm": 2.25,
      "learning_rate": 6.4613476643241015e-06,
      "loss": 0.1482,
      "step": 1125
    },
    {
      "epoch": 0.4202696420269642,
      "grad_norm": 2.140625,
      "learning_rate": 6.440677966101695e-06,
      "loss": 0.1435,
      "step": 1130
    },
    {
      "epoch": 0.4221292422129242,
      "grad_norm": 2.1875,
      "learning_rate": 6.42000826787929e-06,
      "loss": 0.1448,
      "step": 1135
    },
    {
      "epoch": 0.42398884239888424,
      "grad_norm": 2.015625,
      "learning_rate": 6.399338569656883e-06,
      "loss": 0.1452,
      "step": 1140
    },
    {
      "epoch": 0.4258484425848443,
      "grad_norm": 2.234375,
      "learning_rate": 6.378668871434478e-06,
      "loss": 0.1498,
      "step": 1145
    },
    {
      "epoch": 0.42770804277080426,
      "grad_norm": 2.03125,
      "learning_rate": 6.357999173212072e-06,
      "loss": 0.146,
      "step": 1150
    },
    {
      "epoch": 0.4295676429567643,
      "grad_norm": 2.234375,
      "learning_rate": 6.337329474989665e-06,
      "loss": 0.1426,
      "step": 1155
    },
    {
      "epoch": 0.4314272431427243,
      "grad_norm": 2.046875,
      "learning_rate": 6.31665977676726e-06,
      "loss": 0.1387,
      "step": 1160
    },
    {
      "epoch": 0.43328684332868433,
      "grad_norm": 2.171875,
      "learning_rate": 6.295990078544853e-06,
      "loss": 0.1495,
      "step": 1165
    },
    {
      "epoch": 0.4351464435146444,
      "grad_norm": 2.15625,
      "learning_rate": 6.275320380322448e-06,
      "loss": 0.1367,
      "step": 1170
    },
    {
      "epoch": 0.43700604370060436,
      "grad_norm": 2.171875,
      "learning_rate": 6.254650682100042e-06,
      "loss": 0.1469,
      "step": 1175
    },
    {
      "epoch": 0.4388656438865644,
      "grad_norm": 2.328125,
      "learning_rate": 6.2339809838776355e-06,
      "loss": 0.1466,
      "step": 1180
    },
    {
      "epoch": 0.4407252440725244,
      "grad_norm": 2.09375,
      "learning_rate": 6.2133112856552304e-06,
      "loss": 0.1382,
      "step": 1185
    },
    {
      "epoch": 0.44258484425848443,
      "grad_norm": 2.078125,
      "learning_rate": 6.192641587432824e-06,
      "loss": 0.146,
      "step": 1190
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 2.28125,
      "learning_rate": 6.171971889210419e-06,
      "loss": 0.1453,
      "step": 1195
    },
    {
      "epoch": 0.44630404463040446,
      "grad_norm": 2.28125,
      "learning_rate": 6.151302190988012e-06,
      "loss": 0.1559,
      "step": 1200
    },
    {
      "epoch": 0.4481636448163645,
      "grad_norm": 2.203125,
      "learning_rate": 6.130632492765606e-06,
      "loss": 0.1461,
      "step": 1205
    },
    {
      "epoch": 0.4500232450023245,
      "grad_norm": 2.6875,
      "learning_rate": 6.109962794543201e-06,
      "loss": 0.1512,
      "step": 1210
    },
    {
      "epoch": 0.45188284518828453,
      "grad_norm": 2.03125,
      "learning_rate": 6.089293096320794e-06,
      "loss": 0.1455,
      "step": 1215
    },
    {
      "epoch": 0.4537424453742445,
      "grad_norm": 2.203125,
      "learning_rate": 6.068623398098388e-06,
      "loss": 0.1458,
      "step": 1220
    },
    {
      "epoch": 0.45560204556020456,
      "grad_norm": 2.078125,
      "learning_rate": 6.047953699875982e-06,
      "loss": 0.1452,
      "step": 1225
    },
    {
      "epoch": 0.45746164574616455,
      "grad_norm": 2.109375,
      "learning_rate": 6.027284001653576e-06,
      "loss": 0.1427,
      "step": 1230
    },
    {
      "epoch": 0.4593212459321246,
      "grad_norm": 2.1875,
      "learning_rate": 6.00661430343117e-06,
      "loss": 0.1433,
      "step": 1235
    },
    {
      "epoch": 0.46118084611808463,
      "grad_norm": 2.28125,
      "learning_rate": 5.9859446052087645e-06,
      "loss": 0.143,
      "step": 1240
    },
    {
      "epoch": 0.4630404463040446,
      "grad_norm": 2.40625,
      "learning_rate": 5.965274906986358e-06,
      "loss": 0.1357,
      "step": 1245
    },
    {
      "epoch": 0.46490004649000466,
      "grad_norm": 2.046875,
      "learning_rate": 5.944605208763953e-06,
      "loss": 0.1469,
      "step": 1250
    },
    {
      "epoch": 0.46675964667596465,
      "grad_norm": 2.09375,
      "learning_rate": 5.923935510541547e-06,
      "loss": 0.1466,
      "step": 1255
    },
    {
      "epoch": 0.4686192468619247,
      "grad_norm": 2.25,
      "learning_rate": 5.903265812319141e-06,
      "loss": 0.1451,
      "step": 1260
    },
    {
      "epoch": 0.47047884704788473,
      "grad_norm": 2.125,
      "learning_rate": 5.882596114096735e-06,
      "loss": 0.1475,
      "step": 1265
    },
    {
      "epoch": 0.4723384472338447,
      "grad_norm": 1.8515625,
      "learning_rate": 5.861926415874328e-06,
      "loss": 0.1412,
      "step": 1270
    },
    {
      "epoch": 0.47419804741980476,
      "grad_norm": 2.078125,
      "learning_rate": 5.841256717651923e-06,
      "loss": 0.1461,
      "step": 1275
    },
    {
      "epoch": 0.47605764760576474,
      "grad_norm": 2.0625,
      "learning_rate": 5.820587019429516e-06,
      "loss": 0.1437,
      "step": 1280
    },
    {
      "epoch": 0.4779172477917248,
      "grad_norm": 2.625,
      "learning_rate": 5.799917321207111e-06,
      "loss": 0.145,
      "step": 1285
    },
    {
      "epoch": 0.4797768479776848,
      "grad_norm": 2.359375,
      "learning_rate": 5.779247622984705e-06,
      "loss": 0.1407,
      "step": 1290
    },
    {
      "epoch": 0.4816364481636448,
      "grad_norm": 2.171875,
      "learning_rate": 5.7585779247622985e-06,
      "loss": 0.1455,
      "step": 1295
    },
    {
      "epoch": 0.48349604834960486,
      "grad_norm": 2.015625,
      "learning_rate": 5.7379082265398934e-06,
      "loss": 0.1437,
      "step": 1300
    },
    {
      "epoch": 0.48535564853556484,
      "grad_norm": 2.171875,
      "learning_rate": 5.717238528317487e-06,
      "loss": 0.1423,
      "step": 1305
    },
    {
      "epoch": 0.4872152487215249,
      "grad_norm": 2.265625,
      "learning_rate": 5.696568830095081e-06,
      "loss": 0.1538,
      "step": 1310
    },
    {
      "epoch": 0.48907484890748487,
      "grad_norm": 2.125,
      "learning_rate": 5.675899131872676e-06,
      "loss": 0.1477,
      "step": 1315
    },
    {
      "epoch": 0.4909344490934449,
      "grad_norm": 2.21875,
      "learning_rate": 5.655229433650269e-06,
      "loss": 0.1467,
      "step": 1320
    },
    {
      "epoch": 0.49279404927940496,
      "grad_norm": 2.140625,
      "learning_rate": 5.634559735427864e-06,
      "loss": 0.1357,
      "step": 1325
    },
    {
      "epoch": 0.49465364946536494,
      "grad_norm": 2.328125,
      "learning_rate": 5.613890037205457e-06,
      "loss": 0.1483,
      "step": 1330
    },
    {
      "epoch": 0.496513249651325,
      "grad_norm": 2.359375,
      "learning_rate": 5.593220338983051e-06,
      "loss": 0.1485,
      "step": 1335
    },
    {
      "epoch": 0.49837284983728497,
      "grad_norm": 2.078125,
      "learning_rate": 5.572550640760645e-06,
      "loss": 0.1472,
      "step": 1340
    },
    {
      "epoch": 0.500232450023245,
      "grad_norm": 2.46875,
      "learning_rate": 5.551880942538239e-06,
      "loss": 0.1515,
      "step": 1345
    },
    {
      "epoch": 0.500232450023245,
      "eval_loss": 0.16567149758338928,
      "eval_runtime": 33.5148,
      "eval_samples_per_second": 306.88,
      "eval_steps_per_second": 9.608,
      "step": 1345
    },
    {
      "epoch": 0.502092050209205,
      "grad_norm": 2.25,
      "learning_rate": 5.531211244315834e-06,
      "loss": 0.1434,
      "step": 1350
    },
    {
      "epoch": 0.503951650395165,
      "grad_norm": 2.515625,
      "learning_rate": 5.5105415460934275e-06,
      "loss": 0.1489,
      "step": 1355
    },
    {
      "epoch": 0.5058112505811251,
      "grad_norm": 2.125,
      "learning_rate": 5.489871847871021e-06,
      "loss": 0.1423,
      "step": 1360
    },
    {
      "epoch": 0.5076708507670851,
      "grad_norm": 1.984375,
      "learning_rate": 5.469202149648616e-06,
      "loss": 0.1532,
      "step": 1365
    },
    {
      "epoch": 0.509530450953045,
      "grad_norm": 2.328125,
      "learning_rate": 5.44853245142621e-06,
      "loss": 0.1474,
      "step": 1370
    },
    {
      "epoch": 0.5113900511390052,
      "grad_norm": 2.125,
      "learning_rate": 5.427862753203804e-06,
      "loss": 0.141,
      "step": 1375
    },
    {
      "epoch": 0.5132496513249651,
      "grad_norm": 2.21875,
      "learning_rate": 5.407193054981398e-06,
      "loss": 0.1432,
      "step": 1380
    },
    {
      "epoch": 0.5151092515109251,
      "grad_norm": 1.984375,
      "learning_rate": 5.386523356758991e-06,
      "loss": 0.1511,
      "step": 1385
    },
    {
      "epoch": 0.5169688516968852,
      "grad_norm": 2.265625,
      "learning_rate": 5.365853658536586e-06,
      "loss": 0.1479,
      "step": 1390
    },
    {
      "epoch": 0.5188284518828452,
      "grad_norm": 2.078125,
      "learning_rate": 5.34518396031418e-06,
      "loss": 0.1377,
      "step": 1395
    },
    {
      "epoch": 0.5206880520688052,
      "grad_norm": 1.9609375,
      "learning_rate": 5.324514262091773e-06,
      "loss": 0.1413,
      "step": 1400
    },
    {
      "epoch": 0.5225476522547652,
      "grad_norm": 2.25,
      "learning_rate": 5.303844563869368e-06,
      "loss": 0.1357,
      "step": 1405
    },
    {
      "epoch": 0.5244072524407253,
      "grad_norm": 1.96875,
      "learning_rate": 5.2831748656469615e-06,
      "loss": 0.1454,
      "step": 1410
    },
    {
      "epoch": 0.5262668526266853,
      "grad_norm": 2.125,
      "learning_rate": 5.2625051674245564e-06,
      "loss": 0.1455,
      "step": 1415
    },
    {
      "epoch": 0.5281264528126453,
      "grad_norm": 2.203125,
      "learning_rate": 5.24183546920215e-06,
      "loss": 0.1477,
      "step": 1420
    },
    {
      "epoch": 0.5299860529986054,
      "grad_norm": 1.890625,
      "learning_rate": 5.221165770979744e-06,
      "loss": 0.1383,
      "step": 1425
    },
    {
      "epoch": 0.5318456531845653,
      "grad_norm": 2.21875,
      "learning_rate": 5.200496072757339e-06,
      "loss": 0.1435,
      "step": 1430
    },
    {
      "epoch": 0.5337052533705253,
      "grad_norm": 2.328125,
      "learning_rate": 5.179826374534932e-06,
      "loss": 0.1492,
      "step": 1435
    },
    {
      "epoch": 0.5355648535564853,
      "grad_norm": 2.078125,
      "learning_rate": 5.159156676312527e-06,
      "loss": 0.1387,
      "step": 1440
    },
    {
      "epoch": 0.5374244537424454,
      "grad_norm": 2.578125,
      "learning_rate": 5.13848697809012e-06,
      "loss": 0.1475,
      "step": 1445
    },
    {
      "epoch": 0.5392840539284054,
      "grad_norm": 2.296875,
      "learning_rate": 5.117817279867714e-06,
      "loss": 0.1459,
      "step": 1450
    },
    {
      "epoch": 0.5411436541143654,
      "grad_norm": 2.453125,
      "learning_rate": 5.097147581645308e-06,
      "loss": 0.1536,
      "step": 1455
    },
    {
      "epoch": 0.5430032543003255,
      "grad_norm": 2.0625,
      "learning_rate": 5.076477883422902e-06,
      "loss": 0.1467,
      "step": 1460
    },
    {
      "epoch": 0.5448628544862855,
      "grad_norm": 2.34375,
      "learning_rate": 5.055808185200497e-06,
      "loss": 0.1452,
      "step": 1465
    },
    {
      "epoch": 0.5467224546722455,
      "grad_norm": 2.25,
      "learning_rate": 5.0351384869780905e-06,
      "loss": 0.1467,
      "step": 1470
    },
    {
      "epoch": 0.5485820548582054,
      "grad_norm": 2.25,
      "learning_rate": 5.0144687887556846e-06,
      "loss": 0.1422,
      "step": 1475
    },
    {
      "epoch": 0.5504416550441655,
      "grad_norm": 2.046875,
      "learning_rate": 4.993799090533279e-06,
      "loss": 0.1348,
      "step": 1480
    },
    {
      "epoch": 0.5523012552301255,
      "grad_norm": 2.359375,
      "learning_rate": 4.973129392310873e-06,
      "loss": 0.1468,
      "step": 1485
    },
    {
      "epoch": 0.5541608554160855,
      "grad_norm": 2.046875,
      "learning_rate": 4.952459694088467e-06,
      "loss": 0.1431,
      "step": 1490
    },
    {
      "epoch": 0.5560204556020456,
      "grad_norm": 2.234375,
      "learning_rate": 4.931789995866061e-06,
      "loss": 0.1513,
      "step": 1495
    },
    {
      "epoch": 0.5578800557880056,
      "grad_norm": 2.03125,
      "learning_rate": 4.911120297643655e-06,
      "loss": 0.1388,
      "step": 1500
    },
    {
      "epoch": 0.5597396559739656,
      "grad_norm": 2.078125,
      "learning_rate": 4.890450599421249e-06,
      "loss": 0.1392,
      "step": 1505
    },
    {
      "epoch": 0.5615992561599256,
      "grad_norm": 1.9609375,
      "learning_rate": 4.869780901198843e-06,
      "loss": 0.1417,
      "step": 1510
    },
    {
      "epoch": 0.5634588563458857,
      "grad_norm": 2.234375,
      "learning_rate": 4.849111202976437e-06,
      "loss": 0.1361,
      "step": 1515
    },
    {
      "epoch": 0.5653184565318456,
      "grad_norm": 2.25,
      "learning_rate": 4.828441504754031e-06,
      "loss": 0.1434,
      "step": 1520
    },
    {
      "epoch": 0.5671780567178056,
      "grad_norm": 2.390625,
      "learning_rate": 4.8077718065316245e-06,
      "loss": 0.1496,
      "step": 1525
    },
    {
      "epoch": 0.5690376569037657,
      "grad_norm": 2.046875,
      "learning_rate": 4.787102108309219e-06,
      "loss": 0.1463,
      "step": 1530
    },
    {
      "epoch": 0.5708972570897257,
      "grad_norm": 2.046875,
      "learning_rate": 4.7664324100868135e-06,
      "loss": 0.1323,
      "step": 1535
    },
    {
      "epoch": 0.5727568572756857,
      "grad_norm": 1.9609375,
      "learning_rate": 4.745762711864408e-06,
      "loss": 0.1437,
      "step": 1540
    },
    {
      "epoch": 0.5746164574616457,
      "grad_norm": 2.25,
      "learning_rate": 4.725093013642002e-06,
      "loss": 0.1543,
      "step": 1545
    },
    {
      "epoch": 0.5764760576476058,
      "grad_norm": 2.171875,
      "learning_rate": 4.704423315419595e-06,
      "loss": 0.1409,
      "step": 1550
    },
    {
      "epoch": 0.5783356578335658,
      "grad_norm": 1.9375,
      "learning_rate": 4.683753617197189e-06,
      "loss": 0.1439,
      "step": 1555
    },
    {
      "epoch": 0.5801952580195258,
      "grad_norm": 2.015625,
      "learning_rate": 4.663083918974783e-06,
      "loss": 0.1395,
      "step": 1560
    },
    {
      "epoch": 0.5820548582054859,
      "grad_norm": 2.0625,
      "learning_rate": 4.642414220752377e-06,
      "loss": 0.1416,
      "step": 1565
    },
    {
      "epoch": 0.5839144583914458,
      "grad_norm": 2.734375,
      "learning_rate": 4.621744522529971e-06,
      "loss": 0.1385,
      "step": 1570
    },
    {
      "epoch": 0.5857740585774058,
      "grad_norm": 2.1875,
      "learning_rate": 4.601074824307565e-06,
      "loss": 0.1382,
      "step": 1575
    },
    {
      "epoch": 0.5876336587633659,
      "grad_norm": 2.109375,
      "learning_rate": 4.580405126085159e-06,
      "loss": 0.1378,
      "step": 1580
    },
    {
      "epoch": 0.5894932589493259,
      "grad_norm": 2.078125,
      "learning_rate": 4.5597354278627535e-06,
      "loss": 0.1369,
      "step": 1585
    },
    {
      "epoch": 0.5913528591352859,
      "grad_norm": 1.9921875,
      "learning_rate": 4.5390657296403476e-06,
      "loss": 0.145,
      "step": 1590
    },
    {
      "epoch": 0.5932124593212459,
      "grad_norm": 2.078125,
      "learning_rate": 4.518396031417942e-06,
      "loss": 0.1376,
      "step": 1595
    },
    {
      "epoch": 0.595072059507206,
      "grad_norm": 2.46875,
      "learning_rate": 4.497726333195536e-06,
      "loss": 0.1398,
      "step": 1600
    },
    {
      "epoch": 0.596931659693166,
      "grad_norm": 2.0,
      "learning_rate": 4.47705663497313e-06,
      "loss": 0.144,
      "step": 1605
    },
    {
      "epoch": 0.598791259879126,
      "grad_norm": 2.078125,
      "learning_rate": 4.456386936750724e-06,
      "loss": 0.1344,
      "step": 1610
    },
    {
      "epoch": 0.600278940027894,
      "eval_loss": 0.16357110440731049,
      "eval_runtime": 33.5259,
      "eval_samples_per_second": 306.778,
      "eval_steps_per_second": 9.605,
      "step": 1614
    },
    {
      "epoch": 0.6006508600650861,
      "grad_norm": 2.140625,
      "learning_rate": 4.435717238528318e-06,
      "loss": 0.1411,
      "step": 1615
    },
    {
      "epoch": 0.602510460251046,
      "grad_norm": 2.15625,
      "learning_rate": 4.415047540305912e-06,
      "loss": 0.1454,
      "step": 1620
    },
    {
      "epoch": 0.604370060437006,
      "grad_norm": 1.984375,
      "learning_rate": 4.394377842083506e-06,
      "loss": 0.1457,
      "step": 1625
    },
    {
      "epoch": 0.606229660622966,
      "grad_norm": 2.78125,
      "learning_rate": 4.3737081438611e-06,
      "loss": 0.1404,
      "step": 1630
    },
    {
      "epoch": 0.6080892608089261,
      "grad_norm": 1.9375,
      "learning_rate": 4.353038445638694e-06,
      "loss": 0.1401,
      "step": 1635
    },
    {
      "epoch": 0.6099488609948861,
      "grad_norm": 1.9921875,
      "learning_rate": 4.3323687474162875e-06,
      "loss": 0.1373,
      "step": 1640
    },
    {
      "epoch": 0.6118084611808461,
      "grad_norm": 2.078125,
      "learning_rate": 4.3116990491938824e-06,
      "loss": 0.1409,
      "step": 1645
    },
    {
      "epoch": 0.6136680613668062,
      "grad_norm": 1.984375,
      "learning_rate": 4.2910293509714765e-06,
      "loss": 0.1416,
      "step": 1650
    },
    {
      "epoch": 0.6155276615527662,
      "grad_norm": 2.140625,
      "learning_rate": 4.270359652749071e-06,
      "loss": 0.1458,
      "step": 1655
    },
    {
      "epoch": 0.6173872617387262,
      "grad_norm": 2.25,
      "learning_rate": 4.249689954526664e-06,
      "loss": 0.1459,
      "step": 1660
    },
    {
      "epoch": 0.6192468619246861,
      "grad_norm": 1.7734375,
      "learning_rate": 4.229020256304258e-06,
      "loss": 0.1383,
      "step": 1665
    },
    {
      "epoch": 0.6211064621106462,
      "grad_norm": 2.109375,
      "learning_rate": 4.208350558081852e-06,
      "loss": 0.1451,
      "step": 1670
    },
    {
      "epoch": 0.6229660622966062,
      "grad_norm": 2.03125,
      "learning_rate": 4.187680859859447e-06,
      "loss": 0.1385,
      "step": 1675
    },
    {
      "epoch": 0.6248256624825662,
      "grad_norm": 2.3125,
      "learning_rate": 4.167011161637041e-06,
      "loss": 0.141,
      "step": 1680
    },
    {
      "epoch": 0.6266852626685263,
      "grad_norm": 2.265625,
      "learning_rate": 4.146341463414634e-06,
      "loss": 0.1428,
      "step": 1685
    },
    {
      "epoch": 0.6285448628544863,
      "grad_norm": 2.03125,
      "learning_rate": 4.125671765192228e-06,
      "loss": 0.1425,
      "step": 1690
    },
    {
      "epoch": 0.6304044630404463,
      "grad_norm": 1.890625,
      "learning_rate": 4.105002066969822e-06,
      "loss": 0.1369,
      "step": 1695
    },
    {
      "epoch": 0.6322640632264063,
      "grad_norm": 2.0625,
      "learning_rate": 4.0843323687474165e-06,
      "loss": 0.1351,
      "step": 1700
    },
    {
      "epoch": 0.6341236634123664,
      "grad_norm": 2.09375,
      "learning_rate": 4.0636626705250106e-06,
      "loss": 0.1393,
      "step": 1705
    },
    {
      "epoch": 0.6359832635983264,
      "grad_norm": 2.203125,
      "learning_rate": 4.042992972302605e-06,
      "loss": 0.137,
      "step": 1710
    },
    {
      "epoch": 0.6378428637842863,
      "grad_norm": 2.265625,
      "learning_rate": 4.022323274080199e-06,
      "loss": 0.1409,
      "step": 1715
    },
    {
      "epoch": 0.6397024639702464,
      "grad_norm": 1.9453125,
      "learning_rate": 4.001653575857793e-06,
      "loss": 0.1459,
      "step": 1720
    },
    {
      "epoch": 0.6415620641562064,
      "grad_norm": 1.8359375,
      "learning_rate": 3.980983877635387e-06,
      "loss": 0.1385,
      "step": 1725
    },
    {
      "epoch": 0.6434216643421664,
      "grad_norm": 2.015625,
      "learning_rate": 3.960314179412981e-06,
      "loss": 0.153,
      "step": 1730
    },
    {
      "epoch": 0.6452812645281265,
      "grad_norm": 2.1875,
      "learning_rate": 3.939644481190575e-06,
      "loss": 0.1397,
      "step": 1735
    },
    {
      "epoch": 0.6471408647140865,
      "grad_norm": 2.078125,
      "learning_rate": 3.918974782968169e-06,
      "loss": 0.1405,
      "step": 1740
    },
    {
      "epoch": 0.6490004649000465,
      "grad_norm": 1.8984375,
      "learning_rate": 3.898305084745763e-06,
      "loss": 0.1391,
      "step": 1745
    },
    {
      "epoch": 0.6508600650860065,
      "grad_norm": 2.21875,
      "learning_rate": 3.8776353865233564e-06,
      "loss": 0.1409,
      "step": 1750
    },
    {
      "epoch": 0.6527196652719666,
      "grad_norm": 2.21875,
      "learning_rate": 3.856965688300951e-06,
      "loss": 0.1402,
      "step": 1755
    },
    {
      "epoch": 0.6545792654579266,
      "grad_norm": 2.21875,
      "learning_rate": 3.8362959900785454e-06,
      "loss": 0.1502,
      "step": 1760
    },
    {
      "epoch": 0.6564388656438865,
      "grad_norm": 2.109375,
      "learning_rate": 3.8156262918561395e-06,
      "loss": 0.1408,
      "step": 1765
    },
    {
      "epoch": 0.6582984658298466,
      "grad_norm": 2.25,
      "learning_rate": 3.7949565936337336e-06,
      "loss": 0.1445,
      "step": 1770
    },
    {
      "epoch": 0.6601580660158066,
      "grad_norm": 1.890625,
      "learning_rate": 3.7742868954113273e-06,
      "loss": 0.1417,
      "step": 1775
    },
    {
      "epoch": 0.6620176662017666,
      "grad_norm": 2.09375,
      "learning_rate": 3.7536171971889213e-06,
      "loss": 0.1402,
      "step": 1780
    },
    {
      "epoch": 0.6638772663877266,
      "grad_norm": 2.03125,
      "learning_rate": 3.7329474989665154e-06,
      "loss": 0.1428,
      "step": 1785
    },
    {
      "epoch": 0.6657368665736867,
      "grad_norm": 2.015625,
      "learning_rate": 3.7122778007441095e-06,
      "loss": 0.1408,
      "step": 1790
    },
    {
      "epoch": 0.6675964667596467,
      "grad_norm": 1.921875,
      "learning_rate": 3.6916081025217036e-06,
      "loss": 0.1428,
      "step": 1795
    },
    {
      "epoch": 0.6694560669456067,
      "grad_norm": 2.515625,
      "learning_rate": 3.6709384042992972e-06,
      "loss": 0.1463,
      "step": 1800
    },
    {
      "epoch": 0.6713156671315668,
      "grad_norm": 2.109375,
      "learning_rate": 3.6502687060768917e-06,
      "loss": 0.1365,
      "step": 1805
    },
    {
      "epoch": 0.6731752673175267,
      "grad_norm": 2.015625,
      "learning_rate": 3.629599007854486e-06,
      "loss": 0.1362,
      "step": 1810
    },
    {
      "epoch": 0.6750348675034867,
      "grad_norm": 2.3125,
      "learning_rate": 3.60892930963208e-06,
      "loss": 0.1378,
      "step": 1815
    },
    {
      "epoch": 0.6768944676894467,
      "grad_norm": 1.96875,
      "learning_rate": 3.5882596114096736e-06,
      "loss": 0.1323,
      "step": 1820
    },
    {
      "epoch": 0.6787540678754068,
      "grad_norm": 2.015625,
      "learning_rate": 3.5675899131872676e-06,
      "loss": 0.1406,
      "step": 1825
    },
    {
      "epoch": 0.6806136680613668,
      "grad_norm": 2.15625,
      "learning_rate": 3.5469202149648617e-06,
      "loss": 0.1416,
      "step": 1830
    },
    {
      "epoch": 0.6824732682473268,
      "grad_norm": 1.953125,
      "learning_rate": 3.526250516742456e-06,
      "loss": 0.1347,
      "step": 1835
    },
    {
      "epoch": 0.6843328684332869,
      "grad_norm": 2.21875,
      "learning_rate": 3.5055808185200503e-06,
      "loss": 0.148,
      "step": 1840
    },
    {
      "epoch": 0.6861924686192469,
      "grad_norm": 2.015625,
      "learning_rate": 3.484911120297644e-06,
      "loss": 0.1443,
      "step": 1845
    },
    {
      "epoch": 0.6880520688052069,
      "grad_norm": 1.953125,
      "learning_rate": 3.464241422075238e-06,
      "loss": 0.138,
      "step": 1850
    },
    {
      "epoch": 0.6899116689911668,
      "grad_norm": 2.015625,
      "learning_rate": 3.443571723852832e-06,
      "loss": 0.1466,
      "step": 1855
    },
    {
      "epoch": 0.691771269177127,
      "grad_norm": 2.34375,
      "learning_rate": 3.422902025630426e-06,
      "loss": 0.1403,
      "step": 1860
    },
    {
      "epoch": 0.6936308693630869,
      "grad_norm": 2.03125,
      "learning_rate": 3.40223232740802e-06,
      "loss": 0.1361,
      "step": 1865
    },
    {
      "epoch": 0.6954904695490469,
      "grad_norm": 2.265625,
      "learning_rate": 3.381562629185614e-06,
      "loss": 0.1393,
      "step": 1870
    },
    {
      "epoch": 0.697350069735007,
      "grad_norm": 2.09375,
      "learning_rate": 3.360892930963208e-06,
      "loss": 0.1352,
      "step": 1875
    },
    {
      "epoch": 0.699209669920967,
      "grad_norm": 2.34375,
      "learning_rate": 3.3402232327408025e-06,
      "loss": 0.1387,
      "step": 1880
    },
    {
      "epoch": 0.700325430032543,
      "eval_loss": 0.16304655373096466,
      "eval_runtime": 33.5474,
      "eval_samples_per_second": 306.581,
      "eval_steps_per_second": 9.598,
      "step": 1883
    },
    {
      "epoch": 0.701069270106927,
      "grad_norm": 2.015625,
      "learning_rate": 3.3195535345183966e-06,
      "loss": 0.1373,
      "step": 1885
    },
    {
      "epoch": 0.702928870292887,
      "grad_norm": 2.046875,
      "learning_rate": 3.2988838362959903e-06,
      "loss": 0.1392,
      "step": 1890
    },
    {
      "epoch": 0.7047884704788471,
      "grad_norm": 1.9375,
      "learning_rate": 3.2782141380735843e-06,
      "loss": 0.1453,
      "step": 1895
    },
    {
      "epoch": 0.7066480706648071,
      "grad_norm": 1.8359375,
      "learning_rate": 3.2575444398511784e-06,
      "loss": 0.141,
      "step": 1900
    },
    {
      "epoch": 0.708507670850767,
      "grad_norm": 2.015625,
      "learning_rate": 3.2368747416287725e-06,
      "loss": 0.1346,
      "step": 1905
    },
    {
      "epoch": 0.7103672710367271,
      "grad_norm": 2.046875,
      "learning_rate": 3.216205043406366e-06,
      "loss": 0.1375,
      "step": 1910
    },
    {
      "epoch": 0.7122268712226871,
      "grad_norm": 1.9609375,
      "learning_rate": 3.1955353451839607e-06,
      "loss": 0.1433,
      "step": 1915
    },
    {
      "epoch": 0.7140864714086471,
      "grad_norm": 2.375,
      "learning_rate": 3.1748656469615547e-06,
      "loss": 0.1487,
      "step": 1920
    },
    {
      "epoch": 0.7159460715946072,
      "grad_norm": 2.25,
      "learning_rate": 3.154195948739149e-06,
      "loss": 0.1439,
      "step": 1925
    },
    {
      "epoch": 0.7178056717805672,
      "grad_norm": 2.140625,
      "learning_rate": 3.133526250516743e-06,
      "loss": 0.1362,
      "step": 1930
    },
    {
      "epoch": 0.7196652719665272,
      "grad_norm": 2.15625,
      "learning_rate": 3.1128565522943366e-06,
      "loss": 0.1373,
      "step": 1935
    },
    {
      "epoch": 0.7215248721524872,
      "grad_norm": 2.453125,
      "learning_rate": 3.0921868540719306e-06,
      "loss": 0.1476,
      "step": 1940
    },
    {
      "epoch": 0.7233844723384473,
      "grad_norm": 2.15625,
      "learning_rate": 3.0715171558495247e-06,
      "loss": 0.1363,
      "step": 1945
    },
    {
      "epoch": 0.7252440725244073,
      "grad_norm": 2.265625,
      "learning_rate": 3.0508474576271192e-06,
      "loss": 0.1338,
      "step": 1950
    },
    {
      "epoch": 0.7271036727103672,
      "grad_norm": 2.140625,
      "learning_rate": 3.030177759404713e-06,
      "loss": 0.1338,
      "step": 1955
    },
    {
      "epoch": 0.7289632728963273,
      "grad_norm": 2.25,
      "learning_rate": 3.009508061182307e-06,
      "loss": 0.1391,
      "step": 1960
    },
    {
      "epoch": 0.7308228730822873,
      "grad_norm": 2.140625,
      "learning_rate": 2.988838362959901e-06,
      "loss": 0.146,
      "step": 1965
    },
    {
      "epoch": 0.7326824732682473,
      "grad_norm": 2.140625,
      "learning_rate": 2.968168664737495e-06,
      "loss": 0.138,
      "step": 1970
    },
    {
      "epoch": 0.7345420734542073,
      "grad_norm": 2.078125,
      "learning_rate": 2.947498966515089e-06,
      "loss": 0.1395,
      "step": 1975
    },
    {
      "epoch": 0.7364016736401674,
      "grad_norm": 2.125,
      "learning_rate": 2.926829268292683e-06,
      "loss": 0.1409,
      "step": 1980
    },
    {
      "epoch": 0.7382612738261274,
      "grad_norm": 2.265625,
      "learning_rate": 2.906159570070277e-06,
      "loss": 0.1404,
      "step": 1985
    },
    {
      "epoch": 0.7401208740120874,
      "grad_norm": 2.046875,
      "learning_rate": 2.8854898718478715e-06,
      "loss": 0.1371,
      "step": 1990
    },
    {
      "epoch": 0.7419804741980475,
      "grad_norm": 2.234375,
      "learning_rate": 2.8648201736254655e-06,
      "loss": 0.1385,
      "step": 1995
    },
    {
      "epoch": 0.7438400743840075,
      "grad_norm": 2.265625,
      "learning_rate": 2.844150475403059e-06,
      "loss": 0.1393,
      "step": 2000
    },
    {
      "epoch": 0.7456996745699674,
      "grad_norm": 1.8515625,
      "learning_rate": 2.8234807771806533e-06,
      "loss": 0.1329,
      "step": 2005
    },
    {
      "epoch": 0.7475592747559274,
      "grad_norm": 1.9765625,
      "learning_rate": 2.8028110789582473e-06,
      "loss": 0.1418,
      "step": 2010
    },
    {
      "epoch": 0.7494188749418875,
      "grad_norm": 2.046875,
      "learning_rate": 2.7821413807358414e-06,
      "loss": 0.1366,
      "step": 2015
    },
    {
      "epoch": 0.7512784751278475,
      "grad_norm": 2.140625,
      "learning_rate": 2.761471682513436e-06,
      "loss": 0.1378,
      "step": 2020
    },
    {
      "epoch": 0.7531380753138075,
      "grad_norm": 2.078125,
      "learning_rate": 2.7408019842910296e-06,
      "loss": 0.1392,
      "step": 2025
    },
    {
      "epoch": 0.7549976754997676,
      "grad_norm": 2.34375,
      "learning_rate": 2.7201322860686237e-06,
      "loss": 0.141,
      "step": 2030
    },
    {
      "epoch": 0.7568572756857276,
      "grad_norm": 2.46875,
      "learning_rate": 2.6994625878462178e-06,
      "loss": 0.1391,
      "step": 2035
    },
    {
      "epoch": 0.7587168758716876,
      "grad_norm": 2.140625,
      "learning_rate": 2.678792889623812e-06,
      "loss": 0.1408,
      "step": 2040
    },
    {
      "epoch": 0.7605764760576476,
      "grad_norm": 2.140625,
      "learning_rate": 2.6581231914014055e-06,
      "loss": 0.1382,
      "step": 2045
    },
    {
      "epoch": 0.7624360762436077,
      "grad_norm": 2.171875,
      "learning_rate": 2.6374534931789996e-06,
      "loss": 0.1424,
      "step": 2050
    },
    {
      "epoch": 0.7642956764295676,
      "grad_norm": 2.0,
      "learning_rate": 2.6167837949565936e-06,
      "loss": 0.1297,
      "step": 2055
    },
    {
      "epoch": 0.7661552766155276,
      "grad_norm": 1.921875,
      "learning_rate": 2.596114096734188e-06,
      "loss": 0.1398,
      "step": 2060
    },
    {
      "epoch": 0.7680148768014877,
      "grad_norm": 2.5,
      "learning_rate": 2.5754443985117822e-06,
      "loss": 0.1418,
      "step": 2065
    },
    {
      "epoch": 0.7698744769874477,
      "grad_norm": 2.15625,
      "learning_rate": 2.554774700289376e-06,
      "loss": 0.137,
      "step": 2070
    },
    {
      "epoch": 0.7717340771734077,
      "grad_norm": 1.9296875,
      "learning_rate": 2.53410500206697e-06,
      "loss": 0.1409,
      "step": 2075
    },
    {
      "epoch": 0.7735936773593677,
      "grad_norm": 2.015625,
      "learning_rate": 2.513435303844564e-06,
      "loss": 0.1345,
      "step": 2080
    },
    {
      "epoch": 0.7754532775453278,
      "grad_norm": 1.8828125,
      "learning_rate": 2.492765605622158e-06,
      "loss": 0.1445,
      "step": 2085
    },
    {
      "epoch": 0.7773128777312878,
      "grad_norm": 2.34375,
      "learning_rate": 2.4720959073997522e-06,
      "loss": 0.1414,
      "step": 2090
    },
    {
      "epoch": 0.7791724779172478,
      "grad_norm": 2.015625,
      "learning_rate": 2.4514262091773463e-06,
      "loss": 0.1373,
      "step": 2095
    },
    {
      "epoch": 0.7810320781032078,
      "grad_norm": 2.265625,
      "learning_rate": 2.4307565109549404e-06,
      "loss": 0.1367,
      "step": 2100
    },
    {
      "epoch": 0.7828916782891678,
      "grad_norm": 2.109375,
      "learning_rate": 2.4100868127325345e-06,
      "loss": 0.1332,
      "step": 2105
    },
    {
      "epoch": 0.7847512784751278,
      "grad_norm": 2.125,
      "learning_rate": 2.389417114510128e-06,
      "loss": 0.1368,
      "step": 2110
    },
    {
      "epoch": 0.7866108786610879,
      "grad_norm": 1.984375,
      "learning_rate": 2.3687474162877226e-06,
      "loss": 0.1439,
      "step": 2115
    },
    {
      "epoch": 0.7884704788470479,
      "grad_norm": 2.21875,
      "learning_rate": 2.3480777180653163e-06,
      "loss": 0.1423,
      "step": 2120
    },
    {
      "epoch": 0.7903300790330079,
      "grad_norm": 2.09375,
      "learning_rate": 2.3274080198429104e-06,
      "loss": 0.1384,
      "step": 2125
    },
    {
      "epoch": 0.7921896792189679,
      "grad_norm": 2.34375,
      "learning_rate": 2.3067383216205044e-06,
      "loss": 0.138,
      "step": 2130
    },
    {
      "epoch": 0.794049279404928,
      "grad_norm": 2.03125,
      "learning_rate": 2.2860686233980985e-06,
      "loss": 0.1368,
      "step": 2135
    },
    {
      "epoch": 0.795908879590888,
      "grad_norm": 2.0625,
      "learning_rate": 2.2653989251756926e-06,
      "loss": 0.1315,
      "step": 2140
    },
    {
      "epoch": 0.797768479776848,
      "grad_norm": 2.34375,
      "learning_rate": 2.2447292269532867e-06,
      "loss": 0.1433,
      "step": 2145
    },
    {
      "epoch": 0.799628079962808,
      "grad_norm": 2.390625,
      "learning_rate": 2.2240595287308808e-06,
      "loss": 0.1403,
      "step": 2150
    },
    {
      "epoch": 0.800371920037192,
      "eval_loss": 0.16228820383548737,
      "eval_runtime": 33.5429,
      "eval_samples_per_second": 306.622,
      "eval_steps_per_second": 9.6,
      "step": 2152
    },
    {
      "epoch": 0.801487680148768,
      "grad_norm": 2.171875,
      "learning_rate": 2.203389830508475e-06,
      "loss": 0.138,
      "step": 2155
    },
    {
      "epoch": 0.803347280334728,
      "grad_norm": 2.234375,
      "learning_rate": 2.182720132286069e-06,
      "loss": 0.1403,
      "step": 2160
    },
    {
      "epoch": 0.805206880520688,
      "grad_norm": 1.984375,
      "learning_rate": 2.1620504340636626e-06,
      "loss": 0.1398,
      "step": 2165
    },
    {
      "epoch": 0.8070664807066481,
      "grad_norm": 2.078125,
      "learning_rate": 2.141380735841257e-06,
      "loss": 0.1459,
      "step": 2170
    },
    {
      "epoch": 0.8089260808926081,
      "grad_norm": 2.171875,
      "learning_rate": 2.1207110376188507e-06,
      "loss": 0.1374,
      "step": 2175
    },
    {
      "epoch": 0.8107856810785681,
      "grad_norm": 1.9453125,
      "learning_rate": 2.100041339396445e-06,
      "loss": 0.138,
      "step": 2180
    },
    {
      "epoch": 0.8126452812645282,
      "grad_norm": 2.265625,
      "learning_rate": 2.079371641174039e-06,
      "loss": 0.1389,
      "step": 2185
    },
    {
      "epoch": 0.8145048814504882,
      "grad_norm": 1.890625,
      "learning_rate": 2.058701942951633e-06,
      "loss": 0.1393,
      "step": 2190
    },
    {
      "epoch": 0.8163644816364481,
      "grad_norm": 2.203125,
      "learning_rate": 2.038032244729227e-06,
      "loss": 0.1341,
      "step": 2195
    },
    {
      "epoch": 0.8182240818224081,
      "grad_norm": 2.140625,
      "learning_rate": 2.017362546506821e-06,
      "loss": 0.1413,
      "step": 2200
    },
    {
      "epoch": 0.8200836820083682,
      "grad_norm": 2.21875,
      "learning_rate": 1.9966928482844152e-06,
      "loss": 0.1401,
      "step": 2205
    },
    {
      "epoch": 0.8219432821943282,
      "grad_norm": 2.296875,
      "learning_rate": 1.9760231500620093e-06,
      "loss": 0.1442,
      "step": 2210
    },
    {
      "epoch": 0.8238028823802882,
      "grad_norm": 2.140625,
      "learning_rate": 1.9553534518396034e-06,
      "loss": 0.144,
      "step": 2215
    },
    {
      "epoch": 0.8256624825662483,
      "grad_norm": 2.125,
      "learning_rate": 1.934683753617197e-06,
      "loss": 0.1353,
      "step": 2220
    },
    {
      "epoch": 0.8275220827522083,
      "grad_norm": 2.0,
      "learning_rate": 1.9140140553947915e-06,
      "loss": 0.1394,
      "step": 2225
    },
    {
      "epoch": 0.8293816829381683,
      "grad_norm": 1.9765625,
      "learning_rate": 1.8933443571723856e-06,
      "loss": 0.1385,
      "step": 2230
    },
    {
      "epoch": 0.8312412831241283,
      "grad_norm": 2.28125,
      "learning_rate": 1.8726746589499795e-06,
      "loss": 0.1451,
      "step": 2235
    },
    {
      "epoch": 0.8331008833100884,
      "grad_norm": 2.015625,
      "learning_rate": 1.8520049607275736e-06,
      "loss": 0.1366,
      "step": 2240
    },
    {
      "epoch": 0.8349604834960483,
      "grad_norm": 2.203125,
      "learning_rate": 1.8313352625051674e-06,
      "loss": 0.1348,
      "step": 2245
    },
    {
      "epoch": 0.8368200836820083,
      "grad_norm": 2.09375,
      "learning_rate": 1.8106655642827617e-06,
      "loss": 0.1365,
      "step": 2250
    },
    {
      "epoch": 0.8386796838679684,
      "grad_norm": 2.09375,
      "learning_rate": 1.7899958660603556e-06,
      "loss": 0.1366,
      "step": 2255
    },
    {
      "epoch": 0.8405392840539284,
      "grad_norm": 2.09375,
      "learning_rate": 1.7693261678379497e-06,
      "loss": 0.1444,
      "step": 2260
    },
    {
      "epoch": 0.8423988842398884,
      "grad_norm": 2.375,
      "learning_rate": 1.7486564696155435e-06,
      "loss": 0.144,
      "step": 2265
    },
    {
      "epoch": 0.8442584844258484,
      "grad_norm": 2.09375,
      "learning_rate": 1.7279867713931378e-06,
      "loss": 0.1403,
      "step": 2270
    },
    {
      "epoch": 0.8461180846118085,
      "grad_norm": 2.0,
      "learning_rate": 1.707317073170732e-06,
      "loss": 0.1427,
      "step": 2275
    },
    {
      "epoch": 0.8479776847977685,
      "grad_norm": 1.9921875,
      "learning_rate": 1.6866473749483258e-06,
      "loss": 0.1367,
      "step": 2280
    },
    {
      "epoch": 0.8498372849837285,
      "grad_norm": 2.140625,
      "learning_rate": 1.66597767672592e-06,
      "loss": 0.1474,
      "step": 2285
    },
    {
      "epoch": 0.8516968851696886,
      "grad_norm": 2.125,
      "learning_rate": 1.645307978503514e-06,
      "loss": 0.1476,
      "step": 2290
    },
    {
      "epoch": 0.8535564853556485,
      "grad_norm": 2.140625,
      "learning_rate": 1.624638280281108e-06,
      "loss": 0.1423,
      "step": 2295
    },
    {
      "epoch": 0.8554160855416085,
      "grad_norm": 2.296875,
      "learning_rate": 1.603968582058702e-06,
      "loss": 0.137,
      "step": 2300
    },
    {
      "epoch": 0.8572756857275686,
      "grad_norm": 2.046875,
      "learning_rate": 1.5832988838362962e-06,
      "loss": 0.1332,
      "step": 2305
    },
    {
      "epoch": 0.8591352859135286,
      "grad_norm": 2.5,
      "learning_rate": 1.56262918561389e-06,
      "loss": 0.141,
      "step": 2310
    },
    {
      "epoch": 0.8609948860994886,
      "grad_norm": 2.390625,
      "learning_rate": 1.5419594873914841e-06,
      "loss": 0.1375,
      "step": 2315
    },
    {
      "epoch": 0.8628544862854486,
      "grad_norm": 2.046875,
      "learning_rate": 1.5212897891690784e-06,
      "loss": 0.1413,
      "step": 2320
    },
    {
      "epoch": 0.8647140864714087,
      "grad_norm": 1.8828125,
      "learning_rate": 1.5006200909466723e-06,
      "loss": 0.1455,
      "step": 2325
    },
    {
      "epoch": 0.8665736866573687,
      "grad_norm": 2.234375,
      "learning_rate": 1.4799503927242664e-06,
      "loss": 0.1442,
      "step": 2330
    },
    {
      "epoch": 0.8684332868433287,
      "grad_norm": 2.109375,
      "learning_rate": 1.4592806945018602e-06,
      "loss": 0.1326,
      "step": 2335
    },
    {
      "epoch": 0.8702928870292888,
      "grad_norm": 2.265625,
      "learning_rate": 1.4386109962794545e-06,
      "loss": 0.1418,
      "step": 2340
    },
    {
      "epoch": 0.8721524872152487,
      "grad_norm": 2.125,
      "learning_rate": 1.4179412980570484e-06,
      "loss": 0.1398,
      "step": 2345
    },
    {
      "epoch": 0.8740120874012087,
      "grad_norm": 2.0,
      "learning_rate": 1.3972715998346425e-06,
      "loss": 0.139,
      "step": 2350
    },
    {
      "epoch": 0.8758716875871687,
      "grad_norm": 2.671875,
      "learning_rate": 1.3766019016122364e-06,
      "loss": 0.1506,
      "step": 2355
    },
    {
      "epoch": 0.8777312877731288,
      "grad_norm": 2.09375,
      "learning_rate": 1.3559322033898307e-06,
      "loss": 0.1396,
      "step": 2360
    },
    {
      "epoch": 0.8795908879590888,
      "grad_norm": 1.953125,
      "learning_rate": 1.3352625051674247e-06,
      "loss": 0.1293,
      "step": 2365
    },
    {
      "epoch": 0.8814504881450488,
      "grad_norm": 2.03125,
      "learning_rate": 1.3145928069450186e-06,
      "loss": 0.1399,
      "step": 2370
    },
    {
      "epoch": 0.8833100883310089,
      "grad_norm": 2.046875,
      "learning_rate": 1.2939231087226129e-06,
      "loss": 0.1365,
      "step": 2375
    },
    {
      "epoch": 0.8851696885169689,
      "grad_norm": 2.0625,
      "learning_rate": 1.2732534105002068e-06,
      "loss": 0.1397,
      "step": 2380
    },
    {
      "epoch": 0.8870292887029289,
      "grad_norm": 2.015625,
      "learning_rate": 1.2525837122778008e-06,
      "loss": 0.1437,
      "step": 2385
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 1.984375,
      "learning_rate": 1.231914014055395e-06,
      "loss": 0.1418,
      "step": 2390
    },
    {
      "epoch": 0.8907484890748489,
      "grad_norm": 2.03125,
      "learning_rate": 1.211244315832989e-06,
      "loss": 0.1384,
      "step": 2395
    },
    {
      "epoch": 0.8926080892608089,
      "grad_norm": 2.359375,
      "learning_rate": 1.190574617610583e-06,
      "loss": 0.1445,
      "step": 2400
    },
    {
      "epoch": 0.8944676894467689,
      "grad_norm": 2.140625,
      "learning_rate": 1.169904919388177e-06,
      "loss": 0.1358,
      "step": 2405
    },
    {
      "epoch": 0.896327289632729,
      "grad_norm": 2.171875,
      "learning_rate": 1.149235221165771e-06,
      "loss": 0.1532,
      "step": 2410
    },
    {
      "epoch": 0.898186889818689,
      "grad_norm": 1.96875,
      "learning_rate": 1.1285655229433651e-06,
      "loss": 0.1416,
      "step": 2415
    },
    {
      "epoch": 0.900046490004649,
      "grad_norm": 1.9140625,
      "learning_rate": 1.1078958247209592e-06,
      "loss": 0.1383,
      "step": 2420
    },
    {
      "epoch": 0.900418410041841,
      "eval_loss": 0.16189107298851013,
      "eval_runtime": 33.532,
      "eval_samples_per_second": 306.722,
      "eval_steps_per_second": 9.603,
      "step": 2421
    },
    {
      "epoch": 0.901906090190609,
      "grad_norm": 2.234375,
      "learning_rate": 1.0872261264985533e-06,
      "loss": 0.1319,
      "step": 2425
    },
    {
      "epoch": 0.9037656903765691,
      "grad_norm": 2.28125,
      "learning_rate": 1.0665564282761474e-06,
      "loss": 0.1448,
      "step": 2430
    },
    {
      "epoch": 0.905625290562529,
      "grad_norm": 2.265625,
      "learning_rate": 1.0458867300537414e-06,
      "loss": 0.1479,
      "step": 2435
    },
    {
      "epoch": 0.907484890748489,
      "grad_norm": 2.15625,
      "learning_rate": 1.0252170318313353e-06,
      "loss": 0.1396,
      "step": 2440
    },
    {
      "epoch": 0.9093444909344491,
      "grad_norm": 2.203125,
      "learning_rate": 1.0045473336089294e-06,
      "loss": 0.1494,
      "step": 2445
    },
    {
      "epoch": 0.9112040911204091,
      "grad_norm": 2.0625,
      "learning_rate": 9.838776353865235e-07,
      "loss": 0.1362,
      "step": 2450
    },
    {
      "epoch": 0.9130636913063691,
      "grad_norm": 2.0625,
      "learning_rate": 9.632079371641175e-07,
      "loss": 0.1371,
      "step": 2455
    },
    {
      "epoch": 0.9149232914923291,
      "grad_norm": 2.1875,
      "learning_rate": 9.425382389417115e-07,
      "loss": 0.139,
      "step": 2460
    },
    {
      "epoch": 0.9167828916782892,
      "grad_norm": 2.03125,
      "learning_rate": 9.218685407193055e-07,
      "loss": 0.1339,
      "step": 2465
    },
    {
      "epoch": 0.9186424918642492,
      "grad_norm": 2.21875,
      "learning_rate": 9.011988424968997e-07,
      "loss": 0.1427,
      "step": 2470
    },
    {
      "epoch": 0.9205020920502092,
      "grad_norm": 1.9140625,
      "learning_rate": 8.805291442744937e-07,
      "loss": 0.1302,
      "step": 2475
    },
    {
      "epoch": 0.9223616922361693,
      "grad_norm": 1.9296875,
      "learning_rate": 8.598594460520877e-07,
      "loss": 0.1385,
      "step": 2480
    },
    {
      "epoch": 0.9242212924221292,
      "grad_norm": 2.3125,
      "learning_rate": 8.391897478296818e-07,
      "loss": 0.1396,
      "step": 2485
    },
    {
      "epoch": 0.9260808926080892,
      "grad_norm": 2.34375,
      "learning_rate": 8.185200496072758e-07,
      "loss": 0.1447,
      "step": 2490
    },
    {
      "epoch": 0.9279404927940493,
      "grad_norm": 2.109375,
      "learning_rate": 7.978503513848699e-07,
      "loss": 0.1362,
      "step": 2495
    },
    {
      "epoch": 0.9298000929800093,
      "grad_norm": 2.03125,
      "learning_rate": 7.771806531624638e-07,
      "loss": 0.1418,
      "step": 2500
    },
    {
      "epoch": 0.9316596931659693,
      "grad_norm": 1.96875,
      "learning_rate": 7.565109549400579e-07,
      "loss": 0.1372,
      "step": 2505
    },
    {
      "epoch": 0.9335192933519293,
      "grad_norm": 1.8984375,
      "learning_rate": 7.358412567176519e-07,
      "loss": 0.1421,
      "step": 2510
    },
    {
      "epoch": 0.9353788935378894,
      "grad_norm": 2.171875,
      "learning_rate": 7.151715584952461e-07,
      "loss": 0.1426,
      "step": 2515
    },
    {
      "epoch": 0.9372384937238494,
      "grad_norm": 2.125,
      "learning_rate": 6.945018602728401e-07,
      "loss": 0.1361,
      "step": 2520
    },
    {
      "epoch": 0.9390980939098094,
      "grad_norm": 2.140625,
      "learning_rate": 6.738321620504341e-07,
      "loss": 0.1367,
      "step": 2525
    },
    {
      "epoch": 0.9409576940957695,
      "grad_norm": 2.015625,
      "learning_rate": 6.531624638280282e-07,
      "loss": 0.1408,
      "step": 2530
    },
    {
      "epoch": 0.9428172942817294,
      "grad_norm": 2.265625,
      "learning_rate": 6.324927656056222e-07,
      "loss": 0.141,
      "step": 2535
    },
    {
      "epoch": 0.9446768944676894,
      "grad_norm": 2.359375,
      "learning_rate": 6.118230673832163e-07,
      "loss": 0.1346,
      "step": 2540
    },
    {
      "epoch": 0.9465364946536494,
      "grad_norm": 2.09375,
      "learning_rate": 5.911533691608104e-07,
      "loss": 0.14,
      "step": 2545
    },
    {
      "epoch": 0.9483960948396095,
      "grad_norm": 1.8984375,
      "learning_rate": 5.704836709384043e-07,
      "loss": 0.1347,
      "step": 2550
    },
    {
      "epoch": 0.9502556950255695,
      "grad_norm": 1.96875,
      "learning_rate": 5.498139727159984e-07,
      "loss": 0.1354,
      "step": 2555
    },
    {
      "epoch": 0.9521152952115295,
      "grad_norm": 2.203125,
      "learning_rate": 5.291442744935924e-07,
      "loss": 0.1394,
      "step": 2560
    },
    {
      "epoch": 0.9539748953974896,
      "grad_norm": 1.9453125,
      "learning_rate": 5.084745762711865e-07,
      "loss": 0.1392,
      "step": 2565
    },
    {
      "epoch": 0.9558344955834496,
      "grad_norm": 1.9140625,
      "learning_rate": 4.878048780487805e-07,
      "loss": 0.1394,
      "step": 2570
    },
    {
      "epoch": 0.9576940957694096,
      "grad_norm": 2.015625,
      "learning_rate": 4.671351798263746e-07,
      "loss": 0.1401,
      "step": 2575
    },
    {
      "epoch": 0.9595536959553695,
      "grad_norm": 1.8984375,
      "learning_rate": 4.464654816039686e-07,
      "loss": 0.1324,
      "step": 2580
    },
    {
      "epoch": 0.9614132961413296,
      "grad_norm": 2.0,
      "learning_rate": 4.2579578338156263e-07,
      "loss": 0.1408,
      "step": 2585
    },
    {
      "epoch": 0.9632728963272896,
      "grad_norm": 2.078125,
      "learning_rate": 4.051260851591567e-07,
      "loss": 0.1336,
      "step": 2590
    },
    {
      "epoch": 0.9651324965132496,
      "grad_norm": 2.234375,
      "learning_rate": 3.8445638693675074e-07,
      "loss": 0.14,
      "step": 2595
    },
    {
      "epoch": 0.9669920966992097,
      "grad_norm": 2.296875,
      "learning_rate": 3.6378668871434477e-07,
      "loss": 0.1442,
      "step": 2600
    },
    {
      "epoch": 0.9688516968851697,
      "grad_norm": 2.140625,
      "learning_rate": 3.431169904919388e-07,
      "loss": 0.1428,
      "step": 2605
    },
    {
      "epoch": 0.9707112970711297,
      "grad_norm": 2.0625,
      "learning_rate": 3.2244729226953293e-07,
      "loss": 0.1405,
      "step": 2610
    },
    {
      "epoch": 0.9725708972570897,
      "grad_norm": 2.0625,
      "learning_rate": 3.0177759404712695e-07,
      "loss": 0.1325,
      "step": 2615
    },
    {
      "epoch": 0.9744304974430498,
      "grad_norm": 1.921875,
      "learning_rate": 2.81107895824721e-07,
      "loss": 0.139,
      "step": 2620
    },
    {
      "epoch": 0.9762900976290098,
      "grad_norm": 2.171875,
      "learning_rate": 2.6043819760231506e-07,
      "loss": 0.139,
      "step": 2625
    },
    {
      "epoch": 0.9781496978149697,
      "grad_norm": 2.03125,
      "learning_rate": 2.397684993799091e-07,
      "loss": 0.1393,
      "step": 2630
    },
    {
      "epoch": 0.9800092980009298,
      "grad_norm": 2.421875,
      "learning_rate": 2.1909880115750314e-07,
      "loss": 0.1484,
      "step": 2635
    },
    {
      "epoch": 0.9818688981868898,
      "grad_norm": 2.09375,
      "learning_rate": 1.9842910293509717e-07,
      "loss": 0.1426,
      "step": 2640
    },
    {
      "epoch": 0.9837284983728498,
      "grad_norm": 2.46875,
      "learning_rate": 1.777594047126912e-07,
      "loss": 0.1441,
      "step": 2645
    },
    {
      "epoch": 0.9855880985588099,
      "grad_norm": 2.140625,
      "learning_rate": 1.5708970649028525e-07,
      "loss": 0.1423,
      "step": 2650
    },
    {
      "epoch": 0.9874476987447699,
      "grad_norm": 2.03125,
      "learning_rate": 1.364200082678793e-07,
      "loss": 0.139,
      "step": 2655
    },
    {
      "epoch": 0.9893072989307299,
      "grad_norm": 2.0,
      "learning_rate": 1.1575031004547335e-07,
      "loss": 0.1355,
      "step": 2660
    },
    {
      "epoch": 0.9911668991166899,
      "grad_norm": 2.0625,
      "learning_rate": 9.50806118230674e-08,
      "loss": 0.1443,
      "step": 2665
    },
    {
      "epoch": 0.99302649930265,
      "grad_norm": 2.015625,
      "learning_rate": 7.441091360066144e-08,
      "loss": 0.1404,
      "step": 2670
    },
    {
      "epoch": 0.99488609948861,
      "grad_norm": 2.28125,
      "learning_rate": 5.3741215378255483e-08,
      "loss": 0.1501,
      "step": 2675
    },
    {
      "epoch": 0.9967456996745699,
      "grad_norm": 2.078125,
      "learning_rate": 3.3071517155849524e-08,
      "loss": 0.1454,
      "step": 2680
    },
    {
      "epoch": 0.99860529986053,
      "grad_norm": 1.890625,
      "learning_rate": 1.2401818933443573e-08,
      "loss": 0.1473,
      "step": 2685
    },
    {
      "epoch": 0.999721059972106,
      "step": 2688,
      "total_flos": 2.4410094732092375e+18,
      "train_loss": 0.15163021730924292,
      "train_runtime": 3273.2323,
      "train_samples_per_second": 52.569,
      "train_steps_per_second": 0.821
    }
  ],
  "logging_steps": 5,
  "max_steps": 2688,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 269,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.4410094732092375e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}