{
  "best_metric": 0.9779411764705882,
  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-papsmear\\checkpoint-2448",
  "epoch": 99.34640522875817,
  "eval_steps": 500,
  "global_step": 3800,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.26143790849673204,
      "grad_norm": 19.404264450073242,
      "learning_rate": 1.3157894736842106e-06,
      "loss": 1.8243,
      "step": 10
    },
    {
      "epoch": 0.5228758169934641,
      "grad_norm": 9.874568939208984,
      "learning_rate": 2.631578947368421e-06,
      "loss": 1.7542,
      "step": 20
    },
    {
      "epoch": 0.7843137254901961,
      "grad_norm": 13.61699390411377,
      "learning_rate": 3.9473684210526315e-06,
      "loss": 1.7081,
      "step": 30
    },
    {
      "epoch": 0.9934640522875817,
      "eval_accuracy": 0.2867647058823529,
      "eval_loss": 1.6642274856567383,
      "eval_runtime": 19.1091,
      "eval_samples_per_second": 7.117,
      "eval_steps_per_second": 0.89,
      "step": 38
    },
    {
      "epoch": 1.0457516339869282,
      "grad_norm": 17.95810317993164,
      "learning_rate": 5.263157894736842e-06,
      "loss": 1.6316,
      "step": 40
    },
    {
      "epoch": 1.3071895424836601,
      "grad_norm": 11.760519027709961,
      "learning_rate": 6.578947368421053e-06,
      "loss": 1.6191,
      "step": 50
    },
    {
      "epoch": 1.5686274509803921,
      "grad_norm": 12.139671325683594,
      "learning_rate": 7.894736842105263e-06,
      "loss": 1.514,
      "step": 60
    },
    {
      "epoch": 1.8300653594771243,
      "grad_norm": 11.897443771362305,
      "learning_rate": 9.210526315789474e-06,
      "loss": 1.4025,
      "step": 70
    },
    {
      "epoch": 1.9869281045751634,
      "eval_accuracy": 0.4632352941176471,
      "eval_loss": 1.3760590553283691,
      "eval_runtime": 16.8545,
      "eval_samples_per_second": 8.069,
      "eval_steps_per_second": 1.009,
      "step": 76
    },
    {
      "epoch": 2.0915032679738563,
      "grad_norm": 14.211647987365723,
      "learning_rate": 1.0526315789473684e-05,
      "loss": 1.341,
      "step": 80
    },
    {
      "epoch": 2.3529411764705883,
      "grad_norm": 21.328588485717773,
      "learning_rate": 1.1842105263157895e-05,
      "loss": 1.2617,
      "step": 90
    },
    {
      "epoch": 2.6143790849673203,
      "grad_norm": 24.131996154785156,
      "learning_rate": 1.3157894736842106e-05,
      "loss": 1.1608,
      "step": 100
    },
    {
      "epoch": 2.8758169934640523,
      "grad_norm": 23.461227416992188,
      "learning_rate": 1.4473684210526317e-05,
      "loss": 1.0918,
      "step": 110
    },
    {
      "epoch": 2.980392156862745,
      "eval_accuracy": 0.5514705882352942,
      "eval_loss": 1.0276451110839844,
      "eval_runtime": 17.5433,
      "eval_samples_per_second": 7.752,
      "eval_steps_per_second": 0.969,
      "step": 114
    },
    {
      "epoch": 3.1372549019607843,
      "grad_norm": 44.0300407409668,
      "learning_rate": 1.5789473684210526e-05,
      "loss": 0.9044,
      "step": 120
    },
    {
      "epoch": 3.3986928104575163,
      "grad_norm": 23.61319923400879,
      "learning_rate": 1.7105263157894737e-05,
      "loss": 0.9409,
      "step": 130
    },
    {
      "epoch": 3.6601307189542482,
      "grad_norm": 27.572128295898438,
      "learning_rate": 1.8421052631578947e-05,
      "loss": 0.9152,
      "step": 140
    },
    {
      "epoch": 3.9215686274509802,
      "grad_norm": 20.785051345825195,
      "learning_rate": 1.9736842105263158e-05,
      "loss": 0.8051,
      "step": 150
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.6691176470588235,
      "eval_loss": 0.7678546905517578,
      "eval_runtime": 17.2269,
      "eval_samples_per_second": 7.895,
      "eval_steps_per_second": 0.987,
      "step": 153
    },
    {
      "epoch": 4.183006535947713,
      "grad_norm": 32.00216293334961,
      "learning_rate": 2.105263157894737e-05,
      "loss": 0.7821,
      "step": 160
    },
    {
      "epoch": 4.444444444444445,
      "grad_norm": 23.564285278320312,
      "learning_rate": 2.236842105263158e-05,
      "loss": 0.8036,
      "step": 170
    },
    {
      "epoch": 4.705882352941177,
      "grad_norm": 21.403562545776367,
      "learning_rate": 2.368421052631579e-05,
      "loss": 0.7355,
      "step": 180
    },
    {
      "epoch": 4.967320261437909,
      "grad_norm": 31.243640899658203,
      "learning_rate": 2.5e-05,
      "loss": 0.635,
      "step": 190
    },
    {
      "epoch": 4.993464052287582,
      "eval_accuracy": 0.7867647058823529,
      "eval_loss": 0.5927847623825073,
      "eval_runtime": 17.4003,
      "eval_samples_per_second": 7.816,
      "eval_steps_per_second": 0.977,
      "step": 191
    },
    {
      "epoch": 5.228758169934641,
      "grad_norm": 23.90205192565918,
      "learning_rate": 2.6315789473684212e-05,
      "loss": 0.6363,
      "step": 200
    },
    {
      "epoch": 5.490196078431373,
      "grad_norm": 23.38309669494629,
      "learning_rate": 2.7631578947368426e-05,
      "loss": 0.6285,
      "step": 210
    },
    {
      "epoch": 5.751633986928105,
      "grad_norm": 41.387149810791016,
      "learning_rate": 2.8947368421052634e-05,
      "loss": 0.6051,
      "step": 220
    },
    {
      "epoch": 5.9869281045751634,
      "eval_accuracy": 0.75,
      "eval_loss": 0.695731520652771,
      "eval_runtime": 17.5363,
      "eval_samples_per_second": 7.755,
      "eval_steps_per_second": 0.969,
      "step": 229
    },
    {
      "epoch": 6.0130718954248366,
      "grad_norm": 33.84821319580078,
      "learning_rate": 3.0263157894736844e-05,
      "loss": 0.6503,
      "step": 230
    },
    {
      "epoch": 6.2745098039215685,
      "grad_norm": 18.2890682220459,
      "learning_rate": 3.157894736842105e-05,
      "loss": 0.4905,
      "step": 240
    },
    {
      "epoch": 6.5359477124183005,
      "grad_norm": 25.626060485839844,
      "learning_rate": 3.289473684210527e-05,
      "loss": 0.5262,
      "step": 250
    },
    {
      "epoch": 6.7973856209150325,
      "grad_norm": 28.431270599365234,
      "learning_rate": 3.421052631578947e-05,
      "loss": 0.5539,
      "step": 260
    },
    {
      "epoch": 6.980392156862745,
      "eval_accuracy": 0.7941176470588235,
      "eval_loss": 0.5016477108001709,
      "eval_runtime": 17.3512,
      "eval_samples_per_second": 7.838,
      "eval_steps_per_second": 0.98,
      "step": 267
    },
    {
      "epoch": 7.0588235294117645,
      "grad_norm": 21.074764251708984,
      "learning_rate": 3.5526315789473684e-05,
      "loss": 0.4807,
      "step": 270
    },
    {
      "epoch": 7.3202614379084965,
      "grad_norm": 21.632251739501953,
      "learning_rate": 3.6842105263157895e-05,
      "loss": 0.4704,
      "step": 280
    },
    {
      "epoch": 7.5816993464052285,
      "grad_norm": 41.86575698852539,
      "learning_rate": 3.815789473684211e-05,
      "loss": 0.5141,
      "step": 290
    },
    {
      "epoch": 7.8431372549019605,
      "grad_norm": 20.23293685913086,
      "learning_rate": 3.9473684210526316e-05,
      "loss": 0.4683,
      "step": 300
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.8235294117647058,
      "eval_loss": 0.4732811748981476,
      "eval_runtime": 17.0473,
      "eval_samples_per_second": 7.978,
      "eval_steps_per_second": 0.997,
      "step": 306
    },
    {
      "epoch": 8.104575163398692,
      "grad_norm": 67.42210388183594,
      "learning_rate": 4.078947368421053e-05,
      "loss": 0.451,
      "step": 310
    },
    {
      "epoch": 8.366013071895425,
      "grad_norm": 22.807098388671875,
      "learning_rate": 4.210526315789474e-05,
      "loss": 0.4019,
      "step": 320
    },
    {
      "epoch": 8.627450980392156,
      "grad_norm": 31.961091995239258,
      "learning_rate": 4.342105263157895e-05,
      "loss": 0.4663,
      "step": 330
    },
    {
      "epoch": 8.88888888888889,
      "grad_norm": 26.965513229370117,
      "learning_rate": 4.473684210526316e-05,
      "loss": 0.4153,
      "step": 340
    },
    {
      "epoch": 8.993464052287582,
      "eval_accuracy": 0.8529411764705882,
      "eval_loss": 0.4834950268268585,
      "eval_runtime": 16.944,
      "eval_samples_per_second": 8.026,
      "eval_steps_per_second": 1.003,
      "step": 344
    },
    {
      "epoch": 9.15032679738562,
      "grad_norm": 21.733226776123047,
      "learning_rate": 4.605263157894737e-05,
      "loss": 0.473,
      "step": 350
    },
    {
      "epoch": 9.411764705882353,
      "grad_norm": 17.1552734375,
      "learning_rate": 4.736842105263158e-05,
      "loss": 0.3912,
      "step": 360
    },
    {
      "epoch": 9.673202614379084,
      "grad_norm": 39.66945266723633,
      "learning_rate": 4.868421052631579e-05,
      "loss": 0.465,
      "step": 370
    },
    {
      "epoch": 9.934640522875817,
      "grad_norm": 24.060779571533203,
      "learning_rate": 5e-05,
      "loss": 0.3954,
      "step": 380
    },
    {
      "epoch": 9.986928104575163,
      "eval_accuracy": 0.8308823529411765,
      "eval_loss": 0.5431119203567505,
      "eval_runtime": 16.9702,
      "eval_samples_per_second": 8.014,
      "eval_steps_per_second": 1.002,
      "step": 382
    },
    {
      "epoch": 10.196078431372548,
      "grad_norm": 22.754186630249023,
      "learning_rate": 4.985380116959065e-05,
      "loss": 0.309,
      "step": 390
    },
    {
      "epoch": 10.457516339869281,
      "grad_norm": 25.09243392944336,
      "learning_rate": 4.970760233918128e-05,
      "loss": 0.2985,
      "step": 400
    },
    {
      "epoch": 10.718954248366012,
      "grad_norm": 32.95780563354492,
      "learning_rate": 4.956140350877193e-05,
      "loss": 0.3551,
      "step": 410
    },
    {
      "epoch": 10.980392156862745,
      "grad_norm": 24.594146728515625,
      "learning_rate": 4.941520467836258e-05,
      "loss": 0.3524,
      "step": 420
    },
    {
      "epoch": 10.980392156862745,
      "eval_accuracy": 0.8235294117647058,
      "eval_loss": 0.4060741364955902,
      "eval_runtime": 16.9787,
      "eval_samples_per_second": 8.01,
      "eval_steps_per_second": 1.001,
      "step": 420
    },
    {
      "epoch": 11.241830065359476,
      "grad_norm": 34.58118438720703,
      "learning_rate": 4.926900584795322e-05,
      "loss": 0.3015,
      "step": 430
    },
    {
      "epoch": 11.50326797385621,
      "grad_norm": 17.467493057250977,
      "learning_rate": 4.912280701754386e-05,
      "loss": 0.332,
      "step": 440
    },
    {
      "epoch": 11.764705882352942,
      "grad_norm": 11.450825691223145,
      "learning_rate": 4.8976608187134504e-05,
      "loss": 0.3546,
      "step": 450
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.8382352941176471,
      "eval_loss": 0.4924784302711487,
      "eval_runtime": 17.0509,
      "eval_samples_per_second": 7.976,
      "eval_steps_per_second": 0.997,
      "step": 459
    },
    {
      "epoch": 12.026143790849673,
      "grad_norm": 22.95159912109375,
      "learning_rate": 4.883040935672515e-05,
      "loss": 0.3362,
      "step": 460
    },
    {
      "epoch": 12.287581699346406,
      "grad_norm": 15.78369140625,
      "learning_rate": 4.868421052631579e-05,
      "loss": 0.2589,
      "step": 470
    },
    {
      "epoch": 12.549019607843137,
      "grad_norm": 18.571977615356445,
      "learning_rate": 4.853801169590643e-05,
      "loss": 0.2588,
      "step": 480
    },
    {
      "epoch": 12.81045751633987,
      "grad_norm": 10.237850189208984,
      "learning_rate": 4.839181286549708e-05,
      "loss": 0.2922,
      "step": 490
    },
    {
      "epoch": 12.993464052287582,
      "eval_accuracy": 0.875,
      "eval_loss": 0.36371880769729614,
      "eval_runtime": 16.7827,
      "eval_samples_per_second": 8.104,
      "eval_steps_per_second": 1.013,
      "step": 497
    },
    {
      "epoch": 13.071895424836601,
      "grad_norm": 14.183631896972656,
      "learning_rate": 4.824561403508772e-05,
      "loss": 0.2683,
      "step": 500
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 15.362314224243164,
      "learning_rate": 4.8099415204678366e-05,
      "loss": 0.2178,
      "step": 510
    },
    {
      "epoch": 13.594771241830065,
      "grad_norm": 31.49340057373047,
      "learning_rate": 4.7953216374269006e-05,
      "loss": 0.2095,
      "step": 520
    },
    {
      "epoch": 13.856209150326798,
      "grad_norm": 39.85598373413086,
      "learning_rate": 4.780701754385965e-05,
      "loss": 0.2342,
      "step": 530
    },
    {
      "epoch": 13.986928104575163,
      "eval_accuracy": 0.8970588235294118,
      "eval_loss": 0.32859814167022705,
      "eval_runtime": 16.8467,
      "eval_samples_per_second": 8.073,
      "eval_steps_per_second": 1.009,
      "step": 535
    },
    {
      "epoch": 14.117647058823529,
      "grad_norm": 22.395517349243164,
      "learning_rate": 4.7660818713450294e-05,
      "loss": 0.2927,
      "step": 540
    },
    {
      "epoch": 14.379084967320262,
      "grad_norm": 15.716471672058105,
      "learning_rate": 4.751461988304094e-05,
      "loss": 0.2419,
      "step": 550
    },
    {
      "epoch": 14.640522875816993,
      "grad_norm": 13.827138900756836,
      "learning_rate": 4.736842105263158e-05,
      "loss": 0.2215,
      "step": 560
    },
    {
      "epoch": 14.901960784313726,
      "grad_norm": 8.343385696411133,
      "learning_rate": 4.722222222222222e-05,
      "loss": 0.2083,
      "step": 570
    },
    {
      "epoch": 14.980392156862745,
      "eval_accuracy": 0.8823529411764706,
      "eval_loss": 0.327125608921051,
      "eval_runtime": 17.1905,
      "eval_samples_per_second": 7.911,
      "eval_steps_per_second": 0.989,
      "step": 573
    },
    {
      "epoch": 15.163398692810457,
      "grad_norm": 27.369592666625977,
      "learning_rate": 4.707602339181287e-05,
      "loss": 0.1837,
      "step": 580
    },
    {
      "epoch": 15.42483660130719,
      "grad_norm": 4.707042217254639,
      "learning_rate": 4.6929824561403515e-05,
      "loss": 0.1872,
      "step": 590
    },
    {
      "epoch": 15.686274509803921,
      "grad_norm": 19.026412963867188,
      "learning_rate": 4.678362573099415e-05,
      "loss": 0.2063,
      "step": 600
    },
    {
      "epoch": 15.947712418300654,
      "grad_norm": 39.22539138793945,
      "learning_rate": 4.6637426900584796e-05,
      "loss": 0.2704,
      "step": 610
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.8823529411764706,
      "eval_loss": 0.3700261414051056,
      "eval_runtime": 17.2498,
      "eval_samples_per_second": 7.884,
      "eval_steps_per_second": 0.986,
      "step": 612
    },
    {
      "epoch": 16.209150326797385,
      "grad_norm": 4.610194683074951,
      "learning_rate": 4.649122807017544e-05,
      "loss": 0.1895,
      "step": 620
    },
    {
      "epoch": 16.470588235294116,
      "grad_norm": 27.570838928222656,
      "learning_rate": 4.634502923976608e-05,
      "loss": 0.1492,
      "step": 630
    },
    {
      "epoch": 16.73202614379085,
      "grad_norm": 13.742429733276367,
      "learning_rate": 4.619883040935672e-05,
      "loss": 0.1698,
      "step": 640
    },
    {
      "epoch": 16.99346405228758,
      "grad_norm": 16.786169052124023,
      "learning_rate": 4.605263157894737e-05,
      "loss": 0.1871,
      "step": 650
    },
    {
      "epoch": 16.99346405228758,
      "eval_accuracy": 0.8970588235294118,
      "eval_loss": 0.34471678733825684,
      "eval_runtime": 16.7473,
      "eval_samples_per_second": 8.121,
      "eval_steps_per_second": 1.015,
      "step": 650
    },
    {
      "epoch": 17.254901960784313,
      "grad_norm": 15.884855270385742,
      "learning_rate": 4.590643274853802e-05,
      "loss": 0.1335,
      "step": 660
    },
    {
      "epoch": 17.516339869281047,
      "grad_norm": 17.3248348236084,
      "learning_rate": 4.576023391812866e-05,
      "loss": 0.1399,
      "step": 670
    },
    {
      "epoch": 17.77777777777778,
      "grad_norm": 16.090543746948242,
      "learning_rate": 4.56140350877193e-05,
      "loss": 0.226,
      "step": 680
    },
    {
      "epoch": 17.986928104575163,
      "eval_accuracy": 0.8602941176470589,
      "eval_loss": 0.4279506206512451,
      "eval_runtime": 16.8179,
      "eval_samples_per_second": 8.087,
      "eval_steps_per_second": 1.011,
      "step": 688
    },
    {
      "epoch": 18.03921568627451,
      "grad_norm": 17.314950942993164,
      "learning_rate": 4.5467836257309945e-05,
      "loss": 0.2657,
      "step": 690
    },
    {
      "epoch": 18.30065359477124,
      "grad_norm": 26.111413955688477,
      "learning_rate": 4.5321637426900585e-05,
      "loss": 0.1238,
      "step": 700
    },
    {
      "epoch": 18.562091503267975,
      "grad_norm": 34.5568962097168,
      "learning_rate": 4.517543859649123e-05,
      "loss": 0.3426,
      "step": 710
    },
    {
      "epoch": 18.823529411764707,
      "grad_norm": 27.506118774414062,
      "learning_rate": 4.502923976608187e-05,
      "loss": 0.245,
      "step": 720
    },
    {
      "epoch": 18.980392156862745,
      "eval_accuracy": 0.8088235294117647,
      "eval_loss": 0.6445416212081909,
      "eval_runtime": 16.6042,
      "eval_samples_per_second": 8.191,
      "eval_steps_per_second": 1.024,
      "step": 726
    },
    {
      "epoch": 19.084967320261438,
      "grad_norm": 8.742308616638184,
      "learning_rate": 4.488304093567251e-05,
      "loss": 0.1876,
      "step": 730
    },
    {
      "epoch": 19.34640522875817,
      "grad_norm": 37.74170684814453,
      "learning_rate": 4.473684210526316e-05,
      "loss": 0.1044,
      "step": 740
    },
    {
      "epoch": 19.607843137254903,
      "grad_norm": 17.85502815246582,
      "learning_rate": 4.4590643274853806e-05,
      "loss": 0.1637,
      "step": 750
    },
    {
      "epoch": 19.869281045751634,
      "grad_norm": 13.413275718688965,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 0.1545,
      "step": 760
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.8602941176470589,
      "eval_loss": 0.41802164912223816,
      "eval_runtime": 16.9375,
      "eval_samples_per_second": 8.03,
      "eval_steps_per_second": 1.004,
      "step": 765
    },
    {
      "epoch": 20.130718954248366,
      "grad_norm": 24.223968505859375,
      "learning_rate": 4.429824561403509e-05,
      "loss": 0.1333,
      "step": 770
    },
    {
      "epoch": 20.392156862745097,
      "grad_norm": 22.863794326782227,
      "learning_rate": 4.4152046783625734e-05,
      "loss": 0.1223,
      "step": 780
    },
    {
      "epoch": 20.65359477124183,
      "grad_norm": 20.22460174560547,
      "learning_rate": 4.400584795321638e-05,
      "loss": 0.1906,
      "step": 790
    },
    {
      "epoch": 20.915032679738562,
      "grad_norm": 6.557627201080322,
      "learning_rate": 4.3859649122807014e-05,
      "loss": 0.0981,
      "step": 800
    },
    {
      "epoch": 20.99346405228758,
      "eval_accuracy": 0.9044117647058824,
      "eval_loss": 0.32080766558647156,
      "eval_runtime": 17.4044,
      "eval_samples_per_second": 7.814,
      "eval_steps_per_second": 0.977,
      "step": 803
    },
    {
      "epoch": 21.176470588235293,
      "grad_norm": 11.885444641113281,
      "learning_rate": 4.371345029239766e-05,
      "loss": 0.1654,
      "step": 810
    },
    {
      "epoch": 21.437908496732025,
      "grad_norm": 16.748071670532227,
      "learning_rate": 4.356725146198831e-05,
      "loss": 0.1706,
      "step": 820
    },
    {
      "epoch": 21.69934640522876,
      "grad_norm": 25.410442352294922,
      "learning_rate": 4.342105263157895e-05,
      "loss": 0.1121,
      "step": 830
    },
    {
      "epoch": 21.96078431372549,
      "grad_norm": 24.631742477416992,
      "learning_rate": 4.327485380116959e-05,
      "loss": 0.1455,
      "step": 840
    },
    {
      "epoch": 21.986928104575163,
      "eval_accuracy": 0.8602941176470589,
      "eval_loss": 0.425643652677536,
      "eval_runtime": 20.0595,
      "eval_samples_per_second": 6.78,
      "eval_steps_per_second": 0.847,
      "step": 841
    },
    {
      "epoch": 22.22222222222222,
      "grad_norm": 9.926827430725098,
      "learning_rate": 4.3128654970760236e-05,
      "loss": 0.144,
      "step": 850
    },
    {
      "epoch": 22.483660130718953,
      "grad_norm": 32.22057342529297,
      "learning_rate": 4.298245614035088e-05,
      "loss": 0.1328,
      "step": 860
    },
    {
      "epoch": 22.745098039215687,
      "grad_norm": 6.770218849182129,
      "learning_rate": 4.283625730994152e-05,
      "loss": 0.2405,
      "step": 870
    },
    {
      "epoch": 22.980392156862745,
      "eval_accuracy": 0.8970588235294118,
      "eval_loss": 0.34735360741615295,
      "eval_runtime": 36.4621,
      "eval_samples_per_second": 3.73,
      "eval_steps_per_second": 0.466,
      "step": 879
    },
    {
      "epoch": 23.00653594771242,
      "grad_norm": 18.301342010498047,
      "learning_rate": 4.269005847953216e-05,
      "loss": 0.1407,
      "step": 880
    },
    {
      "epoch": 23.26797385620915,
      "grad_norm": 25.70302963256836,
      "learning_rate": 4.254385964912281e-05,
      "loss": 0.1403,
      "step": 890
    },
    {
      "epoch": 23.529411764705884,
      "grad_norm": 6.829775333404541,
      "learning_rate": 4.239766081871345e-05,
      "loss": 0.1278,
      "step": 900
    },
    {
      "epoch": 23.790849673202615,
      "grad_norm": 15.183685302734375,
      "learning_rate": 4.22514619883041e-05,
      "loss": 0.1549,
      "step": 910
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.9044117647058824,
      "eval_loss": 0.39403286576271057,
      "eval_runtime": 30.2513,
      "eval_samples_per_second": 4.496,
      "eval_steps_per_second": 0.562,
      "step": 918
    },
    {
      "epoch": 24.052287581699346,
      "grad_norm": 76.56197357177734,
      "learning_rate": 4.210526315789474e-05,
      "loss": 0.2019,
      "step": 920
    },
    {
      "epoch": 24.313725490196077,
      "grad_norm": 10.338065147399902,
      "learning_rate": 4.195906432748538e-05,
      "loss": 0.1341,
      "step": 930
    },
    {
      "epoch": 24.575163398692812,
      "grad_norm": 10.710972785949707,
      "learning_rate": 4.1812865497076025e-05,
      "loss": 0.1207,
      "step": 940
    },
    {
      "epoch": 24.836601307189543,
      "grad_norm": 19.086135864257812,
      "learning_rate": 4.166666666666667e-05,
      "loss": 0.1721,
      "step": 950
    },
    {
      "epoch": 24.99346405228758,
      "eval_accuracy": 0.8823529411764706,
      "eval_loss": 0.4279385805130005,
      "eval_runtime": 29.9969,
      "eval_samples_per_second": 4.534,
      "eval_steps_per_second": 0.567,
      "step": 956
    },
    {
      "epoch": 25.098039215686274,
      "grad_norm": 6.991425514221191,
      "learning_rate": 4.152046783625731e-05,
      "loss": 0.0729,
      "step": 960
    },
    {
      "epoch": 25.359477124183005,
      "grad_norm": 8.979483604431152,
      "learning_rate": 4.137426900584795e-05,
      "loss": 0.1826,
      "step": 970
    },
    {
      "epoch": 25.62091503267974,
      "grad_norm": 11.570904731750488,
      "learning_rate": 4.12280701754386e-05,
      "loss": 0.1492,
      "step": 980
    },
    {
      "epoch": 25.88235294117647,
      "grad_norm": 14.8778076171875,
      "learning_rate": 4.1081871345029247e-05,
      "loss": 0.1378,
      "step": 990
    },
    {
      "epoch": 25.986928104575163,
      "eval_accuracy": 0.9044117647058824,
      "eval_loss": 0.387086421251297,
      "eval_runtime": 29.0075,
      "eval_samples_per_second": 4.688,
      "eval_steps_per_second": 0.586,
      "step": 994
    },
    {
      "epoch": 26.143790849673202,
      "grad_norm": 11.985469818115234,
      "learning_rate": 4.093567251461988e-05,
      "loss": 0.1122,
      "step": 1000
    },
    {
      "epoch": 26.405228758169933,
      "grad_norm": 22.02225685119629,
      "learning_rate": 4.078947368421053e-05,
      "loss": 0.1172,
      "step": 1010
    },
    {
      "epoch": 26.666666666666668,
      "grad_norm": 1.2671743631362915,
      "learning_rate": 4.0643274853801174e-05,
      "loss": 0.0891,
      "step": 1020
    },
    {
      "epoch": 26.9281045751634,
      "grad_norm": 10.896835327148438,
      "learning_rate": 4.0497076023391814e-05,
      "loss": 0.0924,
      "step": 1030
    },
    {
      "epoch": 26.980392156862745,
      "eval_accuracy": 0.8455882352941176,
      "eval_loss": 0.7301138639450073,
      "eval_runtime": 28.9067,
      "eval_samples_per_second": 4.705,
      "eval_steps_per_second": 0.588,
      "step": 1032
    },
    {
      "epoch": 27.18954248366013,
      "grad_norm": 7.8527960777282715,
      "learning_rate": 4.0350877192982455e-05,
      "loss": 0.1348,
      "step": 1040
    },
    {
      "epoch": 27.45098039215686,
      "grad_norm": 2.1555140018463135,
      "learning_rate": 4.02046783625731e-05,
      "loss": 0.0675,
      "step": 1050
    },
    {
      "epoch": 27.712418300653596,
      "grad_norm": 7.751283645629883,
      "learning_rate": 4.005847953216375e-05,
      "loss": 0.0916,
      "step": 1060
    },
    {
      "epoch": 27.973856209150327,
      "grad_norm": 33.804786682128906,
      "learning_rate": 3.991228070175439e-05,
      "loss": 0.1325,
      "step": 1070
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.9044117647058824,
      "eval_loss": 0.3712061643600464,
      "eval_runtime": 28.0451,
      "eval_samples_per_second": 4.849,
      "eval_steps_per_second": 0.606,
      "step": 1071
    },
    {
      "epoch": 28.235294117647058,
      "grad_norm": 7.706085205078125,
      "learning_rate": 3.976608187134503e-05,
      "loss": 0.0879,
      "step": 1080
    },
    {
      "epoch": 28.49673202614379,
      "grad_norm": 4.338534355163574,
      "learning_rate": 3.9619883040935676e-05,
      "loss": 0.1017,
      "step": 1090
    },
    {
      "epoch": 28.758169934640524,
      "grad_norm": 9.544697761535645,
      "learning_rate": 3.9473684210526316e-05,
      "loss": 0.1426,
      "step": 1100
    },
    {
      "epoch": 28.99346405228758,
      "eval_accuracy": 0.8602941176470589,
      "eval_loss": 0.440034419298172,
      "eval_runtime": 30.1321,
      "eval_samples_per_second": 4.513,
      "eval_steps_per_second": 0.564,
      "step": 1109
    },
    {
      "epoch": 29.019607843137255,
      "grad_norm": 0.3841346502304077,
      "learning_rate": 3.932748538011696e-05,
      "loss": 0.0981,
      "step": 1110
    },
    {
      "epoch": 29.281045751633986,
      "grad_norm": 9.533553123474121,
      "learning_rate": 3.9181286549707604e-05,
      "loss": 0.0926,
      "step": 1120
    },
    {
      "epoch": 29.54248366013072,
      "grad_norm": 26.160850524902344,
      "learning_rate": 3.9035087719298244e-05,
      "loss": 0.083,
      "step": 1130
    },
    {
      "epoch": 29.80392156862745,
      "grad_norm": 18.309621810913086,
      "learning_rate": 3.888888888888889e-05,
      "loss": 0.0866,
      "step": 1140
    },
    {
      "epoch": 29.986928104575163,
      "eval_accuracy": 0.9411764705882353,
      "eval_loss": 0.27793076634407043,
      "eval_runtime": 29.3246,
      "eval_samples_per_second": 4.638,
      "eval_steps_per_second": 0.58,
      "step": 1147
    },
    {
      "epoch": 30.065359477124183,
      "grad_norm": 24.974849700927734,
      "learning_rate": 3.874269005847954e-05,
      "loss": 0.11,
      "step": 1150
    },
    {
      "epoch": 30.326797385620914,
      "grad_norm": 3.7421281337738037,
      "learning_rate": 3.859649122807018e-05,
      "loss": 0.0712,
      "step": 1160
    },
    {
      "epoch": 30.58823529411765,
      "grad_norm": 10.041555404663086,
      "learning_rate": 3.845029239766082e-05,
      "loss": 0.0702,
      "step": 1170
    },
    {
      "epoch": 30.84967320261438,
      "grad_norm": 37.238948822021484,
      "learning_rate": 3.8304093567251465e-05,
      "loss": 0.0659,
      "step": 1180
    },
    {
      "epoch": 30.980392156862745,
      "eval_accuracy": 0.9411764705882353,
      "eval_loss": 0.3207360804080963,
      "eval_runtime": 34.3274,
      "eval_samples_per_second": 3.962,
      "eval_steps_per_second": 0.495,
      "step": 1185
    },
    {
      "epoch": 31.11111111111111,
      "grad_norm": 13.073234558105469,
      "learning_rate": 3.815789473684211e-05,
      "loss": 0.0547,
      "step": 1190
    },
    {
      "epoch": 31.372549019607842,
      "grad_norm": 3.1763381958007812,
      "learning_rate": 3.8011695906432746e-05,
      "loss": 0.0727,
      "step": 1200
    },
    {
      "epoch": 31.633986928104576,
      "grad_norm": 1.5747133493423462,
      "learning_rate": 3.786549707602339e-05,
      "loss": 0.1023,
      "step": 1210
    },
    {
      "epoch": 31.895424836601308,
      "grad_norm": 12.335155487060547,
      "learning_rate": 3.771929824561404e-05,
      "loss": 0.1175,
      "step": 1220
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.9044117647058824,
      "eval_loss": 0.43389689922332764,
      "eval_runtime": 32.183,
      "eval_samples_per_second": 4.226,
      "eval_steps_per_second": 0.528,
      "step": 1224
    },
    {
      "epoch": 32.15686274509804,
      "grad_norm": 2.676323413848877,
      "learning_rate": 3.757309941520468e-05,
      "loss": 0.129,
      "step": 1230
    },
    {
      "epoch": 32.41830065359477,
      "grad_norm": 0.5916957259178162,
      "learning_rate": 3.742690058479532e-05,
      "loss": 0.0585,
      "step": 1240
    },
    {
      "epoch": 32.6797385620915,
      "grad_norm": 11.02872085571289,
      "learning_rate": 3.728070175438597e-05,
      "loss": 0.045,
      "step": 1250
    },
    {
      "epoch": 32.94117647058823,
      "grad_norm": 44.40802001953125,
      "learning_rate": 3.713450292397661e-05,
      "loss": 0.0455,
      "step": 1260
    },
    {
      "epoch": 32.99346405228758,
      "eval_accuracy": 0.9264705882352942,
      "eval_loss": 0.4536753296852112,
      "eval_runtime": 32.0477,
      "eval_samples_per_second": 4.244,
      "eval_steps_per_second": 0.53,
      "step": 1262
    },
    {
      "epoch": 33.20261437908497,
      "grad_norm": 0.4168817400932312,
      "learning_rate": 3.6988304093567254e-05,
      "loss": 0.0625,
      "step": 1270
    },
    {
      "epoch": 33.4640522875817,
      "grad_norm": 7.689728260040283,
      "learning_rate": 3.6842105263157895e-05,
      "loss": 0.1613,
      "step": 1280
    },
    {
      "epoch": 33.72549019607843,
      "grad_norm": 9.364749908447266,
      "learning_rate": 3.669590643274854e-05,
      "loss": 0.1001,
      "step": 1290
    },
    {
      "epoch": 33.98692810457516,
      "grad_norm": 14.09304428100586,
      "learning_rate": 3.654970760233918e-05,
      "loss": 0.1006,
      "step": 1300
    },
    {
      "epoch": 33.98692810457516,
      "eval_accuracy": 0.875,
      "eval_loss": 0.6521199345588684,
      "eval_runtime": 33.7228,
      "eval_samples_per_second": 4.033,
      "eval_steps_per_second": 0.504,
      "step": 1300
    },
    {
      "epoch": 34.248366013071895,
      "grad_norm": 14.115684509277344,
      "learning_rate": 3.640350877192983e-05,
      "loss": 0.1592,
      "step": 1310
    },
    {
      "epoch": 34.509803921568626,
      "grad_norm": 2.2361948490142822,
      "learning_rate": 3.625730994152047e-05,
      "loss": 0.0785,
      "step": 1320
    },
    {
      "epoch": 34.77124183006536,
      "grad_norm": 15.101175308227539,
      "learning_rate": 3.611111111111111e-05,
      "loss": 0.033,
      "step": 1330
    },
    {
      "epoch": 34.98039215686274,
      "eval_accuracy": 0.9044117647058824,
      "eval_loss": 0.5615760087966919,
      "eval_runtime": 20.5904,
      "eval_samples_per_second": 6.605,
      "eval_steps_per_second": 0.826,
      "step": 1338
    },
    {
      "epoch": 35.032679738562095,
      "grad_norm": 74.07561492919922,
      "learning_rate": 3.5964912280701756e-05,
      "loss": 0.1336,
      "step": 1340
    },
    {
      "epoch": 35.294117647058826,
      "grad_norm": 40.868961334228516,
      "learning_rate": 3.5818713450292403e-05,
      "loss": 0.1209,
      "step": 1350
    },
    {
      "epoch": 35.55555555555556,
      "grad_norm": 11.251754760742188,
      "learning_rate": 3.5672514619883044e-05,
      "loss": 0.0658,
      "step": 1360
    },
    {
      "epoch": 35.81699346405229,
      "grad_norm": 20.791095733642578,
      "learning_rate": 3.5526315789473684e-05,
      "loss": 0.0979,
      "step": 1370
    },
    {
      "epoch": 36.0,
      "eval_accuracy": 0.9191176470588235,
      "eval_loss": 0.3717995882034302,
      "eval_runtime": 21.531,
      "eval_samples_per_second": 6.316,
      "eval_steps_per_second": 0.79,
      "step": 1377
    },
    {
      "epoch": 36.07843137254902,
      "grad_norm": 13.336127281188965,
      "learning_rate": 3.538011695906433e-05,
      "loss": 0.0712,
      "step": 1380
    },
    {
      "epoch": 36.33986928104575,
      "grad_norm": 7.379011154174805,
      "learning_rate": 3.523391812865498e-05,
      "loss": 0.0826,
      "step": 1390
    },
    {
      "epoch": 36.60130718954248,
      "grad_norm": 1.9048967361450195,
      "learning_rate": 3.508771929824561e-05,
      "loss": 0.0791,
      "step": 1400
    },
    {
      "epoch": 36.86274509803921,
      "grad_norm": 32.38518142700195,
      "learning_rate": 3.494152046783626e-05,
      "loss": 0.1045,
      "step": 1410
    },
    {
      "epoch": 36.99346405228758,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.25290319323539734,
      "eval_runtime": 22.9294,
      "eval_samples_per_second": 5.931,
      "eval_steps_per_second": 0.741,
      "step": 1415
    },
    {
      "epoch": 37.12418300653595,
      "grad_norm": 14.719789505004883,
      "learning_rate": 3.4795321637426905e-05,
      "loss": 0.0977,
      "step": 1420
    },
    {
      "epoch": 37.38562091503268,
      "grad_norm": 21.388763427734375,
      "learning_rate": 3.4649122807017546e-05,
      "loss": 0.0374,
      "step": 1430
    },
    {
      "epoch": 37.64705882352941,
      "grad_norm": 7.066629886627197,
      "learning_rate": 3.4502923976608186e-05,
      "loss": 0.0819,
      "step": 1440
    },
    {
      "epoch": 37.908496732026144,
      "grad_norm": 4.583933353424072,
      "learning_rate": 3.435672514619883e-05,
      "loss": 0.0815,
      "step": 1450
    },
    {
      "epoch": 37.98692810457516,
      "eval_accuracy": 0.9338235294117647,
      "eval_loss": 0.3510648012161255,
      "eval_runtime": 21.3875,
      "eval_samples_per_second": 6.359,
      "eval_steps_per_second": 0.795,
      "step": 1453
    },
    {
      "epoch": 38.169934640522875,
      "grad_norm": 14.378546714782715,
      "learning_rate": 3.421052631578947e-05,
      "loss": 0.1109,
      "step": 1460
    },
    {
      "epoch": 38.431372549019606,
      "grad_norm": 4.1210408210754395,
      "learning_rate": 3.406432748538012e-05,
      "loss": 0.052,
      "step": 1470
    },
    {
      "epoch": 38.69281045751634,
      "grad_norm": 18.48431396484375,
      "learning_rate": 3.391812865497076e-05,
      "loss": 0.0932,
      "step": 1480
    },
    {
      "epoch": 38.95424836601307,
      "grad_norm": 30.51089859008789,
      "learning_rate": 3.377192982456141e-05,
      "loss": 0.0761,
      "step": 1490
    },
    {
      "epoch": 38.98039215686274,
      "eval_accuracy": 0.9338235294117647,
      "eval_loss": 0.31144019961357117,
      "eval_runtime": 32.6124,
      "eval_samples_per_second": 4.17,
      "eval_steps_per_second": 0.521,
      "step": 1491
    },
    {
      "epoch": 39.21568627450981,
      "grad_norm": 29.487356185913086,
      "learning_rate": 3.362573099415205e-05,
      "loss": 0.0995,
      "step": 1500
    },
    {
      "epoch": 39.47712418300654,
      "grad_norm": 4.752898216247559,
      "learning_rate": 3.3479532163742695e-05,
      "loss": 0.0986,
      "step": 1510
    },
    {
      "epoch": 39.73856209150327,
      "grad_norm": 23.433902740478516,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.0908,
      "step": 1520
    },
    {
      "epoch": 40.0,
      "grad_norm": 8.154867172241211,
      "learning_rate": 3.3187134502923975e-05,
      "loss": 0.0747,
      "step": 1530
    },
    {
      "epoch": 40.0,
      "eval_accuracy": 0.9338235294117647,
      "eval_loss": 0.2836870849132538,
      "eval_runtime": 33.717,
      "eval_samples_per_second": 4.034,
      "eval_steps_per_second": 0.504,
      "step": 1530
    },
    {
      "epoch": 40.26143790849673,
      "grad_norm": 66.09915924072266,
      "learning_rate": 3.304093567251462e-05,
      "loss": 0.0746,
      "step": 1540
    },
    {
      "epoch": 40.52287581699346,
      "grad_norm": 8.447415351867676,
      "learning_rate": 3.289473684210527e-05,
      "loss": 0.0809,
      "step": 1550
    },
    {
      "epoch": 40.78431372549019,
      "grad_norm": 11.7717866897583,
      "learning_rate": 3.274853801169591e-05,
      "loss": 0.0545,
      "step": 1560
    },
    {
      "epoch": 40.99346405228758,
      "eval_accuracy": 0.9411764705882353,
      "eval_loss": 0.42687493562698364,
      "eval_runtime": 30.8285,
      "eval_samples_per_second": 4.412,
      "eval_steps_per_second": 0.551,
      "step": 1568
    },
    {
      "epoch": 41.04575163398693,
      "grad_norm": 2.3586502075195312,
      "learning_rate": 3.260233918128655e-05,
      "loss": 0.058,
      "step": 1570
    },
    {
      "epoch": 41.30718954248366,
      "grad_norm": 31.519433975219727,
      "learning_rate": 3.24561403508772e-05,
      "loss": 0.0838,
      "step": 1580
    },
    {
      "epoch": 41.568627450980394,
      "grad_norm": 0.15550392866134644,
      "learning_rate": 3.230994152046784e-05,
      "loss": 0.0853,
      "step": 1590
    },
    {
      "epoch": 41.830065359477125,
      "grad_norm": 6.823671340942383,
      "learning_rate": 3.216374269005848e-05,
      "loss": 0.0796,
      "step": 1600
    },
    {
      "epoch": 41.98692810457516,
      "eval_accuracy": 0.9411764705882353,
      "eval_loss": 0.23307542502880096,
      "eval_runtime": 33.1415,
      "eval_samples_per_second": 4.104,
      "eval_steps_per_second": 0.513,
      "step": 1606
    },
    {
      "epoch": 42.091503267973856,
      "grad_norm": 11.52629566192627,
      "learning_rate": 3.2017543859649124e-05,
      "loss": 0.0903,
      "step": 1610
    },
    {
      "epoch": 42.35294117647059,
      "grad_norm": 11.996484756469727,
      "learning_rate": 3.187134502923977e-05,
      "loss": 0.0595,
      "step": 1620
    },
    {
      "epoch": 42.61437908496732,
      "grad_norm": 1.5475754737854004,
      "learning_rate": 3.172514619883041e-05,
      "loss": 0.0993,
      "step": 1630
    },
    {
      "epoch": 42.87581699346405,
      "grad_norm": 18.27874755859375,
      "learning_rate": 3.157894736842105e-05,
      "loss": 0.055,
      "step": 1640
    },
    {
      "epoch": 42.98039215686274,
      "eval_accuracy": 0.9485294117647058,
      "eval_loss": 0.28995171189308167,
      "eval_runtime": 31.1656,
      "eval_samples_per_second": 4.364,
      "eval_steps_per_second": 0.545,
      "step": 1644
    },
    {
      "epoch": 43.13725490196079,
      "grad_norm": 1.7079222202301025,
      "learning_rate": 3.14327485380117e-05,
      "loss": 0.0851,
      "step": 1650
    },
    {
      "epoch": 43.39869281045752,
      "grad_norm": 0.0829237625002861,
      "learning_rate": 3.128654970760234e-05,
      "loss": 0.061,
      "step": 1660
    },
    {
      "epoch": 43.66013071895425,
      "grad_norm": 2.6961874961853027,
      "learning_rate": 3.1140350877192986e-05,
      "loss": 0.0205,
      "step": 1670
    },
    {
      "epoch": 43.92156862745098,
      "grad_norm": 3.1870129108428955,
      "learning_rate": 3.0994152046783626e-05,
      "loss": 0.0706,
      "step": 1680
    },
    {
      "epoch": 44.0,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.3367806077003479,
      "eval_runtime": 25.249,
      "eval_samples_per_second": 5.386,
      "eval_steps_per_second": 0.673,
      "step": 1683
    },
    {
      "epoch": 44.18300653594771,
      "grad_norm": 10.678839683532715,
      "learning_rate": 3.084795321637427e-05,
      "loss": 0.0555,
      "step": 1690
    },
    {
      "epoch": 44.44444444444444,
      "grad_norm": 0.1511285901069641,
      "learning_rate": 3.0701754385964913e-05,
      "loss": 0.0463,
      "step": 1700
    },
    {
      "epoch": 44.705882352941174,
      "grad_norm": 19.222854614257812,
      "learning_rate": 3.055555555555556e-05,
      "loss": 0.0783,
      "step": 1710
    },
    {
      "epoch": 44.967320261437905,
      "grad_norm": 12.824193954467773,
      "learning_rate": 3.0409356725146197e-05,
      "loss": 0.0505,
      "step": 1720
    },
    {
      "epoch": 44.99346405228758,
      "eval_accuracy": 0.9485294117647058,
      "eval_loss": 0.3779818117618561,
      "eval_runtime": 19.0793,
      "eval_samples_per_second": 7.128,
      "eval_steps_per_second": 0.891,
      "step": 1721
    },
    {
      "epoch": 45.22875816993464,
      "grad_norm": 18.495044708251953,
      "learning_rate": 3.0263157894736844e-05,
      "loss": 0.0679,
      "step": 1730
    },
    {
      "epoch": 45.490196078431374,
      "grad_norm": 22.039566040039062,
      "learning_rate": 3.0116959064327488e-05,
      "loss": 0.0618,
      "step": 1740
    },
    {
      "epoch": 45.751633986928105,
      "grad_norm": 0.6790270209312439,
      "learning_rate": 2.997076023391813e-05,
      "loss": 0.0698,
      "step": 1750
    },
    {
      "epoch": 45.98692810457516,
      "eval_accuracy": 0.9191176470588235,
      "eval_loss": 0.48222464323043823,
      "eval_runtime": 33.9657,
      "eval_samples_per_second": 4.004,
      "eval_steps_per_second": 0.501,
      "step": 1759
    },
    {
      "epoch": 46.01307189542484,
      "grad_norm": 48.15066909790039,
      "learning_rate": 2.9824561403508772e-05,
      "loss": 0.0745,
      "step": 1760
    },
    {
      "epoch": 46.27450980392157,
      "grad_norm": 48.96921920776367,
      "learning_rate": 2.9678362573099415e-05,
      "loss": 0.11,
      "step": 1770
    },
    {
      "epoch": 46.5359477124183,
      "grad_norm": 16.973966598510742,
      "learning_rate": 2.9532163742690062e-05,
      "loss": 0.0183,
      "step": 1780
    },
    {
      "epoch": 46.79738562091503,
      "grad_norm": 11.563841819763184,
      "learning_rate": 2.9385964912280706e-05,
      "loss": 0.0275,
      "step": 1790
    },
    {
      "epoch": 46.98039215686274,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.34339553117752075,
      "eval_runtime": 33.4784,
      "eval_samples_per_second": 4.062,
      "eval_steps_per_second": 0.508,
      "step": 1797
    },
    {
      "epoch": 47.05882352941177,
      "grad_norm": 18.660812377929688,
      "learning_rate": 2.9239766081871346e-05,
      "loss": 0.0307,
      "step": 1800
    },
    {
      "epoch": 47.3202614379085,
      "grad_norm": 19.048458099365234,
      "learning_rate": 2.909356725146199e-05,
      "loss": 0.036,
      "step": 1810
    },
    {
      "epoch": 47.58169934640523,
      "grad_norm": 0.8519901037216187,
      "learning_rate": 2.8947368421052634e-05,
      "loss": 0.0491,
      "step": 1820
    },
    {
      "epoch": 47.84313725490196,
      "grad_norm": 0.9929773211479187,
      "learning_rate": 2.8801169590643277e-05,
      "loss": 0.0641,
      "step": 1830
    },
    {
      "epoch": 48.0,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.3386637568473816,
      "eval_runtime": 33.9575,
      "eval_samples_per_second": 4.005,
      "eval_steps_per_second": 0.501,
      "step": 1836
    },
    {
      "epoch": 48.10457516339869,
      "grad_norm": 27.548429489135742,
      "learning_rate": 2.8654970760233917e-05,
      "loss": 0.0634,
      "step": 1840
    },
    {
      "epoch": 48.36601307189542,
      "grad_norm": 0.4367322027683258,
      "learning_rate": 2.850877192982456e-05,
      "loss": 0.0756,
      "step": 1850
    },
    {
      "epoch": 48.627450980392155,
      "grad_norm": 18.30873680114746,
      "learning_rate": 2.8362573099415208e-05,
      "loss": 0.0134,
      "step": 1860
    },
    {
      "epoch": 48.888888888888886,
      "grad_norm": 0.011559017933905125,
      "learning_rate": 2.821637426900585e-05,
      "loss": 0.0484,
      "step": 1870
    },
    {
      "epoch": 48.99346405228758,
      "eval_accuracy": 0.9191176470588235,
      "eval_loss": 0.5349822640419006,
      "eval_runtime": 38.4788,
      "eval_samples_per_second": 3.534,
      "eval_steps_per_second": 0.442,
      "step": 1874
    },
    {
      "epoch": 49.150326797385624,
      "grad_norm": 2.1214957237243652,
      "learning_rate": 2.8070175438596492e-05,
      "loss": 0.088,
      "step": 1880
    },
    {
      "epoch": 49.411764705882355,
      "grad_norm": 27.645193099975586,
      "learning_rate": 2.7923976608187135e-05,
      "loss": 0.0621,
      "step": 1890
    },
    {
      "epoch": 49.673202614379086,
      "grad_norm": 1.3699434995651245,
      "learning_rate": 2.777777777777778e-05,
      "loss": 0.0528,
      "step": 1900
    },
    {
      "epoch": 49.93464052287582,
      "grad_norm": 8.130342483520508,
      "learning_rate": 2.7631578947368426e-05,
      "loss": 0.0388,
      "step": 1910
    },
    {
      "epoch": 49.98692810457516,
      "eval_accuracy": 0.9117647058823529,
      "eval_loss": 0.382554292678833,
      "eval_runtime": 33.8716,
      "eval_samples_per_second": 4.015,
      "eval_steps_per_second": 0.502,
      "step": 1912
    },
    {
      "epoch": 50.19607843137255,
      "grad_norm": 47.961002349853516,
      "learning_rate": 2.7485380116959063e-05,
      "loss": 0.0941,
      "step": 1920
    },
    {
      "epoch": 50.45751633986928,
      "grad_norm": 36.82217025756836,
      "learning_rate": 2.733918128654971e-05,
      "loss": 0.0863,
      "step": 1930
    },
    {
      "epoch": 50.71895424836601,
      "grad_norm": 5.911373615264893,
      "learning_rate": 2.7192982456140354e-05,
      "loss": 0.0324,
      "step": 1940
    },
    {
      "epoch": 50.98039215686274,
      "grad_norm": 24.99283790588379,
      "learning_rate": 2.7046783625730997e-05,
      "loss": 0.0347,
      "step": 1950
    },
    {
      "epoch": 50.98039215686274,
      "eval_accuracy": 0.9558823529411765,
      "eval_loss": 0.3738501965999603,
      "eval_runtime": 30.759,
      "eval_samples_per_second": 4.421,
      "eval_steps_per_second": 0.553,
      "step": 1950
    },
    {
      "epoch": 51.24183006535948,
      "grad_norm": 70.3333969116211,
      "learning_rate": 2.6900584795321637e-05,
      "loss": 0.0428,
      "step": 1960
    },
    {
      "epoch": 51.50326797385621,
      "grad_norm": 13.072953224182129,
      "learning_rate": 2.675438596491228e-05,
      "loss": 0.0505,
      "step": 1970
    },
    {
      "epoch": 51.76470588235294,
      "grad_norm": 39.30720520019531,
      "learning_rate": 2.6608187134502928e-05,
      "loss": 0.1046,
      "step": 1980
    },
    {
      "epoch": 52.0,
      "eval_accuracy": 0.9117647058823529,
      "eval_loss": 0.3074805736541748,
      "eval_runtime": 33.894,
      "eval_samples_per_second": 4.013,
      "eval_steps_per_second": 0.502,
      "step": 1989
    },
    {
      "epoch": 52.02614379084967,
      "grad_norm": 23.061525344848633,
      "learning_rate": 2.6461988304093572e-05,
      "loss": 0.0566,
      "step": 1990
    },
    {
      "epoch": 52.287581699346404,
      "grad_norm": 2.5243396759033203,
      "learning_rate": 2.6315789473684212e-05,
      "loss": 0.0605,
      "step": 2000
    },
    {
      "epoch": 52.549019607843135,
      "grad_norm": 11.470220565795898,
      "learning_rate": 2.6169590643274856e-05,
      "loss": 0.0767,
      "step": 2010
    },
    {
      "epoch": 52.810457516339866,
      "grad_norm": 0.23322105407714844,
      "learning_rate": 2.60233918128655e-05,
      "loss": 0.0298,
      "step": 2020
    },
    {
      "epoch": 52.99346405228758,
      "eval_accuracy": 0.9558823529411765,
      "eval_loss": 0.3557595908641815,
      "eval_runtime": 25.1218,
      "eval_samples_per_second": 5.414,
      "eval_steps_per_second": 0.677,
      "step": 2027
    },
    {
      "epoch": 53.071895424836605,
      "grad_norm": 4.624847412109375,
      "learning_rate": 2.5877192982456143e-05,
      "loss": 0.0563,
      "step": 2030
    },
    {
      "epoch": 53.333333333333336,
      "grad_norm": 0.25727781653404236,
      "learning_rate": 2.5730994152046783e-05,
      "loss": 0.0977,
      "step": 2040
    },
    {
      "epoch": 53.59477124183007,
      "grad_norm": 0.22140049934387207,
      "learning_rate": 2.5584795321637427e-05,
      "loss": 0.0199,
      "step": 2050
    },
    {
      "epoch": 53.8562091503268,
      "grad_norm": 0.9178116321563721,
      "learning_rate": 2.5438596491228074e-05,
      "loss": 0.0478,
      "step": 2060
    },
    {
      "epoch": 53.98692810457516,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.30555427074432373,
      "eval_runtime": 37.1043,
      "eval_samples_per_second": 3.665,
      "eval_steps_per_second": 0.458,
      "step": 2065
    },
    {
      "epoch": 54.11764705882353,
      "grad_norm": 19.221540451049805,
      "learning_rate": 2.5292397660818717e-05,
      "loss": 0.0289,
      "step": 2070
    },
    {
      "epoch": 54.37908496732026,
      "grad_norm": 1.848120093345642,
      "learning_rate": 2.5146198830409358e-05,
      "loss": 0.095,
      "step": 2080
    },
    {
      "epoch": 54.64052287581699,
      "grad_norm": 10.04775619506836,
      "learning_rate": 2.5e-05,
      "loss": 0.0218,
      "step": 2090
    },
    {
      "epoch": 54.90196078431372,
      "grad_norm": 0.047169651836156845,
      "learning_rate": 2.485380116959064e-05,
      "loss": 0.0285,
      "step": 2100
    },
    {
      "epoch": 54.98039215686274,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.28512153029441833,
      "eval_runtime": 32.4012,
      "eval_samples_per_second": 4.197,
      "eval_steps_per_second": 0.525,
      "step": 2103
    },
    {
      "epoch": 55.16339869281046,
      "grad_norm": 2.4437642097473145,
      "learning_rate": 2.470760233918129e-05,
      "loss": 0.0029,
      "step": 2110
    },
    {
      "epoch": 55.42483660130719,
      "grad_norm": 14.518400192260742,
      "learning_rate": 2.456140350877193e-05,
      "loss": 0.0621,
      "step": 2120
    },
    {
      "epoch": 55.68627450980392,
      "grad_norm": 2.9272749423980713,
      "learning_rate": 2.4415204678362576e-05,
      "loss": 0.0129,
      "step": 2130
    },
    {
      "epoch": 55.947712418300654,
      "grad_norm": 19.935407638549805,
      "learning_rate": 2.4269005847953216e-05,
      "loss": 0.0407,
      "step": 2140
    },
    {
      "epoch": 56.0,
      "eval_accuracy": 0.9558823529411765,
      "eval_loss": 0.32225164771080017,
      "eval_runtime": 33.148,
      "eval_samples_per_second": 4.103,
      "eval_steps_per_second": 0.513,
      "step": 2142
    },
    {
      "epoch": 56.209150326797385,
      "grad_norm": 32.69438934326172,
      "learning_rate": 2.412280701754386e-05,
      "loss": 0.0161,
      "step": 2150
    },
    {
      "epoch": 56.470588235294116,
      "grad_norm": 0.04998353496193886,
      "learning_rate": 2.3976608187134503e-05,
      "loss": 0.0446,
      "step": 2160
    },
    {
      "epoch": 56.73202614379085,
      "grad_norm": 0.830470085144043,
      "learning_rate": 2.3830409356725147e-05,
      "loss": 0.1066,
      "step": 2170
    },
    {
      "epoch": 56.99346405228758,
      "grad_norm": 21.04816436767578,
      "learning_rate": 2.368421052631579e-05,
      "loss": 0.0459,
      "step": 2180
    },
    {
      "epoch": 56.99346405228758,
      "eval_accuracy": 0.9485294117647058,
      "eval_loss": 0.45745787024497986,
      "eval_runtime": 31.4986,
      "eval_samples_per_second": 4.318,
      "eval_steps_per_second": 0.54,
      "step": 2180
    },
    {
      "epoch": 57.254901960784316,
      "grad_norm": 6.693302631378174,
      "learning_rate": 2.3538011695906434e-05,
      "loss": 0.0569,
      "step": 2190
    },
    {
      "epoch": 57.51633986928105,
      "grad_norm": 12.218875885009766,
      "learning_rate": 2.3391812865497074e-05,
      "loss": 0.0455,
      "step": 2200
    },
    {
      "epoch": 57.77777777777778,
      "grad_norm": 56.21259689331055,
      "learning_rate": 2.324561403508772e-05,
      "loss": 0.0409,
      "step": 2210
    },
    {
      "epoch": 57.98692810457516,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.29300644993782043,
      "eval_runtime": 31.4287,
      "eval_samples_per_second": 4.327,
      "eval_steps_per_second": 0.541,
      "step": 2218
    },
    {
      "epoch": 58.03921568627451,
      "grad_norm": 0.48025286197662354,
      "learning_rate": 2.309941520467836e-05,
      "loss": 0.0526,
      "step": 2220
    },
    {
      "epoch": 58.30065359477124,
      "grad_norm": 6.530683994293213,
      "learning_rate": 2.295321637426901e-05,
      "loss": 0.0791,
      "step": 2230
    },
    {
      "epoch": 58.56209150326797,
      "grad_norm": 35.76517105102539,
      "learning_rate": 2.280701754385965e-05,
      "loss": 0.033,
      "step": 2240
    },
    {
      "epoch": 58.8235294117647,
      "grad_norm": 4.9538679122924805,
      "learning_rate": 2.2660818713450292e-05,
      "loss": 0.0743,
      "step": 2250
    },
    {
      "epoch": 58.98039215686274,
      "eval_accuracy": 0.9485294117647058,
      "eval_loss": 0.4032076299190521,
      "eval_runtime": 34.2283,
      "eval_samples_per_second": 3.973,
      "eval_steps_per_second": 0.497,
      "step": 2256
    },
    {
      "epoch": 59.08496732026144,
      "grad_norm": 8.96496868133545,
      "learning_rate": 2.2514619883040936e-05,
      "loss": 0.0358,
      "step": 2260
    },
    {
      "epoch": 59.34640522875817,
      "grad_norm": 10.487314224243164,
      "learning_rate": 2.236842105263158e-05,
      "loss": 0.0805,
      "step": 2270
    },
    {
      "epoch": 59.6078431372549,
      "grad_norm": 3.922236442565918,
      "learning_rate": 2.2222222222222223e-05,
      "loss": 0.0096,
      "step": 2280
    },
    {
      "epoch": 59.869281045751634,
      "grad_norm": 5.181495666503906,
      "learning_rate": 2.2076023391812867e-05,
      "loss": 0.0346,
      "step": 2290
    },
    {
      "epoch": 60.0,
      "eval_accuracy": 0.9411764705882353,
      "eval_loss": 0.37382781505584717,
      "eval_runtime": 37.1282,
      "eval_samples_per_second": 3.663,
      "eval_steps_per_second": 0.458,
      "step": 2295
    },
    {
      "epoch": 60.130718954248366,
      "grad_norm": 0.059666648507118225,
      "learning_rate": 2.1929824561403507e-05,
      "loss": 0.0551,
      "step": 2300
    },
    {
      "epoch": 60.3921568627451,
      "grad_norm": 0.5856298804283142,
      "learning_rate": 2.1783625730994154e-05,
      "loss": 0.0331,
      "step": 2310
    },
    {
      "epoch": 60.65359477124183,
      "grad_norm": 5.777927875518799,
      "learning_rate": 2.1637426900584794e-05,
      "loss": 0.0112,
      "step": 2320
    },
    {
      "epoch": 60.91503267973856,
      "grad_norm": 13.134035110473633,
      "learning_rate": 2.149122807017544e-05,
      "loss": 0.0302,
      "step": 2330
    },
    {
      "epoch": 60.99346405228758,
      "eval_accuracy": 0.9485294117647058,
      "eval_loss": 0.3597317337989807,
      "eval_runtime": 31.126,
      "eval_samples_per_second": 4.369,
      "eval_steps_per_second": 0.546,
      "step": 2333
    },
    {
      "epoch": 61.1764705882353,
      "grad_norm": 28.286643981933594,
      "learning_rate": 2.134502923976608e-05,
      "loss": 0.0311,
      "step": 2340
    },
    {
      "epoch": 61.43790849673203,
      "grad_norm": 6.936996936798096,
      "learning_rate": 2.1198830409356725e-05,
      "loss": 0.139,
      "step": 2350
    },
    {
      "epoch": 61.69934640522876,
      "grad_norm": 1.0503500699996948,
      "learning_rate": 2.105263157894737e-05,
      "loss": 0.0666,
      "step": 2360
    },
    {
      "epoch": 61.96078431372549,
      "grad_norm": 5.756121635437012,
      "learning_rate": 2.0906432748538013e-05,
      "loss": 0.0488,
      "step": 2370
    },
    {
      "epoch": 61.98692810457516,
      "eval_accuracy": 0.9558823529411765,
      "eval_loss": 0.2594568133354187,
      "eval_runtime": 34.9133,
      "eval_samples_per_second": 3.895,
      "eval_steps_per_second": 0.487,
      "step": 2371
    },
    {
      "epoch": 62.22222222222222,
      "grad_norm": 17.791810989379883,
      "learning_rate": 2.0760233918128656e-05,
      "loss": 0.0294,
      "step": 2380
    },
    {
      "epoch": 62.48366013071895,
      "grad_norm": 0.014880876056849957,
      "learning_rate": 2.06140350877193e-05,
      "loss": 0.0516,
      "step": 2390
    },
    {
      "epoch": 62.745098039215684,
      "grad_norm": 33.730533599853516,
      "learning_rate": 2.046783625730994e-05,
      "loss": 0.0562,
      "step": 2400
    },
    {
      "epoch": 62.98039215686274,
      "eval_accuracy": 0.9411764705882353,
      "eval_loss": 0.3763536512851715,
      "eval_runtime": 35.0422,
      "eval_samples_per_second": 3.881,
      "eval_steps_per_second": 0.485,
      "step": 2409
    },
    {
      "epoch": 63.00653594771242,
      "grad_norm": 58.39078903198242,
      "learning_rate": 2.0321637426900587e-05,
      "loss": 0.0751,
      "step": 2410
    },
    {
      "epoch": 63.26797385620915,
      "grad_norm": 0.0864597037434578,
      "learning_rate": 2.0175438596491227e-05,
      "loss": 0.0393,
      "step": 2420
    },
    {
      "epoch": 63.529411764705884,
      "grad_norm": 18.966829299926758,
      "learning_rate": 2.0029239766081874e-05,
      "loss": 0.0251,
      "step": 2430
    },
    {
      "epoch": 63.790849673202615,
      "grad_norm": 25.66364288330078,
      "learning_rate": 1.9883040935672515e-05,
      "loss": 0.0216,
      "step": 2440
    },
    {
      "epoch": 64.0,
      "eval_accuracy": 0.9779411764705882,
      "eval_loss": 0.2643776834011078,
      "eval_runtime": 17.3782,
      "eval_samples_per_second": 7.826,
      "eval_steps_per_second": 0.978,
      "step": 2448
    },
    {
      "epoch": 64.05228758169935,
      "grad_norm": 1.6527997255325317,
      "learning_rate": 1.9736842105263158e-05,
      "loss": 0.054,
      "step": 2450
    },
    {
      "epoch": 64.31372549019608,
      "grad_norm": 0.06280579417943954,
      "learning_rate": 1.9590643274853802e-05,
      "loss": 0.0287,
      "step": 2460
    },
    {
      "epoch": 64.57516339869281,
      "grad_norm": 1.6318433284759521,
      "learning_rate": 1.9444444444444445e-05,
      "loss": 0.0399,
      "step": 2470
    },
    {
      "epoch": 64.83660130718954,
      "grad_norm": 1.7933380603790283,
      "learning_rate": 1.929824561403509e-05,
      "loss": 0.0219,
      "step": 2480
    },
    {
      "epoch": 64.99346405228758,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.30917930603027344,
      "eval_runtime": 17.1251,
      "eval_samples_per_second": 7.942,
      "eval_steps_per_second": 0.993,
      "step": 2486
    },
    {
      "epoch": 65.09803921568627,
      "grad_norm": 10.366903305053711,
      "learning_rate": 1.9152046783625733e-05,
      "loss": 0.0539,
      "step": 2490
    },
    {
      "epoch": 65.359477124183,
      "grad_norm": 0.2696276307106018,
      "learning_rate": 1.9005847953216373e-05,
      "loss": 0.0123,
      "step": 2500
    },
    {
      "epoch": 65.62091503267973,
      "grad_norm": 2.0707309246063232,
      "learning_rate": 1.885964912280702e-05,
      "loss": 0.0209,
      "step": 2510
    },
    {
      "epoch": 65.88235294117646,
      "grad_norm": 0.026714438572525978,
      "learning_rate": 1.871345029239766e-05,
      "loss": 0.0272,
      "step": 2520
    },
    {
      "epoch": 65.98692810457516,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.2898404896259308,
      "eval_runtime": 17.5281,
      "eval_samples_per_second": 7.759,
      "eval_steps_per_second": 0.97,
      "step": 2524
    },
    {
      "epoch": 66.14379084967321,
      "grad_norm": 0.15798357129096985,
      "learning_rate": 1.8567251461988304e-05,
      "loss": 0.0091,
      "step": 2530
    },
    {
      "epoch": 66.40522875816994,
      "grad_norm": 85.56695556640625,
      "learning_rate": 1.8421052631578947e-05,
      "loss": 0.0221,
      "step": 2540
    },
    {
      "epoch": 66.66666666666667,
      "grad_norm": 25.615230560302734,
      "learning_rate": 1.827485380116959e-05,
      "loss": 0.0645,
      "step": 2550
    },
    {
      "epoch": 66.9281045751634,
      "grad_norm": 22.72310447692871,
      "learning_rate": 1.8128654970760235e-05,
      "loss": 0.027,
      "step": 2560
    },
    {
      "epoch": 66.98039215686275,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.2693423628807068,
      "eval_runtime": 23.0579,
      "eval_samples_per_second": 5.898,
      "eval_steps_per_second": 0.737,
      "step": 2562
    },
    {
      "epoch": 67.18954248366013,
      "grad_norm": 24.883161544799805,
      "learning_rate": 1.7982456140350878e-05,
      "loss": 0.0293,
      "step": 2570
    },
    {
      "epoch": 67.45098039215686,
      "grad_norm": 6.90622615814209,
      "learning_rate": 1.7836257309941522e-05,
      "loss": 0.022,
      "step": 2580
    },
    {
      "epoch": 67.7124183006536,
      "grad_norm": 48.23540115356445,
      "learning_rate": 1.7690058479532165e-05,
      "loss": 0.0509,
      "step": 2590
    },
    {
      "epoch": 67.97385620915033,
      "grad_norm": 0.07863592356443405,
      "learning_rate": 1.7543859649122806e-05,
      "loss": 0.0397,
      "step": 2600
    },
    {
      "epoch": 68.0,
      "eval_accuracy": 0.9411764705882353,
      "eval_loss": 0.38426852226257324,
      "eval_runtime": 23.971,
      "eval_samples_per_second": 5.674,
      "eval_steps_per_second": 0.709,
      "step": 2601
    },
    {
      "epoch": 68.23529411764706,
      "grad_norm": 4.26972770690918,
      "learning_rate": 1.7397660818713453e-05,
      "loss": 0.0409,
      "step": 2610
    },
    {
      "epoch": 68.49673202614379,
      "grad_norm": 1.8150982856750488,
      "learning_rate": 1.7251461988304093e-05,
      "loss": 0.0315,
      "step": 2620
    },
    {
      "epoch": 68.75816993464052,
      "grad_norm": 13.07569694519043,
      "learning_rate": 1.7105263157894737e-05,
      "loss": 0.0154,
      "step": 2630
    },
    {
      "epoch": 68.99346405228758,
      "eval_accuracy": 0.9485294117647058,
      "eval_loss": 0.30511775612831116,
      "eval_runtime": 23.3134,
      "eval_samples_per_second": 5.834,
      "eval_steps_per_second": 0.729,
      "step": 2639
    },
    {
      "epoch": 69.01960784313725,
      "grad_norm": 0.576351523399353,
      "learning_rate": 1.695906432748538e-05,
      "loss": 0.0387,
      "step": 2640
    },
    {
      "epoch": 69.28104575163398,
      "grad_norm": 0.867915153503418,
      "learning_rate": 1.6812865497076024e-05,
      "loss": 0.0178,
      "step": 2650
    },
    {
      "epoch": 69.54248366013071,
      "grad_norm": 20.2279052734375,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.0392,
      "step": 2660
    },
    {
      "epoch": 69.80392156862744,
      "grad_norm": 0.04353189095854759,
      "learning_rate": 1.652046783625731e-05,
      "loss": 0.0004,
      "step": 2670
    },
    {
      "epoch": 69.98692810457516,
      "eval_accuracy": 0.9411764705882353,
      "eval_loss": 0.39089399576187134,
      "eval_runtime": 23.3469,
      "eval_samples_per_second": 5.825,
      "eval_steps_per_second": 0.728,
      "step": 2677
    },
    {
      "epoch": 70.06535947712419,
      "grad_norm": 77.49730682373047,
      "learning_rate": 1.6374269005847955e-05,
      "loss": 0.0467,
      "step": 2680
    },
    {
      "epoch": 70.32679738562092,
      "grad_norm": 49.50137710571289,
      "learning_rate": 1.62280701754386e-05,
      "loss": 0.0228,
      "step": 2690
    },
    {
      "epoch": 70.58823529411765,
      "grad_norm": 0.5024857521057129,
      "learning_rate": 1.608187134502924e-05,
      "loss": 0.0045,
      "step": 2700
    },
    {
      "epoch": 70.84967320261438,
      "grad_norm": 3.8934128284454346,
      "learning_rate": 1.5935672514619886e-05,
      "loss": 0.0651,
      "step": 2710
    },
    {
      "epoch": 70.98039215686275,
      "eval_accuracy": 0.9485294117647058,
      "eval_loss": 0.29772186279296875,
      "eval_runtime": 25.8712,
      "eval_samples_per_second": 5.257,
      "eval_steps_per_second": 0.657,
      "step": 2715
    },
    {
      "epoch": 71.11111111111111,
      "grad_norm": 7.867006778717041,
      "learning_rate": 1.5789473684210526e-05,
      "loss": 0.008,
      "step": 2720
    },
    {
      "epoch": 71.37254901960785,
      "grad_norm": 13.64209270477295,
      "learning_rate": 1.564327485380117e-05,
      "loss": 0.0757,
      "step": 2730
    },
    {
      "epoch": 71.63398692810458,
      "grad_norm": 6.453034400939941,
      "learning_rate": 1.5497076023391813e-05,
      "loss": 0.0214,
      "step": 2740
    },
    {
      "epoch": 71.89542483660131,
      "grad_norm": 0.1501288115978241,
      "learning_rate": 1.5350877192982457e-05,
      "loss": 0.016,
      "step": 2750
    },
    {
      "epoch": 72.0,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.2694728374481201,
      "eval_runtime": 20.9056,
      "eval_samples_per_second": 6.505,
      "eval_steps_per_second": 0.813,
      "step": 2754
    },
    {
      "epoch": 72.15686274509804,
      "grad_norm": 0.034015778452157974,
      "learning_rate": 1.5204678362573099e-05,
      "loss": 0.012,
      "step": 2760
    },
    {
      "epoch": 72.41830065359477,
      "grad_norm": 11.159213066101074,
      "learning_rate": 1.5058479532163744e-05,
      "loss": 0.0444,
      "step": 2770
    },
    {
      "epoch": 72.6797385620915,
      "grad_norm": 2.5402066707611084,
      "learning_rate": 1.4912280701754386e-05,
      "loss": 0.0359,
      "step": 2780
    },
    {
      "epoch": 72.94117647058823,
      "grad_norm": 0.016565600410103798,
      "learning_rate": 1.4766081871345031e-05,
      "loss": 0.0351,
      "step": 2790
    },
    {
      "epoch": 72.99346405228758,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.2720423936843872,
      "eval_runtime": 22.3116,
      "eval_samples_per_second": 6.095,
      "eval_steps_per_second": 0.762,
      "step": 2792
    },
    {
      "epoch": 73.20261437908496,
      "grad_norm": 79.11601257324219,
      "learning_rate": 1.4619883040935673e-05,
      "loss": 0.044,
      "step": 2800
    },
    {
      "epoch": 73.4640522875817,
      "grad_norm": 5.53911018371582,
      "learning_rate": 1.4473684210526317e-05,
      "loss": 0.0298,
      "step": 2810
    },
    {
      "epoch": 73.72549019607843,
      "grad_norm": 0.40750911831855774,
      "learning_rate": 1.4327485380116959e-05,
      "loss": 0.011,
      "step": 2820
    },
    {
      "epoch": 73.98692810457516,
      "grad_norm": 0.9360626339912415,
      "learning_rate": 1.4181286549707604e-05,
      "loss": 0.0206,
      "step": 2830
    },
    {
      "epoch": 73.98692810457516,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.25490206480026245,
      "eval_runtime": 22.7726,
      "eval_samples_per_second": 5.972,
      "eval_steps_per_second": 0.747,
      "step": 2830
    },
    {
      "epoch": 74.2483660130719,
      "grad_norm": 6.835451602935791,
      "learning_rate": 1.4035087719298246e-05,
      "loss": 0.0109,
      "step": 2840
    },
    {
      "epoch": 74.50980392156863,
      "grad_norm": 0.1265513300895691,
      "learning_rate": 1.388888888888889e-05,
      "loss": 0.0436,
      "step": 2850
    },
    {
      "epoch": 74.77124183006536,
      "grad_norm": 0.20871244370937347,
      "learning_rate": 1.3742690058479531e-05,
      "loss": 0.0109,
      "step": 2860
    },
    {
      "epoch": 74.98039215686275,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.24122387170791626,
      "eval_runtime": 19.4498,
      "eval_samples_per_second": 6.992,
      "eval_steps_per_second": 0.874,
      "step": 2868
    },
    {
      "epoch": 75.0326797385621,
      "grad_norm": 24.267925262451172,
      "learning_rate": 1.3596491228070177e-05,
      "loss": 0.0207,
      "step": 2870
    },
    {
      "epoch": 75.29411764705883,
      "grad_norm": 9.061148643493652,
      "learning_rate": 1.3450292397660819e-05,
      "loss": 0.0105,
      "step": 2880
    },
    {
      "epoch": 75.55555555555556,
      "grad_norm": 1.2824314832687378,
      "learning_rate": 1.3304093567251464e-05,
      "loss": 0.0182,
      "step": 2890
    },
    {
      "epoch": 75.81699346405229,
      "grad_norm": 0.003347081132233143,
      "learning_rate": 1.3157894736842106e-05,
      "loss": 0.0012,
      "step": 2900
    },
    {
      "epoch": 76.0,
      "eval_accuracy": 0.9779411764705882,
      "eval_loss": 0.34939995408058167,
      "eval_runtime": 20.8219,
      "eval_samples_per_second": 6.532,
      "eval_steps_per_second": 0.816,
      "step": 2907
    },
    {
      "epoch": 76.07843137254902,
      "grad_norm": 5.410060882568359,
      "learning_rate": 1.301169590643275e-05,
      "loss": 0.0214,
      "step": 2910
    },
    {
      "epoch": 76.33986928104575,
      "grad_norm": 0.6613653898239136,
      "learning_rate": 1.2865497076023392e-05,
      "loss": 0.0261,
      "step": 2920
    },
    {
      "epoch": 76.60130718954248,
      "grad_norm": 1.0403037071228027,
      "learning_rate": 1.2719298245614037e-05,
      "loss": 0.0555,
      "step": 2930
    },
    {
      "epoch": 76.86274509803921,
      "grad_norm": 15.238615036010742,
      "learning_rate": 1.2573099415204679e-05,
      "loss": 0.0418,
      "step": 2940
    },
    {
      "epoch": 76.99346405228758,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.37292152643203735,
      "eval_runtime": 20.8077,
      "eval_samples_per_second": 6.536,
      "eval_steps_per_second": 0.817,
      "step": 2945
    },
    {
      "epoch": 77.12418300653594,
      "grad_norm": 31.79336166381836,
      "learning_rate": 1.242690058479532e-05,
      "loss": 0.0302,
      "step": 2950
    },
    {
      "epoch": 77.38562091503267,
      "grad_norm": 0.0776483416557312,
      "learning_rate": 1.2280701754385964e-05,
      "loss": 0.0094,
      "step": 2960
    },
    {
      "epoch": 77.6470588235294,
      "grad_norm": 63.487571716308594,
      "learning_rate": 1.2134502923976608e-05,
      "loss": 0.0473,
      "step": 2970
    },
    {
      "epoch": 77.90849673202614,
      "grad_norm": 0.09107412397861481,
      "learning_rate": 1.1988304093567252e-05,
      "loss": 0.0165,
      "step": 2980
    },
    {
      "epoch": 77.98692810457516,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.347072571516037,
      "eval_runtime": 17.8737,
      "eval_samples_per_second": 7.609,
      "eval_steps_per_second": 0.951,
      "step": 2983
    },
    {
      "epoch": 78.16993464052288,
      "grad_norm": 36.47078323364258,
      "learning_rate": 1.1842105263157895e-05,
      "loss": 0.0176,
      "step": 2990
    },
    {
      "epoch": 78.43137254901961,
      "grad_norm": 0.0024324676487594843,
      "learning_rate": 1.1695906432748537e-05,
      "loss": 0.0317,
      "step": 3000
    },
    {
      "epoch": 78.69281045751634,
      "grad_norm": 26.059871673583984,
      "learning_rate": 1.154970760233918e-05,
      "loss": 0.0699,
      "step": 3010
    },
    {
      "epoch": 78.95424836601308,
      "grad_norm": 38.14042282104492,
      "learning_rate": 1.1403508771929824e-05,
      "loss": 0.0163,
      "step": 3020
    },
    {
      "epoch": 78.98039215686275,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.29730716347694397,
      "eval_runtime": 18.5858,
      "eval_samples_per_second": 7.317,
      "eval_steps_per_second": 0.915,
      "step": 3021
    },
    {
      "epoch": 79.2156862745098,
      "grad_norm": 87.14070129394531,
      "learning_rate": 1.1257309941520468e-05,
      "loss": 0.0556,
      "step": 3030
    },
    {
      "epoch": 79.47712418300654,
      "grad_norm": 3.418160915374756,
      "learning_rate": 1.1111111111111112e-05,
      "loss": 0.0073,
      "step": 3040
    },
    {
      "epoch": 79.73856209150327,
      "grad_norm": 22.285499572753906,
      "learning_rate": 1.0964912280701754e-05,
      "loss": 0.0249,
      "step": 3050
    },
    {
      "epoch": 80.0,
      "grad_norm": 35.9242057800293,
      "learning_rate": 1.0818713450292397e-05,
      "loss": 0.0202,
      "step": 3060
    },
    {
      "epoch": 80.0,
      "eval_accuracy": 0.9558823529411765,
      "eval_loss": 0.3729775846004486,
      "eval_runtime": 19.8789,
      "eval_samples_per_second": 6.841,
      "eval_steps_per_second": 0.855,
      "step": 3060
    },
    {
      "epoch": 80.26143790849673,
      "grad_norm": 15.128210067749023,
      "learning_rate": 1.067251461988304e-05,
      "loss": 0.0628,
      "step": 3070
    },
    {
      "epoch": 80.52287581699346,
      "grad_norm": 29.2634220123291,
      "learning_rate": 1.0526315789473684e-05,
      "loss": 0.0244,
      "step": 3080
    },
    {
      "epoch": 80.7843137254902,
      "grad_norm": 79.84837341308594,
      "learning_rate": 1.0380116959064328e-05,
      "loss": 0.0368,
      "step": 3090
    },
    {
      "epoch": 80.99346405228758,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.2876713275909424,
      "eval_runtime": 19.4821,
      "eval_samples_per_second": 6.981,
      "eval_steps_per_second": 0.873,
      "step": 3098
    },
    {
      "epoch": 81.04575163398692,
      "grad_norm": 2.7281501293182373,
      "learning_rate": 1.023391812865497e-05,
      "loss": 0.0238,
      "step": 3100
    },
    {
      "epoch": 81.30718954248366,
      "grad_norm": 0.0004346697241999209,
      "learning_rate": 1.0087719298245614e-05,
      "loss": 0.0305,
      "step": 3110
    },
    {
      "epoch": 81.56862745098039,
      "grad_norm": 0.03860533982515335,
      "learning_rate": 9.941520467836257e-06,
      "loss": 0.0136,
      "step": 3120
    },
    {
      "epoch": 81.83006535947712,
      "grad_norm": 0.4280990958213806,
      "learning_rate": 9.795321637426901e-06,
      "loss": 0.0374,
      "step": 3130
    },
    {
      "epoch": 81.98692810457516,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.41433659195899963,
      "eval_runtime": 19.9936,
      "eval_samples_per_second": 6.802,
      "eval_steps_per_second": 0.85,
      "step": 3136
    },
    {
      "epoch": 82.09150326797386,
      "grad_norm": 31.7745418548584,
      "learning_rate": 9.649122807017545e-06,
      "loss": 0.0105,
      "step": 3140
    },
    {
      "epoch": 82.3529411764706,
      "grad_norm": 2.9742166996002197,
      "learning_rate": 9.502923976608186e-06,
      "loss": 0.0361,
      "step": 3150
    },
    {
      "epoch": 82.61437908496733,
      "grad_norm": 3.588392734527588,
      "learning_rate": 9.35672514619883e-06,
      "loss": 0.0648,
      "step": 3160
    },
    {
      "epoch": 82.87581699346406,
      "grad_norm": 0.4829164147377014,
      "learning_rate": 9.210526315789474e-06,
      "loss": 0.0296,
      "step": 3170
    },
    {
      "epoch": 82.98039215686275,
      "eval_accuracy": 0.9779411764705882,
      "eval_loss": 0.2895439565181732,
      "eval_runtime": 17.9847,
      "eval_samples_per_second": 7.562,
      "eval_steps_per_second": 0.945,
      "step": 3174
    },
    {
      "epoch": 83.13725490196079,
      "grad_norm": 22.893632888793945,
      "learning_rate": 9.064327485380117e-06,
      "loss": 0.0115,
      "step": 3180
    },
    {
      "epoch": 83.39869281045752,
      "grad_norm": 0.021368976682424545,
      "learning_rate": 8.918128654970761e-06,
      "loss": 0.0269,
      "step": 3190
    },
    {
      "epoch": 83.66013071895425,
      "grad_norm": 0.06225317716598511,
      "learning_rate": 8.771929824561403e-06,
      "loss": 0.0024,
      "step": 3200
    },
    {
      "epoch": 83.92156862745098,
      "grad_norm": 0.05705859139561653,
      "learning_rate": 8.625730994152046e-06,
      "loss": 0.0405,
      "step": 3210
    },
    {
      "epoch": 84.0,
      "eval_accuracy": 0.9558823529411765,
      "eval_loss": 0.29270094633102417,
      "eval_runtime": 19.1133,
      "eval_samples_per_second": 7.115,
      "eval_steps_per_second": 0.889,
      "step": 3213
    },
    {
      "epoch": 84.18300653594771,
      "grad_norm": 24.514904022216797,
      "learning_rate": 8.47953216374269e-06,
      "loss": 0.0098,
      "step": 3220
    },
    {
      "epoch": 84.44444444444444,
      "grad_norm": 0.596236526966095,
      "learning_rate": 8.333333333333334e-06,
      "loss": 0.0035,
      "step": 3230
    },
    {
      "epoch": 84.70588235294117,
      "grad_norm": 0.050445396453142166,
      "learning_rate": 8.187134502923977e-06,
      "loss": 0.005,
      "step": 3240
    },
    {
      "epoch": 84.9673202614379,
      "grad_norm": 0.07400578260421753,
      "learning_rate": 8.04093567251462e-06,
      "loss": 0.0097,
      "step": 3250
    },
    {
      "epoch": 84.99346405228758,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.317930668592453,
      "eval_runtime": 18.575,
      "eval_samples_per_second": 7.322,
      "eval_steps_per_second": 0.915,
      "step": 3251
    },
    {
      "epoch": 85.22875816993464,
      "grad_norm": 12.950275421142578,
      "learning_rate": 7.894736842105263e-06,
      "loss": 0.0026,
      "step": 3260
    },
    {
      "epoch": 85.49019607843137,
      "grad_norm": 16.546571731567383,
      "learning_rate": 7.748538011695907e-06,
      "loss": 0.0257,
      "step": 3270
    },
    {
      "epoch": 85.7516339869281,
      "grad_norm": 0.6142169237136841,
      "learning_rate": 7.602339181286549e-06,
      "loss": 0.0182,
      "step": 3280
    },
    {
      "epoch": 85.98692810457516,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.30465030670166016,
      "eval_runtime": 18.7827,
      "eval_samples_per_second": 7.241,
      "eval_steps_per_second": 0.905,
      "step": 3289
    },
    {
      "epoch": 86.01307189542484,
      "grad_norm": 0.09201680123806,
      "learning_rate": 7.456140350877193e-06,
      "loss": 0.0086,
      "step": 3290
    },
    {
      "epoch": 86.27450980392157,
      "grad_norm": 0.6810176372528076,
      "learning_rate": 7.3099415204678366e-06,
      "loss": 0.0033,
      "step": 3300
    },
    {
      "epoch": 86.5359477124183,
      "grad_norm": 7.0328474044799805,
      "learning_rate": 7.163742690058479e-06,
      "loss": 0.023,
      "step": 3310
    },
    {
      "epoch": 86.79738562091504,
      "grad_norm": 0.5138120055198669,
      "learning_rate": 7.017543859649123e-06,
      "loss": 0.0207,
      "step": 3320
    },
    {
      "epoch": 86.98039215686275,
      "eval_accuracy": 0.9779411764705882,
      "eval_loss": 0.3018016815185547,
      "eval_runtime": 17.5979,
      "eval_samples_per_second": 7.728,
      "eval_steps_per_second": 0.966,
      "step": 3327
    },
    {
      "epoch": 87.05882352941177,
      "grad_norm": 0.11021004617214203,
      "learning_rate": 6.871345029239766e-06,
      "loss": 0.0711,
      "step": 3330
    },
    {
      "epoch": 87.3202614379085,
      "grad_norm": 0.03013734146952629,
      "learning_rate": 6.725146198830409e-06,
      "loss": 0.0424,
      "step": 3340
    },
    {
      "epoch": 87.58169934640523,
      "grad_norm": 69.32197570800781,
      "learning_rate": 6.578947368421053e-06,
      "loss": 0.0269,
      "step": 3350
    },
    {
      "epoch": 87.84313725490196,
      "grad_norm": 0.45887792110443115,
      "learning_rate": 6.432748538011696e-06,
      "loss": 0.0207,
      "step": 3360
    },
    {
      "epoch": 88.0,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.332051545381546,
      "eval_runtime": 17.8575,
      "eval_samples_per_second": 7.616,
      "eval_steps_per_second": 0.952,
      "step": 3366
    },
    {
      "epoch": 88.10457516339869,
      "grad_norm": 0.007120809052139521,
      "learning_rate": 6.286549707602339e-06,
      "loss": 0.0047,
      "step": 3370
    },
    {
      "epoch": 88.36601307189542,
      "grad_norm": 0.051657985895872116,
      "learning_rate": 6.140350877192982e-06,
      "loss": 0.0224,
      "step": 3380
    },
    {
      "epoch": 88.62745098039215,
      "grad_norm": 0.6093434691429138,
      "learning_rate": 5.994152046783626e-06,
      "loss": 0.0052,
      "step": 3390
    },
    {
      "epoch": 88.88888888888889,
      "grad_norm": 25.99680519104004,
      "learning_rate": 5.8479532163742686e-06,
      "loss": 0.003,
      "step": 3400
    },
    {
      "epoch": 88.99346405228758,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.30860844254493713,
      "eval_runtime": 18.245,
      "eval_samples_per_second": 7.454,
      "eval_steps_per_second": 0.932,
      "step": 3404
    },
    {
      "epoch": 89.15032679738562,
      "grad_norm": 31.555145263671875,
      "learning_rate": 5.701754385964912e-06,
      "loss": 0.0329,
      "step": 3410
    },
    {
      "epoch": 89.41176470588235,
      "grad_norm": 18.486536026000977,
      "learning_rate": 5.555555555555556e-06,
      "loss": 0.029,
      "step": 3420
    },
    {
      "epoch": 89.67320261437908,
      "grad_norm": 0.33306655287742615,
      "learning_rate": 5.409356725146199e-06,
      "loss": 0.0098,
      "step": 3430
    },
    {
      "epoch": 89.93464052287581,
      "grad_norm": 2.643474578857422,
      "learning_rate": 5.263157894736842e-06,
      "loss": 0.0157,
      "step": 3440
    },
    {
      "epoch": 89.98692810457516,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.2947893440723419,
      "eval_runtime": 18.1316,
      "eval_samples_per_second": 7.501,
      "eval_steps_per_second": 0.938,
      "step": 3442
    },
    {
      "epoch": 90.19607843137256,
      "grad_norm": 6.317154407501221,
      "learning_rate": 5.116959064327485e-06,
      "loss": 0.008,
      "step": 3450
    },
    {
      "epoch": 90.45751633986929,
      "grad_norm": 1.63987398147583,
      "learning_rate": 4.970760233918129e-06,
      "loss": 0.0219,
      "step": 3460
    },
    {
      "epoch": 90.71895424836602,
      "grad_norm": 8.074739456176758,
      "learning_rate": 4.824561403508772e-06,
      "loss": 0.0188,
      "step": 3470
    },
    {
      "epoch": 90.98039215686275,
      "grad_norm": 0.2915269136428833,
      "learning_rate": 4.678362573099415e-06,
      "loss": 0.0428,
      "step": 3480
    },
    {
      "epoch": 90.98039215686275,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.3174949586391449,
      "eval_runtime": 17.8483,
      "eval_samples_per_second": 7.62,
      "eval_steps_per_second": 0.952,
      "step": 3480
    },
    {
      "epoch": 91.24183006535948,
      "grad_norm": 0.3356679677963257,
      "learning_rate": 4.532163742690059e-06,
      "loss": 0.0161,
      "step": 3490
    },
    {
      "epoch": 91.50326797385621,
      "grad_norm": 1.1951477527618408,
      "learning_rate": 4.3859649122807014e-06,
      "loss": 0.0205,
      "step": 3500
    },
    {
      "epoch": 91.76470588235294,
      "grad_norm": 0.05076509341597557,
      "learning_rate": 4.239766081871345e-06,
      "loss": 0.0189,
      "step": 3510
    },
    {
      "epoch": 92.0,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.3239772915840149,
      "eval_runtime": 17.301,
      "eval_samples_per_second": 7.861,
      "eval_steps_per_second": 0.983,
      "step": 3519
    },
    {
      "epoch": 92.02614379084967,
      "grad_norm": 1.3812580108642578,
      "learning_rate": 4.093567251461989e-06,
      "loss": 0.0212,
      "step": 3520
    },
    {
      "epoch": 92.2875816993464,
      "grad_norm": 0.3320296108722687,
      "learning_rate": 3.9473684210526315e-06,
      "loss": 0.0073,
      "step": 3530
    },
    {
      "epoch": 92.54901960784314,
      "grad_norm": 0.009532331489026546,
      "learning_rate": 3.8011695906432747e-06,
      "loss": 0.0053,
      "step": 3540
    },
    {
      "epoch": 92.81045751633987,
      "grad_norm": 0.5157586932182312,
      "learning_rate": 3.6549707602339183e-06,
      "loss": 0.0046,
      "step": 3550
    },
    {
      "epoch": 92.99346405228758,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.341442346572876,
      "eval_runtime": 18.8672,
      "eval_samples_per_second": 7.208,
      "eval_steps_per_second": 0.901,
      "step": 3557
    },
    {
      "epoch": 93.0718954248366,
      "grad_norm": 61.38653564453125,
      "learning_rate": 3.5087719298245615e-06,
      "loss": 0.0246,
      "step": 3560
    },
    {
      "epoch": 93.33333333333333,
      "grad_norm": 0.477070152759552,
      "learning_rate": 3.3625730994152047e-06,
      "loss": 0.0639,
      "step": 3570
    },
    {
      "epoch": 93.59477124183006,
      "grad_norm": 68.3900375366211,
      "learning_rate": 3.216374269005848e-06,
      "loss": 0.0255,
      "step": 3580
    },
    {
      "epoch": 93.85620915032679,
      "grad_norm": 0.3444403111934662,
      "learning_rate": 3.070175438596491e-06,
      "loss": 0.0057,
      "step": 3590
    },
    {
      "epoch": 93.98692810457516,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.33292174339294434,
      "eval_runtime": 17.7377,
      "eval_samples_per_second": 7.667,
      "eval_steps_per_second": 0.958,
      "step": 3595
    },
    {
      "epoch": 94.11764705882354,
      "grad_norm": 0.04389649257063866,
      "learning_rate": 2.9239766081871343e-06,
      "loss": 0.0058,
      "step": 3600
    },
    {
      "epoch": 94.37908496732027,
      "grad_norm": 0.5849317908287048,
      "learning_rate": 2.777777777777778e-06,
      "loss": 0.0586,
      "step": 3610
    },
    {
      "epoch": 94.640522875817,
      "grad_norm": 0.019542796537280083,
      "learning_rate": 2.631578947368421e-06,
      "loss": 0.001,
      "step": 3620
    },
    {
      "epoch": 94.90196078431373,
      "grad_norm": 0.002426290884613991,
      "learning_rate": 2.4853801169590643e-06,
      "loss": 0.0165,
      "step": 3630
    },
    {
      "epoch": 94.98039215686275,
      "eval_accuracy": 0.9632352941176471,
      "eval_loss": 0.32402223348617554,
      "eval_runtime": 17.5747,
      "eval_samples_per_second": 7.738,
      "eval_steps_per_second": 0.967,
      "step": 3633
    },
    {
      "epoch": 95.16339869281046,
      "grad_norm": 2.353595495223999,
      "learning_rate": 2.3391812865497075e-06,
      "loss": 0.0009,
      "step": 3640
    },
    {
      "epoch": 95.42483660130719,
      "grad_norm": 0.7732095718383789,
      "learning_rate": 2.1929824561403507e-06,
      "loss": 0.0273,
      "step": 3650
    },
    {
      "epoch": 95.68627450980392,
      "grad_norm": 0.006318532861769199,
      "learning_rate": 2.0467836257309943e-06,
      "loss": 0.0219,
      "step": 3660
    },
    {
      "epoch": 95.94771241830065,
      "grad_norm": 0.12237526476383209,
      "learning_rate": 1.9005847953216373e-06,
      "loss": 0.006,
      "step": 3670
    },
    {
      "epoch": 96.0,
      "eval_accuracy": 0.9705882352941176,
      "eval_loss": 0.3180083632469177,
      "eval_runtime": 18.1825,
      "eval_samples_per_second": 7.48,
      "eval_steps_per_second": 0.935,
      "step": 3672
    },
    {
      "epoch": 96.20915032679738,
      "grad_norm": 4.133842468261719,
      "learning_rate": 1.7543859649122807e-06,
      "loss": 0.0876,
      "step": 3680
    },
    {
      "epoch": 96.47058823529412,
      "grad_norm": 14.3917236328125,
      "learning_rate": 1.608187134502924e-06,
      "loss": 0.0033,
      "step": 3690
    },
    {
      "epoch": 96.73202614379085,
      "grad_norm": 0.6327334642410278,
      "learning_rate": 1.4619883040935671e-06,
      "loss": 0.0045,
      "step": 3700
    },
    {
      "epoch": 96.99346405228758,
      "grad_norm": 0.47620221972465515,
      "learning_rate": 1.3157894736842106e-06,
      "loss": 0.0172,
      "step": 3710
    },
    {
      "epoch": 96.99346405228758,
      "eval_accuracy": 0.9779411764705882,
      "eval_loss": 0.3103199303150177,
      "eval_runtime": 17.4264,
      "eval_samples_per_second": 7.804,
      "eval_steps_per_second": 0.976,
      "step": 3710
    },
    {
      "epoch": 97.25490196078431,
      "grad_norm": 43.838233947753906,
      "learning_rate": 1.1695906432748538e-06,
      "loss": 0.0047,
      "step": 3720
    },
    {
      "epoch": 97.51633986928104,
      "grad_norm": 0.001560373231768608,
      "learning_rate": 1.0233918128654972e-06,
      "loss": 0.0032,
      "step": 3730
    },
    {
      "epoch": 97.77777777777777,
      "grad_norm": 0.00045679722097702324,
      "learning_rate": 8.771929824561404e-07,
      "loss": 0.0109,
      "step": 3740
    },
    {
      "epoch": 97.98692810457516,
      "eval_accuracy": 0.9779411764705882,
      "eval_loss": 0.3034810721874237,
      "eval_runtime": 18.06,
      "eval_samples_per_second": 7.53,
      "eval_steps_per_second": 0.941,
      "step": 3748
    },
    {
      "epoch": 98.03921568627452,
      "grad_norm": 0.0029410182032734156,
      "learning_rate": 7.309941520467836e-07,
      "loss": 0.0093,
      "step": 3750
    },
    {
      "epoch": 98.30065359477125,
      "grad_norm": 0.060371335595846176,
      "learning_rate": 5.847953216374269e-07,
      "loss": 0.0147,
      "step": 3760
    },
    {
      "epoch": 98.56209150326798,
      "grad_norm": 0.0018022909061983228,
      "learning_rate": 4.385964912280702e-07,
      "loss": 0.0325,
      "step": 3770
    },
    {
      "epoch": 98.82352941176471,
      "grad_norm": 0.866423487663269,
      "learning_rate": 2.9239766081871344e-07,
      "loss": 0.0172,
      "step": 3780
    },
    {
      "epoch": 98.98039215686275,
      "eval_accuracy": 0.9779411764705882,
      "eval_loss": 0.3034467101097107,
      "eval_runtime": 20.5056,
      "eval_samples_per_second": 6.632,
      "eval_steps_per_second": 0.829,
      "step": 3786
    },
    {
      "epoch": 99.08496732026144,
      "grad_norm": 0.015289215371012688,
      "learning_rate": 1.4619883040935672e-07,
      "loss": 0.0003,
      "step": 3790
    },
    {
      "epoch": 99.34640522875817,
      "grad_norm": 0.3536844849586487,
      "learning_rate": 0.0,
      "loss": 0.0219,
      "step": 3800
    },
    {
      "epoch": 99.34640522875817,
      "eval_accuracy": 0.9779411764705882,
      "eval_loss": 0.3036399185657501,
      "eval_runtime": 18.1299,
      "eval_samples_per_second": 7.501,
      "eval_steps_per_second": 0.938,
      "step": 3800
    },
    {
      "epoch": 99.34640522875817,
      "step": 3800,
      "total_flos": 3.0228260830838784e+18,
      "train_loss": 0.1524556069365874,
      "train_runtime": 23400.6351,
      "train_samples_per_second": 5.231,
      "train_steps_per_second": 0.162
    }
  ],
  "logging_steps": 10,
  "max_steps": 3800,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.0228260830838784e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}