{
  "best_metric": 0.020535213872790337,
  "best_model_checkpoint": "/home/paperspace/Data/models/brasingh_publicis_f5f/llm3br256/checkpoint-410",
  "epoch": 4.96969696969697,
  "eval_steps": 5,
  "global_step": 410,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.012121212121212121,
      "grad_norm": 0.17719489336013794,
      "learning_rate": 2.4390243902439027e-06,
      "loss": 0.103,
      "step": 1
    },
    {
      "epoch": 0.024242424242424242,
      "grad_norm": 0.1567779779434204,
      "learning_rate": 4.8780487804878055e-06,
      "loss": 0.11,
      "step": 2
    },
    {
      "epoch": 0.03636363636363636,
      "grad_norm": 0.1601039469242096,
      "learning_rate": 7.317073170731707e-06,
      "loss": 0.1104,
      "step": 3
    },
    {
      "epoch": 0.048484848484848485,
      "grad_norm": 0.16313816606998444,
      "learning_rate": 9.756097560975611e-06,
      "loss": 0.1076,
      "step": 4
    },
    {
      "epoch": 0.06060606060606061,
      "grad_norm": 0.15266162157058716,
      "learning_rate": 1.2195121951219513e-05,
      "loss": 0.1038,
      "step": 5
    },
    {
      "epoch": 0.06060606060606061,
      "eval_loss": 0.09789121896028519,
      "eval_runtime": 8.116,
      "eval_samples_per_second": 6.161,
      "eval_steps_per_second": 1.602,
      "step": 5
    },
    {
      "epoch": 0.07272727272727272,
      "grad_norm": 0.1329907476902008,
      "learning_rate": 1.4634146341463415e-05,
      "loss": 0.0995,
      "step": 6
    },
    {
      "epoch": 0.08484848484848485,
      "grad_norm": 0.09588994085788727,
      "learning_rate": 1.707317073170732e-05,
      "loss": 0.0833,
      "step": 7
    },
    {
      "epoch": 0.09696969696969697,
      "grad_norm": 0.07421080023050308,
      "learning_rate": 1.9512195121951222e-05,
      "loss": 0.0756,
      "step": 8
    },
    {
      "epoch": 0.10909090909090909,
      "grad_norm": 0.0636032298207283,
      "learning_rate": 2.1951219512195124e-05,
      "loss": 0.0681,
      "step": 9
    },
    {
      "epoch": 0.12121212121212122,
      "grad_norm": 0.07186830043792725,
      "learning_rate": 2.4390243902439026e-05,
      "loss": 0.0759,
      "step": 10
    },
    {
      "epoch": 0.12121212121212122,
      "eval_loss": 0.07647334039211273,
      "eval_runtime": 6.2195,
      "eval_samples_per_second": 8.039,
      "eval_steps_per_second": 2.09,
      "step": 10
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.07592587172985077,
      "learning_rate": 2.682926829268293e-05,
      "loss": 0.0757,
      "step": 11
    },
    {
      "epoch": 0.14545454545454545,
      "grad_norm": 0.057555243372917175,
      "learning_rate": 2.926829268292683e-05,
      "loss": 0.0733,
      "step": 12
    },
    {
      "epoch": 0.15757575757575756,
      "grad_norm": 0.04685232415795326,
      "learning_rate": 3.170731707317073e-05,
      "loss": 0.0751,
      "step": 13
    },
    {
      "epoch": 0.1696969696969697,
      "grad_norm": 0.04220229387283325,
      "learning_rate": 3.414634146341464e-05,
      "loss": 0.0784,
      "step": 14
    },
    {
      "epoch": 0.18181818181818182,
      "grad_norm": 0.050287775695323944,
      "learning_rate": 3.6585365853658535e-05,
      "loss": 0.069,
      "step": 15
    },
    {
      "epoch": 0.18181818181818182,
      "eval_loss": 0.06831522285938263,
      "eval_runtime": 6.1929,
      "eval_samples_per_second": 8.074,
      "eval_steps_per_second": 2.099,
      "step": 15
    },
    {
      "epoch": 0.19393939393939394,
      "grad_norm": 0.04325024411082268,
      "learning_rate": 3.9024390243902444e-05,
      "loss": 0.0691,
      "step": 16
    },
    {
      "epoch": 0.20606060606060606,
      "grad_norm": 0.037937626242637634,
      "learning_rate": 4.146341463414634e-05,
      "loss": 0.0813,
      "step": 17
    },
    {
      "epoch": 0.21818181818181817,
      "grad_norm": 0.03867847099900246,
      "learning_rate": 4.390243902439025e-05,
      "loss": 0.065,
      "step": 18
    },
    {
      "epoch": 0.23030303030303031,
      "grad_norm": 0.03792285919189453,
      "learning_rate": 4.634146341463415e-05,
      "loss": 0.0617,
      "step": 19
    },
    {
      "epoch": 0.24242424242424243,
      "grad_norm": 0.03528020903468132,
      "learning_rate": 4.878048780487805e-05,
      "loss": 0.0729,
      "step": 20
    },
    {
      "epoch": 0.24242424242424243,
      "eval_loss": 0.062009546905756,
      "eval_runtime": 6.1891,
      "eval_samples_per_second": 8.079,
      "eval_steps_per_second": 2.1,
      "step": 20
    },
    {
      "epoch": 0.2545454545454545,
      "grad_norm": 0.031467072665691376,
      "learning_rate": 5.121951219512195e-05,
      "loss": 0.0602,
      "step": 21
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.03714953735470772,
      "learning_rate": 5.365853658536586e-05,
      "loss": 0.0772,
      "step": 22
    },
    {
      "epoch": 0.2787878787878788,
      "grad_norm": 0.03779144585132599,
      "learning_rate": 5.6097560975609764e-05,
      "loss": 0.0584,
      "step": 23
    },
    {
      "epoch": 0.2909090909090909,
      "grad_norm": 0.030055589973926544,
      "learning_rate": 5.853658536585366e-05,
      "loss": 0.0568,
      "step": 24
    },
    {
      "epoch": 0.30303030303030304,
      "grad_norm": 0.029797468334436417,
      "learning_rate": 6.097560975609756e-05,
      "loss": 0.0545,
      "step": 25
    },
    {
      "epoch": 0.30303030303030304,
      "eval_loss": 0.057142239063978195,
      "eval_runtime": 6.2052,
      "eval_samples_per_second": 8.058,
      "eval_steps_per_second": 2.095,
      "step": 25
    },
    {
      "epoch": 0.3151515151515151,
      "grad_norm": 0.029303744435310364,
      "learning_rate": 6.341463414634146e-05,
      "loss": 0.0591,
      "step": 26
    },
    {
      "epoch": 0.32727272727272727,
      "grad_norm": 0.03735222667455673,
      "learning_rate": 6.585365853658538e-05,
      "loss": 0.0836,
      "step": 27
    },
    {
      "epoch": 0.3393939393939394,
      "grad_norm": 0.02950606681406498,
      "learning_rate": 6.829268292682928e-05,
      "loss": 0.0574,
      "step": 28
    },
    {
      "epoch": 0.3515151515151515,
      "grad_norm": 0.02479255013167858,
      "learning_rate": 7.073170731707317e-05,
      "loss": 0.0506,
      "step": 29
    },
    {
      "epoch": 0.36363636363636365,
      "grad_norm": 0.030447915196418762,
      "learning_rate": 7.317073170731707e-05,
      "loss": 0.0589,
      "step": 30
    },
    {
      "epoch": 0.36363636363636365,
      "eval_loss": 0.05275052413344383,
      "eval_runtime": 6.1946,
      "eval_samples_per_second": 8.072,
      "eval_steps_per_second": 2.099,
      "step": 30
    },
    {
      "epoch": 0.37575757575757573,
      "grad_norm": 0.029138660058379173,
      "learning_rate": 7.560975609756099e-05,
      "loss": 0.0536,
      "step": 31
    },
    {
      "epoch": 0.3878787878787879,
      "grad_norm": 0.029026566073298454,
      "learning_rate": 7.804878048780489e-05,
      "loss": 0.0454,
      "step": 32
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.03538930043578148,
      "learning_rate": 8.048780487804879e-05,
      "loss": 0.0727,
      "step": 33
    },
    {
      "epoch": 0.4121212121212121,
      "grad_norm": 0.028354594483971596,
      "learning_rate": 8.292682926829268e-05,
      "loss": 0.0557,
      "step": 34
    },
    {
      "epoch": 0.42424242424242425,
      "grad_norm": 0.02743169106543064,
      "learning_rate": 8.53658536585366e-05,
      "loss": 0.0461,
      "step": 35
    },
    {
      "epoch": 0.42424242424242425,
      "eval_loss": 0.05005570873618126,
      "eval_runtime": 6.192,
      "eval_samples_per_second": 8.075,
      "eval_steps_per_second": 2.099,
      "step": 35
    },
    {
      "epoch": 0.43636363636363634,
      "grad_norm": 0.03530753031373024,
      "learning_rate": 8.78048780487805e-05,
      "loss": 0.0627,
      "step": 36
    },
    {
      "epoch": 0.4484848484848485,
      "grad_norm": 0.02797996811568737,
      "learning_rate": 9.02439024390244e-05,
      "loss": 0.0527,
      "step": 37
    },
    {
      "epoch": 0.46060606060606063,
      "grad_norm": 0.022809529677033424,
      "learning_rate": 9.26829268292683e-05,
      "loss": 0.0509,
      "step": 38
    },
    {
      "epoch": 0.4727272727272727,
      "grad_norm": 0.02468150481581688,
      "learning_rate": 9.51219512195122e-05,
      "loss": 0.0488,
      "step": 39
    },
    {
      "epoch": 0.48484848484848486,
      "grad_norm": 0.030917035415768623,
      "learning_rate": 9.75609756097561e-05,
      "loss": 0.0522,
      "step": 40
    },
    {
      "epoch": 0.48484848484848486,
      "eval_loss": 0.049276672303676605,
      "eval_runtime": 6.1874,
      "eval_samples_per_second": 8.081,
      "eval_steps_per_second": 2.101,
      "step": 40
    },
    {
      "epoch": 0.49696969696969695,
      "grad_norm": 0.026523206382989883,
      "learning_rate": 0.0001,
      "loss": 0.0463,
      "step": 41
    },
    {
      "epoch": 0.509090909090909,
      "grad_norm": 0.028745442628860474,
      "learning_rate": 9.999818789066165e-05,
      "loss": 0.0433,
      "step": 42
    },
    {
      "epoch": 0.5212121212121212,
      "grad_norm": 0.026402153074741364,
      "learning_rate": 9.999275169399614e-05,
      "loss": 0.0393,
      "step": 43
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.02671145275235176,
      "learning_rate": 9.998369180404283e-05,
      "loss": 0.044,
      "step": 44
    },
    {
      "epoch": 0.5454545454545454,
      "grad_norm": 0.034986190497875214,
      "learning_rate": 9.997100887750215e-05,
      "loss": 0.052,
      "step": 45
    },
    {
      "epoch": 0.5454545454545454,
      "eval_loss": 0.04825693741440773,
      "eval_runtime": 6.1973,
      "eval_samples_per_second": 8.068,
      "eval_steps_per_second": 2.098,
      "step": 45
    },
    {
      "epoch": 0.5575757575757576,
      "grad_norm": 0.029590139165520668,
      "learning_rate": 9.995470383368808e-05,
      "loss": 0.0436,
      "step": 46
    },
    {
      "epoch": 0.5696969696969697,
      "grad_norm": 0.03095312975347042,
      "learning_rate": 9.99347778544615e-05,
      "loss": 0.0431,
      "step": 47
    },
    {
      "epoch": 0.5818181818181818,
      "grad_norm": 0.030565602704882622,
      "learning_rate": 9.991123238414455e-05,
      "loss": 0.0526,
      "step": 48
    },
    {
      "epoch": 0.593939393939394,
      "grad_norm": 0.027898119762539864,
      "learning_rate": 9.98840691294159e-05,
      "loss": 0.0447,
      "step": 49
    },
    {
      "epoch": 0.6060606060606061,
      "grad_norm": 0.03219461813569069,
      "learning_rate": 9.985329005918702e-05,
      "loss": 0.0459,
      "step": 50
    },
    {
      "epoch": 0.6060606060606061,
      "eval_loss": 0.045825447887182236,
      "eval_runtime": 6.1916,
      "eval_samples_per_second": 8.075,
      "eval_steps_per_second": 2.1,
      "step": 50
    },
    {
      "epoch": 0.6181818181818182,
      "grad_norm": 0.02641221322119236,
      "learning_rate": 9.981889740445958e-05,
      "loss": 0.0417,
      "step": 51
    },
    {
      "epoch": 0.6303030303030303,
      "grad_norm": 0.028501464053988457,
      "learning_rate": 9.978089365816357e-05,
      "loss": 0.0446,
      "step": 52
    },
    {
      "epoch": 0.6424242424242425,
      "grad_norm": 0.0260939784348011,
      "learning_rate": 9.973928157497674e-05,
      "loss": 0.0451,
      "step": 53
    },
    {
      "epoch": 0.6545454545454545,
      "grad_norm": 0.029564740136265755,
      "learning_rate": 9.969406417112489e-05,
      "loss": 0.0416,
      "step": 54
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.027353042736649513,
      "learning_rate": 9.964524472416319e-05,
      "loss": 0.0363,
      "step": 55
    },
    {
      "epoch": 0.6666666666666666,
      "eval_loss": 0.0433911457657814,
      "eval_runtime": 6.2376,
      "eval_samples_per_second": 8.016,
      "eval_steps_per_second": 2.084,
      "step": 55
    },
    {
      "epoch": 0.6787878787878788,
      "grad_norm": 0.03154386952519417,
      "learning_rate": 9.95928267727387e-05,
      "loss": 0.0457,
      "step": 56
    },
    {
      "epoch": 0.6909090909090909,
      "grad_norm": 0.0249126385897398,
      "learning_rate": 9.953681411633376e-05,
      "loss": 0.0367,
      "step": 57
    },
    {
      "epoch": 0.703030303030303,
      "grad_norm": 0.02522316575050354,
      "learning_rate": 9.947721081499068e-05,
      "loss": 0.0428,
      "step": 58
    },
    {
      "epoch": 0.7151515151515152,
      "grad_norm": 0.028446340933442116,
      "learning_rate": 9.941402118901744e-05,
      "loss": 0.0456,
      "step": 59
    },
    {
      "epoch": 0.7272727272727273,
      "grad_norm": 0.0324234701693058,
      "learning_rate": 9.934724981867446e-05,
      "loss": 0.0553,
      "step": 60
    },
    {
      "epoch": 0.7272727272727273,
      "eval_loss": 0.04182567819952965,
      "eval_runtime": 6.2053,
      "eval_samples_per_second": 8.058,
      "eval_steps_per_second": 2.095,
      "step": 60
    },
    {
      "epoch": 0.7393939393939394,
      "grad_norm": 0.027509605512022972,
      "learning_rate": 9.927690154384273e-05,
      "loss": 0.0443,
      "step": 61
    },
    {
      "epoch": 0.7515151515151515,
      "grad_norm": 0.025798741728067398,
      "learning_rate": 9.920298146367286e-05,
      "loss": 0.0423,
      "step": 62
    },
    {
      "epoch": 0.7636363636363637,
      "grad_norm": 0.029940692707896233,
      "learning_rate": 9.912549493621554e-05,
      "loss": 0.0469,
      "step": 63
    },
    {
      "epoch": 0.7757575757575758,
      "grad_norm": 0.032555170357227325,
      "learning_rate": 9.904444757803321e-05,
      "loss": 0.0428,
      "step": 64
    },
    {
      "epoch": 0.7878787878787878,
      "grad_norm": 0.03051156736910343,
      "learning_rate": 9.895984526379281e-05,
      "loss": 0.0444,
      "step": 65
    },
    {
      "epoch": 0.7878787878787878,
      "eval_loss": 0.0403163880109787,
      "eval_runtime": 6.1935,
      "eval_samples_per_second": 8.073,
      "eval_steps_per_second": 2.099,
      "step": 65
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.02734997309744358,
      "learning_rate": 9.887169412584011e-05,
      "loss": 0.0389,
      "step": 66
    },
    {
      "epoch": 0.8121212121212121,
      "grad_norm": 0.026902060955762863,
      "learning_rate": 9.878000055375512e-05,
      "loss": 0.0397,
      "step": 67
    },
    {
      "epoch": 0.8242424242424242,
      "grad_norm": 0.03240904584527016,
      "learning_rate": 9.868477119388896e-05,
      "loss": 0.0387,
      "step": 68
    },
    {
      "epoch": 0.8363636363636363,
      "grad_norm": 0.02606021985411644,
      "learning_rate": 9.858601294888213e-05,
      "loss": 0.0344,
      "step": 69
    },
    {
      "epoch": 0.8484848484848485,
      "grad_norm": 0.029814746230840683,
      "learning_rate": 9.848373297716414e-05,
      "loss": 0.0469,
      "step": 70
    },
    {
      "epoch": 0.8484848484848485,
      "eval_loss": 0.03973233327269554,
      "eval_runtime": 6.2308,
      "eval_samples_per_second": 8.025,
      "eval_steps_per_second": 2.086,
      "step": 70
    },
    {
      "epoch": 0.8606060606060606,
      "grad_norm": 0.025392569601535797,
      "learning_rate": 9.837793869243468e-05,
      "loss": 0.0388,
      "step": 71
    },
    {
      "epoch": 0.8727272727272727,
      "grad_norm": 0.03046100027859211,
      "learning_rate": 9.82686377631262e-05,
      "loss": 0.0415,
      "step": 72
    },
    {
      "epoch": 0.8848484848484849,
      "grad_norm": 0.02428356185555458,
      "learning_rate": 9.815583811184808e-05,
      "loss": 0.037,
      "step": 73
    },
    {
      "epoch": 0.896969696969697,
      "grad_norm": 0.029197214171290398,
      "learning_rate": 9.803954791481239e-05,
      "loss": 0.0408,
      "step": 74
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 0.027502721175551414,
      "learning_rate": 9.791977560124119e-05,
      "loss": 0.0417,
      "step": 75
    },
    {
      "epoch": 0.9090909090909091,
      "eval_loss": 0.038558006286621094,
      "eval_runtime": 6.2,
      "eval_samples_per_second": 8.065,
      "eval_steps_per_second": 2.097,
      "step": 75
    },
    {
      "epoch": 0.9212121212121213,
      "grad_norm": 0.030016757547855377,
      "learning_rate": 9.779652985275562e-05,
      "loss": 0.0427,
      "step": 76
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.029366502538323402,
      "learning_rate": 9.766981960274653e-05,
      "loss": 0.0312,
      "step": 77
    },
    {
      "epoch": 0.9454545454545454,
      "grad_norm": 0.02805924229323864,
      "learning_rate": 9.753965403572703e-05,
      "loss": 0.0424,
      "step": 78
    },
    {
      "epoch": 0.9575757575757575,
      "grad_norm": 0.027496378868818283,
      "learning_rate": 9.740604258666668e-05,
      "loss": 0.0368,
      "step": 79
    },
    {
      "epoch": 0.9696969696969697,
      "grad_norm": 0.02711924910545349,
      "learning_rate": 9.726899494030768e-05,
      "loss": 0.0388,
      "step": 80
    },
    {
      "epoch": 0.9696969696969697,
      "eval_loss": 0.037164073437452316,
      "eval_runtime": 6.2151,
      "eval_samples_per_second": 8.045,
      "eval_steps_per_second": 2.092,
      "step": 80
    },
    {
      "epoch": 0.9818181818181818,
      "grad_norm": 0.02877042628824711,
      "learning_rate": 9.71285210304628e-05,
      "loss": 0.0367,
      "step": 81
    },
    {
      "epoch": 0.9939393939393939,
      "grad_norm": 0.029804140329360962,
      "learning_rate": 9.698463103929542e-05,
      "loss": 0.0399,
      "step": 82
    },
    {
      "epoch": 1.006060606060606,
      "grad_norm": 0.04405470937490463,
      "learning_rate": 9.683733539658139e-05,
      "loss": 0.0545,
      "step": 83
    },
    {
      "epoch": 1.018181818181818,
      "grad_norm": 0.0315798744559288,
      "learning_rate": 9.66866447789531e-05,
      "loss": 0.048,
      "step": 84
    },
    {
      "epoch": 1.0303030303030303,
      "grad_norm": 0.02551027573645115,
      "learning_rate": 9.653257010912559e-05,
      "loss": 0.0309,
      "step": 85
    },
    {
      "epoch": 1.0303030303030303,
      "eval_loss": 0.03581343591213226,
      "eval_runtime": 6.2558,
      "eval_samples_per_second": 7.993,
      "eval_steps_per_second": 2.078,
      "step": 85
    },
    {
      "epoch": 1.0424242424242425,
      "grad_norm": 0.03550685569643974,
      "learning_rate": 9.637512255510475e-05,
      "loss": 0.0659,
      "step": 86
    },
    {
      "epoch": 1.0545454545454545,
      "grad_norm": 0.03085348755121231,
      "learning_rate": 9.621431352937789e-05,
      "loss": 0.0502,
      "step": 87
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.02470513805747032,
      "learning_rate": 9.605015468808651e-05,
      "loss": 0.0318,
      "step": 88
    },
    {
      "epoch": 1.0787878787878789,
      "grad_norm": 0.02803831174969673,
      "learning_rate": 9.58826579301814e-05,
      "loss": 0.0446,
      "step": 89
    },
    {
      "epoch": 1.0909090909090908,
      "grad_norm": 0.03941066190600395,
      "learning_rate": 9.571183539656011e-05,
      "loss": 0.0487,
      "step": 90
    },
    {
      "epoch": 1.0909090909090908,
      "eval_loss": 0.0354202575981617,
      "eval_runtime": 6.1921,
      "eval_samples_per_second": 8.075,
      "eval_steps_per_second": 2.099,
      "step": 90
    },
    {
      "epoch": 1.103030303030303,
      "grad_norm": 0.029008885845541954,
      "learning_rate": 9.553769946918697e-05,
      "loss": 0.0403,
      "step": 91
    },
    {
      "epoch": 1.1151515151515152,
      "grad_norm": 0.025633882731199265,
      "learning_rate": 9.536026277019561e-05,
      "loss": 0.032,
      "step": 92
    },
    {
      "epoch": 1.1272727272727272,
      "grad_norm": 0.02955947443842888,
      "learning_rate": 9.517953816097396e-05,
      "loss": 0.0366,
      "step": 93
    },
    {
      "epoch": 1.1393939393939394,
      "grad_norm": 0.029836708679795265,
      "learning_rate": 9.499553874123212e-05,
      "loss": 0.0383,
      "step": 94
    },
    {
      "epoch": 1.1515151515151516,
      "grad_norm": 0.030258659273386,
      "learning_rate": 9.480827784805278e-05,
      "loss": 0.0348,
      "step": 95
    },
    {
      "epoch": 1.1515151515151516,
      "eval_loss": 0.034031517803668976,
      "eval_runtime": 6.1911,
      "eval_samples_per_second": 8.076,
      "eval_steps_per_second": 2.1,
      "step": 95
    },
    {
      "epoch": 1.1636363636363636,
      "grad_norm": 0.02571636624634266,
      "learning_rate": 9.461776905492446e-05,
      "loss": 0.0322,
      "step": 96
    },
    {
      "epoch": 1.1757575757575758,
      "grad_norm": 0.025425300002098083,
      "learning_rate": 9.442402617075765e-05,
      "loss": 0.0302,
      "step": 97
    },
    {
      "epoch": 1.187878787878788,
      "grad_norm": 0.02790471538901329,
      "learning_rate": 9.422706323888397e-05,
      "loss": 0.0305,
      "step": 98
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.031999390572309494,
      "learning_rate": 9.402689453603815e-05,
      "loss": 0.0384,
      "step": 99
    },
    {
      "epoch": 1.2121212121212122,
      "grad_norm": 0.02810075506567955,
      "learning_rate": 9.382353457132317e-05,
      "loss": 0.0308,
      "step": 100
    },
    {
      "epoch": 1.2121212121212122,
      "eval_loss": 0.03338392823934555,
      "eval_runtime": 6.1917,
      "eval_samples_per_second": 8.075,
      "eval_steps_per_second": 2.1,
      "step": 100
    },
    {
      "epoch": 1.2242424242424241,
      "grad_norm": 0.0302734412252903,
      "learning_rate": 9.361699808515876e-05,
      "loss": 0.0341,
      "step": 101
    },
    {
      "epoch": 1.2363636363636363,
      "grad_norm": 0.033730726689100266,
      "learning_rate": 9.340730004821266e-05,
      "loss": 0.0346,
      "step": 102
    },
    {
      "epoch": 1.2484848484848485,
      "grad_norm": 0.03323773667216301,
      "learning_rate": 9.31944556603157e-05,
      "loss": 0.0408,
      "step": 103
    },
    {
      "epoch": 1.2606060606060607,
      "grad_norm": 0.027124911546707153,
      "learning_rate": 9.297848034936006e-05,
      "loss": 0.0332,
      "step": 104
    },
    {
      "epoch": 1.2727272727272727,
      "grad_norm": 0.026853900402784348,
      "learning_rate": 9.275938977018081e-05,
      "loss": 0.0318,
      "step": 105
    },
    {
      "epoch": 1.2727272727272727,
      "eval_loss": 0.03301350772380829,
      "eval_runtime": 6.1968,
      "eval_samples_per_second": 8.069,
      "eval_steps_per_second": 2.098,
      "step": 105
    },
    {
      "epoch": 1.284848484848485,
      "grad_norm": 0.027320127934217453,
      "learning_rate": 9.253719980342135e-05,
      "loss": 0.0339,
      "step": 106
    },
    {
      "epoch": 1.2969696969696969,
      "grad_norm": 0.0313449464738369,
      "learning_rate": 9.231192655438221e-05,
      "loss": 0.0336,
      "step": 107
    },
    {
      "epoch": 1.309090909090909,
      "grad_norm": 0.029063764959573746,
      "learning_rate": 9.208358635185373e-05,
      "loss": 0.0324,
      "step": 108
    },
    {
      "epoch": 1.3212121212121213,
      "grad_norm": 0.03135693818330765,
      "learning_rate": 9.185219574693242e-05,
      "loss": 0.0332,
      "step": 109
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.0317191518843174,
      "learning_rate": 9.161777151182136e-05,
      "loss": 0.028,
      "step": 110
    },
    {
      "epoch": 1.3333333333333333,
      "eval_loss": 0.03218723088502884,
      "eval_runtime": 6.2118,
      "eval_samples_per_second": 8.049,
      "eval_steps_per_second": 2.093,
      "step": 110
    },
    {
      "epoch": 1.3454545454545455,
      "grad_norm": 0.031457044184207916,
      "learning_rate": 9.138033063861436e-05,
      "loss": 0.0346,
      "step": 111
    },
    {
      "epoch": 1.3575757575757577,
      "grad_norm": 0.031810589134693146,
      "learning_rate": 9.113989033806434e-05,
      "loss": 0.0283,
      "step": 112
    },
    {
      "epoch": 1.3696969696969696,
      "grad_norm": 0.030629124492406845,
      "learning_rate": 9.089646803833589e-05,
      "loss": 0.0246,
      "step": 113
    },
    {
      "epoch": 1.3818181818181818,
      "grad_norm": 0.030411459505558014,
      "learning_rate": 9.065008138374189e-05,
      "loss": 0.0317,
      "step": 114
    },
    {
      "epoch": 1.393939393939394,
      "grad_norm": 0.029815878719091415,
      "learning_rate": 9.040074823346465e-05,
      "loss": 0.0311,
      "step": 115
    },
    {
      "epoch": 1.393939393939394,
      "eval_loss": 0.032092493027448654,
      "eval_runtime": 6.1885,
      "eval_samples_per_second": 8.08,
      "eval_steps_per_second": 2.101,
      "step": 115
    },
    {
      "epoch": 1.406060606060606,
      "grad_norm": 0.030812319368124008,
      "learning_rate": 9.014848666026138e-05,
      "loss": 0.0389,
      "step": 116
    },
    {
      "epoch": 1.4181818181818182,
      "grad_norm": 0.02588343806564808,
      "learning_rate": 8.989331494915417e-05,
      "loss": 0.0287,
      "step": 117
    },
    {
      "epoch": 1.4303030303030302,
      "grad_norm": 0.02780727669596672,
      "learning_rate": 8.963525159610465e-05,
      "loss": 0.0265,
      "step": 118
    },
    {
      "epoch": 1.4424242424242424,
      "grad_norm": 0.026163380593061447,
      "learning_rate": 8.937431530667328e-05,
      "loss": 0.0262,
      "step": 119
    },
    {
      "epoch": 1.4545454545454546,
      "grad_norm": 0.0316736213862896,
      "learning_rate": 8.911052499466357e-05,
      "loss": 0.0382,
      "step": 120
    },
    {
      "epoch": 1.4545454545454546,
      "eval_loss": 0.031465690582990646,
      "eval_runtime": 6.1922,
      "eval_samples_per_second": 8.075,
      "eval_steps_per_second": 2.099,
      "step": 120
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 0.03706022724509239,
      "learning_rate": 8.884389978075098e-05,
      "loss": 0.0336,
      "step": 121
    },
    {
      "epoch": 1.4787878787878788,
      "grad_norm": 0.027684392407536507,
      "learning_rate": 8.857445899109715e-05,
      "loss": 0.0267,
      "step": 122
    },
    {
      "epoch": 1.490909090909091,
      "grad_norm": 0.02498454973101616,
      "learning_rate": 8.83022221559489e-05,
      "loss": 0.0258,
      "step": 123
    },
    {
      "epoch": 1.503030303030303,
      "grad_norm": 0.03206618130207062,
      "learning_rate": 8.80272090082227e-05,
      "loss": 0.0344,
      "step": 124
    },
    {
      "epoch": 1.5151515151515151,
      "grad_norm": 0.03329097852110863,
      "learning_rate": 8.774943948207426e-05,
      "loss": 0.0316,
      "step": 125
    },
    {
      "epoch": 1.5151515151515151,
      "eval_loss": 0.030392121523618698,
      "eval_runtime": 6.2076,
      "eval_samples_per_second": 8.055,
      "eval_steps_per_second": 2.094,
      "step": 125
    },
    {
      "epoch": 1.5272727272727273,
      "grad_norm": 0.029471345245838165,
      "learning_rate": 8.746893371145366e-05,
      "loss": 0.0279,
      "step": 126
    },
    {
      "epoch": 1.5393939393939395,
      "grad_norm": 0.030292104929685593,
      "learning_rate": 8.718571202864598e-05,
      "loss": 0.0292,
      "step": 127
    },
    {
      "epoch": 1.5515151515151515,
      "grad_norm": 0.028025031089782715,
      "learning_rate": 8.689979496279746e-05,
      "loss": 0.0296,
      "step": 128
    },
    {
      "epoch": 1.5636363636363635,
      "grad_norm": 0.027177123352885246,
      "learning_rate": 8.661120323842751e-05,
      "loss": 0.0286,
      "step": 129
    },
    {
      "epoch": 1.5757575757575757,
      "grad_norm": 0.03291260078549385,
      "learning_rate": 8.631995777392645e-05,
      "loss": 0.0278,
      "step": 130
    },
    {
      "epoch": 1.5757575757575757,
      "eval_loss": 0.029901880770921707,
      "eval_runtime": 6.1931,
      "eval_samples_per_second": 8.073,
      "eval_steps_per_second": 2.099,
      "step": 130
    },
    {
      "epoch": 1.587878787878788,
      "grad_norm": 0.027456866577267647,
      "learning_rate": 8.602607968003935e-05,
      "loss": 0.0277,
      "step": 131
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.02367628738284111,
      "learning_rate": 8.572959025833573e-05,
      "loss": 0.023,
      "step": 132
    },
    {
      "epoch": 1.612121212121212,
      "grad_norm": 0.030250705778598785,
      "learning_rate": 8.543051099966558e-05,
      "loss": 0.0253,
      "step": 133
    },
    {
      "epoch": 1.6242424242424243,
      "grad_norm": 0.02687668427824974,
      "learning_rate": 8.512886358260162e-05,
      "loss": 0.0249,
      "step": 134
    },
    {
      "epoch": 1.6363636363636362,
      "grad_norm": 0.032938696444034576,
      "learning_rate": 8.482466987186785e-05,
      "loss": 0.0285,
      "step": 135
    },
    {
      "epoch": 1.6363636363636362,
      "eval_loss": 0.029229959473013878,
      "eval_runtime": 6.1897,
      "eval_samples_per_second": 8.078,
      "eval_steps_per_second": 2.1,
      "step": 135
    },
    {
      "epoch": 1.6484848484848484,
      "grad_norm": 0.02894946001470089,
      "learning_rate": 8.451795191675488e-05,
      "loss": 0.0268,
      "step": 136
    },
    {
      "epoch": 1.6606060606060606,
      "grad_norm": 0.03599061071872711,
      "learning_rate": 8.420873194952152e-05,
      "loss": 0.0351,
      "step": 137
    },
    {
      "epoch": 1.6727272727272728,
      "grad_norm": 0.031365521252155304,
      "learning_rate": 8.389703238378339e-05,
      "loss": 0.0309,
      "step": 138
    },
    {
      "epoch": 1.6848484848484848,
      "grad_norm": 0.024763284251093864,
      "learning_rate": 8.358287581288822e-05,
      "loss": 0.0244,
      "step": 139
    },
    {
      "epoch": 1.696969696969697,
      "grad_norm": 0.026635024696588516,
      "learning_rate": 8.326628500827826e-05,
      "loss": 0.0257,
      "step": 140
    },
    {
      "epoch": 1.696969696969697,
      "eval_loss": 0.02854442596435547,
      "eval_runtime": 6.2016,
      "eval_samples_per_second": 8.062,
      "eval_steps_per_second": 2.096,
      "step": 140
    },
    {
      "epoch": 1.709090909090909,
      "grad_norm": 0.03084694594144821,
      "learning_rate": 8.294728291783966e-05,
      "loss": 0.0301,
      "step": 141
    },
    {
      "epoch": 1.7212121212121212,
      "grad_norm": 0.024888882413506508,
      "learning_rate": 8.262589266423908e-05,
      "loss": 0.0254,
      "step": 142
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 0.02867315709590912,
      "learning_rate": 8.230213754324773e-05,
      "loss": 0.0338,
      "step": 143
    },
    {
      "epoch": 1.7454545454545456,
      "grad_norm": 0.030578091740608215,
      "learning_rate": 8.197604102205271e-05,
      "loss": 0.0265,
      "step": 144
    },
    {
      "epoch": 1.7575757575757576,
      "grad_norm": 0.025194313377141953,
      "learning_rate": 8.16476267375561e-05,
      "loss": 0.0244,
      "step": 145
    },
    {
      "epoch": 1.7575757575757576,
      "eval_loss": 0.028112677857279778,
      "eval_runtime": 6.1903,
      "eval_samples_per_second": 8.077,
      "eval_steps_per_second": 2.1,
      "step": 145
    },
    {
      "epoch": 1.7696969696969695,
      "grad_norm": 0.03511481732130051,
      "learning_rate": 8.131691849466153e-05,
      "loss": 0.0351,
      "step": 146
    },
    {
      "epoch": 1.7818181818181817,
      "grad_norm": 0.034265320748090744,
      "learning_rate": 8.098394026454885e-05,
      "loss": 0.0318,
      "step": 147
    },
    {
      "epoch": 1.793939393939394,
      "grad_norm": 0.02798490971326828,
      "learning_rate": 8.064871618293646e-05,
      "loss": 0.0258,
      "step": 148
    },
    {
      "epoch": 1.8060606060606061,
      "grad_norm": 0.031277846544981,
      "learning_rate": 8.03112705483319e-05,
      "loss": 0.0322,
      "step": 149
    },
    {
      "epoch": 1.8181818181818183,
      "grad_norm": 0.025352105498313904,
      "learning_rate": 7.997162782027061e-05,
      "loss": 0.0256,
      "step": 150
    },
    {
      "epoch": 1.8181818181818183,
      "eval_loss": 0.027805332094430923,
      "eval_runtime": 6.1948,
      "eval_samples_per_second": 8.071,
      "eval_steps_per_second": 2.099,
      "step": 150
    },
    {
      "epoch": 1.8303030303030303,
      "grad_norm": 0.03179726377129555,
      "learning_rate": 7.962981261754294e-05,
      "loss": 0.0265,
      "step": 151
    },
    {
      "epoch": 1.8424242424242423,
      "grad_norm": 0.02985468879342079,
      "learning_rate": 7.928584971640974e-05,
      "loss": 0.0302,
      "step": 152
    },
    {
      "epoch": 1.8545454545454545,
      "grad_norm": 0.031871821731328964,
      "learning_rate": 7.893976404880643e-05,
      "loss": 0.0331,
      "step": 153
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 0.028416186571121216,
      "learning_rate": 7.859158070053577e-05,
      "loss": 0.0245,
      "step": 154
    },
    {
      "epoch": 1.878787878787879,
      "grad_norm": 0.03054559975862503,
      "learning_rate": 7.824132490944967e-05,
      "loss": 0.0338,
      "step": 155
    },
    {
      "epoch": 1.878787878787879,
      "eval_loss": 0.027029650285840034,
      "eval_runtime": 6.235,
      "eval_samples_per_second": 8.019,
      "eval_steps_per_second": 2.085,
      "step": 155
    },
    {
      "epoch": 1.8909090909090909,
      "grad_norm": 0.028330031782388687,
      "learning_rate": 7.788902206361973e-05,
      "loss": 0.0241,
      "step": 156
    },
    {
      "epoch": 1.903030303030303,
      "grad_norm": 0.031616389751434326,
      "learning_rate": 7.7534697699497e-05,
      "loss": 0.0301,
      "step": 157
    },
    {
      "epoch": 1.915151515151515,
      "grad_norm": 0.027048081159591675,
      "learning_rate": 7.717837750006106e-05,
      "loss": 0.0274,
      "step": 158
    },
    {
      "epoch": 1.9272727272727272,
      "grad_norm": 0.028316281735897064,
      "learning_rate": 7.682008729295833e-05,
      "loss": 0.026,
      "step": 159
    },
    {
      "epoch": 1.9393939393939394,
      "grad_norm": 0.02987455017864704,
      "learning_rate": 7.645985304863003e-05,
      "loss": 0.0309,
      "step": 160
    },
    {
      "epoch": 1.9393939393939394,
      "eval_loss": 0.02624826692044735,
      "eval_runtime": 6.1867,
      "eval_samples_per_second": 8.082,
      "eval_steps_per_second": 2.101,
      "step": 160
    },
    {
      "epoch": 1.9515151515151516,
      "grad_norm": 0.02562532387673855,
      "learning_rate": 7.609770087842969e-05,
      "loss": 0.0275,
      "step": 161
    },
    {
      "epoch": 1.9636363636363636,
      "grad_norm": 0.026776108890771866,
      "learning_rate": 7.573365703273046e-05,
      "loss": 0.0263,
      "step": 162
    },
    {
      "epoch": 1.9757575757575756,
      "grad_norm": 0.031301844865083694,
      "learning_rate": 7.536774789902246e-05,
      "loss": 0.0293,
      "step": 163
    },
    {
      "epoch": 1.9878787878787878,
      "grad_norm": 0.02761393040418625,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.0292,
      "step": 164
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.04325617477297783,
      "learning_rate": 7.463043999163919e-05,
      "loss": 0.0378,
      "step": 165
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.02608395926654339,
      "eval_runtime": 6.2208,
      "eval_samples_per_second": 8.038,
      "eval_steps_per_second": 2.09,
      "step": 165
    },
    {
      "epoch": 2.012121212121212,
      "grad_norm": 0.026866400614380836,
      "learning_rate": 7.425909466126568e-05,
      "loss": 0.024,
      "step": 166
    },
    {
      "epoch": 2.0242424242424244,
      "grad_norm": 0.026734622195363045,
      "learning_rate": 7.388599092561315e-05,
      "loss": 0.0238,
      "step": 167
    },
    {
      "epoch": 2.036363636363636,
      "grad_norm": 0.02514388971030712,
      "learning_rate": 7.351115582887211e-05,
      "loss": 0.0218,
      "step": 168
    },
    {
      "epoch": 2.0484848484848484,
      "grad_norm": 0.02405986562371254,
      "learning_rate": 7.313461654072973e-05,
      "loss": 0.0199,
      "step": 169
    },
    {
      "epoch": 2.0606060606060606,
      "grad_norm": 0.030505580827593803,
      "learning_rate": 7.275640035440045e-05,
      "loss": 0.0275,
      "step": 170
    },
    {
      "epoch": 2.0606060606060606,
      "eval_loss": 0.026318900287151337,
      "eval_runtime": 6.2393,
      "eval_samples_per_second": 8.014,
      "eval_steps_per_second": 2.084,
      "step": 170
    },
    {
      "epoch": 2.0727272727272728,
      "grad_norm": 0.03722088038921356,
      "learning_rate": 7.237653468464756e-05,
      "loss": 0.0256,
      "step": 171
    },
    {
      "epoch": 2.084848484848485,
      "grad_norm": 0.03724412992596626,
      "learning_rate": 7.199504706579617e-05,
      "loss": 0.0226,
      "step": 172
    },
    {
      "epoch": 2.096969696969697,
      "grad_norm": 0.030355574563145638,
      "learning_rate": 7.161196514973734e-05,
      "loss": 0.0188,
      "step": 173
    },
    {
      "epoch": 2.109090909090909,
      "grad_norm": 0.03693992272019386,
      "learning_rate": 7.12273167039238e-05,
      "loss": 0.0232,
      "step": 174
    },
    {
      "epoch": 2.121212121212121,
      "grad_norm": 0.03164402395486832,
      "learning_rate": 7.084112960935716e-05,
      "loss": 0.0225,
      "step": 175
    },
    {
      "epoch": 2.121212121212121,
      "eval_loss": 0.025883661583065987,
      "eval_runtime": 6.2414,
      "eval_samples_per_second": 8.011,
      "eval_steps_per_second": 2.083,
      "step": 175
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 0.031605158001184464,
      "learning_rate": 7.045343185856701e-05,
      "loss": 0.0248,
      "step": 176
    },
    {
      "epoch": 2.1454545454545455,
      "grad_norm": 0.0310862734913826,
      "learning_rate": 7.006425155358195e-05,
      "loss": 0.0244,
      "step": 177
    },
    {
      "epoch": 2.1575757575757577,
      "grad_norm": 0.031485848128795624,
      "learning_rate": 6.967361690389258e-05,
      "loss": 0.0242,
      "step": 178
    },
    {
      "epoch": 2.16969696969697,
      "grad_norm": 0.03367177024483681,
      "learning_rate": 6.92815562244068e-05,
      "loss": 0.0246,
      "step": 179
    },
    {
      "epoch": 2.1818181818181817,
      "grad_norm": 0.028202077373862267,
      "learning_rate": 6.88880979333973e-05,
      "loss": 0.0232,
      "step": 180
    },
    {
      "epoch": 2.1818181818181817,
      "eval_loss": 0.025616060942411423,
      "eval_runtime": 6.1872,
      "eval_samples_per_second": 8.081,
      "eval_steps_per_second": 2.101,
      "step": 180
    },
    {
      "epoch": 2.193939393939394,
      "grad_norm": 0.03502137213945389,
      "learning_rate": 6.849327055044183e-05,
      "loss": 0.0251,
      "step": 181
    },
    {
      "epoch": 2.206060606060606,
      "grad_norm": 0.029362250119447708,
      "learning_rate": 6.809710269435589e-05,
      "loss": 0.022,
      "step": 182
    },
    {
      "epoch": 2.2181818181818183,
      "grad_norm": 0.033701106905937195,
      "learning_rate": 6.769962308111839e-05,
      "loss": 0.0234,
      "step": 183
    },
    {
      "epoch": 2.2303030303030305,
      "grad_norm": 0.03379302844405174,
      "learning_rate": 6.730086052179004e-05,
      "loss": 0.0221,
      "step": 184
    },
    {
      "epoch": 2.242424242424242,
      "grad_norm": 0.027100039646029472,
      "learning_rate": 6.690084392042513e-05,
      "loss": 0.0193,
      "step": 185
    },
    {
      "epoch": 2.242424242424242,
      "eval_loss": 0.025547849014401436,
      "eval_runtime": 6.2367,
      "eval_samples_per_second": 8.017,
      "eval_steps_per_second": 2.084,
      "step": 185
    },
    {
      "epoch": 2.2545454545454544,
      "grad_norm": 0.03181413188576698,
      "learning_rate": 6.649960227197647e-05,
      "loss": 0.0217,
      "step": 186
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 0.03648809716105461,
      "learning_rate": 6.609716466019356e-05,
      "loss": 0.0239,
      "step": 187
    },
    {
      "epoch": 2.278787878787879,
      "grad_norm": 0.0302013847976923,
      "learning_rate": 6.569356025551454e-05,
      "loss": 0.0232,
      "step": 188
    },
    {
      "epoch": 2.290909090909091,
      "grad_norm": 0.028094977140426636,
      "learning_rate": 6.528881831295188e-05,
      "loss": 0.02,
      "step": 189
    },
    {
      "epoch": 2.303030303030303,
      "grad_norm": 0.03214862942695618,
      "learning_rate": 6.488296816997173e-05,
      "loss": 0.0251,
      "step": 190
    },
    {
      "epoch": 2.303030303030303,
      "eval_loss": 0.02527759224176407,
      "eval_runtime": 6.19,
      "eval_samples_per_second": 8.078,
      "eval_steps_per_second": 2.1,
      "step": 190
    },
    {
      "epoch": 2.315151515151515,
      "grad_norm": 0.033984988927841187,
      "learning_rate": 6.447603924436744e-05,
      "loss": 0.0243,
      "step": 191
    },
    {
      "epoch": 2.327272727272727,
      "grad_norm": 0.027719179168343544,
      "learning_rate": 6.406806103212725e-05,
      "loss": 0.0204,
      "step": 192
    },
    {
      "epoch": 2.3393939393939394,
      "grad_norm": 0.029257657006382942,
      "learning_rate": 6.36590631052963e-05,
      "loss": 0.0232,
      "step": 193
    },
    {
      "epoch": 2.3515151515151516,
      "grad_norm": 0.050508007407188416,
      "learning_rate": 6.32490751098331e-05,
      "loss": 0.0324,
      "step": 194
    },
    {
      "epoch": 2.3636363636363638,
      "grad_norm": 0.029407154768705368,
      "learning_rate": 6.283812676346063e-05,
      "loss": 0.0228,
      "step": 195
    },
    {
      "epoch": 2.3636363636363638,
      "eval_loss": 0.024870626628398895,
      "eval_runtime": 6.191,
      "eval_samples_per_second": 8.076,
      "eval_steps_per_second": 2.1,
      "step": 195
    },
    {
      "epoch": 2.375757575757576,
      "grad_norm": 0.0258539617061615,
      "learning_rate": 6.242624785351236e-05,
      "loss": 0.0231,
      "step": 196
    },
    {
      "epoch": 2.3878787878787877,
      "grad_norm": 0.02586168795824051,
      "learning_rate": 6.201346823477303e-05,
      "loss": 0.0193,
      "step": 197
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.029741084203124046,
      "learning_rate": 6.159981782731474e-05,
      "loss": 0.0227,
      "step": 198
    },
    {
      "epoch": 2.412121212121212,
      "grad_norm": 0.029881663620471954,
      "learning_rate": 6.118532661432812e-05,
      "loss": 0.0224,
      "step": 199
    },
    {
      "epoch": 2.4242424242424243,
      "grad_norm": 0.027224918827414513,
      "learning_rate": 6.0770024639949074e-05,
      "loss": 0.0195,
      "step": 200
    },
    {
      "epoch": 2.4242424242424243,
      "eval_loss": 0.024939175695180893,
      "eval_runtime": 6.1942,
      "eval_samples_per_second": 8.072,
      "eval_steps_per_second": 2.099,
      "step": 200
    },
    {
      "epoch": 2.4363636363636365,
      "grad_norm": 0.028513159602880478,
      "learning_rate": 6.0353942007081046e-05,
      "loss": 0.0198,
      "step": 201
    },
    {
      "epoch": 2.4484848484848483,
      "grad_norm": 0.028778916224837303,
      "learning_rate": 5.993710887521302e-05,
      "loss": 0.0184,
      "step": 202
    },
    {
      "epoch": 2.4606060606060605,
      "grad_norm": 0.03407447412610054,
      "learning_rate": 5.951955545823342e-05,
      "loss": 0.0207,
      "step": 203
    },
    {
      "epoch": 2.4727272727272727,
      "grad_norm": 0.033413201570510864,
      "learning_rate": 5.9101312022240106e-05,
      "loss": 0.0217,
      "step": 204
    },
    {
      "epoch": 2.484848484848485,
      "grad_norm": 0.031220227479934692,
      "learning_rate": 5.868240888334653e-05,
      "loss": 0.0219,
      "step": 205
    },
    {
      "epoch": 2.484848484848485,
      "eval_loss": 0.024136777967214584,
      "eval_runtime": 6.2,
      "eval_samples_per_second": 8.065,
      "eval_steps_per_second": 2.097,
      "step": 205
    },
    {
      "epoch": 2.496969696969697,
      "grad_norm": 0.0299720149487257,
      "learning_rate": 5.826287640548425e-05,
      "loss": 0.0231,
      "step": 206
    },
    {
      "epoch": 2.509090909090909,
      "grad_norm": 0.030199084430933,
      "learning_rate": 5.784274499820214e-05,
      "loss": 0.0243,
      "step": 207
    },
    {
      "epoch": 2.5212121212121215,
      "grad_norm": 0.03225167095661163,
      "learning_rate": 5.742204511446203e-05,
      "loss": 0.0241,
      "step": 208
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 0.02794428914785385,
      "learning_rate": 5.700080724843147e-05,
      "loss": 0.0217,
      "step": 209
    },
    {
      "epoch": 2.5454545454545454,
      "grad_norm": 0.026055919006466866,
      "learning_rate": 5.657906193327325e-05,
      "loss": 0.0184,
      "step": 210
    },
    {
      "epoch": 2.5454545454545454,
      "eval_loss": 0.023839673027396202,
      "eval_runtime": 6.1855,
      "eval_samples_per_second": 8.083,
      "eval_steps_per_second": 2.102,
      "step": 210
    },
    {
      "epoch": 2.5575757575757576,
      "grad_norm": 0.03009297326207161,
      "learning_rate": 5.6156839738932343e-05,
      "loss": 0.0233,
      "step": 211
    },
    {
      "epoch": 2.56969696969697,
      "grad_norm": 0.038690801709890366,
      "learning_rate": 5.573417126992003e-05,
      "loss": 0.0419,
      "step": 212
    },
    {
      "epoch": 2.581818181818182,
      "grad_norm": 0.03184739127755165,
      "learning_rate": 5.531108716309547e-05,
      "loss": 0.0208,
      "step": 213
    },
    {
      "epoch": 2.5939393939393938,
      "grad_norm": 0.04226066172122955,
      "learning_rate": 5.4887618085445094e-05,
      "loss": 0.0356,
      "step": 214
    },
    {
      "epoch": 2.606060606060606,
      "grad_norm": 0.02787015587091446,
      "learning_rate": 5.446379473185972e-05,
      "loss": 0.0199,
      "step": 215
    },
    {
      "epoch": 2.606060606060606,
      "eval_loss": 0.023647097870707512,
      "eval_runtime": 6.1981,
      "eval_samples_per_second": 8.067,
      "eval_steps_per_second": 2.097,
      "step": 215
    },
    {
      "epoch": 2.618181818181818,
      "grad_norm": 0.028222182765603065,
      "learning_rate": 5.4039647822909624e-05,
      "loss": 0.0185,
      "step": 216
    },
    {
      "epoch": 2.6303030303030304,
      "grad_norm": 0.03137464076280594,
      "learning_rate": 5.361520810261779e-05,
      "loss": 0.0212,
      "step": 217
    },
    {
      "epoch": 2.6424242424242426,
      "grad_norm": 0.028826339170336723,
      "learning_rate": 5.319050633623142e-05,
      "loss": 0.0208,
      "step": 218
    },
    {
      "epoch": 2.6545454545454543,
      "grad_norm": 0.048953138291835785,
      "learning_rate": 5.2765573307992036e-05,
      "loss": 0.0343,
      "step": 219
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.03138812631368637,
      "learning_rate": 5.234043981890394e-05,
      "loss": 0.023,
      "step": 220
    },
    {
      "epoch": 2.6666666666666665,
      "eval_loss": 0.02315612882375717,
      "eval_runtime": 6.1852,
      "eval_samples_per_second": 8.084,
      "eval_steps_per_second": 2.102,
      "step": 220
    },
    {
      "epoch": 2.6787878787878787,
      "grad_norm": 0.03604348748922348,
      "learning_rate": 5.191513668450178e-05,
      "loss": 0.0208,
      "step": 221
    },
    {
      "epoch": 2.690909090909091,
      "grad_norm": 0.028721556067466736,
      "learning_rate": 5.14896947326168e-05,
      "loss": 0.0178,
      "step": 222
    },
    {
      "epoch": 2.703030303030303,
      "grad_norm": 0.02585718221962452,
      "learning_rate": 5.1064144801142374e-05,
      "loss": 0.019,
      "step": 223
    },
    {
      "epoch": 2.7151515151515153,
      "grad_norm": 0.02729875221848488,
      "learning_rate": 5.0638517735798696e-05,
      "loss": 0.0184,
      "step": 224
    },
    {
      "epoch": 2.7272727272727275,
      "grad_norm": 0.029812021180987358,
      "learning_rate": 5.021284438789694e-05,
      "loss": 0.0227,
      "step": 225
    },
    {
      "epoch": 2.7272727272727275,
      "eval_loss": 0.023449590429663658,
      "eval_runtime": 6.1841,
      "eval_samples_per_second": 8.085,
      "eval_steps_per_second": 2.102,
      "step": 225
    },
    {
      "epoch": 2.7393939393939393,
      "grad_norm": 0.02997618354856968,
      "learning_rate": 4.9787155612103074e-05,
      "loss": 0.0205,
      "step": 226
    },
    {
      "epoch": 2.7515151515151515,
      "grad_norm": 0.028398435562849045,
      "learning_rate": 4.936148226420132e-05,
      "loss": 0.0171,
      "step": 227
    },
    {
      "epoch": 2.7636363636363637,
      "grad_norm": 0.030046509578824043,
      "learning_rate": 4.893585519885764e-05,
      "loss": 0.0197,
      "step": 228
    },
    {
      "epoch": 2.775757575757576,
      "grad_norm": 0.029226917773485184,
      "learning_rate": 4.851030526738321e-05,
      "loss": 0.0204,
      "step": 229
    },
    {
      "epoch": 2.787878787878788,
      "grad_norm": 0.03432171046733856,
      "learning_rate": 4.8084863315498234e-05,
      "loss": 0.0206,
      "step": 230
    },
    {
      "epoch": 2.787878787878788,
      "eval_loss": 0.022967081516981125,
      "eval_runtime": 6.1905,
      "eval_samples_per_second": 8.077,
      "eval_steps_per_second": 2.1,
      "step": 230
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.029804987832903862,
      "learning_rate": 4.765956018109607e-05,
      "loss": 0.0197,
      "step": 231
    },
    {
      "epoch": 2.812121212121212,
      "grad_norm": 0.029483767226338387,
      "learning_rate": 4.723442669200798e-05,
      "loss": 0.0213,
      "step": 232
    },
    {
      "epoch": 2.824242424242424,
      "grad_norm": 0.03142073005437851,
      "learning_rate": 4.680949366376858e-05,
      "loss": 0.0237,
      "step": 233
    },
    {
      "epoch": 2.8363636363636364,
      "grad_norm": 0.029062366113066673,
      "learning_rate": 4.638479189738224e-05,
      "loss": 0.0235,
      "step": 234
    },
    {
      "epoch": 2.8484848484848486,
      "grad_norm": 0.03055807389318943,
      "learning_rate": 4.5960352177090395e-05,
      "loss": 0.0217,
      "step": 235
    },
    {
      "epoch": 2.8484848484848486,
      "eval_loss": 0.022518714889883995,
      "eval_runtime": 6.1918,
      "eval_samples_per_second": 8.075,
      "eval_steps_per_second": 2.1,
      "step": 235
    },
    {
      "epoch": 2.8606060606060604,
      "grad_norm": 0.027205798774957657,
      "learning_rate": 4.5536205268140294e-05,
      "loss": 0.0189,
      "step": 236
    },
    {
      "epoch": 2.8727272727272726,
      "grad_norm": 0.025477448478341103,
      "learning_rate": 4.511238191455491e-05,
      "loss": 0.0166,
      "step": 237
    },
    {
      "epoch": 2.8848484848484848,
      "grad_norm": 0.025487707927823067,
      "learning_rate": 4.468891283690454e-05,
      "loss": 0.0183,
      "step": 238
    },
    {
      "epoch": 2.896969696969697,
      "grad_norm": 0.0332886204123497,
      "learning_rate": 4.4265828730079987e-05,
      "loss": 0.0221,
      "step": 239
    },
    {
      "epoch": 2.909090909090909,
      "grad_norm": 0.029150154441595078,
      "learning_rate": 4.3843160261067655e-05,
      "loss": 0.0186,
      "step": 240
    },
    {
      "epoch": 2.909090909090909,
      "eval_loss": 0.022352781146764755,
      "eval_runtime": 6.1961,
      "eval_samples_per_second": 8.07,
      "eval_steps_per_second": 2.098,
      "step": 240
    },
    {
      "epoch": 2.9212121212121214,
      "grad_norm": 0.029591498896479607,
      "learning_rate": 4.342093806672678e-05,
      "loss": 0.0181,
      "step": 241
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 0.03216252475976944,
      "learning_rate": 4.2999192751568564e-05,
      "loss": 0.0203,
      "step": 242
    },
    {
      "epoch": 2.9454545454545453,
      "grad_norm": 0.02891668863594532,
      "learning_rate": 4.2577954885537986e-05,
      "loss": 0.0181,
      "step": 243
    },
    {
      "epoch": 2.9575757575757575,
      "grad_norm": 0.028023086488246918,
      "learning_rate": 4.215725500179787e-05,
      "loss": 0.0191,
      "step": 244
    },
    {
      "epoch": 2.9696969696969697,
      "grad_norm": 0.03082926571369171,
      "learning_rate": 4.1737123594515756e-05,
      "loss": 0.0201,
      "step": 245
    },
    {
      "epoch": 2.9696969696969697,
      "eval_loss": 0.02198323793709278,
      "eval_runtime": 6.1948,
      "eval_samples_per_second": 8.071,
      "eval_steps_per_second": 2.099,
      "step": 245
    },
    {
      "epoch": 2.981818181818182,
      "grad_norm": 0.0321161188185215,
      "learning_rate": 4.131759111665349e-05,
      "loss": 0.0191,
      "step": 246
    },
    {
      "epoch": 2.993939393939394,
      "grad_norm": 0.026935642585158348,
      "learning_rate": 4.089868797775989e-05,
      "loss": 0.0185,
      "step": 247
    },
    {
      "epoch": 3.006060606060606,
      "grad_norm": 0.05411810800433159,
      "learning_rate": 4.0480444541766576e-05,
      "loss": 0.0301,
      "step": 248
    },
    {
      "epoch": 3.018181818181818,
      "grad_norm": 0.027184097096323967,
      "learning_rate": 4.0062891124787e-05,
      "loss": 0.0188,
      "step": 249
    },
    {
      "epoch": 3.0303030303030303,
      "grad_norm": 0.022542983293533325,
      "learning_rate": 3.964605799291897e-05,
      "loss": 0.0147,
      "step": 250
    },
    {
      "epoch": 3.0303030303030303,
      "eval_loss": 0.021969465538859367,
      "eval_runtime": 6.1917,
      "eval_samples_per_second": 8.075,
      "eval_steps_per_second": 2.1,
      "step": 250
    },
    {
      "epoch": 3.0424242424242425,
      "grad_norm": 0.03472661226987839,
      "learning_rate": 3.922997536005094e-05,
      "loss": 0.0178,
      "step": 251
    },
    {
      "epoch": 3.0545454545454547,
      "grad_norm": 0.028128741309046745,
      "learning_rate": 3.8814673385671894e-05,
      "loss": 0.0157,
      "step": 252
    },
    {
      "epoch": 3.066666666666667,
      "grad_norm": 0.03135592117905617,
      "learning_rate": 3.840018217268527e-05,
      "loss": 0.0161,
      "step": 253
    },
    {
      "epoch": 3.0787878787878786,
      "grad_norm": 0.03661385551095009,
      "learning_rate": 3.7986531765226964e-05,
      "loss": 0.0161,
      "step": 254
    },
    {
      "epoch": 3.090909090909091,
      "grad_norm": 0.03205974027514458,
      "learning_rate": 3.757375214648764e-05,
      "loss": 0.0142,
      "step": 255
    },
    {
      "epoch": 3.090909090909091,
      "eval_loss": 0.022621195763349533,
      "eval_runtime": 6.2467,
      "eval_samples_per_second": 8.004,
      "eval_steps_per_second": 2.081,
      "step": 255
    },
    {
      "epoch": 3.103030303030303,
      "grad_norm": 0.037527382373809814,
      "learning_rate": 3.716187323653939e-05,
      "loss": 0.0167,
      "step": 256
    },
    {
      "epoch": 3.1151515151515152,
      "grad_norm": 0.03540443629026413,
      "learning_rate": 3.675092489016693e-05,
      "loss": 0.0168,
      "step": 257
    },
    {
      "epoch": 3.1272727272727274,
      "grad_norm": 0.034389954060316086,
      "learning_rate": 3.634093689470371e-05,
      "loss": 0.017,
      "step": 258
    },
    {
      "epoch": 3.1393939393939396,
      "grad_norm": 0.033294420689344406,
      "learning_rate": 3.5931938967872766e-05,
      "loss": 0.016,
      "step": 259
    },
    {
      "epoch": 3.1515151515151514,
      "grad_norm": 0.028759747743606567,
      "learning_rate": 3.5523960755632574e-05,
      "loss": 0.0149,
      "step": 260
    },
    {
      "epoch": 3.1515151515151514,
      "eval_loss": 0.021824924275279045,
      "eval_runtime": 6.1966,
      "eval_samples_per_second": 8.069,
      "eval_steps_per_second": 2.098,
      "step": 260
    },
    {
      "epoch": 3.1636363636363636,
      "grad_norm": 0.02833370864391327,
      "learning_rate": 3.5117031830028274e-05,
      "loss": 0.0127,
      "step": 261
    },
    {
      "epoch": 3.175757575757576,
      "grad_norm": 0.0286524910479784,
      "learning_rate": 3.471118168704811e-05,
      "loss": 0.015,
      "step": 262
    },
    {
      "epoch": 3.187878787878788,
      "grad_norm": 0.02769540622830391,
      "learning_rate": 3.4306439744485454e-05,
      "loss": 0.0154,
      "step": 263
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.03221355006098747,
      "learning_rate": 3.390283533980646e-05,
      "loss": 0.0167,
      "step": 264
    },
    {
      "epoch": 3.212121212121212,
      "grad_norm": 0.026392612606287003,
      "learning_rate": 3.350039772802354e-05,
      "loss": 0.0151,
      "step": 265
    },
    {
      "epoch": 3.212121212121212,
      "eval_loss": 0.02153392694890499,
      "eval_runtime": 6.1848,
      "eval_samples_per_second": 8.084,
      "eval_steps_per_second": 2.102,
      "step": 265
    },
    {
      "epoch": 3.224242424242424,
      "grad_norm": 0.03104759193956852,
      "learning_rate": 3.309915607957487e-05,
      "loss": 0.0171,
      "step": 266
    },
    {
      "epoch": 3.2363636363636363,
      "grad_norm": 0.028836429119110107,
      "learning_rate": 3.269913947820998e-05,
      "loss": 0.0158,
      "step": 267
    },
    {
      "epoch": 3.2484848484848485,
      "grad_norm": 0.032903432846069336,
      "learning_rate": 3.2300376918881624e-05,
      "loss": 0.0156,
      "step": 268
    },
    {
      "epoch": 3.2606060606060607,
      "grad_norm": 0.030551951378583908,
      "learning_rate": 3.1902897305644095e-05,
      "loss": 0.0134,
      "step": 269
    },
    {
      "epoch": 3.2727272727272725,
      "grad_norm": 0.030059080570936203,
      "learning_rate": 3.1506729449558184e-05,
      "loss": 0.0174,
      "step": 270
    },
    {
      "epoch": 3.2727272727272725,
      "eval_loss": 0.021679332479834557,
      "eval_runtime": 6.1964,
      "eval_samples_per_second": 8.069,
      "eval_steps_per_second": 2.098,
      "step": 270
    },
    {
      "epoch": 3.2848484848484847,
      "grad_norm": 0.030379703268408775,
      "learning_rate": 3.1111902066602724e-05,
      "loss": 0.018,
      "step": 271
    },
    {
      "epoch": 3.296969696969697,
      "grad_norm": 0.02761555276811123,
      "learning_rate": 3.071844377559323e-05,
      "loss": 0.016,
      "step": 272
    },
    {
      "epoch": 3.309090909090909,
      "grad_norm": 0.026775086298584938,
      "learning_rate": 3.0326383096107426e-05,
      "loss": 0.014,
      "step": 273
    },
    {
      "epoch": 3.3212121212121213,
      "grad_norm": 0.03328753635287285,
      "learning_rate": 2.9935748446418066e-05,
      "loss": 0.0169,
      "step": 274
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.03564237430691719,
      "learning_rate": 2.9546568141433006e-05,
      "loss": 0.0172,
      "step": 275
    },
    {
      "epoch": 3.3333333333333335,
      "eval_loss": 0.021324800327420235,
      "eval_runtime": 6.1942,
      "eval_samples_per_second": 8.072,
      "eval_steps_per_second": 2.099,
      "step": 275
    },
    {
      "epoch": 3.3454545454545457,
      "grad_norm": 0.028079047799110413,
      "learning_rate": 2.915887039064287e-05,
      "loss": 0.0141,
      "step": 276
    },
    {
      "epoch": 3.3575757575757574,
      "grad_norm": 0.02460673451423645,
      "learning_rate": 2.8772683296076196e-05,
      "loss": 0.0126,
      "step": 277
    },
    {
      "epoch": 3.3696969696969696,
      "grad_norm": 0.04345537722110748,
      "learning_rate": 2.8388034850262646e-05,
      "loss": 0.0376,
      "step": 278
    },
    {
      "epoch": 3.381818181818182,
      "grad_norm": 0.0306687094271183,
      "learning_rate": 2.8004952934203838e-05,
      "loss": 0.017,
      "step": 279
    },
    {
      "epoch": 3.393939393939394,
      "grad_norm": 0.033993735909461975,
      "learning_rate": 2.762346531535246e-05,
      "loss": 0.017,
      "step": 280
    },
    {
      "epoch": 3.393939393939394,
      "eval_loss": 0.02108747698366642,
      "eval_runtime": 6.2236,
      "eval_samples_per_second": 8.034,
      "eval_steps_per_second": 2.089,
      "step": 280
    },
    {
      "epoch": 3.4060606060606062,
      "grad_norm": 0.02444186620414257,
      "learning_rate": 2.7243599645599576e-05,
      "loss": 0.014,
      "step": 281
    },
    {
      "epoch": 3.418181818181818,
      "grad_norm": 0.028384167701005936,
      "learning_rate": 2.6865383459270265e-05,
      "loss": 0.0158,
      "step": 282
    },
    {
      "epoch": 3.43030303030303,
      "grad_norm": 0.03162846714258194,
      "learning_rate": 2.6488844171127903e-05,
      "loss": 0.017,
      "step": 283
    },
    {
      "epoch": 3.4424242424242424,
      "grad_norm": 0.027297567576169968,
      "learning_rate": 2.6114009074386846e-05,
      "loss": 0.0124,
      "step": 284
    },
    {
      "epoch": 3.4545454545454546,
      "grad_norm": 0.03545952960848808,
      "learning_rate": 2.574090533873431e-05,
      "loss": 0.0223,
      "step": 285
    },
    {
      "epoch": 3.4545454545454546,
      "eval_loss": 0.021236957982182503,
      "eval_runtime": 6.1899,
      "eval_samples_per_second": 8.078,
      "eval_steps_per_second": 2.1,
      "step": 285
    },
    {
      "epoch": 3.466666666666667,
      "grad_norm": 0.024587715044617653,
      "learning_rate": 2.5369560008360828e-05,
      "loss": 0.0132,
      "step": 286
    },
    {
      "epoch": 3.4787878787878785,
      "grad_norm": 0.025963526219129562,
      "learning_rate": 2.500000000000001e-05,
      "loss": 0.0132,
      "step": 287
    },
    {
      "epoch": 3.4909090909090907,
      "grad_norm": 0.03487967699766159,
      "learning_rate": 2.4632252100977566e-05,
      "loss": 0.0136,
      "step": 288
    },
    {
      "epoch": 3.503030303030303,
      "grad_norm": 0.030390363186597824,
      "learning_rate": 2.4266342967269552e-05,
      "loss": 0.0157,
      "step": 289
    },
    {
      "epoch": 3.515151515151515,
      "grad_norm": 0.030459538102149963,
      "learning_rate": 2.3902299121570333e-05,
      "loss": 0.0144,
      "step": 290
    },
    {
      "epoch": 3.515151515151515,
      "eval_loss": 0.02107882872223854,
      "eval_runtime": 6.2006,
      "eval_samples_per_second": 8.064,
      "eval_steps_per_second": 2.097,
      "step": 290
    },
    {
      "epoch": 3.5272727272727273,
      "grad_norm": 0.02951274998486042,
      "learning_rate": 2.354014695136997e-05,
      "loss": 0.0131,
      "step": 291
    },
    {
      "epoch": 3.5393939393939395,
      "grad_norm": 0.029193086549639702,
      "learning_rate": 2.317991270704167e-05,
      "loss": 0.0151,
      "step": 292
    },
    {
      "epoch": 3.5515151515151517,
      "grad_norm": 0.02726319245994091,
      "learning_rate": 2.282162249993895e-05,
      "loss": 0.0125,
      "step": 293
    },
    {
      "epoch": 3.5636363636363635,
      "grad_norm": 0.03212954103946686,
      "learning_rate": 2.246530230050301e-05,
      "loss": 0.0162,
      "step": 294
    },
    {
      "epoch": 3.5757575757575757,
      "grad_norm": 0.024175025522708893,
      "learning_rate": 2.211097793638029e-05,
      "loss": 0.0125,
      "step": 295
    },
    {
      "epoch": 3.5757575757575757,
      "eval_loss": 0.020796656608581543,
      "eval_runtime": 6.1933,
      "eval_samples_per_second": 8.073,
      "eval_steps_per_second": 2.099,
      "step": 295
    },
    {
      "epoch": 3.587878787878788,
      "grad_norm": 0.02679980918765068,
      "learning_rate": 2.175867509055033e-05,
      "loss": 0.0111,
      "step": 296
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.031121132895350456,
      "learning_rate": 2.1408419299464245e-05,
      "loss": 0.0165,
      "step": 297
    },
    {
      "epoch": 3.6121212121212123,
      "grad_norm": 0.030764909461140633,
      "learning_rate": 2.106023595119358e-05,
      "loss": 0.0139,
      "step": 298
    },
    {
      "epoch": 3.624242424242424,
      "grad_norm": 0.0302122812718153,
      "learning_rate": 2.071415028359026e-05,
      "loss": 0.0148,
      "step": 299
    },
    {
      "epoch": 3.6363636363636362,
      "grad_norm": 0.029834948480129242,
      "learning_rate": 2.0370187382457068e-05,
      "loss": 0.0163,
      "step": 300
    },
    {
      "epoch": 3.6363636363636362,
      "eval_loss": 0.02069205790758133,
      "eval_runtime": 6.2054,
      "eval_samples_per_second": 8.057,
      "eval_steps_per_second": 2.095,
      "step": 300
    },
    {
      "epoch": 3.6484848484848484,
      "grad_norm": 0.03009135089814663,
      "learning_rate": 2.0028372179729403e-05,
      "loss": 0.0143,
      "step": 301
    },
    {
      "epoch": 3.6606060606060606,
      "grad_norm": 0.029639270156621933,
      "learning_rate": 1.9688729451668114e-05,
      "loss": 0.0168,
      "step": 302
    },
    {
      "epoch": 3.672727272727273,
      "grad_norm": 0.026824606582522392,
      "learning_rate": 1.935128381706355e-05,
      "loss": 0.0129,
      "step": 303
    },
    {
      "epoch": 3.6848484848484846,
      "grad_norm": 0.03427920117974281,
      "learning_rate": 1.901605973545116e-05,
      "loss": 0.0194,
      "step": 304
    },
    {
      "epoch": 3.6969696969696972,
      "grad_norm": 0.031160475686192513,
      "learning_rate": 1.868308150533847e-05,
      "loss": 0.015,
      "step": 305
    },
    {
      "epoch": 3.6969696969696972,
      "eval_loss": 0.020683376118540764,
      "eval_runtime": 6.1876,
      "eval_samples_per_second": 8.081,
      "eval_steps_per_second": 2.101,
      "step": 305
    },
    {
      "epoch": 3.709090909090909,
      "grad_norm": 0.033249229192733765,
      "learning_rate": 1.8352373262443916e-05,
      "loss": 0.0147,
      "step": 306
    },
    {
      "epoch": 3.721212121212121,
      "grad_norm": 0.029073260724544525,
      "learning_rate": 1.8023958977947304e-05,
      "loss": 0.0157,
      "step": 307
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 0.030520522966980934,
      "learning_rate": 1.7697862456752273e-05,
      "loss": 0.0152,
      "step": 308
    },
    {
      "epoch": 3.7454545454545456,
      "grad_norm": 0.029693983495235443,
      "learning_rate": 1.7374107335760936e-05,
      "loss": 0.0172,
      "step": 309
    },
    {
      "epoch": 3.757575757575758,
      "grad_norm": 0.03103681467473507,
      "learning_rate": 1.7052717082160346e-05,
      "loss": 0.0154,
      "step": 310
    },
    {
      "epoch": 3.757575757575758,
      "eval_loss": 0.02056981809437275,
      "eval_runtime": 6.1896,
      "eval_samples_per_second": 8.078,
      "eval_steps_per_second": 2.1,
      "step": 310
    },
    {
      "epoch": 3.7696969696969695,
      "grad_norm": 0.030047744512557983,
      "learning_rate": 1.673371499172174e-05,
      "loss": 0.015,
      "step": 311
    },
    {
      "epoch": 3.7818181818181817,
      "grad_norm": 0.03367823734879494,
      "learning_rate": 1.6417124187111775e-05,
      "loss": 0.017,
      "step": 312
    },
    {
      "epoch": 3.793939393939394,
      "grad_norm": 0.027037424966692924,
      "learning_rate": 1.610296761621662e-05,
      "loss": 0.0145,
      "step": 313
    },
    {
      "epoch": 3.806060606060606,
      "grad_norm": 0.030140092596411705,
      "learning_rate": 1.5791268050478486e-05,
      "loss": 0.0228,
      "step": 314
    },
    {
      "epoch": 3.8181818181818183,
      "grad_norm": 0.031016338616609573,
      "learning_rate": 1.5482048083245114e-05,
      "loss": 0.0186,
      "step": 315
    },
    {
      "epoch": 3.8181818181818183,
      "eval_loss": 0.02028246596455574,
      "eval_runtime": 6.1869,
      "eval_samples_per_second": 8.082,
      "eval_steps_per_second": 2.101,
      "step": 315
    },
    {
      "epoch": 3.83030303030303,
      "grad_norm": 0.02848219871520996,
      "learning_rate": 1.517533012813217e-05,
      "loss": 0.0159,
      "step": 316
    },
    {
      "epoch": 3.8424242424242423,
      "grad_norm": 0.024206412956118584,
      "learning_rate": 1.4871136417398406e-05,
      "loss": 0.0123,
      "step": 317
    },
    {
      "epoch": 3.8545454545454545,
      "grad_norm": 0.03030635416507721,
      "learning_rate": 1.4569489000334436e-05,
      "loss": 0.0137,
      "step": 318
    },
    {
      "epoch": 3.8666666666666667,
      "grad_norm": 0.03156241029500961,
      "learning_rate": 1.427040974166427e-05,
      "loss": 0.0159,
      "step": 319
    },
    {
      "epoch": 3.878787878787879,
      "grad_norm": 0.028942270204424858,
      "learning_rate": 1.3973920319960655e-05,
      "loss": 0.0135,
      "step": 320
    },
    {
      "epoch": 3.878787878787879,
      "eval_loss": 0.020162392407655716,
      "eval_runtime": 6.1914,
      "eval_samples_per_second": 8.076,
      "eval_steps_per_second": 2.1,
      "step": 320
    },
    {
      "epoch": 3.8909090909090907,
      "grad_norm": 0.03344618156552315,
      "learning_rate": 1.3680042226073552e-05,
      "loss": 0.0148,
      "step": 321
    },
    {
      "epoch": 3.9030303030303033,
      "grad_norm": 0.02961633913218975,
      "learning_rate": 1.3388796761572492e-05,
      "loss": 0.0141,
      "step": 322
    },
    {
      "epoch": 3.915151515151515,
      "grad_norm": 0.030708983540534973,
      "learning_rate": 1.310020503720254e-05,
      "loss": 0.0132,
      "step": 323
    },
    {
      "epoch": 3.9272727272727272,
      "grad_norm": 0.030072160065174103,
      "learning_rate": 1.2814287971354022e-05,
      "loss": 0.0161,
      "step": 324
    },
    {
      "epoch": 3.9393939393939394,
      "grad_norm": 0.03028644621372223,
      "learning_rate": 1.253106628854635e-05,
      "loss": 0.0159,
      "step": 325
    },
    {
      "epoch": 3.9393939393939394,
      "eval_loss": 0.020128030329942703,
      "eval_runtime": 6.1885,
      "eval_samples_per_second": 8.08,
      "eval_steps_per_second": 2.101,
      "step": 325
    },
    {
      "epoch": 3.9515151515151516,
      "grad_norm": 0.02972756326198578,
      "learning_rate": 1.2250560517925746e-05,
      "loss": 0.0142,
      "step": 326
    },
    {
      "epoch": 3.963636363636364,
      "grad_norm": 0.02873014286160469,
      "learning_rate": 1.1972790991777311e-05,
      "loss": 0.0155,
      "step": 327
    },
    {
      "epoch": 3.9757575757575756,
      "grad_norm": 0.028870223090052605,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 0.0142,
      "step": 328
    },
    {
      "epoch": 3.987878787878788,
      "grad_norm": 0.02774449624121189,
      "learning_rate": 1.1425541008902851e-05,
      "loss": 0.0147,
      "step": 329
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.04664117470383644,
      "learning_rate": 1.1156100219249022e-05,
      "loss": 0.0211,
      "step": 330
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.01995450258255005,
      "eval_runtime": 6.191,
      "eval_samples_per_second": 8.076,
      "eval_steps_per_second": 2.1,
      "step": 330
    },
    {
      "epoch": 4.012121212121212,
      "grad_norm": 0.024339957162737846,
      "learning_rate": 1.0889475005336446e-05,
      "loss": 0.0133,
      "step": 331
    },
    {
      "epoch": 4.024242424242424,
      "grad_norm": 0.023921139538288116,
      "learning_rate": 1.0625684693326727e-05,
      "loss": 0.013,
      "step": 332
    },
    {
      "epoch": 4.036363636363636,
      "grad_norm": 0.02364080585539341,
      "learning_rate": 1.036474840389537e-05,
      "loss": 0.0132,
      "step": 333
    },
    {
      "epoch": 4.048484848484849,
      "grad_norm": 0.02356121875345707,
      "learning_rate": 1.0106685050845838e-05,
      "loss": 0.0121,
      "step": 334
    },
    {
      "epoch": 4.0606060606060606,
      "grad_norm": 0.025879928842186928,
      "learning_rate": 9.851513339738628e-06,
      "loss": 0.0134,
      "step": 335
    },
    {
      "epoch": 4.0606060606060606,
      "eval_loss": 0.0202109944075346,
      "eval_runtime": 6.1925,
      "eval_samples_per_second": 8.074,
      "eval_steps_per_second": 2.099,
      "step": 335
    },
    {
      "epoch": 4.072727272727272,
      "grad_norm": 0.02288251556456089,
      "learning_rate": 9.599251766535345e-06,
      "loss": 0.0121,
      "step": 336
    },
    {
      "epoch": 4.084848484848485,
      "grad_norm": 0.02703404612839222,
      "learning_rate": 9.349918616258114e-06,
      "loss": 0.0126,
      "step": 337
    },
    {
      "epoch": 4.096969696969697,
      "grad_norm": 0.025494417175650597,
      "learning_rate": 9.103531961664118e-06,
      "loss": 0.0122,
      "step": 338
    },
    {
      "epoch": 4.109090909090909,
      "grad_norm": 0.02807869389653206,
      "learning_rate": 8.860109661935674e-06,
      "loss": 0.0155,
      "step": 339
    },
    {
      "epoch": 4.121212121212121,
      "grad_norm": 0.027642810717225075,
      "learning_rate": 8.619669361385663e-06,
      "loss": 0.0113,
      "step": 340
    },
    {
      "epoch": 4.121212121212121,
      "eval_loss": 0.020561667159199715,
      "eval_runtime": 6.1965,
      "eval_samples_per_second": 8.069,
      "eval_steps_per_second": 2.098,
      "step": 340
    },
    {
      "epoch": 4.133333333333334,
      "grad_norm": 0.030346019193530083,
      "learning_rate": 8.38222848817864e-06,
      "loss": 0.0127,
      "step": 341
    },
    {
      "epoch": 4.1454545454545455,
      "grad_norm": 0.024746423587203026,
      "learning_rate": 8.14780425306758e-06,
      "loss": 0.0121,
      "step": 342
    },
    {
      "epoch": 4.157575757575757,
      "grad_norm": 0.026435259729623795,
      "learning_rate": 7.91641364814628e-06,
      "loss": 0.0109,
      "step": 343
    },
    {
      "epoch": 4.16969696969697,
      "grad_norm": 0.02962976135313511,
      "learning_rate": 7.688073445617799e-06,
      "loss": 0.0108,
      "step": 344
    },
    {
      "epoch": 4.181818181818182,
      "grad_norm": 0.02813326194882393,
      "learning_rate": 7.462800196578662e-06,
      "loss": 0.0117,
      "step": 345
    },
    {
      "epoch": 4.181818181818182,
      "eval_loss": 0.0208114180713892,
      "eval_runtime": 6.1943,
      "eval_samples_per_second": 8.072,
      "eval_steps_per_second": 2.099,
      "step": 345
    },
    {
      "epoch": 4.193939393939394,
      "grad_norm": 0.03237050771713257,
      "learning_rate": 7.240610229819195e-06,
      "loss": 0.013,
      "step": 346
    },
    {
      "epoch": 4.206060606060606,
      "grad_norm": 0.026286713778972626,
      "learning_rate": 7.0215196506399515e-06,
      "loss": 0.0108,
      "step": 347
    },
    {
      "epoch": 4.218181818181818,
      "grad_norm": 0.026608100160956383,
      "learning_rate": 6.8055443396842945e-06,
      "loss": 0.0103,
      "step": 348
    },
    {
      "epoch": 4.2303030303030305,
      "grad_norm": 0.03118029236793518,
      "learning_rate": 6.592699951787362e-06,
      "loss": 0.0138,
      "step": 349
    },
    {
      "epoch": 4.242424242424242,
      "grad_norm": 0.030633771792054176,
      "learning_rate": 6.3830019148412525e-06,
      "loss": 0.0108,
      "step": 350
    },
    {
      "epoch": 4.242424242424242,
      "eval_loss": 0.020906535908579826,
      "eval_runtime": 6.1873,
      "eval_samples_per_second": 8.081,
      "eval_steps_per_second": 2.101,
      "step": 350
    },
    {
      "epoch": 4.254545454545455,
      "grad_norm": 0.03377068042755127,
      "learning_rate": 6.17646542867682e-06,
      "loss": 0.0144,
      "step": 351
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 0.027513034641742706,
      "learning_rate": 5.973105463961865e-06,
      "loss": 0.0107,
      "step": 352
    },
    {
      "epoch": 4.278787878787879,
      "grad_norm": 0.03077622503042221,
      "learning_rate": 5.772936761116027e-06,
      "loss": 0.0139,
      "step": 353
    },
    {
      "epoch": 4.290909090909091,
      "grad_norm": 0.026948513463139534,
      "learning_rate": 5.575973829242364e-06,
      "loss": 0.0126,
      "step": 354
    },
    {
      "epoch": 4.303030303030303,
      "grad_norm": 0.02911302261054516,
      "learning_rate": 5.382230945075556e-06,
      "loss": 0.012,
      "step": 355
    },
    {
      "epoch": 4.303030303030303,
      "eval_loss": 0.020746439695358276,
      "eval_runtime": 6.1873,
      "eval_samples_per_second": 8.081,
      "eval_steps_per_second": 2.101,
      "step": 355
    },
    {
      "epoch": 4.315151515151515,
      "grad_norm": 0.02364683710038662,
      "learning_rate": 5.191722151947226e-06,
      "loss": 0.0099,
      "step": 356
    },
    {
      "epoch": 4.327272727272727,
      "grad_norm": 0.031056983396410942,
      "learning_rate": 5.004461258767873e-06,
      "loss": 0.0143,
      "step": 357
    },
    {
      "epoch": 4.33939393939394,
      "grad_norm": 0.02985430881381035,
      "learning_rate": 4.820461839026047e-06,
      "loss": 0.0126,
      "step": 358
    },
    {
      "epoch": 4.351515151515152,
      "grad_norm": 0.02651560679078102,
      "learning_rate": 4.639737229804403e-06,
      "loss": 0.0115,
      "step": 359
    },
    {
      "epoch": 4.363636363636363,
      "grad_norm": 0.026479771360754967,
      "learning_rate": 4.462300530813024e-06,
      "loss": 0.0111,
      "step": 360
    },
    {
      "epoch": 4.363636363636363,
      "eval_loss": 0.020565090700984,
      "eval_runtime": 6.2012,
      "eval_samples_per_second": 8.063,
      "eval_steps_per_second": 2.096,
      "step": 360
    },
    {
      "epoch": 4.375757575757576,
      "grad_norm": 0.02071288600564003,
      "learning_rate": 4.2881646034398925e-06,
      "loss": 0.0114,
      "step": 361
    },
    {
      "epoch": 4.387878787878788,
      "grad_norm": 0.02533382549881935,
      "learning_rate": 4.117342069818603e-06,
      "loss": 0.0113,
      "step": 362
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.021412553265690804,
      "learning_rate": 3.949845311913492e-06,
      "loss": 0.0115,
      "step": 363
    },
    {
      "epoch": 4.412121212121212,
      "grad_norm": 0.024555562064051628,
      "learning_rate": 3.7856864706221185e-06,
      "loss": 0.0098,
      "step": 364
    },
    {
      "epoch": 4.424242424242424,
      "grad_norm": 0.027632344514131546,
      "learning_rate": 3.6248774448952695e-06,
      "loss": 0.0118,
      "step": 365
    },
    {
      "epoch": 4.424242424242424,
      "eval_loss": 0.02050224132835865,
      "eval_runtime": 6.1859,
      "eval_samples_per_second": 8.083,
      "eval_steps_per_second": 2.102,
      "step": 365
    },
    {
      "epoch": 4.4363636363636365,
      "grad_norm": 0.028998758643865585,
      "learning_rate": 3.467429890874424e-06,
      "loss": 0.0111,
      "step": 366
    },
    {
      "epoch": 4.448484848484848,
      "grad_norm": 0.027949200943112373,
      "learning_rate": 3.3133552210468875e-06,
      "loss": 0.0122,
      "step": 367
    },
    {
      "epoch": 4.460606060606061,
      "grad_norm": 0.029877539724111557,
      "learning_rate": 3.162664603418608e-06,
      "loss": 0.0136,
      "step": 368
    },
    {
      "epoch": 4.472727272727273,
      "grad_norm": 0.02742207795381546,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 0.0116,
      "step": 369
    },
    {
      "epoch": 4.484848484848484,
      "grad_norm": 0.02200300246477127,
      "learning_rate": 2.871478969537206e-06,
      "loss": 0.0099,
      "step": 370
    },
    {
      "epoch": 4.484848484848484,
      "eval_loss": 0.02058413252234459,
      "eval_runtime": 6.1924,
      "eval_samples_per_second": 8.074,
      "eval_steps_per_second": 2.099,
      "step": 370
    },
    {
      "epoch": 4.496969696969697,
      "grad_norm": 0.029120702296495438,
      "learning_rate": 2.731005059692332e-06,
      "loss": 0.0212,
      "step": 371
    },
    {
      "epoch": 4.509090909090909,
      "grad_norm": 0.030737141147255898,
      "learning_rate": 2.5939574133333312e-06,
      "loss": 0.0275,
      "step": 372
    },
    {
      "epoch": 4.5212121212121215,
      "grad_norm": 0.02619299292564392,
      "learning_rate": 2.4603459642729863e-06,
      "loss": 0.0104,
      "step": 373
    },
    {
      "epoch": 4.533333333333333,
      "grad_norm": 0.02171757072210312,
      "learning_rate": 2.330180397253473e-06,
      "loss": 0.0099,
      "step": 374
    },
    {
      "epoch": 4.545454545454545,
      "grad_norm": 0.022865932434797287,
      "learning_rate": 2.203470147244385e-06,
      "loss": 0.0118,
      "step": 375
    },
    {
      "epoch": 4.545454545454545,
      "eval_loss": 0.020584262907505035,
      "eval_runtime": 6.193,
      "eval_samples_per_second": 8.074,
      "eval_steps_per_second": 2.099,
      "step": 375
    },
    {
      "epoch": 4.557575757575758,
      "grad_norm": 0.02180948108434677,
      "learning_rate": 2.0802243987588066e-06,
      "loss": 0.0104,
      "step": 376
    },
    {
      "epoch": 4.569696969696969,
      "grad_norm": 0.027300819754600525,
      "learning_rate": 1.9604520851876198e-06,
      "loss": 0.0121,
      "step": 377
    },
    {
      "epoch": 4.581818181818182,
      "grad_norm": 0.027127033099532127,
      "learning_rate": 1.8441618881519184e-06,
      "loss": 0.0113,
      "step": 378
    },
    {
      "epoch": 4.593939393939394,
      "grad_norm": 0.026878971606492996,
      "learning_rate": 1.7313622368738014e-06,
      "loss": 0.0105,
      "step": 379
    },
    {
      "epoch": 4.606060606060606,
      "grad_norm": 0.02648119069635868,
      "learning_rate": 1.6220613075653202e-06,
      "loss": 0.0119,
      "step": 380
    },
    {
      "epoch": 4.606060606060606,
      "eval_loss": 0.02056843228638172,
      "eval_runtime": 6.1957,
      "eval_samples_per_second": 8.07,
      "eval_steps_per_second": 2.098,
      "step": 380
    },
    {
      "epoch": 4.618181818181818,
      "grad_norm": 0.026216818019747734,
      "learning_rate": 1.51626702283586e-06,
      "loss": 0.0098,
      "step": 381
    },
    {
      "epoch": 4.63030303030303,
      "grad_norm": 0.02351340465247631,
      "learning_rate": 1.4139870511178766e-06,
      "loss": 0.0116,
      "step": 382
    },
    {
      "epoch": 4.642424242424243,
      "grad_norm": 0.030724933370947838,
      "learning_rate": 1.3152288061110518e-06,
      "loss": 0.0101,
      "step": 383
    },
    {
      "epoch": 4.654545454545454,
      "grad_norm": 0.02688099816441536,
      "learning_rate": 1.2199994462448904e-06,
      "loss": 0.0113,
      "step": 384
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.02722257934510708,
      "learning_rate": 1.128305874159896e-06,
      "loss": 0.0114,
      "step": 385
    },
    {
      "epoch": 4.666666666666667,
      "eval_loss": 0.02059413306415081,
      "eval_runtime": 6.2059,
      "eval_samples_per_second": 8.057,
      "eval_steps_per_second": 2.095,
      "step": 385
    },
    {
      "epoch": 4.678787878787879,
      "grad_norm": 0.02383565530180931,
      "learning_rate": 1.040154736207194e-06,
      "loss": 0.0106,
      "step": 386
    },
    {
      "epoch": 4.690909090909091,
      "grad_norm": 0.028037432581186295,
      "learning_rate": 9.555524219667989e-07,
      "loss": 0.0122,
      "step": 387
    },
    {
      "epoch": 4.703030303030303,
      "grad_norm": 0.021838784217834473,
      "learning_rate": 8.745050637844532e-07,
      "loss": 0.0097,
      "step": 388
    },
    {
      "epoch": 4.715151515151515,
      "grad_norm": 0.030912073329091072,
      "learning_rate": 7.970185363271431e-07,
      "loss": 0.0121,
      "step": 389
    },
    {
      "epoch": 4.7272727272727275,
      "grad_norm": 0.02470664493739605,
      "learning_rate": 7.230984561572729e-07,
      "loss": 0.0109,
      "step": 390
    },
    {
      "epoch": 4.7272727272727275,
      "eval_loss": 0.020591916516423225,
      "eval_runtime": 6.1901,
      "eval_samples_per_second": 8.077,
      "eval_steps_per_second": 2.1,
      "step": 390
    },
    {
      "epoch": 4.739393939393939,
      "grad_norm": 0.030810924246907234,
      "learning_rate": 6.527501813255344e-07,
      "loss": 0.0165,
      "step": 391
    },
    {
      "epoch": 4.751515151515152,
      "grad_norm": 0.025043383240699768,
      "learning_rate": 5.859788109825793e-07,
      "loss": 0.0096,
      "step": 392
    },
    {
      "epoch": 4.763636363636364,
      "grad_norm": 0.028706299141049385,
      "learning_rate": 5.227891850093314e-07,
      "loss": 0.0129,
      "step": 393
    },
    {
      "epoch": 4.775757575757575,
      "grad_norm": 0.0277020912617445,
      "learning_rate": 4.6318588366625616e-07,
      "loss": 0.0122,
      "step": 394
    },
    {
      "epoch": 4.787878787878788,
      "grad_norm": 0.02909735217690468,
      "learning_rate": 4.071732272613149e-07,
      "loss": 0.0124,
      "step": 395
    },
    {
      "epoch": 4.787878787878788,
      "eval_loss": 0.020531287416815758,
      "eval_runtime": 6.1957,
      "eval_samples_per_second": 8.07,
      "eval_steps_per_second": 2.098,
      "step": 395
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.024658478796482086,
      "learning_rate": 3.5475527583681e-07,
      "loss": 0.0112,
      "step": 396
    },
    {
      "epoch": 4.8121212121212125,
      "grad_norm": 0.023081207647919655,
      "learning_rate": 3.059358288751202e-07,
      "loss": 0.0102,
      "step": 397
    },
    {
      "epoch": 4.824242424242424,
      "grad_norm": 0.03320831060409546,
      "learning_rate": 2.6071842502326527e-07,
      "loss": 0.0119,
      "step": 398
    },
    {
      "epoch": 4.836363636363636,
      "grad_norm": 0.025276964530348778,
      "learning_rate": 2.1910634183644474e-07,
      "loss": 0.0117,
      "step": 399
    },
    {
      "epoch": 4.848484848484849,
      "grad_norm": 0.02636777050793171,
      "learning_rate": 1.811025955404333e-07,
      "loss": 0.0111,
      "step": 400
    },
    {
      "epoch": 4.848484848484849,
      "eval_loss": 0.020571600645780563,
      "eval_runtime": 6.1951,
      "eval_samples_per_second": 8.071,
      "eval_steps_per_second": 2.098,
      "step": 400
    },
    {
      "epoch": 4.86060606060606,
      "grad_norm": 0.0283295139670372,
      "learning_rate": 1.4670994081297795e-07,
      "loss": 0.0141,
      "step": 401
    },
    {
      "epoch": 4.872727272727273,
      "grad_norm": 0.025880116969347,
      "learning_rate": 1.1593087058410779e-07,
      "loss": 0.0113,
      "step": 402
    },
    {
      "epoch": 4.884848484848485,
      "grad_norm": 0.02684679627418518,
      "learning_rate": 8.876761585545068e-08,
      "loss": 0.0104,
      "step": 403
    },
    {
      "epoch": 4.8969696969696965,
      "grad_norm": 0.027327047660946846,
      "learning_rate": 6.522214553850159e-08,
      "loss": 0.0122,
      "step": 404
    },
    {
      "epoch": 4.909090909090909,
      "grad_norm": 0.033394601196050644,
      "learning_rate": 4.529616631193112e-08,
      "loss": 0.012,
      "step": 405
    },
    {
      "epoch": 4.909090909090909,
      "eval_loss": 0.020557112991809845,
      "eval_runtime": 6.1866,
      "eval_samples_per_second": 8.082,
      "eval_steps_per_second": 2.101,
      "step": 405
    },
    {
      "epoch": 4.921212121212121,
      "grad_norm": 0.02917388454079628,
      "learning_rate": 2.899112249786229e-08,
      "loss": 0.0115,
      "step": 406
    },
    {
      "epoch": 4.933333333333334,
      "grad_norm": 0.032552849501371384,
      "learning_rate": 1.6308195957182027e-08,
      "loss": 0.0125,
      "step": 407
    },
    {
      "epoch": 4.945454545454545,
      "grad_norm": 0.026771927252411842,
      "learning_rate": 7.248306003865279e-09,
      "loss": 0.0123,
      "step": 408
    },
    {
      "epoch": 4.957575757575757,
      "grad_norm": 0.024449503049254417,
      "learning_rate": 1.8121093383671738e-09,
      "loss": 0.0117,
      "step": 409
    },
    {
      "epoch": 4.96969696969697,
      "grad_norm": 0.02603001333773136,
      "learning_rate": 0.0,
      "loss": 0.0104,
      "step": 410
    },
    {
      "epoch": 4.96969696969697,
      "eval_loss": 0.020535213872790337,
      "eval_runtime": 6.2062,
      "eval_samples_per_second": 8.056,
      "eval_steps_per_second": 2.095,
      "step": 410
    }
  ],
  "logging_steps": 1,
  "max_steps": 410,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.27193584892674e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}