{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 2181,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 60.56461247872793,
      "learning_rate": 1.5151515151515153e-05,
      "loss": 7.7575,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 66.48035229572362,
      "learning_rate": 3.0303030303030306e-05,
      "loss": 7.8088,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 48.22781012036881,
      "learning_rate": 4.545454545454546e-05,
      "loss": 7.3432,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 19.561190058569853,
      "learning_rate": 6.060606060606061e-05,
      "loss": 5.9376,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 14.966014178017641,
      "learning_rate": 7.575757575757576e-05,
      "loss": 5.6025,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 9.649464723214496,
      "learning_rate": 9.090909090909092e-05,
      "loss": 5.2409,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 6.776866185844759,
      "learning_rate": 0.00010606060606060606,
      "loss": 4.9378,
      "step": 7
    },
    {
      "epoch": 0.0,
      "grad_norm": 6.439874171895878,
      "learning_rate": 0.00012121212121212122,
      "loss": 4.8667,
      "step": 8
    },
    {
      "epoch": 0.0,
      "grad_norm": 5.2733454717447374,
      "learning_rate": 0.00013636363636363637,
      "loss": 4.5626,
      "step": 9
    },
    {
      "epoch": 0.0,
      "grad_norm": 4.55165599389113,
      "learning_rate": 0.00015151515151515152,
      "loss": 4.3875,
      "step": 10
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.543272714294282,
      "learning_rate": 0.00016666666666666666,
      "loss": 4.3112,
      "step": 11
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.62216052239949,
      "learning_rate": 0.00018181818181818183,
      "loss": 4.312,
      "step": 12
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.901402360855456,
      "learning_rate": 0.00019696969696969695,
      "loss": 4.1588,
      "step": 13
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.7976890942867465,
      "learning_rate": 0.00021212121212121213,
      "loss": 4.2176,
      "step": 14
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.1842423637516877,
      "learning_rate": 0.00022727272727272727,
      "loss": 4.0578,
      "step": 15
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.0422389347951317,
      "learning_rate": 0.00024242424242424245,
      "loss": 3.9715,
      "step": 16
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.787304716951247,
      "learning_rate": 0.00025757575757575756,
      "loss": 3.9649,
      "step": 17
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.6919100690516278,
      "learning_rate": 0.00027272727272727274,
      "loss": 3.965,
      "step": 18
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.4262820109102503,
      "learning_rate": 0.0002878787878787879,
      "loss": 3.8887,
      "step": 19
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.3394697893607372,
      "learning_rate": 0.00030303030303030303,
      "loss": 3.7243,
      "step": 20
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.0790701740757325,
      "learning_rate": 0.0003181818181818182,
      "loss": 3.7687,
      "step": 21
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.2484158681605564,
      "learning_rate": 0.0003333333333333333,
      "loss": 3.8187,
      "step": 22
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.26970778558329,
      "learning_rate": 0.0003484848484848485,
      "loss": 3.6593,
      "step": 23
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.9294384026100888,
      "learning_rate": 0.00036363636363636367,
      "loss": 3.618,
      "step": 24
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.003830700705213,
      "learning_rate": 0.0003787878787878788,
      "loss": 3.6881,
      "step": 25
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.7669185913785083,
      "learning_rate": 0.0003939393939393939,
      "loss": 3.5633,
      "step": 26
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6781238885819044,
      "learning_rate": 0.00040909090909090913,
      "loss": 3.5007,
      "step": 27
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5889359539994006,
      "learning_rate": 0.00042424242424242425,
      "loss": 3.5336,
      "step": 28
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6525551902471529,
      "learning_rate": 0.0004393939393939394,
      "loss": 3.5494,
      "step": 29
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5847014717849243,
      "learning_rate": 0.00045454545454545455,
      "loss": 3.5024,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.7352651115274998,
      "learning_rate": 0.0004696969696969697,
      "loss": 3.462,
      "step": 31
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.565658249103377,
      "learning_rate": 0.0004848484848484849,
      "loss": 3.5041,
      "step": 32
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.663414651746367,
      "learning_rate": 0.0005,
      "loss": 3.5092,
      "step": 33
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5393503377207772,
      "learning_rate": 0.0005151515151515151,
      "loss": 3.3851,
      "step": 34
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5784230928670647,
      "learning_rate": 0.0005303030303030302,
      "loss": 3.4651,
      "step": 35
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.4338928075464494,
      "learning_rate": 0.0005454545454545455,
      "loss": 3.3942,
      "step": 36
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.31813361458072925,
      "learning_rate": 0.0005606060606060606,
      "loss": 3.3805,
      "step": 37
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.3553334389784612,
      "learning_rate": 0.0005757575757575758,
      "loss": 3.4426,
      "step": 38
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.4094026169765938,
      "learning_rate": 0.0005909090909090909,
      "loss": 3.3311,
      "step": 39
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.37159931490267384,
      "learning_rate": 0.0006060606060606061,
      "loss": 3.3353,
      "step": 40
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.36615123858226306,
      "learning_rate": 0.0006212121212121212,
      "loss": 3.3329,
      "step": 41
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.3407419799635061,
      "learning_rate": 0.0006363636363636364,
      "loss": 3.3638,
      "step": 42
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.31990201273301944,
      "learning_rate": 0.0006515151515151515,
      "loss": 3.3157,
      "step": 43
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.2994755609904707,
      "learning_rate": 0.0006666666666666666,
      "loss": 3.3453,
      "step": 44
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.31156667204083976,
      "learning_rate": 0.0006818181818181818,
      "loss": 3.3156,
      "step": 45
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.2645460830201235,
      "learning_rate": 0.000696969696969697,
      "loss": 3.2347,
      "step": 46
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.31371176355330904,
      "learning_rate": 0.0007121212121212122,
      "loss": 3.2816,
      "step": 47
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.2808062817359167,
      "learning_rate": 0.0007272727272727273,
      "loss": 3.3245,
      "step": 48
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.29523868426473293,
      "learning_rate": 0.0007424242424242425,
      "loss": 3.2648,
      "step": 49
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.2670178963202624,
      "learning_rate": 0.0007575757575757576,
      "loss": 3.2336,
      "step": 50
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.3021456536824869,
      "learning_rate": 0.0007727272727272727,
      "loss": 3.1926,
      "step": 51
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.3333226211956693,
      "learning_rate": 0.0007878787878787878,
      "loss": 3.3605,
      "step": 52
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.29762859392391317,
      "learning_rate": 0.000803030303030303,
      "loss": 3.2686,
      "step": 53
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.3057441269505525,
      "learning_rate": 0.0008181818181818183,
      "loss": 3.3268,
      "step": 54
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.30123640726318557,
      "learning_rate": 0.0008333333333333334,
      "loss": 3.2773,
      "step": 55
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.37817523716232493,
      "learning_rate": 0.0008484848484848485,
      "loss": 3.2372,
      "step": 56
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.3432848370277133,
      "learning_rate": 0.0008636363636363636,
      "loss": 3.2892,
      "step": 57
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.42349541924149825,
      "learning_rate": 0.0008787878787878789,
      "loss": 3.2892,
      "step": 58
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.38402162199146117,
      "learning_rate": 0.000893939393939394,
      "loss": 3.131,
      "step": 59
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.4924109334710161,
      "learning_rate": 0.0009090909090909091,
      "loss": 3.1707,
      "step": 60
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.4119195935449781,
      "learning_rate": 0.0009242424242424242,
      "loss": 3.2876,
      "step": 61
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.46921532663592447,
      "learning_rate": 0.0009393939393939394,
      "loss": 3.1868,
      "step": 62
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5044442681526016,
      "learning_rate": 0.0009545454545454546,
      "loss": 3.2578,
      "step": 63
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.48780296540255325,
      "learning_rate": 0.0009696969696969698,
      "loss": 3.16,
      "step": 64
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6303666836372309,
      "learning_rate": 0.000984848484848485,
      "loss": 3.1095,
      "step": 65
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7915761454007914,
      "learning_rate": 0.001,
      "loss": 3.1343,
      "step": 66
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0567136517178508,
      "learning_rate": 0.0009999994484067654,
      "loss": 3.1496,
      "step": 67
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.078959702535669,
      "learning_rate": 0.0009999977936282788,
      "loss": 3.162,
      "step": 68
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7620007318550155,
      "learning_rate": 0.0009999950356681913,
      "loss": 3.181,
      "step": 69
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0335475954936808,
      "learning_rate": 0.0009999911745325876,
      "loss": 3.1235,
      "step": 70
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7257868123239152,
      "learning_rate": 0.0009999862102299873,
      "loss": 3.0853,
      "step": 71
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.1760192654739026,
      "learning_rate": 0.0009999801427713433,
      "loss": 3.094,
      "step": 72
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8157049531087713,
      "learning_rate": 0.0009999729721700424,
      "loss": 3.0239,
      "step": 73
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8538714568439183,
      "learning_rate": 0.000999964698441906,
      "loss": 3.0752,
      "step": 74
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6213551093602897,
      "learning_rate": 0.0009999553216051892,
      "loss": 2.9666,
      "step": 75
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8516852917530777,
      "learning_rate": 0.00099994484168058,
      "loss": 3.1065,
      "step": 76
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7051981880868611,
      "learning_rate": 0.0009999332586912019,
      "loss": 3.1272,
      "step": 77
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5102328495764121,
      "learning_rate": 0.0009999205726626108,
      "loss": 3.0064,
      "step": 78
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.714366876735323,
      "learning_rate": 0.000999906783622797,
      "loss": 3.0281,
      "step": 79
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6529543008909209,
      "learning_rate": 0.0009998918916021842,
      "loss": 2.9996,
      "step": 80
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6477618882736893,
      "learning_rate": 0.0009998758966336297,
      "loss": 3.0298,
      "step": 81
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6703456002262517,
      "learning_rate": 0.0009998587987524242,
      "loss": 3.0171,
      "step": 82
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6051041570552936,
      "learning_rate": 0.0009998405979962926,
      "loss": 2.9113,
      "step": 83
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.49746092882725496,
      "learning_rate": 0.000999821294405392,
      "loss": 3.053,
      "step": 84
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5164844196691307,
      "learning_rate": 0.0009998008880223134,
      "loss": 2.9473,
      "step": 85
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.513659649783235,
      "learning_rate": 0.000999779378892081,
      "loss": 2.9987,
      "step": 86
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.564279439526704,
      "learning_rate": 0.0009997567670621522,
      "loss": 2.973,
      "step": 87
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5597854706365144,
      "learning_rate": 0.0009997330525824165,
      "loss": 2.9375,
      "step": 88
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5093670733524748,
      "learning_rate": 0.0009997082355051976,
      "loss": 2.9505,
      "step": 89
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.638651366115979,
      "learning_rate": 0.000999682315885251,
      "loss": 2.8693,
      "step": 90
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5954630699306904,
      "learning_rate": 0.0009996552937797645,
      "loss": 2.9602,
      "step": 91
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6151602280305007,
      "learning_rate": 0.0009996271692483596,
      "loss": 2.922,
      "step": 92
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5389649259242683,
      "learning_rate": 0.0009995979423530893,
      "loss": 2.9025,
      "step": 93
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.542283228430781,
      "learning_rate": 0.000999567613158439,
      "loss": 2.7988,
      "step": 94
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4962000663715204,
      "learning_rate": 0.0009995361817313263,
      "loss": 2.8463,
      "step": 95
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6281573652592796,
      "learning_rate": 0.0009995036481411004,
      "loss": 2.8635,
      "step": 96
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6206764901624167,
      "learning_rate": 0.0009994700124595429,
      "loss": 2.8715,
      "step": 97
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5535205662240288,
      "learning_rate": 0.0009994352747608663,
      "loss": 2.849,
      "step": 98
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5341429804563371,
      "learning_rate": 0.0009993994351217151,
      "loss": 2.8528,
      "step": 99
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5409529075953639,
      "learning_rate": 0.000999362493621165,
      "loss": 2.7588,
      "step": 100
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.6831048487591606,
      "learning_rate": 0.0009993244503407226,
      "loss": 2.8344,
      "step": 101
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5948611237012779,
      "learning_rate": 0.0009992853053643258,
      "loss": 2.7837,
      "step": 102
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7523438936948391,
      "learning_rate": 0.0009992450587783426,
      "loss": 2.7958,
      "step": 103
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5788996294747613,
      "learning_rate": 0.000999203710671572,
      "loss": 2.7461,
      "step": 104
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.6353308957585324,
      "learning_rate": 0.0009991612611352438,
      "loss": 2.7612,
      "step": 105
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5194091480851303,
      "learning_rate": 0.0009991177102630173,
      "loss": 2.8683,
      "step": 106
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5494948315656806,
      "learning_rate": 0.0009990730581509817,
      "loss": 2.6986,
      "step": 107
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5273713567139205,
      "learning_rate": 0.0009990273048976566,
      "loss": 2.8285,
      "step": 108
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5426437493155689,
      "learning_rate": 0.0009989804506039905,
      "loss": 2.7171,
      "step": 109
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5897969549450216,
      "learning_rate": 0.0009989324953733614,
      "loss": 2.8741,
      "step": 110
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5481874982730011,
      "learning_rate": 0.0009988834393115766,
      "loss": 2.7469,
      "step": 111
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5663801848029315,
      "learning_rate": 0.000998833282526872,
      "loss": 2.7568,
      "step": 112
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.6160167149589755,
      "learning_rate": 0.0009987820251299122,
      "loss": 2.807,
      "step": 113
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5557962298759019,
      "learning_rate": 0.00099872966723379,
      "loss": 2.7349,
      "step": 114
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5718706234674257,
      "learning_rate": 0.0009986762089540266,
      "loss": 2.7549,
      "step": 115
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.6285522107479203,
      "learning_rate": 0.0009986216504085709,
      "loss": 2.7495,
      "step": 116
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.6023180664913155,
      "learning_rate": 0.0009985659917177991,
      "loss": 2.7409,
      "step": 117
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5340088153884973,
      "learning_rate": 0.0009985092330045155,
      "loss": 2.7492,
      "step": 118
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49913183910978054,
      "learning_rate": 0.0009984513743939508,
      "loss": 2.5967,
      "step": 119
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5166024327946852,
      "learning_rate": 0.0009983924160137626,
      "loss": 2.7194,
      "step": 120
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5110834111951853,
      "learning_rate": 0.000998332357994035,
      "loss": 2.7416,
      "step": 121
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6005095014546531,
      "learning_rate": 0.0009982712004672786,
      "loss": 2.7635,
      "step": 122
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5772672348792804,
      "learning_rate": 0.0009982089435684295,
      "loss": 2.7126,
      "step": 123
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6488152565740751,
      "learning_rate": 0.0009981455874348499,
      "loss": 2.6198,
      "step": 124
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5907281899354622,
      "learning_rate": 0.0009980811322063269,
      "loss": 2.6784,
      "step": 125
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6920739954378194,
      "learning_rate": 0.0009980155780250728,
      "loss": 2.7239,
      "step": 126
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.606988547415976,
      "learning_rate": 0.0009979489250357243,
      "loss": 2.6879,
      "step": 127
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6282465762346667,
      "learning_rate": 0.0009978811733853431,
      "loss": 2.693,
      "step": 128
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6344829793859115,
      "learning_rate": 0.0009978123232234147,
      "loss": 2.5821,
      "step": 129
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6434597729022261,
      "learning_rate": 0.000997742374701848,
      "loss": 2.8347,
      "step": 130
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7698156961474727,
      "learning_rate": 0.0009976713279749754,
      "loss": 2.6274,
      "step": 131
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.565132805194557,
      "learning_rate": 0.0009975991831995528,
      "loss": 2.6917,
      "step": 132
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7216287591396313,
      "learning_rate": 0.0009975259405347581,
      "loss": 2.6619,
      "step": 133
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5929860820863296,
      "learning_rate": 0.0009974516001421926,
      "loss": 2.634,
      "step": 134
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5818139529068437,
      "learning_rate": 0.000997376162185878,
      "loss": 2.6077,
      "step": 135
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5380837724732116,
      "learning_rate": 0.0009972996268322594,
      "loss": 2.6455,
      "step": 136
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7329308254674495,
      "learning_rate": 0.0009972219942502017,
      "loss": 2.6246,
      "step": 137
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.596258255091344,
      "learning_rate": 0.0009971432646109918,
      "loss": 2.6312,
      "step": 138
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6717015894424582,
      "learning_rate": 0.0009970634380883365,
      "loss": 2.5678,
      "step": 139
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.838207859087848,
      "learning_rate": 0.0009969825148583627,
      "loss": 2.6045,
      "step": 140
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6085917070569357,
      "learning_rate": 0.0009969004950996173,
      "loss": 2.7494,
      "step": 141
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7188670765008102,
      "learning_rate": 0.0009968173789930668,
      "loss": 2.642,
      "step": 142
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5828518056726789,
      "learning_rate": 0.0009967331667220958,
      "loss": 2.5982,
      "step": 143
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5611572799823661,
      "learning_rate": 0.0009966478584725086,
      "loss": 2.6583,
      "step": 144
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7244102599354529,
      "learning_rate": 0.0009965614544325263,
      "loss": 2.6092,
      "step": 145
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5816407835067023,
      "learning_rate": 0.000996473954792789,
      "loss": 2.5033,
      "step": 146
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6075056520795029,
      "learning_rate": 0.0009963853597463532,
      "loss": 2.5559,
      "step": 147
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5967861748165096,
      "learning_rate": 0.000996295669488693,
      "loss": 2.5317,
      "step": 148
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6053970208864271,
      "learning_rate": 0.0009962048842176979,
      "loss": 2.7128,
      "step": 149
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6595970356737687,
      "learning_rate": 0.0009961130041336748,
      "loss": 2.5483,
      "step": 150
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5524539925087414,
      "learning_rate": 0.0009960200294393449,
      "loss": 2.5297,
      "step": 151
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5858143931445462,
      "learning_rate": 0.0009959259603398453,
      "loss": 2.5819,
      "step": 152
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6266322305331016,
      "learning_rate": 0.0009958307970427275,
      "loss": 2.622,
      "step": 153
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5549552866709859,
      "learning_rate": 0.0009957345397579572,
      "loss": 2.6186,
      "step": 154
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5260144545368085,
      "learning_rate": 0.0009956371886979138,
      "loss": 2.5393,
      "step": 155
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5808047723863917,
      "learning_rate": 0.00099553874407739,
      "loss": 2.4863,
      "step": 156
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5090577427234251,
      "learning_rate": 0.0009954392061135916,
      "loss": 2.6348,
      "step": 157
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5930639541728552,
      "learning_rate": 0.0009953385750261364,
      "loss": 2.6388,
      "step": 158
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5617138839228719,
      "learning_rate": 0.0009952368510370538,
      "loss": 2.526,
      "step": 159
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5906340619770504,
      "learning_rate": 0.0009951340343707852,
      "loss": 2.5092,
      "step": 160
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5898978046925836,
      "learning_rate": 0.0009950301252541823,
      "loss": 2.5272,
      "step": 161
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5674789316722422,
      "learning_rate": 0.0009949251239165075,
      "loss": 2.524,
      "step": 162
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6498162589104918,
      "learning_rate": 0.000994819030589433,
      "loss": 2.6206,
      "step": 163
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4937233017824896,
      "learning_rate": 0.00099471184550704,
      "loss": 2.4792,
      "step": 164
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5561707494016072,
      "learning_rate": 0.0009946035689058189,
      "loss": 2.552,
      "step": 165
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5689062311442398,
      "learning_rate": 0.0009944942010246681,
      "loss": 2.4933,
      "step": 166
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5813329361013648,
      "learning_rate": 0.0009943837421048942,
      "loss": 2.446,
      "step": 167
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5542051247773583,
      "learning_rate": 0.0009942721923902106,
      "loss": 2.489,
      "step": 168
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5770823193532523,
      "learning_rate": 0.0009941595521267377,
      "loss": 2.4626,
      "step": 169
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6832672777728884,
      "learning_rate": 0.0009940458215630017,
      "loss": 2.4958,
      "step": 170
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6326455982302679,
      "learning_rate": 0.0009939310009499348,
      "loss": 2.4872,
      "step": 171
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5458100086066242,
      "learning_rate": 0.000993815090540874,
      "loss": 2.4931,
      "step": 172
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.566851931272484,
      "learning_rate": 0.000993698090591561,
      "loss": 2.5068,
      "step": 173
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5812267176029476,
      "learning_rate": 0.0009935800013601416,
      "loss": 2.4869,
      "step": 174
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6196723689587266,
      "learning_rate": 0.000993460823107164,
      "loss": 2.3908,
      "step": 175
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.640381632530627,
      "learning_rate": 0.0009933405560955803,
      "loss": 2.5253,
      "step": 176
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6428399908466738,
      "learning_rate": 0.0009932192005907446,
      "loss": 2.4643,
      "step": 177
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6539192155979132,
      "learning_rate": 0.0009930967568604118,
      "loss": 2.4985,
      "step": 178
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6597003841447847,
      "learning_rate": 0.000992973225174739,
      "loss": 2.4428,
      "step": 179
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5903768972988446,
      "learning_rate": 0.0009928486058062827,
      "loss": 2.4281,
      "step": 180
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6707510999827011,
      "learning_rate": 0.0009927228990299999,
      "loss": 2.4625,
      "step": 181
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5740686414240344,
      "learning_rate": 0.0009925961051232468,
      "loss": 2.4163,
      "step": 182
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6197282067707477,
      "learning_rate": 0.000992468224365778,
      "loss": 2.4857,
      "step": 183
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6060815366444453,
      "learning_rate": 0.000992339257039746,
      "loss": 2.398,
      "step": 184
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6327273047864738,
      "learning_rate": 0.0009922092034297006,
      "loss": 2.451,
      "step": 185
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5862832665477808,
      "learning_rate": 0.0009920780638225891,
      "loss": 2.327,
      "step": 186
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6543540259744929,
      "learning_rate": 0.0009919458385077538,
      "loss": 2.3671,
      "step": 187
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6877862335461891,
      "learning_rate": 0.0009918125277769336,
      "loss": 2.3839,
      "step": 188
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6004834994902579,
      "learning_rate": 0.0009916781319242614,
      "loss": 2.4297,
      "step": 189
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7409388217955464,
      "learning_rate": 0.0009915426512462646,
      "loss": 2.3836,
      "step": 190
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6181600342298393,
      "learning_rate": 0.0009914060860418644,
      "loss": 2.2431,
      "step": 191
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6759444870622944,
      "learning_rate": 0.000991268436612374,
      "loss": 2.3378,
      "step": 192
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7312401501642246,
      "learning_rate": 0.0009911297032614997,
      "loss": 2.4042,
      "step": 193
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5609407455465336,
      "learning_rate": 0.000990989886295339,
      "loss": 2.401,
      "step": 194
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8828329568155355,
      "learning_rate": 0.0009908489860223804,
      "loss": 2.4705,
      "step": 195
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6544081507011146,
      "learning_rate": 0.000990707002753502,
      "loss": 2.391,
      "step": 196
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7529209890370283,
      "learning_rate": 0.0009905639368019724,
      "loss": 2.3775,
      "step": 197
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7253847194556035,
      "learning_rate": 0.0009904197884834482,
      "loss": 2.2945,
      "step": 198
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6103463986178345,
      "learning_rate": 0.0009902745581159742,
      "loss": 2.3283,
      "step": 199
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7341652880499965,
      "learning_rate": 0.0009901282460199829,
      "loss": 2.4057,
      "step": 200
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6678703084637906,
      "learning_rate": 0.0009899808525182935,
      "loss": 2.4129,
      "step": 201
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6153056146043997,
      "learning_rate": 0.0009898323779361107,
      "loss": 2.3316,
      "step": 202
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6553325426553434,
      "learning_rate": 0.000989682822601025,
      "loss": 2.3722,
      "step": 203
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6817541973981184,
      "learning_rate": 0.0009895321868430113,
      "loss": 2.3371,
      "step": 204
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6302589999962175,
      "learning_rate": 0.0009893804709944281,
      "loss": 2.4093,
      "step": 205
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5710321128741086,
      "learning_rate": 0.0009892276753900174,
      "loss": 2.3518,
      "step": 206
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6092809967977655,
      "learning_rate": 0.0009890738003669028,
      "loss": 2.3708,
      "step": 207
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5753788749269739,
      "learning_rate": 0.0009889188462645904,
      "loss": 2.3122,
      "step": 208
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5623650001826453,
      "learning_rate": 0.0009887628134249667,
      "loss": 2.2127,
      "step": 209
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6176526823926611,
      "learning_rate": 0.0009886057021922983,
      "loss": 2.3215,
      "step": 210
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5920592143024448,
      "learning_rate": 0.0009884475129132311,
      "loss": 2.3204,
      "step": 211
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5700900140076155,
      "learning_rate": 0.0009882882459367897,
      "loss": 2.2964,
      "step": 212
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.549412359334365,
      "learning_rate": 0.0009881279016143766,
      "loss": 2.3404,
      "step": 213
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6419373611330418,
      "learning_rate": 0.0009879664802997707,
      "loss": 2.2195,
      "step": 214
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5700871287856261,
      "learning_rate": 0.000987803982349128,
      "loss": 2.3183,
      "step": 215
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5627949722733613,
      "learning_rate": 0.0009876404081209796,
      "loss": 2.3096,
      "step": 216
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6576411334982567,
      "learning_rate": 0.000987475757976231,
      "loss": 2.2162,
      "step": 217
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5922628890495965,
      "learning_rate": 0.000987310032278162,
      "loss": 2.2817,
      "step": 218
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5639083702950809,
      "learning_rate": 0.0009871432313924254,
      "loss": 2.3961,
      "step": 219
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6117962013213093,
      "learning_rate": 0.000986975355687046,
      "loss": 2.3299,
      "step": 220
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5909955899674432,
      "learning_rate": 0.0009868064055324204,
      "loss": 2.3433,
      "step": 221
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5537243797085124,
      "learning_rate": 0.0009866363813013153,
      "loss": 2.3196,
      "step": 222
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5847827723837605,
      "learning_rate": 0.0009864652833688676,
      "loss": 2.316,
      "step": 223
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5567075804128029,
      "learning_rate": 0.0009862931121125836,
      "loss": 2.2481,
      "step": 224
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5238403603305728,
      "learning_rate": 0.000986119867912337,
      "loss": 2.2563,
      "step": 225
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5424112188619247,
      "learning_rate": 0.000985945551150369,
      "loss": 2.2558,
      "step": 226
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5498450022648906,
      "learning_rate": 0.0009857701622112876,
      "loss": 2.2701,
      "step": 227
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5339001233708699,
      "learning_rate": 0.000985593701482066,
      "loss": 2.2617,
      "step": 228
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5658483500483343,
      "learning_rate": 0.0009854161693520424,
      "loss": 2.303,
      "step": 229
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5591034212559932,
      "learning_rate": 0.0009852375662129194,
      "loss": 2.3121,
      "step": 230
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5202298034749817,
      "learning_rate": 0.0009850578924587613,
      "loss": 2.2434,
      "step": 231
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5749872058664321,
      "learning_rate": 0.000984877148485996,
      "loss": 2.2945,
      "step": 232
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5450504690251903,
      "learning_rate": 0.000984695334693412,
      "loss": 2.2733,
      "step": 233
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5472253195739805,
      "learning_rate": 0.000984512451482158,
      "loss": 2.2749,
      "step": 234
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5382879773802308,
      "learning_rate": 0.0009843284992557431,
      "loss": 2.1646,
      "step": 235
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.651613298090147,
      "learning_rate": 0.000984143478420034,
      "loss": 2.2508,
      "step": 236
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.531858551573055,
      "learning_rate": 0.0009839573893832563,
      "loss": 2.1406,
      "step": 237
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6055092287568447,
      "learning_rate": 0.000983770232555991,
      "loss": 2.2399,
      "step": 238
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5568865631163142,
      "learning_rate": 0.0009835820083511765,
      "loss": 2.2246,
      "step": 239
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5318559656713121,
      "learning_rate": 0.0009833927171841055,
      "loss": 2.2951,
      "step": 240
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6569142650022216,
      "learning_rate": 0.0009832023594724246,
      "loss": 2.2771,
      "step": 241
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5991132769894717,
      "learning_rate": 0.0009830109356361344,
      "loss": 2.2164,
      "step": 242
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5279221700372323,
      "learning_rate": 0.0009828184460975867,
      "loss": 2.3287,
      "step": 243
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5680004475419876,
      "learning_rate": 0.0009826248912814855,
      "loss": 2.2241,
      "step": 244
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5495855880931315,
      "learning_rate": 0.0009824302716148847,
      "loss": 2.2371,
      "step": 245
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5382313440999548,
      "learning_rate": 0.0009822345875271884,
      "loss": 2.1888,
      "step": 246
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5840586073687285,
      "learning_rate": 0.0009820378394501481,
      "loss": 2.275,
      "step": 247
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5930508942470065,
      "learning_rate": 0.0009818400278178636,
      "loss": 2.2413,
      "step": 248
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5290146637083869,
      "learning_rate": 0.0009816411530667814,
      "loss": 2.344,
      "step": 249
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6794663154494848,
      "learning_rate": 0.000981441215635693,
      "loss": 2.2115,
      "step": 250
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.6129406646540896,
      "learning_rate": 0.0009812402159657353,
      "loss": 2.3178,
      "step": 251
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5444093178139429,
      "learning_rate": 0.000981038154500388,
      "loss": 2.2539,
      "step": 252
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5836188020724631,
      "learning_rate": 0.0009808350316854746,
      "loss": 2.2627,
      "step": 253
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5278154929902278,
      "learning_rate": 0.0009806308479691594,
      "loss": 2.1658,
      "step": 254
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5160568884534147,
      "learning_rate": 0.0009804256038019482,
      "loss": 2.2797,
      "step": 255
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5654718098408767,
      "learning_rate": 0.0009802192996366857,
      "loss": 2.2814,
      "step": 256
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5025661833039083,
      "learning_rate": 0.0009800119359285563,
      "loss": 2.2625,
      "step": 257
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5270184298245545,
      "learning_rate": 0.0009798035131350813,
      "loss": 2.2647,
      "step": 258
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5353361595466368,
      "learning_rate": 0.0009795940317161194,
      "loss": 2.2241,
      "step": 259
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.544952728823387,
      "learning_rate": 0.0009793834921338646,
      "loss": 2.258,
      "step": 260
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5224202550218605,
      "learning_rate": 0.0009791718948528457,
      "loss": 2.2165,
      "step": 261
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.49765862368615693,
      "learning_rate": 0.0009789592403399252,
      "loss": 2.1849,
      "step": 262
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5037888850673353,
      "learning_rate": 0.0009787455290642985,
      "loss": 2.3362,
      "step": 263
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47584308344221943,
      "learning_rate": 0.000978530761497492,
      "loss": 2.25,
      "step": 264
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5095865137764052,
      "learning_rate": 0.0009783149381133633,
      "loss": 2.2417,
      "step": 265
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5909228693012313,
      "learning_rate": 0.0009780980593880992,
      "loss": 2.274,
      "step": 266
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5143485810821973,
      "learning_rate": 0.0009778801258002153,
      "loss": 2.2696,
      "step": 267
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5493167508442116,
      "learning_rate": 0.000977661137830554,
      "loss": 2.226,
      "step": 268
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5480501321653668,
      "learning_rate": 0.0009774410959622845,
      "loss": 2.2765,
      "step": 269
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5590194107992795,
      "learning_rate": 0.000977220000680901,
      "loss": 2.2277,
      "step": 270
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.49874088549767054,
      "learning_rate": 0.000976997852474223,
      "loss": 2.2532,
      "step": 271
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5117045670829758,
      "learning_rate": 0.0009767746518323914,
      "loss": 2.2435,
      "step": 272
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5103548978947652,
      "learning_rate": 0.0009765503992478704,
      "loss": 2.1467,
      "step": 273
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47436429603805835,
      "learning_rate": 0.0009763250952154449,
      "loss": 2.1448,
      "step": 274
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4930062080321602,
      "learning_rate": 0.0009760987402322195,
      "loss": 2.0876,
      "step": 275
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5117821827003765,
      "learning_rate": 0.0009758713347976178,
      "loss": 2.1976,
      "step": 276
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5038978174893886,
      "learning_rate": 0.000975642879413381,
      "loss": 2.1687,
      "step": 277
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4691648870586898,
      "learning_rate": 0.0009754133745835665,
      "loss": 2.2526,
      "step": 278
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5184671839783218,
      "learning_rate": 0.0009751828208145482,
      "loss": 2.2684,
      "step": 279
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5373293550797432,
      "learning_rate": 0.0009749512186150131,
      "loss": 2.1869,
      "step": 280
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5122626774873855,
      "learning_rate": 0.0009747185684959625,
      "loss": 2.2147,
      "step": 281
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5083912452637093,
      "learning_rate": 0.000974484870970709,
      "loss": 2.1978,
      "step": 282
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4721165627087533,
      "learning_rate": 0.0009742501265548767,
      "loss": 2.2116,
      "step": 283
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.502465299787975,
      "learning_rate": 0.0009740143357663993,
      "loss": 2.1379,
      "step": 284
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.519223717549304,
      "learning_rate": 0.000973777499125519,
      "loss": 2.2848,
      "step": 285
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.6148015372988581,
      "learning_rate": 0.0009735396171547859,
      "loss": 2.1979,
      "step": 286
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4748750761427938,
      "learning_rate": 0.0009733006903790564,
      "loss": 2.1883,
      "step": 287
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5164053245401241,
      "learning_rate": 0.0009730607193254922,
      "loss": 2.2354,
      "step": 288
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5257978832942519,
      "learning_rate": 0.0009728197045235585,
      "loss": 2.1845,
      "step": 289
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5332027058023335,
      "learning_rate": 0.0009725776465050242,
      "loss": 2.1875,
      "step": 290
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4817110331482278,
      "learning_rate": 0.0009723345458039594,
      "loss": 2.2594,
      "step": 291
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4593756672294184,
      "learning_rate": 0.000972090402956735,
      "loss": 2.2547,
      "step": 292
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.506847749532934,
      "learning_rate": 0.0009718452185020212,
      "loss": 2.1155,
      "step": 293
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4602960495368793,
      "learning_rate": 0.0009715989929807862,
      "loss": 2.206,
      "step": 294
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.47679536767555225,
      "learning_rate": 0.0009713517269362955,
      "loss": 2.175,
      "step": 295
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4966824447849317,
      "learning_rate": 0.0009711034209141101,
      "loss": 2.1688,
      "step": 296
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.513758555163443,
      "learning_rate": 0.0009708540754620856,
      "loss": 2.215,
      "step": 297
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5044324969989731,
      "learning_rate": 0.0009706036911303713,
      "loss": 2.1793,
      "step": 298
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5114085625952562,
      "learning_rate": 0.0009703522684714083,
      "loss": 2.1625,
      "step": 299
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.484324990563462,
      "learning_rate": 0.0009700998080399286,
      "loss": 2.2065,
      "step": 300
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.49769592074638574,
      "learning_rate": 0.0009698463103929542,
      "loss": 2.1918,
      "step": 301
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5434968844639098,
      "learning_rate": 0.0009695917760897954,
      "loss": 2.1611,
      "step": 302
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4940668307065341,
      "learning_rate": 0.0009693362056920501,
      "loss": 2.2273,
      "step": 303
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4646580074821232,
      "learning_rate": 0.0009690795997636015,
      "loss": 2.285,
      "step": 304
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.460237092642433,
      "learning_rate": 0.0009688219588706179,
      "loss": 2.2151,
      "step": 305
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45760128548801493,
      "learning_rate": 0.0009685632835815518,
      "loss": 2.1729,
      "step": 306
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46490399412048045,
      "learning_rate": 0.0009683035744671367,
      "loss": 2.1005,
      "step": 307
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.468944828825808,
      "learning_rate": 0.0009680428321003883,
      "loss": 2.2485,
      "step": 308
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.48938709431180744,
      "learning_rate": 0.000967781057056601,
      "loss": 2.1189,
      "step": 309
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4687837921320254,
      "learning_rate": 0.0009675182499133485,
      "loss": 2.1638,
      "step": 310
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.49908774758433416,
      "learning_rate": 0.0009672544112504813,
      "loss": 2.1824,
      "step": 311
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4983257662866493,
      "learning_rate": 0.0009669895416501257,
      "loss": 2.2843,
      "step": 312
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4966489646892351,
      "learning_rate": 0.0009667236416966833,
      "loss": 2.1709,
      "step": 313
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5203704191918761,
      "learning_rate": 0.0009664567119768281,
      "loss": 2.1193,
      "step": 314
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.440704535169992,
      "learning_rate": 0.0009661887530795067,
      "loss": 2.1556,
      "step": 315
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5652653633674165,
      "learning_rate": 0.0009659197655959365,
      "loss": 2.2952,
      "step": 316
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4562467412804676,
      "learning_rate": 0.000965649750119604,
      "loss": 2.1526,
      "step": 317
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.48149234104855015,
      "learning_rate": 0.0009653787072462643,
      "loss": 2.1963,
      "step": 318
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4808891856077677,
      "learning_rate": 0.0009651066375739388,
      "loss": 2.2257,
      "step": 319
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.562559133184793,
      "learning_rate": 0.000964833541702915,
      "loss": 2.2197,
      "step": 320
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.512312900545187,
      "learning_rate": 0.0009645594202357438,
      "loss": 2.1846,
      "step": 321
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5270709264751037,
      "learning_rate": 0.0009642842737772397,
      "loss": 2.0339,
      "step": 322
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.543646285511713,
      "learning_rate": 0.0009640081029344782,
      "loss": 2.1159,
      "step": 323
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.49349927686942036,
      "learning_rate": 0.0009637309083167956,
      "loss": 2.1342,
      "step": 324
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.48182785957501806,
      "learning_rate": 0.0009634526905357859,
      "loss": 2.1227,
      "step": 325
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4720027383240933,
      "learning_rate": 0.000963173450205302,
      "loss": 2.1907,
      "step": 326
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5390401769504466,
      "learning_rate": 0.0009628931879414517,
      "loss": 2.2816,
      "step": 327
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45082430229011383,
      "learning_rate": 0.0009626119043625983,
      "loss": 2.2959,
      "step": 328
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5184274637951045,
      "learning_rate": 0.0009623296000893582,
      "loss": 2.1782,
      "step": 329
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4665622284780081,
      "learning_rate": 0.0009620462757446,
      "loss": 2.2388,
      "step": 330
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.48214353162442614,
      "learning_rate": 0.0009617619319534428,
      "loss": 2.2268,
      "step": 331
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5276093400278195,
      "learning_rate": 0.000961476569343255,
      "loss": 2.2594,
      "step": 332
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45689665932384577,
      "learning_rate": 0.0009611901885436529,
      "loss": 2.2156,
      "step": 333
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.525133844602129,
      "learning_rate": 0.0009609027901864996,
      "loss": 2.2132,
      "step": 334
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5173685189242341,
      "learning_rate": 0.0009606143749059029,
      "loss": 2.2663,
      "step": 335
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.46803168285261043,
      "learning_rate": 0.0009603249433382144,
      "loss": 2.16,
      "step": 336
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4758639307687467,
      "learning_rate": 0.0009600344961220282,
      "loss": 2.1216,
      "step": 337
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4617942976509606,
      "learning_rate": 0.0009597430338981791,
      "loss": 2.1758,
      "step": 338
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.464291738612885,
      "learning_rate": 0.0009594505573097414,
      "loss": 2.1735,
      "step": 339
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4558393785846849,
      "learning_rate": 0.0009591570670020277,
      "loss": 2.2028,
      "step": 340
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4568171065699162,
      "learning_rate": 0.0009588625636225871,
      "loss": 2.1765,
      "step": 341
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4753747621517197,
      "learning_rate": 0.0009585670478212036,
      "loss": 2.2426,
      "step": 342
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4827681040577279,
      "learning_rate": 0.0009582705202498956,
      "loss": 2.1756,
      "step": 343
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5355683184915773,
      "learning_rate": 0.0009579729815629133,
      "loss": 2.1747,
      "step": 344
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5168233522232251,
      "learning_rate": 0.0009576744324167379,
      "loss": 2.1295,
      "step": 345
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4999083870678775,
      "learning_rate": 0.0009573748734700804,
      "loss": 2.2412,
      "step": 346
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.49916943235988104,
      "learning_rate": 0.0009570743053838796,
      "loss": 2.129,
      "step": 347
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4929516984220567,
      "learning_rate": 0.0009567727288213005,
      "loss": 2.3077,
      "step": 348
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45343363872648096,
      "learning_rate": 0.0009564701444477337,
      "loss": 2.1967,
      "step": 349
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4642841614536805,
      "learning_rate": 0.000956166552930793,
      "loss": 2.1598,
      "step": 350
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5088956253606124,
      "learning_rate": 0.0009558619549403147,
      "loss": 2.2906,
      "step": 351
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.46546301631859127,
      "learning_rate": 0.0009555563511483555,
      "loss": 2.2513,
      "step": 352
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4580429032950341,
      "learning_rate": 0.0009552497422291912,
      "loss": 2.2837,
      "step": 353
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4782570469932609,
      "learning_rate": 0.0009549421288593157,
      "loss": 2.1814,
      "step": 354
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.49895741498128626,
      "learning_rate": 0.0009546335117174385,
      "loss": 2.1746,
      "step": 355
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5060422416762824,
      "learning_rate": 0.0009543238914844843,
      "loss": 2.199,
      "step": 356
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.46939430163637424,
      "learning_rate": 0.0009540132688435907,
      "loss": 2.2279,
      "step": 357
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.530455233873291,
      "learning_rate": 0.0009537016444801074,
      "loss": 2.181,
      "step": 358
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4847204939556263,
      "learning_rate": 0.0009533890190815935,
      "loss": 2.1794,
      "step": 359
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4656591267738575,
      "learning_rate": 0.0009530753933378173,
      "loss": 2.1799,
      "step": 360
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5238954515512925,
      "learning_rate": 0.0009527607679407545,
      "loss": 2.1391,
      "step": 361
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.48698370274759656,
      "learning_rate": 0.0009524451435845857,
      "loss": 2.1286,
      "step": 362
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4770042986489502,
      "learning_rate": 0.0009521285209656963,
      "loss": 2.1951,
      "step": 363
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.48498938443830475,
      "learning_rate": 0.0009518109007826734,
      "loss": 2.1583,
      "step": 364
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5798451598244915,
      "learning_rate": 0.0009514922837363059,
      "loss": 2.1985,
      "step": 365
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4922536092923533,
      "learning_rate": 0.0009511726705295817,
      "loss": 2.0726,
      "step": 366
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4592610794570338,
      "learning_rate": 0.000950852061867687,
      "loss": 2.1998,
      "step": 367
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4909546872907174,
      "learning_rate": 0.0009505304584580038,
      "loss": 2.2311,
      "step": 368
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.48246485841050607,
      "learning_rate": 0.0009502078610101092,
      "loss": 2.2056,
      "step": 369
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.49779633550193514,
      "learning_rate": 0.0009498842702357736,
      "loss": 2.1519,
      "step": 370
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4580617924451259,
      "learning_rate": 0.0009495596868489587,
      "loss": 2.2544,
      "step": 371
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.507118145037732,
      "learning_rate": 0.0009492341115658167,
      "loss": 2.2031,
      "step": 372
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5130851544119004,
      "learning_rate": 0.0009489075451046879,
      "loss": 2.2614,
      "step": 373
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.47228415084485126,
      "learning_rate": 0.0009485799881861,
      "loss": 2.2818,
      "step": 374
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4782232746578313,
      "learning_rate": 0.0009482514415327654,
      "loss": 2.1973,
      "step": 375
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6240884952368893,
      "learning_rate": 0.000947921905869581,
      "loss": 2.1021,
      "step": 376
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5153231870872927,
      "learning_rate": 0.0009475913819236248,
      "loss": 2.2016,
      "step": 377
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.645078310122024,
      "learning_rate": 0.0009472598704241561,
      "loss": 2.2083,
      "step": 378
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4740026690234589,
      "learning_rate": 0.0009469273721026131,
      "loss": 2.0227,
      "step": 379
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4628344297501851,
      "learning_rate": 0.0009465938876926111,
      "loss": 2.2111,
      "step": 380
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6064922999678173,
      "learning_rate": 0.0009462594179299406,
      "loss": 2.1894,
      "step": 381
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4613584912776049,
      "learning_rate": 0.0009459239635525672,
      "loss": 2.1603,
      "step": 382
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.5002826888292072,
      "learning_rate": 0.0009455875253006281,
      "loss": 2.1463,
      "step": 383
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.5400704085675693,
      "learning_rate": 0.0009452501039164315,
      "loss": 2.1789,
      "step": 384
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45640560495893545,
      "learning_rate": 0.0009449117001444549,
      "loss": 2.1789,
      "step": 385
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4873045546735991,
      "learning_rate": 0.0009445723147313433,
      "loss": 2.1479,
      "step": 386
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45314273087878953,
      "learning_rate": 0.0009442319484259074,
      "loss": 2.1935,
      "step": 387
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4494928992830102,
      "learning_rate": 0.0009438906019791222,
      "loss": 2.2021,
      "step": 388
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.48422253063496407,
      "learning_rate": 0.0009435482761441251,
      "loss": 2.1878,
      "step": 389
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4666782057725771,
      "learning_rate": 0.000943204971676215,
      "loss": 2.1528,
      "step": 390
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4485236154613671,
      "learning_rate": 0.0009428606893328493,
      "loss": 2.1266,
      "step": 391
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4692272943913378,
      "learning_rate": 0.0009425154298736432,
      "loss": 2.1582,
      "step": 392
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.46203619353522,
      "learning_rate": 0.0009421691940603678,
      "loss": 2.1733,
      "step": 393
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.48007365881143715,
      "learning_rate": 0.0009418219826569488,
      "loss": 2.1955,
      "step": 394
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4334498553447403,
      "learning_rate": 0.0009414737964294635,
      "loss": 2.1525,
      "step": 395
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4679775081588731,
      "learning_rate": 0.000941124636146141,
      "loss": 2.1947,
      "step": 396
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.48921624571481526,
      "learning_rate": 0.0009407745025773589,
      "loss": 2.1425,
      "step": 397
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4405385149114573,
      "learning_rate": 0.0009404233964956423,
      "loss": 2.1166,
      "step": 398
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.46840342422599673,
      "learning_rate": 0.0009400713186756625,
      "loss": 2.0991,
      "step": 399
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4359166058521346,
      "learning_rate": 0.0009397182698942342,
      "loss": 2.1795,
      "step": 400
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4868883484633337,
      "learning_rate": 0.0009393642509303149,
      "loss": 2.0646,
      "step": 401
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4687226952482982,
      "learning_rate": 0.0009390092625650023,
      "loss": 2.2118,
      "step": 402
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4244939652196447,
      "learning_rate": 0.0009386533055815332,
      "loss": 2.1582,
      "step": 403
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4798626211146043,
      "learning_rate": 0.0009382963807652813,
      "loss": 2.2278,
      "step": 404
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4752972087338857,
      "learning_rate": 0.000937938488903756,
      "loss": 2.1786,
      "step": 405
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44846542506442894,
      "learning_rate": 0.0009375796307866003,
      "loss": 2.2037,
      "step": 406
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.47720742484648576,
      "learning_rate": 0.0009372198072055888,
      "loss": 2.1478,
      "step": 407
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4566841767713011,
      "learning_rate": 0.0009368590189546268,
      "loss": 2.111,
      "step": 408
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4736700935537112,
      "learning_rate": 0.0009364972668297474,
      "loss": 2.2037,
      "step": 409
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4785883964945304,
      "learning_rate": 0.0009361345516291111,
      "loss": 2.1963,
      "step": 410
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4436942360991731,
      "learning_rate": 0.0009357708741530024,
      "loss": 2.1168,
      "step": 411
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42226929218327974,
      "learning_rate": 0.00093540623520383,
      "loss": 2.1117,
      "step": 412
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4501116357701769,
      "learning_rate": 0.000935040635586123,
      "loss": 2.1282,
      "step": 413
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4597315321225518,
      "learning_rate": 0.0009346740761065305,
      "loss": 2.1845,
      "step": 414
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4265704014203746,
      "learning_rate": 0.0009343065575738197,
      "loss": 2.1539,
      "step": 415
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.49313823389175016,
      "learning_rate": 0.0009339380807988733,
      "loss": 2.2171,
      "step": 416
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4619197407841223,
      "learning_rate": 0.0009335686465946887,
      "loss": 2.0705,
      "step": 417
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4780613309488978,
      "learning_rate": 0.0009331982557763754,
      "loss": 2.092,
      "step": 418
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4506638125168002,
      "learning_rate": 0.0009328269091611537,
      "loss": 2.1025,
      "step": 419
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4647154165075856,
      "learning_rate": 0.0009324546075683524,
      "loss": 2.1236,
      "step": 420
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.5373566112663118,
      "learning_rate": 0.0009320813518194083,
      "loss": 2.2364,
      "step": 421
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.5293636144680165,
      "learning_rate": 0.0009317071427378624,
      "loss": 2.0817,
      "step": 422
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.46931081517887496,
      "learning_rate": 0.0009313319811493594,
      "loss": 2.1198,
      "step": 423
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.45793045171947894,
      "learning_rate": 0.000930955867881646,
      "loss": 2.1531,
      "step": 424
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.45974827230450566,
      "learning_rate": 0.0009305788037645681,
      "loss": 2.1382,
      "step": 425
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5331035386085683,
      "learning_rate": 0.0009302007896300697,
      "loss": 2.141,
      "step": 426
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44500005603882686,
      "learning_rate": 0.0009298218263121911,
      "loss": 2.1124,
      "step": 427
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.46788992705526383,
      "learning_rate": 0.0009294419146470668,
      "loss": 2.1945,
      "step": 428
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4738051583904903,
      "learning_rate": 0.0009290610554729234,
      "loss": 2.1932,
      "step": 429
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43851366588354795,
      "learning_rate": 0.0009286792496300784,
      "loss": 2.1261,
      "step": 430
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4593875845652962,
      "learning_rate": 0.0009282964979609379,
      "loss": 2.1929,
      "step": 431
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4859523924378916,
      "learning_rate": 0.0009279128013099947,
      "loss": 2.2296,
      "step": 432
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4571012752533654,
      "learning_rate": 0.0009275281605238268,
      "loss": 2.2199,
      "step": 433
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5578660100828065,
      "learning_rate": 0.0009271425764510953,
      "loss": 2.1174,
      "step": 434
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41527501614835893,
      "learning_rate": 0.0009267560499425423,
      "loss": 2.1541,
      "step": 435
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4764713246304872,
      "learning_rate": 0.0009263685818509895,
      "loss": 2.2612,
      "step": 436
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.45504240199707374,
      "learning_rate": 0.000925980173031336,
      "loss": 2.2145,
      "step": 437
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43352556551688576,
      "learning_rate": 0.0009255908243405567,
      "loss": 2.1417,
      "step": 438
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42028829513365107,
      "learning_rate": 0.0009252005366376996,
      "loss": 2.1692,
      "step": 439
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42164117433822484,
      "learning_rate": 0.0009248093107838852,
      "loss": 2.132,
      "step": 440
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.434361340072994,
      "learning_rate": 0.0009244171476423036,
      "loss": 2.1677,
      "step": 441
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4402223487418671,
      "learning_rate": 0.0009240240480782129,
      "loss": 2.1452,
      "step": 442
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4765010811506241,
      "learning_rate": 0.0009236300129589376,
      "loss": 2.1752,
      "step": 443
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4362671247496322,
      "learning_rate": 0.0009232350431538657,
      "loss": 2.1659,
      "step": 444
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4340920734102128,
      "learning_rate": 0.0009228391395344482,
      "loss": 2.0724,
      "step": 445
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4646815531165497,
      "learning_rate": 0.000922442302974196,
      "loss": 2.1461,
      "step": 446
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5822745108247904,
      "learning_rate": 0.0009220445343486785,
      "loss": 2.237,
      "step": 447
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.486306796123256,
      "learning_rate": 0.0009216458345355217,
      "loss": 2.1322,
      "step": 448
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4812430608372189,
      "learning_rate": 0.0009212462044144061,
      "loss": 2.2068,
      "step": 449
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.485760485455359,
      "learning_rate": 0.0009208456448670648,
      "loss": 2.1155,
      "step": 450
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4762022007797957,
      "learning_rate": 0.0009204441567772816,
      "loss": 2.105,
      "step": 451
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.5988447805262335,
      "learning_rate": 0.0009200417410308888,
      "loss": 2.1801,
      "step": 452
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.44047628575680225,
      "learning_rate": 0.0009196383985157656,
      "loss": 2.1033,
      "step": 453
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.5401211956583721,
      "learning_rate": 0.000919234130121836,
      "loss": 2.1855,
      "step": 454
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.5108280116614117,
      "learning_rate": 0.0009188289367410672,
      "loss": 2.1428,
      "step": 455
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4504313632321319,
      "learning_rate": 0.0009184228192674666,
      "loss": 2.1972,
      "step": 456
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4931648482184241,
      "learning_rate": 0.0009180157785970808,
      "loss": 2.1226,
      "step": 457
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4867622779188753,
      "learning_rate": 0.0009176078156279932,
      "loss": 2.2102,
      "step": 458
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4420414681644582,
      "learning_rate": 0.0009171989312603226,
      "loss": 2.1527,
      "step": 459
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.5246439174528467,
      "learning_rate": 0.0009167891263962202,
      "loss": 2.0724,
      "step": 460
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.47730511949577237,
      "learning_rate": 0.0009163784019398685,
      "loss": 2.1081,
      "step": 461
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43759042134621906,
      "learning_rate": 0.0009159667587974785,
      "loss": 2.2118,
      "step": 462
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.458603258121693,
      "learning_rate": 0.0009155541978772887,
      "loss": 2.1545,
      "step": 463
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4873785116372496,
      "learning_rate": 0.0009151407200895625,
      "loss": 2.1661,
      "step": 464
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.45886151249526175,
      "learning_rate": 0.000914726326346586,
      "loss": 2.0532,
      "step": 465
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42571316217576105,
      "learning_rate": 0.0009143110175626661,
      "loss": 2.1119,
      "step": 466
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4319256732294461,
      "learning_rate": 0.0009138947946541291,
      "loss": 2.1142,
      "step": 467
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4616867951971546,
      "learning_rate": 0.0009134776585393181,
      "loss": 2.1538,
      "step": 468
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4515486470029253,
      "learning_rate": 0.0009130596101385906,
      "loss": 2.0699,
      "step": 469
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4425584454840066,
      "learning_rate": 0.0009126406503743174,
      "loss": 2.072,
      "step": 470
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4652861793219515,
      "learning_rate": 0.0009122207801708802,
      "loss": 2.1533,
      "step": 471
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4497523297929369,
      "learning_rate": 0.0009118000004546689,
      "loss": 2.1466,
      "step": 472
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.45506263002274955,
      "learning_rate": 0.0009113783121540807,
      "loss": 2.1326,
      "step": 473
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4456002100453018,
      "learning_rate": 0.0009109557161995172,
      "loss": 2.1416,
      "step": 474
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44113625029482884,
      "learning_rate": 0.0009105322135233828,
      "loss": 2.1122,
      "step": 475
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.46985945834074466,
      "learning_rate": 0.0009101078050600821,
      "loss": 2.1925,
      "step": 476
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.46029593028790594,
      "learning_rate": 0.0009096824917460186,
      "loss": 2.0675,
      "step": 477
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.433711526542408,
      "learning_rate": 0.0009092562745195921,
      "loss": 2.1049,
      "step": 478
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.46667022719047857,
      "learning_rate": 0.0009088291543211967,
      "loss": 2.16,
      "step": 479
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4316599255503779,
      "learning_rate": 0.0009084011320932188,
      "loss": 2.2045,
      "step": 480
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44129409495303606,
      "learning_rate": 0.0009079722087800352,
      "loss": 2.1666,
      "step": 481
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4434627486492309,
      "learning_rate": 0.0009075423853280106,
      "loss": 2.1671,
      "step": 482
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4199435204926453,
      "learning_rate": 0.0009071116626854958,
      "loss": 2.1743,
      "step": 483
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4693662086240425,
      "learning_rate": 0.0009066800418028256,
      "loss": 2.1497,
      "step": 484
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.47244409581011426,
      "learning_rate": 0.0009062475236323168,
      "loss": 2.1535,
      "step": 485
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43724514391936053,
      "learning_rate": 0.0009058141091282656,
      "loss": 2.0907,
      "step": 486
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4812092977550908,
      "learning_rate": 0.0009053797992469461,
      "loss": 2.1563,
      "step": 487
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44679721139289685,
      "learning_rate": 0.0009049445949466078,
      "loss": 2.1594,
      "step": 488
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4049081907298236,
      "learning_rate": 0.0009045084971874737,
      "loss": 2.1776,
      "step": 489
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.5317514623062651,
      "learning_rate": 0.0009040715069317382,
      "loss": 2.1687,
      "step": 490
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40755942424731695,
      "learning_rate": 0.0009036336251435648,
      "loss": 2.0746,
      "step": 491
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4968483181828058,
      "learning_rate": 0.0009031948527890839,
      "loss": 2.144,
      "step": 492
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.48558867805696637,
      "learning_rate": 0.000902755190836391,
      "loss": 2.1778,
      "step": 493
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4123770183123836,
      "learning_rate": 0.0009023146402555442,
      "loss": 2.0842,
      "step": 494
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.45617121679581446,
      "learning_rate": 0.0009018732020185624,
      "loss": 2.1279,
      "step": 495
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.5251392214807988,
      "learning_rate": 0.0009014308770994235,
      "loss": 2.188,
      "step": 496
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.44498348257238185,
      "learning_rate": 0.0009009876664740605,
      "loss": 2.1223,
      "step": 497
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4712895438177589,
      "learning_rate": 0.0009005435711203618,
      "loss": 2.1898,
      "step": 498
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.47109297356731333,
      "learning_rate": 0.000900098592018167,
      "loss": 2.1059,
      "step": 499
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4575374923150451,
      "learning_rate": 0.0008996527301492663,
      "loss": 2.1372,
      "step": 500
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4305056718740927,
      "learning_rate": 0.0008992059864973972,
      "loss": 2.1533,
      "step": 501
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4443856110028784,
      "learning_rate": 0.0008987583620482427,
      "loss": 2.1844,
      "step": 502
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41253696917979027,
      "learning_rate": 0.0008983098577894292,
      "loss": 2.0813,
      "step": 503
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4255755406324707,
      "learning_rate": 0.0008978604747105246,
      "loss": 2.1804,
      "step": 504
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4237978641247997,
      "learning_rate": 0.0008974102138030354,
      "loss": 2.0962,
      "step": 505
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43201847025718065,
      "learning_rate": 0.000896959076060405,
      "loss": 2.1661,
      "step": 506
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4268823706898285,
      "learning_rate": 0.0008965070624780116,
      "loss": 2.1053,
      "step": 507
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4552507480494158,
      "learning_rate": 0.0008960541740531658,
      "loss": 2.1226,
      "step": 508
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7023386916359262,
      "learning_rate": 0.0008956004117851083,
      "loss": 2.1369,
      "step": 509
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4445723741660963,
      "learning_rate": 0.0008951457766750079,
      "loss": 2.0814,
      "step": 510
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.44187384966669097,
      "learning_rate": 0.0008946902697259593,
      "loss": 2.1562,
      "step": 511
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.47723881606373586,
      "learning_rate": 0.0008942338919429805,
      "loss": 2.1042,
      "step": 512
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.449593143028755,
      "learning_rate": 0.0008937766443330113,
      "loss": 2.1631,
      "step": 513
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.45376423912363606,
      "learning_rate": 0.0008933185279049103,
      "loss": 2.0405,
      "step": 514
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4273424250449897,
      "learning_rate": 0.0008928595436694532,
      "loss": 2.0799,
      "step": 515
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4738240369071425,
      "learning_rate": 0.0008923996926393305,
      "loss": 2.204,
      "step": 516
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4591421156188737,
      "learning_rate": 0.0008919389758291449,
      "loss": 2.1953,
      "step": 517
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4120378827025495,
      "learning_rate": 0.0008914773942554098,
      "loss": 2.1957,
      "step": 518
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.39999307537918644,
      "learning_rate": 0.000891014948936546,
      "loss": 2.1899,
      "step": 519
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5680877626036688,
      "learning_rate": 0.0008905516408928804,
      "loss": 2.1481,
      "step": 520
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4165870816421927,
      "learning_rate": 0.0008900874711466434,
      "loss": 2.168,
      "step": 521
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4280377077503308,
      "learning_rate": 0.0008896224407219666,
      "loss": 2.0915,
      "step": 522
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5247444426546827,
      "learning_rate": 0.0008891565506448804,
      "loss": 2.1528,
      "step": 523
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42147928316098354,
      "learning_rate": 0.0008886898019433122,
      "loss": 2.0784,
      "step": 524
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41421420595348785,
      "learning_rate": 0.0008882221956470836,
      "loss": 2.0892,
      "step": 525
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5425681051778826,
      "learning_rate": 0.0008877537327879086,
      "loss": 2.0892,
      "step": 526
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4242100317541706,
      "learning_rate": 0.0008872844143993908,
      "loss": 2.0429,
      "step": 527
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.45146005573236025,
      "learning_rate": 0.0008868142415170218,
      "loss": 2.1125,
      "step": 528
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5170368862230369,
      "learning_rate": 0.0008863432151781781,
      "loss": 2.1348,
      "step": 529
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4382998404670834,
      "learning_rate": 0.0008858713364221195,
      "loss": 2.0034,
      "step": 530
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4222719731198867,
      "learning_rate": 0.0008853986062899868,
      "loss": 2.1667,
      "step": 531
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.47913435060022863,
      "learning_rate": 0.0008849250258247986,
      "loss": 2.1776,
      "step": 532
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4961231406138572,
      "learning_rate": 0.0008844505960714503,
      "loss": 2.1062,
      "step": 533
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4716238867241024,
      "learning_rate": 0.0008839753180767108,
      "loss": 2.1283,
      "step": 534
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5225027580101457,
      "learning_rate": 0.0008834991928892204,
      "loss": 2.0754,
      "step": 535
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.45300040685084303,
      "learning_rate": 0.000883022221559489,
      "loss": 2.1365,
      "step": 536
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4080398634633742,
      "learning_rate": 0.0008825444051398934,
      "loss": 2.1821,
      "step": 537
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41646555570843813,
      "learning_rate": 0.0008820657446846745,
      "loss": 2.1648,
      "step": 538
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5597645402110517,
      "learning_rate": 0.000881586241249936,
      "loss": 2.1498,
      "step": 539
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4224193125834784,
      "learning_rate": 0.0008811058958936411,
      "loss": 2.1374,
      "step": 540
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42308275162507986,
      "learning_rate": 0.000880624709675611,
      "loss": 2.1243,
      "step": 541
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4327482431740588,
      "learning_rate": 0.000880142683657522,
      "loss": 2.1899,
      "step": 542
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4331644000259914,
      "learning_rate": 0.0008796598189029029,
      "loss": 2.1239,
      "step": 543
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4119307412065758,
      "learning_rate": 0.0008791761164771338,
      "loss": 2.1209,
      "step": 544
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4881615476510302,
      "learning_rate": 0.0008786915774474424,
      "loss": 2.1563,
      "step": 545
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4145293973039898,
      "learning_rate": 0.0008782062028829027,
      "loss": 2.2285,
      "step": 546
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42145317020292006,
      "learning_rate": 0.0008777199938544318,
      "loss": 2.1354,
      "step": 547
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41128116456033104,
      "learning_rate": 0.0008772329514347883,
      "loss": 2.131,
      "step": 548
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.427042429610307,
      "learning_rate": 0.0008767450766985694,
      "loss": 2.169,
      "step": 549
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.44904654197852417,
      "learning_rate": 0.0008762563707222086,
      "loss": 2.1498,
      "step": 550
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4717651868713512,
      "learning_rate": 0.0008757668345839738,
      "loss": 2.1648,
      "step": 551
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.412920785106221,
      "learning_rate": 0.0008752764693639638,
      "loss": 2.226,
      "step": 552
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.43302506295310617,
      "learning_rate": 0.0008747852761441078,
      "loss": 2.083,
      "step": 553
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4061327304218103,
      "learning_rate": 0.0008742932560081607,
      "loss": 2.165,
      "step": 554
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41454919824870856,
      "learning_rate": 0.0008738004100417025,
      "loss": 2.0702,
      "step": 555
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4058870868979115,
      "learning_rate": 0.0008733067393321355,
      "loss": 2.1054,
      "step": 556
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5280757672356383,
      "learning_rate": 0.000872812244968681,
      "loss": 2.1822,
      "step": 557
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42115526691616084,
      "learning_rate": 0.0008723169280423783,
      "loss": 2.0941,
      "step": 558
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.417341622748768,
      "learning_rate": 0.0008718207896460811,
      "loss": 2.1618,
      "step": 559
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.49099707604930676,
      "learning_rate": 0.0008713238308744557,
      "loss": 2.1583,
      "step": 560
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4540943758534293,
      "learning_rate": 0.0008708260528239789,
      "loss": 2.0605,
      "step": 561
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.47765996521198495,
      "learning_rate": 0.000870327456592934,
      "loss": 2.1726,
      "step": 562
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.50788404145323,
      "learning_rate": 0.0008698280432814107,
      "loss": 2.0831,
      "step": 563
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4636198920553901,
      "learning_rate": 0.000869327813991301,
      "loss": 2.0834,
      "step": 564
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.43615885872245896,
      "learning_rate": 0.0008688267698262971,
      "loss": 2.0457,
      "step": 565
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41461639852419174,
      "learning_rate": 0.0008683249118918894,
      "loss": 2.11,
      "step": 566
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4464600041206344,
      "learning_rate": 0.0008678222412953637,
      "loss": 2.1619,
      "step": 567
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4008670365461573,
      "learning_rate": 0.0008673187591457987,
      "loss": 2.1389,
      "step": 568
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4212472603795536,
      "learning_rate": 0.0008668144665540639,
      "loss": 2.1801,
      "step": 569
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.48676758395093694,
      "learning_rate": 0.0008663093646328167,
      "loss": 2.1001,
      "step": 570
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40497350135983945,
      "learning_rate": 0.0008658034544965003,
      "loss": 2.0744,
      "step": 571
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4239499895708775,
      "learning_rate": 0.0008652967372613412,
      "loss": 2.212,
      "step": 572
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42178979034931496,
      "learning_rate": 0.0008647892140453466,
      "loss": 2.1582,
      "step": 573
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4052138216482508,
      "learning_rate": 0.0008642808859683021,
      "loss": 2.0897,
      "step": 574
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.47687578627718713,
      "learning_rate": 0.0008637717541517689,
      "loss": 2.0601,
      "step": 575
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.46827609835176126,
      "learning_rate": 0.0008632618197190816,
      "loss": 2.1083,
      "step": 576
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4440025610341874,
      "learning_rate": 0.0008627510837953458,
      "loss": 2.1878,
      "step": 577
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4240998332325977,
      "learning_rate": 0.0008622395475074355,
      "loss": 2.071,
      "step": 578
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4225478596560395,
      "learning_rate": 0.0008617272119839903,
      "loss": 2.0927,
      "step": 579
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40706391232370964,
      "learning_rate": 0.0008612140783554136,
      "loss": 2.0987,
      "step": 580
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4077913705737713,
      "learning_rate": 0.0008607001477538696,
      "loss": 2.0667,
      "step": 581
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41597663194072065,
      "learning_rate": 0.0008601854213132807,
      "loss": 2.0695,
      "step": 582
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42313613398508815,
      "learning_rate": 0.0008596699001693256,
      "loss": 2.139,
      "step": 583
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4773949069594211,
      "learning_rate": 0.000859153585459436,
      "loss": 2.2052,
      "step": 584
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42519360222108904,
      "learning_rate": 0.0008586364783227949,
      "loss": 2.117,
      "step": 585
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.43197877762612225,
      "learning_rate": 0.0008581185799003332,
      "loss": 2.0425,
      "step": 586
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5735344637193206,
      "learning_rate": 0.0008575998913347283,
      "loss": 2.0705,
      "step": 587
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3955096899682683,
      "learning_rate": 0.0008570804137704004,
      "loss": 2.0724,
      "step": 588
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.45291662704728297,
      "learning_rate": 0.0008565601483535108,
      "loss": 2.0964,
      "step": 589
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5003812096202805,
      "learning_rate": 0.0008560390962319591,
      "loss": 2.1137,
      "step": 590
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4893918229832859,
      "learning_rate": 0.0008555172585553804,
      "loss": 2.1108,
      "step": 591
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.412334680832897,
      "learning_rate": 0.0008549946364751435,
      "loss": 2.1206,
      "step": 592
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5358312923673,
      "learning_rate": 0.0008544712311443475,
      "loss": 2.1429,
      "step": 593
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4434458687228371,
      "learning_rate": 0.0008539470437178196,
      "loss": 2.0133,
      "step": 594
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4392848514540368,
      "learning_rate": 0.000853422075352113,
      "loss": 2.1462,
      "step": 595
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4178231617457766,
      "learning_rate": 0.0008528963272055035,
      "loss": 2.1337,
      "step": 596
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.46450628844575553,
      "learning_rate": 0.0008523698004379877,
      "loss": 2.1727,
      "step": 597
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40523452701261464,
      "learning_rate": 0.00085184249621128,
      "loss": 2.1095,
      "step": 598
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4233551850338593,
      "learning_rate": 0.0008513144156888101,
      "loss": 2.1341,
      "step": 599
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5105919022508483,
      "learning_rate": 0.0008507855600357207,
      "loss": 2.031,
      "step": 600
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4669013385320341,
      "learning_rate": 0.0008502559304188644,
      "loss": 2.0639,
      "step": 601
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.47358118284639483,
      "learning_rate": 0.0008497255280068019,
      "loss": 2.1565,
      "step": 602
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4781630468823246,
      "learning_rate": 0.0008491943539697986,
      "loss": 2.0833,
      "step": 603
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4514516879016752,
      "learning_rate": 0.0008486624094798226,
      "loss": 2.1438,
      "step": 604
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41396252194361144,
      "learning_rate": 0.0008481296957105417,
      "loss": 2.1383,
      "step": 605
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40978853688775785,
      "learning_rate": 0.0008475962138373213,
      "loss": 2.1538,
      "step": 606
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5320986902542405,
      "learning_rate": 0.0008470619650372211,
      "loss": 2.1525,
      "step": 607
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4137871289495026,
      "learning_rate": 0.0008465269504889934,
      "loss": 2.0658,
      "step": 608
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4718296750310788,
      "learning_rate": 0.0008459911713730799,
      "loss": 2.2614,
      "step": 609
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4266164930855514,
      "learning_rate": 0.0008454546288716089,
      "loss": 2.0479,
      "step": 610
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4726135321669556,
      "learning_rate": 0.0008449173241683935,
      "loss": 2.0865,
      "step": 611
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4100777642479807,
      "learning_rate": 0.0008443792584489281,
      "loss": 2.0834,
      "step": 612
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4387714326008834,
      "learning_rate": 0.0008438404329003863,
      "loss": 2.059,
      "step": 613
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.45889918596964907,
      "learning_rate": 0.0008433008487116183,
      "loss": 2.0767,
      "step": 614
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4187601236347992,
      "learning_rate": 0.0008427605070731481,
      "loss": 2.1893,
      "step": 615
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40961461911915786,
      "learning_rate": 0.0008422194091771708,
      "loss": 2.0581,
      "step": 616
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4700942077852574,
      "learning_rate": 0.0008416775562175503,
      "loss": 2.1193,
      "step": 617
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.474885464601092,
      "learning_rate": 0.000841134949389816,
      "loss": 2.0949,
      "step": 618
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4347009638550222,
      "learning_rate": 0.0008405915898911611,
      "loss": 2.1375,
      "step": 619
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41391568010070673,
      "learning_rate": 0.0008400474789204396,
      "loss": 2.1443,
      "step": 620
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4232906716684503,
      "learning_rate": 0.0008395026176781626,
      "loss": 2.1493,
      "step": 621
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3988242079135428,
      "learning_rate": 0.0008389570073664976,
      "loss": 2.0994,
      "step": 622
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4216457706955657,
      "learning_rate": 0.0008384106491892642,
      "loss": 1.995,
      "step": 623
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.5091758859669541,
      "learning_rate": 0.0008378635443519327,
      "loss": 2.0947,
      "step": 624
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.43003856137954505,
      "learning_rate": 0.0008373156940616199,
      "loss": 2.0796,
      "step": 625
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4493873410702694,
      "learning_rate": 0.0008367670995270882,
      "loss": 2.0433,
      "step": 626
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4514069759372591,
      "learning_rate": 0.0008362177619587416,
      "loss": 2.1186,
      "step": 627
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.5111804690522045,
      "learning_rate": 0.0008356676825686238,
      "loss": 2.097,
      "step": 628
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4267046049450734,
      "learning_rate": 0.0008351168625704147,
      "loss": 2.1873,
      "step": 629
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4441706318477749,
      "learning_rate": 0.0008345653031794292,
      "loss": 2.0611,
      "step": 630
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.44798708695718037,
      "learning_rate": 0.0008340130056126125,
      "loss": 2.1087,
      "step": 631
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4360281657638951,
      "learning_rate": 0.0008334599710885394,
      "loss": 2.1832,
      "step": 632
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41169686407719946,
      "learning_rate": 0.0008329062008274098,
      "loss": 2.1273,
      "step": 633
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4046544189877112,
      "learning_rate": 0.000832351696051048,
      "loss": 2.0921,
      "step": 634
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40672419413160077,
      "learning_rate": 0.000831796457982898,
      "loss": 2.1301,
      "step": 635
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41822422085171274,
      "learning_rate": 0.0008312404878480222,
      "loss": 2.1309,
      "step": 636
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40890282364771485,
      "learning_rate": 0.0008306837868730979,
      "loss": 2.0483,
      "step": 637
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4174689022213115,
      "learning_rate": 0.0008301263562864152,
      "loss": 2.1917,
      "step": 638
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.43593944651725014,
      "learning_rate": 0.0008295681973178737,
      "loss": 2.1199,
      "step": 639
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4394854161531549,
      "learning_rate": 0.0008290093111989804,
      "loss": 2.1196,
      "step": 640
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40287195101812884,
      "learning_rate": 0.0008284496991628465,
      "loss": 1.9926,
      "step": 641
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3922347288622664,
      "learning_rate": 0.0008278893624441847,
      "loss": 2.1272,
      "step": 642
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4137181098019979,
      "learning_rate": 0.000827328302279307,
      "loss": 2.0509,
      "step": 643
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40330608239771004,
      "learning_rate": 0.0008267665199061211,
      "loss": 2.0794,
      "step": 644
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.390578072232472,
      "learning_rate": 0.0008262040165641288,
      "loss": 2.2123,
      "step": 645
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.42087537374279294,
      "learning_rate": 0.0008256407934944219,
      "loss": 2.1326,
      "step": 646
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4207411846932393,
      "learning_rate": 0.0008250768519396807,
      "loss": 2.1462,
      "step": 647
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4143146359999009,
      "learning_rate": 0.0008245121931441706,
      "loss": 2.0597,
      "step": 648
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.42032187056277487,
      "learning_rate": 0.0008239468183537393,
      "loss": 2.0997,
      "step": 649
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4987164146497447,
      "learning_rate": 0.0008233807288158146,
      "loss": 2.1262,
      "step": 650
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38131931047862927,
      "learning_rate": 0.0008228139257794012,
      "loss": 2.0716,
      "step": 651
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41751322331960955,
      "learning_rate": 0.0008222464104950778,
      "loss": 2.1843,
      "step": 652
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4251161305115506,
      "learning_rate": 0.000821678184214995,
      "loss": 2.0977,
      "step": 653
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4809105671547495,
      "learning_rate": 0.0008211092481928716,
      "loss": 2.1423,
      "step": 654
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3923906799850187,
      "learning_rate": 0.0008205396036839927,
      "loss": 2.1926,
      "step": 655
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.43972963342933274,
      "learning_rate": 0.0008199692519452069,
      "loss": 2.1486,
      "step": 656
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40614821188742656,
      "learning_rate": 0.0008193981942349224,
      "loss": 2.1483,
      "step": 657
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4156056466495046,
      "learning_rate": 0.0008188264318131056,
      "loss": 2.0468,
      "step": 658
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4237539649775858,
      "learning_rate": 0.0008182539659412776,
      "loss": 2.0863,
      "step": 659
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4328045413107739,
      "learning_rate": 0.0008176807978825118,
      "loss": 2.1239,
      "step": 660
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4489028123516045,
      "learning_rate": 0.0008171069289014306,
      "loss": 2.1919,
      "step": 661
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4091556449970165,
      "learning_rate": 0.0008165323602642028,
      "loss": 2.0812,
      "step": 662
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3977922006205986,
      "learning_rate": 0.0008159570932385414,
      "loss": 2.1206,
      "step": 663
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4338657581382304,
      "learning_rate": 0.0008153811290936999,
      "loss": 2.0941,
      "step": 664
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4093998673518582,
      "learning_rate": 0.0008148044691004698,
      "loss": 2.1179,
      "step": 665
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3978995725900899,
      "learning_rate": 0.0008142271145311783,
      "loss": 1.9918,
      "step": 666
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4104957931340299,
      "learning_rate": 0.000813649066659685,
      "loss": 2.1564,
      "step": 667
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4394619158024503,
      "learning_rate": 0.0008130703267613787,
      "loss": 2.2092,
      "step": 668
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4077279297219118,
      "learning_rate": 0.0008124908961131759,
      "loss": 2.0622,
      "step": 669
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.421630527701079,
      "learning_rate": 0.0008119107759935163,
      "loss": 2.1688,
      "step": 670
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.37253377614286004,
      "learning_rate": 0.0008113299676823615,
      "loss": 2.1567,
      "step": 671
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38728701294890094,
      "learning_rate": 0.0008107484724611911,
      "loss": 2.0839,
      "step": 672
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3741213882537734,
      "learning_rate": 0.0008101662916130006,
      "loss": 2.0985,
      "step": 673
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39457962063013574,
      "learning_rate": 0.0008095834264222979,
      "loss": 2.0533,
      "step": 674
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39033265618414303,
      "learning_rate": 0.0008089998781751009,
      "loss": 2.1072,
      "step": 675
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.426811197532262,
      "learning_rate": 0.0008084156481589349,
      "loss": 2.1098,
      "step": 676
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38775686532407383,
      "learning_rate": 0.0008078307376628291,
      "loss": 2.1887,
      "step": 677
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40628962749055075,
      "learning_rate": 0.0008072451479773143,
      "loss": 2.0429,
      "step": 678
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39484645338677016,
      "learning_rate": 0.0008066588803944195,
      "loss": 2.1371,
      "step": 679
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40812343800378276,
      "learning_rate": 0.0008060719362076697,
      "loss": 2.0913,
      "step": 680
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41807220361847275,
      "learning_rate": 0.0008054843167120826,
      "loss": 2.1173,
      "step": 681
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41358928993557204,
      "learning_rate": 0.0008048960232041663,
      "loss": 2.1467,
      "step": 682
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39303541875799736,
      "learning_rate": 0.0008043070569819153,
      "loss": 2.0594,
      "step": 683
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41879223418573647,
      "learning_rate": 0.0008037174193448089,
      "loss": 2.0664,
      "step": 684
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39870410791351263,
      "learning_rate": 0.0008031271115938077,
      "loss": 2.1508,
      "step": 685
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3842771038923521,
      "learning_rate": 0.0008025361350313505,
      "loss": 2.0664,
      "step": 686
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4505136966254904,
      "learning_rate": 0.0008019444909613523,
      "loss": 2.0767,
      "step": 687
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3895396026680714,
      "learning_rate": 0.0008013521806892003,
      "loss": 2.1507,
      "step": 688
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4118640530212591,
      "learning_rate": 0.000800759205521752,
      "loss": 2.1025,
      "step": 689
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38156642229973575,
      "learning_rate": 0.0008001655667673318,
      "loss": 2.0766,
      "step": 690
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.42282059227909896,
      "learning_rate": 0.0007995712657357279,
      "loss": 2.1327,
      "step": 691
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3782812225237595,
      "learning_rate": 0.0007989763037381904,
      "loss": 2.1648,
      "step": 692
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4221133611067203,
      "learning_rate": 0.0007983806820874271,
      "loss": 2.069,
      "step": 693
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4058660983769254,
      "learning_rate": 0.0007977844020976016,
      "loss": 2.214,
      "step": 694
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39514961152064565,
      "learning_rate": 0.00079718746508433,
      "loss": 2.065,
      "step": 695
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4054987710418916,
      "learning_rate": 0.0007965898723646776,
      "loss": 2.0464,
      "step": 696
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3661780843303393,
      "learning_rate": 0.0007959916252571573,
      "loss": 1.9666,
      "step": 697
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4290508760762804,
      "learning_rate": 0.000795392725081725,
      "loss": 2.1158,
      "step": 698
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38269342736160705,
      "learning_rate": 0.000794793173159778,
      "loss": 2.0568,
      "step": 699
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3821983264870895,
      "learning_rate": 0.0007941929708141513,
      "loss": 2.0478,
      "step": 700
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3932770180366768,
      "learning_rate": 0.0007935921193691153,
      "loss": 2.0768,
      "step": 701
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.41575843631801895,
      "learning_rate": 0.0007929906201503722,
      "loss": 2.1072,
      "step": 702
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39439610268021863,
      "learning_rate": 0.0007923884744850536,
      "loss": 2.1589,
      "step": 703
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3940287802255913,
      "learning_rate": 0.0007917856837017176,
      "loss": 2.0863,
      "step": 704
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4169739083648946,
      "learning_rate": 0.0007911822491303452,
      "loss": 2.0994,
      "step": 705
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.42259747546097753,
      "learning_rate": 0.0007905781721023382,
      "loss": 2.0785,
      "step": 706
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4066193022076506,
      "learning_rate": 0.000789973453950516,
      "loss": 2.1466,
      "step": 707
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4037952646485363,
      "learning_rate": 0.000789368096009112,
      "loss": 2.0189,
      "step": 708
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4183929775054021,
      "learning_rate": 0.0007887620996137721,
      "loss": 2.0798,
      "step": 709
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.407407790190409,
      "learning_rate": 0.0007881554661015497,
      "loss": 2.1288,
      "step": 710
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4261682905358684,
      "learning_rate": 0.0007875481968109051,
      "loss": 2.1127,
      "step": 711
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4003712235088167,
      "learning_rate": 0.0007869402930817007,
      "loss": 1.9614,
      "step": 712
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.41382644639791905,
      "learning_rate": 0.0007863317562551987,
      "loss": 2.0541,
      "step": 713
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4597037677417694,
      "learning_rate": 0.0007857225876740584,
      "loss": 2.1551,
      "step": 714
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4029678142615738,
      "learning_rate": 0.0007851127886823327,
      "loss": 1.9905,
      "step": 715
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3913448254966983,
      "learning_rate": 0.0007845023606254658,
      "loss": 2.0557,
      "step": 716
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3772298000248758,
      "learning_rate": 0.0007838913048502894,
      "loss": 2.0793,
      "step": 717
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.464727752839755,
      "learning_rate": 0.0007832796227050208,
      "loss": 2.0936,
      "step": 718
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4040640343212522,
      "learning_rate": 0.0007826673155392587,
      "loss": 2.1051,
      "step": 719
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4085897456109893,
      "learning_rate": 0.000782054384703981,
      "loss": 2.0375,
      "step": 720
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4318122015718204,
      "learning_rate": 0.0007814408315515418,
      "loss": 2.0979,
      "step": 721
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4179269711139159,
      "learning_rate": 0.0007808266574356683,
      "loss": 2.0692,
      "step": 722
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4145393870582835,
      "learning_rate": 0.0007802118637114573,
      "loss": 2.1781,
      "step": 723
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.41921782828013554,
      "learning_rate": 0.0007795964517353734,
      "loss": 2.0156,
      "step": 724
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40181929789387927,
      "learning_rate": 0.0007789804228652449,
      "loss": 2.125,
      "step": 725
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4245322487039353,
      "learning_rate": 0.0007783637784602609,
      "loss": 2.079,
      "step": 726
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4082281322325508,
      "learning_rate": 0.0007777465198809692,
      "loss": 2.1302,
      "step": 727
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4166277775165295,
      "learning_rate": 0.0007771286484892722,
      "loss": 2.0355,
      "step": 728
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4444965604087943,
      "learning_rate": 0.000776510165648425,
      "loss": 2.0563,
      "step": 729
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4111379026485223,
      "learning_rate": 0.0007758910727230311,
      "loss": 2.0886,
      "step": 730
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.45643883234005983,
      "learning_rate": 0.0007752713710790404,
      "loss": 2.005,
      "step": 731
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.42972783595652303,
      "learning_rate": 0.0007746510620837459,
      "loss": 2.1098,
      "step": 732
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.41569398838453747,
      "learning_rate": 0.0007740301471057807,
      "loss": 2.0326,
      "step": 733
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3663405162126981,
      "learning_rate": 0.0007734086275151146,
      "loss": 2.0842,
      "step": 734
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3740520168352885,
      "learning_rate": 0.0007727865046830517,
      "loss": 2.1365,
      "step": 735
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38557327192160545,
      "learning_rate": 0.0007721637799822269,
      "loss": 2.0745,
      "step": 736
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39390380256042684,
      "learning_rate": 0.0007715404547866032,
      "loss": 2.1636,
      "step": 737
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3993555624506944,
      "learning_rate": 0.0007709165304714685,
      "loss": 2.0768,
      "step": 738
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4021705746202698,
      "learning_rate": 0.0007702920084134324,
      "loss": 2.1474,
      "step": 739
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3926786951043758,
      "learning_rate": 0.0007696668899904236,
      "loss": 2.0765,
      "step": 740
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.400830437774139,
      "learning_rate": 0.0007690411765816864,
      "loss": 2.113,
      "step": 741
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39407872371048436,
      "learning_rate": 0.0007684148695677778,
      "loss": 2.0447,
      "step": 742
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.396676838736985,
      "learning_rate": 0.000767787970330565,
      "loss": 2.0779,
      "step": 743
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39435454860671726,
      "learning_rate": 0.000767160480253221,
      "loss": 2.1425,
      "step": 744
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.398471103258055,
      "learning_rate": 0.0007665324007202235,
      "loss": 2.1264,
      "step": 745
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.35509573001175465,
      "learning_rate": 0.0007659037331173498,
      "loss": 2.083,
      "step": 746
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4096654607294808,
      "learning_rate": 0.0007652744788316752,
      "loss": 2.0921,
      "step": 747
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38788145770931004,
      "learning_rate": 0.0007646446392515692,
      "loss": 2.0516,
      "step": 748
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.42997810685633,
      "learning_rate": 0.000764014215766693,
      "loss": 2.1758,
      "step": 749
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39999921227203883,
      "learning_rate": 0.0007633832097679958,
      "loss": 2.0827,
      "step": 750
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4009450696413106,
      "learning_rate": 0.0007627516226477122,
      "loss": 2.0425,
      "step": 751
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3935556658727918,
      "learning_rate": 0.0007621194557993589,
      "loss": 2.0985,
      "step": 752
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.37591714985629404,
      "learning_rate": 0.0007614867106177319,
      "loss": 2.1206,
      "step": 753
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40069163502592714,
      "learning_rate": 0.0007608533884989029,
      "loss": 2.071,
      "step": 754
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4027942165774761,
      "learning_rate": 0.0007602194908402166,
      "loss": 2.1571,
      "step": 755
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41572025048364286,
      "learning_rate": 0.0007595850190402877,
      "loss": 2.0613,
      "step": 756
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3672182597810461,
      "learning_rate": 0.0007589499744989976,
      "loss": 2.0898,
      "step": 757
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39078918359392195,
      "learning_rate": 0.0007583143586174916,
      "loss": 2.053,
      "step": 758
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4179665444134292,
      "learning_rate": 0.000757678172798175,
      "loss": 2.0873,
      "step": 759
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39117668734144584,
      "learning_rate": 0.0007570414184447112,
      "loss": 2.05,
      "step": 760
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.44711600298695553,
      "learning_rate": 0.0007564040969620179,
      "loss": 2.126,
      "step": 761
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41313609648376215,
      "learning_rate": 0.0007557662097562636,
      "loss": 2.0809,
      "step": 762
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39002135282971556,
      "learning_rate": 0.0007551277582348658,
      "loss": 2.0845,
      "step": 763
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40183055497436304,
      "learning_rate": 0.0007544887438064862,
      "loss": 2.0894,
      "step": 764
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39266747405641284,
      "learning_rate": 0.0007538491678810294,
      "loss": 2.1315,
      "step": 765
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4189960179094039,
      "learning_rate": 0.0007532090318696381,
      "loss": 2.1205,
      "step": 766
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3884039110428238,
      "learning_rate": 0.0007525683371846913,
      "loss": 2.0717,
      "step": 767
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3822977261937756,
      "learning_rate": 0.0007519270852398001,
      "loss": 2.108,
      "step": 768
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4184493168633902,
      "learning_rate": 0.000751285277449806,
      "loss": 2.1964,
      "step": 769
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.474156376729479,
      "learning_rate": 0.0007506429152307756,
      "loss": 2.1874,
      "step": 770
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3995497463324286,
      "learning_rate": 0.00075,
      "loss": 2.0363,
      "step": 771
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4135406968511035,
      "learning_rate": 0.00074935653317599,
      "loss": 2.0659,
      "step": 772
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.42677818343560153,
      "learning_rate": 0.000748712516178473,
      "loss": 2.1142,
      "step": 773
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38000404294708795,
      "learning_rate": 0.0007480679504283911,
      "loss": 2.0954,
      "step": 774
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39751666715769374,
      "learning_rate": 0.0007474228373478964,
      "loss": 2.065,
      "step": 775
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.49783649190974255,
      "learning_rate": 0.0007467771783603492,
      "loss": 2.0959,
      "step": 776
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4732477830934076,
      "learning_rate": 0.0007461309748903138,
      "loss": 2.1092,
      "step": 777
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40379246276765884,
      "learning_rate": 0.0007454842283635562,
      "loss": 2.2053,
      "step": 778
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5286393509520314,
      "learning_rate": 0.0007448369402070404,
      "loss": 2.0627,
      "step": 779
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4525376988815587,
      "learning_rate": 0.0007441891118489254,
      "loss": 2.0921,
      "step": 780
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38542009189646037,
      "learning_rate": 0.0007435407447185622,
      "loss": 2.1487,
      "step": 781
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4057441121888071,
      "learning_rate": 0.0007428918402464908,
      "loss": 2.0618,
      "step": 782
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4561643411841617,
      "learning_rate": 0.0007422423998644359,
      "loss": 2.1062,
      "step": 783
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.43770366862970933,
      "learning_rate": 0.0007415924250053055,
      "loss": 2.0845,
      "step": 784
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4171780688005812,
      "learning_rate": 0.0007409419171031865,
      "loss": 2.0692,
      "step": 785
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4160142049099186,
      "learning_rate": 0.0007402908775933419,
      "loss": 2.0427,
      "step": 786
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4079841579464199,
      "learning_rate": 0.0007396393079122077,
      "loss": 2.1108,
      "step": 787
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4118657914854939,
      "learning_rate": 0.0007389872094973896,
      "loss": 2.0322,
      "step": 788
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.42732386364892216,
      "learning_rate": 0.00073833458378766,
      "loss": 2.2064,
      "step": 789
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4452387441239027,
      "learning_rate": 0.0007376814322229544,
      "loss": 2.1937,
      "step": 790
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4055142426195713,
      "learning_rate": 0.0007370277562443688,
      "loss": 2.1687,
      "step": 791
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.412870418378717,
      "learning_rate": 0.0007363735572941564,
      "loss": 2.0493,
      "step": 792
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3877857484724122,
      "learning_rate": 0.0007357188368157236,
      "loss": 2.1695,
      "step": 793
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4249783055633799,
      "learning_rate": 0.0007350635962536284,
      "loss": 1.9674,
      "step": 794
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40576904926610013,
      "learning_rate": 0.0007344078370535756,
      "loss": 2.048,
      "step": 795
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.45561683135253067,
      "learning_rate": 0.0007337515606624148,
      "loss": 2.1244,
      "step": 796
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4037662414558983,
      "learning_rate": 0.0007330947685281362,
      "loss": 2.1621,
      "step": 797
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40457871047927363,
      "learning_rate": 0.0007324374620998682,
      "loss": 2.0627,
      "step": 798
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3779551630835026,
      "learning_rate": 0.000731779642827874,
      "loss": 1.9747,
      "step": 799
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4370066139652951,
      "learning_rate": 0.0007311213121635483,
      "loss": 2.0817,
      "step": 800
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3812752482014357,
      "learning_rate": 0.0007304624715594139,
      "loss": 2.066,
      "step": 801
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3707840916868927,
      "learning_rate": 0.0007298031224691193,
      "loss": 2.126,
      "step": 802
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4269458963377949,
      "learning_rate": 0.0007291432663474339,
      "loss": 2.0845,
      "step": 803
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3714543763536003,
      "learning_rate": 0.0007284829046502467,
      "loss": 2.0319,
      "step": 804
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3868974464112323,
      "learning_rate": 0.0007278220388345619,
      "loss": 2.0437,
      "step": 805
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.37487307146018,
      "learning_rate": 0.0007271606703584958,
      "loss": 2.0654,
      "step": 806
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.37991873968420325,
      "learning_rate": 0.000726498800681274,
      "loss": 2.0616,
      "step": 807
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3797695331481769,
      "learning_rate": 0.0007258364312632279,
      "loss": 2.0744,
      "step": 808
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3919218266453149,
      "learning_rate": 0.0007251735635657915,
      "loss": 2.0441,
      "step": 809
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4101897968185773,
      "learning_rate": 0.000724510199051498,
      "loss": 2.0038,
      "step": 810
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4021339424284055,
      "learning_rate": 0.0007238463391839769,
      "loss": 2.1167,
      "step": 811
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4181405629548766,
      "learning_rate": 0.0007231819854279508,
      "loss": 2.1425,
      "step": 812
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38650107398545513,
      "learning_rate": 0.0007225171392492316,
      "loss": 1.9964,
      "step": 813
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4011179931819134,
      "learning_rate": 0.0007218518021147182,
      "loss": 2.144,
      "step": 814
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3968928788171464,
      "learning_rate": 0.0007211859754923923,
      "loss": 2.095,
      "step": 815
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39002762207278746,
      "learning_rate": 0.0007205196608513158,
      "loss": 2.0959,
      "step": 816
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3721533985903129,
      "learning_rate": 0.0007198528596616272,
      "loss": 2.0106,
      "step": 817
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4158628349950362,
      "learning_rate": 0.0007191855733945387,
      "loss": 2.0485,
      "step": 818
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40411656011007674,
      "learning_rate": 0.0007185178035223327,
      "loss": 2.0752,
      "step": 819
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3883317464489033,
      "learning_rate": 0.0007178495515183583,
      "loss": 2.1134,
      "step": 820
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3992402765702307,
      "learning_rate": 0.000717180818857029,
      "loss": 2.0358,
      "step": 821
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40003430856580663,
      "learning_rate": 0.0007165116070138182,
      "loss": 2.1107,
      "step": 822
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4367706758230439,
      "learning_rate": 0.0007158419174652569,
      "loss": 2.0971,
      "step": 823
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37645467889485984,
      "learning_rate": 0.00071517175168893,
      "loss": 2.0932,
      "step": 824
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3891990238664826,
      "learning_rate": 0.0007145011111634732,
      "loss": 2.0445,
      "step": 825
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5000074683363651,
      "learning_rate": 0.0007138299973685694,
      "loss": 2.1755,
      "step": 826
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40813793248996694,
      "learning_rate": 0.0007131584117849459,
      "loss": 2.1078,
      "step": 827
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.42498428258907495,
      "learning_rate": 0.0007124863558943713,
      "loss": 2.0674,
      "step": 828
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4485890529639367,
      "learning_rate": 0.0007118138311796514,
      "loss": 2.0492,
      "step": 829
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.42481784416520746,
      "learning_rate": 0.0007111408391246262,
      "loss": 2.1354,
      "step": 830
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.41407996407377873,
      "learning_rate": 0.0007104673812141675,
      "loss": 2.074,
      "step": 831
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4006378492908487,
      "learning_rate": 0.0007097934589341745,
      "loss": 2.0402,
      "step": 832
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4168662345420574,
      "learning_rate": 0.0007091190737715711,
      "loss": 2.0904,
      "step": 833
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.42205811236444274,
      "learning_rate": 0.0007084442272143026,
      "loss": 2.1283,
      "step": 834
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.36710230207956296,
      "learning_rate": 0.000707768920751332,
      "loss": 2.1241,
      "step": 835
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.36347165777011897,
      "learning_rate": 0.0007070931558726373,
      "loss": 2.1071,
      "step": 836
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40721490598022897,
      "learning_rate": 0.0007064169340692076,
      "loss": 2.0746,
      "step": 837
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4245841313562892,
      "learning_rate": 0.0007057402568330407,
      "loss": 2.1436,
      "step": 838
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.41342067000340166,
      "learning_rate": 0.0007050631256571389,
      "loss": 2.1342,
      "step": 839
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3905707115953385,
      "learning_rate": 0.000704385542035506,
      "loss": 2.1383,
      "step": 840
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.42231275105990684,
      "learning_rate": 0.000703707507463144,
      "loss": 2.0909,
      "step": 841
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.396429601594896,
      "learning_rate": 0.0007030290234360505,
      "loss": 1.9708,
      "step": 842
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3818704955781174,
      "learning_rate": 0.0007023500914512139,
      "loss": 2.0593,
      "step": 843
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4040568808201668,
      "learning_rate": 0.0007016707130066116,
      "loss": 2.0117,
      "step": 844
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39532574463107834,
      "learning_rate": 0.0007009908896012055,
      "loss": 2.1206,
      "step": 845
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4012002445483962,
      "learning_rate": 0.0007003106227349399,
      "loss": 2.1103,
      "step": 846
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.36887856964764704,
      "learning_rate": 0.000699629913908737,
      "loss": 2.0842,
      "step": 847
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39299897310002163,
      "learning_rate": 0.0006989487646244943,
      "loss": 1.99,
      "step": 848
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3857576635732884,
      "learning_rate": 0.0006982671763850814,
      "loss": 1.9947,
      "step": 849
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37178117981751063,
      "learning_rate": 0.0006975851506943359,
      "loss": 2.0313,
      "step": 850
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40219197850991506,
      "learning_rate": 0.0006969026890570611,
      "loss": 2.1033,
      "step": 851
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39362845050524387,
      "learning_rate": 0.0006962197929790216,
      "loss": 2.0687,
      "step": 852
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3912695131101696,
      "learning_rate": 0.0006955364639669409,
      "loss": 2.085,
      "step": 853
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3899007230874129,
      "learning_rate": 0.0006948527035284978,
      "loss": 2.0944,
      "step": 854
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38855175592482033,
      "learning_rate": 0.0006941685131723225,
      "loss": 2.1009,
      "step": 855
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3800101178755586,
      "learning_rate": 0.0006934838944079943,
      "loss": 2.0864,
      "step": 856
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39737046968678036,
      "learning_rate": 0.0006927988487460378,
      "loss": 2.0063,
      "step": 857
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3832089161429196,
      "learning_rate": 0.0006921133776979186,
      "loss": 2.062,
      "step": 858
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4104053349086475,
      "learning_rate": 0.0006914274827760418,
      "loss": 2.1107,
      "step": 859
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3894223302444369,
      "learning_rate": 0.0006907411654937475,
      "loss": 2.1434,
      "step": 860
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39539464049588824,
      "learning_rate": 0.0006900544273653075,
      "loss": 2.0851,
      "step": 861
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4030034663520975,
      "learning_rate": 0.000689367269905922,
      "loss": 2.1036,
      "step": 862
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37974006649581665,
      "learning_rate": 0.0006886796946317168,
      "loss": 2.1168,
      "step": 863
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.40057376294569674,
      "learning_rate": 0.0006879917030597397,
      "loss": 2.0398,
      "step": 864
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3860373247673392,
      "learning_rate": 0.0006873032967079561,
      "loss": 2.1057,
      "step": 865
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3881773759235978,
      "learning_rate": 0.0006866144770952474,
      "loss": 2.072,
      "step": 866
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.390012615419441,
      "learning_rate": 0.0006859252457414067,
      "loss": 2.0827,
      "step": 867
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.414541708186444,
      "learning_rate": 0.0006852356041671351,
      "loss": 2.0916,
      "step": 868
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39064390956289824,
      "learning_rate": 0.0006845455538940394,
      "loss": 2.0771,
      "step": 869
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38410774709119305,
      "learning_rate": 0.0006838550964446276,
      "loss": 2.0686,
      "step": 870
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.42477638627192205,
      "learning_rate": 0.0006831642333423067,
      "loss": 2.1388,
      "step": 871
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.40050751161868636,
      "learning_rate": 0.000682472966111378,
      "loss": 2.0594,
      "step": 872
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.41528192307736367,
      "learning_rate": 0.0006817812962770348,
      "loss": 2.0813,
      "step": 873
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4097021904037368,
      "learning_rate": 0.0006810892253653589,
      "loss": 2.1175,
      "step": 874
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3841298761327332,
      "learning_rate": 0.0006803967549033167,
      "loss": 2.1555,
      "step": 875
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.41805182254209355,
      "learning_rate": 0.0006797038864187564,
      "loss": 2.0535,
      "step": 876
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3979801936761618,
      "learning_rate": 0.0006790106214404043,
      "loss": 2.0777,
      "step": 877
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38596829430147517,
      "learning_rate": 0.0006783169614978614,
      "loss": 2.0731,
      "step": 878
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.44209297450612656,
      "learning_rate": 0.0006776229081216001,
      "loss": 2.0644,
      "step": 879
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.43742276951203923,
      "learning_rate": 0.0006769284628429611,
      "loss": 2.0663,
      "step": 880
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4064667950273067,
      "learning_rate": 0.0006762336271941498,
      "loss": 2.1412,
      "step": 881
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.40064729148512906,
      "learning_rate": 0.0006755384027082326,
      "loss": 2.0248,
      "step": 882
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4063511715881083,
      "learning_rate": 0.0006748427909191342,
      "loss": 2.1296,
      "step": 883
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37921829883579444,
      "learning_rate": 0.0006741467933616335,
      "loss": 2.1075,
      "step": 884
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3747039326376123,
      "learning_rate": 0.0006734504115713604,
      "loss": 2.0066,
      "step": 885
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39194907996533224,
      "learning_rate": 0.0006727536470847932,
      "loss": 2.0878,
      "step": 886
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39008240379868137,
      "learning_rate": 0.000672056501439254,
      "loss": 2.0545,
      "step": 887
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37762188883552306,
      "learning_rate": 0.0006713589761729063,
      "loss": 2.0451,
      "step": 888
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38202311788964627,
      "learning_rate": 0.0006706610728247508,
      "loss": 1.9893,
      "step": 889
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.36921493694329793,
      "learning_rate": 0.0006699627929346227,
      "loss": 2.072,
      "step": 890
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3729743404079576,
      "learning_rate": 0.0006692641380431879,
      "loss": 2.1513,
      "step": 891
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3633983971797589,
      "learning_rate": 0.0006685651096919393,
      "loss": 1.9921,
      "step": 892
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.379892094316084,
      "learning_rate": 0.0006678657094231944,
      "loss": 2.1063,
      "step": 893
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.42345124000584805,
      "learning_rate": 0.0006671659387800909,
      "loss": 2.0362,
      "step": 894
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40334681671782757,
      "learning_rate": 0.000666465799306584,
      "loss": 2.0875,
      "step": 895
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38029636613394463,
      "learning_rate": 0.0006657652925474423,
      "loss": 2.1151,
      "step": 896
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38186441465320603,
      "learning_rate": 0.000665064420048245,
      "loss": 2.0744,
      "step": 897
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39925087412677623,
      "learning_rate": 0.0006643631833553785,
      "loss": 2.0718,
      "step": 898
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3684727375716771,
      "learning_rate": 0.000663661584016032,
      "loss": 2.1169,
      "step": 899
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3826787298108438,
      "learning_rate": 0.0006629596235781957,
      "loss": 2.0256,
      "step": 900
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3966966026381974,
      "learning_rate": 0.0006622573035906556,
      "loss": 2.0641,
      "step": 901
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3890043922750137,
      "learning_rate": 0.0006615546256029921,
      "loss": 1.9898,
      "step": 902
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37217946310067995,
      "learning_rate": 0.0006608515911655743,
      "loss": 2.1032,
      "step": 903
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3870869942945224,
      "learning_rate": 0.0006601482018295591,
      "loss": 2.039,
      "step": 904
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3958482498662257,
      "learning_rate": 0.0006594444591468851,
      "loss": 2.1487,
      "step": 905
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38971110973148726,
      "learning_rate": 0.0006587403646702713,
      "loss": 2.0761,
      "step": 906
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40353632935390443,
      "learning_rate": 0.0006580359199532126,
      "loss": 2.0223,
      "step": 907
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40648284164682874,
      "learning_rate": 0.000657331126549977,
      "loss": 1.9957,
      "step": 908
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37302875092490806,
      "learning_rate": 0.0006566259860156014,
      "loss": 2.0542,
      "step": 909
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40844725828575495,
      "learning_rate": 0.0006559204999058888,
      "loss": 1.9921,
      "step": 910
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40345669380521887,
      "learning_rate": 0.0006552146697774049,
      "loss": 2.0838,
      "step": 911
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3911798086627499,
      "learning_rate": 0.0006545084971874737,
      "loss": 2.0045,
      "step": 912
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3821881244313704,
      "learning_rate": 0.0006538019836941758,
      "loss": 2.1198,
      "step": 913
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37570647386491474,
      "learning_rate": 0.0006530951308563431,
      "loss": 2.0918,
      "step": 914
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3964749268905876,
      "learning_rate": 0.0006523879402335567,
      "loss": 2.0782,
      "step": 915
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39974209260981364,
      "learning_rate": 0.0006516804133861429,
      "loss": 2.1768,
      "step": 916
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.36870093838511675,
      "learning_rate": 0.0006509725518751698,
      "loss": 1.9838,
      "step": 917
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3755903809767363,
      "learning_rate": 0.0006502643572624438,
      "loss": 2.0831,
      "step": 918
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3950051081361919,
      "learning_rate": 0.0006495558311105064,
      "loss": 2.0396,
      "step": 919
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.42160486915413486,
      "learning_rate": 0.0006488469749826305,
      "loss": 2.1166,
      "step": 920
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.41047792727686183,
      "learning_rate": 0.000648137790442817,
      "loss": 2.0326,
      "step": 921
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37626502184773275,
      "learning_rate": 0.0006474282790557916,
      "loss": 2.0584,
      "step": 922
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.42242538079694153,
      "learning_rate": 0.000646718442387001,
      "loss": 2.0904,
      "step": 923
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3787846320140669,
      "learning_rate": 0.0006460082820026094,
      "loss": 2.0891,
      "step": 924
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3738209271747003,
      "learning_rate": 0.0006452977994694959,
      "loss": 2.1259,
      "step": 925
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38836544676043233,
      "learning_rate": 0.0006445869963552496,
      "loss": 2.0856,
      "step": 926
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.432498635041683,
      "learning_rate": 0.0006438758742281672,
      "loss": 2.0784,
      "step": 927
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4025248500724854,
      "learning_rate": 0.0006431644346572495,
      "loss": 2.1253,
      "step": 928
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3702175226444172,
      "learning_rate": 0.0006424526792121974,
      "loss": 2.0104,
      "step": 929
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3914770616040191,
      "learning_rate": 0.0006417406094634089,
      "loss": 2.0477,
      "step": 930
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39464922477185266,
      "learning_rate": 0.0006410282269819756,
      "loss": 2.0645,
      "step": 931
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4021191968588235,
      "learning_rate": 0.0006403155333396787,
      "loss": 2.004,
      "step": 932
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.35955644450777796,
      "learning_rate": 0.0006396025301089863,
      "loss": 2.1574,
      "step": 933
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.42243023814347236,
      "learning_rate": 0.0006388892188630493,
      "loss": 2.1709,
      "step": 934
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4093154700997495,
      "learning_rate": 0.0006381756011756982,
      "loss": 2.1339,
      "step": 935
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3892373436400833,
      "learning_rate": 0.0006374616786214403,
      "loss": 2.0449,
      "step": 936
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.42342307726961376,
      "learning_rate": 0.0006367474527754544,
      "loss": 2.0417,
      "step": 937
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.36536073777761313,
      "learning_rate": 0.0006360329252135894,
      "loss": 2.0549,
      "step": 938
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3771460118702228,
      "learning_rate": 0.0006353180975123595,
      "loss": 2.0542,
      "step": 939
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38507437020336094,
      "learning_rate": 0.0006346029712489413,
      "loss": 2.0816,
      "step": 940
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39315081409777525,
      "learning_rate": 0.0006338875480011698,
      "loss": 2.1158,
      "step": 941
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3836973683035294,
      "learning_rate": 0.0006331718293475357,
      "loss": 2.0276,
      "step": 942
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3877615940304104,
      "learning_rate": 0.0006324558168671811,
      "loss": 2.1674,
      "step": 943
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38261997161400463,
      "learning_rate": 0.0006317395121398968,
      "loss": 2.0782,
      "step": 944
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3891386916290951,
      "learning_rate": 0.0006310229167461179,
      "loss": 2.0985,
      "step": 945
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.400252896700953,
      "learning_rate": 0.0006303060322669214,
      "loss": 2.1043,
      "step": 946
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.45557484428578415,
      "learning_rate": 0.0006295888602840214,
      "loss": 1.9991,
      "step": 947
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38973147532545416,
      "learning_rate": 0.0006288714023797671,
      "loss": 2.0817,
      "step": 948
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3715945834942121,
      "learning_rate": 0.000628153660137138,
      "loss": 2.0545,
      "step": 949
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.42524076679572037,
      "learning_rate": 0.0006274356351397413,
      "loss": 2.0082,
      "step": 950
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39060454739730854,
      "learning_rate": 0.0006267173289718079,
      "loss": 1.991,
      "step": 951
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4030702925252703,
      "learning_rate": 0.000625998743218189,
      "loss": 2.098,
      "step": 952
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3826072843628502,
      "learning_rate": 0.000625279879464353,
      "loss": 2.0871,
      "step": 953
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4490650716853278,
      "learning_rate": 0.000624560739296381,
      "loss": 2.0724,
      "step": 954
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.43205369271883093,
      "learning_rate": 0.0006238413243009648,
      "loss": 2.0494,
      "step": 955
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3759053320724647,
      "learning_rate": 0.000623121636065402,
      "loss": 1.994,
      "step": 956
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4770843942791053,
      "learning_rate": 0.0006224016761775933,
      "loss": 2.0573,
      "step": 957
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.413493843330154,
      "learning_rate": 0.0006216814462260386,
      "loss": 2.1699,
      "step": 958
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4315346818686379,
      "learning_rate": 0.0006209609477998338,
      "loss": 2.1268,
      "step": 959
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3970515845281634,
      "learning_rate": 0.0006202401824886674,
      "loss": 2.0834,
      "step": 960
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38136896351390764,
      "learning_rate": 0.0006195191518828162,
      "loss": 2.0526,
      "step": 961
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38162885322444706,
      "learning_rate": 0.0006187978575731427,
      "loss": 2.0484,
      "step": 962
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37933457405876264,
      "learning_rate": 0.0006180763011510911,
      "loss": 2.0684,
      "step": 963
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37233756118729466,
      "learning_rate": 0.000617354484208684,
      "loss": 2.066,
      "step": 964
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3857626964603683,
      "learning_rate": 0.0006166324083385189,
      "loss": 2.0383,
      "step": 965
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.36541473253197176,
      "learning_rate": 0.0006159100751337642,
      "loss": 2.0369,
      "step": 966
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39704322854799046,
      "learning_rate": 0.0006151874861881565,
      "loss": 2.0086,
      "step": 967
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3816171059296872,
      "learning_rate": 0.0006144646430959964,
      "loss": 2.0813,
      "step": 968
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39872577576826673,
      "learning_rate": 0.0006137415474521454,
      "loss": 2.105,
      "step": 969
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39840166978862457,
      "learning_rate": 0.0006130182008520222,
      "loss": 2.0492,
      "step": 970
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38704170220216255,
      "learning_rate": 0.000612294604891599,
      "loss": 2.0657,
      "step": 971
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3940867805291671,
      "learning_rate": 0.0006115707611673986,
      "loss": 2.1195,
      "step": 972
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3768389286742269,
      "learning_rate": 0.0006108466712764902,
      "loss": 2.0121,
      "step": 973
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4377456322345117,
      "learning_rate": 0.0006101223368164858,
      "loss": 2.0853,
      "step": 974
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39595456080467384,
      "learning_rate": 0.0006093977593855375,
      "loss": 2.0422,
      "step": 975
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3918104730794066,
      "learning_rate": 0.0006086729405823335,
      "loss": 2.0817,
      "step": 976
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.42150003197381186,
      "learning_rate": 0.0006079478820060943,
      "loss": 2.091,
      "step": 977
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3994881960744599,
      "learning_rate": 0.0006072225852565695,
      "loss": 2.0582,
      "step": 978
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3752439998540819,
      "learning_rate": 0.0006064970519340341,
      "loss": 2.1636,
      "step": 979
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3888878738808519,
      "learning_rate": 0.0006057712836392856,
      "loss": 2.0026,
      "step": 980
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.400612208645536,
      "learning_rate": 0.0006050452819736389,
      "loss": 2.0726,
      "step": 981
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4028310977318091,
      "learning_rate": 0.000604319048538925,
      "loss": 2.0527,
      "step": 982
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4145777142327281,
      "learning_rate": 0.0006035925849374855,
      "loss": 2.1031,
      "step": 983
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3732032562788015,
      "learning_rate": 0.0006028658927721697,
      "loss": 2.0917,
      "step": 984
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.44229531672875483,
      "learning_rate": 0.0006021389736463321,
      "loss": 2.0784,
      "step": 985
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.44058129760418074,
      "learning_rate": 0.0006014118291638271,
      "loss": 2.0354,
      "step": 986
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3918567231818261,
      "learning_rate": 0.0006006844609290065,
      "loss": 2.1136,
      "step": 987
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.47926712654016784,
      "learning_rate": 0.0005999568705467161,
      "loss": 2.1505,
      "step": 988
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38467245158331115,
      "learning_rate": 0.0005992290596222915,
      "loss": 2.0852,
      "step": 989
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3853672299677856,
      "learning_rate": 0.0005985010297615551,
      "loss": 2.066,
      "step": 990
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3821178088586244,
      "learning_rate": 0.0005977727825708123,
      "loss": 2.066,
      "step": 991
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37479219446884815,
      "learning_rate": 0.0005970443196568478,
      "loss": 2.024,
      "step": 992
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3681450587997742,
      "learning_rate": 0.0005963156426269227,
      "loss": 1.9642,
      "step": 993
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3786853423299072,
      "learning_rate": 0.0005955867530887702,
      "loss": 2.0345,
      "step": 994
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37605528843271885,
      "learning_rate": 0.0005948576526505923,
      "loss": 2.053,
      "step": 995
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.362230885014747,
      "learning_rate": 0.0005941283429210568,
      "loss": 2.0681,
      "step": 996
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3704565095806257,
      "learning_rate": 0.0005933988255092926,
      "loss": 2.0907,
      "step": 997
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.376961059128568,
      "learning_rate": 0.0005926691020248874,
      "loss": 2.0133,
      "step": 998
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3889417028445197,
      "learning_rate": 0.0005919391740778833,
      "loss": 2.0406,
      "step": 999
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3813070165382889,
      "learning_rate": 0.0005912090432787736,
      "loss": 2.1121,
      "step": 1000
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38265674159878815,
      "learning_rate": 0.000590478711238499,
      "loss": 1.9657,
      "step": 1001
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.44101557695464133,
      "learning_rate": 0.0005897481795684446,
      "loss": 2.0892,
      "step": 1002
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39220644954183576,
      "learning_rate": 0.0005890174498804355,
      "loss": 2.0145,
      "step": 1003
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39889649911998093,
      "learning_rate": 0.0005882865237867339,
      "loss": 2.0643,
      "step": 1004
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3823829724638787,
      "learning_rate": 0.0005875554029000353,
      "loss": 2.0517,
      "step": 1005
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3604800195157253,
      "learning_rate": 0.0005868240888334653,
      "loss": 1.9844,
      "step": 1006
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.40689643149943183,
      "learning_rate": 0.0005860925832005753,
      "loss": 1.9534,
      "step": 1007
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.40658491233779875,
      "learning_rate": 0.0005853608876153395,
      "loss": 2.0913,
      "step": 1008
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.36253416203527017,
      "learning_rate": 0.0005846290036921512,
      "loss": 2.0619,
      "step": 1009
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.36595320763847516,
      "learning_rate": 0.0005838969330458195,
      "loss": 1.9886,
      "step": 1010
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.43123809476349406,
      "learning_rate": 0.0005831646772915651,
      "loss": 2.179,
      "step": 1011
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3750893201164881,
      "learning_rate": 0.0005824322380450173,
      "loss": 2.0495,
      "step": 1012
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3761922425131606,
      "learning_rate": 0.0005816996169222102,
      "loss": 2.1211,
      "step": 1013
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.35595123041983523,
      "learning_rate": 0.0005809668155395793,
      "loss": 2.0846,
      "step": 1014
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37045918209550316,
      "learning_rate": 0.0005802338355139578,
      "loss": 2.086,
      "step": 1015
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37240140821892886,
      "learning_rate": 0.0005795006784625728,
      "loss": 2.0953,
      "step": 1016
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3709750183955661,
      "learning_rate": 0.0005787673460030423,
      "loss": 2.0746,
      "step": 1017
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38036491738851874,
      "learning_rate": 0.000578033839753371,
      "loss": 2.0085,
      "step": 1018
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38650854405136187,
      "learning_rate": 0.0005773001613319476,
      "loss": 2.0251,
      "step": 1019
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39191507463689035,
      "learning_rate": 0.00057656631235754,
      "loss": 2.0704,
      "step": 1020
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.40631697276336753,
      "learning_rate": 0.0005758322944492929,
      "loss": 2.0533,
      "step": 1021
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39135365936483907,
      "learning_rate": 0.0005750981092267237,
      "loss": 2.0731,
      "step": 1022
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38302333716190207,
      "learning_rate": 0.0005743637583097183,
      "loss": 2.0247,
      "step": 1023
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3691964197977231,
      "learning_rate": 0.0005736292433185291,
      "loss": 2.0367,
      "step": 1024
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37929084228060217,
      "learning_rate": 0.0005728945658737699,
      "loss": 2.1917,
      "step": 1025
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37633704941473894,
      "learning_rate": 0.0005721597275964133,
      "loss": 2.0965,
      "step": 1026
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3818228889666313,
      "learning_rate": 0.0005714247301077865,
      "loss": 2.0745,
      "step": 1027
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38048705133430055,
      "learning_rate": 0.0005706895750295682,
      "loss": 2.084,
      "step": 1028
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3809140237243215,
      "learning_rate": 0.0005699542639837844,
      "loss": 2.0572,
      "step": 1029
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38549252991415855,
      "learning_rate": 0.0005692187985928055,
      "loss": 2.0307,
      "step": 1030
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.41857314501885395,
      "learning_rate": 0.0005684831804793427,
      "loss": 2.019,
      "step": 1031
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37633656537791005,
      "learning_rate": 0.0005677474112664438,
      "loss": 2.0992,
      "step": 1032
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.35709902125175136,
      "learning_rate": 0.0005670114925774899,
      "loss": 2.0504,
      "step": 1033
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3733336917484826,
      "learning_rate": 0.0005662754260361924,
      "loss": 2.1233,
      "step": 1034
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39228195026078594,
      "learning_rate": 0.0005655392132665884,
      "loss": 2.126,
      "step": 1035
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38988174538083653,
      "learning_rate": 0.000564802855893038,
      "loss": 2.0389,
      "step": 1036
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4173099323576435,
      "learning_rate": 0.0005640663555402198,
      "loss": 2.0554,
      "step": 1037
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38851127034942157,
      "learning_rate": 0.0005633297138331285,
      "loss": 2.0023,
      "step": 1038
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3762864281175693,
      "learning_rate": 0.0005625929323970705,
      "loss": 2.0574,
      "step": 1039
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.373813999805662,
      "learning_rate": 0.0005618560128576603,
      "loss": 1.9805,
      "step": 1040
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39519944554222486,
      "learning_rate": 0.0005611189568408173,
      "loss": 2.0634,
      "step": 1041
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38740348387233825,
      "learning_rate": 0.0005603817659727619,
      "loss": 2.0828,
      "step": 1042
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3972438439338267,
      "learning_rate": 0.0005596444418800121,
      "loss": 1.9862,
      "step": 1043
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3837315500218148,
      "learning_rate": 0.0005589069861893798,
      "loss": 1.9901,
      "step": 1044
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.362659012863914,
      "learning_rate": 0.0005581694005279673,
      "loss": 2.0757,
      "step": 1045
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.42531871875095256,
      "learning_rate": 0.0005574316865231637,
      "loss": 2.146,
      "step": 1046
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.41044483661808273,
      "learning_rate": 0.0005566938458026411,
      "loss": 2.0394,
      "step": 1047
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4149103612361504,
      "learning_rate": 0.0005559558799943514,
      "loss": 2.097,
      "step": 1048
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3961482928534007,
      "learning_rate": 0.0005552177907265223,
      "loss": 2.1265,
      "step": 1049
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39513083862528225,
      "learning_rate": 0.000554479579627654,
      "loss": 2.0266,
      "step": 1050
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.36445995869470044,
      "learning_rate": 0.0005537412483265157,
      "loss": 2.0908,
      "step": 1051
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.385001324123857,
      "learning_rate": 0.0005530027984521413,
      "loss": 2.0667,
      "step": 1052
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4117986165040444,
      "learning_rate": 0.0005522642316338268,
      "loss": 2.0042,
      "step": 1053
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.36750221216309314,
      "learning_rate": 0.0005515255495011259,
      "loss": 1.9965,
      "step": 1054
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3549230763157406,
      "learning_rate": 0.0005507867536838472,
      "loss": 2.0341,
      "step": 1055
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39804931497797,
      "learning_rate": 0.0005500478458120492,
      "loss": 2.0087,
      "step": 1056
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3834964778817839,
      "learning_rate": 0.0005493088275160387,
      "loss": 2.1175,
      "step": 1057
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.36582488064082785,
      "learning_rate": 0.0005485697004263657,
      "loss": 2.0706,
      "step": 1058
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37321647274935815,
      "learning_rate": 0.0005478304661738199,
      "loss": 2.112,
      "step": 1059
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3789479187292909,
      "learning_rate": 0.0005470911263894279,
      "loss": 1.9693,
      "step": 1060
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.387740843345982,
      "learning_rate": 0.0005463516827044491,
      "loss": 2.0479,
      "step": 1061
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39377587209236836,
      "learning_rate": 0.000545612136750372,
      "loss": 2.097,
      "step": 1062
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3677419128697954,
      "learning_rate": 0.0005448724901589107,
      "loss": 2.047,
      "step": 1063
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.349142045196009,
      "learning_rate": 0.0005441327445620014,
      "loss": 2.0974,
      "step": 1064
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39637380493123137,
      "learning_rate": 0.0005433929015917988,
      "loss": 2.0145,
      "step": 1065
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.36479761525462995,
      "learning_rate": 0.0005426529628806724,
      "loss": 1.9651,
      "step": 1066
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37466138082133843,
      "learning_rate": 0.0005419129300612029,
      "loss": 1.9828,
      "step": 1067
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37330223945138175,
      "learning_rate": 0.000541172804766179,
      "loss": 2.0329,
      "step": 1068
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4081097321613954,
      "learning_rate": 0.0005404325886285927,
      "loss": 1.92,
      "step": 1069
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38724563441980664,
      "learning_rate": 0.000539692283281637,
      "loss": 2.0904,
      "step": 1070
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38223436739727557,
      "learning_rate": 0.0005389518903587017,
      "loss": 2.0575,
      "step": 1071
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.40836484834837844,
      "learning_rate": 0.0005382114114933695,
      "loss": 1.9562,
      "step": 1072
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37510520777367057,
      "learning_rate": 0.0005374708483194132,
      "loss": 1.9825,
      "step": 1073
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4176767490850469,
      "learning_rate": 0.000536730202470791,
      "loss": 2.0642,
      "step": 1074
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3654932043510428,
      "learning_rate": 0.0005359894755816443,
      "loss": 2.1059,
      "step": 1075
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37945404692099105,
      "learning_rate": 0.0005352486692862926,
      "loss": 2.0433,
      "step": 1076
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3764600619737257,
      "learning_rate": 0.0005345077852192307,
      "loss": 1.9826,
      "step": 1077
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38136489129530293,
      "learning_rate": 0.0005337668250151254,
      "loss": 2.0889,
      "step": 1078
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3717399452259466,
      "learning_rate": 0.0005330257903088111,
      "loss": 2.0237,
      "step": 1079
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3961640370349776,
      "learning_rate": 0.000532284682735287,
      "loss": 2.1317,
      "step": 1080
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3787511540859223,
      "learning_rate": 0.0005315435039297124,
      "loss": 2.0111,
      "step": 1081
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38707504602616344,
      "learning_rate": 0.0005308022555274046,
      "loss": 2.0595,
      "step": 1082
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3798253026121625,
      "learning_rate": 0.0005300609391638336,
      "loss": 2.0834,
      "step": 1083
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3694839218389494,
      "learning_rate": 0.0005293195564746201,
      "loss": 2.0431,
      "step": 1084
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38323472639861755,
      "learning_rate": 0.0005285781090955304,
      "loss": 2.0868,
      "step": 1085
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3764898754770585,
      "learning_rate": 0.0005278365986624743,
      "loss": 2.0208,
      "step": 1086
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3889711234549285,
      "learning_rate": 0.0005270950268115001,
      "loss": 2.1569,
      "step": 1087
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38669539721858903,
      "learning_rate": 0.0005263533951787919,
      "loss": 2.0587,
      "step": 1088
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3877109319803891,
      "learning_rate": 0.000525611705400666,
      "loss": 2.1034,
      "step": 1089
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38966386090493355,
      "learning_rate": 0.0005248699591135664,
      "loss": 2.0871,
      "step": 1090
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3994180583958,
      "learning_rate": 0.0005241281579540618,
      "loss": 2.0513,
      "step": 1091
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4618417069383808,
      "learning_rate": 0.0005233863035588427,
      "loss": 2.0925,
      "step": 1092
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.381026213352323,
      "learning_rate": 0.0005226443975647161,
      "loss": 2.0494,
      "step": 1093
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39086983882894116,
      "learning_rate": 0.0005219024416086036,
      "loss": 2.0745,
      "step": 1094
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3921347327563542,
      "learning_rate": 0.0005211604373275366,
      "loss": 2.0889,
      "step": 1095
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.364832930652066,
      "learning_rate": 0.0005204183863586533,
      "loss": 2.0498,
      "step": 1096
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38176604930758046,
      "learning_rate": 0.0005196762903391951,
      "loss": 2.0704,
      "step": 1097
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3724921086403476,
      "learning_rate": 0.0005189341509065023,
      "loss": 2.1077,
      "step": 1098
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3988428090111161,
      "learning_rate": 0.0005181919696980112,
      "loss": 2.0699,
      "step": 1099
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.35551972870254195,
      "learning_rate": 0.0005174497483512506,
      "loss": 2.076,
      "step": 1100
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.35769736255139206,
      "learning_rate": 0.0005167074885038374,
      "loss": 2.054,
      "step": 1101
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3794052060845826,
      "learning_rate": 0.0005159651917934735,
      "loss": 1.9721,
      "step": 1102
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38363708834090376,
      "learning_rate": 0.0005152228598579428,
      "loss": 2.0548,
      "step": 1103
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3784728321174484,
      "learning_rate": 0.000514480494335106,
      "loss": 2.0198,
      "step": 1104
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3970111561976389,
      "learning_rate": 0.0005137380968628983,
      "loss": 2.0802,
      "step": 1105
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3911312557672793,
      "learning_rate": 0.0005129956690793255,
      "loss": 2.0899,
      "step": 1106
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38168643769603827,
      "learning_rate": 0.0005122532126224601,
      "loss": 2.0548,
      "step": 1107
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.384341975045793,
      "learning_rate": 0.0005115107291304378,
      "loss": 2.0289,
      "step": 1108
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3889388632513834,
      "learning_rate": 0.0005107682202414544,
      "loss": 2.0868,
      "step": 1109
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4065916152164369,
      "learning_rate": 0.0005100256875937613,
      "loss": 2.1167,
      "step": 1110
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37684828167727397,
      "learning_rate": 0.0005092831328256625,
      "loss": 2.0638,
      "step": 1111
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39533741217783075,
      "learning_rate": 0.0005085405575755105,
      "loss": 2.1113,
      "step": 1112
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4404045687784614,
      "learning_rate": 0.0005077979634817034,
      "loss": 2.0655,
      "step": 1113
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4836528058248771,
      "learning_rate": 0.0005070553521826808,
      "loss": 2.0658,
      "step": 1114
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37834485109030186,
      "learning_rate": 0.00050631272531692,
      "loss": 1.9902,
      "step": 1115
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.43144438023809695,
      "learning_rate": 0.0005055700845229327,
      "loss": 2.099,
      "step": 1116
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4557867569454014,
      "learning_rate": 0.000504827431439262,
      "loss": 2.0869,
      "step": 1117
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38428206142488835,
      "learning_rate": 0.000504084767704477,
      "loss": 2.0669,
      "step": 1118
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37674449339503724,
      "learning_rate": 0.0005033420949571712,
      "loss": 2.0898,
      "step": 1119
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39309531092248057,
      "learning_rate": 0.0005025994148359574,
      "loss": 1.9956,
      "step": 1120
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.49418985186171505,
      "learning_rate": 0.0005018567289794651,
      "loss": 1.9985,
      "step": 1121
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38315477885880384,
      "learning_rate": 0.0005011140390263362,
      "loss": 2.0848,
      "step": 1122
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3835129828512854,
      "learning_rate": 0.0005003713466152218,
      "loss": 2.0427,
      "step": 1123
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.40608388700929676,
      "learning_rate": 0.0004996286533847783,
      "loss": 1.9305,
      "step": 1124
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.41233663230784623,
      "learning_rate": 0.000498885960973664,
      "loss": 2.0124,
      "step": 1125
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3788806489401924,
      "learning_rate": 0.000498143271020535,
      "loss": 2.0693,
      "step": 1126
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.35619967893688936,
      "learning_rate": 0.0004974005851640428,
      "loss": 2.1119,
      "step": 1127
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4484412525483955,
      "learning_rate": 0.000496657905042829,
      "loss": 2.2017,
      "step": 1128
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37465392646227935,
      "learning_rate": 0.0004959152322955232,
      "loss": 2.0769,
      "step": 1129
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3809792174940599,
      "learning_rate": 0.0004951725685607382,
      "loss": 1.9876,
      "step": 1130
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37520139619220544,
      "learning_rate": 0.0004944299154770673,
      "loss": 1.9434,
      "step": 1131
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38382110184419915,
      "learning_rate": 0.0004936872746830802,
      "loss": 2.0376,
      "step": 1132
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.41511407980628806,
      "learning_rate": 0.0004929446478173195,
      "loss": 2.0197,
      "step": 1133
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3784752317910232,
      "learning_rate": 0.0004922020365182968,
      "loss": 2.1224,
      "step": 1134
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4001924888065337,
      "learning_rate": 0.0004914594424244897,
      "loss": 2.1024,
      "step": 1135
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3875992458360889,
      "learning_rate": 0.0004907168671743376,
      "loss": 2.0719,
      "step": 1136
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3913632294734979,
      "learning_rate": 0.0004899743124062387,
      "loss": 2.0716,
      "step": 1137
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4466398183161396,
      "learning_rate": 0.0004892317797585456,
      "loss": 1.9921,
      "step": 1138
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.40996218600385165,
      "learning_rate": 0.0004884892708695623,
      "loss": 2.0645,
      "step": 1139
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38184815000677524,
      "learning_rate": 0.0004877467873775402,
      "loss": 1.9675,
      "step": 1140
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4407305484154266,
      "learning_rate": 0.00048700433092067473,
      "loss": 2.0536,
      "step": 1141
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.47657006655416073,
      "learning_rate": 0.0004862619031371019,
      "loss": 2.0868,
      "step": 1142
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.41127866623572096,
      "learning_rate": 0.0004855195056648942,
      "loss": 2.1045,
      "step": 1143
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4293286425552158,
      "learning_rate": 0.00048477714014205734,
      "loss": 2.0035,
      "step": 1144
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4876206780954624,
      "learning_rate": 0.00048403480820652644,
      "loss": 2.0229,
      "step": 1145
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3872905680324589,
      "learning_rate": 0.0004832925114961629,
      "loss": 2.057,
      "step": 1146
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37161835337551863,
      "learning_rate": 0.0004825502516487497,
      "loss": 2.0102,
      "step": 1147
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.458437152266594,
      "learning_rate": 0.00048180803030198896,
      "loss": 2.1394,
      "step": 1148
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4392828024503874,
      "learning_rate": 0.0004810658490934979,
      "loss": 2.0417,
      "step": 1149
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.41234541009002407,
      "learning_rate": 0.000480323709660805,
      "loss": 1.9968,
      "step": 1150
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38581604265645775,
      "learning_rate": 0.0004795816136413467,
      "loss": 2.0836,
      "step": 1151
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4611021728037787,
      "learning_rate": 0.00047883956267246353,
      "loss": 2.0051,
      "step": 1152
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.49202031008191077,
      "learning_rate": 0.00047809755839139657,
      "loss": 2.0288,
      "step": 1153
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3927620898862031,
      "learning_rate": 0.0004773556024352841,
      "loss": 2.0638,
      "step": 1154
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39203735905266535,
      "learning_rate": 0.00047661369644115754,
      "loss": 2.1594,
      "step": 1155
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4114702894945536,
      "learning_rate": 0.0004758718420459383,
      "loss": 1.9769,
      "step": 1156
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3941467109003324,
      "learning_rate": 0.0004751300408864339,
      "loss": 2.0742,
      "step": 1157
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38329490881873884,
      "learning_rate": 0.00047438829459933414,
      "loss": 2.0284,
      "step": 1158
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3896960429429438,
      "learning_rate": 0.0004736466048212082,
      "loss": 2.0469,
      "step": 1159
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3926606879521216,
      "learning_rate": 0.0004729049731885002,
      "loss": 2.061,
      "step": 1160
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3692591243760392,
      "learning_rate": 0.000472163401337526,
      "loss": 1.9586,
      "step": 1161
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.36787070389396076,
      "learning_rate": 0.00047142189090446985,
      "loss": 1.9974,
      "step": 1162
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3681372788821837,
      "learning_rate": 0.0004706804435253802,
      "loss": 2.0144,
      "step": 1163
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39599434367732717,
      "learning_rate": 0.0004699390608361665,
      "loss": 2.0524,
      "step": 1164
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3851176133076325,
      "learning_rate": 0.0004691977444725955,
      "loss": 1.9864,
      "step": 1165
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3902652045352933,
      "learning_rate": 0.0004684564960702877,
      "loss": 2.0896,
      "step": 1166
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38207609918003327,
      "learning_rate": 0.0004677153172647131,
      "loss": 2.1096,
      "step": 1167
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38519780603583254,
      "learning_rate": 0.00046697420969118894,
      "loss": 2.0153,
      "step": 1168
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37736670806980493,
      "learning_rate": 0.00046623317498487466,
      "loss": 2.084,
      "step": 1169
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3727244761529184,
      "learning_rate": 0.0004654922147807694,
      "loss": 2.0455,
      "step": 1170
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36792970394693286,
      "learning_rate": 0.00046475133071370757,
      "loss": 1.9323,
      "step": 1171
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.40494398462562703,
      "learning_rate": 0.00046401052441835574,
      "loss": 2.1142,
      "step": 1172
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36686965184021336,
      "learning_rate": 0.000463269797529209,
      "loss": 2.0333,
      "step": 1173
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3636945898512219,
      "learning_rate": 0.00046252915168058697,
      "loss": 1.9609,
      "step": 1174
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37794880924901997,
      "learning_rate": 0.0004617885885066305,
      "loss": 2.0278,
      "step": 1175
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39472306157720344,
      "learning_rate": 0.0004610481096412984,
      "loss": 2.0937,
      "step": 1176
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.42592399218449317,
      "learning_rate": 0.000460307716718363,
      "loss": 2.0464,
      "step": 1177
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.406410152834391,
      "learning_rate": 0.0004595674113714074,
      "loss": 2.0357,
      "step": 1178
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3870041578532736,
      "learning_rate": 0.0004588271952338212,
      "loss": 2.0072,
      "step": 1179
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4020828786871314,
      "learning_rate": 0.00045808706993879714,
      "loss": 1.9477,
      "step": 1180
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.40446562581100315,
      "learning_rate": 0.00045734703711932767,
      "loss": 2.1,
      "step": 1181
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.402232192470836,
      "learning_rate": 0.0004566070984082013,
      "loss": 2.1036,
      "step": 1182
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3854084648409976,
      "learning_rate": 0.00045586725543799865,
      "loss": 2.095,
      "step": 1183
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4141337247282251,
      "learning_rate": 0.00045512750984108937,
      "loss": 2.0856,
      "step": 1184
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3999485514916714,
      "learning_rate": 0.000454387863249628,
      "loss": 2.061,
      "step": 1185
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.386037510832861,
      "learning_rate": 0.00045364831729555096,
      "loss": 2.0619,
      "step": 1186
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39850194895680385,
      "learning_rate": 0.0004529088736105721,
      "loss": 2.1487,
      "step": 1187
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3761027930041069,
      "learning_rate": 0.0004521695338261802,
      "loss": 2.0908,
      "step": 1188
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4018613143805122,
      "learning_rate": 0.0004514302995736344,
      "loss": 2.0104,
      "step": 1189
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3750150340389589,
      "learning_rate": 0.0004506911724839613,
      "loss": 2.0863,
      "step": 1190
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3558370977831586,
      "learning_rate": 0.0004499521541879508,
      "loss": 2.0947,
      "step": 1191
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3745361212777713,
      "learning_rate": 0.00044921324631615303,
      "loss": 2.0683,
      "step": 1192
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37335591651757366,
      "learning_rate": 0.0004484744504988742,
      "loss": 2.0587,
      "step": 1193
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4104109333137673,
      "learning_rate": 0.00044773576836617336,
      "loss": 2.0333,
      "step": 1194
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3732594385631858,
      "learning_rate": 0.0004469972015478588,
      "loss": 2.0194,
      "step": 1195
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38142161172698674,
      "learning_rate": 0.0004462587516734844,
      "loss": 1.9152,
      "step": 1196
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39384541454736594,
      "learning_rate": 0.00044552042037234596,
      "loss": 2.1585,
      "step": 1197
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3972114209172975,
      "learning_rate": 0.00044478220927347774,
      "loss": 2.0581,
      "step": 1198
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3637484341942612,
      "learning_rate": 0.00044404412000564875,
      "loss": 2.0513,
      "step": 1199
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3737484414186412,
      "learning_rate": 0.000443306154197359,
      "loss": 2.0658,
      "step": 1200
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39180502019311647,
      "learning_rate": 0.00044256831347683646,
      "loss": 2.1099,
      "step": 1201
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37281065276991604,
      "learning_rate": 0.0004418305994720328,
      "loss": 2.0532,
      "step": 1202
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3835461935651156,
      "learning_rate": 0.0004410930138106203,
      "loss": 1.9694,
      "step": 1203
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3941636129048084,
      "learning_rate": 0.000440355558119988,
      "loss": 2.0716,
      "step": 1204
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3588662709360116,
      "learning_rate": 0.00043961823402723814,
      "loss": 2.0538,
      "step": 1205
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3932926477589674,
      "learning_rate": 0.0004388810431591829,
      "loss": 2.0224,
      "step": 1206
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38553618456248084,
      "learning_rate": 0.0004381439871423398,
      "loss": 2.113,
      "step": 1207
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37658693222404444,
      "learning_rate": 0.00043740706760292966,
      "loss": 2.0327,
      "step": 1208
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3903720832658906,
      "learning_rate": 0.0004366702861668716,
      "loss": 2.0824,
      "step": 1209
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4964901947990468,
      "learning_rate": 0.00043593364445978036,
      "loss": 2.0455,
      "step": 1210
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37733981323150745,
      "learning_rate": 0.0004351971441069622,
      "loss": 2.0206,
      "step": 1211
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39174991102273155,
      "learning_rate": 0.0004344607867334116,
      "loss": 2.0587,
      "step": 1212
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3890693745929732,
      "learning_rate": 0.00043372457396380766,
      "loss": 2.0319,
      "step": 1213
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37801499660709975,
      "learning_rate": 0.00043298850742251013,
      "loss": 2.0127,
      "step": 1214
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3821690183174182,
      "learning_rate": 0.0004322525887335563,
      "loss": 1.9521,
      "step": 1215
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39719964245633327,
      "learning_rate": 0.00043151681952065734,
      "loss": 1.9846,
      "step": 1216
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4024575369714009,
      "learning_rate": 0.00043078120140719456,
      "loss": 2.0694,
      "step": 1217
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37806306693665226,
      "learning_rate": 0.0004300457360162158,
      "loss": 1.987,
      "step": 1218
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.400098955448747,
      "learning_rate": 0.0004293104249704319,
      "loss": 1.9993,
      "step": 1219
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3812402693534389,
      "learning_rate": 0.00042857526989221355,
      "loss": 1.988,
      "step": 1220
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3710258155836435,
      "learning_rate": 0.00042784027240358674,
      "loss": 2.0121,
      "step": 1221
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.35024297762701234,
      "learning_rate": 0.0004271054341262301,
      "loss": 2.0408,
      "step": 1222
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.34995151722415807,
      "learning_rate": 0.000426370756681471,
      "loss": 2.02,
      "step": 1223
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3810176936777701,
      "learning_rate": 0.0004256362416902817,
      "loss": 2.0111,
      "step": 1224
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.35653593514969345,
      "learning_rate": 0.00042490189077327637,
      "loss": 2.017,
      "step": 1225
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37264537370865086,
      "learning_rate": 0.00042416770555070703,
      "loss": 2.0464,
      "step": 1226
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36488779083165657,
      "learning_rate": 0.00042343368764246,
      "loss": 2.057,
      "step": 1227
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.44687013483295984,
      "learning_rate": 0.0004226998386680524,
      "loss": 2.067,
      "step": 1228
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4277265698502459,
      "learning_rate": 0.000421966160246629,
      "loss": 2.1163,
      "step": 1229
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3814148127131328,
      "learning_rate": 0.00042123265399695783,
      "loss": 1.957,
      "step": 1230
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39177659835087947,
      "learning_rate": 0.0004204993215374273,
      "loss": 2.0623,
      "step": 1231
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4435429475287617,
      "learning_rate": 0.00041976616448604226,
      "loss": 2.2018,
      "step": 1232
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4590212670804185,
      "learning_rate": 0.00041903318446042076,
      "loss": 1.9998,
      "step": 1233
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37453128286137954,
      "learning_rate": 0.00041830038307778984,
      "loss": 2.0226,
      "step": 1234
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4007752552557793,
      "learning_rate": 0.0004175677619549828,
      "loss": 1.9786,
      "step": 1235
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37427514904362424,
      "learning_rate": 0.000416835322708435,
      "loss": 1.9674,
      "step": 1236
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39314888316910707,
      "learning_rate": 0.00041610306695418056,
      "loss": 2.0227,
      "step": 1237
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.41132854005585706,
      "learning_rate": 0.0004153709963078488,
      "loss": 2.0025,
      "step": 1238
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38949162847737334,
      "learning_rate": 0.0004146391123846606,
      "loss": 2.1744,
      "step": 1239
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3789091193075769,
      "learning_rate": 0.0004139074167994249,
      "loss": 2.0583,
      "step": 1240
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38863911607483165,
      "learning_rate": 0.00041317591116653486,
      "loss": 2.0159,
      "step": 1241
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.43251239778157485,
      "learning_rate": 0.0004124445970999648,
      "loss": 2.0307,
      "step": 1242
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3616566942591795,
      "learning_rate": 0.00041171347621326627,
      "loss": 2.0473,
      "step": 1243
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.35484925369182235,
      "learning_rate": 0.00041098255011956465,
      "loss": 2.0121,
      "step": 1244
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38375408822234214,
      "learning_rate": 0.00041025182043155547,
      "loss": 2.1187,
      "step": 1245
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.381254416089273,
      "learning_rate": 0.000409521288761501,
      "loss": 1.974,
      "step": 1246
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3728248255360486,
      "learning_rate": 0.00040879095672122646,
      "loss": 1.9626,
      "step": 1247
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4605317977835855,
      "learning_rate": 0.0004080608259221167,
      "loss": 2.0732,
      "step": 1248
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38606198596023694,
      "learning_rate": 0.0004073308979751126,
      "loss": 2.087,
      "step": 1249
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3806622309020482,
      "learning_rate": 0.0004066011744907074,
      "loss": 2.0386,
      "step": 1250
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39339824997478234,
      "learning_rate": 0.00040587165707894326,
      "loss": 2.1215,
      "step": 1251
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.35919397664661795,
      "learning_rate": 0.0004051423473494076,
      "loss": 2.0396,
      "step": 1252
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3726907998770548,
      "learning_rate": 0.0004044132469112299,
      "loss": 1.9958,
      "step": 1253
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.42503970903006577,
      "learning_rate": 0.00040368435737307733,
      "loss": 2.051,
      "step": 1254
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.40242426940946757,
      "learning_rate": 0.00040295568034315224,
      "loss": 2.0866,
      "step": 1255
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38367101463602704,
      "learning_rate": 0.0004022272174291878,
      "loss": 2.0694,
      "step": 1256
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38667893663862474,
      "learning_rate": 0.0004014989702384449,
      "loss": 1.9373,
      "step": 1257
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37983744245846185,
      "learning_rate": 0.00040077094037770843,
      "loss": 2.0461,
      "step": 1258
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39565979824763275,
      "learning_rate": 0.0004000431294532838,
      "loss": 2.0785,
      "step": 1259
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39113339324501084,
      "learning_rate": 0.0003993155390709935,
      "loss": 2.0539,
      "step": 1260
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3957654956863219,
      "learning_rate": 0.0003985881708361729,
      "loss": 1.9405,
      "step": 1261
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.4184277571122092,
      "learning_rate": 0.00039786102635366784,
      "loss": 2.1085,
      "step": 1262
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39450391855323225,
      "learning_rate": 0.0003971341072278302,
      "loss": 1.9759,
      "step": 1263
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.40543005592774817,
      "learning_rate": 0.00039640741506251457,
      "loss": 1.9268,
      "step": 1264
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.40215729536768446,
      "learning_rate": 0.00039568095146107495,
      "loss": 2.1039,
      "step": 1265
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3876890752816721,
      "learning_rate": 0.00039495471802636096,
      "loss": 2.0246,
      "step": 1266
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.4108366555082739,
      "learning_rate": 0.0003942287163607145,
      "loss": 2.003,
      "step": 1267
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3854794165570997,
      "learning_rate": 0.0003935029480659658,
      "loss": 1.999,
      "step": 1268
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39081641625809926,
      "learning_rate": 0.00039277741474343054,
      "loss": 2.0447,
      "step": 1269
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37137474907615226,
      "learning_rate": 0.0003920521179939057,
      "loss": 2.0498,
      "step": 1270
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37818055450129096,
      "learning_rate": 0.00039132705941766644,
      "loss": 2.0835,
      "step": 1271
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3815324399133443,
      "learning_rate": 0.0003906022406144624,
      "loss": 1.9842,
      "step": 1272
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38410093538673334,
      "learning_rate": 0.0003898776631835143,
      "loss": 2.0526,
      "step": 1273
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3571873156422125,
      "learning_rate": 0.00038915332872350994,
      "loss": 1.9543,
      "step": 1274
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3653647497203906,
      "learning_rate": 0.00038842923883260135,
      "loss": 1.9832,
      "step": 1275
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4073518403406839,
      "learning_rate": 0.00038770539510840093,
      "loss": 2.0347,
      "step": 1276
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3816204356223938,
      "learning_rate": 0.00038698179914797783,
      "loss": 2.0356,
      "step": 1277
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4033989781968209,
      "learning_rate": 0.0003862584525478545,
      "loss": 2.0085,
      "step": 1278
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39713201580812785,
      "learning_rate": 0.00038553535690400353,
      "loss": 1.9856,
      "step": 1279
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3898384402859282,
      "learning_rate": 0.00038481251381184355,
      "loss": 2.0032,
      "step": 1280
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37536196031722385,
      "learning_rate": 0.00038408992486623584,
      "loss": 1.9841,
      "step": 1281
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3663538966091268,
      "learning_rate": 0.00038336759166148117,
      "loss": 2.0586,
      "step": 1282
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.40815084730952533,
      "learning_rate": 0.0003826455157913159,
      "loss": 2.0254,
      "step": 1283
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.35022824138450076,
      "learning_rate": 0.00038192369884890886,
      "loss": 2.0399,
      "step": 1284
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4068907903889919,
      "learning_rate": 0.00038120214242685723,
      "loss": 2.025,
      "step": 1285
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.393998578958785,
      "learning_rate": 0.00038048084811718373,
      "loss": 2.0589,
      "step": 1286
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37983974516658836,
      "learning_rate": 0.0003797598175113327,
      "loss": 2.0777,
      "step": 1287
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3954519654069229,
      "learning_rate": 0.0003790390522001662,
      "loss": 2.0504,
      "step": 1288
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3848158764519402,
      "learning_rate": 0.0003783185537739615,
      "loss": 2.0892,
      "step": 1289
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38045904985990453,
      "learning_rate": 0.00037759832382240697,
      "loss": 2.0396,
      "step": 1290
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39859997119571156,
      "learning_rate": 0.00037687836393459826,
      "loss": 1.9869,
      "step": 1291
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3856532650020421,
      "learning_rate": 0.0003761586756990354,
      "loss": 2.1064,
      "step": 1292
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3701925686904827,
      "learning_rate": 0.0003754392607036191,
      "loss": 2.0153,
      "step": 1293
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37408816215486973,
      "learning_rate": 0.0003747201205356472,
      "loss": 2.1442,
      "step": 1294
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36961445400639964,
      "learning_rate": 0.0003740012567818111,
      "loss": 2.0039,
      "step": 1295
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38172701574186696,
      "learning_rate": 0.0003732826710281922,
      "loss": 2.0297,
      "step": 1296
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36925800060408964,
      "learning_rate": 0.0003725643648602588,
      "loss": 1.9956,
      "step": 1297
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39011827578654945,
      "learning_rate": 0.0003718463398628621,
      "loss": 2.0009,
      "step": 1298
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3937605977790518,
      "learning_rate": 0.0003711285976202331,
      "loss": 2.0574,
      "step": 1299
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3919744360329898,
      "learning_rate": 0.0003704111397159787,
      "loss": 1.9721,
      "step": 1300
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38953240986736276,
      "learning_rate": 0.0003696939677330788,
      "loss": 2.0375,
      "step": 1301
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3666935303116042,
      "learning_rate": 0.00036897708325388213,
      "loss": 2.0319,
      "step": 1302
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37661728210977913,
      "learning_rate": 0.0003682604878601034,
      "loss": 2.0128,
      "step": 1303
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3789665763892588,
      "learning_rate": 0.000367544183132819,
      "loss": 2.0059,
      "step": 1304
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5146867741302699,
      "learning_rate": 0.0003668281706524645,
      "loss": 2.0141,
      "step": 1305
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3821777595936962,
      "learning_rate": 0.0003661124519988304,
      "loss": 2.0434,
      "step": 1306
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3764637666129005,
      "learning_rate": 0.00036539702875105893,
      "loss": 2.0505,
      "step": 1307
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3712110120818802,
      "learning_rate": 0.0003646819024876406,
      "loss": 1.9686,
      "step": 1308
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4008607574227445,
      "learning_rate": 0.0003639670747864107,
      "loss": 2.0201,
      "step": 1309
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.41530309833545914,
      "learning_rate": 0.00036325254722454584,
      "loss": 2.0146,
      "step": 1310
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37504698142717097,
      "learning_rate": 0.00036253832137855997,
      "loss": 1.9874,
      "step": 1311
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3669490242709244,
      "learning_rate": 0.00036182439882430183,
      "loss": 2.0255,
      "step": 1312
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.382731477461614,
      "learning_rate": 0.00036111078113695096,
      "loss": 2.0381,
      "step": 1313
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3877459232989256,
      "learning_rate": 0.0003603974698910139,
      "loss": 2.0535,
      "step": 1314
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3823634154346856,
      "learning_rate": 0.0003596844666603214,
      "loss": 2.022,
      "step": 1315
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39169135938487887,
      "learning_rate": 0.0003589717730180245,
      "loss": 2.0007,
      "step": 1316
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38879486440193617,
      "learning_rate": 0.00035825939053659117,
      "loss": 2.0241,
      "step": 1317
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4350135585378918,
      "learning_rate": 0.00035754732078780273,
      "loss": 2.1041,
      "step": 1318
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38605285256143296,
      "learning_rate": 0.00035683556534275076,
      "loss": 1.9875,
      "step": 1319
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3662440819841176,
      "learning_rate": 0.00035612412577183303,
      "loss": 1.9587,
      "step": 1320
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39385474151586863,
      "learning_rate": 0.00035541300364475063,
      "loss": 2.0664,
      "step": 1321
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37400550572086527,
      "learning_rate": 0.0003547022005305043,
      "loss": 2.0017,
      "step": 1322
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38556583846094716,
      "learning_rate": 0.0003539917179973907,
      "loss": 2.0053,
      "step": 1323
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38444747833279747,
      "learning_rate": 0.00035328155761299917,
      "loss": 2.1,
      "step": 1324
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38348670811505475,
      "learning_rate": 0.0003525717209442085,
      "loss": 2.0734,
      "step": 1325
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37853486931895614,
      "learning_rate": 0.00035186220955718306,
      "loss": 2.0332,
      "step": 1326
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.36960860168895804,
      "learning_rate": 0.0003511530250173696,
      "loss": 2.0328,
      "step": 1327
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3888445355664088,
      "learning_rate": 0.00035044416888949364,
      "loss": 2.0108,
      "step": 1328
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.40308970121636556,
      "learning_rate": 0.0003497356427375562,
      "loss": 2.0746,
      "step": 1329
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37460429919814714,
      "learning_rate": 0.00034902744812483034,
      "loss": 2.1659,
      "step": 1330
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37142507951564546,
      "learning_rate": 0.00034831958661385714,
      "loss": 2.0955,
      "step": 1331
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3715825875073855,
      "learning_rate": 0.0003476120597664434,
      "loss": 2.0144,
      "step": 1332
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3867305916510867,
      "learning_rate": 0.00034690486914365704,
      "loss": 2.0074,
      "step": 1333
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37546236605436845,
      "learning_rate": 0.00034619801630582435,
      "loss": 2.0356,
      "step": 1334
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.4294609156506635,
      "learning_rate": 0.00034549150281252633,
      "loss": 2.0981,
      "step": 1335
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3799727173833002,
      "learning_rate": 0.0003447853302225952,
      "loss": 2.073,
      "step": 1336
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37948553724138345,
      "learning_rate": 0.00034407950009411126,
      "loss": 2.0963,
      "step": 1337
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.36900200682096546,
      "learning_rate": 0.00034337401398439873,
      "loss": 2.0416,
      "step": 1338
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37686759066010067,
      "learning_rate": 0.00034266887345002305,
      "loss": 2.093,
      "step": 1339
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.4071743632098238,
      "learning_rate": 0.0003419640800467874,
      "loss": 2.0169,
      "step": 1340
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3763654415438281,
      "learning_rate": 0.0003412596353297288,
      "loss": 2.0915,
      "step": 1341
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.40601146998631943,
      "learning_rate": 0.00034055554085311493,
      "loss": 2.11,
      "step": 1342
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.41835619593161744,
      "learning_rate": 0.00033985179817044105,
      "loss": 2.0108,
      "step": 1343
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3982287586482121,
      "learning_rate": 0.0003391484088344257,
      "loss": 2.0832,
      "step": 1344
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3543246853109149,
      "learning_rate": 0.00033844537439700807,
      "loss": 1.9389,
      "step": 1345
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3750306059689557,
      "learning_rate": 0.00033774269640934445,
      "loss": 2.0627,
      "step": 1346
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3783167632190772,
      "learning_rate": 0.0003370403764218045,
      "loss": 2.0479,
      "step": 1347
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.391572532029621,
      "learning_rate": 0.000336338415983968,
      "loss": 2.0608,
      "step": 1348
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.36410251688683776,
      "learning_rate": 0.00033563681664462155,
      "loss": 2.0034,
      "step": 1349
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4209056810615363,
      "learning_rate": 0.000334935579951755,
      "loss": 2.1177,
      "step": 1350
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.358954896500681,
      "learning_rate": 0.0003342347074525578,
      "loss": 1.9959,
      "step": 1351
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38265164131580076,
      "learning_rate": 0.0003335342006934161,
      "loss": 1.9947,
      "step": 1352
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3887281800885369,
      "learning_rate": 0.00033283406121990914,
      "loss": 2.099,
      "step": 1353
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37871579317555193,
      "learning_rate": 0.0003321342905768057,
      "loss": 2.0139,
      "step": 1354
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4085651410454228,
      "learning_rate": 0.00033143489030806086,
      "loss": 1.9683,
      "step": 1355
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3545638812717594,
      "learning_rate": 0.00033073586195681227,
      "loss": 1.9856,
      "step": 1356
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.36245455511616753,
      "learning_rate": 0.00033003720706537736,
      "loss": 2.0088,
      "step": 1357
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.388318189267864,
      "learning_rate": 0.0003293389271752492,
      "loss": 1.8536,
      "step": 1358
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3999706359628701,
      "learning_rate": 0.00032864102382709374,
      "loss": 1.9889,
      "step": 1359
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4617664124364299,
      "learning_rate": 0.000327943498560746,
      "loss": 2.0183,
      "step": 1360
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.420255225199078,
      "learning_rate": 0.00032724635291520694,
      "loss": 1.9774,
      "step": 1361
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38075555141250256,
      "learning_rate": 0.00032654958842863967,
      "loss": 1.9942,
      "step": 1362
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4002127973572988,
      "learning_rate": 0.0003258532066383667,
      "loss": 1.9663,
      "step": 1363
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.45238678643358143,
      "learning_rate": 0.000325157209080866,
      "loss": 2.0214,
      "step": 1364
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.41096196927566714,
      "learning_rate": 0.00032446159729176743,
      "loss": 2.0437,
      "step": 1365
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3931895344556228,
      "learning_rate": 0.0003237663728058502,
      "loss": 2.0561,
      "step": 1366
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.36335481471164205,
      "learning_rate": 0.0003230715371570389,
      "loss": 1.9308,
      "step": 1367
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3695019425350738,
      "learning_rate": 0.00032237709187839996,
      "loss": 1.979,
      "step": 1368
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3993677825685531,
      "learning_rate": 0.0003216830385021388,
      "loss": 2.1188,
      "step": 1369
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.41901844386445086,
      "learning_rate": 0.0003209893785595959,
      "loss": 2.0277,
      "step": 1370
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3865252167683418,
      "learning_rate": 0.00032029611358124366,
      "loss": 2.1311,
      "step": 1371
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.36476501920987914,
      "learning_rate": 0.00031960324509668336,
      "loss": 2.05,
      "step": 1372
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3827889616758123,
      "learning_rate": 0.0003189107746346412,
      "loss": 2.0504,
      "step": 1373
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4020013799962129,
      "learning_rate": 0.0003182187037229653,
      "loss": 2.0514,
      "step": 1374
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.419838309567325,
      "learning_rate": 0.0003175270338886221,
      "loss": 2.0493,
      "step": 1375
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.36958528953284436,
      "learning_rate": 0.00031683576665769345,
      "loss": 2.0466,
      "step": 1376
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38532681056364754,
      "learning_rate": 0.0003161449035553724,
      "loss": 2.0855,
      "step": 1377
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38669136769532975,
      "learning_rate": 0.00031545444610596077,
      "loss": 2.0454,
      "step": 1378
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3879868041561766,
      "learning_rate": 0.000314764395832865,
      "loss": 2.0451,
      "step": 1379
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39168953583719873,
      "learning_rate": 0.0003140747542585934,
      "loss": 1.9931,
      "step": 1380
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39464187044996546,
      "learning_rate": 0.00031338552290475266,
      "loss": 2.0292,
      "step": 1381
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3847499622749056,
      "learning_rate": 0.00031269670329204396,
      "loss": 1.9947,
      "step": 1382
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38805382121849136,
      "learning_rate": 0.0003120082969402604,
      "loss": 1.9893,
      "step": 1383
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38204387159611786,
      "learning_rate": 0.00031132030536828314,
      "loss": 2.0759,
      "step": 1384
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39370731656546154,
      "learning_rate": 0.00031063273009407805,
      "loss": 1.9824,
      "step": 1385
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36929889280854583,
      "learning_rate": 0.00030994557263469265,
      "loss": 2.0943,
      "step": 1386
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3665927624179735,
      "learning_rate": 0.0003092588345062526,
      "loss": 2.0628,
      "step": 1387
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37092834546234904,
      "learning_rate": 0.0003085725172239582,
      "loss": 2.0417,
      "step": 1388
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37353120105182774,
      "learning_rate": 0.0003078866223020815,
      "loss": 2.0522,
      "step": 1389
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3922952418168034,
      "learning_rate": 0.0003072011512539624,
      "loss": 2.0541,
      "step": 1390
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3850255485509633,
      "learning_rate": 0.00030651610559200574,
      "loss": 1.9803,
      "step": 1391
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38036665168599754,
      "learning_rate": 0.00030583148682767757,
      "loss": 2.0383,
      "step": 1392
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3660058703854228,
      "learning_rate": 0.00030514729647150243,
      "loss": 2.0111,
      "step": 1393
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3693295796564267,
      "learning_rate": 0.0003044635360330592,
      "loss": 2.0374,
      "step": 1394
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3741994720080869,
      "learning_rate": 0.00030378020702097845,
      "loss": 2.058,
      "step": 1395
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3647173126673478,
      "learning_rate": 0.000303097310942939,
      "loss": 1.9077,
      "step": 1396
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3748517865785447,
      "learning_rate": 0.0003024148493056641,
      "loss": 2.0525,
      "step": 1397
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3827602485533337,
      "learning_rate": 0.00030173282361491865,
      "loss": 1.9743,
      "step": 1398
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3676165483010324,
      "learning_rate": 0.0003010512353755057,
      "loss": 2.0513,
      "step": 1399
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3761715325392841,
      "learning_rate": 0.00030037008609126313,
      "loss": 2.054,
      "step": 1400
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3607876225115889,
      "learning_rate": 0.0002996893772650602,
      "loss": 2.0929,
      "step": 1401
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3843007994688859,
      "learning_rate": 0.0002990091103987945,
      "loss": 1.9918,
      "step": 1402
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3891914551328577,
      "learning_rate": 0.0002983292869933886,
      "loss": 2.0925,
      "step": 1403
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39330095925298436,
      "learning_rate": 0.0002976499085487862,
      "loss": 2.0594,
      "step": 1404
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3736917981496018,
      "learning_rate": 0.00029697097656394963,
      "loss": 2.012,
      "step": 1405
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4081916042434936,
      "learning_rate": 0.00029629249253685595,
      "loss": 2.031,
      "step": 1406
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.36930950073078644,
      "learning_rate": 0.00029561445796449416,
      "loss": 2.0248,
      "step": 1407
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37063849673278876,
      "learning_rate": 0.0002949368743428612,
      "loss": 2.0308,
      "step": 1408
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3783887332728709,
      "learning_rate": 0.0002942597431669593,
      "loss": 2.0534,
      "step": 1409
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37063854196231966,
      "learning_rate": 0.0002935830659307924,
      "loss": 2.091,
      "step": 1410
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38059484414654204,
      "learning_rate": 0.0002929068441273629,
      "loss": 2.023,
      "step": 1411
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37221569174084923,
      "learning_rate": 0.0002922310792486681,
      "loss": 2.0401,
      "step": 1412
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.36462976315798307,
      "learning_rate": 0.00029155577278569745,
      "loss": 1.9938,
      "step": 1413
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3843983976211992,
      "learning_rate": 0.00029088092622842895,
      "loss": 2.047,
      "step": 1414
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.388609221574743,
      "learning_rate": 0.00029020654106582544,
      "loss": 1.9539,
      "step": 1415
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38648014658047547,
      "learning_rate": 0.0002895326187858326,
      "loss": 2.0445,
      "step": 1416
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37964994009044206,
      "learning_rate": 0.00028885916087537377,
      "loss": 2.0024,
      "step": 1417
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39300808281339905,
      "learning_rate": 0.00028818616882034877,
      "loss": 2.1061,
      "step": 1418
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.36645338433259905,
      "learning_rate": 0.0002875136441056286,
      "loss": 1.9431,
      "step": 1419
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.35476148195211255,
      "learning_rate": 0.000286841588215054,
      "loss": 1.9591,
      "step": 1420
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3713808691608307,
      "learning_rate": 0.0002861700026314308,
      "loss": 2.043,
      "step": 1421
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3751893112044215,
      "learning_rate": 0.00028549888883652686,
      "loss": 2.0209,
      "step": 1422
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3761966281895282,
      "learning_rate": 0.00028482824831107,
      "loss": 1.9563,
      "step": 1423
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3618586173898333,
      "learning_rate": 0.000284158082534743,
      "loss": 2.0256,
      "step": 1424
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3711358117120508,
      "learning_rate": 0.00028348839298618177,
      "loss": 2.0248,
      "step": 1425
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.42287298473391943,
      "learning_rate": 0.0002828191811429709,
      "loss": 2.0486,
      "step": 1426
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3835695266116148,
      "learning_rate": 0.00028215044848164164,
      "loss": 2.0452,
      "step": 1427
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.40689566309076164,
      "learning_rate": 0.00028148219647766747,
      "loss": 1.9616,
      "step": 1428
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3999863274095987,
      "learning_rate": 0.00028081442660546124,
      "loss": 1.9968,
      "step": 1429
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.36954820920835846,
      "learning_rate": 0.0002801471403383728,
      "loss": 1.9762,
      "step": 1430
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.377627041020423,
      "learning_rate": 0.00027948033914868415,
      "loss": 1.9907,
      "step": 1431
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37575953214128044,
      "learning_rate": 0.00027881402450760775,
      "loss": 2.0606,
      "step": 1432
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38056622060221096,
      "learning_rate": 0.00027814819788528165,
      "loss": 1.9596,
      "step": 1433
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3850186635091649,
      "learning_rate": 0.00027748286075076836,
      "loss": 2.0147,
      "step": 1434
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3631774387257328,
      "learning_rate": 0.00027681801457204937,
      "loss": 2.0039,
      "step": 1435
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38260098199873055,
      "learning_rate": 0.00027615366081602306,
      "loss": 2.0323,
      "step": 1436
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37406703334470803,
      "learning_rate": 0.0002754898009485021,
      "loss": 2.0944,
      "step": 1437
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38325869988310685,
      "learning_rate": 0.0002748264364342085,
      "loss": 1.9708,
      "step": 1438
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4096207636273441,
      "learning_rate": 0.00027416356873677204,
      "loss": 2.0361,
      "step": 1439
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37408465291916876,
      "learning_rate": 0.0002735011993187258,
      "loss": 2.0252,
      "step": 1440
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37098350730422963,
      "learning_rate": 0.0002728393296415042,
      "loss": 1.9386,
      "step": 1441
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3852955239085009,
      "learning_rate": 0.00027217796116543817,
      "loss": 2.0541,
      "step": 1442
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37226318201775027,
      "learning_rate": 0.0002715170953497532,
      "loss": 2.0274,
      "step": 1443
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38132323977263227,
      "learning_rate": 0.00027085673365256614,
      "loss": 1.998,
      "step": 1444
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37688101022473497,
      "learning_rate": 0.00027019687753088075,
      "loss": 1.9816,
      "step": 1445
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37427250152181374,
      "learning_rate": 0.00026953752844058597,
      "loss": 2.0614,
      "step": 1446
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3690005953296012,
      "learning_rate": 0.0002688786878364516,
      "loss": 1.9678,
      "step": 1447
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39010412140579614,
      "learning_rate": 0.00026822035717212597,
      "loss": 1.9608,
      "step": 1448
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3916532106063786,
      "learning_rate": 0.00026756253790013193,
      "loss": 2.0516,
      "step": 1449
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3878981241612222,
      "learning_rate": 0.0002669052314718641,
      "loss": 1.9681,
      "step": 1450
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4147729751378355,
      "learning_rate": 0.0002662484393375855,
      "loss": 2.0119,
      "step": 1451
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3977108177657238,
      "learning_rate": 0.00026559216294642446,
      "loss": 2.0199,
      "step": 1452
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3860202404340095,
      "learning_rate": 0.0002649364037463718,
      "loss": 2.0336,
      "step": 1453
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3995054534353462,
      "learning_rate": 0.0002642811631842764,
      "loss": 2.0167,
      "step": 1454
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.35472793816951464,
      "learning_rate": 0.0002636264427058439,
      "loss": 2.0017,
      "step": 1455
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.388048051316462,
      "learning_rate": 0.00026297224375563123,
      "loss": 2.1216,
      "step": 1456
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37008482398693177,
      "learning_rate": 0.00026231856777704575,
      "loss": 1.985,
      "step": 1457
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.36276954417058777,
      "learning_rate": 0.00026166541621234026,
      "loss": 2.0172,
      "step": 1458
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3838289576978219,
      "learning_rate": 0.00026101279050261045,
      "loss": 2.0457,
      "step": 1459
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3677374979068251,
      "learning_rate": 0.00026036069208779247,
      "loss": 2.0525,
      "step": 1460
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37689109060795944,
      "learning_rate": 0.0002597091224066581,
      "loss": 2.0144,
      "step": 1461
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37040699794779547,
      "learning_rate": 0.00025905808289681365,
      "loss": 1.9631,
      "step": 1462
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.41582582611985947,
      "learning_rate": 0.0002584075749946946,
      "loss": 1.937,
      "step": 1463
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38971689944557836,
      "learning_rate": 0.00025775760013556424,
      "loss": 2.0688,
      "step": 1464
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3764134579469059,
      "learning_rate": 0.0002571081597535095,
      "loss": 1.9721,
      "step": 1465
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3877406881218562,
      "learning_rate": 0.00025645925528143776,
      "loss": 1.9952,
      "step": 1466
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39708501299373933,
      "learning_rate": 0.0002558108881510747,
      "loss": 2.1305,
      "step": 1467
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3794144416706498,
      "learning_rate": 0.00025516305979295963,
      "loss": 1.9792,
      "step": 1468
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39528022232831245,
      "learning_rate": 0.0002545157716364439,
      "loss": 2.0096,
      "step": 1469
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3856517803503858,
      "learning_rate": 0.00025386902510968624,
      "loss": 1.9873,
      "step": 1470
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38788660522512064,
      "learning_rate": 0.00025322282163965095,
      "loss": 2.0416,
      "step": 1471
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3689984967752121,
      "learning_rate": 0.00025257716265210384,
      "loss": 2.029,
      "step": 1472
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3602918475089879,
      "learning_rate": 0.0002519320495716091,
      "loss": 1.9991,
      "step": 1473
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3879101317081671,
      "learning_rate": 0.00025128748382152716,
      "loss": 2.0799,
      "step": 1474
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.375303899043516,
      "learning_rate": 0.00025064346682401016,
      "loss": 2.0241,
      "step": 1475
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38488912786295204,
      "learning_rate": 0.0002500000000000001,
      "loss": 2.0384,
      "step": 1476
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.4016050207808054,
      "learning_rate": 0.0002493570847692246,
      "loss": 1.9012,
      "step": 1477
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37117379032765235,
      "learning_rate": 0.00024871472255019424,
      "loss": 1.986,
      "step": 1478
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3689425826697434,
      "learning_rate": 0.00024807291476019994,
      "loss": 2.0092,
      "step": 1479
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3885717596993457,
      "learning_rate": 0.00024743166281530877,
      "loss": 2.0176,
      "step": 1480
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.393314204977441,
      "learning_rate": 0.000246790968130362,
      "loss": 2.0581,
      "step": 1481
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3829731756078736,
      "learning_rate": 0.0002461508321189706,
      "loss": 2.0517,
      "step": 1482
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.36466859947954217,
      "learning_rate": 0.00024551125619351385,
      "loss": 2.0376,
      "step": 1483
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3886750457145523,
      "learning_rate": 0.00024487224176513453,
      "loss": 2.0421,
      "step": 1484
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38542214604310915,
      "learning_rate": 0.0002442337902437365,
      "loss": 2.0175,
      "step": 1485
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38602004410649643,
      "learning_rate": 0.0002435959030379824,
      "loss": 1.9918,
      "step": 1486
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37802034745804236,
      "learning_rate": 0.00024295858155528888,
      "loss": 1.9588,
      "step": 1487
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.4008227642539621,
      "learning_rate": 0.00024232182720182523,
      "loss": 2.0132,
      "step": 1488
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.44537315248397397,
      "learning_rate": 0.00024168564138250855,
      "loss": 2.021,
      "step": 1489
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3744553920104732,
      "learning_rate": 0.00024105002550100246,
      "loss": 2.0786,
      "step": 1490
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38460480460915164,
      "learning_rate": 0.00024041498095971254,
      "loss": 1.9533,
      "step": 1491
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3868399530818146,
      "learning_rate": 0.0002397805091597835,
      "loss": 2.0542,
      "step": 1492
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38610980271510076,
      "learning_rate": 0.0002391466115010973,
      "loss": 2.0872,
      "step": 1493
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39214256752795146,
      "learning_rate": 0.00023851328938226808,
      "loss": 1.9322,
      "step": 1494
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3874838373738021,
      "learning_rate": 0.00023788054420064109,
      "loss": 2.0447,
      "step": 1495
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39050958150175064,
      "learning_rate": 0.00023724837735228773,
      "loss": 2.0021,
      "step": 1496
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3915792454986197,
      "learning_rate": 0.00023661679023200422,
      "loss": 2.0233,
      "step": 1497
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37218208101678196,
      "learning_rate": 0.00023598578423330714,
      "loss": 1.9488,
      "step": 1498
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.41294708465925406,
      "learning_rate": 0.00023535536074843083,
      "loss": 2.0708,
      "step": 1499
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4139785880492009,
      "learning_rate": 0.00023472552116832502,
      "loss": 1.9539,
      "step": 1500
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.36362988428546694,
      "learning_rate": 0.0002340962668826503,
      "loss": 1.957,
      "step": 1501
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3793498218334635,
      "learning_rate": 0.00023346759927977663,
      "loss": 2.0474,
      "step": 1502
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39559921684577226,
      "learning_rate": 0.0002328395197467789,
      "loss": 1.9851,
      "step": 1503
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3938024686844915,
      "learning_rate": 0.00023221202966943515,
      "loss": 2.0679,
      "step": 1504
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38259213628686045,
      "learning_rate": 0.0002315851304322223,
      "loss": 1.9886,
      "step": 1505
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3828771803244686,
      "learning_rate": 0.0002309588234183137,
      "loss": 2.0367,
      "step": 1506
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.36479554661347663,
      "learning_rate": 0.00023033311000957653,
      "loss": 2.001,
      "step": 1507
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4083557363387112,
      "learning_rate": 0.00022970799158656758,
      "loss": 2.0131,
      "step": 1508
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3867314567940775,
      "learning_rate": 0.0002290834695285316,
      "loss": 2.0612,
      "step": 1509
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4000639611445275,
      "learning_rate": 0.00022845954521339678,
      "loss": 2.0393,
      "step": 1510
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39991830117429783,
      "learning_rate": 0.0002278362200177732,
      "loss": 1.9388,
      "step": 1511
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38876554978307537,
      "learning_rate": 0.00022721349531694852,
      "loss": 1.9791,
      "step": 1512
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3855727350179733,
      "learning_rate": 0.0002265913724848855,
      "loss": 1.9793,
      "step": 1513
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40387531199844634,
      "learning_rate": 0.00022596985289421946,
      "loss": 2.0533,
      "step": 1514
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37707654053425554,
      "learning_rate": 0.00022534893791625405,
      "loss": 1.9761,
      "step": 1515
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37289003359932343,
      "learning_rate": 0.00022472862892095968,
      "loss": 1.9176,
      "step": 1516
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3939340635481125,
      "learning_rate": 0.00022410892727696896,
      "loss": 2.0894,
      "step": 1517
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.41220609344377096,
      "learning_rate": 0.0002234898343515751,
      "loss": 1.989,
      "step": 1518
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3735869526791918,
      "learning_rate": 0.00022287135151072792,
      "loss": 1.9958,
      "step": 1519
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3782644999695032,
      "learning_rate": 0.00022225348011903096,
      "loss": 2.0014,
      "step": 1520
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3800330534546782,
      "learning_rate": 0.0002216362215397393,
      "loss": 1.9474,
      "step": 1521
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3972055183584319,
      "learning_rate": 0.00022101957713475522,
      "loss": 2.1102,
      "step": 1522
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38198699419056503,
      "learning_rate": 0.00022040354826462666,
      "loss": 2.0859,
      "step": 1523
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3710808147823706,
      "learning_rate": 0.0002197881362885426,
      "loss": 1.9219,
      "step": 1524
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39199708572386527,
      "learning_rate": 0.0002191733425643318,
      "loss": 2.0352,
      "step": 1525
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.366539564819678,
      "learning_rate": 0.00021855916844845826,
      "loss": 2.0028,
      "step": 1526
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3964237231486922,
      "learning_rate": 0.00021794561529601898,
      "loss": 1.9808,
      "step": 1527
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.40221361252041965,
      "learning_rate": 0.00021733268446074138,
      "loss": 2.094,
      "step": 1528
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38240636796191374,
      "learning_rate": 0.00021672037729497917,
      "loss": 2.0484,
      "step": 1529
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3664005615916535,
      "learning_rate": 0.0002161086951497106,
      "loss": 1.9712,
      "step": 1530
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.40537024879907413,
      "learning_rate": 0.00021549763937453442,
      "loss": 1.9001,
      "step": 1531
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.35707827806182074,
      "learning_rate": 0.00021488721131766736,
      "loss": 2.0341,
      "step": 1532
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.390348380164922,
      "learning_rate": 0.00021427741232594183,
      "loss": 1.9842,
      "step": 1533
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38294693998605905,
      "learning_rate": 0.0002136682437448013,
      "loss": 2.0706,
      "step": 1534
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3799787617923011,
      "learning_rate": 0.0002130597069182994,
      "loss": 1.9514,
      "step": 1535
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3849552534127449,
      "learning_rate": 0.0002124518031890948,
      "loss": 1.9705,
      "step": 1536
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3742110021590245,
      "learning_rate": 0.0002118445338984502,
      "loss": 2.053,
      "step": 1537
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3839856828922455,
      "learning_rate": 0.00021123790038622808,
      "loss": 1.9602,
      "step": 1538
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3858546388115644,
      "learning_rate": 0.0002106319039908879,
      "loss": 1.9876,
      "step": 1539
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40673639529169925,
      "learning_rate": 0.00021002654604948412,
      "loss": 2.0208,
      "step": 1540
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3721471724947162,
      "learning_rate": 0.00020942182789766172,
      "loss": 2.0263,
      "step": 1541
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38344825190185694,
      "learning_rate": 0.00020881775086965492,
      "loss": 1.9931,
      "step": 1542
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40355565382577563,
      "learning_rate": 0.00020821431629828246,
      "loss": 1.9612,
      "step": 1543
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.402835189778054,
      "learning_rate": 0.00020761152551494643,
      "loss": 2.048,
      "step": 1544
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38182890263891744,
      "learning_rate": 0.00020700937984962798,
      "loss": 1.9942,
      "step": 1545
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3847566735338589,
      "learning_rate": 0.0002064078806308848,
      "loss": 2.0091,
      "step": 1546
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4011432811076328,
      "learning_rate": 0.00020580702918584882,
      "loss": 1.9681,
      "step": 1547
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36329232251561916,
      "learning_rate": 0.000205206826840222,
      "loss": 2.0684,
      "step": 1548
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3716333512214026,
      "learning_rate": 0.0002046072749182751,
      "loss": 1.9958,
      "step": 1549
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37786180819359483,
      "learning_rate": 0.00020400837474284273,
      "loss": 1.9504,
      "step": 1550
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3622057919051658,
      "learning_rate": 0.0002034101276353224,
      "loss": 1.9382,
      "step": 1551
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.41697826581413855,
      "learning_rate": 0.00020281253491567027,
      "loss": 1.9704,
      "step": 1552
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4280822749038414,
      "learning_rate": 0.0002022155979023984,
      "loss": 2.074,
      "step": 1553
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3900191670217222,
      "learning_rate": 0.000201619317912573,
      "loss": 1.9814,
      "step": 1554
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39700222073913505,
      "learning_rate": 0.00020102369626180962,
      "loss": 2.0642,
      "step": 1555
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3863416750828295,
      "learning_rate": 0.0002004287342642721,
      "loss": 2.0916,
      "step": 1556
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4066827956302918,
      "learning_rate": 0.00019983443323266824,
      "loss": 1.9472,
      "step": 1557
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36944508280700866,
      "learning_rate": 0.00019924079447824805,
      "loss": 2.0502,
      "step": 1558
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.431793731280954,
      "learning_rate": 0.00019864781931079977,
      "loss": 2.0506,
      "step": 1559
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.416449731957283,
      "learning_rate": 0.00019805550903864773,
      "loss": 2.0449,
      "step": 1560
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3873171234923684,
      "learning_rate": 0.00019746386496864948,
      "loss": 2.0651,
      "step": 1561
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3706529057497622,
      "learning_rate": 0.00019687288840619226,
      "loss": 2.0481,
      "step": 1562
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3773633394557929,
      "learning_rate": 0.0001962825806551911,
      "loss": 2.0068,
      "step": 1563
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37713211046207307,
      "learning_rate": 0.0001956929430180846,
      "loss": 1.9986,
      "step": 1564
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3724016779206011,
      "learning_rate": 0.00019510397679583374,
      "loss": 1.9857,
      "step": 1565
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.36504365687938617,
      "learning_rate": 0.0001945156832879174,
      "loss": 1.9601,
      "step": 1566
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39257090528394684,
      "learning_rate": 0.00019392806379233036,
      "loss": 2.0949,
      "step": 1567
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3843899149067777,
      "learning_rate": 0.00019334111960558065,
      "loss": 1.9644,
      "step": 1568
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37915070250339294,
      "learning_rate": 0.00019275485202268573,
      "loss": 2.083,
      "step": 1569
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37189963127642756,
      "learning_rate": 0.00019216926233717085,
      "loss": 1.9516,
      "step": 1570
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3901495482336944,
      "learning_rate": 0.00019158435184106498,
      "loss": 1.9853,
      "step": 1571
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3591244858760341,
      "learning_rate": 0.00019100012182489905,
      "loss": 1.9325,
      "step": 1572
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3948078946448931,
      "learning_rate": 0.00019041657357770226,
      "loss": 1.9755,
      "step": 1573
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40413406805345964,
      "learning_rate": 0.00018983370838699943,
      "loss": 2.0077,
      "step": 1574
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.404753751796213,
      "learning_rate": 0.00018925152753880892,
      "loss": 2.0369,
      "step": 1575
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3784982503055404,
      "learning_rate": 0.00018867003231763847,
      "loss": 1.9788,
      "step": 1576
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39753140085895244,
      "learning_rate": 0.00018808922400648375,
      "loss": 2.0205,
      "step": 1577
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3852098349708964,
      "learning_rate": 0.00018750910388682428,
      "loss": 2.1016,
      "step": 1578
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37387235854624906,
      "learning_rate": 0.00018692967323862125,
      "loss": 2.0008,
      "step": 1579
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.36993506874691773,
      "learning_rate": 0.00018635093334031517,
      "loss": 2.0211,
      "step": 1580
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4033630410662424,
      "learning_rate": 0.00018577288546882165,
      "loss": 2.0039,
      "step": 1581
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3655227286875271,
      "learning_rate": 0.00018519553089953023,
      "loss": 2.0902,
      "step": 1582
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39144826554254775,
      "learning_rate": 0.0001846188709063001,
      "loss": 2.0251,
      "step": 1583
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3841862834200323,
      "learning_rate": 0.00018404290676145857,
      "loss": 2.017,
      "step": 1584
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3832397774576198,
      "learning_rate": 0.00018346763973579722,
      "loss": 2.035,
      "step": 1585
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37063172299856917,
      "learning_rate": 0.00018289307109856939,
      "loss": 2.0632,
      "step": 1586
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3710057995122325,
      "learning_rate": 0.0001823192021174882,
      "loss": 2.0109,
      "step": 1587
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38112517444395905,
      "learning_rate": 0.0001817460340587223,
      "loss": 2.0217,
      "step": 1588
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40019787627984205,
      "learning_rate": 0.00018117356818689445,
      "loss": 1.9099,
      "step": 1589
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3857761361327378,
      "learning_rate": 0.00018060180576507756,
      "loss": 2.0359,
      "step": 1590
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3752697575709761,
      "learning_rate": 0.00018003074805479313,
      "loss": 1.9685,
      "step": 1591
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3796374371560677,
      "learning_rate": 0.00017946039631600724,
      "loss": 1.9807,
      "step": 1592
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4020313497849505,
      "learning_rate": 0.00017889075180712837,
      "loss": 2.0231,
      "step": 1593
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39380066193356444,
      "learning_rate": 0.00017832181578500512,
      "loss": 1.8582,
      "step": 1594
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37694260177661193,
      "learning_rate": 0.0001777535895049221,
      "loss": 2.0833,
      "step": 1595
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3730481696824131,
      "learning_rate": 0.0001771860742205988,
      "loss": 2.0914,
      "step": 1596
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3695225729614142,
      "learning_rate": 0.00017661927118418525,
      "loss": 2.0153,
      "step": 1597
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4637773407331586,
      "learning_rate": 0.00017605318164626066,
      "loss": 2.0319,
      "step": 1598
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3940227808708843,
      "learning_rate": 0.00017548780685582949,
      "loss": 2.0227,
      "step": 1599
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3919684941871168,
      "learning_rate": 0.00017492314806031922,
      "loss": 2.0257,
      "step": 1600
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.36757926462510626,
      "learning_rate": 0.00017435920650557806,
      "loss": 2.0028,
      "step": 1601
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4034764381526543,
      "learning_rate": 0.00017379598343587112,
      "loss": 1.9237,
      "step": 1602
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39148997904473454,
      "learning_rate": 0.00017323348009387878,
      "loss": 1.9396,
      "step": 1603
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.44952515176578695,
      "learning_rate": 0.0001726716977206929,
      "loss": 2.0379,
      "step": 1604
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4121291079022855,
      "learning_rate": 0.00017211063755581525,
      "loss": 2.093,
      "step": 1605
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39051814346274466,
      "learning_rate": 0.0001715503008371536,
      "loss": 2.0031,
      "step": 1606
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4169401172187329,
      "learning_rate": 0.0001709906888010196,
      "loss": 2.0593,
      "step": 1607
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37794352191609054,
      "learning_rate": 0.00017043180268212638,
      "loss": 2.0043,
      "step": 1608
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3798512666960657,
      "learning_rate": 0.00016987364371358481,
      "loss": 1.9981,
      "step": 1609
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.43289887150632145,
      "learning_rate": 0.00016931621312690214,
      "loss": 2.1072,
      "step": 1610
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4208372437668378,
      "learning_rate": 0.00016875951215197777,
      "loss": 1.9482,
      "step": 1611
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3776922021931689,
      "learning_rate": 0.00016820354201710214,
      "loss": 2.1046,
      "step": 1612
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3755244658041388,
      "learning_rate": 0.00016764830394895203,
      "loss": 2.0041,
      "step": 1613
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3760145468535898,
      "learning_rate": 0.00016709379917259027,
      "loss": 1.9703,
      "step": 1614
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3985548276896559,
      "learning_rate": 0.00016654002891146091,
      "loss": 2.0278,
      "step": 1615
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3884507700067484,
      "learning_rate": 0.00016598699438738764,
      "loss": 2.0477,
      "step": 1616
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.430424079169018,
      "learning_rate": 0.00016543469682057105,
      "loss": 2.087,
      "step": 1617
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37953458920069355,
      "learning_rate": 0.00016488313742958526,
      "loss": 1.9474,
      "step": 1618
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.41792376480325705,
      "learning_rate": 0.00016433231743137646,
      "loss": 2.0348,
      "step": 1619
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3963210116988237,
      "learning_rate": 0.0001637822380412584,
      "loss": 2.1023,
      "step": 1620
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40171551447262815,
      "learning_rate": 0.00016323290047291195,
      "loss": 2.0383,
      "step": 1621
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38229744543101196,
      "learning_rate": 0.0001626843059383803,
      "loss": 2.0354,
      "step": 1622
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38332365394490364,
      "learning_rate": 0.00016213645564806752,
      "loss": 2.0109,
      "step": 1623
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.36416365647238613,
      "learning_rate": 0.0001615893508107359,
      "loss": 1.983,
      "step": 1624
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37045787742231157,
      "learning_rate": 0.00016104299263350252,
      "loss": 1.9801,
      "step": 1625
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4025165226834225,
      "learning_rate": 0.00016049738232183758,
      "loss": 1.9894,
      "step": 1626
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37528898948993755,
      "learning_rate": 0.0001599525210795606,
      "loss": 1.9995,
      "step": 1627
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.41382789537532094,
      "learning_rate": 0.00015940841010883889,
      "loss": 1.9959,
      "step": 1628
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.41782727894389404,
      "learning_rate": 0.00015886505061018413,
      "loss": 2.0488,
      "step": 1629
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4085152484525841,
      "learning_rate": 0.0001583224437824498,
      "loss": 2.041,
      "step": 1630
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39477103890902754,
      "learning_rate": 0.0001577805908228293,
      "loss": 2.0997,
      "step": 1631
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3764139638433628,
      "learning_rate": 0.00015723949292685191,
      "loss": 1.9868,
      "step": 1632
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3908716264397885,
      "learning_rate": 0.0001566991512883818,
      "loss": 1.9802,
      "step": 1633
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3770155361651272,
      "learning_rate": 0.00015615956709961378,
      "loss": 2.0394,
      "step": 1634
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39413115573439866,
      "learning_rate": 0.00015562074155107215,
      "loss": 2.0375,
      "step": 1635
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.381708819725303,
      "learning_rate": 0.0001550826758316068,
      "loss": 2.0833,
      "step": 1636
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37613348674015495,
      "learning_rate": 0.00015454537112839122,
      "loss": 1.9993,
      "step": 1637
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38817684419630055,
      "learning_rate": 0.00015400882862692033,
      "loss": 1.9165,
      "step": 1638
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3869552029408613,
      "learning_rate": 0.00015347304951100665,
      "loss": 2.002,
      "step": 1639
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3564062393504711,
      "learning_rate": 0.00015293803496277907,
      "loss": 1.97,
      "step": 1640
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3769334547995919,
      "learning_rate": 0.00015240378616267886,
      "loss": 2.0074,
      "step": 1641
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.43799268665564767,
      "learning_rate": 0.00015187030428945843,
      "loss": 1.9935,
      "step": 1642
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37714025489424324,
      "learning_rate": 0.0001513375905201776,
      "loss": 2.0018,
      "step": 1643
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39023839184612025,
      "learning_rate": 0.00015080564603020142,
      "loss": 2.0735,
      "step": 1644
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37163184588029097,
      "learning_rate": 0.0001502744719931982,
      "loss": 2.0104,
      "step": 1645
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39581113703110243,
      "learning_rate": 0.00014974406958113558,
      "loss": 2.0575,
      "step": 1646
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39914935865428175,
      "learning_rate": 0.00014921443996427947,
      "loss": 1.9769,
      "step": 1647
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38955551510311204,
      "learning_rate": 0.0001486855843111901,
      "loss": 1.9718,
      "step": 1648
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39708921533917824,
      "learning_rate": 0.0001481575037887201,
      "loss": 2.0429,
      "step": 1649
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3858702204182351,
      "learning_rate": 0.00014763019956201253,
      "loss": 1.926,
      "step": 1650
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39003458046761524,
      "learning_rate": 0.0001471036727944966,
      "loss": 1.9813,
      "step": 1651
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3842745651183436,
      "learning_rate": 0.0001465779246478872,
      "loss": 1.9844,
      "step": 1652
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4197742706607585,
      "learning_rate": 0.00014605295628218045,
      "loss": 2.0295,
      "step": 1653
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37340403987318904,
      "learning_rate": 0.0001455287688556527,
      "loss": 2.0174,
      "step": 1654
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3737418207657861,
      "learning_rate": 0.00014500536352485673,
      "loss": 1.9777,
      "step": 1655
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38747606470923185,
      "learning_rate": 0.00014448274144461965,
      "loss": 2.0533,
      "step": 1656
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3899536389553738,
      "learning_rate": 0.00014396090376804112,
      "loss": 2.0552,
      "step": 1657
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3721050341054307,
      "learning_rate": 0.00014343985164648926,
      "loss": 1.984,
      "step": 1658
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4060884993456537,
      "learning_rate": 0.00014291958622959973,
      "loss": 2.0297,
      "step": 1659
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38723516151593623,
      "learning_rate": 0.00014240010866527176,
      "loss": 1.9782,
      "step": 1660
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3916776435599131,
      "learning_rate": 0.00014188142009966686,
      "loss": 1.9704,
      "step": 1661
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37387652451621534,
      "learning_rate": 0.0001413635216772053,
      "loss": 1.9755,
      "step": 1662
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3785381490850274,
      "learning_rate": 0.000140846414540564,
      "loss": 1.9327,
      "step": 1663
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3853824066360339,
      "learning_rate": 0.00014033009983067452,
      "loss": 2.0379,
      "step": 1664
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40004628671397363,
      "learning_rate": 0.00013981457868671927,
      "loss": 2.0747,
      "step": 1665
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3921848776658886,
      "learning_rate": 0.0001392998522461305,
      "loss": 2.0066,
      "step": 1666
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3888822265926852,
      "learning_rate": 0.00013878592164458635,
      "loss": 1.958,
      "step": 1667
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4054791303375815,
      "learning_rate": 0.00013827278801600978,
      "loss": 1.9776,
      "step": 1668
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38357394030967956,
      "learning_rate": 0.0001377604524925647,
      "loss": 2.0309,
      "step": 1669
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.41142380260871847,
      "learning_rate": 0.00013724891620465424,
      "loss": 1.9631,
      "step": 1670
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.375111440324235,
      "learning_rate": 0.0001367381802809185,
      "loss": 1.923,
      "step": 1671
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3922735169416836,
      "learning_rate": 0.00013622824584823113,
      "loss": 1.981,
      "step": 1672
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.43937529967528527,
      "learning_rate": 0.00013571911403169795,
      "loss": 2.0384,
      "step": 1673
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3904123465046577,
      "learning_rate": 0.0001352107859546533,
      "loss": 1.9562,
      "step": 1674
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.413405044604784,
      "learning_rate": 0.00013470326273865886,
      "loss": 2.0356,
      "step": 1675
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.41218272688855784,
      "learning_rate": 0.00013419654550349985,
      "loss": 1.9811,
      "step": 1676
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39267290977795677,
      "learning_rate": 0.00013369063536718346,
      "loss": 2.0518,
      "step": 1677
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.384831308099326,
      "learning_rate": 0.00013318553344593632,
      "loss": 2.0368,
      "step": 1678
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3820747273804762,
      "learning_rate": 0.00013268124085420136,
      "loss": 1.9919,
      "step": 1679
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3958148881988692,
      "learning_rate": 0.0001321777587046364,
      "loss": 1.9429,
      "step": 1680
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37368058485569605,
      "learning_rate": 0.00013167508810811059,
      "loss": 2.0398,
      "step": 1681
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3743744017758629,
      "learning_rate": 0.0001311732301737029,
      "loss": 1.9885,
      "step": 1682
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3889504899025368,
      "learning_rate": 0.0001306721860086991,
      "loss": 1.9873,
      "step": 1683
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3735062867739228,
      "learning_rate": 0.00013017195671858928,
      "loss": 2.0123,
      "step": 1684
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3881024948461586,
      "learning_rate": 0.0001296725434070661,
      "loss": 2.0102,
      "step": 1685
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.391194822842598,
      "learning_rate": 0.00012917394717602121,
      "loss": 2.0124,
      "step": 1686
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39020070800307444,
      "learning_rate": 0.00012867616912554426,
      "loss": 2.092,
      "step": 1687
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38642038251367866,
      "learning_rate": 0.00012817921035391882,
      "loss": 1.9342,
      "step": 1688
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39758621477468137,
      "learning_rate": 0.00012768307195762168,
      "loss": 2.0146,
      "step": 1689
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3987809895177898,
      "learning_rate": 0.00012718775503131908,
      "loss": 1.9846,
      "step": 1690
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3708562509759451,
      "learning_rate": 0.0001266932606678646,
      "loss": 2.0685,
      "step": 1691
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3770428517388868,
      "learning_rate": 0.00012619958995829756,
      "loss": 2.019,
      "step": 1692
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3804113891758784,
      "learning_rate": 0.0001257067439918394,
      "loss": 1.9489,
      "step": 1693
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3666485839258961,
      "learning_rate": 0.00012521472385589234,
      "loss": 1.9945,
      "step": 1694
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38211451267123425,
      "learning_rate": 0.00012472353063603626,
      "loss": 1.935,
      "step": 1695
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39337873541140883,
      "learning_rate": 0.0001242331654160263,
      "loss": 2.0376,
      "step": 1696
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39686251152751145,
      "learning_rate": 0.0001237436292777914,
      "loss": 2.0404,
      "step": 1697
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3886187373461695,
      "learning_rate": 0.00012325492330143061,
      "loss": 2.0401,
      "step": 1698
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.35917078157082605,
      "learning_rate": 0.00012276704856521175,
      "loss": 2.0165,
      "step": 1699
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.394443114688317,
      "learning_rate": 0.00012228000614556816,
      "loss": 2.036,
      "step": 1700
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38552849613401374,
      "learning_rate": 0.00012179379711709738,
      "loss": 2.1084,
      "step": 1701
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37846053383994394,
      "learning_rate": 0.0001213084225525577,
      "loss": 1.9819,
      "step": 1702
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3749219138211403,
      "learning_rate": 0.00012082388352286627,
      "loss": 2.0435,
      "step": 1703
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3806713260502743,
      "learning_rate": 0.00012034018109709716,
      "loss": 1.98,
      "step": 1704
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3821212539179608,
      "learning_rate": 0.00011985731634247809,
      "loss": 1.9683,
      "step": 1705
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39103681731267814,
      "learning_rate": 0.00011937529032438904,
      "loss": 2.0551,
      "step": 1706
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38329030716611007,
      "learning_rate": 0.00011889410410635887,
      "loss": 2.0329,
      "step": 1707
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3847511712072855,
      "learning_rate": 0.0001184137587500641,
      "loss": 2.0065,
      "step": 1708
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4572334377867956,
      "learning_rate": 0.00011793425531532564,
      "loss": 1.915,
      "step": 1709
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37731317780762924,
      "learning_rate": 0.00011745559486010671,
      "loss": 2.0482,
      "step": 1710
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3878729545994847,
      "learning_rate": 0.00011697777844051105,
      "loss": 1.9886,
      "step": 1711
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3885585051828915,
      "learning_rate": 0.00011650080711077964,
      "loss": 2.0901,
      "step": 1712
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.37041064047574335,
      "learning_rate": 0.00011602468192328936,
      "loss": 2.0065,
      "step": 1713
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38733582163203967,
      "learning_rate": 0.00011554940392854973,
      "loss": 2.0288,
      "step": 1714
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40980834269504796,
      "learning_rate": 0.00011507497417520146,
      "loss": 2.1031,
      "step": 1715
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.37971943428609545,
      "learning_rate": 0.00011460139371001339,
      "loss": 1.9174,
      "step": 1716
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.36957752040359004,
      "learning_rate": 0.00011412866357788049,
      "loss": 1.9707,
      "step": 1717
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3773363047726912,
      "learning_rate": 0.00011365678482182207,
      "loss": 1.9498,
      "step": 1718
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4092487557011793,
      "learning_rate": 0.0001131857584829783,
      "loss": 1.9704,
      "step": 1719
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38611827070982285,
      "learning_rate": 0.0001127155856006093,
      "loss": 1.9507,
      "step": 1720
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4026576553411517,
      "learning_rate": 0.00011224626721209141,
      "loss": 1.9581,
      "step": 1721
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39707945927124927,
      "learning_rate": 0.0001117778043529164,
      "loss": 2.0191,
      "step": 1722
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3915052386144878,
      "learning_rate": 0.0001113101980566879,
      "loss": 1.9431,
      "step": 1723
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39630649245366223,
      "learning_rate": 0.00011084344935511958,
      "loss": 2.0839,
      "step": 1724
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3723790448082562,
      "learning_rate": 0.00011037755927803345,
      "loss": 1.8957,
      "step": 1725
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3768054522036746,
      "learning_rate": 0.00010991252885335651,
      "loss": 1.9877,
      "step": 1726
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40236377557724895,
      "learning_rate": 0.00010944835910711958,
      "loss": 1.9884,
      "step": 1727
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3905741766560217,
      "learning_rate": 0.00010898505106345396,
      "loss": 1.8901,
      "step": 1728
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3954325235638515,
      "learning_rate": 0.00010852260574459022,
      "loss": 2.0152,
      "step": 1729
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.37485075131334095,
      "learning_rate": 0.00010806102417085512,
      "loss": 1.9306,
      "step": 1730
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3827539719755133,
      "learning_rate": 0.00010760030736066951,
      "loss": 1.962,
      "step": 1731
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3845136552346663,
      "learning_rate": 0.00010714045633054687,
      "loss": 1.9961,
      "step": 1732
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39073790110752343,
      "learning_rate": 0.00010668147209508971,
      "loss": 2.0452,
      "step": 1733
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37813911600367167,
      "learning_rate": 0.00010622335566698877,
      "loss": 1.9966,
      "step": 1734
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4354288965513669,
      "learning_rate": 0.00010576610805701942,
      "loss": 2.015,
      "step": 1735
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3734352508811627,
      "learning_rate": 0.00010530973027404073,
      "loss": 1.9744,
      "step": 1736
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3766802743928484,
      "learning_rate": 0.00010485422332499212,
      "loss": 2.0878,
      "step": 1737
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3801032625073013,
      "learning_rate": 0.00010439958821489165,
      "loss": 1.9459,
      "step": 1738
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38538088046238356,
      "learning_rate": 0.00010394582594683428,
      "loss": 2.0219,
      "step": 1739
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3817888224569777,
      "learning_rate": 0.0001034929375219884,
      "loss": 1.9937,
      "step": 1740
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37638914140937885,
      "learning_rate": 0.00010304092393959514,
      "loss": 2.0115,
      "step": 1741
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3766319159911002,
      "learning_rate": 0.00010258978619696468,
      "loss": 1.9921,
      "step": 1742
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3543712419333695,
      "learning_rate": 0.00010213952528947551,
      "loss": 1.9954,
      "step": 1743
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38687377266005973,
      "learning_rate": 0.00010169014221057089,
      "loss": 2.0291,
      "step": 1744
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.36144700253463696,
      "learning_rate": 0.00010124163795175734,
      "loss": 1.866,
      "step": 1745
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3798474662205989,
      "learning_rate": 0.00010079401350260287,
      "loss": 1.9835,
      "step": 1746
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3723085460819604,
      "learning_rate": 0.00010034726985073362,
      "loss": 2.0902,
      "step": 1747
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3775595422885722,
      "learning_rate": 9.9901407981833e-05,
      "loss": 2.01,
      "step": 1748
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.381451882669819,
      "learning_rate": 9.94564288796384e-05,
      "loss": 1.9905,
      "step": 1749
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37811910071357235,
      "learning_rate": 9.901233352593953e-05,
      "loss": 2.032,
      "step": 1750
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38578921933704075,
      "learning_rate": 9.856912290057668e-05,
      "loss": 1.9718,
      "step": 1751
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.391178803590039,
      "learning_rate": 9.812679798143748e-05,
      "loss": 1.9285,
      "step": 1752
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37176474544746924,
      "learning_rate": 9.768535974445586e-05,
      "loss": 1.9512,
      "step": 1753
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40687541071115974,
      "learning_rate": 9.724480916360906e-05,
      "loss": 2.0075,
      "step": 1754
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3781127333159935,
      "learning_rate": 9.68051472109162e-05,
      "loss": 2.0174,
      "step": 1755
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3877475899809654,
      "learning_rate": 9.636637485643529e-05,
      "loss": 2.067,
      "step": 1756
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4441186706460594,
      "learning_rate": 9.592849306826174e-05,
      "loss": 1.9994,
      "step": 1757
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3815804555785434,
      "learning_rate": 9.549150281252633e-05,
      "loss": 2.0289,
      "step": 1758
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3789604814299281,
      "learning_rate": 9.505540505339223e-05,
      "loss": 1.9463,
      "step": 1759
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39203149655635294,
      "learning_rate": 9.4620200753054e-05,
      "loss": 1.9966,
      "step": 1760
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4008606288422062,
      "learning_rate": 9.418589087173441e-05,
      "loss": 2.0233,
      "step": 1761
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3988547224640123,
      "learning_rate": 9.375247636768325e-05,
      "loss": 1.9998,
      "step": 1762
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39868513600416744,
      "learning_rate": 9.331995819717443e-05,
      "loss": 2.0737,
      "step": 1763
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3969070506019718,
      "learning_rate": 9.288833731450419e-05,
      "loss": 2.0469,
      "step": 1764
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3791580965483517,
      "learning_rate": 9.245761467198948e-05,
      "loss": 2.1037,
      "step": 1765
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38600464143444374,
      "learning_rate": 9.20277912199648e-05,
      "loss": 1.9225,
      "step": 1766
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.37860072983193066,
      "learning_rate": 9.159886790678123e-05,
      "loss": 1.9871,
      "step": 1767
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3813965817325474,
      "learning_rate": 9.11708456788033e-05,
      "loss": 1.9908,
      "step": 1768
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3956959175560129,
      "learning_rate": 9.074372548040793e-05,
      "loss": 2.024,
      "step": 1769
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3622273555550964,
      "learning_rate": 9.031750825398145e-05,
      "loss": 2.0222,
      "step": 1770
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3973810937449959,
      "learning_rate": 8.98921949399179e-05,
      "loss": 2.0293,
      "step": 1771
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.36226449101452385,
      "learning_rate": 8.94677864766173e-05,
      "loss": 2.0138,
      "step": 1772
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41544761961732346,
      "learning_rate": 8.904428380048269e-05,
      "loss": 1.984,
      "step": 1773
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3744679135351171,
      "learning_rate": 8.862168784591929e-05,
      "loss": 1.9844,
      "step": 1774
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3589031333316007,
      "learning_rate": 8.819999954533115e-05,
      "loss": 1.932,
      "step": 1775
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40246641726242743,
      "learning_rate": 8.777921982911996e-05,
      "loss": 2.0217,
      "step": 1776
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4086064613019392,
      "learning_rate": 8.735934962568253e-05,
      "loss": 2.039,
      "step": 1777
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.42315547923119895,
      "learning_rate": 8.694038986140945e-05,
      "loss": 2.0909,
      "step": 1778
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39986121064525126,
      "learning_rate": 8.652234146068206e-05,
      "loss": 1.9132,
      "step": 1779
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39809359084717266,
      "learning_rate": 8.610520534587086e-05,
      "loss": 1.9165,
      "step": 1780
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38507938367886446,
      "learning_rate": 8.568898243733397e-05,
      "loss": 1.9319,
      "step": 1781
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3824399086297916,
      "learning_rate": 8.527367365341409e-05,
      "loss": 2.0225,
      "step": 1782
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40123826529673123,
      "learning_rate": 8.485927991043757e-05,
      "loss": 2.0414,
      "step": 1783
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4117789968227991,
      "learning_rate": 8.444580212271125e-05,
      "loss": 2.071,
      "step": 1784
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4080656998284786,
      "learning_rate": 8.403324120252159e-05,
      "loss": 2.0115,
      "step": 1785
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38852688691518794,
      "learning_rate": 8.362159806013175e-05,
      "loss": 1.976,
      "step": 1786
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40907071228377173,
      "learning_rate": 8.321087360377988e-05,
      "loss": 2.1134,
      "step": 1787
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39371991164974285,
      "learning_rate": 8.280106873967752e-05,
      "loss": 2.0105,
      "step": 1788
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39176401545034834,
      "learning_rate": 8.239218437200679e-05,
      "loss": 1.9812,
      "step": 1789
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38786629260939864,
      "learning_rate": 8.198422140291939e-05,
      "loss": 1.9839,
      "step": 1790
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39384523209665967,
      "learning_rate": 8.157718073253351e-05,
      "loss": 2.0095,
      "step": 1791
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40086213535919424,
      "learning_rate": 8.117106325893287e-05,
      "loss": 2.0114,
      "step": 1792
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3768412925681371,
      "learning_rate": 8.076586987816404e-05,
      "loss": 2.0419,
      "step": 1793
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3814976048773039,
      "learning_rate": 8.036160148423449e-05,
      "loss": 1.9475,
      "step": 1794
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3880165839955983,
      "learning_rate": 7.995825896911141e-05,
      "loss": 1.9713,
      "step": 1795
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3795694786442733,
      "learning_rate": 7.955584322271853e-05,
      "loss": 1.9934,
      "step": 1796
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39125487632950456,
      "learning_rate": 7.915435513293523e-05,
      "loss": 1.9657,
      "step": 1797
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.382199428811231,
      "learning_rate": 7.875379558559387e-05,
      "loss": 2.0519,
      "step": 1798
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3833199981409779,
      "learning_rate": 7.835416546447838e-05,
      "loss": 2.0403,
      "step": 1799
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38001645417062396,
      "learning_rate": 7.795546565132167e-05,
      "loss": 1.9644,
      "step": 1800
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3870057447061664,
      "learning_rate": 7.755769702580412e-05,
      "loss": 2.0351,
      "step": 1801
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39646603998179164,
      "learning_rate": 7.716086046555193e-05,
      "loss": 2.0195,
      "step": 1802
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3884773505930724,
      "learning_rate": 7.676495684613432e-05,
      "loss": 2.0344,
      "step": 1803
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4435698492373418,
      "learning_rate": 7.636998704106252e-05,
      "loss": 1.9761,
      "step": 1804
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3867404126713056,
      "learning_rate": 7.597595192178702e-05,
      "loss": 1.9826,
      "step": 1805
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.376635210241846,
      "learning_rate": 7.558285235769646e-05,
      "loss": 2.0362,
      "step": 1806
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3622696467089827,
      "learning_rate": 7.519068921611494e-05,
      "loss": 2.0547,
      "step": 1807
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3780336622022014,
      "learning_rate": 7.479946336230047e-05,
      "loss": 2.0098,
      "step": 1808
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3898998213096999,
      "learning_rate": 7.440917565944349e-05,
      "loss": 1.9049,
      "step": 1809
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3844679523474094,
      "learning_rate": 7.4019826968664e-05,
      "loss": 1.8793,
      "step": 1810
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.37430206037024166,
      "learning_rate": 7.363141814901053e-05,
      "loss": 1.9796,
      "step": 1811
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3868326642647325,
      "learning_rate": 7.32439500574577e-05,
      "loss": 1.9214,
      "step": 1812
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39976695337017987,
      "learning_rate": 7.285742354890473e-05,
      "loss": 2.0286,
      "step": 1813
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39822644541217095,
      "learning_rate": 7.247183947617325e-05,
      "loss": 2.0639,
      "step": 1814
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38865834001715466,
      "learning_rate": 7.20871986900053e-05,
      "loss": 2.083,
      "step": 1815
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38593130900351286,
      "learning_rate": 7.170350203906218e-05,
      "loss": 1.9755,
      "step": 1816
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3912263712246596,
      "learning_rate": 7.132075036992158e-05,
      "loss": 1.9683,
      "step": 1817
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4021299832903902,
      "learning_rate": 7.093894452707666e-05,
      "loss": 1.9495,
      "step": 1818
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3802599530310165,
      "learning_rate": 7.055808535293334e-05,
      "loss": 2.0459,
      "step": 1819
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3880202775312903,
      "learning_rate": 7.017817368780888e-05,
      "loss": 2.0425,
      "step": 1820
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39224419711760444,
      "learning_rate": 6.979921036993042e-05,
      "loss": 1.9389,
      "step": 1821
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.372154324601009,
      "learning_rate": 6.942119623543202e-05,
      "loss": 2.0544,
      "step": 1822
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3948646710150072,
      "learning_rate": 6.904413211835414e-05,
      "loss": 1.9962,
      "step": 1823
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40117956674316535,
      "learning_rate": 6.866801885064056e-05,
      "loss": 1.9424,
      "step": 1824
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3787353441423691,
      "learning_rate": 6.829285726213769e-05,
      "loss": 1.9847,
      "step": 1825
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40992434877000355,
      "learning_rate": 6.79186481805918e-05,
      "loss": 2.0243,
      "step": 1826
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3939442459950411,
      "learning_rate": 6.754539243164754e-05,
      "loss": 1.9479,
      "step": 1827
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3848749805791791,
      "learning_rate": 6.717309083884654e-05,
      "loss": 2.0892,
      "step": 1828
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40183846469874596,
      "learning_rate": 6.680174422362468e-05,
      "loss": 1.9769,
      "step": 1829
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3917267082440744,
      "learning_rate": 6.643135340531136e-05,
      "loss": 2.0066,
      "step": 1830
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3904902154874533,
      "learning_rate": 6.606191920112664e-05,
      "loss": 2.0528,
      "step": 1831
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3781942225991178,
      "learning_rate": 6.569344242618036e-05,
      "loss": 1.9783,
      "step": 1832
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39277143731893116,
      "learning_rate": 6.532592389346958e-05,
      "loss": 2.0195,
      "step": 1833
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40087039888533854,
      "learning_rate": 6.495936441387713e-05,
      "loss": 2.0246,
      "step": 1834
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.41191121733918706,
      "learning_rate": 6.459376479617013e-05,
      "loss": 2.0076,
      "step": 1835
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.398404794041947,
      "learning_rate": 6.422912584699752e-05,
      "loss": 1.9729,
      "step": 1836
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3692993242839219,
      "learning_rate": 6.386544837088904e-05,
      "loss": 2.053,
      "step": 1837
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3841315502457778,
      "learning_rate": 6.350273317025251e-05,
      "loss": 1.9092,
      "step": 1838
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3773640629568415,
      "learning_rate": 6.314098104537324e-05,
      "loss": 1.9762,
      "step": 1839
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3789267222598415,
      "learning_rate": 6.278019279441122e-05,
      "loss": 1.9619,
      "step": 1840
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40330934401380597,
      "learning_rate": 6.242036921339972e-05,
      "loss": 1.8717,
      "step": 1841
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.37464161126990525,
      "learning_rate": 6.206151109624402e-05,
      "loss": 1.9871,
      "step": 1842
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3841904185315871,
      "learning_rate": 6.170361923471868e-05,
      "loss": 1.9424,
      "step": 1843
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3851963996423365,
      "learning_rate": 6.134669441846691e-05,
      "loss": 1.9839,
      "step": 1844
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.41087613310469434,
      "learning_rate": 6.099073743499772e-05,
      "loss": 1.9915,
      "step": 1845
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39410864840720683,
      "learning_rate": 6.063574906968511e-05,
      "loss": 2.0665,
      "step": 1846
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3877154319236606,
      "learning_rate": 6.028173010576582e-05,
      "loss": 1.9575,
      "step": 1847
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.36430509349252643,
      "learning_rate": 5.9928681324337544e-05,
      "loss": 1.898,
      "step": 1848
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3836084159402025,
      "learning_rate": 5.957660350435773e-05,
      "loss": 2.0473,
      "step": 1849
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.37656110438618995,
      "learning_rate": 5.922549742264122e-05,
      "loss": 1.8966,
      "step": 1850
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.37302879828325225,
      "learning_rate": 5.8875363853859166e-05,
      "loss": 2.0173,
      "step": 1851
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.37814091107590264,
      "learning_rate": 5.852620357053651e-05,
      "loss": 1.9574,
      "step": 1852
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3887067829593044,
      "learning_rate": 5.8178017343051336e-05,
      "loss": 1.9998,
      "step": 1853
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4025267851180911,
      "learning_rate": 5.783080593963219e-05,
      "loss": 2.0468,
      "step": 1854
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38724573760897224,
      "learning_rate": 5.748457012635683e-05,
      "loss": 2.0063,
      "step": 1855
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3813215221902577,
      "learning_rate": 5.713931066715078e-05,
      "loss": 2.0269,
      "step": 1856
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38581424195591324,
      "learning_rate": 5.679502832378497e-05,
      "loss": 1.9908,
      "step": 1857
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3802120658432606,
      "learning_rate": 5.645172385587482e-05,
      "loss": 1.9547,
      "step": 1858
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38422183130550674,
      "learning_rate": 5.6109398020877834e-05,
      "loss": 1.9967,
      "step": 1859
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38624296676016184,
      "learning_rate": 5.576805157409265e-05,
      "loss": 2.0325,
      "step": 1860
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4157664426244783,
      "learning_rate": 5.542768526865677e-05,
      "loss": 2.0254,
      "step": 1861
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.37771544379764066,
      "learning_rate": 5.508829985554509e-05,
      "loss": 2.0053,
      "step": 1862
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.432310329960707,
      "learning_rate": 5.474989608356856e-05,
      "loss": 1.9606,
      "step": 1863
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.37504454003013127,
      "learning_rate": 5.441247469937194e-05,
      "loss": 1.959,
      "step": 1864
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38300389869799434,
      "learning_rate": 5.407603644743286e-05,
      "loss": 2.0483,
      "step": 1865
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3955750412670199,
      "learning_rate": 5.374058207005944e-05,
      "loss": 1.9426,
      "step": 1866
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38612782352282377,
      "learning_rate": 5.3406112307389066e-05,
      "loss": 2.0002,
      "step": 1867
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4277484066966381,
      "learning_rate": 5.3072627897386926e-05,
      "loss": 2.0761,
      "step": 1868
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40440906402624743,
      "learning_rate": 5.27401295758439e-05,
      "loss": 2.0669,
      "step": 1869
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39072435657717136,
      "learning_rate": 5.2408618076375315e-05,
      "loss": 1.9663,
      "step": 1870
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4187857876710229,
      "learning_rate": 5.207809413041914e-05,
      "loss": 2.0172,
      "step": 1871
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40611085319793067,
      "learning_rate": 5.174855846723459e-05,
      "loss": 1.8883,
      "step": 1872
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39999851399640196,
      "learning_rate": 5.1420011813900104e-05,
      "loss": 2.0298,
      "step": 1873
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4162431904493583,
      "learning_rate": 5.109245489531211e-05,
      "loss": 1.9435,
      "step": 1874
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3792838936535362,
      "learning_rate": 5.0765888434183446e-05,
      "loss": 1.9227,
      "step": 1875
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3890801864953651,
      "learning_rate": 5.0440313151041364e-05,
      "loss": 2.0226,
      "step": 1876
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3742592145628567,
      "learning_rate": 5.011572976422657e-05,
      "loss": 1.9428,
      "step": 1877
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39610517925792815,
      "learning_rate": 4.9792138989890825e-05,
      "loss": 2.0435,
      "step": 1878
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3908852445673172,
      "learning_rate": 4.9469541541996234e-05,
      "loss": 1.9416,
      "step": 1879
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38331388083627643,
      "learning_rate": 4.914793813231305e-05,
      "loss": 1.9835,
      "step": 1880
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.394433357881408,
      "learning_rate": 4.882732947041818e-05,
      "loss": 2.0304,
      "step": 1881
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.406748089351525,
      "learning_rate": 4.850771626369416e-05,
      "loss": 1.9661,
      "step": 1882
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4054779146589472,
      "learning_rate": 4.818909921732662e-05,
      "loss": 2.0027,
      "step": 1883
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4061407178087117,
      "learning_rate": 4.787147903430383e-05,
      "loss": 2.0157,
      "step": 1884
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3731283263872357,
      "learning_rate": 4.755485641541424e-05,
      "loss": 2.0328,
      "step": 1885
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39712472923091235,
      "learning_rate": 4.723923205924557e-05,
      "loss": 1.9905,
      "step": 1886
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3838972270339333,
      "learning_rate": 4.6924606662182736e-05,
      "loss": 2.0222,
      "step": 1887
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4132142974369195,
      "learning_rate": 4.6610980918406596e-05,
      "loss": 1.9901,
      "step": 1888
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39085029639126584,
      "learning_rate": 4.629835551989276e-05,
      "loss": 2.0223,
      "step": 1889
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.393880084707041,
      "learning_rate": 4.5986731156409224e-05,
      "loss": 1.961,
      "step": 1890
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4067088001392869,
      "learning_rate": 4.567610851551568e-05,
      "loss": 1.9801,
      "step": 1891
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.37398153106394255,
      "learning_rate": 4.536648828256146e-05,
      "loss": 1.9551,
      "step": 1892
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3796536717104079,
      "learning_rate": 4.505787114068433e-05,
      "loss": 1.9901,
      "step": 1893
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3825918557401479,
      "learning_rate": 4.4750257770808764e-05,
      "loss": 1.9576,
      "step": 1894
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39243503339244673,
      "learning_rate": 4.444364885164448e-05,
      "loss": 1.9326,
      "step": 1895
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.37639512189216145,
      "learning_rate": 4.413804505968533e-05,
      "loss": 1.9747,
      "step": 1896
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3591033202438694,
      "learning_rate": 4.3833447069206944e-05,
      "loss": 1.9958,
      "step": 1897
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.36521071413797523,
      "learning_rate": 4.352985555226635e-05,
      "loss": 1.9365,
      "step": 1898
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3933440725593458,
      "learning_rate": 4.322727117869951e-05,
      "loss": 1.98,
      "step": 1899
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3923117765468697,
      "learning_rate": 4.29256946161205e-05,
      "loss": 1.964,
      "step": 1900
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3702244483659825,
      "learning_rate": 4.262512652991968e-05,
      "loss": 2.0071,
      "step": 1901
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40694493451209207,
      "learning_rate": 4.2325567583262113e-05,
      "loss": 2.0037,
      "step": 1902
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39745030239530976,
      "learning_rate": 4.2027018437086895e-05,
      "loss": 1.9573,
      "step": 1903
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.37637877516361046,
      "learning_rate": 4.172947975010449e-05,
      "loss": 1.962,
      "step": 1904
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38483639726715585,
      "learning_rate": 4.143295217879645e-05,
      "loss": 1.9691,
      "step": 1905
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4067854428912543,
      "learning_rate": 4.113743637741296e-05,
      "loss": 1.8682,
      "step": 1906
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3903528117540949,
      "learning_rate": 4.084293299797226e-05,
      "loss": 1.9398,
      "step": 1907
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39152541595994983,
      "learning_rate": 4.054944269025862e-05,
      "loss": 1.9544,
      "step": 1908
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4231893463451755,
      "learning_rate": 4.025696610182095e-05,
      "loss": 2.0207,
      "step": 1909
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39521693133862557,
      "learning_rate": 3.996550387797187e-05,
      "loss": 1.9682,
      "step": 1910
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4145377595016672,
      "learning_rate": 3.9675056661785556e-05,
      "loss": 2.0274,
      "step": 1911
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40000164680484224,
      "learning_rate": 3.9385625094097154e-05,
      "loss": 1.9502,
      "step": 1912
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3741193124334894,
      "learning_rate": 3.909720981350034e-05,
      "loss": 2.0573,
      "step": 1913
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3915978945675683,
      "learning_rate": 3.880981145634704e-05,
      "loss": 2.0137,
      "step": 1914
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.41888180588453505,
      "learning_rate": 3.852343065674507e-05,
      "loss": 2.0583,
      "step": 1915
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4112484866483062,
      "learning_rate": 3.8238068046557276e-05,
      "loss": 2.07,
      "step": 1916
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38047458493482267,
      "learning_rate": 3.795372425540006e-05,
      "loss": 2.0087,
      "step": 1917
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3856476276271709,
      "learning_rate": 3.76703999106418e-05,
      "loss": 2.0323,
      "step": 1918
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3741789502604424,
      "learning_rate": 3.7388095637401754e-05,
      "loss": 2.0707,
      "step": 1919
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3960665388513499,
      "learning_rate": 3.7106812058548376e-05,
      "loss": 2.1086,
      "step": 1920
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3905197480083796,
      "learning_rate": 3.682654979469807e-05,
      "loss": 2.0517,
      "step": 1921
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4168738071786592,
      "learning_rate": 3.654730946421403e-05,
      "loss": 2.0147,
      "step": 1922
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38314524861749544,
      "learning_rate": 3.6269091683204466e-05,
      "loss": 2.0678,
      "step": 1923
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3830519656776798,
      "learning_rate": 3.5991897065521693e-05,
      "loss": 2.1023,
      "step": 1924
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3702202701510527,
      "learning_rate": 3.571572622276026e-05,
      "loss": 1.9904,
      "step": 1925
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3786237476348345,
      "learning_rate": 3.544057976425619e-05,
      "loss": 2.0066,
      "step": 1926
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39136866419809424,
      "learning_rate": 3.5166458297085146e-05,
      "loss": 1.9836,
      "step": 1927
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3889650321742585,
      "learning_rate": 3.489336242606111e-05,
      "loss": 2.0201,
      "step": 1928
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.41749827266118245,
      "learning_rate": 3.462129275373577e-05,
      "loss": 1.9701,
      "step": 1929
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39926921465511384,
      "learning_rate": 3.4350249880395924e-05,
      "loss": 1.9959,
      "step": 1930
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39585423089234395,
      "learning_rate": 3.408023440406355e-05,
      "loss": 2.0099,
      "step": 1931
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39335794232842947,
      "learning_rate": 3.381124692049331e-05,
      "loss": 2.0586,
      "step": 1932
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39497747495040386,
      "learning_rate": 3.354328802317197e-05,
      "loss": 1.9739,
      "step": 1933
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3960910454270707,
      "learning_rate": 3.327635830331677e-05,
      "loss": 1.9245,
      "step": 1934
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4183772077313806,
      "learning_rate": 3.3010458349874206e-05,
      "loss": 2.0426,
      "step": 1935
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40029569792962977,
      "learning_rate": 3.2745588749518775e-05,
      "loss": 2.0159,
      "step": 1936
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39136122019323216,
      "learning_rate": 3.248175008665161e-05,
      "loss": 2.0342,
      "step": 1937
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40064572706343016,
      "learning_rate": 3.221894294339911e-05,
      "loss": 2.0331,
      "step": 1938
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3941239677165192,
      "learning_rate": 3.1957167899611836e-05,
      "loss": 2.0661,
      "step": 1939
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38775175624190433,
      "learning_rate": 3.169642553286334e-05,
      "loss": 2.0163,
      "step": 1940
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.37767878024235796,
      "learning_rate": 3.143671641844831e-05,
      "loss": 1.9458,
      "step": 1941
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3690850354621354,
      "learning_rate": 3.117804112938205e-05,
      "loss": 1.957,
      "step": 1942
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.37138740714461016,
      "learning_rate": 3.092040023639869e-05,
      "loss": 1.9885,
      "step": 1943
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.384966271809606,
      "learning_rate": 3.066379430795002e-05,
      "loss": 1.9941,
      "step": 1944
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3716444647291731,
      "learning_rate": 3.040822391020459e-05,
      "loss": 1.971,
      "step": 1945
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3892679239512316,
      "learning_rate": 3.0153689607045842e-05,
      "loss": 1.9472,
      "step": 1946
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.36100538860831805,
      "learning_rate": 2.9900191960071545e-05,
      "loss": 2.0224,
      "step": 1947
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39580956033297277,
      "learning_rate": 2.9647731528591848e-05,
      "loss": 1.9534,
      "step": 1948
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3801613626267867,
      "learning_rate": 2.9396308869628795e-05,
      "loss": 1.9637,
      "step": 1949
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39153739001770654,
      "learning_rate": 2.914592453791448e-05,
      "loss": 2.03,
      "step": 1950
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3955103304570897,
      "learning_rate": 2.8896579085889994e-05,
      "loss": 2.0685,
      "step": 1951
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3987696637927013,
      "learning_rate": 2.86482730637046e-05,
      "loss": 2.0368,
      "step": 1952
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39524825550855697,
      "learning_rate": 2.840100701921383e-05,
      "loss": 2.0207,
      "step": 1953
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.375436480465488,
      "learning_rate": 2.8154781497978898e-05,
      "loss": 2.0648,
      "step": 1954
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.37748805861338863,
      "learning_rate": 2.7909597043265013e-05,
      "loss": 1.9531,
      "step": 1955
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3773521255134769,
      "learning_rate": 2.7665454196040662e-05,
      "loss": 1.9044,
      "step": 1956
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38029786587649184,
      "learning_rate": 2.7422353494975905e-05,
      "loss": 2.0216,
      "step": 1957
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38532637407408377,
      "learning_rate": 2.7180295476441573e-05,
      "loss": 1.9658,
      "step": 1958
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3757746487152175,
      "learning_rate": 2.6939280674508016e-05,
      "loss": 2.0174,
      "step": 1959
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.37325908698672244,
      "learning_rate": 2.669930962094358e-05,
      "loss": 1.9541,
      "step": 1960
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.37118772944847583,
      "learning_rate": 2.6460382845214126e-05,
      "loss": 2.0685,
      "step": 1961
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4022730233065812,
      "learning_rate": 2.6222500874481025e-05,
      "loss": 1.877,
      "step": 1962
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39043879943808774,
      "learning_rate": 2.5985664233600827e-05,
      "loss": 2.0467,
      "step": 1963
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40197644080062117,
      "learning_rate": 2.574987344512336e-05,
      "loss": 1.9549,
      "step": 1964
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4081390138866445,
      "learning_rate": 2.5515129029290984e-05,
      "loss": 1.9474,
      "step": 1965
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3883796956802702,
      "learning_rate": 2.5281431504037556e-05,
      "loss": 2.0339,
      "step": 1966
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.385260001135553,
      "learning_rate": 2.504878138498684e-05,
      "loss": 1.9167,
      "step": 1967
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3985311798189668,
      "learning_rate": 2.48171791854519e-05,
      "loss": 2.0631,
      "step": 1968
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40548066218652234,
      "learning_rate": 2.4586625416433473e-05,
      "loss": 2.01,
      "step": 1969
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3924128214930265,
      "learning_rate": 2.435712058661921e-05,
      "loss": 2.0254,
      "step": 1970
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3775756371017002,
      "learning_rate": 2.4128665202382327e-05,
      "loss": 2.0427,
      "step": 1971
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4071230260041646,
      "learning_rate": 2.3901259767780515e-05,
      "loss": 1.9346,
      "step": 1972
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.37470717059466646,
      "learning_rate": 2.367490478455514e-05,
      "loss": 1.9544,
      "step": 1973
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4003985699295688,
      "learning_rate": 2.3449600752129597e-05,
      "loss": 1.9715,
      "step": 1974
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3918786931485352,
      "learning_rate": 2.3225348167608685e-05,
      "loss": 1.9857,
      "step": 1975
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3739233868261503,
      "learning_rate": 2.3002147525777118e-05,
      "loss": 1.957,
      "step": 1976
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39755011925547057,
      "learning_rate": 2.2779999319098856e-05,
      "loss": 1.9524,
      "step": 1977
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3865322605010826,
      "learning_rate": 2.255890403771571e-05,
      "loss": 2.0122,
      "step": 1978
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39509209217236024,
      "learning_rate": 2.233886216944614e-05,
      "loss": 1.9143,
      "step": 1979
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3834888675590269,
      "learning_rate": 2.211987419978484e-05,
      "loss": 1.9919,
      "step": 1980
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40744593112446853,
      "learning_rate": 2.1901940611900705e-05,
      "loss": 2.047,
      "step": 1981
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3782409284596918,
      "learning_rate": 2.168506188663666e-05,
      "loss": 1.9432,
      "step": 1982
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41013698937117715,
      "learning_rate": 2.1469238502507925e-05,
      "loss": 2.0016,
      "step": 1983
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39606316225756366,
      "learning_rate": 2.125447093570154e-05,
      "loss": 2.0035,
      "step": 1984
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.37456447089604716,
      "learning_rate": 2.1040759660074793e-05,
      "loss": 1.9032,
      "step": 1985
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3949649985928707,
      "learning_rate": 2.0828105147154273e-05,
      "loss": 1.922,
      "step": 1986
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4097685380714845,
      "learning_rate": 2.061650786613545e-05,
      "loss": 2.0339,
      "step": 1987
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4110437956435879,
      "learning_rate": 2.040596828388058e-05,
      "loss": 2.0154,
      "step": 1988
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.37794090579014356,
      "learning_rate": 2.019648686491865e-05,
      "loss": 1.8841,
      "step": 1989
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38153070549910334,
      "learning_rate": 1.9988064071443767e-05,
      "loss": 1.9699,
      "step": 1990
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4067435429537258,
      "learning_rate": 1.9780700363314253e-05,
      "loss": 2.0252,
      "step": 1991
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3745491016634936,
      "learning_rate": 1.957439619805196e-05,
      "loss": 1.9739,
      "step": 1992
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3808334724622899,
      "learning_rate": 1.9369152030840554e-05,
      "loss": 2.0201,
      "step": 1993
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.393484366076444,
      "learning_rate": 1.916496831452552e-05,
      "loss": 2.0981,
      "step": 1994
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4011853564242294,
      "learning_rate": 1.8961845499611998e-05,
      "loss": 2.0492,
      "step": 1995
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40982014872432443,
      "learning_rate": 1.8759784034264925e-05,
      "loss": 1.9194,
      "step": 1996
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3956195415933182,
      "learning_rate": 1.855878436430708e-05,
      "loss": 1.9358,
      "step": 1997
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40531326444389887,
      "learning_rate": 1.835884693321871e-05,
      "loss": 2.0307,
      "step": 1998
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.36465965230381103,
      "learning_rate": 1.8159972182136386e-05,
      "loss": 2.0151,
      "step": 1999
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39802993317149765,
      "learning_rate": 1.7962160549851945e-05,
      "loss": 2.0143,
      "step": 2000
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38727514434851545,
      "learning_rate": 1.776541247281177e-05,
      "loss": 1.9576,
      "step": 2001
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.37435846638871256,
      "learning_rate": 1.7569728385115224e-05,
      "loss": 2.0309,
      "step": 2002
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4093692918940978,
      "learning_rate": 1.7375108718514665e-05,
      "loss": 1.9509,
      "step": 2003
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38315583232464057,
      "learning_rate": 1.7181553902413438e-05,
      "loss": 1.9552,
      "step": 2004
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.382619275470263,
      "learning_rate": 1.698906436386577e-05,
      "loss": 1.9662,
      "step": 2005
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3893594369190959,
      "learning_rate": 1.679764052757532e-05,
      "loss": 2.0187,
      "step": 2006
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40797429238688027,
      "learning_rate": 1.6607282815894464e-05,
      "loss": 2.0538,
      "step": 2007
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3833201797551547,
      "learning_rate": 1.6417991648823405e-05,
      "loss": 2.0007,
      "step": 2008
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3870956243642006,
      "learning_rate": 1.6229767444008835e-05,
      "loss": 1.9739,
      "step": 2009
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39113211712920176,
      "learning_rate": 1.604261061674378e-05,
      "loss": 2.0625,
      "step": 2010
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3931293763638859,
      "learning_rate": 1.5856521579965865e-05,
      "loss": 1.9756,
      "step": 2011
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38209628521728567,
      "learning_rate": 1.5671500744256938e-05,
      "loss": 1.994,
      "step": 2012
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.373224890558029,
      "learning_rate": 1.5487548517841953e-05,
      "loss": 1.939,
      "step": 2013
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4138343337444452,
      "learning_rate": 1.530466530658814e-05,
      "loss": 1.997,
      "step": 2014
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39700018303731566,
      "learning_rate": 1.5122851514004054e-05,
      "loss": 1.9332,
      "step": 2015
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39135581027809857,
      "learning_rate": 1.4942107541238703e-05,
      "loss": 1.9633,
      "step": 2016
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3892361120780103,
      "learning_rate": 1.4762433787080809e-05,
      "loss": 1.989,
      "step": 2017
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3885402026594441,
      "learning_rate": 1.4583830647957541e-05,
      "loss": 2.0078,
      "step": 2018
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39915409764004417,
      "learning_rate": 1.4406298517934068e-05,
      "loss": 1.9774,
      "step": 2019
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3878115550591824,
      "learning_rate": 1.4229837788712562e-05,
      "loss": 2.0684,
      "step": 2020
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39214251312653986,
      "learning_rate": 1.4054448849631085e-05,
      "loss": 1.9369,
      "step": 2021
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3985481868128874,
      "learning_rate": 1.3880132087663145e-05,
      "loss": 1.968,
      "step": 2022
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3868150802558037,
      "learning_rate": 1.3706887887416419e-05,
      "loss": 1.9922,
      "step": 2023
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40739334516651715,
      "learning_rate": 1.3534716631132316e-05,
      "loss": 1.9445,
      "step": 2024
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.37874888425620784,
      "learning_rate": 1.3363618698684853e-05,
      "loss": 1.975,
      "step": 2025
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38208642587172387,
      "learning_rate": 1.3193594467579728e-05,
      "loss": 1.9352,
      "step": 2026
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39382967802947844,
      "learning_rate": 1.3024644312954026e-05,
      "loss": 2.0011,
      "step": 2027
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3855325345653496,
      "learning_rate": 1.2856768607574564e-05,
      "loss": 2.0118,
      "step": 2028
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4046934331472568,
      "learning_rate": 1.2689967721837947e-05,
      "loss": 1.9594,
      "step": 2029
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38926686040982905,
      "learning_rate": 1.2524242023769006e-05,
      "loss": 1.9495,
      "step": 2030
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39625946296179065,
      "learning_rate": 1.2359591879020526e-05,
      "loss": 2.0367,
      "step": 2031
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3957027660510166,
      "learning_rate": 1.2196017650872081e-05,
      "loss": 2.0571,
      "step": 2032
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40505247821485774,
      "learning_rate": 1.2033519700229367e-05,
      "loss": 1.9594,
      "step": 2033
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40941661003485524,
      "learning_rate": 1.1872098385623586e-05,
      "loss": 1.9652,
      "step": 2034
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38913902968146397,
      "learning_rate": 1.1711754063210289e-05,
      "loss": 2.0625,
      "step": 2035
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3902891701031335,
      "learning_rate": 1.155248708676887e-05,
      "loss": 1.9858,
      "step": 2036
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38760112234145905,
      "learning_rate": 1.1394297807701737e-05,
      "loss": 1.8968,
      "step": 2037
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.422784323940748,
      "learning_rate": 1.1237186575033254e-05,
      "loss": 1.9649,
      "step": 2038
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.42168926988271593,
      "learning_rate": 1.1081153735409522e-05,
      "loss": 1.9588,
      "step": 2039
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3903944094115243,
      "learning_rate": 1.0926199633097156e-05,
      "loss": 1.9721,
      "step": 2040
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3874677020274301,
      "learning_rate": 1.0772324609982787e-05,
      "loss": 1.9219,
      "step": 2041
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39795141153667557,
      "learning_rate": 1.0619529005571893e-05,
      "loss": 1.9682,
      "step": 2042
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40038359835029846,
      "learning_rate": 1.0467813156988748e-05,
      "loss": 1.9126,
      "step": 2043
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3892148781417404,
      "learning_rate": 1.0317177398975031e-05,
      "loss": 2.0528,
      "step": 2044
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3889229482606389,
      "learning_rate": 1.0167622063889326e-05,
      "loss": 1.8876,
      "step": 2045
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39037609977158627,
      "learning_rate": 1.0019147481706625e-05,
      "loss": 1.9548,
      "step": 2046
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3855676640987675,
      "learning_rate": 9.871753980017051e-06,
      "loss": 1.9732,
      "step": 2047
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39166572320471815,
      "learning_rate": 9.725441884025855e-06,
      "loss": 1.9659,
      "step": 2048
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.36612136373186177,
      "learning_rate": 9.580211516551862e-06,
      "loss": 1.9958,
      "step": 2049
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3890829887785752,
      "learning_rate": 9.436063198027589e-06,
      "loss": 2.0223,
      "step": 2050
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41187509626409047,
      "learning_rate": 9.292997246497959e-06,
      "loss": 2.0742,
      "step": 2051
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3966113208654234,
      "learning_rate": 9.151013977619693e-06,
      "loss": 2.0385,
      "step": 2052
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3604145712963979,
      "learning_rate": 9.010113704661038e-06,
      "loss": 1.9182,
      "step": 2053
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40998556411602266,
      "learning_rate": 8.870296738500316e-06,
      "loss": 2.0224,
      "step": 2054
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3983298138936014,
      "learning_rate": 8.731563387626095e-06,
      "loss": 2.0107,
      "step": 2055
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.37891890294846436,
      "learning_rate": 8.59391395813569e-06,
      "loss": 2.0148,
      "step": 2056
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.37994405309832424,
      "learning_rate": 8.457348753735328e-06,
      "loss": 2.0322,
      "step": 2057
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3829069547147227,
      "learning_rate": 8.321868075738593e-06,
      "loss": 2.021,
      "step": 2058
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3913444868955752,
      "learning_rate": 8.187472223066371e-06,
      "loss": 2.0208,
      "step": 2059
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.38836177134561106,
      "learning_rate": 8.054161492246136e-06,
      "loss": 1.9133,
      "step": 2060
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40430579133901773,
      "learning_rate": 7.921936177411049e-06,
      "loss": 1.9976,
      "step": 2061
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.38397517587395885,
      "learning_rate": 7.790796570299463e-06,
      "loss": 1.9756,
      "step": 2062
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.37330966529265097,
      "learning_rate": 7.660742960254207e-06,
      "loss": 1.9774,
      "step": 2063
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3840819320028736,
      "learning_rate": 7.531775634222138e-06,
      "loss": 1.9508,
      "step": 2064
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3878815209619522,
      "learning_rate": 7.403894876753192e-06,
      "loss": 1.9812,
      "step": 2065
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39836766470109064,
      "learning_rate": 7.277100970000061e-06,
      "loss": 1.9742,
      "step": 2066
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3911600300773257,
      "learning_rate": 7.151394193717408e-06,
      "loss": 2.0347,
      "step": 2067
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.38793092607857993,
      "learning_rate": 7.026774825261151e-06,
      "loss": 2.0006,
      "step": 2068
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40050675754860227,
      "learning_rate": 6.903243139588233e-06,
      "loss": 2.0461,
      "step": 2069
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4075888706801875,
      "learning_rate": 6.780799409255522e-06,
      "loss": 2.0102,
      "step": 2070
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3885992697612098,
      "learning_rate": 6.659443904419637e-06,
      "loss": 2.051,
      "step": 2071
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3794789327017433,
      "learning_rate": 6.539176892836008e-06,
      "loss": 2.0539,
      "step": 2072
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.37767647614895744,
      "learning_rate": 6.4199986398585375e-06,
      "loss": 1.9384,
      "step": 2073
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.383269038905761,
      "learning_rate": 6.3019094084388884e-06,
      "loss": 2.052,
      "step": 2074
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3889068933507863,
      "learning_rate": 6.18490945912592e-06,
      "loss": 2.0101,
      "step": 2075
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3863765277466107,
      "learning_rate": 6.068999050065249e-06,
      "loss": 1.9356,
      "step": 2076
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.38561826606166105,
      "learning_rate": 5.9541784369983586e-06,
      "loss": 1.908,
      "step": 2077
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.38069786627032165,
      "learning_rate": 5.840447873262433e-06,
      "loss": 1.9251,
      "step": 2078
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3987972217688086,
      "learning_rate": 5.727807609789471e-06,
      "loss": 1.9465,
      "step": 2079
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.420754775953325,
      "learning_rate": 5.616257895105892e-06,
      "loss": 2.0366,
      "step": 2080
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.38867254472799445,
      "learning_rate": 5.505798975331933e-06,
      "loss": 1.9515,
      "step": 2081
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3862768306950006,
      "learning_rate": 5.396431094181198e-06,
      "loss": 2.0265,
      "step": 2082
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4072387478941255,
      "learning_rate": 5.288154492960107e-06,
      "loss": 1.9414,
      "step": 2083
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3731519565296491,
      "learning_rate": 5.1809694105671155e-06,
      "loss": 2.0822,
      "step": 2084
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39833946189139624,
      "learning_rate": 5.074876083492441e-06,
      "loss": 1.8986,
      "step": 2085
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3692872997630465,
      "learning_rate": 4.96987474581767e-06,
      "loss": 1.9214,
      "step": 2086
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.38762081252293634,
      "learning_rate": 4.865965629214819e-06,
      "loss": 2.0187,
      "step": 2087
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42013869149634836,
      "learning_rate": 4.763148962946218e-06,
      "loss": 1.8362,
      "step": 2088
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3925012070858074,
      "learning_rate": 4.661424973863681e-06,
      "loss": 1.9825,
      "step": 2089
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3872015447275976,
      "learning_rate": 4.560793886408398e-06,
      "loss": 2.0064,
      "step": 2090
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.38618779323435826,
      "learning_rate": 4.461255922609986e-06,
      "loss": 2.0055,
      "step": 2091
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39205461136833614,
      "learning_rate": 4.362811302086267e-06,
      "loss": 1.9777,
      "step": 2092
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3743898726301887,
      "learning_rate": 4.265460242042885e-06,
      "loss": 1.8931,
      "step": 2093
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39989791427797794,
      "learning_rate": 4.169202957272522e-06,
      "loss": 1.966,
      "step": 2094
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4101205018336791,
      "learning_rate": 4.074039660154738e-06,
      "loss": 1.9788,
      "step": 2095
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39987400375747995,
      "learning_rate": 3.9799705606551325e-06,
      "loss": 2.0401,
      "step": 2096
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4021819747030594,
      "learning_rate": 3.886995866325294e-06,
      "loss": 2.024,
      "step": 2097
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3906096961331615,
      "learning_rate": 3.795115782302072e-06,
      "loss": 2.0368,
      "step": 2098
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3855484450266272,
      "learning_rate": 3.704330511307197e-06,
      "loss": 1.9987,
      "step": 2099
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.38939764000694527,
      "learning_rate": 3.614640253646828e-06,
      "loss": 1.9164,
      "step": 2100
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3876948695186275,
      "learning_rate": 3.5260452072110594e-06,
      "loss": 1.9753,
      "step": 2101
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39285487323561513,
      "learning_rate": 3.4385455674737498e-06,
      "loss": 1.9721,
      "step": 2102
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4014920358976363,
      "learning_rate": 3.3521415274915256e-06,
      "loss": 2.0095,
      "step": 2103
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4108060854658826,
      "learning_rate": 3.2668332779041133e-06,
      "loss": 1.9615,
      "step": 2104
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3827601313807439,
      "learning_rate": 3.1826210069332838e-06,
      "loss": 1.9258,
      "step": 2105
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3856689917857825,
      "learning_rate": 3.0995049003826324e-06,
      "loss": 2.0434,
      "step": 2106
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41524472414381547,
      "learning_rate": 3.017485141637355e-06,
      "loss": 1.9943,
      "step": 2107
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38573679905157876,
      "learning_rate": 2.9365619116636376e-06,
      "loss": 2.0303,
      "step": 2108
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4073010569183173,
      "learning_rate": 2.856735389008269e-06,
      "loss": 1.9815,
      "step": 2109
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3965604735060628,
      "learning_rate": 2.778005749798307e-06,
      "loss": 1.8875,
      "step": 2110
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39585203759034604,
      "learning_rate": 2.700373167740744e-06,
      "loss": 1.9699,
      "step": 2111
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3853979219260677,
      "learning_rate": 2.62383781412201e-06,
      "loss": 1.93,
      "step": 2112
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38212952476688306,
      "learning_rate": 2.5483998578076373e-06,
      "loss": 2.0515,
      "step": 2113
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38602546380994895,
      "learning_rate": 2.4740594652418736e-06,
      "loss": 2.0014,
      "step": 2114
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38282592327805015,
      "learning_rate": 2.4008168004472917e-06,
      "loss": 1.9542,
      "step": 2115
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4034773279802196,
      "learning_rate": 2.3286720250246253e-06,
      "loss": 2.0183,
      "step": 2116
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40336865344385814,
      "learning_rate": 2.2576252981520994e-06,
      "loss": 1.998,
      "step": 2117
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38534921754705037,
      "learning_rate": 2.1876767765853233e-06,
      "loss": 1.9543,
      "step": 2118
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3857373681702932,
      "learning_rate": 2.118826614656788e-06,
      "loss": 1.9167,
      "step": 2119
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4068273566842136,
      "learning_rate": 2.051074964275701e-06,
      "loss": 1.9202,
      "step": 2120
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40323045173462685,
      "learning_rate": 1.984421974927375e-06,
      "loss": 1.9775,
      "step": 2121
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39352616867616896,
      "learning_rate": 1.9188677936731734e-06,
      "loss": 1.9611,
      "step": 2122
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3822061179225112,
      "learning_rate": 1.8544125651501208e-06,
      "loss": 2.0029,
      "step": 2123
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3814828852863519,
      "learning_rate": 1.7910564315704035e-06,
      "loss": 1.9616,
      "step": 2124
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39792280402014985,
      "learning_rate": 1.7287995327214257e-06,
      "loss": 2.0557,
      "step": 2125
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4284552422484323,
      "learning_rate": 1.6676420059649754e-06,
      "loss": 2.0653,
      "step": 2126
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3796892949602002,
      "learning_rate": 1.6075839862374485e-06,
      "loss": 1.914,
      "step": 2127
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40258531659253605,
      "learning_rate": 1.5486256060492366e-06,
      "loss": 2.0844,
      "step": 2128
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3942331783565877,
      "learning_rate": 1.4907669954844495e-06,
      "loss": 1.9492,
      "step": 2129
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40618939030694495,
      "learning_rate": 1.434008282200805e-06,
      "loss": 2.0601,
      "step": 2130
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3841342258111896,
      "learning_rate": 1.3783495914291844e-06,
      "loss": 1.9836,
      "step": 2131
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40509997333826125,
      "learning_rate": 1.3237910459734104e-06,
      "loss": 2.0393,
      "step": 2132
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39120713495217185,
      "learning_rate": 1.270332766210025e-06,
      "loss": 1.9896,
      "step": 2133
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38640369329742374,
      "learning_rate": 1.2179748700879012e-06,
      "loss": 2.0161,
      "step": 2134
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.400141656696949,
      "learning_rate": 1.1667174731280205e-06,
      "loss": 1.963,
      "step": 2135
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3952855535739089,
      "learning_rate": 1.1165606884234182e-06,
      "loss": 1.941,
      "step": 2136
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4283841984761352,
      "learning_rate": 1.0675046266386268e-06,
      "loss": 1.9923,
      "step": 2137
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40569191943728666,
      "learning_rate": 1.019549396009567e-06,
      "loss": 2.0364,
      "step": 2138
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39378866978093513,
      "learning_rate": 9.726951023434348e-07,
      "loss": 2.0749,
      "step": 2139
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39432833089974084,
      "learning_rate": 9.269418490182591e-07,
      "loss": 2.021,
      "step": 2140
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38718669643739173,
      "learning_rate": 8.822897369827332e-07,
      "loss": 2.0223,
      "step": 2141
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39660798662801394,
      "learning_rate": 8.387388647561611e-07,
      "loss": 1.9354,
      "step": 2142
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3971641125467191,
      "learning_rate": 7.962893284279016e-07,
      "loss": 2.012,
      "step": 2143
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38651419055550873,
      "learning_rate": 7.549412216574791e-07,
      "loss": 1.9759,
      "step": 2144
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38146004870536177,
      "learning_rate": 7.146946356743067e-07,
      "loss": 1.9536,
      "step": 2145
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38592721524439316,
      "learning_rate": 6.755496592773524e-07,
      "loss": 1.9269,
      "step": 2146
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39583705639218947,
      "learning_rate": 6.375063788349733e-07,
      "loss": 1.9434,
      "step": 2147
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3881381480587526,
      "learning_rate": 6.005648782848594e-07,
      "loss": 1.914,
      "step": 2148
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3784899535469213,
      "learning_rate": 5.647252391337565e-07,
      "loss": 1.9956,
      "step": 2149
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.37629671925518665,
      "learning_rate": 5.299875404572441e-07,
      "loss": 1.9387,
      "step": 2150
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39650042535447044,
      "learning_rate": 4.963518588996796e-07,
      "loss": 2.0574,
      "step": 2151
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4098187538946448,
      "learning_rate": 4.638182686738657e-07,
      "loss": 2.0538,
      "step": 2152
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3850282918298344,
      "learning_rate": 4.3238684156110543e-07,
      "loss": 2.0088,
      "step": 2153
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.38410032853384446,
      "learning_rate": 4.020576469108139e-07,
      "loss": 2.0348,
      "step": 2154
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3765565447254787,
      "learning_rate": 3.7283075164046274e-07,
      "loss": 1.9158,
      "step": 2155
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.38116337590460286,
      "learning_rate": 3.4470622023557995e-07,
      "loss": 1.9294,
      "step": 2156
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3804184502502285,
      "learning_rate": 3.176841147492504e-07,
      "loss": 1.9069,
      "step": 2157
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3817763675384094,
      "learning_rate": 2.9176449480244895e-07,
      "loss": 1.989,
      "step": 2158
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.37528810006275903,
      "learning_rate": 2.6694741758342967e-07,
      "loss": 1.9228,
      "step": 2159
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.38818325014219135,
      "learning_rate": 2.432329378478926e-07,
      "loss": 1.9538,
      "step": 2160
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3950293850494905,
      "learning_rate": 2.2062110791892798e-07,
      "loss": 1.9644,
      "step": 2161
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40344745723689895,
      "learning_rate": 1.9911197768662792e-07,
      "loss": 2.0156,
      "step": 2162
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3944539570398257,
      "learning_rate": 1.7870559460814173e-07,
      "loss": 2.0465,
      "step": 2163
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.35921383525761597,
      "learning_rate": 1.5940200370750947e-07,
      "loss": 1.9181,
      "step": 2164
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3840015048018208,
      "learning_rate": 1.4120124757577291e-07,
      "loss": 1.9506,
      "step": 2165
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39922746854505153,
      "learning_rate": 1.2410336637047603e-07,
      "loss": 2.0341,
      "step": 2166
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3858384959796682,
      "learning_rate": 1.081083978159425e-07,
      "loss": 1.9749,
      "step": 2167
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39792232356721835,
      "learning_rate": 9.321637720310915e-08,
      "loss": 1.9684,
      "step": 2168
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.38923972547650715,
      "learning_rate": 7.942733738924845e-08,
      "loss": 2.005,
      "step": 2169
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3701436321453704,
      "learning_rate": 6.6741308798135e-08,
      "loss": 2.0915,
      "step": 2170
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.37689079384831914,
      "learning_rate": 5.5158319419934546e-08,
      "loss": 1.9371,
      "step": 2171
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3943538511849632,
      "learning_rate": 4.4678394810981906e-08,
      "loss": 1.9454,
      "step": 2172
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.37940060220682253,
      "learning_rate": 3.5301558093947527e-08,
      "loss": 2.0729,
      "step": 2173
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40137195323286606,
      "learning_rate": 2.7027829957559925e-08,
      "loss": 1.9817,
      "step": 2174
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4035519799481685,
      "learning_rate": 1.985722865682771e-08,
      "loss": 1.9742,
      "step": 2175
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3921627371661261,
      "learning_rate": 1.3789770012762048e-08,
      "loss": 1.9822,
      "step": 2176
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.37538752317015406,
      "learning_rate": 8.825467412376665e-09,
      "loss": 2.004,
      "step": 2177
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3986570818789424,
      "learning_rate": 4.96433180879885e-09,
      "loss": 1.9479,
      "step": 2178
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4002956487804865,
      "learning_rate": 2.206371721158451e-09,
      "loss": 1.9698,
      "step": 2179
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3922458843078352,
      "learning_rate": 5.515932345323549e-10,
      "loss": 2.0199,
      "step": 2180
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.38245890205726774,
      "learning_rate": 0.0,
      "loss": 2.075,
      "step": 2181
    },
    {
      "epoch": 1.0,
      "step": 2181,
      "total_flos": 7.1814074989124e+17,
      "train_loss": 2.1544032492040768,
      "train_runtime": 4427.9979,
      "train_samples_per_second": 126.045,
      "train_steps_per_second": 0.493
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 2181,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000,
  "total_flos": 7.1814074989124e+17,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}