{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 3086,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0003240440699935191,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 8.932,
      "step": 1
    },
    {
      "epoch": 0.0006480881399870382,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 8.7274,
      "step": 2
    },
    {
      "epoch": 0.0009721322099805574,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 8.2125,
      "step": 3
    },
    {
      "epoch": 0.0012961762799740765,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 8.6141,
      "step": 4
    },
    {
      "epoch": 0.0016202203499675956,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 8.8859,
      "step": 5
    },
    {
      "epoch": 0.0019442644199611147,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 8.4536,
      "step": 6
    },
    {
      "epoch": 0.002268308489954634,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 8.3568,
      "step": 7
    },
    {
      "epoch": 0.002592352559948153,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 8.8255,
      "step": 8
    },
    {
      "epoch": 0.002916396629941672,
      "grad_norm": 84.47628021240234,
      "learning_rate": 1.0752688172043012e-05,
      "loss": 8.3047,
      "step": 9
    },
    {
      "epoch": 0.0032404406999351912,
      "grad_norm": 84.47628021240234,
      "learning_rate": 1.0752688172043012e-05,
      "loss": 8.5238,
      "step": 10
    },
    {
      "epoch": 0.0035644847699287103,
      "grad_norm": 175.1166229248047,
      "learning_rate": 2.1505376344086024e-05,
      "loss": 8.7044,
      "step": 11
    },
    {
      "epoch": 0.0038885288399222295,
      "grad_norm": 149.1339569091797,
      "learning_rate": 3.2258064516129034e-05,
      "loss": 7.9232,
      "step": 12
    },
    {
      "epoch": 0.004212572909915748,
      "grad_norm": 78.5597152709961,
      "learning_rate": 4.301075268817205e-05,
      "loss": 7.8263,
      "step": 13
    },
    {
      "epoch": 0.004536616979909268,
      "grad_norm": 78.5597152709961,
      "learning_rate": 4.301075268817205e-05,
      "loss": 6.8961,
      "step": 14
    },
    {
      "epoch": 0.004860661049902786,
      "grad_norm": 58.900447845458984,
      "learning_rate": 5.3763440860215054e-05,
      "loss": 7.045,
      "step": 15
    },
    {
      "epoch": 0.005184705119896306,
      "grad_norm": 69.22654724121094,
      "learning_rate": 6.451612903225807e-05,
      "loss": 6.4662,
      "step": 16
    },
    {
      "epoch": 0.005508749189889825,
      "grad_norm": 47.887611389160156,
      "learning_rate": 7.526881720430108e-05,
      "loss": 6.1146,
      "step": 17
    },
    {
      "epoch": 0.005832793259883344,
      "grad_norm": 20.334945678710938,
      "learning_rate": 8.60215053763441e-05,
      "loss": 5.9279,
      "step": 18
    },
    {
      "epoch": 0.006156837329876863,
      "grad_norm": 35.03974151611328,
      "learning_rate": 9.67741935483871e-05,
      "loss": 5.7566,
      "step": 19
    },
    {
      "epoch": 0.0064808813998703824,
      "grad_norm": 20.361268997192383,
      "learning_rate": 0.00010752688172043011,
      "loss": 5.794,
      "step": 20
    },
    {
      "epoch": 0.006804925469863901,
      "grad_norm": 11.172569274902344,
      "learning_rate": 0.00011827956989247312,
      "loss": 5.4998,
      "step": 21
    },
    {
      "epoch": 0.007128969539857421,
      "grad_norm": 12.653895378112793,
      "learning_rate": 0.00012903225806451613,
      "loss": 5.4402,
      "step": 22
    },
    {
      "epoch": 0.007453013609850939,
      "grad_norm": 20.357545852661133,
      "learning_rate": 0.00013978494623655913,
      "loss": 5.4438,
      "step": 23
    },
    {
      "epoch": 0.007777057679844459,
      "grad_norm": 42.07060241699219,
      "learning_rate": 0.00015053763440860216,
      "loss": 5.6758,
      "step": 24
    },
    {
      "epoch": 0.008101101749837978,
      "grad_norm": 18.85100555419922,
      "learning_rate": 0.00016129032258064516,
      "loss": 5.3912,
      "step": 25
    },
    {
      "epoch": 0.008425145819831496,
      "grad_norm": 15.699166297912598,
      "learning_rate": 0.0001720430107526882,
      "loss": 5.1972,
      "step": 26
    },
    {
      "epoch": 0.008749189889825017,
      "grad_norm": 16.953826904296875,
      "learning_rate": 0.0001827956989247312,
      "loss": 4.9628,
      "step": 27
    },
    {
      "epoch": 0.009073233959818535,
      "grad_norm": 7.506242752075195,
      "learning_rate": 0.0001935483870967742,
      "loss": 4.9438,
      "step": 28
    },
    {
      "epoch": 0.009397278029812054,
      "grad_norm": 16.402271270751953,
      "learning_rate": 0.00020430107526881721,
      "loss": 4.899,
      "step": 29
    },
    {
      "epoch": 0.009721322099805573,
      "grad_norm": 18.935462951660156,
      "learning_rate": 0.00021505376344086021,
      "loss": 4.8668,
      "step": 30
    },
    {
      "epoch": 0.010045366169799093,
      "grad_norm": 2.939544200897217,
      "learning_rate": 0.00022580645161290321,
      "loss": 4.7409,
      "step": 31
    },
    {
      "epoch": 0.010369410239792612,
      "grad_norm": 2.4822981357574463,
      "learning_rate": 0.00023655913978494624,
      "loss": 4.7162,
      "step": 32
    },
    {
      "epoch": 0.01069345430978613,
      "grad_norm": 2.4376542568206787,
      "learning_rate": 0.00024731182795698927,
      "loss": 4.6119,
      "step": 33
    },
    {
      "epoch": 0.01101749837977965,
      "grad_norm": 2.0101144313812256,
      "learning_rate": 0.00025806451612903227,
      "loss": 4.5785,
      "step": 34
    },
    {
      "epoch": 0.01134154244977317,
      "grad_norm": 2.2855379581451416,
      "learning_rate": 0.00026881720430107527,
      "loss": 4.6037,
      "step": 35
    },
    {
      "epoch": 0.011665586519766688,
      "grad_norm": 2.6316933631896973,
      "learning_rate": 0.00027956989247311827,
      "loss": 4.5364,
      "step": 36
    },
    {
      "epoch": 0.011989630589760207,
      "grad_norm": 1.5526354312896729,
      "learning_rate": 0.0002903225806451613,
      "loss": 4.3484,
      "step": 37
    },
    {
      "epoch": 0.012313674659753726,
      "grad_norm": 1.9047592878341675,
      "learning_rate": 0.0003010752688172043,
      "loss": 4.4255,
      "step": 38
    },
    {
      "epoch": 0.012637718729747246,
      "grad_norm": 1.2264831066131592,
      "learning_rate": 0.0003118279569892473,
      "loss": 4.4648,
      "step": 39
    },
    {
      "epoch": 0.012961762799740765,
      "grad_norm": 1.4742403030395508,
      "learning_rate": 0.0003225806451612903,
      "loss": 4.4776,
      "step": 40
    },
    {
      "epoch": 0.013285806869734284,
      "grad_norm": 1.4519550800323486,
      "learning_rate": 0.0003333333333333333,
      "loss": 4.3199,
      "step": 41
    },
    {
      "epoch": 0.013609850939727802,
      "grad_norm": 0.8703022003173828,
      "learning_rate": 0.0003440860215053764,
      "loss": 4.265,
      "step": 42
    },
    {
      "epoch": 0.013933895009721323,
      "grad_norm": 4.0000128746032715,
      "learning_rate": 0.0003548387096774194,
      "loss": 4.3961,
      "step": 43
    },
    {
      "epoch": 0.014257939079714841,
      "grad_norm": 1.086477518081665,
      "learning_rate": 0.0003655913978494624,
      "loss": 4.3017,
      "step": 44
    },
    {
      "epoch": 0.01458198314970836,
      "grad_norm": 1.2470813989639282,
      "learning_rate": 0.0003763440860215054,
      "loss": 4.2578,
      "step": 45
    },
    {
      "epoch": 0.014906027219701879,
      "grad_norm": 1.3269888162612915,
      "learning_rate": 0.0003870967741935484,
      "loss": 4.2719,
      "step": 46
    },
    {
      "epoch": 0.0152300712896954,
      "grad_norm": 1.5162166357040405,
      "learning_rate": 0.0003978494623655914,
      "loss": 4.2727,
      "step": 47
    },
    {
      "epoch": 0.015554115359688918,
      "grad_norm": 2.4274299144744873,
      "learning_rate": 0.00040860215053763443,
      "loss": 4.3327,
      "step": 48
    },
    {
      "epoch": 0.015878159429682438,
      "grad_norm": 6.656989097595215,
      "learning_rate": 0.00041935483870967743,
      "loss": 4.2553,
      "step": 49
    },
    {
      "epoch": 0.016202203499675955,
      "grad_norm": 12.148649215698242,
      "learning_rate": 0.00043010752688172043,
      "loss": 4.1936,
      "step": 50
    },
    {
      "epoch": 0.016526247569669476,
      "grad_norm": 1.1110730171203613,
      "learning_rate": 0.00044086021505376343,
      "loss": 4.1685,
      "step": 51
    },
    {
      "epoch": 0.016850291639662993,
      "grad_norm": 1.6712090969085693,
      "learning_rate": 0.00045161290322580643,
      "loss": 4.1267,
      "step": 52
    },
    {
      "epoch": 0.017174335709656513,
      "grad_norm": 1.8770719766616821,
      "learning_rate": 0.00046236559139784943,
      "loss": 4.2426,
      "step": 53
    },
    {
      "epoch": 0.017498379779650033,
      "grad_norm": 11.556787490844727,
      "learning_rate": 0.0004731182795698925,
      "loss": 4.0571,
      "step": 54
    },
    {
      "epoch": 0.01782242384964355,
      "grad_norm": 1.2307451963424683,
      "learning_rate": 0.0004838709677419355,
      "loss": 4.2127,
      "step": 55
    },
    {
      "epoch": 0.01814646791963707,
      "grad_norm": 0.9319265484809875,
      "learning_rate": 0.0004946236559139785,
      "loss": 4.143,
      "step": 56
    },
    {
      "epoch": 0.01847051198963059,
      "grad_norm": 0.9403641819953918,
      "learning_rate": 0.0005053763440860215,
      "loss": 4.1417,
      "step": 57
    },
    {
      "epoch": 0.018794556059624108,
      "grad_norm": 1.2752225399017334,
      "learning_rate": 0.0005161290322580645,
      "loss": 4.1543,
      "step": 58
    },
    {
      "epoch": 0.01911860012961763,
      "grad_norm": 2.1788101196289062,
      "learning_rate": 0.0005268817204301075,
      "loss": 4.156,
      "step": 59
    },
    {
      "epoch": 0.019442644199611146,
      "grad_norm": 1.430799126625061,
      "learning_rate": 0.0005376344086021505,
      "loss": 4.102,
      "step": 60
    },
    {
      "epoch": 0.019766688269604666,
      "grad_norm": 0.671831488609314,
      "learning_rate": 0.0005483870967741935,
      "loss": 4.1704,
      "step": 61
    },
    {
      "epoch": 0.020090732339598186,
      "grad_norm": 0.49807581305503845,
      "learning_rate": 0.0005591397849462365,
      "loss": 3.987,
      "step": 62
    },
    {
      "epoch": 0.020414776409591703,
      "grad_norm": 0.6203939914703369,
      "learning_rate": 0.0005698924731182796,
      "loss": 4.0168,
      "step": 63
    },
    {
      "epoch": 0.020738820479585224,
      "grad_norm": 0.9142178297042847,
      "learning_rate": 0.0005806451612903226,
      "loss": 3.9844,
      "step": 64
    },
    {
      "epoch": 0.021062864549578744,
      "grad_norm": 0.6560764908790588,
      "learning_rate": 0.0005913978494623656,
      "loss": 4.0582,
      "step": 65
    },
    {
      "epoch": 0.02138690861957226,
      "grad_norm": 0.9866765737533569,
      "learning_rate": 0.0006021505376344086,
      "loss": 3.9884,
      "step": 66
    },
    {
      "epoch": 0.02171095268956578,
      "grad_norm": 0.5101728439331055,
      "learning_rate": 0.0006129032258064516,
      "loss": 3.9252,
      "step": 67
    },
    {
      "epoch": 0.0220349967595593,
      "grad_norm": 0.8232091069221497,
      "learning_rate": 0.0006236559139784946,
      "loss": 4.1345,
      "step": 68
    },
    {
      "epoch": 0.02235904082955282,
      "grad_norm": 0.8904824256896973,
      "learning_rate": 0.0006344086021505376,
      "loss": 3.8888,
      "step": 69
    },
    {
      "epoch": 0.02268308489954634,
      "grad_norm": 0.871505618095398,
      "learning_rate": 0.0006451612903225806,
      "loss": 4.036,
      "step": 70
    },
    {
      "epoch": 0.023007128969539856,
      "grad_norm": 0.7781904339790344,
      "learning_rate": 0.0006559139784946236,
      "loss": 3.9175,
      "step": 71
    },
    {
      "epoch": 0.023331173039533377,
      "grad_norm": 0.4909476637840271,
      "learning_rate": 0.0006666666666666666,
      "loss": 4.0245,
      "step": 72
    },
    {
      "epoch": 0.023655217109526897,
      "grad_norm": 1.618308424949646,
      "learning_rate": 0.0006774193548387097,
      "loss": 3.9005,
      "step": 73
    },
    {
      "epoch": 0.023979261179520414,
      "grad_norm": 0.9315211176872253,
      "learning_rate": 0.0006881720430107528,
      "loss": 3.876,
      "step": 74
    },
    {
      "epoch": 0.024303305249513935,
      "grad_norm": 1.051410436630249,
      "learning_rate": 0.0006989247311827958,
      "loss": 3.9501,
      "step": 75
    },
    {
      "epoch": 0.02462734931950745,
      "grad_norm": 0.45420295000076294,
      "learning_rate": 0.0007096774193548388,
      "loss": 3.8932,
      "step": 76
    },
    {
      "epoch": 0.024951393389500972,
      "grad_norm": 0.44191843271255493,
      "learning_rate": 0.0007204301075268818,
      "loss": 3.9878,
      "step": 77
    },
    {
      "epoch": 0.025275437459494492,
      "grad_norm": 0.4427274763584137,
      "learning_rate": 0.0007311827956989248,
      "loss": 3.9351,
      "step": 78
    },
    {
      "epoch": 0.02559948152948801,
      "grad_norm": 0.5336482524871826,
      "learning_rate": 0.0007419354838709678,
      "loss": 3.8976,
      "step": 79
    },
    {
      "epoch": 0.02592352559948153,
      "grad_norm": 0.47618311643600464,
      "learning_rate": 0.0007526881720430108,
      "loss": 3.8592,
      "step": 80
    },
    {
      "epoch": 0.02624756966947505,
      "grad_norm": 0.42294061183929443,
      "learning_rate": 0.0007634408602150538,
      "loss": 3.8675,
      "step": 81
    },
    {
      "epoch": 0.026571613739468567,
      "grad_norm": 0.7530573606491089,
      "learning_rate": 0.0007741935483870968,
      "loss": 3.9675,
      "step": 82
    },
    {
      "epoch": 0.026895657809462088,
      "grad_norm": 0.3846933841705322,
      "learning_rate": 0.0007849462365591398,
      "loss": 3.8429,
      "step": 83
    },
    {
      "epoch": 0.027219701879455604,
      "grad_norm": 0.3914017677307129,
      "learning_rate": 0.0007956989247311828,
      "loss": 3.9488,
      "step": 84
    },
    {
      "epoch": 0.027543745949449125,
      "grad_norm": 0.524065375328064,
      "learning_rate": 0.0008064516129032258,
      "loss": 3.8335,
      "step": 85
    },
    {
      "epoch": 0.027867790019442645,
      "grad_norm": 0.6420161128044128,
      "learning_rate": 0.0008172043010752689,
      "loss": 3.7923,
      "step": 86
    },
    {
      "epoch": 0.028191834089436162,
      "grad_norm": 0.7175599932670593,
      "learning_rate": 0.0008279569892473119,
      "loss": 3.8107,
      "step": 87
    },
    {
      "epoch": 0.028515878159429683,
      "grad_norm": 0.9456856846809387,
      "learning_rate": 0.0008387096774193549,
      "loss": 3.8622,
      "step": 88
    },
    {
      "epoch": 0.028839922229423203,
      "grad_norm": 0.42142635583877563,
      "learning_rate": 0.0008494623655913979,
      "loss": 3.8441,
      "step": 89
    },
    {
      "epoch": 0.02916396629941672,
      "grad_norm": 0.372947633266449,
      "learning_rate": 0.0008602150537634409,
      "loss": 3.9082,
      "step": 90
    },
    {
      "epoch": 0.02948801036941024,
      "grad_norm": 0.49001285433769226,
      "learning_rate": 0.0008709677419354839,
      "loss": 3.8373,
      "step": 91
    },
    {
      "epoch": 0.029812054439403757,
      "grad_norm": 1.0655016899108887,
      "learning_rate": 0.0008817204301075269,
      "loss": 3.9072,
      "step": 92
    },
    {
      "epoch": 0.030136098509397278,
      "grad_norm": 0.46716776490211487,
      "learning_rate": 0.0008924731182795699,
      "loss": 3.8692,
      "step": 93
    },
    {
      "epoch": 0.0304601425793908,
      "grad_norm": 0.5915864109992981,
      "learning_rate": 0.0009032258064516129,
      "loss": 3.9415,
      "step": 94
    },
    {
      "epoch": 0.030784186649384315,
      "grad_norm": 0.7205747365951538,
      "learning_rate": 0.0009139784946236559,
      "loss": 3.8521,
      "step": 95
    },
    {
      "epoch": 0.031108230719377836,
      "grad_norm": 0.8224472999572754,
      "learning_rate": 0.0009247311827956989,
      "loss": 3.851,
      "step": 96
    },
    {
      "epoch": 0.031432274789371356,
      "grad_norm": 1.0340548753738403,
      "learning_rate": 0.0009354838709677419,
      "loss": 3.9372,
      "step": 97
    },
    {
      "epoch": 0.031756318859364877,
      "grad_norm": 0.5731363296508789,
      "learning_rate": 0.000946236559139785,
      "loss": 3.7265,
      "step": 98
    },
    {
      "epoch": 0.03208036292935839,
      "grad_norm": 0.4155210852622986,
      "learning_rate": 0.000956989247311828,
      "loss": 3.846,
      "step": 99
    },
    {
      "epoch": 0.03240440699935191,
      "grad_norm": 0.5167216658592224,
      "learning_rate": 0.000967741935483871,
      "loss": 3.9271,
      "step": 100
    },
    {
      "epoch": 0.03272845106934543,
      "grad_norm": 0.5245220065116882,
      "learning_rate": 0.000978494623655914,
      "loss": 3.8004,
      "step": 101
    },
    {
      "epoch": 0.03305249513933895,
      "grad_norm": 0.9267635345458984,
      "learning_rate": 0.000989247311827957,
      "loss": 3.7141,
      "step": 102
    },
    {
      "epoch": 0.03337653920933247,
      "grad_norm": 0.9169207215309143,
      "learning_rate": 0.001,
      "loss": 3.7812,
      "step": 103
    },
    {
      "epoch": 0.033700583279325985,
      "grad_norm": 0.5673583745956421,
      "learning_rate": 0.0009999997245604625,
      "loss": 3.825,
      "step": 104
    },
    {
      "epoch": 0.034024627349319506,
      "grad_norm": 1.2765902280807495,
      "learning_rate": 0.0009999988982421534,
      "loss": 3.7547,
      "step": 105
    },
    {
      "epoch": 0.034348671419313026,
      "grad_norm": 0.8442696928977966,
      "learning_rate": 0.0009999975210459831,
      "loss": 3.8158,
      "step": 106
    },
    {
      "epoch": 0.034672715489306546,
      "grad_norm": 0.36344656348228455,
      "learning_rate": 0.0009999955929734688,
      "loss": 3.7606,
      "step": 107
    },
    {
      "epoch": 0.03499675955930007,
      "grad_norm": 0.832150399684906,
      "learning_rate": 0.0009999931140267351,
      "loss": 3.82,
      "step": 108
    },
    {
      "epoch": 0.03532080362929359,
      "grad_norm": 0.8721343278884888,
      "learning_rate": 0.000999990084208513,
      "loss": 3.7163,
      "step": 109
    },
    {
      "epoch": 0.0356448476992871,
      "grad_norm": 0.383425235748291,
      "learning_rate": 0.0009999865035221407,
      "loss": 3.8104,
      "step": 110
    },
    {
      "epoch": 0.03596889176928062,
      "grad_norm": 0.362049400806427,
      "learning_rate": 0.000999982371971563,
      "loss": 3.7496,
      "step": 111
    },
    {
      "epoch": 0.03629293583927414,
      "grad_norm": 0.9279452562332153,
      "learning_rate": 0.000999977689561332,
      "loss": 3.7991,
      "step": 112
    },
    {
      "epoch": 0.03661697990926766,
      "grad_norm": 0.9367163181304932,
      "learning_rate": 0.000999972456296607,
      "loss": 3.9011,
      "step": 113
    },
    {
      "epoch": 0.03694102397926118,
      "grad_norm": 0.6426609754562378,
      "learning_rate": 0.0009999666721831532,
      "loss": 3.8067,
      "step": 114
    },
    {
      "epoch": 0.037265068049254696,
      "grad_norm": 3.6916146278381348,
      "learning_rate": 0.0009999603372273437,
      "loss": 3.8387,
      "step": 115
    },
    {
      "epoch": 0.037589112119248216,
      "grad_norm": 0.406686007976532,
      "learning_rate": 0.0009999534514361578,
      "loss": 3.8078,
      "step": 116
    },
    {
      "epoch": 0.03791315618924174,
      "grad_norm": 0.33023932576179504,
      "learning_rate": 0.0009999460148171822,
      "loss": 3.7825,
      "step": 117
    },
    {
      "epoch": 0.03823720025923526,
      "grad_norm": 0.736613929271698,
      "learning_rate": 0.00099993802737861,
      "loss": 3.7861,
      "step": 118
    },
    {
      "epoch": 0.03856124432922878,
      "grad_norm": 0.39082765579223633,
      "learning_rate": 0.0009999294891292415,
      "loss": 3.794,
      "step": 119
    },
    {
      "epoch": 0.03888528839922229,
      "grad_norm": 0.3571275472640991,
      "learning_rate": 0.000999920400078484,
      "loss": 3.5907,
      "step": 120
    },
    {
      "epoch": 0.03920933246921581,
      "grad_norm": 0.33561399579048157,
      "learning_rate": 0.0009999107602363514,
      "loss": 3.6506,
      "step": 121
    },
    {
      "epoch": 0.03953337653920933,
      "grad_norm": 0.8689829111099243,
      "learning_rate": 0.0009999005696134642,
      "loss": 3.748,
      "step": 122
    },
    {
      "epoch": 0.03985742060920285,
      "grad_norm": 1.5210931301116943,
      "learning_rate": 0.0009998898282210505,
      "loss": 3.7555,
      "step": 123
    },
    {
      "epoch": 0.04018146467919637,
      "grad_norm": 0.7696221470832825,
      "learning_rate": 0.0009998785360709442,
      "loss": 3.6579,
      "step": 124
    },
    {
      "epoch": 0.04050550874918989,
      "grad_norm": 1.286113977432251,
      "learning_rate": 0.0009998666931755865,
      "loss": 3.7937,
      "step": 125
    },
    {
      "epoch": 0.04082955281918341,
      "grad_norm": 0.8878694176673889,
      "learning_rate": 0.0009998542995480258,
      "loss": 3.732,
      "step": 126
    },
    {
      "epoch": 0.04115359688917693,
      "grad_norm": 0.5690008401870728,
      "learning_rate": 0.0009998413552019167,
      "loss": 3.831,
      "step": 127
    },
    {
      "epoch": 0.04147764095917045,
      "grad_norm": 0.44746696949005127,
      "learning_rate": 0.0009998278601515208,
      "loss": 3.7276,
      "step": 128
    },
    {
      "epoch": 0.04180168502916397,
      "grad_norm": 2.0411672592163086,
      "learning_rate": 0.0009998138144117063,
      "loss": 3.8715,
      "step": 129
    },
    {
      "epoch": 0.04212572909915749,
      "grad_norm": 1.115515112876892,
      "learning_rate": 0.0009997992179979483,
      "loss": 3.7123,
      "step": 130
    },
    {
      "epoch": 0.042449773169151,
      "grad_norm": 0.6623923778533936,
      "learning_rate": 0.0009997840709263283,
      "loss": 3.7491,
      "step": 131
    },
    {
      "epoch": 0.04277381723914452,
      "grad_norm": 0.925161600112915,
      "learning_rate": 0.0009997683732135348,
      "loss": 3.6958,
      "step": 132
    },
    {
      "epoch": 0.04309786130913804,
      "grad_norm": 0.744551956653595,
      "learning_rate": 0.000999752124876863,
      "loss": 3.729,
      "step": 133
    },
    {
      "epoch": 0.04342190537913156,
      "grad_norm": 1.1815391778945923,
      "learning_rate": 0.0009997353259342146,
      "loss": 3.7511,
      "step": 134
    },
    {
      "epoch": 0.043745949449125084,
      "grad_norm": 0.8728572726249695,
      "learning_rate": 0.000999717976404098,
      "loss": 3.8319,
      "step": 135
    },
    {
      "epoch": 0.0440699935191186,
      "grad_norm": 0.6304104328155518,
      "learning_rate": 0.0009997000763056281,
      "loss": 3.7027,
      "step": 136
    },
    {
      "epoch": 0.04439403758911212,
      "grad_norm": 1.4126386642456055,
      "learning_rate": 0.0009996816256585266,
      "loss": 3.7614,
      "step": 137
    },
    {
      "epoch": 0.04471808165910564,
      "grad_norm": 1.9158785343170166,
      "learning_rate": 0.0009996626244831214,
      "loss": 3.6788,
      "step": 138
    },
    {
      "epoch": 0.04504212572909916,
      "grad_norm": 0.5085476040840149,
      "learning_rate": 0.0009996430728003475,
      "loss": 3.6379,
      "step": 139
    },
    {
      "epoch": 0.04536616979909268,
      "grad_norm": 0.7797123193740845,
      "learning_rate": 0.0009996229706317457,
      "loss": 3.7289,
      "step": 140
    },
    {
      "epoch": 0.04569021386908619,
      "grad_norm": 1.483863353729248,
      "learning_rate": 0.0009996023179994645,
      "loss": 3.7903,
      "step": 141
    },
    {
      "epoch": 0.04601425793907971,
      "grad_norm": 0.8393250107765198,
      "learning_rate": 0.0009995811149262574,
      "loss": 3.7865,
      "step": 142
    },
    {
      "epoch": 0.04633830200907323,
      "grad_norm": 0.4827254116535187,
      "learning_rate": 0.0009995593614354852,
      "loss": 3.6531,
      "step": 143
    },
    {
      "epoch": 0.046662346079066754,
      "grad_norm": 0.464801549911499,
      "learning_rate": 0.000999537057551115,
      "loss": 3.7131,
      "step": 144
    },
    {
      "epoch": 0.046986390149060274,
      "grad_norm": 1.7556521892547607,
      "learning_rate": 0.0009995142032977204,
      "loss": 3.6337,
      "step": 145
    },
    {
      "epoch": 0.047310434219053794,
      "grad_norm": 0.5047459602355957,
      "learning_rate": 0.0009994907987004814,
      "loss": 3.6323,
      "step": 146
    },
    {
      "epoch": 0.04763447828904731,
      "grad_norm": 0.5225521326065063,
      "learning_rate": 0.000999466843785184,
      "loss": 3.756,
      "step": 147
    },
    {
      "epoch": 0.04795852235904083,
      "grad_norm": 0.6444370150566101,
      "learning_rate": 0.0009994423385782205,
      "loss": 3.672,
      "step": 148
    },
    {
      "epoch": 0.04828256642903435,
      "grad_norm": 0.9494670629501343,
      "learning_rate": 0.00099941728310659,
      "loss": 3.7088,
      "step": 149
    },
    {
      "epoch": 0.04860661049902787,
      "grad_norm": 0.7496480941772461,
      "learning_rate": 0.0009993916773978978,
      "loss": 3.6313,
      "step": 150
    },
    {
      "epoch": 0.04893065456902139,
      "grad_norm": 0.6194398403167725,
      "learning_rate": 0.0009993655214803547,
      "loss": 3.6452,
      "step": 151
    },
    {
      "epoch": 0.0492546986390149,
      "grad_norm": 0.8117744326591492,
      "learning_rate": 0.0009993388153827787,
      "loss": 3.6983,
      "step": 152
    },
    {
      "epoch": 0.04957874270900842,
      "grad_norm": 0.4887789487838745,
      "learning_rate": 0.000999311559134593,
      "loss": 3.7041,
      "step": 153
    },
    {
      "epoch": 0.049902786779001944,
      "grad_norm": 2.143841505050659,
      "learning_rate": 0.0009992837527658274,
      "loss": 3.7007,
      "step": 154
    },
    {
      "epoch": 0.050226830848995464,
      "grad_norm": 0.37276896834373474,
      "learning_rate": 0.000999255396307118,
      "loss": 3.7198,
      "step": 155
    },
    {
      "epoch": 0.050550874918988985,
      "grad_norm": 1.162802815437317,
      "learning_rate": 0.000999226489789707,
      "loss": 3.7506,
      "step": 156
    },
    {
      "epoch": 0.0508749189889825,
      "grad_norm": 0.8345368504524231,
      "learning_rate": 0.0009991970332454418,
      "loss": 3.6404,
      "step": 157
    },
    {
      "epoch": 0.05119896305897602,
      "grad_norm": 0.6126439571380615,
      "learning_rate": 0.000999167026706777,
      "loss": 3.5282,
      "step": 158
    },
    {
      "epoch": 0.05152300712896954,
      "grad_norm": 0.48227831721305847,
      "learning_rate": 0.000999136470206772,
      "loss": 3.5828,
      "step": 159
    },
    {
      "epoch": 0.05184705119896306,
      "grad_norm": 0.4488776922225952,
      "learning_rate": 0.0009991053637790931,
      "loss": 3.6356,
      "step": 160
    },
    {
      "epoch": 0.05217109526895658,
      "grad_norm": 0.5857362747192383,
      "learning_rate": 0.000999073707458012,
      "loss": 3.6836,
      "step": 161
    },
    {
      "epoch": 0.0524951393389501,
      "grad_norm": 0.6434242725372314,
      "learning_rate": 0.000999041501278406,
      "loss": 3.7346,
      "step": 162
    },
    {
      "epoch": 0.052819183408943614,
      "grad_norm": 0.6312745809555054,
      "learning_rate": 0.0009990087452757587,
      "loss": 3.7211,
      "step": 163
    },
    {
      "epoch": 0.053143227478937134,
      "grad_norm": 0.8930986523628235,
      "learning_rate": 0.0009989754394861593,
      "loss": 3.7574,
      "step": 164
    },
    {
      "epoch": 0.053467271548930655,
      "grad_norm": 1.1797183752059937,
      "learning_rate": 0.0009989415839463027,
      "loss": 3.5989,
      "step": 165
    },
    {
      "epoch": 0.053791315618924175,
      "grad_norm": 1.0170469284057617,
      "learning_rate": 0.0009989071786934897,
      "loss": 3.5791,
      "step": 166
    },
    {
      "epoch": 0.054115359688917695,
      "grad_norm": 0.8209086060523987,
      "learning_rate": 0.0009988722237656265,
      "loss": 3.6683,
      "step": 167
    },
    {
      "epoch": 0.05443940375891121,
      "grad_norm": 0.6714641451835632,
      "learning_rate": 0.0009988367192012247,
      "loss": 3.7492,
      "step": 168
    },
    {
      "epoch": 0.05476344782890473,
      "grad_norm": 0.5281417965888977,
      "learning_rate": 0.000998800665039402,
      "loss": 3.6153,
      "step": 169
    },
    {
      "epoch": 0.05508749189889825,
      "grad_norm": 0.8308195471763611,
      "learning_rate": 0.0009987640613198813,
      "loss": 3.6679,
      "step": 170
    },
    {
      "epoch": 0.05541153596889177,
      "grad_norm": 0.8204036951065063,
      "learning_rate": 0.000998726908082991,
      "loss": 3.6286,
      "step": 171
    },
    {
      "epoch": 0.05573558003888529,
      "grad_norm": 0.889952540397644,
      "learning_rate": 0.0009986892053696652,
      "loss": 3.666,
      "step": 172
    },
    {
      "epoch": 0.056059624108878804,
      "grad_norm": 0.5364251136779785,
      "learning_rate": 0.000998650953221443,
      "loss": 3.6022,
      "step": 173
    },
    {
      "epoch": 0.056383668178872325,
      "grad_norm": 1.178360104560852,
      "learning_rate": 0.0009986121516804688,
      "loss": 3.585,
      "step": 174
    },
    {
      "epoch": 0.056707712248865845,
      "grad_norm": 0.6084851622581482,
      "learning_rate": 0.000998572800789493,
      "loss": 3.5382,
      "step": 175
    },
    {
      "epoch": 0.057031756318859365,
      "grad_norm": 0.42745447158813477,
      "learning_rate": 0.0009985329005918703,
      "loss": 3.5967,
      "step": 176
    },
    {
      "epoch": 0.057355800388852886,
      "grad_norm": 0.6275938749313354,
      "learning_rate": 0.0009984924511315613,
      "loss": 3.7281,
      "step": 177
    },
    {
      "epoch": 0.057679844458846406,
      "grad_norm": 0.751358151435852,
      "learning_rate": 0.0009984514524531314,
      "loss": 3.6105,
      "step": 178
    },
    {
      "epoch": 0.05800388852883992,
      "grad_norm": 0.8247307538986206,
      "learning_rate": 0.0009984099046017516,
      "loss": 3.6617,
      "step": 179
    },
    {
      "epoch": 0.05832793259883344,
      "grad_norm": 0.5386428833007812,
      "learning_rate": 0.000998367807623197,
      "loss": 3.6099,
      "step": 180
    },
    {
      "epoch": 0.05865197666882696,
      "grad_norm": 0.4081287086009979,
      "learning_rate": 0.0009983251615638489,
      "loss": 3.6646,
      "step": 181
    },
    {
      "epoch": 0.05897602073882048,
      "grad_norm": 0.3910803496837616,
      "learning_rate": 0.0009982819664706925,
      "loss": 3.5883,
      "step": 182
    },
    {
      "epoch": 0.059300064808814,
      "grad_norm": 0.3792347311973572,
      "learning_rate": 0.0009982382223913185,
      "loss": 3.6809,
      "step": 183
    },
    {
      "epoch": 0.059624108878807515,
      "grad_norm": 0.8213810324668884,
      "learning_rate": 0.000998193929373922,
      "loss": 3.5741,
      "step": 184
    },
    {
      "epoch": 0.059948152948801035,
      "grad_norm": 0.4009770154953003,
      "learning_rate": 0.0009981490874673038,
      "loss": 3.5218,
      "step": 185
    },
    {
      "epoch": 0.060272197018794556,
      "grad_norm": 0.7221534848213196,
      "learning_rate": 0.0009981036967208685,
      "loss": 3.6216,
      "step": 186
    },
    {
      "epoch": 0.060596241088788076,
      "grad_norm": 0.373839408159256,
      "learning_rate": 0.0009980577571846257,
      "loss": 3.6429,
      "step": 187
    },
    {
      "epoch": 0.0609202851587816,
      "grad_norm": 1.0097578763961792,
      "learning_rate": 0.0009980112689091897,
      "loss": 3.6597,
      "step": 188
    },
    {
      "epoch": 0.06124432922877511,
      "grad_norm": 0.460478276014328,
      "learning_rate": 0.0009979642319457793,
      "loss": 3.5144,
      "step": 189
    },
    {
      "epoch": 0.06156837329876863,
      "grad_norm": 0.6925983428955078,
      "learning_rate": 0.0009979166463462178,
      "loss": 3.6853,
      "step": 190
    },
    {
      "epoch": 0.06189241736876215,
      "grad_norm": 0.47307124733924866,
      "learning_rate": 0.0009978685121629332,
      "loss": 3.5599,
      "step": 191
    },
    {
      "epoch": 0.06221646143875567,
      "grad_norm": 1.2511650323867798,
      "learning_rate": 0.0009978198294489575,
      "loss": 3.6004,
      "step": 192
    },
    {
      "epoch": 0.06254050550874919,
      "grad_norm": 0.5601349472999573,
      "learning_rate": 0.0009977705982579276,
      "loss": 3.5575,
      "step": 193
    },
    {
      "epoch": 0.06286454957874271,
      "grad_norm": 0.469681054353714,
      "learning_rate": 0.000997720818644084,
      "loss": 3.5892,
      "step": 194
    },
    {
      "epoch": 0.06318859364873623,
      "grad_norm": 0.9249104261398315,
      "learning_rate": 0.0009976704906622723,
      "loss": 3.6045,
      "step": 195
    },
    {
      "epoch": 0.06351263771872975,
      "grad_norm": 0.9874392747879028,
      "learning_rate": 0.000997619614367941,
      "loss": 3.6014,
      "step": 196
    },
    {
      "epoch": 0.06383668178872326,
      "grad_norm": 0.4967440962791443,
      "learning_rate": 0.0009975681898171443,
      "loss": 3.6449,
      "step": 197
    },
    {
      "epoch": 0.06416072585871678,
      "grad_norm": 0.3707071542739868,
      "learning_rate": 0.000997516217066539,
      "loss": 3.6717,
      "step": 198
    },
    {
      "epoch": 0.0644847699287103,
      "grad_norm": 0.5771794319152832,
      "learning_rate": 0.0009974636961733868,
      "loss": 3.6047,
      "step": 199
    },
    {
      "epoch": 0.06480881399870382,
      "grad_norm": 0.5399594902992249,
      "learning_rate": 0.0009974106271955529,
      "loss": 3.6447,
      "step": 200
    },
    {
      "epoch": 0.06513285806869734,
      "grad_norm": 0.5866227746009827,
      "learning_rate": 0.0009973570101915066,
      "loss": 3.5561,
      "step": 201
    },
    {
      "epoch": 0.06545690213869086,
      "grad_norm": 4.906844139099121,
      "learning_rate": 0.0009973028452203209,
      "loss": 3.5884,
      "step": 202
    },
    {
      "epoch": 0.06578094620868438,
      "grad_norm": 1.5158109664916992,
      "learning_rate": 0.000997248132341672,
      "loss": 3.5723,
      "step": 203
    },
    {
      "epoch": 0.0661049902786779,
      "grad_norm": 2.003396987915039,
      "learning_rate": 0.000997192871615841,
      "loss": 3.5946,
      "step": 204
    },
    {
      "epoch": 0.06642903434867142,
      "grad_norm": 0.5409879088401794,
      "learning_rate": 0.0009971370631037114,
      "loss": 3.4682,
      "step": 205
    },
    {
      "epoch": 0.06675307841866494,
      "grad_norm": 3.1933069229125977,
      "learning_rate": 0.0009970807068667709,
      "loss": 3.729,
      "step": 206
    },
    {
      "epoch": 0.06707712248865846,
      "grad_norm": 1.347557544708252,
      "learning_rate": 0.0009970238029671102,
      "loss": 3.5986,
      "step": 207
    },
    {
      "epoch": 0.06740116655865197,
      "grad_norm": 1.7762364149093628,
      "learning_rate": 0.000996966351467424,
      "loss": 3.5479,
      "step": 208
    },
    {
      "epoch": 0.06772521062864549,
      "grad_norm": 1.782660722732544,
      "learning_rate": 0.0009969083524310096,
      "loss": 3.526,
      "step": 209
    },
    {
      "epoch": 0.06804925469863901,
      "grad_norm": 1.144842505455017,
      "learning_rate": 0.0009968498059217679,
      "loss": 3.6329,
      "step": 210
    },
    {
      "epoch": 0.06837329876863253,
      "grad_norm": 3.546342134475708,
      "learning_rate": 0.0009967907120042032,
      "loss": 3.5512,
      "step": 211
    },
    {
      "epoch": 0.06869734283862605,
      "grad_norm": 4.829303741455078,
      "learning_rate": 0.0009967310707434229,
      "loss": 3.6319,
      "step": 212
    },
    {
      "epoch": 0.06902138690861957,
      "grad_norm": 1.2911393642425537,
      "learning_rate": 0.0009966708822051367,
      "loss": 3.4878,
      "step": 213
    },
    {
      "epoch": 0.06934543097861309,
      "grad_norm": 2.042297601699829,
      "learning_rate": 0.0009966101464556584,
      "loss": 3.6565,
      "step": 214
    },
    {
      "epoch": 0.06966947504860661,
      "grad_norm": 1.809181571006775,
      "learning_rate": 0.0009965488635619035,
      "loss": 3.5415,
      "step": 215
    },
    {
      "epoch": 0.06999351911860013,
      "grad_norm": 1.383890986442566,
      "learning_rate": 0.0009964870335913913,
      "loss": 3.5611,
      "step": 216
    },
    {
      "epoch": 0.07031756318859365,
      "grad_norm": 2.1011085510253906,
      "learning_rate": 0.0009964246566122434,
      "loss": 3.5384,
      "step": 217
    },
    {
      "epoch": 0.07064160725858717,
      "grad_norm": 2.900726079940796,
      "learning_rate": 0.0009963617326931844,
      "loss": 3.5444,
      "step": 218
    },
    {
      "epoch": 0.07096565132858068,
      "grad_norm": 0.4646371901035309,
      "learning_rate": 0.0009962982619035408,
      "loss": 3.596,
      "step": 219
    },
    {
      "epoch": 0.0712896953985742,
      "grad_norm": 1.283509373664856,
      "learning_rate": 0.0009962342443132423,
      "loss": 3.6143,
      "step": 220
    },
    {
      "epoch": 0.07161373946856772,
      "grad_norm": 1.1463323831558228,
      "learning_rate": 0.0009961696799928208,
      "loss": 3.3831,
      "step": 221
    },
    {
      "epoch": 0.07193778353856124,
      "grad_norm": 1.4119434356689453,
      "learning_rate": 0.0009961045690134104,
      "loss": 3.5209,
      "step": 222
    },
    {
      "epoch": 0.07226182760855476,
      "grad_norm": 0.7840944528579712,
      "learning_rate": 0.0009960389114467478,
      "loss": 3.5181,
      "step": 223
    },
    {
      "epoch": 0.07258587167854828,
      "grad_norm": 1.4921040534973145,
      "learning_rate": 0.0009959727073651718,
      "loss": 3.5605,
      "step": 224
    },
    {
      "epoch": 0.0729099157485418,
      "grad_norm": 0.9075311422348022,
      "learning_rate": 0.0009959059568416233,
      "loss": 3.4561,
      "step": 225
    },
    {
      "epoch": 0.07323395981853532,
      "grad_norm": 0.4425397515296936,
      "learning_rate": 0.000995838659949645,
      "loss": 3.3979,
      "step": 226
    },
    {
      "epoch": 0.07355800388852884,
      "grad_norm": 1.1970100402832031,
      "learning_rate": 0.0009957708167633822,
      "loss": 3.6075,
      "step": 227
    },
    {
      "epoch": 0.07388204795852236,
      "grad_norm": 1.0533400774002075,
      "learning_rate": 0.0009957024273575812,
      "loss": 3.5989,
      "step": 228
    },
    {
      "epoch": 0.07420609202851587,
      "grad_norm": 0.6214402318000793,
      "learning_rate": 0.0009956334918075909,
      "loss": 3.6102,
      "step": 229
    },
    {
      "epoch": 0.07453013609850939,
      "grad_norm": 0.8562583327293396,
      "learning_rate": 0.0009955640101893613,
      "loss": 3.5268,
      "step": 230
    },
    {
      "epoch": 0.07485418016850291,
      "grad_norm": 1.36691153049469,
      "learning_rate": 0.000995493982579445,
      "loss": 3.6319,
      "step": 231
    },
    {
      "epoch": 0.07517822423849643,
      "grad_norm": 0.4258401691913605,
      "learning_rate": 0.0009954234090549948,
      "loss": 3.5564,
      "step": 232
    },
    {
      "epoch": 0.07550226830848995,
      "grad_norm": 1.1433073282241821,
      "learning_rate": 0.0009953522896937658,
      "loss": 3.6111,
      "step": 233
    },
    {
      "epoch": 0.07582631237848347,
      "grad_norm": 0.8072322010993958,
      "learning_rate": 0.0009952806245741145,
      "loss": 3.4201,
      "step": 234
    },
    {
      "epoch": 0.076150356448477,
      "grad_norm": 0.9187924861907959,
      "learning_rate": 0.0009952084137749989,
      "loss": 3.4999,
      "step": 235
    },
    {
      "epoch": 0.07647440051847051,
      "grad_norm": 0.9899449944496155,
      "learning_rate": 0.0009951356573759769,
      "loss": 3.5204,
      "step": 236
    },
    {
      "epoch": 0.07679844458846403,
      "grad_norm": 0.8719438314437866,
      "learning_rate": 0.0009950623554572091,
      "loss": 3.4205,
      "step": 237
    },
    {
      "epoch": 0.07712248865845756,
      "grad_norm": 0.45685163140296936,
      "learning_rate": 0.0009949885080994564,
      "loss": 3.6417,
      "step": 238
    },
    {
      "epoch": 0.07744653272845108,
      "grad_norm": 0.402208536863327,
      "learning_rate": 0.000994914115384081,
      "loss": 3.4188,
      "step": 239
    },
    {
      "epoch": 0.07777057679844458,
      "grad_norm": 0.4858715832233429,
      "learning_rate": 0.0009948391773930449,
      "loss": 3.4322,
      "step": 240
    },
    {
      "epoch": 0.0780946208684381,
      "grad_norm": 0.5939552783966064,
      "learning_rate": 0.0009947636942089122,
      "loss": 3.4888,
      "step": 241
    },
    {
      "epoch": 0.07841866493843162,
      "grad_norm": 0.8143409490585327,
      "learning_rate": 0.000994687665914847,
      "loss": 3.5887,
      "step": 242
    },
    {
      "epoch": 0.07874270900842514,
      "grad_norm": 0.769981324672699,
      "learning_rate": 0.0009946110925946143,
      "loss": 3.5678,
      "step": 243
    },
    {
      "epoch": 0.07906675307841866,
      "grad_norm": 0.5115942358970642,
      "learning_rate": 0.0009945339743325792,
      "loss": 3.5843,
      "step": 244
    },
    {
      "epoch": 0.07939079714841218,
      "grad_norm": 1.3011687994003296,
      "learning_rate": 0.0009944563112137073,
      "loss": 3.5595,
      "step": 245
    },
    {
      "epoch": 0.0797148412184057,
      "grad_norm": 0.671754777431488,
      "learning_rate": 0.0009943781033235645,
      "loss": 3.4673,
      "step": 246
    },
    {
      "epoch": 0.08003888528839923,
      "grad_norm": 1.6319234371185303,
      "learning_rate": 0.0009942993507483172,
      "loss": 3.557,
      "step": 247
    },
    {
      "epoch": 0.08036292935839275,
      "grad_norm": 0.5212430357933044,
      "learning_rate": 0.000994220053574732,
      "loss": 3.4941,
      "step": 248
    },
    {
      "epoch": 0.08068697342838627,
      "grad_norm": 1.8905589580535889,
      "learning_rate": 0.0009941402118901744,
      "loss": 3.53,
      "step": 249
    },
    {
      "epoch": 0.08101101749837979,
      "grad_norm": 0.7918857932090759,
      "learning_rate": 0.000994059825782611,
      "loss": 3.5413,
      "step": 250
    },
    {
      "epoch": 0.08133506156837329,
      "grad_norm": 1.333611249923706,
      "learning_rate": 0.000993978895340608,
      "loss": 3.5984,
      "step": 251
    },
    {
      "epoch": 0.08165910563836681,
      "grad_norm": 0.5092669129371643,
      "learning_rate": 0.000993897420653331,
      "loss": 3.5736,
      "step": 252
    },
    {
      "epoch": 0.08198314970836033,
      "grad_norm": 1.1889164447784424,
      "learning_rate": 0.0009938154018105457,
      "loss": 3.4301,
      "step": 253
    },
    {
      "epoch": 0.08230719377835385,
      "grad_norm": 0.4705922603607178,
      "learning_rate": 0.0009937328389026166,
      "loss": 3.5114,
      "step": 254
    },
    {
      "epoch": 0.08263123784834737,
      "grad_norm": 0.47212573885917664,
      "learning_rate": 0.0009936497320205083,
      "loss": 3.4039,
      "step": 255
    },
    {
      "epoch": 0.0829552819183409,
      "grad_norm": 0.9321104288101196,
      "learning_rate": 0.0009935660812557844,
      "loss": 3.5707,
      "step": 256
    },
    {
      "epoch": 0.08327932598833442,
      "grad_norm": 0.46859219670295715,
      "learning_rate": 0.0009934818867006082,
      "loss": 3.4532,
      "step": 257
    },
    {
      "epoch": 0.08360337005832794,
      "grad_norm": 1.2528495788574219,
      "learning_rate": 0.000993397148447741,
      "loss": 3.4944,
      "step": 258
    },
    {
      "epoch": 0.08392741412832146,
      "grad_norm": 0.782118022441864,
      "learning_rate": 0.0009933118665905443,
      "loss": 3.3675,
      "step": 259
    },
    {
      "epoch": 0.08425145819831498,
      "grad_norm": 0.776353657245636,
      "learning_rate": 0.0009932260412229782,
      "loss": 3.4195,
      "step": 260
    },
    {
      "epoch": 0.08457550226830848,
      "grad_norm": 1.8789050579071045,
      "learning_rate": 0.000993139672439601,
      "loss": 3.5259,
      "step": 261
    },
    {
      "epoch": 0.084899546338302,
      "grad_norm": 1.6770368814468384,
      "learning_rate": 0.0009930527603355709,
      "loss": 3.3989,
      "step": 262
    },
    {
      "epoch": 0.08522359040829552,
      "grad_norm": 0.6225025057792664,
      "learning_rate": 0.0009929653050066436,
      "loss": 3.4996,
      "step": 263
    },
    {
      "epoch": 0.08554763447828904,
      "grad_norm": 0.4739827811717987,
      "learning_rate": 0.0009928773065491737,
      "loss": 3.41,
      "step": 264
    },
    {
      "epoch": 0.08587167854828257,
      "grad_norm": 1.3747364282608032,
      "learning_rate": 0.000992788765060114,
      "loss": 3.4703,
      "step": 265
    },
    {
      "epoch": 0.08619572261827609,
      "grad_norm": 0.6529024839401245,
      "learning_rate": 0.0009926996806370167,
      "loss": 3.4933,
      "step": 266
    },
    {
      "epoch": 0.0865197666882696,
      "grad_norm": 1.7136459350585938,
      "learning_rate": 0.0009926100533780304,
      "loss": 3.4838,
      "step": 267
    },
    {
      "epoch": 0.08684381075826313,
      "grad_norm": 2.626856565475464,
      "learning_rate": 0.0009925198833819029,
      "loss": 3.4486,
      "step": 268
    },
    {
      "epoch": 0.08716785482825665,
      "grad_norm": 0.654938280582428,
      "learning_rate": 0.00099242917074798,
      "loss": 3.3692,
      "step": 269
    },
    {
      "epoch": 0.08749189889825017,
      "grad_norm": 1.0234239101409912,
      "learning_rate": 0.0009923379155762047,
      "loss": 3.4645,
      "step": 270
    },
    {
      "epoch": 0.08781594296824369,
      "grad_norm": 1.195837140083313,
      "learning_rate": 0.0009922461179671183,
      "loss": 3.4555,
      "step": 271
    },
    {
      "epoch": 0.0881399870382372,
      "grad_norm": 0.45474135875701904,
      "learning_rate": 0.0009921537780218596,
      "loss": 3.4882,
      "step": 272
    },
    {
      "epoch": 0.08846403110823071,
      "grad_norm": 0.49438703060150146,
      "learning_rate": 0.0009920608958421647,
      "loss": 3.5254,
      "step": 273
    },
    {
      "epoch": 0.08878807517822424,
      "grad_norm": 1.1571098566055298,
      "learning_rate": 0.0009919674715303678,
      "loss": 3.4689,
      "step": 274
    },
    {
      "epoch": 0.08911211924821776,
      "grad_norm": 0.7956535220146179,
      "learning_rate": 0.0009918735051893993,
      "loss": 3.4216,
      "step": 275
    },
    {
      "epoch": 0.08943616331821128,
      "grad_norm": 1.4677555561065674,
      "learning_rate": 0.0009917789969227874,
      "loss": 3.4461,
      "step": 276
    },
    {
      "epoch": 0.0897602073882048,
      "grad_norm": 0.5842886567115784,
      "learning_rate": 0.000991683946834658,
      "loss": 3.4022,
      "step": 277
    },
    {
      "epoch": 0.09008425145819832,
      "grad_norm": 2.27197003364563,
      "learning_rate": 0.0009915883550297327,
      "loss": 3.433,
      "step": 278
    },
    {
      "epoch": 0.09040829552819184,
      "grad_norm": 0.9513959884643555,
      "learning_rate": 0.0009914922216133308,
      "loss": 3.4698,
      "step": 279
    },
    {
      "epoch": 0.09073233959818536,
      "grad_norm": 1.054947018623352,
      "learning_rate": 0.000991395546691368,
      "loss": 3.4869,
      "step": 280
    },
    {
      "epoch": 0.09105638366817888,
      "grad_norm": 0.7041453123092651,
      "learning_rate": 0.0009912983303703568,
      "loss": 3.4982,
      "step": 281
    },
    {
      "epoch": 0.09138042773817238,
      "grad_norm": 0.9063976407051086,
      "learning_rate": 0.0009912005727574058,
      "loss": 3.3924,
      "step": 282
    },
    {
      "epoch": 0.0917044718081659,
      "grad_norm": 1.5597233772277832,
      "learning_rate": 0.0009911022739602204,
      "loss": 3.4942,
      "step": 283
    },
    {
      "epoch": 0.09202851587815943,
      "grad_norm": 1.33788001537323,
      "learning_rate": 0.0009910034340871023,
      "loss": 3.4056,
      "step": 284
    },
    {
      "epoch": 0.09235255994815295,
      "grad_norm": 0.4917757213115692,
      "learning_rate": 0.0009909040532469489,
      "loss": 3.4234,
      "step": 285
    },
    {
      "epoch": 0.09267660401814647,
      "grad_norm": 0.630823016166687,
      "learning_rate": 0.000990804131549254,
      "loss": 3.39,
      "step": 286
    },
    {
      "epoch": 0.09300064808813999,
      "grad_norm": 0.7395967841148376,
      "learning_rate": 0.0009907036691041069,
      "loss": 3.399,
      "step": 287
    },
    {
      "epoch": 0.09332469215813351,
      "grad_norm": 2.0148868560791016,
      "learning_rate": 0.000990602666022193,
      "loss": 3.4962,
      "step": 288
    },
    {
      "epoch": 0.09364873622812703,
      "grad_norm": 0.7575637698173523,
      "learning_rate": 0.0009905011224147935,
      "loss": 3.4351,
      "step": 289
    },
    {
      "epoch": 0.09397278029812055,
      "grad_norm": 1.8293790817260742,
      "learning_rate": 0.0009903990383937846,
      "loss": 3.4168,
      "step": 290
    },
    {
      "epoch": 0.09429682436811407,
      "grad_norm": 1.2938671112060547,
      "learning_rate": 0.0009902964140716384,
      "loss": 3.4419,
      "step": 291
    },
    {
      "epoch": 0.09462086843810759,
      "grad_norm": 1.015737533569336,
      "learning_rate": 0.0009901932495614222,
      "loss": 3.5017,
      "step": 292
    },
    {
      "epoch": 0.0949449125081011,
      "grad_norm": 1.977603554725647,
      "learning_rate": 0.0009900895449767978,
      "loss": 3.3525,
      "step": 293
    },
    {
      "epoch": 0.09526895657809462,
      "grad_norm": 0.4715743064880371,
      "learning_rate": 0.0009899853004320233,
      "loss": 3.2555,
      "step": 294
    },
    {
      "epoch": 0.09559300064808814,
      "grad_norm": 1.658431887626648,
      "learning_rate": 0.0009898805160419503,
      "loss": 3.4244,
      "step": 295
    },
    {
      "epoch": 0.09591704471808166,
      "grad_norm": 0.5949578285217285,
      "learning_rate": 0.0009897751919220265,
      "loss": 3.466,
      "step": 296
    },
    {
      "epoch": 0.09624108878807518,
      "grad_norm": 0.6418154835700989,
      "learning_rate": 0.000989669328188293,
      "loss": 3.3296,
      "step": 297
    },
    {
      "epoch": 0.0965651328580687,
      "grad_norm": 1.0331555604934692,
      "learning_rate": 0.0009895629249573863,
      "loss": 3.3022,
      "step": 298
    },
    {
      "epoch": 0.09688917692806222,
      "grad_norm": 0.4483086168766022,
      "learning_rate": 0.0009894559823465372,
      "loss": 3.3894,
      "step": 299
    },
    {
      "epoch": 0.09721322099805574,
      "grad_norm": 1.3144618272781372,
      "learning_rate": 0.0009893485004735705,
      "loss": 3.455,
      "step": 300
    },
    {
      "epoch": 0.09753726506804926,
      "grad_norm": 0.6105726361274719,
      "learning_rate": 0.000989240479456905,
      "loss": 3.3194,
      "step": 301
    },
    {
      "epoch": 0.09786130913804278,
      "grad_norm": 0.9767611622810364,
      "learning_rate": 0.0009891319194155538,
      "loss": 3.3942,
      "step": 302
    },
    {
      "epoch": 0.0981853532080363,
      "grad_norm": 0.5209686160087585,
      "learning_rate": 0.000989022820469124,
      "loss": 3.4406,
      "step": 303
    },
    {
      "epoch": 0.0985093972780298,
      "grad_norm": 0.5027898550033569,
      "learning_rate": 0.000988913182737816,
      "loss": 3.3239,
      "step": 304
    },
    {
      "epoch": 0.09883344134802333,
      "grad_norm": 0.6509206891059875,
      "learning_rate": 0.0009888030063424245,
      "loss": 3.423,
      "step": 305
    },
    {
      "epoch": 0.09915748541801685,
      "grad_norm": 0.456847220659256,
      "learning_rate": 0.0009886922914043369,
      "loss": 3.3483,
      "step": 306
    },
    {
      "epoch": 0.09948152948801037,
      "grad_norm": 0.6678240895271301,
      "learning_rate": 0.0009885810380455343,
      "loss": 3.2943,
      "step": 307
    },
    {
      "epoch": 0.09980557355800389,
      "grad_norm": 0.8539992570877075,
      "learning_rate": 0.000988469246388591,
      "loss": 3.322,
      "step": 308
    },
    {
      "epoch": 0.10012961762799741,
      "grad_norm": 1.2942123413085938,
      "learning_rate": 0.0009883569165566742,
      "loss": 3.4156,
      "step": 309
    },
    {
      "epoch": 0.10045366169799093,
      "grad_norm": 0.8715595602989197,
      "learning_rate": 0.0009882440486735447,
      "loss": 3.4588,
      "step": 310
    },
    {
      "epoch": 0.10077770576798445,
      "grad_norm": 2.2503602504730225,
      "learning_rate": 0.0009881306428635552,
      "loss": 3.3961,
      "step": 311
    },
    {
      "epoch": 0.10110174983797797,
      "grad_norm": 0.563872218132019,
      "learning_rate": 0.0009880166992516518,
      "loss": 3.3749,
      "step": 312
    },
    {
      "epoch": 0.10142579390797149,
      "grad_norm": 0.8379126191139221,
      "learning_rate": 0.0009879022179633723,
      "loss": 3.2838,
      "step": 313
    },
    {
      "epoch": 0.101749837977965,
      "grad_norm": 0.6180192232131958,
      "learning_rate": 0.0009877871991248479,
      "loss": 3.3175,
      "step": 314
    },
    {
      "epoch": 0.10207388204795852,
      "grad_norm": 0.8538075089454651,
      "learning_rate": 0.0009876716428628013,
      "loss": 3.4691,
      "step": 315
    },
    {
      "epoch": 0.10239792611795204,
      "grad_norm": 0.5687406659126282,
      "learning_rate": 0.0009875555493045476,
      "loss": 3.35,
      "step": 316
    },
    {
      "epoch": 0.10272197018794556,
      "grad_norm": 0.4391389489173889,
      "learning_rate": 0.0009874389185779938,
      "loss": 3.3443,
      "step": 317
    },
    {
      "epoch": 0.10304601425793908,
      "grad_norm": 0.49929630756378174,
      "learning_rate": 0.0009873217508116388,
      "loss": 3.3478,
      "step": 318
    },
    {
      "epoch": 0.1033700583279326,
      "grad_norm": 0.6983586549758911,
      "learning_rate": 0.0009872040461345731,
      "loss": 3.3305,
      "step": 319
    },
    {
      "epoch": 0.10369410239792612,
      "grad_norm": 0.4966928958892822,
      "learning_rate": 0.0009870858046764788,
      "loss": 3.3227,
      "step": 320
    },
    {
      "epoch": 0.10401814646791964,
      "grad_norm": 0.7098132371902466,
      "learning_rate": 0.0009869670265676294,
      "loss": 3.3377,
      "step": 321
    },
    {
      "epoch": 0.10434219053791316,
      "grad_norm": 0.9535037279129028,
      "learning_rate": 0.0009868477119388895,
      "loss": 3.381,
      "step": 322
    },
    {
      "epoch": 0.10466623460790668,
      "grad_norm": 0.5870012640953064,
      "learning_rate": 0.0009867278609217154,
      "loss": 3.362,
      "step": 323
    },
    {
      "epoch": 0.1049902786779002,
      "grad_norm": 1.4846211671829224,
      "learning_rate": 0.0009866074736481535,
      "loss": 3.2624,
      "step": 324
    },
    {
      "epoch": 0.10531432274789371,
      "grad_norm": 0.7418613433837891,
      "learning_rate": 0.0009864865502508414,
      "loss": 3.3469,
      "step": 325
    },
    {
      "epoch": 0.10563836681788723,
      "grad_norm": 0.4458533823490143,
      "learning_rate": 0.0009863650908630078,
      "loss": 3.2604,
      "step": 326
    },
    {
      "epoch": 0.10596241088788075,
      "grad_norm": 1.3656870126724243,
      "learning_rate": 0.0009862430956184714,
      "loss": 3.2444,
      "step": 327
    },
    {
      "epoch": 0.10628645495787427,
      "grad_norm": 0.8510303497314453,
      "learning_rate": 0.0009861205646516415,
      "loss": 3.331,
      "step": 328
    },
    {
      "epoch": 0.10661049902786779,
      "grad_norm": 1.0877854824066162,
      "learning_rate": 0.0009859974980975174,
      "loss": 3.3885,
      "step": 329
    },
    {
      "epoch": 0.10693454309786131,
      "grad_norm": 0.530726969242096,
      "learning_rate": 0.000985873896091689,
      "loss": 3.3504,
      "step": 330
    },
    {
      "epoch": 0.10725858716785483,
      "grad_norm": 1.8096693754196167,
      "learning_rate": 0.0009857497587703356,
      "loss": 3.2927,
      "step": 331
    },
    {
      "epoch": 0.10758263123784835,
      "grad_norm": 0.71088045835495,
      "learning_rate": 0.0009856250862702266,
      "loss": 3.3338,
      "step": 332
    },
    {
      "epoch": 0.10790667530784187,
      "grad_norm": 1.2018805742263794,
      "learning_rate": 0.0009854998787287208,
      "loss": 3.415,
      "step": 333
    },
    {
      "epoch": 0.10823071937783539,
      "grad_norm": 0.8143140077590942,
      "learning_rate": 0.0009853741362837668,
      "loss": 3.419,
      "step": 334
    },
    {
      "epoch": 0.10855476344782891,
      "grad_norm": 0.505709707736969,
      "learning_rate": 0.0009852478590739022,
      "loss": 3.3054,
      "step": 335
    },
    {
      "epoch": 0.10887880751782242,
      "grad_norm": 0.9758250713348389,
      "learning_rate": 0.0009851210472382542,
      "loss": 3.3308,
      "step": 336
    },
    {
      "epoch": 0.10920285158781594,
      "grad_norm": 0.7147392630577087,
      "learning_rate": 0.0009849937009165385,
      "loss": 3.2548,
      "step": 337
    },
    {
      "epoch": 0.10952689565780946,
      "grad_norm": 0.5457354187965393,
      "learning_rate": 0.0009848658202490602,
      "loss": 3.3805,
      "step": 338
    },
    {
      "epoch": 0.10985093972780298,
      "grad_norm": 0.5745771527290344,
      "learning_rate": 0.0009847374053767125,
      "loss": 3.2958,
      "step": 339
    },
    {
      "epoch": 0.1101749837977965,
      "grad_norm": 1.090459942817688,
      "learning_rate": 0.0009846084564409778,
      "loss": 3.1614,
      "step": 340
    },
    {
      "epoch": 0.11049902786779002,
      "grad_norm": 0.5514248013496399,
      "learning_rate": 0.0009844789735839268,
      "loss": 3.3506,
      "step": 341
    },
    {
      "epoch": 0.11082307193778354,
      "grad_norm": 1.0924092531204224,
      "learning_rate": 0.0009843489569482178,
      "loss": 3.3579,
      "step": 342
    },
    {
      "epoch": 0.11114711600777706,
      "grad_norm": 0.8930227160453796,
      "learning_rate": 0.0009842184066770983,
      "loss": 3.2717,
      "step": 343
    },
    {
      "epoch": 0.11147116007777058,
      "grad_norm": 0.559718668460846,
      "learning_rate": 0.0009840873229144025,
      "loss": 3.3595,
      "step": 344
    },
    {
      "epoch": 0.1117952041477641,
      "grad_norm": 1.3621835708618164,
      "learning_rate": 0.0009839557058045536,
      "loss": 3.3354,
      "step": 345
    },
    {
      "epoch": 0.11211924821775761,
      "grad_norm": 0.6843152046203613,
      "learning_rate": 0.0009838235554925612,
      "loss": 3.3338,
      "step": 346
    },
    {
      "epoch": 0.11244329228775113,
      "grad_norm": 0.47848427295684814,
      "learning_rate": 0.0009836908721240236,
      "loss": 3.3515,
      "step": 347
    },
    {
      "epoch": 0.11276733635774465,
      "grad_norm": 1.570328950881958,
      "learning_rate": 0.0009835576558451253,
      "loss": 3.2562,
      "step": 348
    },
    {
      "epoch": 0.11309138042773817,
      "grad_norm": 0.4816630482673645,
      "learning_rate": 0.0009834239068026388,
      "loss": 3.2993,
      "step": 349
    },
    {
      "epoch": 0.11341542449773169,
      "grad_norm": 1.0796549320220947,
      "learning_rate": 0.000983289625143923,
      "loss": 3.2136,
      "step": 350
    },
    {
      "epoch": 0.11373946856772521,
      "grad_norm": 1.5388500690460205,
      "learning_rate": 0.0009831548110169237,
      "loss": 3.3542,
      "step": 351
    },
    {
      "epoch": 0.11406351263771873,
      "grad_norm": 0.9938963055610657,
      "learning_rate": 0.0009830194645701737,
      "loss": 3.2854,
      "step": 352
    },
    {
      "epoch": 0.11438755670771225,
      "grad_norm": 1.5757919549942017,
      "learning_rate": 0.0009828835859527919,
      "loss": 3.3725,
      "step": 353
    },
    {
      "epoch": 0.11471160077770577,
      "grad_norm": 0.6053892374038696,
      "learning_rate": 0.0009827471753144836,
      "loss": 3.2821,
      "step": 354
    },
    {
      "epoch": 0.11503564484769929,
      "grad_norm": 1.071995735168457,
      "learning_rate": 0.0009826102328055406,
      "loss": 3.3096,
      "step": 355
    },
    {
      "epoch": 0.11535968891769281,
      "grad_norm": 2.2354729175567627,
      "learning_rate": 0.0009824727585768403,
      "loss": 3.2578,
      "step": 356
    },
    {
      "epoch": 0.11568373298768632,
      "grad_norm": 1.277397871017456,
      "learning_rate": 0.000982334752779846,
      "loss": 3.2947,
      "step": 357
    },
    {
      "epoch": 0.11600777705767984,
      "grad_norm": 0.9030572175979614,
      "learning_rate": 0.0009821962155666067,
      "loss": 3.2698,
      "step": 358
    },
    {
      "epoch": 0.11633182112767336,
      "grad_norm": 0.5286170840263367,
      "learning_rate": 0.0009820571470897568,
      "loss": 3.1769,
      "step": 359
    },
    {
      "epoch": 0.11665586519766688,
      "grad_norm": 0.9675405025482178,
      "learning_rate": 0.0009819175475025165,
      "loss": 3.2924,
      "step": 360
    },
    {
      "epoch": 0.1169799092676604,
      "grad_norm": 0.8622578382492065,
      "learning_rate": 0.0009817774169586903,
      "loss": 3.3277,
      "step": 361
    },
    {
      "epoch": 0.11730395333765392,
      "grad_norm": 0.5242966413497925,
      "learning_rate": 0.0009816367556126687,
      "loss": 3.1804,
      "step": 362
    },
    {
      "epoch": 0.11762799740764744,
      "grad_norm": 0.576025664806366,
      "learning_rate": 0.000981495563619426,
      "loss": 3.2607,
      "step": 363
    },
    {
      "epoch": 0.11795204147764096,
      "grad_norm": 0.4990308880805969,
      "learning_rate": 0.000981353841134522,
      "loss": 3.2529,
      "step": 364
    },
    {
      "epoch": 0.11827608554763448,
      "grad_norm": 0.491485059261322,
      "learning_rate": 0.0009812115883141004,
      "loss": 3.3627,
      "step": 365
    },
    {
      "epoch": 0.118600129617628,
      "grad_norm": 0.5669282674789429,
      "learning_rate": 0.0009810688053148893,
      "loss": 3.1985,
      "step": 366
    },
    {
      "epoch": 0.11892417368762152,
      "grad_norm": 0.6449120044708252,
      "learning_rate": 0.0009809254922942014,
      "loss": 3.2541,
      "step": 367
    },
    {
      "epoch": 0.11924821775761503,
      "grad_norm": 0.8147462010383606,
      "learning_rate": 0.0009807816494099327,
      "loss": 3.3072,
      "step": 368
    },
    {
      "epoch": 0.11957226182760855,
      "grad_norm": 0.49656984210014343,
      "learning_rate": 0.0009806372768205633,
      "loss": 3.2373,
      "step": 369
    },
    {
      "epoch": 0.11989630589760207,
      "grad_norm": 1.0240089893341064,
      "learning_rate": 0.000980492374685157,
      "loss": 3.2378,
      "step": 370
    },
    {
      "epoch": 0.12022034996759559,
      "grad_norm": 0.49269941449165344,
      "learning_rate": 0.0009803469431633606,
      "loss": 3.241,
      "step": 371
    },
    {
      "epoch": 0.12054439403758911,
      "grad_norm": 0.46623414754867554,
      "learning_rate": 0.0009802009824154048,
      "loss": 3.3295,
      "step": 372
    },
    {
      "epoch": 0.12086843810758263,
      "grad_norm": 0.5683666467666626,
      "learning_rate": 0.000980054492602103,
      "loss": 3.2655,
      "step": 373
    },
    {
      "epoch": 0.12119248217757615,
      "grad_norm": 0.5414124727249146,
      "learning_rate": 0.0009799074738848512,
      "loss": 3.2606,
      "step": 374
    },
    {
      "epoch": 0.12151652624756967,
      "grad_norm": 0.5347233414649963,
      "learning_rate": 0.000979759926425629,
      "loss": 3.1759,
      "step": 375
    },
    {
      "epoch": 0.1218405703175632,
      "grad_norm": 0.4599957764148712,
      "learning_rate": 0.0009796118503869978,
      "loss": 3.2552,
      "step": 376
    },
    {
      "epoch": 0.12216461438755671,
      "grad_norm": 0.5370311737060547,
      "learning_rate": 0.0009794632459321014,
      "loss": 3.1641,
      "step": 377
    },
    {
      "epoch": 0.12248865845755022,
      "grad_norm": 0.949396550655365,
      "learning_rate": 0.0009793141132246662,
      "loss": 3.0985,
      "step": 378
    },
    {
      "epoch": 0.12281270252754374,
      "grad_norm": 0.6760565638542175,
      "learning_rate": 0.0009791644524290001,
      "loss": 3.2817,
      "step": 379
    },
    {
      "epoch": 0.12313674659753726,
      "grad_norm": 0.6654956936836243,
      "learning_rate": 0.0009790142637099936,
      "loss": 3.2546,
      "step": 380
    },
    {
      "epoch": 0.12346079066753078,
      "grad_norm": 0.6677379608154297,
      "learning_rate": 0.0009788635472331177,
      "loss": 3.2087,
      "step": 381
    },
    {
      "epoch": 0.1237848347375243,
      "grad_norm": 0.5996493697166443,
      "learning_rate": 0.0009787123031644261,
      "loss": 3.1497,
      "step": 382
    },
    {
      "epoch": 0.12410887880751782,
      "grad_norm": 0.5256681442260742,
      "learning_rate": 0.000978560531670553,
      "loss": 3.3102,
      "step": 383
    },
    {
      "epoch": 0.12443292287751134,
      "grad_norm": 0.5191571116447449,
      "learning_rate": 0.0009784082329187135,
      "loss": 3.2384,
      "step": 384
    },
    {
      "epoch": 0.12475696694750486,
      "grad_norm": 0.4440482258796692,
      "learning_rate": 0.0009782554070767045,
      "loss": 3.1539,
      "step": 385
    },
    {
      "epoch": 0.12508101101749838,
      "grad_norm": 0.5283881425857544,
      "learning_rate": 0.0009781020543129027,
      "loss": 3.3301,
      "step": 386
    },
    {
      "epoch": 0.1254050550874919,
      "grad_norm": 0.5132388472557068,
      "learning_rate": 0.0009779481747962662,
      "loss": 3.1511,
      "step": 387
    },
    {
      "epoch": 0.12572909915748542,
      "grad_norm": 0.5637593865394592,
      "learning_rate": 0.0009777937686963327,
      "loss": 3.2266,
      "step": 388
    },
    {
      "epoch": 0.12605314322747893,
      "grad_norm": 0.5530401468276978,
      "learning_rate": 0.0009776388361832204,
      "loss": 3.2421,
      "step": 389
    },
    {
      "epoch": 0.12637718729747247,
      "grad_norm": 0.8572803735733032,
      "learning_rate": 0.0009774833774276277,
      "loss": 3.3637,
      "step": 390
    },
    {
      "epoch": 0.12670123136746597,
      "grad_norm": 0.5809696912765503,
      "learning_rate": 0.0009773273926008321,
      "loss": 3.1738,
      "step": 391
    },
    {
      "epoch": 0.1270252754374595,
      "grad_norm": 0.6648941040039062,
      "learning_rate": 0.0009771708818746916,
      "loss": 3.2492,
      "step": 392
    },
    {
      "epoch": 0.127349319507453,
      "grad_norm": 0.5690279006958008,
      "learning_rate": 0.0009770138454216432,
      "loss": 3.2727,
      "step": 393
    },
    {
      "epoch": 0.12767336357744652,
      "grad_norm": 0.47787272930145264,
      "learning_rate": 0.0009768562834147026,
      "loss": 3.1645,
      "step": 394
    },
    {
      "epoch": 0.12799740764744005,
      "grad_norm": 2.035390615463257,
      "learning_rate": 0.0009766981960274653,
      "loss": 3.2587,
      "step": 395
    },
    {
      "epoch": 0.12832145171743356,
      "grad_norm": 0.8027617335319519,
      "learning_rate": 0.0009765395834341054,
      "loss": 3.2611,
      "step": 396
    },
    {
      "epoch": 0.1286454957874271,
      "grad_norm": 1.4993746280670166,
      "learning_rate": 0.0009763804458093756,
      "loss": 3.2936,
      "step": 397
    },
    {
      "epoch": 0.1289695398574206,
      "grad_norm": 0.6109282970428467,
      "learning_rate": 0.0009762207833286072,
      "loss": 3.2229,
      "step": 398
    },
    {
      "epoch": 0.12929358392741414,
      "grad_norm": 0.6903918981552124,
      "learning_rate": 0.0009760605961677094,
      "loss": 3.2852,
      "step": 399
    },
    {
      "epoch": 0.12961762799740764,
      "grad_norm": 0.6907256245613098,
      "learning_rate": 0.0009758998845031699,
      "loss": 3.0962,
      "step": 400
    },
    {
      "epoch": 0.12994167206740118,
      "grad_norm": 0.7383739948272705,
      "learning_rate": 0.0009757386485120539,
      "loss": 3.1813,
      "step": 401
    },
    {
      "epoch": 0.13026571613739468,
      "grad_norm": 0.8829951882362366,
      "learning_rate": 0.0009755768883720047,
      "loss": 3.1859,
      "step": 402
    },
    {
      "epoch": 0.13058976020738822,
      "grad_norm": 0.882655680179596,
      "learning_rate": 0.0009754146042612426,
      "loss": 3.2757,
      "step": 403
    },
    {
      "epoch": 0.13091380427738172,
      "grad_norm": 0.4663361608982086,
      "learning_rate": 0.0009752517963585657,
      "loss": 3.1763,
      "step": 404
    },
    {
      "epoch": 0.13123784834737523,
      "grad_norm": 0.7821252346038818,
      "learning_rate": 0.0009750884648433486,
      "loss": 3.1019,
      "step": 405
    },
    {
      "epoch": 0.13156189241736876,
      "grad_norm": 0.5482140183448792,
      "learning_rate": 0.0009749246098955435,
      "loss": 3.2133,
      "step": 406
    },
    {
      "epoch": 0.13188593648736227,
      "grad_norm": 0.679136335849762,
      "learning_rate": 0.0009747602316956789,
      "loss": 3.1883,
      "step": 407
    },
    {
      "epoch": 0.1322099805573558,
      "grad_norm": 0.7105187773704529,
      "learning_rate": 0.0009745953304248593,
      "loss": 3.2542,
      "step": 408
    },
    {
      "epoch": 0.1325340246273493,
      "grad_norm": 0.6698950529098511,
      "learning_rate": 0.0009744299062647668,
      "loss": 3.2704,
      "step": 409
    },
    {
      "epoch": 0.13285806869734285,
      "grad_norm": 0.5391312837600708,
      "learning_rate": 0.0009742639593976581,
      "loss": 3.2201,
      "step": 410
    },
    {
      "epoch": 0.13318211276733635,
      "grad_norm": 1.1520384550094604,
      "learning_rate": 0.0009740974900063669,
      "loss": 3.1823,
      "step": 411
    },
    {
      "epoch": 0.1335061568373299,
      "grad_norm": 0.9252328276634216,
      "learning_rate": 0.0009739304982743023,
      "loss": 3.1739,
      "step": 412
    },
    {
      "epoch": 0.1338302009073234,
      "grad_norm": 0.5038015842437744,
      "learning_rate": 0.0009737629843854485,
      "loss": 3.2364,
      "step": 413
    },
    {
      "epoch": 0.13415424497731693,
      "grad_norm": 1.618147611618042,
      "learning_rate": 0.0009735949485243653,
      "loss": 3.2358,
      "step": 414
    },
    {
      "epoch": 0.13447828904731043,
      "grad_norm": 0.7860458493232727,
      "learning_rate": 0.0009734263908761879,
      "loss": 3.2199,
      "step": 415
    },
    {
      "epoch": 0.13480233311730394,
      "grad_norm": 0.4605591595172882,
      "learning_rate": 0.0009732573116266258,
      "loss": 3.2022,
      "step": 416
    },
    {
      "epoch": 0.13512637718729748,
      "grad_norm": 0.7959057688713074,
      "learning_rate": 0.0009730877109619635,
      "loss": 3.1181,
      "step": 417
    },
    {
      "epoch": 0.13545042125729098,
      "grad_norm": 0.5984095335006714,
      "learning_rate": 0.00097291758906906,
      "loss": 3.163,
      "step": 418
    },
    {
      "epoch": 0.13577446532728452,
      "grad_norm": 0.8339268565177917,
      "learning_rate": 0.0009727469461353483,
      "loss": 3.1511,
      "step": 419
    },
    {
      "epoch": 0.13609850939727802,
      "grad_norm": 1.2012689113616943,
      "learning_rate": 0.0009725757823488358,
      "loss": 3.2456,
      "step": 420
    },
    {
      "epoch": 0.13642255346727156,
      "grad_norm": 0.5521500110626221,
      "learning_rate": 0.0009724040978981034,
      "loss": 3.1386,
      "step": 421
    },
    {
      "epoch": 0.13674659753726506,
      "grad_norm": 0.6934466361999512,
      "learning_rate": 0.0009722318929723063,
      "loss": 3.1576,
      "step": 422
    },
    {
      "epoch": 0.1370706416072586,
      "grad_norm": 0.6835846900939941,
      "learning_rate": 0.0009720591677611722,
      "loss": 3.1847,
      "step": 423
    },
    {
      "epoch": 0.1373946856772521,
      "grad_norm": 0.5796813368797302,
      "learning_rate": 0.0009718859224550027,
      "loss": 3.1973,
      "step": 424
    },
    {
      "epoch": 0.13771872974724564,
      "grad_norm": 0.9758672714233398,
      "learning_rate": 0.0009717121572446722,
      "loss": 3.1486,
      "step": 425
    },
    {
      "epoch": 0.13804277381723914,
      "grad_norm": 0.5982885360717773,
      "learning_rate": 0.000971537872321628,
      "loss": 3.1515,
      "step": 426
    },
    {
      "epoch": 0.13836681788723265,
      "grad_norm": 0.8653955459594727,
      "learning_rate": 0.0009713630678778898,
      "loss": 3.1691,
      "step": 427
    },
    {
      "epoch": 0.13869086195722619,
      "grad_norm": 0.5871910452842712,
      "learning_rate": 0.00097118774410605,
      "loss": 3.2582,
      "step": 428
    },
    {
      "epoch": 0.1390149060272197,
      "grad_norm": 0.4625351130962372,
      "learning_rate": 0.0009710119011992727,
      "loss": 3.296,
      "step": 429
    },
    {
      "epoch": 0.13933895009721323,
      "grad_norm": 0.6151097416877747,
      "learning_rate": 0.0009708355393512945,
      "loss": 3.1229,
      "step": 430
    },
    {
      "epoch": 0.13966299416720673,
      "grad_norm": 0.4472416639328003,
      "learning_rate": 0.0009706586587564235,
      "loss": 3.1314,
      "step": 431
    },
    {
      "epoch": 0.13998703823720027,
      "grad_norm": 0.6652858257293701,
      "learning_rate": 0.0009704812596095394,
      "loss": 3.1992,
      "step": 432
    },
    {
      "epoch": 0.14031108230719377,
      "grad_norm": 0.6325209736824036,
      "learning_rate": 0.000970303342106093,
      "loss": 3.1001,
      "step": 433
    },
    {
      "epoch": 0.1406351263771873,
      "grad_norm": 0.5940898656845093,
      "learning_rate": 0.0009701249064421063,
      "loss": 3.1074,
      "step": 434
    },
    {
      "epoch": 0.14095917044718081,
      "grad_norm": 0.54645836353302,
      "learning_rate": 0.0009699459528141723,
      "loss": 3.1468,
      "step": 435
    },
    {
      "epoch": 0.14128321451717435,
      "grad_norm": 0.6846086382865906,
      "learning_rate": 0.0009697664814194549,
      "loss": 3.2175,
      "step": 436
    },
    {
      "epoch": 0.14160725858716786,
      "grad_norm": 0.7469147443771362,
      "learning_rate": 0.0009695864924556878,
      "loss": 3.2079,
      "step": 437
    },
    {
      "epoch": 0.14193130265716136,
      "grad_norm": 0.6996322274208069,
      "learning_rate": 0.0009694059861211755,
      "loss": 3.0936,
      "step": 438
    },
    {
      "epoch": 0.1422553467271549,
      "grad_norm": 0.5450872182846069,
      "learning_rate": 0.0009692249626147922,
      "loss": 3.0843,
      "step": 439
    },
    {
      "epoch": 0.1425793907971484,
      "grad_norm": 0.5929409265518188,
      "learning_rate": 0.0009690434221359821,
      "loss": 3.2074,
      "step": 440
    },
    {
      "epoch": 0.14290343486714194,
      "grad_norm": 0.5317457914352417,
      "learning_rate": 0.000968861364884759,
      "loss": 3.1392,
      "step": 441
    },
    {
      "epoch": 0.14322747893713544,
      "grad_norm": 0.6502276659011841,
      "learning_rate": 0.0009686787910617059,
      "loss": 3.1316,
      "step": 442
    },
    {
      "epoch": 0.14355152300712898,
      "grad_norm": 0.7984710931777954,
      "learning_rate": 0.0009684957008679749,
      "loss": 3.1338,
      "step": 443
    },
    {
      "epoch": 0.14387556707712248,
      "grad_norm": 0.7993766665458679,
      "learning_rate": 0.000968312094505287,
      "loss": 3.0819,
      "step": 444
    },
    {
      "epoch": 0.14419961114711602,
      "grad_norm": 0.6631382703781128,
      "learning_rate": 0.0009681279721759324,
      "loss": 3.1369,
      "step": 445
    },
    {
      "epoch": 0.14452365521710953,
      "grad_norm": 0.8176578879356384,
      "learning_rate": 0.000967943334082769,
      "loss": 3.2465,
      "step": 446
    },
    {
      "epoch": 0.14484769928710303,
      "grad_norm": 0.5087507367134094,
      "learning_rate": 0.0009677581804292236,
      "loss": 3.0331,
      "step": 447
    },
    {
      "epoch": 0.14517174335709657,
      "grad_norm": 0.5201981067657471,
      "learning_rate": 0.0009675725114192906,
      "loss": 3.0537,
      "step": 448
    },
    {
      "epoch": 0.14549578742709007,
      "grad_norm": 0.501026451587677,
      "learning_rate": 0.0009673863272575323,
      "loss": 3.161,
      "step": 449
    },
    {
      "epoch": 0.1458198314970836,
      "grad_norm": 0.5788711309432983,
      "learning_rate": 0.0009671996281490788,
      "loss": 3.0327,
      "step": 450
    },
    {
      "epoch": 0.14614387556707711,
      "grad_norm": 0.551521360874176,
      "learning_rate": 0.0009670124142996273,
      "loss": 3.1407,
      "step": 451
    },
    {
      "epoch": 0.14646791963707065,
      "grad_norm": 0.6307008862495422,
      "learning_rate": 0.0009668246859154419,
      "loss": 3.2234,
      "step": 452
    },
    {
      "epoch": 0.14679196370706415,
      "grad_norm": 0.7622866034507751,
      "learning_rate": 0.0009666364432033543,
      "loss": 3.2004,
      "step": 453
    },
    {
      "epoch": 0.1471160077770577,
      "grad_norm": 0.5145866274833679,
      "learning_rate": 0.0009664476863707621,
      "loss": 3.1142,
      "step": 454
    },
    {
      "epoch": 0.1474400518470512,
      "grad_norm": 1.6498849391937256,
      "learning_rate": 0.0009662584156256299,
      "loss": 3.1755,
      "step": 455
    },
    {
      "epoch": 0.14776409591704473,
      "grad_norm": 0.7551319003105164,
      "learning_rate": 0.0009660686311764884,
      "loss": 3.169,
      "step": 456
    },
    {
      "epoch": 0.14808813998703824,
      "grad_norm": 0.9452050924301147,
      "learning_rate": 0.0009658783332324339,
      "loss": 3.1607,
      "step": 457
    },
    {
      "epoch": 0.14841218405703174,
      "grad_norm": 1.0827205181121826,
      "learning_rate": 0.0009656875220031287,
      "loss": 3.2728,
      "step": 458
    },
    {
      "epoch": 0.14873622812702528,
      "grad_norm": 0.6540944576263428,
      "learning_rate": 0.0009654961976988008,
      "loss": 3.1763,
      "step": 459
    },
    {
      "epoch": 0.14906027219701878,
      "grad_norm": 0.8243275284767151,
      "learning_rate": 0.0009653043605302432,
      "loss": 3.1967,
      "step": 460
    },
    {
      "epoch": 0.14938431626701232,
      "grad_norm": 0.7090479135513306,
      "learning_rate": 0.000965112010708814,
      "loss": 3.1286,
      "step": 461
    },
    {
      "epoch": 0.14970836033700582,
      "grad_norm": 0.5050274133682251,
      "learning_rate": 0.0009649191484464366,
      "loss": 3.2269,
      "step": 462
    },
    {
      "epoch": 0.15003240440699936,
      "grad_norm": 0.6715683341026306,
      "learning_rate": 0.0009647257739555979,
      "loss": 3.1264,
      "step": 463
    },
    {
      "epoch": 0.15035644847699287,
      "grad_norm": 1.2974694967269897,
      "learning_rate": 0.0009645318874493504,
      "loss": 3.0787,
      "step": 464
    },
    {
      "epoch": 0.1506804925469864,
      "grad_norm": 0.698012113571167,
      "learning_rate": 0.0009643374891413098,
      "loss": 3.1347,
      "step": 465
    },
    {
      "epoch": 0.1510045366169799,
      "grad_norm": 1.1573368310928345,
      "learning_rate": 0.0009641425792456562,
      "loss": 3.1321,
      "step": 466
    },
    {
      "epoch": 0.15132858068697344,
      "grad_norm": 0.9160661697387695,
      "learning_rate": 0.000963947157977133,
      "loss": 3.2179,
      "step": 467
    },
    {
      "epoch": 0.15165262475696695,
      "grad_norm": 0.7403953075408936,
      "learning_rate": 0.0009637512255510475,
      "loss": 3.1496,
      "step": 468
    },
    {
      "epoch": 0.15197666882696045,
      "grad_norm": 0.9175946712493896,
      "learning_rate": 0.0009635547821832693,
      "loss": 3.0476,
      "step": 469
    },
    {
      "epoch": 0.152300712896954,
      "grad_norm": 0.5503877997398376,
      "learning_rate": 0.000963357828090232,
      "loss": 3.1493,
      "step": 470
    },
    {
      "epoch": 0.1526247569669475,
      "grad_norm": 0.8944637775421143,
      "learning_rate": 0.0009631603634889311,
      "loss": 3.1444,
      "step": 471
    },
    {
      "epoch": 0.15294880103694103,
      "grad_norm": 0.557612955570221,
      "learning_rate": 0.000962962388596925,
      "loss": 3.1246,
      "step": 472
    },
    {
      "epoch": 0.15327284510693454,
      "grad_norm": 0.7000235915184021,
      "learning_rate": 0.0009627639036323339,
      "loss": 3.0916,
      "step": 473
    },
    {
      "epoch": 0.15359688917692807,
      "grad_norm": 0.7453595399856567,
      "learning_rate": 0.0009625649088138407,
      "loss": 3.1797,
      "step": 474
    },
    {
      "epoch": 0.15392093324692158,
      "grad_norm": 0.5489681959152222,
      "learning_rate": 0.0009623654043606889,
      "loss": 3.0576,
      "step": 475
    },
    {
      "epoch": 0.1542449773169151,
      "grad_norm": 0.8190787434577942,
      "learning_rate": 0.0009621653904926847,
      "loss": 3.0471,
      "step": 476
    },
    {
      "epoch": 0.15456902138690862,
      "grad_norm": 0.5038309097290039,
      "learning_rate": 0.0009619648674301949,
      "loss": 3.0168,
      "step": 477
    },
    {
      "epoch": 0.15489306545690215,
      "grad_norm": 0.5884969830513,
      "learning_rate": 0.0009617638353941471,
      "loss": 3.0519,
      "step": 478
    },
    {
      "epoch": 0.15521710952689566,
      "grad_norm": 1.0544815063476562,
      "learning_rate": 0.0009615622946060303,
      "loss": 3.1533,
      "step": 479
    },
    {
      "epoch": 0.15554115359688916,
      "grad_norm": 0.6090455055236816,
      "learning_rate": 0.0009613602452878938,
      "loss": 3.1477,
      "step": 480
    },
    {
      "epoch": 0.1558651976668827,
      "grad_norm": 1.20883309841156,
      "learning_rate": 0.0009611576876623467,
      "loss": 3.1477,
      "step": 481
    },
    {
      "epoch": 0.1561892417368762,
      "grad_norm": 1.0227892398834229,
      "learning_rate": 0.0009609546219525589,
      "loss": 3.0977,
      "step": 482
    },
    {
      "epoch": 0.15651328580686974,
      "grad_norm": 1.3130214214324951,
      "learning_rate": 0.0009607510483822595,
      "loss": 3.1328,
      "step": 483
    },
    {
      "epoch": 0.15683732987686325,
      "grad_norm": 1.0986253023147583,
      "learning_rate": 0.0009605469671757372,
      "loss": 3.0803,
      "step": 484
    },
    {
      "epoch": 0.15716137394685678,
      "grad_norm": 0.6954076290130615,
      "learning_rate": 0.0009603423785578404,
      "loss": 3.0973,
      "step": 485
    },
    {
      "epoch": 0.1574854180168503,
      "grad_norm": 0.4809890687465668,
      "learning_rate": 0.0009601372827539763,
      "loss": 3.0938,
      "step": 486
    },
    {
      "epoch": 0.15780946208684382,
      "grad_norm": 1.1056725978851318,
      "learning_rate": 0.0009599316799901106,
      "loss": 3.1652,
      "step": 487
    },
    {
      "epoch": 0.15813350615683733,
      "grad_norm": 0.8722041249275208,
      "learning_rate": 0.0009597255704927681,
      "loss": 3.1124,
      "step": 488
    },
    {
      "epoch": 0.15845755022683086,
      "grad_norm": 0.7672699093818665,
      "learning_rate": 0.0009595189544890312,
      "loss": 3.0542,
      "step": 489
    },
    {
      "epoch": 0.15878159429682437,
      "grad_norm": 0.9711693525314331,
      "learning_rate": 0.0009593118322065414,
      "loss": 3.1806,
      "step": 490
    },
    {
      "epoch": 0.15910563836681788,
      "grad_norm": 0.5799356698989868,
      "learning_rate": 0.000959104203873497,
      "loss": 3.1183,
      "step": 491
    },
    {
      "epoch": 0.1594296824368114,
      "grad_norm": 0.7507091164588928,
      "learning_rate": 0.0009588960697186539,
      "loss": 3.0678,
      "step": 492
    },
    {
      "epoch": 0.15975372650680492,
      "grad_norm": 0.7095832824707031,
      "learning_rate": 0.0009586874299713262,
      "loss": 3.1848,
      "step": 493
    },
    {
      "epoch": 0.16007777057679845,
      "grad_norm": 0.6864947080612183,
      "learning_rate": 0.0009584782848613842,
      "loss": 3.1315,
      "step": 494
    },
    {
      "epoch": 0.16040181464679196,
      "grad_norm": 0.6812580227851868,
      "learning_rate": 0.0009582686346192551,
      "loss": 3.1319,
      "step": 495
    },
    {
      "epoch": 0.1607258587167855,
      "grad_norm": 0.5410794019699097,
      "learning_rate": 0.0009580584794759229,
      "loss": 3.2578,
      "step": 496
    },
    {
      "epoch": 0.161049902786779,
      "grad_norm": 0.5310376286506653,
      "learning_rate": 0.0009578478196629277,
      "loss": 3.0732,
      "step": 497
    },
    {
      "epoch": 0.16137394685677253,
      "grad_norm": 0.45858076214790344,
      "learning_rate": 0.0009576366554123656,
      "loss": 3.0776,
      "step": 498
    },
    {
      "epoch": 0.16169799092676604,
      "grad_norm": 0.5724762082099915,
      "learning_rate": 0.0009574249869568887,
      "loss": 3.0602,
      "step": 499
    },
    {
      "epoch": 0.16202203499675957,
      "grad_norm": 0.5344855785369873,
      "learning_rate": 0.0009572128145297044,
      "loss": 3.0971,
      "step": 500
    },
    {
      "epoch": 0.16234607906675308,
      "grad_norm": 0.7994807958602905,
      "learning_rate": 0.0009570001383645752,
      "loss": 3.1462,
      "step": 501
    },
    {
      "epoch": 0.16267012313674659,
      "grad_norm": 0.4876036047935486,
      "learning_rate": 0.000956786958695819,
      "loss": 3.0877,
      "step": 502
    },
    {
      "epoch": 0.16299416720674012,
      "grad_norm": 0.5681672692298889,
      "learning_rate": 0.0009565732757583081,
      "loss": 3.1873,
      "step": 503
    },
    {
      "epoch": 0.16331821127673363,
      "grad_norm": 0.461740106344223,
      "learning_rate": 0.0009563590897874696,
      "loss": 2.9883,
      "step": 504
    },
    {
      "epoch": 0.16364225534672716,
      "grad_norm": 0.539831817150116,
      "learning_rate": 0.0009561444010192845,
      "loss": 3.075,
      "step": 505
    },
    {
      "epoch": 0.16396629941672067,
      "grad_norm": 0.6145449280738831,
      "learning_rate": 0.000955929209690288,
      "loss": 3.03,
      "step": 506
    },
    {
      "epoch": 0.1642903434867142,
      "grad_norm": 0.8991329669952393,
      "learning_rate": 0.000955713516037569,
      "loss": 3.1118,
      "step": 507
    },
    {
      "epoch": 0.1646143875567077,
      "grad_norm": 0.6158186793327332,
      "learning_rate": 0.0009554973202987694,
      "loss": 3.1096,
      "step": 508
    },
    {
      "epoch": 0.16493843162670124,
      "grad_norm": 0.6708727478981018,
      "learning_rate": 0.0009552806227120849,
      "loss": 3.0957,
      "step": 509
    },
    {
      "epoch": 0.16526247569669475,
      "grad_norm": 0.7440311908721924,
      "learning_rate": 0.0009550634235162636,
      "loss": 3.0184,
      "step": 510
    },
    {
      "epoch": 0.16558651976668826,
      "grad_norm": 0.5075908303260803,
      "learning_rate": 0.0009548457229506067,
      "loss": 3.1027,
      "step": 511
    },
    {
      "epoch": 0.1659105638366818,
      "grad_norm": 0.6510862708091736,
      "learning_rate": 0.0009546275212549676,
      "loss": 3.1098,
      "step": 512
    },
    {
      "epoch": 0.1662346079066753,
      "grad_norm": 0.6581611037254333,
      "learning_rate": 0.0009544088186697515,
      "loss": 3.082,
      "step": 513
    },
    {
      "epoch": 0.16655865197666883,
      "grad_norm": 0.647043764591217,
      "learning_rate": 0.000954189615435916,
      "loss": 3.1123,
      "step": 514
    },
    {
      "epoch": 0.16688269604666234,
      "grad_norm": 0.5513876676559448,
      "learning_rate": 0.0009539699117949701,
      "loss": 3.1299,
      "step": 515
    },
    {
      "epoch": 0.16720674011665587,
      "grad_norm": 0.5078194737434387,
      "learning_rate": 0.0009537497079889738,
      "loss": 3.1208,
      "step": 516
    },
    {
      "epoch": 0.16753078418664938,
      "grad_norm": 1.1599420309066772,
      "learning_rate": 0.0009535290042605387,
      "loss": 3.2035,
      "step": 517
    },
    {
      "epoch": 0.1678548282566429,
      "grad_norm": 0.4955816864967346,
      "learning_rate": 0.0009533078008528269,
      "loss": 3.04,
      "step": 518
    },
    {
      "epoch": 0.16817887232663642,
      "grad_norm": 0.7012542486190796,
      "learning_rate": 0.0009530860980095508,
      "loss": 3.0566,
      "step": 519
    },
    {
      "epoch": 0.16850291639662995,
      "grad_norm": 0.5193246603012085,
      "learning_rate": 0.0009528638959749735,
      "loss": 3.1373,
      "step": 520
    },
    {
      "epoch": 0.16882696046662346,
      "grad_norm": 0.6235045194625854,
      "learning_rate": 0.0009526411949939082,
      "loss": 2.993,
      "step": 521
    },
    {
      "epoch": 0.16915100453661697,
      "grad_norm": 0.4756495952606201,
      "learning_rate": 0.0009524179953117172,
      "loss": 3.0971,
      "step": 522
    },
    {
      "epoch": 0.1694750486066105,
      "grad_norm": 1.3275651931762695,
      "learning_rate": 0.0009521942971743124,
      "loss": 3.1544,
      "step": 523
    },
    {
      "epoch": 0.169799092676604,
      "grad_norm": 0.6793007254600525,
      "learning_rate": 0.0009519701008281554,
      "loss": 3.063,
      "step": 524
    },
    {
      "epoch": 0.17012313674659754,
      "grad_norm": 0.7889474630355835,
      "learning_rate": 0.000951745406520256,
      "loss": 3.1053,
      "step": 525
    },
    {
      "epoch": 0.17044718081659105,
      "grad_norm": 0.6706362962722778,
      "learning_rate": 0.0009515202144981734,
      "loss": 3.0528,
      "step": 526
    },
    {
      "epoch": 0.17077122488658458,
      "grad_norm": 0.5412501096725464,
      "learning_rate": 0.0009512945250100144,
      "loss": 2.9985,
      "step": 527
    },
    {
      "epoch": 0.1710952689565781,
      "grad_norm": 0.7403907179832458,
      "learning_rate": 0.0009510683383044345,
      "loss": 3.09,
      "step": 528
    },
    {
      "epoch": 0.17141931302657162,
      "grad_norm": 0.7013097405433655,
      "learning_rate": 0.0009508416546306364,
      "loss": 3.1088,
      "step": 529
    },
    {
      "epoch": 0.17174335709656513,
      "grad_norm": 0.5947654247283936,
      "learning_rate": 0.0009506144742383711,
      "loss": 3.0359,
      "step": 530
    },
    {
      "epoch": 0.17206740116655866,
      "grad_norm": 0.7570936679840088,
      "learning_rate": 0.0009503867973779363,
      "loss": 3.1328,
      "step": 531
    },
    {
      "epoch": 0.17239144523655217,
      "grad_norm": 0.4697968661785126,
      "learning_rate": 0.0009501586243001765,
      "loss": 3.0757,
      "step": 532
    },
    {
      "epoch": 0.17271548930654568,
      "grad_norm": 0.4736805558204651,
      "learning_rate": 0.0009499299552564837,
      "loss": 3.0477,
      "step": 533
    },
    {
      "epoch": 0.1730395333765392,
      "grad_norm": 0.4788532555103302,
      "learning_rate": 0.0009497007904987958,
      "loss": 3.1583,
      "step": 534
    },
    {
      "epoch": 0.17336357744653272,
      "grad_norm": 0.4745010435581207,
      "learning_rate": 0.0009494711302795967,
      "loss": 3.0119,
      "step": 535
    },
    {
      "epoch": 0.17368762151652625,
      "grad_norm": 0.6113080978393555,
      "learning_rate": 0.0009492409748519166,
      "loss": 3.0901,
      "step": 536
    },
    {
      "epoch": 0.17401166558651976,
      "grad_norm": 0.4707905650138855,
      "learning_rate": 0.0009490103244693311,
      "loss": 3.0581,
      "step": 537
    },
    {
      "epoch": 0.1743357096565133,
      "grad_norm": 0.5149238705635071,
      "learning_rate": 0.0009487791793859612,
      "loss": 2.9916,
      "step": 538
    },
    {
      "epoch": 0.1746597537265068,
      "grad_norm": 0.5916830897331238,
      "learning_rate": 0.0009485475398564728,
      "loss": 3.1058,
      "step": 539
    },
    {
      "epoch": 0.17498379779650033,
      "grad_norm": 0.540640652179718,
      "learning_rate": 0.0009483154061360766,
      "loss": 3.0376,
      "step": 540
    },
    {
      "epoch": 0.17530784186649384,
      "grad_norm": 0.4940241575241089,
      "learning_rate": 0.0009480827784805278,
      "loss": 3.1272,
      "step": 541
    },
    {
      "epoch": 0.17563188593648738,
      "grad_norm": 0.5062364339828491,
      "learning_rate": 0.0009478496571461259,
      "loss": 3.1302,
      "step": 542
    },
    {
      "epoch": 0.17595593000648088,
      "grad_norm": 0.6216297149658203,
      "learning_rate": 0.0009476160423897143,
      "loss": 3.0379,
      "step": 543
    },
    {
      "epoch": 0.1762799740764744,
      "grad_norm": 0.5422490835189819,
      "learning_rate": 0.0009473819344686798,
      "loss": 3.1141,
      "step": 544
    },
    {
      "epoch": 0.17660401814646792,
      "grad_norm": 0.6042231917381287,
      "learning_rate": 0.0009471473336409528,
      "loss": 3.1304,
      "step": 545
    },
    {
      "epoch": 0.17692806221646143,
      "grad_norm": 0.6069329380989075,
      "learning_rate": 0.0009469122401650068,
      "loss": 3.0119,
      "step": 546
    },
    {
      "epoch": 0.17725210628645496,
      "grad_norm": 0.7950432300567627,
      "learning_rate": 0.0009466766542998576,
      "loss": 3.0946,
      "step": 547
    },
    {
      "epoch": 0.17757615035644847,
      "grad_norm": 0.524146556854248,
      "learning_rate": 0.0009464405763050641,
      "loss": 2.9824,
      "step": 548
    },
    {
      "epoch": 0.177900194426442,
      "grad_norm": 0.4339916408061981,
      "learning_rate": 0.0009462040064407272,
      "loss": 2.9576,
      "step": 549
    },
    {
      "epoch": 0.1782242384964355,
      "grad_norm": 0.47825413942337036,
      "learning_rate": 0.0009459669449674895,
      "loss": 2.9799,
      "step": 550
    },
    {
      "epoch": 0.17854828256642905,
      "grad_norm": 0.5134742856025696,
      "learning_rate": 0.0009457293921465355,
      "loss": 3.0685,
      "step": 551
    },
    {
      "epoch": 0.17887232663642255,
      "grad_norm": 0.608982503414154,
      "learning_rate": 0.000945491348239591,
      "loss": 3.0836,
      "step": 552
    },
    {
      "epoch": 0.17919637070641609,
      "grad_norm": 0.6609174609184265,
      "learning_rate": 0.0009452528135089228,
      "loss": 3.1514,
      "step": 553
    },
    {
      "epoch": 0.1795204147764096,
      "grad_norm": 1.1871542930603027,
      "learning_rate": 0.0009450137882173384,
      "loss": 3.0915,
      "step": 554
    },
    {
      "epoch": 0.1798444588464031,
      "grad_norm": 0.7224025130271912,
      "learning_rate": 0.0009447742726281859,
      "loss": 3.0362,
      "step": 555
    },
    {
      "epoch": 0.18016850291639663,
      "grad_norm": 0.8577947020530701,
      "learning_rate": 0.0009445342670053536,
      "loss": 3.0347,
      "step": 556
    },
    {
      "epoch": 0.18049254698639014,
      "grad_norm": 0.7611274123191833,
      "learning_rate": 0.0009442937716132696,
      "loss": 3.0729,
      "step": 557
    },
    {
      "epoch": 0.18081659105638367,
      "grad_norm": 0.5391364097595215,
      "learning_rate": 0.0009440527867169016,
      "loss": 3.0241,
      "step": 558
    },
    {
      "epoch": 0.18114063512637718,
      "grad_norm": 0.7657186985015869,
      "learning_rate": 0.0009438113125817569,
      "loss": 3.0889,
      "step": 559
    },
    {
      "epoch": 0.18146467919637072,
      "grad_norm": 0.7355399131774902,
      "learning_rate": 0.0009435693494738813,
      "loss": 3.0098,
      "step": 560
    },
    {
      "epoch": 0.18178872326636422,
      "grad_norm": 0.4838676452636719,
      "learning_rate": 0.0009433268976598599,
      "loss": 3.0306,
      "step": 561
    },
    {
      "epoch": 0.18211276733635776,
      "grad_norm": 0.6186304688453674,
      "learning_rate": 0.0009430839574068158,
      "loss": 3.0082,
      "step": 562
    },
    {
      "epoch": 0.18243681140635126,
      "grad_norm": 0.6924285888671875,
      "learning_rate": 0.0009428405289824104,
      "loss": 3.0857,
      "step": 563
    },
    {
      "epoch": 0.18276085547634477,
      "grad_norm": 0.6045325994491577,
      "learning_rate": 0.0009425966126548431,
      "loss": 3.1335,
      "step": 564
    },
    {
      "epoch": 0.1830848995463383,
      "grad_norm": 0.7406221628189087,
      "learning_rate": 0.0009423522086928505,
      "loss": 3.0701,
      "step": 565
    },
    {
      "epoch": 0.1834089436163318,
      "grad_norm": 0.7010700702667236,
      "learning_rate": 0.0009421073173657066,
      "loss": 3.1175,
      "step": 566
    },
    {
      "epoch": 0.18373298768632534,
      "grad_norm": 0.5408150553703308,
      "learning_rate": 0.0009418619389432228,
      "loss": 3.0501,
      "step": 567
    },
    {
      "epoch": 0.18405703175631885,
      "grad_norm": 0.5544204711914062,
      "learning_rate": 0.0009416160736957464,
      "loss": 3.0123,
      "step": 568
    },
    {
      "epoch": 0.18438107582631239,
      "grad_norm": 0.7120798826217651,
      "learning_rate": 0.0009413697218941617,
      "loss": 3.0334,
      "step": 569
    },
    {
      "epoch": 0.1847051198963059,
      "grad_norm": 0.5071216821670532,
      "learning_rate": 0.0009411228838098886,
      "loss": 3.1254,
      "step": 570
    },
    {
      "epoch": 0.18502916396629943,
      "grad_norm": 1.6512210369110107,
      "learning_rate": 0.0009408755597148833,
      "loss": 3.1147,
      "step": 571
    },
    {
      "epoch": 0.18535320803629293,
      "grad_norm": 0.6425515413284302,
      "learning_rate": 0.0009406277498816366,
      "loss": 3.0629,
      "step": 572
    },
    {
      "epoch": 0.18567725210628647,
      "grad_norm": 0.7592025399208069,
      "learning_rate": 0.0009403794545831754,
      "loss": 3.0423,
      "step": 573
    },
    {
      "epoch": 0.18600129617627997,
      "grad_norm": 0.5568854212760925,
      "learning_rate": 0.0009401306740930608,
      "loss": 3.028,
      "step": 574
    },
    {
      "epoch": 0.18632534024627348,
      "grad_norm": 0.4797583222389221,
      "learning_rate": 0.0009398814086853891,
      "loss": 3.0192,
      "step": 575
    },
    {
      "epoch": 0.18664938431626701,
      "grad_norm": 0.7273576855659485,
      "learning_rate": 0.0009396316586347904,
      "loss": 3.0353,
      "step": 576
    },
    {
      "epoch": 0.18697342838626052,
      "grad_norm": 1.0219701528549194,
      "learning_rate": 0.0009393814242164285,
      "loss": 3.0317,
      "step": 577
    },
    {
      "epoch": 0.18729747245625405,
      "grad_norm": 0.7560701370239258,
      "learning_rate": 0.0009391307057060016,
      "loss": 3.0376,
      "step": 578
    },
    {
      "epoch": 0.18762151652624756,
      "grad_norm": 0.8705507516860962,
      "learning_rate": 0.0009388795033797406,
      "loss": 2.9948,
      "step": 579
    },
    {
      "epoch": 0.1879455605962411,
      "grad_norm": 0.5583155751228333,
      "learning_rate": 0.0009386278175144099,
      "loss": 2.9575,
      "step": 580
    },
    {
      "epoch": 0.1882696046662346,
      "grad_norm": 0.6116185188293457,
      "learning_rate": 0.0009383756483873064,
      "loss": 3.1171,
      "step": 581
    },
    {
      "epoch": 0.18859364873622814,
      "grad_norm": 0.8303919434547424,
      "learning_rate": 0.0009381229962762594,
      "loss": 3.1439,
      "step": 582
    },
    {
      "epoch": 0.18891769280622164,
      "grad_norm": 0.7975753545761108,
      "learning_rate": 0.0009378698614596307,
      "loss": 3.0878,
      "step": 583
    },
    {
      "epoch": 0.18924173687621518,
      "grad_norm": 0.5386360287666321,
      "learning_rate": 0.0009376162442163132,
      "loss": 3.0325,
      "step": 584
    },
    {
      "epoch": 0.18956578094620868,
      "grad_norm": 0.8760820627212524,
      "learning_rate": 0.0009373621448257321,
      "loss": 3.1059,
      "step": 585
    },
    {
      "epoch": 0.1898898250162022,
      "grad_norm": 0.8117312788963318,
      "learning_rate": 0.0009371075635678434,
      "loss": 3.0468,
      "step": 586
    },
    {
      "epoch": 0.19021386908619572,
      "grad_norm": 0.5691591501235962,
      "learning_rate": 0.0009368525007231341,
      "loss": 3.0069,
      "step": 587
    },
    {
      "epoch": 0.19053791315618923,
      "grad_norm": 1.5341531038284302,
      "learning_rate": 0.0009365969565726217,
      "loss": 3.0084,
      "step": 588
    },
    {
      "epoch": 0.19086195722618277,
      "grad_norm": 0.6634156107902527,
      "learning_rate": 0.000936340931397854,
      "loss": 3.0539,
      "step": 589
    },
    {
      "epoch": 0.19118600129617627,
      "grad_norm": 0.657623827457428,
      "learning_rate": 0.000936084425480909,
      "loss": 3.0144,
      "step": 590
    },
    {
      "epoch": 0.1915100453661698,
      "grad_norm": 0.5612938404083252,
      "learning_rate": 0.0009358274391043941,
      "loss": 3.0086,
      "step": 591
    },
    {
      "epoch": 0.1918340894361633,
      "grad_norm": 0.5976657271385193,
      "learning_rate": 0.000935569972551446,
      "loss": 3.0769,
      "step": 592
    },
    {
      "epoch": 0.19215813350615685,
      "grad_norm": 0.6833995580673218,
      "learning_rate": 0.0009353120261057309,
      "loss": 3.0862,
      "step": 593
    },
    {
      "epoch": 0.19248217757615035,
      "grad_norm": 0.616304337978363,
      "learning_rate": 0.0009350536000514429,
      "loss": 3.0644,
      "step": 594
    },
    {
      "epoch": 0.1928062216461439,
      "grad_norm": 0.662375271320343,
      "learning_rate": 0.0009347946946733055,
      "loss": 2.9832,
      "step": 595
    },
    {
      "epoch": 0.1931302657161374,
      "grad_norm": 0.5127812623977661,
      "learning_rate": 0.0009345353102565696,
      "loss": 3.0626,
      "step": 596
    },
    {
      "epoch": 0.1934543097861309,
      "grad_norm": 1.0511925220489502,
      "learning_rate": 0.000934275447087014,
      "loss": 2.9161,
      "step": 597
    },
    {
      "epoch": 0.19377835385612444,
      "grad_norm": 1.225726842880249,
      "learning_rate": 0.0009340151054509453,
      "loss": 3.0677,
      "step": 598
    },
    {
      "epoch": 0.19410239792611794,
      "grad_norm": 0.5418863296508789,
      "learning_rate": 0.0009337542856351968,
      "loss": 3.052,
      "step": 599
    },
    {
      "epoch": 0.19442644199611148,
      "grad_norm": 1.411340355873108,
      "learning_rate": 0.0009334929879271291,
      "loss": 3.0607,
      "step": 600
    },
    {
      "epoch": 0.19475048606610498,
      "grad_norm": 0.6540129780769348,
      "learning_rate": 0.0009332312126146289,
      "loss": 3.0336,
      "step": 601
    },
    {
      "epoch": 0.19507453013609852,
      "grad_norm": 0.6504049897193909,
      "learning_rate": 0.0009329689599861092,
      "loss": 3.0876,
      "step": 602
    },
    {
      "epoch": 0.19539857420609202,
      "grad_norm": 0.6076262593269348,
      "learning_rate": 0.0009327062303305092,
      "loss": 3.0031,
      "step": 603
    },
    {
      "epoch": 0.19572261827608556,
      "grad_norm": 0.6363398432731628,
      "learning_rate": 0.0009324430239372932,
      "loss": 2.9795,
      "step": 604
    },
    {
      "epoch": 0.19604666234607906,
      "grad_norm": 0.6098381876945496,
      "learning_rate": 0.0009321793410964512,
      "loss": 3.0061,
      "step": 605
    },
    {
      "epoch": 0.1963707064160726,
      "grad_norm": 0.4900590479373932,
      "learning_rate": 0.0009319151820984978,
      "loss": 2.8865,
      "step": 606
    },
    {
      "epoch": 0.1966947504860661,
      "grad_norm": 0.4673965871334076,
      "learning_rate": 0.0009316505472344723,
      "loss": 3.1014,
      "step": 607
    },
    {
      "epoch": 0.1970187945560596,
      "grad_norm": 0.564733624458313,
      "learning_rate": 0.0009313854367959385,
      "loss": 3.0165,
      "step": 608
    },
    {
      "epoch": 0.19734283862605315,
      "grad_norm": 0.546718955039978,
      "learning_rate": 0.0009311198510749838,
      "loss": 3.0081,
      "step": 609
    },
    {
      "epoch": 0.19766688269604665,
      "grad_norm": 0.601876974105835,
      "learning_rate": 0.0009308537903642195,
      "loss": 3.1176,
      "step": 610
    },
    {
      "epoch": 0.1979909267660402,
      "grad_norm": 1.004212737083435,
      "learning_rate": 0.0009305872549567802,
      "loss": 3.0578,
      "step": 611
    },
    {
      "epoch": 0.1983149708360337,
      "grad_norm": 0.7026384472846985,
      "learning_rate": 0.0009303202451463234,
      "loss": 3.0495,
      "step": 612
    },
    {
      "epoch": 0.19863901490602723,
      "grad_norm": 0.5897665023803711,
      "learning_rate": 0.0009300527612270293,
      "loss": 3.0202,
      "step": 613
    },
    {
      "epoch": 0.19896305897602073,
      "grad_norm": 0.7718218564987183,
      "learning_rate": 0.0009297848034936007,
      "loss": 2.942,
      "step": 614
    },
    {
      "epoch": 0.19928710304601427,
      "grad_norm": 1.7471752166748047,
      "learning_rate": 0.0009295163722412618,
      "loss": 2.973,
      "step": 615
    },
    {
      "epoch": 0.19961114711600778,
      "grad_norm": 1.5145553350448608,
      "learning_rate": 0.0009292474677657593,
      "loss": 3.0099,
      "step": 616
    },
    {
      "epoch": 0.1999351911860013,
      "grad_norm": 1.0541861057281494,
      "learning_rate": 0.0009289780903633608,
      "loss": 2.9607,
      "step": 617
    },
    {
      "epoch": 0.20025923525599482,
      "grad_norm": 0.9192190170288086,
      "learning_rate": 0.000928708240330855,
      "loss": 2.9706,
      "step": 618
    },
    {
      "epoch": 0.20058327932598832,
      "grad_norm": 1.6399534940719604,
      "learning_rate": 0.0009284379179655513,
      "loss": 3.114,
      "step": 619
    },
    {
      "epoch": 0.20090732339598186,
      "grad_norm": 3.659810781478882,
      "learning_rate": 0.0009281671235652798,
      "loss": 3.169,
      "step": 620
    },
    {
      "epoch": 0.20123136746597536,
      "grad_norm": 0.6434857249259949,
      "learning_rate": 0.0009278958574283902,
      "loss": 3.065,
      "step": 621
    },
    {
      "epoch": 0.2015554115359689,
      "grad_norm": 1.036536455154419,
      "learning_rate": 0.0009276241198537523,
      "loss": 3.0613,
      "step": 622
    },
    {
      "epoch": 0.2018794556059624,
      "grad_norm": 0.5727618932723999,
      "learning_rate": 0.0009273519111407553,
      "loss": 3.0465,
      "step": 623
    },
    {
      "epoch": 0.20220349967595594,
      "grad_norm": 0.4611738324165344,
      "learning_rate": 0.0009270792315893071,
      "loss": 3.0737,
      "step": 624
    },
    {
      "epoch": 0.20252754374594945,
      "grad_norm": 0.5717624425888062,
      "learning_rate": 0.0009268060814998347,
      "loss": 3.0978,
      "step": 625
    },
    {
      "epoch": 0.20285158781594298,
      "grad_norm": 0.6543081998825073,
      "learning_rate": 0.0009265324611732835,
      "loss": 3.0432,
      "step": 626
    },
    {
      "epoch": 0.2031756318859365,
      "grad_norm": 0.6769329905509949,
      "learning_rate": 0.0009262583709111169,
      "loss": 3.1005,
      "step": 627
    },
    {
      "epoch": 0.20349967595593,
      "grad_norm": 0.8509935140609741,
      "learning_rate": 0.0009259838110153162,
      "loss": 3.1057,
      "step": 628
    },
    {
      "epoch": 0.20382372002592353,
      "grad_norm": 0.6547415852546692,
      "learning_rate": 0.0009257087817883798,
      "loss": 3.154,
      "step": 629
    },
    {
      "epoch": 0.20414776409591703,
      "grad_norm": 0.7954999208450317,
      "learning_rate": 0.0009254332835333237,
      "loss": 3.1125,
      "step": 630
    },
    {
      "epoch": 0.20447180816591057,
      "grad_norm": 1.455872654914856,
      "learning_rate": 0.0009251573165536799,
      "loss": 3.0872,
      "step": 631
    },
    {
      "epoch": 0.20479585223590407,
      "grad_norm": 0.583729088306427,
      "learning_rate": 0.0009248808811534976,
      "loss": 3.0325,
      "step": 632
    },
    {
      "epoch": 0.2051198963058976,
      "grad_norm": 0.5379789471626282,
      "learning_rate": 0.0009246039776373416,
      "loss": 3.0645,
      "step": 633
    },
    {
      "epoch": 0.20544394037589112,
      "grad_norm": 0.500468909740448,
      "learning_rate": 0.0009243266063102926,
      "loss": 3.0619,
      "step": 634
    },
    {
      "epoch": 0.20576798444588465,
      "grad_norm": 1.0047171115875244,
      "learning_rate": 0.000924048767477947,
      "loss": 3.0901,
      "step": 635
    },
    {
      "epoch": 0.20609202851587816,
      "grad_norm": 0.6134799718856812,
      "learning_rate": 0.0009237704614464157,
      "loss": 2.9908,
      "step": 636
    },
    {
      "epoch": 0.2064160725858717,
      "grad_norm": 0.5890024900436401,
      "learning_rate": 0.0009234916885223246,
      "loss": 3.1062,
      "step": 637
    },
    {
      "epoch": 0.2067401166558652,
      "grad_norm": 0.6680095791816711,
      "learning_rate": 0.0009232124490128142,
      "loss": 3.0444,
      "step": 638
    },
    {
      "epoch": 0.2070641607258587,
      "grad_norm": 1.0002433061599731,
      "learning_rate": 0.000922932743225539,
      "loss": 2.9608,
      "step": 639
    },
    {
      "epoch": 0.20738820479585224,
      "grad_norm": 0.5798235535621643,
      "learning_rate": 0.0009226525714686669,
      "loss": 3.0983,
      "step": 640
    },
    {
      "epoch": 0.20771224886584574,
      "grad_norm": 2.0602872371673584,
      "learning_rate": 0.0009223719340508793,
      "loss": 3.0839,
      "step": 641
    },
    {
      "epoch": 0.20803629293583928,
      "grad_norm": 0.5165865421295166,
      "learning_rate": 0.0009220908312813714,
      "loss": 3.0673,
      "step": 642
    },
    {
      "epoch": 0.20836033700583279,
      "grad_norm": 0.539439857006073,
      "learning_rate": 0.0009218092634698499,
      "loss": 3.0301,
      "step": 643
    },
    {
      "epoch": 0.20868438107582632,
      "grad_norm": 0.7846533060073853,
      "learning_rate": 0.0009215272309265343,
      "loss": 3.0543,
      "step": 644
    },
    {
      "epoch": 0.20900842514581983,
      "grad_norm": 0.5736281275749207,
      "learning_rate": 0.0009212447339621568,
      "loss": 3.1422,
      "step": 645
    },
    {
      "epoch": 0.20933246921581336,
      "grad_norm": 0.5342406630516052,
      "learning_rate": 0.0009209617728879604,
      "loss": 3.0699,
      "step": 646
    },
    {
      "epoch": 0.20965651328580687,
      "grad_norm": 0.6070922613143921,
      "learning_rate": 0.0009206783480156999,
      "loss": 3.1045,
      "step": 647
    },
    {
      "epoch": 0.2099805573558004,
      "grad_norm": 0.5729915499687195,
      "learning_rate": 0.0009203944596576408,
      "loss": 3.131,
      "step": 648
    },
    {
      "epoch": 0.2103046014257939,
      "grad_norm": 0.5147002935409546,
      "learning_rate": 0.0009201101081265596,
      "loss": 3.0816,
      "step": 649
    },
    {
      "epoch": 0.21062864549578741,
      "grad_norm": 0.48839861154556274,
      "learning_rate": 0.0009198252937357427,
      "loss": 3.0088,
      "step": 650
    },
    {
      "epoch": 0.21095268956578095,
      "grad_norm": 1.1399413347244263,
      "learning_rate": 0.000919540016798987,
      "loss": 3.0557,
      "step": 651
    },
    {
      "epoch": 0.21127673363577446,
      "grad_norm": 1.284543514251709,
      "learning_rate": 0.0009192542776305983,
      "loss": 3.0727,
      "step": 652
    },
    {
      "epoch": 0.211600777705768,
      "grad_norm": 0.5542437434196472,
      "learning_rate": 0.0009189680765453922,
      "loss": 2.953,
      "step": 653
    },
    {
      "epoch": 0.2119248217757615,
      "grad_norm": 0.8372597098350525,
      "learning_rate": 0.0009186814138586933,
      "loss": 3.0084,
      "step": 654
    },
    {
      "epoch": 0.21224886584575503,
      "grad_norm": 0.6501789689064026,
      "learning_rate": 0.0009183942898863343,
      "loss": 3.121,
      "step": 655
    },
    {
      "epoch": 0.21257290991574854,
      "grad_norm": 0.5495718717575073,
      "learning_rate": 0.0009181067049446565,
      "loss": 3.0724,
      "step": 656
    },
    {
      "epoch": 0.21289695398574207,
      "grad_norm": 0.5072813630104065,
      "learning_rate": 0.0009178186593505088,
      "loss": 3.0689,
      "step": 657
    },
    {
      "epoch": 0.21322099805573558,
      "grad_norm": 0.4882679581642151,
      "learning_rate": 0.000917530153421248,
      "loss": 3.0756,
      "step": 658
    },
    {
      "epoch": 0.2135450421257291,
      "grad_norm": 0.7790207266807556,
      "learning_rate": 0.0009172411874747377,
      "loss": 3.0334,
      "step": 659
    },
    {
      "epoch": 0.21386908619572262,
      "grad_norm": 0.776409924030304,
      "learning_rate": 0.0009169517618293486,
      "loss": 3.1183,
      "step": 660
    },
    {
      "epoch": 0.21419313026571613,
      "grad_norm": 0.5228222608566284,
      "learning_rate": 0.0009166618768039575,
      "loss": 3.107,
      "step": 661
    },
    {
      "epoch": 0.21451717433570966,
      "grad_norm": 0.5874061584472656,
      "learning_rate": 0.000916371532717948,
      "loss": 3.0873,
      "step": 662
    },
    {
      "epoch": 0.21484121840570317,
      "grad_norm": 0.6968013644218445,
      "learning_rate": 0.0009160807298912087,
      "loss": 3.0501,
      "step": 663
    },
    {
      "epoch": 0.2151652624756967,
      "grad_norm": 0.7725555896759033,
      "learning_rate": 0.0009157894686441342,
      "loss": 2.9958,
      "step": 664
    },
    {
      "epoch": 0.2154893065456902,
      "grad_norm": 0.5147343277931213,
      "learning_rate": 0.000915497749297624,
      "loss": 2.9834,
      "step": 665
    },
    {
      "epoch": 0.21581335061568374,
      "grad_norm": 0.5426778793334961,
      "learning_rate": 0.000915205572173082,
      "loss": 3.0288,
      "step": 666
    },
    {
      "epoch": 0.21613739468567725,
      "grad_norm": 0.4675624370574951,
      "learning_rate": 0.0009149129375924169,
      "loss": 3.0728,
      "step": 667
    },
    {
      "epoch": 0.21646143875567078,
      "grad_norm": 0.6192978620529175,
      "learning_rate": 0.0009146198458780413,
      "loss": 3.0437,
      "step": 668
    },
    {
      "epoch": 0.2167854828256643,
      "grad_norm": 0.42883315682411194,
      "learning_rate": 0.0009143262973528712,
      "loss": 3.0061,
      "step": 669
    },
    {
      "epoch": 0.21710952689565782,
      "grad_norm": 0.46501338481903076,
      "learning_rate": 0.0009140322923403262,
      "loss": 3.0583,
      "step": 670
    },
    {
      "epoch": 0.21743357096565133,
      "grad_norm": 0.49017879366874695,
      "learning_rate": 0.0009137378311643287,
      "loss": 2.9916,
      "step": 671
    },
    {
      "epoch": 0.21775761503564484,
      "grad_norm": 0.560829222202301,
      "learning_rate": 0.0009134429141493037,
      "loss": 2.9457,
      "step": 672
    },
    {
      "epoch": 0.21808165910563837,
      "grad_norm": 0.41871705651283264,
      "learning_rate": 0.0009131475416201785,
      "loss": 3.0543,
      "step": 673
    },
    {
      "epoch": 0.21840570317563188,
      "grad_norm": 0.6217136383056641,
      "learning_rate": 0.0009128517139023822,
      "loss": 2.9804,
      "step": 674
    },
    {
      "epoch": 0.2187297472456254,
      "grad_norm": 0.40725764632225037,
      "learning_rate": 0.0009125554313218451,
      "loss": 2.9908,
      "step": 675
    },
    {
      "epoch": 0.21905379131561892,
      "grad_norm": 1.1732585430145264,
      "learning_rate": 0.0009122586942049993,
      "loss": 3.1323,
      "step": 676
    },
    {
      "epoch": 0.21937783538561245,
      "grad_norm": 0.5109924077987671,
      "learning_rate": 0.0009119615028787771,
      "loss": 3.0022,
      "step": 677
    },
    {
      "epoch": 0.21970187945560596,
      "grad_norm": 0.5661722421646118,
      "learning_rate": 0.0009116638576706117,
      "loss": 2.9617,
      "step": 678
    },
    {
      "epoch": 0.2200259235255995,
      "grad_norm": 0.5901457071304321,
      "learning_rate": 0.0009113657589084359,
      "loss": 3.0958,
      "step": 679
    },
    {
      "epoch": 0.220349967595593,
      "grad_norm": 0.5506399869918823,
      "learning_rate": 0.0009110672069206825,
      "loss": 2.9661,
      "step": 680
    },
    {
      "epoch": 0.22067401166558653,
      "grad_norm": 0.5039777755737305,
      "learning_rate": 0.0009107682020362837,
      "loss": 2.9985,
      "step": 681
    },
    {
      "epoch": 0.22099805573558004,
      "grad_norm": 1.7201179265975952,
      "learning_rate": 0.0009104687445846705,
      "loss": 2.9034,
      "step": 682
    },
    {
      "epoch": 0.22132209980557355,
      "grad_norm": 0.5529076457023621,
      "learning_rate": 0.0009101688348957726,
      "loss": 3.0243,
      "step": 683
    },
    {
      "epoch": 0.22164614387556708,
      "grad_norm": 0.9987281560897827,
      "learning_rate": 0.000909868473300018,
      "loss": 3.004,
      "step": 684
    },
    {
      "epoch": 0.2219701879455606,
      "grad_norm": 0.651260495185852,
      "learning_rate": 0.0009095676601283322,
      "loss": 3.0072,
      "step": 685
    },
    {
      "epoch": 0.22229423201555412,
      "grad_norm": 0.5127941966056824,
      "learning_rate": 0.0009092663957121391,
      "loss": 3.09,
      "step": 686
    },
    {
      "epoch": 0.22261827608554763,
      "grad_norm": 0.48403292894363403,
      "learning_rate": 0.0009089646803833589,
      "loss": 2.9746,
      "step": 687
    },
    {
      "epoch": 0.22294232015554116,
      "grad_norm": 0.4607539772987366,
      "learning_rate": 0.000908662514474409,
      "loss": 3.0161,
      "step": 688
    },
    {
      "epoch": 0.22326636422553467,
      "grad_norm": 0.5607483386993408,
      "learning_rate": 0.0009083598983182029,
      "loss": 2.9909,
      "step": 689
    },
    {
      "epoch": 0.2235904082955282,
      "grad_norm": 1.0160068273544312,
      "learning_rate": 0.0009080568322481508,
      "loss": 3.1541,
      "step": 690
    },
    {
      "epoch": 0.2239144523655217,
      "grad_norm": 0.6344663500785828,
      "learning_rate": 0.000907753316598158,
      "loss": 2.9395,
      "step": 691
    },
    {
      "epoch": 0.22423849643551522,
      "grad_norm": 0.717934787273407,
      "learning_rate": 0.0009074493517026255,
      "loss": 3.0396,
      "step": 692
    },
    {
      "epoch": 0.22456254050550875,
      "grad_norm": 0.7523799538612366,
      "learning_rate": 0.000907144937896449,
      "loss": 3.0366,
      "step": 693
    },
    {
      "epoch": 0.22488658457550226,
      "grad_norm": 0.601276695728302,
      "learning_rate": 0.0009068400755150189,
      "loss": 2.9423,
      "step": 694
    },
    {
      "epoch": 0.2252106286454958,
      "grad_norm": 0.5076408982276917,
      "learning_rate": 0.0009065347648942198,
      "loss": 2.9995,
      "step": 695
    },
    {
      "epoch": 0.2255346727154893,
      "grad_norm": 0.4895092248916626,
      "learning_rate": 0.00090622900637043,
      "loss": 3.0127,
      "step": 696
    },
    {
      "epoch": 0.22585871678548283,
      "grad_norm": 0.7328922152519226,
      "learning_rate": 0.0009059228002805217,
      "loss": 3.0592,
      "step": 697
    },
    {
      "epoch": 0.22618276085547634,
      "grad_norm": 0.768342912197113,
      "learning_rate": 0.00090561614696186,
      "loss": 3.019,
      "step": 698
    },
    {
      "epoch": 0.22650680492546987,
      "grad_norm": 0.5065581798553467,
      "learning_rate": 0.0009053090467523025,
      "loss": 2.9324,
      "step": 699
    },
    {
      "epoch": 0.22683084899546338,
      "grad_norm": 0.4075720012187958,
      "learning_rate": 0.0009050014999901994,
      "loss": 2.9787,
      "step": 700
    },
    {
      "epoch": 0.22715489306545691,
      "grad_norm": 0.5951350927352905,
      "learning_rate": 0.0009046935070143929,
      "loss": 3.0432,
      "step": 701
    },
    {
      "epoch": 0.22747893713545042,
      "grad_norm": 0.6845945119857788,
      "learning_rate": 0.0009043850681642167,
      "loss": 2.9898,
      "step": 702
    },
    {
      "epoch": 0.22780298120544393,
      "grad_norm": 0.4474320411682129,
      "learning_rate": 0.0009040761837794959,
      "loss": 2.9838,
      "step": 703
    },
    {
      "epoch": 0.22812702527543746,
      "grad_norm": 0.4561018645763397,
      "learning_rate": 0.0009037668542005464,
      "loss": 2.9479,
      "step": 704
    },
    {
      "epoch": 0.22845106934543097,
      "grad_norm": 0.5276780724525452,
      "learning_rate": 0.0009034570797681745,
      "loss": 2.9917,
      "step": 705
    },
    {
      "epoch": 0.2287751134154245,
      "grad_norm": 0.554253339767456,
      "learning_rate": 0.0009031468608236766,
      "loss": 2.9439,
      "step": 706
    },
    {
      "epoch": 0.229099157485418,
      "grad_norm": 1.2203794717788696,
      "learning_rate": 0.0009028361977088393,
      "loss": 3.0131,
      "step": 707
    },
    {
      "epoch": 0.22942320155541154,
      "grad_norm": 0.523480236530304,
      "learning_rate": 0.0009025250907659379,
      "loss": 2.9751,
      "step": 708
    },
    {
      "epoch": 0.22974724562540505,
      "grad_norm": 0.39830029010772705,
      "learning_rate": 0.0009022135403377371,
      "loss": 2.9961,
      "step": 709
    },
    {
      "epoch": 0.23007128969539858,
      "grad_norm": 0.4389365315437317,
      "learning_rate": 0.0009019015467674902,
      "loss": 2.9669,
      "step": 710
    },
    {
      "epoch": 0.2303953337653921,
      "grad_norm": 0.47887471318244934,
      "learning_rate": 0.0009015891103989385,
      "loss": 2.9694,
      "step": 711
    },
    {
      "epoch": 0.23071937783538563,
      "grad_norm": 0.5049118995666504,
      "learning_rate": 0.0009012762315763115,
      "loss": 2.9697,
      "step": 712
    },
    {
      "epoch": 0.23104342190537913,
      "grad_norm": 0.49048346281051636,
      "learning_rate": 0.0009009629106443261,
      "loss": 3.0429,
      "step": 713
    },
    {
      "epoch": 0.23136746597537264,
      "grad_norm": 0.411422461271286,
      "learning_rate": 0.0009006491479481857,
      "loss": 2.9199,
      "step": 714
    },
    {
      "epoch": 0.23169151004536617,
      "grad_norm": 0.5849090814590454,
      "learning_rate": 0.0009003349438335813,
      "loss": 2.9778,
      "step": 715
    },
    {
      "epoch": 0.23201555411535968,
      "grad_norm": 0.6574991941452026,
      "learning_rate": 0.0009000202986466899,
      "loss": 2.9151,
      "step": 716
    },
    {
      "epoch": 0.2323395981853532,
      "grad_norm": 0.49201610684394836,
      "learning_rate": 0.000899705212734174,
      "loss": 2.9595,
      "step": 717
    },
    {
      "epoch": 0.23266364225534672,
      "grad_norm": 0.5165163278579712,
      "learning_rate": 0.0008993896864431826,
      "loss": 2.9774,
      "step": 718
    },
    {
      "epoch": 0.23298768632534025,
      "grad_norm": 0.5762338638305664,
      "learning_rate": 0.0008990737201213489,
      "loss": 3.0654,
      "step": 719
    },
    {
      "epoch": 0.23331173039533376,
      "grad_norm": 0.4487617611885071,
      "learning_rate": 0.0008987573141167915,
      "loss": 2.9866,
      "step": 720
    },
    {
      "epoch": 0.2336357744653273,
      "grad_norm": 0.5522998571395874,
      "learning_rate": 0.0008984404687781135,
      "loss": 3.0678,
      "step": 721
    },
    {
      "epoch": 0.2339598185353208,
      "grad_norm": 0.5079373121261597,
      "learning_rate": 0.0008981231844544015,
      "loss": 2.9217,
      "step": 722
    },
    {
      "epoch": 0.23428386260531434,
      "grad_norm": 0.47939005494117737,
      "learning_rate": 0.0008978054614952265,
      "loss": 3.0715,
      "step": 723
    },
    {
      "epoch": 0.23460790667530784,
      "grad_norm": 0.6302842497825623,
      "learning_rate": 0.000897487300250642,
      "loss": 3.0103,
      "step": 724
    },
    {
      "epoch": 0.23493195074530135,
      "grad_norm": 0.5597994923591614,
      "learning_rate": 0.0008971687010711851,
      "loss": 2.9263,
      "step": 725
    },
    {
      "epoch": 0.23525599481529488,
      "grad_norm": 0.6472952961921692,
      "learning_rate": 0.0008968496643078745,
      "loss": 2.9328,
      "step": 726
    },
    {
      "epoch": 0.2355800388852884,
      "grad_norm": 0.43877124786376953,
      "learning_rate": 0.000896530190312212,
      "loss": 2.9622,
      "step": 727
    },
    {
      "epoch": 0.23590408295528192,
      "grad_norm": 0.7161921858787537,
      "learning_rate": 0.0008962102794361806,
      "loss": 2.9317,
      "step": 728
    },
    {
      "epoch": 0.23622812702527543,
      "grad_norm": 0.49148452281951904,
      "learning_rate": 0.0008958899320322447,
      "loss": 3.0283,
      "step": 729
    },
    {
      "epoch": 0.23655217109526896,
      "grad_norm": 0.41179367899894714,
      "learning_rate": 0.0008955691484533496,
      "loss": 2.9297,
      "step": 730
    },
    {
      "epoch": 0.23687621516526247,
      "grad_norm": 0.5266650319099426,
      "learning_rate": 0.0008952479290529213,
      "loss": 3.0199,
      "step": 731
    },
    {
      "epoch": 0.237200259235256,
      "grad_norm": 0.7626988887786865,
      "learning_rate": 0.0008949262741848657,
      "loss": 2.947,
      "step": 732
    },
    {
      "epoch": 0.2375243033052495,
      "grad_norm": 0.5768918395042419,
      "learning_rate": 0.000894604184203569,
      "loss": 2.9895,
      "step": 733
    },
    {
      "epoch": 0.23784834737524305,
      "grad_norm": 0.4689379632472992,
      "learning_rate": 0.0008942816594638961,
      "loss": 2.9489,
      "step": 734
    },
    {
      "epoch": 0.23817239144523655,
      "grad_norm": 0.6137587428092957,
      "learning_rate": 0.0008939587003211915,
      "loss": 2.9768,
      "step": 735
    },
    {
      "epoch": 0.23849643551523006,
      "grad_norm": 0.6933515071868896,
      "learning_rate": 0.0008936353071312781,
      "loss": 3.0844,
      "step": 736
    },
    {
      "epoch": 0.2388204795852236,
      "grad_norm": 0.44249069690704346,
      "learning_rate": 0.0008933114802504567,
      "loss": 2.9548,
      "step": 737
    },
    {
      "epoch": 0.2391445236552171,
      "grad_norm": 0.5397371649742126,
      "learning_rate": 0.0008929872200355067,
      "loss": 3.0231,
      "step": 738
    },
    {
      "epoch": 0.23946856772521063,
      "grad_norm": 0.98227858543396,
      "learning_rate": 0.0008926625268436839,
      "loss": 3.0065,
      "step": 739
    },
    {
      "epoch": 0.23979261179520414,
      "grad_norm": 0.4268357455730438,
      "learning_rate": 0.000892337401032722,
      "loss": 3.0115,
      "step": 740
    },
    {
      "epoch": 0.24011665586519768,
      "grad_norm": 0.47227293252944946,
      "learning_rate": 0.0008920118429608309,
      "loss": 3.0269,
      "step": 741
    },
    {
      "epoch": 0.24044069993519118,
      "grad_norm": 0.43962690234184265,
      "learning_rate": 0.0008916858529866969,
      "loss": 2.9495,
      "step": 742
    },
    {
      "epoch": 0.24076474400518472,
      "grad_norm": 0.5253818035125732,
      "learning_rate": 0.000891359431469482,
      "loss": 3.0164,
      "step": 743
    },
    {
      "epoch": 0.24108878807517822,
      "grad_norm": 0.42798906564712524,
      "learning_rate": 0.0008910325787688238,
      "loss": 3.0067,
      "step": 744
    },
    {
      "epoch": 0.24141283214517173,
      "grad_norm": 0.4446261525154114,
      "learning_rate": 0.0008907052952448351,
      "loss": 3.0767,
      "step": 745
    },
    {
      "epoch": 0.24173687621516526,
      "grad_norm": 0.47869303822517395,
      "learning_rate": 0.0008903775812581031,
      "loss": 3.0416,
      "step": 746
    },
    {
      "epoch": 0.24206092028515877,
      "grad_norm": 0.5506828427314758,
      "learning_rate": 0.0008900494371696892,
      "loss": 2.9889,
      "step": 747
    },
    {
      "epoch": 0.2423849643551523,
      "grad_norm": 0.7113428711891174,
      "learning_rate": 0.0008897208633411291,
      "loss": 2.9225,
      "step": 748
    },
    {
      "epoch": 0.2427090084251458,
      "grad_norm": 0.4282509386539459,
      "learning_rate": 0.0008893918601344314,
      "loss": 3.0244,
      "step": 749
    },
    {
      "epoch": 0.24303305249513935,
      "grad_norm": 0.4639481008052826,
      "learning_rate": 0.0008890624279120782,
      "loss": 2.9192,
      "step": 750
    },
    {
      "epoch": 0.24335709656513285,
      "grad_norm": 0.46724483370780945,
      "learning_rate": 0.0008887325670370244,
      "loss": 3.0433,
      "step": 751
    },
    {
      "epoch": 0.2436811406351264,
      "grad_norm": 0.4555439054965973,
      "learning_rate": 0.0008884022778726964,
      "loss": 3.0722,
      "step": 752
    },
    {
      "epoch": 0.2440051847051199,
      "grad_norm": 0.4129142761230469,
      "learning_rate": 0.0008880715607829932,
      "loss": 3.0056,
      "step": 753
    },
    {
      "epoch": 0.24432922877511343,
      "grad_norm": 1.1636751890182495,
      "learning_rate": 0.0008877404161322851,
      "loss": 2.9875,
      "step": 754
    },
    {
      "epoch": 0.24465327284510693,
      "grad_norm": 0.4157409965991974,
      "learning_rate": 0.0008874088442854136,
      "loss": 2.9151,
      "step": 755
    },
    {
      "epoch": 0.24497731691510044,
      "grad_norm": 0.5211858749389648,
      "learning_rate": 0.0008870768456076903,
      "loss": 2.9894,
      "step": 756
    },
    {
      "epoch": 0.24530136098509397,
      "grad_norm": 0.5120293498039246,
      "learning_rate": 0.0008867444204648977,
      "loss": 2.9437,
      "step": 757
    },
    {
      "epoch": 0.24562540505508748,
      "grad_norm": 0.4565889537334442,
      "learning_rate": 0.0008864115692232877,
      "loss": 2.9858,
      "step": 758
    },
    {
      "epoch": 0.24594944912508102,
      "grad_norm": 0.5555824637413025,
      "learning_rate": 0.0008860782922495822,
      "loss": 3.0286,
      "step": 759
    },
    {
      "epoch": 0.24627349319507452,
      "grad_norm": 0.45930418372154236,
      "learning_rate": 0.0008857445899109715,
      "loss": 2.9709,
      "step": 760
    },
    {
      "epoch": 0.24659753726506806,
      "grad_norm": 0.4678753912448883,
      "learning_rate": 0.000885410462575115,
      "loss": 2.9774,
      "step": 761
    },
    {
      "epoch": 0.24692158133506156,
      "grad_norm": 0.47033071517944336,
      "learning_rate": 0.0008850759106101403,
      "loss": 2.9493,
      "step": 762
    },
    {
      "epoch": 0.2472456254050551,
      "grad_norm": 0.46552038192749023,
      "learning_rate": 0.0008847409343846426,
      "loss": 3.0179,
      "step": 763
    },
    {
      "epoch": 0.2475696694750486,
      "grad_norm": 0.47848156094551086,
      "learning_rate": 0.0008844055342676849,
      "loss": 3.0606,
      "step": 764
    },
    {
      "epoch": 0.24789371354504214,
      "grad_norm": 0.42198479175567627,
      "learning_rate": 0.0008840697106287966,
      "loss": 2.9849,
      "step": 765
    },
    {
      "epoch": 0.24821775761503564,
      "grad_norm": 0.4309534430503845,
      "learning_rate": 0.0008837334638379746,
      "loss": 2.9474,
      "step": 766
    },
    {
      "epoch": 0.24854180168502915,
      "grad_norm": 0.39965134859085083,
      "learning_rate": 0.0008833967942656813,
      "loss": 3.0401,
      "step": 767
    },
    {
      "epoch": 0.24886584575502269,
      "grad_norm": 0.5095640420913696,
      "learning_rate": 0.0008830597022828452,
      "loss": 2.9513,
      "step": 768
    },
    {
      "epoch": 0.2491898898250162,
      "grad_norm": 0.4598627984523773,
      "learning_rate": 0.0008827221882608601,
      "loss": 3.0074,
      "step": 769
    },
    {
      "epoch": 0.24951393389500973,
      "grad_norm": 0.45971590280532837,
      "learning_rate": 0.0008823842525715848,
      "loss": 3.0088,
      "step": 770
    },
    {
      "epoch": 0.24983797796500323,
      "grad_norm": 0.43233492970466614,
      "learning_rate": 0.0008820458955873428,
      "loss": 2.999,
      "step": 771
    },
    {
      "epoch": 0.25016202203499677,
      "grad_norm": 0.6238967180252075,
      "learning_rate": 0.0008817071176809217,
      "loss": 2.8921,
      "step": 772
    },
    {
      "epoch": 0.2504860661049903,
      "grad_norm": 0.5004143118858337,
      "learning_rate": 0.0008813679192255726,
      "loss": 3.0323,
      "step": 773
    },
    {
      "epoch": 0.2508101101749838,
      "grad_norm": 0.5572375655174255,
      "learning_rate": 0.0008810283005950104,
      "loss": 2.96,
      "step": 774
    },
    {
      "epoch": 0.2511341542449773,
      "grad_norm": 0.45277443528175354,
      "learning_rate": 0.0008806882621634125,
      "loss": 2.9494,
      "step": 775
    },
    {
      "epoch": 0.25145819831497085,
      "grad_norm": 0.5451469421386719,
      "learning_rate": 0.0008803478043054192,
      "loss": 3.0112,
      "step": 776
    },
    {
      "epoch": 0.2517822423849643,
      "grad_norm": 0.4840828478336334,
      "learning_rate": 0.0008800069273961327,
      "loss": 3.0104,
      "step": 777
    },
    {
      "epoch": 0.25210628645495786,
      "grad_norm": 0.44442346692085266,
      "learning_rate": 0.0008796656318111167,
      "loss": 2.9397,
      "step": 778
    },
    {
      "epoch": 0.2524303305249514,
      "grad_norm": 0.7291169166564941,
      "learning_rate": 0.0008793239179263966,
      "loss": 2.9828,
      "step": 779
    },
    {
      "epoch": 0.25275437459494493,
      "grad_norm": 0.45991286635398865,
      "learning_rate": 0.0008789817861184582,
      "loss": 2.9469,
      "step": 780
    },
    {
      "epoch": 0.2530784186649384,
      "grad_norm": 0.4224260151386261,
      "learning_rate": 0.0008786392367642484,
      "loss": 2.9892,
      "step": 781
    },
    {
      "epoch": 0.25340246273493194,
      "grad_norm": 0.44583556056022644,
      "learning_rate": 0.0008782962702411734,
      "loss": 2.7973,
      "step": 782
    },
    {
      "epoch": 0.2537265068049255,
      "grad_norm": 0.43629276752471924,
      "learning_rate": 0.0008779528869270997,
      "loss": 2.9942,
      "step": 783
    },
    {
      "epoch": 0.254050550874919,
      "grad_norm": 0.44987228512763977,
      "learning_rate": 0.0008776090872003524,
      "loss": 2.9648,
      "step": 784
    },
    {
      "epoch": 0.2543745949449125,
      "grad_norm": 0.40985193848609924,
      "learning_rate": 0.0008772648714397155,
      "loss": 2.9075,
      "step": 785
    },
    {
      "epoch": 0.254698639014906,
      "grad_norm": 0.5258781909942627,
      "learning_rate": 0.0008769202400244321,
      "loss": 2.8576,
      "step": 786
    },
    {
      "epoch": 0.25502268308489956,
      "grad_norm": 0.5215770602226257,
      "learning_rate": 0.0008765751933342022,
      "loss": 3.0444,
      "step": 787
    },
    {
      "epoch": 0.25534672715489304,
      "grad_norm": 0.4475145936012268,
      "learning_rate": 0.0008762297317491837,
      "loss": 2.9505,
      "step": 788
    },
    {
      "epoch": 0.2556707712248866,
      "grad_norm": 0.6491826772689819,
      "learning_rate": 0.000875883855649992,
      "loss": 2.9695,
      "step": 789
    },
    {
      "epoch": 0.2559948152948801,
      "grad_norm": 0.5482989549636841,
      "learning_rate": 0.0008755375654176989,
      "loss": 2.8715,
      "step": 790
    },
    {
      "epoch": 0.25631885936487364,
      "grad_norm": 0.4635956287384033,
      "learning_rate": 0.0008751908614338324,
      "loss": 3.0139,
      "step": 791
    },
    {
      "epoch": 0.2566429034348671,
      "grad_norm": 0.5029188394546509,
      "learning_rate": 0.0008748437440803765,
      "loss": 3.0445,
      "step": 792
    },
    {
      "epoch": 0.25696694750486065,
      "grad_norm": 0.5244156122207642,
      "learning_rate": 0.0008744962137397705,
      "loss": 3.0117,
      "step": 793
    },
    {
      "epoch": 0.2572909915748542,
      "grad_norm": 0.45260903239250183,
      "learning_rate": 0.0008741482707949089,
      "loss": 3.0094,
      "step": 794
    },
    {
      "epoch": 0.2576150356448477,
      "grad_norm": 0.5492148995399475,
      "learning_rate": 0.0008737999156291405,
      "loss": 3.0275,
      "step": 795
    },
    {
      "epoch": 0.2579390797148412,
      "grad_norm": 0.4973776340484619,
      "learning_rate": 0.0008734511486262687,
      "loss": 2.965,
      "step": 796
    },
    {
      "epoch": 0.25826312378483474,
      "grad_norm": 0.44649094343185425,
      "learning_rate": 0.0008731019701705501,
      "loss": 2.9132,
      "step": 797
    },
    {
      "epoch": 0.25858716785482827,
      "grad_norm": 0.459626168012619,
      "learning_rate": 0.000872752380646695,
      "loss": 2.9037,
      "step": 798
    },
    {
      "epoch": 0.25891121192482175,
      "grad_norm": 0.4742859899997711,
      "learning_rate": 0.0008724023804398666,
      "loss": 2.977,
      "step": 799
    },
    {
      "epoch": 0.2592352559948153,
      "grad_norm": 0.46774810552597046,
      "learning_rate": 0.0008720519699356804,
      "loss": 2.93,
      "step": 800
    },
    {
      "epoch": 0.2595593000648088,
      "grad_norm": 0.564662516117096,
      "learning_rate": 0.0008717011495202041,
      "loss": 3.0243,
      "step": 801
    },
    {
      "epoch": 0.25988334413480235,
      "grad_norm": 0.48436102271080017,
      "learning_rate": 0.0008713499195799568,
      "loss": 2.934,
      "step": 802
    },
    {
      "epoch": 0.26020738820479583,
      "grad_norm": 0.5223540663719177,
      "learning_rate": 0.0008709982805019092,
      "loss": 2.9722,
      "step": 803
    },
    {
      "epoch": 0.26053143227478937,
      "grad_norm": 0.48689180612564087,
      "learning_rate": 0.0008706462326734824,
      "loss": 2.9261,
      "step": 804
    },
    {
      "epoch": 0.2608554763447829,
      "grad_norm": 0.507131040096283,
      "learning_rate": 0.0008702937764825478,
      "loss": 3.0106,
      "step": 805
    },
    {
      "epoch": 0.26117952041477643,
      "grad_norm": 0.48571300506591797,
      "learning_rate": 0.000869940912317427,
      "loss": 2.9042,
      "step": 806
    },
    {
      "epoch": 0.2615035644847699,
      "grad_norm": 0.4635864496231079,
      "learning_rate": 0.0008695876405668911,
      "loss": 2.9732,
      "step": 807
    },
    {
      "epoch": 0.26182760855476345,
      "grad_norm": 0.46268755197525024,
      "learning_rate": 0.0008692339616201599,
      "loss": 2.9554,
      "step": 808
    },
    {
      "epoch": 0.262151652624757,
      "grad_norm": 0.45904266834259033,
      "learning_rate": 0.0008688798758669024,
      "loss": 3.0058,
      "step": 809
    },
    {
      "epoch": 0.26247569669475046,
      "grad_norm": 0.48332154750823975,
      "learning_rate": 0.0008685253836972351,
      "loss": 3.0143,
      "step": 810
    },
    {
      "epoch": 0.262799740764744,
      "grad_norm": 0.4781302511692047,
      "learning_rate": 0.0008681704855017227,
      "loss": 3.0072,
      "step": 811
    },
    {
      "epoch": 0.26312378483473753,
      "grad_norm": 0.42025139927864075,
      "learning_rate": 0.0008678151816713775,
      "loss": 2.891,
      "step": 812
    },
    {
      "epoch": 0.26344782890473106,
      "grad_norm": 0.4836600422859192,
      "learning_rate": 0.0008674594725976578,
      "loss": 2.8946,
      "step": 813
    },
    {
      "epoch": 0.26377187297472454,
      "grad_norm": 0.5462077260017395,
      "learning_rate": 0.0008671033586724697,
      "loss": 2.8838,
      "step": 814
    },
    {
      "epoch": 0.2640959170447181,
      "grad_norm": 0.45835015177726746,
      "learning_rate": 0.0008667468402881642,
      "loss": 2.8952,
      "step": 815
    },
    {
      "epoch": 0.2644199611147116,
      "grad_norm": 0.3915843665599823,
      "learning_rate": 0.0008663899178375381,
      "loss": 2.9013,
      "step": 816
    },
    {
      "epoch": 0.26474400518470514,
      "grad_norm": 0.5407972931861877,
      "learning_rate": 0.000866032591713834,
      "loss": 2.9676,
      "step": 817
    },
    {
      "epoch": 0.2650680492546986,
      "grad_norm": 0.422521710395813,
      "learning_rate": 0.0008656748623107391,
      "loss": 2.8838,
      "step": 818
    },
    {
      "epoch": 0.26539209332469216,
      "grad_norm": 0.5803461074829102,
      "learning_rate": 0.0008653167300223841,
      "loss": 2.8223,
      "step": 819
    },
    {
      "epoch": 0.2657161373946857,
      "grad_norm": 0.4986616373062134,
      "learning_rate": 0.0008649581952433444,
      "loss": 3.0109,
      "step": 820
    },
    {
      "epoch": 0.26604018146467917,
      "grad_norm": 0.9276438355445862,
      "learning_rate": 0.0008645992583686386,
      "loss": 2.9305,
      "step": 821
    },
    {
      "epoch": 0.2663642255346727,
      "grad_norm": 0.954140305519104,
      "learning_rate": 0.0008642399197937285,
      "loss": 2.9331,
      "step": 822
    },
    {
      "epoch": 0.26668826960466624,
      "grad_norm": 0.4302385151386261,
      "learning_rate": 0.0008638801799145181,
      "loss": 2.8505,
      "step": 823
    },
    {
      "epoch": 0.2670123136746598,
      "grad_norm": 0.5982852578163147,
      "learning_rate": 0.0008635200391273538,
      "loss": 3.0986,
      "step": 824
    },
    {
      "epoch": 0.26733635774465325,
      "grad_norm": 0.5479122400283813,
      "learning_rate": 0.0008631594978290236,
      "loss": 2.954,
      "step": 825
    },
    {
      "epoch": 0.2676604018146468,
      "grad_norm": 0.752744197845459,
      "learning_rate": 0.000862798556416757,
      "loss": 3.0041,
      "step": 826
    },
    {
      "epoch": 0.2679844458846403,
      "grad_norm": 0.58635413646698,
      "learning_rate": 0.000862437215288224,
      "loss": 2.9574,
      "step": 827
    },
    {
      "epoch": 0.26830848995463386,
      "grad_norm": 0.484013170003891,
      "learning_rate": 0.000862075474841535,
      "loss": 3.0117,
      "step": 828
    },
    {
      "epoch": 0.26863253402462733,
      "grad_norm": 1.2985162734985352,
      "learning_rate": 0.0008617133354752407,
      "loss": 2.9257,
      "step": 829
    },
    {
      "epoch": 0.26895657809462087,
      "grad_norm": 1.5233877897262573,
      "learning_rate": 0.0008613507975883312,
      "loss": 3.0175,
      "step": 830
    },
    {
      "epoch": 0.2692806221646144,
      "grad_norm": 0.4608136713504791,
      "learning_rate": 0.0008609878615802352,
      "loss": 2.9194,
      "step": 831
    },
    {
      "epoch": 0.2696046662346079,
      "grad_norm": 0.8208690881729126,
      "learning_rate": 0.0008606245278508207,
      "loss": 2.9164,
      "step": 832
    },
    {
      "epoch": 0.2699287103046014,
      "grad_norm": 0.8328396081924438,
      "learning_rate": 0.0008602607968003935,
      "loss": 2.8995,
      "step": 833
    },
    {
      "epoch": 0.27025275437459495,
      "grad_norm": 0.6924007534980774,
      "learning_rate": 0.0008598966688296972,
      "loss": 2.9959,
      "step": 834
    },
    {
      "epoch": 0.2705767984445885,
      "grad_norm": 0.6282629370689392,
      "learning_rate": 0.0008595321443399129,
      "loss": 3.0381,
      "step": 835
    },
    {
      "epoch": 0.27090084251458196,
      "grad_norm": 0.4428105056285858,
      "learning_rate": 0.0008591672237326585,
      "loss": 2.9644,
      "step": 836
    },
    {
      "epoch": 0.2712248865845755,
      "grad_norm": 0.6797016859054565,
      "learning_rate": 0.0008588019074099877,
      "loss": 2.8732,
      "step": 837
    },
    {
      "epoch": 0.27154893065456903,
      "grad_norm": 0.6847906708717346,
      "learning_rate": 0.0008584361957743913,
      "loss": 2.91,
      "step": 838
    },
    {
      "epoch": 0.27187297472456257,
      "grad_norm": 0.6337642073631287,
      "learning_rate": 0.0008580700892287951,
      "loss": 2.9426,
      "step": 839
    },
    {
      "epoch": 0.27219701879455604,
      "grad_norm": 0.4619338810443878,
      "learning_rate": 0.0008577035881765596,
      "loss": 2.9209,
      "step": 840
    },
    {
      "epoch": 0.2725210628645496,
      "grad_norm": 3.778385639190674,
      "learning_rate": 0.0008573366930214806,
      "loss": 2.8812,
      "step": 841
    },
    {
      "epoch": 0.2728451069345431,
      "grad_norm": 0.4684751033782959,
      "learning_rate": 0.0008569694041677875,
      "loss": 2.8949,
      "step": 842
    },
    {
      "epoch": 0.2731691510045366,
      "grad_norm": 0.5081515908241272,
      "learning_rate": 0.0008566017220201443,
      "loss": 2.9652,
      "step": 843
    },
    {
      "epoch": 0.2734931950745301,
      "grad_norm": 0.5031687021255493,
      "learning_rate": 0.0008562336469836474,
      "loss": 2.9258,
      "step": 844
    },
    {
      "epoch": 0.27381723914452366,
      "grad_norm": 0.548436164855957,
      "learning_rate": 0.0008558651794638264,
      "loss": 2.952,
      "step": 845
    },
    {
      "epoch": 0.2741412832145172,
      "grad_norm": 0.4898343086242676,
      "learning_rate": 0.0008554963198666439,
      "loss": 2.9963,
      "step": 846
    },
    {
      "epoch": 0.2744653272845107,
      "grad_norm": 0.4979952275753021,
      "learning_rate": 0.0008551270685984934,
      "loss": 2.9364,
      "step": 847
    },
    {
      "epoch": 0.2747893713545042,
      "grad_norm": 0.5592736601829529,
      "learning_rate": 0.0008547574260662009,
      "loss": 2.9547,
      "step": 848
    },
    {
      "epoch": 0.27511341542449774,
      "grad_norm": 0.44102537631988525,
      "learning_rate": 0.0008543873926770228,
      "loss": 2.9319,
      "step": 849
    },
    {
      "epoch": 0.2754374594944913,
      "grad_norm": 0.4320867359638214,
      "learning_rate": 0.0008540169688386467,
      "loss": 3.0179,
      "step": 850
    },
    {
      "epoch": 0.27576150356448476,
      "grad_norm": 0.49131184816360474,
      "learning_rate": 0.0008536461549591896,
      "loss": 3.0445,
      "step": 851
    },
    {
      "epoch": 0.2760855476344783,
      "grad_norm": 0.5903840065002441,
      "learning_rate": 0.0008532749514471993,
      "loss": 2.9703,
      "step": 852
    },
    {
      "epoch": 0.2764095917044718,
      "grad_norm": 0.5268235802650452,
      "learning_rate": 0.0008529033587116519,
      "loss": 2.8959,
      "step": 853
    },
    {
      "epoch": 0.2767336357744653,
      "grad_norm": 0.5460528135299683,
      "learning_rate": 0.0008525313771619528,
      "loss": 2.9583,
      "step": 854
    },
    {
      "epoch": 0.27705767984445884,
      "grad_norm": 0.4149053692817688,
      "learning_rate": 0.0008521590072079359,
      "loss": 3.0172,
      "step": 855
    },
    {
      "epoch": 0.27738172391445237,
      "grad_norm": 0.43232131004333496,
      "learning_rate": 0.0008517862492598625,
      "loss": 2.9155,
      "step": 856
    },
    {
      "epoch": 0.2777057679844459,
      "grad_norm": 0.5659521222114563,
      "learning_rate": 0.0008514131037284219,
      "loss": 2.9351,
      "step": 857
    },
    {
      "epoch": 0.2780298120544394,
      "grad_norm": 0.7426273822784424,
      "learning_rate": 0.0008510395710247302,
      "loss": 2.9599,
      "step": 858
    },
    {
      "epoch": 0.2783538561244329,
      "grad_norm": 0.44302719831466675,
      "learning_rate": 0.0008506656515603301,
      "loss": 3.0388,
      "step": 859
    },
    {
      "epoch": 0.27867790019442645,
      "grad_norm": 0.5777451395988464,
      "learning_rate": 0.0008502913457471906,
      "loss": 2.96,
      "step": 860
    },
    {
      "epoch": 0.27900194426442,
      "grad_norm": 0.49127599596977234,
      "learning_rate": 0.0008499166539977057,
      "loss": 2.9756,
      "step": 861
    },
    {
      "epoch": 0.27932598833441347,
      "grad_norm": 0.5381969809532166,
      "learning_rate": 0.0008495415767246957,
      "loss": 2.8958,
      "step": 862
    },
    {
      "epoch": 0.279650032404407,
      "grad_norm": 0.9575703740119934,
      "learning_rate": 0.0008491661143414047,
      "loss": 2.9619,
      "step": 863
    },
    {
      "epoch": 0.27997407647440054,
      "grad_norm": 0.4150225818157196,
      "learning_rate": 0.0008487902672615013,
      "loss": 2.9522,
      "step": 864
    },
    {
      "epoch": 0.280298120544394,
      "grad_norm": 0.4176771342754364,
      "learning_rate": 0.0008484140358990783,
      "loss": 2.9001,
      "step": 865
    },
    {
      "epoch": 0.28062216461438755,
      "grad_norm": 0.4650857746601105,
      "learning_rate": 0.0008480374206686517,
      "loss": 2.9739,
      "step": 866
    },
    {
      "epoch": 0.2809462086843811,
      "grad_norm": 0.7608932852745056,
      "learning_rate": 0.0008476604219851602,
      "loss": 2.8992,
      "step": 867
    },
    {
      "epoch": 0.2812702527543746,
      "grad_norm": 0.42155808210372925,
      "learning_rate": 0.0008472830402639656,
      "loss": 2.8307,
      "step": 868
    },
    {
      "epoch": 0.2815942968243681,
      "grad_norm": 0.4638112783432007,
      "learning_rate": 0.0008469052759208506,
      "loss": 2.98,
      "step": 869
    },
    {
      "epoch": 0.28191834089436163,
      "grad_norm": 0.44731301069259644,
      "learning_rate": 0.0008465271293720209,
      "loss": 2.9821,
      "step": 870
    },
    {
      "epoch": 0.28224238496435516,
      "grad_norm": 0.5067585110664368,
      "learning_rate": 0.000846148601034102,
      "loss": 3.0385,
      "step": 871
    },
    {
      "epoch": 0.2825664290343487,
      "grad_norm": 0.4367380738258362,
      "learning_rate": 0.0008457696913241407,
      "loss": 2.9465,
      "step": 872
    },
    {
      "epoch": 0.2828904731043422,
      "grad_norm": 0.46911656856536865,
      "learning_rate": 0.000845390400659604,
      "loss": 2.9811,
      "step": 873
    },
    {
      "epoch": 0.2832145171743357,
      "grad_norm": 0.4960232377052307,
      "learning_rate": 0.0008450107294583785,
      "loss": 2.8306,
      "step": 874
    },
    {
      "epoch": 0.28353856124432925,
      "grad_norm": 0.45413002371788025,
      "learning_rate": 0.0008446306781387698,
      "loss": 2.9492,
      "step": 875
    },
    {
      "epoch": 0.2838626053143227,
      "grad_norm": 0.5416396856307983,
      "learning_rate": 0.0008442502471195027,
      "loss": 2.9065,
      "step": 876
    },
    {
      "epoch": 0.28418664938431626,
      "grad_norm": 0.4673082232475281,
      "learning_rate": 0.0008438694368197202,
      "loss": 2.9346,
      "step": 877
    },
    {
      "epoch": 0.2845106934543098,
      "grad_norm": 0.6270377039909363,
      "learning_rate": 0.000843488247658983,
      "loss": 2.9028,
      "step": 878
    },
    {
      "epoch": 0.2848347375243033,
      "grad_norm": 0.4816248118877411,
      "learning_rate": 0.0008431066800572695,
      "loss": 2.9415,
      "step": 879
    },
    {
      "epoch": 0.2851587815942968,
      "grad_norm": 0.6032370924949646,
      "learning_rate": 0.0008427247344349748,
      "loss": 2.8561,
      "step": 880
    },
    {
      "epoch": 0.28548282566429034,
      "grad_norm": 0.4414746165275574,
      "learning_rate": 0.000842342411212911,
      "loss": 2.9325,
      "step": 881
    },
    {
      "epoch": 0.2858068697342839,
      "grad_norm": 0.42691099643707275,
      "learning_rate": 0.0008419597108123054,
      "loss": 2.8439,
      "step": 882
    },
    {
      "epoch": 0.2861309138042774,
      "grad_norm": 0.412251740694046,
      "learning_rate": 0.0008415766336548012,
      "loss": 2.9175,
      "step": 883
    },
    {
      "epoch": 0.2864549578742709,
      "grad_norm": 0.4425293505191803,
      "learning_rate": 0.0008411931801624571,
      "loss": 3.0264,
      "step": 884
    },
    {
      "epoch": 0.2867790019442644,
      "grad_norm": 0.5040010213851929,
      "learning_rate": 0.0008408093507577461,
      "loss": 2.7945,
      "step": 885
    },
    {
      "epoch": 0.28710304601425796,
      "grad_norm": 0.4108430743217468,
      "learning_rate": 0.0008404251458635551,
      "loss": 2.909,
      "step": 886
    },
    {
      "epoch": 0.28742709008425144,
      "grad_norm": 0.46004918217658997,
      "learning_rate": 0.0008400405659031852,
      "loss": 2.898,
      "step": 887
    },
    {
      "epoch": 0.28775113415424497,
      "grad_norm": 0.42438334226608276,
      "learning_rate": 0.0008396556113003504,
      "loss": 2.8631,
      "step": 888
    },
    {
      "epoch": 0.2880751782242385,
      "grad_norm": 0.4547443687915802,
      "learning_rate": 0.0008392702824791778,
      "loss": 2.9872,
      "step": 889
    },
    {
      "epoch": 0.28839922229423204,
      "grad_norm": 0.5249334573745728,
      "learning_rate": 0.0008388845798642062,
      "loss": 2.941,
      "step": 890
    },
    {
      "epoch": 0.2887232663642255,
      "grad_norm": 0.42141053080558777,
      "learning_rate": 0.0008384985038803869,
      "loss": 2.9553,
      "step": 891
    },
    {
      "epoch": 0.28904731043421905,
      "grad_norm": 0.480530321598053,
      "learning_rate": 0.000838112054953082,
      "loss": 2.9536,
      "step": 892
    },
    {
      "epoch": 0.2893713545042126,
      "grad_norm": 0.462321400642395,
      "learning_rate": 0.000837725233508065,
      "loss": 2.9487,
      "step": 893
    },
    {
      "epoch": 0.28969539857420606,
      "grad_norm": 0.5738802552223206,
      "learning_rate": 0.0008373380399715196,
      "loss": 2.9236,
      "step": 894
    },
    {
      "epoch": 0.2900194426441996,
      "grad_norm": 0.4532470405101776,
      "learning_rate": 0.0008369504747700391,
      "loss": 2.9293,
      "step": 895
    },
    {
      "epoch": 0.29034348671419313,
      "grad_norm": 0.5369863510131836,
      "learning_rate": 0.0008365625383306269,
      "loss": 2.9689,
      "step": 896
    },
    {
      "epoch": 0.29066753078418667,
      "grad_norm": 0.4179966151714325,
      "learning_rate": 0.000836174231080695,
      "loss": 2.928,
      "step": 897
    },
    {
      "epoch": 0.29099157485418015,
      "grad_norm": 0.43611496686935425,
      "learning_rate": 0.0008357855534480643,
      "loss": 2.9276,
      "step": 898
    },
    {
      "epoch": 0.2913156189241737,
      "grad_norm": 0.4478805959224701,
      "learning_rate": 0.0008353965058609632,
      "loss": 3.019,
      "step": 899
    },
    {
      "epoch": 0.2916396629941672,
      "grad_norm": 0.6685365438461304,
      "learning_rate": 0.0008350070887480286,
      "loss": 2.8669,
      "step": 900
    },
    {
      "epoch": 0.29196370706416075,
      "grad_norm": 0.4906710982322693,
      "learning_rate": 0.0008346173025383033,
      "loss": 2.9559,
      "step": 901
    },
    {
      "epoch": 0.29228775113415423,
      "grad_norm": 0.6437849402427673,
      "learning_rate": 0.0008342271476612377,
      "loss": 2.9679,
      "step": 902
    },
    {
      "epoch": 0.29261179520414776,
      "grad_norm": 0.4597351551055908,
      "learning_rate": 0.0008338366245466884,
      "loss": 2.9062,
      "step": 903
    },
    {
      "epoch": 0.2929358392741413,
      "grad_norm": 0.4713588356971741,
      "learning_rate": 0.0008334457336249173,
      "loss": 2.9648,
      "step": 904
    },
    {
      "epoch": 0.2932598833441348,
      "grad_norm": 0.4534870982170105,
      "learning_rate": 0.0008330544753265913,
      "loss": 2.9082,
      "step": 905
    },
    {
      "epoch": 0.2935839274141283,
      "grad_norm": 0.5328115820884705,
      "learning_rate": 0.0008326628500827827,
      "loss": 2.9247,
      "step": 906
    },
    {
      "epoch": 0.29390797148412184,
      "grad_norm": 0.4660322666168213,
      "learning_rate": 0.0008322708583249678,
      "loss": 2.8668,
      "step": 907
    },
    {
      "epoch": 0.2942320155541154,
      "grad_norm": 0.46397268772125244,
      "learning_rate": 0.0008318785004850268,
      "loss": 2.9231,
      "step": 908
    },
    {
      "epoch": 0.29455605962410886,
      "grad_norm": 0.6261997818946838,
      "learning_rate": 0.0008314857769952429,
      "loss": 2.8962,
      "step": 909
    },
    {
      "epoch": 0.2948801036941024,
      "grad_norm": 0.7742219567298889,
      "learning_rate": 0.0008310926882883026,
      "loss": 2.9486,
      "step": 910
    },
    {
      "epoch": 0.2952041477640959,
      "grad_norm": 0.42084068059921265,
      "learning_rate": 0.0008306992347972946,
      "loss": 2.9125,
      "step": 911
    },
    {
      "epoch": 0.29552819183408946,
      "grad_norm": 0.44523996114730835,
      "learning_rate": 0.0008303054169557094,
      "loss": 2.9278,
      "step": 912
    },
    {
      "epoch": 0.29585223590408294,
      "grad_norm": 0.7338477969169617,
      "learning_rate": 0.0008299112351974389,
      "loss": 2.9147,
      "step": 913
    },
    {
      "epoch": 0.2961762799740765,
      "grad_norm": 0.6130903959274292,
      "learning_rate": 0.0008295166899567764,
      "loss": 2.9149,
      "step": 914
    },
    {
      "epoch": 0.29650032404407,
      "grad_norm": 0.4169814884662628,
      "learning_rate": 0.0008291217816684152,
      "loss": 2.8292,
      "step": 915
    },
    {
      "epoch": 0.2968243681140635,
      "grad_norm": 0.4677790701389313,
      "learning_rate": 0.0008287265107674484,
      "loss": 2.9089,
      "step": 916
    },
    {
      "epoch": 0.297148412184057,
      "grad_norm": 0.8507930040359497,
      "learning_rate": 0.0008283308776893692,
      "loss": 2.8513,
      "step": 917
    },
    {
      "epoch": 0.29747245625405055,
      "grad_norm": 0.5415507555007935,
      "learning_rate": 0.0008279348828700697,
      "loss": 2.8592,
      "step": 918
    },
    {
      "epoch": 0.2977965003240441,
      "grad_norm": 0.44202280044555664,
      "learning_rate": 0.0008275385267458404,
      "loss": 2.8797,
      "step": 919
    },
    {
      "epoch": 0.29812054439403757,
      "grad_norm": 0.45053279399871826,
      "learning_rate": 0.0008271418097533696,
      "loss": 2.9382,
      "step": 920
    },
    {
      "epoch": 0.2984445884640311,
      "grad_norm": 0.4754425585269928,
      "learning_rate": 0.0008267447323297436,
      "loss": 2.9696,
      "step": 921
    },
    {
      "epoch": 0.29876863253402464,
      "grad_norm": 0.4225156307220459,
      "learning_rate": 0.000826347294912446,
      "loss": 2.9098,
      "step": 922
    },
    {
      "epoch": 0.29909267660401817,
      "grad_norm": 0.4506381154060364,
      "learning_rate": 0.0008259494979393563,
      "loss": 2.8751,
      "step": 923
    },
    {
      "epoch": 0.29941672067401165,
      "grad_norm": 0.42093604803085327,
      "learning_rate": 0.0008255513418487507,
      "loss": 2.8779,
      "step": 924
    },
    {
      "epoch": 0.2997407647440052,
      "grad_norm": 0.6308032274246216,
      "learning_rate": 0.000825152827079301,
      "loss": 2.8981,
      "step": 925
    },
    {
      "epoch": 0.3000648088139987,
      "grad_norm": 0.7024354934692383,
      "learning_rate": 0.000824753954070074,
      "loss": 2.9215,
      "step": 926
    },
    {
      "epoch": 0.3003888528839922,
      "grad_norm": 0.45617660880088806,
      "learning_rate": 0.0008243547232605313,
      "loss": 2.8643,
      "step": 927
    },
    {
      "epoch": 0.30071289695398573,
      "grad_norm": 0.49902766942977905,
      "learning_rate": 0.0008239551350905287,
      "loss": 2.8957,
      "step": 928
    },
    {
      "epoch": 0.30103694102397927,
      "grad_norm": 0.488864541053772,
      "learning_rate": 0.0008235551900003158,
      "loss": 2.9206,
      "step": 929
    },
    {
      "epoch": 0.3013609850939728,
      "grad_norm": 0.5828654170036316,
      "learning_rate": 0.0008231548884305353,
      "loss": 2.8585,
      "step": 930
    },
    {
      "epoch": 0.3016850291639663,
      "grad_norm": 0.45825132727622986,
      "learning_rate": 0.0008227542308222227,
      "loss": 2.88,
      "step": 931
    },
    {
      "epoch": 0.3020090732339598,
      "grad_norm": 0.5249559879302979,
      "learning_rate": 0.0008223532176168058,
      "loss": 2.9178,
      "step": 932
    },
    {
      "epoch": 0.30233311730395335,
      "grad_norm": 0.7419329285621643,
      "learning_rate": 0.0008219518492561043,
      "loss": 2.9469,
      "step": 933
    },
    {
      "epoch": 0.3026571613739469,
      "grad_norm": 0.5374455451965332,
      "learning_rate": 0.0008215501261823288,
      "loss": 3.0552,
      "step": 934
    },
    {
      "epoch": 0.30298120544394036,
      "grad_norm": 0.4907034933567047,
      "learning_rate": 0.0008211480488380811,
      "loss": 2.976,
      "step": 935
    },
    {
      "epoch": 0.3033052495139339,
      "grad_norm": 0.503559947013855,
      "learning_rate": 0.0008207456176663533,
      "loss": 2.9241,
      "step": 936
    },
    {
      "epoch": 0.30362929358392743,
      "grad_norm": 0.5473859906196594,
      "learning_rate": 0.0008203428331105269,
      "loss": 2.8972,
      "step": 937
    },
    {
      "epoch": 0.3039533376539209,
      "grad_norm": 0.48261135816574097,
      "learning_rate": 0.0008199396956143735,
      "loss": 2.9764,
      "step": 938
    },
    {
      "epoch": 0.30427738172391444,
      "grad_norm": 0.6201879978179932,
      "learning_rate": 0.0008195362056220527,
      "loss": 2.9866,
      "step": 939
    },
    {
      "epoch": 0.304601425793908,
      "grad_norm": 0.4283351004123688,
      "learning_rate": 0.0008191323635781133,
      "loss": 2.9081,
      "step": 940
    },
    {
      "epoch": 0.3049254698639015,
      "grad_norm": 0.530892014503479,
      "learning_rate": 0.0008187281699274915,
      "loss": 2.9307,
      "step": 941
    },
    {
      "epoch": 0.305249513933895,
      "grad_norm": 0.8145029544830322,
      "learning_rate": 0.0008183236251155106,
      "loss": 2.9346,
      "step": 942
    },
    {
      "epoch": 0.3055735580038885,
      "grad_norm": 0.4333559572696686,
      "learning_rate": 0.0008179187295878813,
      "loss": 2.8912,
      "step": 943
    },
    {
      "epoch": 0.30589760207388206,
      "grad_norm": 0.4579077959060669,
      "learning_rate": 0.0008175134837907006,
      "loss": 2.8551,
      "step": 944
    },
    {
      "epoch": 0.3062216461438756,
      "grad_norm": 0.4108205735683441,
      "learning_rate": 0.0008171078881704514,
      "loss": 2.7981,
      "step": 945
    },
    {
      "epoch": 0.30654569021386907,
      "grad_norm": 0.4234685003757477,
      "learning_rate": 0.0008167019431740022,
      "loss": 2.9386,
      "step": 946
    },
    {
      "epoch": 0.3068697342838626,
      "grad_norm": 0.3962421417236328,
      "learning_rate": 0.0008162956492486056,
      "loss": 2.9265,
      "step": 947
    },
    {
      "epoch": 0.30719377835385614,
      "grad_norm": 0.4181899130344391,
      "learning_rate": 0.0008158890068418996,
      "loss": 2.8925,
      "step": 948
    },
    {
      "epoch": 0.3075178224238496,
      "grad_norm": 0.4004315733909607,
      "learning_rate": 0.0008154820164019058,
      "loss": 2.9366,
      "step": 949
    },
    {
      "epoch": 0.30784186649384315,
      "grad_norm": 0.393386572599411,
      "learning_rate": 0.0008150746783770294,
      "loss": 2.9072,
      "step": 950
    },
    {
      "epoch": 0.3081659105638367,
      "grad_norm": 0.481722354888916,
      "learning_rate": 0.0008146669932160581,
      "loss": 2.9274,
      "step": 951
    },
    {
      "epoch": 0.3084899546338302,
      "grad_norm": 0.7416056394577026,
      "learning_rate": 0.0008142589613681626,
      "loss": 2.9987,
      "step": 952
    },
    {
      "epoch": 0.3088139987038237,
      "grad_norm": 0.40763211250305176,
      "learning_rate": 0.0008138505832828949,
      "loss": 2.8751,
      "step": 953
    },
    {
      "epoch": 0.30913804277381723,
      "grad_norm": 0.5773755311965942,
      "learning_rate": 0.0008134418594101893,
      "loss": 2.8998,
      "step": 954
    },
    {
      "epoch": 0.30946208684381077,
      "grad_norm": 0.4669839143753052,
      "learning_rate": 0.0008130327902003604,
      "loss": 3.0144,
      "step": 955
    },
    {
      "epoch": 0.3097861309138043,
      "grad_norm": 0.3896619975566864,
      "learning_rate": 0.0008126233761041038,
      "loss": 2.9094,
      "step": 956
    },
    {
      "epoch": 0.3101101749837978,
      "grad_norm": 0.4453411400318146,
      "learning_rate": 0.0008122136175724946,
      "loss": 3.0465,
      "step": 957
    },
    {
      "epoch": 0.3104342190537913,
      "grad_norm": 0.6989121437072754,
      "learning_rate": 0.0008118035150569876,
      "loss": 3.047,
      "step": 958
    },
    {
      "epoch": 0.31075826312378485,
      "grad_norm": 0.7417621612548828,
      "learning_rate": 0.0008113930690094167,
      "loss": 2.8636,
      "step": 959
    },
    {
      "epoch": 0.31108230719377833,
      "grad_norm": 0.42239874601364136,
      "learning_rate": 0.0008109822798819941,
      "loss": 3.0328,
      "step": 960
    },
    {
      "epoch": 0.31140635126377186,
      "grad_norm": 0.47688108682632446,
      "learning_rate": 0.0008105711481273102,
      "loss": 2.9348,
      "step": 961
    },
    {
      "epoch": 0.3117303953337654,
      "grad_norm": 0.4054335951805115,
      "learning_rate": 0.0008101596741983323,
      "loss": 2.9175,
      "step": 962
    },
    {
      "epoch": 0.31205443940375893,
      "grad_norm": 0.497114360332489,
      "learning_rate": 0.000809747858548406,
      "loss": 2.846,
      "step": 963
    },
    {
      "epoch": 0.3123784834737524,
      "grad_norm": 0.4254857301712036,
      "learning_rate": 0.0008093357016312517,
      "loss": 2.893,
      "step": 964
    },
    {
      "epoch": 0.31270252754374595,
      "grad_norm": 0.40436863899230957,
      "learning_rate": 0.0008089232039009671,
      "loss": 2.9239,
      "step": 965
    },
    {
      "epoch": 0.3130265716137395,
      "grad_norm": 0.38531145453453064,
      "learning_rate": 0.000808510365812025,
      "loss": 2.9246,
      "step": 966
    },
    {
      "epoch": 0.313350615683733,
      "grad_norm": 0.5391175150871277,
      "learning_rate": 0.0008080971878192729,
      "loss": 2.9549,
      "step": 967
    },
    {
      "epoch": 0.3136746597537265,
      "grad_norm": 0.44540390372276306,
      "learning_rate": 0.000807683670377933,
      "loss": 2.8933,
      "step": 968
    },
    {
      "epoch": 0.31399870382372,
      "grad_norm": 0.5872301459312439,
      "learning_rate": 0.0008072698139436016,
      "loss": 2.9511,
      "step": 969
    },
    {
      "epoch": 0.31432274789371356,
      "grad_norm": 0.4221389889717102,
      "learning_rate": 0.0008068556189722484,
      "loss": 2.8761,
      "step": 970
    },
    {
      "epoch": 0.31464679196370704,
      "grad_norm": 0.47473183274269104,
      "learning_rate": 0.0008064410859202162,
      "loss": 2.8928,
      "step": 971
    },
    {
      "epoch": 0.3149708360337006,
      "grad_norm": 0.4119082987308502,
      "learning_rate": 0.0008060262152442201,
      "loss": 2.8285,
      "step": 972
    },
    {
      "epoch": 0.3152948801036941,
      "grad_norm": 0.4127940833568573,
      "learning_rate": 0.0008056110074013469,
      "loss": 2.8906,
      "step": 973
    },
    {
      "epoch": 0.31561892417368764,
      "grad_norm": 0.41823554039001465,
      "learning_rate": 0.0008051954628490558,
      "loss": 2.9574,
      "step": 974
    },
    {
      "epoch": 0.3159429682436811,
      "grad_norm": 0.44374343752861023,
      "learning_rate": 0.000804779582045176,
      "loss": 2.8923,
      "step": 975
    },
    {
      "epoch": 0.31626701231367466,
      "grad_norm": 0.5884596109390259,
      "learning_rate": 0.0008043633654479078,
      "loss": 2.8982,
      "step": 976
    },
    {
      "epoch": 0.3165910563836682,
      "grad_norm": 0.44052091240882874,
      "learning_rate": 0.000803946813515821,
      "loss": 2.9002,
      "step": 977
    },
    {
      "epoch": 0.3169151004536617,
      "grad_norm": 0.513850212097168,
      "learning_rate": 0.0008035299267078553,
      "loss": 2.8956,
      "step": 978
    },
    {
      "epoch": 0.3172391445236552,
      "grad_norm": 0.38101330399513245,
      "learning_rate": 0.000803112705483319,
      "loss": 2.9337,
      "step": 979
    },
    {
      "epoch": 0.31756318859364874,
      "grad_norm": 0.5929476618766785,
      "learning_rate": 0.0008026951503018891,
      "loss": 2.8616,
      "step": 980
    },
    {
      "epoch": 0.31788723266364227,
      "grad_norm": 0.5446200370788574,
      "learning_rate": 0.0008022772616236103,
      "loss": 2.8911,
      "step": 981
    },
    {
      "epoch": 0.31821127673363575,
      "grad_norm": 0.4076486825942993,
      "learning_rate": 0.000801859039908895,
      "loss": 2.8334,
      "step": 982
    },
    {
      "epoch": 0.3185353208036293,
      "grad_norm": 0.48396944999694824,
      "learning_rate": 0.0008014404856185221,
      "loss": 2.889,
      "step": 983
    },
    {
      "epoch": 0.3188593648736228,
      "grad_norm": 0.4357632100582123,
      "learning_rate": 0.0008010215992136373,
      "loss": 2.8186,
      "step": 984
    },
    {
      "epoch": 0.31918340894361635,
      "grad_norm": 0.5015602707862854,
      "learning_rate": 0.0008006023811557526,
      "loss": 2.9286,
      "step": 985
    },
    {
      "epoch": 0.31950745301360983,
      "grad_norm": 0.43088236451148987,
      "learning_rate": 0.0008001828319067443,
      "loss": 2.8589,
      "step": 986
    },
    {
      "epoch": 0.31983149708360337,
      "grad_norm": 0.4791787564754486,
      "learning_rate": 0.0007997629519288545,
      "loss": 2.9802,
      "step": 987
    },
    {
      "epoch": 0.3201555411535969,
      "grad_norm": 0.4482632279396057,
      "learning_rate": 0.0007993427416846891,
      "loss": 2.9846,
      "step": 988
    },
    {
      "epoch": 0.32047958522359044,
      "grad_norm": 0.486909955739975,
      "learning_rate": 0.0007989222016372185,
      "loss": 2.8945,
      "step": 989
    },
    {
      "epoch": 0.3208036292935839,
      "grad_norm": 0.4212900698184967,
      "learning_rate": 0.000798501332249776,
      "loss": 2.9035,
      "step": 990
    },
    {
      "epoch": 0.32112767336357745,
      "grad_norm": 0.39533349871635437,
      "learning_rate": 0.000798080133986058,
      "loss": 2.7946,
      "step": 991
    },
    {
      "epoch": 0.321451717433571,
      "grad_norm": 0.6709735989570618,
      "learning_rate": 0.0007976586073101228,
      "loss": 2.9902,
      "step": 992
    },
    {
      "epoch": 0.32177576150356446,
      "grad_norm": 0.474837064743042,
      "learning_rate": 0.0007972367526863911,
      "loss": 2.8228,
      "step": 993
    },
    {
      "epoch": 0.322099805573558,
      "grad_norm": 0.38506966829299927,
      "learning_rate": 0.0007968145705796446,
      "loss": 2.8083,
      "step": 994
    },
    {
      "epoch": 0.32242384964355153,
      "grad_norm": 0.42786991596221924,
      "learning_rate": 0.000796392061455026,
      "loss": 2.9588,
      "step": 995
    },
    {
      "epoch": 0.32274789371354506,
      "grad_norm": 0.4701892137527466,
      "learning_rate": 0.0007959692257780379,
      "loss": 2.8839,
      "step": 996
    },
    {
      "epoch": 0.32307193778353854,
      "grad_norm": 0.4461943805217743,
      "learning_rate": 0.0007955460640145432,
      "loss": 2.9422,
      "step": 997
    },
    {
      "epoch": 0.3233959818535321,
      "grad_norm": 0.4208509624004364,
      "learning_rate": 0.0007951225766307637,
      "loss": 2.7744,
      "step": 998
    },
    {
      "epoch": 0.3237200259235256,
      "grad_norm": 0.4559631645679474,
      "learning_rate": 0.0007946987640932801,
      "loss": 2.9013,
      "step": 999
    },
    {
      "epoch": 0.32404406999351915,
      "grad_norm": 0.5567891001701355,
      "learning_rate": 0.0007942746268690314,
      "loss": 3.0088,
      "step": 1000
    },
    {
      "epoch": 0.3243681140635126,
      "grad_norm": 0.4251057803630829,
      "learning_rate": 0.0007938501654253141,
      "loss": 2.8635,
      "step": 1001
    },
    {
      "epoch": 0.32469215813350616,
      "grad_norm": 0.41639864444732666,
      "learning_rate": 0.0007934253802297822,
      "loss": 2.9104,
      "step": 1002
    },
    {
      "epoch": 0.3250162022034997,
      "grad_norm": 0.5044400095939636,
      "learning_rate": 0.0007930002717504461,
      "loss": 2.8558,
      "step": 1003
    },
    {
      "epoch": 0.32534024627349317,
      "grad_norm": 0.5017279982566833,
      "learning_rate": 0.0007925748404556727,
      "loss": 3.0133,
      "step": 1004
    },
    {
      "epoch": 0.3256642903434867,
      "grad_norm": 0.42587602138519287,
      "learning_rate": 0.0007921490868141843,
      "loss": 2.8766,
      "step": 1005
    },
    {
      "epoch": 0.32598833441348024,
      "grad_norm": 0.4543831944465637,
      "learning_rate": 0.0007917230112950585,
      "loss": 2.9701,
      "step": 1006
    },
    {
      "epoch": 0.3263123784834738,
      "grad_norm": 0.7967644929885864,
      "learning_rate": 0.0007912966143677272,
      "loss": 2.9238,
      "step": 1007
    },
    {
      "epoch": 0.32663642255346725,
      "grad_norm": 0.6270556449890137,
      "learning_rate": 0.0007908698965019772,
      "loss": 2.9041,
      "step": 1008
    },
    {
      "epoch": 0.3269604666234608,
      "grad_norm": 0.44712385535240173,
      "learning_rate": 0.0007904428581679479,
      "loss": 2.7589,
      "step": 1009
    },
    {
      "epoch": 0.3272845106934543,
      "grad_norm": 0.447749525308609,
      "learning_rate": 0.0007900154998361324,
      "loss": 2.9107,
      "step": 1010
    },
    {
      "epoch": 0.3276085547634478,
      "grad_norm": 0.5665360689163208,
      "learning_rate": 0.0007895878219773765,
      "loss": 2.9349,
      "step": 1011
    },
    {
      "epoch": 0.32793259883344134,
      "grad_norm": 0.6349416375160217,
      "learning_rate": 0.0007891598250628775,
      "loss": 2.8952,
      "step": 1012
    },
    {
      "epoch": 0.32825664290343487,
      "grad_norm": 0.6955512166023254,
      "learning_rate": 0.0007887315095641844,
      "loss": 2.8918,
      "step": 1013
    },
    {
      "epoch": 0.3285806869734284,
      "grad_norm": 0.49117082357406616,
      "learning_rate": 0.0007883028759531977,
      "loss": 2.927,
      "step": 1014
    },
    {
      "epoch": 0.3289047310434219,
      "grad_norm": 0.49387240409851074,
      "learning_rate": 0.0007878739247021676,
      "loss": 2.9076,
      "step": 1015
    },
    {
      "epoch": 0.3292287751134154,
      "grad_norm": 0.5204888582229614,
      "learning_rate": 0.0007874446562836948,
      "loss": 2.8807,
      "step": 1016
    },
    {
      "epoch": 0.32955281918340895,
      "grad_norm": 0.39843881130218506,
      "learning_rate": 0.0007870150711707291,
      "loss": 2.926,
      "step": 1017
    },
    {
      "epoch": 0.3298768632534025,
      "grad_norm": 0.4118454158306122,
      "learning_rate": 0.0007865851698365696,
      "loss": 2.8703,
      "step": 1018
    },
    {
      "epoch": 0.33020090732339596,
      "grad_norm": 0.5007355809211731,
      "learning_rate": 0.0007861549527548636,
      "loss": 2.861,
      "step": 1019
    },
    {
      "epoch": 0.3305249513933895,
      "grad_norm": 0.4503045082092285,
      "learning_rate": 0.0007857244203996061,
      "loss": 2.8961,
      "step": 1020
    },
    {
      "epoch": 0.33084899546338303,
      "grad_norm": 0.4305480420589447,
      "learning_rate": 0.0007852935732451398,
      "loss": 2.8466,
      "step": 1021
    },
    {
      "epoch": 0.3311730395333765,
      "grad_norm": 0.39805591106414795,
      "learning_rate": 0.000784862411766154,
      "loss": 2.8848,
      "step": 1022
    },
    {
      "epoch": 0.33149708360337005,
      "grad_norm": 0.7761607766151428,
      "learning_rate": 0.0007844309364376844,
      "loss": 2.854,
      "step": 1023
    },
    {
      "epoch": 0.3318211276733636,
      "grad_norm": 0.3814657926559448,
      "learning_rate": 0.0007839991477351123,
      "loss": 2.8217,
      "step": 1024
    },
    {
      "epoch": 0.3321451717433571,
      "grad_norm": 0.43491458892822266,
      "learning_rate": 0.0007835670461341646,
      "loss": 2.8861,
      "step": 1025
    },
    {
      "epoch": 0.3324692158133506,
      "grad_norm": 0.4234544038772583,
      "learning_rate": 0.0007831346321109128,
      "loss": 2.9133,
      "step": 1026
    },
    {
      "epoch": 0.33279325988334413,
      "grad_norm": 0.4466952681541443,
      "learning_rate": 0.0007827019061417724,
      "loss": 2.8313,
      "step": 1027
    },
    {
      "epoch": 0.33311730395333766,
      "grad_norm": 0.4011958837509155,
      "learning_rate": 0.000782268868703503,
      "loss": 2.8559,
      "step": 1028
    },
    {
      "epoch": 0.3334413480233312,
      "grad_norm": 0.4266081750392914,
      "learning_rate": 0.0007818355202732068,
      "loss": 2.9564,
      "step": 1029
    },
    {
      "epoch": 0.3337653920933247,
      "grad_norm": 0.4003598093986511,
      "learning_rate": 0.0007814018613283293,
      "loss": 2.8743,
      "step": 1030
    },
    {
      "epoch": 0.3340894361633182,
      "grad_norm": 0.4211646318435669,
      "learning_rate": 0.0007809678923466575,
      "loss": 2.9187,
      "step": 1031
    },
    {
      "epoch": 0.33441348023331174,
      "grad_norm": 0.4837856590747833,
      "learning_rate": 0.0007805336138063204,
      "loss": 2.9343,
      "step": 1032
    },
    {
      "epoch": 0.3347375243033052,
      "grad_norm": 0.3983914256095886,
      "learning_rate": 0.0007800990261857879,
      "loss": 2.7938,
      "step": 1033
    },
    {
      "epoch": 0.33506156837329876,
      "grad_norm": 0.6422616243362427,
      "learning_rate": 0.0007796641299638706,
      "loss": 2.9793,
      "step": 1034
    },
    {
      "epoch": 0.3353856124432923,
      "grad_norm": 0.4525735676288605,
      "learning_rate": 0.0007792289256197186,
      "loss": 2.9589,
      "step": 1035
    },
    {
      "epoch": 0.3357096565132858,
      "grad_norm": 0.4208656847476959,
      "learning_rate": 0.0007787934136328223,
      "loss": 2.8414,
      "step": 1036
    },
    {
      "epoch": 0.3360337005832793,
      "grad_norm": 0.5215526223182678,
      "learning_rate": 0.0007783575944830102,
      "loss": 2.8577,
      "step": 1037
    },
    {
      "epoch": 0.33635774465327284,
      "grad_norm": 0.5410952568054199,
      "learning_rate": 0.0007779214686504497,
      "loss": 2.9872,
      "step": 1038
    },
    {
      "epoch": 0.3366817887232664,
      "grad_norm": 0.47792840003967285,
      "learning_rate": 0.000777485036615646,
      "loss": 2.8944,
      "step": 1039
    },
    {
      "epoch": 0.3370058327932599,
      "grad_norm": 0.5822142362594604,
      "learning_rate": 0.0007770482988594419,
      "loss": 2.9156,
      "step": 1040
    },
    {
      "epoch": 0.3373298768632534,
      "grad_norm": 0.44218024611473083,
      "learning_rate": 0.0007766112558630163,
      "loss": 2.7814,
      "step": 1041
    },
    {
      "epoch": 0.3376539209332469,
      "grad_norm": 0.811365008354187,
      "learning_rate": 0.0007761739081078851,
      "loss": 2.9989,
      "step": 1042
    },
    {
      "epoch": 0.33797796500324045,
      "grad_norm": 0.4223170876502991,
      "learning_rate": 0.0007757362560758999,
      "loss": 2.9123,
      "step": 1043
    },
    {
      "epoch": 0.33830200907323393,
      "grad_norm": 0.4498676359653473,
      "learning_rate": 0.0007752983002492473,
      "loss": 2.7889,
      "step": 1044
    },
    {
      "epoch": 0.33862605314322747,
      "grad_norm": 0.4387967586517334,
      "learning_rate": 0.0007748600411104487,
      "loss": 2.9167,
      "step": 1045
    },
    {
      "epoch": 0.338950097213221,
      "grad_norm": 0.48925256729125977,
      "learning_rate": 0.0007744214791423596,
      "loss": 2.8255,
      "step": 1046
    },
    {
      "epoch": 0.33927414128321454,
      "grad_norm": 0.4969191551208496,
      "learning_rate": 0.0007739826148281694,
      "loss": 3.0013,
      "step": 1047
    },
    {
      "epoch": 0.339598185353208,
      "grad_norm": 0.39898931980133057,
      "learning_rate": 0.0007735434486514001,
      "loss": 2.9011,
      "step": 1048
    },
    {
      "epoch": 0.33992222942320155,
      "grad_norm": 0.399294912815094,
      "learning_rate": 0.0007731039810959071,
      "loss": 2.8311,
      "step": 1049
    },
    {
      "epoch": 0.3402462734931951,
      "grad_norm": 0.9015631675720215,
      "learning_rate": 0.000772664212645877,
      "loss": 2.8998,
      "step": 1050
    },
    {
      "epoch": 0.3405703175631886,
      "grad_norm": 0.5489462018013,
      "learning_rate": 0.0007722241437858284,
      "loss": 2.8296,
      "step": 1051
    },
    {
      "epoch": 0.3408943616331821,
      "grad_norm": 0.43924078345298767,
      "learning_rate": 0.0007717837750006106,
      "loss": 2.8358,
      "step": 1052
    },
    {
      "epoch": 0.34121840570317563,
      "grad_norm": 1.0640394687652588,
      "learning_rate": 0.0007713431067754038,
      "loss": 2.9002,
      "step": 1053
    },
    {
      "epoch": 0.34154244977316917,
      "grad_norm": 0.3915049433708191,
      "learning_rate": 0.0007709021395957174,
      "loss": 2.8479,
      "step": 1054
    },
    {
      "epoch": 0.34186649384316264,
      "grad_norm": 0.4521101117134094,
      "learning_rate": 0.000770460873947391,
      "loss": 2.869,
      "step": 1055
    },
    {
      "epoch": 0.3421905379131562,
      "grad_norm": 0.41072508692741394,
      "learning_rate": 0.0007700193103165923,
      "loss": 2.8396,
      "step": 1056
    },
    {
      "epoch": 0.3425145819831497,
      "grad_norm": 0.38669049739837646,
      "learning_rate": 0.000769577449189818,
      "loss": 2.8147,
      "step": 1057
    },
    {
      "epoch": 0.34283862605314325,
      "grad_norm": 0.43698760867118835,
      "learning_rate": 0.0007691352910538918,
      "loss": 2.8997,
      "step": 1058
    },
    {
      "epoch": 0.3431626701231367,
      "grad_norm": 0.43615958094596863,
      "learning_rate": 0.0007686928363959651,
      "loss": 2.842,
      "step": 1059
    },
    {
      "epoch": 0.34348671419313026,
      "grad_norm": 0.5027230381965637,
      "learning_rate": 0.0007682500857035162,
      "loss": 2.9064,
      "step": 1060
    },
    {
      "epoch": 0.3438107582631238,
      "grad_norm": 0.443780779838562,
      "learning_rate": 0.000767807039464349,
      "loss": 2.9479,
      "step": 1061
    },
    {
      "epoch": 0.34413480233311733,
      "grad_norm": 0.45876583456993103,
      "learning_rate": 0.0007673636981665935,
      "loss": 2.8975,
      "step": 1062
    },
    {
      "epoch": 0.3444588464031108,
      "grad_norm": 0.4261254668235779,
      "learning_rate": 0.0007669200622987044,
      "loss": 2.9295,
      "step": 1063
    },
    {
      "epoch": 0.34478289047310434,
      "grad_norm": 0.5182418823242188,
      "learning_rate": 0.0007664761323494613,
      "loss": 2.8656,
      "step": 1064
    },
    {
      "epoch": 0.3451069345430979,
      "grad_norm": 0.43707790970802307,
      "learning_rate": 0.0007660319088079675,
      "loss": 2.79,
      "step": 1065
    },
    {
      "epoch": 0.34543097861309136,
      "grad_norm": 0.4523739218711853,
      "learning_rate": 0.00076558739216365,
      "loss": 2.874,
      "step": 1066
    },
    {
      "epoch": 0.3457550226830849,
      "grad_norm": 0.38625916838645935,
      "learning_rate": 0.0007651425829062589,
      "loss": 2.8113,
      "step": 1067
    },
    {
      "epoch": 0.3460790667530784,
      "grad_norm": 0.44100722670555115,
      "learning_rate": 0.0007646974815258658,
      "loss": 2.8846,
      "step": 1068
    },
    {
      "epoch": 0.34640311082307196,
      "grad_norm": 0.415934294462204,
      "learning_rate": 0.0007642520885128652,
      "loss": 3.0021,
      "step": 1069
    },
    {
      "epoch": 0.34672715489306544,
      "grad_norm": 0.5736855864524841,
      "learning_rate": 0.0007638064043579722,
      "loss": 2.8739,
      "step": 1070
    },
    {
      "epoch": 0.34705119896305897,
      "grad_norm": 0.4312398433685303,
      "learning_rate": 0.0007633604295522234,
      "loss": 2.8383,
      "step": 1071
    },
    {
      "epoch": 0.3473752430330525,
      "grad_norm": 0.48470303416252136,
      "learning_rate": 0.0007629141645869751,
      "loss": 2.8817,
      "step": 1072
    },
    {
      "epoch": 0.34769928710304604,
      "grad_norm": 0.42621999979019165,
      "learning_rate": 0.0007624676099539028,
      "loss": 2.8664,
      "step": 1073
    },
    {
      "epoch": 0.3480233311730395,
      "grad_norm": 0.39595821499824524,
      "learning_rate": 0.0007620207661450021,
      "loss": 2.8236,
      "step": 1074
    },
    {
      "epoch": 0.34834737524303305,
      "grad_norm": 0.5003122091293335,
      "learning_rate": 0.0007615736336525871,
      "loss": 2.8836,
      "step": 1075
    },
    {
      "epoch": 0.3486714193130266,
      "grad_norm": 0.48790135979652405,
      "learning_rate": 0.0007611262129692892,
      "loss": 2.848,
      "step": 1076
    },
    {
      "epoch": 0.34899546338302007,
      "grad_norm": 0.4304350018501282,
      "learning_rate": 0.0007606785045880577,
      "loss": 2.8976,
      "step": 1077
    },
    {
      "epoch": 0.3493195074530136,
      "grad_norm": 0.4680509865283966,
      "learning_rate": 0.0007602305090021596,
      "loss": 2.8274,
      "step": 1078
    },
    {
      "epoch": 0.34964355152300713,
      "grad_norm": 0.5006533265113831,
      "learning_rate": 0.0007597822267051773,
      "loss": 2.8508,
      "step": 1079
    },
    {
      "epoch": 0.34996759559300067,
      "grad_norm": 0.4506394565105438,
      "learning_rate": 0.0007593336581910093,
      "loss": 2.888,
      "step": 1080
    },
    {
      "epoch": 0.35029163966299415,
      "grad_norm": 0.4780619144439697,
      "learning_rate": 0.0007588848039538698,
      "loss": 2.8433,
      "step": 1081
    },
    {
      "epoch": 0.3506156837329877,
      "grad_norm": 0.48745590448379517,
      "learning_rate": 0.0007584356644882875,
      "loss": 2.9915,
      "step": 1082
    },
    {
      "epoch": 0.3509397278029812,
      "grad_norm": 0.47948724031448364,
      "learning_rate": 0.0007579862402891058,
      "loss": 2.8594,
      "step": 1083
    },
    {
      "epoch": 0.35126377187297475,
      "grad_norm": 0.4733225703239441,
      "learning_rate": 0.0007575365318514811,
      "loss": 2.9202,
      "step": 1084
    },
    {
      "epoch": 0.35158781594296823,
      "grad_norm": 0.40515393018722534,
      "learning_rate": 0.0007570865396708835,
      "loss": 2.9861,
      "step": 1085
    },
    {
      "epoch": 0.35191186001296176,
      "grad_norm": 0.4108787178993225,
      "learning_rate": 0.0007566362642430955,
      "loss": 2.7988,
      "step": 1086
    },
    {
      "epoch": 0.3522359040829553,
      "grad_norm": 0.5800433158874512,
      "learning_rate": 0.0007561857060642119,
      "loss": 2.8336,
      "step": 1087
    },
    {
      "epoch": 0.3525599481529488,
      "grad_norm": 0.5543172955513,
      "learning_rate": 0.0007557348656306384,
      "loss": 2.8816,
      "step": 1088
    },
    {
      "epoch": 0.3528839922229423,
      "grad_norm": 0.41699978709220886,
      "learning_rate": 0.0007552837434390927,
      "loss": 2.902,
      "step": 1089
    },
    {
      "epoch": 0.35320803629293585,
      "grad_norm": 0.4598006010055542,
      "learning_rate": 0.0007548323399866019,
      "loss": 2.9254,
      "step": 1090
    },
    {
      "epoch": 0.3535320803629294,
      "grad_norm": 0.42088866233825684,
      "learning_rate": 0.0007543806557705039,
      "loss": 2.8771,
      "step": 1091
    },
    {
      "epoch": 0.35385612443292286,
      "grad_norm": 0.4450724720954895,
      "learning_rate": 0.0007539286912884447,
      "loss": 2.8241,
      "step": 1092
    },
    {
      "epoch": 0.3541801685029164,
      "grad_norm": 0.42673569917678833,
      "learning_rate": 0.0007534764470383808,
      "loss": 2.8632,
      "step": 1093
    },
    {
      "epoch": 0.3545042125729099,
      "grad_norm": 0.43917274475097656,
      "learning_rate": 0.0007530239235185753,
      "loss": 2.8595,
      "step": 1094
    },
    {
      "epoch": 0.35482825664290346,
      "grad_norm": 0.4275217652320862,
      "learning_rate": 0.0007525711212275998,
      "loss": 2.9007,
      "step": 1095
    },
    {
      "epoch": 0.35515230071289694,
      "grad_norm": 0.6176127195358276,
      "learning_rate": 0.0007521180406643331,
      "loss": 2.8559,
      "step": 1096
    },
    {
      "epoch": 0.3554763447828905,
      "grad_norm": 0.49483707547187805,
      "learning_rate": 0.0007516646823279603,
      "loss": 2.9356,
      "step": 1097
    },
    {
      "epoch": 0.355800388852884,
      "grad_norm": 0.44801053404808044,
      "learning_rate": 0.0007512110467179727,
      "loss": 2.9956,
      "step": 1098
    },
    {
      "epoch": 0.3561244329228775,
      "grad_norm": 0.41894710063934326,
      "learning_rate": 0.0007507571343341668,
      "loss": 2.9693,
      "step": 1099
    },
    {
      "epoch": 0.356448476992871,
      "grad_norm": 0.42005759477615356,
      "learning_rate": 0.0007503029456766446,
      "loss": 2.906,
      "step": 1100
    },
    {
      "epoch": 0.35677252106286456,
      "grad_norm": 0.43773022294044495,
      "learning_rate": 0.000749848481245812,
      "loss": 2.977,
      "step": 1101
    },
    {
      "epoch": 0.3570965651328581,
      "grad_norm": 0.40096962451934814,
      "learning_rate": 0.0007493937415423789,
      "loss": 2.9302,
      "step": 1102
    },
    {
      "epoch": 0.35742060920285157,
      "grad_norm": 0.47197026014328003,
      "learning_rate": 0.0007489387270673584,
      "loss": 2.9234,
      "step": 1103
    },
    {
      "epoch": 0.3577446532728451,
      "grad_norm": 0.4014572501182556,
      "learning_rate": 0.0007484834383220665,
      "loss": 2.9345,
      "step": 1104
    },
    {
      "epoch": 0.35806869734283864,
      "grad_norm": 0.5184522867202759,
      "learning_rate": 0.0007480278758081213,
      "loss": 2.833,
      "step": 1105
    },
    {
      "epoch": 0.35839274141283217,
      "grad_norm": 0.4745158553123474,
      "learning_rate": 0.0007475720400274424,
      "loss": 2.857,
      "step": 1106
    },
    {
      "epoch": 0.35871678548282565,
      "grad_norm": 0.4263705909252167,
      "learning_rate": 0.0007471159314822506,
      "loss": 2.8909,
      "step": 1107
    },
    {
      "epoch": 0.3590408295528192,
      "grad_norm": 0.401543527841568,
      "learning_rate": 0.0007466595506750674,
      "loss": 2.9261,
      "step": 1108
    },
    {
      "epoch": 0.3593648736228127,
      "grad_norm": 0.45762109756469727,
      "learning_rate": 0.0007462028981087139,
      "loss": 2.8508,
      "step": 1109
    },
    {
      "epoch": 0.3596889176928062,
      "grad_norm": 0.4015021324157715,
      "learning_rate": 0.0007457459742863108,
      "loss": 2.8946,
      "step": 1110
    },
    {
      "epoch": 0.36001296176279973,
      "grad_norm": 0.3970409333705902,
      "learning_rate": 0.0007452887797112776,
      "loss": 2.86,
      "step": 1111
    },
    {
      "epoch": 0.36033700583279327,
      "grad_norm": 0.45707863569259644,
      "learning_rate": 0.0007448313148873325,
      "loss": 2.8859,
      "step": 1112
    },
    {
      "epoch": 0.3606610499027868,
      "grad_norm": 0.42206189036369324,
      "learning_rate": 0.0007443735803184905,
      "loss": 2.8846,
      "step": 1113
    },
    {
      "epoch": 0.3609850939727803,
      "grad_norm": 0.6429367065429688,
      "learning_rate": 0.0007439155765090648,
      "loss": 2.8459,
      "step": 1114
    },
    {
      "epoch": 0.3613091380427738,
      "grad_norm": 0.5292415022850037,
      "learning_rate": 0.0007434573039636649,
      "loss": 2.9045,
      "step": 1115
    },
    {
      "epoch": 0.36163318211276735,
      "grad_norm": 0.4476701021194458,
      "learning_rate": 0.000742998763187196,
      "loss": 2.8849,
      "step": 1116
    },
    {
      "epoch": 0.3619572261827609,
      "grad_norm": 0.5920044779777527,
      "learning_rate": 0.0007425399546848593,
      "loss": 2.9271,
      "step": 1117
    },
    {
      "epoch": 0.36228127025275436,
      "grad_norm": 0.46655794978141785,
      "learning_rate": 0.0007420808789621507,
      "loss": 2.8802,
      "step": 1118
    },
    {
      "epoch": 0.3626053143227479,
      "grad_norm": 0.42259857058525085,
      "learning_rate": 0.0007416215365248608,
      "loss": 2.9433,
      "step": 1119
    },
    {
      "epoch": 0.36292935839274143,
      "grad_norm": 0.4557742178440094,
      "learning_rate": 0.000741161927879074,
      "loss": 2.8522,
      "step": 1120
    },
    {
      "epoch": 0.3632534024627349,
      "grad_norm": 0.4155445992946625,
      "learning_rate": 0.0007407020535311673,
      "loss": 2.9094,
      "step": 1121
    },
    {
      "epoch": 0.36357744653272844,
      "grad_norm": 0.6719956398010254,
      "learning_rate": 0.0007402419139878116,
      "loss": 2.8036,
      "step": 1122
    },
    {
      "epoch": 0.363901490602722,
      "grad_norm": 0.7662437558174133,
      "learning_rate": 0.0007397815097559691,
      "loss": 2.8742,
      "step": 1123
    },
    {
      "epoch": 0.3642255346727155,
      "grad_norm": 0.3823591470718384,
      "learning_rate": 0.0007393208413428941,
      "loss": 2.8448,
      "step": 1124
    },
    {
      "epoch": 0.364549578742709,
      "grad_norm": 0.5042126774787903,
      "learning_rate": 0.0007388599092561315,
      "loss": 2.9871,
      "step": 1125
    },
    {
      "epoch": 0.3648736228127025,
      "grad_norm": 0.4245724380016327,
      "learning_rate": 0.0007383987140035171,
      "loss": 2.8702,
      "step": 1126
    },
    {
      "epoch": 0.36519766688269606,
      "grad_norm": 0.46235188841819763,
      "learning_rate": 0.0007379372560931768,
      "loss": 2.8037,
      "step": 1127
    },
    {
      "epoch": 0.36552171095268954,
      "grad_norm": 0.46554118394851685,
      "learning_rate": 0.0007374755360335252,
      "loss": 2.9115,
      "step": 1128
    },
    {
      "epoch": 0.3658457550226831,
      "grad_norm": 0.5799168944358826,
      "learning_rate": 0.0007370135543332663,
      "loss": 2.8132,
      "step": 1129
    },
    {
      "epoch": 0.3661697990926766,
      "grad_norm": 0.5821261405944824,
      "learning_rate": 0.0007365513115013923,
      "loss": 2.9813,
      "step": 1130
    },
    {
      "epoch": 0.36649384316267014,
      "grad_norm": 0.403004914522171,
      "learning_rate": 0.000736088808047183,
      "loss": 2.8828,
      "step": 1131
    },
    {
      "epoch": 0.3668178872326636,
      "grad_norm": 0.42887160181999207,
      "learning_rate": 0.0007356260444802051,
      "loss": 2.8531,
      "step": 1132
    },
    {
      "epoch": 0.36714193130265715,
      "grad_norm": 0.4188920557498932,
      "learning_rate": 0.0007351630213103123,
      "loss": 2.8914,
      "step": 1133
    },
    {
      "epoch": 0.3674659753726507,
      "grad_norm": 0.4498562514781952,
      "learning_rate": 0.0007346997390476444,
      "loss": 2.8898,
      "step": 1134
    },
    {
      "epoch": 0.3677900194426442,
      "grad_norm": 0.44295287132263184,
      "learning_rate": 0.0007342361982026261,
      "loss": 2.8544,
      "step": 1135
    },
    {
      "epoch": 0.3681140635126377,
      "grad_norm": 0.47065210342407227,
      "learning_rate": 0.0007337723992859673,
      "loss": 2.8659,
      "step": 1136
    },
    {
      "epoch": 0.36843810758263124,
      "grad_norm": 0.41879940032958984,
      "learning_rate": 0.0007333083428086622,
      "loss": 2.8408,
      "step": 1137
    },
    {
      "epoch": 0.36876215165262477,
      "grad_norm": 0.5669955611228943,
      "learning_rate": 0.0007328440292819891,
      "loss": 2.9377,
      "step": 1138
    },
    {
      "epoch": 0.36908619572261825,
      "grad_norm": 0.42103901505470276,
      "learning_rate": 0.0007323794592175091,
      "loss": 2.9031,
      "step": 1139
    },
    {
      "epoch": 0.3694102397926118,
      "grad_norm": 0.40494072437286377,
      "learning_rate": 0.0007319146331270658,
      "loss": 2.835,
      "step": 1140
    },
    {
      "epoch": 0.3697342838626053,
      "grad_norm": 0.4229893684387207,
      "learning_rate": 0.0007314495515227854,
      "loss": 2.8474,
      "step": 1141
    },
    {
      "epoch": 0.37005832793259885,
      "grad_norm": 0.5470117926597595,
      "learning_rate": 0.0007309842149170753,
      "loss": 2.9015,
      "step": 1142
    },
    {
      "epoch": 0.37038237200259233,
      "grad_norm": 0.4452455937862396,
      "learning_rate": 0.0007305186238226238,
      "loss": 2.7633,
      "step": 1143
    },
    {
      "epoch": 0.37070641607258586,
      "grad_norm": 0.4584522545337677,
      "learning_rate": 0.0007300527787523997,
      "loss": 2.9062,
      "step": 1144
    },
    {
      "epoch": 0.3710304601425794,
      "grad_norm": 0.4921761155128479,
      "learning_rate": 0.0007295866802196518,
      "loss": 2.9046,
      "step": 1145
    },
    {
      "epoch": 0.37135450421257293,
      "grad_norm": 0.43334662914276123,
      "learning_rate": 0.0007291203287379078,
      "loss": 2.8539,
      "step": 1146
    },
    {
      "epoch": 0.3716785482825664,
      "grad_norm": 0.39682117104530334,
      "learning_rate": 0.0007286537248209742,
      "loss": 2.8586,
      "step": 1147
    },
    {
      "epoch": 0.37200259235255995,
      "grad_norm": 0.42737460136413574,
      "learning_rate": 0.0007281868689829357,
      "loss": 2.8964,
      "step": 1148
    },
    {
      "epoch": 0.3723266364225535,
      "grad_norm": 0.3941415846347809,
      "learning_rate": 0.0007277197617381545,
      "loss": 2.8453,
      "step": 1149
    },
    {
      "epoch": 0.37265068049254696,
      "grad_norm": 0.5197920203208923,
      "learning_rate": 0.00072725240360127,
      "loss": 2.9385,
      "step": 1150
    },
    {
      "epoch": 0.3729747245625405,
      "grad_norm": 0.4059780240058899,
      "learning_rate": 0.0007267847950871975,
      "loss": 2.8392,
      "step": 1151
    },
    {
      "epoch": 0.37329876863253403,
      "grad_norm": 0.43499740958213806,
      "learning_rate": 0.0007263169367111289,
      "loss": 2.7579,
      "step": 1152
    },
    {
      "epoch": 0.37362281270252756,
      "grad_norm": 0.41378167271614075,
      "learning_rate": 0.0007258488289885307,
      "loss": 2.92,
      "step": 1153
    },
    {
      "epoch": 0.37394685677252104,
      "grad_norm": 0.4131481945514679,
      "learning_rate": 0.0007253804724351445,
      "loss": 2.8126,
      "step": 1154
    },
    {
      "epoch": 0.3742709008425146,
      "grad_norm": 0.42788830399513245,
      "learning_rate": 0.0007249118675669857,
      "loss": 2.9175,
      "step": 1155
    },
    {
      "epoch": 0.3745949449125081,
      "grad_norm": 0.4420336186885834,
      "learning_rate": 0.0007244430149003439,
      "loss": 2.8069,
      "step": 1156
    },
    {
      "epoch": 0.37491898898250164,
      "grad_norm": 0.6123343110084534,
      "learning_rate": 0.0007239739149517813,
      "loss": 2.9028,
      "step": 1157
    },
    {
      "epoch": 0.3752430330524951,
      "grad_norm": 0.5030692219734192,
      "learning_rate": 0.0007235045682381325,
      "loss": 2.8465,
      "step": 1158
    },
    {
      "epoch": 0.37556707712248866,
      "grad_norm": 0.41950488090515137,
      "learning_rate": 0.0007230349752765038,
      "loss": 2.758,
      "step": 1159
    },
    {
      "epoch": 0.3758911211924822,
      "grad_norm": 0.4070378839969635,
      "learning_rate": 0.0007225651365842735,
      "loss": 2.8454,
      "step": 1160
    },
    {
      "epoch": 0.37621516526247567,
      "grad_norm": 0.49212273955345154,
      "learning_rate": 0.00072209505267909,
      "loss": 2.8882,
      "step": 1161
    },
    {
      "epoch": 0.3765392093324692,
      "grad_norm": 0.45253363251686096,
      "learning_rate": 0.000721624724078872,
      "loss": 2.8291,
      "step": 1162
    },
    {
      "epoch": 0.37686325340246274,
      "grad_norm": 0.4310566782951355,
      "learning_rate": 0.0007211541513018082,
      "loss": 2.9398,
      "step": 1163
    },
    {
      "epoch": 0.3771872974724563,
      "grad_norm": 0.4280196726322174,
      "learning_rate": 0.0007206833348663557,
      "loss": 2.8609,
      "step": 1164
    },
    {
      "epoch": 0.37751134154244975,
      "grad_norm": 0.42434120178222656,
      "learning_rate": 0.0007202122752912405,
      "loss": 2.9029,
      "step": 1165
    },
    {
      "epoch": 0.3778353856124433,
      "grad_norm": 0.40132391452789307,
      "learning_rate": 0.0007197409730954561,
      "loss": 2.964,
      "step": 1166
    },
    {
      "epoch": 0.3781594296824368,
      "grad_norm": 0.4078146517276764,
      "learning_rate": 0.0007192694287982635,
      "loss": 2.9484,
      "step": 1167
    },
    {
      "epoch": 0.37848347375243035,
      "grad_norm": 0.44281628727912903,
      "learning_rate": 0.0007187976429191909,
      "loss": 2.8974,
      "step": 1168
    },
    {
      "epoch": 0.37880751782242383,
      "grad_norm": 0.5272215008735657,
      "learning_rate": 0.0007183256159780321,
      "loss": 2.9157,
      "step": 1169
    },
    {
      "epoch": 0.37913156189241737,
      "grad_norm": 0.5288456082344055,
      "learning_rate": 0.0007178533484948462,
      "loss": 2.7636,
      "step": 1170
    },
    {
      "epoch": 0.3794556059624109,
      "grad_norm": 0.4302406311035156,
      "learning_rate": 0.0007173808409899582,
      "loss": 2.8573,
      "step": 1171
    },
    {
      "epoch": 0.3797796500324044,
      "grad_norm": 0.41109752655029297,
      "learning_rate": 0.000716908093983957,
      "loss": 2.8408,
      "step": 1172
    },
    {
      "epoch": 0.3801036941023979,
      "grad_norm": 0.4511830508708954,
      "learning_rate": 0.0007164351079976954,
      "loss": 2.9487,
      "step": 1173
    },
    {
      "epoch": 0.38042773817239145,
      "grad_norm": 0.4646333158016205,
      "learning_rate": 0.0007159618835522895,
      "loss": 2.8209,
      "step": 1174
    },
    {
      "epoch": 0.380751782242385,
      "grad_norm": 0.4154578149318695,
      "learning_rate": 0.0007154884211691185,
      "loss": 2.769,
      "step": 1175
    },
    {
      "epoch": 0.38107582631237846,
      "grad_norm": 0.4149957299232483,
      "learning_rate": 0.0007150147213698232,
      "loss": 2.8397,
      "step": 1176
    },
    {
      "epoch": 0.381399870382372,
      "grad_norm": 0.4541398286819458,
      "learning_rate": 0.000714540784676306,
      "loss": 2.8797,
      "step": 1177
    },
    {
      "epoch": 0.38172391445236553,
      "grad_norm": 0.4883013367652893,
      "learning_rate": 0.0007140666116107309,
      "loss": 2.8755,
      "step": 1178
    },
    {
      "epoch": 0.38204795852235907,
      "grad_norm": 0.3877906799316406,
      "learning_rate": 0.0007135922026955217,
      "loss": 2.8493,
      "step": 1179
    },
    {
      "epoch": 0.38237200259235254,
      "grad_norm": 0.460701048374176,
      "learning_rate": 0.0007131175584533625,
      "loss": 2.8399,
      "step": 1180
    },
    {
      "epoch": 0.3826960466623461,
      "grad_norm": 0.4195963442325592,
      "learning_rate": 0.0007126426794071963,
      "loss": 2.8865,
      "step": 1181
    },
    {
      "epoch": 0.3830200907323396,
      "grad_norm": 0.45078393816947937,
      "learning_rate": 0.0007121675660802249,
      "loss": 2.9026,
      "step": 1182
    },
    {
      "epoch": 0.3833441348023331,
      "grad_norm": 0.4677521288394928,
      "learning_rate": 0.0007116922189959085,
      "loss": 2.8793,
      "step": 1183
    },
    {
      "epoch": 0.3836681788723266,
      "grad_norm": 0.4647480547428131,
      "learning_rate": 0.0007112166386779645,
      "loss": 2.8975,
      "step": 1184
    },
    {
      "epoch": 0.38399222294232016,
      "grad_norm": 0.4185180366039276,
      "learning_rate": 0.0007107408256503674,
      "loss": 2.8766,
      "step": 1185
    },
    {
      "epoch": 0.3843162670123137,
      "grad_norm": 0.4451981484889984,
      "learning_rate": 0.0007102647804373479,
      "loss": 2.8893,
      "step": 1186
    },
    {
      "epoch": 0.3846403110823072,
      "grad_norm": 0.5447384715080261,
      "learning_rate": 0.0007097885035633932,
      "loss": 2.8368,
      "step": 1187
    },
    {
      "epoch": 0.3849643551523007,
      "grad_norm": 0.4291522800922394,
      "learning_rate": 0.0007093119955532447,
      "loss": 2.8922,
      "step": 1188
    },
    {
      "epoch": 0.38528839922229424,
      "grad_norm": 0.391278475522995,
      "learning_rate": 0.0007088352569318991,
      "loss": 2.7628,
      "step": 1189
    },
    {
      "epoch": 0.3856124432922878,
      "grad_norm": 0.49332815408706665,
      "learning_rate": 0.0007083582882246073,
      "loss": 2.9268,
      "step": 1190
    },
    {
      "epoch": 0.38593648736228126,
      "grad_norm": 0.48091718554496765,
      "learning_rate": 0.0007078810899568733,
      "loss": 2.8694,
      "step": 1191
    },
    {
      "epoch": 0.3862605314322748,
      "grad_norm": 0.4224582314491272,
      "learning_rate": 0.0007074036626544541,
      "loss": 2.8938,
      "step": 1192
    },
    {
      "epoch": 0.3865845755022683,
      "grad_norm": 0.8859103918075562,
      "learning_rate": 0.0007069260068433592,
      "loss": 2.7913,
      "step": 1193
    },
    {
      "epoch": 0.3869086195722618,
      "grad_norm": 0.4948962926864624,
      "learning_rate": 0.0007064481230498499,
      "loss": 2.8408,
      "step": 1194
    },
    {
      "epoch": 0.38723266364225534,
      "grad_norm": 0.41872018575668335,
      "learning_rate": 0.0007059700118004384,
      "loss": 2.8671,
      "step": 1195
    },
    {
      "epoch": 0.38755670771224887,
      "grad_norm": 0.3938908874988556,
      "learning_rate": 0.0007054916736218875,
      "loss": 2.83,
      "step": 1196
    },
    {
      "epoch": 0.3878807517822424,
      "grad_norm": 1.8817687034606934,
      "learning_rate": 0.0007050131090412106,
      "loss": 2.8773,
      "step": 1197
    },
    {
      "epoch": 0.3882047958522359,
      "grad_norm": 0.4152405858039856,
      "learning_rate": 0.00070453431858567,
      "loss": 2.9126,
      "step": 1198
    },
    {
      "epoch": 0.3885288399222294,
      "grad_norm": 0.40864884853363037,
      "learning_rate": 0.0007040553027827767,
      "loss": 2.8922,
      "step": 1199
    },
    {
      "epoch": 0.38885288399222295,
      "grad_norm": 0.49775785207748413,
      "learning_rate": 0.0007035760621602907,
      "loss": 2.9284,
      "step": 1200
    },
    {
      "epoch": 0.3891769280622165,
      "grad_norm": 0.43673449754714966,
      "learning_rate": 0.000703096597246219,
      "loss": 2.8841,
      "step": 1201
    },
    {
      "epoch": 0.38950097213220997,
      "grad_norm": 0.4490952789783478,
      "learning_rate": 0.0007026169085688161,
      "loss": 2.9079,
      "step": 1202
    },
    {
      "epoch": 0.3898250162022035,
      "grad_norm": 0.47398117184638977,
      "learning_rate": 0.0007021369966565827,
      "loss": 2.8539,
      "step": 1203
    },
    {
      "epoch": 0.39014906027219703,
      "grad_norm": 0.4377627372741699,
      "learning_rate": 0.0007016568620382657,
      "loss": 2.8731,
      "step": 1204
    },
    {
      "epoch": 0.3904731043421905,
      "grad_norm": 0.44568437337875366,
      "learning_rate": 0.0007011765052428576,
      "loss": 2.8992,
      "step": 1205
    },
    {
      "epoch": 0.39079714841218405,
      "grad_norm": 0.525340735912323,
      "learning_rate": 0.0007006959267995953,
      "loss": 2.7939,
      "step": 1206
    },
    {
      "epoch": 0.3911211924821776,
      "grad_norm": 0.4172780513763428,
      "learning_rate": 0.0007002151272379598,
      "loss": 2.8926,
      "step": 1207
    },
    {
      "epoch": 0.3914452365521711,
      "grad_norm": 0.43816661834716797,
      "learning_rate": 0.000699734107087676,
      "loss": 2.8615,
      "step": 1208
    },
    {
      "epoch": 0.3917692806221646,
      "grad_norm": 0.4248117208480835,
      "learning_rate": 0.0006992528668787121,
      "loss": 2.8444,
      "step": 1209
    },
    {
      "epoch": 0.39209332469215813,
      "grad_norm": 0.5195409655570984,
      "learning_rate": 0.0006987714071412781,
      "loss": 2.9319,
      "step": 1210
    },
    {
      "epoch": 0.39241736876215166,
      "grad_norm": 0.3968982398509979,
      "learning_rate": 0.000698289728405826,
      "loss": 2.8708,
      "step": 1211
    },
    {
      "epoch": 0.3927414128321452,
      "grad_norm": 0.4070824980735779,
      "learning_rate": 0.0006978078312030498,
      "loss": 2.7328,
      "step": 1212
    },
    {
      "epoch": 0.3930654569021387,
      "grad_norm": 0.42603230476379395,
      "learning_rate": 0.0006973257160638835,
      "loss": 2.9561,
      "step": 1213
    },
    {
      "epoch": 0.3933895009721322,
      "grad_norm": 0.41169488430023193,
      "learning_rate": 0.0006968433835195011,
      "loss": 2.8203,
      "step": 1214
    },
    {
      "epoch": 0.39371354504212575,
      "grad_norm": 4.029730796813965,
      "learning_rate": 0.0006963608341013167,
      "loss": 2.8896,
      "step": 1215
    },
    {
      "epoch": 0.3940375891121192,
      "grad_norm": 0.5338366031646729,
      "learning_rate": 0.000695878068340983,
      "loss": 2.8755,
      "step": 1216
    },
    {
      "epoch": 0.39436163318211276,
      "grad_norm": 0.9071755409240723,
      "learning_rate": 0.0006953950867703911,
      "loss": 2.8954,
      "step": 1217
    },
    {
      "epoch": 0.3946856772521063,
      "grad_norm": 2.3703646659851074,
      "learning_rate": 0.0006949118899216698,
      "loss": 2.8393,
      "step": 1218
    },
    {
      "epoch": 0.3950097213220998,
      "grad_norm": 0.468995064496994,
      "learning_rate": 0.0006944284783271851,
      "loss": 2.9329,
      "step": 1219
    },
    {
      "epoch": 0.3953337653920933,
      "grad_norm": 1.095368504524231,
      "learning_rate": 0.0006939448525195399,
      "loss": 2.9115,
      "step": 1220
    },
    {
      "epoch": 0.39565780946208684,
      "grad_norm": 0.5227052569389343,
      "learning_rate": 0.0006934610130315728,
      "loss": 2.8869,
      "step": 1221
    },
    {
      "epoch": 0.3959818535320804,
      "grad_norm": 0.5264946222305298,
      "learning_rate": 0.0006929769603963578,
      "loss": 2.8836,
      "step": 1222
    },
    {
      "epoch": 0.3963058976020739,
      "grad_norm": 0.5760321021080017,
      "learning_rate": 0.000692492695147204,
      "loss": 2.862,
      "step": 1223
    },
    {
      "epoch": 0.3966299416720674,
      "grad_norm": 0.5282572507858276,
      "learning_rate": 0.0006920082178176545,
      "loss": 2.9596,
      "step": 1224
    },
    {
      "epoch": 0.3969539857420609,
      "grad_norm": 0.5305896401405334,
      "learning_rate": 0.0006915235289414861,
      "loss": 2.9495,
      "step": 1225
    },
    {
      "epoch": 0.39727802981205446,
      "grad_norm": 0.5537813305854797,
      "learning_rate": 0.0006910386290527084,
      "loss": 2.9262,
      "step": 1226
    },
    {
      "epoch": 0.39760207388204793,
      "grad_norm": 0.7279914617538452,
      "learning_rate": 0.0006905535186855644,
      "loss": 2.9393,
      "step": 1227
    },
    {
      "epoch": 0.39792611795204147,
      "grad_norm": 0.6707675457000732,
      "learning_rate": 0.0006900681983745283,
      "loss": 2.9836,
      "step": 1228
    },
    {
      "epoch": 0.398250162022035,
      "grad_norm": 0.6085983514785767,
      "learning_rate": 0.0006895826686543055,
      "loss": 2.8606,
      "step": 1229
    },
    {
      "epoch": 0.39857420609202854,
      "grad_norm": 0.8768441081047058,
      "learning_rate": 0.0006890969300598324,
      "loss": 2.909,
      "step": 1230
    },
    {
      "epoch": 0.398898250162022,
      "grad_norm": 0.42314428091049194,
      "learning_rate": 0.0006886109831262754,
      "loss": 2.7737,
      "step": 1231
    },
    {
      "epoch": 0.39922229423201555,
      "grad_norm": 0.4204535484313965,
      "learning_rate": 0.0006881248283890306,
      "loss": 2.8249,
      "step": 1232
    },
    {
      "epoch": 0.3995463383020091,
      "grad_norm": 0.4555669128894806,
      "learning_rate": 0.0006876384663837227,
      "loss": 2.7748,
      "step": 1233
    },
    {
      "epoch": 0.3998703823720026,
      "grad_norm": 0.47709351778030396,
      "learning_rate": 0.0006871518976462052,
      "loss": 2.8881,
      "step": 1234
    },
    {
      "epoch": 0.4001944264419961,
      "grad_norm": 0.4579097330570221,
      "learning_rate": 0.0006866651227125593,
      "loss": 2.7928,
      "step": 1235
    },
    {
      "epoch": 0.40051847051198963,
      "grad_norm": 0.45099562406539917,
      "learning_rate": 0.0006861781421190931,
      "loss": 2.9034,
      "step": 1236
    },
    {
      "epoch": 0.40084251458198317,
      "grad_norm": 0.5191430449485779,
      "learning_rate": 0.0006856909564023413,
      "loss": 2.8838,
      "step": 1237
    },
    {
      "epoch": 0.40116655865197665,
      "grad_norm": 0.45010611414909363,
      "learning_rate": 0.0006852035660990651,
      "loss": 2.8479,
      "step": 1238
    },
    {
      "epoch": 0.4014906027219702,
      "grad_norm": 0.4543744623661041,
      "learning_rate": 0.0006847159717462504,
      "loss": 2.9266,
      "step": 1239
    },
    {
      "epoch": 0.4018146467919637,
      "grad_norm": 0.46132272481918335,
      "learning_rate": 0.0006842281738811083,
      "loss": 2.8202,
      "step": 1240
    },
    {
      "epoch": 0.40213869086195725,
      "grad_norm": 0.5355942249298096,
      "learning_rate": 0.0006837401730410743,
      "loss": 2.9565,
      "step": 1241
    },
    {
      "epoch": 0.4024627349319507,
      "grad_norm": 0.4454077184200287,
      "learning_rate": 0.0006832519697638071,
      "loss": 2.8496,
      "step": 1242
    },
    {
      "epoch": 0.40278677900194426,
      "grad_norm": 0.48862290382385254,
      "learning_rate": 0.0006827635645871887,
      "loss": 2.9415,
      "step": 1243
    },
    {
      "epoch": 0.4031108230719378,
      "grad_norm": 0.47554653882980347,
      "learning_rate": 0.0006822749580493233,
      "loss": 2.8131,
      "step": 1244
    },
    {
      "epoch": 0.40343486714193133,
      "grad_norm": 0.4723961055278778,
      "learning_rate": 0.0006817861506885375,
      "loss": 2.8676,
      "step": 1245
    },
    {
      "epoch": 0.4037589112119248,
      "grad_norm": 0.4264915883541107,
      "learning_rate": 0.0006812971430433786,
      "loss": 2.9209,
      "step": 1246
    },
    {
      "epoch": 0.40408295528191834,
      "grad_norm": 0.3875561058521271,
      "learning_rate": 0.0006808079356526147,
      "loss": 2.8515,
      "step": 1247
    },
    {
      "epoch": 0.4044069993519119,
      "grad_norm": 0.47496744990348816,
      "learning_rate": 0.000680318529055234,
      "loss": 2.9575,
      "step": 1248
    },
    {
      "epoch": 0.40473104342190536,
      "grad_norm": 0.42089229822158813,
      "learning_rate": 0.0006798289237904444,
      "loss": 2.856,
      "step": 1249
    },
    {
      "epoch": 0.4050550874918989,
      "grad_norm": 0.5161406397819519,
      "learning_rate": 0.0006793391203976725,
      "loss": 2.7689,
      "step": 1250
    },
    {
      "epoch": 0.4053791315618924,
      "grad_norm": 0.40664607286453247,
      "learning_rate": 0.0006788491194165629,
      "loss": 2.8446,
      "step": 1251
    },
    {
      "epoch": 0.40570317563188596,
      "grad_norm": 0.41508394479751587,
      "learning_rate": 0.0006783589213869782,
      "loss": 2.8895,
      "step": 1252
    },
    {
      "epoch": 0.40602721970187944,
      "grad_norm": 0.4090597629547119,
      "learning_rate": 0.0006778685268489983,
      "loss": 2.8544,
      "step": 1253
    },
    {
      "epoch": 0.406351263771873,
      "grad_norm": 0.4558013081550598,
      "learning_rate": 0.0006773779363429196,
      "loss": 2.8821,
      "step": 1254
    },
    {
      "epoch": 0.4066753078418665,
      "grad_norm": 0.3900281488895416,
      "learning_rate": 0.0006768871504092536,
      "loss": 2.9363,
      "step": 1255
    },
    {
      "epoch": 0.40699935191186,
      "grad_norm": 0.4014397859573364,
      "learning_rate": 0.0006763961695887279,
      "loss": 2.8263,
      "step": 1256
    },
    {
      "epoch": 0.4073233959818535,
      "grad_norm": 0.4469269812107086,
      "learning_rate": 0.000675904994422285,
      "loss": 2.9535,
      "step": 1257
    },
    {
      "epoch": 0.40764744005184705,
      "grad_norm": 0.5515601634979248,
      "learning_rate": 0.0006754136254510807,
      "loss": 2.7931,
      "step": 1258
    },
    {
      "epoch": 0.4079714841218406,
      "grad_norm": 0.6050679683685303,
      "learning_rate": 0.0006749220632164849,
      "loss": 2.82,
      "step": 1259
    },
    {
      "epoch": 0.40829552819183407,
      "grad_norm": 0.3954406678676605,
      "learning_rate": 0.0006744303082600802,
      "loss": 2.8842,
      "step": 1260
    },
    {
      "epoch": 0.4086195722618276,
      "grad_norm": 0.40545663237571716,
      "learning_rate": 0.000673938361123662,
      "loss": 2.8017,
      "step": 1261
    },
    {
      "epoch": 0.40894361633182114,
      "grad_norm": 0.4619815945625305,
      "learning_rate": 0.0006734462223492367,
      "loss": 2.9165,
      "step": 1262
    },
    {
      "epoch": 0.40926766040181467,
      "grad_norm": 0.938930332660675,
      "learning_rate": 0.0006729538924790221,
      "loss": 2.9105,
      "step": 1263
    },
    {
      "epoch": 0.40959170447180815,
      "grad_norm": 0.43470755219459534,
      "learning_rate": 0.0006724613720554473,
      "loss": 2.7923,
      "step": 1264
    },
    {
      "epoch": 0.4099157485418017,
      "grad_norm": 0.45351800322532654,
      "learning_rate": 0.00067196866162115,
      "loss": 2.8687,
      "step": 1265
    },
    {
      "epoch": 0.4102397926117952,
      "grad_norm": 0.41076743602752686,
      "learning_rate": 0.0006714757617189782,
      "loss": 2.8885,
      "step": 1266
    },
    {
      "epoch": 0.4105638366817887,
      "grad_norm": 0.5618754029273987,
      "learning_rate": 0.0006709826728919883,
      "loss": 2.7958,
      "step": 1267
    },
    {
      "epoch": 0.41088788075178223,
      "grad_norm": 0.6281972527503967,
      "learning_rate": 0.0006704893956834452,
      "loss": 2.8721,
      "step": 1268
    },
    {
      "epoch": 0.41121192482177576,
      "grad_norm": 0.4689534902572632,
      "learning_rate": 0.0006699959306368209,
      "loss": 2.8789,
      "step": 1269
    },
    {
      "epoch": 0.4115359688917693,
      "grad_norm": 0.41278988122940063,
      "learning_rate": 0.0006695022782957945,
      "loss": 2.9235,
      "step": 1270
    },
    {
      "epoch": 0.4118600129617628,
      "grad_norm": 0.5176256895065308,
      "learning_rate": 0.0006690084392042513,
      "loss": 2.8242,
      "step": 1271
    },
    {
      "epoch": 0.4121840570317563,
      "grad_norm": 0.47032108902931213,
      "learning_rate": 0.0006685144139062831,
      "loss": 2.8564,
      "step": 1272
    },
    {
      "epoch": 0.41250810110174985,
      "grad_norm": 0.4401744306087494,
      "learning_rate": 0.0006680202029461859,
      "loss": 2.8097,
      "step": 1273
    },
    {
      "epoch": 0.4128321451717434,
      "grad_norm": 0.41193726658821106,
      "learning_rate": 0.0006675258068684606,
      "loss": 2.9151,
      "step": 1274
    },
    {
      "epoch": 0.41315618924173686,
      "grad_norm": 0.48796531558036804,
      "learning_rate": 0.0006670312262178121,
      "loss": 2.8636,
      "step": 1275
    },
    {
      "epoch": 0.4134802333117304,
      "grad_norm": 0.43521928787231445,
      "learning_rate": 0.000666536461539149,
      "loss": 2.8802,
      "step": 1276
    },
    {
      "epoch": 0.41380427738172393,
      "grad_norm": 0.4860338270664215,
      "learning_rate": 0.0006660415133775821,
      "loss": 2.8638,
      "step": 1277
    },
    {
      "epoch": 0.4141283214517174,
      "grad_norm": 0.4034249782562256,
      "learning_rate": 0.0006655463822784243,
      "loss": 2.828,
      "step": 1278
    },
    {
      "epoch": 0.41445236552171094,
      "grad_norm": 0.42129042744636536,
      "learning_rate": 0.000665051068787191,
      "loss": 2.8871,
      "step": 1279
    },
    {
      "epoch": 0.4147764095917045,
      "grad_norm": 0.4414227604866028,
      "learning_rate": 0.0006645555734495974,
      "loss": 2.7916,
      "step": 1280
    },
    {
      "epoch": 0.415100453661698,
      "grad_norm": 0.5974106788635254,
      "learning_rate": 0.0006640598968115594,
      "loss": 2.8884,
      "step": 1281
    },
    {
      "epoch": 0.4154244977316915,
      "grad_norm": 0.4285554885864258,
      "learning_rate": 0.0006635640394191931,
      "loss": 2.7964,
      "step": 1282
    },
    {
      "epoch": 0.415748541801685,
      "grad_norm": 0.5284599661827087,
      "learning_rate": 0.0006630680018188133,
      "loss": 2.8066,
      "step": 1283
    },
    {
      "epoch": 0.41607258587167856,
      "grad_norm": 0.4177286624908447,
      "learning_rate": 0.0006625717845569335,
      "loss": 2.9029,
      "step": 1284
    },
    {
      "epoch": 0.4163966299416721,
      "grad_norm": 0.47377514839172363,
      "learning_rate": 0.000662075388180265,
      "loss": 2.904,
      "step": 1285
    },
    {
      "epoch": 0.41672067401166557,
      "grad_norm": 0.41635555028915405,
      "learning_rate": 0.0006615788132357166,
      "loss": 2.8708,
      "step": 1286
    },
    {
      "epoch": 0.4170447180816591,
      "grad_norm": 2.333470106124878,
      "learning_rate": 0.0006610820602703939,
      "loss": 2.874,
      "step": 1287
    },
    {
      "epoch": 0.41736876215165264,
      "grad_norm": 0.5011954307556152,
      "learning_rate": 0.0006605851298315987,
      "loss": 2.9513,
      "step": 1288
    },
    {
      "epoch": 0.4176928062216461,
      "grad_norm": 0.39391642808914185,
      "learning_rate": 0.0006600880224668275,
      "loss": 2.7882,
      "step": 1289
    },
    {
      "epoch": 0.41801685029163965,
      "grad_norm": 0.4239003658294678,
      "learning_rate": 0.0006595907387237731,
      "loss": 2.8168,
      "step": 1290
    },
    {
      "epoch": 0.4183408943616332,
      "grad_norm": 0.5174721479415894,
      "learning_rate": 0.0006590932791503216,
      "loss": 2.8517,
      "step": 1291
    },
    {
      "epoch": 0.4186649384316267,
      "grad_norm": 0.46150219440460205,
      "learning_rate": 0.0006585956442945531,
      "loss": 2.7858,
      "step": 1292
    },
    {
      "epoch": 0.4189889825016202,
      "grad_norm": 0.4421819746494293,
      "learning_rate": 0.0006580978347047408,
      "loss": 2.8281,
      "step": 1293
    },
    {
      "epoch": 0.41931302657161373,
      "grad_norm": 0.4704284071922302,
      "learning_rate": 0.0006575998509293508,
      "loss": 2.9005,
      "step": 1294
    },
    {
      "epoch": 0.41963707064160727,
      "grad_norm": 0.4419381320476532,
      "learning_rate": 0.0006571016935170406,
      "loss": 2.8743,
      "step": 1295
    },
    {
      "epoch": 0.4199611147116008,
      "grad_norm": 0.43090513348579407,
      "learning_rate": 0.000656603363016659,
      "loss": 2.9003,
      "step": 1296
    },
    {
      "epoch": 0.4202851587815943,
      "grad_norm": 0.4477546513080597,
      "learning_rate": 0.0006561048599772459,
      "loss": 2.8694,
      "step": 1297
    },
    {
      "epoch": 0.4206092028515878,
      "grad_norm": 0.5243399739265442,
      "learning_rate": 0.000655606184948031,
      "loss": 2.9666,
      "step": 1298
    },
    {
      "epoch": 0.42093324692158135,
      "grad_norm": 0.6088141798973083,
      "learning_rate": 0.0006551073384784338,
      "loss": 2.7919,
      "step": 1299
    },
    {
      "epoch": 0.42125729099157483,
      "grad_norm": 0.437892884016037,
      "learning_rate": 0.0006546083211180623,
      "loss": 2.8473,
      "step": 1300
    },
    {
      "epoch": 0.42158133506156836,
      "grad_norm": 0.46683835983276367,
      "learning_rate": 0.0006541091334167126,
      "loss": 2.7939,
      "step": 1301
    },
    {
      "epoch": 0.4219053791315619,
      "grad_norm": 0.46499353647232056,
      "learning_rate": 0.0006536097759243696,
      "loss": 2.8246,
      "step": 1302
    },
    {
      "epoch": 0.42222942320155543,
      "grad_norm": 0.4285559058189392,
      "learning_rate": 0.0006531102491912037,
      "loss": 2.8921,
      "step": 1303
    },
    {
      "epoch": 0.4225534672715489,
      "grad_norm": 0.501647412776947,
      "learning_rate": 0.0006526105537675729,
      "loss": 2.8842,
      "step": 1304
    },
    {
      "epoch": 0.42287751134154244,
      "grad_norm": 6.205810070037842,
      "learning_rate": 0.0006521106902040209,
      "loss": 2.86,
      "step": 1305
    },
    {
      "epoch": 0.423201555411536,
      "grad_norm": 0.563483476638794,
      "learning_rate": 0.0006516106590512763,
      "loss": 2.9081,
      "step": 1306
    },
    {
      "epoch": 0.4235255994815295,
      "grad_norm": 0.7180015444755554,
      "learning_rate": 0.0006511104608602522,
      "loss": 2.9031,
      "step": 1307
    },
    {
      "epoch": 0.423849643551523,
      "grad_norm": 1.1370267868041992,
      "learning_rate": 0.0006506100961820463,
      "loss": 2.9273,
      "step": 1308
    },
    {
      "epoch": 0.4241736876215165,
      "grad_norm": 0.4831238090991974,
      "learning_rate": 0.0006501095655679395,
      "loss": 2.9387,
      "step": 1309
    },
    {
      "epoch": 0.42449773169151006,
      "grad_norm": 0.4869888424873352,
      "learning_rate": 0.0006496088695693954,
      "loss": 2.8867,
      "step": 1310
    },
    {
      "epoch": 0.42482177576150354,
      "grad_norm": 0.6291062235832214,
      "learning_rate": 0.00064910800873806,
      "loss": 2.9562,
      "step": 1311
    },
    {
      "epoch": 0.4251458198314971,
      "grad_norm": 1.2531574964523315,
      "learning_rate": 0.0006486069836257606,
      "loss": 2.9652,
      "step": 1312
    },
    {
      "epoch": 0.4254698639014906,
      "grad_norm": 0.6879475712776184,
      "learning_rate": 0.000648105794784506,
      "loss": 2.9098,
      "step": 1313
    },
    {
      "epoch": 0.42579390797148414,
      "grad_norm": 0.5856245756149292,
      "learning_rate": 0.0006476044427664849,
      "loss": 2.9331,
      "step": 1314
    },
    {
      "epoch": 0.4261179520414776,
      "grad_norm": 0.6168652176856995,
      "learning_rate": 0.0006471029281240658,
      "loss": 2.9569,
      "step": 1315
    },
    {
      "epoch": 0.42644199611147116,
      "grad_norm": 0.4844311773777008,
      "learning_rate": 0.0006466012514097967,
      "loss": 2.9013,
      "step": 1316
    },
    {
      "epoch": 0.4267660401814647,
      "grad_norm": 0.5338968634605408,
      "learning_rate": 0.0006460994131764044,
      "loss": 2.9041,
      "step": 1317
    },
    {
      "epoch": 0.4270900842514582,
      "grad_norm": 1.2583067417144775,
      "learning_rate": 0.0006455974139767927,
      "loss": 2.8798,
      "step": 1318
    },
    {
      "epoch": 0.4274141283214517,
      "grad_norm": 0.4786009192466736,
      "learning_rate": 0.0006450952543640433,
      "loss": 3.0026,
      "step": 1319
    },
    {
      "epoch": 0.42773817239144524,
      "grad_norm": 0.46901175379753113,
      "learning_rate": 0.0006445929348914151,
      "loss": 2.9515,
      "step": 1320
    },
    {
      "epoch": 0.42806221646143877,
      "grad_norm": 0.5293207168579102,
      "learning_rate": 0.0006440904561123425,
      "loss": 2.868,
      "step": 1321
    },
    {
      "epoch": 0.42838626053143225,
      "grad_norm": 0.6438472270965576,
      "learning_rate": 0.0006435878185804354,
      "loss": 2.9572,
      "step": 1322
    },
    {
      "epoch": 0.4287103046014258,
      "grad_norm": 0.5976194739341736,
      "learning_rate": 0.0006430850228494789,
      "loss": 2.9414,
      "step": 1323
    },
    {
      "epoch": 0.4290343486714193,
      "grad_norm": 0.4985702335834503,
      "learning_rate": 0.0006425820694734324,
      "loss": 2.9148,
      "step": 1324
    },
    {
      "epoch": 0.42935839274141285,
      "grad_norm": 0.43241268396377563,
      "learning_rate": 0.0006420789590064288,
      "loss": 2.9146,
      "step": 1325
    },
    {
      "epoch": 0.42968243681140633,
      "grad_norm": 1.9990214109420776,
      "learning_rate": 0.000641575692002774,
      "loss": 2.9146,
      "step": 1326
    },
    {
      "epoch": 0.43000648088139987,
      "grad_norm": 0.4813856780529022,
      "learning_rate": 0.0006410722690169469,
      "loss": 2.8461,
      "step": 1327
    },
    {
      "epoch": 0.4303305249513934,
      "grad_norm": 0.4520847797393799,
      "learning_rate": 0.0006405686906035974,
      "loss": 2.7718,
      "step": 1328
    },
    {
      "epoch": 0.43065456902138693,
      "grad_norm": 0.4087214469909668,
      "learning_rate": 0.0006400649573175477,
      "loss": 2.8862,
      "step": 1329
    },
    {
      "epoch": 0.4309786130913804,
      "grad_norm": 0.40312719345092773,
      "learning_rate": 0.0006395610697137893,
      "loss": 2.813,
      "step": 1330
    },
    {
      "epoch": 0.43130265716137395,
      "grad_norm": 0.4134073555469513,
      "learning_rate": 0.0006390570283474852,
      "loss": 2.9454,
      "step": 1331
    },
    {
      "epoch": 0.4316267012313675,
      "grad_norm": 0.4231710433959961,
      "learning_rate": 0.0006385528337739668,
      "loss": 2.8716,
      "step": 1332
    },
    {
      "epoch": 0.43195074530136096,
      "grad_norm": 0.40849003195762634,
      "learning_rate": 0.0006380484865487346,
      "loss": 2.9446,
      "step": 1333
    },
    {
      "epoch": 0.4322747893713545,
      "grad_norm": 0.42107918858528137,
      "learning_rate": 0.0006375439872274569,
      "loss": 2.8812,
      "step": 1334
    },
    {
      "epoch": 0.43259883344134803,
      "grad_norm": 0.42974862456321716,
      "learning_rate": 0.0006370393363659706,
      "loss": 3.0019,
      "step": 1335
    },
    {
      "epoch": 0.43292287751134156,
      "grad_norm": 0.38836196064949036,
      "learning_rate": 0.0006365345345202785,
      "loss": 2.8451,
      "step": 1336
    },
    {
      "epoch": 0.43324692158133504,
      "grad_norm": 0.41753292083740234,
      "learning_rate": 0.0006360295822465502,
      "loss": 2.8774,
      "step": 1337
    },
    {
      "epoch": 0.4335709656513286,
      "grad_norm": 0.43868640065193176,
      "learning_rate": 0.0006355244801011208,
      "loss": 2.85,
      "step": 1338
    },
    {
      "epoch": 0.4338950097213221,
      "grad_norm": 0.5375828742980957,
      "learning_rate": 0.0006350192286404912,
      "loss": 2.8893,
      "step": 1339
    },
    {
      "epoch": 0.43421905379131565,
      "grad_norm": 0.47614702582359314,
      "learning_rate": 0.0006345138284213261,
      "loss": 2.8936,
      "step": 1340
    },
    {
      "epoch": 0.4345430978613091,
      "grad_norm": 0.5386677980422974,
      "learning_rate": 0.000634008280000454,
      "loss": 2.8434,
      "step": 1341
    },
    {
      "epoch": 0.43486714193130266,
      "grad_norm": 0.6626468896865845,
      "learning_rate": 0.0006335025839348671,
      "loss": 2.8594,
      "step": 1342
    },
    {
      "epoch": 0.4351911860012962,
      "grad_norm": 0.5408693552017212,
      "learning_rate": 0.0006329967407817206,
      "loss": 2.9383,
      "step": 1343
    },
    {
      "epoch": 0.43551523007128967,
      "grad_norm": 0.44577571749687195,
      "learning_rate": 0.000632490751098331,
      "loss": 2.8157,
      "step": 1344
    },
    {
      "epoch": 0.4358392741412832,
      "grad_norm": 0.4910299479961395,
      "learning_rate": 0.0006319846154421762,
      "loss": 2.8522,
      "step": 1345
    },
    {
      "epoch": 0.43616331821127674,
      "grad_norm": 0.434627890586853,
      "learning_rate": 0.000631478334370896,
      "loss": 2.8561,
      "step": 1346
    },
    {
      "epoch": 0.4364873622812703,
      "grad_norm": 0.46671000123023987,
      "learning_rate": 0.0006309719084422892,
      "loss": 2.8865,
      "step": 1347
    },
    {
      "epoch": 0.43681140635126375,
      "grad_norm": 0.44674891233444214,
      "learning_rate": 0.0006304653382143148,
      "loss": 2.8969,
      "step": 1348
    },
    {
      "epoch": 0.4371354504212573,
      "grad_norm": 0.44249752163887024,
      "learning_rate": 0.0006299586242450907,
      "loss": 2.8314,
      "step": 1349
    },
    {
      "epoch": 0.4374594944912508,
      "grad_norm": 0.40034550428390503,
      "learning_rate": 0.0006294517670928934,
      "loss": 3.0093,
      "step": 1350
    },
    {
      "epoch": 0.43778353856124436,
      "grad_norm": 0.4082318842411041,
      "learning_rate": 0.0006289447673161566,
      "loss": 2.7901,
      "step": 1351
    },
    {
      "epoch": 0.43810758263123784,
      "grad_norm": 0.41905906796455383,
      "learning_rate": 0.0006284376254734712,
      "loss": 2.9065,
      "step": 1352
    },
    {
      "epoch": 0.43843162670123137,
      "grad_norm": 0.4073987603187561,
      "learning_rate": 0.0006279303421235854,
      "loss": 2.8191,
      "step": 1353
    },
    {
      "epoch": 0.4387556707712249,
      "grad_norm": 0.41360557079315186,
      "learning_rate": 0.0006274229178254025,
      "loss": 2.8685,
      "step": 1354
    },
    {
      "epoch": 0.4390797148412184,
      "grad_norm": 0.35672393441200256,
      "learning_rate": 0.0006269153531379814,
      "loss": 2.7679,
      "step": 1355
    },
    {
      "epoch": 0.4394037589112119,
      "grad_norm": 0.36796626448631287,
      "learning_rate": 0.0006264076486205354,
      "loss": 2.7859,
      "step": 1356
    },
    {
      "epoch": 0.43972780298120545,
      "grad_norm": 7.016648769378662,
      "learning_rate": 0.0006258998048324324,
      "loss": 2.8779,
      "step": 1357
    },
    {
      "epoch": 0.440051847051199,
      "grad_norm": 0.4612794816493988,
      "learning_rate": 0.0006253918223331935,
      "loss": 2.917,
      "step": 1358
    },
    {
      "epoch": 0.44037589112119246,
      "grad_norm": 0.8137307167053223,
      "learning_rate": 0.0006248837016824923,
      "loss": 2.944,
      "step": 1359
    },
    {
      "epoch": 0.440699935191186,
      "grad_norm": 0.8346390128135681,
      "learning_rate": 0.0006243754434401548,
      "loss": 3.005,
      "step": 1360
    },
    {
      "epoch": 0.44102397926117953,
      "grad_norm": 7.8542799949646,
      "learning_rate": 0.000623867048166159,
      "loss": 3.0521,
      "step": 1361
    },
    {
      "epoch": 0.44134802333117307,
      "grad_norm": 3.3804242610931396,
      "learning_rate": 0.0006233585164206332,
      "loss": 2.9661,
      "step": 1362
    },
    {
      "epoch": 0.44167206740116655,
      "grad_norm": 0.46685799956321716,
      "learning_rate": 0.0006228498487638566,
      "loss": 2.9628,
      "step": 1363
    },
    {
      "epoch": 0.4419961114711601,
      "grad_norm": 1.8171104192733765,
      "learning_rate": 0.0006223410457562578,
      "loss": 2.9116,
      "step": 1364
    },
    {
      "epoch": 0.4423201555411536,
      "grad_norm": 1.7824074029922485,
      "learning_rate": 0.0006218321079584149,
      "loss": 3.0723,
      "step": 1365
    },
    {
      "epoch": 0.4426441996111471,
      "grad_norm": 0.5890952944755554,
      "learning_rate": 0.0006213230359310543,
      "loss": 3.108,
      "step": 1366
    },
    {
      "epoch": 0.4429682436811406,
      "grad_norm": 1.5923616886138916,
      "learning_rate": 0.0006208138302350497,
      "loss": 2.9166,
      "step": 1367
    },
    {
      "epoch": 0.44329228775113416,
      "grad_norm": 0.5405860543251038,
      "learning_rate": 0.000620304491431423,
      "loss": 3.034,
      "step": 1368
    },
    {
      "epoch": 0.4436163318211277,
      "grad_norm": 0.5193184614181519,
      "learning_rate": 0.0006197950200813424,
      "loss": 3.0607,
      "step": 1369
    },
    {
      "epoch": 0.4439403758911212,
      "grad_norm": 0.5194434523582458,
      "learning_rate": 0.0006192854167461223,
      "loss": 3.0016,
      "step": 1370
    },
    {
      "epoch": 0.4442644199611147,
      "grad_norm": 1.4692754745483398,
      "learning_rate": 0.0006187756819872219,
      "loss": 3.1141,
      "step": 1371
    },
    {
      "epoch": 0.44458846403110824,
      "grad_norm": 1.2669774293899536,
      "learning_rate": 0.0006182658163662459,
      "loss": 3.0533,
      "step": 1372
    },
    {
      "epoch": 0.4449125081011017,
      "grad_norm": 0.5649450421333313,
      "learning_rate": 0.000617755820444943,
      "loss": 3.0472,
      "step": 1373
    },
    {
      "epoch": 0.44523655217109526,
      "grad_norm": 0.5106673836708069,
      "learning_rate": 0.0006172456947852048,
      "loss": 2.9542,
      "step": 1374
    },
    {
      "epoch": 0.4455605962410888,
      "grad_norm": 0.6958978772163391,
      "learning_rate": 0.0006167354399490671,
      "loss": 3.0103,
      "step": 1375
    },
    {
      "epoch": 0.4458846403110823,
      "grad_norm": 3.9159605503082275,
      "learning_rate": 0.000616225056498707,
      "loss": 3.0782,
      "step": 1376
    },
    {
      "epoch": 0.4462086843810758,
      "grad_norm": 0.5441805124282837,
      "learning_rate": 0.0006157145449964438,
      "loss": 3.0316,
      "step": 1377
    },
    {
      "epoch": 0.44653272845106934,
      "grad_norm": 0.44714611768722534,
      "learning_rate": 0.0006152039060047372,
      "loss": 2.9803,
      "step": 1378
    },
    {
      "epoch": 0.4468567725210629,
      "grad_norm": 1.680509328842163,
      "learning_rate": 0.0006146931400861883,
      "loss": 3.0065,
      "step": 1379
    },
    {
      "epoch": 0.4471808165910564,
      "grad_norm": 0.5521755814552307,
      "learning_rate": 0.0006141822478035378,
      "loss": 3.0555,
      "step": 1380
    },
    {
      "epoch": 0.4475048606610499,
      "grad_norm": 3.036036491394043,
      "learning_rate": 0.0006136712297196652,
      "loss": 3.2179,
      "step": 1381
    },
    {
      "epoch": 0.4478289047310434,
      "grad_norm": 1.1602329015731812,
      "learning_rate": 0.0006131600863975886,
      "loss": 2.9427,
      "step": 1382
    },
    {
      "epoch": 0.44815294880103695,
      "grad_norm": 0.8952423930168152,
      "learning_rate": 0.0006126488184004646,
      "loss": 3.068,
      "step": 1383
    },
    {
      "epoch": 0.44847699287103043,
      "grad_norm": 5.408668518066406,
      "learning_rate": 0.0006121374262915869,
      "loss": 2.9813,
      "step": 1384
    },
    {
      "epoch": 0.44880103694102397,
      "grad_norm": 0.656195342540741,
      "learning_rate": 0.0006116259106343858,
      "loss": 2.9358,
      "step": 1385
    },
    {
      "epoch": 0.4491250810110175,
      "grad_norm": 0.984363317489624,
      "learning_rate": 0.0006111142719924278,
      "loss": 3.0152,
      "step": 1386
    },
    {
      "epoch": 0.44944912508101104,
      "grad_norm": 1.0088436603546143,
      "learning_rate": 0.0006106025109294151,
      "loss": 3.03,
      "step": 1387
    },
    {
      "epoch": 0.4497731691510045,
      "grad_norm": 0.8248496651649475,
      "learning_rate": 0.0006100906280091847,
      "loss": 2.9662,
      "step": 1388
    },
    {
      "epoch": 0.45009721322099805,
      "grad_norm": 0.43797290325164795,
      "learning_rate": 0.0006095786237957075,
      "loss": 2.925,
      "step": 1389
    },
    {
      "epoch": 0.4504212572909916,
      "grad_norm": 0.5067883729934692,
      "learning_rate": 0.0006090664988530884,
      "loss": 2.969,
      "step": 1390
    },
    {
      "epoch": 0.4507453013609851,
      "grad_norm": 0.8881334662437439,
      "learning_rate": 0.0006085542537455654,
      "loss": 2.9194,
      "step": 1391
    },
    {
      "epoch": 0.4510693454309786,
      "grad_norm": 0.5027050971984863,
      "learning_rate": 0.0006080418890375086,
      "loss": 2.9332,
      "step": 1392
    },
    {
      "epoch": 0.45139338950097213,
      "grad_norm": 0.5173293352127075,
      "learning_rate": 0.0006075294052934199,
      "loss": 3.0158,
      "step": 1393
    },
    {
      "epoch": 0.45171743357096567,
      "grad_norm": 2.4057178497314453,
      "learning_rate": 0.0006070168030779326,
      "loss": 2.9912,
      "step": 1394
    },
    {
      "epoch": 0.45204147764095914,
      "grad_norm": 0.4225333333015442,
      "learning_rate": 0.0006065040829558104,
      "loss": 2.9692,
      "step": 1395
    },
    {
      "epoch": 0.4523655217109527,
      "grad_norm": 0.38550060987472534,
      "learning_rate": 0.0006059912454919467,
      "loss": 2.9299,
      "step": 1396
    },
    {
      "epoch": 0.4526895657809462,
      "grad_norm": 0.43027153611183167,
      "learning_rate": 0.0006054782912513643,
      "loss": 2.9595,
      "step": 1397
    },
    {
      "epoch": 0.45301360985093975,
      "grad_norm": 0.3826475441455841,
      "learning_rate": 0.000604965220799215,
      "loss": 3.004,
      "step": 1398
    },
    {
      "epoch": 0.4533376539209332,
      "grad_norm": 0.3780437707901001,
      "learning_rate": 0.0006044520347007783,
      "loss": 3.0184,
      "step": 1399
    },
    {
      "epoch": 0.45366169799092676,
      "grad_norm": 0.3734983205795288,
      "learning_rate": 0.000603938733521461,
      "loss": 2.877,
      "step": 1400
    },
    {
      "epoch": 0.4539857420609203,
      "grad_norm": 0.4077589809894562,
      "learning_rate": 0.0006034253178267968,
      "loss": 2.905,
      "step": 1401
    },
    {
      "epoch": 0.45430978613091383,
      "grad_norm": 1.1844432353973389,
      "learning_rate": 0.0006029117881824459,
      "loss": 2.9292,
      "step": 1402
    },
    {
      "epoch": 0.4546338302009073,
      "grad_norm": 0.3674837648868561,
      "learning_rate": 0.0006023981451541935,
      "loss": 2.8866,
      "step": 1403
    },
    {
      "epoch": 0.45495787427090084,
      "grad_norm": 0.3595638871192932,
      "learning_rate": 0.0006018843893079503,
      "loss": 2.8955,
      "step": 1404
    },
    {
      "epoch": 0.4552819183408944,
      "grad_norm": 0.42371976375579834,
      "learning_rate": 0.0006013705212097506,
      "loss": 2.9346,
      "step": 1405
    },
    {
      "epoch": 0.45560596241088785,
      "grad_norm": 0.41924723982810974,
      "learning_rate": 0.0006008565414257532,
      "loss": 2.9586,
      "step": 1406
    },
    {
      "epoch": 0.4559300064808814,
      "grad_norm": 0.42513522505760193,
      "learning_rate": 0.0006003424505222392,
      "loss": 2.9565,
      "step": 1407
    },
    {
      "epoch": 0.4562540505508749,
      "grad_norm": 0.5286693572998047,
      "learning_rate": 0.0005998282490656124,
      "loss": 3.0393,
      "step": 1408
    },
    {
      "epoch": 0.45657809462086846,
      "grad_norm": 0.5296744704246521,
      "learning_rate": 0.0005993139376223987,
      "loss": 2.867,
      "step": 1409
    },
    {
      "epoch": 0.45690213869086194,
      "grad_norm": 0.7621114253997803,
      "learning_rate": 0.0005987995167592448,
      "loss": 2.8912,
      "step": 1410
    },
    {
      "epoch": 0.45722618276085547,
      "grad_norm": 0.4264675974845886,
      "learning_rate": 0.0005982849870429181,
      "loss": 2.9897,
      "step": 1411
    },
    {
      "epoch": 0.457550226830849,
      "grad_norm": 0.48905840516090393,
      "learning_rate": 0.0005977703490403058,
      "loss": 2.8558,
      "step": 1412
    },
    {
      "epoch": 0.45787427090084254,
      "grad_norm": 0.7680631875991821,
      "learning_rate": 0.0005972556033184146,
      "loss": 3.0261,
      "step": 1413
    },
    {
      "epoch": 0.458198314970836,
      "grad_norm": 0.3790483772754669,
      "learning_rate": 0.0005967407504443701,
      "loss": 2.8532,
      "step": 1414
    },
    {
      "epoch": 0.45852235904082955,
      "grad_norm": 0.4495066702365875,
      "learning_rate": 0.000596225790985415,
      "loss": 3.1419,
      "step": 1415
    },
    {
      "epoch": 0.4588464031108231,
      "grad_norm": 0.39417794346809387,
      "learning_rate": 0.0005957107255089105,
      "loss": 2.9486,
      "step": 1416
    },
    {
      "epoch": 0.45917044718081657,
      "grad_norm": 0.3792881369590759,
      "learning_rate": 0.0005951955545823342,
      "loss": 2.8542,
      "step": 1417
    },
    {
      "epoch": 0.4594944912508101,
      "grad_norm": 0.3655688166618347,
      "learning_rate": 0.0005946802787732798,
      "loss": 2.8406,
      "step": 1418
    },
    {
      "epoch": 0.45981853532080363,
      "grad_norm": 0.35313963890075684,
      "learning_rate": 0.0005941648986494566,
      "loss": 2.9422,
      "step": 1419
    },
    {
      "epoch": 0.46014257939079717,
      "grad_norm": 0.3645817041397095,
      "learning_rate": 0.0005936494147786887,
      "loss": 2.8954,
      "step": 1420
    },
    {
      "epoch": 0.46046662346079065,
      "grad_norm": 0.5667394995689392,
      "learning_rate": 0.000593133827728915,
      "loss": 2.9588,
      "step": 1421
    },
    {
      "epoch": 0.4607906675307842,
      "grad_norm": 0.5161665678024292,
      "learning_rate": 0.0005926181380681876,
      "loss": 2.9271,
      "step": 1422
    },
    {
      "epoch": 0.4611147116007777,
      "grad_norm": 0.3811511695384979,
      "learning_rate": 0.0005921023463646714,
      "loss": 2.9591,
      "step": 1423
    },
    {
      "epoch": 0.46143875567077125,
      "grad_norm": 0.3671618103981018,
      "learning_rate": 0.0005915864531866446,
      "loss": 2.8389,
      "step": 1424
    },
    {
      "epoch": 0.46176279974076473,
      "grad_norm": 0.36241135001182556,
      "learning_rate": 0.0005910704591024967,
      "loss": 2.9288,
      "step": 1425
    },
    {
      "epoch": 0.46208684381075826,
      "grad_norm": 0.47096166014671326,
      "learning_rate": 0.0005905543646807283,
      "loss": 2.9793,
      "step": 1426
    },
    {
      "epoch": 0.4624108878807518,
      "grad_norm": 0.34235671162605286,
      "learning_rate": 0.0005900381704899503,
      "loss": 2.8694,
      "step": 1427
    },
    {
      "epoch": 0.4627349319507453,
      "grad_norm": 0.39376503229141235,
      "learning_rate": 0.0005895218770988843,
      "loss": 2.9457,
      "step": 1428
    },
    {
      "epoch": 0.4630589760207388,
      "grad_norm": 0.48017221689224243,
      "learning_rate": 0.0005890054850763607,
      "loss": 2.8917,
      "step": 1429
    },
    {
      "epoch": 0.46338302009073234,
      "grad_norm": 0.38627883791923523,
      "learning_rate": 0.0005884889949913183,
      "loss": 2.9071,
      "step": 1430
    },
    {
      "epoch": 0.4637070641607259,
      "grad_norm": 0.419483482837677,
      "learning_rate": 0.0005879724074128045,
      "loss": 2.9392,
      "step": 1431
    },
    {
      "epoch": 0.46403110823071936,
      "grad_norm": 0.38486480712890625,
      "learning_rate": 0.0005874557229099739,
      "loss": 2.9068,
      "step": 1432
    },
    {
      "epoch": 0.4643551523007129,
      "grad_norm": 0.3591371476650238,
      "learning_rate": 0.000586938942052088,
      "loss": 2.9458,
      "step": 1433
    },
    {
      "epoch": 0.4646791963707064,
      "grad_norm": 0.4162752330303192,
      "learning_rate": 0.0005864220654085139,
      "loss": 2.8356,
      "step": 1434
    },
    {
      "epoch": 0.46500324044069996,
      "grad_norm": 0.4356827139854431,
      "learning_rate": 0.0005859050935487248,
      "loss": 3.0116,
      "step": 1435
    },
    {
      "epoch": 0.46532728451069344,
      "grad_norm": 0.3899272084236145,
      "learning_rate": 0.000585388027042299,
      "loss": 2.9586,
      "step": 1436
    },
    {
      "epoch": 0.465651328580687,
      "grad_norm": 0.6221802234649658,
      "learning_rate": 0.0005848708664589184,
      "loss": 2.9219,
      "step": 1437
    },
    {
      "epoch": 0.4659753726506805,
      "grad_norm": 0.3790949583053589,
      "learning_rate": 0.0005843536123683688,
      "loss": 2.9077,
      "step": 1438
    },
    {
      "epoch": 0.466299416720674,
      "grad_norm": 0.9637821912765503,
      "learning_rate": 0.0005838362653405395,
      "loss": 2.9068,
      "step": 1439
    },
    {
      "epoch": 0.4666234607906675,
      "grad_norm": 0.3962325155735016,
      "learning_rate": 0.0005833188259454215,
      "loss": 2.8606,
      "step": 1440
    },
    {
      "epoch": 0.46694750486066106,
      "grad_norm": 0.4014039635658264,
      "learning_rate": 0.000582801294753108,
      "loss": 2.9801,
      "step": 1441
    },
    {
      "epoch": 0.4672715489306546,
      "grad_norm": 0.40214869379997253,
      "learning_rate": 0.000582283672333793,
      "loss": 2.898,
      "step": 1442
    },
    {
      "epoch": 0.46759559300064807,
      "grad_norm": 0.5704727172851562,
      "learning_rate": 0.0005817659592577716,
      "loss": 2.924,
      "step": 1443
    },
    {
      "epoch": 0.4679196370706416,
      "grad_norm": 0.35014280676841736,
      "learning_rate": 0.0005812481560954381,
      "loss": 2.9323,
      "step": 1444
    },
    {
      "epoch": 0.46824368114063514,
      "grad_norm": 0.34072571992874146,
      "learning_rate": 0.0005807302634172864,
      "loss": 3.0131,
      "step": 1445
    },
    {
      "epoch": 0.46856772521062867,
      "grad_norm": 0.35073399543762207,
      "learning_rate": 0.000580212281793909,
      "loss": 2.9155,
      "step": 1446
    },
    {
      "epoch": 0.46889176928062215,
      "grad_norm": 0.3466790020465851,
      "learning_rate": 0.0005796942117959966,
      "loss": 2.8612,
      "step": 1447
    },
    {
      "epoch": 0.4692158133506157,
      "grad_norm": 0.3613215982913971,
      "learning_rate": 0.0005791760539943367,
      "loss": 2.8421,
      "step": 1448
    },
    {
      "epoch": 0.4695398574206092,
      "grad_norm": 0.397259920835495,
      "learning_rate": 0.0005786578089598138,
      "loss": 2.8332,
      "step": 1449
    },
    {
      "epoch": 0.4698639014906027,
      "grad_norm": 0.361539363861084,
      "learning_rate": 0.0005781394772634091,
      "loss": 2.8492,
      "step": 1450
    },
    {
      "epoch": 0.47018794556059623,
      "grad_norm": 0.3655901849269867,
      "learning_rate": 0.0005776210594761984,
      "loss": 2.8566,
      "step": 1451
    },
    {
      "epoch": 0.47051198963058977,
      "grad_norm": 0.3833704888820648,
      "learning_rate": 0.0005771025561693529,
      "loss": 2.8652,
      "step": 1452
    },
    {
      "epoch": 0.4708360337005833,
      "grad_norm": 0.39440852403640747,
      "learning_rate": 0.0005765839679141375,
      "loss": 2.8149,
      "step": 1453
    },
    {
      "epoch": 0.4711600777705768,
      "grad_norm": 0.3689374625682831,
      "learning_rate": 0.0005760652952819114,
      "loss": 2.9309,
      "step": 1454
    },
    {
      "epoch": 0.4714841218405703,
      "grad_norm": 0.3574773371219635,
      "learning_rate": 0.0005755465388441265,
      "loss": 2.8012,
      "step": 1455
    },
    {
      "epoch": 0.47180816591056385,
      "grad_norm": 0.4403456449508667,
      "learning_rate": 0.0005750276991723264,
      "loss": 2.826,
      "step": 1456
    },
    {
      "epoch": 0.4721322099805574,
      "grad_norm": 0.3964937925338745,
      "learning_rate": 0.0005745087768381472,
      "loss": 2.8592,
      "step": 1457
    },
    {
      "epoch": 0.47245625405055086,
      "grad_norm": 0.3757643699645996,
      "learning_rate": 0.0005739897724133162,
      "loss": 2.9022,
      "step": 1458
    },
    {
      "epoch": 0.4727802981205444,
      "grad_norm": 0.3973236382007599,
      "learning_rate": 0.0005734706864696503,
      "loss": 2.8357,
      "step": 1459
    },
    {
      "epoch": 0.47310434219053793,
      "grad_norm": 0.45459574460983276,
      "learning_rate": 0.0005729515195790567,
      "loss": 3.0099,
      "step": 1460
    },
    {
      "epoch": 0.4734283862605314,
      "grad_norm": 0.3707083463668823,
      "learning_rate": 0.0005724322723135317,
      "loss": 2.9061,
      "step": 1461
    },
    {
      "epoch": 0.47375243033052494,
      "grad_norm": 0.40226319432258606,
      "learning_rate": 0.0005719129452451607,
      "loss": 2.9065,
      "step": 1462
    },
    {
      "epoch": 0.4740764744005185,
      "grad_norm": 0.40395599603652954,
      "learning_rate": 0.000571393538946116,
      "loss": 2.819,
      "step": 1463
    },
    {
      "epoch": 0.474400518470512,
      "grad_norm": 0.3763801157474518,
      "learning_rate": 0.0005708740539886578,
      "loss": 2.8223,
      "step": 1464
    },
    {
      "epoch": 0.4747245625405055,
      "grad_norm": 0.4091443121433258,
      "learning_rate": 0.0005703544909451331,
      "loss": 2.8639,
      "step": 1465
    },
    {
      "epoch": 0.475048606610499,
      "grad_norm": 0.3581925630569458,
      "learning_rate": 0.0005698348503879746,
      "loss": 2.8658,
      "step": 1466
    },
    {
      "epoch": 0.47537265068049256,
      "grad_norm": 0.42341744899749756,
      "learning_rate": 0.0005693151328897006,
      "loss": 2.9301,
      "step": 1467
    },
    {
      "epoch": 0.4756966947504861,
      "grad_norm": 0.3834809958934784,
      "learning_rate": 0.0005687953390229138,
      "loss": 2.9122,
      "step": 1468
    },
    {
      "epoch": 0.47602073882047957,
      "grad_norm": 0.39136919379234314,
      "learning_rate": 0.0005682754693603017,
      "loss": 2.8639,
      "step": 1469
    },
    {
      "epoch": 0.4763447828904731,
      "grad_norm": 0.35452720522880554,
      "learning_rate": 0.0005677555244746348,
      "loss": 2.8291,
      "step": 1470
    },
    {
      "epoch": 0.47666882696046664,
      "grad_norm": 0.3579041361808777,
      "learning_rate": 0.0005672355049387665,
      "loss": 2.8103,
      "step": 1471
    },
    {
      "epoch": 0.4769928710304601,
      "grad_norm": 0.3520054817199707,
      "learning_rate": 0.0005667154113256326,
      "loss": 2.793,
      "step": 1472
    },
    {
      "epoch": 0.47731691510045365,
      "grad_norm": 0.4978770911693573,
      "learning_rate": 0.0005661952442082508,
      "loss": 2.919,
      "step": 1473
    },
    {
      "epoch": 0.4776409591704472,
      "grad_norm": 0.4169757068157196,
      "learning_rate": 0.000565675004159719,
      "loss": 2.8608,
      "step": 1474
    },
    {
      "epoch": 0.4779650032404407,
      "grad_norm": 0.38473331928253174,
      "learning_rate": 0.0005651546917532161,
      "loss": 2.8744,
      "step": 1475
    },
    {
      "epoch": 0.4782890473104342,
      "grad_norm": 0.35488981008529663,
      "learning_rate": 0.0005646343075620006,
      "loss": 2.7748,
      "step": 1476
    },
    {
      "epoch": 0.47861309138042774,
      "grad_norm": 0.38043031096458435,
      "learning_rate": 0.0005641138521594099,
      "loss": 2.8328,
      "step": 1477
    },
    {
      "epoch": 0.47893713545042127,
      "grad_norm": 0.3493219316005707,
      "learning_rate": 0.0005635933261188601,
      "loss": 2.858,
      "step": 1478
    },
    {
      "epoch": 0.4792611795204148,
      "grad_norm": 0.35182708501815796,
      "learning_rate": 0.0005630727300138448,
      "loss": 2.8647,
      "step": 1479
    },
    {
      "epoch": 0.4795852235904083,
      "grad_norm": 0.38632214069366455,
      "learning_rate": 0.0005625520644179354,
      "loss": 2.8949,
      "step": 1480
    },
    {
      "epoch": 0.4799092676604018,
      "grad_norm": 0.3690461814403534,
      "learning_rate": 0.0005620313299047791,
      "loss": 2.8964,
      "step": 1481
    },
    {
      "epoch": 0.48023331173039535,
      "grad_norm": 0.42309334874153137,
      "learning_rate": 0.0005615105270480996,
      "loss": 2.8197,
      "step": 1482
    },
    {
      "epoch": 0.48055735580038883,
      "grad_norm": 0.3786935806274414,
      "learning_rate": 0.0005609896564216954,
      "loss": 2.8401,
      "step": 1483
    },
    {
      "epoch": 0.48088139987038236,
      "grad_norm": 0.3883889615535736,
      "learning_rate": 0.0005604687185994404,
      "loss": 2.9849,
      "step": 1484
    },
    {
      "epoch": 0.4812054439403759,
      "grad_norm": 0.4184238314628601,
      "learning_rate": 0.0005599477141552818,
      "loss": 2.824,
      "step": 1485
    },
    {
      "epoch": 0.48152948801036943,
      "grad_norm": 0.3590835928916931,
      "learning_rate": 0.0005594266436632405,
      "loss": 2.9066,
      "step": 1486
    },
    {
      "epoch": 0.4818535320803629,
      "grad_norm": 0.35114070773124695,
      "learning_rate": 0.0005589055076974101,
      "loss": 2.8736,
      "step": 1487
    },
    {
      "epoch": 0.48217757615035645,
      "grad_norm": 0.36114072799682617,
      "learning_rate": 0.0005583843068319567,
      "loss": 3.0096,
      "step": 1488
    },
    {
      "epoch": 0.48250162022035,
      "grad_norm": 0.39152786135673523,
      "learning_rate": 0.0005578630416411174,
      "loss": 2.8177,
      "step": 1489
    },
    {
      "epoch": 0.48282566429034346,
      "grad_norm": 0.5205129384994507,
      "learning_rate": 0.0005573417126992003,
      "loss": 2.7986,
      "step": 1490
    },
    {
      "epoch": 0.483149708360337,
      "grad_norm": 0.5108097195625305,
      "learning_rate": 0.0005568203205805839,
      "loss": 2.8689,
      "step": 1491
    },
    {
      "epoch": 0.48347375243033053,
      "grad_norm": 0.37520989775657654,
      "learning_rate": 0.0005562988658597163,
      "loss": 2.8371,
      "step": 1492
    },
    {
      "epoch": 0.48379779650032406,
      "grad_norm": 0.3898782730102539,
      "learning_rate": 0.0005557773491111142,
      "loss": 2.8405,
      "step": 1493
    },
    {
      "epoch": 0.48412184057031754,
      "grad_norm": 0.38608160614967346,
      "learning_rate": 0.0005552557709093632,
      "loss": 2.8367,
      "step": 1494
    },
    {
      "epoch": 0.4844458846403111,
      "grad_norm": 0.358590692281723,
      "learning_rate": 0.0005547341318291164,
      "loss": 2.9529,
      "step": 1495
    },
    {
      "epoch": 0.4847699287103046,
      "grad_norm": 0.3424208164215088,
      "learning_rate": 0.0005542124324450936,
      "loss": 2.8685,
      "step": 1496
    },
    {
      "epoch": 0.48509397278029814,
      "grad_norm": 0.4137357175350189,
      "learning_rate": 0.0005536906733320815,
      "loss": 2.8929,
      "step": 1497
    },
    {
      "epoch": 0.4854180168502916,
      "grad_norm": 0.3522890508174896,
      "learning_rate": 0.0005531688550649325,
      "loss": 2.9223,
      "step": 1498
    },
    {
      "epoch": 0.48574206092028516,
      "grad_norm": 0.4020649790763855,
      "learning_rate": 0.0005526469782185643,
      "loss": 2.841,
      "step": 1499
    },
    {
      "epoch": 0.4860661049902787,
      "grad_norm": 0.3718390464782715,
      "learning_rate": 0.0005521250433679586,
      "loss": 2.9476,
      "step": 1500
    },
    {
      "epoch": 0.48639014906027217,
      "grad_norm": 0.3731135427951813,
      "learning_rate": 0.0005516030510881616,
      "loss": 2.8895,
      "step": 1501
    },
    {
      "epoch": 0.4867141931302657,
      "grad_norm": 0.38636091351509094,
      "learning_rate": 0.0005510810019542824,
      "loss": 2.7819,
      "step": 1502
    },
    {
      "epoch": 0.48703823720025924,
      "grad_norm": 0.3872472047805786,
      "learning_rate": 0.0005505588965414931,
      "loss": 2.7226,
      "step": 1503
    },
    {
      "epoch": 0.4873622812702528,
      "grad_norm": 0.3954702615737915,
      "learning_rate": 0.0005500367354250275,
      "loss": 2.8108,
      "step": 1504
    },
    {
      "epoch": 0.48768632534024625,
      "grad_norm": 0.3812178671360016,
      "learning_rate": 0.0005495145191801805,
      "loss": 2.7846,
      "step": 1505
    },
    {
      "epoch": 0.4880103694102398,
      "grad_norm": 0.7322845458984375,
      "learning_rate": 0.0005489922483823087,
      "loss": 2.8217,
      "step": 1506
    },
    {
      "epoch": 0.4883344134802333,
      "grad_norm": 0.3999643921852112,
      "learning_rate": 0.0005484699236068281,
      "loss": 2.8722,
      "step": 1507
    },
    {
      "epoch": 0.48865845755022685,
      "grad_norm": 0.38666221499443054,
      "learning_rate": 0.0005479475454292139,
      "loss": 2.8958,
      "step": 1508
    },
    {
      "epoch": 0.48898250162022033,
      "grad_norm": 0.38576382398605347,
      "learning_rate": 0.0005474251144250008,
      "loss": 2.9644,
      "step": 1509
    },
    {
      "epoch": 0.48930654569021387,
      "grad_norm": 0.397931307554245,
      "learning_rate": 0.0005469026311697813,
      "loss": 2.8588,
      "step": 1510
    },
    {
      "epoch": 0.4896305897602074,
      "grad_norm": 0.3781823217868805,
      "learning_rate": 0.0005463800962392059,
      "loss": 2.7719,
      "step": 1511
    },
    {
      "epoch": 0.4899546338302009,
      "grad_norm": 0.42918893694877625,
      "learning_rate": 0.0005458575102089813,
      "loss": 2.858,
      "step": 1512
    },
    {
      "epoch": 0.4902786779001944,
      "grad_norm": 0.3758251965045929,
      "learning_rate": 0.0005453348736548709,
      "loss": 2.9068,
      "step": 1513
    },
    {
      "epoch": 0.49060272197018795,
      "grad_norm": 0.34149545431137085,
      "learning_rate": 0.0005448121871526942,
      "loss": 2.7942,
      "step": 1514
    },
    {
      "epoch": 0.4909267660401815,
      "grad_norm": 0.37022238969802856,
      "learning_rate": 0.0005442894512783251,
      "loss": 2.8751,
      "step": 1515
    },
    {
      "epoch": 0.49125081011017496,
      "grad_norm": 0.4172535836696625,
      "learning_rate": 0.000543766666607692,
      "loss": 2.874,
      "step": 1516
    },
    {
      "epoch": 0.4915748541801685,
      "grad_norm": 0.39549750089645386,
      "learning_rate": 0.0005432438337167773,
      "loss": 2.8347,
      "step": 1517
    },
    {
      "epoch": 0.49189889825016203,
      "grad_norm": 0.5078468918800354,
      "learning_rate": 0.0005427209531816163,
      "loss": 2.9691,
      "step": 1518
    },
    {
      "epoch": 0.49222294232015557,
      "grad_norm": 0.4753655791282654,
      "learning_rate": 0.000542198025578297,
      "loss": 2.8822,
      "step": 1519
    },
    {
      "epoch": 0.49254698639014904,
      "grad_norm": 0.34517160058021545,
      "learning_rate": 0.0005416750514829589,
      "loss": 2.7648,
      "step": 1520
    },
    {
      "epoch": 0.4928710304601426,
      "grad_norm": 0.37560805678367615,
      "learning_rate": 0.0005411520314717935,
      "loss": 2.8133,
      "step": 1521
    },
    {
      "epoch": 0.4931950745301361,
      "grad_norm": 0.593905508518219,
      "learning_rate": 0.0005406289661210419,
      "loss": 2.816,
      "step": 1522
    },
    {
      "epoch": 0.4935191186001296,
      "grad_norm": 0.3634693920612335,
      "learning_rate": 0.0005401058560069957,
      "loss": 2.8214,
      "step": 1523
    },
    {
      "epoch": 0.4938431626701231,
      "grad_norm": 1.430576205253601,
      "learning_rate": 0.0005395827017059958,
      "loss": 2.8401,
      "step": 1524
    },
    {
      "epoch": 0.49416720674011666,
      "grad_norm": 0.39710724353790283,
      "learning_rate": 0.0005390595037944317,
      "loss": 2.8137,
      "step": 1525
    },
    {
      "epoch": 0.4944912508101102,
      "grad_norm": 0.4378752112388611,
      "learning_rate": 0.000538536262848741,
      "loss": 2.815,
      "step": 1526
    },
    {
      "epoch": 0.4948152948801037,
      "grad_norm": 0.4839458763599396,
      "learning_rate": 0.0005380129794454086,
      "loss": 2.8775,
      "step": 1527
    },
    {
      "epoch": 0.4951393389500972,
      "grad_norm": 0.4060481786727905,
      "learning_rate": 0.0005374896541609662,
      "loss": 2.863,
      "step": 1528
    },
    {
      "epoch": 0.49546338302009074,
      "grad_norm": 0.4195539951324463,
      "learning_rate": 0.000536966287571992,
      "loss": 2.9174,
      "step": 1529
    },
    {
      "epoch": 0.4957874270900843,
      "grad_norm": 0.41394445300102234,
      "learning_rate": 0.000536442880255109,
      "loss": 2.795,
      "step": 1530
    },
    {
      "epoch": 0.49611147116007775,
      "grad_norm": 0.42417898774147034,
      "learning_rate": 0.0005359194327869857,
      "loss": 2.858,
      "step": 1531
    },
    {
      "epoch": 0.4964355152300713,
      "grad_norm": 0.3802524507045746,
      "learning_rate": 0.0005353959457443346,
      "loss": 2.892,
      "step": 1532
    },
    {
      "epoch": 0.4967595593000648,
      "grad_norm": 0.3901847302913666,
      "learning_rate": 0.0005348724197039117,
      "loss": 2.8249,
      "step": 1533
    },
    {
      "epoch": 0.4970836033700583,
      "grad_norm": 0.3862893879413605,
      "learning_rate": 0.0005343488552425164,
      "loss": 2.8941,
      "step": 1534
    },
    {
      "epoch": 0.49740764744005184,
      "grad_norm": 0.37915441393852234,
      "learning_rate": 0.0005338252529369895,
      "loss": 2.8576,
      "step": 1535
    },
    {
      "epoch": 0.49773169151004537,
      "grad_norm": 0.3916202187538147,
      "learning_rate": 0.0005333016133642149,
      "loss": 2.9689,
      "step": 1536
    },
    {
      "epoch": 0.4980557355800389,
      "grad_norm": 0.37727800011634827,
      "learning_rate": 0.0005327779371011163,
      "loss": 2.7605,
      "step": 1537
    },
    {
      "epoch": 0.4983797796500324,
      "grad_norm": 0.4530884921550751,
      "learning_rate": 0.0005322542247246583,
      "loss": 2.8915,
      "step": 1538
    },
    {
      "epoch": 0.4987038237200259,
      "grad_norm": 0.3946448564529419,
      "learning_rate": 0.0005317304768118451,
      "loss": 2.8773,
      "step": 1539
    },
    {
      "epoch": 0.49902786779001945,
      "grad_norm": 0.3980623483657837,
      "learning_rate": 0.0005312066939397208,
      "loss": 2.9043,
      "step": 1540
    },
    {
      "epoch": 0.499351911860013,
      "grad_norm": 0.38372859358787537,
      "learning_rate": 0.000530682876685367,
      "loss": 2.8449,
      "step": 1541
    },
    {
      "epoch": 0.49967595593000647,
      "grad_norm": 0.397765189409256,
      "learning_rate": 0.0005301590256259037,
      "loss": 2.885,
      "step": 1542
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.44262412190437317,
      "learning_rate": 0.000529635141338488,
      "loss": 2.8894,
      "step": 1543
    },
    {
      "epoch": 0.5003240440699935,
      "grad_norm": 0.4327186048030853,
      "learning_rate": 0.0005291112244003141,
      "loss": 2.8929,
      "step": 1544
    },
    {
      "epoch": 0.5006480881399871,
      "grad_norm": 0.3993978798389435,
      "learning_rate": 0.0005285872753886113,
      "loss": 2.8704,
      "step": 1545
    },
    {
      "epoch": 0.5009721322099806,
      "grad_norm": 0.3551059067249298,
      "learning_rate": 0.0005280632948806446,
      "loss": 2.8264,
      "step": 1546
    },
    {
      "epoch": 0.501296176279974,
      "grad_norm": 0.4444407820701599,
      "learning_rate": 0.0005275392834537145,
      "loss": 2.8363,
      "step": 1547
    },
    {
      "epoch": 0.5016202203499676,
      "grad_norm": 0.34802940487861633,
      "learning_rate": 0.0005270152416851542,
      "loss": 2.7645,
      "step": 1548
    },
    {
      "epoch": 0.5019442644199611,
      "grad_norm": 0.4735659956932068,
      "learning_rate": 0.0005264911701523312,
      "loss": 2.7622,
      "step": 1549
    },
    {
      "epoch": 0.5022683084899546,
      "grad_norm": 0.5741451382637024,
      "learning_rate": 0.0005259670694326455,
      "loss": 2.8348,
      "step": 1550
    },
    {
      "epoch": 0.5025923525599482,
      "grad_norm": 0.38172951340675354,
      "learning_rate": 0.0005254429401035295,
      "loss": 2.8103,
      "step": 1551
    },
    {
      "epoch": 0.5029163966299417,
      "grad_norm": 0.3597853481769562,
      "learning_rate": 0.000524918782742447,
      "loss": 2.8837,
      "step": 1552
    },
    {
      "epoch": 0.5032404406999352,
      "grad_norm": 0.38052213191986084,
      "learning_rate": 0.0005243945979268922,
      "loss": 2.7929,
      "step": 1553
    },
    {
      "epoch": 0.5035644847699287,
      "grad_norm": 0.4133709669113159,
      "learning_rate": 0.0005238703862343906,
      "loss": 2.9107,
      "step": 1554
    },
    {
      "epoch": 0.5038885288399222,
      "grad_norm": 0.40034931898117065,
      "learning_rate": 0.0005233461482424963,
      "loss": 2.7785,
      "step": 1555
    },
    {
      "epoch": 0.5042125729099157,
      "grad_norm": 0.36445897817611694,
      "learning_rate": 0.000522821884528793,
      "loss": 2.8901,
      "step": 1556
    },
    {
      "epoch": 0.5045366169799093,
      "grad_norm": 0.3892974555492401,
      "learning_rate": 0.0005222975956708923,
      "loss": 2.8596,
      "step": 1557
    },
    {
      "epoch": 0.5048606610499028,
      "grad_norm": 0.38357269763946533,
      "learning_rate": 0.0005217732822464338,
      "loss": 2.902,
      "step": 1558
    },
    {
      "epoch": 0.5051847051198963,
      "grad_norm": 0.34622490406036377,
      "learning_rate": 0.0005212489448330843,
      "loss": 2.8869,
      "step": 1559
    },
    {
      "epoch": 0.5055087491898899,
      "grad_norm": 0.39763522148132324,
      "learning_rate": 0.0005207245840085366,
      "loss": 2.911,
      "step": 1560
    },
    {
      "epoch": 0.5058327932598834,
      "grad_norm": 0.37577247619628906,
      "learning_rate": 0.0005202002003505094,
      "loss": 2.8763,
      "step": 1561
    },
    {
      "epoch": 0.5061568373298768,
      "grad_norm": 0.42460620403289795,
      "learning_rate": 0.0005196757944367471,
      "loss": 2.8757,
      "step": 1562
    },
    {
      "epoch": 0.5064808813998704,
      "grad_norm": 0.3739054799079895,
      "learning_rate": 0.0005191513668450177,
      "loss": 2.8356,
      "step": 1563
    },
    {
      "epoch": 0.5068049254698639,
      "grad_norm": 0.38822081685066223,
      "learning_rate": 0.0005186269181531139,
      "loss": 2.7742,
      "step": 1564
    },
    {
      "epoch": 0.5071289695398574,
      "grad_norm": 0.39259248971939087,
      "learning_rate": 0.000518102448938851,
      "loss": 2.8889,
      "step": 1565
    },
    {
      "epoch": 0.507453013609851,
      "grad_norm": 0.3788420557975769,
      "learning_rate": 0.0005175779597800678,
      "loss": 2.8681,
      "step": 1566
    },
    {
      "epoch": 0.5077770576798445,
      "grad_norm": 0.37728315591812134,
      "learning_rate": 0.000517053451254624,
      "loss": 2.9193,
      "step": 1567
    },
    {
      "epoch": 0.508101101749838,
      "grad_norm": 0.3694606125354767,
      "learning_rate": 0.0005165289239404012,
      "loss": 2.8805,
      "step": 1568
    },
    {
      "epoch": 0.5084251458198314,
      "grad_norm": 0.4045979082584381,
      "learning_rate": 0.0005160043784153018,
      "loss": 2.8083,
      "step": 1569
    },
    {
      "epoch": 0.508749189889825,
      "grad_norm": 0.3650651276111603,
      "learning_rate": 0.0005154798152572481,
      "loss": 2.7918,
      "step": 1570
    },
    {
      "epoch": 0.5090732339598185,
      "grad_norm": 0.3710162043571472,
      "learning_rate": 0.0005149552350441817,
      "loss": 2.7862,
      "step": 1571
    },
    {
      "epoch": 0.509397278029812,
      "grad_norm": 0.43194305896759033,
      "learning_rate": 0.0005144306383540632,
      "loss": 2.899,
      "step": 1572
    },
    {
      "epoch": 0.5097213220998056,
      "grad_norm": 0.41553187370300293,
      "learning_rate": 0.0005139060257648713,
      "loss": 2.916,
      "step": 1573
    },
    {
      "epoch": 0.5100453661697991,
      "grad_norm": 0.38480252027511597,
      "learning_rate": 0.0005133813978546023,
      "loss": 2.8457,
      "step": 1574
    },
    {
      "epoch": 0.5103694102397927,
      "grad_norm": 0.40364572405815125,
      "learning_rate": 0.0005128567552012689,
      "loss": 2.8856,
      "step": 1575
    },
    {
      "epoch": 0.5106934543097861,
      "grad_norm": 0.3916628062725067,
      "learning_rate": 0.0005123320983829009,
      "loss": 2.8379,
      "step": 1576
    },
    {
      "epoch": 0.5110174983797796,
      "grad_norm": 0.35680991411209106,
      "learning_rate": 0.0005118074279775429,
      "loss": 2.8455,
      "step": 1577
    },
    {
      "epoch": 0.5113415424497731,
      "grad_norm": 2.363452911376953,
      "learning_rate": 0.000511282744563255,
      "loss": 2.8414,
      "step": 1578
    },
    {
      "epoch": 0.5116655865197667,
      "grad_norm": 0.4544159770011902,
      "learning_rate": 0.0005107580487181112,
      "loss": 2.8831,
      "step": 1579
    },
    {
      "epoch": 0.5119896305897602,
      "grad_norm": 0.3887532651424408,
      "learning_rate": 0.0005102333410201995,
      "loss": 2.9204,
      "step": 1580
    },
    {
      "epoch": 0.5123136746597537,
      "grad_norm": 0.43114084005355835,
      "learning_rate": 0.000509708622047621,
      "loss": 2.8281,
      "step": 1581
    },
    {
      "epoch": 0.5126377187297473,
      "grad_norm": 0.4471890330314636,
      "learning_rate": 0.0005091838923784892,
      "loss": 2.8183,
      "step": 1582
    },
    {
      "epoch": 0.5129617627997408,
      "grad_norm": 0.4428441524505615,
      "learning_rate": 0.0005086591525909289,
      "loss": 2.862,
      "step": 1583
    },
    {
      "epoch": 0.5132858068697342,
      "grad_norm": 0.45673897862434387,
      "learning_rate": 0.0005081344032630766,
      "loss": 2.8701,
      "step": 1584
    },
    {
      "epoch": 0.5136098509397278,
      "grad_norm": 0.6118753552436829,
      "learning_rate": 0.0005076096449730794,
      "loss": 2.8631,
      "step": 1585
    },
    {
      "epoch": 0.5139338950097213,
      "grad_norm": 0.47209200263023376,
      "learning_rate": 0.0005070848782990938,
      "loss": 2.7164,
      "step": 1586
    },
    {
      "epoch": 0.5142579390797148,
      "grad_norm": 2.8594655990600586,
      "learning_rate": 0.0005065601038192855,
      "loss": 2.8424,
      "step": 1587
    },
    {
      "epoch": 0.5145819831497084,
      "grad_norm": 0.37328746914863586,
      "learning_rate": 0.0005060353221118298,
      "loss": 2.8426,
      "step": 1588
    },
    {
      "epoch": 0.5149060272197019,
      "grad_norm": 1.2613933086395264,
      "learning_rate": 0.0005055105337549085,
      "loss": 2.8959,
      "step": 1589
    },
    {
      "epoch": 0.5152300712896954,
      "grad_norm": 0.5107049942016602,
      "learning_rate": 0.0005049857393267117,
      "loss": 2.9267,
      "step": 1590
    },
    {
      "epoch": 0.5155541153596889,
      "grad_norm": 0.36238810420036316,
      "learning_rate": 0.0005044609394054361,
      "loss": 2.8015,
      "step": 1591
    },
    {
      "epoch": 0.5158781594296824,
      "grad_norm": 0.3502896726131439,
      "learning_rate": 0.0005039361345692842,
      "loss": 2.8317,
      "step": 1592
    },
    {
      "epoch": 0.5162022034996759,
      "grad_norm": 0.3781589865684509,
      "learning_rate": 0.000503411325396464,
      "loss": 2.8283,
      "step": 1593
    },
    {
      "epoch": 0.5165262475696695,
      "grad_norm": 0.37279337644577026,
      "learning_rate": 0.000502886512465188,
      "loss": 2.9002,
      "step": 1594
    },
    {
      "epoch": 0.516850291639663,
      "grad_norm": 0.38706809282302856,
      "learning_rate": 0.0005023616963536735,
      "loss": 2.8185,
      "step": 1595
    },
    {
      "epoch": 0.5171743357096565,
      "grad_norm": 0.3590954840183258,
      "learning_rate": 0.0005018368776401408,
      "loss": 2.9004,
      "step": 1596
    },
    {
      "epoch": 0.5174983797796501,
      "grad_norm": 0.4033749997615814,
      "learning_rate": 0.0005013120569028132,
      "loss": 2.7855,
      "step": 1597
    },
    {
      "epoch": 0.5178224238496435,
      "grad_norm": 0.3575074076652527,
      "learning_rate": 0.000500787234719916,
      "loss": 2.9103,
      "step": 1598
    },
    {
      "epoch": 0.518146467919637,
      "grad_norm": 0.8017868995666504,
      "learning_rate": 0.0005002624116696768,
      "loss": 2.8298,
      "step": 1599
    },
    {
      "epoch": 0.5184705119896306,
      "grad_norm": 0.3775973618030548,
      "learning_rate": 0.0004997375883303234,
      "loss": 2.9079,
      "step": 1600
    },
    {
      "epoch": 0.5187945560596241,
      "grad_norm": 0.5369571447372437,
      "learning_rate": 0.0004992127652800841,
      "loss": 2.8702,
      "step": 1601
    },
    {
      "epoch": 0.5191186001296176,
      "grad_norm": 1.6867835521697998,
      "learning_rate": 0.000498687943097187,
      "loss": 2.8833,
      "step": 1602
    },
    {
      "epoch": 0.5194426441996112,
      "grad_norm": 0.431529700756073,
      "learning_rate": 0.0004981631223598595,
      "loss": 2.8288,
      "step": 1603
    },
    {
      "epoch": 0.5197666882696047,
      "grad_norm": 0.5932384133338928,
      "learning_rate": 0.0004976383036463265,
      "loss": 2.9346,
      "step": 1604
    },
    {
      "epoch": 0.5200907323395982,
      "grad_norm": 1.0545915365219116,
      "learning_rate": 0.0004971134875348121,
      "loss": 2.8325,
      "step": 1605
    },
    {
      "epoch": 0.5204147764095917,
      "grad_norm": 0.41850826144218445,
      "learning_rate": 0.0004965886746035361,
      "loss": 2.9323,
      "step": 1606
    },
    {
      "epoch": 0.5207388204795852,
      "grad_norm": 0.36591142416000366,
      "learning_rate": 0.000496063865430716,
      "loss": 2.9059,
      "step": 1607
    },
    {
      "epoch": 0.5210628645495787,
      "grad_norm": 0.6642680168151855,
      "learning_rate": 0.0004955390605945639,
      "loss": 2.8561,
      "step": 1608
    },
    {
      "epoch": 0.5213869086195723,
      "grad_norm": 0.44358009099960327,
      "learning_rate": 0.0004950142606732883,
      "loss": 2.8316,
      "step": 1609
    },
    {
      "epoch": 0.5217109526895658,
      "grad_norm": 2.6792447566986084,
      "learning_rate": 0.0004944894662450917,
      "loss": 2.9513,
      "step": 1610
    },
    {
      "epoch": 0.5220349967595593,
      "grad_norm": 1.0860886573791504,
      "learning_rate": 0.0004939646778881702,
      "loss": 2.9355,
      "step": 1611
    },
    {
      "epoch": 0.5223590408295529,
      "grad_norm": 0.8134539723396301,
      "learning_rate": 0.0004934398961807144,
      "loss": 2.863,
      "step": 1612
    },
    {
      "epoch": 0.5226830848995463,
      "grad_norm": 0.4383932948112488,
      "learning_rate": 0.0004929151217009063,
      "loss": 2.9193,
      "step": 1613
    },
    {
      "epoch": 0.5230071289695398,
      "grad_norm": 1.5091477632522583,
      "learning_rate": 0.0004923903550269207,
      "loss": 2.8595,
      "step": 1614
    },
    {
      "epoch": 0.5233311730395334,
      "grad_norm": 0.38592514395713806,
      "learning_rate": 0.0004918655967369235,
      "loss": 2.7996,
      "step": 1615
    },
    {
      "epoch": 0.5236552171095269,
      "grad_norm": 0.4145164489746094,
      "learning_rate": 0.0004913408474090712,
      "loss": 2.8823,
      "step": 1616
    },
    {
      "epoch": 0.5239792611795204,
      "grad_norm": 0.3842051029205322,
      "learning_rate": 0.000490816107621511,
      "loss": 2.9488,
      "step": 1617
    },
    {
      "epoch": 0.524303305249514,
      "grad_norm": 0.40078893303871155,
      "learning_rate": 0.0004902913779523791,
      "loss": 2.8574,
      "step": 1618
    },
    {
      "epoch": 0.5246273493195075,
      "grad_norm": 1.5386719703674316,
      "learning_rate": 0.0004897666589798005,
      "loss": 2.8701,
      "step": 1619
    },
    {
      "epoch": 0.5249513933895009,
      "grad_norm": 0.43465667963027954,
      "learning_rate": 0.0004892419512818889,
      "loss": 2.8481,
      "step": 1620
    },
    {
      "epoch": 0.5252754374594945,
      "grad_norm": 0.40380367636680603,
      "learning_rate": 0.0004887172554367452,
      "loss": 2.8993,
      "step": 1621
    },
    {
      "epoch": 0.525599481529488,
      "grad_norm": 0.39266109466552734,
      "learning_rate": 0.0004881925720224572,
      "loss": 2.8792,
      "step": 1622
    },
    {
      "epoch": 0.5259235255994815,
      "grad_norm": 0.4336088001728058,
      "learning_rate": 0.0004876679016170993,
      "loss": 2.8572,
      "step": 1623
    },
    {
      "epoch": 0.5262475696694751,
      "grad_norm": 3.9388880729675293,
      "learning_rate": 0.00048714324479873114,
      "loss": 2.9012,
      "step": 1624
    },
    {
      "epoch": 0.5265716137394686,
      "grad_norm": 0.5091949701309204,
      "learning_rate": 0.0004866186021453979,
      "loss": 2.8677,
      "step": 1625
    },
    {
      "epoch": 0.5268956578094621,
      "grad_norm": 0.5294622182846069,
      "learning_rate": 0.00048609397423512866,
      "loss": 2.8489,
      "step": 1626
    },
    {
      "epoch": 0.5272197018794557,
      "grad_norm": 0.9370735883712769,
      "learning_rate": 0.0004855693616459368,
      "loss": 2.8327,
      "step": 1627
    },
    {
      "epoch": 0.5275437459494491,
      "grad_norm": 0.42885932326316833,
      "learning_rate": 0.00048504476495581827,
      "loss": 2.8683,
      "step": 1628
    },
    {
      "epoch": 0.5278677900194426,
      "grad_norm": 0.4078090488910675,
      "learning_rate": 0.000484520184742752,
      "loss": 2.8431,
      "step": 1629
    },
    {
      "epoch": 0.5281918340894362,
      "grad_norm": 0.4112081527709961,
      "learning_rate": 0.0004839956215846983,
      "loss": 2.8954,
      "step": 1630
    },
    {
      "epoch": 0.5285158781594297,
      "grad_norm": 12.696101188659668,
      "learning_rate": 0.00048347107605959885,
      "loss": 2.9548,
      "step": 1631
    },
    {
      "epoch": 0.5288399222294232,
      "grad_norm": 0.5187584757804871,
      "learning_rate": 0.00048294654874537617,
      "loss": 2.9347,
      "step": 1632
    },
    {
      "epoch": 0.5291639662994168,
      "grad_norm": 7.406110763549805,
      "learning_rate": 0.0004824220402199324,
      "loss": 2.9247,
      "step": 1633
    },
    {
      "epoch": 0.5294880103694103,
      "grad_norm": 1.4729551076889038,
      "learning_rate": 0.00048189755106114887,
      "loss": 2.9414,
      "step": 1634
    },
    {
      "epoch": 0.5298120544394037,
      "grad_norm": 1.9676733016967773,
      "learning_rate": 0.0004813730818468862,
      "loss": 2.9578,
      "step": 1635
    },
    {
      "epoch": 0.5301360985093972,
      "grad_norm": 0.9940787553787231,
      "learning_rate": 0.00048084863315498236,
      "loss": 3.011,
      "step": 1636
    },
    {
      "epoch": 0.5304601425793908,
      "grad_norm": 1.6869512796401978,
      "learning_rate": 0.00048032420556325307,
      "loss": 3.0111,
      "step": 1637
    },
    {
      "epoch": 0.5307841866493843,
      "grad_norm": 0.9608646035194397,
      "learning_rate": 0.00047979979964949066,
      "loss": 2.9847,
      "step": 1638
    },
    {
      "epoch": 0.5311082307193778,
      "grad_norm": 1.7946995496749878,
      "learning_rate": 0.0004792754159914636,
      "loss": 3.0126,
      "step": 1639
    },
    {
      "epoch": 0.5314322747893714,
      "grad_norm": 1.8377619981765747,
      "learning_rate": 0.0004787510551669159,
      "loss": 3.0157,
      "step": 1640
    },
    {
      "epoch": 0.5317563188593649,
      "grad_norm": 1.4050848484039307,
      "learning_rate": 0.0004782267177535661,
      "loss": 2.9686,
      "step": 1641
    },
    {
      "epoch": 0.5320803629293583,
      "grad_norm": 0.5544456839561462,
      "learning_rate": 0.0004777024043291078,
      "loss": 2.9475,
      "step": 1642
    },
    {
      "epoch": 0.5324044069993519,
      "grad_norm": 0.46456271409988403,
      "learning_rate": 0.00047717811547120706,
      "loss": 2.9069,
      "step": 1643
    },
    {
      "epoch": 0.5327284510693454,
      "grad_norm": 0.5212525725364685,
      "learning_rate": 0.0004766538517575038,
      "loss": 2.9846,
      "step": 1644
    },
    {
      "epoch": 0.5330524951393389,
      "grad_norm": 0.5193286538124084,
      "learning_rate": 0.0004761296137656095,
      "loss": 2.8564,
      "step": 1645
    },
    {
      "epoch": 0.5333765392093325,
      "grad_norm": 0.4328957200050354,
      "learning_rate": 0.0004756054020731078,
      "loss": 2.9674,
      "step": 1646
    },
    {
      "epoch": 0.533700583279326,
      "grad_norm": 0.3980581760406494,
      "learning_rate": 0.0004750812172575533,
      "loss": 2.869,
      "step": 1647
    },
    {
      "epoch": 0.5340246273493195,
      "grad_norm": 0.41240745782852173,
      "learning_rate": 0.00047455705989647045,
      "loss": 2.9321,
      "step": 1648
    },
    {
      "epoch": 0.5343486714193131,
      "grad_norm": 0.483426570892334,
      "learning_rate": 0.0004740329305673545,
      "loss": 2.9239,
      "step": 1649
    },
    {
      "epoch": 0.5346727154893065,
      "grad_norm": 0.5728239417076111,
      "learning_rate": 0.00047350882984766897,
      "loss": 2.8942,
      "step": 1650
    },
    {
      "epoch": 0.5349967595593,
      "grad_norm": 0.42936038970947266,
      "learning_rate": 0.0004729847583148459,
      "loss": 2.8391,
      "step": 1651
    },
    {
      "epoch": 0.5353208036292936,
      "grad_norm": 0.4573376178741455,
      "learning_rate": 0.00047246071654628564,
      "loss": 2.8797,
      "step": 1652
    },
    {
      "epoch": 0.5356448476992871,
      "grad_norm": 0.4003428816795349,
      "learning_rate": 0.0004719367051193554,
      "loss": 3.0112,
      "step": 1653
    },
    {
      "epoch": 0.5359688917692806,
      "grad_norm": 0.47361820936203003,
      "learning_rate": 0.0004714127246113889,
      "loss": 2.9099,
      "step": 1654
    },
    {
      "epoch": 0.5362929358392742,
      "grad_norm": 0.39164620637893677,
      "learning_rate": 0.00047088877559968613,
      "loss": 2.7788,
      "step": 1655
    },
    {
      "epoch": 0.5366169799092677,
      "grad_norm": 0.44936269521713257,
      "learning_rate": 0.0004703648586615119,
      "loss": 3.0,
      "step": 1656
    },
    {
      "epoch": 0.5369410239792611,
      "grad_norm": 0.47703006863594055,
      "learning_rate": 0.0004698409743740964,
      "loss": 2.8685,
      "step": 1657
    },
    {
      "epoch": 0.5372650680492547,
      "grad_norm": 1.6519631147384644,
      "learning_rate": 0.0004693171233146331,
      "loss": 2.9387,
      "step": 1658
    },
    {
      "epoch": 0.5375891121192482,
      "grad_norm": 0.5436760783195496,
      "learning_rate": 0.0004687933060602793,
      "loss": 2.9462,
      "step": 1659
    },
    {
      "epoch": 0.5379131561892417,
      "grad_norm": 0.47782641649246216,
      "learning_rate": 0.00046826952318815496,
      "loss": 2.9197,
      "step": 1660
    },
    {
      "epoch": 0.5382372002592353,
      "grad_norm": 0.5965679287910461,
      "learning_rate": 0.0004677457752753419,
      "loss": 2.9713,
      "step": 1661
    },
    {
      "epoch": 0.5385612443292288,
      "grad_norm": 0.43287393450737,
      "learning_rate": 0.0004672220628988839,
      "loss": 3.071,
      "step": 1662
    },
    {
      "epoch": 0.5388852883992223,
      "grad_norm": 0.36144861578941345,
      "learning_rate": 0.00046669838663578506,
      "loss": 2.8324,
      "step": 1663
    },
    {
      "epoch": 0.5392093324692158,
      "grad_norm": 0.3805444836616516,
      "learning_rate": 0.0004661747470630104,
      "loss": 2.8844,
      "step": 1664
    },
    {
      "epoch": 0.5395333765392093,
      "grad_norm": 0.36959904432296753,
      "learning_rate": 0.00046565114475748365,
      "loss": 2.8712,
      "step": 1665
    },
    {
      "epoch": 0.5398574206092028,
      "grad_norm": 0.42480987310409546,
      "learning_rate": 0.00046512758029608833,
      "loss": 2.7902,
      "step": 1666
    },
    {
      "epoch": 0.5401814646791964,
      "grad_norm": 0.3866322636604309,
      "learning_rate": 0.0004646040542556655,
      "loss": 2.8326,
      "step": 1667
    },
    {
      "epoch": 0.5405055087491899,
      "grad_norm": 0.36944156885147095,
      "learning_rate": 0.00046408056721301453,
      "loss": 2.8542,
      "step": 1668
    },
    {
      "epoch": 0.5408295528191834,
      "grad_norm": 0.5960929989814758,
      "learning_rate": 0.0004635571197448911,
      "loss": 2.8673,
      "step": 1669
    },
    {
      "epoch": 0.541153596889177,
      "grad_norm": 0.40600475668907166,
      "learning_rate": 0.00046303371242800825,
      "loss": 2.9324,
      "step": 1670
    },
    {
      "epoch": 0.5414776409591704,
      "grad_norm": 0.5663114786148071,
      "learning_rate": 0.00046251034583903375,
      "loss": 2.9418,
      "step": 1671
    },
    {
      "epoch": 0.5418016850291639,
      "grad_norm": 0.45215386152267456,
      "learning_rate": 0.00046198702055459147,
      "loss": 2.8804,
      "step": 1672
    },
    {
      "epoch": 0.5421257290991575,
      "grad_norm": 0.36581042408943176,
      "learning_rate": 0.000461463737151259,
      "loss": 2.8141,
      "step": 1673
    },
    {
      "epoch": 0.542449773169151,
      "grad_norm": 0.3662625849246979,
      "learning_rate": 0.00046094049620556835,
      "loss": 2.7898,
      "step": 1674
    },
    {
      "epoch": 0.5427738172391445,
      "grad_norm": 0.5278875827789307,
      "learning_rate": 0.0004604172982940043,
      "loss": 2.907,
      "step": 1675
    },
    {
      "epoch": 0.5430978613091381,
      "grad_norm": 0.38800737261772156,
      "learning_rate": 0.00045989414399300434,
      "loss": 2.8228,
      "step": 1676
    },
    {
      "epoch": 0.5434219053791316,
      "grad_norm": 0.46813535690307617,
      "learning_rate": 0.0004593710338789582,
      "loss": 2.8471,
      "step": 1677
    },
    {
      "epoch": 0.5437459494491251,
      "grad_norm": 0.377982497215271,
      "learning_rate": 0.0004588479685282065,
      "loss": 2.8543,
      "step": 1678
    },
    {
      "epoch": 0.5440699935191186,
      "grad_norm": 0.3986469805240631,
      "learning_rate": 0.000458324948517041,
      "loss": 2.9819,
      "step": 1679
    },
    {
      "epoch": 0.5443940375891121,
      "grad_norm": 0.3843739628791809,
      "learning_rate": 0.000457801974421703,
      "loss": 2.8509,
      "step": 1680
    },
    {
      "epoch": 0.5447180816591056,
      "grad_norm": 0.3850402534008026,
      "learning_rate": 0.0004572790468183838,
      "loss": 2.8947,
      "step": 1681
    },
    {
      "epoch": 0.5450421257290992,
      "grad_norm": 0.3805654048919678,
      "learning_rate": 0.00045675616628322287,
      "loss": 2.8756,
      "step": 1682
    },
    {
      "epoch": 0.5453661697990927,
      "grad_norm": 0.4057045578956604,
      "learning_rate": 0.0004562333333923081,
      "loss": 2.867,
      "step": 1683
    },
    {
      "epoch": 0.5456902138690862,
      "grad_norm": 0.372459352016449,
      "learning_rate": 0.00045571054872167504,
      "loss": 2.8805,
      "step": 1684
    },
    {
      "epoch": 0.5460142579390798,
      "grad_norm": 0.4119509160518646,
      "learning_rate": 0.0004551878128473059,
      "loss": 2.8601,
      "step": 1685
    },
    {
      "epoch": 0.5463383020090732,
      "grad_norm": 0.36664459109306335,
      "learning_rate": 0.000454665126345129,
      "loss": 2.8714,
      "step": 1686
    },
    {
      "epoch": 0.5466623460790667,
      "grad_norm": 0.36728888750076294,
      "learning_rate": 0.0004541424897910189,
      "loss": 2.9639,
      "step": 1687
    },
    {
      "epoch": 0.5469863901490603,
      "grad_norm": 0.41022348403930664,
      "learning_rate": 0.0004536199037607942,
      "loss": 2.8906,
      "step": 1688
    },
    {
      "epoch": 0.5473104342190538,
      "grad_norm": 0.4342033863067627,
      "learning_rate": 0.00045309736883021866,
      "loss": 2.8511,
      "step": 1689
    },
    {
      "epoch": 0.5476344782890473,
      "grad_norm": 0.34658920764923096,
      "learning_rate": 0.0004525748855749993,
      "loss": 2.8898,
      "step": 1690
    },
    {
      "epoch": 0.5479585223590409,
      "grad_norm": 0.36643391847610474,
      "learning_rate": 0.0004520524545707862,
      "loss": 2.9105,
      "step": 1691
    },
    {
      "epoch": 0.5482825664290344,
      "grad_norm": 0.371171236038208,
      "learning_rate": 0.0004515300763931721,
      "loss": 2.8048,
      "step": 1692
    },
    {
      "epoch": 0.5486066104990278,
      "grad_norm": 0.3659893274307251,
      "learning_rate": 0.0004510077516176912,
      "loss": 2.9236,
      "step": 1693
    },
    {
      "epoch": 0.5489306545690213,
      "grad_norm": 0.3890424966812134,
      "learning_rate": 0.0004504854808198195,
      "loss": 2.8288,
      "step": 1694
    },
    {
      "epoch": 0.5492546986390149,
      "grad_norm": 0.3559049367904663,
      "learning_rate": 0.00044996326457497266,
      "loss": 2.8047,
      "step": 1695
    },
    {
      "epoch": 0.5495787427090084,
      "grad_norm": 0.4185476005077362,
      "learning_rate": 0.00044944110345850703,
      "loss": 2.8764,
      "step": 1696
    },
    {
      "epoch": 0.549902786779002,
      "grad_norm": 0.37292125821113586,
      "learning_rate": 0.0004489189980457177,
      "loss": 2.8692,
      "step": 1697
    },
    {
      "epoch": 0.5502268308489955,
      "grad_norm": 0.388756662607193,
      "learning_rate": 0.00044839694891183853,
      "loss": 2.8179,
      "step": 1698
    },
    {
      "epoch": 0.550550874918989,
      "grad_norm": 0.3882000148296356,
      "learning_rate": 0.0004478749566320416,
      "loss": 2.8542,
      "step": 1699
    },
    {
      "epoch": 0.5508749189889826,
      "grad_norm": 0.3431167006492615,
      "learning_rate": 0.0004473530217814359,
      "loss": 2.9531,
      "step": 1700
    },
    {
      "epoch": 0.551198963058976,
      "grad_norm": 0.4906653165817261,
      "learning_rate": 0.00044683114493506744,
      "loss": 2.8902,
      "step": 1701
    },
    {
      "epoch": 0.5515230071289695,
      "grad_norm": 0.42037680745124817,
      "learning_rate": 0.0004463093266679185,
      "loss": 2.875,
      "step": 1702
    },
    {
      "epoch": 0.551847051198963,
      "grad_norm": 0.3602418601512909,
      "learning_rate": 0.00044578756755490645,
      "loss": 2.8431,
      "step": 1703
    },
    {
      "epoch": 0.5521710952689566,
      "grad_norm": 0.341524213552475,
      "learning_rate": 0.0004452658681708838,
      "loss": 2.9115,
      "step": 1704
    },
    {
      "epoch": 0.5524951393389501,
      "grad_norm": 0.3463726341724396,
      "learning_rate": 0.00044474422909063693,
      "loss": 2.8095,
      "step": 1705
    },
    {
      "epoch": 0.5528191834089436,
      "grad_norm": 0.492657870054245,
      "learning_rate": 0.0004442226508888859,
      "loss": 2.7792,
      "step": 1706
    },
    {
      "epoch": 0.5531432274789372,
      "grad_norm": 0.37802425026893616,
      "learning_rate": 0.000443701134140284,
      "loss": 2.7867,
      "step": 1707
    },
    {
      "epoch": 0.5534672715489306,
      "grad_norm": 0.4026038348674774,
      "learning_rate": 0.00044317967941941616,
      "loss": 2.8521,
      "step": 1708
    },
    {
      "epoch": 0.5537913156189241,
      "grad_norm": 0.3807753622531891,
      "learning_rate": 0.0004426582873007998,
      "loss": 2.7854,
      "step": 1709
    },
    {
      "epoch": 0.5541153596889177,
      "grad_norm": 0.3626105785369873,
      "learning_rate": 0.0004421369583588827,
      "loss": 2.8107,
      "step": 1710
    },
    {
      "epoch": 0.5544394037589112,
      "grad_norm": 0.3706458806991577,
      "learning_rate": 0.00044161569316804333,
      "loss": 2.9159,
      "step": 1711
    },
    {
      "epoch": 0.5547634478289047,
      "grad_norm": 0.39285537600517273,
      "learning_rate": 0.00044109449230258997,
      "loss": 2.8957,
      "step": 1712
    },
    {
      "epoch": 0.5550874918988983,
      "grad_norm": 0.7910880446434021,
      "learning_rate": 0.0004405733563367596,
      "loss": 2.7607,
      "step": 1713
    },
    {
      "epoch": 0.5554115359688918,
      "grad_norm": 0.36369311809539795,
      "learning_rate": 0.0004400522858447184,
      "loss": 2.9112,
      "step": 1714
    },
    {
      "epoch": 0.5557355800388852,
      "grad_norm": 0.4153406023979187,
      "learning_rate": 0.0004395312814005596,
      "loss": 2.9694,
      "step": 1715
    },
    {
      "epoch": 0.5560596241088788,
      "grad_norm": 0.3735656142234802,
      "learning_rate": 0.0004390103435783046,
      "loss": 2.8344,
      "step": 1716
    },
    {
      "epoch": 0.5563836681788723,
      "grad_norm": 0.37653324007987976,
      "learning_rate": 0.00043848947295190054,
      "loss": 2.826,
      "step": 1717
    },
    {
      "epoch": 0.5567077122488658,
      "grad_norm": 0.3728199601173401,
      "learning_rate": 0.0004379686700952209,
      "loss": 2.8626,
      "step": 1718
    },
    {
      "epoch": 0.5570317563188594,
      "grad_norm": 0.4080648124217987,
      "learning_rate": 0.0004374479355820647,
      "loss": 2.8087,
      "step": 1719
    },
    {
      "epoch": 0.5573558003888529,
      "grad_norm": 0.4287669360637665,
      "learning_rate": 0.00043692726998615527,
      "loss": 2.8491,
      "step": 1720
    },
    {
      "epoch": 0.5576798444588464,
      "grad_norm": 0.36937767267227173,
      "learning_rate": 0.00043640667388114004,
      "loss": 2.8495,
      "step": 1721
    },
    {
      "epoch": 0.55800388852884,
      "grad_norm": 0.3390102684497833,
      "learning_rate": 0.00043588614784059027,
      "loss": 2.816,
      "step": 1722
    },
    {
      "epoch": 0.5583279325988334,
      "grad_norm": 0.3819049596786499,
      "learning_rate": 0.00043536569243799947,
      "loss": 2.8794,
      "step": 1723
    },
    {
      "epoch": 0.5586519766688269,
      "grad_norm": 0.3617617189884186,
      "learning_rate": 0.00043484530824678406,
      "loss": 2.8195,
      "step": 1724
    },
    {
      "epoch": 0.5589760207388205,
      "grad_norm": 0.3442806005477905,
      "learning_rate": 0.00043432499584028104,
      "loss": 2.6996,
      "step": 1725
    },
    {
      "epoch": 0.559300064808814,
      "grad_norm": 0.39911243319511414,
      "learning_rate": 0.00043380475579174937,
      "loss": 2.8339,
      "step": 1726
    },
    {
      "epoch": 0.5596241088788075,
      "grad_norm": 0.38498735427856445,
      "learning_rate": 0.0004332845886743674,
      "loss": 2.9367,
      "step": 1727
    },
    {
      "epoch": 0.5599481529488011,
      "grad_norm": 0.40429118275642395,
      "learning_rate": 0.00043276449506123363,
      "loss": 2.8124,
      "step": 1728
    },
    {
      "epoch": 0.5602721970187946,
      "grad_norm": 0.3836648464202881,
      "learning_rate": 0.00043224447552536537,
      "loss": 2.8005,
      "step": 1729
    },
    {
      "epoch": 0.560596241088788,
      "grad_norm": 0.5250623226165771,
      "learning_rate": 0.0004317245306396983,
      "loss": 2.932,
      "step": 1730
    },
    {
      "epoch": 0.5609202851587816,
      "grad_norm": 0.4014158546924591,
      "learning_rate": 0.00043120466097708624,
      "loss": 2.9068,
      "step": 1731
    },
    {
      "epoch": 0.5612443292287751,
      "grad_norm": 0.35739386081695557,
      "learning_rate": 0.0004306848671102995,
      "loss": 2.8709,
      "step": 1732
    },
    {
      "epoch": 0.5615683732987686,
      "grad_norm": 0.36816638708114624,
      "learning_rate": 0.00043016514961202544,
      "loss": 2.939,
      "step": 1733
    },
    {
      "epoch": 0.5618924173687622,
      "grad_norm": 0.3749207854270935,
      "learning_rate": 0.000429645509054867,
      "loss": 2.8129,
      "step": 1734
    },
    {
      "epoch": 0.5622164614387557,
      "grad_norm": 0.37603577971458435,
      "learning_rate": 0.0004291259460113423,
      "loss": 2.7563,
      "step": 1735
    },
    {
      "epoch": 0.5625405055087492,
      "grad_norm": 0.36675581336021423,
      "learning_rate": 0.0004286064610538842,
      "loss": 2.7685,
      "step": 1736
    },
    {
      "epoch": 0.5628645495787427,
      "grad_norm": 0.40991050004959106,
      "learning_rate": 0.00042808705475483956,
      "loss": 2.7842,
      "step": 1737
    },
    {
      "epoch": 0.5631885936487362,
      "grad_norm": 0.35565751791000366,
      "learning_rate": 0.00042756772768646817,
      "loss": 2.7974,
      "step": 1738
    },
    {
      "epoch": 0.5635126377187297,
      "grad_norm": 0.40580493211746216,
      "learning_rate": 0.0004270484804209434,
      "loss": 2.8274,
      "step": 1739
    },
    {
      "epoch": 0.5638366817887233,
      "grad_norm": 0.37197133898735046,
      "learning_rate": 0.0004265293135303498,
      "loss": 2.9038,
      "step": 1740
    },
    {
      "epoch": 0.5641607258587168,
      "grad_norm": 0.7048603296279907,
      "learning_rate": 0.00042601022758668387,
      "loss": 2.8704,
      "step": 1741
    },
    {
      "epoch": 0.5644847699287103,
      "grad_norm": 0.4183002710342407,
      "learning_rate": 0.0004254912231618528,
      "loss": 2.7938,
      "step": 1742
    },
    {
      "epoch": 0.5648088139987039,
      "grad_norm": 0.3649575412273407,
      "learning_rate": 0.00042497230082767367,
      "loss": 2.8502,
      "step": 1743
    },
    {
      "epoch": 0.5651328580686974,
      "grad_norm": 0.3544735610485077,
      "learning_rate": 0.0004244534611558738,
      "loss": 2.8532,
      "step": 1744
    },
    {
      "epoch": 0.5654569021386908,
      "grad_norm": 0.3362697958946228,
      "learning_rate": 0.0004239347047180885,
      "loss": 2.8985,
      "step": 1745
    },
    {
      "epoch": 0.5657809462086844,
      "grad_norm": 0.595835268497467,
      "learning_rate": 0.0004234160320858625,
      "loss": 2.7417,
      "step": 1746
    },
    {
      "epoch": 0.5661049902786779,
      "grad_norm": 0.36746302247047424,
      "learning_rate": 0.0004228974438306472,
      "loss": 2.917,
      "step": 1747
    },
    {
      "epoch": 0.5664290343486714,
      "grad_norm": 0.36928948760032654,
      "learning_rate": 0.00042237894052380164,
      "loss": 2.8847,
      "step": 1748
    },
    {
      "epoch": 0.566753078418665,
      "grad_norm": 0.41235455870628357,
      "learning_rate": 0.00042186052273659097,
      "loss": 2.8871,
      "step": 1749
    },
    {
      "epoch": 0.5670771224886585,
      "grad_norm": 0.3684033155441284,
      "learning_rate": 0.0004213421910401861,
      "loss": 2.9146,
      "step": 1750
    },
    {
      "epoch": 0.567401166558652,
      "grad_norm": 0.3641631007194519,
      "learning_rate": 0.0004208239460056635,
      "loss": 2.7141,
      "step": 1751
    },
    {
      "epoch": 0.5677252106286454,
      "grad_norm": 0.3938468098640442,
      "learning_rate": 0.0004203057882040037,
      "loss": 2.804,
      "step": 1752
    },
    {
      "epoch": 0.568049254698639,
      "grad_norm": 0.35402801632881165,
      "learning_rate": 0.000419787718206091,
      "loss": 2.8269,
      "step": 1753
    },
    {
      "epoch": 0.5683732987686325,
      "grad_norm": 0.36864614486694336,
      "learning_rate": 0.00041926973658271366,
      "loss": 2.833,
      "step": 1754
    },
    {
      "epoch": 0.568697342838626,
      "grad_norm": 0.4171956181526184,
      "learning_rate": 0.00041875184390456193,
      "loss": 2.8231,
      "step": 1755
    },
    {
      "epoch": 0.5690213869086196,
      "grad_norm": 0.37141773104667664,
      "learning_rate": 0.00041823404074222846,
      "loss": 2.9223,
      "step": 1756
    },
    {
      "epoch": 0.5693454309786131,
      "grad_norm": 0.41206052899360657,
      "learning_rate": 0.00041771632766620704,
      "loss": 2.9548,
      "step": 1757
    },
    {
      "epoch": 0.5696694750486067,
      "grad_norm": 0.5443493127822876,
      "learning_rate": 0.0004171987052468921,
      "loss": 2.8747,
      "step": 1758
    },
    {
      "epoch": 0.5699935191186001,
      "grad_norm": 0.3766923248767853,
      "learning_rate": 0.00041668117405457866,
      "loss": 2.8777,
      "step": 1759
    },
    {
      "epoch": 0.5703175631885936,
      "grad_norm": 0.5201454758644104,
      "learning_rate": 0.0004161637346594605,
      "loss": 2.9214,
      "step": 1760
    },
    {
      "epoch": 0.5706416072585871,
      "grad_norm": 0.3906964659690857,
      "learning_rate": 0.0004156463876316312,
      "loss": 2.8221,
      "step": 1761
    },
    {
      "epoch": 0.5709656513285807,
      "grad_norm": 0.39066365361213684,
      "learning_rate": 0.00041512913354108165,
      "loss": 2.8841,
      "step": 1762
    },
    {
      "epoch": 0.5712896953985742,
      "grad_norm": 0.370374858379364,
      "learning_rate": 0.00041461197295770107,
      "loss": 2.8672,
      "step": 1763
    },
    {
      "epoch": 0.5716137394685677,
      "grad_norm": 0.3587266206741333,
      "learning_rate": 0.00041409490645127526,
      "loss": 2.9385,
      "step": 1764
    },
    {
      "epoch": 0.5719377835385613,
      "grad_norm": 0.41466522216796875,
      "learning_rate": 0.0004135779345914862,
      "loss": 2.8798,
      "step": 1765
    },
    {
      "epoch": 0.5722618276085548,
      "grad_norm": 0.3457775115966797,
      "learning_rate": 0.00041306105794791225,
      "loss": 2.8594,
      "step": 1766
    },
    {
      "epoch": 0.5725858716785482,
      "grad_norm": 0.4015641212463379,
      "learning_rate": 0.00041254427709002626,
      "loss": 2.8353,
      "step": 1767
    },
    {
      "epoch": 0.5729099157485418,
      "grad_norm": 0.43940383195877075,
      "learning_rate": 0.0004120275925871955,
      "loss": 2.8713,
      "step": 1768
    },
    {
      "epoch": 0.5732339598185353,
      "grad_norm": 0.41276979446411133,
      "learning_rate": 0.00041151100500868177,
      "loss": 2.89,
      "step": 1769
    },
    {
      "epoch": 0.5735580038885288,
      "grad_norm": 0.41725683212280273,
      "learning_rate": 0.00041099451492363946,
      "loss": 2.8536,
      "step": 1770
    },
    {
      "epoch": 0.5738820479585224,
      "grad_norm": 0.3687417507171631,
      "learning_rate": 0.0004104781229011158,
      "loss": 2.8403,
      "step": 1771
    },
    {
      "epoch": 0.5742060920285159,
      "grad_norm": 0.49369511008262634,
      "learning_rate": 0.00040996182951004987,
      "loss": 2.9149,
      "step": 1772
    },
    {
      "epoch": 0.5745301360985094,
      "grad_norm": 0.33837535977363586,
      "learning_rate": 0.00040944563531927194,
      "loss": 2.7732,
      "step": 1773
    },
    {
      "epoch": 0.5748541801685029,
      "grad_norm": 0.401541531085968,
      "learning_rate": 0.0004089295408975034,
      "loss": 2.7765,
      "step": 1774
    },
    {
      "epoch": 0.5751782242384964,
      "grad_norm": 0.4094216227531433,
      "learning_rate": 0.0004084135468133553,
      "loss": 2.9532,
      "step": 1775
    },
    {
      "epoch": 0.5755022683084899,
      "grad_norm": 0.35603415966033936,
      "learning_rate": 0.0004078976536353286,
      "loss": 2.8168,
      "step": 1776
    },
    {
      "epoch": 0.5758263123784835,
      "grad_norm": 0.40834346413612366,
      "learning_rate": 0.0004073818619318126,
      "loss": 2.7947,
      "step": 1777
    },
    {
      "epoch": 0.576150356448477,
      "grad_norm": 0.528721034526825,
      "learning_rate": 0.0004068661722710851,
      "loss": 2.8568,
      "step": 1778
    },
    {
      "epoch": 0.5764744005184705,
      "grad_norm": 0.36561834812164307,
      "learning_rate": 0.0004063505852213114,
      "loss": 2.8158,
      "step": 1779
    },
    {
      "epoch": 0.5767984445884641,
      "grad_norm": 0.4265548884868622,
      "learning_rate": 0.0004058351013505436,
      "loss": 2.8645,
      "step": 1780
    },
    {
      "epoch": 0.5771224886584575,
      "grad_norm": 0.3848452568054199,
      "learning_rate": 0.00040531972122672034,
      "loss": 2.8296,
      "step": 1781
    },
    {
      "epoch": 0.577446532728451,
      "grad_norm": 0.38450032472610474,
      "learning_rate": 0.00040480444541766573,
      "loss": 2.7591,
      "step": 1782
    },
    {
      "epoch": 0.5777705767984446,
      "grad_norm": 0.6669673323631287,
      "learning_rate": 0.0004042892744910895,
      "loss": 2.8596,
      "step": 1783
    },
    {
      "epoch": 0.5780946208684381,
      "grad_norm": 0.3560098111629486,
      "learning_rate": 0.00040377420901458507,
      "loss": 2.8189,
      "step": 1784
    },
    {
      "epoch": 0.5784186649384316,
      "grad_norm": 0.39700931310653687,
      "learning_rate": 0.00040325924955563006,
      "loss": 2.7208,
      "step": 1785
    },
    {
      "epoch": 0.5787427090084252,
      "grad_norm": 0.38210397958755493,
      "learning_rate": 0.00040274439668158533,
      "loss": 2.8821,
      "step": 1786
    },
    {
      "epoch": 0.5790667530784187,
      "grad_norm": 0.47406527400016785,
      "learning_rate": 0.00040222965095969434,
      "loss": 2.885,
      "step": 1787
    },
    {
      "epoch": 0.5793907971484121,
      "grad_norm": 0.4441710114479065,
      "learning_rate": 0.000401715012957082,
      "loss": 2.8252,
      "step": 1788
    },
    {
      "epoch": 0.5797148412184057,
      "grad_norm": 0.4363211393356323,
      "learning_rate": 0.00040120048324075535,
      "loss": 2.9289,
      "step": 1789
    },
    {
      "epoch": 0.5800388852883992,
      "grad_norm": 0.59734708070755,
      "learning_rate": 0.0004006860623776013,
      "loss": 2.7975,
      "step": 1790
    },
    {
      "epoch": 0.5803629293583927,
      "grad_norm": 0.6003641486167908,
      "learning_rate": 0.00040017175093438764,
      "loss": 2.7806,
      "step": 1791
    },
    {
      "epoch": 0.5806869734283863,
      "grad_norm": 5.435689926147461,
      "learning_rate": 0.0003996575494777609,
      "loss": 2.9467,
      "step": 1792
    },
    {
      "epoch": 0.5810110174983798,
      "grad_norm": 0.5285032391548157,
      "learning_rate": 0.00039914345857424696,
      "loss": 2.8681,
      "step": 1793
    },
    {
      "epoch": 0.5813350615683733,
      "grad_norm": 0.4990265965461731,
      "learning_rate": 0.0003986294787902495,
      "loss": 2.8523,
      "step": 1794
    },
    {
      "epoch": 0.5816591056383669,
      "grad_norm": 0.5176206231117249,
      "learning_rate": 0.0003981156106920498,
      "loss": 2.8423,
      "step": 1795
    },
    {
      "epoch": 0.5819831497083603,
      "grad_norm": 0.48356950283050537,
      "learning_rate": 0.0003976018548458066,
      "loss": 2.833,
      "step": 1796
    },
    {
      "epoch": 0.5823071937783538,
      "grad_norm": 0.4640997052192688,
      "learning_rate": 0.00039708821181755403,
      "loss": 2.842,
      "step": 1797
    },
    {
      "epoch": 0.5826312378483474,
      "grad_norm": 0.41134563088417053,
      "learning_rate": 0.0003965746821732032,
      "loss": 2.8797,
      "step": 1798
    },
    {
      "epoch": 0.5829552819183409,
      "grad_norm": 0.3883204460144043,
      "learning_rate": 0.000396061266478539,
      "loss": 2.8797,
      "step": 1799
    },
    {
      "epoch": 0.5832793259883344,
      "grad_norm": 0.501289427280426,
      "learning_rate": 0.0003955479652992218,
      "loss": 2.828,
      "step": 1800
    },
    {
      "epoch": 0.583603370058328,
      "grad_norm": 0.4847157597541809,
      "learning_rate": 0.000395034779200785,
      "loss": 2.8546,
      "step": 1801
    },
    {
      "epoch": 0.5839274141283215,
      "grad_norm": 1.059738278388977,
      "learning_rate": 0.0003945217087486358,
      "loss": 2.9501,
      "step": 1802
    },
    {
      "epoch": 0.5842514581983149,
      "grad_norm": 0.7705841064453125,
      "learning_rate": 0.0003940087545080535,
      "loss": 2.94,
      "step": 1803
    },
    {
      "epoch": 0.5845755022683085,
      "grad_norm": 1.1495873928070068,
      "learning_rate": 0.0003934959170441898,
      "loss": 2.9746,
      "step": 1804
    },
    {
      "epoch": 0.584899546338302,
      "grad_norm": 0.5062245726585388,
      "learning_rate": 0.00039298319692206737,
      "loss": 2.921,
      "step": 1805
    },
    {
      "epoch": 0.5852235904082955,
      "grad_norm": 0.7405472993850708,
      "learning_rate": 0.00039247059470658017,
      "loss": 2.8883,
      "step": 1806
    },
    {
      "epoch": 0.5855476344782891,
      "grad_norm": 0.47299516201019287,
      "learning_rate": 0.00039195811096249145,
      "loss": 2.7714,
      "step": 1807
    },
    {
      "epoch": 0.5858716785482826,
      "grad_norm": 0.5030993223190308,
      "learning_rate": 0.0003914457462544347,
      "loss": 2.9014,
      "step": 1808
    },
    {
      "epoch": 0.5861957226182761,
      "grad_norm": 0.46272289752960205,
      "learning_rate": 0.0003909335011469117,
      "loss": 2.9692,
      "step": 1809
    },
    {
      "epoch": 0.5865197666882696,
      "grad_norm": 0.5119158029556274,
      "learning_rate": 0.0003904213762042926,
      "loss": 2.813,
      "step": 1810
    },
    {
      "epoch": 0.5868438107582631,
      "grad_norm": 0.4104454517364502,
      "learning_rate": 0.0003899093719908155,
      "loss": 2.8808,
      "step": 1811
    },
    {
      "epoch": 0.5871678548282566,
      "grad_norm": 0.4304215610027313,
      "learning_rate": 0.00038939748907058485,
      "loss": 2.8763,
      "step": 1812
    },
    {
      "epoch": 0.5874918988982502,
      "grad_norm": 0.49948811531066895,
      "learning_rate": 0.0003888857280075722,
      "loss": 2.8442,
      "step": 1813
    },
    {
      "epoch": 0.5878159429682437,
      "grad_norm": 0.6588788032531738,
      "learning_rate": 0.0003883740893656142,
      "loss": 2.8775,
      "step": 1814
    },
    {
      "epoch": 0.5881399870382372,
      "grad_norm": 0.40534037351608276,
      "learning_rate": 0.00038786257370841324,
      "loss": 2.8113,
      "step": 1815
    },
    {
      "epoch": 0.5884640311082308,
      "grad_norm": 0.46888116002082825,
      "learning_rate": 0.0003873511815995355,
      "loss": 2.774,
      "step": 1816
    },
    {
      "epoch": 0.5887880751782243,
      "grad_norm": 0.3654875159263611,
      "learning_rate": 0.0003868399136024115,
      "loss": 2.8552,
      "step": 1817
    },
    {
      "epoch": 0.5891121192482177,
      "grad_norm": 0.36112841963768005,
      "learning_rate": 0.00038632877028033503,
      "loss": 2.8108,
      "step": 1818
    },
    {
      "epoch": 0.5894361633182112,
      "grad_norm": 0.4143536388874054,
      "learning_rate": 0.00038581775219646234,
      "loss": 2.9109,
      "step": 1819
    },
    {
      "epoch": 0.5897602073882048,
      "grad_norm": 0.48592084646224976,
      "learning_rate": 0.0003853068599138115,
      "loss": 2.8332,
      "step": 1820
    },
    {
      "epoch": 0.5900842514581983,
      "grad_norm": 0.48245060443878174,
      "learning_rate": 0.0003847960939952628,
      "loss": 2.9255,
      "step": 1821
    },
    {
      "epoch": 0.5904082955281919,
      "grad_norm": 0.401760071516037,
      "learning_rate": 0.00038428545500355637,
      "loss": 2.8322,
      "step": 1822
    },
    {
      "epoch": 0.5907323395981854,
      "grad_norm": 0.4726453125476837,
      "learning_rate": 0.0003837749435012931,
      "loss": 2.8103,
      "step": 1823
    },
    {
      "epoch": 0.5910563836681789,
      "grad_norm": 0.7404868602752686,
      "learning_rate": 0.000383264560050933,
      "loss": 2.7826,
      "step": 1824
    },
    {
      "epoch": 0.5913804277381723,
      "grad_norm": 0.3972225785255432,
      "learning_rate": 0.0003827543052147952,
      "loss": 2.7848,
      "step": 1825
    },
    {
      "epoch": 0.5917044718081659,
      "grad_norm": 0.354323148727417,
      "learning_rate": 0.0003822441795550573,
      "loss": 2.6915,
      "step": 1826
    },
    {
      "epoch": 0.5920285158781594,
      "grad_norm": 0.36496707797050476,
      "learning_rate": 0.00038173418363375404,
      "loss": 2.8954,
      "step": 1827
    },
    {
      "epoch": 0.592352559948153,
      "grad_norm": 0.3759153187274933,
      "learning_rate": 0.0003812243180127781,
      "loss": 2.7937,
      "step": 1828
    },
    {
      "epoch": 0.5926766040181465,
      "grad_norm": 0.35679399967193604,
      "learning_rate": 0.00038071458325387775,
      "loss": 2.8567,
      "step": 1829
    },
    {
      "epoch": 0.59300064808814,
      "grad_norm": 0.5259186625480652,
      "learning_rate": 0.00038020497991865754,
      "loss": 2.8516,
      "step": 1830
    },
    {
      "epoch": 0.5933246921581335,
      "grad_norm": 0.4128166437149048,
      "learning_rate": 0.0003796955085685771,
      "loss": 2.8465,
      "step": 1831
    },
    {
      "epoch": 0.593648736228127,
      "grad_norm": 0.3703376352787018,
      "learning_rate": 0.00037918616976495047,
      "loss": 2.861,
      "step": 1832
    },
    {
      "epoch": 0.5939727802981205,
      "grad_norm": 0.37941887974739075,
      "learning_rate": 0.00037867696406894603,
      "loss": 2.836,
      "step": 1833
    },
    {
      "epoch": 0.594296824368114,
      "grad_norm": 0.39527443051338196,
      "learning_rate": 0.00037816789204158524,
      "loss": 2.7562,
      "step": 1834
    },
    {
      "epoch": 0.5946208684381076,
      "grad_norm": 0.35592055320739746,
      "learning_rate": 0.00037765895424374214,
      "loss": 2.8528,
      "step": 1835
    },
    {
      "epoch": 0.5949449125081011,
      "grad_norm": 0.341580331325531,
      "learning_rate": 0.0003771501512361435,
      "loss": 2.7782,
      "step": 1836
    },
    {
      "epoch": 0.5952689565780946,
      "grad_norm": 0.38135141134262085,
      "learning_rate": 0.00037664148357936686,
      "loss": 2.8759,
      "step": 1837
    },
    {
      "epoch": 0.5955930006480882,
      "grad_norm": 0.36528444290161133,
      "learning_rate": 0.0003761329518338412,
      "loss": 2.8938,
      "step": 1838
    },
    {
      "epoch": 0.5959170447180817,
      "grad_norm": 0.38480472564697266,
      "learning_rate": 0.0003756245565598453,
      "loss": 2.8663,
      "step": 1839
    },
    {
      "epoch": 0.5962410887880751,
      "grad_norm": 0.36854204535484314,
      "learning_rate": 0.0003751162983175079,
      "loss": 2.8748,
      "step": 1840
    },
    {
      "epoch": 0.5965651328580687,
      "grad_norm": 0.39254438877105713,
      "learning_rate": 0.0003746081776668067,
      "loss": 2.818,
      "step": 1841
    },
    {
      "epoch": 0.5968891769280622,
      "grad_norm": 0.43806564807891846,
      "learning_rate": 0.0003741001951675675,
      "loss": 2.8721,
      "step": 1842
    },
    {
      "epoch": 0.5972132209980557,
      "grad_norm": 0.38909071683883667,
      "learning_rate": 0.00037359235137946454,
      "loss": 2.8954,
      "step": 1843
    },
    {
      "epoch": 0.5975372650680493,
      "grad_norm": 0.47164303064346313,
      "learning_rate": 0.0003730846468620187,
      "loss": 2.7694,
      "step": 1844
    },
    {
      "epoch": 0.5978613091380428,
      "grad_norm": 0.3559122085571289,
      "learning_rate": 0.00037257708217459755,
      "loss": 2.8049,
      "step": 1845
    },
    {
      "epoch": 0.5981853532080363,
      "grad_norm": 0.3718124330043793,
      "learning_rate": 0.0003720696578764147,
      "loss": 2.8247,
      "step": 1846
    },
    {
      "epoch": 0.5985093972780298,
      "grad_norm": 0.37554416060447693,
      "learning_rate": 0.00037156237452652875,
      "loss": 2.8695,
      "step": 1847
    },
    {
      "epoch": 0.5988334413480233,
      "grad_norm": 0.4038706123828888,
      "learning_rate": 0.0003710552326838437,
      "loss": 2.7404,
      "step": 1848
    },
    {
      "epoch": 0.5991574854180168,
      "grad_norm": 0.40998950600624084,
      "learning_rate": 0.0003705482329071066,
      "loss": 2.8311,
      "step": 1849
    },
    {
      "epoch": 0.5994815294880104,
      "grad_norm": 0.33301785588264465,
      "learning_rate": 0.00037004137575490917,
      "loss": 2.7895,
      "step": 1850
    },
    {
      "epoch": 0.5998055735580039,
      "grad_norm": 0.3539043068885803,
      "learning_rate": 0.0003695346617856852,
      "loss": 2.7963,
      "step": 1851
    },
    {
      "epoch": 0.6001296176279974,
      "grad_norm": 0.3736816644668579,
      "learning_rate": 0.00036902809155771077,
      "loss": 2.8123,
      "step": 1852
    },
    {
      "epoch": 0.600453661697991,
      "grad_norm": 0.39150989055633545,
      "learning_rate": 0.0003685216656291041,
      "loss": 2.9093,
      "step": 1853
    },
    {
      "epoch": 0.6007777057679844,
      "grad_norm": 0.3479098677635193,
      "learning_rate": 0.00036801538455782386,
      "loss": 2.7764,
      "step": 1854
    },
    {
      "epoch": 0.6011017498379779,
      "grad_norm": 0.42375102639198303,
      "learning_rate": 0.00036750924890166926,
      "loss": 2.8251,
      "step": 1855
    },
    {
      "epoch": 0.6014257939079715,
      "grad_norm": 0.38100385665893555,
      "learning_rate": 0.00036700325921827957,
      "loss": 2.8884,
      "step": 1856
    },
    {
      "epoch": 0.601749837977965,
      "grad_norm": 0.4744018614292145,
      "learning_rate": 0.0003664974160651328,
      "loss": 2.8829,
      "step": 1857
    },
    {
      "epoch": 0.6020738820479585,
      "grad_norm": 0.3992328643798828,
      "learning_rate": 0.0003659917199995461,
      "loss": 2.8527,
      "step": 1858
    },
    {
      "epoch": 0.6023979261179521,
      "grad_norm": 0.3582710921764374,
      "learning_rate": 0.00036548617157867406,
      "loss": 2.8399,
      "step": 1859
    },
    {
      "epoch": 0.6027219701879456,
      "grad_norm": 0.37806692719459534,
      "learning_rate": 0.0003649807713595088,
      "loss": 2.8426,
      "step": 1860
    },
    {
      "epoch": 0.6030460142579391,
      "grad_norm": 0.38368260860443115,
      "learning_rate": 0.00036447551989887917,
      "loss": 2.8509,
      "step": 1861
    },
    {
      "epoch": 0.6033700583279326,
      "grad_norm": 0.37325575947761536,
      "learning_rate": 0.0003639704177534499,
      "loss": 2.9045,
      "step": 1862
    },
    {
      "epoch": 0.6036941023979261,
      "grad_norm": 0.3558433949947357,
      "learning_rate": 0.0003634654654797217,
      "loss": 2.858,
      "step": 1863
    },
    {
      "epoch": 0.6040181464679196,
      "grad_norm": 0.366367906332016,
      "learning_rate": 0.00036296066363402936,
      "loss": 2.8361,
      "step": 1864
    },
    {
      "epoch": 0.6043421905379132,
      "grad_norm": 0.3590410649776459,
      "learning_rate": 0.00036245601277254305,
      "loss": 2.7956,
      "step": 1865
    },
    {
      "epoch": 0.6046662346079067,
      "grad_norm": 0.4124048948287964,
      "learning_rate": 0.00036195151345126556,
      "loss": 2.92,
      "step": 1866
    },
    {
      "epoch": 0.6049902786779002,
      "grad_norm": 0.36567631363868713,
      "learning_rate": 0.0003614471662260333,
      "loss": 2.7746,
      "step": 1867
    },
    {
      "epoch": 0.6053143227478938,
      "grad_norm": 0.4831697344779968,
      "learning_rate": 0.0003609429716525149,
      "loss": 2.7102,
      "step": 1868
    },
    {
      "epoch": 0.6056383668178872,
      "grad_norm": 0.5179647207260132,
      "learning_rate": 0.0003604389302862108,
      "loss": 2.8435,
      "step": 1869
    },
    {
      "epoch": 0.6059624108878807,
      "grad_norm": 0.50640869140625,
      "learning_rate": 0.0003599350426824526,
      "loss": 2.7471,
      "step": 1870
    },
    {
      "epoch": 0.6062864549578743,
      "grad_norm": 0.3916328251361847,
      "learning_rate": 0.0003594313093964027,
      "loss": 2.8882,
      "step": 1871
    },
    {
      "epoch": 0.6066104990278678,
      "grad_norm": 0.4761413037776947,
      "learning_rate": 0.0003589277309830532,
      "loss": 2.8557,
      "step": 1872
    },
    {
      "epoch": 0.6069345430978613,
      "grad_norm": 0.39707329869270325,
      "learning_rate": 0.000358424307997226,
      "loss": 2.8967,
      "step": 1873
    },
    {
      "epoch": 0.6072585871678549,
      "grad_norm": 0.38461530208587646,
      "learning_rate": 0.0003579210409935713,
      "loss": 2.7015,
      "step": 1874
    },
    {
      "epoch": 0.6075826312378484,
      "grad_norm": 0.35113027691841125,
      "learning_rate": 0.0003574179305265677,
      "loss": 2.7319,
      "step": 1875
    },
    {
      "epoch": 0.6079066753078418,
      "grad_norm": 0.3509359657764435,
      "learning_rate": 0.00035691497715052126,
      "loss": 2.8161,
      "step": 1876
    },
    {
      "epoch": 0.6082307193778353,
      "grad_norm": 0.391342431306839,
      "learning_rate": 0.0003564121814195647,
      "loss": 2.8514,
      "step": 1877
    },
    {
      "epoch": 0.6085547634478289,
      "grad_norm": 0.35413670539855957,
      "learning_rate": 0.00035590954388765774,
      "loss": 2.8331,
      "step": 1878
    },
    {
      "epoch": 0.6088788075178224,
      "grad_norm": 0.36752668023109436,
      "learning_rate": 0.00035540706510858483,
      "loss": 2.7912,
      "step": 1879
    },
    {
      "epoch": 0.609202851587816,
      "grad_norm": 0.39772701263427734,
      "learning_rate": 0.00035490474563595664,
      "loss": 2.7555,
      "step": 1880
    },
    {
      "epoch": 0.6095268956578095,
      "grad_norm": 0.4421774446964264,
      "learning_rate": 0.0003544025860232074,
      "loss": 2.7782,
      "step": 1881
    },
    {
      "epoch": 0.609850939727803,
      "grad_norm": 0.5612204670906067,
      "learning_rate": 0.0003539005868235957,
      "loss": 2.8183,
      "step": 1882
    },
    {
      "epoch": 0.6101749837977966,
      "grad_norm": 0.38278406858444214,
      "learning_rate": 0.0003533987485902033,
      "loss": 2.7837,
      "step": 1883
    },
    {
      "epoch": 0.61049902786779,
      "grad_norm": 0.3913086950778961,
      "learning_rate": 0.0003528970718759342,
      "loss": 2.8781,
      "step": 1884
    },
    {
      "epoch": 0.6108230719377835,
      "grad_norm": 0.38454627990722656,
      "learning_rate": 0.00035239555723351533,
      "loss": 2.8386,
      "step": 1885
    },
    {
      "epoch": 0.611147116007777,
      "grad_norm": 0.3991072177886963,
      "learning_rate": 0.0003518942052154942,
      "loss": 2.7596,
      "step": 1886
    },
    {
      "epoch": 0.6114711600777706,
      "grad_norm": 0.5990774035453796,
      "learning_rate": 0.0003513930163742394,
      "loss": 2.9073,
      "step": 1887
    },
    {
      "epoch": 0.6117952041477641,
      "grad_norm": 0.4060005843639374,
      "learning_rate": 0.00035089199126194003,
      "loss": 2.8157,
      "step": 1888
    },
    {
      "epoch": 0.6121192482177576,
      "grad_norm": 0.38905373215675354,
      "learning_rate": 0.00035039113043060455,
      "loss": 2.9117,
      "step": 1889
    },
    {
      "epoch": 0.6124432922877512,
      "grad_norm": 0.3580619990825653,
      "learning_rate": 0.0003498904344320606,
      "loss": 2.8736,
      "step": 1890
    },
    {
      "epoch": 0.6127673363577446,
      "grad_norm": 0.4053511619567871,
      "learning_rate": 0.0003493899038179538,
      "loss": 2.8864,
      "step": 1891
    },
    {
      "epoch": 0.6130913804277381,
      "grad_norm": 0.38249796628952026,
      "learning_rate": 0.000348889539139748,
      "loss": 2.7884,
      "step": 1892
    },
    {
      "epoch": 0.6134154244977317,
      "grad_norm": 0.4622798562049866,
      "learning_rate": 0.000348389340948724,
      "loss": 2.8461,
      "step": 1893
    },
    {
      "epoch": 0.6137394685677252,
      "grad_norm": 0.35465413331985474,
      "learning_rate": 0.0003478893097959791,
      "loss": 2.7552,
      "step": 1894
    },
    {
      "epoch": 0.6140635126377187,
      "grad_norm": 0.4140715003013611,
      "learning_rate": 0.000347389446232427,
      "loss": 2.9019,
      "step": 1895
    },
    {
      "epoch": 0.6143875567077123,
      "grad_norm": 0.398109495639801,
      "learning_rate": 0.00034688975080879623,
      "loss": 2.786,
      "step": 1896
    },
    {
      "epoch": 0.6147116007777058,
      "grad_norm": 0.39757758378982544,
      "learning_rate": 0.0003463902240756306,
      "loss": 2.9309,
      "step": 1897
    },
    {
      "epoch": 0.6150356448476992,
      "grad_norm": 0.5917924642562866,
      "learning_rate": 0.0003458908665832874,
      "loss": 2.7722,
      "step": 1898
    },
    {
      "epoch": 0.6153596889176928,
      "grad_norm": 0.38763394951820374,
      "learning_rate": 0.0003453916788819379,
      "loss": 2.8295,
      "step": 1899
    },
    {
      "epoch": 0.6156837329876863,
      "grad_norm": 0.3809301257133484,
      "learning_rate": 0.0003448926615215663,
      "loss": 2.8691,
      "step": 1900
    },
    {
      "epoch": 0.6160077770576798,
      "grad_norm": 0.34591710567474365,
      "learning_rate": 0.0003443938150519691,
      "loss": 2.7738,
      "step": 1901
    },
    {
      "epoch": 0.6163318211276734,
      "grad_norm": 0.3868071436882019,
      "learning_rate": 0.0003438951400227541,
      "loss": 2.7565,
      "step": 1902
    },
    {
      "epoch": 0.6166558651976669,
      "grad_norm": 0.8004064559936523,
      "learning_rate": 0.0003433966369833411,
      "loss": 2.8187,
      "step": 1903
    },
    {
      "epoch": 0.6169799092676604,
      "grad_norm": 0.336122989654541,
      "learning_rate": 0.0003428983064829595,
      "loss": 2.8224,
      "step": 1904
    },
    {
      "epoch": 0.6173039533376539,
      "grad_norm": 0.3536408841609955,
      "learning_rate": 0.0003424001490706493,
      "loss": 2.8505,
      "step": 1905
    },
    {
      "epoch": 0.6176279974076474,
      "grad_norm": 0.35417187213897705,
      "learning_rate": 0.0003419021652952593,
      "loss": 2.7699,
      "step": 1906
    },
    {
      "epoch": 0.6179520414776409,
      "grad_norm": 0.34574806690216064,
      "learning_rate": 0.00034140435570544704,
      "loss": 2.8633,
      "step": 1907
    },
    {
      "epoch": 0.6182760855476345,
      "grad_norm": 0.4080303907394409,
      "learning_rate": 0.0003409067208496786,
      "loss": 2.7989,
      "step": 1908
    },
    {
      "epoch": 0.618600129617628,
      "grad_norm": 0.3718806803226471,
      "learning_rate": 0.0003404092612762269,
      "loss": 2.9003,
      "step": 1909
    },
    {
      "epoch": 0.6189241736876215,
      "grad_norm": 0.3394816219806671,
      "learning_rate": 0.0003399119775331725,
      "loss": 2.793,
      "step": 1910
    },
    {
      "epoch": 0.6192482177576151,
      "grad_norm": 0.34152689576148987,
      "learning_rate": 0.00033941487016840143,
      "loss": 2.8401,
      "step": 1911
    },
    {
      "epoch": 0.6195722618276086,
      "grad_norm": 0.46942055225372314,
      "learning_rate": 0.00033891793972960603,
      "loss": 2.8321,
      "step": 1912
    },
    {
      "epoch": 0.619896305897602,
      "grad_norm": 0.3707009553909302,
      "learning_rate": 0.00033842118676428345,
      "loss": 2.7736,
      "step": 1913
    },
    {
      "epoch": 0.6202203499675956,
      "grad_norm": 0.3671743869781494,
      "learning_rate": 0.0003379246118197351,
      "loss": 2.9276,
      "step": 1914
    },
    {
      "epoch": 0.6205443940375891,
      "grad_norm": 0.3687193989753723,
      "learning_rate": 0.0003374282154430667,
      "loss": 2.7985,
      "step": 1915
    },
    {
      "epoch": 0.6208684381075826,
      "grad_norm": 0.35557785630226135,
      "learning_rate": 0.0003369319981811867,
      "loss": 2.84,
      "step": 1916
    },
    {
      "epoch": 0.6211924821775762,
      "grad_norm": 0.3853912055492401,
      "learning_rate": 0.00033643596058080695,
      "loss": 2.7757,
      "step": 1917
    },
    {
      "epoch": 0.6215165262475697,
      "grad_norm": 0.3393879532814026,
      "learning_rate": 0.0003359401031884407,
      "loss": 2.8196,
      "step": 1918
    },
    {
      "epoch": 0.6218405703175632,
      "grad_norm": 0.3805393874645233,
      "learning_rate": 0.00033544442655040276,
      "loss": 2.7712,
      "step": 1919
    },
    {
      "epoch": 0.6221646143875567,
      "grad_norm": 0.37937912344932556,
      "learning_rate": 0.0003349489312128091,
      "loss": 2.7756,
      "step": 1920
    },
    {
      "epoch": 0.6224886584575502,
      "grad_norm": 0.3687146008014679,
      "learning_rate": 0.0003344536177215757,
      "loss": 2.8266,
      "step": 1921
    },
    {
      "epoch": 0.6228127025275437,
      "grad_norm": 0.3813891112804413,
      "learning_rate": 0.00033395848662241806,
      "loss": 2.864,
      "step": 1922
    },
    {
      "epoch": 0.6231367465975373,
      "grad_norm": 0.3815055787563324,
      "learning_rate": 0.0003334635384608512,
      "loss": 2.6939,
      "step": 1923
    },
    {
      "epoch": 0.6234607906675308,
      "grad_norm": 0.34211674332618713,
      "learning_rate": 0.00033296877378218785,
      "loss": 2.8103,
      "step": 1924
    },
    {
      "epoch": 0.6237848347375243,
      "grad_norm": 0.37000638246536255,
      "learning_rate": 0.0003324741931315396,
      "loss": 2.8824,
      "step": 1925
    },
    {
      "epoch": 0.6241088788075179,
      "grad_norm": 0.3767330050468445,
      "learning_rate": 0.00033197979705381427,
      "loss": 2.8612,
      "step": 1926
    },
    {
      "epoch": 0.6244329228775113,
      "grad_norm": 0.3465987741947174,
      "learning_rate": 0.00033148558609371703,
      "loss": 2.8299,
      "step": 1927
    },
    {
      "epoch": 0.6247569669475048,
      "grad_norm": 0.40337052941322327,
      "learning_rate": 0.0003309915607957487,
      "loss": 2.8386,
      "step": 1928
    },
    {
      "epoch": 0.6250810110174984,
      "grad_norm": 0.3694950342178345,
      "learning_rate": 0.0003304977217042057,
      "loss": 2.8038,
      "step": 1929
    },
    {
      "epoch": 0.6254050550874919,
      "grad_norm": 0.4229605197906494,
      "learning_rate": 0.00033000406936317927,
      "loss": 2.8064,
      "step": 1930
    },
    {
      "epoch": 0.6257290991574854,
      "grad_norm": 0.3737636208534241,
      "learning_rate": 0.00032951060431655473,
      "loss": 2.9257,
      "step": 1931
    },
    {
      "epoch": 0.626053143227479,
      "grad_norm": 0.3849114775657654,
      "learning_rate": 0.0003290173271080116,
      "loss": 2.7723,
      "step": 1932
    },
    {
      "epoch": 0.6263771872974725,
      "grad_norm": 0.3736577332019806,
      "learning_rate": 0.0003285242382810218,
      "loss": 2.7943,
      "step": 1933
    },
    {
      "epoch": 0.626701231367466,
      "grad_norm": 0.43184730410575867,
      "learning_rate": 0.00032803133837885,
      "loss": 2.9407,
      "step": 1934
    },
    {
      "epoch": 0.6270252754374595,
      "grad_norm": 0.41722506284713745,
      "learning_rate": 0.0003275386279445528,
      "loss": 2.7986,
      "step": 1935
    },
    {
      "epoch": 0.627349319507453,
      "grad_norm": 0.3652704954147339,
      "learning_rate": 0.00032704610752097785,
      "loss": 2.7852,
      "step": 1936
    },
    {
      "epoch": 0.6276733635774465,
      "grad_norm": 0.37751683592796326,
      "learning_rate": 0.00032655377765076343,
      "loss": 2.7249,
      "step": 1937
    },
    {
      "epoch": 0.62799740764744,
      "grad_norm": 0.3726659119129181,
      "learning_rate": 0.00032606163887633817,
      "loss": 2.7154,
      "step": 1938
    },
    {
      "epoch": 0.6283214517174336,
      "grad_norm": 0.39654770493507385,
      "learning_rate": 0.0003255696917399197,
      "loss": 2.8362,
      "step": 1939
    },
    {
      "epoch": 0.6286454957874271,
      "grad_norm": 0.36193057894706726,
      "learning_rate": 0.0003250779367835152,
      "loss": 2.7952,
      "step": 1940
    },
    {
      "epoch": 0.6289695398574207,
      "grad_norm": 0.36026471853256226,
      "learning_rate": 0.00032458637454891936,
      "loss": 2.7902,
      "step": 1941
    },
    {
      "epoch": 0.6292935839274141,
      "grad_norm": 0.3853119909763336,
      "learning_rate": 0.0003240950055777151,
      "loss": 2.7839,
      "step": 1942
    },
    {
      "epoch": 0.6296176279974076,
      "grad_norm": 0.37732264399528503,
      "learning_rate": 0.00032360383041127213,
      "loss": 2.8581,
      "step": 1943
    },
    {
      "epoch": 0.6299416720674011,
      "grad_norm": 0.41706690192222595,
      "learning_rate": 0.0003231128495907465,
      "loss": 2.775,
      "step": 1944
    },
    {
      "epoch": 0.6302657161373947,
      "grad_norm": 0.37322258949279785,
      "learning_rate": 0.00032262206365708064,
      "loss": 2.7347,
      "step": 1945
    },
    {
      "epoch": 0.6305897602073882,
      "grad_norm": 0.36993876099586487,
      "learning_rate": 0.00032213147315100153,
      "loss": 2.8327,
      "step": 1946
    },
    {
      "epoch": 0.6309138042773818,
      "grad_norm": 0.36996880173683167,
      "learning_rate": 0.0003216410786130218,
      "loss": 2.84,
      "step": 1947
    },
    {
      "epoch": 0.6312378483473753,
      "grad_norm": 0.3562261760234833,
      "learning_rate": 0.0003211508805834372,
      "loss": 2.7583,
      "step": 1948
    },
    {
      "epoch": 0.6315618924173687,
      "grad_norm": 0.39599379897117615,
      "learning_rate": 0.0003206608796023277,
      "loss": 2.8582,
      "step": 1949
    },
    {
      "epoch": 0.6318859364873622,
      "grad_norm": 0.3513411283493042,
      "learning_rate": 0.00032017107620955576,
      "loss": 2.8534,
      "step": 1950
    },
    {
      "epoch": 0.6322099805573558,
      "grad_norm": 0.5722299218177795,
      "learning_rate": 0.0003196814709447661,
      "loss": 2.827,
      "step": 1951
    },
    {
      "epoch": 0.6325340246273493,
      "grad_norm": 0.3779679834842682,
      "learning_rate": 0.0003191920643473855,
      "loss": 2.8149,
      "step": 1952
    },
    {
      "epoch": 0.6328580686973428,
      "grad_norm": 0.3819374144077301,
      "learning_rate": 0.00031870285695662163,
      "loss": 2.848,
      "step": 1953
    },
    {
      "epoch": 0.6331821127673364,
      "grad_norm": 0.40905463695526123,
      "learning_rate": 0.00031821384931146255,
      "loss": 2.785,
      "step": 1954
    },
    {
      "epoch": 0.6335061568373299,
      "grad_norm": 0.3520844876766205,
      "learning_rate": 0.00031772504195067675,
      "loss": 2.7946,
      "step": 1955
    },
    {
      "epoch": 0.6338302009073234,
      "grad_norm": 0.3579491376876831,
      "learning_rate": 0.00031723643541281137,
      "loss": 2.7639,
      "step": 1956
    },
    {
      "epoch": 0.6341542449773169,
      "grad_norm": 0.4146721363067627,
      "learning_rate": 0.00031674803023619305,
      "loss": 2.8391,
      "step": 1957
    },
    {
      "epoch": 0.6344782890473104,
      "grad_norm": 0.38062775135040283,
      "learning_rate": 0.00031625982695892587,
      "loss": 2.7906,
      "step": 1958
    },
    {
      "epoch": 0.6348023331173039,
      "grad_norm": 0.40066009759902954,
      "learning_rate": 0.00031577182611889173,
      "loss": 2.7466,
      "step": 1959
    },
    {
      "epoch": 0.6351263771872975,
      "grad_norm": 0.3610024154186249,
      "learning_rate": 0.00031528402825374975,
      "loss": 2.7478,
      "step": 1960
    },
    {
      "epoch": 0.635450421257291,
      "grad_norm": 0.36353251338005066,
      "learning_rate": 0.00031479643390093493,
      "loss": 2.7455,
      "step": 1961
    },
    {
      "epoch": 0.6357744653272845,
      "grad_norm": 0.3609219491481781,
      "learning_rate": 0.00031430904359765866,
      "loss": 2.8232,
      "step": 1962
    },
    {
      "epoch": 0.6360985093972781,
      "grad_norm": 0.4958065152168274,
      "learning_rate": 0.00031382185788090687,
      "loss": 2.8574,
      "step": 1963
    },
    {
      "epoch": 0.6364225534672715,
      "grad_norm": 0.4164592921733856,
      "learning_rate": 0.0003133348772874407,
      "loss": 2.8084,
      "step": 1964
    },
    {
      "epoch": 0.636746597537265,
      "grad_norm": 0.384280264377594,
      "learning_rate": 0.0003128481023537948,
      "loss": 2.801,
      "step": 1965
    },
    {
      "epoch": 0.6370706416072586,
      "grad_norm": 0.36748063564300537,
      "learning_rate": 0.0003123615336162774,
      "loss": 2.8263,
      "step": 1966
    },
    {
      "epoch": 0.6373946856772521,
      "grad_norm": 0.3865104913711548,
      "learning_rate": 0.00031187517161096966,
      "loss": 2.8556,
      "step": 1967
    },
    {
      "epoch": 0.6377187297472456,
      "grad_norm": 0.355602502822876,
      "learning_rate": 0.0003113890168737248,
      "loss": 2.7724,
      "step": 1968
    },
    {
      "epoch": 0.6380427738172392,
      "grad_norm": 0.3920598328113556,
      "learning_rate": 0.0003109030699401677,
      "loss": 2.7898,
      "step": 1969
    },
    {
      "epoch": 0.6383668178872327,
      "grad_norm": 0.3432714641094208,
      "learning_rate": 0.0003104173313456946,
      "loss": 2.7624,
      "step": 1970
    },
    {
      "epoch": 0.6386908619572261,
      "grad_norm": 0.36184942722320557,
      "learning_rate": 0.0003099318016254717,
      "loss": 2.8223,
      "step": 1971
    },
    {
      "epoch": 0.6390149060272197,
      "grad_norm": 0.35366055369377136,
      "learning_rate": 0.0003094464813144355,
      "loss": 2.8268,
      "step": 1972
    },
    {
      "epoch": 0.6393389500972132,
      "grad_norm": 0.3619862198829651,
      "learning_rate": 0.0003089613709472916,
      "loss": 2.7594,
      "step": 1973
    },
    {
      "epoch": 0.6396629941672067,
      "grad_norm": 0.4269976019859314,
      "learning_rate": 0.00030847647105851415,
      "loss": 2.9349,
      "step": 1974
    },
    {
      "epoch": 0.6399870382372003,
      "grad_norm": 1.064794898033142,
      "learning_rate": 0.0003079917821823457,
      "loss": 2.7693,
      "step": 1975
    },
    {
      "epoch": 0.6403110823071938,
      "grad_norm": 0.36693766713142395,
      "learning_rate": 0.000307507304852796,
      "loss": 2.8985,
      "step": 1976
    },
    {
      "epoch": 0.6406351263771873,
      "grad_norm": 0.4235740602016449,
      "learning_rate": 0.0003070230396036422,
      "loss": 2.8106,
      "step": 1977
    },
    {
      "epoch": 0.6409591704471809,
      "grad_norm": 0.36852559447288513,
      "learning_rate": 0.0003065389869684272,
      "loss": 2.7856,
      "step": 1978
    },
    {
      "epoch": 0.6412832145171743,
      "grad_norm": 0.39648452401161194,
      "learning_rate": 0.0003060551474804601,
      "loss": 2.8507,
      "step": 1979
    },
    {
      "epoch": 0.6416072585871678,
      "grad_norm": 0.38533368706703186,
      "learning_rate": 0.000305571521672815,
      "loss": 2.7744,
      "step": 1980
    },
    {
      "epoch": 0.6419313026571614,
      "grad_norm": 0.37058621644973755,
      "learning_rate": 0.00030508811007833037,
      "loss": 2.9306,
      "step": 1981
    },
    {
      "epoch": 0.6422553467271549,
      "grad_norm": 0.3970264494419098,
      "learning_rate": 0.0003046049132296091,
      "loss": 2.7897,
      "step": 1982
    },
    {
      "epoch": 0.6425793907971484,
      "grad_norm": 0.4125159680843353,
      "learning_rate": 0.000304121931659017,
      "loss": 2.7705,
      "step": 1983
    },
    {
      "epoch": 0.642903434867142,
      "grad_norm": 0.39760157465934753,
      "learning_rate": 0.00030363916589868327,
      "loss": 2.7948,
      "step": 1984
    },
    {
      "epoch": 0.6432274789371355,
      "grad_norm": 0.38089701533317566,
      "learning_rate": 0.000303156616480499,
      "loss": 2.7906,
      "step": 1985
    },
    {
      "epoch": 0.6435515230071289,
      "grad_norm": 0.3927183151245117,
      "learning_rate": 0.00030267428393611654,
      "loss": 2.8259,
      "step": 1986
    },
    {
      "epoch": 0.6438755670771225,
      "grad_norm": 0.3980444371700287,
      "learning_rate": 0.0003021921687969502,
      "loss": 2.7683,
      "step": 1987
    },
    {
      "epoch": 0.644199611147116,
      "grad_norm": 0.4194698929786682,
      "learning_rate": 0.0003017102715941741,
      "loss": 2.8069,
      "step": 1988
    },
    {
      "epoch": 0.6445236552171095,
      "grad_norm": 0.37135493755340576,
      "learning_rate": 0.00030122859285872214,
      "loss": 2.8378,
      "step": 1989
    },
    {
      "epoch": 0.6448476992871031,
      "grad_norm": 0.43027377128601074,
      "learning_rate": 0.00030074713312128816,
      "loss": 2.8068,
      "step": 1990
    },
    {
      "epoch": 0.6451717433570966,
      "grad_norm": 0.464619517326355,
      "learning_rate": 0.00030026589291232397,
      "loss": 2.7866,
      "step": 1991
    },
    {
      "epoch": 0.6454957874270901,
      "grad_norm": 0.4992590844631195,
      "learning_rate": 0.00029978487276204036,
      "loss": 2.8332,
      "step": 1992
    },
    {
      "epoch": 0.6458198314970836,
      "grad_norm": 0.44847825169563293,
      "learning_rate": 0.00029930407320040485,
      "loss": 2.9035,
      "step": 1993
    },
    {
      "epoch": 0.6461438755670771,
      "grad_norm": 0.3820931911468506,
      "learning_rate": 0.0002988234947571424,
      "loss": 2.8152,
      "step": 1994
    },
    {
      "epoch": 0.6464679196370706,
      "grad_norm": 0.4618322253227234,
      "learning_rate": 0.00029834313796173433,
      "loss": 2.7928,
      "step": 1995
    },
    {
      "epoch": 0.6467919637070642,
      "grad_norm": 0.4259873330593109,
      "learning_rate": 0.00029786300334341744,
      "loss": 2.8022,
      "step": 1996
    },
    {
      "epoch": 0.6471160077770577,
      "grad_norm": 0.3672929108142853,
      "learning_rate": 0.00029738309143118415,
      "loss": 2.8838,
      "step": 1997
    },
    {
      "epoch": 0.6474400518470512,
      "grad_norm": 0.4553915858268738,
      "learning_rate": 0.00029690340275378096,
      "loss": 2.7616,
      "step": 1998
    },
    {
      "epoch": 0.6477640959170448,
      "grad_norm": 2.045140504837036,
      "learning_rate": 0.0002964239378397093,
      "loss": 2.8452,
      "step": 1999
    },
    {
      "epoch": 0.6480881399870383,
      "grad_norm": 0.8034627437591553,
      "learning_rate": 0.00029594469721722327,
      "loss": 2.6588,
      "step": 2000
    },
    {
      "epoch": 0.6484121840570317,
      "grad_norm": 0.3812915086746216,
      "learning_rate": 0.00029546568141433004,
      "loss": 2.8066,
      "step": 2001
    },
    {
      "epoch": 0.6487362281270252,
      "grad_norm": 0.5730817914009094,
      "learning_rate": 0.00029498689095878945,
      "loss": 2.7725,
      "step": 2002
    },
    {
      "epoch": 0.6490602721970188,
      "grad_norm": 0.34329521656036377,
      "learning_rate": 0.0002945083263781126,
      "loss": 2.8141,
      "step": 2003
    },
    {
      "epoch": 0.6493843162670123,
      "grad_norm": 0.36596688628196716,
      "learning_rate": 0.00029402998819956185,
      "loss": 2.7501,
      "step": 2004
    },
    {
      "epoch": 0.6497083603370059,
      "grad_norm": 0.4037022590637207,
      "learning_rate": 0.0002935518769501504,
      "loss": 2.8162,
      "step": 2005
    },
    {
      "epoch": 0.6500324044069994,
      "grad_norm": 0.351429283618927,
      "learning_rate": 0.00029307399315664083,
      "loss": 2.7412,
      "step": 2006
    },
    {
      "epoch": 0.6503564484769929,
      "grad_norm": 0.37601515650749207,
      "learning_rate": 0.00029259633734554603,
      "loss": 2.8326,
      "step": 2007
    },
    {
      "epoch": 0.6506804925469863,
      "grad_norm": 0.3975737392902374,
      "learning_rate": 0.0002921189100431268,
      "loss": 2.8514,
      "step": 2008
    },
    {
      "epoch": 0.6510045366169799,
      "grad_norm": 0.41024449467658997,
      "learning_rate": 0.0002916417117753928,
      "loss": 2.7576,
      "step": 2009
    },
    {
      "epoch": 0.6513285806869734,
      "grad_norm": 0.37709206342697144,
      "learning_rate": 0.000291164743068101,
      "loss": 2.8231,
      "step": 2010
    },
    {
      "epoch": 0.651652624756967,
      "grad_norm": 0.3556814193725586,
      "learning_rate": 0.0002906880044467555,
      "loss": 2.7793,
      "step": 2011
    },
    {
      "epoch": 0.6519766688269605,
      "grad_norm": 0.36845800280570984,
      "learning_rate": 0.00029021149643660706,
      "loss": 2.7563,
      "step": 2012
    },
    {
      "epoch": 0.652300712896954,
      "grad_norm": 0.37416312098503113,
      "learning_rate": 0.000289735219562652,
      "loss": 2.7643,
      "step": 2013
    },
    {
      "epoch": 0.6526247569669476,
      "grad_norm": 0.37140360474586487,
      "learning_rate": 0.00028925917434963254,
      "loss": 2.7985,
      "step": 2014
    },
    {
      "epoch": 0.652948801036941,
      "grad_norm": 0.3571789264678955,
      "learning_rate": 0.00028878336132203547,
      "loss": 2.7805,
      "step": 2015
    },
    {
      "epoch": 0.6532728451069345,
      "grad_norm": 0.39132925868034363,
      "learning_rate": 0.0002883077810040915,
      "loss": 2.7892,
      "step": 2016
    },
    {
      "epoch": 0.653596889176928,
      "grad_norm": 0.3849750757217407,
      "learning_rate": 0.0002878324339197751,
      "loss": 2.695,
      "step": 2017
    },
    {
      "epoch": 0.6539209332469216,
      "grad_norm": 0.3655984699726105,
      "learning_rate": 0.00028735732059280384,
      "loss": 2.8299,
      "step": 2018
    },
    {
      "epoch": 0.6542449773169151,
      "grad_norm": 0.4786375164985657,
      "learning_rate": 0.00028688244154663765,
      "loss": 2.7984,
      "step": 2019
    },
    {
      "epoch": 0.6545690213869086,
      "grad_norm": 0.38407328724861145,
      "learning_rate": 0.0002864077973044783,
      "loss": 2.8702,
      "step": 2020
    },
    {
      "epoch": 0.6548930654569022,
      "grad_norm": 0.3755604922771454,
      "learning_rate": 0.00028593338838926903,
      "loss": 2.776,
      "step": 2021
    },
    {
      "epoch": 0.6552171095268956,
      "grad_norm": 0.3802349269390106,
      "learning_rate": 0.00028545921532369394,
      "loss": 2.7636,
      "step": 2022
    },
    {
      "epoch": 0.6555411535968891,
      "grad_norm": 0.38515496253967285,
      "learning_rate": 0.000284985278630177,
      "loss": 2.8017,
      "step": 2023
    },
    {
      "epoch": 0.6558651976668827,
      "grad_norm": 0.38320261240005493,
      "learning_rate": 0.0002845115788308816,
      "loss": 2.81,
      "step": 2024
    },
    {
      "epoch": 0.6561892417368762,
      "grad_norm": 0.43083831667900085,
      "learning_rate": 0.0002840381164477105,
      "loss": 2.7705,
      "step": 2025
    },
    {
      "epoch": 0.6565132858068697,
      "grad_norm": 0.3651745319366455,
      "learning_rate": 0.00028356489200230474,
      "loss": 2.8009,
      "step": 2026
    },
    {
      "epoch": 0.6568373298768633,
      "grad_norm": 0.366031676530838,
      "learning_rate": 0.0002830919060160431,
      "loss": 2.7448,
      "step": 2027
    },
    {
      "epoch": 0.6571613739468568,
      "grad_norm": 0.3696116507053375,
      "learning_rate": 0.00028261915901004185,
      "loss": 2.8971,
      "step": 2028
    },
    {
      "epoch": 0.6574854180168503,
      "grad_norm": 1.0183569192886353,
      "learning_rate": 0.00028214665150515375,
      "loss": 2.7929,
      "step": 2029
    },
    {
      "epoch": 0.6578094620868438,
      "grad_norm": 0.36690205335617065,
      "learning_rate": 0.000281674384021968,
      "loss": 2.8428,
      "step": 2030
    },
    {
      "epoch": 0.6581335061568373,
      "grad_norm": 0.3460118770599365,
      "learning_rate": 0.0002812023570808091,
      "loss": 2.8228,
      "step": 2031
    },
    {
      "epoch": 0.6584575502268308,
      "grad_norm": 0.35778120160102844,
      "learning_rate": 0.0002807305712017365,
      "loss": 2.8581,
      "step": 2032
    },
    {
      "epoch": 0.6587815942968244,
      "grad_norm": 0.37000375986099243,
      "learning_rate": 0.00028025902690454417,
      "loss": 2.8461,
      "step": 2033
    },
    {
      "epoch": 0.6591056383668179,
      "grad_norm": 0.5457204580307007,
      "learning_rate": 0.0002797877247087599,
      "loss": 2.8726,
      "step": 2034
    },
    {
      "epoch": 0.6594296824368114,
      "grad_norm": 0.37799063324928284,
      "learning_rate": 0.0002793166651336444,
      "loss": 2.7958,
      "step": 2035
    },
    {
      "epoch": 0.659753726506805,
      "grad_norm": 0.3677516281604767,
      "learning_rate": 0.00027884584869819175,
      "loss": 2.6892,
      "step": 2036
    },
    {
      "epoch": 0.6600777705767984,
      "grad_norm": 0.3686402440071106,
      "learning_rate": 0.0002783752759211279,
      "loss": 2.8088,
      "step": 2037
    },
    {
      "epoch": 0.6604018146467919,
      "grad_norm": 0.3987351655960083,
      "learning_rate": 0.00027790494732091007,
      "loss": 2.815,
      "step": 2038
    },
    {
      "epoch": 0.6607258587167855,
      "grad_norm": 0.398800790309906,
      "learning_rate": 0.0002774348634157267,
      "loss": 2.7942,
      "step": 2039
    },
    {
      "epoch": 0.661049902786779,
      "grad_norm": 0.3663284182548523,
      "learning_rate": 0.00027696502472349636,
      "loss": 2.7067,
      "step": 2040
    },
    {
      "epoch": 0.6613739468567725,
      "grad_norm": 0.38077643513679504,
      "learning_rate": 0.0002764954317618679,
      "loss": 2.8168,
      "step": 2041
    },
    {
      "epoch": 0.6616979909267661,
      "grad_norm": 0.3543028235435486,
      "learning_rate": 0.0002760260850482188,
      "loss": 2.7513,
      "step": 2042
    },
    {
      "epoch": 0.6620220349967596,
      "grad_norm": 0.406699001789093,
      "learning_rate": 0.00027555698509965613,
      "loss": 2.8232,
      "step": 2043
    },
    {
      "epoch": 0.662346079066753,
      "grad_norm": 0.4029834270477295,
      "learning_rate": 0.0002750881324330142,
      "loss": 2.8683,
      "step": 2044
    },
    {
      "epoch": 0.6626701231367466,
      "grad_norm": 0.3949282169342041,
      "learning_rate": 0.00027461952756485566,
      "loss": 2.7944,
      "step": 2045
    },
    {
      "epoch": 0.6629941672067401,
      "grad_norm": 0.35333800315856934,
      "learning_rate": 0.00027415117101146946,
      "loss": 2.8271,
      "step": 2046
    },
    {
      "epoch": 0.6633182112767336,
      "grad_norm": 0.3372945487499237,
      "learning_rate": 0.00027368306328887126,
      "loss": 2.7925,
      "step": 2047
    },
    {
      "epoch": 0.6636422553467272,
      "grad_norm": 0.6367862820625305,
      "learning_rate": 0.0002732152049128026,
      "loss": 2.8738,
      "step": 2048
    },
    {
      "epoch": 0.6639662994167207,
      "grad_norm": 0.4677883982658386,
      "learning_rate": 0.0002727475963987303,
      "loss": 2.7558,
      "step": 2049
    },
    {
      "epoch": 0.6642903434867142,
      "grad_norm": 0.4293557107448578,
      "learning_rate": 0.00027228023826184554,
      "loss": 2.745,
      "step": 2050
    },
    {
      "epoch": 0.6646143875567078,
      "grad_norm": 0.41708904504776,
      "learning_rate": 0.0002718131310170643,
      "loss": 2.8543,
      "step": 2051
    },
    {
      "epoch": 0.6649384316267012,
      "grad_norm": 0.35732150077819824,
      "learning_rate": 0.0002713462751790259,
      "loss": 2.817,
      "step": 2052
    },
    {
      "epoch": 0.6652624756966947,
      "grad_norm": 0.3559381365776062,
      "learning_rate": 0.0002708796712620923,
      "loss": 2.8376,
      "step": 2053
    },
    {
      "epoch": 0.6655865197666883,
      "grad_norm": 0.4279381334781647,
      "learning_rate": 0.0002704133197803483,
      "loss": 2.8282,
      "step": 2054
    },
    {
      "epoch": 0.6659105638366818,
      "grad_norm": 0.39025643467903137,
      "learning_rate": 0.0002699472212476004,
      "loss": 2.8061,
      "step": 2055
    },
    {
      "epoch": 0.6662346079066753,
      "grad_norm": 0.39941129088401794,
      "learning_rate": 0.00026948137617737643,
      "loss": 2.8273,
      "step": 2056
    },
    {
      "epoch": 0.6665586519766689,
      "grad_norm": 0.46617478132247925,
      "learning_rate": 0.0002690157850829248,
      "loss": 2.8786,
      "step": 2057
    },
    {
      "epoch": 0.6668826960466624,
      "grad_norm": 0.45371773838996887,
      "learning_rate": 0.0002685504484772147,
      "loss": 2.8294,
      "step": 2058
    },
    {
      "epoch": 0.6672067401166558,
      "grad_norm": 0.3837924897670746,
      "learning_rate": 0.00026808536687293415,
      "loss": 2.7687,
      "step": 2059
    },
    {
      "epoch": 0.6675307841866494,
      "grad_norm": 0.35800012946128845,
      "learning_rate": 0.000267620540782491,
      "loss": 2.7584,
      "step": 2060
    },
    {
      "epoch": 0.6678548282566429,
      "grad_norm": 0.4098687171936035,
      "learning_rate": 0.0002671559707180109,
      "loss": 2.8084,
      "step": 2061
    },
    {
      "epoch": 0.6681788723266364,
      "grad_norm": 0.3706947863101959,
      "learning_rate": 0.0002666916571913378,
      "loss": 2.8148,
      "step": 2062
    },
    {
      "epoch": 0.66850291639663,
      "grad_norm": 0.34985828399658203,
      "learning_rate": 0.0002662276007140329,
      "loss": 2.7925,
      "step": 2063
    },
    {
      "epoch": 0.6688269604666235,
      "grad_norm": 0.4132959246635437,
      "learning_rate": 0.0002657638017973742,
      "loss": 2.9091,
      "step": 2064
    },
    {
      "epoch": 0.669151004536617,
      "grad_norm": 0.46864616870880127,
      "learning_rate": 0.0002653002609523557,
      "loss": 2.7957,
      "step": 2065
    },
    {
      "epoch": 0.6694750486066104,
      "grad_norm": 0.3919028043746948,
      "learning_rate": 0.00026483697868968746,
      "loss": 2.861,
      "step": 2066
    },
    {
      "epoch": 0.669799092676604,
      "grad_norm": 0.4398103356361389,
      "learning_rate": 0.0002643739555197949,
      "loss": 2.8926,
      "step": 2067
    },
    {
      "epoch": 0.6701231367465975,
      "grad_norm": 0.3493231534957886,
      "learning_rate": 0.0002639111919528171,
      "loss": 2.8084,
      "step": 2068
    },
    {
      "epoch": 0.670447180816591,
      "grad_norm": 0.39001089334487915,
      "learning_rate": 0.0002634486884986078,
      "loss": 2.8356,
      "step": 2069
    },
    {
      "epoch": 0.6707712248865846,
      "grad_norm": 0.37786146998405457,
      "learning_rate": 0.0002629864456667338,
      "loss": 2.7348,
      "step": 2070
    },
    {
      "epoch": 0.6710952689565781,
      "grad_norm": 0.5288462042808533,
      "learning_rate": 0.000262524463966475,
      "loss": 2.8533,
      "step": 2071
    },
    {
      "epoch": 0.6714193130265717,
      "grad_norm": 0.42384737730026245,
      "learning_rate": 0.0002620627439068233,
      "loss": 2.8343,
      "step": 2072
    },
    {
      "epoch": 0.6717433570965652,
      "grad_norm": 0.35155147314071655,
      "learning_rate": 0.0002616012859964827,
      "loss": 2.7645,
      "step": 2073
    },
    {
      "epoch": 0.6720674011665586,
      "grad_norm": 0.3880019187927246,
      "learning_rate": 0.00026114009074386846,
      "loss": 2.8257,
      "step": 2074
    },
    {
      "epoch": 0.6723914452365521,
      "grad_norm": 0.37114259600639343,
      "learning_rate": 0.000260679158657106,
      "loss": 2.8168,
      "step": 2075
    },
    {
      "epoch": 0.6727154893065457,
      "grad_norm": 0.36420801281929016,
      "learning_rate": 0.00026021849024403086,
      "loss": 2.7529,
      "step": 2076
    },
    {
      "epoch": 0.6730395333765392,
      "grad_norm": 0.3897385895252228,
      "learning_rate": 0.0002597580860121885,
      "loss": 2.8323,
      "step": 2077
    },
    {
      "epoch": 0.6733635774465327,
      "grad_norm": 0.41753703355789185,
      "learning_rate": 0.00025929794646883275,
      "loss": 2.857,
      "step": 2078
    },
    {
      "epoch": 0.6736876215165263,
      "grad_norm": 0.3700282871723175,
      "learning_rate": 0.0002588380721209263,
      "loss": 2.818,
      "step": 2079
    },
    {
      "epoch": 0.6740116655865198,
      "grad_norm": 0.3750198185443878,
      "learning_rate": 0.00025837846347513915,
      "loss": 2.7374,
      "step": 2080
    },
    {
      "epoch": 0.6743357096565132,
      "grad_norm": 0.364469051361084,
      "learning_rate": 0.00025791912103784913,
      "loss": 2.7239,
      "step": 2081
    },
    {
      "epoch": 0.6746597537265068,
      "grad_norm": 0.5072280764579773,
      "learning_rate": 0.00025746004531514074,
      "loss": 2.8183,
      "step": 2082
    },
    {
      "epoch": 0.6749837977965003,
      "grad_norm": 0.355194628238678,
      "learning_rate": 0.0002570012368128041,
      "loss": 2.7574,
      "step": 2083
    },
    {
      "epoch": 0.6753078418664938,
      "grad_norm": 0.3701876699924469,
      "learning_rate": 0.0002565426960363353,
      "loss": 2.8028,
      "step": 2084
    },
    {
      "epoch": 0.6756318859364874,
      "grad_norm": 0.3686971366405487,
      "learning_rate": 0.0002560844234909353,
      "loss": 2.8178,
      "step": 2085
    },
    {
      "epoch": 0.6759559300064809,
      "grad_norm": 0.37662896513938904,
      "learning_rate": 0.00025562641968150966,
      "loss": 2.8157,
      "step": 2086
    },
    {
      "epoch": 0.6762799740764744,
      "grad_norm": 0.4026836156845093,
      "learning_rate": 0.00025516868511266767,
      "loss": 2.7953,
      "step": 2087
    },
    {
      "epoch": 0.6766040181464679,
      "grad_norm": 0.40713945031166077,
      "learning_rate": 0.00025471122028872224,
      "loss": 2.7424,
      "step": 2088
    },
    {
      "epoch": 0.6769280622164614,
      "grad_norm": 0.39666974544525146,
      "learning_rate": 0.0002542540257136892,
      "loss": 2.7664,
      "step": 2089
    },
    {
      "epoch": 0.6772521062864549,
      "grad_norm": 0.4132803678512573,
      "learning_rate": 0.00025379710189128615,
      "loss": 2.855,
      "step": 2090
    },
    {
      "epoch": 0.6775761503564485,
      "grad_norm": 0.38261839747428894,
      "learning_rate": 0.0002533404493249327,
      "loss": 2.8342,
      "step": 2091
    },
    {
      "epoch": 0.677900194426442,
      "grad_norm": 0.3709450662136078,
      "learning_rate": 0.00025288406851774946,
      "loss": 2.7935,
      "step": 2092
    },
    {
      "epoch": 0.6782242384964355,
      "grad_norm": 0.7584784626960754,
      "learning_rate": 0.0002524279599725578,
      "loss": 2.8273,
      "step": 2093
    },
    {
      "epoch": 0.6785482825664291,
      "grad_norm": 0.3594474792480469,
      "learning_rate": 0.00025197212419187883,
      "loss": 2.7824,
      "step": 2094
    },
    {
      "epoch": 0.6788723266364226,
      "grad_norm": 0.3715258240699768,
      "learning_rate": 0.00025151656167793357,
      "loss": 2.7432,
      "step": 2095
    },
    {
      "epoch": 0.679196370706416,
      "grad_norm": 0.3806169927120209,
      "learning_rate": 0.00025106127293264156,
      "loss": 2.8164,
      "step": 2096
    },
    {
      "epoch": 0.6795204147764096,
      "grad_norm": 0.36724528670310974,
      "learning_rate": 0.00025060625845762114,
      "loss": 2.763,
      "step": 2097
    },
    {
      "epoch": 0.6798444588464031,
      "grad_norm": 0.374143123626709,
      "learning_rate": 0.00025015151875418804,
      "loss": 2.8104,
      "step": 2098
    },
    {
      "epoch": 0.6801685029163966,
      "grad_norm": 0.3705088496208191,
      "learning_rate": 0.0002496970543233555,
      "loss": 2.8525,
      "step": 2099
    },
    {
      "epoch": 0.6804925469863902,
      "grad_norm": 0.654448926448822,
      "learning_rate": 0.00024924286566583334,
      "loss": 2.7851,
      "step": 2100
    },
    {
      "epoch": 0.6808165910563837,
      "grad_norm": 0.42217734456062317,
      "learning_rate": 0.00024878895328202754,
      "loss": 2.7322,
      "step": 2101
    },
    {
      "epoch": 0.6811406351263772,
      "grad_norm": 0.45633846521377563,
      "learning_rate": 0.00024833531767203974,
      "loss": 2.7694,
      "step": 2102
    },
    {
      "epoch": 0.6814646791963707,
      "grad_norm": 0.3616574704647064,
      "learning_rate": 0.0002478819593356668,
      "loss": 2.746,
      "step": 2103
    },
    {
      "epoch": 0.6817887232663642,
      "grad_norm": 0.384792685508728,
      "learning_rate": 0.0002474288787724002,
      "loss": 2.7678,
      "step": 2104
    },
    {
      "epoch": 0.6821127673363577,
      "grad_norm": 0.3857102692127228,
      "learning_rate": 0.0002469760764814248,
      "loss": 2.7122,
      "step": 2105
    },
    {
      "epoch": 0.6824368114063513,
      "grad_norm": 0.3842061161994934,
      "learning_rate": 0.0002465235529616193,
      "loss": 2.8119,
      "step": 2106
    },
    {
      "epoch": 0.6827608554763448,
      "grad_norm": 0.3794754445552826,
      "learning_rate": 0.0002460713087115553,
      "loss": 2.807,
      "step": 2107
    },
    {
      "epoch": 0.6830848995463383,
      "grad_norm": 0.38236355781555176,
      "learning_rate": 0.0002456193442294964,
      "loss": 2.8826,
      "step": 2108
    },
    {
      "epoch": 0.6834089436163319,
      "grad_norm": 0.38642528653144836,
      "learning_rate": 0.00024516766001339807,
      "loss": 2.8137,
      "step": 2109
    },
    {
      "epoch": 0.6837329876863253,
      "grad_norm": 0.3731914758682251,
      "learning_rate": 0.0002447162565609074,
      "loss": 2.8249,
      "step": 2110
    },
    {
      "epoch": 0.6840570317563188,
      "grad_norm": 0.40785932540893555,
      "learning_rate": 0.0002442651343693614,
      "loss": 2.8796,
      "step": 2111
    },
    {
      "epoch": 0.6843810758263124,
      "grad_norm": 0.3848678469657898,
      "learning_rate": 0.0002438142939357882,
      "loss": 2.8276,
      "step": 2112
    },
    {
      "epoch": 0.6847051198963059,
      "grad_norm": 0.3953128159046173,
      "learning_rate": 0.0002433637357569045,
      "loss": 2.7163,
      "step": 2113
    },
    {
      "epoch": 0.6850291639662994,
      "grad_norm": 0.46258345246315,
      "learning_rate": 0.00024291346032911666,
      "loss": 2.7127,
      "step": 2114
    },
    {
      "epoch": 0.685353208036293,
      "grad_norm": 0.5216900110244751,
      "learning_rate": 0.0002424634681485191,
      "loss": 2.8504,
      "step": 2115
    },
    {
      "epoch": 0.6856772521062865,
      "grad_norm": 0.35493946075439453,
      "learning_rate": 0.00024201375971089444,
      "loss": 2.6984,
      "step": 2116
    },
    {
      "epoch": 0.68600129617628,
      "grad_norm": 0.4118737280368805,
      "learning_rate": 0.00024156433551171254,
      "loss": 2.7921,
      "step": 2117
    },
    {
      "epoch": 0.6863253402462735,
      "grad_norm": 0.3875858783721924,
      "learning_rate": 0.0002411151960461302,
      "loss": 2.8426,
      "step": 2118
    },
    {
      "epoch": 0.686649384316267,
      "grad_norm": 0.3643660545349121,
      "learning_rate": 0.00024066634180899078,
      "loss": 2.7779,
      "step": 2119
    },
    {
      "epoch": 0.6869734283862605,
      "grad_norm": 0.37281325459480286,
      "learning_rate": 0.00024021777329482285,
      "loss": 2.7701,
      "step": 2120
    },
    {
      "epoch": 0.687297472456254,
      "grad_norm": 0.36851081252098083,
      "learning_rate": 0.00023976949099784045,
      "loss": 2.7685,
      "step": 2121
    },
    {
      "epoch": 0.6876215165262476,
      "grad_norm": 0.4764906167984009,
      "learning_rate": 0.00023932149541194226,
      "loss": 2.6945,
      "step": 2122
    },
    {
      "epoch": 0.6879455605962411,
      "grad_norm": 0.380782812833786,
      "learning_rate": 0.00023887378703071104,
      "loss": 2.8573,
      "step": 2123
    },
    {
      "epoch": 0.6882696046662347,
      "grad_norm": 0.4438198208808899,
      "learning_rate": 0.000238426366347413,
      "loss": 2.865,
      "step": 2124
    },
    {
      "epoch": 0.6885936487362281,
      "grad_norm": 0.372076153755188,
      "learning_rate": 0.00023797923385499793,
      "loss": 2.7426,
      "step": 2125
    },
    {
      "epoch": 0.6889176928062216,
      "grad_norm": 0.36258137226104736,
      "learning_rate": 0.00023753239004609716,
      "loss": 2.778,
      "step": 2126
    },
    {
      "epoch": 0.6892417368762151,
      "grad_norm": 0.39685767889022827,
      "learning_rate": 0.00023708583541302508,
      "loss": 2.7482,
      "step": 2127
    },
    {
      "epoch": 0.6895657809462087,
      "grad_norm": 0.3922211229801178,
      "learning_rate": 0.00023663957044777663,
      "loss": 2.6919,
      "step": 2128
    },
    {
      "epoch": 0.6898898250162022,
      "grad_norm": 0.36114853620529175,
      "learning_rate": 0.0002361935956420278,
      "loss": 2.6952,
      "step": 2129
    },
    {
      "epoch": 0.6902138690861958,
      "grad_norm": 0.37503883242607117,
      "learning_rate": 0.00023574791148713503,
      "loss": 2.7675,
      "step": 2130
    },
    {
      "epoch": 0.6905379131561893,
      "grad_norm": 0.3726138174533844,
      "learning_rate": 0.00023530251847413448,
      "loss": 2.7968,
      "step": 2131
    },
    {
      "epoch": 0.6908619572261827,
      "grad_norm": 0.43709930777549744,
      "learning_rate": 0.00023485741709374132,
      "loss": 2.8768,
      "step": 2132
    },
    {
      "epoch": 0.6911860012961762,
      "grad_norm": 0.45735031366348267,
      "learning_rate": 0.00023441260783634983,
      "loss": 2.8861,
      "step": 2133
    },
    {
      "epoch": 0.6915100453661698,
      "grad_norm": 0.37320899963378906,
      "learning_rate": 0.00023396809119203245,
      "loss": 2.7639,
      "step": 2134
    },
    {
      "epoch": 0.6918340894361633,
      "grad_norm": 0.3563939034938812,
      "learning_rate": 0.00023352386765053873,
      "loss": 2.6938,
      "step": 2135
    },
    {
      "epoch": 0.6921581335061568,
      "grad_norm": 0.4161436855792999,
      "learning_rate": 0.00023307993770129565,
      "loss": 2.711,
      "step": 2136
    },
    {
      "epoch": 0.6924821775761504,
      "grad_norm": 0.4272477924823761,
      "learning_rate": 0.00023263630183340667,
      "loss": 2.8025,
      "step": 2137
    },
    {
      "epoch": 0.6928062216461439,
      "grad_norm": 0.3880274295806885,
      "learning_rate": 0.00023219296053565114,
      "loss": 2.7856,
      "step": 2138
    },
    {
      "epoch": 0.6931302657161373,
      "grad_norm": 0.4222668409347534,
      "learning_rate": 0.0002317499142964839,
      "loss": 2.8573,
      "step": 2139
    },
    {
      "epoch": 0.6934543097861309,
      "grad_norm": 0.3662967383861542,
      "learning_rate": 0.00023130716360403477,
      "loss": 2.8929,
      "step": 2140
    },
    {
      "epoch": 0.6937783538561244,
      "grad_norm": 0.38763749599456787,
      "learning_rate": 0.00023086470894610823,
      "loss": 2.7507,
      "step": 2141
    },
    {
      "epoch": 0.6941023979261179,
      "grad_norm": 0.35341888666152954,
      "learning_rate": 0.0002304225508101821,
      "loss": 2.8283,
      "step": 2142
    },
    {
      "epoch": 0.6944264419961115,
      "grad_norm": 0.3530538082122803,
      "learning_rate": 0.00022998068968340768,
      "loss": 2.7637,
      "step": 2143
    },
    {
      "epoch": 0.694750486066105,
      "grad_norm": 0.3884020745754242,
      "learning_rate": 0.00022953912605260912,
      "loss": 2.7366,
      "step": 2144
    },
    {
      "epoch": 0.6950745301360985,
      "grad_norm": 0.363834410905838,
      "learning_rate": 0.00022909786040428275,
      "loss": 2.7406,
      "step": 2145
    },
    {
      "epoch": 0.6953985742060921,
      "grad_norm": 0.3552365303039551,
      "learning_rate": 0.00022865689322459654,
      "loss": 2.6898,
      "step": 2146
    },
    {
      "epoch": 0.6957226182760855,
      "grad_norm": 0.3987324833869934,
      "learning_rate": 0.00022821622499938948,
      "loss": 2.8863,
      "step": 2147
    },
    {
      "epoch": 0.696046662346079,
      "grad_norm": 1.3484177589416504,
      "learning_rate": 0.00022777585621417163,
      "loss": 2.7992,
      "step": 2148
    },
    {
      "epoch": 0.6963707064160726,
      "grad_norm": 0.36604273319244385,
      "learning_rate": 0.000227335787354123,
      "loss": 2.7641,
      "step": 2149
    },
    {
      "epoch": 0.6966947504860661,
      "grad_norm": 0.35750943422317505,
      "learning_rate": 0.00022689601890409295,
      "loss": 2.7934,
      "step": 2150
    },
    {
      "epoch": 0.6970187945560596,
      "grad_norm": 0.5438883304595947,
      "learning_rate": 0.00022645655134859987,
      "loss": 2.8075,
      "step": 2151
    },
    {
      "epoch": 0.6973428386260532,
      "grad_norm": 0.42383846640586853,
      "learning_rate": 0.00022601738517183078,
      "loss": 2.6523,
      "step": 2152
    },
    {
      "epoch": 0.6976668826960467,
      "grad_norm": 0.3628372848033905,
      "learning_rate": 0.00022557852085764053,
      "loss": 2.7734,
      "step": 2153
    },
    {
      "epoch": 0.6979909267660401,
      "grad_norm": 0.4038738012313843,
      "learning_rate": 0.00022513995888955135,
      "loss": 2.8538,
      "step": 2154
    },
    {
      "epoch": 0.6983149708360337,
      "grad_norm": 0.4320683479309082,
      "learning_rate": 0.0002247016997507526,
      "loss": 2.7287,
      "step": 2155
    },
    {
      "epoch": 0.6986390149060272,
      "grad_norm": 0.35756897926330566,
      "learning_rate": 0.00022426374392410005,
      "loss": 2.8449,
      "step": 2156
    },
    {
      "epoch": 0.6989630589760207,
      "grad_norm": 0.3858102858066559,
      "learning_rate": 0.0002238260918921149,
      "loss": 2.7501,
      "step": 2157
    },
    {
      "epoch": 0.6992871030460143,
      "grad_norm": 0.39153966307640076,
      "learning_rate": 0.00022338874413698384,
      "loss": 2.8605,
      "step": 2158
    },
    {
      "epoch": 0.6996111471160078,
      "grad_norm": 0.37931933999061584,
      "learning_rate": 0.00022295170114055836,
      "loss": 2.7759,
      "step": 2159
    },
    {
      "epoch": 0.6999351911860013,
      "grad_norm": 0.3813247084617615,
      "learning_rate": 0.0002225149633843541,
      "loss": 2.7636,
      "step": 2160
    },
    {
      "epoch": 0.7002592352559948,
      "grad_norm": 0.4623517096042633,
      "learning_rate": 0.00022207853134955036,
      "loss": 2.8214,
      "step": 2161
    },
    {
      "epoch": 0.7005832793259883,
      "grad_norm": 0.3887097239494324,
      "learning_rate": 0.0002216424055169899,
      "loss": 2.8259,
      "step": 2162
    },
    {
      "epoch": 0.7009073233959818,
      "grad_norm": 0.37496164441108704,
      "learning_rate": 0.00022120658636717766,
      "loss": 2.7586,
      "step": 2163
    },
    {
      "epoch": 0.7012313674659754,
      "grad_norm": 0.3760274350643158,
      "learning_rate": 0.00022077107438028126,
      "loss": 2.8321,
      "step": 2164
    },
    {
      "epoch": 0.7015554115359689,
      "grad_norm": 0.3851046860218048,
      "learning_rate": 0.00022033587003612948,
      "loss": 2.7541,
      "step": 2165
    },
    {
      "epoch": 0.7018794556059624,
      "grad_norm": 0.37021470069885254,
      "learning_rate": 0.00021990097381421208,
      "loss": 2.9055,
      "step": 2166
    },
    {
      "epoch": 0.702203499675956,
      "grad_norm": 0.41065284609794617,
      "learning_rate": 0.0002194663861936797,
      "loss": 2.8013,
      "step": 2167
    },
    {
      "epoch": 0.7025275437459495,
      "grad_norm": 0.3660750389099121,
      "learning_rate": 0.0002190321076533427,
      "loss": 2.6822,
      "step": 2168
    },
    {
      "epoch": 0.7028515878159429,
      "grad_norm": 0.38681694865226746,
      "learning_rate": 0.00021859813867167077,
      "loss": 2.7773,
      "step": 2169
    },
    {
      "epoch": 0.7031756318859365,
      "grad_norm": 0.48428061604499817,
      "learning_rate": 0.0002181644797267931,
      "loss": 2.7315,
      "step": 2170
    },
    {
      "epoch": 0.70349967595593,
      "grad_norm": 0.4273357391357422,
      "learning_rate": 0.000217731131296497,
      "loss": 2.6833,
      "step": 2171
    },
    {
      "epoch": 0.7038237200259235,
      "grad_norm": 0.39987754821777344,
      "learning_rate": 0.00021729809385822758,
      "loss": 2.7517,
      "step": 2172
    },
    {
      "epoch": 0.7041477640959171,
      "grad_norm": 0.3569422662258148,
      "learning_rate": 0.00021686536788908728,
      "loss": 2.7134,
      "step": 2173
    },
    {
      "epoch": 0.7044718081659106,
      "grad_norm": 0.4431377351284027,
      "learning_rate": 0.00021643295386583546,
      "loss": 2.7948,
      "step": 2174
    },
    {
      "epoch": 0.7047958522359041,
      "grad_norm": 0.44498729705810547,
      "learning_rate": 0.00021600085226488786,
      "loss": 2.7976,
      "step": 2175
    },
    {
      "epoch": 0.7051198963058976,
      "grad_norm": 0.4263765513896942,
      "learning_rate": 0.0002155690635623157,
      "loss": 2.8068,
      "step": 2176
    },
    {
      "epoch": 0.7054439403758911,
      "grad_norm": 0.43027356266975403,
      "learning_rate": 0.0002151375882338461,
      "loss": 2.7037,
      "step": 2177
    },
    {
      "epoch": 0.7057679844458846,
      "grad_norm": 0.37078773975372314,
      "learning_rate": 0.00021470642675486018,
      "loss": 2.8085,
      "step": 2178
    },
    {
      "epoch": 0.7060920285158782,
      "grad_norm": 0.380599707365036,
      "learning_rate": 0.0002142755796003939,
      "loss": 2.7705,
      "step": 2179
    },
    {
      "epoch": 0.7064160725858717,
      "grad_norm": 0.3922443091869354,
      "learning_rate": 0.00021384504724513648,
      "loss": 2.8621,
      "step": 2180
    },
    {
      "epoch": 0.7067401166558652,
      "grad_norm": 0.40902069211006165,
      "learning_rate": 0.0002134148301634305,
      "loss": 2.854,
      "step": 2181
    },
    {
      "epoch": 0.7070641607258588,
      "grad_norm": 0.37355682253837585,
      "learning_rate": 0.000212984928829271,
      "loss": 2.8356,
      "step": 2182
    },
    {
      "epoch": 0.7073882047958522,
      "grad_norm": 0.37310677766799927,
      "learning_rate": 0.00021255534371630546,
      "loss": 2.6822,
      "step": 2183
    },
    {
      "epoch": 0.7077122488658457,
      "grad_norm": 0.3744041621685028,
      "learning_rate": 0.00021212607529783246,
      "loss": 2.748,
      "step": 2184
    },
    {
      "epoch": 0.7080362929358393,
      "grad_norm": 0.37949320673942566,
      "learning_rate": 0.00021169712404680224,
      "loss": 2.8244,
      "step": 2185
    },
    {
      "epoch": 0.7083603370058328,
      "grad_norm": 0.36157122254371643,
      "learning_rate": 0.00021126849043581546,
      "loss": 2.6733,
      "step": 2186
    },
    {
      "epoch": 0.7086843810758263,
      "grad_norm": 0.37068602442741394,
      "learning_rate": 0.00021084017493712255,
      "loss": 2.788,
      "step": 2187
    },
    {
      "epoch": 0.7090084251458199,
      "grad_norm": 0.35878148674964905,
      "learning_rate": 0.00021041217802262357,
      "loss": 2.7808,
      "step": 2188
    },
    {
      "epoch": 0.7093324692158134,
      "grad_norm": 0.3520480990409851,
      "learning_rate": 0.00020998450016386765,
      "loss": 2.8623,
      "step": 2189
    },
    {
      "epoch": 0.7096565132858069,
      "grad_norm": 0.4582499861717224,
      "learning_rate": 0.00020955714183205231,
      "loss": 2.7926,
      "step": 2190
    },
    {
      "epoch": 0.7099805573558003,
      "grad_norm": 0.36804714798927307,
      "learning_rate": 0.00020913010349802298,
      "loss": 2.7707,
      "step": 2191
    },
    {
      "epoch": 0.7103046014257939,
      "grad_norm": 0.46612441539764404,
      "learning_rate": 0.00020870338563227286,
      "loss": 2.7763,
      "step": 2192
    },
    {
      "epoch": 0.7106286454957874,
      "grad_norm": 0.36566534638404846,
      "learning_rate": 0.00020827698870494162,
      "loss": 2.7788,
      "step": 2193
    },
    {
      "epoch": 0.710952689565781,
      "grad_norm": 0.3576771318912506,
      "learning_rate": 0.0002078509131858158,
      "loss": 2.7923,
      "step": 2194
    },
    {
      "epoch": 0.7112767336357745,
      "grad_norm": 0.39354240894317627,
      "learning_rate": 0.0002074251595443274,
      "loss": 2.8739,
      "step": 2195
    },
    {
      "epoch": 0.711600777705768,
      "grad_norm": 0.34492117166519165,
      "learning_rate": 0.00020699972824955398,
      "loss": 2.7332,
      "step": 2196
    },
    {
      "epoch": 0.7119248217757616,
      "grad_norm": 0.3557709753513336,
      "learning_rate": 0.00020657461977021795,
      "loss": 2.7423,
      "step": 2197
    },
    {
      "epoch": 0.712248865845755,
      "grad_norm": 0.3682231605052948,
      "learning_rate": 0.00020614983457468611,
      "loss": 2.7691,
      "step": 2198
    },
    {
      "epoch": 0.7125729099157485,
      "grad_norm": 0.3880058526992798,
      "learning_rate": 0.00020572537313096867,
      "loss": 2.805,
      "step": 2199
    },
    {
      "epoch": 0.712896953985742,
      "grad_norm": 0.35150256752967834,
      "learning_rate": 0.00020530123590671985,
      "loss": 2.798,
      "step": 2200
    },
    {
      "epoch": 0.7132209980557356,
      "grad_norm": 0.4083496332168579,
      "learning_rate": 0.00020487742336923633,
      "loss": 2.8085,
      "step": 2201
    },
    {
      "epoch": 0.7135450421257291,
      "grad_norm": 0.35333532094955444,
      "learning_rate": 0.00020445393598545687,
      "loss": 2.8345,
      "step": 2202
    },
    {
      "epoch": 0.7138690861957226,
      "grad_norm": 0.34516483545303345,
      "learning_rate": 0.0002040307742219622,
      "loss": 2.6775,
      "step": 2203
    },
    {
      "epoch": 0.7141931302657162,
      "grad_norm": 0.3784956634044647,
      "learning_rate": 0.00020360793854497423,
      "loss": 2.8288,
      "step": 2204
    },
    {
      "epoch": 0.7145171743357096,
      "grad_norm": 0.3686974048614502,
      "learning_rate": 0.00020318542942035557,
      "loss": 2.7463,
      "step": 2205
    },
    {
      "epoch": 0.7148412184057031,
      "grad_norm": 0.681943953037262,
      "learning_rate": 0.00020276324731360895,
      "loss": 2.857,
      "step": 2206
    },
    {
      "epoch": 0.7151652624756967,
      "grad_norm": 0.3758144974708557,
      "learning_rate": 0.00020234139268987718,
      "loss": 2.7156,
      "step": 2207
    },
    {
      "epoch": 0.7154893065456902,
      "grad_norm": 0.37373092770576477,
      "learning_rate": 0.00020191986601394207,
      "loss": 2.8182,
      "step": 2208
    },
    {
      "epoch": 0.7158133506156837,
      "grad_norm": 0.4475695490837097,
      "learning_rate": 0.00020149866775022397,
      "loss": 2.7533,
      "step": 2209
    },
    {
      "epoch": 0.7161373946856773,
      "grad_norm": 0.44905591011047363,
      "learning_rate": 0.0002010777983627815,
      "loss": 2.7775,
      "step": 2210
    },
    {
      "epoch": 0.7164614387556708,
      "grad_norm": 0.3647668957710266,
      "learning_rate": 0.000200657258315311,
      "loss": 2.7925,
      "step": 2211
    },
    {
      "epoch": 0.7167854828256643,
      "grad_norm": 0.3721815347671509,
      "learning_rate": 0.00020023704807114578,
      "loss": 2.813,
      "step": 2212
    },
    {
      "epoch": 0.7171095268956578,
      "grad_norm": 0.38728827238082886,
      "learning_rate": 0.00019981716809325595,
      "loss": 2.732,
      "step": 2213
    },
    {
      "epoch": 0.7174335709656513,
      "grad_norm": 0.36572030186653137,
      "learning_rate": 0.0001993976188442475,
      "loss": 2.8624,
      "step": 2214
    },
    {
      "epoch": 0.7177576150356448,
      "grad_norm": 0.3553265631198883,
      "learning_rate": 0.00019897840078636248,
      "loss": 2.8426,
      "step": 2215
    },
    {
      "epoch": 0.7180816591056384,
      "grad_norm": 0.3524133265018463,
      "learning_rate": 0.0001985595143814779,
      "loss": 2.7531,
      "step": 2216
    },
    {
      "epoch": 0.7184057031756319,
      "grad_norm": 0.3668282628059387,
      "learning_rate": 0.00019814096009110517,
      "loss": 2.788,
      "step": 2217
    },
    {
      "epoch": 0.7187297472456254,
      "grad_norm": 0.3682408034801483,
      "learning_rate": 0.00019772273837638982,
      "loss": 2.8335,
      "step": 2218
    },
    {
      "epoch": 0.719053791315619,
      "grad_norm": 0.3911181688308716,
      "learning_rate": 0.0001973048496981111,
      "loss": 2.7289,
      "step": 2219
    },
    {
      "epoch": 0.7193778353856124,
      "grad_norm": 0.4249339699745178,
      "learning_rate": 0.00019688729451668114,
      "loss": 2.7422,
      "step": 2220
    },
    {
      "epoch": 0.7197018794556059,
      "grad_norm": 0.37997493147850037,
      "learning_rate": 0.00019647007329214473,
      "loss": 2.7725,
      "step": 2221
    },
    {
      "epoch": 0.7200259235255995,
      "grad_norm": 0.3693607449531555,
      "learning_rate": 0.00019605318648417886,
      "loss": 2.7773,
      "step": 2222
    },
    {
      "epoch": 0.720349967595593,
      "grad_norm": 0.37477511167526245,
      "learning_rate": 0.0001956366345520922,
      "loss": 2.7614,
      "step": 2223
    },
    {
      "epoch": 0.7206740116655865,
      "grad_norm": 0.3706551194190979,
      "learning_rate": 0.00019522041795482398,
      "loss": 2.7435,
      "step": 2224
    },
    {
      "epoch": 0.7209980557355801,
      "grad_norm": 0.3467121720314026,
      "learning_rate": 0.00019480453715094425,
      "loss": 2.6946,
      "step": 2225
    },
    {
      "epoch": 0.7213220998055736,
      "grad_norm": 0.40005066990852356,
      "learning_rate": 0.0001943889925986531,
      "loss": 2.8409,
      "step": 2226
    },
    {
      "epoch": 0.721646143875567,
      "grad_norm": 0.36961814761161804,
      "learning_rate": 0.0001939737847557802,
      "loss": 2.8324,
      "step": 2227
    },
    {
      "epoch": 0.7219701879455606,
      "grad_norm": 0.38842254877090454,
      "learning_rate": 0.00019355891407978382,
      "loss": 2.7676,
      "step": 2228
    },
    {
      "epoch": 0.7222942320155541,
      "grad_norm": 0.36700549721717834,
      "learning_rate": 0.0001931443810277516,
      "loss": 2.7292,
      "step": 2229
    },
    {
      "epoch": 0.7226182760855476,
      "grad_norm": 0.3649044632911682,
      "learning_rate": 0.00019273018605639835,
      "loss": 2.8217,
      "step": 2230
    },
    {
      "epoch": 0.7229423201555412,
      "grad_norm": 0.43671420216560364,
      "learning_rate": 0.00019231632962206702,
      "loss": 2.781,
      "step": 2231
    },
    {
      "epoch": 0.7232663642255347,
      "grad_norm": 0.3853898048400879,
      "learning_rate": 0.00019190281218072725,
      "loss": 2.8606,
      "step": 2232
    },
    {
      "epoch": 0.7235904082955282,
      "grad_norm": 0.37602755427360535,
      "learning_rate": 0.0001914896341879751,
      "loss": 2.7262,
      "step": 2233
    },
    {
      "epoch": 0.7239144523655218,
      "grad_norm": 0.3870460093021393,
      "learning_rate": 0.00019107679609903295,
      "loss": 2.7565,
      "step": 2234
    },
    {
      "epoch": 0.7242384964355152,
      "grad_norm": 0.42688804864883423,
      "learning_rate": 0.00019066429836874844,
      "loss": 2.8239,
      "step": 2235
    },
    {
      "epoch": 0.7245625405055087,
      "grad_norm": 0.37842321395874023,
      "learning_rate": 0.00019025214145159414,
      "loss": 2.755,
      "step": 2236
    },
    {
      "epoch": 0.7248865845755023,
      "grad_norm": 0.3895871043205261,
      "learning_rate": 0.0001898403258016675,
      "loss": 2.8909,
      "step": 2237
    },
    {
      "epoch": 0.7252106286454958,
      "grad_norm": 0.3863879442214966,
      "learning_rate": 0.00018942885187268993,
      "loss": 2.7777,
      "step": 2238
    },
    {
      "epoch": 0.7255346727154893,
      "grad_norm": 0.3795420825481415,
      "learning_rate": 0.000189017720118006,
      "loss": 2.7729,
      "step": 2239
    },
    {
      "epoch": 0.7258587167854829,
      "grad_norm": 0.36789074540138245,
      "learning_rate": 0.00018860693099058342,
      "loss": 2.7288,
      "step": 2240
    },
    {
      "epoch": 0.7261827608554764,
      "grad_norm": 0.3811708688735962,
      "learning_rate": 0.00018819648494301257,
      "loss": 2.7737,
      "step": 2241
    },
    {
      "epoch": 0.7265068049254698,
      "grad_norm": 0.7339156270027161,
      "learning_rate": 0.00018778638242750563,
      "loss": 2.715,
      "step": 2242
    },
    {
      "epoch": 0.7268308489954634,
      "grad_norm": 0.3998053967952728,
      "learning_rate": 0.00018737662389589627,
      "loss": 2.8533,
      "step": 2243
    },
    {
      "epoch": 0.7271548930654569,
      "grad_norm": 1.0796552896499634,
      "learning_rate": 0.00018696720979963967,
      "loss": 2.7949,
      "step": 2244
    },
    {
      "epoch": 0.7274789371354504,
      "grad_norm": 0.45055559277534485,
      "learning_rate": 0.00018655814058981068,
      "loss": 2.8296,
      "step": 2245
    },
    {
      "epoch": 0.727802981205444,
      "grad_norm": 0.38104546070098877,
      "learning_rate": 0.00018614941671710506,
      "loss": 2.7314,
      "step": 2246
    },
    {
      "epoch": 0.7281270252754375,
      "grad_norm": 0.3503115475177765,
      "learning_rate": 0.00018574103863183757,
      "loss": 2.8095,
      "step": 2247
    },
    {
      "epoch": 0.728451069345431,
      "grad_norm": 0.39537110924720764,
      "learning_rate": 0.00018533300678394193,
      "loss": 2.8352,
      "step": 2248
    },
    {
      "epoch": 0.7287751134154244,
      "grad_norm": 0.39780041575431824,
      "learning_rate": 0.00018492532162297072,
      "loss": 2.7352,
      "step": 2249
    },
    {
      "epoch": 0.729099157485418,
      "grad_norm": 0.36906954646110535,
      "learning_rate": 0.00018451798359809423,
      "loss": 2.7544,
      "step": 2250
    },
    {
      "epoch": 0.7294232015554115,
      "grad_norm": 0.38292214274406433,
      "learning_rate": 0.00018411099315810038,
      "loss": 2.7867,
      "step": 2251
    },
    {
      "epoch": 0.729747245625405,
      "grad_norm": 0.4560576379299164,
      "learning_rate": 0.00018370435075139435,
      "loss": 2.7648,
      "step": 2252
    },
    {
      "epoch": 0.7300712896953986,
      "grad_norm": 0.4287913143634796,
      "learning_rate": 0.00018329805682599793,
      "loss": 2.7301,
      "step": 2253
    },
    {
      "epoch": 0.7303953337653921,
      "grad_norm": 0.42446398735046387,
      "learning_rate": 0.00018289211182954856,
      "loss": 2.7853,
      "step": 2254
    },
    {
      "epoch": 0.7307193778353857,
      "grad_norm": 0.38027510046958923,
      "learning_rate": 0.00018248651620929941,
      "loss": 2.8961,
      "step": 2255
    },
    {
      "epoch": 0.7310434219053791,
      "grad_norm": 0.405068576335907,
      "learning_rate": 0.00018208127041211887,
      "loss": 2.868,
      "step": 2256
    },
    {
      "epoch": 0.7313674659753726,
      "grad_norm": 0.45666077733039856,
      "learning_rate": 0.00018167637488448964,
      "loss": 2.7649,
      "step": 2257
    },
    {
      "epoch": 0.7316915100453661,
      "grad_norm": 0.4233987033367157,
      "learning_rate": 0.00018127183007250863,
      "loss": 2.796,
      "step": 2258
    },
    {
      "epoch": 0.7320155541153597,
      "grad_norm": 0.4219183027744293,
      "learning_rate": 0.00018086763642188668,
      "loss": 2.8327,
      "step": 2259
    },
    {
      "epoch": 0.7323395981853532,
      "grad_norm": 0.35691195726394653,
      "learning_rate": 0.00018046379437794709,
      "loss": 2.7026,
      "step": 2260
    },
    {
      "epoch": 0.7326636422553467,
      "grad_norm": 0.3614234924316406,
      "learning_rate": 0.0001800603043856265,
      "loss": 2.7672,
      "step": 2261
    },
    {
      "epoch": 0.7329876863253403,
      "grad_norm": 0.3826039731502533,
      "learning_rate": 0.00017965716688947308,
      "loss": 2.7549,
      "step": 2262
    },
    {
      "epoch": 0.7333117303953338,
      "grad_norm": 0.3950154781341553,
      "learning_rate": 0.0001792543823336469,
      "loss": 2.8175,
      "step": 2263
    },
    {
      "epoch": 0.7336357744653272,
      "grad_norm": 0.36930227279663086,
      "learning_rate": 0.00017885195116191906,
      "loss": 2.8761,
      "step": 2264
    },
    {
      "epoch": 0.7339598185353208,
      "grad_norm": 0.38620537519454956,
      "learning_rate": 0.00017844987381767142,
      "loss": 2.894,
      "step": 2265
    },
    {
      "epoch": 0.7342838626053143,
      "grad_norm": 0.35079890489578247,
      "learning_rate": 0.0001780481507438958,
      "loss": 2.7825,
      "step": 2266
    },
    {
      "epoch": 0.7346079066753078,
      "grad_norm": 0.4098239541053772,
      "learning_rate": 0.00017764678238319404,
      "loss": 2.7038,
      "step": 2267
    },
    {
      "epoch": 0.7349319507453014,
      "grad_norm": 0.3675037920475006,
      "learning_rate": 0.00017724576917777725,
      "loss": 2.7354,
      "step": 2268
    },
    {
      "epoch": 0.7352559948152949,
      "grad_norm": 0.3647003173828125,
      "learning_rate": 0.0001768451115694647,
      "loss": 2.8765,
      "step": 2269
    },
    {
      "epoch": 0.7355800388852884,
      "grad_norm": 0.3587909936904907,
      "learning_rate": 0.0001764448099996842,
      "loss": 2.6887,
      "step": 2270
    },
    {
      "epoch": 0.7359040829552819,
      "grad_norm": 0.3999181091785431,
      "learning_rate": 0.00017604486490947136,
      "loss": 2.8562,
      "step": 2271
    },
    {
      "epoch": 0.7362281270252754,
      "grad_norm": 0.40249165892601013,
      "learning_rate": 0.00017564527673946884,
      "loss": 2.8061,
      "step": 2272
    },
    {
      "epoch": 0.7365521710952689,
      "grad_norm": 0.37432458996772766,
      "learning_rate": 0.00017524604592992604,
      "loss": 2.7931,
      "step": 2273
    },
    {
      "epoch": 0.7368762151652625,
      "grad_norm": 0.45464786887168884,
      "learning_rate": 0.0001748471729206989,
      "loss": 2.7295,
      "step": 2274
    },
    {
      "epoch": 0.737200259235256,
      "grad_norm": 0.39991459250450134,
      "learning_rate": 0.00017444865815124922,
      "loss": 2.831,
      "step": 2275
    },
    {
      "epoch": 0.7375243033052495,
      "grad_norm": 0.4158117175102234,
      "learning_rate": 0.0001740505020606437,
      "loss": 2.766,
      "step": 2276
    },
    {
      "epoch": 0.7378483473752431,
      "grad_norm": 0.4263278543949127,
      "learning_rate": 0.0001736527050875541,
      "loss": 2.8321,
      "step": 2277
    },
    {
      "epoch": 0.7381723914452365,
      "grad_norm": 0.40178290009498596,
      "learning_rate": 0.0001732552676702564,
      "loss": 2.8549,
      "step": 2278
    },
    {
      "epoch": 0.73849643551523,
      "grad_norm": 0.5875389575958252,
      "learning_rate": 0.0001728581902466306,
      "loss": 2.781,
      "step": 2279
    },
    {
      "epoch": 0.7388204795852236,
      "grad_norm": 0.37627890706062317,
      "learning_rate": 0.00017246147325415985,
      "loss": 2.7136,
      "step": 2280
    },
    {
      "epoch": 0.7391445236552171,
      "grad_norm": 0.37384283542633057,
      "learning_rate": 0.00017206511712993035,
      "loss": 2.757,
      "step": 2281
    },
    {
      "epoch": 0.7394685677252106,
      "grad_norm": 0.4999582767486572,
      "learning_rate": 0.0001716691223106307,
      "loss": 2.7193,
      "step": 2282
    },
    {
      "epoch": 0.7397926117952042,
      "grad_norm": 0.3905026912689209,
      "learning_rate": 0.00017127348923255166,
      "loss": 2.8674,
      "step": 2283
    },
    {
      "epoch": 0.7401166558651977,
      "grad_norm": 0.37288352847099304,
      "learning_rate": 0.000170878218331585,
      "loss": 2.8122,
      "step": 2284
    },
    {
      "epoch": 0.7404406999351912,
      "grad_norm": 0.381534218788147,
      "learning_rate": 0.0001704833100432237,
      "loss": 2.9294,
      "step": 2285
    },
    {
      "epoch": 0.7407647440051847,
      "grad_norm": 0.4246702492237091,
      "learning_rate": 0.0001700887648025612,
      "loss": 2.7338,
      "step": 2286
    },
    {
      "epoch": 0.7410887880751782,
      "grad_norm": 0.3706231415271759,
      "learning_rate": 0.00016969458304429082,
      "loss": 2.8719,
      "step": 2287
    },
    {
      "epoch": 0.7414128321451717,
      "grad_norm": 0.3904950022697449,
      "learning_rate": 0.00016930076520270548,
      "loss": 2.8624,
      "step": 2288
    },
    {
      "epoch": 0.7417368762151653,
      "grad_norm": 0.38540637493133545,
      "learning_rate": 0.00016890731171169727,
      "loss": 2.7603,
      "step": 2289
    },
    {
      "epoch": 0.7420609202851588,
      "grad_norm": 0.37045103311538696,
      "learning_rate": 0.00016851422300475706,
      "loss": 2.754,
      "step": 2290
    },
    {
      "epoch": 0.7423849643551523,
      "grad_norm": 0.36544349789619446,
      "learning_rate": 0.00016812149951497325,
      "loss": 2.961,
      "step": 2291
    },
    {
      "epoch": 0.7427090084251459,
      "grad_norm": 0.3630353510379791,
      "learning_rate": 0.00016772914167503223,
      "loss": 2.7929,
      "step": 2292
    },
    {
      "epoch": 0.7430330524951393,
      "grad_norm": 0.40481874346733093,
      "learning_rate": 0.00016733714991721738,
      "loss": 2.7779,
      "step": 2293
    },
    {
      "epoch": 0.7433570965651328,
      "grad_norm": 0.4600147008895874,
      "learning_rate": 0.0001669455246734089,
      "loss": 2.7807,
      "step": 2294
    },
    {
      "epoch": 0.7436811406351264,
      "grad_norm": 0.43219560384750366,
      "learning_rate": 0.00016655426637508287,
      "loss": 2.6913,
      "step": 2295
    },
    {
      "epoch": 0.7440051847051199,
      "grad_norm": 0.37606102228164673,
      "learning_rate": 0.0001661633754533116,
      "loss": 2.7152,
      "step": 2296
    },
    {
      "epoch": 0.7443292287751134,
      "grad_norm": 0.38712504506111145,
      "learning_rate": 0.0001657728523387621,
      "loss": 2.7946,
      "step": 2297
    },
    {
      "epoch": 0.744653272845107,
      "grad_norm": 0.4091396927833557,
      "learning_rate": 0.0001653826974616967,
      "loss": 2.8435,
      "step": 2298
    },
    {
      "epoch": 0.7449773169151005,
      "grad_norm": 0.37176263332366943,
      "learning_rate": 0.00016499291125197157,
      "loss": 2.8679,
      "step": 2299
    },
    {
      "epoch": 0.7453013609850939,
      "grad_norm": 0.37662437558174133,
      "learning_rate": 0.0001646034941390368,
      "loss": 2.7302,
      "step": 2300
    },
    {
      "epoch": 0.7456254050550875,
      "grad_norm": 0.40869641304016113,
      "learning_rate": 0.00016421444655193585,
      "loss": 2.8297,
      "step": 2301
    },
    {
      "epoch": 0.745949449125081,
      "grad_norm": 0.400727778673172,
      "learning_rate": 0.0001638257689193051,
      "loss": 2.7246,
      "step": 2302
    },
    {
      "epoch": 0.7462734931950745,
      "grad_norm": 0.4191947281360626,
      "learning_rate": 0.00016343746166937317,
      "loss": 2.7361,
      "step": 2303
    },
    {
      "epoch": 0.7465975372650681,
      "grad_norm": 0.3897581994533539,
      "learning_rate": 0.00016304952522996091,
      "loss": 2.7356,
      "step": 2304
    },
    {
      "epoch": 0.7469215813350616,
      "grad_norm": 0.38020676374435425,
      "learning_rate": 0.0001626619600284805,
      "loss": 2.8713,
      "step": 2305
    },
    {
      "epoch": 0.7472456254050551,
      "grad_norm": 0.3815711438655853,
      "learning_rate": 0.000162274766491935,
      "loss": 2.7701,
      "step": 2306
    },
    {
      "epoch": 0.7475696694750487,
      "grad_norm": 0.42618608474731445,
      "learning_rate": 0.00016188794504691807,
      "loss": 2.7837,
      "step": 2307
    },
    {
      "epoch": 0.7478937135450421,
      "grad_norm": 0.38567501306533813,
      "learning_rate": 0.00016150149611961328,
      "loss": 2.7025,
      "step": 2308
    },
    {
      "epoch": 0.7482177576150356,
      "grad_norm": 0.3584924638271332,
      "learning_rate": 0.00016111542013579394,
      "loss": 2.7824,
      "step": 2309
    },
    {
      "epoch": 0.7485418016850292,
      "grad_norm": 0.40868034958839417,
      "learning_rate": 0.00016072971752082227,
      "loss": 2.7142,
      "step": 2310
    },
    {
      "epoch": 0.7488658457550227,
      "grad_norm": 0.3939349353313446,
      "learning_rate": 0.00016034438869964962,
      "loss": 2.8217,
      "step": 2311
    },
    {
      "epoch": 0.7491898898250162,
      "grad_norm": 0.4624985158443451,
      "learning_rate": 0.00015995943409681475,
      "loss": 2.928,
      "step": 2312
    },
    {
      "epoch": 0.7495139338950098,
      "grad_norm": 0.38261452317237854,
      "learning_rate": 0.0001595748541364449,
      "loss": 2.6835,
      "step": 2313
    },
    {
      "epoch": 0.7498379779650033,
      "grad_norm": 0.5281472206115723,
      "learning_rate": 0.000159190649242254,
      "loss": 2.8002,
      "step": 2314
    },
    {
      "epoch": 0.7501620220349967,
      "grad_norm": 0.45442095398902893,
      "learning_rate": 0.0001588068198375429,
      "loss": 2.7741,
      "step": 2315
    },
    {
      "epoch": 0.7504860661049902,
      "grad_norm": 0.3929848074913025,
      "learning_rate": 0.00015842336634519887,
      "loss": 2.7141,
      "step": 2316
    },
    {
      "epoch": 0.7508101101749838,
      "grad_norm": 0.3735209107398987,
      "learning_rate": 0.00015804028918769487,
      "loss": 2.7067,
      "step": 2317
    },
    {
      "epoch": 0.7511341542449773,
      "grad_norm": 0.3817634582519531,
      "learning_rate": 0.00015765758878708908,
      "loss": 2.8285,
      "step": 2318
    },
    {
      "epoch": 0.7514581983149708,
      "grad_norm": 0.34744349122047424,
      "learning_rate": 0.00015727526556502498,
      "loss": 2.6815,
      "step": 2319
    },
    {
      "epoch": 0.7517822423849644,
      "grad_norm": 0.37796109914779663,
      "learning_rate": 0.00015689331994273042,
      "loss": 2.7758,
      "step": 2320
    },
    {
      "epoch": 0.7521062864549579,
      "grad_norm": 0.35294535756111145,
      "learning_rate": 0.00015651175234101706,
      "loss": 2.7874,
      "step": 2321
    },
    {
      "epoch": 0.7524303305249513,
      "grad_norm": 0.37626972794532776,
      "learning_rate": 0.00015613056318027996,
      "loss": 2.7618,
      "step": 2322
    },
    {
      "epoch": 0.7527543745949449,
      "grad_norm": 0.4015143811702728,
      "learning_rate": 0.00015574975288049748,
      "loss": 2.83,
      "step": 2323
    },
    {
      "epoch": 0.7530784186649384,
      "grad_norm": 0.3826465308666229,
      "learning_rate": 0.00015536932186123044,
      "loss": 2.7084,
      "step": 2324
    },
    {
      "epoch": 0.7534024627349319,
      "grad_norm": 0.3939126431941986,
      "learning_rate": 0.00015498927054162165,
      "loss": 2.877,
      "step": 2325
    },
    {
      "epoch": 0.7537265068049255,
      "grad_norm": 0.35806789994239807,
      "learning_rate": 0.0001546095993403961,
      "loss": 2.7744,
      "step": 2326
    },
    {
      "epoch": 0.754050550874919,
      "grad_norm": 0.35659027099609375,
      "learning_rate": 0.00015423030867585925,
      "loss": 2.7676,
      "step": 2327
    },
    {
      "epoch": 0.7543745949449125,
      "grad_norm": 0.43449652194976807,
      "learning_rate": 0.00015385139896589807,
      "loss": 2.811,
      "step": 2328
    },
    {
      "epoch": 0.7546986390149061,
      "grad_norm": 0.38077491521835327,
      "learning_rate": 0.0001534728706279792,
      "loss": 2.759,
      "step": 2329
    },
    {
      "epoch": 0.7550226830848995,
      "grad_norm": 0.3611082136631012,
      "learning_rate": 0.00015309472407914936,
      "loss": 2.7405,
      "step": 2330
    },
    {
      "epoch": 0.755346727154893,
      "grad_norm": 0.42166292667388916,
      "learning_rate": 0.00015271695973603466,
      "loss": 2.749,
      "step": 2331
    },
    {
      "epoch": 0.7556707712248866,
      "grad_norm": 0.40373632311820984,
      "learning_rate": 0.00015233957801483988,
      "loss": 2.7681,
      "step": 2332
    },
    {
      "epoch": 0.7559948152948801,
      "grad_norm": 0.3612383008003235,
      "learning_rate": 0.0001519625793313484,
      "loss": 2.8092,
      "step": 2333
    },
    {
      "epoch": 0.7563188593648736,
      "grad_norm": 0.3656124174594879,
      "learning_rate": 0.0001515859641009217,
      "loss": 2.7266,
      "step": 2334
    },
    {
      "epoch": 0.7566429034348672,
      "grad_norm": 0.3956427574157715,
      "learning_rate": 0.00015120973273849875,
      "loss": 2.828,
      "step": 2335
    },
    {
      "epoch": 0.7569669475048607,
      "grad_norm": 0.38131773471832275,
      "learning_rate": 0.00015083388565859546,
      "loss": 2.7675,
      "step": 2336
    },
    {
      "epoch": 0.7572909915748541,
      "grad_norm": 0.39309579133987427,
      "learning_rate": 0.0001504584232753044,
      "loss": 2.7279,
      "step": 2337
    },
    {
      "epoch": 0.7576150356448477,
      "grad_norm": 0.36099445819854736,
      "learning_rate": 0.00015008334600229435,
      "loss": 2.7764,
      "step": 2338
    },
    {
      "epoch": 0.7579390797148412,
      "grad_norm": 0.37111812829971313,
      "learning_rate": 0.00014970865425280967,
      "loss": 2.8353,
      "step": 2339
    },
    {
      "epoch": 0.7582631237848347,
      "grad_norm": 0.43084537982940674,
      "learning_rate": 0.00014933434843966993,
      "loss": 2.8905,
      "step": 2340
    },
    {
      "epoch": 0.7585871678548283,
      "grad_norm": 0.6021996140480042,
      "learning_rate": 0.00014896042897526973,
      "loss": 2.8166,
      "step": 2341
    },
    {
      "epoch": 0.7589112119248218,
      "grad_norm": 0.3767225444316864,
      "learning_rate": 0.00014858689627157812,
      "loss": 2.7932,
      "step": 2342
    },
    {
      "epoch": 0.7592352559948153,
      "grad_norm": 0.3982270658016205,
      "learning_rate": 0.0001482137507401376,
      "loss": 2.9022,
      "step": 2343
    },
    {
      "epoch": 0.7595593000648088,
      "grad_norm": 0.3776320517063141,
      "learning_rate": 0.00014784099279206426,
      "loss": 2.7372,
      "step": 2344
    },
    {
      "epoch": 0.7598833441348023,
      "grad_norm": 0.39317652583122253,
      "learning_rate": 0.0001474686228380473,
      "loss": 2.7866,
      "step": 2345
    },
    {
      "epoch": 0.7602073882047958,
      "grad_norm": 0.4217820465564728,
      "learning_rate": 0.00014709664128834826,
      "loss": 2.8238,
      "step": 2346
    },
    {
      "epoch": 0.7605314322747894,
      "grad_norm": 0.3797907829284668,
      "learning_rate": 0.0001467250485528009,
      "loss": 2.768,
      "step": 2347
    },
    {
      "epoch": 0.7608554763447829,
      "grad_norm": 0.3853313624858856,
      "learning_rate": 0.00014635384504081038,
      "loss": 2.7948,
      "step": 2348
    },
    {
      "epoch": 0.7611795204147764,
      "grad_norm": 0.8983253836631775,
      "learning_rate": 0.00014598303116135337,
      "loss": 2.8098,
      "step": 2349
    },
    {
      "epoch": 0.76150356448477,
      "grad_norm": 0.5001559853553772,
      "learning_rate": 0.00014561260732297716,
      "loss": 2.8766,
      "step": 2350
    },
    {
      "epoch": 0.7618276085547635,
      "grad_norm": 0.3668275773525238,
      "learning_rate": 0.00014524257393379918,
      "loss": 2.8163,
      "step": 2351
    },
    {
      "epoch": 0.7621516526247569,
      "grad_norm": 0.3584596812725067,
      "learning_rate": 0.00014487293140150664,
      "loss": 2.8157,
      "step": 2352
    },
    {
      "epoch": 0.7624756966947505,
      "grad_norm": 0.4242918789386749,
      "learning_rate": 0.0001445036801333563,
      "loss": 2.8354,
      "step": 2353
    },
    {
      "epoch": 0.762799740764744,
      "grad_norm": 0.39862626791000366,
      "learning_rate": 0.00014413482053617373,
      "loss": 2.6827,
      "step": 2354
    },
    {
      "epoch": 0.7631237848347375,
      "grad_norm": 0.3749505579471588,
      "learning_rate": 0.00014376635301635278,
      "loss": 2.7739,
      "step": 2355
    },
    {
      "epoch": 0.7634478289047311,
      "grad_norm": 0.3678871989250183,
      "learning_rate": 0.00014339827797985573,
      "loss": 2.8074,
      "step": 2356
    },
    {
      "epoch": 0.7637718729747246,
      "grad_norm": 0.3538905382156372,
      "learning_rate": 0.00014303059583221244,
      "loss": 2.8434,
      "step": 2357
    },
    {
      "epoch": 0.7640959170447181,
      "grad_norm": 0.3434799909591675,
      "learning_rate": 0.00014266330697851955,
      "loss": 2.7544,
      "step": 2358
    },
    {
      "epoch": 0.7644199611147116,
      "grad_norm": 0.37406668066978455,
      "learning_rate": 0.0001422964118234405,
      "loss": 2.7113,
      "step": 2359
    },
    {
      "epoch": 0.7647440051847051,
      "grad_norm": 0.37571680545806885,
      "learning_rate": 0.00014192991077120504,
      "loss": 2.7323,
      "step": 2360
    },
    {
      "epoch": 0.7650680492546986,
      "grad_norm": 0.40202975273132324,
      "learning_rate": 0.00014156380422560873,
      "loss": 2.7938,
      "step": 2361
    },
    {
      "epoch": 0.7653920933246922,
      "grad_norm": 0.41244685649871826,
      "learning_rate": 0.00014119809259001225,
      "loss": 2.7756,
      "step": 2362
    },
    {
      "epoch": 0.7657161373946857,
      "grad_norm": 0.6257684230804443,
      "learning_rate": 0.0001408327762673417,
      "loss": 2.7933,
      "step": 2363
    },
    {
      "epoch": 0.7660401814646792,
      "grad_norm": 0.357842355966568,
      "learning_rate": 0.00014046785566008702,
      "loss": 2.7876,
      "step": 2364
    },
    {
      "epoch": 0.7663642255346728,
      "grad_norm": 0.40510979294776917,
      "learning_rate": 0.00014010333117030273,
      "loss": 2.8116,
      "step": 2365
    },
    {
      "epoch": 0.7666882696046662,
      "grad_norm": 0.380251407623291,
      "learning_rate": 0.00013973920319960653,
      "loss": 2.7842,
      "step": 2366
    },
    {
      "epoch": 0.7670123136746597,
      "grad_norm": 0.39650386571884155,
      "learning_rate": 0.00013937547214917933,
      "loss": 2.6714,
      "step": 2367
    },
    {
      "epoch": 0.7673363577446533,
      "grad_norm": 0.3733578622341156,
      "learning_rate": 0.0001390121384197649,
      "loss": 2.7692,
      "step": 2368
    },
    {
      "epoch": 0.7676604018146468,
      "grad_norm": 0.39434486627578735,
      "learning_rate": 0.00013864920241166902,
      "loss": 2.7682,
      "step": 2369
    },
    {
      "epoch": 0.7679844458846403,
      "grad_norm": 0.4108276069164276,
      "learning_rate": 0.00013828666452475925,
      "loss": 2.6687,
      "step": 2370
    },
    {
      "epoch": 0.7683084899546339,
      "grad_norm": 0.4097015857696533,
      "learning_rate": 0.00013792452515846488,
      "loss": 2.6757,
      "step": 2371
    },
    {
      "epoch": 0.7686325340246274,
      "grad_norm": 0.38778361678123474,
      "learning_rate": 0.00013756278471177604,
      "loss": 2.8326,
      "step": 2372
    },
    {
      "epoch": 0.7689565780946209,
      "grad_norm": 0.5758056044578552,
      "learning_rate": 0.00013720144358324304,
      "loss": 2.7455,
      "step": 2373
    },
    {
      "epoch": 0.7692806221646143,
      "grad_norm": 0.3899565637111664,
      "learning_rate": 0.00013684050217097643,
      "loss": 2.6885,
      "step": 2374
    },
    {
      "epoch": 0.7696046662346079,
      "grad_norm": 0.372764527797699,
      "learning_rate": 0.00013647996087264635,
      "loss": 2.6571,
      "step": 2375
    },
    {
      "epoch": 0.7699287103046014,
      "grad_norm": 0.37870296835899353,
      "learning_rate": 0.00013611982008548208,
      "loss": 2.8104,
      "step": 2376
    },
    {
      "epoch": 0.770252754374595,
      "grad_norm": 0.3833859860897064,
      "learning_rate": 0.00013576008020627157,
      "loss": 2.7822,
      "step": 2377
    },
    {
      "epoch": 0.7705767984445885,
      "grad_norm": 0.3736269772052765,
      "learning_rate": 0.00013540074163136145,
      "loss": 2.7807,
      "step": 2378
    },
    {
      "epoch": 0.770900842514582,
      "grad_norm": 0.4382679760456085,
      "learning_rate": 0.00013504180475665563,
      "loss": 2.8438,
      "step": 2379
    },
    {
      "epoch": 0.7712248865845756,
      "grad_norm": 0.38951486349105835,
      "learning_rate": 0.000134683269977616,
      "loss": 2.713,
      "step": 2380
    },
    {
      "epoch": 0.771548930654569,
      "grad_norm": 0.4862166941165924,
      "learning_rate": 0.00013432513768926103,
      "loss": 2.7863,
      "step": 2381
    },
    {
      "epoch": 0.7718729747245625,
      "grad_norm": 0.36918336153030396,
      "learning_rate": 0.00013396740828616594,
      "loss": 2.6809,
      "step": 2382
    },
    {
      "epoch": 0.772197018794556,
      "grad_norm": 0.42065563797950745,
      "learning_rate": 0.00013361008216246196,
      "loss": 2.7775,
      "step": 2383
    },
    {
      "epoch": 0.7725210628645496,
      "grad_norm": 0.6565384864807129,
      "learning_rate": 0.00013325315971183605,
      "loss": 2.8655,
      "step": 2384
    },
    {
      "epoch": 0.7728451069345431,
      "grad_norm": 1.147396445274353,
      "learning_rate": 0.00013289664132753033,
      "loss": 2.8285,
      "step": 2385
    },
    {
      "epoch": 0.7731691510045366,
      "grad_norm": 0.3782823979854584,
      "learning_rate": 0.00013254052740234202,
      "loss": 2.7393,
      "step": 2386
    },
    {
      "epoch": 0.7734931950745302,
      "grad_norm": 0.4332188367843628,
      "learning_rate": 0.00013218481832862256,
      "loss": 2.8203,
      "step": 2387
    },
    {
      "epoch": 0.7738172391445236,
      "grad_norm": 0.37141335010528564,
      "learning_rate": 0.0001318295144982773,
      "loss": 2.6855,
      "step": 2388
    },
    {
      "epoch": 0.7741412832145171,
      "grad_norm": 0.3740631937980652,
      "learning_rate": 0.00013147461630276503,
      "loss": 2.731,
      "step": 2389
    },
    {
      "epoch": 0.7744653272845107,
      "grad_norm": 0.5105673670768738,
      "learning_rate": 0.00013112012413309777,
      "loss": 2.8079,
      "step": 2390
    },
    {
      "epoch": 0.7747893713545042,
      "grad_norm": 0.4735059440135956,
      "learning_rate": 0.0001307660383798402,
      "loss": 2.796,
      "step": 2391
    },
    {
      "epoch": 0.7751134154244977,
      "grad_norm": 0.3544883131980896,
      "learning_rate": 0.00013041235943310898,
      "loss": 2.7694,
      "step": 2392
    },
    {
      "epoch": 0.7754374594944913,
      "grad_norm": 0.6848388910293579,
      "learning_rate": 0.00013005908768257309,
      "loss": 2.7878,
      "step": 2393
    },
    {
      "epoch": 0.7757615035644848,
      "grad_norm": 0.48646602034568787,
      "learning_rate": 0.00012970622351745226,
      "loss": 2.7813,
      "step": 2394
    },
    {
      "epoch": 0.7760855476344782,
      "grad_norm": 0.4193597733974457,
      "learning_rate": 0.00012935376732651778,
      "loss": 2.7372,
      "step": 2395
    },
    {
      "epoch": 0.7764095917044718,
      "grad_norm": 0.4050401449203491,
      "learning_rate": 0.00012900171949809092,
      "loss": 2.7802,
      "step": 2396
    },
    {
      "epoch": 0.7767336357744653,
      "grad_norm": 0.3861796259880066,
      "learning_rate": 0.00012865008042004327,
      "loss": 2.7844,
      "step": 2397
    },
    {
      "epoch": 0.7770576798444588,
      "grad_norm": 0.37961968779563904,
      "learning_rate": 0.00012829885047979612,
      "loss": 2.717,
      "step": 2398
    },
    {
      "epoch": 0.7773817239144524,
      "grad_norm": 0.3580991327762604,
      "learning_rate": 0.0001279480300643198,
      "loss": 2.8146,
      "step": 2399
    },
    {
      "epoch": 0.7777057679844459,
      "grad_norm": 0.3619779646396637,
      "learning_rate": 0.00012759761956013355,
      "loss": 2.8118,
      "step": 2400
    },
    {
      "epoch": 0.7780298120544394,
      "grad_norm": 0.3985999822616577,
      "learning_rate": 0.00012724761935330503,
      "loss": 2.726,
      "step": 2401
    },
    {
      "epoch": 0.778353856124433,
      "grad_norm": 0.368262380361557,
      "learning_rate": 0.00012689802982945,
      "loss": 2.7235,
      "step": 2402
    },
    {
      "epoch": 0.7786779001944264,
      "grad_norm": 0.3824581503868103,
      "learning_rate": 0.00012654885137373145,
      "loss": 2.8342,
      "step": 2403
    },
    {
      "epoch": 0.7790019442644199,
      "grad_norm": 0.39929136633872986,
      "learning_rate": 0.00012620008437085956,
      "loss": 2.8835,
      "step": 2404
    },
    {
      "epoch": 0.7793259883344135,
      "grad_norm": 0.3698691129684448,
      "learning_rate": 0.00012585172920509126,
      "loss": 2.767,
      "step": 2405
    },
    {
      "epoch": 0.779650032404407,
      "grad_norm": 0.4101487696170807,
      "learning_rate": 0.00012550378626022962,
      "loss": 2.8281,
      "step": 2406
    },
    {
      "epoch": 0.7799740764744005,
      "grad_norm": 0.38723883032798767,
      "learning_rate": 0.00012515625591962354,
      "loss": 2.7556,
      "step": 2407
    },
    {
      "epoch": 0.7802981205443941,
      "grad_norm": 0.4119221270084381,
      "learning_rate": 0.00012480913856616755,
      "loss": 2.7027,
      "step": 2408
    },
    {
      "epoch": 0.7806221646143876,
      "grad_norm": 0.43026089668273926,
      "learning_rate": 0.00012446243458230104,
      "loss": 2.7501,
      "step": 2409
    },
    {
      "epoch": 0.780946208684381,
      "grad_norm": 0.38684195280075073,
      "learning_rate": 0.000124116144350008,
      "loss": 2.7276,
      "step": 2410
    },
    {
      "epoch": 0.7812702527543746,
      "grad_norm": 0.360268771648407,
      "learning_rate": 0.00012377026825081638,
      "loss": 2.7651,
      "step": 2411
    },
    {
      "epoch": 0.7815942968243681,
      "grad_norm": 0.3767267167568207,
      "learning_rate": 0.00012342480666579809,
      "loss": 2.7649,
      "step": 2412
    },
    {
      "epoch": 0.7819183408943616,
      "grad_norm": 0.36255189776420593,
      "learning_rate": 0.00012307975997556813,
      "loss": 2.856,
      "step": 2413
    },
    {
      "epoch": 0.7822423849643552,
      "grad_norm": 0.3758189380168915,
      "learning_rate": 0.00012273512856028458,
      "loss": 2.7127,
      "step": 2414
    },
    {
      "epoch": 0.7825664290343487,
      "grad_norm": 0.3815504014492035,
      "learning_rate": 0.00012239091279964777,
      "loss": 2.8127,
      "step": 2415
    },
    {
      "epoch": 0.7828904731043422,
      "grad_norm": 0.3659350275993347,
      "learning_rate": 0.00012204711307290028,
      "loss": 2.8132,
      "step": 2416
    },
    {
      "epoch": 0.7832145171743357,
      "grad_norm": 0.37507736682891846,
      "learning_rate": 0.00012170372975882648,
      "loss": 2.7359,
      "step": 2417
    },
    {
      "epoch": 0.7835385612443292,
      "grad_norm": 0.3655802607536316,
      "learning_rate": 0.00012136076323575162,
      "loss": 2.7171,
      "step": 2418
    },
    {
      "epoch": 0.7838626053143227,
      "grad_norm": 0.3813445568084717,
      "learning_rate": 0.00012101821388154183,
      "loss": 2.7268,
      "step": 2419
    },
    {
      "epoch": 0.7841866493843163,
      "grad_norm": 0.425201416015625,
      "learning_rate": 0.00012067608207360359,
      "loss": 2.7456,
      "step": 2420
    },
    {
      "epoch": 0.7845106934543098,
      "grad_norm": 0.4282758831977844,
      "learning_rate": 0.00012033436818888349,
      "loss": 2.7927,
      "step": 2421
    },
    {
      "epoch": 0.7848347375243033,
      "grad_norm": 0.39160940051078796,
      "learning_rate": 0.00011999307260386743,
      "loss": 2.8362,
      "step": 2422
    },
    {
      "epoch": 0.7851587815942969,
      "grad_norm": 0.38518258929252625,
      "learning_rate": 0.00011965219569458068,
      "loss": 2.8044,
      "step": 2423
    },
    {
      "epoch": 0.7854828256642904,
      "grad_norm": 0.40996435284614563,
      "learning_rate": 0.00011931173783658738,
      "loss": 2.7824,
      "step": 2424
    },
    {
      "epoch": 0.7858068697342838,
      "grad_norm": 1.2307974100112915,
      "learning_rate": 0.00011897169940498958,
      "loss": 2.8012,
      "step": 2425
    },
    {
      "epoch": 0.7861309138042774,
      "grad_norm": 0.39073464274406433,
      "learning_rate": 0.00011863208077442739,
      "loss": 2.8456,
      "step": 2426
    },
    {
      "epoch": 0.7864549578742709,
      "grad_norm": 0.3913998305797577,
      "learning_rate": 0.00011829288231907842,
      "loss": 2.7779,
      "step": 2427
    },
    {
      "epoch": 0.7867790019442644,
      "grad_norm": 0.4092772603034973,
      "learning_rate": 0.0001179541044126573,
      "loss": 2.7236,
      "step": 2428
    },
    {
      "epoch": 0.787103046014258,
      "grad_norm": 0.3891753852367401,
      "learning_rate": 0.00011761574742841519,
      "loss": 2.8564,
      "step": 2429
    },
    {
      "epoch": 0.7874270900842515,
      "grad_norm": 0.3642823100090027,
      "learning_rate": 0.00011727781173913998,
      "loss": 2.722,
      "step": 2430
    },
    {
      "epoch": 0.787751134154245,
      "grad_norm": 0.47704586386680603,
      "learning_rate": 0.0001169402977171548,
      "loss": 2.7604,
      "step": 2431
    },
    {
      "epoch": 0.7880751782242384,
      "grad_norm": 0.4132523834705353,
      "learning_rate": 0.00011660320573431871,
      "loss": 2.609,
      "step": 2432
    },
    {
      "epoch": 0.788399222294232,
      "grad_norm": 0.36485451459884644,
      "learning_rate": 0.00011626653616202542,
      "loss": 2.7733,
      "step": 2433
    },
    {
      "epoch": 0.7887232663642255,
      "grad_norm": 0.4023664593696594,
      "learning_rate": 0.00011593028937120343,
      "loss": 2.8444,
      "step": 2434
    },
    {
      "epoch": 0.789047310434219,
      "grad_norm": 0.42400071024894714,
      "learning_rate": 0.00011559446573231531,
      "loss": 2.8251,
      "step": 2435
    },
    {
      "epoch": 0.7893713545042126,
      "grad_norm": 0.36922940611839294,
      "learning_rate": 0.00011525906561535754,
      "loss": 2.7457,
      "step": 2436
    },
    {
      "epoch": 0.7896953985742061,
      "grad_norm": 0.4020785093307495,
      "learning_rate": 0.00011492408938985977,
      "loss": 2.8088,
      "step": 2437
    },
    {
      "epoch": 0.7900194426441997,
      "grad_norm": 0.35880130529403687,
      "learning_rate": 0.00011458953742488493,
      "loss": 2.7949,
      "step": 2438
    },
    {
      "epoch": 0.7903434867141931,
      "grad_norm": 0.37103596329689026,
      "learning_rate": 0.00011425541008902851,
      "loss": 2.8536,
      "step": 2439
    },
    {
      "epoch": 0.7906675307841866,
      "grad_norm": 0.38770729303359985,
      "learning_rate": 0.00011392170775041788,
      "loss": 2.753,
      "step": 2440
    },
    {
      "epoch": 0.7909915748541801,
      "grad_norm": 0.3891315460205078,
      "learning_rate": 0.00011358843077671233,
      "loss": 2.6736,
      "step": 2441
    },
    {
      "epoch": 0.7913156189241737,
      "grad_norm": 0.362906813621521,
      "learning_rate": 0.00011325557953510246,
      "loss": 2.7954,
      "step": 2442
    },
    {
      "epoch": 0.7916396629941672,
      "grad_norm": 0.3863690495491028,
      "learning_rate": 0.00011292315439230988,
      "loss": 2.7471,
      "step": 2443
    },
    {
      "epoch": 0.7919637070641607,
      "grad_norm": 0.3768990933895111,
      "learning_rate": 0.0001125911557145865,
      "loss": 2.8078,
      "step": 2444
    },
    {
      "epoch": 0.7922877511341543,
      "grad_norm": 0.4054567813873291,
      "learning_rate": 0.0001122595838677149,
      "loss": 2.7813,
      "step": 2445
    },
    {
      "epoch": 0.7926117952041478,
      "grad_norm": 0.37337538599967957,
      "learning_rate": 0.00011192843921700673,
      "loss": 2.766,
      "step": 2446
    },
    {
      "epoch": 0.7929358392741412,
      "grad_norm": 0.40196385979652405,
      "learning_rate": 0.00011159772212730368,
      "loss": 2.7156,
      "step": 2447
    },
    {
      "epoch": 0.7932598833441348,
      "grad_norm": 0.36050698161125183,
      "learning_rate": 0.00011126743296297575,
      "loss": 2.691,
      "step": 2448
    },
    {
      "epoch": 0.7935839274141283,
      "grad_norm": 0.5036323070526123,
      "learning_rate": 0.00011093757208792182,
      "loss": 2.756,
      "step": 2449
    },
    {
      "epoch": 0.7939079714841218,
      "grad_norm": 0.40430453419685364,
      "learning_rate": 0.00011060813986556872,
      "loss": 2.8564,
      "step": 2450
    },
    {
      "epoch": 0.7942320155541154,
      "grad_norm": 0.399354487657547,
      "learning_rate": 0.00011027913665887107,
      "loss": 2.8039,
      "step": 2451
    },
    {
      "epoch": 0.7945560596241089,
      "grad_norm": 0.515626072883606,
      "learning_rate": 0.0001099505628303108,
      "loss": 2.7638,
      "step": 2452
    },
    {
      "epoch": 0.7948801036941024,
      "grad_norm": 0.4109465181827545,
      "learning_rate": 0.00010962241874189689,
      "loss": 2.8309,
      "step": 2453
    },
    {
      "epoch": 0.7952041477640959,
      "grad_norm": 0.37153515219688416,
      "learning_rate": 0.00010929470475516484,
      "loss": 2.8155,
      "step": 2454
    },
    {
      "epoch": 0.7955281918340894,
      "grad_norm": 0.43680956959724426,
      "learning_rate": 0.00010896742123117615,
      "loss": 2.8632,
      "step": 2455
    },
    {
      "epoch": 0.7958522359040829,
      "grad_norm": 0.41452765464782715,
      "learning_rate": 0.00010864056853051806,
      "loss": 2.732,
      "step": 2456
    },
    {
      "epoch": 0.7961762799740765,
      "grad_norm": 0.37861722707748413,
      "learning_rate": 0.00010831414701330327,
      "loss": 2.8423,
      "step": 2457
    },
    {
      "epoch": 0.79650032404407,
      "grad_norm": 0.35843077301979065,
      "learning_rate": 0.00010798815703916925,
      "loss": 2.7775,
      "step": 2458
    },
    {
      "epoch": 0.7968243681140635,
      "grad_norm": 0.3949943780899048,
      "learning_rate": 0.00010766259896727804,
      "loss": 2.8453,
      "step": 2459
    },
    {
      "epoch": 0.7971484121840571,
      "grad_norm": 0.3888799250125885,
      "learning_rate": 0.00010733747315631615,
      "loss": 2.8257,
      "step": 2460
    },
    {
      "epoch": 0.7974724562540505,
      "grad_norm": 0.3751702606678009,
      "learning_rate": 0.00010701277996449333,
      "loss": 2.7059,
      "step": 2461
    },
    {
      "epoch": 0.797796500324044,
      "grad_norm": 0.3753592371940613,
      "learning_rate": 0.00010668851974954319,
      "loss": 2.7159,
      "step": 2462
    },
    {
      "epoch": 0.7981205443940376,
      "grad_norm": 0.4621663987636566,
      "learning_rate": 0.00010636469286872196,
      "loss": 2.7382,
      "step": 2463
    },
    {
      "epoch": 0.7984445884640311,
      "grad_norm": 0.36276036500930786,
      "learning_rate": 0.00010604129967880854,
      "loss": 2.7161,
      "step": 2464
    },
    {
      "epoch": 0.7987686325340246,
      "grad_norm": 0.3841516971588135,
      "learning_rate": 0.00010571834053610401,
      "loss": 2.8413,
      "step": 2465
    },
    {
      "epoch": 0.7990926766040182,
      "grad_norm": 0.3678869605064392,
      "learning_rate": 0.0001053958157964312,
      "loss": 2.7307,
      "step": 2466
    },
    {
      "epoch": 0.7994167206740117,
      "grad_norm": 0.37673959136009216,
      "learning_rate": 0.00010507372581513436,
      "loss": 2.7964,
      "step": 2467
    },
    {
      "epoch": 0.7997407647440052,
      "grad_norm": 0.4112599790096283,
      "learning_rate": 0.00010475207094707873,
      "loss": 2.7998,
      "step": 2468
    },
    {
      "epoch": 0.8000648088139987,
      "grad_norm": 0.3798217177391052,
      "learning_rate": 0.00010443085154665039,
      "loss": 2.7519,
      "step": 2469
    },
    {
      "epoch": 0.8003888528839922,
      "grad_norm": 0.390698105096817,
      "learning_rate": 0.00010411006796775529,
      "loss": 2.6991,
      "step": 2470
    },
    {
      "epoch": 0.8007128969539857,
      "grad_norm": 0.3842545747756958,
      "learning_rate": 0.0001037897205638194,
      "loss": 2.7439,
      "step": 2471
    },
    {
      "epoch": 0.8010369410239793,
      "grad_norm": 0.37229445576667786,
      "learning_rate": 0.00010346980968778802,
      "loss": 2.7622,
      "step": 2472
    },
    {
      "epoch": 0.8013609850939728,
      "grad_norm": 0.3735288083553314,
      "learning_rate": 0.00010315033569212556,
      "loss": 2.7598,
      "step": 2473
    },
    {
      "epoch": 0.8016850291639663,
      "grad_norm": 0.4279687702655792,
      "learning_rate": 0.00010283129892881504,
      "loss": 2.7234,
      "step": 2474
    },
    {
      "epoch": 0.8020090732339599,
      "grad_norm": 0.3803819417953491,
      "learning_rate": 0.00010251269974935785,
      "loss": 2.8088,
      "step": 2475
    },
    {
      "epoch": 0.8023331173039533,
      "grad_norm": 0.37641414999961853,
      "learning_rate": 0.00010219453850477345,
      "loss": 2.8454,
      "step": 2476
    },
    {
      "epoch": 0.8026571613739468,
      "grad_norm": 0.3962644040584564,
      "learning_rate": 0.0001018768155455984,
      "loss": 2.7962,
      "step": 2477
    },
    {
      "epoch": 0.8029812054439404,
      "grad_norm": 0.384992778301239,
      "learning_rate": 0.00010155953122188654,
      "loss": 2.7666,
      "step": 2478
    },
    {
      "epoch": 0.8033052495139339,
      "grad_norm": 0.38848191499710083,
      "learning_rate": 0.00010124268588320856,
      "loss": 2.8017,
      "step": 2479
    },
    {
      "epoch": 0.8036292935839274,
      "grad_norm": 0.37149778008461,
      "learning_rate": 0.00010092627987865128,
      "loss": 2.7551,
      "step": 2480
    },
    {
      "epoch": 0.803953337653921,
      "grad_norm": 0.42203283309936523,
      "learning_rate": 0.00010061031355681765,
      "loss": 2.7168,
      "step": 2481
    },
    {
      "epoch": 0.8042773817239145,
      "grad_norm": 0.37300732731819153,
      "learning_rate": 0.00010029478726582603,
      "loss": 2.7218,
      "step": 2482
    },
    {
      "epoch": 0.8046014257939079,
      "grad_norm": 0.42612403631210327,
      "learning_rate": 9.99797013533102e-05,
      "loss": 2.7534,
      "step": 2483
    },
    {
      "epoch": 0.8049254698639015,
      "grad_norm": 0.3913191556930542,
      "learning_rate": 9.966505616641869e-05,
      "loss": 2.7634,
      "step": 2484
    },
    {
      "epoch": 0.805249513933895,
      "grad_norm": 0.40080851316452026,
      "learning_rate": 9.935085205181432e-05,
      "loss": 2.8055,
      "step": 2485
    },
    {
      "epoch": 0.8055735580038885,
      "grad_norm": 1.6604622602462769,
      "learning_rate": 9.903708935567407e-05,
      "loss": 2.7594,
      "step": 2486
    },
    {
      "epoch": 0.8058976020738821,
      "grad_norm": 0.37228378653526306,
      "learning_rate": 9.872376842368851e-05,
      "loss": 2.8136,
      "step": 2487
    },
    {
      "epoch": 0.8062216461438756,
      "grad_norm": 0.39456436038017273,
      "learning_rate": 9.84108896010616e-05,
      "loss": 2.7776,
      "step": 2488
    },
    {
      "epoch": 0.8065456902138691,
      "grad_norm": 0.39423662424087524,
      "learning_rate": 9.809845323250988e-05,
      "loss": 2.7295,
      "step": 2489
    },
    {
      "epoch": 0.8068697342838627,
      "grad_norm": 0.39563554525375366,
      "learning_rate": 9.778645966226284e-05,
      "loss": 2.8078,
      "step": 2490
    },
    {
      "epoch": 0.8071937783538561,
      "grad_norm": 0.3937927782535553,
      "learning_rate": 9.747490923406215e-05,
      "loss": 2.7629,
      "step": 2491
    },
    {
      "epoch": 0.8075178224238496,
      "grad_norm": 0.37582847476005554,
      "learning_rate": 9.716380229116078e-05,
      "loss": 2.763,
      "step": 2492
    },
    {
      "epoch": 0.8078418664938432,
      "grad_norm": 0.39600029587745667,
      "learning_rate": 9.685313917632344e-05,
      "loss": 2.7232,
      "step": 2493
    },
    {
      "epoch": 0.8081659105638367,
      "grad_norm": 0.3643580675125122,
      "learning_rate": 9.65429202318257e-05,
      "loss": 2.7934,
      "step": 2494
    },
    {
      "epoch": 0.8084899546338302,
      "grad_norm": 0.37699198722839355,
      "learning_rate": 9.623314579945381e-05,
      "loss": 2.741,
      "step": 2495
    },
    {
      "epoch": 0.8088139987038238,
      "grad_norm": 1.8211663961410522,
      "learning_rate": 9.592381622050412e-05,
      "loss": 2.8285,
      "step": 2496
    },
    {
      "epoch": 0.8091380427738173,
      "grad_norm": 0.3637365996837616,
      "learning_rate": 9.561493183578335e-05,
      "loss": 2.7735,
      "step": 2497
    },
    {
      "epoch": 0.8094620868438107,
      "grad_norm": 0.40246519446372986,
      "learning_rate": 9.530649298560706e-05,
      "loss": 2.915,
      "step": 2498
    },
    {
      "epoch": 0.8097861309138042,
      "grad_norm": 0.37475481629371643,
      "learning_rate": 9.499850000980059e-05,
      "loss": 2.685,
      "step": 2499
    },
    {
      "epoch": 0.8101101749837978,
      "grad_norm": 0.37075433135032654,
      "learning_rate": 9.469095324769755e-05,
      "loss": 2.8101,
      "step": 2500
    },
    {
      "epoch": 0.8104342190537913,
      "grad_norm": 0.4295636713504791,
      "learning_rate": 9.438385303814006e-05,
      "loss": 2.7944,
      "step": 2501
    },
    {
      "epoch": 0.8107582631237849,
      "grad_norm": 0.3870314657688141,
      "learning_rate": 9.407719971947832e-05,
      "loss": 2.7469,
      "step": 2502
    },
    {
      "epoch": 0.8110823071937784,
      "grad_norm": 0.4422747492790222,
      "learning_rate": 9.37709936295701e-05,
      "loss": 2.7428,
      "step": 2503
    },
    {
      "epoch": 0.8114063512637719,
      "grad_norm": 0.3723984956741333,
      "learning_rate": 9.346523510578032e-05,
      "loss": 2.6948,
      "step": 2504
    },
    {
      "epoch": 0.8117303953337653,
      "grad_norm": 0.37698549032211304,
      "learning_rate": 9.315992448498106e-05,
      "loss": 2.7607,
      "step": 2505
    },
    {
      "epoch": 0.8120544394037589,
      "grad_norm": 0.38041985034942627,
      "learning_rate": 9.285506210355098e-05,
      "loss": 2.755,
      "step": 2506
    },
    {
      "epoch": 0.8123784834737524,
      "grad_norm": 0.38429051637649536,
      "learning_rate": 9.255064829737447e-05,
      "loss": 2.7844,
      "step": 2507
    },
    {
      "epoch": 0.812702527543746,
      "grad_norm": 0.3806760013103485,
      "learning_rate": 9.224668340184195e-05,
      "loss": 2.7469,
      "step": 2508
    },
    {
      "epoch": 0.8130265716137395,
      "grad_norm": 0.36370348930358887,
      "learning_rate": 9.194316775184925e-05,
      "loss": 2.7919,
      "step": 2509
    },
    {
      "epoch": 0.813350615683733,
      "grad_norm": 0.5065426826477051,
      "learning_rate": 9.16401016817972e-05,
      "loss": 2.8855,
      "step": 2510
    },
    {
      "epoch": 0.8136746597537265,
      "grad_norm": 0.39271777868270874,
      "learning_rate": 9.133748552559112e-05,
      "loss": 2.8069,
      "step": 2511
    },
    {
      "epoch": 0.81399870382372,
      "grad_norm": 0.38618630170822144,
      "learning_rate": 9.103531961664119e-05,
      "loss": 2.7106,
      "step": 2512
    },
    {
      "epoch": 0.8143227478937135,
      "grad_norm": 0.3745483160018921,
      "learning_rate": 9.073360428786087e-05,
      "loss": 2.7857,
      "step": 2513
    },
    {
      "epoch": 0.814646791963707,
      "grad_norm": 0.36360859870910645,
      "learning_rate": 9.04323398716677e-05,
      "loss": 2.7403,
      "step": 2514
    },
    {
      "epoch": 0.8149708360337006,
      "grad_norm": 0.3792204260826111,
      "learning_rate": 9.013152669998209e-05,
      "loss": 2.8351,
      "step": 2515
    },
    {
      "epoch": 0.8152948801036941,
      "grad_norm": 0.3565593957901001,
      "learning_rate": 8.983116510422745e-05,
      "loss": 2.8027,
      "step": 2516
    },
    {
      "epoch": 0.8156189241736876,
      "grad_norm": 0.3761681914329529,
      "learning_rate": 8.953125541532959e-05,
      "loss": 2.8366,
      "step": 2517
    },
    {
      "epoch": 0.8159429682436812,
      "grad_norm": 0.4137742519378662,
      "learning_rate": 8.923179796371638e-05,
      "loss": 2.7579,
      "step": 2518
    },
    {
      "epoch": 0.8162670123136747,
      "grad_norm": 0.39104190468788147,
      "learning_rate": 8.89327930793175e-05,
      "loss": 2.7443,
      "step": 2519
    },
    {
      "epoch": 0.8165910563836681,
      "grad_norm": 0.3621715307235718,
      "learning_rate": 8.863424109156409e-05,
      "loss": 2.7362,
      "step": 2520
    },
    {
      "epoch": 0.8169151004536617,
      "grad_norm": 0.37918657064437866,
      "learning_rate": 8.833614232938836e-05,
      "loss": 2.7759,
      "step": 2521
    },
    {
      "epoch": 0.8172391445236552,
      "grad_norm": 0.40744537115097046,
      "learning_rate": 8.803849712122292e-05,
      "loss": 2.776,
      "step": 2522
    },
    {
      "epoch": 0.8175631885936487,
      "grad_norm": 0.49433696269989014,
      "learning_rate": 8.774130579500078e-05,
      "loss": 2.8232,
      "step": 2523
    },
    {
      "epoch": 0.8178872326636423,
      "grad_norm": 0.3626250624656677,
      "learning_rate": 8.744456867815498e-05,
      "loss": 2.7489,
      "step": 2524
    },
    {
      "epoch": 0.8182112767336358,
      "grad_norm": 0.36699119210243225,
      "learning_rate": 8.7148286097618e-05,
      "loss": 2.7987,
      "step": 2525
    },
    {
      "epoch": 0.8185353208036293,
      "grad_norm": 0.4209043085575104,
      "learning_rate": 8.685245837982147e-05,
      "loss": 2.7937,
      "step": 2526
    },
    {
      "epoch": 0.8188593648736228,
      "grad_norm": 0.3725832998752594,
      "learning_rate": 8.655708585069627e-05,
      "loss": 2.8473,
      "step": 2527
    },
    {
      "epoch": 0.8191834089436163,
      "grad_norm": 0.363472580909729,
      "learning_rate": 8.626216883567123e-05,
      "loss": 2.7967,
      "step": 2528
    },
    {
      "epoch": 0.8195074530136098,
      "grad_norm": 0.6701515316963196,
      "learning_rate": 8.596770765967376e-05,
      "loss": 2.8111,
      "step": 2529
    },
    {
      "epoch": 0.8198314970836034,
      "grad_norm": 0.37916937470436096,
      "learning_rate": 8.567370264712887e-05,
      "loss": 2.7861,
      "step": 2530
    },
    {
      "epoch": 0.8201555411535969,
      "grad_norm": 0.362263023853302,
      "learning_rate": 8.538015412195882e-05,
      "loss": 2.883,
      "step": 2531
    },
    {
      "epoch": 0.8204795852235904,
      "grad_norm": 0.3761475682258606,
      "learning_rate": 8.508706240758318e-05,
      "loss": 2.783,
      "step": 2532
    },
    {
      "epoch": 0.820803629293584,
      "grad_norm": 0.35571324825286865,
      "learning_rate": 8.479442782691815e-05,
      "loss": 2.7908,
      "step": 2533
    },
    {
      "epoch": 0.8211276733635774,
      "grad_norm": 0.3775213956832886,
      "learning_rate": 8.450225070237611e-05,
      "loss": 2.804,
      "step": 2534
    },
    {
      "epoch": 0.8214517174335709,
      "grad_norm": 0.597074031829834,
      "learning_rate": 8.42105313558657e-05,
      "loss": 2.78,
      "step": 2535
    },
    {
      "epoch": 0.8217757615035645,
      "grad_norm": 0.36019572615623474,
      "learning_rate": 8.391927010879124e-05,
      "loss": 2.8317,
      "step": 2536
    },
    {
      "epoch": 0.822099805573558,
      "grad_norm": 0.3872365951538086,
      "learning_rate": 8.362846728205203e-05,
      "loss": 2.7944,
      "step": 2537
    },
    {
      "epoch": 0.8224238496435515,
      "grad_norm": 0.36621570587158203,
      "learning_rate": 8.33381231960425e-05,
      "loss": 2.739,
      "step": 2538
    },
    {
      "epoch": 0.8227478937135451,
      "grad_norm": 0.3697265386581421,
      "learning_rate": 8.30482381706516e-05,
      "loss": 2.7087,
      "step": 2539
    },
    {
      "epoch": 0.8230719377835386,
      "grad_norm": 0.37792494893074036,
      "learning_rate": 8.275881252526245e-05,
      "loss": 2.8198,
      "step": 2540
    },
    {
      "epoch": 0.8233959818535321,
      "grad_norm": 0.42132508754730225,
      "learning_rate": 8.246984657875206e-05,
      "loss": 2.7557,
      "step": 2541
    },
    {
      "epoch": 0.8237200259235256,
      "grad_norm": 0.3841927945613861,
      "learning_rate": 8.218134064949112e-05,
      "loss": 2.8012,
      "step": 2542
    },
    {
      "epoch": 0.8240440699935191,
      "grad_norm": 0.35540714859962463,
      "learning_rate": 8.189329505534354e-05,
      "loss": 2.771,
      "step": 2543
    },
    {
      "epoch": 0.8243681140635126,
      "grad_norm": 0.3923933207988739,
      "learning_rate": 8.160571011366575e-05,
      "loss": 2.8038,
      "step": 2544
    },
    {
      "epoch": 0.8246921581335062,
      "grad_norm": 0.46307235956192017,
      "learning_rate": 8.131858614130677e-05,
      "loss": 2.7308,
      "step": 2545
    },
    {
      "epoch": 0.8250162022034997,
      "grad_norm": 0.3713187277317047,
      "learning_rate": 8.10319234546078e-05,
      "loss": 2.823,
      "step": 2546
    },
    {
      "epoch": 0.8253402462734932,
      "grad_norm": 0.36361536383628845,
      "learning_rate": 8.074572236940186e-05,
      "loss": 2.7154,
      "step": 2547
    },
    {
      "epoch": 0.8256642903434868,
      "grad_norm": 0.42431721091270447,
      "learning_rate": 8.045998320101322e-05,
      "loss": 2.7872,
      "step": 2548
    },
    {
      "epoch": 0.8259883344134802,
      "grad_norm": 0.38497650623321533,
      "learning_rate": 8.017470626425732e-05,
      "loss": 2.8259,
      "step": 2549
    },
    {
      "epoch": 0.8263123784834737,
      "grad_norm": 0.4161626100540161,
      "learning_rate": 7.988989187344037e-05,
      "loss": 2.6761,
      "step": 2550
    },
    {
      "epoch": 0.8266364225534673,
      "grad_norm": 0.38324254751205444,
      "learning_rate": 7.960554034235918e-05,
      "loss": 2.8039,
      "step": 2551
    },
    {
      "epoch": 0.8269604666234608,
      "grad_norm": 0.7978721857070923,
      "learning_rate": 7.932165198430013e-05,
      "loss": 2.7915,
      "step": 2552
    },
    {
      "epoch": 0.8272845106934543,
      "grad_norm": 0.37117835879325867,
      "learning_rate": 7.903822711203962e-05,
      "loss": 2.7264,
      "step": 2553
    },
    {
      "epoch": 0.8276085547634479,
      "grad_norm": 0.4131593406200409,
      "learning_rate": 7.875526603784327e-05,
      "loss": 2.7733,
      "step": 2554
    },
    {
      "epoch": 0.8279325988334414,
      "grad_norm": 0.45050615072250366,
      "learning_rate": 7.847276907346574e-05,
      "loss": 2.8407,
      "step": 2555
    },
    {
      "epoch": 0.8282566429034348,
      "grad_norm": 0.39983734488487244,
      "learning_rate": 7.819073653015025e-05,
      "loss": 2.769,
      "step": 2556
    },
    {
      "epoch": 0.8285806869734283,
      "grad_norm": 0.40810588002204895,
      "learning_rate": 7.790916871862863e-05,
      "loss": 2.8075,
      "step": 2557
    },
    {
      "epoch": 0.8289047310434219,
      "grad_norm": 0.38705193996429443,
      "learning_rate": 7.762806594912052e-05,
      "loss": 2.8206,
      "step": 2558
    },
    {
      "epoch": 0.8292287751134154,
      "grad_norm": 0.35537099838256836,
      "learning_rate": 7.73474285313332e-05,
      "loss": 2.6886,
      "step": 2559
    },
    {
      "epoch": 0.829552819183409,
      "grad_norm": 0.4349534511566162,
      "learning_rate": 7.706725677446114e-05,
      "loss": 2.6829,
      "step": 2560
    },
    {
      "epoch": 0.8298768632534025,
      "grad_norm": 0.3900209963321686,
      "learning_rate": 7.678755098718587e-05,
      "loss": 2.669,
      "step": 2561
    },
    {
      "epoch": 0.830200907323396,
      "grad_norm": 0.38025060296058655,
      "learning_rate": 7.650831147767557e-05,
      "loss": 2.6772,
      "step": 2562
    },
    {
      "epoch": 0.8305249513933896,
      "grad_norm": 0.36665067076683044,
      "learning_rate": 7.622953855358456e-05,
      "loss": 2.8373,
      "step": 2563
    },
    {
      "epoch": 0.830848995463383,
      "grad_norm": 0.3897026777267456,
      "learning_rate": 7.59512325220531e-05,
      "loss": 2.7723,
      "step": 2564
    },
    {
      "epoch": 0.8311730395333765,
      "grad_norm": 0.3782380223274231,
      "learning_rate": 7.567339368970733e-05,
      "loss": 2.7276,
      "step": 2565
    },
    {
      "epoch": 0.83149708360337,
      "grad_norm": 0.42636579275131226,
      "learning_rate": 7.539602236265842e-05,
      "loss": 2.8116,
      "step": 2566
    },
    {
      "epoch": 0.8318211276733636,
      "grad_norm": 0.37088197469711304,
      "learning_rate": 7.511911884650251e-05,
      "loss": 2.7756,
      "step": 2567
    },
    {
      "epoch": 0.8321451717433571,
      "grad_norm": 0.35588982701301575,
      "learning_rate": 7.484268344632017e-05,
      "loss": 2.7532,
      "step": 2568
    },
    {
      "epoch": 0.8324692158133506,
      "grad_norm": 0.48412156105041504,
      "learning_rate": 7.45667164666765e-05,
      "loss": 2.8226,
      "step": 2569
    },
    {
      "epoch": 0.8327932598833442,
      "grad_norm": 0.3830872178077698,
      "learning_rate": 7.429121821162027e-05,
      "loss": 2.7344,
      "step": 2570
    },
    {
      "epoch": 0.8331173039533376,
      "grad_norm": 0.38643425703048706,
      "learning_rate": 7.401618898468382e-05,
      "loss": 2.7589,
      "step": 2571
    },
    {
      "epoch": 0.8334413480233311,
      "grad_norm": 0.36284953355789185,
      "learning_rate": 7.3741629088883e-05,
      "loss": 2.8014,
      "step": 2572
    },
    {
      "epoch": 0.8337653920933247,
      "grad_norm": 0.3849509060382843,
      "learning_rate": 7.346753882671647e-05,
      "loss": 2.7856,
      "step": 2573
    },
    {
      "epoch": 0.8340894361633182,
      "grad_norm": 0.38197141885757446,
      "learning_rate": 7.319391850016532e-05,
      "loss": 2.8057,
      "step": 2574
    },
    {
      "epoch": 0.8344134802333117,
      "grad_norm": 0.35607197880744934,
      "learning_rate": 7.292076841069301e-05,
      "loss": 2.7428,
      "step": 2575
    },
    {
      "epoch": 0.8347375243033053,
      "grad_norm": 0.38329485058784485,
      "learning_rate": 7.264808885924485e-05,
      "loss": 2.8298,
      "step": 2576
    },
    {
      "epoch": 0.8350615683732988,
      "grad_norm": 0.40590181946754456,
      "learning_rate": 7.237588014624774e-05,
      "loss": 2.7121,
      "step": 2577
    },
    {
      "epoch": 0.8353856124432922,
      "grad_norm": 0.3715623915195465,
      "learning_rate": 7.21041425716098e-05,
      "loss": 2.6928,
      "step": 2578
    },
    {
      "epoch": 0.8357096565132858,
      "grad_norm": 0.36771124601364136,
      "learning_rate": 7.183287643472025e-05,
      "loss": 2.7717,
      "step": 2579
    },
    {
      "epoch": 0.8360337005832793,
      "grad_norm": 0.39013516902923584,
      "learning_rate": 7.156208203444864e-05,
      "loss": 2.8735,
      "step": 2580
    },
    {
      "epoch": 0.8363577446532728,
      "grad_norm": 0.3877098560333252,
      "learning_rate": 7.129175966914503e-05,
      "loss": 2.7561,
      "step": 2581
    },
    {
      "epoch": 0.8366817887232664,
      "grad_norm": 0.4119815528392792,
      "learning_rate": 7.102190963663924e-05,
      "loss": 2.7993,
      "step": 2582
    },
    {
      "epoch": 0.8370058327932599,
      "grad_norm": 0.39152008295059204,
      "learning_rate": 7.075253223424072e-05,
      "loss": 2.8904,
      "step": 2583
    },
    {
      "epoch": 0.8373298768632534,
      "grad_norm": 0.37373894453048706,
      "learning_rate": 7.048362775873828e-05,
      "loss": 2.6488,
      "step": 2584
    },
    {
      "epoch": 0.837653920933247,
      "grad_norm": 0.35997501015663147,
      "learning_rate": 7.021519650639951e-05,
      "loss": 2.8203,
      "step": 2585
    },
    {
      "epoch": 0.8379779650032404,
      "grad_norm": 0.3699951469898224,
      "learning_rate": 6.994723877297071e-05,
      "loss": 2.7672,
      "step": 2586
    },
    {
      "epoch": 0.8383020090732339,
      "grad_norm": 0.3973024785518646,
      "learning_rate": 6.967975485367656e-05,
      "loss": 2.685,
      "step": 2587
    },
    {
      "epoch": 0.8386260531432275,
      "grad_norm": 0.39435264468193054,
      "learning_rate": 6.941274504321982e-05,
      "loss": 2.8438,
      "step": 2588
    },
    {
      "epoch": 0.838950097213221,
      "grad_norm": 0.43034183979034424,
      "learning_rate": 6.91462096357805e-05,
      "loss": 2.7197,
      "step": 2589
    },
    {
      "epoch": 0.8392741412832145,
      "grad_norm": 0.3668612539768219,
      "learning_rate": 6.888014892501626e-05,
      "loss": 2.7343,
      "step": 2590
    },
    {
      "epoch": 0.8395981853532081,
      "grad_norm": 0.3713330626487732,
      "learning_rate": 6.861456320406163e-05,
      "loss": 2.7326,
      "step": 2591
    },
    {
      "epoch": 0.8399222294232016,
      "grad_norm": 0.38255220651626587,
      "learning_rate": 6.834945276552778e-05,
      "loss": 2.6708,
      "step": 2592
    },
    {
      "epoch": 0.840246273493195,
      "grad_norm": 0.5079978704452515,
      "learning_rate": 6.808481790150228e-05,
      "loss": 2.7851,
      "step": 2593
    },
    {
      "epoch": 0.8405703175631886,
      "grad_norm": 0.3904821276664734,
      "learning_rate": 6.782065890354893e-05,
      "loss": 2.7939,
      "step": 2594
    },
    {
      "epoch": 0.8408943616331821,
      "grad_norm": 0.4124809205532074,
      "learning_rate": 6.755697606270683e-05,
      "loss": 2.7783,
      "step": 2595
    },
    {
      "epoch": 0.8412184057031756,
      "grad_norm": 0.35496190190315247,
      "learning_rate": 6.729376966949091e-05,
      "loss": 2.772,
      "step": 2596
    },
    {
      "epoch": 0.8415424497731692,
      "grad_norm": 0.3790007531642914,
      "learning_rate": 6.703104001389087e-05,
      "loss": 2.8451,
      "step": 2597
    },
    {
      "epoch": 0.8418664938431627,
      "grad_norm": 0.4710597097873688,
      "learning_rate": 6.676878738537123e-05,
      "loss": 2.7462,
      "step": 2598
    },
    {
      "epoch": 0.8421905379131562,
      "grad_norm": 0.3949221968650818,
      "learning_rate": 6.650701207287102e-05,
      "loss": 2.8318,
      "step": 2599
    },
    {
      "epoch": 0.8425145819831497,
      "grad_norm": 0.593753457069397,
      "learning_rate": 6.624571436480326e-05,
      "loss": 2.7404,
      "step": 2600
    },
    {
      "epoch": 0.8428386260531432,
      "grad_norm": 0.36967864632606506,
      "learning_rate": 6.598489454905471e-05,
      "loss": 2.6774,
      "step": 2601
    },
    {
      "epoch": 0.8431626701231367,
      "grad_norm": 0.38879626989364624,
      "learning_rate": 6.57245529129859e-05,
      "loss": 2.7059,
      "step": 2602
    },
    {
      "epoch": 0.8434867141931303,
      "grad_norm": 0.3808355927467346,
      "learning_rate": 6.546468974343039e-05,
      "loss": 2.692,
      "step": 2603
    },
    {
      "epoch": 0.8438107582631238,
      "grad_norm": 0.370883971452713,
      "learning_rate": 6.520530532669449e-05,
      "loss": 2.7949,
      "step": 2604
    },
    {
      "epoch": 0.8441348023331173,
      "grad_norm": 0.4113062620162964,
      "learning_rate": 6.494639994855711e-05,
      "loss": 2.8691,
      "step": 2605
    },
    {
      "epoch": 0.8444588464031109,
      "grad_norm": 0.41876956820487976,
      "learning_rate": 6.468797389426928e-05,
      "loss": 2.6729,
      "step": 2606
    },
    {
      "epoch": 0.8447828904731044,
      "grad_norm": 0.3770090341567993,
      "learning_rate": 6.443002744855408e-05,
      "loss": 2.8339,
      "step": 2607
    },
    {
      "epoch": 0.8451069345430978,
      "grad_norm": 0.40314802527427673,
      "learning_rate": 6.417256089560597e-05,
      "loss": 2.7083,
      "step": 2608
    },
    {
      "epoch": 0.8454309786130914,
      "grad_norm": 0.3819073736667633,
      "learning_rate": 6.391557451909097e-05,
      "loss": 2.8558,
      "step": 2609
    },
    {
      "epoch": 0.8457550226830849,
      "grad_norm": 0.4154231548309326,
      "learning_rate": 6.365906860214593e-05,
      "loss": 2.7421,
      "step": 2610
    },
    {
      "epoch": 0.8460790667530784,
      "grad_norm": 0.4771091341972351,
      "learning_rate": 6.340304342737835e-05,
      "loss": 2.7791,
      "step": 2611
    },
    {
      "epoch": 0.846403110823072,
      "grad_norm": 0.41438671946525574,
      "learning_rate": 6.314749927686597e-05,
      "loss": 2.7958,
      "step": 2612
    },
    {
      "epoch": 0.8467271548930655,
      "grad_norm": 0.365124374628067,
      "learning_rate": 6.289243643215664e-05,
      "loss": 2.7624,
      "step": 2613
    },
    {
      "epoch": 0.847051198963059,
      "grad_norm": 0.4066186249256134,
      "learning_rate": 6.263785517426795e-05,
      "loss": 2.7686,
      "step": 2614
    },
    {
      "epoch": 0.8473752430330524,
      "grad_norm": 0.400153249502182,
      "learning_rate": 6.238375578368688e-05,
      "loss": 2.7892,
      "step": 2615
    },
    {
      "epoch": 0.847699287103046,
      "grad_norm": 0.36423829197883606,
      "learning_rate": 6.213013854036942e-05,
      "loss": 2.8265,
      "step": 2616
    },
    {
      "epoch": 0.8480233311730395,
      "grad_norm": 0.375178724527359,
      "learning_rate": 6.18770037237405e-05,
      "loss": 2.698,
      "step": 2617
    },
    {
      "epoch": 0.848347375243033,
      "grad_norm": 0.3888983428478241,
      "learning_rate": 6.162435161269358e-05,
      "loss": 2.7759,
      "step": 2618
    },
    {
      "epoch": 0.8486714193130266,
      "grad_norm": 0.3983064591884613,
      "learning_rate": 6.137218248559012e-05,
      "loss": 2.7817,
      "step": 2619
    },
    {
      "epoch": 0.8489954633830201,
      "grad_norm": 0.3880121111869812,
      "learning_rate": 6.112049662025943e-05,
      "loss": 2.8037,
      "step": 2620
    },
    {
      "epoch": 0.8493195074530137,
      "grad_norm": 0.35076677799224854,
      "learning_rate": 6.086929429399857e-05,
      "loss": 2.7893,
      "step": 2621
    },
    {
      "epoch": 0.8496435515230071,
      "grad_norm": 0.3823160231113434,
      "learning_rate": 6.061857578357161e-05,
      "loss": 2.7195,
      "step": 2622
    },
    {
      "epoch": 0.8499675955930006,
      "grad_norm": 0.38126063346862793,
      "learning_rate": 6.036834136520974e-05,
      "loss": 2.8412,
      "step": 2623
    },
    {
      "epoch": 0.8502916396629941,
      "grad_norm": 0.4015440344810486,
      "learning_rate": 6.011859131461084e-05,
      "loss": 2.7289,
      "step": 2624
    },
    {
      "epoch": 0.8506156837329877,
      "grad_norm": 0.35507479310035706,
      "learning_rate": 5.986932590693911e-05,
      "loss": 2.7738,
      "step": 2625
    },
    {
      "epoch": 0.8509397278029812,
      "grad_norm": 0.3911692798137665,
      "learning_rate": 5.9620545416824655e-05,
      "loss": 2.7736,
      "step": 2626
    },
    {
      "epoch": 0.8512637718729748,
      "grad_norm": 0.364724725484848,
      "learning_rate": 5.93722501183635e-05,
      "loss": 2.7891,
      "step": 2627
    },
    {
      "epoch": 0.8515878159429683,
      "grad_norm": 0.3645783066749573,
      "learning_rate": 5.9124440285116876e-05,
      "loss": 2.6988,
      "step": 2628
    },
    {
      "epoch": 0.8519118600129617,
      "grad_norm": 0.4337637722492218,
      "learning_rate": 5.887711619011143e-05,
      "loss": 2.7875,
      "step": 2629
    },
    {
      "epoch": 0.8522359040829552,
      "grad_norm": 0.3772364854812622,
      "learning_rate": 5.863027810583837e-05,
      "loss": 2.7024,
      "step": 2630
    },
    {
      "epoch": 0.8525599481529488,
      "grad_norm": 0.3899648189544678,
      "learning_rate": 5.838392630425354e-05,
      "loss": 2.8228,
      "step": 2631
    },
    {
      "epoch": 0.8528839922229423,
      "grad_norm": 0.3793184757232666,
      "learning_rate": 5.813806105677716e-05,
      "loss": 2.8173,
      "step": 2632
    },
    {
      "epoch": 0.8532080362929358,
      "grad_norm": 0.36452552676200867,
      "learning_rate": 5.789268263429332e-05,
      "loss": 2.7983,
      "step": 2633
    },
    {
      "epoch": 0.8535320803629294,
      "grad_norm": 0.36025920510292053,
      "learning_rate": 5.7647791307149586e-05,
      "loss": 2.7247,
      "step": 2634
    },
    {
      "epoch": 0.8538561244329229,
      "grad_norm": 0.38186031579971313,
      "learning_rate": 5.7403387345156986e-05,
      "loss": 2.7926,
      "step": 2635
    },
    {
      "epoch": 0.8541801685029164,
      "grad_norm": 0.3776022791862488,
      "learning_rate": 5.715947101758967e-05,
      "loss": 2.6549,
      "step": 2636
    },
    {
      "epoch": 0.8545042125729099,
      "grad_norm": 0.39873969554901123,
      "learning_rate": 5.691604259318434e-05,
      "loss": 2.7435,
      "step": 2637
    },
    {
      "epoch": 0.8548282566429034,
      "grad_norm": 0.357527494430542,
      "learning_rate": 5.667310234014012e-05,
      "loss": 2.6663,
      "step": 2638
    },
    {
      "epoch": 0.8551523007128969,
      "grad_norm": 0.36930128931999207,
      "learning_rate": 5.643065052611862e-05,
      "loss": 2.8098,
      "step": 2639
    },
    {
      "epoch": 0.8554763447828905,
      "grad_norm": 0.3713231086730957,
      "learning_rate": 5.618868741824312e-05,
      "loss": 2.7612,
      "step": 2640
    },
    {
      "epoch": 0.855800388852884,
      "grad_norm": 0.38930055499076843,
      "learning_rate": 5.5947213283098375e-05,
      "loss": 2.8147,
      "step": 2641
    },
    {
      "epoch": 0.8561244329228775,
      "grad_norm": 0.36565500497817993,
      "learning_rate": 5.5706228386730506e-05,
      "loss": 2.7382,
      "step": 2642
    },
    {
      "epoch": 0.8564484769928711,
      "grad_norm": 0.38145169615745544,
      "learning_rate": 5.5465732994646525e-05,
      "loss": 2.6858,
      "step": 2643
    },
    {
      "epoch": 0.8567725210628645,
      "grad_norm": 0.36603084206581116,
      "learning_rate": 5.522572737181425e-05,
      "loss": 2.9056,
      "step": 2644
    },
    {
      "epoch": 0.857096565132858,
      "grad_norm": 0.41395795345306396,
      "learning_rate": 5.4986211782661664e-05,
      "loss": 2.6969,
      "step": 2645
    },
    {
      "epoch": 0.8574206092028516,
      "grad_norm": 0.37952756881713867,
      "learning_rate": 5.47471864910773e-05,
      "loss": 2.7641,
      "step": 2646
    },
    {
      "epoch": 0.8577446532728451,
      "grad_norm": 0.3475491404533386,
      "learning_rate": 5.4508651760408976e-05,
      "loss": 2.8699,
      "step": 2647
    },
    {
      "epoch": 0.8580686973428386,
      "grad_norm": 0.37291619181632996,
      "learning_rate": 5.4270607853464496e-05,
      "loss": 2.7368,
      "step": 2648
    },
    {
      "epoch": 0.8583927414128322,
      "grad_norm": 0.3538804352283478,
      "learning_rate": 5.403305503251055e-05,
      "loss": 2.8373,
      "step": 2649
    },
    {
      "epoch": 0.8587167854828257,
      "grad_norm": 0.36973077058792114,
      "learning_rate": 5.3795993559272896e-05,
      "loss": 2.7492,
      "step": 2650
    },
    {
      "epoch": 0.8590408295528191,
      "grad_norm": 0.5053214430809021,
      "learning_rate": 5.3559423694935995e-05,
      "loss": 2.7997,
      "step": 2651
    },
    {
      "epoch": 0.8593648736228127,
      "grad_norm": 0.3795071840286255,
      "learning_rate": 5.332334570014252e-05,
      "loss": 2.7545,
      "step": 2652
    },
    {
      "epoch": 0.8596889176928062,
      "grad_norm": 0.5423421859741211,
      "learning_rate": 5.308775983499331e-05,
      "loss": 2.7231,
      "step": 2653
    },
    {
      "epoch": 0.8600129617627997,
      "grad_norm": 0.39289170503616333,
      "learning_rate": 5.285266635904712e-05,
      "loss": 2.8005,
      "step": 2654
    },
    {
      "epoch": 0.8603370058327933,
      "grad_norm": 0.3892265558242798,
      "learning_rate": 5.261806553132015e-05,
      "loss": 2.8233,
      "step": 2655
    },
    {
      "epoch": 0.8606610499027868,
      "grad_norm": 0.38432577252388,
      "learning_rate": 5.2383957610285694e-05,
      "loss": 2.7844,
      "step": 2656
    },
    {
      "epoch": 0.8609850939727803,
      "grad_norm": 0.40801045298576355,
      "learning_rate": 5.21503428538741e-05,
      "loss": 2.7433,
      "step": 2657
    },
    {
      "epoch": 0.8613091380427739,
      "grad_norm": 0.3859735429286957,
      "learning_rate": 5.191722151947226e-05,
      "loss": 2.7065,
      "step": 2658
    },
    {
      "epoch": 0.8616331821127673,
      "grad_norm": 0.3914981484413147,
      "learning_rate": 5.168459386392355e-05,
      "loss": 2.8201,
      "step": 2659
    },
    {
      "epoch": 0.8619572261827608,
      "grad_norm": 0.38570916652679443,
      "learning_rate": 5.145246014352728e-05,
      "loss": 2.7838,
      "step": 2660
    },
    {
      "epoch": 0.8622812702527544,
      "grad_norm": 0.41553524136543274,
      "learning_rate": 5.122082061403882e-05,
      "loss": 2.7103,
      "step": 2661
    },
    {
      "epoch": 0.8626053143227479,
      "grad_norm": 0.3665291666984558,
      "learning_rate": 5.09896755306688e-05,
      "loss": 2.7537,
      "step": 2662
    },
    {
      "epoch": 0.8629293583927414,
      "grad_norm": 0.4153568744659424,
      "learning_rate": 5.0759025148083336e-05,
      "loss": 2.9185,
      "step": 2663
    },
    {
      "epoch": 0.863253402462735,
      "grad_norm": 0.36652499437332153,
      "learning_rate": 5.052886972040332e-05,
      "loss": 2.7669,
      "step": 2664
    },
    {
      "epoch": 0.8635774465327285,
      "grad_norm": 0.376034140586853,
      "learning_rate": 5.0299209501204315e-05,
      "loss": 2.8221,
      "step": 2665
    },
    {
      "epoch": 0.8639014906027219,
      "grad_norm": 0.38140934705734253,
      "learning_rate": 5.007004474351634e-05,
      "loss": 2.6897,
      "step": 2666
    },
    {
      "epoch": 0.8642255346727155,
      "grad_norm": 0.37631523609161377,
      "learning_rate": 4.984137569982355e-05,
      "loss": 2.751,
      "step": 2667
    },
    {
      "epoch": 0.864549578742709,
      "grad_norm": 0.391575425863266,
      "learning_rate": 4.9613202622063815e-05,
      "loss": 2.7722,
      "step": 2668
    },
    {
      "epoch": 0.8648736228127025,
      "grad_norm": 0.36789360642433167,
      "learning_rate": 4.9385525761628857e-05,
      "loss": 2.6889,
      "step": 2669
    },
    {
      "epoch": 0.8651976668826961,
      "grad_norm": 0.40405935049057007,
      "learning_rate": 4.915834536936348e-05,
      "loss": 2.7699,
      "step": 2670
    },
    {
      "epoch": 0.8655217109526896,
      "grad_norm": 0.36302849650382996,
      "learning_rate": 4.8931661695565565e-05,
      "loss": 2.7517,
      "step": 2671
    },
    {
      "epoch": 0.8658457550226831,
      "grad_norm": 0.36229509115219116,
      "learning_rate": 4.870547498998562e-05,
      "loss": 2.7685,
      "step": 2672
    },
    {
      "epoch": 0.8661697990926766,
      "grad_norm": 0.7506852746009827,
      "learning_rate": 4.847978550182669e-05,
      "loss": 2.748,
      "step": 2673
    },
    {
      "epoch": 0.8664938431626701,
      "grad_norm": 0.38886547088623047,
      "learning_rate": 4.8254593479744036e-05,
      "loss": 2.8563,
      "step": 2674
    },
    {
      "epoch": 0.8668178872326636,
      "grad_norm": 0.37844356894493103,
      "learning_rate": 4.802989917184469e-05,
      "loss": 2.7418,
      "step": 2675
    },
    {
      "epoch": 0.8671419313026572,
      "grad_norm": 0.37872645258903503,
      "learning_rate": 4.780570282568758e-05,
      "loss": 2.6615,
      "step": 2676
    },
    {
      "epoch": 0.8674659753726507,
      "grad_norm": 0.3842436671257019,
      "learning_rate": 4.758200468828289e-05,
      "loss": 2.7871,
      "step": 2677
    },
    {
      "epoch": 0.8677900194426442,
      "grad_norm": 0.40703287720680237,
      "learning_rate": 4.73588050060918e-05,
      "loss": 2.7254,
      "step": 2678
    },
    {
      "epoch": 0.8681140635126378,
      "grad_norm": 0.3783988952636719,
      "learning_rate": 4.713610402502638e-05,
      "loss": 2.7612,
      "step": 2679
    },
    {
      "epoch": 0.8684381075826313,
      "grad_norm": 0.44979289174079895,
      "learning_rate": 4.691390199044926e-05,
      "loss": 2.6496,
      "step": 2680
    },
    {
      "epoch": 0.8687621516526247,
      "grad_norm": 0.3821567893028259,
      "learning_rate": 4.669219914717332e-05,
      "loss": 2.7009,
      "step": 2681
    },
    {
      "epoch": 0.8690861957226182,
      "grad_norm": 0.40235424041748047,
      "learning_rate": 4.647099573946145e-05,
      "loss": 2.7821,
      "step": 2682
    },
    {
      "epoch": 0.8694102397926118,
      "grad_norm": 0.3739446997642517,
      "learning_rate": 4.625029201102626e-05,
      "loss": 2.7274,
      "step": 2683
    },
    {
      "epoch": 0.8697342838626053,
      "grad_norm": 0.4103727340698242,
      "learning_rate": 4.603008820502996e-05,
      "loss": 2.8439,
      "step": 2684
    },
    {
      "epoch": 0.8700583279325989,
      "grad_norm": 0.39666464924812317,
      "learning_rate": 4.5810384564083984e-05,
      "loss": 2.7706,
      "step": 2685
    },
    {
      "epoch": 0.8703823720025924,
      "grad_norm": 0.465709388256073,
      "learning_rate": 4.559118133024853e-05,
      "loss": 2.7706,
      "step": 2686
    },
    {
      "epoch": 0.8707064160725859,
      "grad_norm": 0.38401365280151367,
      "learning_rate": 4.537247874503253e-05,
      "loss": 2.7571,
      "step": 2687
    },
    {
      "epoch": 0.8710304601425793,
      "grad_norm": 0.40450337529182434,
      "learning_rate": 4.515427704939334e-05,
      "loss": 2.8334,
      "step": 2688
    },
    {
      "epoch": 0.8713545042125729,
      "grad_norm": 0.47441762685775757,
      "learning_rate": 4.4936576483736444e-05,
      "loss": 2.7639,
      "step": 2689
    },
    {
      "epoch": 0.8716785482825664,
      "grad_norm": 0.38710036873817444,
      "learning_rate": 4.471937728791514e-05,
      "loss": 2.7819,
      "step": 2690
    },
    {
      "epoch": 0.87200259235256,
      "grad_norm": 0.3894188702106476,
      "learning_rate": 4.450267970123051e-05,
      "loss": 2.7801,
      "step": 2691
    },
    {
      "epoch": 0.8723266364225535,
      "grad_norm": 0.36731961369514465,
      "learning_rate": 4.428648396243101e-05,
      "loss": 2.8259,
      "step": 2692
    },
    {
      "epoch": 0.872650680492547,
      "grad_norm": 0.37347856163978577,
      "learning_rate": 4.407079030971184e-05,
      "loss": 2.7196,
      "step": 2693
    },
    {
      "epoch": 0.8729747245625405,
      "grad_norm": 0.3645862340927124,
      "learning_rate": 4.3855598980715396e-05,
      "loss": 2.7754,
      "step": 2694
    },
    {
      "epoch": 0.873298768632534,
      "grad_norm": 0.4291831851005554,
      "learning_rate": 4.364091021253036e-05,
      "loss": 2.7178,
      "step": 2695
    },
    {
      "epoch": 0.8736228127025275,
      "grad_norm": 0.37865251302719116,
      "learning_rate": 4.3426724241691915e-05,
      "loss": 2.7071,
      "step": 2696
    },
    {
      "epoch": 0.873946856772521,
      "grad_norm": 0.4076646864414215,
      "learning_rate": 4.321304130418113e-05,
      "loss": 2.7189,
      "step": 2697
    },
    {
      "epoch": 0.8742709008425146,
      "grad_norm": 0.37796053290367126,
      "learning_rate": 4.299986163542491e-05,
      "loss": 2.7247,
      "step": 2698
    },
    {
      "epoch": 0.8745949449125081,
      "grad_norm": 0.39593201875686646,
      "learning_rate": 4.27871854702957e-05,
      "loss": 2.8043,
      "step": 2699
    },
    {
      "epoch": 0.8749189889825016,
      "grad_norm": 0.38150477409362793,
      "learning_rate": 4.257501304311134e-05,
      "loss": 2.7683,
      "step": 2700
    },
    {
      "epoch": 0.8752430330524952,
      "grad_norm": 0.39425015449523926,
      "learning_rate": 4.2363344587634415e-05,
      "loss": 2.8864,
      "step": 2701
    },
    {
      "epoch": 0.8755670771224887,
      "grad_norm": 0.35443052649497986,
      "learning_rate": 4.215218033707241e-05,
      "loss": 2.8272,
      "step": 2702
    },
    {
      "epoch": 0.8758911211924821,
      "grad_norm": 0.3644471764564514,
      "learning_rate": 4.1941520524077234e-05,
      "loss": 2.7033,
      "step": 2703
    },
    {
      "epoch": 0.8762151652624757,
      "grad_norm": 0.4442536234855652,
      "learning_rate": 4.173136538074501e-05,
      "loss": 2.7638,
      "step": 2704
    },
    {
      "epoch": 0.8765392093324692,
      "grad_norm": 0.37603452801704407,
      "learning_rate": 4.152171513861586e-05,
      "loss": 2.8021,
      "step": 2705
    },
    {
      "epoch": 0.8768632534024627,
      "grad_norm": 0.35531681776046753,
      "learning_rate": 4.1312570028673725e-05,
      "loss": 2.7413,
      "step": 2706
    },
    {
      "epoch": 0.8771872974724563,
      "grad_norm": 0.3678903877735138,
      "learning_rate": 4.110393028134601e-05,
      "loss": 2.7474,
      "step": 2707
    },
    {
      "epoch": 0.8775113415424498,
      "grad_norm": 0.3800172209739685,
      "learning_rate": 4.089579612650313e-05,
      "loss": 2.8363,
      "step": 2708
    },
    {
      "epoch": 0.8778353856124433,
      "grad_norm": 0.3583931624889374,
      "learning_rate": 4.068816779345863e-05,
      "loss": 2.8161,
      "step": 2709
    },
    {
      "epoch": 0.8781594296824368,
      "grad_norm": 0.3870260417461395,
      "learning_rate": 4.048104551096876e-05,
      "loss": 2.824,
      "step": 2710
    },
    {
      "epoch": 0.8784834737524303,
      "grad_norm": 0.3951076865196228,
      "learning_rate": 4.027442950723209e-05,
      "loss": 2.797,
      "step": 2711
    },
    {
      "epoch": 0.8788075178224238,
      "grad_norm": 0.35640203952789307,
      "learning_rate": 4.006832000988941e-05,
      "loss": 2.6728,
      "step": 2712
    },
    {
      "epoch": 0.8791315618924174,
      "grad_norm": 0.34427952766418457,
      "learning_rate": 3.98627172460238e-05,
      "loss": 2.6745,
      "step": 2713
    },
    {
      "epoch": 0.8794556059624109,
      "grad_norm": 0.392307311296463,
      "learning_rate": 3.965762144215956e-05,
      "loss": 2.6989,
      "step": 2714
    },
    {
      "epoch": 0.8797796500324044,
      "grad_norm": 0.4133312404155731,
      "learning_rate": 3.945303282426277e-05,
      "loss": 2.7952,
      "step": 2715
    },
    {
      "epoch": 0.880103694102398,
      "grad_norm": 0.38062232732772827,
      "learning_rate": 3.9248951617740616e-05,
      "loss": 2.6652,
      "step": 2716
    },
    {
      "epoch": 0.8804277381723914,
      "grad_norm": 0.38453561067581177,
      "learning_rate": 3.904537804744118e-05,
      "loss": 2.7507,
      "step": 2717
    },
    {
      "epoch": 0.8807517822423849,
      "grad_norm": 0.406166672706604,
      "learning_rate": 3.884231233765334e-05,
      "loss": 2.768,
      "step": 2718
    },
    {
      "epoch": 0.8810758263123785,
      "grad_norm": 0.3529885411262512,
      "learning_rate": 3.863975471210635e-05,
      "loss": 2.7564,
      "step": 2719
    },
    {
      "epoch": 0.881399870382372,
      "grad_norm": 0.39153149724006653,
      "learning_rate": 3.843770539396968e-05,
      "loss": 2.7069,
      "step": 2720
    },
    {
      "epoch": 0.8817239144523655,
      "grad_norm": 0.38050681352615356,
      "learning_rate": 3.8236164605852885e-05,
      "loss": 2.903,
      "step": 2721
    },
    {
      "epoch": 0.8820479585223591,
      "grad_norm": 0.367469847202301,
      "learning_rate": 3.803513256980523e-05,
      "loss": 2.7263,
      "step": 2722
    },
    {
      "epoch": 0.8823720025923526,
      "grad_norm": 0.36117157340049744,
      "learning_rate": 3.783460950731532e-05,
      "loss": 2.7565,
      "step": 2723
    },
    {
      "epoch": 0.8826960466623461,
      "grad_norm": 0.41115227341651917,
      "learning_rate": 3.7634595639311155e-05,
      "loss": 2.8149,
      "step": 2724
    },
    {
      "epoch": 0.8830200907323396,
      "grad_norm": 0.4157639443874359,
      "learning_rate": 3.743509118615951e-05,
      "loss": 2.7715,
      "step": 2725
    },
    {
      "epoch": 0.8833441348023331,
      "grad_norm": 0.36435776948928833,
      "learning_rate": 3.723609636766612e-05,
      "loss": 2.6856,
      "step": 2726
    },
    {
      "epoch": 0.8836681788723266,
      "grad_norm": 0.3844316005706787,
      "learning_rate": 3.70376114030751e-05,
      "loss": 2.7115,
      "step": 2727
    },
    {
      "epoch": 0.8839922229423202,
      "grad_norm": 0.42405807971954346,
      "learning_rate": 3.6839636511068974e-05,
      "loss": 2.7646,
      "step": 2728
    },
    {
      "epoch": 0.8843162670123137,
      "grad_norm": 0.4396498203277588,
      "learning_rate": 3.664217190976804e-05,
      "loss": 2.8338,
      "step": 2729
    },
    {
      "epoch": 0.8846403110823072,
      "grad_norm": 0.36819928884506226,
      "learning_rate": 3.644521781673071e-05,
      "loss": 2.7973,
      "step": 2730
    },
    {
      "epoch": 0.8849643551523008,
      "grad_norm": 0.6105585694313049,
      "learning_rate": 3.624877444895269e-05,
      "loss": 2.7418,
      "step": 2731
    },
    {
      "epoch": 0.8852883992222942,
      "grad_norm": 0.3858312964439392,
      "learning_rate": 3.605284202286702e-05,
      "loss": 2.878,
      "step": 2732
    },
    {
      "epoch": 0.8856124432922877,
      "grad_norm": 0.44793784618377686,
      "learning_rate": 3.5857420754343895e-05,
      "loss": 2.7849,
      "step": 2733
    },
    {
      "epoch": 0.8859364873622813,
      "grad_norm": 0.3784288763999939,
      "learning_rate": 3.566251085869032e-05,
      "loss": 2.7619,
      "step": 2734
    },
    {
      "epoch": 0.8862605314322748,
      "grad_norm": 0.36896994709968567,
      "learning_rate": 3.546811255064969e-05,
      "loss": 2.6907,
      "step": 2735
    },
    {
      "epoch": 0.8865845755022683,
      "grad_norm": 0.38975396752357483,
      "learning_rate": 3.5274226044402e-05,
      "loss": 2.8413,
      "step": 2736
    },
    {
      "epoch": 0.8869086195722619,
      "grad_norm": 0.4287150800228119,
      "learning_rate": 3.50808515535635e-05,
      "loss": 2.798,
      "step": 2737
    },
    {
      "epoch": 0.8872326636422554,
      "grad_norm": 0.3877062201499939,
      "learning_rate": 3.488798929118592e-05,
      "loss": 2.8443,
      "step": 2738
    },
    {
      "epoch": 0.8875567077122488,
      "grad_norm": 0.4090627431869507,
      "learning_rate": 3.469563946975684e-05,
      "loss": 2.8155,
      "step": 2739
    },
    {
      "epoch": 0.8878807517822424,
      "grad_norm": 0.4294775426387787,
      "learning_rate": 3.450380230119926e-05,
      "loss": 2.7862,
      "step": 2740
    },
    {
      "epoch": 0.8882047958522359,
      "grad_norm": 0.38920289278030396,
      "learning_rate": 3.431247799687137e-05,
      "loss": 2.7285,
      "step": 2741
    },
    {
      "epoch": 0.8885288399222294,
      "grad_norm": 0.3500887453556061,
      "learning_rate": 3.4121666767566175e-05,
      "loss": 2.7481,
      "step": 2742
    },
    {
      "epoch": 0.888852883992223,
      "grad_norm": 0.40025052428245544,
      "learning_rate": 3.393136882351161e-05,
      "loss": 2.6465,
      "step": 2743
    },
    {
      "epoch": 0.8891769280622165,
      "grad_norm": 0.3788638412952423,
      "learning_rate": 3.374158437436991e-05,
      "loss": 2.6953,
      "step": 2744
    },
    {
      "epoch": 0.88950097213221,
      "grad_norm": 0.37599799036979675,
      "learning_rate": 3.355231362923783e-05,
      "loss": 2.7882,
      "step": 2745
    },
    {
      "epoch": 0.8898250162022034,
      "grad_norm": 0.40555694699287415,
      "learning_rate": 3.336355679664577e-05,
      "loss": 2.8708,
      "step": 2746
    },
    {
      "epoch": 0.890149060272197,
      "grad_norm": 0.3588860034942627,
      "learning_rate": 3.317531408455809e-05,
      "loss": 2.7797,
      "step": 2747
    },
    {
      "epoch": 0.8904731043421905,
      "grad_norm": 0.3709700107574463,
      "learning_rate": 3.298758570037286e-05,
      "loss": 2.8534,
      "step": 2748
    },
    {
      "epoch": 0.890797148412184,
      "grad_norm": 0.4332461953163147,
      "learning_rate": 3.2800371850921275e-05,
      "loss": 2.7821,
      "step": 2749
    },
    {
      "epoch": 0.8911211924821776,
      "grad_norm": 0.36239132285118103,
      "learning_rate": 3.2613672742467685e-05,
      "loss": 2.7138,
      "step": 2750
    },
    {
      "epoch": 0.8914452365521711,
      "grad_norm": 0.3880316913127899,
      "learning_rate": 3.242748858070937e-05,
      "loss": 2.8082,
      "step": 2751
    },
    {
      "epoch": 0.8917692806221647,
      "grad_norm": 0.3604249656200409,
      "learning_rate": 3.2241819570776376e-05,
      "loss": 2.8023,
      "step": 2752
    },
    {
      "epoch": 0.8920933246921582,
      "grad_norm": 0.3750287890434265,
      "learning_rate": 3.2056665917231e-05,
      "loss": 2.7337,
      "step": 2753
    },
    {
      "epoch": 0.8924173687621516,
      "grad_norm": 0.39412054419517517,
      "learning_rate": 3.187202782406767e-05,
      "loss": 2.7886,
      "step": 2754
    },
    {
      "epoch": 0.8927414128321451,
      "grad_norm": 0.3698129653930664,
      "learning_rate": 3.168790549471301e-05,
      "loss": 2.8227,
      "step": 2755
    },
    {
      "epoch": 0.8930654569021387,
      "grad_norm": 0.3696671724319458,
      "learning_rate": 3.150429913202529e-05,
      "loss": 2.6802,
      "step": 2756
    },
    {
      "epoch": 0.8933895009721322,
      "grad_norm": 0.38009339570999146,
      "learning_rate": 3.132120893829421e-05,
      "loss": 2.7561,
      "step": 2757
    },
    {
      "epoch": 0.8937135450421257,
      "grad_norm": 0.3771269917488098,
      "learning_rate": 3.1138635115240956e-05,
      "loss": 2.7448,
      "step": 2758
    },
    {
      "epoch": 0.8940375891121193,
      "grad_norm": 0.3911595642566681,
      "learning_rate": 3.095657786401784e-05,
      "loss": 2.7084,
      "step": 2759
    },
    {
      "epoch": 0.8943616331821128,
      "grad_norm": 0.38355040550231934,
      "learning_rate": 3.077503738520781e-05,
      "loss": 2.8105,
      "step": 2760
    },
    {
      "epoch": 0.8946856772521062,
      "grad_norm": 0.35554739832878113,
      "learning_rate": 3.059401387882455e-05,
      "loss": 2.8432,
      "step": 2761
    },
    {
      "epoch": 0.8950097213220998,
      "grad_norm": 0.3929392993450165,
      "learning_rate": 3.0413507544312268e-05,
      "loss": 2.6768,
      "step": 2762
    },
    {
      "epoch": 0.8953337653920933,
      "grad_norm": 0.35354211926460266,
      "learning_rate": 3.023351858054524e-05,
      "loss": 2.7286,
      "step": 2763
    },
    {
      "epoch": 0.8956578094620868,
      "grad_norm": 0.3548797369003296,
      "learning_rate": 3.0054047185827715e-05,
      "loss": 2.7876,
      "step": 2764
    },
    {
      "epoch": 0.8959818535320804,
      "grad_norm": 0.46540191769599915,
      "learning_rate": 2.987509355789375e-05,
      "loss": 2.7429,
      "step": 2765
    },
    {
      "epoch": 0.8963058976020739,
      "grad_norm": 0.3634780943393707,
      "learning_rate": 2.9696657893907075e-05,
      "loss": 2.8254,
      "step": 2766
    },
    {
      "epoch": 0.8966299416720674,
      "grad_norm": 0.4216623902320862,
      "learning_rate": 2.9518740390460652e-05,
      "loss": 2.8196,
      "step": 2767
    },
    {
      "epoch": 0.8969539857420609,
      "grad_norm": 0.4203968048095703,
      "learning_rate": 2.934134124357646e-05,
      "loss": 2.8496,
      "step": 2768
    },
    {
      "epoch": 0.8972780298120544,
      "grad_norm": 0.3965453505516052,
      "learning_rate": 2.9164460648705538e-05,
      "loss": 2.8041,
      "step": 2769
    },
    {
      "epoch": 0.8976020738820479,
      "grad_norm": 0.36900466680526733,
      "learning_rate": 2.8988098800727393e-05,
      "loss": 2.7715,
      "step": 2770
    },
    {
      "epoch": 0.8979261179520415,
      "grad_norm": 0.450822651386261,
      "learning_rate": 2.8812255893950257e-05,
      "loss": 2.802,
      "step": 2771
    },
    {
      "epoch": 0.898250162022035,
      "grad_norm": 0.4133988320827484,
      "learning_rate": 2.8636932122110327e-05,
      "loss": 2.7822,
      "step": 2772
    },
    {
      "epoch": 0.8985742060920285,
      "grad_norm": 0.39979177713394165,
      "learning_rate": 2.8462127678372086e-05,
      "loss": 2.7426,
      "step": 2773
    },
    {
      "epoch": 0.8988982501620221,
      "grad_norm": 0.36508238315582275,
      "learning_rate": 2.828784275532781e-05,
      "loss": 2.8852,
      "step": 2774
    },
    {
      "epoch": 0.8992222942320156,
      "grad_norm": 0.3962661325931549,
      "learning_rate": 2.8114077544997342e-05,
      "loss": 2.7779,
      "step": 2775
    },
    {
      "epoch": 0.899546338302009,
      "grad_norm": 0.3687065839767456,
      "learning_rate": 2.7940832238827874e-05,
      "loss": 2.8255,
      "step": 2776
    },
    {
      "epoch": 0.8998703823720026,
      "grad_norm": 0.4038945734500885,
      "learning_rate": 2.7768107027693778e-05,
      "loss": 2.7158,
      "step": 2777
    },
    {
      "epoch": 0.9001944264419961,
      "grad_norm": 0.38576990365982056,
      "learning_rate": 2.7595902101896552e-05,
      "loss": 2.7581,
      "step": 2778
    },
    {
      "epoch": 0.9005184705119896,
      "grad_norm": 0.3610936403274536,
      "learning_rate": 2.7424217651164206e-05,
      "loss": 2.7114,
      "step": 2779
    },
    {
      "epoch": 0.9008425145819832,
      "grad_norm": 0.3748764991760254,
      "learning_rate": 2.7253053864651768e-05,
      "loss": 2.6942,
      "step": 2780
    },
    {
      "epoch": 0.9011665586519767,
      "grad_norm": 0.4024852514266968,
      "learning_rate": 2.708241093094005e-05,
      "loss": 2.8221,
      "step": 2781
    },
    {
      "epoch": 0.9014906027219702,
      "grad_norm": 0.36201271414756775,
      "learning_rate": 2.69122890380365e-05,
      "loss": 2.7431,
      "step": 2782
    },
    {
      "epoch": 0.9018146467919637,
      "grad_norm": 0.414722740650177,
      "learning_rate": 2.6742688373374235e-05,
      "loss": 2.8028,
      "step": 2783
    },
    {
      "epoch": 0.9021386908619572,
      "grad_norm": 0.4141344726085663,
      "learning_rate": 2.6573609123812182e-05,
      "loss": 2.8311,
      "step": 2784
    },
    {
      "epoch": 0.9024627349319507,
      "grad_norm": 0.4007151126861572,
      "learning_rate": 2.640505147563471e-05,
      "loss": 2.8758,
      "step": 2785
    },
    {
      "epoch": 0.9027867790019443,
      "grad_norm": 0.3728601634502411,
      "learning_rate": 2.6237015614551664e-05,
      "loss": 2.7136,
      "step": 2786
    },
    {
      "epoch": 0.9031108230719378,
      "grad_norm": 1.4128901958465576,
      "learning_rate": 2.606950172569783e-05,
      "loss": 2.7389,
      "step": 2787
    },
    {
      "epoch": 0.9034348671419313,
      "grad_norm": 0.4837590456008911,
      "learning_rate": 2.5902509993633028e-05,
      "loss": 2.7263,
      "step": 2788
    },
    {
      "epoch": 0.9037589112119249,
      "grad_norm": 0.40794599056243896,
      "learning_rate": 2.5736040602341858e-05,
      "loss": 2.8584,
      "step": 2789
    },
    {
      "epoch": 0.9040829552819183,
      "grad_norm": 0.36688101291656494,
      "learning_rate": 2.557009373523328e-05,
      "loss": 2.7915,
      "step": 2790
    },
    {
      "epoch": 0.9044069993519118,
      "grad_norm": 0.3909834325313568,
      "learning_rate": 2.5404669575140592e-05,
      "loss": 2.7609,
      "step": 2791
    },
    {
      "epoch": 0.9047310434219054,
      "grad_norm": 0.36232149600982666,
      "learning_rate": 2.5239768304321233e-05,
      "loss": 2.8068,
      "step": 2792
    },
    {
      "epoch": 0.9050550874918989,
      "grad_norm": 0.40074238181114197,
      "learning_rate": 2.5075390104456476e-05,
      "loss": 2.8146,
      "step": 2793
    },
    {
      "epoch": 0.9053791315618924,
      "grad_norm": 0.37184467911720276,
      "learning_rate": 2.491153515665129e-05,
      "loss": 2.6738,
      "step": 2794
    },
    {
      "epoch": 0.905703175631886,
      "grad_norm": 0.4056863486766815,
      "learning_rate": 2.474820364143432e-05,
      "loss": 2.8557,
      "step": 2795
    },
    {
      "epoch": 0.9060272197018795,
      "grad_norm": 0.39911404252052307,
      "learning_rate": 2.4585395738757342e-05,
      "loss": 2.7375,
      "step": 2796
    },
    {
      "epoch": 0.906351263771873,
      "grad_norm": 0.39622166752815247,
      "learning_rate": 2.442311162799532e-05,
      "loss": 2.7456,
      "step": 2797
    },
    {
      "epoch": 0.9066753078418665,
      "grad_norm": 0.4028370678424835,
      "learning_rate": 2.426135148794606e-05,
      "loss": 2.8141,
      "step": 2798
    },
    {
      "epoch": 0.90699935191186,
      "grad_norm": 0.3908665180206299,
      "learning_rate": 2.410011549683011e-05,
      "loss": 2.7171,
      "step": 2799
    },
    {
      "epoch": 0.9073233959818535,
      "grad_norm": 0.3808087110519409,
      "learning_rate": 2.3939403832290594e-05,
      "loss": 2.6465,
      "step": 2800
    },
    {
      "epoch": 0.907647440051847,
      "grad_norm": 0.40599325299263,
      "learning_rate": 2.3779216671392878e-05,
      "loss": 2.7633,
      "step": 2801
    },
    {
      "epoch": 0.9079714841218406,
      "grad_norm": 0.42636537551879883,
      "learning_rate": 2.361955419062434e-05,
      "loss": 2.8591,
      "step": 2802
    },
    {
      "epoch": 0.9082955281918341,
      "grad_norm": 0.38681066036224365,
      "learning_rate": 2.3460416565894537e-05,
      "loss": 2.7948,
      "step": 2803
    },
    {
      "epoch": 0.9086195722618277,
      "grad_norm": 0.4249398708343506,
      "learning_rate": 2.330180397253473e-05,
      "loss": 2.7721,
      "step": 2804
    },
    {
      "epoch": 0.9089436163318211,
      "grad_norm": 0.38131558895111084,
      "learning_rate": 2.3143716585297514e-05,
      "loss": 2.7787,
      "step": 2805
    },
    {
      "epoch": 0.9092676604018146,
      "grad_norm": 0.38008180260658264,
      "learning_rate": 2.298615457835701e-05,
      "loss": 2.7975,
      "step": 2806
    },
    {
      "epoch": 0.9095917044718081,
      "grad_norm": 0.37115150690078735,
      "learning_rate": 2.282911812530841e-05,
      "loss": 2.6628,
      "step": 2807
    },
    {
      "epoch": 0.9099157485418017,
      "grad_norm": 0.38568204641342163,
      "learning_rate": 2.2672607399167878e-05,
      "loss": 2.7183,
      "step": 2808
    },
    {
      "epoch": 0.9102397926117952,
      "grad_norm": 0.40763625502586365,
      "learning_rate": 2.2516622572372415e-05,
      "loss": 2.7384,
      "step": 2809
    },
    {
      "epoch": 0.9105638366817888,
      "grad_norm": 0.37903881072998047,
      "learning_rate": 2.2361163816779608e-05,
      "loss": 2.8078,
      "step": 2810
    },
    {
      "epoch": 0.9108878807517823,
      "grad_norm": 0.36400172114372253,
      "learning_rate": 2.2206231303667335e-05,
      "loss": 2.8385,
      "step": 2811
    },
    {
      "epoch": 0.9112119248217757,
      "grad_norm": 0.36534860730171204,
      "learning_rate": 2.2051825203733832e-05,
      "loss": 2.7507,
      "step": 2812
    },
    {
      "epoch": 0.9115359688917692,
      "grad_norm": 0.37252354621887207,
      "learning_rate": 2.18979456870973e-05,
      "loss": 2.8111,
      "step": 2813
    },
    {
      "epoch": 0.9118600129617628,
      "grad_norm": 0.38375183939933777,
      "learning_rate": 2.174459292329567e-05,
      "loss": 2.8026,
      "step": 2814
    },
    {
      "epoch": 0.9121840570317563,
      "grad_norm": 0.3843841850757599,
      "learning_rate": 2.159176708128663e-05,
      "loss": 2.7556,
      "step": 2815
    },
    {
      "epoch": 0.9125081011017498,
      "grad_norm": 0.37999531626701355,
      "learning_rate": 2.1439468329447264e-05,
      "loss": 2.7437,
      "step": 2816
    },
    {
      "epoch": 0.9128321451717434,
      "grad_norm": 0.3842630088329315,
      "learning_rate": 2.1287696835573966e-05,
      "loss": 2.7837,
      "step": 2817
    },
    {
      "epoch": 0.9131561892417369,
      "grad_norm": 0.3852830231189728,
      "learning_rate": 2.1136452766882196e-05,
      "loss": 2.7391,
      "step": 2818
    },
    {
      "epoch": 0.9134802333117304,
      "grad_norm": 0.3827671706676483,
      "learning_rate": 2.0985736290006497e-05,
      "loss": 2.7113,
      "step": 2819
    },
    {
      "epoch": 0.9138042773817239,
      "grad_norm": 0.3554675579071045,
      "learning_rate": 2.0835547570999813e-05,
      "loss": 2.7312,
      "step": 2820
    },
    {
      "epoch": 0.9141283214517174,
      "grad_norm": 0.41004273295402527,
      "learning_rate": 2.0685886775333895e-05,
      "loss": 2.7306,
      "step": 2821
    },
    {
      "epoch": 0.9144523655217109,
      "grad_norm": 0.37567079067230225,
      "learning_rate": 2.0536754067898677e-05,
      "loss": 2.689,
      "step": 2822
    },
    {
      "epoch": 0.9147764095917045,
      "grad_norm": 0.364374577999115,
      "learning_rate": 2.0388149613002338e-05,
      "loss": 2.7244,
      "step": 2823
    },
    {
      "epoch": 0.915100453661698,
      "grad_norm": 0.349467933177948,
      "learning_rate": 2.024007357437102e-05,
      "loss": 2.7049,
      "step": 2824
    },
    {
      "epoch": 0.9154244977316915,
      "grad_norm": 0.38366392254829407,
      "learning_rate": 2.009252611514867e-05,
      "loss": 2.7287,
      "step": 2825
    },
    {
      "epoch": 0.9157485418016851,
      "grad_norm": 0.3696343004703522,
      "learning_rate": 1.9945507397897132e-05,
      "loss": 2.7647,
      "step": 2826
    },
    {
      "epoch": 0.9160725858716785,
      "grad_norm": 0.42245981097221375,
      "learning_rate": 1.9799017584595236e-05,
      "loss": 2.7191,
      "step": 2827
    },
    {
      "epoch": 0.916396629941672,
      "grad_norm": 0.3541267514228821,
      "learning_rate": 1.9653056836639483e-05,
      "loss": 2.8027,
      "step": 2828
    },
    {
      "epoch": 0.9167206740116656,
      "grad_norm": 0.4009186923503876,
      "learning_rate": 1.950762531484318e-05,
      "loss": 2.86,
      "step": 2829
    },
    {
      "epoch": 0.9170447180816591,
      "grad_norm": 0.3598676919937134,
      "learning_rate": 1.9362723179436825e-05,
      "loss": 2.7567,
      "step": 2830
    },
    {
      "epoch": 0.9173687621516526,
      "grad_norm": 0.37198615074157715,
      "learning_rate": 1.9218350590067436e-05,
      "loss": 2.7931,
      "step": 2831
    },
    {
      "epoch": 0.9176928062216462,
      "grad_norm": 1.0353763103485107,
      "learning_rate": 1.9074507705798603e-05,
      "loss": 2.7937,
      "step": 2832
    },
    {
      "epoch": 0.9180168502916397,
      "grad_norm": 0.37301912903785706,
      "learning_rate": 1.8931194685110564e-05,
      "loss": 2.7326,
      "step": 2833
    },
    {
      "epoch": 0.9183408943616331,
      "grad_norm": 0.39318349957466125,
      "learning_rate": 1.878841168589962e-05,
      "loss": 2.7322,
      "step": 2834
    },
    {
      "epoch": 0.9186649384316267,
      "grad_norm": 0.3971005976200104,
      "learning_rate": 1.864615886547799e-05,
      "loss": 2.6713,
      "step": 2835
    },
    {
      "epoch": 0.9189889825016202,
      "grad_norm": 0.37649261951446533,
      "learning_rate": 1.850443638057392e-05,
      "loss": 2.7405,
      "step": 2836
    },
    {
      "epoch": 0.9193130265716137,
      "grad_norm": 0.3850308358669281,
      "learning_rate": 1.8363244387331336e-05,
      "loss": 2.8094,
      "step": 2837
    },
    {
      "epoch": 0.9196370706416073,
      "grad_norm": 0.3620380759239197,
      "learning_rate": 1.822258304130964e-05,
      "loss": 2.7997,
      "step": 2838
    },
    {
      "epoch": 0.9199611147116008,
      "grad_norm": 0.3579857051372528,
      "learning_rate": 1.8082452497483582e-05,
      "loss": 2.7161,
      "step": 2839
    },
    {
      "epoch": 0.9202851587815943,
      "grad_norm": 0.41359761357307434,
      "learning_rate": 1.7942852910243112e-05,
      "loss": 2.7004,
      "step": 2840
    },
    {
      "epoch": 0.9206092028515879,
      "grad_norm": 2.762834072113037,
      "learning_rate": 1.7803784433393423e-05,
      "loss": 2.8494,
      "step": 2841
    },
    {
      "epoch": 0.9209332469215813,
      "grad_norm": 0.4270095229148865,
      "learning_rate": 1.7665247220154112e-05,
      "loss": 2.7303,
      "step": 2842
    },
    {
      "epoch": 0.9212572909915748,
      "grad_norm": 0.38816747069358826,
      "learning_rate": 1.752724142315981e-05,
      "loss": 2.7218,
      "step": 2843
    },
    {
      "epoch": 0.9215813350615684,
      "grad_norm": 0.43144547939300537,
      "learning_rate": 1.738976719445945e-05,
      "loss": 2.7368,
      "step": 2844
    },
    {
      "epoch": 0.9219053791315619,
      "grad_norm": 0.37977105379104614,
      "learning_rate": 1.7252824685516423e-05,
      "loss": 2.7579,
      "step": 2845
    },
    {
      "epoch": 0.9222294232015554,
      "grad_norm": 0.3829144239425659,
      "learning_rate": 1.7116414047208205e-05,
      "loss": 2.8985,
      "step": 2846
    },
    {
      "epoch": 0.922553467271549,
      "grad_norm": 0.38139525055885315,
      "learning_rate": 1.6980535429826415e-05,
      "loss": 2.7866,
      "step": 2847
    },
    {
      "epoch": 0.9228775113415425,
      "grad_norm": 0.45076045393943787,
      "learning_rate": 1.6845188983076298e-05,
      "loss": 2.7682,
      "step": 2848
    },
    {
      "epoch": 0.9232015554115359,
      "grad_norm": 0.44755831360816956,
      "learning_rate": 1.671037485607707e-05,
      "loss": 2.7434,
      "step": 2849
    },
    {
      "epoch": 0.9235255994815295,
      "grad_norm": 0.3524368703365326,
      "learning_rate": 1.657609319736125e-05,
      "loss": 2.7335,
      "step": 2850
    },
    {
      "epoch": 0.923849643551523,
      "grad_norm": 0.370181143283844,
      "learning_rate": 1.6442344154874666e-05,
      "loss": 2.7622,
      "step": 2851
    },
    {
      "epoch": 0.9241736876215165,
      "grad_norm": 0.4205181896686554,
      "learning_rate": 1.6309127875976493e-05,
      "loss": 2.7536,
      "step": 2852
    },
    {
      "epoch": 0.9244977316915101,
      "grad_norm": 0.4039113521575928,
      "learning_rate": 1.617644450743877e-05,
      "loss": 2.7596,
      "step": 2853
    },
    {
      "epoch": 0.9248217757615036,
      "grad_norm": 0.6356239318847656,
      "learning_rate": 1.604429419544651e-05,
      "loss": 2.8199,
      "step": 2854
    },
    {
      "epoch": 0.9251458198314971,
      "grad_norm": 0.37698185443878174,
      "learning_rate": 1.591267708559746e-05,
      "loss": 2.7805,
      "step": 2855
    },
    {
      "epoch": 0.9254698639014906,
      "grad_norm": 0.445538729429245,
      "learning_rate": 1.57815933229018e-05,
      "loss": 2.8202,
      "step": 2856
    },
    {
      "epoch": 0.9257939079714841,
      "grad_norm": 0.38493385910987854,
      "learning_rate": 1.5651043051782164e-05,
      "loss": 2.7133,
      "step": 2857
    },
    {
      "epoch": 0.9261179520414776,
      "grad_norm": 0.3787843883037567,
      "learning_rate": 1.5521026416073335e-05,
      "loss": 2.7438,
      "step": 2858
    },
    {
      "epoch": 0.9264419961114712,
      "grad_norm": 0.3767627477645874,
      "learning_rate": 1.539154355902217e-05,
      "loss": 2.7534,
      "step": 2859
    },
    {
      "epoch": 0.9267660401814647,
      "grad_norm": 0.3792293071746826,
      "learning_rate": 1.526259462328755e-05,
      "loss": 2.7707,
      "step": 2860
    },
    {
      "epoch": 0.9270900842514582,
      "grad_norm": 0.570006251335144,
      "learning_rate": 1.5134179750939947e-05,
      "loss": 2.781,
      "step": 2861
    },
    {
      "epoch": 0.9274141283214518,
      "grad_norm": 0.3954199552536011,
      "learning_rate": 1.5006299083461517e-05,
      "loss": 2.8543,
      "step": 2862
    },
    {
      "epoch": 0.9277381723914452,
      "grad_norm": 0.4066452980041504,
      "learning_rate": 1.4878952761745835e-05,
      "loss": 2.756,
      "step": 2863
    },
    {
      "epoch": 0.9280622164614387,
      "grad_norm": 0.3638656437397003,
      "learning_rate": 1.4752140926097723e-05,
      "loss": 2.6692,
      "step": 2864
    },
    {
      "epoch": 0.9283862605314323,
      "grad_norm": 0.37723642587661743,
      "learning_rate": 1.46258637162332e-05,
      "loss": 2.7508,
      "step": 2865
    },
    {
      "epoch": 0.9287103046014258,
      "grad_norm": 0.3892821669578552,
      "learning_rate": 1.4500121271279253e-05,
      "loss": 2.8128,
      "step": 2866
    },
    {
      "epoch": 0.9290343486714193,
      "grad_norm": 0.3421950042247772,
      "learning_rate": 1.4374913729773508e-05,
      "loss": 2.7295,
      "step": 2867
    },
    {
      "epoch": 0.9293583927414129,
      "grad_norm": 0.38930708169937134,
      "learning_rate": 1.425024122966445e-05,
      "loss": 2.6528,
      "step": 2868
    },
    {
      "epoch": 0.9296824368114064,
      "grad_norm": 0.39619532227516174,
      "learning_rate": 1.412610390831104e-05,
      "loss": 2.9166,
      "step": 2869
    },
    {
      "epoch": 0.9300064808813999,
      "grad_norm": 0.37502238154411316,
      "learning_rate": 1.4002501902482534e-05,
      "loss": 2.7366,
      "step": 2870
    },
    {
      "epoch": 0.9303305249513933,
      "grad_norm": 0.3701018989086151,
      "learning_rate": 1.387943534835856e-05,
      "loss": 2.7414,
      "step": 2871
    },
    {
      "epoch": 0.9306545690213869,
      "grad_norm": 0.3820548355579376,
      "learning_rate": 1.3756904381528657e-05,
      "loss": 2.7187,
      "step": 2872
    },
    {
      "epoch": 0.9309786130913804,
      "grad_norm": 0.39373779296875,
      "learning_rate": 1.363490913699228e-05,
      "loss": 2.8053,
      "step": 2873
    },
    {
      "epoch": 0.931302657161374,
      "grad_norm": 0.36475956439971924,
      "learning_rate": 1.351344974915869e-05,
      "loss": 2.6982,
      "step": 2874
    },
    {
      "epoch": 0.9316267012313675,
      "grad_norm": 0.36986029148101807,
      "learning_rate": 1.3392526351846734e-05,
      "loss": 2.8576,
      "step": 2875
    },
    {
      "epoch": 0.931950745301361,
      "grad_norm": 0.3992573022842407,
      "learning_rate": 1.3272139078284784e-05,
      "loss": 2.7617,
      "step": 2876
    },
    {
      "epoch": 0.9322747893713546,
      "grad_norm": 0.6519688367843628,
      "learning_rate": 1.3152288061110518e-05,
      "loss": 2.7771,
      "step": 2877
    },
    {
      "epoch": 0.932598833441348,
      "grad_norm": 0.3835969865322113,
      "learning_rate": 1.3032973432370699e-05,
      "loss": 2.7708,
      "step": 2878
    },
    {
      "epoch": 0.9329228775113415,
      "grad_norm": 0.3821910619735718,
      "learning_rate": 1.2914195323521284e-05,
      "loss": 2.7153,
      "step": 2879
    },
    {
      "epoch": 0.933246921581335,
      "grad_norm": 0.396172434091568,
      "learning_rate": 1.279595386542698e-05,
      "loss": 2.8004,
      "step": 2880
    },
    {
      "epoch": 0.9335709656513286,
      "grad_norm": 0.3715633749961853,
      "learning_rate": 1.2678249188361246e-05,
      "loss": 2.7603,
      "step": 2881
    },
    {
      "epoch": 0.9338950097213221,
      "grad_norm": 0.3815648853778839,
      "learning_rate": 1.2561081422006238e-05,
      "loss": 2.7286,
      "step": 2882
    },
    {
      "epoch": 0.9342190537913156,
      "grad_norm": 0.39541614055633545,
      "learning_rate": 1.244445069545247e-05,
      "loss": 2.8039,
      "step": 2883
    },
    {
      "epoch": 0.9345430978613092,
      "grad_norm": 0.38793644309043884,
      "learning_rate": 1.232835713719871e-05,
      "loss": 2.7917,
      "step": 2884
    },
    {
      "epoch": 0.9348671419313026,
      "grad_norm": 0.3805345892906189,
      "learning_rate": 1.2212800875152086e-05,
      "loss": 2.7328,
      "step": 2885
    },
    {
      "epoch": 0.9351911860012961,
      "grad_norm": 0.3801663815975189,
      "learning_rate": 1.2097782036627646e-05,
      "loss": 2.8295,
      "step": 2886
    },
    {
      "epoch": 0.9355152300712897,
      "grad_norm": 0.37706801295280457,
      "learning_rate": 1.1983300748348302e-05,
      "loss": 2.7793,
      "step": 2887
    },
    {
      "epoch": 0.9358392741412832,
      "grad_norm": 0.3824975788593292,
      "learning_rate": 1.1869357136444769e-05,
      "loss": 2.744,
      "step": 2888
    },
    {
      "epoch": 0.9361633182112767,
      "grad_norm": 0.38484126329421997,
      "learning_rate": 1.175595132645535e-05,
      "loss": 2.7599,
      "step": 2889
    },
    {
      "epoch": 0.9364873622812703,
      "grad_norm": 0.39221569895744324,
      "learning_rate": 1.1643083443325819e-05,
      "loss": 2.7521,
      "step": 2890
    },
    {
      "epoch": 0.9368114063512638,
      "grad_norm": 0.38485440611839294,
      "learning_rate": 1.153075361140915e-05,
      "loss": 2.8528,
      "step": 2891
    },
    {
      "epoch": 0.9371354504212573,
      "grad_norm": 0.36883947253227234,
      "learning_rate": 1.1418961954465845e-05,
      "loss": 2.788,
      "step": 2892
    },
    {
      "epoch": 0.9374594944912508,
      "grad_norm": 0.41170990467071533,
      "learning_rate": 1.1307708595663213e-05,
      "loss": 2.8177,
      "step": 2893
    },
    {
      "epoch": 0.9377835385612443,
      "grad_norm": 0.3692646622657776,
      "learning_rate": 1.1196993657575538e-05,
      "loss": 2.7127,
      "step": 2894
    },
    {
      "epoch": 0.9381075826312378,
      "grad_norm": 0.42199987173080444,
      "learning_rate": 1.1086817262183912e-05,
      "loss": 2.713,
      "step": 2895
    },
    {
      "epoch": 0.9384316267012314,
      "grad_norm": 0.39905688166618347,
      "learning_rate": 1.097717953087607e-05,
      "loss": 2.8302,
      "step": 2896
    },
    {
      "epoch": 0.9387556707712249,
      "grad_norm": 0.36638855934143066,
      "learning_rate": 1.0868080584446271e-05,
      "loss": 2.8034,
      "step": 2897
    },
    {
      "epoch": 0.9390797148412184,
      "grad_norm": 0.36461395025253296,
      "learning_rate": 1.0759520543095148e-05,
      "loss": 2.7767,
      "step": 2898
    },
    {
      "epoch": 0.939403758911212,
      "grad_norm": 0.41641247272491455,
      "learning_rate": 1.0651499526429632e-05,
      "loss": 2.7631,
      "step": 2899
    },
    {
      "epoch": 0.9397278029812054,
      "grad_norm": 0.3910277783870697,
      "learning_rate": 1.0544017653462745e-05,
      "loss": 2.826,
      "step": 2900
    },
    {
      "epoch": 0.9400518470511989,
      "grad_norm": 0.38077491521835327,
      "learning_rate": 1.0437075042613598e-05,
      "loss": 2.6954,
      "step": 2901
    },
    {
      "epoch": 0.9403758911211925,
      "grad_norm": 0.42563313245773315,
      "learning_rate": 1.0330671811706993e-05,
      "loss": 2.7405,
      "step": 2902
    },
    {
      "epoch": 0.940699935191186,
      "grad_norm": 0.45163699984550476,
      "learning_rate": 1.0224808077973602e-05,
      "loss": 2.8118,
      "step": 2903
    },
    {
      "epoch": 0.9410239792611795,
      "grad_norm": 0.3613688051700592,
      "learning_rate": 1.0119483958049624e-05,
      "loss": 2.7123,
      "step": 2904
    },
    {
      "epoch": 0.9413480233311731,
      "grad_norm": 0.4631718695163727,
      "learning_rate": 1.0014699567976792e-05,
      "loss": 2.8121,
      "step": 2905
    },
    {
      "epoch": 0.9416720674011666,
      "grad_norm": 0.37088096141815186,
      "learning_rate": 9.910455023202092e-06,
      "loss": 2.7254,
      "step": 2906
    },
    {
      "epoch": 0.94199611147116,
      "grad_norm": 0.3561495542526245,
      "learning_rate": 9.806750438577872e-06,
      "loss": 2.7769,
      "step": 2907
    },
    {
      "epoch": 0.9423201555411536,
      "grad_norm": 0.3627324402332306,
      "learning_rate": 9.703585928361514e-06,
      "loss": 2.7868,
      "step": 2908
    },
    {
      "epoch": 0.9426441996111471,
      "grad_norm": 0.35976308584213257,
      "learning_rate": 9.600961606215319e-06,
      "loss": 2.7728,
      "step": 2909
    },
    {
      "epoch": 0.9429682436811406,
      "grad_norm": 0.3693334460258484,
      "learning_rate": 9.498877585206512e-06,
      "loss": 2.8028,
      "step": 2910
    },
    {
      "epoch": 0.9432922877511342,
      "grad_norm": 0.37764090299606323,
      "learning_rate": 9.39733397780701e-06,
      "loss": 2.7149,
      "step": 2911
    },
    {
      "epoch": 0.9436163318211277,
      "grad_norm": 0.40351229906082153,
      "learning_rate": 9.296330895893213e-06,
      "loss": 2.7894,
      "step": 2912
    },
    {
      "epoch": 0.9439403758911212,
      "grad_norm": 0.5348620414733887,
      "learning_rate": 9.195868450746103e-06,
      "loss": 2.7682,
      "step": 2913
    },
    {
      "epoch": 0.9442644199611148,
      "grad_norm": 0.3718468248844147,
      "learning_rate": 9.095946753051087e-06,
      "loss": 2.8192,
      "step": 2914
    },
    {
      "epoch": 0.9445884640311082,
      "grad_norm": 0.43002063035964966,
      "learning_rate": 8.996565912897659e-06,
      "loss": 2.7655,
      "step": 2915
    },
    {
      "epoch": 0.9449125081011017,
      "grad_norm": 0.3942306935787201,
      "learning_rate": 8.897726039779507e-06,
      "loss": 2.789,
      "step": 2916
    },
    {
      "epoch": 0.9452365521710953,
      "grad_norm": 0.3751872777938843,
      "learning_rate": 8.799427242594193e-06,
      "loss": 2.7978,
      "step": 2917
    },
    {
      "epoch": 0.9455605962410888,
      "grad_norm": 0.3763487935066223,
      "learning_rate": 8.701669629643305e-06,
      "loss": 2.769,
      "step": 2918
    },
    {
      "epoch": 0.9458846403110823,
      "grad_norm": 0.36831849813461304,
      "learning_rate": 8.604453308631965e-06,
      "loss": 2.7838,
      "step": 2919
    },
    {
      "epoch": 0.9462086843810759,
      "grad_norm": 0.3806433379650116,
      "learning_rate": 8.507778386669219e-06,
      "loss": 2.7677,
      "step": 2920
    },
    {
      "epoch": 0.9465327284510694,
      "grad_norm": 0.3921065926551819,
      "learning_rate": 8.411644970267252e-06,
      "loss": 2.7008,
      "step": 2921
    },
    {
      "epoch": 0.9468567725210628,
      "grad_norm": 0.38305404782295227,
      "learning_rate": 8.316053165341952e-06,
      "loss": 2.7396,
      "step": 2922
    },
    {
      "epoch": 0.9471808165910564,
      "grad_norm": 0.37562981247901917,
      "learning_rate": 8.221003077212464e-06,
      "loss": 2.8372,
      "step": 2923
    },
    {
      "epoch": 0.9475048606610499,
      "grad_norm": 0.3815141022205353,
      "learning_rate": 8.126494810600848e-06,
      "loss": 2.7543,
      "step": 2924
    },
    {
      "epoch": 0.9478289047310434,
      "grad_norm": 0.3640248775482178,
      "learning_rate": 8.032528469632372e-06,
      "loss": 2.7814,
      "step": 2925
    },
    {
      "epoch": 0.948152948801037,
      "grad_norm": 0.3702465891838074,
      "learning_rate": 7.939104157835275e-06,
      "loss": 2.7619,
      "step": 2926
    },
    {
      "epoch": 0.9484769928710305,
      "grad_norm": 0.37359264492988586,
      "learning_rate": 7.846221978140556e-06,
      "loss": 2.69,
      "step": 2927
    },
    {
      "epoch": 0.948801036941024,
      "grad_norm": 0.38201335072517395,
      "learning_rate": 7.753882032881798e-06,
      "loss": 2.8608,
      "step": 2928
    },
    {
      "epoch": 0.9491250810110174,
      "grad_norm": 0.3633112907409668,
      "learning_rate": 7.662084423795456e-06,
      "loss": 2.7353,
      "step": 2929
    },
    {
      "epoch": 0.949449125081011,
      "grad_norm": 0.6600764393806458,
      "learning_rate": 7.570829252020128e-06,
      "loss": 2.783,
      "step": 2930
    },
    {
      "epoch": 0.9497731691510045,
      "grad_norm": 0.36238893866539,
      "learning_rate": 7.48011661809711e-06,
      "loss": 2.7646,
      "step": 2931
    },
    {
      "epoch": 0.950097213220998,
      "grad_norm": 0.5742472410202026,
      "learning_rate": 7.389946621969679e-06,
      "loss": 2.7951,
      "step": 2932
    },
    {
      "epoch": 0.9504212572909916,
      "grad_norm": 0.3680647313594818,
      "learning_rate": 7.3003193629834204e-06,
      "loss": 2.7602,
      "step": 2933
    },
    {
      "epoch": 0.9507453013609851,
      "grad_norm": 0.36374980211257935,
      "learning_rate": 7.211234939885847e-06,
      "loss": 2.7536,
      "step": 2934
    },
    {
      "epoch": 0.9510693454309787,
      "grad_norm": 0.3770817220211029,
      "learning_rate": 7.122693450826445e-06,
      "loss": 2.7969,
      "step": 2935
    },
    {
      "epoch": 0.9513933895009722,
      "grad_norm": 0.3861401081085205,
      "learning_rate": 7.034694993356517e-06,
      "loss": 2.7707,
      "step": 2936
    },
    {
      "epoch": 0.9517174335709656,
      "grad_norm": 0.3840094804763794,
      "learning_rate": 6.947239664429117e-06,
      "loss": 2.7661,
      "step": 2937
    },
    {
      "epoch": 0.9520414776409591,
      "grad_norm": 0.4833758473396301,
      "learning_rate": 6.8603275603988934e-06,
      "loss": 2.7276,
      "step": 2938
    },
    {
      "epoch": 0.9523655217109527,
      "grad_norm": 0.3617503345012665,
      "learning_rate": 6.773958777021916e-06,
      "loss": 2.7233,
      "step": 2939
    },
    {
      "epoch": 0.9526895657809462,
      "grad_norm": 0.37419721484184265,
      "learning_rate": 6.6881334094557325e-06,
      "loss": 2.739,
      "step": 2940
    },
    {
      "epoch": 0.9530136098509397,
      "grad_norm": 0.3782920241355896,
      "learning_rate": 6.6028515522590925e-06,
      "loss": 2.7165,
      "step": 2941
    },
    {
      "epoch": 0.9533376539209333,
      "grad_norm": 0.37221166491508484,
      "learning_rate": 6.518113299392003e-06,
      "loss": 2.7765,
      "step": 2942
    },
    {
      "epoch": 0.9536616979909268,
      "grad_norm": 0.3948094844818115,
      "learning_rate": 6.433918744215505e-06,
      "loss": 2.7061,
      "step": 2943
    },
    {
      "epoch": 0.9539857420609202,
      "grad_norm": 0.42554935812950134,
      "learning_rate": 6.3502679794916755e-06,
      "loss": 2.8032,
      "step": 2944
    },
    {
      "epoch": 0.9543097861309138,
      "grad_norm": 0.4026482105255127,
      "learning_rate": 6.267161097383345e-06,
      "loss": 2.7955,
      "step": 2945
    },
    {
      "epoch": 0.9546338302009073,
      "grad_norm": 0.3743567168712616,
      "learning_rate": 6.184598189454327e-06,
      "loss": 2.7875,
      "step": 2946
    },
    {
      "epoch": 0.9549578742709008,
      "grad_norm": 0.4888662099838257,
      "learning_rate": 6.102579346668913e-06,
      "loss": 2.8168,
      "step": 2947
    },
    {
      "epoch": 0.9552819183408944,
      "grad_norm": 0.3847084045410156,
      "learning_rate": 6.021104659391985e-06,
      "loss": 2.7407,
      "step": 2948
    },
    {
      "epoch": 0.9556059624108879,
      "grad_norm": 0.38368159532546997,
      "learning_rate": 5.940174217389016e-06,
      "loss": 2.7111,
      "step": 2949
    },
    {
      "epoch": 0.9559300064808814,
      "grad_norm": 0.3595835268497467,
      "learning_rate": 5.859788109825792e-06,
      "loss": 2.6326,
      "step": 2950
    },
    {
      "epoch": 0.9562540505508749,
      "grad_norm": 0.38056010007858276,
      "learning_rate": 5.779946425268246e-06,
      "loss": 2.6798,
      "step": 2951
    },
    {
      "epoch": 0.9565780946208684,
      "grad_norm": 0.38400959968566895,
      "learning_rate": 5.7006492516826765e-06,
      "loss": 2.8116,
      "step": 2952
    },
    {
      "epoch": 0.9569021386908619,
      "grad_norm": 0.36046308279037476,
      "learning_rate": 5.621896676435423e-06,
      "loss": 2.7716,
      "step": 2953
    },
    {
      "epoch": 0.9572261827608555,
      "grad_norm": 0.4160677492618561,
      "learning_rate": 5.5436887862927445e-06,
      "loss": 2.7826,
      "step": 2954
    },
    {
      "epoch": 0.957550226830849,
      "grad_norm": 0.40821436047554016,
      "learning_rate": 5.466025667420826e-06,
      "loss": 2.8783,
      "step": 2955
    },
    {
      "epoch": 0.9578742709008425,
      "grad_norm": 0.4109581410884857,
      "learning_rate": 5.3889074053856124e-06,
      "loss": 2.769,
      "step": 2956
    },
    {
      "epoch": 0.9581983149708361,
      "grad_norm": 0.3981526792049408,
      "learning_rate": 5.312334085152859e-06,
      "loss": 2.8103,
      "step": 2957
    },
    {
      "epoch": 0.9585223590408296,
      "grad_norm": 0.40682438015937805,
      "learning_rate": 5.236305791087747e-06,
      "loss": 2.6634,
      "step": 2958
    },
    {
      "epoch": 0.958846403110823,
      "grad_norm": 0.36616238951683044,
      "learning_rate": 5.1608226069551066e-06,
      "loss": 2.7526,
      "step": 2959
    },
    {
      "epoch": 0.9591704471808166,
      "grad_norm": 0.42150619626045227,
      "learning_rate": 5.08588461591919e-06,
      "loss": 2.7009,
      "step": 2960
    },
    {
      "epoch": 0.9594944912508101,
      "grad_norm": 0.38642778992652893,
      "learning_rate": 5.011491900543508e-06,
      "loss": 2.7294,
      "step": 2961
    },
    {
      "epoch": 0.9598185353208036,
      "grad_norm": 0.3994384706020355,
      "learning_rate": 4.9376445427908314e-06,
      "loss": 2.7156,
      "step": 2962
    },
    {
      "epoch": 0.9601425793907972,
      "grad_norm": 0.39401939511299133,
      "learning_rate": 4.864342624023077e-06,
      "loss": 2.648,
      "step": 2963
    },
    {
      "epoch": 0.9604666234607907,
      "grad_norm": 0.4003608226776123,
      "learning_rate": 4.79158622500131e-06,
      "loss": 2.6566,
      "step": 2964
    },
    {
      "epoch": 0.9607906675307842,
      "grad_norm": 0.3677715063095093,
      "learning_rate": 4.719375425885408e-06,
      "loss": 2.7201,
      "step": 2965
    },
    {
      "epoch": 0.9611147116007777,
      "grad_norm": 0.6355743408203125,
      "learning_rate": 4.647710306234176e-06,
      "loss": 2.7642,
      "step": 2966
    },
    {
      "epoch": 0.9614387556707712,
      "grad_norm": 0.3794372081756592,
      "learning_rate": 4.576590945005288e-06,
      "loss": 2.7416,
      "step": 2967
    },
    {
      "epoch": 0.9617627997407647,
      "grad_norm": 0.4098643362522125,
      "learning_rate": 4.50601742055512e-06,
      "loss": 2.7893,
      "step": 2968
    },
    {
      "epoch": 0.9620868438107583,
      "grad_norm": 0.38367217779159546,
      "learning_rate": 4.435989810638641e-06,
      "loss": 2.89,
      "step": 2969
    },
    {
      "epoch": 0.9624108878807518,
      "grad_norm": 0.39788275957107544,
      "learning_rate": 4.366508192409246e-06,
      "loss": 2.7946,
      "step": 2970
    },
    {
      "epoch": 0.9627349319507453,
      "grad_norm": 0.3497457504272461,
      "learning_rate": 4.297572642418923e-06,
      "loss": 2.8381,
      "step": 2971
    },
    {
      "epoch": 0.9630589760207389,
      "grad_norm": 0.4505717158317566,
      "learning_rate": 4.229183236618028e-06,
      "loss": 2.7668,
      "step": 2972
    },
    {
      "epoch": 0.9633830200907323,
      "grad_norm": 0.39102017879486084,
      "learning_rate": 4.1613400503550115e-06,
      "loss": 2.75,
      "step": 2973
    },
    {
      "epoch": 0.9637070641607258,
      "grad_norm": 0.3942287266254425,
      "learning_rate": 4.094043158376748e-06,
      "loss": 2.7566,
      "step": 2974
    },
    {
      "epoch": 0.9640311082307194,
      "grad_norm": 0.3984604477882385,
      "learning_rate": 4.027292634828151e-06,
      "loss": 2.7399,
      "step": 2975
    },
    {
      "epoch": 0.9643551523007129,
      "grad_norm": 0.3636411428451538,
      "learning_rate": 3.961088553252168e-06,
      "loss": 2.6878,
      "step": 2976
    },
    {
      "epoch": 0.9646791963707064,
      "grad_norm": 0.35757243633270264,
      "learning_rate": 3.895430986589621e-06,
      "loss": 2.7669,
      "step": 2977
    },
    {
      "epoch": 0.9650032404407,
      "grad_norm": 0.36381858587265015,
      "learning_rate": 3.830320007179311e-06,
      "loss": 2.7004,
      "step": 2978
    },
    {
      "epoch": 0.9653272845106935,
      "grad_norm": 0.38681307435035706,
      "learning_rate": 3.765755686757744e-06,
      "loss": 2.6859,
      "step": 2979
    },
    {
      "epoch": 0.9656513285806869,
      "grad_norm": 0.3940953314304352,
      "learning_rate": 3.7017380964592394e-06,
      "loss": 2.7128,
      "step": 2980
    },
    {
      "epoch": 0.9659753726506805,
      "grad_norm": 0.360150545835495,
      "learning_rate": 3.638267306815657e-06,
      "loss": 2.7917,
      "step": 2981
    },
    {
      "epoch": 0.966299416720674,
      "grad_norm": 0.38467106223106384,
      "learning_rate": 3.575343387756447e-06,
      "loss": 2.8172,
      "step": 2982
    },
    {
      "epoch": 0.9666234607906675,
      "grad_norm": 0.40115082263946533,
      "learning_rate": 3.512966408608653e-06,
      "loss": 2.7251,
      "step": 2983
    },
    {
      "epoch": 0.9669475048606611,
      "grad_norm": 0.3613380789756775,
      "learning_rate": 3.451136438096525e-06,
      "loss": 2.7956,
      "step": 2984
    },
    {
      "epoch": 0.9672715489306546,
      "grad_norm": 0.35381588339805603,
      "learning_rate": 3.3898535443417367e-06,
      "loss": 2.7685,
      "step": 2985
    },
    {
      "epoch": 0.9675955930006481,
      "grad_norm": 0.3925735056400299,
      "learning_rate": 3.329117794863279e-06,
      "loss": 2.6326,
      "step": 2986
    },
    {
      "epoch": 0.9679196370706417,
      "grad_norm": 0.3858659863471985,
      "learning_rate": 3.26892925657718e-06,
      "loss": 2.7115,
      "step": 2987
    },
    {
      "epoch": 0.9682436811406351,
      "grad_norm": 0.3963503837585449,
      "learning_rate": 3.209287995796728e-06,
      "loss": 2.7799,
      "step": 2988
    },
    {
      "epoch": 0.9685677252106286,
      "grad_norm": 0.3774878978729248,
      "learning_rate": 3.1501940782320826e-06,
      "loss": 2.7313,
      "step": 2989
    },
    {
      "epoch": 0.9688917692806222,
      "grad_norm": 0.35232117772102356,
      "learning_rate": 3.0916475689904966e-06,
      "loss": 2.7199,
      "step": 2990
    },
    {
      "epoch": 0.9692158133506157,
      "grad_norm": 0.3875279426574707,
      "learning_rate": 3.033648532576094e-06,
      "loss": 2.858,
      "step": 2991
    },
    {
      "epoch": 0.9695398574206092,
      "grad_norm": 0.38570237159729004,
      "learning_rate": 2.9761970328897605e-06,
      "loss": 2.7316,
      "step": 2992
    },
    {
      "epoch": 0.9698639014906028,
      "grad_norm": 0.4559442698955536,
      "learning_rate": 2.919293133229195e-06,
      "loss": 2.77,
      "step": 2993
    },
    {
      "epoch": 0.9701879455605963,
      "grad_norm": 0.37883490324020386,
      "learning_rate": 2.8629368962886372e-06,
      "loss": 2.7335,
      "step": 2994
    },
    {
      "epoch": 0.9705119896305897,
      "grad_norm": 0.3921162188053131,
      "learning_rate": 2.8071283841590303e-06,
      "loss": 2.8125,
      "step": 2995
    },
    {
      "epoch": 0.9708360337005832,
      "grad_norm": 0.37644824385643005,
      "learning_rate": 2.7518676583279666e-06,
      "loss": 2.7923,
      "step": 2996
    },
    {
      "epoch": 0.9711600777705768,
      "grad_norm": 0.386608749628067,
      "learning_rate": 2.6971547796793007e-06,
      "loss": 2.8906,
      "step": 2997
    },
    {
      "epoch": 0.9714841218405703,
      "grad_norm": 0.5244260430335999,
      "learning_rate": 2.642989808493479e-06,
      "loss": 2.7204,
      "step": 2998
    },
    {
      "epoch": 0.9718081659105638,
      "grad_norm": 0.37261638045310974,
      "learning_rate": 2.5893728044471544e-06,
      "loss": 2.76,
      "step": 2999
    },
    {
      "epoch": 0.9721322099805574,
      "grad_norm": 0.3580765426158905,
      "learning_rate": 2.5363038266132953e-06,
      "loss": 2.7446,
      "step": 3000
    },
    {
      "epoch": 0.9724562540505509,
      "grad_norm": 0.38117921352386475,
      "learning_rate": 2.483782933461076e-06,
      "loss": 2.6942,
      "step": 3001
    },
    {
      "epoch": 0.9727802981205443,
      "grad_norm": 0.41559159755706787,
      "learning_rate": 2.4318101828558205e-06,
      "loss": 2.6734,
      "step": 3002
    },
    {
      "epoch": 0.9731043421905379,
      "grad_norm": 0.378253310918808,
      "learning_rate": 2.3803856320589455e-06,
      "loss": 2.7378,
      "step": 3003
    },
    {
      "epoch": 0.9734283862605314,
      "grad_norm": 0.403340220451355,
      "learning_rate": 2.329509337727853e-06,
      "loss": 2.73,
      "step": 3004
    },
    {
      "epoch": 0.9737524303305249,
      "grad_norm": 0.36226996779441833,
      "learning_rate": 2.2791813559159267e-06,
      "loss": 2.6896,
      "step": 3005
    },
    {
      "epoch": 0.9740764744005185,
      "grad_norm": 0.3921336829662323,
      "learning_rate": 2.2294017420724234e-06,
      "loss": 2.8268,
      "step": 3006
    },
    {
      "epoch": 0.974400518470512,
      "grad_norm": 0.3501462936401367,
      "learning_rate": 2.1801705510424706e-06,
      "loss": 2.7587,
      "step": 3007
    },
    {
      "epoch": 0.9747245625405055,
      "grad_norm": 0.36638039350509644,
      "learning_rate": 2.131487837066848e-06,
      "loss": 2.6857,
      "step": 3008
    },
    {
      "epoch": 0.9750486066104991,
      "grad_norm": 0.3863462209701538,
      "learning_rate": 2.0833536537822605e-06,
      "loss": 2.6596,
      "step": 3009
    },
    {
      "epoch": 0.9753726506804925,
      "grad_norm": 0.3734617531299591,
      "learning_rate": 2.035768054220788e-06,
      "loss": 2.7313,
      "step": 3010
    },
    {
      "epoch": 0.975696694750486,
      "grad_norm": 0.44945019483566284,
      "learning_rate": 1.9887310908103806e-06,
      "loss": 2.8339,
      "step": 3011
    },
    {
      "epoch": 0.9760207388204796,
      "grad_norm": 0.3899762034416199,
      "learning_rate": 1.9422428153743066e-06,
      "loss": 2.7921,
      "step": 3012
    },
    {
      "epoch": 0.9763447828904731,
      "grad_norm": 0.37523019313812256,
      "learning_rate": 1.8963032791314837e-06,
      "loss": 2.7915,
      "step": 3013
    },
    {
      "epoch": 0.9766688269604666,
      "grad_norm": 0.4569479823112488,
      "learning_rate": 1.8509125326960918e-06,
      "loss": 2.7872,
      "step": 3014
    },
    {
      "epoch": 0.9769928710304602,
      "grad_norm": 0.4202355146408081,
      "learning_rate": 1.8060706260778492e-06,
      "loss": 2.7153,
      "step": 3015
    },
    {
      "epoch": 0.9773169151004537,
      "grad_norm": 0.3865170180797577,
      "learning_rate": 1.7617776086815696e-06,
      "loss": 2.8156,
      "step": 3016
    },
    {
      "epoch": 0.9776409591704471,
      "grad_norm": 0.4281381070613861,
      "learning_rate": 1.71803352930755e-06,
      "loss": 2.7782,
      "step": 3017
    },
    {
      "epoch": 0.9779650032404407,
      "grad_norm": 0.3970625698566437,
      "learning_rate": 1.6748384361511271e-06,
      "loss": 2.7151,
      "step": 3018
    },
    {
      "epoch": 0.9782890473104342,
      "grad_norm": 0.4302379786968231,
      "learning_rate": 1.632192376802899e-06,
      "loss": 2.7817,
      "step": 3019
    },
    {
      "epoch": 0.9786130913804277,
      "grad_norm": 0.42912110686302185,
      "learning_rate": 1.5900953982484477e-06,
      "loss": 2.7314,
      "step": 3020
    },
    {
      "epoch": 0.9789371354504213,
      "grad_norm": 0.40167295932769775,
      "learning_rate": 1.5485475468685063e-06,
      "loss": 2.6891,
      "step": 3021
    },
    {
      "epoch": 0.9792611795204148,
      "grad_norm": 0.36950910091400146,
      "learning_rate": 1.5075488684387351e-06,
      "loss": 2.7701,
      "step": 3022
    },
    {
      "epoch": 0.9795852235904083,
      "grad_norm": 0.37509241700172424,
      "learning_rate": 1.4670994081297795e-06,
      "loss": 2.7603,
      "step": 3023
    },
    {
      "epoch": 0.9799092676604018,
      "grad_norm": 0.4240166246891022,
      "learning_rate": 1.4271992105071573e-06,
      "loss": 2.896,
      "step": 3024
    },
    {
      "epoch": 0.9802333117303953,
      "grad_norm": 0.41000208258628845,
      "learning_rate": 1.3878483195312041e-06,
      "loss": 2.8405,
      "step": 3025
    },
    {
      "epoch": 0.9805573558003888,
      "grad_norm": 0.4038745164871216,
      "learning_rate": 1.349046778557128e-06,
      "loss": 2.7567,
      "step": 3026
    },
    {
      "epoch": 0.9808813998703824,
      "grad_norm": 0.387393981218338,
      "learning_rate": 1.310794630334844e-06,
      "loss": 2.7807,
      "step": 3027
    },
    {
      "epoch": 0.9812054439403759,
      "grad_norm": 0.36896640062332153,
      "learning_rate": 1.2730919170089728e-06,
      "loss": 2.788,
      "step": 3028
    },
    {
      "epoch": 0.9815294880103694,
      "grad_norm": 0.3767332434654236,
      "learning_rate": 1.2359386801187312e-06,
      "loss": 2.8413,
      "step": 3029
    },
    {
      "epoch": 0.981853532080363,
      "grad_norm": 0.40680110454559326,
      "learning_rate": 1.199334960598042e-06,
      "loss": 2.779,
      "step": 3030
    },
    {
      "epoch": 0.9821775761503565,
      "grad_norm": 0.39476409554481506,
      "learning_rate": 1.163280798775368e-06,
      "loss": 2.8243,
      "step": 3031
    },
    {
      "epoch": 0.9825016202203499,
      "grad_norm": 0.3579126000404358,
      "learning_rate": 1.1277762343736008e-06,
      "loss": 2.7492,
      "step": 3032
    },
    {
      "epoch": 0.9828256642903435,
      "grad_norm": 0.3771919012069702,
      "learning_rate": 1.0928213065102833e-06,
      "loss": 2.823,
      "step": 3033
    },
    {
      "epoch": 0.983149708360337,
      "grad_norm": 0.3867988586425781,
      "learning_rate": 1.05841605369722e-06,
      "loss": 2.8245,
      "step": 3034
    },
    {
      "epoch": 0.9834737524303305,
      "grad_norm": 0.3785521388053894,
      "learning_rate": 1.0245605138407e-06,
      "loss": 2.7356,
      "step": 3035
    },
    {
      "epoch": 0.9837977965003241,
      "grad_norm": 0.3740563988685608,
      "learning_rate": 9.91254724241386e-07,
      "loss": 2.7384,
      "step": 3036
    },
    {
      "epoch": 0.9841218405703176,
      "grad_norm": 0.3806503713130951,
      "learning_rate": 9.584987215941476e-07,
      "loss": 2.7615,
      "step": 3037
    },
    {
      "epoch": 0.9844458846403111,
      "grad_norm": 0.3999308943748474,
      "learning_rate": 9.262925419881718e-07,
      "loss": 2.7595,
      "step": 3038
    },
    {
      "epoch": 0.9847699287103046,
      "grad_norm": 0.37732312083244324,
      "learning_rate": 8.946362209069081e-07,
      "loss": 2.7139,
      "step": 3039
    },
    {
      "epoch": 0.9850939727802981,
      "grad_norm": 0.3752155900001526,
      "learning_rate": 8.635297932279018e-07,
      "loss": 2.7541,
      "step": 3040
    },
    {
      "epoch": 0.9854180168502916,
      "grad_norm": 0.3569614291191101,
      "learning_rate": 8.329732932230161e-07,
      "loss": 2.7556,
      "step": 3041
    },
    {
      "epoch": 0.9857420609202852,
      "grad_norm": 0.3900029957294464,
      "learning_rate": 8.029667545580988e-07,
      "loss": 2.7384,
      "step": 3042
    },
    {
      "epoch": 0.9860661049902787,
      "grad_norm": 0.4861927628517151,
      "learning_rate": 7.73510210293038e-07,
      "loss": 2.7794,
      "step": 3043
    },
    {
      "epoch": 0.9863901490602722,
      "grad_norm": 0.37685152888298035,
      "learning_rate": 7.446036928818733e-07,
      "loss": 2.7201,
      "step": 3044
    },
    {
      "epoch": 0.9867141931302658,
      "grad_norm": 0.39657166600227356,
      "learning_rate": 7.16247234172629e-07,
      "loss": 2.7311,
      "step": 3045
    },
    {
      "epoch": 0.9870382372002592,
      "grad_norm": 0.38572096824645996,
      "learning_rate": 6.884408654071472e-07,
      "loss": 2.7279,
      "step": 3046
    },
    {
      "epoch": 0.9873622812702527,
      "grad_norm": 0.364813894033432,
      "learning_rate": 6.611846172214219e-07,
      "loss": 2.7626,
      "step": 3047
    },
    {
      "epoch": 0.9876863253402463,
      "grad_norm": 0.37170401215553284,
      "learning_rate": 6.344785196452096e-07,
      "loss": 2.7821,
      "step": 3048
    },
    {
      "epoch": 0.9880103694102398,
      "grad_norm": 0.37067824602127075,
      "learning_rate": 6.083226021021959e-07,
      "loss": 2.7948,
      "step": 3049
    },
    {
      "epoch": 0.9883344134802333,
      "grad_norm": 0.38002118468284607,
      "learning_rate": 5.827168934098293e-07,
      "loss": 2.7563,
      "step": 3050
    },
    {
      "epoch": 0.9886584575502269,
      "grad_norm": 0.39472857117652893,
      "learning_rate": 5.576614217794318e-07,
      "loss": 2.696,
      "step": 3051
    },
    {
      "epoch": 0.9889825016202204,
      "grad_norm": 0.3772837817668915,
      "learning_rate": 5.331562148160884e-07,
      "loss": 2.8077,
      "step": 3052
    },
    {
      "epoch": 0.9893065456902139,
      "grad_norm": 0.35047197341918945,
      "learning_rate": 5.092012995186468e-07,
      "loss": 2.6866,
      "step": 3053
    },
    {
      "epoch": 0.9896305897602073,
      "grad_norm": 0.4507908225059509,
      "learning_rate": 4.857967022795506e-07,
      "loss": 2.7524,
      "step": 3054
    },
    {
      "epoch": 0.9899546338302009,
      "grad_norm": 0.349104106426239,
      "learning_rate": 4.6294244888500647e-07,
      "loss": 2.704,
      "step": 3055
    },
    {
      "epoch": 0.9902786779001944,
      "grad_norm": 0.42531320452690125,
      "learning_rate": 4.40638564514928e-07,
      "loss": 2.8634,
      "step": 3056
    },
    {
      "epoch": 0.990602721970188,
      "grad_norm": 0.4583026170730591,
      "learning_rate": 4.1888507374276963e-07,
      "loss": 2.6693,
      "step": 3057
    },
    {
      "epoch": 0.9909267660401815,
      "grad_norm": 0.38138914108276367,
      "learning_rate": 3.9768200053563743e-07,
      "loss": 2.7697,
      "step": 3058
    },
    {
      "epoch": 0.991250810110175,
      "grad_norm": 0.40737658739089966,
      "learning_rate": 3.770293682542336e-07,
      "loss": 2.8622,
      "step": 3059
    },
    {
      "epoch": 0.9915748541801686,
      "grad_norm": 0.8878512382507324,
      "learning_rate": 3.5692719965263466e-07,
      "loss": 2.822,
      "step": 3060
    },
    {
      "epoch": 0.991898898250162,
      "grad_norm": 0.37163615226745605,
      "learning_rate": 3.3737551687867964e-07,
      "loss": 2.7778,
      "step": 3061
    },
    {
      "epoch": 0.9922229423201555,
      "grad_norm": 0.38884270191192627,
      "learning_rate": 3.183743414735263e-07,
      "loss": 2.8167,
      "step": 3062
    },
    {
      "epoch": 0.992546986390149,
      "grad_norm": 0.3906983733177185,
      "learning_rate": 2.9992369437198406e-07,
      "loss": 2.6809,
      "step": 3063
    },
    {
      "epoch": 0.9928710304601426,
      "grad_norm": 0.474638968706131,
      "learning_rate": 2.820235959020701e-07,
      "loss": 2.7062,
      "step": 3064
    },
    {
      "epoch": 0.9931950745301361,
      "grad_norm": 0.39480915665626526,
      "learning_rate": 2.6467406578539746e-07,
      "loss": 2.7758,
      "step": 3065
    },
    {
      "epoch": 0.9935191186001296,
      "grad_norm": 0.38179299235343933,
      "learning_rate": 2.478751231370091e-07,
      "loss": 2.7861,
      "step": 3066
    },
    {
      "epoch": 0.9938431626701232,
      "grad_norm": 0.36994534730911255,
      "learning_rate": 2.3162678646526657e-07,
      "loss": 2.7612,
      "step": 3067
    },
    {
      "epoch": 0.9941672067401166,
      "grad_norm": 0.36515310406684875,
      "learning_rate": 2.1592907367185e-07,
      "loss": 2.7583,
      "step": 3068
    },
    {
      "epoch": 0.9944912508101101,
      "grad_norm": 0.3937302231788635,
      "learning_rate": 2.0078200205186913e-07,
      "loss": 2.7824,
      "step": 3069
    },
    {
      "epoch": 0.9948152948801037,
      "grad_norm": 0.7803903222084045,
      "learning_rate": 1.8618558829375244e-07,
      "loss": 2.7391,
      "step": 3070
    },
    {
      "epoch": 0.9951393389500972,
      "grad_norm": 0.37188825011253357,
      "learning_rate": 1.721398484792469e-07,
      "loss": 2.7071,
      "step": 3071
    },
    {
      "epoch": 0.9954633830200907,
      "grad_norm": 0.3889636993408203,
      "learning_rate": 1.5864479808325173e-07,
      "loss": 2.8333,
      "step": 3072
    },
    {
      "epoch": 0.9957874270900843,
      "grad_norm": 0.3620505928993225,
      "learning_rate": 1.4570045197415116e-07,
      "loss": 2.731,
      "step": 3073
    },
    {
      "epoch": 0.9961114711600778,
      "grad_norm": 0.37161096930503845,
      "learning_rate": 1.3330682441348164e-07,
      "loss": 2.7815,
      "step": 3074
    },
    {
      "epoch": 0.9964355152300713,
      "grad_norm": 0.3843007981777191,
      "learning_rate": 1.214639290559316e-07,
      "loss": 2.7247,
      "step": 3075
    },
    {
      "epoch": 0.9967595593000648,
      "grad_norm": 0.43900126218795776,
      "learning_rate": 1.1017177894961927e-07,
      "loss": 2.8616,
      "step": 3076
    },
    {
      "epoch": 0.9970836033700583,
      "grad_norm": 0.4091089069843292,
      "learning_rate": 9.94303865357038e-08,
      "loss": 2.8554,
      "step": 3077
    },
    {
      "epoch": 0.9974076474400518,
      "grad_norm": 0.38550499081611633,
      "learning_rate": 8.923976364855202e-08,
      "loss": 2.7463,
      "step": 3078
    },
    {
      "epoch": 0.9977316915100454,
      "grad_norm": 0.3640972375869751,
      "learning_rate": 7.959992151590489e-08,
      "loss": 2.7351,
      "step": 3079
    },
    {
      "epoch": 0.9980557355800389,
      "grad_norm": 0.39260321855545044,
      "learning_rate": 7.051087075843343e-08,
      "loss": 2.7437,
      "step": 3080
    },
    {
      "epoch": 0.9983797796500324,
      "grad_norm": 0.3705027103424072,
      "learning_rate": 6.197262139007176e-08,
      "loss": 2.7514,
      "step": 3081
    },
    {
      "epoch": 0.998703823720026,
      "grad_norm": 0.36828118562698364,
      "learning_rate": 5.39851828179061e-08,
      "loss": 2.7507,
      "step": 3082
    },
    {
      "epoch": 0.9990278677900194,
      "grad_norm": 0.3770087659358978,
      "learning_rate": 4.6548563842230276e-08,
      "loss": 2.8055,
      "step": 3083
    },
    {
      "epoch": 0.9993519118600129,
      "grad_norm": 0.42417365312576294,
      "learning_rate": 3.966277265637919e-08,
      "loss": 2.772,
      "step": 3084
    },
    {
      "epoch": 0.9996759559300065,
      "grad_norm": 0.38088783621788025,
      "learning_rate": 3.332781684672881e-08,
      "loss": 2.791,
      "step": 3085
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.37505707144737244,
      "learning_rate": 2.754370339297374e-08,
      "loss": 2.7188,
      "step": 3086
    },
    {
      "epoch": 1.0,
      "step": 3086,
      "total_flos": 6.853677898751017e+17,
      "train_loss": 2.992535080681045,
      "train_runtime": 21198.5004,
      "train_samples_per_second": 37.267,
      "train_steps_per_second": 0.146
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 3086,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.853677898751017e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}