{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.9814814814814814,
  "eval_steps": 68,
  "global_step": 540,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003703703703703704,
      "grad_norm": 0.40625306963920593,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 1.3427,
      "step": 1
    },
    {
      "epoch": 0.003703703703703704,
      "eval_loss": 1.3691776990890503,
      "eval_runtime": 80.493,
      "eval_samples_per_second": 3.615,
      "eval_steps_per_second": 0.46,
      "step": 1
    },
    {
      "epoch": 0.007407407407407408,
      "grad_norm": 0.6216382384300232,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 1.3914,
      "step": 2
    },
    {
      "epoch": 0.011111111111111112,
      "grad_norm": 0.4203539788722992,
      "learning_rate": 3e-06,
      "loss": 1.3421,
      "step": 3
    },
    {
      "epoch": 0.014814814814814815,
      "grad_norm": 0.48187777400016785,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.3913,
      "step": 4
    },
    {
      "epoch": 0.018518518518518517,
      "grad_norm": 0.4104997515678406,
      "learning_rate": 5e-06,
      "loss": 1.3264,
      "step": 5
    },
    {
      "epoch": 0.022222222222222223,
      "grad_norm": 0.5217423439025879,
      "learning_rate": 6e-06,
      "loss": 1.3418,
      "step": 6
    },
    {
      "epoch": 0.025925925925925925,
      "grad_norm": 0.40824779868125916,
      "learning_rate": 7e-06,
      "loss": 1.3761,
      "step": 7
    },
    {
      "epoch": 0.02962962962962963,
      "grad_norm": 0.41881611943244934,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.3631,
      "step": 8
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 0.43708905577659607,
      "learning_rate": 9e-06,
      "loss": 1.3911,
      "step": 9
    },
    {
      "epoch": 0.037037037037037035,
      "grad_norm": 0.48373478651046753,
      "learning_rate": 1e-05,
      "loss": 1.3813,
      "step": 10
    },
    {
      "epoch": 0.040740740740740744,
      "grad_norm": 0.428241491317749,
      "learning_rate": 9.999912161129377e-06,
      "loss": 1.3825,
      "step": 11
    },
    {
      "epoch": 0.044444444444444446,
      "grad_norm": 0.4543517827987671,
      "learning_rate": 9.999648647603774e-06,
      "loss": 1.3413,
      "step": 12
    },
    {
      "epoch": 0.04814814814814815,
      "grad_norm": 0.48931288719177246,
      "learning_rate": 9.999209468681885e-06,
      "loss": 1.4078,
      "step": 13
    },
    {
      "epoch": 0.05185185185185185,
      "grad_norm": 0.47361329197883606,
      "learning_rate": 9.998594639794502e-06,
      "loss": 1.3926,
      "step": 14
    },
    {
      "epoch": 0.05555555555555555,
      "grad_norm": 0.46920689940452576,
      "learning_rate": 9.997804182543973e-06,
      "loss": 1.3043,
      "step": 15
    },
    {
      "epoch": 0.05925925925925926,
      "grad_norm": 0.44550788402557373,
      "learning_rate": 9.996838124703448e-06,
      "loss": 1.3535,
      "step": 16
    },
    {
      "epoch": 0.06296296296296296,
      "grad_norm": 0.4951707720756531,
      "learning_rate": 9.995696500215899e-06,
      "loss": 1.3355,
      "step": 17
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 0.5006001591682434,
      "learning_rate": 9.994379349192927e-06,
      "loss": 1.3064,
      "step": 18
    },
    {
      "epoch": 0.07037037037037037,
      "grad_norm": 0.45947596430778503,
      "learning_rate": 9.992886717913358e-06,
      "loss": 1.394,
      "step": 19
    },
    {
      "epoch": 0.07407407407407407,
      "grad_norm": 0.49364641308784485,
      "learning_rate": 9.991218658821609e-06,
      "loss": 1.3043,
      "step": 20
    },
    {
      "epoch": 0.07777777777777778,
      "grad_norm": 0.47694772481918335,
      "learning_rate": 9.989375230525849e-06,
      "loss": 1.3287,
      "step": 21
    },
    {
      "epoch": 0.08148148148148149,
      "grad_norm": 0.5253634452819824,
      "learning_rate": 9.987356497795944e-06,
      "loss": 1.3046,
      "step": 22
    },
    {
      "epoch": 0.08518518518518518,
      "grad_norm": 0.5501742362976074,
      "learning_rate": 9.985162531561174e-06,
      "loss": 1.3499,
      "step": 23
    },
    {
      "epoch": 0.08888888888888889,
      "grad_norm": 0.5258708000183105,
      "learning_rate": 9.982793408907747e-06,
      "loss": 1.2779,
      "step": 24
    },
    {
      "epoch": 0.09259259259259259,
      "grad_norm": 0.4966470003128052,
      "learning_rate": 9.980249213076085e-06,
      "loss": 1.2702,
      "step": 25
    },
    {
      "epoch": 0.0962962962962963,
      "grad_norm": 0.4991610050201416,
      "learning_rate": 9.977530033457906e-06,
      "loss": 1.3286,
      "step": 26
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5212219953536987,
      "learning_rate": 9.97463596559307e-06,
      "loss": 1.2978,
      "step": 27
    },
    {
      "epoch": 0.1037037037037037,
      "grad_norm": 0.4977610409259796,
      "learning_rate": 9.971567111166246e-06,
      "loss": 1.3247,
      "step": 28
    },
    {
      "epoch": 0.10740740740740741,
      "grad_norm": 0.5000190734863281,
      "learning_rate": 9.968323578003312e-06,
      "loss": 1.3017,
      "step": 29
    },
    {
      "epoch": 0.1111111111111111,
      "grad_norm": 0.476797878742218,
      "learning_rate": 9.964905480067585e-06,
      "loss": 1.2287,
      "step": 30
    },
    {
      "epoch": 0.11481481481481481,
      "grad_norm": 0.5062195062637329,
      "learning_rate": 9.961312937455812e-06,
      "loss": 1.2521,
      "step": 31
    },
    {
      "epoch": 0.11851851851851852,
      "grad_norm": 0.5346536636352539,
      "learning_rate": 9.957546076393944e-06,
      "loss": 1.2907,
      "step": 32
    },
    {
      "epoch": 0.12222222222222222,
      "grad_norm": 0.5018014311790466,
      "learning_rate": 9.95360502923271e-06,
      "loss": 1.273,
      "step": 33
    },
    {
      "epoch": 0.1259259259259259,
      "grad_norm": 0.4412826895713806,
      "learning_rate": 9.949489934442966e-06,
      "loss": 1.202,
      "step": 34
    },
    {
      "epoch": 0.12962962962962962,
      "grad_norm": 0.47726863622665405,
      "learning_rate": 9.945200936610821e-06,
      "loss": 1.1432,
      "step": 35
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.4887215197086334,
      "learning_rate": 9.940738186432565e-06,
      "loss": 1.1524,
      "step": 36
    },
    {
      "epoch": 0.13703703703703704,
      "grad_norm": 0.4492252469062805,
      "learning_rate": 9.936101840709373e-06,
      "loss": 1.1903,
      "step": 37
    },
    {
      "epoch": 0.14074074074074075,
      "grad_norm": 0.43920594453811646,
      "learning_rate": 9.931292062341793e-06,
      "loss": 1.1942,
      "step": 38
    },
    {
      "epoch": 0.14444444444444443,
      "grad_norm": 0.44488102197647095,
      "learning_rate": 9.926309020324025e-06,
      "loss": 1.1919,
      "step": 39
    },
    {
      "epoch": 0.14814814814814814,
      "grad_norm": 0.5044857263565063,
      "learning_rate": 9.921152889737985e-06,
      "loss": 1.1351,
      "step": 40
    },
    {
      "epoch": 0.15185185185185185,
      "grad_norm": 0.45221227407455444,
      "learning_rate": 9.915823851747143e-06,
      "loss": 1.1624,
      "step": 41
    },
    {
      "epoch": 0.15555555555555556,
      "grad_norm": 0.5037719011306763,
      "learning_rate": 9.910322093590177e-06,
      "loss": 1.1718,
      "step": 42
    },
    {
      "epoch": 0.15925925925925927,
      "grad_norm": 0.44602254033088684,
      "learning_rate": 9.90464780857437e-06,
      "loss": 1.1546,
      "step": 43
    },
    {
      "epoch": 0.16296296296296298,
      "grad_norm": 0.44312745332717896,
      "learning_rate": 9.898801196068839e-06,
      "loss": 1.2048,
      "step": 44
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.5689204931259155,
      "learning_rate": 9.892782461497521e-06,
      "loss": 1.2042,
      "step": 45
    },
    {
      "epoch": 0.17037037037037037,
      "grad_norm": 0.47574153542518616,
      "learning_rate": 9.886591816331953e-06,
      "loss": 1.072,
      "step": 46
    },
    {
      "epoch": 0.17407407407407408,
      "grad_norm": 0.5947781801223755,
      "learning_rate": 9.880229478083849e-06,
      "loss": 1.1788,
      "step": 47
    },
    {
      "epoch": 0.17777777777777778,
      "grad_norm": 0.45822006464004517,
      "learning_rate": 9.87369567029745e-06,
      "loss": 1.1901,
      "step": 48
    },
    {
      "epoch": 0.1814814814814815,
      "grad_norm": 0.4415622055530548,
      "learning_rate": 9.866990622541677e-06,
      "loss": 1.1071,
      "step": 49
    },
    {
      "epoch": 0.18518518518518517,
      "grad_norm": 0.49463754892349243,
      "learning_rate": 9.860114570402055e-06,
      "loss": 1.1492,
      "step": 50
    },
    {
      "epoch": 0.18888888888888888,
      "grad_norm": 0.5251724720001221,
      "learning_rate": 9.853067755472447e-06,
      "loss": 1.102,
      "step": 51
    },
    {
      "epoch": 0.1925925925925926,
      "grad_norm": 0.4823416471481323,
      "learning_rate": 9.845850425346563e-06,
      "loss": 1.1561,
      "step": 52
    },
    {
      "epoch": 0.1962962962962963,
      "grad_norm": 0.5142261385917664,
      "learning_rate": 9.838462833609249e-06,
      "loss": 1.2041,
      "step": 53
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5137107372283936,
      "learning_rate": 9.830905239827592e-06,
      "loss": 1.0813,
      "step": 54
    },
    {
      "epoch": 0.2037037037037037,
      "grad_norm": 0.41644176840782166,
      "learning_rate": 9.823177909541795e-06,
      "loss": 1.0974,
      "step": 55
    },
    {
      "epoch": 0.2074074074074074,
      "grad_norm": 0.40043726563453674,
      "learning_rate": 9.815281114255841e-06,
      "loss": 1.1076,
      "step": 56
    },
    {
      "epoch": 0.2111111111111111,
      "grad_norm": 0.43805867433547974,
      "learning_rate": 9.807215131427966e-06,
      "loss": 1.0959,
      "step": 57
    },
    {
      "epoch": 0.21481481481481482,
      "grad_norm": 0.5732157230377197,
      "learning_rate": 9.798980244460892e-06,
      "loss": 1.0742,
      "step": 58
    },
    {
      "epoch": 0.21851851851851853,
      "grad_norm": 0.44811880588531494,
      "learning_rate": 9.790576742691895e-06,
      "loss": 1.0058,
      "step": 59
    },
    {
      "epoch": 0.2222222222222222,
      "grad_norm": 0.44900447130203247,
      "learning_rate": 9.782004921382612e-06,
      "loss": 1.0982,
      "step": 60
    },
    {
      "epoch": 0.22592592592592592,
      "grad_norm": 0.521683394908905,
      "learning_rate": 9.773265081708687e-06,
      "loss": 1.1294,
      "step": 61
    },
    {
      "epoch": 0.22962962962962963,
      "grad_norm": 0.48734819889068604,
      "learning_rate": 9.764357530749178e-06,
      "loss": 1.0575,
      "step": 62
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 0.47888699173927307,
      "learning_rate": 9.755282581475769e-06,
      "loss": 1.0333,
      "step": 63
    },
    {
      "epoch": 0.23703703703703705,
      "grad_norm": 0.45292389392852783,
      "learning_rate": 9.74604055274178e-06,
      "loss": 1.0786,
      "step": 64
    },
    {
      "epoch": 0.24074074074074073,
      "grad_norm": 0.46524283289909363,
      "learning_rate": 9.736631769270958e-06,
      "loss": 1.0708,
      "step": 65
    },
    {
      "epoch": 0.24444444444444444,
      "grad_norm": 0.4456775486469269,
      "learning_rate": 9.727056561646067e-06,
      "loss": 1.0512,
      "step": 66
    },
    {
      "epoch": 0.24814814814814815,
      "grad_norm": 0.461698055267334,
      "learning_rate": 9.717315266297277e-06,
      "loss": 1.1535,
      "step": 67
    },
    {
      "epoch": 0.2518518518518518,
      "grad_norm": 0.5552849173545837,
      "learning_rate": 9.707408225490343e-06,
      "loss": 1.1064,
      "step": 68
    },
    {
      "epoch": 0.2518518518518518,
      "eval_loss": 1.065529227256775,
      "eval_runtime": 80.9702,
      "eval_samples_per_second": 3.594,
      "eval_steps_per_second": 0.457,
      "step": 68
    },
    {
      "epoch": 0.25555555555555554,
      "grad_norm": 0.541875422000885,
      "learning_rate": 9.697335787314573e-06,
      "loss": 1.0527,
      "step": 69
    },
    {
      "epoch": 0.25925925925925924,
      "grad_norm": 0.4617699384689331,
      "learning_rate": 9.687098305670606e-06,
      "loss": 1.0456,
      "step": 70
    },
    {
      "epoch": 0.26296296296296295,
      "grad_norm": 0.4448198080062866,
      "learning_rate": 9.676696140257969e-06,
      "loss": 1.0364,
      "step": 71
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.3684210479259491,
      "learning_rate": 9.66612965656245e-06,
      "loss": 1.1162,
      "step": 72
    },
    {
      "epoch": 0.27037037037037037,
      "grad_norm": 0.6021161079406738,
      "learning_rate": 9.655399225843244e-06,
      "loss": 1.0799,
      "step": 73
    },
    {
      "epoch": 0.2740740740740741,
      "grad_norm": 0.575809895992279,
      "learning_rate": 9.644505225119922e-06,
      "loss": 1.0222,
      "step": 74
    },
    {
      "epoch": 0.2777777777777778,
      "grad_norm": 0.5453614592552185,
      "learning_rate": 9.633448037159167e-06,
      "loss": 1.0339,
      "step": 75
    },
    {
      "epoch": 0.2814814814814815,
      "grad_norm": 0.5681980848312378,
      "learning_rate": 9.622228050461345e-06,
      "loss": 1.0622,
      "step": 76
    },
    {
      "epoch": 0.2851851851851852,
      "grad_norm": 0.4109339714050293,
      "learning_rate": 9.610845659246833e-06,
      "loss": 1.0395,
      "step": 77
    },
    {
      "epoch": 0.28888888888888886,
      "grad_norm": 0.4249359667301178,
      "learning_rate": 9.599301263442194e-06,
      "loss": 1.0346,
      "step": 78
    },
    {
      "epoch": 0.29259259259259257,
      "grad_norm": 0.5109196901321411,
      "learning_rate": 9.587595268666099e-06,
      "loss": 1.0834,
      "step": 79
    },
    {
      "epoch": 0.2962962962962963,
      "grad_norm": 0.512137770652771,
      "learning_rate": 9.575728086215093e-06,
      "loss": 1.0438,
      "step": 80
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.5844932198524475,
      "learning_rate": 9.56370013304914e-06,
      "loss": 0.9966,
      "step": 81
    },
    {
      "epoch": 0.3037037037037037,
      "grad_norm": 0.4886794984340668,
      "learning_rate": 9.551511831776966e-06,
      "loss": 1.0461,
      "step": 82
    },
    {
      "epoch": 0.3074074074074074,
      "grad_norm": 0.4917876124382019,
      "learning_rate": 9.53916361064122e-06,
      "loss": 1.0121,
      "step": 83
    },
    {
      "epoch": 0.3111111111111111,
      "grad_norm": 0.48174771666526794,
      "learning_rate": 9.526655903503423e-06,
      "loss": 1.0579,
      "step": 84
    },
    {
      "epoch": 0.3148148148148148,
      "grad_norm": 0.5147380232810974,
      "learning_rate": 9.513989149828718e-06,
      "loss": 1.0065,
      "step": 85
    },
    {
      "epoch": 0.31851851851851853,
      "grad_norm": 0.4484403431415558,
      "learning_rate": 9.501163794670445e-06,
      "loss": 1.0089,
      "step": 86
    },
    {
      "epoch": 0.32222222222222224,
      "grad_norm": 0.45849668979644775,
      "learning_rate": 9.488180288654485e-06,
      "loss": 1.0262,
      "step": 87
    },
    {
      "epoch": 0.32592592592592595,
      "grad_norm": 0.571622908115387,
      "learning_rate": 9.475039087963443e-06,
      "loss": 1.0129,
      "step": 88
    },
    {
      "epoch": 0.3296296296296296,
      "grad_norm": 0.5279180407524109,
      "learning_rate": 9.461740654320608e-06,
      "loss": 1.03,
      "step": 89
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.47328171133995056,
      "learning_rate": 9.448285454973739e-06,
      "loss": 0.9805,
      "step": 90
    },
    {
      "epoch": 0.337037037037037,
      "grad_norm": 0.4972725212574005,
      "learning_rate": 9.434673962678638e-06,
      "loss": 0.976,
      "step": 91
    },
    {
      "epoch": 0.34074074074074073,
      "grad_norm": 0.5977814793586731,
      "learning_rate": 9.420906655682553e-06,
      "loss": 0.989,
      "step": 92
    },
    {
      "epoch": 0.34444444444444444,
      "grad_norm": 0.5420663356781006,
      "learning_rate": 9.40698401770736e-06,
      "loss": 1.0225,
      "step": 93
    },
    {
      "epoch": 0.34814814814814815,
      "grad_norm": 0.410198450088501,
      "learning_rate": 9.392906537932582e-06,
      "loss": 1.0393,
      "step": 94
    },
    {
      "epoch": 0.35185185185185186,
      "grad_norm": 0.5001354217529297,
      "learning_rate": 9.378674710978185e-06,
      "loss": 0.9712,
      "step": 95
    },
    {
      "epoch": 0.35555555555555557,
      "grad_norm": 0.5929519534111023,
      "learning_rate": 9.364289036887214e-06,
      "loss": 1.0759,
      "step": 96
    },
    {
      "epoch": 0.3592592592592593,
      "grad_norm": 0.5323709845542908,
      "learning_rate": 9.349750021108212e-06,
      "loss": 1.0619,
      "step": 97
    },
    {
      "epoch": 0.362962962962963,
      "grad_norm": 0.5360124707221985,
      "learning_rate": 9.335058174477472e-06,
      "loss": 0.9957,
      "step": 98
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 0.5704509019851685,
      "learning_rate": 9.320214013201079e-06,
      "loss": 1.0591,
      "step": 99
    },
    {
      "epoch": 0.37037037037037035,
      "grad_norm": 0.4351862967014313,
      "learning_rate": 9.305218058836778e-06,
      "loss": 1.014,
      "step": 100
    },
    {
      "epoch": 0.37407407407407406,
      "grad_norm": 0.48397883772850037,
      "learning_rate": 9.290070838275649e-06,
      "loss": 1.0094,
      "step": 101
    },
    {
      "epoch": 0.37777777777777777,
      "grad_norm": 0.5487049221992493,
      "learning_rate": 9.274772883723587e-06,
      "loss": 0.9604,
      "step": 102
    },
    {
      "epoch": 0.3814814814814815,
      "grad_norm": 0.4735201895236969,
      "learning_rate": 9.259324732682615e-06,
      "loss": 0.9577,
      "step": 103
    },
    {
      "epoch": 0.3851851851851852,
      "grad_norm": 0.5162625312805176,
      "learning_rate": 9.24372692793199e-06,
      "loss": 1.0095,
      "step": 104
    },
    {
      "epoch": 0.3888888888888889,
      "grad_norm": 0.4944085478782654,
      "learning_rate": 9.22798001750913e-06,
      "loss": 1.0086,
      "step": 105
    },
    {
      "epoch": 0.3925925925925926,
      "grad_norm": 0.5985198616981506,
      "learning_rate": 9.21208455469037e-06,
      "loss": 0.9878,
      "step": 106
    },
    {
      "epoch": 0.3962962962962963,
      "grad_norm": 0.6551868915557861,
      "learning_rate": 9.196041097971509e-06,
      "loss": 1.0079,
      "step": 107
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4953964352607727,
      "learning_rate": 9.179850211048193e-06,
      "loss": 1.0403,
      "step": 108
    },
    {
      "epoch": 0.40370370370370373,
      "grad_norm": 0.46935591101646423,
      "learning_rate": 9.163512462796113e-06,
      "loss": 1.0443,
      "step": 109
    },
    {
      "epoch": 0.4074074074074074,
      "grad_norm": 0.48214173316955566,
      "learning_rate": 9.14702842725101e-06,
      "loss": 0.9952,
      "step": 110
    },
    {
      "epoch": 0.4111111111111111,
      "grad_norm": 0.5411708354949951,
      "learning_rate": 9.13039868358851e-06,
      "loss": 1.0634,
      "step": 111
    },
    {
      "epoch": 0.4148148148148148,
      "grad_norm": 0.68564373254776,
      "learning_rate": 9.113623816103775e-06,
      "loss": 0.9307,
      "step": 112
    },
    {
      "epoch": 0.4185185185185185,
      "grad_norm": 0.536626398563385,
      "learning_rate": 9.09670441419097e-06,
      "loss": 1.0535,
      "step": 113
    },
    {
      "epoch": 0.4222222222222222,
      "grad_norm": 0.485929012298584,
      "learning_rate": 9.079641072322555e-06,
      "loss": 1.0176,
      "step": 114
    },
    {
      "epoch": 0.42592592592592593,
      "grad_norm": 0.5539782047271729,
      "learning_rate": 9.062434390028407e-06,
      "loss": 0.9906,
      "step": 115
    },
    {
      "epoch": 0.42962962962962964,
      "grad_norm": 0.49939635396003723,
      "learning_rate": 9.045084971874738e-06,
      "loss": 0.9586,
      "step": 116
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 0.48620209097862244,
      "learning_rate": 9.027593427442867e-06,
      "loss": 1.0209,
      "step": 117
    },
    {
      "epoch": 0.43703703703703706,
      "grad_norm": 0.4806266725063324,
      "learning_rate": 9.009960371307798e-06,
      "loss": 1.0185,
      "step": 118
    },
    {
      "epoch": 0.44074074074074077,
      "grad_norm": 0.6763521432876587,
      "learning_rate": 8.992186423016626e-06,
      "loss": 1.0247,
      "step": 119
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 0.5310172438621521,
      "learning_rate": 8.974272207066767e-06,
      "loss": 1.006,
      "step": 120
    },
    {
      "epoch": 0.44814814814814813,
      "grad_norm": 0.5065312385559082,
      "learning_rate": 8.956218352884022e-06,
      "loss": 0.9535,
      "step": 121
    },
    {
      "epoch": 0.45185185185185184,
      "grad_norm": 0.5911722183227539,
      "learning_rate": 8.938025494800454e-06,
      "loss": 0.9698,
      "step": 122
    },
    {
      "epoch": 0.45555555555555555,
      "grad_norm": 0.60561203956604,
      "learning_rate": 8.919694272032108e-06,
      "loss": 1.0081,
      "step": 123
    },
    {
      "epoch": 0.45925925925925926,
      "grad_norm": 0.5998137593269348,
      "learning_rate": 8.901225328656543e-06,
      "loss": 1.0332,
      "step": 124
    },
    {
      "epoch": 0.46296296296296297,
      "grad_norm": 0.6571759581565857,
      "learning_rate": 8.882619313590212e-06,
      "loss": 1.0501,
      "step": 125
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 0.5181518793106079,
      "learning_rate": 8.863876880565656e-06,
      "loss": 0.9653,
      "step": 126
    },
    {
      "epoch": 0.4703703703703704,
      "grad_norm": 0.5412523746490479,
      "learning_rate": 8.844998688108535e-06,
      "loss": 0.999,
      "step": 127
    },
    {
      "epoch": 0.4740740740740741,
      "grad_norm": 0.5652058124542236,
      "learning_rate": 8.825985399514488e-06,
      "loss": 0.9647,
      "step": 128
    },
    {
      "epoch": 0.4777777777777778,
      "grad_norm": 0.52536940574646,
      "learning_rate": 8.806837682825835e-06,
      "loss": 0.9694,
      "step": 129
    },
    {
      "epoch": 0.48148148148148145,
      "grad_norm": 0.6217904686927795,
      "learning_rate": 8.787556210808101e-06,
      "loss": 1.0241,
      "step": 130
    },
    {
      "epoch": 0.48518518518518516,
      "grad_norm": 0.43509605526924133,
      "learning_rate": 8.768141660926375e-06,
      "loss": 0.9598,
      "step": 131
    },
    {
      "epoch": 0.4888888888888889,
      "grad_norm": 0.5001434087753296,
      "learning_rate": 8.748594715321512e-06,
      "loss": 0.9697,
      "step": 132
    },
    {
      "epoch": 0.4925925925925926,
      "grad_norm": 0.6269538402557373,
      "learning_rate": 8.728916060786162e-06,
      "loss": 1.0074,
      "step": 133
    },
    {
      "epoch": 0.4962962962962963,
      "grad_norm": 0.6777300834655762,
      "learning_rate": 8.70910638874064e-06,
      "loss": 0.9968,
      "step": 134
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5371289849281311,
      "learning_rate": 8.689166395208638e-06,
      "loss": 0.9684,
      "step": 135
    },
    {
      "epoch": 0.5037037037037037,
      "grad_norm": 0.6136884093284607,
      "learning_rate": 8.669096780792754e-06,
      "loss": 1.0297,
      "step": 136
    },
    {
      "epoch": 0.5037037037037037,
      "eval_loss": 0.9753141403198242,
      "eval_runtime": 81.1717,
      "eval_samples_per_second": 3.585,
      "eval_steps_per_second": 0.456,
      "step": 136
    },
    {
      "epoch": 0.5074074074074074,
      "grad_norm": 0.5171265602111816,
      "learning_rate": 8.6488982506499e-06,
      "loss": 0.962,
      "step": 137
    },
    {
      "epoch": 0.5111111111111111,
      "grad_norm": 0.6454190611839294,
      "learning_rate": 8.628571514466502e-06,
      "loss": 0.9555,
      "step": 138
    },
    {
      "epoch": 0.5148148148148148,
      "grad_norm": 0.5578838586807251,
      "learning_rate": 8.608117286433583e-06,
      "loss": 0.9079,
      "step": 139
    },
    {
      "epoch": 0.5185185185185185,
      "grad_norm": 0.5714731216430664,
      "learning_rate": 8.587536285221656e-06,
      "loss": 0.9894,
      "step": 140
    },
    {
      "epoch": 0.5222222222222223,
      "grad_norm": 0.5244677066802979,
      "learning_rate": 8.566829233955484e-06,
      "loss": 0.9735,
      "step": 141
    },
    {
      "epoch": 0.5259259259259259,
      "grad_norm": 0.4161701798439026,
      "learning_rate": 8.545996860188668e-06,
      "loss": 0.9945,
      "step": 142
    },
    {
      "epoch": 0.5296296296296297,
      "grad_norm": 0.6657142639160156,
      "learning_rate": 8.525039895878078e-06,
      "loss": 0.982,
      "step": 143
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.7206271886825562,
      "learning_rate": 8.503959077358143e-06,
      "loss": 0.9977,
      "step": 144
    },
    {
      "epoch": 0.5370370370370371,
      "grad_norm": 0.7977305054664612,
      "learning_rate": 8.482755145314987e-06,
      "loss": 0.9605,
      "step": 145
    },
    {
      "epoch": 0.5407407407407407,
      "grad_norm": 0.8049225211143494,
      "learning_rate": 8.46142884476038e-06,
      "loss": 0.999,
      "step": 146
    },
    {
      "epoch": 0.5444444444444444,
      "grad_norm": 0.49984222650527954,
      "learning_rate": 8.439980925005587e-06,
      "loss": 0.9595,
      "step": 147
    },
    {
      "epoch": 0.5481481481481482,
      "grad_norm": 0.48655927181243896,
      "learning_rate": 8.418412139635026e-06,
      "loss": 0.9481,
      "step": 148
    },
    {
      "epoch": 0.5518518518518518,
      "grad_norm": 0.5527738332748413,
      "learning_rate": 8.396723246479798e-06,
      "loss": 0.9665,
      "step": 149
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 0.6328939199447632,
      "learning_rate": 8.374915007591053e-06,
      "loss": 1.0021,
      "step": 150
    },
    {
      "epoch": 0.5592592592592592,
      "grad_norm": 0.6932883262634277,
      "learning_rate": 8.352988189213223e-06,
      "loss": 0.9991,
      "step": 151
    },
    {
      "epoch": 0.562962962962963,
      "grad_norm": 0.5916227698326111,
      "learning_rate": 8.330943561757092e-06,
      "loss": 0.9661,
      "step": 152
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 0.471822589635849,
      "learning_rate": 8.308781899772731e-06,
      "loss": 0.9396,
      "step": 153
    },
    {
      "epoch": 0.5703703703703704,
      "grad_norm": 0.5403897166252136,
      "learning_rate": 8.286503981922284e-06,
      "loss": 0.9444,
      "step": 154
    },
    {
      "epoch": 0.5740740740740741,
      "grad_norm": 0.5560125708580017,
      "learning_rate": 8.264110590952609e-06,
      "loss": 0.9487,
      "step": 155
    },
    {
      "epoch": 0.5777777777777777,
      "grad_norm": 0.6282420754432678,
      "learning_rate": 8.241602513667775e-06,
      "loss": 1.0124,
      "step": 156
    },
    {
      "epoch": 0.5814814814814815,
      "grad_norm": 0.4911057949066162,
      "learning_rate": 8.218980540901417e-06,
      "loss": 0.971,
      "step": 157
    },
    {
      "epoch": 0.5851851851851851,
      "grad_norm": 0.6368396878242493,
      "learning_rate": 8.19624546748895e-06,
      "loss": 1.0181,
      "step": 158
    },
    {
      "epoch": 0.5888888888888889,
      "grad_norm": 0.6642744541168213,
      "learning_rate": 8.173398092239647e-06,
      "loss": 1.0051,
      "step": 159
    },
    {
      "epoch": 0.5925925925925926,
      "grad_norm": 0.554905116558075,
      "learning_rate": 8.150439217908557e-06,
      "loss": 0.9329,
      "step": 160
    },
    {
      "epoch": 0.5962962962962963,
      "grad_norm": 0.5215203762054443,
      "learning_rate": 8.12736965116832e-06,
      "loss": 0.9506,
      "step": 161
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4904837906360626,
      "learning_rate": 8.104190202580811e-06,
      "loss": 0.9864,
      "step": 162
    },
    {
      "epoch": 0.6037037037037037,
      "grad_norm": 0.570766806602478,
      "learning_rate": 8.080901686568664e-06,
      "loss": 0.9379,
      "step": 163
    },
    {
      "epoch": 0.6074074074074074,
      "grad_norm": 0.687227725982666,
      "learning_rate": 8.057504921386661e-06,
      "loss": 0.9714,
      "step": 164
    },
    {
      "epoch": 0.6111111111111112,
      "grad_norm": 0.6017288565635681,
      "learning_rate": 8.034000729092967e-06,
      "loss": 0.9709,
      "step": 165
    },
    {
      "epoch": 0.6148148148148148,
      "grad_norm": 0.6062106490135193,
      "learning_rate": 8.010389935520269e-06,
      "loss": 1.0362,
      "step": 166
    },
    {
      "epoch": 0.6185185185185185,
      "grad_norm": 0.5548331141471863,
      "learning_rate": 7.986673370246743e-06,
      "loss": 0.9581,
      "step": 167
    },
    {
      "epoch": 0.6222222222222222,
      "grad_norm": 0.5252346396446228,
      "learning_rate": 7.962851866566912e-06,
      "loss": 0.9669,
      "step": 168
    },
    {
      "epoch": 0.6259259259259259,
      "grad_norm": 0.7005597352981567,
      "learning_rate": 7.938926261462366e-06,
      "loss": 0.987,
      "step": 169
    },
    {
      "epoch": 0.6296296296296297,
      "grad_norm": 0.5916934609413147,
      "learning_rate": 7.914897395572362e-06,
      "loss": 0.9433,
      "step": 170
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 0.6202555298805237,
      "learning_rate": 7.890766113164272e-06,
      "loss": 0.9833,
      "step": 171
    },
    {
      "epoch": 0.6370370370370371,
      "grad_norm": 0.5578716397285461,
      "learning_rate": 7.866533262103937e-06,
      "loss": 0.9479,
      "step": 172
    },
    {
      "epoch": 0.6407407407407407,
      "grad_norm": 0.6666351556777954,
      "learning_rate": 7.842199693825863e-06,
      "loss": 0.9383,
      "step": 173
    },
    {
      "epoch": 0.6444444444444445,
      "grad_norm": 0.5507566332817078,
      "learning_rate": 7.817766263303312e-06,
      "loss": 0.9767,
      "step": 174
    },
    {
      "epoch": 0.6481481481481481,
      "grad_norm": 0.6183774471282959,
      "learning_rate": 7.793233829018263e-06,
      "loss": 0.9078,
      "step": 175
    },
    {
      "epoch": 0.6518518518518519,
      "grad_norm": 0.499009370803833,
      "learning_rate": 7.768603252931243e-06,
      "loss": 0.9563,
      "step": 176
    },
    {
      "epoch": 0.6555555555555556,
      "grad_norm": 0.629336416721344,
      "learning_rate": 7.743875400451047e-06,
      "loss": 0.911,
      "step": 177
    },
    {
      "epoch": 0.6592592592592592,
      "grad_norm": 0.5423790812492371,
      "learning_rate": 7.719051140404327e-06,
      "loss": 0.9434,
      "step": 178
    },
    {
      "epoch": 0.662962962962963,
      "grad_norm": 0.6060659289360046,
      "learning_rate": 7.69413134500507e-06,
      "loss": 0.95,
      "step": 179
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.5223778486251831,
      "learning_rate": 7.669116889823955e-06,
      "loss": 0.9474,
      "step": 180
    },
    {
      "epoch": 0.6703703703703704,
      "grad_norm": 0.6271294355392456,
      "learning_rate": 7.644008653757571e-06,
      "loss": 0.9652,
      "step": 181
    },
    {
      "epoch": 0.674074074074074,
      "grad_norm": 0.5973348617553711,
      "learning_rate": 7.6188075189975644e-06,
      "loss": 0.9333,
      "step": 182
    },
    {
      "epoch": 0.6777777777777778,
      "grad_norm": 0.5119736790657043,
      "learning_rate": 7.593514370999617e-06,
      "loss": 0.9253,
      "step": 183
    },
    {
      "epoch": 0.6814814814814815,
      "grad_norm": 0.6887508630752563,
      "learning_rate": 7.568130098452352e-06,
      "loss": 0.9344,
      "step": 184
    },
    {
      "epoch": 0.6851851851851852,
      "grad_norm": 0.5387381911277771,
      "learning_rate": 7.542655593246103e-06,
      "loss": 0.9645,
      "step": 185
    },
    {
      "epoch": 0.6888888888888889,
      "grad_norm": 0.5810338854789734,
      "learning_rate": 7.517091750441576e-06,
      "loss": 0.9406,
      "step": 186
    },
    {
      "epoch": 0.6925925925925925,
      "grad_norm": 0.6561952829360962,
      "learning_rate": 7.491439468238404e-06,
      "loss": 0.9363,
      "step": 187
    },
    {
      "epoch": 0.6962962962962963,
      "grad_norm": 0.7444878220558167,
      "learning_rate": 7.465699647943586e-06,
      "loss": 0.945,
      "step": 188
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6265509724617004,
      "learning_rate": 7.43987319393982e-06,
      "loss": 0.9576,
      "step": 189
    },
    {
      "epoch": 0.7037037037037037,
      "grad_norm": 0.6139175295829773,
      "learning_rate": 7.413961013653725e-06,
      "loss": 0.9697,
      "step": 190
    },
    {
      "epoch": 0.7074074074074074,
      "grad_norm": 0.5767727494239807,
      "learning_rate": 7.387964017523964e-06,
      "loss": 0.9721,
      "step": 191
    },
    {
      "epoch": 0.7111111111111111,
      "grad_norm": 0.757271945476532,
      "learning_rate": 7.361883118969248e-06,
      "loss": 1.0013,
      "step": 192
    },
    {
      "epoch": 0.7148148148148148,
      "grad_norm": 0.6246291995048523,
      "learning_rate": 7.335719234356245e-06,
      "loss": 0.9418,
      "step": 193
    },
    {
      "epoch": 0.7185185185185186,
      "grad_norm": 0.4833630621433258,
      "learning_rate": 7.309473282967387e-06,
      "loss": 0.9435,
      "step": 194
    },
    {
      "epoch": 0.7222222222222222,
      "grad_norm": 0.5289487242698669,
      "learning_rate": 7.283146186968566e-06,
      "loss": 0.9617,
      "step": 195
    },
    {
      "epoch": 0.725925925925926,
      "grad_norm": 0.6008256673812866,
      "learning_rate": 7.256738871376733e-06,
      "loss": 0.8983,
      "step": 196
    },
    {
      "epoch": 0.7296296296296296,
      "grad_norm": 0.5227617621421814,
      "learning_rate": 7.230252264027398e-06,
      "loss": 0.8768,
      "step": 197
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 0.6785119771957397,
      "learning_rate": 7.203687295542032e-06,
      "loss": 0.9393,
      "step": 198
    },
    {
      "epoch": 0.737037037037037,
      "grad_norm": 0.6053286790847778,
      "learning_rate": 7.1770448992953676e-06,
      "loss": 0.9125,
      "step": 199
    },
    {
      "epoch": 0.7407407407407407,
      "grad_norm": 0.7238445281982422,
      "learning_rate": 7.1503260113826035e-06,
      "loss": 0.9305,
      "step": 200
    },
    {
      "epoch": 0.7444444444444445,
      "grad_norm": 0.6719542741775513,
      "learning_rate": 7.123531570586515e-06,
      "loss": 0.9643,
      "step": 201
    },
    {
      "epoch": 0.7481481481481481,
      "grad_norm": 0.5546441674232483,
      "learning_rate": 7.09666251834447e-06,
      "loss": 0.9663,
      "step": 202
    },
    {
      "epoch": 0.7518518518518519,
      "grad_norm": 0.5350282192230225,
      "learning_rate": 7.069719798715347e-06,
      "loss": 0.9041,
      "step": 203
    },
    {
      "epoch": 0.7555555555555555,
      "grad_norm": 0.5801582932472229,
      "learning_rate": 7.042704358346375e-06,
      "loss": 0.9444,
      "step": 204
    },
    {
      "epoch": 0.7555555555555555,
      "eval_loss": 0.9426867961883545,
      "eval_runtime": 81.1055,
      "eval_samples_per_second": 3.588,
      "eval_steps_per_second": 0.456,
      "step": 204
    },
    {
      "epoch": 0.7592592592592593,
      "grad_norm": 0.7228114008903503,
      "learning_rate": 7.015617146439863e-06,
      "loss": 0.931,
      "step": 205
    },
    {
      "epoch": 0.762962962962963,
      "grad_norm": 0.5295515656471252,
      "learning_rate": 6.988459114719849e-06,
      "loss": 0.9457,
      "step": 206
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 0.5533620119094849,
      "learning_rate": 6.9612312173986675e-06,
      "loss": 0.9407,
      "step": 207
    },
    {
      "epoch": 0.7703703703703704,
      "grad_norm": 0.6508337259292603,
      "learning_rate": 6.933934411143419e-06,
      "loss": 0.9176,
      "step": 208
    },
    {
      "epoch": 0.774074074074074,
      "grad_norm": 0.644389808177948,
      "learning_rate": 6.906569655042357e-06,
      "loss": 0.9796,
      "step": 209
    },
    {
      "epoch": 0.7777777777777778,
      "grad_norm": 0.5943438410758972,
      "learning_rate": 6.879137910571191e-06,
      "loss": 0.9508,
      "step": 210
    },
    {
      "epoch": 0.7814814814814814,
      "grad_norm": 0.5512163639068604,
      "learning_rate": 6.8516401415593005e-06,
      "loss": 0.9066,
      "step": 211
    },
    {
      "epoch": 0.7851851851851852,
      "grad_norm": 0.5512770414352417,
      "learning_rate": 6.824077314155877e-06,
      "loss": 0.9169,
      "step": 212
    },
    {
      "epoch": 0.7888888888888889,
      "grad_norm": 0.7245272397994995,
      "learning_rate": 6.7964503967959705e-06,
      "loss": 0.9563,
      "step": 213
    },
    {
      "epoch": 0.7925925925925926,
      "grad_norm": 0.704143762588501,
      "learning_rate": 6.768760360166471e-06,
      "loss": 0.9662,
      "step": 214
    },
    {
      "epoch": 0.7962962962962963,
      "grad_norm": 0.5439050197601318,
      "learning_rate": 6.741008177171995e-06,
      "loss": 0.9609,
      "step": 215
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6104442477226257,
      "learning_rate": 6.713194822900707e-06,
      "loss": 0.9313,
      "step": 216
    },
    {
      "epoch": 0.8037037037037037,
      "grad_norm": 0.7294436693191528,
      "learning_rate": 6.6853212745900585e-06,
      "loss": 0.933,
      "step": 217
    },
    {
      "epoch": 0.8074074074074075,
      "grad_norm": 0.5400619506835938,
      "learning_rate": 6.657388511592453e-06,
      "loss": 0.9367,
      "step": 218
    },
    {
      "epoch": 0.8111111111111111,
      "grad_norm": 0.8623405694961548,
      "learning_rate": 6.62939751534083e-06,
      "loss": 0.9719,
      "step": 219
    },
    {
      "epoch": 0.8148148148148148,
      "grad_norm": 0.6787410378456116,
      "learning_rate": 6.601349269314188e-06,
      "loss": 0.9882,
      "step": 220
    },
    {
      "epoch": 0.8185185185185185,
      "grad_norm": 0.6689869165420532,
      "learning_rate": 6.573244759003033e-06,
      "loss": 0.9445,
      "step": 221
    },
    {
      "epoch": 0.8222222222222222,
      "grad_norm": 0.7502297759056091,
      "learning_rate": 6.545084971874738e-06,
      "loss": 0.9276,
      "step": 222
    },
    {
      "epoch": 0.825925925925926,
      "grad_norm": 2.460090160369873,
      "learning_rate": 6.516870897338864e-06,
      "loss": 0.9684,
      "step": 223
    },
    {
      "epoch": 0.8296296296296296,
      "grad_norm": 0.8110550045967102,
      "learning_rate": 6.488603526712391e-06,
      "loss": 0.9212,
      "step": 224
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.5253615975379944,
      "learning_rate": 6.46028385318488e-06,
      "loss": 0.9385,
      "step": 225
    },
    {
      "epoch": 0.837037037037037,
      "grad_norm": 0.5551905632019043,
      "learning_rate": 6.431912871783587e-06,
      "loss": 0.9331,
      "step": 226
    },
    {
      "epoch": 0.8407407407407408,
      "grad_norm": 0.6484084129333496,
      "learning_rate": 6.4034915793385e-06,
      "loss": 0.9936,
      "step": 227
    },
    {
      "epoch": 0.8444444444444444,
      "grad_norm": 0.6521108746528625,
      "learning_rate": 6.3750209744473105e-06,
      "loss": 0.974,
      "step": 228
    },
    {
      "epoch": 0.8481481481481481,
      "grad_norm": 0.7478381395339966,
      "learning_rate": 6.346502057440327e-06,
      "loss": 0.9569,
      "step": 229
    },
    {
      "epoch": 0.8518518518518519,
      "grad_norm": 0.6053647398948669,
      "learning_rate": 6.3179358303453386e-06,
      "loss": 0.8928,
      "step": 230
    },
    {
      "epoch": 0.8555555555555555,
      "grad_norm": 0.7461119890213013,
      "learning_rate": 6.289323296852393e-06,
      "loss": 0.9121,
      "step": 231
    },
    {
      "epoch": 0.8592592592592593,
      "grad_norm": 0.6154372692108154,
      "learning_rate": 6.260665462278544e-06,
      "loss": 0.952,
      "step": 232
    },
    {
      "epoch": 0.8629629629629629,
      "grad_norm": 0.710970938205719,
      "learning_rate": 6.231963333532516e-06,
      "loss": 0.9365,
      "step": 233
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 0.6357712149620056,
      "learning_rate": 6.203217919079343e-06,
      "loss": 0.8836,
      "step": 234
    },
    {
      "epoch": 0.8703703703703703,
      "grad_norm": 0.6976805329322815,
      "learning_rate": 6.17443022890492e-06,
      "loss": 0.9757,
      "step": 235
    },
    {
      "epoch": 0.8740740740740741,
      "grad_norm": 0.6872934699058533,
      "learning_rate": 6.145601274480521e-06,
      "loss": 0.9814,
      "step": 236
    },
    {
      "epoch": 0.8777777777777778,
      "grad_norm": 0.7947030663490295,
      "learning_rate": 6.116732068727271e-06,
      "loss": 0.9016,
      "step": 237
    },
    {
      "epoch": 0.8814814814814815,
      "grad_norm": 0.63334721326828,
      "learning_rate": 6.08782362598054e-06,
      "loss": 0.9679,
      "step": 238
    },
    {
      "epoch": 0.8851851851851852,
      "grad_norm": 0.5451921820640564,
      "learning_rate": 6.058876961954308e-06,
      "loss": 0.9511,
      "step": 239
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.5797951221466064,
      "learning_rate": 6.029893093705492e-06,
      "loss": 0.9553,
      "step": 240
    },
    {
      "epoch": 0.8925925925925926,
      "grad_norm": 0.5836870074272156,
      "learning_rate": 6.0008730395981905e-06,
      "loss": 0.9562,
      "step": 241
    },
    {
      "epoch": 0.8962962962962963,
      "grad_norm": 0.6153254508972168,
      "learning_rate": 5.971817819267914e-06,
      "loss": 0.9199,
      "step": 242
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6756653785705566,
      "learning_rate": 5.9427284535857585e-06,
      "loss": 0.9599,
      "step": 243
    },
    {
      "epoch": 0.9037037037037037,
      "grad_norm": 0.6547468304634094,
      "learning_rate": 5.9136059646225375e-06,
      "loss": 0.9485,
      "step": 244
    },
    {
      "epoch": 0.9074074074074074,
      "grad_norm": 0.7384520769119263,
      "learning_rate": 5.884451375612865e-06,
      "loss": 0.927,
      "step": 245
    },
    {
      "epoch": 0.9111111111111111,
      "grad_norm": 0.6480386853218079,
      "learning_rate": 5.855265710919211e-06,
      "loss": 1.0039,
      "step": 246
    },
    {
      "epoch": 0.9148148148148149,
      "grad_norm": 0.5494263768196106,
      "learning_rate": 5.826049995995905e-06,
      "loss": 0.9706,
      "step": 247
    },
    {
      "epoch": 0.9185185185185185,
      "grad_norm": 0.5438244342803955,
      "learning_rate": 5.796805257353109e-06,
      "loss": 0.963,
      "step": 248
    },
    {
      "epoch": 0.9222222222222223,
      "grad_norm": 0.6168299317359924,
      "learning_rate": 5.767532522520746e-06,
      "loss": 0.9594,
      "step": 249
    },
    {
      "epoch": 0.9259259259259259,
      "grad_norm": 0.6753399968147278,
      "learning_rate": 5.738232820012407e-06,
      "loss": 0.9181,
      "step": 250
    },
    {
      "epoch": 0.9296296296296296,
      "grad_norm": 0.5123042464256287,
      "learning_rate": 5.7089071792892e-06,
      "loss": 0.9216,
      "step": 251
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.7598656415939331,
      "learning_rate": 5.679556630723592e-06,
      "loss": 0.9725,
      "step": 252
    },
    {
      "epoch": 0.937037037037037,
      "grad_norm": 0.6306942701339722,
      "learning_rate": 5.6501822055631976e-06,
      "loss": 0.9041,
      "step": 253
    },
    {
      "epoch": 0.9407407407407408,
      "grad_norm": 0.7515453696250916,
      "learning_rate": 5.620784935894548e-06,
      "loss": 0.9192,
      "step": 254
    },
    {
      "epoch": 0.9444444444444444,
      "grad_norm": 0.6113058924674988,
      "learning_rate": 5.591365854606829e-06,
      "loss": 0.949,
      "step": 255
    },
    {
      "epoch": 0.9481481481481482,
      "grad_norm": 0.6589618921279907,
      "learning_rate": 5.561925995355595e-06,
      "loss": 0.9384,
      "step": 256
    },
    {
      "epoch": 0.9518518518518518,
      "grad_norm": 0.7518366575241089,
      "learning_rate": 5.532466392526439e-06,
      "loss": 0.8959,
      "step": 257
    },
    {
      "epoch": 0.9555555555555556,
      "grad_norm": 0.5112090110778809,
      "learning_rate": 5.5029880811986546e-06,
      "loss": 0.9214,
      "step": 258
    },
    {
      "epoch": 0.9592592592592593,
      "grad_norm": 0.6436278820037842,
      "learning_rate": 5.4734920971088766e-06,
      "loss": 0.9165,
      "step": 259
    },
    {
      "epoch": 0.9629629629629629,
      "grad_norm": 0.685821533203125,
      "learning_rate": 5.443979476614674e-06,
      "loss": 0.9114,
      "step": 260
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 0.5555897951126099,
      "learning_rate": 5.4144512566581495e-06,
      "loss": 0.9791,
      "step": 261
    },
    {
      "epoch": 0.9703703703703703,
      "grad_norm": 0.6167283058166504,
      "learning_rate": 5.384908474729501e-06,
      "loss": 0.9029,
      "step": 262
    },
    {
      "epoch": 0.9740740740740741,
      "grad_norm": 0.6644378304481506,
      "learning_rate": 5.3553521688305655e-06,
      "loss": 0.9659,
      "step": 263
    },
    {
      "epoch": 0.9777777777777777,
      "grad_norm": 0.6106395721435547,
      "learning_rate": 5.325783377438357e-06,
      "loss": 0.9161,
      "step": 264
    },
    {
      "epoch": 0.9814814814814815,
      "grad_norm": 0.6115413904190063,
      "learning_rate": 5.296203139468572e-06,
      "loss": 0.8719,
      "step": 265
    },
    {
      "epoch": 0.9851851851851852,
      "grad_norm": 0.8100462555885315,
      "learning_rate": 5.266612494239088e-06,
      "loss": 0.9013,
      "step": 266
    },
    {
      "epoch": 0.9888888888888889,
      "grad_norm": 0.7386695742607117,
      "learning_rate": 5.23701248143345e-06,
      "loss": 0.9151,
      "step": 267
    },
    {
      "epoch": 0.9925925925925926,
      "grad_norm": 0.5981118679046631,
      "learning_rate": 5.207404141064334e-06,
      "loss": 0.9077,
      "step": 268
    },
    {
      "epoch": 0.9962962962962963,
      "grad_norm": 0.5839532613754272,
      "learning_rate": 5.177788513437013e-06,
      "loss": 0.9564,
      "step": 269
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4894520938396454,
      "learning_rate": 5.148166639112799e-06,
      "loss": 0.9273,
      "step": 270
    },
    {
      "epoch": 1.0037037037037038,
      "grad_norm": 0.6211138963699341,
      "learning_rate": 5.118539558872489e-06,
      "loss": 0.9478,
      "step": 271
    },
    {
      "epoch": 1.0074074074074073,
      "grad_norm": 0.7439696192741394,
      "learning_rate": 5.088908313679788e-06,
      "loss": 0.9341,
      "step": 272
    },
    {
      "epoch": 1.0074074074074073,
      "eval_loss": 0.9261184930801392,
      "eval_runtime": 80.9898,
      "eval_samples_per_second": 3.593,
      "eval_steps_per_second": 0.457,
      "step": 272
    },
    {
      "epoch": 1.011111111111111,
      "grad_norm": 0.6589562296867371,
      "learning_rate": 5.059273944644742e-06,
      "loss": 0.9316,
      "step": 273
    },
    {
      "epoch": 1.0148148148148148,
      "grad_norm": 0.5672058463096619,
      "learning_rate": 5.029637492987153e-06,
      "loss": 0.9235,
      "step": 274
    },
    {
      "epoch": 1.0185185185185186,
      "grad_norm": 0.6068680882453918,
      "learning_rate": 5e-06,
      "loss": 0.9136,
      "step": 275
    },
    {
      "epoch": 1.0037037037037038,
      "grad_norm": 0.7259117960929871,
      "learning_rate": 4.970362507012848e-06,
      "loss": 0.8627,
      "step": 276
    },
    {
      "epoch": 1.0074074074074073,
      "grad_norm": 0.665239691734314,
      "learning_rate": 4.940726055355259e-06,
      "loss": 0.9385,
      "step": 277
    },
    {
      "epoch": 1.011111111111111,
      "grad_norm": 0.71152263879776,
      "learning_rate": 4.911091686320213e-06,
      "loss": 0.9532,
      "step": 278
    },
    {
      "epoch": 1.0148148148148148,
      "grad_norm": 0.7714909911155701,
      "learning_rate": 4.881460441127513e-06,
      "loss": 0.8689,
      "step": 279
    },
    {
      "epoch": 1.0185185185185186,
      "grad_norm": 0.6783362030982971,
      "learning_rate": 4.8518333608872015e-06,
      "loss": 0.948,
      "step": 280
    },
    {
      "epoch": 1.0222222222222221,
      "grad_norm": 0.5598512291908264,
      "learning_rate": 4.822211486562989e-06,
      "loss": 0.953,
      "step": 281
    },
    {
      "epoch": 1.025925925925926,
      "grad_norm": 0.7532334327697754,
      "learning_rate": 4.792595858935668e-06,
      "loss": 0.9703,
      "step": 282
    },
    {
      "epoch": 1.0296296296296297,
      "grad_norm": 0.7283293604850769,
      "learning_rate": 4.7629875185665505e-06,
      "loss": 0.9526,
      "step": 283
    },
    {
      "epoch": 1.0333333333333334,
      "grad_norm": 0.6575984358787537,
      "learning_rate": 4.733387505760913e-06,
      "loss": 0.9042,
      "step": 284
    },
    {
      "epoch": 1.037037037037037,
      "grad_norm": 0.5753719210624695,
      "learning_rate": 4.703796860531429e-06,
      "loss": 0.9009,
      "step": 285
    },
    {
      "epoch": 1.0407407407407407,
      "grad_norm": 0.7370662689208984,
      "learning_rate": 4.674216622561645e-06,
      "loss": 0.8645,
      "step": 286
    },
    {
      "epoch": 1.0444444444444445,
      "grad_norm": 0.602418839931488,
      "learning_rate": 4.644647831169435e-06,
      "loss": 0.9141,
      "step": 287
    },
    {
      "epoch": 1.048148148148148,
      "grad_norm": 0.7609613537788391,
      "learning_rate": 4.6150915252705005e-06,
      "loss": 0.8668,
      "step": 288
    },
    {
      "epoch": 1.0518518518518518,
      "grad_norm": 0.8010672330856323,
      "learning_rate": 4.585548743341851e-06,
      "loss": 0.9242,
      "step": 289
    },
    {
      "epoch": 1.0555555555555556,
      "grad_norm": 0.6908420324325562,
      "learning_rate": 4.556020523385326e-06,
      "loss": 0.9566,
      "step": 290
    },
    {
      "epoch": 1.0592592592592593,
      "grad_norm": 0.7219347357749939,
      "learning_rate": 4.526507902891124e-06,
      "loss": 0.8987,
      "step": 291
    },
    {
      "epoch": 1.0629629629629629,
      "grad_norm": 0.5726153254508972,
      "learning_rate": 4.497011918801347e-06,
      "loss": 0.9259,
      "step": 292
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.7002944350242615,
      "learning_rate": 4.467533607473563e-06,
      "loss": 0.9171,
      "step": 293
    },
    {
      "epoch": 1.0703703703703704,
      "grad_norm": 0.7401637434959412,
      "learning_rate": 4.438074004644407e-06,
      "loss": 0.9147,
      "step": 294
    },
    {
      "epoch": 1.074074074074074,
      "grad_norm": 0.7317702770233154,
      "learning_rate": 4.408634145393172e-06,
      "loss": 0.8777,
      "step": 295
    },
    {
      "epoch": 1.0777777777777777,
      "grad_norm": 0.586495041847229,
      "learning_rate": 4.379215064105454e-06,
      "loss": 0.8734,
      "step": 296
    },
    {
      "epoch": 1.0814814814814815,
      "grad_norm": 0.7603331804275513,
      "learning_rate": 4.349817794436805e-06,
      "loss": 0.9757,
      "step": 297
    },
    {
      "epoch": 1.0851851851851853,
      "grad_norm": 0.7039903402328491,
      "learning_rate": 4.32044336927641e-06,
      "loss": 0.9117,
      "step": 298
    },
    {
      "epoch": 1.0888888888888888,
      "grad_norm": 0.7265645265579224,
      "learning_rate": 4.2910928207108005e-06,
      "loss": 0.9547,
      "step": 299
    },
    {
      "epoch": 1.0925925925925926,
      "grad_norm": 0.5854629278182983,
      "learning_rate": 4.261767179987595e-06,
      "loss": 0.9309,
      "step": 300
    },
    {
      "epoch": 1.0962962962962963,
      "grad_norm": 0.7084276676177979,
      "learning_rate": 4.232467477479255e-06,
      "loss": 0.9414,
      "step": 301
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.7032147645950317,
      "learning_rate": 4.203194742646893e-06,
      "loss": 0.846,
      "step": 302
    },
    {
      "epoch": 1.1037037037037036,
      "grad_norm": 0.7182865142822266,
      "learning_rate": 4.173950004004097e-06,
      "loss": 0.9737,
      "step": 303
    },
    {
      "epoch": 1.1074074074074074,
      "grad_norm": 0.6024776697158813,
      "learning_rate": 4.1447342890807905e-06,
      "loss": 0.8605,
      "step": 304
    },
    {
      "epoch": 1.1111111111111112,
      "grad_norm": 0.717693567276001,
      "learning_rate": 4.115548624387136e-06,
      "loss": 0.8731,
      "step": 305
    },
    {
      "epoch": 1.1148148148148147,
      "grad_norm": 0.8089867830276489,
      "learning_rate": 4.086394035377463e-06,
      "loss": 0.9019,
      "step": 306
    },
    {
      "epoch": 1.1185185185185185,
      "grad_norm": 0.5785974860191345,
      "learning_rate": 4.057271546414242e-06,
      "loss": 0.9574,
      "step": 307
    },
    {
      "epoch": 1.1222222222222222,
      "grad_norm": 0.7001700401306152,
      "learning_rate": 4.028182180732088e-06,
      "loss": 0.8993,
      "step": 308
    },
    {
      "epoch": 1.125925925925926,
      "grad_norm": 0.7361912131309509,
      "learning_rate": 3.99912696040181e-06,
      "loss": 0.9711,
      "step": 309
    },
    {
      "epoch": 1.1296296296296295,
      "grad_norm": 0.7708266973495483,
      "learning_rate": 3.970106906294509e-06,
      "loss": 0.9195,
      "step": 310
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 0.5702573657035828,
      "learning_rate": 3.9411230380456925e-06,
      "loss": 0.9393,
      "step": 311
    },
    {
      "epoch": 1.137037037037037,
      "grad_norm": 0.6527413725852966,
      "learning_rate": 3.912176374019462e-06,
      "loss": 0.9125,
      "step": 312
    },
    {
      "epoch": 1.1407407407407408,
      "grad_norm": 0.6216891407966614,
      "learning_rate": 3.88326793127273e-06,
      "loss": 0.8595,
      "step": 313
    },
    {
      "epoch": 1.1444444444444444,
      "grad_norm": 0.7108457684516907,
      "learning_rate": 3.85439872551948e-06,
      "loss": 0.945,
      "step": 314
    },
    {
      "epoch": 1.1481481481481481,
      "grad_norm": 0.564195990562439,
      "learning_rate": 3.825569771095082e-06,
      "loss": 0.9172,
      "step": 315
    },
    {
      "epoch": 1.151851851851852,
      "grad_norm": 0.7456059455871582,
      "learning_rate": 3.796782080920659e-06,
      "loss": 0.9229,
      "step": 316
    },
    {
      "epoch": 1.1555555555555554,
      "grad_norm": 0.6403030157089233,
      "learning_rate": 3.768036666467486e-06,
      "loss": 1.0,
      "step": 317
    },
    {
      "epoch": 1.1592592592592592,
      "grad_norm": 0.6477362513542175,
      "learning_rate": 3.7393345377214584e-06,
      "loss": 0.9649,
      "step": 318
    },
    {
      "epoch": 1.162962962962963,
      "grad_norm": 0.7265921831130981,
      "learning_rate": 3.7106767031476075e-06,
      "loss": 0.9558,
      "step": 319
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 0.6614460349082947,
      "learning_rate": 3.682064169654663e-06,
      "loss": 0.9338,
      "step": 320
    },
    {
      "epoch": 1.1703703703703703,
      "grad_norm": 0.8571596145629883,
      "learning_rate": 3.6534979425596747e-06,
      "loss": 0.8639,
      "step": 321
    },
    {
      "epoch": 1.174074074074074,
      "grad_norm": 0.7662659883499146,
      "learning_rate": 3.6249790255526916e-06,
      "loss": 0.9099,
      "step": 322
    },
    {
      "epoch": 1.1777777777777778,
      "grad_norm": 0.6332697868347168,
      "learning_rate": 3.5965084206615012e-06,
      "loss": 0.966,
      "step": 323
    },
    {
      "epoch": 1.1814814814814816,
      "grad_norm": 0.5719053149223328,
      "learning_rate": 3.568087128216414e-06,
      "loss": 0.9005,
      "step": 324
    },
    {
      "epoch": 1.1851851851851851,
      "grad_norm": 0.7472560405731201,
      "learning_rate": 3.539716146815122e-06,
      "loss": 0.8842,
      "step": 325
    },
    {
      "epoch": 1.1888888888888889,
      "grad_norm": 0.661870002746582,
      "learning_rate": 3.511396473287611e-06,
      "loss": 0.9547,
      "step": 326
    },
    {
      "epoch": 1.1925925925925926,
      "grad_norm": 0.8332524299621582,
      "learning_rate": 3.483129102661137e-06,
      "loss": 1.0097,
      "step": 327
    },
    {
      "epoch": 1.1962962962962962,
      "grad_norm": 0.7124307155609131,
      "learning_rate": 3.4549150281252635e-06,
      "loss": 0.9479,
      "step": 328
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.6653727889060974,
      "learning_rate": 3.4267552409969694e-06,
      "loss": 0.9566,
      "step": 329
    },
    {
      "epoch": 1.2037037037037037,
      "grad_norm": 0.7246274948120117,
      "learning_rate": 3.398650730685813e-06,
      "loss": 0.8731,
      "step": 330
    },
    {
      "epoch": 1.2074074074074075,
      "grad_norm": 0.7679101824760437,
      "learning_rate": 3.3706024846591717e-06,
      "loss": 0.8851,
      "step": 331
    },
    {
      "epoch": 1.211111111111111,
      "grad_norm": 0.6830713152885437,
      "learning_rate": 3.3426114884075488e-06,
      "loss": 0.9429,
      "step": 332
    },
    {
      "epoch": 1.2148148148148148,
      "grad_norm": 0.686126172542572,
      "learning_rate": 3.3146787254099424e-06,
      "loss": 0.9363,
      "step": 333
    },
    {
      "epoch": 1.2185185185185186,
      "grad_norm": 1.0472172498703003,
      "learning_rate": 3.2868051770992935e-06,
      "loss": 0.8628,
      "step": 334
    },
    {
      "epoch": 1.2222222222222223,
      "grad_norm": 0.6732811331748962,
      "learning_rate": 3.258991822828007e-06,
      "loss": 0.9343,
      "step": 335
    },
    {
      "epoch": 1.2259259259259259,
      "grad_norm": 0.6006411910057068,
      "learning_rate": 3.2312396398335312e-06,
      "loss": 0.8932,
      "step": 336
    },
    {
      "epoch": 1.2296296296296296,
      "grad_norm": 0.6865448355674744,
      "learning_rate": 3.2035496032040303e-06,
      "loss": 0.9113,
      "step": 337
    },
    {
      "epoch": 1.2333333333333334,
      "grad_norm": 0.7750067114830017,
      "learning_rate": 3.175922685844125e-06,
      "loss": 0.8964,
      "step": 338
    },
    {
      "epoch": 1.237037037037037,
      "grad_norm": 0.6137946248054504,
      "learning_rate": 3.1483598584407003e-06,
      "loss": 0.9198,
      "step": 339
    },
    {
      "epoch": 1.2407407407407407,
      "grad_norm": 0.5940172672271729,
      "learning_rate": 3.1208620894288105e-06,
      "loss": 0.8925,
      "step": 340
    },
    {
      "epoch": 1.2407407407407407,
      "eval_loss": 0.9176353812217712,
      "eval_runtime": 80.9941,
      "eval_samples_per_second": 3.593,
      "eval_steps_per_second": 0.457,
      "step": 340
    },
    {
      "epoch": 1.2444444444444445,
      "grad_norm": 0.8746694326400757,
      "learning_rate": 3.093430344957643e-06,
      "loss": 0.9542,
      "step": 341
    },
    {
      "epoch": 1.2481481481481482,
      "grad_norm": 0.7152467370033264,
      "learning_rate": 3.0660655888565827e-06,
      "loss": 0.9122,
      "step": 342
    },
    {
      "epoch": 1.2518518518518518,
      "grad_norm": 0.665104866027832,
      "learning_rate": 3.038768782601335e-06,
      "loss": 0.8695,
      "step": 343
    },
    {
      "epoch": 1.2555555555555555,
      "grad_norm": 0.6397359371185303,
      "learning_rate": 3.0115408852801535e-06,
      "loss": 0.9026,
      "step": 344
    },
    {
      "epoch": 1.2592592592592593,
      "grad_norm": 0.6641426682472229,
      "learning_rate": 2.98438285356014e-06,
      "loss": 0.9131,
      "step": 345
    },
    {
      "epoch": 1.262962962962963,
      "grad_norm": 0.7378568053245544,
      "learning_rate": 2.9572956416536267e-06,
      "loss": 0.9778,
      "step": 346
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 0.7851204872131348,
      "learning_rate": 2.930280201284654e-06,
      "loss": 0.9295,
      "step": 347
    },
    {
      "epoch": 1.2703703703703704,
      "grad_norm": 0.7360734939575195,
      "learning_rate": 2.9033374816555338e-06,
      "loss": 0.8333,
      "step": 348
    },
    {
      "epoch": 1.2740740740740741,
      "grad_norm": 0.5486617088317871,
      "learning_rate": 2.8764684294134872e-06,
      "loss": 0.8636,
      "step": 349
    },
    {
      "epoch": 1.2777777777777777,
      "grad_norm": 0.6200026273727417,
      "learning_rate": 2.8496739886173994e-06,
      "loss": 0.9163,
      "step": 350
    },
    {
      "epoch": 1.2814814814814814,
      "grad_norm": 0.7656910419464111,
      "learning_rate": 2.822955100704634e-06,
      "loss": 0.8811,
      "step": 351
    },
    {
      "epoch": 1.2851851851851852,
      "grad_norm": 0.8108608722686768,
      "learning_rate": 2.7963127044579697e-06,
      "loss": 0.9206,
      "step": 352
    },
    {
      "epoch": 1.2888888888888888,
      "grad_norm": 0.7808861136436462,
      "learning_rate": 2.769747735972605e-06,
      "loss": 0.9116,
      "step": 353
    },
    {
      "epoch": 1.2925925925925925,
      "grad_norm": 0.6127861142158508,
      "learning_rate": 2.743261128623269e-06,
      "loss": 0.8986,
      "step": 354
    },
    {
      "epoch": 1.2962962962962963,
      "grad_norm": 0.8103310465812683,
      "learning_rate": 2.716853813031435e-06,
      "loss": 0.8832,
      "step": 355
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.658495306968689,
      "learning_rate": 2.6905267170326143e-06,
      "loss": 0.9457,
      "step": 356
    },
    {
      "epoch": 1.3037037037037038,
      "grad_norm": 0.6721301078796387,
      "learning_rate": 2.6642807656437565e-06,
      "loss": 0.9182,
      "step": 357
    },
    {
      "epoch": 1.3074074074074074,
      "grad_norm": 0.6494591236114502,
      "learning_rate": 2.6381168810307536e-06,
      "loss": 0.9245,
      "step": 358
    },
    {
      "epoch": 1.3111111111111111,
      "grad_norm": 0.6653662919998169,
      "learning_rate": 2.612035982476039e-06,
      "loss": 0.9654,
      "step": 359
    },
    {
      "epoch": 1.3148148148148149,
      "grad_norm": 0.6556596159934998,
      "learning_rate": 2.5860389863462765e-06,
      "loss": 0.9552,
      "step": 360
    },
    {
      "epoch": 1.3185185185185184,
      "grad_norm": 0.7767282724380493,
      "learning_rate": 2.5601268060601816e-06,
      "loss": 0.901,
      "step": 361
    },
    {
      "epoch": 1.3222222222222222,
      "grad_norm": 0.6174845099449158,
      "learning_rate": 2.534300352056416e-06,
      "loss": 0.8979,
      "step": 362
    },
    {
      "epoch": 1.325925925925926,
      "grad_norm": 0.5829298496246338,
      "learning_rate": 2.508560531761597e-06,
      "loss": 0.9774,
      "step": 363
    },
    {
      "epoch": 1.3296296296296295,
      "grad_norm": 0.6260789632797241,
      "learning_rate": 2.4829082495584244e-06,
      "loss": 0.9693,
      "step": 364
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.6920310854911804,
      "learning_rate": 2.457344406753899e-06,
      "loss": 0.9345,
      "step": 365
    },
    {
      "epoch": 1.337037037037037,
      "grad_norm": 0.6177324652671814,
      "learning_rate": 2.4318699015476495e-06,
      "loss": 0.9274,
      "step": 366
    },
    {
      "epoch": 1.3407407407407408,
      "grad_norm": 0.6547250151634216,
      "learning_rate": 2.4064856290003863e-06,
      "loss": 0.9309,
      "step": 367
    },
    {
      "epoch": 1.3444444444444446,
      "grad_norm": 0.7775738835334778,
      "learning_rate": 2.3811924810024385e-06,
      "loss": 0.9607,
      "step": 368
    },
    {
      "epoch": 1.348148148148148,
      "grad_norm": 0.8030884861946106,
      "learning_rate": 2.35599134624243e-06,
      "loss": 0.9343,
      "step": 369
    },
    {
      "epoch": 1.3518518518518519,
      "grad_norm": 0.5836490988731384,
      "learning_rate": 2.330883110176049e-06,
      "loss": 0.9088,
      "step": 370
    },
    {
      "epoch": 1.3555555555555556,
      "grad_norm": 0.7231821417808533,
      "learning_rate": 2.3058686549949306e-06,
      "loss": 0.8505,
      "step": 371
    },
    {
      "epoch": 1.3592592592592592,
      "grad_norm": 0.7363606095314026,
      "learning_rate": 2.2809488595956746e-06,
      "loss": 0.9975,
      "step": 372
    },
    {
      "epoch": 1.362962962962963,
      "grad_norm": 0.7326072454452515,
      "learning_rate": 2.256124599548957e-06,
      "loss": 0.9272,
      "step": 373
    },
    {
      "epoch": 1.3666666666666667,
      "grad_norm": 0.6802873015403748,
      "learning_rate": 2.2313967470687593e-06,
      "loss": 0.9038,
      "step": 374
    },
    {
      "epoch": 1.3703703703703702,
      "grad_norm": 0.6956616640090942,
      "learning_rate": 2.2067661709817384e-06,
      "loss": 0.9062,
      "step": 375
    },
    {
      "epoch": 1.374074074074074,
      "grad_norm": 0.5167267322540283,
      "learning_rate": 2.18223373669669e-06,
      "loss": 0.8963,
      "step": 376
    },
    {
      "epoch": 1.3777777777777778,
      "grad_norm": 0.5965335965156555,
      "learning_rate": 2.157800306174139e-06,
      "loss": 0.9253,
      "step": 377
    },
    {
      "epoch": 1.3814814814814815,
      "grad_norm": 0.6725478768348694,
      "learning_rate": 2.1334667378960642e-06,
      "loss": 0.9349,
      "step": 378
    },
    {
      "epoch": 1.3851851851851853,
      "grad_norm": 0.6209405064582825,
      "learning_rate": 2.1092338868357305e-06,
      "loss": 0.9129,
      "step": 379
    },
    {
      "epoch": 1.3888888888888888,
      "grad_norm": 0.7127699255943298,
      "learning_rate": 2.0851026044276405e-06,
      "loss": 0.9502,
      "step": 380
    },
    {
      "epoch": 1.3925925925925926,
      "grad_norm": 0.7374861836433411,
      "learning_rate": 2.061073738537635e-06,
      "loss": 0.913,
      "step": 381
    },
    {
      "epoch": 1.3962962962962964,
      "grad_norm": 0.6551845669746399,
      "learning_rate": 2.0371481334330913e-06,
      "loss": 0.9493,
      "step": 382
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.7371388077735901,
      "learning_rate": 2.013326629753259e-06,
      "loss": 0.9285,
      "step": 383
    },
    {
      "epoch": 1.4037037037037037,
      "grad_norm": 0.7790321111679077,
      "learning_rate": 1.9896100644797316e-06,
      "loss": 0.8598,
      "step": 384
    },
    {
      "epoch": 1.4074074074074074,
      "grad_norm": 0.6032355427742004,
      "learning_rate": 1.9659992709070346e-06,
      "loss": 0.9298,
      "step": 385
    },
    {
      "epoch": 1.411111111111111,
      "grad_norm": 0.7076795101165771,
      "learning_rate": 1.9424950786133414e-06,
      "loss": 0.92,
      "step": 386
    },
    {
      "epoch": 1.4148148148148147,
      "grad_norm": 0.8255873322486877,
      "learning_rate": 1.919098313431335e-06,
      "loss": 0.8778,
      "step": 387
    },
    {
      "epoch": 1.4185185185185185,
      "grad_norm": 0.7901713848114014,
      "learning_rate": 1.8958097974191909e-06,
      "loss": 0.8844,
      "step": 388
    },
    {
      "epoch": 1.4222222222222223,
      "grad_norm": 0.7087342739105225,
      "learning_rate": 1.8726303488316822e-06,
      "loss": 0.9575,
      "step": 389
    },
    {
      "epoch": 1.425925925925926,
      "grad_norm": 0.7450980544090271,
      "learning_rate": 1.8495607820914451e-06,
      "loss": 0.811,
      "step": 390
    },
    {
      "epoch": 1.4296296296296296,
      "grad_norm": 0.5872119665145874,
      "learning_rate": 1.826601907760357e-06,
      "loss": 0.9075,
      "step": 391
    },
    {
      "epoch": 1.4333333333333333,
      "grad_norm": 0.7893672585487366,
      "learning_rate": 1.8037545325110506e-06,
      "loss": 0.9549,
      "step": 392
    },
    {
      "epoch": 1.4370370370370371,
      "grad_norm": 0.7330056428909302,
      "learning_rate": 1.781019459098584e-06,
      "loss": 0.9366,
      "step": 393
    },
    {
      "epoch": 1.4407407407407407,
      "grad_norm": 0.6859740614891052,
      "learning_rate": 1.7583974863322272e-06,
      "loss": 0.9284,
      "step": 394
    },
    {
      "epoch": 1.4444444444444444,
      "grad_norm": 0.7870423793792725,
      "learning_rate": 1.7358894090473928e-06,
      "loss": 0.8698,
      "step": 395
    },
    {
      "epoch": 1.4481481481481482,
      "grad_norm": 0.6686491370201111,
      "learning_rate": 1.7134960180777171e-06,
      "loss": 0.9149,
      "step": 396
    },
    {
      "epoch": 1.4518518518518517,
      "grad_norm": 0.7235841751098633,
      "learning_rate": 1.6912181002272714e-06,
      "loss": 0.9068,
      "step": 397
    },
    {
      "epoch": 1.4555555555555555,
      "grad_norm": 0.6145541667938232,
      "learning_rate": 1.6690564382429104e-06,
      "loss": 0.8985,
      "step": 398
    },
    {
      "epoch": 1.4592592592592593,
      "grad_norm": 0.5945561528205872,
      "learning_rate": 1.6470118107867777e-06,
      "loss": 0.9318,
      "step": 399
    },
    {
      "epoch": 1.462962962962963,
      "grad_norm": 0.6769958734512329,
      "learning_rate": 1.6250849924089485e-06,
      "loss": 0.9207,
      "step": 400
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 0.6360178589820862,
      "learning_rate": 1.6032767535202042e-06,
      "loss": 0.9344,
      "step": 401
    },
    {
      "epoch": 1.4703703703703703,
      "grad_norm": 0.6406002640724182,
      "learning_rate": 1.581587860364977e-06,
      "loss": 0.8903,
      "step": 402
    },
    {
      "epoch": 1.474074074074074,
      "grad_norm": 0.7576456069946289,
      "learning_rate": 1.560019074994416e-06,
      "loss": 0.8949,
      "step": 403
    },
    {
      "epoch": 1.4777777777777779,
      "grad_norm": 0.8080588579177856,
      "learning_rate": 1.5385711552396227e-06,
      "loss": 0.9252,
      "step": 404
    },
    {
      "epoch": 1.4814814814814814,
      "grad_norm": 0.6083511114120483,
      "learning_rate": 1.5172448546850166e-06,
      "loss": 0.9096,
      "step": 405
    },
    {
      "epoch": 1.4851851851851852,
      "grad_norm": 0.7563885450363159,
      "learning_rate": 1.4960409226418576e-06,
      "loss": 0.966,
      "step": 406
    },
    {
      "epoch": 1.488888888888889,
      "grad_norm": 0.8337453603744507,
      "learning_rate": 1.4749601041219246e-06,
      "loss": 0.933,
      "step": 407
    },
    {
      "epoch": 1.4925925925925925,
      "grad_norm": 0.5826141238212585,
      "learning_rate": 1.4540031398113335e-06,
      "loss": 0.896,
      "step": 408
    },
    {
      "epoch": 1.4925925925925925,
      "eval_loss": 0.9128310084342957,
      "eval_runtime": 80.6954,
      "eval_samples_per_second": 3.606,
      "eval_steps_per_second": 0.459,
      "step": 408
    },
    {
      "epoch": 1.4962962962962962,
      "grad_norm": 0.64705890417099,
      "learning_rate": 1.4331707660445155e-06,
      "loss": 0.8723,
      "step": 409
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.6053957939147949,
      "learning_rate": 1.4124637147783431e-06,
      "loss": 0.8731,
      "step": 410
    },
    {
      "epoch": 1.5037037037037035,
      "grad_norm": 0.8161659836769104,
      "learning_rate": 1.3918827135664186e-06,
      "loss": 0.9542,
      "step": 411
    },
    {
      "epoch": 1.5074074074074075,
      "grad_norm": 0.8037695288658142,
      "learning_rate": 1.371428485533498e-06,
      "loss": 0.9263,
      "step": 412
    },
    {
      "epoch": 1.511111111111111,
      "grad_norm": 0.6966097950935364,
      "learning_rate": 1.3511017493501005e-06,
      "loss": 0.9611,
      "step": 413
    },
    {
      "epoch": 1.5148148148148148,
      "grad_norm": 0.7274028062820435,
      "learning_rate": 1.3309032192072463e-06,
      "loss": 0.8968,
      "step": 414
    },
    {
      "epoch": 1.5185185185185186,
      "grad_norm": 0.657966136932373,
      "learning_rate": 1.3108336047913633e-06,
      "loss": 0.9025,
      "step": 415
    },
    {
      "epoch": 1.5222222222222221,
      "grad_norm": 0.7330816388130188,
      "learning_rate": 1.29089361125936e-06,
      "loss": 0.9422,
      "step": 416
    },
    {
      "epoch": 1.525925925925926,
      "grad_norm": 0.6839099526405334,
      "learning_rate": 1.2710839392138386e-06,
      "loss": 0.9604,
      "step": 417
    },
    {
      "epoch": 1.5296296296296297,
      "grad_norm": 0.7069361805915833,
      "learning_rate": 1.251405284678488e-06,
      "loss": 0.9125,
      "step": 418
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 0.6964563131332397,
      "learning_rate": 1.2318583390736256e-06,
      "loss": 0.899,
      "step": 419
    },
    {
      "epoch": 1.5370370370370372,
      "grad_norm": 0.6390750408172607,
      "learning_rate": 1.2124437891918995e-06,
      "loss": 0.8699,
      "step": 420
    },
    {
      "epoch": 1.5407407407407407,
      "grad_norm": 0.7302431464195251,
      "learning_rate": 1.1931623171741653e-06,
      "loss": 0.9124,
      "step": 421
    },
    {
      "epoch": 1.5444444444444443,
      "grad_norm": 0.6087197065353394,
      "learning_rate": 1.1740146004855141e-06,
      "loss": 0.8754,
      "step": 422
    },
    {
      "epoch": 1.5481481481481483,
      "grad_norm": 0.768294632434845,
      "learning_rate": 1.1550013118914665e-06,
      "loss": 0.9578,
      "step": 423
    },
    {
      "epoch": 1.5518518518518518,
      "grad_norm": 0.6789171099662781,
      "learning_rate": 1.1361231194343436e-06,
      "loss": 0.9235,
      "step": 424
    },
    {
      "epoch": 1.5555555555555556,
      "grad_norm": 0.9581536054611206,
      "learning_rate": 1.1173806864097885e-06,
      "loss": 0.8839,
      "step": 425
    },
    {
      "epoch": 1.5592592592592593,
      "grad_norm": 0.5669332146644592,
      "learning_rate": 1.0987746713434578e-06,
      "loss": 0.9126,
      "step": 426
    },
    {
      "epoch": 1.5629629629629629,
      "grad_norm": 0.8494063019752502,
      "learning_rate": 1.080305727967893e-06,
      "loss": 0.8771,
      "step": 427
    },
    {
      "epoch": 1.5666666666666667,
      "grad_norm": 0.7187017202377319,
      "learning_rate": 1.0619745051995473e-06,
      "loss": 0.9504,
      "step": 428
    },
    {
      "epoch": 1.5703703703703704,
      "grad_norm": 0.5970302820205688,
      "learning_rate": 1.043781647115979e-06,
      "loss": 0.8693,
      "step": 429
    },
    {
      "epoch": 1.574074074074074,
      "grad_norm": 0.6068917512893677,
      "learning_rate": 1.0257277929332332e-06,
      "loss": 0.9556,
      "step": 430
    },
    {
      "epoch": 1.5777777777777777,
      "grad_norm": 0.5248574018478394,
      "learning_rate": 1.0078135769833758e-06,
      "loss": 0.9034,
      "step": 431
    },
    {
      "epoch": 1.5814814814814815,
      "grad_norm": 0.593900740146637,
      "learning_rate": 9.900396286922025e-07,
      "loss": 0.9028,
      "step": 432
    },
    {
      "epoch": 1.585185185185185,
      "grad_norm": 0.6070235371589661,
      "learning_rate": 9.72406572557133e-07,
      "loss": 0.8641,
      "step": 433
    },
    {
      "epoch": 1.588888888888889,
      "grad_norm": 0.6419976353645325,
      "learning_rate": 9.549150281252633e-07,
      "loss": 0.9095,
      "step": 434
    },
    {
      "epoch": 1.5925925925925926,
      "grad_norm": 0.8620632290840149,
      "learning_rate": 9.375656099715935e-07,
      "loss": 0.974,
      "step": 435
    },
    {
      "epoch": 1.5962962962962963,
      "grad_norm": 0.6101662516593933,
      "learning_rate": 9.203589276774438e-07,
      "loss": 0.8868,
      "step": 436
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.6099417209625244,
      "learning_rate": 9.032955858090319e-07,
      "loss": 0.8978,
      "step": 437
    },
    {
      "epoch": 1.6037037037037036,
      "grad_norm": 0.8809055685997009,
      "learning_rate": 8.86376183896226e-07,
      "loss": 0.8905,
      "step": 438
    },
    {
      "epoch": 1.6074074074074074,
      "grad_norm": 0.5985243320465088,
      "learning_rate": 8.696013164114902e-07,
      "loss": 0.8914,
      "step": 439
    },
    {
      "epoch": 1.6111111111111112,
      "grad_norm": 0.6197245121002197,
      "learning_rate": 8.529715727489912e-07,
      "loss": 0.8962,
      "step": 440
    },
    {
      "epoch": 1.6148148148148147,
      "grad_norm": 0.6981231570243835,
      "learning_rate": 8.364875372038878e-07,
      "loss": 0.9588,
      "step": 441
    },
    {
      "epoch": 1.6185185185185185,
      "grad_norm": 0.9516739249229431,
      "learning_rate": 8.201497889518073e-07,
      "loss": 0.894,
      "step": 442
    },
    {
      "epoch": 1.6222222222222222,
      "grad_norm": 0.7582102417945862,
      "learning_rate": 8.039589020284926e-07,
      "loss": 0.8848,
      "step": 443
    },
    {
      "epoch": 1.6259259259259258,
      "grad_norm": 0.7806898355484009,
      "learning_rate": 7.879154453096305e-07,
      "loss": 0.9589,
      "step": 444
    },
    {
      "epoch": 1.6296296296296298,
      "grad_norm": 0.7488991022109985,
      "learning_rate": 7.720199824908692e-07,
      "loss": 0.876,
      "step": 445
    },
    {
      "epoch": 1.6333333333333333,
      "grad_norm": 0.7136239409446716,
      "learning_rate": 7.562730720680111e-07,
      "loss": 0.9316,
      "step": 446
    },
    {
      "epoch": 1.637037037037037,
      "grad_norm": 0.7333770990371704,
      "learning_rate": 7.406752673173851e-07,
      "loss": 0.8628,
      "step": 447
    },
    {
      "epoch": 1.6407407407407408,
      "grad_norm": 0.8281632661819458,
      "learning_rate": 7.25227116276413e-07,
      "loss": 0.9111,
      "step": 448
    },
    {
      "epoch": 1.6444444444444444,
      "grad_norm": 0.742244303226471,
      "learning_rate": 7.099291617243526e-07,
      "loss": 1.0076,
      "step": 449
    },
    {
      "epoch": 1.6481481481481481,
      "grad_norm": 0.9548508524894714,
      "learning_rate": 6.947819411632223e-07,
      "loss": 0.8449,
      "step": 450
    },
    {
      "epoch": 1.651851851851852,
      "grad_norm": 0.6826335787773132,
      "learning_rate": 6.797859867989226e-07,
      "loss": 0.9281,
      "step": 451
    },
    {
      "epoch": 1.6555555555555554,
      "grad_norm": 0.7542606592178345,
      "learning_rate": 6.649418255225298e-07,
      "loss": 0.9343,
      "step": 452
    },
    {
      "epoch": 1.6592592592592592,
      "grad_norm": 0.6692271828651428,
      "learning_rate": 6.502499788917893e-07,
      "loss": 0.9217,
      "step": 453
    },
    {
      "epoch": 1.662962962962963,
      "grad_norm": 0.6740605235099792,
      "learning_rate": 6.357109631127889e-07,
      "loss": 0.9304,
      "step": 454
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.7319871187210083,
      "learning_rate": 6.213252890218163e-07,
      "loss": 0.937,
      "step": 455
    },
    {
      "epoch": 1.6703703703703705,
      "grad_norm": 0.5654203295707703,
      "learning_rate": 6.07093462067419e-07,
      "loss": 0.8914,
      "step": 456
    },
    {
      "epoch": 1.674074074074074,
      "grad_norm": 0.5713678002357483,
      "learning_rate": 5.930159822926407e-07,
      "loss": 0.9257,
      "step": 457
    },
    {
      "epoch": 1.6777777777777778,
      "grad_norm": 0.838940441608429,
      "learning_rate": 5.79093344317449e-07,
      "loss": 0.9104,
      "step": 458
    },
    {
      "epoch": 1.6814814814814816,
      "grad_norm": 0.6449588537216187,
      "learning_rate": 5.653260373213632e-07,
      "loss": 0.8805,
      "step": 459
    },
    {
      "epoch": 1.6851851851851851,
      "grad_norm": 0.7371458411216736,
      "learning_rate": 5.517145450262639e-07,
      "loss": 0.8835,
      "step": 460
    },
    {
      "epoch": 1.6888888888888889,
      "grad_norm": 0.679885983467102,
      "learning_rate": 5.382593456793933e-07,
      "loss": 0.9306,
      "step": 461
    },
    {
      "epoch": 1.6925925925925926,
      "grad_norm": 0.5046345591545105,
      "learning_rate": 5.249609120365579e-07,
      "loss": 0.8928,
      "step": 462
    },
    {
      "epoch": 1.6962962962962962,
      "grad_norm": 0.8400017023086548,
      "learning_rate": 5.118197113455164e-07,
      "loss": 0.9142,
      "step": 463
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.6406440734863281,
      "learning_rate": 4.988362053295564e-07,
      "loss": 0.8868,
      "step": 464
    },
    {
      "epoch": 1.7037037037037037,
      "grad_norm": 0.633682906627655,
      "learning_rate": 4.860108501712824e-07,
      "loss": 0.913,
      "step": 465
    },
    {
      "epoch": 1.7074074074074073,
      "grad_norm": 0.5694250464439392,
      "learning_rate": 4.733440964965791e-07,
      "loss": 0.9226,
      "step": 466
    },
    {
      "epoch": 1.7111111111111112,
      "grad_norm": 0.7359141707420349,
      "learning_rate": 4.6083638935878025e-07,
      "loss": 0.9148,
      "step": 467
    },
    {
      "epoch": 1.7148148148148148,
      "grad_norm": 0.669040322303772,
      "learning_rate": 4.484881682230341e-07,
      "loss": 0.8438,
      "step": 468
    },
    {
      "epoch": 1.7185185185185186,
      "grad_norm": 0.6235198974609375,
      "learning_rate": 4.3629986695086166e-07,
      "loss": 0.9097,
      "step": 469
    },
    {
      "epoch": 1.7222222222222223,
      "grad_norm": 0.617144763469696,
      "learning_rate": 4.242719137849077e-07,
      "loss": 0.8961,
      "step": 470
    },
    {
      "epoch": 1.7259259259259259,
      "grad_norm": 0.6972277164459229,
      "learning_rate": 4.124047313339025e-07,
      "loss": 0.8856,
      "step": 471
    },
    {
      "epoch": 1.7296296296296296,
      "grad_norm": 0.7551361322402954,
      "learning_rate": 4.00698736557808e-07,
      "loss": 0.9143,
      "step": 472
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 0.7269377708435059,
      "learning_rate": 3.891543407531673e-07,
      "loss": 0.9145,
      "step": 473
    },
    {
      "epoch": 1.737037037037037,
      "grad_norm": 0.7635181546211243,
      "learning_rate": 3.777719495386567e-07,
      "loss": 0.8855,
      "step": 474
    },
    {
      "epoch": 1.7407407407407407,
      "grad_norm": 0.745471715927124,
      "learning_rate": 3.665519628408332e-07,
      "loss": 0.9049,
      "step": 475
    },
    {
      "epoch": 1.7444444444444445,
      "grad_norm": 0.983215868473053,
      "learning_rate": 3.5549477488007853e-07,
      "loss": 0.8904,
      "step": 476
    },
    {
      "epoch": 1.7444444444444445,
      "eval_loss": 0.910611093044281,
      "eval_runtime": 80.7891,
      "eval_samples_per_second": 3.602,
      "eval_steps_per_second": 0.458,
      "step": 476
    },
    {
      "epoch": 1.748148148148148,
      "grad_norm": 0.645391047000885,
      "learning_rate": 3.4460077415675473e-07,
      "loss": 0.9156,
      "step": 477
    },
    {
      "epoch": 1.751851851851852,
      "grad_norm": 0.7084014415740967,
      "learning_rate": 3.3387034343755063e-07,
      "loss": 0.9417,
      "step": 478
    },
    {
      "epoch": 1.7555555555555555,
      "grad_norm": 0.6383021473884583,
      "learning_rate": 3.2330385974203184e-07,
      "loss": 0.9339,
      "step": 479
    },
    {
      "epoch": 1.7592592592592593,
      "grad_norm": 0.6533625721931458,
      "learning_rate": 3.1290169432939556e-07,
      "loss": 0.9548,
      "step": 480
    },
    {
      "epoch": 1.762962962962963,
      "grad_norm": 0.5707213878631592,
      "learning_rate": 3.0266421268542734e-07,
      "loss": 0.9544,
      "step": 481
    },
    {
      "epoch": 1.7666666666666666,
      "grad_norm": 0.6648502945899963,
      "learning_rate": 2.925917745096568e-07,
      "loss": 0.8525,
      "step": 482
    },
    {
      "epoch": 1.7703703703703704,
      "grad_norm": 0.6798570156097412,
      "learning_rate": 2.826847337027222e-07,
      "loss": 0.9217,
      "step": 483
    },
    {
      "epoch": 1.7740740740740741,
      "grad_norm": 0.709642231464386,
      "learning_rate": 2.7294343835393366e-07,
      "loss": 0.8996,
      "step": 484
    },
    {
      "epoch": 1.7777777777777777,
      "grad_norm": 0.7643037438392639,
      "learning_rate": 2.6336823072904305e-07,
      "loss": 0.8625,
      "step": 485
    },
    {
      "epoch": 1.7814814814814814,
      "grad_norm": 0.7004448771476746,
      "learning_rate": 2.539594472582213e-07,
      "loss": 0.9118,
      "step": 486
    },
    {
      "epoch": 1.7851851851851852,
      "grad_norm": 0.6062957048416138,
      "learning_rate": 2.447174185242324e-07,
      "loss": 0.8849,
      "step": 487
    },
    {
      "epoch": 1.7888888888888888,
      "grad_norm": 0.6031033396720886,
      "learning_rate": 2.3564246925082358e-07,
      "loss": 0.924,
      "step": 488
    },
    {
      "epoch": 1.7925925925925927,
      "grad_norm": 0.6818556189537048,
      "learning_rate": 2.2673491829131365e-07,
      "loss": 0.9206,
      "step": 489
    },
    {
      "epoch": 1.7962962962962963,
      "grad_norm": 0.7448561191558838,
      "learning_rate": 2.179950786173879e-07,
      "loss": 0.8549,
      "step": 490
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.603404700756073,
      "learning_rate": 2.0942325730810565e-07,
      "loss": 0.919,
      "step": 491
    },
    {
      "epoch": 1.8037037037037038,
      "grad_norm": 0.7165398001670837,
      "learning_rate": 2.01019755539108e-07,
      "loss": 0.9021,
      "step": 492
    },
    {
      "epoch": 1.8074074074074074,
      "grad_norm": 0.7593845725059509,
      "learning_rate": 1.9278486857203683e-07,
      "loss": 0.9153,
      "step": 493
    },
    {
      "epoch": 1.8111111111111111,
      "grad_norm": 0.6313470602035522,
      "learning_rate": 1.8471888574415953e-07,
      "loss": 0.9106,
      "step": 494
    },
    {
      "epoch": 1.8148148148148149,
      "grad_norm": 0.6173641085624695,
      "learning_rate": 1.7682209045820687e-07,
      "loss": 0.8888,
      "step": 495
    },
    {
      "epoch": 1.8185185185185184,
      "grad_norm": 0.76194167137146,
      "learning_rate": 1.690947601724091e-07,
      "loss": 0.9064,
      "step": 496
    },
    {
      "epoch": 1.8222222222222222,
      "grad_norm": 0.675755500793457,
      "learning_rate": 1.6153716639075223e-07,
      "loss": 0.9266,
      "step": 497
    },
    {
      "epoch": 1.825925925925926,
      "grad_norm": 0.7498816847801208,
      "learning_rate": 1.5414957465343883e-07,
      "loss": 0.8579,
      "step": 498
    },
    {
      "epoch": 1.8296296296296295,
      "grad_norm": 0.656910240650177,
      "learning_rate": 1.4693224452755284e-07,
      "loss": 0.821,
      "step": 499
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 0.6735762357711792,
      "learning_rate": 1.3988542959794627e-07,
      "loss": 0.8731,
      "step": 500
    },
    {
      "epoch": 1.837037037037037,
      "grad_norm": 0.6537667512893677,
      "learning_rate": 1.330093774583252e-07,
      "loss": 0.9249,
      "step": 501
    },
    {
      "epoch": 1.8407407407407408,
      "grad_norm": 0.6112355589866638,
      "learning_rate": 1.2630432970255014e-07,
      "loss": 0.8936,
      "step": 502
    },
    {
      "epoch": 1.8444444444444446,
      "grad_norm": 0.7084822058677673,
      "learning_rate": 1.1977052191615158e-07,
      "loss": 0.9221,
      "step": 503
    },
    {
      "epoch": 1.848148148148148,
      "grad_norm": 0.652979850769043,
      "learning_rate": 1.1340818366804728e-07,
      "loss": 0.9073,
      "step": 504
    },
    {
      "epoch": 1.8518518518518519,
      "grad_norm": 0.6980672478675842,
      "learning_rate": 1.0721753850247984e-07,
      "loss": 0.9294,
      "step": 505
    },
    {
      "epoch": 1.8555555555555556,
      "grad_norm": 0.7224528789520264,
      "learning_rate": 1.0119880393116177e-07,
      "loss": 0.8842,
      "step": 506
    },
    {
      "epoch": 1.8592592592592592,
      "grad_norm": 0.6340327262878418,
      "learning_rate": 9.535219142563168e-08,
      "loss": 0.9598,
      "step": 507
    },
    {
      "epoch": 1.862962962962963,
      "grad_norm": 0.686582624912262,
      "learning_rate": 8.967790640982466e-08,
      "loss": 0.9344,
      "step": 508
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 0.5959629416465759,
      "learning_rate": 8.417614825285636e-08,
      "loss": 0.9026,
      "step": 509
    },
    {
      "epoch": 1.8703703703703702,
      "grad_norm": 0.6575542092323303,
      "learning_rate": 7.884711026201586e-08,
      "loss": 0.9288,
      "step": 510
    },
    {
      "epoch": 1.8740740740740742,
      "grad_norm": 0.5704898238182068,
      "learning_rate": 7.369097967597493e-08,
      "loss": 0.8636,
      "step": 511
    },
    {
      "epoch": 1.8777777777777778,
      "grad_norm": 0.6155747771263123,
      "learning_rate": 6.870793765820783e-08,
      "loss": 0.8362,
      "step": 512
    },
    {
      "epoch": 1.8814814814814815,
      "grad_norm": 0.6208741664886475,
      "learning_rate": 6.389815929062848e-08,
      "loss": 0.9179,
      "step": 513
    },
    {
      "epoch": 1.8851851851851853,
      "grad_norm": 0.7014544010162354,
      "learning_rate": 5.92618135674361e-08,
      "loss": 0.9333,
      "step": 514
    },
    {
      "epoch": 1.8888888888888888,
      "grad_norm": 0.814078152179718,
      "learning_rate": 5.479906338917984e-08,
      "loss": 0.9186,
      "step": 515
    },
    {
      "epoch": 1.8925925925925926,
      "grad_norm": 0.7297834753990173,
      "learning_rate": 5.0510065557034526e-08,
      "loss": 0.8992,
      "step": 516
    },
    {
      "epoch": 1.8962962962962964,
      "grad_norm": 0.6444849371910095,
      "learning_rate": 4.639497076728949e-08,
      "loss": 0.94,
      "step": 517
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5319604873657227,
      "learning_rate": 4.245392360605727e-08,
      "loss": 0.9396,
      "step": 518
    },
    {
      "epoch": 1.9037037037037037,
      "grad_norm": 0.9374611973762512,
      "learning_rate": 3.86870625441893e-08,
      "loss": 0.9718,
      "step": 519
    },
    {
      "epoch": 1.9074074074074074,
      "grad_norm": 0.5568841695785522,
      "learning_rate": 3.5094519932415417e-08,
      "loss": 0.89,
      "step": 520
    },
    {
      "epoch": 1.911111111111111,
      "grad_norm": 0.9112274646759033,
      "learning_rate": 3.167642199668863e-08,
      "loss": 0.925,
      "step": 521
    },
    {
      "epoch": 1.914814814814815,
      "grad_norm": 0.655830979347229,
      "learning_rate": 2.843288883375539e-08,
      "loss": 0.9135,
      "step": 522
    },
    {
      "epoch": 1.9185185185185185,
      "grad_norm": 0.5499829649925232,
      "learning_rate": 2.5364034406930026e-08,
      "loss": 0.8902,
      "step": 523
    },
    {
      "epoch": 1.9222222222222223,
      "grad_norm": 0.9093420505523682,
      "learning_rate": 2.2469966542096323e-08,
      "loss": 0.971,
      "step": 524
    },
    {
      "epoch": 1.925925925925926,
      "grad_norm": 0.8075233101844788,
      "learning_rate": 1.975078692391552e-08,
      "loss": 0.9288,
      "step": 525
    },
    {
      "epoch": 1.9296296296296296,
      "grad_norm": 0.6721240282058716,
      "learning_rate": 1.7206591092253642e-08,
      "loss": 0.8983,
      "step": 526
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 0.6682837605476379,
      "learning_rate": 1.4837468438826385e-08,
      "loss": 0.9423,
      "step": 527
    },
    {
      "epoch": 1.9370370370370371,
      "grad_norm": 0.653581440448761,
      "learning_rate": 1.264350220405719e-08,
      "loss": 0.9542,
      "step": 528
    },
    {
      "epoch": 1.9407407407407407,
      "grad_norm": 0.5496450066566467,
      "learning_rate": 1.0624769474152363e-08,
      "loss": 0.9059,
      "step": 529
    },
    {
      "epoch": 1.9444444444444444,
      "grad_norm": 0.7037910223007202,
      "learning_rate": 8.781341178393244e-09,
      "loss": 0.8928,
      "step": 530
    },
    {
      "epoch": 1.9481481481481482,
      "grad_norm": 0.6391336917877197,
      "learning_rate": 7.1132820866431915e-09,
      "loss": 0.8936,
      "step": 531
    },
    {
      "epoch": 1.9518518518518517,
      "grad_norm": 0.7979388236999512,
      "learning_rate": 5.620650807073857e-09,
      "loss": 0.8871,
      "step": 532
    },
    {
      "epoch": 1.9555555555555557,
      "grad_norm": 0.6291653513908386,
      "learning_rate": 4.303499784102383e-09,
      "loss": 0.8815,
      "step": 533
    },
    {
      "epoch": 1.9592592592592593,
      "grad_norm": 0.7071843147277832,
      "learning_rate": 3.1618752965534295e-09,
      "loss": 0.8984,
      "step": 534
    },
    {
      "epoch": 1.9629629629629628,
      "grad_norm": 0.5879070162773132,
      "learning_rate": 2.19581745602826e-09,
      "loss": 0.849,
      "step": 535
    },
    {
      "epoch": 1.9666666666666668,
      "grad_norm": 0.743624746799469,
      "learning_rate": 1.4053602054991954e-09,
      "loss": 0.879,
      "step": 536
    },
    {
      "epoch": 1.9703703703703703,
      "grad_norm": 0.5870293974876404,
      "learning_rate": 7.905313181150176e-10,
      "loss": 0.9257,
      "step": 537
    },
    {
      "epoch": 1.974074074074074,
      "grad_norm": 0.7187138199806213,
      "learning_rate": 3.513523962256349e-10,
      "loss": 0.9768,
      "step": 538
    },
    {
      "epoch": 1.9777777777777779,
      "grad_norm": 0.6711537837982178,
      "learning_rate": 8.783887062324692e-11,
      "loss": 0.9182,
      "step": 539
    },
    {
      "epoch": 1.9814814814814814,
      "grad_norm": 0.66741943359375,
      "learning_rate": 0.0,
      "loss": 0.8763,
      "step": 540
    }
  ],
  "logging_steps": 1,
  "max_steps": 540,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 135,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.9871043243514266e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}