{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 500,
  "global_step": 124,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.016129032258064516,
      "grad_norm": 0.1432679159799374,
      "learning_rate": 3.846153846153847e-06,
      "loss": 0.3448,
      "step": 1
    },
    {
      "epoch": 0.03225806451612903,
      "grad_norm": 0.16306470631036374,
      "learning_rate": 7.692307692307694e-06,
      "loss": 0.3601,
      "step": 2
    },
    {
      "epoch": 0.04838709677419355,
      "grad_norm": 0.15130900370018455,
      "learning_rate": 1.153846153846154e-05,
      "loss": 0.3376,
      "step": 3
    },
    {
      "epoch": 0.06451612903225806,
      "grad_norm": 0.1465157838355697,
      "learning_rate": 1.5384615384615387e-05,
      "loss": 0.3362,
      "step": 4
    },
    {
      "epoch": 0.08064516129032258,
      "grad_norm": 0.14147209059542074,
      "learning_rate": 1.923076923076923e-05,
      "loss": 0.3436,
      "step": 5
    },
    {
      "epoch": 0.0967741935483871,
      "grad_norm": 0.21048909811402727,
      "learning_rate": 2.307692307692308e-05,
      "loss": 0.3727,
      "step": 6
    },
    {
      "epoch": 0.11290322580645161,
      "grad_norm": 0.12726488394585933,
      "learning_rate": 2.6923076923076923e-05,
      "loss": 0.3057,
      "step": 7
    },
    {
      "epoch": 0.12903225806451613,
      "grad_norm": 0.20474805266349444,
      "learning_rate": 3.0769230769230774e-05,
      "loss": 0.3876,
      "step": 8
    },
    {
      "epoch": 0.14516129032258066,
      "grad_norm": 0.16464400742312202,
      "learning_rate": 3.461538461538462e-05,
      "loss": 0.3373,
      "step": 9
    },
    {
      "epoch": 0.16129032258064516,
      "grad_norm": 0.2054346757762181,
      "learning_rate": 3.846153846153846e-05,
      "loss": 0.3474,
      "step": 10
    },
    {
      "epoch": 0.1774193548387097,
      "grad_norm": 0.18702805157276067,
      "learning_rate": 4.230769230769231e-05,
      "loss": 0.3038,
      "step": 11
    },
    {
      "epoch": 0.1935483870967742,
      "grad_norm": 0.16052676613044953,
      "learning_rate": 4.615384615384616e-05,
      "loss": 0.2986,
      "step": 12
    },
    {
      "epoch": 0.20967741935483872,
      "grad_norm": 0.24371143414800536,
      "learning_rate": 5e-05,
      "loss": 0.3261,
      "step": 13
    },
    {
      "epoch": 0.22580645161290322,
      "grad_norm": 0.12813453591927593,
      "learning_rate": 4.998998767795805e-05,
      "loss": 0.2736,
      "step": 14
    },
    {
      "epoch": 0.24193548387096775,
      "grad_norm": 0.1931895368231721,
      "learning_rate": 4.995995873155958e-05,
      "loss": 0.2995,
      "step": 15
    },
    {
      "epoch": 0.25806451612903225,
      "grad_norm": 0.1763475582371505,
      "learning_rate": 4.9909937213563165e-05,
      "loss": 0.2987,
      "step": 16
    },
    {
      "epoch": 0.27419354838709675,
      "grad_norm": 0.18683198752743235,
      "learning_rate": 4.9839963190492576e-05,
      "loss": 0.2995,
      "step": 17
    },
    {
      "epoch": 0.2903225806451613,
      "grad_norm": 0.20674817836215767,
      "learning_rate": 4.975009271054409e-05,
      "loss": 0.2734,
      "step": 18
    },
    {
      "epoch": 0.3064516129032258,
      "grad_norm": 0.16399365434637367,
      "learning_rate": 4.9640397758692715e-05,
      "loss": 0.2335,
      "step": 19
    },
    {
      "epoch": 0.3225806451612903,
      "grad_norm": 0.11063667513077646,
      "learning_rate": 4.9510966199033174e-05,
      "loss": 0.2419,
      "step": 20
    },
    {
      "epoch": 0.3387096774193548,
      "grad_norm": 0.14061701937388224,
      "learning_rate": 4.936190170440208e-05,
      "loss": 0.2303,
      "step": 21
    },
    {
      "epoch": 0.3548387096774194,
      "grad_norm": 0.18688298698935535,
      "learning_rate": 4.9193323673337476e-05,
      "loss": 0.2356,
      "step": 22
    },
    {
      "epoch": 0.3709677419354839,
      "grad_norm": 0.15084793914274472,
      "learning_rate": 4.9005367134442235e-05,
      "loss": 0.2291,
      "step": 23
    },
    {
      "epoch": 0.3870967741935484,
      "grad_norm": 0.2843935296328675,
      "learning_rate": 4.8798182638228166e-05,
      "loss": 0.2187,
      "step": 24
    },
    {
      "epoch": 0.4032258064516129,
      "grad_norm": 0.2084013071011495,
      "learning_rate": 4.857193613652711e-05,
      "loss": 0.2059,
      "step": 25
    },
    {
      "epoch": 0.41935483870967744,
      "grad_norm": 0.21246039422506777,
      "learning_rate": 4.8326808849565936e-05,
      "loss": 0.1532,
      "step": 26
    },
    {
      "epoch": 0.43548387096774194,
      "grad_norm": 0.2215780058907539,
      "learning_rate": 4.806299712081172e-05,
      "loss": 0.2029,
      "step": 27
    },
    {
      "epoch": 0.45161290322580644,
      "grad_norm": 0.2198677045169877,
      "learning_rate": 4.77807122597034e-05,
      "loss": 0.1254,
      "step": 28
    },
    {
      "epoch": 0.46774193548387094,
      "grad_norm": 0.14781456487212824,
      "learning_rate": 4.748018037239592e-05,
      "loss": 0.1205,
      "step": 29
    },
    {
      "epoch": 0.4838709677419355,
      "grad_norm": 0.19772811727675152,
      "learning_rate": 4.7161642180652464e-05,
      "loss": 0.119,
      "step": 30
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.24769557432110972,
      "learning_rate": 4.6825352829029705e-05,
      "loss": 0.1423,
      "step": 31
    },
    {
      "epoch": 0.5161290322580645,
      "grad_norm": 0.18864693121539486,
      "learning_rate": 4.647158168051066e-05,
      "loss": 0.1092,
      "step": 32
    },
    {
      "epoch": 0.532258064516129,
      "grad_norm": 0.1370248308678987,
      "learning_rate": 4.6100612100748765e-05,
      "loss": 0.0743,
      "step": 33
    },
    {
      "epoch": 0.5483870967741935,
      "grad_norm": 0.26910080045365975,
      "learning_rate": 4.571274123109606e-05,
      "loss": 0.0779,
      "step": 34
    },
    {
      "epoch": 0.5645161290322581,
      "grad_norm": 0.24668545360756242,
      "learning_rate": 4.530827975059715e-05,
      "loss": 0.0915,
      "step": 35
    },
    {
      "epoch": 0.5806451612903226,
      "grad_norm": 0.1974826553845127,
      "learning_rate": 4.488755162713975e-05,
      "loss": 0.0492,
      "step": 36
    },
    {
      "epoch": 0.5967741935483871,
      "grad_norm": 0.12262893991795182,
      "learning_rate": 4.445089385796099e-05,
      "loss": 0.0253,
      "step": 37
    },
    {
      "epoch": 0.6129032258064516,
      "grad_norm": 0.07478063153168434,
      "learning_rate": 4.3998656199717435e-05,
      "loss": 0.0144,
      "step": 38
    },
    {
      "epoch": 0.6290322580645161,
      "grad_norm": 0.31984690601584975,
      "learning_rate": 4.353120088833501e-05,
      "loss": 0.0389,
      "step": 39
    },
    {
      "epoch": 0.6451612903225806,
      "grad_norm": 0.0827707248082723,
      "learning_rate": 4.3048902348863116e-05,
      "loss": 0.0239,
      "step": 40
    },
    {
      "epoch": 0.6612903225806451,
      "grad_norm": 0.18233723491895526,
      "learning_rate": 4.255214689556557e-05,
      "loss": 0.0341,
      "step": 41
    },
    {
      "epoch": 0.6774193548387096,
      "grad_norm": 0.02833224083355116,
      "learning_rate": 4.204133242248832e-05,
      "loss": 0.0046,
      "step": 42
    },
    {
      "epoch": 0.6935483870967742,
      "grad_norm": 0.11963270794284837,
      "learning_rate": 4.151686808475204e-05,
      "loss": 0.0123,
      "step": 43
    },
    {
      "epoch": 0.7096774193548387,
      "grad_norm": 0.04037834645401923,
      "learning_rate": 4.0979173970824626e-05,
      "loss": 0.0058,
      "step": 44
    },
    {
      "epoch": 0.7258064516129032,
      "grad_norm": 0.02296082304495198,
      "learning_rate": 4.0428680766036384e-05,
      "loss": 0.0038,
      "step": 45
    },
    {
      "epoch": 0.7419354838709677,
      "grad_norm": 0.1295588515482886,
      "learning_rate": 3.986582940760717e-05,
      "loss": 0.0109,
      "step": 46
    },
    {
      "epoch": 0.7580645161290323,
      "grad_norm": 0.18665100257403613,
      "learning_rate": 3.929107073146197e-05,
      "loss": 0.0621,
      "step": 47
    },
    {
      "epoch": 0.7741935483870968,
      "grad_norm": 0.012551414007914083,
      "learning_rate": 3.8704865111117746e-05,
      "loss": 0.0018,
      "step": 48
    },
    {
      "epoch": 0.7903225806451613,
      "grad_norm": 0.10371001173120382,
      "learning_rate": 3.8107682088930794e-05,
      "loss": 0.0077,
      "step": 49
    },
    {
      "epoch": 0.8064516129032258,
      "grad_norm": 0.13196056602158834,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 0.0451,
      "step": 50
    },
    {
      "epoch": 0.8225806451612904,
      "grad_norm": 0.1764516747174117,
      "learning_rate": 3.688230558902725e-05,
      "loss": 0.0433,
      "step": 51
    },
    {
      "epoch": 0.8387096774193549,
      "grad_norm": 0.1494809562464371,
      "learning_rate": 3.6255093620441834e-05,
      "loss": 0.0458,
      "step": 52
    },
    {
      "epoch": 0.8548387096774194,
      "grad_norm": 0.11064421530279493,
      "learning_rate": 3.56188664821012e-05,
      "loss": 0.0252,
      "step": 53
    },
    {
      "epoch": 0.8709677419354839,
      "grad_norm": 0.12733989688378752,
      "learning_rate": 3.497413378288541e-05,
      "loss": 0.022,
      "step": 54
    },
    {
      "epoch": 0.8870967741935484,
      "grad_norm": 0.024081210388308277,
      "learning_rate": 3.432141194450772e-05,
      "loss": 0.0023,
      "step": 55
    },
    {
      "epoch": 0.9032258064516129,
      "grad_norm": 0.6146380016529215,
      "learning_rate": 3.3661223787868094e-05,
      "loss": 0.0802,
      "step": 56
    },
    {
      "epoch": 0.9193548387096774,
      "grad_norm": 0.06333121427211716,
      "learning_rate": 3.2994098114281134e-05,
      "loss": 0.0146,
      "step": 57
    },
    {
      "epoch": 0.9354838709677419,
      "grad_norm": 0.03868115520744251,
      "learning_rate": 3.232056928191376e-05,
      "loss": 0.0077,
      "step": 58
    },
    {
      "epoch": 0.9516129032258065,
      "grad_norm": 0.03609378547459043,
      "learning_rate": 3.164117677777191e-05,
      "loss": 0.0072,
      "step": 59
    },
    {
      "epoch": 0.967741935483871,
      "grad_norm": 0.03515517294361617,
      "learning_rate": 3.0956464785579124e-05,
      "loss": 0.0067,
      "step": 60
    },
    {
      "epoch": 0.9838709677419355,
      "grad_norm": 0.05762455030468294,
      "learning_rate": 3.0266981749893157e-05,
      "loss": 0.0125,
      "step": 61
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.0621893754456205,
      "learning_rate": 2.9573279936809667e-05,
      "loss": 0.015,
      "step": 62
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.7167242169380188,
      "eval_runtime": 0.3951,
      "eval_samples_per_second": 2.531,
      "eval_steps_per_second": 2.531,
      "step": 62
    },
    {
      "epoch": 1.0161290322580645,
      "grad_norm": 0.05860291884932756,
      "learning_rate": 2.8875914991604948e-05,
      "loss": 0.0042,
      "step": 63
    },
    {
      "epoch": 1.032258064516129,
      "grad_norm": 0.058935637135357155,
      "learning_rate": 2.8175445493671972e-05,
      "loss": 0.012,
      "step": 64
    },
    {
      "epoch": 1.0483870967741935,
      "grad_norm": 0.06081132602928654,
      "learning_rate": 2.7472432509106248e-05,
      "loss": 0.0078,
      "step": 65
    },
    {
      "epoch": 1.064516129032258,
      "grad_norm": 0.04600964309109748,
      "learning_rate": 2.6767439141299865e-05,
      "loss": 0.0087,
      "step": 66
    },
    {
      "epoch": 1.0806451612903225,
      "grad_norm": 0.04874397241685455,
      "learning_rate": 2.606103007990371e-05,
      "loss": 0.0074,
      "step": 67
    },
    {
      "epoch": 1.096774193548387,
      "grad_norm": 0.039221449630106923,
      "learning_rate": 2.5353771148519057e-05,
      "loss": 0.0055,
      "step": 68
    },
    {
      "epoch": 1.1129032258064515,
      "grad_norm": 0.004292296527742576,
      "learning_rate": 2.4646228851480956e-05,
      "loss": 0.0005,
      "step": 69
    },
    {
      "epoch": 1.129032258064516,
      "grad_norm": 0.024544548076674708,
      "learning_rate": 2.39389699200963e-05,
      "loss": 0.0032,
      "step": 70
    },
    {
      "epoch": 1.1451612903225807,
      "grad_norm": 0.006157251845582204,
      "learning_rate": 2.3232560858700137e-05,
      "loss": 0.0006,
      "step": 71
    },
    {
      "epoch": 1.1612903225806452,
      "grad_norm": 0.18779985997974008,
      "learning_rate": 2.2527567490893758e-05,
      "loss": 0.0231,
      "step": 72
    },
    {
      "epoch": 1.1774193548387097,
      "grad_norm": 0.022573645998121825,
      "learning_rate": 2.182455450632803e-05,
      "loss": 0.003,
      "step": 73
    },
    {
      "epoch": 1.1935483870967742,
      "grad_norm": 0.08416329471372469,
      "learning_rate": 2.1124085008395054e-05,
      "loss": 0.0062,
      "step": 74
    },
    {
      "epoch": 1.2096774193548387,
      "grad_norm": 0.3658413935358036,
      "learning_rate": 2.0426720063190335e-05,
      "loss": 0.0687,
      "step": 75
    },
    {
      "epoch": 1.2258064516129032,
      "grad_norm": 0.007023587552511276,
      "learning_rate": 1.973301825010685e-05,
      "loss": 0.0008,
      "step": 76
    },
    {
      "epoch": 1.2419354838709677,
      "grad_norm": 0.008237771794919578,
      "learning_rate": 1.904353521442088e-05,
      "loss": 0.001,
      "step": 77
    },
    {
      "epoch": 1.2580645161290323,
      "grad_norm": 0.4556804213758137,
      "learning_rate": 1.8358823222228097e-05,
      "loss": 0.1366,
      "step": 78
    },
    {
      "epoch": 1.2741935483870968,
      "grad_norm": 0.01486603697489332,
      "learning_rate": 1.7679430718086243e-05,
      "loss": 0.0009,
      "step": 79
    },
    {
      "epoch": 1.2903225806451613,
      "grad_norm": 0.052596665177560196,
      "learning_rate": 1.700590188571887e-05,
      "loss": 0.0041,
      "step": 80
    },
    {
      "epoch": 1.3064516129032258,
      "grad_norm": 0.0034866521389545417,
      "learning_rate": 1.633877621213192e-05,
      "loss": 0.0004,
      "step": 81
    },
    {
      "epoch": 1.3225806451612903,
      "grad_norm": 0.02037772730198836,
      "learning_rate": 1.567858805549229e-05,
      "loss": 0.0023,
      "step": 82
    },
    {
      "epoch": 1.3387096774193548,
      "grad_norm": 0.023560478171775315,
      "learning_rate": 1.5025866217114592e-05,
      "loss": 0.003,
      "step": 83
    },
    {
      "epoch": 1.3548387096774195,
      "grad_norm": 0.5800067248037808,
      "learning_rate": 1.4381133517898804e-05,
      "loss": 0.0956,
      "step": 84
    },
    {
      "epoch": 1.370967741935484,
      "grad_norm": 0.007274312879820754,
      "learning_rate": 1.3744906379558165e-05,
      "loss": 0.0008,
      "step": 85
    },
    {
      "epoch": 1.3870967741935485,
      "grad_norm": 0.011466383034478528,
      "learning_rate": 1.3117694410972748e-05,
      "loss": 0.001,
      "step": 86
    },
    {
      "epoch": 1.403225806451613,
      "grad_norm": 0.007281993194709086,
      "learning_rate": 1.2500000000000006e-05,
      "loss": 0.0009,
      "step": 87
    },
    {
      "epoch": 1.4193548387096775,
      "grad_norm": 0.010779971803092784,
      "learning_rate": 1.1892317911069212e-05,
      "loss": 0.0014,
      "step": 88
    },
    {
      "epoch": 1.435483870967742,
      "grad_norm": 0.007948414969025897,
      "learning_rate": 1.1295134888882258e-05,
      "loss": 0.0007,
      "step": 89
    },
    {
      "epoch": 1.4516129032258065,
      "grad_norm": 0.00594619676101569,
      "learning_rate": 1.0708929268538034e-05,
      "loss": 0.0005,
      "step": 90
    },
    {
      "epoch": 1.467741935483871,
      "grad_norm": 0.007532620585938758,
      "learning_rate": 1.0134170592392836e-05,
      "loss": 0.0007,
      "step": 91
    },
    {
      "epoch": 1.4838709677419355,
      "grad_norm": 0.01539324317163136,
      "learning_rate": 9.571319233963627e-06,
      "loss": 0.0018,
      "step": 92
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.010377126431240037,
      "learning_rate": 9.020826029175384e-06,
      "loss": 0.0008,
      "step": 93
    },
    {
      "epoch": 1.5161290322580645,
      "grad_norm": 0.008726215965850605,
      "learning_rate": 8.483131915247968e-06,
      "loss": 0.0007,
      "step": 94
    },
    {
      "epoch": 1.532258064516129,
      "grad_norm": 0.0051877868593310115,
      "learning_rate": 7.958667577511683e-06,
      "loss": 0.0004,
      "step": 95
    },
    {
      "epoch": 1.5483870967741935,
      "grad_norm": 0.0059293675919928745,
      "learning_rate": 7.447853104434438e-06,
      "loss": 0.0005,
      "step": 96
    },
    {
      "epoch": 1.564516129032258,
      "grad_norm": 0.027700675189207956,
      "learning_rate": 6.951097651136889e-06,
      "loss": 0.0018,
      "step": 97
    },
    {
      "epoch": 1.5806451612903225,
      "grad_norm": 0.01680378393703436,
      "learning_rate": 6.468799111665003e-06,
      "loss": 0.0014,
      "step": 98
    },
    {
      "epoch": 1.596774193548387,
      "grad_norm": 0.16491338518856233,
      "learning_rate": 6.001343800282569e-06,
      "loss": 0.0138,
      "step": 99
    },
    {
      "epoch": 1.6129032258064515,
      "grad_norm": 0.01605626983529916,
      "learning_rate": 5.549106142039018e-06,
      "loss": 0.002,
      "step": 100
    },
    {
      "epoch": 1.629032258064516,
      "grad_norm": 0.01891833703392061,
      "learning_rate": 5.112448372860257e-06,
      "loss": 0.0024,
      "step": 101
    },
    {
      "epoch": 1.6451612903225805,
      "grad_norm": 0.009416069224597926,
      "learning_rate": 4.691720249402856e-06,
      "loss": 0.001,
      "step": 102
    },
    {
      "epoch": 1.661290322580645,
      "grad_norm": 0.3563118487055531,
      "learning_rate": 4.2872587689039484e-06,
      "loss": 0.1358,
      "step": 103
    },
    {
      "epoch": 1.6774193548387095,
      "grad_norm": 0.005096562095039962,
      "learning_rate": 3.8993878992512415e-06,
      "loss": 0.0004,
      "step": 104
    },
    {
      "epoch": 1.6935483870967742,
      "grad_norm": 0.007830336517252736,
      "learning_rate": 3.5284183194893488e-06,
      "loss": 0.0007,
      "step": 105
    },
    {
      "epoch": 1.7096774193548387,
      "grad_norm": 0.013965237343837126,
      "learning_rate": 3.1746471709702964e-06,
      "loss": 0.0014,
      "step": 106
    },
    {
      "epoch": 1.7258064516129032,
      "grad_norm": 0.02298801452590241,
      "learning_rate": 2.8383578193475315e-06,
      "loss": 0.0018,
      "step": 107
    },
    {
      "epoch": 1.7419354838709677,
      "grad_norm": 0.009187189071706762,
      "learning_rate": 2.5198196276040782e-06,
      "loss": 0.001,
      "step": 108
    },
    {
      "epoch": 1.7580645161290323,
      "grad_norm": 0.010354328804946111,
      "learning_rate": 2.219287740296605e-06,
      "loss": 0.0009,
      "step": 109
    },
    {
      "epoch": 1.7741935483870968,
      "grad_norm": 0.007151865676166657,
      "learning_rate": 1.937002879188285e-06,
      "loss": 0.0006,
      "step": 110
    },
    {
      "epoch": 1.7903225806451613,
      "grad_norm": 0.1759981695872237,
      "learning_rate": 1.673191150434067e-06,
      "loss": 0.0886,
      "step": 111
    },
    {
      "epoch": 1.8064516129032258,
      "grad_norm": 0.0272671134843903,
      "learning_rate": 1.428063863472895e-06,
      "loss": 0.0026,
      "step": 112
    },
    {
      "epoch": 1.8225806451612905,
      "grad_norm": 0.0050597419692108795,
      "learning_rate": 1.201817361771837e-06,
      "loss": 0.0005,
      "step": 113
    },
    {
      "epoch": 1.838709677419355,
      "grad_norm": 0.4608494219069122,
      "learning_rate": 9.946328655577624e-07,
      "loss": 0.153,
      "step": 114
    },
    {
      "epoch": 1.8548387096774195,
      "grad_norm": 0.017137230085071634,
      "learning_rate": 8.066763266625282e-07,
      "loss": 0.0013,
      "step": 115
    },
    {
      "epoch": 1.870967741935484,
      "grad_norm": 0.016996637175499124,
      "learning_rate": 6.380982955979192e-07,
      "loss": 0.0011,
      "step": 116
    },
    {
      "epoch": 1.8870967741935485,
      "grad_norm": 0.002472494235541755,
      "learning_rate": 4.890338009668316e-07,
      "loss": 0.0002,
      "step": 117
    },
    {
      "epoch": 1.903225806451613,
      "grad_norm": 0.006453055234927035,
      "learning_rate": 3.5960224130728857e-07,
      "loss": 0.0004,
      "step": 118
    },
    {
      "epoch": 1.9193548387096775,
      "grad_norm": 0.03558821208691723,
      "learning_rate": 2.499072894559057e-07,
      "loss": 0.0037,
      "step": 119
    },
    {
      "epoch": 1.935483870967742,
      "grad_norm": 0.025516814869995765,
      "learning_rate": 1.6003680950742728e-07,
      "loss": 0.002,
      "step": 120
    },
    {
      "epoch": 1.9516129032258065,
      "grad_norm": 0.1739085634409726,
      "learning_rate": 9.006278643683696e-08,
      "loss": 0.0161,
      "step": 121
    },
    {
      "epoch": 1.967741935483871,
      "grad_norm": 0.023848464119394314,
      "learning_rate": 4.004126844042444e-08,
      "loss": 0.0021,
      "step": 122
    },
    {
      "epoch": 1.9838709677419355,
      "grad_norm": 0.20370786905721952,
      "learning_rate": 1.0012322041960676e-08,
      "loss": 0.0286,
      "step": 123
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.0052849892275384286,
      "learning_rate": 0.0,
      "loss": 0.0005,
      "step": 124
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.7593241333961487,
      "eval_runtime": 1.4335,
      "eval_samples_per_second": 0.698,
      "eval_steps_per_second": 0.698,
      "step": 124
    },
    {
      "epoch": 2.0,
      "step": 124,
      "total_flos": 324063068160.0,
      "train_loss": 0.08186401170326374,
      "train_runtime": 217.0262,
      "train_samples_per_second": 1.143,
      "train_steps_per_second": 0.571
    }
  ],
  "logging_steps": 1,
  "max_steps": 124,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 324063068160.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}