{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.15009081402388685,
  "eval_steps": 500,
  "global_step": 2727,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.503880235566074e-05,
      "grad_norm": 459.8753356933594,
      "learning_rate": 1.0000000000000001e-07,
      "loss": 3.303,
      "step": 1
    },
    {
      "epoch": 0.00011007760471132149,
      "grad_norm": 314.2561950683594,
      "learning_rate": 2.0000000000000002e-07,
      "loss": 2.8226,
      "step": 2
    },
    {
      "epoch": 0.0001651164070669822,
      "grad_norm": 314.1292419433594,
      "learning_rate": 3.0000000000000004e-07,
      "loss": 2.8517,
      "step": 3
    },
    {
      "epoch": 0.00022015520942264297,
      "grad_norm": 312.4049072265625,
      "learning_rate": 4.0000000000000003e-07,
      "loss": 2.6248,
      "step": 4
    },
    {
      "epoch": 0.0002751940117783037,
      "grad_norm": 353.7213134765625,
      "learning_rate": 5.000000000000001e-07,
      "loss": 2.7883,
      "step": 5
    },
    {
      "epoch": 0.0003302328141339644,
      "grad_norm": 278.41668701171875,
      "learning_rate": 6.000000000000001e-07,
      "loss": 2.5468,
      "step": 6
    },
    {
      "epoch": 0.0003852716164896252,
      "grad_norm": 336.14532470703125,
      "learning_rate": 7.000000000000001e-07,
      "loss": 2.7721,
      "step": 7
    },
    {
      "epoch": 0.00044031041884528595,
      "grad_norm": 201.19374084472656,
      "learning_rate": 8.000000000000001e-07,
      "loss": 2.4873,
      "step": 8
    },
    {
      "epoch": 0.0004953492212009466,
      "grad_norm": 184.7027587890625,
      "learning_rate": 9.000000000000001e-07,
      "loss": 2.6647,
      "step": 9
    },
    {
      "epoch": 0.0005503880235566074,
      "grad_norm": 154.597412109375,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 2.602,
      "step": 10
    },
    {
      "epoch": 0.0006054268259122681,
      "grad_norm": 40.47785568237305,
      "learning_rate": 1.1e-06,
      "loss": 2.6716,
      "step": 11
    },
    {
      "epoch": 0.0006604656282679288,
      "grad_norm": 25.338607788085938,
      "learning_rate": 1.2000000000000002e-06,
      "loss": 2.2631,
      "step": 12
    },
    {
      "epoch": 0.0007155044306235897,
      "grad_norm": 24.976919174194336,
      "learning_rate": 1.3e-06,
      "loss": 2.3564,
      "step": 13
    },
    {
      "epoch": 0.0007705432329792504,
      "grad_norm": 15.239912033081055,
      "learning_rate": 1.4000000000000001e-06,
      "loss": 2.3295,
      "step": 14
    },
    {
      "epoch": 0.0008255820353349112,
      "grad_norm": 14.125042915344238,
      "learning_rate": 1.5e-06,
      "loss": 2.307,
      "step": 15
    },
    {
      "epoch": 0.0008806208376905719,
      "grad_norm": 13.163726806640625,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 2.1493,
      "step": 16
    },
    {
      "epoch": 0.0009356596400462326,
      "grad_norm": 8.726515769958496,
      "learning_rate": 1.7000000000000002e-06,
      "loss": 2.0333,
      "step": 17
    },
    {
      "epoch": 0.0009906984424018933,
      "grad_norm": 9.072502136230469,
      "learning_rate": 1.8000000000000001e-06,
      "loss": 2.2046,
      "step": 18
    },
    {
      "epoch": 0.001045737244757554,
      "grad_norm": 9.412588119506836,
      "learning_rate": 1.9000000000000002e-06,
      "loss": 2.2001,
      "step": 19
    },
    {
      "epoch": 0.0011007760471132147,
      "grad_norm": 8.67534065246582,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 1.7679,
      "step": 20
    },
    {
      "epoch": 0.0011558148494688755,
      "grad_norm": 14.015918731689453,
      "learning_rate": 2.1000000000000002e-06,
      "loss": 1.9566,
      "step": 21
    },
    {
      "epoch": 0.0012108536518245362,
      "grad_norm": 7.9474687576293945,
      "learning_rate": 2.2e-06,
      "loss": 1.9085,
      "step": 22
    },
    {
      "epoch": 0.001265892454180197,
      "grad_norm": 6.806368350982666,
      "learning_rate": 2.3000000000000004e-06,
      "loss": 1.7918,
      "step": 23
    },
    {
      "epoch": 0.0013209312565358577,
      "grad_norm": 5.3452582359313965,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 1.8321,
      "step": 24
    },
    {
      "epoch": 0.0013759700588915184,
      "grad_norm": 8.744244575500488,
      "learning_rate": 2.5e-06,
      "loss": 1.6317,
      "step": 25
    },
    {
      "epoch": 0.0014310088612471794,
      "grad_norm": 5.304683685302734,
      "learning_rate": 2.6e-06,
      "loss": 1.6846,
      "step": 26
    },
    {
      "epoch": 0.00148604766360284,
      "grad_norm": 5.650127410888672,
      "learning_rate": 2.7000000000000004e-06,
      "loss": 1.7449,
      "step": 27
    },
    {
      "epoch": 0.0015410864659585008,
      "grad_norm": 5.479269504547119,
      "learning_rate": 2.8000000000000003e-06,
      "loss": 1.8158,
      "step": 28
    },
    {
      "epoch": 0.0015961252683141616,
      "grad_norm": 4.873537063598633,
      "learning_rate": 2.9e-06,
      "loss": 1.8015,
      "step": 29
    },
    {
      "epoch": 0.0016511640706698223,
      "grad_norm": 4.971101760864258,
      "learning_rate": 3e-06,
      "loss": 1.9034,
      "step": 30
    },
    {
      "epoch": 0.001706202873025483,
      "grad_norm": 4.407571315765381,
      "learning_rate": 3.1000000000000004e-06,
      "loss": 1.9037,
      "step": 31
    },
    {
      "epoch": 0.0017612416753811438,
      "grad_norm": 4.429073810577393,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 1.6812,
      "step": 32
    },
    {
      "epoch": 0.0018162804777368045,
      "grad_norm": 5.16085147857666,
      "learning_rate": 3.3000000000000006e-06,
      "loss": 1.7627,
      "step": 33
    },
    {
      "epoch": 0.0018713192800924653,
      "grad_norm": 4.0805768966674805,
      "learning_rate": 3.4000000000000005e-06,
      "loss": 1.6799,
      "step": 34
    },
    {
      "epoch": 0.001926358082448126,
      "grad_norm": 4.548702239990234,
      "learning_rate": 3.5e-06,
      "loss": 1.7799,
      "step": 35
    },
    {
      "epoch": 0.0019813968848037865,
      "grad_norm": 5.181888580322266,
      "learning_rate": 3.6000000000000003e-06,
      "loss": 1.8235,
      "step": 36
    },
    {
      "epoch": 0.0020364356871594475,
      "grad_norm": 3.9876129627227783,
      "learning_rate": 3.7e-06,
      "loss": 1.5999,
      "step": 37
    },
    {
      "epoch": 0.002091474489515108,
      "grad_norm": 6.325051307678223,
      "learning_rate": 3.8000000000000005e-06,
      "loss": 1.7499,
      "step": 38
    },
    {
      "epoch": 0.002146513291870769,
      "grad_norm": 6.199049949645996,
      "learning_rate": 3.900000000000001e-06,
      "loss": 1.784,
      "step": 39
    },
    {
      "epoch": 0.0022015520942264295,
      "grad_norm": 4.83912992477417,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.8895,
      "step": 40
    },
    {
      "epoch": 0.0022565908965820904,
      "grad_norm": 4.515626907348633,
      "learning_rate": 4.1e-06,
      "loss": 1.4887,
      "step": 41
    },
    {
      "epoch": 0.002311629698937751,
      "grad_norm": 5.032265663146973,
      "learning_rate": 4.2000000000000004e-06,
      "loss": 1.7324,
      "step": 42
    },
    {
      "epoch": 0.002366668501293412,
      "grad_norm": 4.1879048347473145,
      "learning_rate": 4.3e-06,
      "loss": 1.4912,
      "step": 43
    },
    {
      "epoch": 0.0024217073036490724,
      "grad_norm": 4.128026485443115,
      "learning_rate": 4.4e-06,
      "loss": 1.554,
      "step": 44
    },
    {
      "epoch": 0.0024767461060047334,
      "grad_norm": 4.527958393096924,
      "learning_rate": 4.5e-06,
      "loss": 1.652,
      "step": 45
    },
    {
      "epoch": 0.002531784908360394,
      "grad_norm": 4.8388190269470215,
      "learning_rate": 4.600000000000001e-06,
      "loss": 1.6696,
      "step": 46
    },
    {
      "epoch": 0.002586823710716055,
      "grad_norm": 4.2088541984558105,
      "learning_rate": 4.7e-06,
      "loss": 1.568,
      "step": 47
    },
    {
      "epoch": 0.0026418625130717154,
      "grad_norm": 4.789997577667236,
      "learning_rate": 4.800000000000001e-06,
      "loss": 1.642,
      "step": 48
    },
    {
      "epoch": 0.0026969013154273763,
      "grad_norm": 4.408346652984619,
      "learning_rate": 4.9000000000000005e-06,
      "loss": 1.5181,
      "step": 49
    },
    {
      "epoch": 0.002751940117783037,
      "grad_norm": 4.572340488433838,
      "learning_rate": 5e-06,
      "loss": 1.6698,
      "step": 50
    },
    {
      "epoch": 0.0028069789201386978,
      "grad_norm": 4.728564739227295,
      "learning_rate": 5.1e-06,
      "loss": 1.5785,
      "step": 51
    },
    {
      "epoch": 0.0028620177224943587,
      "grad_norm": 4.449855327606201,
      "learning_rate": 5.2e-06,
      "loss": 1.4624,
      "step": 52
    },
    {
      "epoch": 0.0029170565248500193,
      "grad_norm": 4.127189636230469,
      "learning_rate": 5.300000000000001e-06,
      "loss": 1.6061,
      "step": 53
    },
    {
      "epoch": 0.00297209532720568,
      "grad_norm": 4.244532108306885,
      "learning_rate": 5.400000000000001e-06,
      "loss": 1.491,
      "step": 54
    },
    {
      "epoch": 0.0030271341295613407,
      "grad_norm": 3.437682628631592,
      "learning_rate": 5.500000000000001e-06,
      "loss": 1.1967,
      "step": 55
    },
    {
      "epoch": 0.0030821729319170017,
      "grad_norm": 3.83516788482666,
      "learning_rate": 5.600000000000001e-06,
      "loss": 1.4731,
      "step": 56
    },
    {
      "epoch": 0.003137211734272662,
      "grad_norm": 3.9108972549438477,
      "learning_rate": 5.7e-06,
      "loss": 1.4393,
      "step": 57
    },
    {
      "epoch": 0.003192250536628323,
      "grad_norm": 3.5258419513702393,
      "learning_rate": 5.8e-06,
      "loss": 1.4206,
      "step": 58
    },
    {
      "epoch": 0.0032472893389839837,
      "grad_norm": 4.124903678894043,
      "learning_rate": 5.9e-06,
      "loss": 1.4747,
      "step": 59
    },
    {
      "epoch": 0.0033023281413396446,
      "grad_norm": 4.055769920349121,
      "learning_rate": 6e-06,
      "loss": 1.4655,
      "step": 60
    },
    {
      "epoch": 0.003357366943695305,
      "grad_norm": 3.904837131500244,
      "learning_rate": 6.1e-06,
      "loss": 1.5125,
      "step": 61
    },
    {
      "epoch": 0.003412405746050966,
      "grad_norm": 3.2904794216156006,
      "learning_rate": 6.200000000000001e-06,
      "loss": 1.4596,
      "step": 62
    },
    {
      "epoch": 0.0034674445484066266,
      "grad_norm": 3.24053692817688,
      "learning_rate": 6.300000000000001e-06,
      "loss": 1.3851,
      "step": 63
    },
    {
      "epoch": 0.0035224833507622876,
      "grad_norm": 3.457639217376709,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 1.4019,
      "step": 64
    },
    {
      "epoch": 0.003577522153117948,
      "grad_norm": 3.073054790496826,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 1.2872,
      "step": 65
    },
    {
      "epoch": 0.003632560955473609,
      "grad_norm": 2.6726694107055664,
      "learning_rate": 6.600000000000001e-06,
      "loss": 1.2361,
      "step": 66
    },
    {
      "epoch": 0.0036875997578292696,
      "grad_norm": 2.9378459453582764,
      "learning_rate": 6.700000000000001e-06,
      "loss": 1.4452,
      "step": 67
    },
    {
      "epoch": 0.0037426385601849305,
      "grad_norm": 2.81107234954834,
      "learning_rate": 6.800000000000001e-06,
      "loss": 1.4804,
      "step": 68
    },
    {
      "epoch": 0.003797677362540591,
      "grad_norm": 2.60062313079834,
      "learning_rate": 6.9e-06,
      "loss": 1.3263,
      "step": 69
    },
    {
      "epoch": 0.003852716164896252,
      "grad_norm": 2.5642921924591064,
      "learning_rate": 7e-06,
      "loss": 1.2751,
      "step": 70
    },
    {
      "epoch": 0.0039077549672519125,
      "grad_norm": 2.3608031272888184,
      "learning_rate": 7.100000000000001e-06,
      "loss": 1.2614,
      "step": 71
    },
    {
      "epoch": 0.003962793769607573,
      "grad_norm": 2.7201738357543945,
      "learning_rate": 7.2000000000000005e-06,
      "loss": 1.5018,
      "step": 72
    },
    {
      "epoch": 0.004017832571963234,
      "grad_norm": 2.584726095199585,
      "learning_rate": 7.3e-06,
      "loss": 1.3519,
      "step": 73
    },
    {
      "epoch": 0.004072871374318895,
      "grad_norm": 1.9693044424057007,
      "learning_rate": 7.4e-06,
      "loss": 1.0934,
      "step": 74
    },
    {
      "epoch": 0.0041279101766745555,
      "grad_norm": 2.220736503601074,
      "learning_rate": 7.500000000000001e-06,
      "loss": 1.4687,
      "step": 75
    },
    {
      "epoch": 0.004182948979030216,
      "grad_norm": 2.2629456520080566,
      "learning_rate": 7.600000000000001e-06,
      "loss": 1.3328,
      "step": 76
    },
    {
      "epoch": 0.004237987781385877,
      "grad_norm": 2.051820993423462,
      "learning_rate": 7.7e-06,
      "loss": 1.3058,
      "step": 77
    },
    {
      "epoch": 0.004293026583741538,
      "grad_norm": 2.2451820373535156,
      "learning_rate": 7.800000000000002e-06,
      "loss": 1.3556,
      "step": 78
    },
    {
      "epoch": 0.004348065386097198,
      "grad_norm": 3.13584303855896,
      "learning_rate": 7.9e-06,
      "loss": 1.3262,
      "step": 79
    },
    {
      "epoch": 0.004403104188452859,
      "grad_norm": 5.024479866027832,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.2103,
      "step": 80
    },
    {
      "epoch": 0.00445814299080852,
      "grad_norm": 2.070889711380005,
      "learning_rate": 8.1e-06,
      "loss": 1.1994,
      "step": 81
    },
    {
      "epoch": 0.004513181793164181,
      "grad_norm": 2.797286033630371,
      "learning_rate": 8.2e-06,
      "loss": 1.3075,
      "step": 82
    },
    {
      "epoch": 0.004568220595519841,
      "grad_norm": 2.11370849609375,
      "learning_rate": 8.3e-06,
      "loss": 1.36,
      "step": 83
    },
    {
      "epoch": 0.004623259397875502,
      "grad_norm": 2.5416152477264404,
      "learning_rate": 8.400000000000001e-06,
      "loss": 1.3484,
      "step": 84
    },
    {
      "epoch": 0.004678298200231163,
      "grad_norm": 2.4702343940734863,
      "learning_rate": 8.5e-06,
      "loss": 1.3677,
      "step": 85
    },
    {
      "epoch": 0.004733337002586824,
      "grad_norm": 3.670365333557129,
      "learning_rate": 8.6e-06,
      "loss": 1.2192,
      "step": 86
    },
    {
      "epoch": 0.004788375804942484,
      "grad_norm": 2.282954692840576,
      "learning_rate": 8.700000000000001e-06,
      "loss": 1.2982,
      "step": 87
    },
    {
      "epoch": 0.004843414607298145,
      "grad_norm": 2.3659238815307617,
      "learning_rate": 8.8e-06,
      "loss": 1.3206,
      "step": 88
    },
    {
      "epoch": 0.004898453409653806,
      "grad_norm": 4.939981460571289,
      "learning_rate": 8.900000000000001e-06,
      "loss": 1.4328,
      "step": 89
    },
    {
      "epoch": 0.004953492212009467,
      "grad_norm": 2.335858106613159,
      "learning_rate": 9e-06,
      "loss": 1.2603,
      "step": 90
    },
    {
      "epoch": 0.005008531014365127,
      "grad_norm": 2.2165043354034424,
      "learning_rate": 9.100000000000001e-06,
      "loss": 1.3141,
      "step": 91
    },
    {
      "epoch": 0.005063569816720788,
      "grad_norm": 2.7872185707092285,
      "learning_rate": 9.200000000000002e-06,
      "loss": 1.3314,
      "step": 92
    },
    {
      "epoch": 0.005118608619076449,
      "grad_norm": 2.6353912353515625,
      "learning_rate": 9.3e-06,
      "loss": 1.2027,
      "step": 93
    },
    {
      "epoch": 0.00517364742143211,
      "grad_norm": 3.2509102821350098,
      "learning_rate": 9.4e-06,
      "loss": 1.2316,
      "step": 94
    },
    {
      "epoch": 0.00522868622378777,
      "grad_norm": 2.4560611248016357,
      "learning_rate": 9.5e-06,
      "loss": 1.1848,
      "step": 95
    },
    {
      "epoch": 0.005283725026143431,
      "grad_norm": 2.338151216506958,
      "learning_rate": 9.600000000000001e-06,
      "loss": 1.2392,
      "step": 96
    },
    {
      "epoch": 0.005338763828499092,
      "grad_norm": 2.231065034866333,
      "learning_rate": 9.7e-06,
      "loss": 1.2089,
      "step": 97
    },
    {
      "epoch": 0.005393802630854753,
      "grad_norm": 2.278428077697754,
      "learning_rate": 9.800000000000001e-06,
      "loss": 1.2267,
      "step": 98
    },
    {
      "epoch": 0.005448841433210413,
      "grad_norm": 2.4422810077667236,
      "learning_rate": 9.9e-06,
      "loss": 1.2041,
      "step": 99
    },
    {
      "epoch": 0.005503880235566074,
      "grad_norm": 2.216248035430908,
      "learning_rate": 1e-05,
      "loss": 1.0798,
      "step": 100
    },
    {
      "epoch": 0.005558919037921735,
      "grad_norm": 2.3301615715026855,
      "learning_rate": 9.99999998121067e-06,
      "loss": 1.3069,
      "step": 101
    },
    {
      "epoch": 0.0056139578402773956,
      "grad_norm": 2.315436363220215,
      "learning_rate": 9.999999924842678e-06,
      "loss": 1.1589,
      "step": 102
    },
    {
      "epoch": 0.005668996642633056,
      "grad_norm": 2.3522140979766846,
      "learning_rate": 9.999999830896024e-06,
      "loss": 1.0978,
      "step": 103
    },
    {
      "epoch": 0.0057240354449887175,
      "grad_norm": 2.5798308849334717,
      "learning_rate": 9.99999969937071e-06,
      "loss": 1.0599,
      "step": 104
    },
    {
      "epoch": 0.005779074247344378,
      "grad_norm": 2.456644058227539,
      "learning_rate": 9.999999530266738e-06,
      "loss": 1.1682,
      "step": 105
    },
    {
      "epoch": 0.0058341130497000385,
      "grad_norm": 2.1559031009674072,
      "learning_rate": 9.999999323584106e-06,
      "loss": 1.0631,
      "step": 106
    },
    {
      "epoch": 0.005889151852055699,
      "grad_norm": 2.2985048294067383,
      "learning_rate": 9.99999907932282e-06,
      "loss": 1.1455,
      "step": 107
    },
    {
      "epoch": 0.00594419065441136,
      "grad_norm": 2.596167802810669,
      "learning_rate": 9.999998797482877e-06,
      "loss": 1.1686,
      "step": 108
    },
    {
      "epoch": 0.005999229456767021,
      "grad_norm": 2.378618001937866,
      "learning_rate": 9.999998478064283e-06,
      "loss": 1.2226,
      "step": 109
    },
    {
      "epoch": 0.0060542682591226814,
      "grad_norm": 2.228116750717163,
      "learning_rate": 9.999998121067038e-06,
      "loss": 1.1396,
      "step": 110
    },
    {
      "epoch": 0.006109307061478342,
      "grad_norm": 2.4419472217559814,
      "learning_rate": 9.999997726491146e-06,
      "loss": 1.1401,
      "step": 111
    },
    {
      "epoch": 0.006164345863834003,
      "grad_norm": 2.0695526599884033,
      "learning_rate": 9.999997294336608e-06,
      "loss": 1.1868,
      "step": 112
    },
    {
      "epoch": 0.006219384666189664,
      "grad_norm": 2.3170363903045654,
      "learning_rate": 9.99999682460343e-06,
      "loss": 1.1172,
      "step": 113
    },
    {
      "epoch": 0.006274423468545324,
      "grad_norm": 2.670466184616089,
      "learning_rate": 9.999996317291615e-06,
      "loss": 1.2481,
      "step": 114
    },
    {
      "epoch": 0.006329462270900985,
      "grad_norm": 2.1214540004730225,
      "learning_rate": 9.999995772401166e-06,
      "loss": 0.9994,
      "step": 115
    },
    {
      "epoch": 0.006384501073256646,
      "grad_norm": 1.9283969402313232,
      "learning_rate": 9.999995189932085e-06,
      "loss": 1.0692,
      "step": 116
    },
    {
      "epoch": 0.006439539875612307,
      "grad_norm": 2.2620882987976074,
      "learning_rate": 9.99999456988438e-06,
      "loss": 1.0725,
      "step": 117
    },
    {
      "epoch": 0.006494578677967967,
      "grad_norm": 2.2121341228485107,
      "learning_rate": 9.999993912258055e-06,
      "loss": 1.1328,
      "step": 118
    },
    {
      "epoch": 0.006549617480323628,
      "grad_norm": 2.298126220703125,
      "learning_rate": 9.999993217053113e-06,
      "loss": 1.1272,
      "step": 119
    },
    {
      "epoch": 0.006604656282679289,
      "grad_norm": 1.81593656539917,
      "learning_rate": 9.99999248426956e-06,
      "loss": 1.017,
      "step": 120
    },
    {
      "epoch": 0.00665969508503495,
      "grad_norm": 2.1174378395080566,
      "learning_rate": 9.999991713907403e-06,
      "loss": 1.0557,
      "step": 121
    },
    {
      "epoch": 0.00671473388739061,
      "grad_norm": 1.9061017036437988,
      "learning_rate": 9.999990905966647e-06,
      "loss": 1.0379,
      "step": 122
    },
    {
      "epoch": 0.006769772689746271,
      "grad_norm": 1.912500023841858,
      "learning_rate": 9.999990060447297e-06,
      "loss": 1.104,
      "step": 123
    },
    {
      "epoch": 0.006824811492101932,
      "grad_norm": 1.9249529838562012,
      "learning_rate": 9.99998917734936e-06,
      "loss": 1.0136,
      "step": 124
    },
    {
      "epoch": 0.006879850294457593,
      "grad_norm": 1.8504948616027832,
      "learning_rate": 9.999988256672843e-06,
      "loss": 0.99,
      "step": 125
    },
    {
      "epoch": 0.006934889096813253,
      "grad_norm": 1.720042109489441,
      "learning_rate": 9.999987298417753e-06,
      "loss": 1.0666,
      "step": 126
    },
    {
      "epoch": 0.006989927899168914,
      "grad_norm": 1.778251051902771,
      "learning_rate": 9.999986302584097e-06,
      "loss": 1.0424,
      "step": 127
    },
    {
      "epoch": 0.007044966701524575,
      "grad_norm": 1.9485961198806763,
      "learning_rate": 9.999985269171881e-06,
      "loss": 1.105,
      "step": 128
    },
    {
      "epoch": 0.007100005503880236,
      "grad_norm": 3.0802104473114014,
      "learning_rate": 9.999984198181114e-06,
      "loss": 1.1081,
      "step": 129
    },
    {
      "epoch": 0.007155044306235896,
      "grad_norm": 1.7476954460144043,
      "learning_rate": 9.999983089611806e-06,
      "loss": 0.9677,
      "step": 130
    },
    {
      "epoch": 0.007210083108591557,
      "grad_norm": 1.6127299070358276,
      "learning_rate": 9.999981943463963e-06,
      "loss": 0.9937,
      "step": 131
    },
    {
      "epoch": 0.007265121910947218,
      "grad_norm": 2.1477208137512207,
      "learning_rate": 9.999980759737594e-06,
      "loss": 1.0319,
      "step": 132
    },
    {
      "epoch": 0.007320160713302879,
      "grad_norm": 1.531163215637207,
      "learning_rate": 9.999979538432707e-06,
      "loss": 0.8696,
      "step": 133
    },
    {
      "epoch": 0.007375199515658539,
      "grad_norm": 1.8226820230484009,
      "learning_rate": 9.999978279549313e-06,
      "loss": 1.2061,
      "step": 134
    },
    {
      "epoch": 0.0074302383180142,
      "grad_norm": 1.481895923614502,
      "learning_rate": 9.99997698308742e-06,
      "loss": 0.949,
      "step": 135
    },
    {
      "epoch": 0.007485277120369861,
      "grad_norm": 1.6715927124023438,
      "learning_rate": 9.99997564904704e-06,
      "loss": 1.1579,
      "step": 136
    },
    {
      "epoch": 0.0075403159227255215,
      "grad_norm": 1.4235272407531738,
      "learning_rate": 9.999974277428179e-06,
      "loss": 1.064,
      "step": 137
    },
    {
      "epoch": 0.007595354725081182,
      "grad_norm": 1.3524872064590454,
      "learning_rate": 9.999972868230852e-06,
      "loss": 0.9141,
      "step": 138
    },
    {
      "epoch": 0.007650393527436843,
      "grad_norm": 1.3741765022277832,
      "learning_rate": 9.999971421455066e-06,
      "loss": 1.0256,
      "step": 139
    },
    {
      "epoch": 0.007705432329792504,
      "grad_norm": 1.9869598150253296,
      "learning_rate": 9.999969937100835e-06,
      "loss": 0.9489,
      "step": 140
    },
    {
      "epoch": 0.0077604711321481645,
      "grad_norm": 1.4785465002059937,
      "learning_rate": 9.999968415168166e-06,
      "loss": 0.9243,
      "step": 141
    },
    {
      "epoch": 0.007815509934503825,
      "grad_norm": 1.5476176738739014,
      "learning_rate": 9.999966855657074e-06,
      "loss": 1.178,
      "step": 142
    },
    {
      "epoch": 0.007870548736859486,
      "grad_norm": 1.500401258468628,
      "learning_rate": 9.99996525856757e-06,
      "loss": 0.9837,
      "step": 143
    },
    {
      "epoch": 0.007925587539215146,
      "grad_norm": 1.3777157068252563,
      "learning_rate": 9.999963623899664e-06,
      "loss": 1.0732,
      "step": 144
    },
    {
      "epoch": 0.007980626341570807,
      "grad_norm": 1.4466841220855713,
      "learning_rate": 9.99996195165337e-06,
      "loss": 0.9779,
      "step": 145
    },
    {
      "epoch": 0.008035665143926469,
      "grad_norm": 1.5304051637649536,
      "learning_rate": 9.9999602418287e-06,
      "loss": 1.196,
      "step": 146
    },
    {
      "epoch": 0.008090703946282128,
      "grad_norm": 1.9012362957000732,
      "learning_rate": 9.99995849442567e-06,
      "loss": 0.9797,
      "step": 147
    },
    {
      "epoch": 0.00814574274863779,
      "grad_norm": 1.430679202079773,
      "learning_rate": 9.999956709444289e-06,
      "loss": 0.9869,
      "step": 148
    },
    {
      "epoch": 0.00820078155099345,
      "grad_norm": 1.3489817380905151,
      "learning_rate": 9.99995488688457e-06,
      "loss": 1.0137,
      "step": 149
    },
    {
      "epoch": 0.008255820353349111,
      "grad_norm": 1.1878125667572021,
      "learning_rate": 9.999953026746531e-06,
      "loss": 0.9355,
      "step": 150
    },
    {
      "epoch": 0.008310859155704772,
      "grad_norm": 1.3481942415237427,
      "learning_rate": 9.999951129030182e-06,
      "loss": 1.1235,
      "step": 151
    },
    {
      "epoch": 0.008365897958060432,
      "grad_norm": 1.7335314750671387,
      "learning_rate": 9.999949193735539e-06,
      "loss": 0.9382,
      "step": 152
    },
    {
      "epoch": 0.008420936760416093,
      "grad_norm": 1.2029480934143066,
      "learning_rate": 9.999947220862615e-06,
      "loss": 0.9419,
      "step": 153
    },
    {
      "epoch": 0.008475975562771755,
      "grad_norm": 1.2104203701019287,
      "learning_rate": 9.999945210411428e-06,
      "loss": 0.9196,
      "step": 154
    },
    {
      "epoch": 0.008531014365127414,
      "grad_norm": 1.1857126951217651,
      "learning_rate": 9.999943162381991e-06,
      "loss": 0.9421,
      "step": 155
    },
    {
      "epoch": 0.008586053167483076,
      "grad_norm": 1.115027904510498,
      "learning_rate": 9.999941076774319e-06,
      "loss": 0.9634,
      "step": 156
    },
    {
      "epoch": 0.008641091969838737,
      "grad_norm": 1.4227553606033325,
      "learning_rate": 9.999938953588428e-06,
      "loss": 1.0036,
      "step": 157
    },
    {
      "epoch": 0.008696130772194397,
      "grad_norm": 1.2913776636123657,
      "learning_rate": 9.999936792824334e-06,
      "loss": 0.9232,
      "step": 158
    },
    {
      "epoch": 0.008751169574550058,
      "grad_norm": 1.2817318439483643,
      "learning_rate": 9.999934594482055e-06,
      "loss": 0.9691,
      "step": 159
    },
    {
      "epoch": 0.008806208376905718,
      "grad_norm": 1.5647841691970825,
      "learning_rate": 9.999932358561604e-06,
      "loss": 1.1842,
      "step": 160
    },
    {
      "epoch": 0.00886124717926138,
      "grad_norm": 1.368135929107666,
      "learning_rate": 9.999930085063002e-06,
      "loss": 1.0873,
      "step": 161
    },
    {
      "epoch": 0.00891628598161704,
      "grad_norm": 1.2297240495681763,
      "learning_rate": 9.999927773986262e-06,
      "loss": 1.0778,
      "step": 162
    },
    {
      "epoch": 0.0089713247839727,
      "grad_norm": 1.0658279657363892,
      "learning_rate": 9.999925425331405e-06,
      "loss": 0.9008,
      "step": 163
    },
    {
      "epoch": 0.009026363586328362,
      "grad_norm": 1.3484326601028442,
      "learning_rate": 9.999923039098445e-06,
      "loss": 1.0664,
      "step": 164
    },
    {
      "epoch": 0.009081402388684023,
      "grad_norm": 1.1839075088500977,
      "learning_rate": 9.999920615287401e-06,
      "loss": 0.9257,
      "step": 165
    },
    {
      "epoch": 0.009136441191039683,
      "grad_norm": 1.2757254838943481,
      "learning_rate": 9.999918153898295e-06,
      "loss": 0.9473,
      "step": 166
    },
    {
      "epoch": 0.009191479993395344,
      "grad_norm": 1.2414579391479492,
      "learning_rate": 9.99991565493114e-06,
      "loss": 1.1091,
      "step": 167
    },
    {
      "epoch": 0.009246518795751004,
      "grad_norm": 1.2802611589431763,
      "learning_rate": 9.999913118385959e-06,
      "loss": 1.063,
      "step": 168
    },
    {
      "epoch": 0.009301557598106665,
      "grad_norm": 1.2055327892303467,
      "learning_rate": 9.99991054426277e-06,
      "loss": 0.8,
      "step": 169
    },
    {
      "epoch": 0.009356596400462327,
      "grad_norm": 1.0391098260879517,
      "learning_rate": 9.99990793256159e-06,
      "loss": 0.8672,
      "step": 170
    },
    {
      "epoch": 0.009411635202817986,
      "grad_norm": 1.131536602973938,
      "learning_rate": 9.99990528328244e-06,
      "loss": 0.9569,
      "step": 171
    },
    {
      "epoch": 0.009466674005173648,
      "grad_norm": 1.164307951927185,
      "learning_rate": 9.999902596425342e-06,
      "loss": 0.9999,
      "step": 172
    },
    {
      "epoch": 0.009521712807529309,
      "grad_norm": 1.2099504470825195,
      "learning_rate": 9.999899871990313e-06,
      "loss": 0.9994,
      "step": 173
    },
    {
      "epoch": 0.009576751609884969,
      "grad_norm": 1.7294539213180542,
      "learning_rate": 9.999897109977376e-06,
      "loss": 1.0265,
      "step": 174
    },
    {
      "epoch": 0.00963179041224063,
      "grad_norm": 1.3009883165359497,
      "learning_rate": 9.99989431038655e-06,
      "loss": 0.9022,
      "step": 175
    },
    {
      "epoch": 0.00968682921459629,
      "grad_norm": 1.1014611721038818,
      "learning_rate": 9.999891473217857e-06,
      "loss": 0.8476,
      "step": 176
    },
    {
      "epoch": 0.009741868016951951,
      "grad_norm": 1.2410900592803955,
      "learning_rate": 9.99988859847132e-06,
      "loss": 1.0272,
      "step": 177
    },
    {
      "epoch": 0.009796906819307612,
      "grad_norm": 1.336348295211792,
      "learning_rate": 9.999885686146957e-06,
      "loss": 0.9456,
      "step": 178
    },
    {
      "epoch": 0.009851945621663272,
      "grad_norm": 1.2931095361709595,
      "learning_rate": 9.99988273624479e-06,
      "loss": 0.9554,
      "step": 179
    },
    {
      "epoch": 0.009906984424018933,
      "grad_norm": 1.2647838592529297,
      "learning_rate": 9.999879748764845e-06,
      "loss": 1.0394,
      "step": 180
    },
    {
      "epoch": 0.009962023226374595,
      "grad_norm": 1.3485127687454224,
      "learning_rate": 9.99987672370714e-06,
      "loss": 1.1016,
      "step": 181
    },
    {
      "epoch": 0.010017062028730254,
      "grad_norm": 1.110187292098999,
      "learning_rate": 9.999873661071702e-06,
      "loss": 0.946,
      "step": 182
    },
    {
      "epoch": 0.010072100831085916,
      "grad_norm": 1.0991623401641846,
      "learning_rate": 9.999870560858551e-06,
      "loss": 1.0084,
      "step": 183
    },
    {
      "epoch": 0.010127139633441576,
      "grad_norm": 1.049804449081421,
      "learning_rate": 9.999867423067713e-06,
      "loss": 0.8264,
      "step": 184
    },
    {
      "epoch": 0.010182178435797237,
      "grad_norm": 1.0947058200836182,
      "learning_rate": 9.999864247699207e-06,
      "loss": 0.8884,
      "step": 185
    },
    {
      "epoch": 0.010237217238152898,
      "grad_norm": 1.1147902011871338,
      "learning_rate": 9.999861034753061e-06,
      "loss": 0.9657,
      "step": 186
    },
    {
      "epoch": 0.010292256040508558,
      "grad_norm": 1.260027527809143,
      "learning_rate": 9.999857784229298e-06,
      "loss": 1.0102,
      "step": 187
    },
    {
      "epoch": 0.01034729484286422,
      "grad_norm": 1.1275582313537598,
      "learning_rate": 9.999854496127942e-06,
      "loss": 1.028,
      "step": 188
    },
    {
      "epoch": 0.01040233364521988,
      "grad_norm": 1.1377174854278564,
      "learning_rate": 9.999851170449018e-06,
      "loss": 1.032,
      "step": 189
    },
    {
      "epoch": 0.01045737244757554,
      "grad_norm": 1.1734225749969482,
      "learning_rate": 9.999847807192552e-06,
      "loss": 1.0009,
      "step": 190
    },
    {
      "epoch": 0.010512411249931202,
      "grad_norm": 1.1934596300125122,
      "learning_rate": 9.999844406358565e-06,
      "loss": 1.0432,
      "step": 191
    },
    {
      "epoch": 0.010567450052286861,
      "grad_norm": 1.0638024806976318,
      "learning_rate": 9.99984096794709e-06,
      "loss": 0.8651,
      "step": 192
    },
    {
      "epoch": 0.010622488854642523,
      "grad_norm": 1.2381829023361206,
      "learning_rate": 9.999837491958147e-06,
      "loss": 1.0088,
      "step": 193
    },
    {
      "epoch": 0.010677527656998184,
      "grad_norm": 1.030246615409851,
      "learning_rate": 9.999833978391763e-06,
      "loss": 0.9488,
      "step": 194
    },
    {
      "epoch": 0.010732566459353844,
      "grad_norm": 1.1640657186508179,
      "learning_rate": 9.999830427247965e-06,
      "loss": 1.0588,
      "step": 195
    },
    {
      "epoch": 0.010787605261709505,
      "grad_norm": 1.0431616306304932,
      "learning_rate": 9.99982683852678e-06,
      "loss": 0.8728,
      "step": 196
    },
    {
      "epoch": 0.010842644064065167,
      "grad_norm": 1.032263159751892,
      "learning_rate": 9.999823212228235e-06,
      "loss": 0.9498,
      "step": 197
    },
    {
      "epoch": 0.010897682866420826,
      "grad_norm": 1.1383745670318604,
      "learning_rate": 9.999819548352358e-06,
      "loss": 0.9498,
      "step": 198
    },
    {
      "epoch": 0.010952721668776488,
      "grad_norm": 1.1324639320373535,
      "learning_rate": 9.999815846899175e-06,
      "loss": 1.0432,
      "step": 199
    },
    {
      "epoch": 0.011007760471132147,
      "grad_norm": 1.188672661781311,
      "learning_rate": 9.999812107868714e-06,
      "loss": 0.982,
      "step": 200
    },
    {
      "epoch": 0.011062799273487809,
      "grad_norm": 1.1011098623275757,
      "learning_rate": 9.999808331261005e-06,
      "loss": 0.9587,
      "step": 201
    },
    {
      "epoch": 0.01111783807584347,
      "grad_norm": 1.1782938241958618,
      "learning_rate": 9.999804517076073e-06,
      "loss": 1.0659,
      "step": 202
    },
    {
      "epoch": 0.01117287687819913,
      "grad_norm": 1.0520117282867432,
      "learning_rate": 9.99980066531395e-06,
      "loss": 1.0056,
      "step": 203
    },
    {
      "epoch": 0.011227915680554791,
      "grad_norm": 1.1584919691085815,
      "learning_rate": 9.999796775974663e-06,
      "loss": 0.9435,
      "step": 204
    },
    {
      "epoch": 0.011282954482910452,
      "grad_norm": 1.2201849222183228,
      "learning_rate": 9.999792849058242e-06,
      "loss": 1.0562,
      "step": 205
    },
    {
      "epoch": 0.011337993285266112,
      "grad_norm": 1.2985976934432983,
      "learning_rate": 9.999788884564715e-06,
      "loss": 1.0126,
      "step": 206
    },
    {
      "epoch": 0.011393032087621774,
      "grad_norm": 0.9926307201385498,
      "learning_rate": 9.999784882494115e-06,
      "loss": 0.7875,
      "step": 207
    },
    {
      "epoch": 0.011448070889977435,
      "grad_norm": 1.103365182876587,
      "learning_rate": 9.99978084284647e-06,
      "loss": 0.9833,
      "step": 208
    },
    {
      "epoch": 0.011503109692333095,
      "grad_norm": 1.1798462867736816,
      "learning_rate": 9.99977676562181e-06,
      "loss": 0.8479,
      "step": 209
    },
    {
      "epoch": 0.011558148494688756,
      "grad_norm": 1.2887194156646729,
      "learning_rate": 9.999772650820168e-06,
      "loss": 0.9606,
      "step": 210
    },
    {
      "epoch": 0.011613187297044416,
      "grad_norm": 1.1120634078979492,
      "learning_rate": 9.99976849844157e-06,
      "loss": 0.9604,
      "step": 211
    },
    {
      "epoch": 0.011668226099400077,
      "grad_norm": 1.1248979568481445,
      "learning_rate": 9.999764308486052e-06,
      "loss": 0.9428,
      "step": 212
    },
    {
      "epoch": 0.011723264901755738,
      "grad_norm": 1.274610161781311,
      "learning_rate": 9.999760080953643e-06,
      "loss": 0.9044,
      "step": 213
    },
    {
      "epoch": 0.011778303704111398,
      "grad_norm": 1.1746865510940552,
      "learning_rate": 9.999755815844377e-06,
      "loss": 0.9114,
      "step": 214
    },
    {
      "epoch": 0.01183334250646706,
      "grad_norm": 1.2531086206436157,
      "learning_rate": 9.999751513158282e-06,
      "loss": 1.0785,
      "step": 215
    },
    {
      "epoch": 0.01188838130882272,
      "grad_norm": 1.0789539813995361,
      "learning_rate": 9.999747172895395e-06,
      "loss": 0.9794,
      "step": 216
    },
    {
      "epoch": 0.01194342011117838,
      "grad_norm": 1.1805329322814941,
      "learning_rate": 9.999742795055746e-06,
      "loss": 0.9602,
      "step": 217
    },
    {
      "epoch": 0.011998458913534042,
      "grad_norm": 2.309329032897949,
      "learning_rate": 9.99973837963937e-06,
      "loss": 0.9482,
      "step": 218
    },
    {
      "epoch": 0.012053497715889702,
      "grad_norm": 1.2379088401794434,
      "learning_rate": 9.999733926646296e-06,
      "loss": 1.0237,
      "step": 219
    },
    {
      "epoch": 0.012108536518245363,
      "grad_norm": 1.1581377983093262,
      "learning_rate": 9.999729436076562e-06,
      "loss": 1.0583,
      "step": 220
    },
    {
      "epoch": 0.012163575320601024,
      "grad_norm": 1.3006727695465088,
      "learning_rate": 9.999724907930199e-06,
      "loss": 0.9581,
      "step": 221
    },
    {
      "epoch": 0.012218614122956684,
      "grad_norm": 1.3215982913970947,
      "learning_rate": 9.999720342207243e-06,
      "loss": 0.9438,
      "step": 222
    },
    {
      "epoch": 0.012273652925312345,
      "grad_norm": 1.1107337474822998,
      "learning_rate": 9.999715738907727e-06,
      "loss": 0.9987,
      "step": 223
    },
    {
      "epoch": 0.012328691727668007,
      "grad_norm": 1.0745457410812378,
      "learning_rate": 9.999711098031685e-06,
      "loss": 0.9637,
      "step": 224
    },
    {
      "epoch": 0.012383730530023666,
      "grad_norm": 1.110861897468567,
      "learning_rate": 9.999706419579154e-06,
      "loss": 1.0225,
      "step": 225
    },
    {
      "epoch": 0.012438769332379328,
      "grad_norm": 1.0755527019500732,
      "learning_rate": 9.999701703550167e-06,
      "loss": 1.0204,
      "step": 226
    },
    {
      "epoch": 0.012493808134734987,
      "grad_norm": 1.1694976091384888,
      "learning_rate": 9.99969694994476e-06,
      "loss": 1.0566,
      "step": 227
    },
    {
      "epoch": 0.012548846937090649,
      "grad_norm": 1.455856442451477,
      "learning_rate": 9.99969215876297e-06,
      "loss": 0.9397,
      "step": 228
    },
    {
      "epoch": 0.01260388573944631,
      "grad_norm": 1.0707073211669922,
      "learning_rate": 9.99968733000483e-06,
      "loss": 0.8286,
      "step": 229
    },
    {
      "epoch": 0.01265892454180197,
      "grad_norm": 1.189548134803772,
      "learning_rate": 9.99968246367038e-06,
      "loss": 0.8762,
      "step": 230
    },
    {
      "epoch": 0.012713963344157631,
      "grad_norm": 1.1439214944839478,
      "learning_rate": 9.999677559759655e-06,
      "loss": 0.9187,
      "step": 231
    },
    {
      "epoch": 0.012769002146513293,
      "grad_norm": 1.2329761981964111,
      "learning_rate": 9.999672618272691e-06,
      "loss": 1.0374,
      "step": 232
    },
    {
      "epoch": 0.012824040948868952,
      "grad_norm": 1.1545134782791138,
      "learning_rate": 9.999667639209527e-06,
      "loss": 0.9343,
      "step": 233
    },
    {
      "epoch": 0.012879079751224614,
      "grad_norm": 1.0946775674819946,
      "learning_rate": 9.999662622570198e-06,
      "loss": 0.9568,
      "step": 234
    },
    {
      "epoch": 0.012934118553580273,
      "grad_norm": 1.2099589109420776,
      "learning_rate": 9.999657568354743e-06,
      "loss": 1.0364,
      "step": 235
    },
    {
      "epoch": 0.012989157355935935,
      "grad_norm": 1.09062922000885,
      "learning_rate": 9.999652476563202e-06,
      "loss": 1.0289,
      "step": 236
    },
    {
      "epoch": 0.013044196158291596,
      "grad_norm": 1.154557228088379,
      "learning_rate": 9.999647347195612e-06,
      "loss": 0.9925,
      "step": 237
    },
    {
      "epoch": 0.013099234960647256,
      "grad_norm": 1.025374174118042,
      "learning_rate": 9.999642180252008e-06,
      "loss": 0.9346,
      "step": 238
    },
    {
      "epoch": 0.013154273763002917,
      "grad_norm": 1.1473641395568848,
      "learning_rate": 9.999636975732433e-06,
      "loss": 1.0244,
      "step": 239
    },
    {
      "epoch": 0.013209312565358578,
      "grad_norm": 1.0421240329742432,
      "learning_rate": 9.999631733636923e-06,
      "loss": 0.9368,
      "step": 240
    },
    {
      "epoch": 0.013264351367714238,
      "grad_norm": 1.1076610088348389,
      "learning_rate": 9.99962645396552e-06,
      "loss": 1.0276,
      "step": 241
    },
    {
      "epoch": 0.0133193901700699,
      "grad_norm": 1.143559455871582,
      "learning_rate": 9.999621136718266e-06,
      "loss": 0.9626,
      "step": 242
    },
    {
      "epoch": 0.01337442897242556,
      "grad_norm": 1.0958378314971924,
      "learning_rate": 9.999615781895195e-06,
      "loss": 1.0254,
      "step": 243
    },
    {
      "epoch": 0.01342946777478122,
      "grad_norm": 1.117688536643982,
      "learning_rate": 9.99961038949635e-06,
      "loss": 0.9685,
      "step": 244
    },
    {
      "epoch": 0.013484506577136882,
      "grad_norm": 1.1645647287368774,
      "learning_rate": 9.999604959521771e-06,
      "loss": 1.0666,
      "step": 245
    },
    {
      "epoch": 0.013539545379492542,
      "grad_norm": 1.1238516569137573,
      "learning_rate": 9.999599491971502e-06,
      "loss": 1.0252,
      "step": 246
    },
    {
      "epoch": 0.013594584181848203,
      "grad_norm": 1.0196914672851562,
      "learning_rate": 9.999593986845579e-06,
      "loss": 0.9389,
      "step": 247
    },
    {
      "epoch": 0.013649622984203864,
      "grad_norm": 1.0231372117996216,
      "learning_rate": 9.999588444144049e-06,
      "loss": 0.8786,
      "step": 248
    },
    {
      "epoch": 0.013704661786559524,
      "grad_norm": 1.2504147291183472,
      "learning_rate": 9.999582863866947e-06,
      "loss": 1.0969,
      "step": 249
    },
    {
      "epoch": 0.013759700588915185,
      "grad_norm": 1.1123549938201904,
      "learning_rate": 9.99957724601432e-06,
      "loss": 0.8833,
      "step": 250
    },
    {
      "epoch": 0.013814739391270847,
      "grad_norm": 1.1068202257156372,
      "learning_rate": 9.999571590586208e-06,
      "loss": 0.9709,
      "step": 251
    },
    {
      "epoch": 0.013869778193626506,
      "grad_norm": 0.9891651272773743,
      "learning_rate": 9.999565897582655e-06,
      "loss": 0.8598,
      "step": 252
    },
    {
      "epoch": 0.013924816995982168,
      "grad_norm": 0.9866491556167603,
      "learning_rate": 9.999560167003703e-06,
      "loss": 0.8101,
      "step": 253
    },
    {
      "epoch": 0.013979855798337828,
      "grad_norm": 1.0862594842910767,
      "learning_rate": 9.999554398849396e-06,
      "loss": 0.9411,
      "step": 254
    },
    {
      "epoch": 0.014034894600693489,
      "grad_norm": 1.1898949146270752,
      "learning_rate": 9.999548593119774e-06,
      "loss": 0.9548,
      "step": 255
    },
    {
      "epoch": 0.01408993340304915,
      "grad_norm": 1.2167880535125732,
      "learning_rate": 9.999542749814886e-06,
      "loss": 1.0302,
      "step": 256
    },
    {
      "epoch": 0.01414497220540481,
      "grad_norm": 1.0784146785736084,
      "learning_rate": 9.999536868934771e-06,
      "loss": 0.8875,
      "step": 257
    },
    {
      "epoch": 0.014200011007760471,
      "grad_norm": 1.1128027439117432,
      "learning_rate": 9.999530950479475e-06,
      "loss": 0.9498,
      "step": 258
    },
    {
      "epoch": 0.014255049810116133,
      "grad_norm": 1.1311595439910889,
      "learning_rate": 9.999524994449044e-06,
      "loss": 0.9035,
      "step": 259
    },
    {
      "epoch": 0.014310088612471792,
      "grad_norm": 1.225615382194519,
      "learning_rate": 9.999519000843521e-06,
      "loss": 1.0104,
      "step": 260
    },
    {
      "epoch": 0.014365127414827454,
      "grad_norm": 1.2347793579101562,
      "learning_rate": 9.99951296966295e-06,
      "loss": 1.0288,
      "step": 261
    },
    {
      "epoch": 0.014420166217183113,
      "grad_norm": 1.1837103366851807,
      "learning_rate": 9.99950690090738e-06,
      "loss": 0.9553,
      "step": 262
    },
    {
      "epoch": 0.014475205019538775,
      "grad_norm": 1.1985397338867188,
      "learning_rate": 9.999500794576852e-06,
      "loss": 0.9561,
      "step": 263
    },
    {
      "epoch": 0.014530243821894436,
      "grad_norm": 1.036928415298462,
      "learning_rate": 9.999494650671418e-06,
      "loss": 0.8906,
      "step": 264
    },
    {
      "epoch": 0.014585282624250096,
      "grad_norm": 1.0797842741012573,
      "learning_rate": 9.999488469191116e-06,
      "loss": 0.8975,
      "step": 265
    },
    {
      "epoch": 0.014640321426605757,
      "grad_norm": 1.0571156740188599,
      "learning_rate": 9.999482250136e-06,
      "loss": 0.9334,
      "step": 266
    },
    {
      "epoch": 0.014695360228961419,
      "grad_norm": 1.2065023183822632,
      "learning_rate": 9.999475993506114e-06,
      "loss": 0.8986,
      "step": 267
    },
    {
      "epoch": 0.014750399031317078,
      "grad_norm": 1.201586127281189,
      "learning_rate": 9.999469699301502e-06,
      "loss": 0.9192,
      "step": 268
    },
    {
      "epoch": 0.01480543783367274,
      "grad_norm": 1.0470168590545654,
      "learning_rate": 9.999463367522216e-06,
      "loss": 0.8604,
      "step": 269
    },
    {
      "epoch": 0.0148604766360284,
      "grad_norm": 1.1142147779464722,
      "learning_rate": 9.9994569981683e-06,
      "loss": 0.9847,
      "step": 270
    },
    {
      "epoch": 0.01491551543838406,
      "grad_norm": 1.0352061986923218,
      "learning_rate": 9.999450591239805e-06,
      "loss": 0.8927,
      "step": 271
    },
    {
      "epoch": 0.014970554240739722,
      "grad_norm": 1.0353184938430786,
      "learning_rate": 9.999444146736779e-06,
      "loss": 0.8435,
      "step": 272
    },
    {
      "epoch": 0.015025593043095382,
      "grad_norm": 1.2091951370239258,
      "learning_rate": 9.999437664659267e-06,
      "loss": 0.8959,
      "step": 273
    },
    {
      "epoch": 0.015080631845451043,
      "grad_norm": 1.006361722946167,
      "learning_rate": 9.999431145007319e-06,
      "loss": 0.8579,
      "step": 274
    },
    {
      "epoch": 0.015135670647806704,
      "grad_norm": 1.1265509128570557,
      "learning_rate": 9.999424587780985e-06,
      "loss": 0.8808,
      "step": 275
    },
    {
      "epoch": 0.015190709450162364,
      "grad_norm": 1.060882568359375,
      "learning_rate": 9.999417992980317e-06,
      "loss": 1.044,
      "step": 276
    },
    {
      "epoch": 0.015245748252518026,
      "grad_norm": 1.0216747522354126,
      "learning_rate": 9.999411360605358e-06,
      "loss": 0.7773,
      "step": 277
    },
    {
      "epoch": 0.015300787054873685,
      "grad_norm": 1.1382462978363037,
      "learning_rate": 9.999404690656163e-06,
      "loss": 0.8954,
      "step": 278
    },
    {
      "epoch": 0.015355825857229347,
      "grad_norm": 1.113815188407898,
      "learning_rate": 9.99939798313278e-06,
      "loss": 0.8143,
      "step": 279
    },
    {
      "epoch": 0.015410864659585008,
      "grad_norm": 1.123530387878418,
      "learning_rate": 9.99939123803526e-06,
      "loss": 0.8872,
      "step": 280
    },
    {
      "epoch": 0.015465903461940668,
      "grad_norm": 1.0873669385910034,
      "learning_rate": 9.999384455363656e-06,
      "loss": 1.008,
      "step": 281
    },
    {
      "epoch": 0.015520942264296329,
      "grad_norm": 1.5956637859344482,
      "learning_rate": 9.999377635118014e-06,
      "loss": 0.9456,
      "step": 282
    },
    {
      "epoch": 0.01557598106665199,
      "grad_norm": 1.1471425294876099,
      "learning_rate": 9.999370777298389e-06,
      "loss": 0.9897,
      "step": 283
    },
    {
      "epoch": 0.01563101986900765,
      "grad_norm": 0.9960193634033203,
      "learning_rate": 9.999363881904831e-06,
      "loss": 0.8196,
      "step": 284
    },
    {
      "epoch": 0.01568605867136331,
      "grad_norm": 1.1033951044082642,
      "learning_rate": 9.999356948937393e-06,
      "loss": 0.879,
      "step": 285
    },
    {
      "epoch": 0.015741097473718973,
      "grad_norm": 1.157765507698059,
      "learning_rate": 9.999349978396126e-06,
      "loss": 1.0116,
      "step": 286
    },
    {
      "epoch": 0.015796136276074634,
      "grad_norm": 1.0472352504730225,
      "learning_rate": 9.999342970281084e-06,
      "loss": 0.8657,
      "step": 287
    },
    {
      "epoch": 0.015851175078430292,
      "grad_norm": 1.1346659660339355,
      "learning_rate": 9.999335924592315e-06,
      "loss": 0.8482,
      "step": 288
    },
    {
      "epoch": 0.015906213880785953,
      "grad_norm": 1.1164487600326538,
      "learning_rate": 9.999328841329879e-06,
      "loss": 1.0542,
      "step": 289
    },
    {
      "epoch": 0.015961252683141615,
      "grad_norm": 1.1890591382980347,
      "learning_rate": 9.999321720493825e-06,
      "loss": 0.9598,
      "step": 290
    },
    {
      "epoch": 0.016016291485497276,
      "grad_norm": 1.0419867038726807,
      "learning_rate": 9.999314562084205e-06,
      "loss": 0.9548,
      "step": 291
    },
    {
      "epoch": 0.016071330287852938,
      "grad_norm": 1.0652042627334595,
      "learning_rate": 9.999307366101077e-06,
      "loss": 0.9359,
      "step": 292
    },
    {
      "epoch": 0.016126369090208596,
      "grad_norm": 1.0166404247283936,
      "learning_rate": 9.999300132544492e-06,
      "loss": 0.9276,
      "step": 293
    },
    {
      "epoch": 0.016181407892564257,
      "grad_norm": 1.1638866662979126,
      "learning_rate": 9.999292861414507e-06,
      "loss": 0.957,
      "step": 294
    },
    {
      "epoch": 0.01623644669491992,
      "grad_norm": 1.5505993366241455,
      "learning_rate": 9.999285552711173e-06,
      "loss": 0.9878,
      "step": 295
    },
    {
      "epoch": 0.01629148549727558,
      "grad_norm": 1.177262783050537,
      "learning_rate": 9.999278206434549e-06,
      "loss": 0.8631,
      "step": 296
    },
    {
      "epoch": 0.01634652429963124,
      "grad_norm": 1.8578168153762817,
      "learning_rate": 9.999270822584687e-06,
      "loss": 0.9684,
      "step": 297
    },
    {
      "epoch": 0.0164015631019869,
      "grad_norm": 1.2617360353469849,
      "learning_rate": 9.999263401161643e-06,
      "loss": 1.014,
      "step": 298
    },
    {
      "epoch": 0.01645660190434256,
      "grad_norm": 0.9740132689476013,
      "learning_rate": 9.999255942165475e-06,
      "loss": 0.8606,
      "step": 299
    },
    {
      "epoch": 0.016511640706698222,
      "grad_norm": 0.9821745753288269,
      "learning_rate": 9.999248445596238e-06,
      "loss": 0.8241,
      "step": 300
    },
    {
      "epoch": 0.016566679509053883,
      "grad_norm": 1.0200445652008057,
      "learning_rate": 9.999240911453986e-06,
      "loss": 0.8256,
      "step": 301
    },
    {
      "epoch": 0.016621718311409545,
      "grad_norm": 1.4100390672683716,
      "learning_rate": 9.999233339738779e-06,
      "loss": 0.9057,
      "step": 302
    },
    {
      "epoch": 0.016676757113765206,
      "grad_norm": 1.056544303894043,
      "learning_rate": 9.99922573045067e-06,
      "loss": 1.0808,
      "step": 303
    },
    {
      "epoch": 0.016731795916120864,
      "grad_norm": 0.9271026253700256,
      "learning_rate": 9.99921808358972e-06,
      "loss": 0.878,
      "step": 304
    },
    {
      "epoch": 0.016786834718476525,
      "grad_norm": 0.9864157438278198,
      "learning_rate": 9.999210399155987e-06,
      "loss": 0.9198,
      "step": 305
    },
    {
      "epoch": 0.016841873520832187,
      "grad_norm": 1.093995451927185,
      "learning_rate": 9.999202677149525e-06,
      "loss": 0.9794,
      "step": 306
    },
    {
      "epoch": 0.016896912323187848,
      "grad_norm": 0.9717912077903748,
      "learning_rate": 9.999194917570395e-06,
      "loss": 0.8764,
      "step": 307
    },
    {
      "epoch": 0.01695195112554351,
      "grad_norm": 1.0026428699493408,
      "learning_rate": 9.999187120418653e-06,
      "loss": 0.8526,
      "step": 308
    },
    {
      "epoch": 0.017006989927899167,
      "grad_norm": 1.122870922088623,
      "learning_rate": 9.999179285694359e-06,
      "loss": 0.9773,
      "step": 309
    },
    {
      "epoch": 0.01706202873025483,
      "grad_norm": 1.0522836446762085,
      "learning_rate": 9.999171413397572e-06,
      "loss": 1.0183,
      "step": 310
    },
    {
      "epoch": 0.01711706753261049,
      "grad_norm": 0.9303658604621887,
      "learning_rate": 9.99916350352835e-06,
      "loss": 0.8402,
      "step": 311
    },
    {
      "epoch": 0.01717210633496615,
      "grad_norm": 0.9606096148490906,
      "learning_rate": 9.999155556086755e-06,
      "loss": 0.9692,
      "step": 312
    },
    {
      "epoch": 0.017227145137321813,
      "grad_norm": 1.176992416381836,
      "learning_rate": 9.999147571072844e-06,
      "loss": 0.8172,
      "step": 313
    },
    {
      "epoch": 0.017282183939677474,
      "grad_norm": 1.1948801279067993,
      "learning_rate": 9.999139548486678e-06,
      "loss": 1.0205,
      "step": 314
    },
    {
      "epoch": 0.017337222742033132,
      "grad_norm": 1.0064897537231445,
      "learning_rate": 9.999131488328318e-06,
      "loss": 0.9479,
      "step": 315
    },
    {
      "epoch": 0.017392261544388794,
      "grad_norm": 1.048242449760437,
      "learning_rate": 9.999123390597822e-06,
      "loss": 0.9862,
      "step": 316
    },
    {
      "epoch": 0.017447300346744455,
      "grad_norm": 1.12875497341156,
      "learning_rate": 9.999115255295256e-06,
      "loss": 0.9743,
      "step": 317
    },
    {
      "epoch": 0.017502339149100116,
      "grad_norm": 1.0607460737228394,
      "learning_rate": 9.999107082420674e-06,
      "loss": 0.8878,
      "step": 318
    },
    {
      "epoch": 0.017557377951455778,
      "grad_norm": 1.1480191946029663,
      "learning_rate": 9.999098871974144e-06,
      "loss": 0.8769,
      "step": 319
    },
    {
      "epoch": 0.017612416753811436,
      "grad_norm": 1.1150004863739014,
      "learning_rate": 9.999090623955724e-06,
      "loss": 0.8615,
      "step": 320
    },
    {
      "epoch": 0.017667455556167097,
      "grad_norm": 1.137839913368225,
      "learning_rate": 9.999082338365478e-06,
      "loss": 0.9703,
      "step": 321
    },
    {
      "epoch": 0.01772249435852276,
      "grad_norm": 1.0883489847183228,
      "learning_rate": 9.999074015203467e-06,
      "loss": 0.9273,
      "step": 322
    },
    {
      "epoch": 0.01777753316087842,
      "grad_norm": 1.0999557971954346,
      "learning_rate": 9.999065654469752e-06,
      "loss": 0.9605,
      "step": 323
    },
    {
      "epoch": 0.01783257196323408,
      "grad_norm": 0.9911689758300781,
      "learning_rate": 9.999057256164401e-06,
      "loss": 0.9117,
      "step": 324
    },
    {
      "epoch": 0.01788761076558974,
      "grad_norm": 1.040933609008789,
      "learning_rate": 9.999048820287472e-06,
      "loss": 0.9229,
      "step": 325
    },
    {
      "epoch": 0.0179426495679454,
      "grad_norm": 1.4341392517089844,
      "learning_rate": 9.999040346839031e-06,
      "loss": 1.0718,
      "step": 326
    },
    {
      "epoch": 0.017997688370301062,
      "grad_norm": 1.0246332883834839,
      "learning_rate": 9.99903183581914e-06,
      "loss": 0.9617,
      "step": 327
    },
    {
      "epoch": 0.018052727172656723,
      "grad_norm": 10.162322998046875,
      "learning_rate": 9.999023287227863e-06,
      "loss": 1.0391,
      "step": 328
    },
    {
      "epoch": 0.018107765975012385,
      "grad_norm": 1.3370027542114258,
      "learning_rate": 9.999014701065266e-06,
      "loss": 1.0211,
      "step": 329
    },
    {
      "epoch": 0.018162804777368046,
      "grad_norm": 1.0146219730377197,
      "learning_rate": 9.999006077331413e-06,
      "loss": 0.8611,
      "step": 330
    },
    {
      "epoch": 0.018217843579723704,
      "grad_norm": 1.0899269580841064,
      "learning_rate": 9.998997416026368e-06,
      "loss": 0.9209,
      "step": 331
    },
    {
      "epoch": 0.018272882382079365,
      "grad_norm": 1.1343204975128174,
      "learning_rate": 9.998988717150198e-06,
      "loss": 0.9405,
      "step": 332
    },
    {
      "epoch": 0.018327921184435027,
      "grad_norm": 1.2308380603790283,
      "learning_rate": 9.998979980702965e-06,
      "loss": 0.9579,
      "step": 333
    },
    {
      "epoch": 0.018382959986790688,
      "grad_norm": 1.1433519124984741,
      "learning_rate": 9.998971206684737e-06,
      "loss": 1.0045,
      "step": 334
    },
    {
      "epoch": 0.01843799878914635,
      "grad_norm": 1.0585781335830688,
      "learning_rate": 9.99896239509558e-06,
      "loss": 0.9171,
      "step": 335
    },
    {
      "epoch": 0.018493037591502007,
      "grad_norm": 1.2735164165496826,
      "learning_rate": 9.99895354593556e-06,
      "loss": 1.1001,
      "step": 336
    },
    {
      "epoch": 0.01854807639385767,
      "grad_norm": 1.2905755043029785,
      "learning_rate": 9.998944659204744e-06,
      "loss": 1.0294,
      "step": 337
    },
    {
      "epoch": 0.01860311519621333,
      "grad_norm": 1.1442075967788696,
      "learning_rate": 9.998935734903198e-06,
      "loss": 0.9385,
      "step": 338
    },
    {
      "epoch": 0.01865815399856899,
      "grad_norm": 1.1005232334136963,
      "learning_rate": 9.998926773030987e-06,
      "loss": 1.026,
      "step": 339
    },
    {
      "epoch": 0.018713192800924653,
      "grad_norm": 1.2770785093307495,
      "learning_rate": 9.998917773588182e-06,
      "loss": 1.0015,
      "step": 340
    },
    {
      "epoch": 0.01876823160328031,
      "grad_norm": 1.0963070392608643,
      "learning_rate": 9.998908736574849e-06,
      "loss": 0.9347,
      "step": 341
    },
    {
      "epoch": 0.018823270405635972,
      "grad_norm": 1.10364830493927,
      "learning_rate": 9.998899661991055e-06,
      "loss": 0.869,
      "step": 342
    },
    {
      "epoch": 0.018878309207991634,
      "grad_norm": 1.0364975929260254,
      "learning_rate": 9.99889054983687e-06,
      "loss": 0.9855,
      "step": 343
    },
    {
      "epoch": 0.018933348010347295,
      "grad_norm": 1.104702115058899,
      "learning_rate": 9.998881400112362e-06,
      "loss": 0.9555,
      "step": 344
    },
    {
      "epoch": 0.018988386812702956,
      "grad_norm": 0.9957441687583923,
      "learning_rate": 9.998872212817599e-06,
      "loss": 0.9634,
      "step": 345
    },
    {
      "epoch": 0.019043425615058618,
      "grad_norm": 1.262271523475647,
      "learning_rate": 9.998862987952651e-06,
      "loss": 1.0133,
      "step": 346
    },
    {
      "epoch": 0.019098464417414276,
      "grad_norm": 1.2075226306915283,
      "learning_rate": 9.998853725517587e-06,
      "loss": 1.0588,
      "step": 347
    },
    {
      "epoch": 0.019153503219769937,
      "grad_norm": 1.0609898567199707,
      "learning_rate": 9.998844425512477e-06,
      "loss": 0.9952,
      "step": 348
    },
    {
      "epoch": 0.0192085420221256,
      "grad_norm": 1.1930195093154907,
      "learning_rate": 9.998835087937389e-06,
      "loss": 0.9617,
      "step": 349
    },
    {
      "epoch": 0.01926358082448126,
      "grad_norm": 1.2359932661056519,
      "learning_rate": 9.998825712792396e-06,
      "loss": 0.8768,
      "step": 350
    },
    {
      "epoch": 0.01931861962683692,
      "grad_norm": 0.9984115362167358,
      "learning_rate": 9.998816300077566e-06,
      "loss": 0.8205,
      "step": 351
    },
    {
      "epoch": 0.01937365842919258,
      "grad_norm": 1.6853677034378052,
      "learning_rate": 9.998806849792972e-06,
      "loss": 0.9066,
      "step": 352
    },
    {
      "epoch": 0.01942869723154824,
      "grad_norm": 1.2869856357574463,
      "learning_rate": 9.998797361938683e-06,
      "loss": 1.0054,
      "step": 353
    },
    {
      "epoch": 0.019483736033903902,
      "grad_norm": 1.2791584730148315,
      "learning_rate": 9.99878783651477e-06,
      "loss": 0.7627,
      "step": 354
    },
    {
      "epoch": 0.019538774836259563,
      "grad_norm": 1.0795867443084717,
      "learning_rate": 9.998778273521307e-06,
      "loss": 0.9343,
      "step": 355
    },
    {
      "epoch": 0.019593813638615225,
      "grad_norm": 1.0926088094711304,
      "learning_rate": 9.998768672958365e-06,
      "loss": 0.943,
      "step": 356
    },
    {
      "epoch": 0.019648852440970886,
      "grad_norm": 1.0530847311019897,
      "learning_rate": 9.998759034826015e-06,
      "loss": 0.9656,
      "step": 357
    },
    {
      "epoch": 0.019703891243326544,
      "grad_norm": 1.1793400049209595,
      "learning_rate": 9.99874935912433e-06,
      "loss": 0.9799,
      "step": 358
    },
    {
      "epoch": 0.019758930045682205,
      "grad_norm": 1.0726191997528076,
      "learning_rate": 9.998739645853383e-06,
      "loss": 0.8739,
      "step": 359
    },
    {
      "epoch": 0.019813968848037867,
      "grad_norm": 1.0488981008529663,
      "learning_rate": 9.998729895013246e-06,
      "loss": 0.8986,
      "step": 360
    },
    {
      "epoch": 0.019869007650393528,
      "grad_norm": 1.8267477750778198,
      "learning_rate": 9.998720106603993e-06,
      "loss": 0.9175,
      "step": 361
    },
    {
      "epoch": 0.01992404645274919,
      "grad_norm": 0.9868306517601013,
      "learning_rate": 9.9987102806257e-06,
      "loss": 0.9609,
      "step": 362
    },
    {
      "epoch": 0.019979085255104848,
      "grad_norm": 1.0171183347702026,
      "learning_rate": 9.998700417078438e-06,
      "loss": 0.8904,
      "step": 363
    },
    {
      "epoch": 0.02003412405746051,
      "grad_norm": 0.9800812602043152,
      "learning_rate": 9.998690515962282e-06,
      "loss": 0.8344,
      "step": 364
    },
    {
      "epoch": 0.02008916285981617,
      "grad_norm": 1.024707317352295,
      "learning_rate": 9.998680577277304e-06,
      "loss": 0.9026,
      "step": 365
    },
    {
      "epoch": 0.02014420166217183,
      "grad_norm": 1.1056619882583618,
      "learning_rate": 9.998670601023584e-06,
      "loss": 1.017,
      "step": 366
    },
    {
      "epoch": 0.020199240464527493,
      "grad_norm": 1.0555908679962158,
      "learning_rate": 9.998660587201191e-06,
      "loss": 0.9627,
      "step": 367
    },
    {
      "epoch": 0.02025427926688315,
      "grad_norm": 0.9502031803131104,
      "learning_rate": 9.998650535810204e-06,
      "loss": 0.935,
      "step": 368
    },
    {
      "epoch": 0.020309318069238812,
      "grad_norm": 1.0355613231658936,
      "learning_rate": 9.998640446850699e-06,
      "loss": 0.9946,
      "step": 369
    },
    {
      "epoch": 0.020364356871594474,
      "grad_norm": 0.9906355142593384,
      "learning_rate": 9.99863032032275e-06,
      "loss": 0.9389,
      "step": 370
    },
    {
      "epoch": 0.020419395673950135,
      "grad_norm": 0.9483911395072937,
      "learning_rate": 9.99862015622643e-06,
      "loss": 0.979,
      "step": 371
    },
    {
      "epoch": 0.020474434476305797,
      "grad_norm": 0.9769986271858215,
      "learning_rate": 9.998609954561822e-06,
      "loss": 0.8972,
      "step": 372
    },
    {
      "epoch": 0.020529473278661458,
      "grad_norm": 1.1682699918746948,
      "learning_rate": 9.998599715329e-06,
      "loss": 0.943,
      "step": 373
    },
    {
      "epoch": 0.020584512081017116,
      "grad_norm": 1.007912516593933,
      "learning_rate": 9.99858943852804e-06,
      "loss": 0.8825,
      "step": 374
    },
    {
      "epoch": 0.020639550883372777,
      "grad_norm": 0.9788785576820374,
      "learning_rate": 9.99857912415902e-06,
      "loss": 0.9667,
      "step": 375
    },
    {
      "epoch": 0.02069458968572844,
      "grad_norm": 1.0804275274276733,
      "learning_rate": 9.998568772222017e-06,
      "loss": 1.0026,
      "step": 376
    },
    {
      "epoch": 0.0207496284880841,
      "grad_norm": 1.0859237909317017,
      "learning_rate": 9.998558382717109e-06,
      "loss": 0.9592,
      "step": 377
    },
    {
      "epoch": 0.02080466729043976,
      "grad_norm": 1.2925337553024292,
      "learning_rate": 9.998547955644373e-06,
      "loss": 0.9067,
      "step": 378
    },
    {
      "epoch": 0.02085970609279542,
      "grad_norm": 0.9853373765945435,
      "learning_rate": 9.99853749100389e-06,
      "loss": 0.9538,
      "step": 379
    },
    {
      "epoch": 0.02091474489515108,
      "grad_norm": 1.0461076498031616,
      "learning_rate": 9.998526988795738e-06,
      "loss": 0.9261,
      "step": 380
    },
    {
      "epoch": 0.020969783697506742,
      "grad_norm": 1.024559497833252,
      "learning_rate": 9.998516449019995e-06,
      "loss": 0.9117,
      "step": 381
    },
    {
      "epoch": 0.021024822499862404,
      "grad_norm": 1.1474825143814087,
      "learning_rate": 9.998505871676739e-06,
      "loss": 1.0177,
      "step": 382
    },
    {
      "epoch": 0.021079861302218065,
      "grad_norm": 0.9587596654891968,
      "learning_rate": 9.998495256766051e-06,
      "loss": 0.8809,
      "step": 383
    },
    {
      "epoch": 0.021134900104573723,
      "grad_norm": 0.9505122303962708,
      "learning_rate": 9.998484604288013e-06,
      "loss": 0.9266,
      "step": 384
    },
    {
      "epoch": 0.021189938906929384,
      "grad_norm": 0.9625647664070129,
      "learning_rate": 9.9984739142427e-06,
      "loss": 0.9073,
      "step": 385
    },
    {
      "epoch": 0.021244977709285046,
      "grad_norm": 0.9650934338569641,
      "learning_rate": 9.998463186630196e-06,
      "loss": 0.9042,
      "step": 386
    },
    {
      "epoch": 0.021300016511640707,
      "grad_norm": 1.0289491415023804,
      "learning_rate": 9.99845242145058e-06,
      "loss": 0.929,
      "step": 387
    },
    {
      "epoch": 0.02135505531399637,
      "grad_norm": 0.9543869495391846,
      "learning_rate": 9.998441618703935e-06,
      "loss": 0.9406,
      "step": 388
    },
    {
      "epoch": 0.02141009411635203,
      "grad_norm": 0.9276942610740662,
      "learning_rate": 9.99843077839034e-06,
      "loss": 0.8982,
      "step": 389
    },
    {
      "epoch": 0.021465132918707688,
      "grad_norm": 0.9264664053916931,
      "learning_rate": 9.998419900509877e-06,
      "loss": 0.7255,
      "step": 390
    },
    {
      "epoch": 0.02152017172106335,
      "grad_norm": 0.9961187243461609,
      "learning_rate": 9.998408985062628e-06,
      "loss": 0.9826,
      "step": 391
    },
    {
      "epoch": 0.02157521052341901,
      "grad_norm": 0.966596245765686,
      "learning_rate": 9.998398032048676e-06,
      "loss": 0.8159,
      "step": 392
    },
    {
      "epoch": 0.021630249325774672,
      "grad_norm": 1.1336095333099365,
      "learning_rate": 9.998387041468102e-06,
      "loss": 0.9289,
      "step": 393
    },
    {
      "epoch": 0.021685288128130333,
      "grad_norm": 1.0453619956970215,
      "learning_rate": 9.998376013320989e-06,
      "loss": 0.8816,
      "step": 394
    },
    {
      "epoch": 0.02174032693048599,
      "grad_norm": 0.8961821794509888,
      "learning_rate": 9.998364947607419e-06,
      "loss": 0.871,
      "step": 395
    },
    {
      "epoch": 0.021795365732841653,
      "grad_norm": 1.3420332670211792,
      "learning_rate": 9.998353844327477e-06,
      "loss": 0.9338,
      "step": 396
    },
    {
      "epoch": 0.021850404535197314,
      "grad_norm": 0.9635335206985474,
      "learning_rate": 9.998342703481246e-06,
      "loss": 0.9592,
      "step": 397
    },
    {
      "epoch": 0.021905443337552975,
      "grad_norm": 1.3322341442108154,
      "learning_rate": 9.998331525068807e-06,
      "loss": 1.0974,
      "step": 398
    },
    {
      "epoch": 0.021960482139908637,
      "grad_norm": 1.017220377922058,
      "learning_rate": 9.998320309090247e-06,
      "loss": 0.9827,
      "step": 399
    },
    {
      "epoch": 0.022015520942264295,
      "grad_norm": 1.0080329179763794,
      "learning_rate": 9.99830905554565e-06,
      "loss": 0.877,
      "step": 400
    },
    {
      "epoch": 0.022070559744619956,
      "grad_norm": 0.9883211255073547,
      "learning_rate": 9.998297764435101e-06,
      "loss": 0.9625,
      "step": 401
    },
    {
      "epoch": 0.022125598546975617,
      "grad_norm": 1.0948412418365479,
      "learning_rate": 9.998286435758684e-06,
      "loss": 0.9058,
      "step": 402
    },
    {
      "epoch": 0.02218063734933128,
      "grad_norm": 0.9402000308036804,
      "learning_rate": 9.998275069516482e-06,
      "loss": 0.8882,
      "step": 403
    },
    {
      "epoch": 0.02223567615168694,
      "grad_norm": 0.9858806133270264,
      "learning_rate": 9.998263665708583e-06,
      "loss": 0.9086,
      "step": 404
    },
    {
      "epoch": 0.0222907149540426,
      "grad_norm": 1.0556131601333618,
      "learning_rate": 9.998252224335073e-06,
      "loss": 0.9583,
      "step": 405
    },
    {
      "epoch": 0.02234575375639826,
      "grad_norm": 1.092766284942627,
      "learning_rate": 9.998240745396037e-06,
      "loss": 0.9124,
      "step": 406
    },
    {
      "epoch": 0.02240079255875392,
      "grad_norm": 1.1902250051498413,
      "learning_rate": 9.998229228891563e-06,
      "loss": 1.0566,
      "step": 407
    },
    {
      "epoch": 0.022455831361109582,
      "grad_norm": 1.067906141281128,
      "learning_rate": 9.998217674821734e-06,
      "loss": 0.9823,
      "step": 408
    },
    {
      "epoch": 0.022510870163465244,
      "grad_norm": 1.0051710605621338,
      "learning_rate": 9.998206083186638e-06,
      "loss": 0.9141,
      "step": 409
    },
    {
      "epoch": 0.022565908965820905,
      "grad_norm": 1.046412467956543,
      "learning_rate": 9.998194453986367e-06,
      "loss": 0.9439,
      "step": 410
    },
    {
      "epoch": 0.022620947768176563,
      "grad_norm": 1.1103553771972656,
      "learning_rate": 9.998182787221e-06,
      "loss": 0.9494,
      "step": 411
    },
    {
      "epoch": 0.022675986570532224,
      "grad_norm": 1.0508466958999634,
      "learning_rate": 9.998171082890632e-06,
      "loss": 0.9202,
      "step": 412
    },
    {
      "epoch": 0.022731025372887886,
      "grad_norm": 1.1364226341247559,
      "learning_rate": 9.998159340995347e-06,
      "loss": 0.9859,
      "step": 413
    },
    {
      "epoch": 0.022786064175243547,
      "grad_norm": 1.2073607444763184,
      "learning_rate": 9.998147561535234e-06,
      "loss": 0.8883,
      "step": 414
    },
    {
      "epoch": 0.02284110297759921,
      "grad_norm": 1.0657012462615967,
      "learning_rate": 9.998135744510384e-06,
      "loss": 0.8321,
      "step": 415
    },
    {
      "epoch": 0.02289614177995487,
      "grad_norm": 1.0101548433303833,
      "learning_rate": 9.998123889920881e-06,
      "loss": 0.9374,
      "step": 416
    },
    {
      "epoch": 0.022951180582310528,
      "grad_norm": 1.057455062866211,
      "learning_rate": 9.998111997766817e-06,
      "loss": 0.8831,
      "step": 417
    },
    {
      "epoch": 0.02300621938466619,
      "grad_norm": 1.206092357635498,
      "learning_rate": 9.998100068048282e-06,
      "loss": 0.8812,
      "step": 418
    },
    {
      "epoch": 0.02306125818702185,
      "grad_norm": 1.0709773302078247,
      "learning_rate": 9.998088100765366e-06,
      "loss": 0.9486,
      "step": 419
    },
    {
      "epoch": 0.023116296989377512,
      "grad_norm": 1.066469669342041,
      "learning_rate": 9.998076095918156e-06,
      "loss": 1.0229,
      "step": 420
    },
    {
      "epoch": 0.023171335791733173,
      "grad_norm": 1.0443583726882935,
      "learning_rate": 9.998064053506744e-06,
      "loss": 0.8615,
      "step": 421
    },
    {
      "epoch": 0.02322637459408883,
      "grad_norm": 1.103096842765808,
      "learning_rate": 9.99805197353122e-06,
      "loss": 0.9909,
      "step": 422
    },
    {
      "epoch": 0.023281413396444493,
      "grad_norm": 0.9804643392562866,
      "learning_rate": 9.998039855991677e-06,
      "loss": 0.9214,
      "step": 423
    },
    {
      "epoch": 0.023336452198800154,
      "grad_norm": 0.9880676865577698,
      "learning_rate": 9.998027700888202e-06,
      "loss": 0.9345,
      "step": 424
    },
    {
      "epoch": 0.023391491001155815,
      "grad_norm": 0.9633826017379761,
      "learning_rate": 9.99801550822089e-06,
      "loss": 0.9897,
      "step": 425
    },
    {
      "epoch": 0.023446529803511477,
      "grad_norm": 1.0159331560134888,
      "learning_rate": 9.998003277989831e-06,
      "loss": 0.9385,
      "step": 426
    },
    {
      "epoch": 0.023501568605867135,
      "grad_norm": 1.009667158126831,
      "learning_rate": 9.99799101019512e-06,
      "loss": 0.9013,
      "step": 427
    },
    {
      "epoch": 0.023556607408222796,
      "grad_norm": 0.9478578567504883,
      "learning_rate": 9.997978704836842e-06,
      "loss": 0.8775,
      "step": 428
    },
    {
      "epoch": 0.023611646210578457,
      "grad_norm": 1.013181447982788,
      "learning_rate": 9.997966361915096e-06,
      "loss": 0.8797,
      "step": 429
    },
    {
      "epoch": 0.02366668501293412,
      "grad_norm": 1.0337481498718262,
      "learning_rate": 9.997953981429974e-06,
      "loss": 1.0047,
      "step": 430
    },
    {
      "epoch": 0.02372172381528978,
      "grad_norm": 0.9423721432685852,
      "learning_rate": 9.997941563381566e-06,
      "loss": 0.8639,
      "step": 431
    },
    {
      "epoch": 0.02377676261764544,
      "grad_norm": 1.100492000579834,
      "learning_rate": 9.997929107769968e-06,
      "loss": 1.0022,
      "step": 432
    },
    {
      "epoch": 0.0238318014200011,
      "grad_norm": 1.1232364177703857,
      "learning_rate": 9.997916614595272e-06,
      "loss": 0.9145,
      "step": 433
    },
    {
      "epoch": 0.02388684022235676,
      "grad_norm": 0.9466833472251892,
      "learning_rate": 9.997904083857572e-06,
      "loss": 0.9397,
      "step": 434
    },
    {
      "epoch": 0.023941879024712422,
      "grad_norm": 0.9514566659927368,
      "learning_rate": 9.997891515556963e-06,
      "loss": 0.8025,
      "step": 435
    },
    {
      "epoch": 0.023996917827068084,
      "grad_norm": 0.9292222261428833,
      "learning_rate": 9.997878909693539e-06,
      "loss": 0.7739,
      "step": 436
    },
    {
      "epoch": 0.024051956629423745,
      "grad_norm": 1.1049963235855103,
      "learning_rate": 9.997866266267397e-06,
      "loss": 0.9439,
      "step": 437
    },
    {
      "epoch": 0.024106995431779403,
      "grad_norm": 1.0938019752502441,
      "learning_rate": 9.997853585278627e-06,
      "loss": 0.9479,
      "step": 438
    },
    {
      "epoch": 0.024162034234135064,
      "grad_norm": 1.0423611402511597,
      "learning_rate": 9.997840866727331e-06,
      "loss": 0.9309,
      "step": 439
    },
    {
      "epoch": 0.024217073036490726,
      "grad_norm": 1.0584756135940552,
      "learning_rate": 9.997828110613598e-06,
      "loss": 1.0218,
      "step": 440
    },
    {
      "epoch": 0.024272111838846387,
      "grad_norm": 0.9986408948898315,
      "learning_rate": 9.997815316937527e-06,
      "loss": 0.9734,
      "step": 441
    },
    {
      "epoch": 0.02432715064120205,
      "grad_norm": 0.9680983424186707,
      "learning_rate": 9.997802485699215e-06,
      "loss": 0.9286,
      "step": 442
    },
    {
      "epoch": 0.024382189443557706,
      "grad_norm": 1.2231700420379639,
      "learning_rate": 9.997789616898757e-06,
      "loss": 0.8083,
      "step": 443
    },
    {
      "epoch": 0.024437228245913368,
      "grad_norm": 1.0064021348953247,
      "learning_rate": 9.99777671053625e-06,
      "loss": 0.9161,
      "step": 444
    },
    {
      "epoch": 0.02449226704826903,
      "grad_norm": 0.9658541679382324,
      "learning_rate": 9.99776376661179e-06,
      "loss": 0.8027,
      "step": 445
    },
    {
      "epoch": 0.02454730585062469,
      "grad_norm": 0.9440343379974365,
      "learning_rate": 9.997750785125477e-06,
      "loss": 0.9124,
      "step": 446
    },
    {
      "epoch": 0.024602344652980352,
      "grad_norm": 0.998792827129364,
      "learning_rate": 9.997737766077404e-06,
      "loss": 0.8699,
      "step": 447
    },
    {
      "epoch": 0.024657383455336013,
      "grad_norm": 1.430880069732666,
      "learning_rate": 9.997724709467676e-06,
      "loss": 0.9158,
      "step": 448
    },
    {
      "epoch": 0.02471242225769167,
      "grad_norm": 0.9737820029258728,
      "learning_rate": 9.997711615296384e-06,
      "loss": 0.9496,
      "step": 449
    },
    {
      "epoch": 0.024767461060047333,
      "grad_norm": 0.9710075855255127,
      "learning_rate": 9.997698483563629e-06,
      "loss": 0.8714,
      "step": 450
    },
    {
      "epoch": 0.024822499862402994,
      "grad_norm": 1.5286253690719604,
      "learning_rate": 9.997685314269511e-06,
      "loss": 0.8421,
      "step": 451
    },
    {
      "epoch": 0.024877538664758655,
      "grad_norm": 1.0269445180892944,
      "learning_rate": 9.99767210741413e-06,
      "loss": 1.0131,
      "step": 452
    },
    {
      "epoch": 0.024932577467114317,
      "grad_norm": 0.9780508279800415,
      "learning_rate": 9.99765886299758e-06,
      "loss": 0.9897,
      "step": 453
    },
    {
      "epoch": 0.024987616269469975,
      "grad_norm": 0.998332679271698,
      "learning_rate": 9.997645581019965e-06,
      "loss": 0.9647,
      "step": 454
    },
    {
      "epoch": 0.025042655071825636,
      "grad_norm": 1.7062602043151855,
      "learning_rate": 9.997632261481383e-06,
      "loss": 1.0729,
      "step": 455
    },
    {
      "epoch": 0.025097693874181298,
      "grad_norm": 0.9793694615364075,
      "learning_rate": 9.997618904381936e-06,
      "loss": 0.9556,
      "step": 456
    },
    {
      "epoch": 0.02515273267653696,
      "grad_norm": 1.0183895826339722,
      "learning_rate": 9.997605509721721e-06,
      "loss": 0.9194,
      "step": 457
    },
    {
      "epoch": 0.02520777147889262,
      "grad_norm": 1.0288400650024414,
      "learning_rate": 9.997592077500844e-06,
      "loss": 0.955,
      "step": 458
    },
    {
      "epoch": 0.025262810281248282,
      "grad_norm": 0.9551253914833069,
      "learning_rate": 9.997578607719401e-06,
      "loss": 0.8498,
      "step": 459
    },
    {
      "epoch": 0.02531784908360394,
      "grad_norm": 0.9648008942604065,
      "learning_rate": 9.997565100377494e-06,
      "loss": 0.9306,
      "step": 460
    },
    {
      "epoch": 0.0253728878859596,
      "grad_norm": 0.9206677675247192,
      "learning_rate": 9.997551555475225e-06,
      "loss": 0.7874,
      "step": 461
    },
    {
      "epoch": 0.025427926688315262,
      "grad_norm": 1.0479545593261719,
      "learning_rate": 9.997537973012698e-06,
      "loss": 0.9201,
      "step": 462
    },
    {
      "epoch": 0.025482965490670924,
      "grad_norm": 1.0329946279525757,
      "learning_rate": 9.997524352990013e-06,
      "loss": 0.9577,
      "step": 463
    },
    {
      "epoch": 0.025538004293026585,
      "grad_norm": 1.1177828311920166,
      "learning_rate": 9.997510695407273e-06,
      "loss": 1.0041,
      "step": 464
    },
    {
      "epoch": 0.025593043095382243,
      "grad_norm": 1.0351577997207642,
      "learning_rate": 9.99749700026458e-06,
      "loss": 0.9952,
      "step": 465
    },
    {
      "epoch": 0.025648081897737905,
      "grad_norm": 0.905274510383606,
      "learning_rate": 9.997483267562035e-06,
      "loss": 0.8185,
      "step": 466
    },
    {
      "epoch": 0.025703120700093566,
      "grad_norm": 1.0749776363372803,
      "learning_rate": 9.997469497299747e-06,
      "loss": 1.0611,
      "step": 467
    },
    {
      "epoch": 0.025758159502449227,
      "grad_norm": 0.8972223401069641,
      "learning_rate": 9.997455689477815e-06,
      "loss": 0.8994,
      "step": 468
    },
    {
      "epoch": 0.02581319830480489,
      "grad_norm": 1.0669914484024048,
      "learning_rate": 9.997441844096342e-06,
      "loss": 1.06,
      "step": 469
    },
    {
      "epoch": 0.025868237107160547,
      "grad_norm": 1.0431914329528809,
      "learning_rate": 9.997427961155435e-06,
      "loss": 0.8657,
      "step": 470
    },
    {
      "epoch": 0.025923275909516208,
      "grad_norm": 0.9609962701797485,
      "learning_rate": 9.997414040655198e-06,
      "loss": 0.8864,
      "step": 471
    },
    {
      "epoch": 0.02597831471187187,
      "grad_norm": 1.0829721689224243,
      "learning_rate": 9.997400082595735e-06,
      "loss": 0.9221,
      "step": 472
    },
    {
      "epoch": 0.02603335351422753,
      "grad_norm": 0.992082953453064,
      "learning_rate": 9.99738608697715e-06,
      "loss": 0.8455,
      "step": 473
    },
    {
      "epoch": 0.026088392316583192,
      "grad_norm": 1.0486301183700562,
      "learning_rate": 9.997372053799547e-06,
      "loss": 0.8729,
      "step": 474
    },
    {
      "epoch": 0.026143431118938854,
      "grad_norm": 1.0328491926193237,
      "learning_rate": 9.997357983063036e-06,
      "loss": 0.8788,
      "step": 475
    },
    {
      "epoch": 0.02619846992129451,
      "grad_norm": 0.963333249092102,
      "learning_rate": 9.997343874767719e-06,
      "loss": 0.892,
      "step": 476
    },
    {
      "epoch": 0.026253508723650173,
      "grad_norm": 1.1606497764587402,
      "learning_rate": 9.997329728913704e-06,
      "loss": 0.9984,
      "step": 477
    },
    {
      "epoch": 0.026308547526005834,
      "grad_norm": 1.241650104522705,
      "learning_rate": 9.997315545501096e-06,
      "loss": 0.946,
      "step": 478
    },
    {
      "epoch": 0.026363586328361496,
      "grad_norm": 1.008004069328308,
      "learning_rate": 9.99730132453e-06,
      "loss": 0.849,
      "step": 479
    },
    {
      "epoch": 0.026418625130717157,
      "grad_norm": 0.9883478879928589,
      "learning_rate": 9.997287066000527e-06,
      "loss": 0.9478,
      "step": 480
    },
    {
      "epoch": 0.026473663933072815,
      "grad_norm": 1.0224446058273315,
      "learning_rate": 9.997272769912783e-06,
      "loss": 1.0318,
      "step": 481
    },
    {
      "epoch": 0.026528702735428476,
      "grad_norm": 0.9412569403648376,
      "learning_rate": 9.997258436266874e-06,
      "loss": 0.9119,
      "step": 482
    },
    {
      "epoch": 0.026583741537784138,
      "grad_norm": 0.9214537739753723,
      "learning_rate": 9.997244065062906e-06,
      "loss": 0.8785,
      "step": 483
    },
    {
      "epoch": 0.0266387803401398,
      "grad_norm": 1.0015628337860107,
      "learning_rate": 9.997229656300991e-06,
      "loss": 0.8869,
      "step": 484
    },
    {
      "epoch": 0.02669381914249546,
      "grad_norm": 0.8965190052986145,
      "learning_rate": 9.997215209981237e-06,
      "loss": 0.7009,
      "step": 485
    },
    {
      "epoch": 0.02674885794485112,
      "grad_norm": 1.1976135969161987,
      "learning_rate": 9.997200726103749e-06,
      "loss": 0.9795,
      "step": 486
    },
    {
      "epoch": 0.02680389674720678,
      "grad_norm": 0.864780843257904,
      "learning_rate": 9.997186204668639e-06,
      "loss": 0.7687,
      "step": 487
    },
    {
      "epoch": 0.02685893554956244,
      "grad_norm": 0.9946566820144653,
      "learning_rate": 9.997171645676013e-06,
      "loss": 0.9672,
      "step": 488
    },
    {
      "epoch": 0.026913974351918103,
      "grad_norm": 1.043835997581482,
      "learning_rate": 9.997157049125985e-06,
      "loss": 0.862,
      "step": 489
    },
    {
      "epoch": 0.026969013154273764,
      "grad_norm": 0.9697456955909729,
      "learning_rate": 9.99714241501866e-06,
      "loss": 0.8368,
      "step": 490
    },
    {
      "epoch": 0.027024051956629425,
      "grad_norm": 0.9975618124008179,
      "learning_rate": 9.997127743354153e-06,
      "loss": 0.8739,
      "step": 491
    },
    {
      "epoch": 0.027079090758985083,
      "grad_norm": 1.0055313110351562,
      "learning_rate": 9.99711303413257e-06,
      "loss": 0.9227,
      "step": 492
    },
    {
      "epoch": 0.027134129561340745,
      "grad_norm": 1.0418384075164795,
      "learning_rate": 9.997098287354024e-06,
      "loss": 0.9978,
      "step": 493
    },
    {
      "epoch": 0.027189168363696406,
      "grad_norm": 0.8648970723152161,
      "learning_rate": 9.997083503018625e-06,
      "loss": 0.8363,
      "step": 494
    },
    {
      "epoch": 0.027244207166052067,
      "grad_norm": 1.13506019115448,
      "learning_rate": 9.997068681126483e-06,
      "loss": 0.8851,
      "step": 495
    },
    {
      "epoch": 0.02729924596840773,
      "grad_norm": 0.974400520324707,
      "learning_rate": 9.997053821677712e-06,
      "loss": 0.8533,
      "step": 496
    },
    {
      "epoch": 0.027354284770763387,
      "grad_norm": 1.226507544517517,
      "learning_rate": 9.997038924672419e-06,
      "loss": 0.8586,
      "step": 497
    },
    {
      "epoch": 0.027409323573119048,
      "grad_norm": 1.004753589630127,
      "learning_rate": 9.997023990110721e-06,
      "loss": 0.8974,
      "step": 498
    },
    {
      "epoch": 0.02746436237547471,
      "grad_norm": 1.0492571592330933,
      "learning_rate": 9.997009017992729e-06,
      "loss": 0.8457,
      "step": 499
    },
    {
      "epoch": 0.02751940117783037,
      "grad_norm": 1.0068167448043823,
      "learning_rate": 9.996994008318554e-06,
      "loss": 0.9608,
      "step": 500
    },
    {
      "epoch": 0.027574439980186032,
      "grad_norm": 0.9686044454574585,
      "learning_rate": 9.996978961088311e-06,
      "loss": 0.9041,
      "step": 501
    },
    {
      "epoch": 0.027629478782541694,
      "grad_norm": 1.281728744506836,
      "learning_rate": 9.99696387630211e-06,
      "loss": 0.9739,
      "step": 502
    },
    {
      "epoch": 0.02768451758489735,
      "grad_norm": 0.9069758653640747,
      "learning_rate": 9.996948753960065e-06,
      "loss": 0.8467,
      "step": 503
    },
    {
      "epoch": 0.027739556387253013,
      "grad_norm": 1.0337222814559937,
      "learning_rate": 9.996933594062293e-06,
      "loss": 0.9638,
      "step": 504
    },
    {
      "epoch": 0.027794595189608674,
      "grad_norm": 0.9695359468460083,
      "learning_rate": 9.996918396608905e-06,
      "loss": 0.8986,
      "step": 505
    },
    {
      "epoch": 0.027849633991964336,
      "grad_norm": 0.9120615124702454,
      "learning_rate": 9.996903161600016e-06,
      "loss": 0.9103,
      "step": 506
    },
    {
      "epoch": 0.027904672794319997,
      "grad_norm": 0.9736546874046326,
      "learning_rate": 9.996887889035741e-06,
      "loss": 0.9308,
      "step": 507
    },
    {
      "epoch": 0.027959711596675655,
      "grad_norm": 1.0184897184371948,
      "learning_rate": 9.996872578916192e-06,
      "loss": 0.8978,
      "step": 508
    },
    {
      "epoch": 0.028014750399031316,
      "grad_norm": 0.9791838526725769,
      "learning_rate": 9.996857231241489e-06,
      "loss": 0.8639,
      "step": 509
    },
    {
      "epoch": 0.028069789201386978,
      "grad_norm": 1.2985681295394897,
      "learning_rate": 9.996841846011742e-06,
      "loss": 0.9581,
      "step": 510
    },
    {
      "epoch": 0.02812482800374264,
      "grad_norm": 1.0647368431091309,
      "learning_rate": 9.996826423227071e-06,
      "loss": 1.0565,
      "step": 511
    },
    {
      "epoch": 0.0281798668060983,
      "grad_norm": 1.0336421728134155,
      "learning_rate": 9.996810962887591e-06,
      "loss": 1.008,
      "step": 512
    },
    {
      "epoch": 0.02823490560845396,
      "grad_norm": 1.1838933229446411,
      "learning_rate": 9.996795464993416e-06,
      "loss": 0.8359,
      "step": 513
    },
    {
      "epoch": 0.02828994441080962,
      "grad_norm": 0.9898360371589661,
      "learning_rate": 9.996779929544663e-06,
      "loss": 0.8501,
      "step": 514
    },
    {
      "epoch": 0.02834498321316528,
      "grad_norm": 0.9836066365242004,
      "learning_rate": 9.99676435654145e-06,
      "loss": 0.8795,
      "step": 515
    },
    {
      "epoch": 0.028400022015520943,
      "grad_norm": 1.0621601343154907,
      "learning_rate": 9.996748745983895e-06,
      "loss": 0.8746,
      "step": 516
    },
    {
      "epoch": 0.028455060817876604,
      "grad_norm": 1.0082437992095947,
      "learning_rate": 9.996733097872113e-06,
      "loss": 0.9278,
      "step": 517
    },
    {
      "epoch": 0.028510099620232265,
      "grad_norm": 0.9903931617736816,
      "learning_rate": 9.996717412206222e-06,
      "loss": 0.8264,
      "step": 518
    },
    {
      "epoch": 0.028565138422587923,
      "grad_norm": 1.0797243118286133,
      "learning_rate": 9.996701688986342e-06,
      "loss": 1.0077,
      "step": 519
    },
    {
      "epoch": 0.028620177224943585,
      "grad_norm": 1.147133231163025,
      "learning_rate": 9.99668592821259e-06,
      "loss": 0.9374,
      "step": 520
    },
    {
      "epoch": 0.028675216027299246,
      "grad_norm": 0.9993947744369507,
      "learning_rate": 9.996670129885082e-06,
      "loss": 0.9562,
      "step": 521
    },
    {
      "epoch": 0.028730254829654907,
      "grad_norm": 0.8580895066261292,
      "learning_rate": 9.99665429400394e-06,
      "loss": 0.7985,
      "step": 522
    },
    {
      "epoch": 0.02878529363201057,
      "grad_norm": 0.9251388907432556,
      "learning_rate": 9.996638420569281e-06,
      "loss": 0.7323,
      "step": 523
    },
    {
      "epoch": 0.028840332434366227,
      "grad_norm": 1.0010193586349487,
      "learning_rate": 9.996622509581227e-06,
      "loss": 0.9316,
      "step": 524
    },
    {
      "epoch": 0.028895371236721888,
      "grad_norm": 0.9822579026222229,
      "learning_rate": 9.996606561039894e-06,
      "loss": 0.8978,
      "step": 525
    },
    {
      "epoch": 0.02895041003907755,
      "grad_norm": 1.0760595798492432,
      "learning_rate": 9.996590574945403e-06,
      "loss": 0.9125,
      "step": 526
    },
    {
      "epoch": 0.02900544884143321,
      "grad_norm": 1.138869285583496,
      "learning_rate": 9.996574551297876e-06,
      "loss": 0.8185,
      "step": 527
    },
    {
      "epoch": 0.029060487643788872,
      "grad_norm": 1.002994179725647,
      "learning_rate": 9.996558490097433e-06,
      "loss": 0.9404,
      "step": 528
    },
    {
      "epoch": 0.02911552644614453,
      "grad_norm": 0.9550611972808838,
      "learning_rate": 9.996542391344194e-06,
      "loss": 0.859,
      "step": 529
    },
    {
      "epoch": 0.02917056524850019,
      "grad_norm": 0.9236055612564087,
      "learning_rate": 9.996526255038277e-06,
      "loss": 0.7758,
      "step": 530
    },
    {
      "epoch": 0.029225604050855853,
      "grad_norm": 1.103966474533081,
      "learning_rate": 9.996510081179808e-06,
      "loss": 1.0147,
      "step": 531
    },
    {
      "epoch": 0.029280642853211514,
      "grad_norm": 0.9884665012359619,
      "learning_rate": 9.996493869768906e-06,
      "loss": 0.8784,
      "step": 532
    },
    {
      "epoch": 0.029335681655567176,
      "grad_norm": 0.9173223376274109,
      "learning_rate": 9.996477620805694e-06,
      "loss": 0.8741,
      "step": 533
    },
    {
      "epoch": 0.029390720457922837,
      "grad_norm": 0.965548574924469,
      "learning_rate": 9.996461334290294e-06,
      "loss": 0.8989,
      "step": 534
    },
    {
      "epoch": 0.029445759260278495,
      "grad_norm": 0.9939296245574951,
      "learning_rate": 9.996445010222828e-06,
      "loss": 0.8552,
      "step": 535
    },
    {
      "epoch": 0.029500798062634156,
      "grad_norm": 1.0081578493118286,
      "learning_rate": 9.996428648603417e-06,
      "loss": 0.9138,
      "step": 536
    },
    {
      "epoch": 0.029555836864989818,
      "grad_norm": 1.0139487981796265,
      "learning_rate": 9.996412249432188e-06,
      "loss": 0.9452,
      "step": 537
    },
    {
      "epoch": 0.02961087566734548,
      "grad_norm": 0.9463647603988647,
      "learning_rate": 9.996395812709262e-06,
      "loss": 0.8721,
      "step": 538
    },
    {
      "epoch": 0.02966591446970114,
      "grad_norm": 0.9981473684310913,
      "learning_rate": 9.99637933843476e-06,
      "loss": 0.7791,
      "step": 539
    },
    {
      "epoch": 0.0297209532720568,
      "grad_norm": 1.1637190580368042,
      "learning_rate": 9.996362826608812e-06,
      "loss": 0.8798,
      "step": 540
    },
    {
      "epoch": 0.02977599207441246,
      "grad_norm": 2.2887051105499268,
      "learning_rate": 9.996346277231536e-06,
      "loss": 0.9303,
      "step": 541
    },
    {
      "epoch": 0.02983103087676812,
      "grad_norm": 0.9173391461372375,
      "learning_rate": 9.99632969030306e-06,
      "loss": 0.8627,
      "step": 542
    },
    {
      "epoch": 0.029886069679123783,
      "grad_norm": 1.033355474472046,
      "learning_rate": 9.996313065823506e-06,
      "loss": 0.9906,
      "step": 543
    },
    {
      "epoch": 0.029941108481479444,
      "grad_norm": 0.9286639094352722,
      "learning_rate": 9.996296403793002e-06,
      "loss": 0.7043,
      "step": 544
    },
    {
      "epoch": 0.029996147283835102,
      "grad_norm": 0.963238000869751,
      "learning_rate": 9.996279704211671e-06,
      "loss": 1.0236,
      "step": 545
    },
    {
      "epoch": 0.030051186086190763,
      "grad_norm": 1.0275089740753174,
      "learning_rate": 9.99626296707964e-06,
      "loss": 0.976,
      "step": 546
    },
    {
      "epoch": 0.030106224888546425,
      "grad_norm": 1.0944674015045166,
      "learning_rate": 9.996246192397032e-06,
      "loss": 0.9209,
      "step": 547
    },
    {
      "epoch": 0.030161263690902086,
      "grad_norm": 0.9620945453643799,
      "learning_rate": 9.996229380163976e-06,
      "loss": 0.8973,
      "step": 548
    },
    {
      "epoch": 0.030216302493257748,
      "grad_norm": 1.032549500465393,
      "learning_rate": 9.996212530380597e-06,
      "loss": 0.892,
      "step": 549
    },
    {
      "epoch": 0.03027134129561341,
      "grad_norm": 1.0433719158172607,
      "learning_rate": 9.996195643047023e-06,
      "loss": 0.8428,
      "step": 550
    },
    {
      "epoch": 0.030326380097969067,
      "grad_norm": 1.1541085243225098,
      "learning_rate": 9.996178718163378e-06,
      "loss": 0.9084,
      "step": 551
    },
    {
      "epoch": 0.03038141890032473,
      "grad_norm": 0.9386873245239258,
      "learning_rate": 9.996161755729793e-06,
      "loss": 0.9246,
      "step": 552
    },
    {
      "epoch": 0.03043645770268039,
      "grad_norm": 1.092236042022705,
      "learning_rate": 9.996144755746393e-06,
      "loss": 0.8419,
      "step": 553
    },
    {
      "epoch": 0.03049149650503605,
      "grad_norm": 0.9517606496810913,
      "learning_rate": 9.996127718213306e-06,
      "loss": 0.9002,
      "step": 554
    },
    {
      "epoch": 0.030546535307391712,
      "grad_norm": 0.965972900390625,
      "learning_rate": 9.996110643130661e-06,
      "loss": 0.9197,
      "step": 555
    },
    {
      "epoch": 0.03060157410974737,
      "grad_norm": 0.9396095275878906,
      "learning_rate": 9.996093530498586e-06,
      "loss": 0.8686,
      "step": 556
    },
    {
      "epoch": 0.030656612912103032,
      "grad_norm": 1.0154120922088623,
      "learning_rate": 9.99607638031721e-06,
      "loss": 0.9773,
      "step": 557
    },
    {
      "epoch": 0.030711651714458693,
      "grad_norm": 1.3572301864624023,
      "learning_rate": 9.99605919258666e-06,
      "loss": 0.911,
      "step": 558
    },
    {
      "epoch": 0.030766690516814355,
      "grad_norm": 0.968278169631958,
      "learning_rate": 9.996041967307066e-06,
      "loss": 0.7704,
      "step": 559
    },
    {
      "epoch": 0.030821729319170016,
      "grad_norm": 0.9867869019508362,
      "learning_rate": 9.99602470447856e-06,
      "loss": 0.873,
      "step": 560
    },
    {
      "epoch": 0.030876768121525677,
      "grad_norm": 1.056450605392456,
      "learning_rate": 9.996007404101269e-06,
      "loss": 0.941,
      "step": 561
    },
    {
      "epoch": 0.030931806923881335,
      "grad_norm": 1.0419799089431763,
      "learning_rate": 9.995990066175321e-06,
      "loss": 0.957,
      "step": 562
    },
    {
      "epoch": 0.030986845726236997,
      "grad_norm": 0.9789314866065979,
      "learning_rate": 9.995972690700852e-06,
      "loss": 0.9229,
      "step": 563
    },
    {
      "epoch": 0.031041884528592658,
      "grad_norm": 0.917783796787262,
      "learning_rate": 9.995955277677989e-06,
      "loss": 0.8186,
      "step": 564
    },
    {
      "epoch": 0.03109692333094832,
      "grad_norm": 1.0231432914733887,
      "learning_rate": 9.995937827106863e-06,
      "loss": 0.8624,
      "step": 565
    },
    {
      "epoch": 0.03115196213330398,
      "grad_norm": 0.9552083015441895,
      "learning_rate": 9.995920338987605e-06,
      "loss": 0.7967,
      "step": 566
    },
    {
      "epoch": 0.03120700093565964,
      "grad_norm": 0.9441083669662476,
      "learning_rate": 9.995902813320349e-06,
      "loss": 0.8471,
      "step": 567
    },
    {
      "epoch": 0.0312620397380153,
      "grad_norm": 1.0025299787521362,
      "learning_rate": 9.995885250105223e-06,
      "loss": 0.8646,
      "step": 568
    },
    {
      "epoch": 0.03131707854037096,
      "grad_norm": 0.8997280597686768,
      "learning_rate": 9.99586764934236e-06,
      "loss": 0.8736,
      "step": 569
    },
    {
      "epoch": 0.03137211734272662,
      "grad_norm": 0.9090663194656372,
      "learning_rate": 9.995850011031896e-06,
      "loss": 0.8548,
      "step": 570
    },
    {
      "epoch": 0.031427156145082284,
      "grad_norm": 0.9641294479370117,
      "learning_rate": 9.995832335173959e-06,
      "loss": 0.8667,
      "step": 571
    },
    {
      "epoch": 0.031482194947437946,
      "grad_norm": 0.9165804982185364,
      "learning_rate": 9.995814621768682e-06,
      "loss": 0.803,
      "step": 572
    },
    {
      "epoch": 0.03153723374979361,
      "grad_norm": 0.9672492742538452,
      "learning_rate": 9.995796870816202e-06,
      "loss": 0.8335,
      "step": 573
    },
    {
      "epoch": 0.03159227255214927,
      "grad_norm": 0.9359404444694519,
      "learning_rate": 9.995779082316648e-06,
      "loss": 0.8294,
      "step": 574
    },
    {
      "epoch": 0.03164731135450492,
      "grad_norm": 0.926925003528595,
      "learning_rate": 9.995761256270157e-06,
      "loss": 0.7714,
      "step": 575
    },
    {
      "epoch": 0.031702350156860584,
      "grad_norm": 1.1848629713058472,
      "learning_rate": 9.995743392676862e-06,
      "loss": 0.8925,
      "step": 576
    },
    {
      "epoch": 0.031757388959216246,
      "grad_norm": 0.9624786972999573,
      "learning_rate": 9.995725491536897e-06,
      "loss": 0.9292,
      "step": 577
    },
    {
      "epoch": 0.03181242776157191,
      "grad_norm": 0.9479736089706421,
      "learning_rate": 9.995707552850396e-06,
      "loss": 0.8797,
      "step": 578
    },
    {
      "epoch": 0.03186746656392757,
      "grad_norm": 0.9551546573638916,
      "learning_rate": 9.995689576617494e-06,
      "loss": 0.8793,
      "step": 579
    },
    {
      "epoch": 0.03192250536628323,
      "grad_norm": 0.9210056662559509,
      "learning_rate": 9.995671562838325e-06,
      "loss": 0.9714,
      "step": 580
    },
    {
      "epoch": 0.03197754416863889,
      "grad_norm": 1.063117504119873,
      "learning_rate": 9.995653511513029e-06,
      "loss": 0.9608,
      "step": 581
    },
    {
      "epoch": 0.03203258297099455,
      "grad_norm": 0.9426459670066833,
      "learning_rate": 9.995635422641736e-06,
      "loss": 0.9102,
      "step": 582
    },
    {
      "epoch": 0.032087621773350214,
      "grad_norm": 1.0176693201065063,
      "learning_rate": 9.995617296224584e-06,
      "loss": 0.9109,
      "step": 583
    },
    {
      "epoch": 0.032142660575705875,
      "grad_norm": 0.9457042217254639,
      "learning_rate": 9.995599132261711e-06,
      "loss": 0.9017,
      "step": 584
    },
    {
      "epoch": 0.03219769937806154,
      "grad_norm": 1.5851638317108154,
      "learning_rate": 9.995580930753252e-06,
      "loss": 0.967,
      "step": 585
    },
    {
      "epoch": 0.03225273818041719,
      "grad_norm": 0.9961487054824829,
      "learning_rate": 9.995562691699345e-06,
      "loss": 0.9396,
      "step": 586
    },
    {
      "epoch": 0.03230777698277285,
      "grad_norm": 0.9892112016677856,
      "learning_rate": 9.995544415100125e-06,
      "loss": 0.9058,
      "step": 587
    },
    {
      "epoch": 0.032362815785128514,
      "grad_norm": 0.9052272439002991,
      "learning_rate": 9.99552610095573e-06,
      "loss": 0.9194,
      "step": 588
    },
    {
      "epoch": 0.032417854587484175,
      "grad_norm": 0.8381399512290955,
      "learning_rate": 9.995507749266297e-06,
      "loss": 0.7465,
      "step": 589
    },
    {
      "epoch": 0.03247289338983984,
      "grad_norm": 1.018964171409607,
      "learning_rate": 9.995489360031969e-06,
      "loss": 0.841,
      "step": 590
    },
    {
      "epoch": 0.0325279321921955,
      "grad_norm": 0.908311128616333,
      "learning_rate": 9.995470933252876e-06,
      "loss": 0.8592,
      "step": 591
    },
    {
      "epoch": 0.03258297099455116,
      "grad_norm": 1.2986040115356445,
      "learning_rate": 9.995452468929162e-06,
      "loss": 0.8341,
      "step": 592
    },
    {
      "epoch": 0.03263800979690682,
      "grad_norm": 1.6565190553665161,
      "learning_rate": 9.995433967060966e-06,
      "loss": 0.8681,
      "step": 593
    },
    {
      "epoch": 0.03269304859926248,
      "grad_norm": 0.9725674390792847,
      "learning_rate": 9.995415427648423e-06,
      "loss": 0.8449,
      "step": 594
    },
    {
      "epoch": 0.032748087401618144,
      "grad_norm": 0.8683852553367615,
      "learning_rate": 9.995396850691677e-06,
      "loss": 0.8478,
      "step": 595
    },
    {
      "epoch": 0.0328031262039738,
      "grad_norm": 0.9912856817245483,
      "learning_rate": 9.995378236190862e-06,
      "loss": 0.8912,
      "step": 596
    },
    {
      "epoch": 0.03285816500632946,
      "grad_norm": 0.9396800398826599,
      "learning_rate": 9.995359584146125e-06,
      "loss": 0.856,
      "step": 597
    },
    {
      "epoch": 0.03291320380868512,
      "grad_norm": 1.385006308555603,
      "learning_rate": 9.995340894557601e-06,
      "loss": 0.9633,
      "step": 598
    },
    {
      "epoch": 0.03296824261104078,
      "grad_norm": 0.8982875943183899,
      "learning_rate": 9.995322167425433e-06,
      "loss": 0.9244,
      "step": 599
    },
    {
      "epoch": 0.033023281413396444,
      "grad_norm": 0.8981022834777832,
      "learning_rate": 9.995303402749759e-06,
      "loss": 0.8854,
      "step": 600
    },
    {
      "epoch": 0.033078320215752105,
      "grad_norm": 0.9917197227478027,
      "learning_rate": 9.995284600530724e-06,
      "loss": 1.0086,
      "step": 601
    },
    {
      "epoch": 0.033133359018107766,
      "grad_norm": 1.0540626049041748,
      "learning_rate": 9.995265760768464e-06,
      "loss": 1.0022,
      "step": 602
    },
    {
      "epoch": 0.03318839782046343,
      "grad_norm": 0.9523479342460632,
      "learning_rate": 9.995246883463126e-06,
      "loss": 0.9893,
      "step": 603
    },
    {
      "epoch": 0.03324343662281909,
      "grad_norm": 0.9824770092964172,
      "learning_rate": 9.99522796861485e-06,
      "loss": 0.8385,
      "step": 604
    },
    {
      "epoch": 0.03329847542517475,
      "grad_norm": 1.0968893766403198,
      "learning_rate": 9.995209016223776e-06,
      "loss": 1.0109,
      "step": 605
    },
    {
      "epoch": 0.03335351422753041,
      "grad_norm": 0.9115625023841858,
      "learning_rate": 9.995190026290049e-06,
      "loss": 0.8656,
      "step": 606
    },
    {
      "epoch": 0.033408553029886066,
      "grad_norm": 0.9795814156532288,
      "learning_rate": 9.99517099881381e-06,
      "loss": 0.8941,
      "step": 607
    },
    {
      "epoch": 0.03346359183224173,
      "grad_norm": 0.9317291378974915,
      "learning_rate": 9.995151933795204e-06,
      "loss": 0.7819,
      "step": 608
    },
    {
      "epoch": 0.03351863063459739,
      "grad_norm": 0.9936283230781555,
      "learning_rate": 9.995132831234373e-06,
      "loss": 0.8674,
      "step": 609
    },
    {
      "epoch": 0.03357366943695305,
      "grad_norm": 0.9872812032699585,
      "learning_rate": 9.995113691131462e-06,
      "loss": 0.9038,
      "step": 610
    },
    {
      "epoch": 0.03362870823930871,
      "grad_norm": 0.9516895413398743,
      "learning_rate": 9.995094513486611e-06,
      "loss": 0.9038,
      "step": 611
    },
    {
      "epoch": 0.03368374704166437,
      "grad_norm": 1.090579867362976,
      "learning_rate": 9.995075298299968e-06,
      "loss": 0.9587,
      "step": 612
    },
    {
      "epoch": 0.033738785844020035,
      "grad_norm": 1.021398663520813,
      "learning_rate": 9.995056045571677e-06,
      "loss": 0.9569,
      "step": 613
    },
    {
      "epoch": 0.033793824646375696,
      "grad_norm": 1.009657382965088,
      "learning_rate": 9.99503675530188e-06,
      "loss": 0.8346,
      "step": 614
    },
    {
      "epoch": 0.03384886344873136,
      "grad_norm": 1.0478712320327759,
      "learning_rate": 9.995017427490725e-06,
      "loss": 1.0566,
      "step": 615
    },
    {
      "epoch": 0.03390390225108702,
      "grad_norm": 1.1391830444335938,
      "learning_rate": 9.994998062138355e-06,
      "loss": 1.0727,
      "step": 616
    },
    {
      "epoch": 0.03395894105344268,
      "grad_norm": 1.0172302722930908,
      "learning_rate": 9.994978659244918e-06,
      "loss": 0.7869,
      "step": 617
    },
    {
      "epoch": 0.034013979855798335,
      "grad_norm": 1.0532630681991577,
      "learning_rate": 9.994959218810558e-06,
      "loss": 0.8626,
      "step": 618
    },
    {
      "epoch": 0.034069018658153996,
      "grad_norm": 0.8300478458404541,
      "learning_rate": 9.99493974083542e-06,
      "loss": 0.8166,
      "step": 619
    },
    {
      "epoch": 0.03412405746050966,
      "grad_norm": 1.0613664388656616,
      "learning_rate": 9.994920225319656e-06,
      "loss": 0.8899,
      "step": 620
    },
    {
      "epoch": 0.03417909626286532,
      "grad_norm": 0.9827042818069458,
      "learning_rate": 9.994900672263406e-06,
      "loss": 0.8243,
      "step": 621
    },
    {
      "epoch": 0.03423413506522098,
      "grad_norm": 0.8790082931518555,
      "learning_rate": 9.994881081666818e-06,
      "loss": 0.8153,
      "step": 622
    },
    {
      "epoch": 0.03428917386757664,
      "grad_norm": 1.033378005027771,
      "learning_rate": 9.994861453530044e-06,
      "loss": 0.8916,
      "step": 623
    },
    {
      "epoch": 0.0343442126699323,
      "grad_norm": 0.9547238349914551,
      "learning_rate": 9.994841787853227e-06,
      "loss": 0.9141,
      "step": 624
    },
    {
      "epoch": 0.034399251472287964,
      "grad_norm": 0.9606438279151917,
      "learning_rate": 9.994822084636514e-06,
      "loss": 0.9435,
      "step": 625
    },
    {
      "epoch": 0.034454290274643626,
      "grad_norm": 0.8461503982543945,
      "learning_rate": 9.994802343880059e-06,
      "loss": 0.7914,
      "step": 626
    },
    {
      "epoch": 0.03450932907699929,
      "grad_norm": 1.144538402557373,
      "learning_rate": 9.994782565584004e-06,
      "loss": 0.8025,
      "step": 627
    },
    {
      "epoch": 0.03456436787935495,
      "grad_norm": 1.0099962949752808,
      "learning_rate": 9.994762749748502e-06,
      "loss": 0.9607,
      "step": 628
    },
    {
      "epoch": 0.0346194066817106,
      "grad_norm": 0.9822041988372803,
      "learning_rate": 9.9947428963737e-06,
      "loss": 0.9216,
      "step": 629
    },
    {
      "epoch": 0.034674445484066264,
      "grad_norm": 0.9056866765022278,
      "learning_rate": 9.994723005459746e-06,
      "loss": 0.7913,
      "step": 630
    },
    {
      "epoch": 0.034729484286421926,
      "grad_norm": 1.0099287033081055,
      "learning_rate": 9.994703077006792e-06,
      "loss": 0.9937,
      "step": 631
    },
    {
      "epoch": 0.03478452308877759,
      "grad_norm": 0.9559167623519897,
      "learning_rate": 9.994683111014984e-06,
      "loss": 0.9774,
      "step": 632
    },
    {
      "epoch": 0.03483956189113325,
      "grad_norm": 1.0359059572219849,
      "learning_rate": 9.994663107484478e-06,
      "loss": 0.9062,
      "step": 633
    },
    {
      "epoch": 0.03489460069348891,
      "grad_norm": 0.8803057074546814,
      "learning_rate": 9.99464306641542e-06,
      "loss": 0.9638,
      "step": 634
    },
    {
      "epoch": 0.03494963949584457,
      "grad_norm": 1.0926579236984253,
      "learning_rate": 9.994622987807962e-06,
      "loss": 1.0467,
      "step": 635
    },
    {
      "epoch": 0.03500467829820023,
      "grad_norm": 1.0051401853561401,
      "learning_rate": 9.994602871662253e-06,
      "loss": 0.8717,
      "step": 636
    },
    {
      "epoch": 0.035059717100555894,
      "grad_norm": 1.2007508277893066,
      "learning_rate": 9.994582717978448e-06,
      "loss": 0.8004,
      "step": 637
    },
    {
      "epoch": 0.035114755902911556,
      "grad_norm": 0.8826266527175903,
      "learning_rate": 9.994562526756695e-06,
      "loss": 0.8888,
      "step": 638
    },
    {
      "epoch": 0.03516979470526721,
      "grad_norm": 0.9953717589378357,
      "learning_rate": 9.994542297997147e-06,
      "loss": 0.8999,
      "step": 639
    },
    {
      "epoch": 0.03522483350762287,
      "grad_norm": 1.0203614234924316,
      "learning_rate": 9.994522031699958e-06,
      "loss": 0.8241,
      "step": 640
    },
    {
      "epoch": 0.03527987230997853,
      "grad_norm": 0.8760203719139099,
      "learning_rate": 9.994501727865276e-06,
      "loss": 0.7893,
      "step": 641
    },
    {
      "epoch": 0.035334911112334194,
      "grad_norm": 1.024888277053833,
      "learning_rate": 9.994481386493257e-06,
      "loss": 0.9865,
      "step": 642
    },
    {
      "epoch": 0.035389949914689856,
      "grad_norm": 0.907454788684845,
      "learning_rate": 9.994461007584052e-06,
      "loss": 0.891,
      "step": 643
    },
    {
      "epoch": 0.03544498871704552,
      "grad_norm": 1.0400965213775635,
      "learning_rate": 9.994440591137816e-06,
      "loss": 0.9345,
      "step": 644
    },
    {
      "epoch": 0.03550002751940118,
      "grad_norm": 0.9816616177558899,
      "learning_rate": 9.9944201371547e-06,
      "loss": 0.91,
      "step": 645
    },
    {
      "epoch": 0.03555506632175684,
      "grad_norm": 1.0528117418289185,
      "learning_rate": 9.99439964563486e-06,
      "loss": 0.952,
      "step": 646
    },
    {
      "epoch": 0.0356101051241125,
      "grad_norm": 0.9802080988883972,
      "learning_rate": 9.99437911657845e-06,
      "loss": 0.9392,
      "step": 647
    },
    {
      "epoch": 0.03566514392646816,
      "grad_norm": 0.9580393433570862,
      "learning_rate": 9.994358549985623e-06,
      "loss": 0.874,
      "step": 648
    },
    {
      "epoch": 0.035720182728823824,
      "grad_norm": 0.8935576677322388,
      "learning_rate": 9.994337945856533e-06,
      "loss": 0.8435,
      "step": 649
    },
    {
      "epoch": 0.03577522153117948,
      "grad_norm": 1.009699821472168,
      "learning_rate": 9.994317304191337e-06,
      "loss": 0.9436,
      "step": 650
    },
    {
      "epoch": 0.03583026033353514,
      "grad_norm": 0.9126121401786804,
      "learning_rate": 9.994296624990188e-06,
      "loss": 0.8424,
      "step": 651
    },
    {
      "epoch": 0.0358852991358908,
      "grad_norm": 0.9555553197860718,
      "learning_rate": 9.994275908253243e-06,
      "loss": 0.93,
      "step": 652
    },
    {
      "epoch": 0.03594033793824646,
      "grad_norm": 0.8359857797622681,
      "learning_rate": 9.994255153980658e-06,
      "loss": 0.6326,
      "step": 653
    },
    {
      "epoch": 0.035995376740602124,
      "grad_norm": 0.8918783664703369,
      "learning_rate": 9.994234362172587e-06,
      "loss": 0.8287,
      "step": 654
    },
    {
      "epoch": 0.036050415542957785,
      "grad_norm": 0.9878549575805664,
      "learning_rate": 9.994213532829188e-06,
      "loss": 0.8841,
      "step": 655
    },
    {
      "epoch": 0.03610545434531345,
      "grad_norm": 0.9504040479660034,
      "learning_rate": 9.994192665950617e-06,
      "loss": 1.0182,
      "step": 656
    },
    {
      "epoch": 0.03616049314766911,
      "grad_norm": 0.9531422257423401,
      "learning_rate": 9.99417176153703e-06,
      "loss": 0.8504,
      "step": 657
    },
    {
      "epoch": 0.03621553195002477,
      "grad_norm": 0.9580292105674744,
      "learning_rate": 9.994150819588587e-06,
      "loss": 0.8048,
      "step": 658
    },
    {
      "epoch": 0.03627057075238043,
      "grad_norm": 0.9786819815635681,
      "learning_rate": 9.99412984010544e-06,
      "loss": 0.9124,
      "step": 659
    },
    {
      "epoch": 0.03632560955473609,
      "grad_norm": 0.9733422994613647,
      "learning_rate": 9.994108823087751e-06,
      "loss": 0.8868,
      "step": 660
    },
    {
      "epoch": 0.03638064835709175,
      "grad_norm": 1.093173623085022,
      "learning_rate": 9.994087768535679e-06,
      "loss": 0.9428,
      "step": 661
    },
    {
      "epoch": 0.03643568715944741,
      "grad_norm": 0.9067148566246033,
      "learning_rate": 9.994066676449378e-06,
      "loss": 0.8838,
      "step": 662
    },
    {
      "epoch": 0.03649072596180307,
      "grad_norm": 0.9509521722793579,
      "learning_rate": 9.99404554682901e-06,
      "loss": 0.9034,
      "step": 663
    },
    {
      "epoch": 0.03654576476415873,
      "grad_norm": 0.9523824453353882,
      "learning_rate": 9.994024379674731e-06,
      "loss": 0.9623,
      "step": 664
    },
    {
      "epoch": 0.03660080356651439,
      "grad_norm": 0.987276554107666,
      "learning_rate": 9.994003174986703e-06,
      "loss": 0.8817,
      "step": 665
    },
    {
      "epoch": 0.036655842368870054,
      "grad_norm": 0.9500744342803955,
      "learning_rate": 9.993981932765083e-06,
      "loss": 0.9742,
      "step": 666
    },
    {
      "epoch": 0.036710881171225715,
      "grad_norm": 0.9420705437660217,
      "learning_rate": 9.993960653010034e-06,
      "loss": 0.9657,
      "step": 667
    },
    {
      "epoch": 0.036765919973581376,
      "grad_norm": 0.9443248510360718,
      "learning_rate": 9.99393933572171e-06,
      "loss": 0.8468,
      "step": 668
    },
    {
      "epoch": 0.03682095877593704,
      "grad_norm": 0.9666558504104614,
      "learning_rate": 9.993917980900276e-06,
      "loss": 0.9871,
      "step": 669
    },
    {
      "epoch": 0.0368759975782927,
      "grad_norm": 1.0236201286315918,
      "learning_rate": 9.993896588545892e-06,
      "loss": 0.9814,
      "step": 670
    },
    {
      "epoch": 0.03693103638064836,
      "grad_norm": 1.016190528869629,
      "learning_rate": 9.993875158658716e-06,
      "loss": 1.0156,
      "step": 671
    },
    {
      "epoch": 0.036986075183004015,
      "grad_norm": 0.9296661019325256,
      "learning_rate": 9.993853691238913e-06,
      "loss": 0.7956,
      "step": 672
    },
    {
      "epoch": 0.037041113985359676,
      "grad_norm": 0.9276684522628784,
      "learning_rate": 9.993832186286643e-06,
      "loss": 0.9253,
      "step": 673
    },
    {
      "epoch": 0.03709615278771534,
      "grad_norm": 0.8588787913322449,
      "learning_rate": 9.993810643802065e-06,
      "loss": 0.7878,
      "step": 674
    },
    {
      "epoch": 0.037151191590071,
      "grad_norm": 0.9955212473869324,
      "learning_rate": 9.993789063785344e-06,
      "loss": 0.8711,
      "step": 675
    },
    {
      "epoch": 0.03720623039242666,
      "grad_norm": 0.925578236579895,
      "learning_rate": 9.993767446236642e-06,
      "loss": 0.9431,
      "step": 676
    },
    {
      "epoch": 0.03726126919478232,
      "grad_norm": 0.9610552787780762,
      "learning_rate": 9.99374579115612e-06,
      "loss": 0.887,
      "step": 677
    },
    {
      "epoch": 0.03731630799713798,
      "grad_norm": 1.0052428245544434,
      "learning_rate": 9.99372409854394e-06,
      "loss": 0.8751,
      "step": 678
    },
    {
      "epoch": 0.037371346799493645,
      "grad_norm": 0.9503066539764404,
      "learning_rate": 9.99370236840027e-06,
      "loss": 0.8556,
      "step": 679
    },
    {
      "epoch": 0.037426385601849306,
      "grad_norm": 2.426232099533081,
      "learning_rate": 9.993680600725266e-06,
      "loss": 0.9077,
      "step": 680
    },
    {
      "epoch": 0.03748142440420497,
      "grad_norm": 0.9119723439216614,
      "learning_rate": 9.993658795519096e-06,
      "loss": 0.8575,
      "step": 681
    },
    {
      "epoch": 0.03753646320656062,
      "grad_norm": 0.9688286781311035,
      "learning_rate": 9.993636952781923e-06,
      "loss": 0.8921,
      "step": 682
    },
    {
      "epoch": 0.03759150200891628,
      "grad_norm": 1.030013084411621,
      "learning_rate": 9.993615072513913e-06,
      "loss": 0.8622,
      "step": 683
    },
    {
      "epoch": 0.037646540811271945,
      "grad_norm": 1.055187463760376,
      "learning_rate": 9.993593154715228e-06,
      "loss": 0.9251,
      "step": 684
    },
    {
      "epoch": 0.037701579613627606,
      "grad_norm": 1.0518591403961182,
      "learning_rate": 9.993571199386032e-06,
      "loss": 0.9575,
      "step": 685
    },
    {
      "epoch": 0.03775661841598327,
      "grad_norm": 0.9232666492462158,
      "learning_rate": 9.993549206526495e-06,
      "loss": 0.8522,
      "step": 686
    },
    {
      "epoch": 0.03781165721833893,
      "grad_norm": 1.0212332010269165,
      "learning_rate": 9.993527176136775e-06,
      "loss": 0.9358,
      "step": 687
    },
    {
      "epoch": 0.03786669602069459,
      "grad_norm": 0.9137141108512878,
      "learning_rate": 9.993505108217045e-06,
      "loss": 0.8561,
      "step": 688
    },
    {
      "epoch": 0.03792173482305025,
      "grad_norm": 1.0069375038146973,
      "learning_rate": 9.993483002767465e-06,
      "loss": 0.8274,
      "step": 689
    },
    {
      "epoch": 0.03797677362540591,
      "grad_norm": 0.9820672869682312,
      "learning_rate": 9.993460859788204e-06,
      "loss": 0.907,
      "step": 690
    },
    {
      "epoch": 0.038031812427761574,
      "grad_norm": 1.0042002201080322,
      "learning_rate": 9.993438679279428e-06,
      "loss": 0.9263,
      "step": 691
    },
    {
      "epoch": 0.038086851230117236,
      "grad_norm": 0.9733695983886719,
      "learning_rate": 9.993416461241304e-06,
      "loss": 0.8455,
      "step": 692
    },
    {
      "epoch": 0.03814189003247289,
      "grad_norm": 0.9106015563011169,
      "learning_rate": 9.993394205673996e-06,
      "loss": 0.8469,
      "step": 693
    },
    {
      "epoch": 0.03819692883482855,
      "grad_norm": 0.9802660346031189,
      "learning_rate": 9.993371912577677e-06,
      "loss": 0.8662,
      "step": 694
    },
    {
      "epoch": 0.03825196763718421,
      "grad_norm": 0.9183964729309082,
      "learning_rate": 9.99334958195251e-06,
      "loss": 0.8968,
      "step": 695
    },
    {
      "epoch": 0.038307006439539874,
      "grad_norm": 0.9572185277938843,
      "learning_rate": 9.993327213798663e-06,
      "loss": 0.953,
      "step": 696
    },
    {
      "epoch": 0.038362045241895536,
      "grad_norm": 1.4480071067810059,
      "learning_rate": 9.993304808116307e-06,
      "loss": 1.1131,
      "step": 697
    },
    {
      "epoch": 0.0384170840442512,
      "grad_norm": 0.9297361969947815,
      "learning_rate": 9.993282364905607e-06,
      "loss": 0.884,
      "step": 698
    },
    {
      "epoch": 0.03847212284660686,
      "grad_norm": 0.9400073885917664,
      "learning_rate": 9.993259884166735e-06,
      "loss": 0.932,
      "step": 699
    },
    {
      "epoch": 0.03852716164896252,
      "grad_norm": 0.9231798052787781,
      "learning_rate": 9.993237365899858e-06,
      "loss": 0.8981,
      "step": 700
    },
    {
      "epoch": 0.03858220045131818,
      "grad_norm": 0.8233712911605835,
      "learning_rate": 9.993214810105144e-06,
      "loss": 0.8218,
      "step": 701
    },
    {
      "epoch": 0.03863723925367384,
      "grad_norm": 1.0997854471206665,
      "learning_rate": 9.993192216782768e-06,
      "loss": 0.9298,
      "step": 702
    },
    {
      "epoch": 0.038692278056029504,
      "grad_norm": 0.9570802450180054,
      "learning_rate": 9.993169585932893e-06,
      "loss": 0.7815,
      "step": 703
    },
    {
      "epoch": 0.03874731685838516,
      "grad_norm": 0.9913730025291443,
      "learning_rate": 9.993146917555692e-06,
      "loss": 0.9621,
      "step": 704
    },
    {
      "epoch": 0.03880235566074082,
      "grad_norm": 1.088767409324646,
      "learning_rate": 9.993124211651334e-06,
      "loss": 0.9295,
      "step": 705
    },
    {
      "epoch": 0.03885739446309648,
      "grad_norm": 0.8199124336242676,
      "learning_rate": 9.993101468219995e-06,
      "loss": 0.7613,
      "step": 706
    },
    {
      "epoch": 0.03891243326545214,
      "grad_norm": 1.112566351890564,
      "learning_rate": 9.99307868726184e-06,
      "loss": 0.791,
      "step": 707
    },
    {
      "epoch": 0.038967472067807804,
      "grad_norm": 0.9372578859329224,
      "learning_rate": 9.99305586877704e-06,
      "loss": 0.8567,
      "step": 708
    },
    {
      "epoch": 0.039022510870163465,
      "grad_norm": 1.0167721509933472,
      "learning_rate": 9.99303301276577e-06,
      "loss": 0.9787,
      "step": 709
    },
    {
      "epoch": 0.03907754967251913,
      "grad_norm": 1.3526856899261475,
      "learning_rate": 9.993010119228202e-06,
      "loss": 1.2215,
      "step": 710
    },
    {
      "epoch": 0.03913258847487479,
      "grad_norm": 0.8819016814231873,
      "learning_rate": 9.992987188164505e-06,
      "loss": 0.7736,
      "step": 711
    },
    {
      "epoch": 0.03918762727723045,
      "grad_norm": 1.0033677816390991,
      "learning_rate": 9.992964219574852e-06,
      "loss": 0.9919,
      "step": 712
    },
    {
      "epoch": 0.03924266607958611,
      "grad_norm": 0.894926130771637,
      "learning_rate": 9.992941213459417e-06,
      "loss": 0.9058,
      "step": 713
    },
    {
      "epoch": 0.03929770488194177,
      "grad_norm": 0.9481377005577087,
      "learning_rate": 9.992918169818373e-06,
      "loss": 0.8436,
      "step": 714
    },
    {
      "epoch": 0.03935274368429743,
      "grad_norm": 0.9312933087348938,
      "learning_rate": 9.992895088651893e-06,
      "loss": 0.8869,
      "step": 715
    },
    {
      "epoch": 0.03940778248665309,
      "grad_norm": 0.9765705466270447,
      "learning_rate": 9.99287196996015e-06,
      "loss": 0.9512,
      "step": 716
    },
    {
      "epoch": 0.03946282128900875,
      "grad_norm": 0.9610235691070557,
      "learning_rate": 9.992848813743317e-06,
      "loss": 0.8005,
      "step": 717
    },
    {
      "epoch": 0.03951786009136441,
      "grad_norm": 1.102995753288269,
      "learning_rate": 9.99282562000157e-06,
      "loss": 0.8017,
      "step": 718
    },
    {
      "epoch": 0.03957289889372007,
      "grad_norm": 1.023317575454712,
      "learning_rate": 9.99280238873508e-06,
      "loss": 0.911,
      "step": 719
    },
    {
      "epoch": 0.039627937696075734,
      "grad_norm": 1.0531049966812134,
      "learning_rate": 9.992779119944025e-06,
      "loss": 0.8562,
      "step": 720
    },
    {
      "epoch": 0.039682976498431395,
      "grad_norm": 0.918250322341919,
      "learning_rate": 9.992755813628579e-06,
      "loss": 0.92,
      "step": 721
    },
    {
      "epoch": 0.039738015300787057,
      "grad_norm": 0.8508251309394836,
      "learning_rate": 9.992732469788915e-06,
      "loss": 0.7347,
      "step": 722
    },
    {
      "epoch": 0.03979305410314272,
      "grad_norm": 0.9184926152229309,
      "learning_rate": 9.992709088425211e-06,
      "loss": 0.8732,
      "step": 723
    },
    {
      "epoch": 0.03984809290549838,
      "grad_norm": 1.1613929271697998,
      "learning_rate": 9.992685669537643e-06,
      "loss": 0.9522,
      "step": 724
    },
    {
      "epoch": 0.039903131707854034,
      "grad_norm": 1.091513752937317,
      "learning_rate": 9.992662213126386e-06,
      "loss": 0.9646,
      "step": 725
    },
    {
      "epoch": 0.039958170510209695,
      "grad_norm": 1.057803750038147,
      "learning_rate": 9.992638719191615e-06,
      "loss": 0.7032,
      "step": 726
    },
    {
      "epoch": 0.040013209312565357,
      "grad_norm": 0.8771823644638062,
      "learning_rate": 9.992615187733508e-06,
      "loss": 0.8577,
      "step": 727
    },
    {
      "epoch": 0.04006824811492102,
      "grad_norm": 0.9471028447151184,
      "learning_rate": 9.992591618752244e-06,
      "loss": 0.9057,
      "step": 728
    },
    {
      "epoch": 0.04012328691727668,
      "grad_norm": 0.9547705054283142,
      "learning_rate": 9.992568012247995e-06,
      "loss": 0.9549,
      "step": 729
    },
    {
      "epoch": 0.04017832571963234,
      "grad_norm": 0.8862974047660828,
      "learning_rate": 9.992544368220941e-06,
      "loss": 0.8593,
      "step": 730
    },
    {
      "epoch": 0.040233364521988,
      "grad_norm": 0.906334400177002,
      "learning_rate": 9.992520686671261e-06,
      "loss": 0.8832,
      "step": 731
    },
    {
      "epoch": 0.04028840332434366,
      "grad_norm": 1.07270085811615,
      "learning_rate": 9.992496967599133e-06,
      "loss": 0.9409,
      "step": 732
    },
    {
      "epoch": 0.040343442126699325,
      "grad_norm": 0.9026005268096924,
      "learning_rate": 9.992473211004734e-06,
      "loss": 0.8326,
      "step": 733
    },
    {
      "epoch": 0.040398480929054986,
      "grad_norm": 0.9762942790985107,
      "learning_rate": 9.992449416888241e-06,
      "loss": 0.9048,
      "step": 734
    },
    {
      "epoch": 0.04045351973141065,
      "grad_norm": 0.9658033847808838,
      "learning_rate": 9.992425585249837e-06,
      "loss": 0.9219,
      "step": 735
    },
    {
      "epoch": 0.0405085585337663,
      "grad_norm": 0.8909044861793518,
      "learning_rate": 9.992401716089698e-06,
      "loss": 0.8564,
      "step": 736
    },
    {
      "epoch": 0.04056359733612196,
      "grad_norm": 1.0387929677963257,
      "learning_rate": 9.992377809408001e-06,
      "loss": 0.9533,
      "step": 737
    },
    {
      "epoch": 0.040618636138477625,
      "grad_norm": 0.9044275879859924,
      "learning_rate": 9.99235386520493e-06,
      "loss": 0.8508,
      "step": 738
    },
    {
      "epoch": 0.040673674940833286,
      "grad_norm": 1.019377589225769,
      "learning_rate": 9.992329883480667e-06,
      "loss": 0.8684,
      "step": 739
    },
    {
      "epoch": 0.04072871374318895,
      "grad_norm": 0.9394627213478088,
      "learning_rate": 9.992305864235385e-06,
      "loss": 0.7665,
      "step": 740
    },
    {
      "epoch": 0.04078375254554461,
      "grad_norm": 0.8652323484420776,
      "learning_rate": 9.99228180746927e-06,
      "loss": 0.8576,
      "step": 741
    },
    {
      "epoch": 0.04083879134790027,
      "grad_norm": 0.9347619414329529,
      "learning_rate": 9.992257713182502e-06,
      "loss": 0.9586,
      "step": 742
    },
    {
      "epoch": 0.04089383015025593,
      "grad_norm": 0.9510203003883362,
      "learning_rate": 9.99223358137526e-06,
      "loss": 0.9092,
      "step": 743
    },
    {
      "epoch": 0.04094886895261159,
      "grad_norm": 0.8242866396903992,
      "learning_rate": 9.992209412047729e-06,
      "loss": 0.6997,
      "step": 744
    },
    {
      "epoch": 0.041003907754967255,
      "grad_norm": 0.8842730522155762,
      "learning_rate": 9.992185205200087e-06,
      "loss": 0.8873,
      "step": 745
    },
    {
      "epoch": 0.041058946557322916,
      "grad_norm": 1.0813730955123901,
      "learning_rate": 9.992160960832518e-06,
      "loss": 1.0162,
      "step": 746
    },
    {
      "epoch": 0.04111398535967857,
      "grad_norm": 1.1276283264160156,
      "learning_rate": 9.9921366789452e-06,
      "loss": 1.0004,
      "step": 747
    },
    {
      "epoch": 0.04116902416203423,
      "grad_norm": 0.8810326457023621,
      "learning_rate": 9.992112359538323e-06,
      "loss": 0.7823,
      "step": 748
    },
    {
      "epoch": 0.04122406296438989,
      "grad_norm": 0.9939407110214233,
      "learning_rate": 9.992088002612066e-06,
      "loss": 1.0016,
      "step": 749
    },
    {
      "epoch": 0.041279101766745555,
      "grad_norm": 1.0963523387908936,
      "learning_rate": 9.99206360816661e-06,
      "loss": 0.9252,
      "step": 750
    },
    {
      "epoch": 0.041334140569101216,
      "grad_norm": 1.1346478462219238,
      "learning_rate": 9.99203917620214e-06,
      "loss": 0.9608,
      "step": 751
    },
    {
      "epoch": 0.04138917937145688,
      "grad_norm": 1.0108580589294434,
      "learning_rate": 9.992014706718841e-06,
      "loss": 0.9179,
      "step": 752
    },
    {
      "epoch": 0.04144421817381254,
      "grad_norm": 0.897293210029602,
      "learning_rate": 9.991990199716894e-06,
      "loss": 0.9295,
      "step": 753
    },
    {
      "epoch": 0.0414992569761682,
      "grad_norm": 1.0152363777160645,
      "learning_rate": 9.991965655196488e-06,
      "loss": 0.8467,
      "step": 754
    },
    {
      "epoch": 0.04155429577852386,
      "grad_norm": 0.8655388355255127,
      "learning_rate": 9.9919410731578e-06,
      "loss": 0.796,
      "step": 755
    },
    {
      "epoch": 0.04160933458087952,
      "grad_norm": 1.0140331983566284,
      "learning_rate": 9.991916453601023e-06,
      "loss": 0.8444,
      "step": 756
    },
    {
      "epoch": 0.041664373383235184,
      "grad_norm": 0.9387341141700745,
      "learning_rate": 9.991891796526338e-06,
      "loss": 0.8669,
      "step": 757
    },
    {
      "epoch": 0.04171941218559084,
      "grad_norm": 0.9395696520805359,
      "learning_rate": 9.991867101933928e-06,
      "loss": 0.8376,
      "step": 758
    },
    {
      "epoch": 0.0417744509879465,
      "grad_norm": 1.0856634378433228,
      "learning_rate": 9.991842369823983e-06,
      "loss": 0.9271,
      "step": 759
    },
    {
      "epoch": 0.04182948979030216,
      "grad_norm": 0.8777190446853638,
      "learning_rate": 9.991817600196687e-06,
      "loss": 0.9197,
      "step": 760
    },
    {
      "epoch": 0.04188452859265782,
      "grad_norm": 0.9639917016029358,
      "learning_rate": 9.991792793052225e-06,
      "loss": 0.8835,
      "step": 761
    },
    {
      "epoch": 0.041939567395013484,
      "grad_norm": 0.9384773969650269,
      "learning_rate": 9.991767948390785e-06,
      "loss": 0.8403,
      "step": 762
    },
    {
      "epoch": 0.041994606197369146,
      "grad_norm": 0.8987650275230408,
      "learning_rate": 9.991743066212554e-06,
      "loss": 0.7948,
      "step": 763
    },
    {
      "epoch": 0.04204964499972481,
      "grad_norm": 1.0545049905776978,
      "learning_rate": 9.991718146517717e-06,
      "loss": 0.9359,
      "step": 764
    },
    {
      "epoch": 0.04210468380208047,
      "grad_norm": 0.9840022325515747,
      "learning_rate": 9.991693189306463e-06,
      "loss": 0.9188,
      "step": 765
    },
    {
      "epoch": 0.04215972260443613,
      "grad_norm": 0.8769927620887756,
      "learning_rate": 9.991668194578981e-06,
      "loss": 0.8647,
      "step": 766
    },
    {
      "epoch": 0.04221476140679179,
      "grad_norm": 0.9268791675567627,
      "learning_rate": 9.991643162335455e-06,
      "loss": 0.897,
      "step": 767
    },
    {
      "epoch": 0.042269800209147446,
      "grad_norm": 0.9316747784614563,
      "learning_rate": 9.991618092576075e-06,
      "loss": 0.9341,
      "step": 768
    },
    {
      "epoch": 0.04232483901150311,
      "grad_norm": 0.8348364233970642,
      "learning_rate": 9.991592985301031e-06,
      "loss": 0.7528,
      "step": 769
    },
    {
      "epoch": 0.04237987781385877,
      "grad_norm": 0.9139068126678467,
      "learning_rate": 9.99156784051051e-06,
      "loss": 0.8596,
      "step": 770
    },
    {
      "epoch": 0.04243491661621443,
      "grad_norm": 0.9403928518295288,
      "learning_rate": 9.991542658204701e-06,
      "loss": 0.974,
      "step": 771
    },
    {
      "epoch": 0.04248995541857009,
      "grad_norm": 0.993549108505249,
      "learning_rate": 9.991517438383793e-06,
      "loss": 0.9479,
      "step": 772
    },
    {
      "epoch": 0.04254499422092575,
      "grad_norm": 0.8494916558265686,
      "learning_rate": 9.991492181047975e-06,
      "loss": 0.9149,
      "step": 773
    },
    {
      "epoch": 0.042600033023281414,
      "grad_norm": 1.0351910591125488,
      "learning_rate": 9.991466886197441e-06,
      "loss": 0.9552,
      "step": 774
    },
    {
      "epoch": 0.042655071825637075,
      "grad_norm": 0.916829526424408,
      "learning_rate": 9.991441553832375e-06,
      "loss": 0.8781,
      "step": 775
    },
    {
      "epoch": 0.04271011062799274,
      "grad_norm": 1.113476276397705,
      "learning_rate": 9.991416183952972e-06,
      "loss": 0.8137,
      "step": 776
    },
    {
      "epoch": 0.0427651494303484,
      "grad_norm": 1.1608171463012695,
      "learning_rate": 9.991390776559421e-06,
      "loss": 1.0045,
      "step": 777
    },
    {
      "epoch": 0.04282018823270406,
      "grad_norm": 1.0045493841171265,
      "learning_rate": 9.991365331651913e-06,
      "loss": 0.8813,
      "step": 778
    },
    {
      "epoch": 0.042875227035059714,
      "grad_norm": 0.918820858001709,
      "learning_rate": 9.991339849230639e-06,
      "loss": 0.9198,
      "step": 779
    },
    {
      "epoch": 0.042930265837415375,
      "grad_norm": 0.9875735640525818,
      "learning_rate": 9.991314329295792e-06,
      "loss": 0.8665,
      "step": 780
    },
    {
      "epoch": 0.04298530463977104,
      "grad_norm": 0.873768150806427,
      "learning_rate": 9.991288771847561e-06,
      "loss": 0.8606,
      "step": 781
    },
    {
      "epoch": 0.0430403434421267,
      "grad_norm": 0.8892746567726135,
      "learning_rate": 9.991263176886139e-06,
      "loss": 0.9011,
      "step": 782
    },
    {
      "epoch": 0.04309538224448236,
      "grad_norm": 1.097734808921814,
      "learning_rate": 9.99123754441172e-06,
      "loss": 1.009,
      "step": 783
    },
    {
      "epoch": 0.04315042104683802,
      "grad_norm": 1.0065964460372925,
      "learning_rate": 9.991211874424497e-06,
      "loss": 0.9492,
      "step": 784
    },
    {
      "epoch": 0.04320545984919368,
      "grad_norm": 1.0791678428649902,
      "learning_rate": 9.99118616692466e-06,
      "loss": 1.0142,
      "step": 785
    },
    {
      "epoch": 0.043260498651549344,
      "grad_norm": 0.9454777836799622,
      "learning_rate": 9.991160421912404e-06,
      "loss": 0.8058,
      "step": 786
    },
    {
      "epoch": 0.043315537453905005,
      "grad_norm": 0.9448156952857971,
      "learning_rate": 9.991134639387922e-06,
      "loss": 0.8184,
      "step": 787
    },
    {
      "epoch": 0.043370576256260666,
      "grad_norm": 0.9636550545692444,
      "learning_rate": 9.99110881935141e-06,
      "loss": 0.8606,
      "step": 788
    },
    {
      "epoch": 0.04342561505861633,
      "grad_norm": 0.9933613538742065,
      "learning_rate": 9.991082961803058e-06,
      "loss": 0.9449,
      "step": 789
    },
    {
      "epoch": 0.04348065386097198,
      "grad_norm": 0.8906797170639038,
      "learning_rate": 9.991057066743065e-06,
      "loss": 0.8053,
      "step": 790
    },
    {
      "epoch": 0.043535692663327644,
      "grad_norm": 1.0393906831741333,
      "learning_rate": 9.991031134171621e-06,
      "loss": 0.8487,
      "step": 791
    },
    {
      "epoch": 0.043590731465683305,
      "grad_norm": 1.0618231296539307,
      "learning_rate": 9.991005164088923e-06,
      "loss": 0.9847,
      "step": 792
    },
    {
      "epoch": 0.043645770268038966,
      "grad_norm": 0.9525149464607239,
      "learning_rate": 9.990979156495167e-06,
      "loss": 0.9318,
      "step": 793
    },
    {
      "epoch": 0.04370080907039463,
      "grad_norm": 0.9430851936340332,
      "learning_rate": 9.990953111390546e-06,
      "loss": 0.8483,
      "step": 794
    },
    {
      "epoch": 0.04375584787275029,
      "grad_norm": 0.9259672164916992,
      "learning_rate": 9.99092702877526e-06,
      "loss": 0.9365,
      "step": 795
    },
    {
      "epoch": 0.04381088667510595,
      "grad_norm": 0.942609965801239,
      "learning_rate": 9.9909009086495e-06,
      "loss": 0.8408,
      "step": 796
    },
    {
      "epoch": 0.04386592547746161,
      "grad_norm": 0.939255952835083,
      "learning_rate": 9.990874751013467e-06,
      "loss": 0.8749,
      "step": 797
    },
    {
      "epoch": 0.04392096427981727,
      "grad_norm": 1.1701711416244507,
      "learning_rate": 9.990848555867353e-06,
      "loss": 0.9312,
      "step": 798
    },
    {
      "epoch": 0.043976003082172935,
      "grad_norm": 1.0441124439239502,
      "learning_rate": 9.990822323211358e-06,
      "loss": 0.8618,
      "step": 799
    },
    {
      "epoch": 0.04403104188452859,
      "grad_norm": 0.9601489305496216,
      "learning_rate": 9.990796053045679e-06,
      "loss": 0.9569,
      "step": 800
    },
    {
      "epoch": 0.04408608068688425,
      "grad_norm": 0.9394032955169678,
      "learning_rate": 9.990769745370513e-06,
      "loss": 0.846,
      "step": 801
    },
    {
      "epoch": 0.04414111948923991,
      "grad_norm": 0.9631348252296448,
      "learning_rate": 9.990743400186056e-06,
      "loss": 0.8754,
      "step": 802
    },
    {
      "epoch": 0.04419615829159557,
      "grad_norm": 0.9234963059425354,
      "learning_rate": 9.990717017492508e-06,
      "loss": 0.8613,
      "step": 803
    },
    {
      "epoch": 0.044251197093951235,
      "grad_norm": 0.9169090390205383,
      "learning_rate": 9.990690597290069e-06,
      "loss": 0.8867,
      "step": 804
    },
    {
      "epoch": 0.044306235896306896,
      "grad_norm": 1.0194867849349976,
      "learning_rate": 9.990664139578933e-06,
      "loss": 0.8675,
      "step": 805
    },
    {
      "epoch": 0.04436127469866256,
      "grad_norm": 1.3226114511489868,
      "learning_rate": 9.990637644359302e-06,
      "loss": 0.997,
      "step": 806
    },
    {
      "epoch": 0.04441631350101822,
      "grad_norm": 0.8904317617416382,
      "learning_rate": 9.990611111631374e-06,
      "loss": 0.7274,
      "step": 807
    },
    {
      "epoch": 0.04447135230337388,
      "grad_norm": 0.8909007906913757,
      "learning_rate": 9.99058454139535e-06,
      "loss": 0.8141,
      "step": 808
    },
    {
      "epoch": 0.04452639110572954,
      "grad_norm": 1.004015564918518,
      "learning_rate": 9.990557933651429e-06,
      "loss": 0.9883,
      "step": 809
    },
    {
      "epoch": 0.0445814299080852,
      "grad_norm": 1.1215732097625732,
      "learning_rate": 9.990531288399807e-06,
      "loss": 0.9355,
      "step": 810
    },
    {
      "epoch": 0.04463646871044086,
      "grad_norm": 1.0545012950897217,
      "learning_rate": 9.99050460564069e-06,
      "loss": 0.9532,
      "step": 811
    },
    {
      "epoch": 0.04469150751279652,
      "grad_norm": 0.9608867168426514,
      "learning_rate": 9.990477885374277e-06,
      "loss": 0.9363,
      "step": 812
    },
    {
      "epoch": 0.04474654631515218,
      "grad_norm": 0.8750461935997009,
      "learning_rate": 9.990451127600766e-06,
      "loss": 0.7343,
      "step": 813
    },
    {
      "epoch": 0.04480158511750784,
      "grad_norm": 0.891740620136261,
      "learning_rate": 9.99042433232036e-06,
      "loss": 0.8541,
      "step": 814
    },
    {
      "epoch": 0.0448566239198635,
      "grad_norm": 1.1520029306411743,
      "learning_rate": 9.990397499533264e-06,
      "loss": 0.7696,
      "step": 815
    },
    {
      "epoch": 0.044911662722219164,
      "grad_norm": 0.9526278972625732,
      "learning_rate": 9.990370629239673e-06,
      "loss": 0.8953,
      "step": 816
    },
    {
      "epoch": 0.044966701524574826,
      "grad_norm": 0.9218434691429138,
      "learning_rate": 9.990343721439795e-06,
      "loss": 0.8198,
      "step": 817
    },
    {
      "epoch": 0.04502174032693049,
      "grad_norm": 0.8502745628356934,
      "learning_rate": 9.990316776133827e-06,
      "loss": 0.8035,
      "step": 818
    },
    {
      "epoch": 0.04507677912928615,
      "grad_norm": 0.8861565589904785,
      "learning_rate": 9.990289793321975e-06,
      "loss": 0.8626,
      "step": 819
    },
    {
      "epoch": 0.04513181793164181,
      "grad_norm": 1.1113256216049194,
      "learning_rate": 9.99026277300444e-06,
      "loss": 0.9363,
      "step": 820
    },
    {
      "epoch": 0.04518685673399747,
      "grad_norm": 0.9984708428382874,
      "learning_rate": 9.990235715181426e-06,
      "loss": 1.0376,
      "step": 821
    },
    {
      "epoch": 0.045241895536353126,
      "grad_norm": 0.9026711583137512,
      "learning_rate": 9.990208619853137e-06,
      "loss": 0.9079,
      "step": 822
    },
    {
      "epoch": 0.04529693433870879,
      "grad_norm": 0.8724965453147888,
      "learning_rate": 9.990181487019775e-06,
      "loss": 0.8665,
      "step": 823
    },
    {
      "epoch": 0.04535197314106445,
      "grad_norm": 0.8923047780990601,
      "learning_rate": 9.990154316681543e-06,
      "loss": 0.7779,
      "step": 824
    },
    {
      "epoch": 0.04540701194342011,
      "grad_norm": 0.9024640321731567,
      "learning_rate": 9.99012710883865e-06,
      "loss": 0.8859,
      "step": 825
    },
    {
      "epoch": 0.04546205074577577,
      "grad_norm": 0.9245888590812683,
      "learning_rate": 9.990099863491296e-06,
      "loss": 0.8501,
      "step": 826
    },
    {
      "epoch": 0.04551708954813143,
      "grad_norm": 0.9257050156593323,
      "learning_rate": 9.990072580639687e-06,
      "loss": 0.9561,
      "step": 827
    },
    {
      "epoch": 0.045572128350487094,
      "grad_norm": 0.995610773563385,
      "learning_rate": 9.99004526028403e-06,
      "loss": 0.917,
      "step": 828
    },
    {
      "epoch": 0.045627167152842756,
      "grad_norm": 0.9524009823799133,
      "learning_rate": 9.990017902424525e-06,
      "loss": 0.9184,
      "step": 829
    },
    {
      "epoch": 0.04568220595519842,
      "grad_norm": 0.9264503121376038,
      "learning_rate": 9.989990507061385e-06,
      "loss": 0.8615,
      "step": 830
    },
    {
      "epoch": 0.04573724475755408,
      "grad_norm": 1.0068570375442505,
      "learning_rate": 9.989963074194809e-06,
      "loss": 0.8331,
      "step": 831
    },
    {
      "epoch": 0.04579228355990974,
      "grad_norm": 0.9295952320098877,
      "learning_rate": 9.989935603825009e-06,
      "loss": 0.8387,
      "step": 832
    },
    {
      "epoch": 0.045847322362265394,
      "grad_norm": 1.0408827066421509,
      "learning_rate": 9.989908095952186e-06,
      "loss": 0.9686,
      "step": 833
    },
    {
      "epoch": 0.045902361164621056,
      "grad_norm": 0.8874136209487915,
      "learning_rate": 9.989880550576551e-06,
      "loss": 0.815,
      "step": 834
    },
    {
      "epoch": 0.04595739996697672,
      "grad_norm": 0.9898836016654968,
      "learning_rate": 9.989852967698311e-06,
      "loss": 0.9458,
      "step": 835
    },
    {
      "epoch": 0.04601243876933238,
      "grad_norm": 0.9828970432281494,
      "learning_rate": 9.989825347317668e-06,
      "loss": 0.7922,
      "step": 836
    },
    {
      "epoch": 0.04606747757168804,
      "grad_norm": 1.025447964668274,
      "learning_rate": 9.989797689434836e-06,
      "loss": 0.9349,
      "step": 837
    },
    {
      "epoch": 0.0461225163740437,
      "grad_norm": 0.8623831272125244,
      "learning_rate": 9.98976999405002e-06,
      "loss": 0.8786,
      "step": 838
    },
    {
      "epoch": 0.04617755517639936,
      "grad_norm": 0.9614997506141663,
      "learning_rate": 9.98974226116343e-06,
      "loss": 0.7885,
      "step": 839
    },
    {
      "epoch": 0.046232593978755024,
      "grad_norm": 1.0207616090774536,
      "learning_rate": 9.989714490775269e-06,
      "loss": 0.9786,
      "step": 840
    },
    {
      "epoch": 0.046287632781110685,
      "grad_norm": 0.8509595990180969,
      "learning_rate": 9.98968668288575e-06,
      "loss": 0.7312,
      "step": 841
    },
    {
      "epoch": 0.04634267158346635,
      "grad_norm": 0.9822607040405273,
      "learning_rate": 9.989658837495084e-06,
      "loss": 0.952,
      "step": 842
    },
    {
      "epoch": 0.046397710385822,
      "grad_norm": 1.0058252811431885,
      "learning_rate": 9.989630954603477e-06,
      "loss": 0.8811,
      "step": 843
    },
    {
      "epoch": 0.04645274918817766,
      "grad_norm": 1.0146985054016113,
      "learning_rate": 9.989603034211139e-06,
      "loss": 0.9051,
      "step": 844
    },
    {
      "epoch": 0.046507787990533324,
      "grad_norm": 0.8976503610610962,
      "learning_rate": 9.98957507631828e-06,
      "loss": 0.879,
      "step": 845
    },
    {
      "epoch": 0.046562826792888985,
      "grad_norm": 0.8791939616203308,
      "learning_rate": 9.989547080925111e-06,
      "loss": 0.8944,
      "step": 846
    },
    {
      "epoch": 0.04661786559524465,
      "grad_norm": 0.8530884981155396,
      "learning_rate": 9.989519048031842e-06,
      "loss": 0.9029,
      "step": 847
    },
    {
      "epoch": 0.04667290439760031,
      "grad_norm": 0.9621617197990417,
      "learning_rate": 9.989490977638683e-06,
      "loss": 0.8374,
      "step": 848
    },
    {
      "epoch": 0.04672794319995597,
      "grad_norm": 0.9629075527191162,
      "learning_rate": 9.989462869745845e-06,
      "loss": 0.9032,
      "step": 849
    },
    {
      "epoch": 0.04678298200231163,
      "grad_norm": 1.3256126642227173,
      "learning_rate": 9.989434724353541e-06,
      "loss": 0.9748,
      "step": 850
    },
    {
      "epoch": 0.04683802080466729,
      "grad_norm": 1.0230494737625122,
      "learning_rate": 9.989406541461979e-06,
      "loss": 0.9752,
      "step": 851
    },
    {
      "epoch": 0.046893059607022954,
      "grad_norm": 0.8454533219337463,
      "learning_rate": 9.989378321071375e-06,
      "loss": 0.8426,
      "step": 852
    },
    {
      "epoch": 0.046948098409378615,
      "grad_norm": 0.9995863437652588,
      "learning_rate": 9.989350063181939e-06,
      "loss": 0.9955,
      "step": 853
    },
    {
      "epoch": 0.04700313721173427,
      "grad_norm": 0.8956604599952698,
      "learning_rate": 9.989321767793883e-06,
      "loss": 0.9024,
      "step": 854
    },
    {
      "epoch": 0.04705817601408993,
      "grad_norm": 1.0123292207717896,
      "learning_rate": 9.989293434907419e-06,
      "loss": 0.7856,
      "step": 855
    },
    {
      "epoch": 0.04711321481644559,
      "grad_norm": 0.814577043056488,
      "learning_rate": 9.989265064522762e-06,
      "loss": 0.8377,
      "step": 856
    },
    {
      "epoch": 0.047168253618801254,
      "grad_norm": 1.1571552753448486,
      "learning_rate": 9.989236656640125e-06,
      "loss": 0.8562,
      "step": 857
    },
    {
      "epoch": 0.047223292421156915,
      "grad_norm": 0.9681577682495117,
      "learning_rate": 9.98920821125972e-06,
      "loss": 0.8473,
      "step": 858
    },
    {
      "epoch": 0.047278331223512576,
      "grad_norm": 0.9680121541023254,
      "learning_rate": 9.989179728381761e-06,
      "loss": 0.9811,
      "step": 859
    },
    {
      "epoch": 0.04733337002586824,
      "grad_norm": 0.985477089881897,
      "learning_rate": 9.989151208006464e-06,
      "loss": 0.6994,
      "step": 860
    },
    {
      "epoch": 0.0473884088282239,
      "grad_norm": 0.8612962365150452,
      "learning_rate": 9.98912265013404e-06,
      "loss": 0.7667,
      "step": 861
    },
    {
      "epoch": 0.04744344763057956,
      "grad_norm": 0.8884604573249817,
      "learning_rate": 9.989094054764708e-06,
      "loss": 0.8382,
      "step": 862
    },
    {
      "epoch": 0.04749848643293522,
      "grad_norm": 1.036881923675537,
      "learning_rate": 9.989065421898681e-06,
      "loss": 0.8748,
      "step": 863
    },
    {
      "epoch": 0.04755352523529088,
      "grad_norm": 0.9954493045806885,
      "learning_rate": 9.989036751536171e-06,
      "loss": 0.9174,
      "step": 864
    },
    {
      "epoch": 0.04760856403764654,
      "grad_norm": 0.9984694123268127,
      "learning_rate": 9.989008043677399e-06,
      "loss": 0.7636,
      "step": 865
    },
    {
      "epoch": 0.0476636028400022,
      "grad_norm": 1.0412588119506836,
      "learning_rate": 9.988979298322576e-06,
      "loss": 0.773,
      "step": 866
    },
    {
      "epoch": 0.04771864164235786,
      "grad_norm": 0.8034874796867371,
      "learning_rate": 9.98895051547192e-06,
      "loss": 0.7914,
      "step": 867
    },
    {
      "epoch": 0.04777368044471352,
      "grad_norm": 0.8983979225158691,
      "learning_rate": 9.988921695125648e-06,
      "loss": 0.7292,
      "step": 868
    },
    {
      "epoch": 0.04782871924706918,
      "grad_norm": 0.9445077776908875,
      "learning_rate": 9.988892837283976e-06,
      "loss": 0.8263,
      "step": 869
    },
    {
      "epoch": 0.047883758049424845,
      "grad_norm": 1.0753306150436401,
      "learning_rate": 9.988863941947121e-06,
      "loss": 1.1122,
      "step": 870
    },
    {
      "epoch": 0.047938796851780506,
      "grad_norm": 1.0091484785079956,
      "learning_rate": 9.9888350091153e-06,
      "loss": 0.9276,
      "step": 871
    },
    {
      "epoch": 0.04799383565413617,
      "grad_norm": 1.0977306365966797,
      "learning_rate": 9.988806038788732e-06,
      "loss": 0.854,
      "step": 872
    },
    {
      "epoch": 0.04804887445649183,
      "grad_norm": 1.0285007953643799,
      "learning_rate": 9.988777030967632e-06,
      "loss": 0.9441,
      "step": 873
    },
    {
      "epoch": 0.04810391325884749,
      "grad_norm": 0.8973976373672485,
      "learning_rate": 9.988747985652218e-06,
      "loss": 0.786,
      "step": 874
    },
    {
      "epoch": 0.04815895206120315,
      "grad_norm": 0.9809553623199463,
      "learning_rate": 9.98871890284271e-06,
      "loss": 0.9042,
      "step": 875
    },
    {
      "epoch": 0.048213990863558806,
      "grad_norm": 0.8514279723167419,
      "learning_rate": 9.988689782539326e-06,
      "loss": 0.7874,
      "step": 876
    },
    {
      "epoch": 0.04826902966591447,
      "grad_norm": 0.8299674391746521,
      "learning_rate": 9.988660624742286e-06,
      "loss": 0.8704,
      "step": 877
    },
    {
      "epoch": 0.04832406846827013,
      "grad_norm": 0.9862462282180786,
      "learning_rate": 9.988631429451809e-06,
      "loss": 0.9963,
      "step": 878
    },
    {
      "epoch": 0.04837910727062579,
      "grad_norm": 0.9041131734848022,
      "learning_rate": 9.988602196668111e-06,
      "loss": 0.9207,
      "step": 879
    },
    {
      "epoch": 0.04843414607298145,
      "grad_norm": 0.8597276210784912,
      "learning_rate": 9.988572926391416e-06,
      "loss": 0.8226,
      "step": 880
    },
    {
      "epoch": 0.04848918487533711,
      "grad_norm": 0.9494329690933228,
      "learning_rate": 9.988543618621941e-06,
      "loss": 0.8834,
      "step": 881
    },
    {
      "epoch": 0.048544223677692774,
      "grad_norm": 0.9129118323326111,
      "learning_rate": 9.98851427335991e-06,
      "loss": 0.7819,
      "step": 882
    },
    {
      "epoch": 0.048599262480048436,
      "grad_norm": 0.9145999550819397,
      "learning_rate": 9.988484890605539e-06,
      "loss": 0.885,
      "step": 883
    },
    {
      "epoch": 0.0486543012824041,
      "grad_norm": 1.0115307569503784,
      "learning_rate": 9.98845547035905e-06,
      "loss": 0.8347,
      "step": 884
    },
    {
      "epoch": 0.04870934008475976,
      "grad_norm": 1.1372706890106201,
      "learning_rate": 9.988426012620667e-06,
      "loss": 0.944,
      "step": 885
    },
    {
      "epoch": 0.04876437888711541,
      "grad_norm": 0.9502811431884766,
      "learning_rate": 9.98839651739061e-06,
      "loss": 0.9054,
      "step": 886
    },
    {
      "epoch": 0.048819417689471074,
      "grad_norm": 0.9612823128700256,
      "learning_rate": 9.988366984669097e-06,
      "loss": 0.8796,
      "step": 887
    },
    {
      "epoch": 0.048874456491826736,
      "grad_norm": 0.9551461935043335,
      "learning_rate": 9.988337414456355e-06,
      "loss": 0.8769,
      "step": 888
    },
    {
      "epoch": 0.0489294952941824,
      "grad_norm": 0.8554086089134216,
      "learning_rate": 9.988307806752603e-06,
      "loss": 0.892,
      "step": 889
    },
    {
      "epoch": 0.04898453409653806,
      "grad_norm": 0.8418886661529541,
      "learning_rate": 9.988278161558067e-06,
      "loss": 0.7568,
      "step": 890
    },
    {
      "epoch": 0.04903957289889372,
      "grad_norm": 1.4780360460281372,
      "learning_rate": 9.988248478872967e-06,
      "loss": 0.9126,
      "step": 891
    },
    {
      "epoch": 0.04909461170124938,
      "grad_norm": 0.8236714005470276,
      "learning_rate": 9.988218758697526e-06,
      "loss": 0.7317,
      "step": 892
    },
    {
      "epoch": 0.04914965050360504,
      "grad_norm": 0.8777141571044922,
      "learning_rate": 9.988189001031968e-06,
      "loss": 0.7989,
      "step": 893
    },
    {
      "epoch": 0.049204689305960704,
      "grad_norm": 1.0235031843185425,
      "learning_rate": 9.988159205876516e-06,
      "loss": 0.8335,
      "step": 894
    },
    {
      "epoch": 0.049259728108316365,
      "grad_norm": 0.9340357184410095,
      "learning_rate": 9.988129373231395e-06,
      "loss": 0.8129,
      "step": 895
    },
    {
      "epoch": 0.04931476691067203,
      "grad_norm": 1.7686667442321777,
      "learning_rate": 9.98809950309683e-06,
      "loss": 0.9792,
      "step": 896
    },
    {
      "epoch": 0.04936980571302768,
      "grad_norm": 0.9252369403839111,
      "learning_rate": 9.988069595473044e-06,
      "loss": 0.8671,
      "step": 897
    },
    {
      "epoch": 0.04942484451538334,
      "grad_norm": 0.9989960789680481,
      "learning_rate": 9.988039650360262e-06,
      "loss": 0.9245,
      "step": 898
    },
    {
      "epoch": 0.049479883317739004,
      "grad_norm": 1.062912106513977,
      "learning_rate": 9.98800966775871e-06,
      "loss": 0.9146,
      "step": 899
    },
    {
      "epoch": 0.049534922120094665,
      "grad_norm": 0.8698169589042664,
      "learning_rate": 9.98797964766861e-06,
      "loss": 0.8606,
      "step": 900
    },
    {
      "epoch": 0.04958996092245033,
      "grad_norm": 1.6754224300384521,
      "learning_rate": 9.98794959009019e-06,
      "loss": 0.9236,
      "step": 901
    },
    {
      "epoch": 0.04964499972480599,
      "grad_norm": 1.084174394607544,
      "learning_rate": 9.98791949502368e-06,
      "loss": 0.9252,
      "step": 902
    },
    {
      "epoch": 0.04970003852716165,
      "grad_norm": 0.9866724610328674,
      "learning_rate": 9.987889362469301e-06,
      "loss": 0.9096,
      "step": 903
    },
    {
      "epoch": 0.04975507732951731,
      "grad_norm": 0.8814040422439575,
      "learning_rate": 9.987859192427279e-06,
      "loss": 0.8475,
      "step": 904
    },
    {
      "epoch": 0.04981011613187297,
      "grad_norm": 0.8796457052230835,
      "learning_rate": 9.987828984897843e-06,
      "loss": 0.8478,
      "step": 905
    },
    {
      "epoch": 0.049865154934228634,
      "grad_norm": 1.0541884899139404,
      "learning_rate": 9.98779873988122e-06,
      "loss": 0.9799,
      "step": 906
    },
    {
      "epoch": 0.049920193736584295,
      "grad_norm": 0.91409832239151,
      "learning_rate": 9.987768457377636e-06,
      "loss": 0.8701,
      "step": 907
    },
    {
      "epoch": 0.04997523253893995,
      "grad_norm": 1.0120370388031006,
      "learning_rate": 9.98773813738732e-06,
      "loss": 0.8417,
      "step": 908
    },
    {
      "epoch": 0.05003027134129561,
      "grad_norm": 1.7744206190109253,
      "learning_rate": 9.987707779910499e-06,
      "loss": 0.9263,
      "step": 909
    },
    {
      "epoch": 0.05008531014365127,
      "grad_norm": 0.9423969388008118,
      "learning_rate": 9.987677384947402e-06,
      "loss": 0.9667,
      "step": 910
    },
    {
      "epoch": 0.050140348946006934,
      "grad_norm": 1.5940319299697876,
      "learning_rate": 9.987646952498256e-06,
      "loss": 0.9223,
      "step": 911
    },
    {
      "epoch": 0.050195387748362595,
      "grad_norm": 0.941792368888855,
      "learning_rate": 9.987616482563292e-06,
      "loss": 0.895,
      "step": 912
    },
    {
      "epoch": 0.05025042655071826,
      "grad_norm": 3.1945221424102783,
      "learning_rate": 9.987585975142738e-06,
      "loss": 0.837,
      "step": 913
    },
    {
      "epoch": 0.05030546535307392,
      "grad_norm": 2.0819199085235596,
      "learning_rate": 9.98755543023682e-06,
      "loss": 0.918,
      "step": 914
    },
    {
      "epoch": 0.05036050415542958,
      "grad_norm": 0.984282910823822,
      "learning_rate": 9.987524847845773e-06,
      "loss": 0.8589,
      "step": 915
    },
    {
      "epoch": 0.05041554295778524,
      "grad_norm": 0.9021026492118835,
      "learning_rate": 9.987494227969823e-06,
      "loss": 0.9053,
      "step": 916
    },
    {
      "epoch": 0.0504705817601409,
      "grad_norm": 2.6515462398529053,
      "learning_rate": 9.9874635706092e-06,
      "loss": 0.8874,
      "step": 917
    },
    {
      "epoch": 0.050525620562496563,
      "grad_norm": 0.8893095254898071,
      "learning_rate": 9.98743287576414e-06,
      "loss": 0.8259,
      "step": 918
    },
    {
      "epoch": 0.05058065936485222,
      "grad_norm": 0.9897775650024414,
      "learning_rate": 9.987402143434868e-06,
      "loss": 0.877,
      "step": 919
    },
    {
      "epoch": 0.05063569816720788,
      "grad_norm": 0.9391944408416748,
      "learning_rate": 9.987371373621614e-06,
      "loss": 0.9363,
      "step": 920
    },
    {
      "epoch": 0.05069073696956354,
      "grad_norm": 0.9585913419723511,
      "learning_rate": 9.987340566324615e-06,
      "loss": 0.8704,
      "step": 921
    },
    {
      "epoch": 0.0507457757719192,
      "grad_norm": 0.9210980534553528,
      "learning_rate": 9.987309721544098e-06,
      "loss": 0.9321,
      "step": 922
    },
    {
      "epoch": 0.05080081457427486,
      "grad_norm": 1.0713307857513428,
      "learning_rate": 9.987278839280295e-06,
      "loss": 0.9489,
      "step": 923
    },
    {
      "epoch": 0.050855853376630525,
      "grad_norm": 1.0178636312484741,
      "learning_rate": 9.98724791953344e-06,
      "loss": 0.853,
      "step": 924
    },
    {
      "epoch": 0.050910892178986186,
      "grad_norm": 0.9782636761665344,
      "learning_rate": 9.987216962303766e-06,
      "loss": 0.924,
      "step": 925
    },
    {
      "epoch": 0.05096593098134185,
      "grad_norm": 0.9474522471427917,
      "learning_rate": 9.987185967591503e-06,
      "loss": 0.8619,
      "step": 926
    },
    {
      "epoch": 0.05102096978369751,
      "grad_norm": 1.1875778436660767,
      "learning_rate": 9.987154935396885e-06,
      "loss": 1.012,
      "step": 927
    },
    {
      "epoch": 0.05107600858605317,
      "grad_norm": 1.0585243701934814,
      "learning_rate": 9.987123865720147e-06,
      "loss": 0.9019,
      "step": 928
    },
    {
      "epoch": 0.051131047388408825,
      "grad_norm": 0.9848800897598267,
      "learning_rate": 9.98709275856152e-06,
      "loss": 0.9665,
      "step": 929
    },
    {
      "epoch": 0.051186086190764486,
      "grad_norm": 1.04201078414917,
      "learning_rate": 9.987061613921238e-06,
      "loss": 0.9269,
      "step": 930
    },
    {
      "epoch": 0.05124112499312015,
      "grad_norm": 1.1748600006103516,
      "learning_rate": 9.987030431799537e-06,
      "loss": 0.8565,
      "step": 931
    },
    {
      "epoch": 0.05129616379547581,
      "grad_norm": 1.879232406616211,
      "learning_rate": 9.98699921219665e-06,
      "loss": 0.8535,
      "step": 932
    },
    {
      "epoch": 0.05135120259783147,
      "grad_norm": 0.9837847948074341,
      "learning_rate": 9.986967955112812e-06,
      "loss": 0.927,
      "step": 933
    },
    {
      "epoch": 0.05140624140018713,
      "grad_norm": 0.8637211918830872,
      "learning_rate": 9.986936660548257e-06,
      "loss": 0.7903,
      "step": 934
    },
    {
      "epoch": 0.05146128020254279,
      "grad_norm": 0.9078792929649353,
      "learning_rate": 9.986905328503222e-06,
      "loss": 0.9135,
      "step": 935
    },
    {
      "epoch": 0.051516319004898455,
      "grad_norm": 0.9763005971908569,
      "learning_rate": 9.98687395897794e-06,
      "loss": 0.9006,
      "step": 936
    },
    {
      "epoch": 0.051571357807254116,
      "grad_norm": 1.0174345970153809,
      "learning_rate": 9.98684255197265e-06,
      "loss": 0.9294,
      "step": 937
    },
    {
      "epoch": 0.05162639660960978,
      "grad_norm": 0.8709769248962402,
      "learning_rate": 9.986811107487584e-06,
      "loss": 0.7986,
      "step": 938
    },
    {
      "epoch": 0.05168143541196544,
      "grad_norm": 0.8717525601387024,
      "learning_rate": 9.986779625522983e-06,
      "loss": 0.8705,
      "step": 939
    },
    {
      "epoch": 0.05173647421432109,
      "grad_norm": 0.9682945013046265,
      "learning_rate": 9.98674810607908e-06,
      "loss": 0.8127,
      "step": 940
    },
    {
      "epoch": 0.051791513016676755,
      "grad_norm": 1.0248037576675415,
      "learning_rate": 9.986716549156113e-06,
      "loss": 0.9217,
      "step": 941
    },
    {
      "epoch": 0.051846551819032416,
      "grad_norm": 0.9883397221565247,
      "learning_rate": 9.98668495475432e-06,
      "loss": 0.853,
      "step": 942
    },
    {
      "epoch": 0.05190159062138808,
      "grad_norm": 0.9271108508110046,
      "learning_rate": 9.986653322873937e-06,
      "loss": 0.8807,
      "step": 943
    },
    {
      "epoch": 0.05195662942374374,
      "grad_norm": 0.9027101397514343,
      "learning_rate": 9.986621653515203e-06,
      "loss": 0.88,
      "step": 944
    },
    {
      "epoch": 0.0520116682260994,
      "grad_norm": 0.9807021617889404,
      "learning_rate": 9.986589946678354e-06,
      "loss": 0.8922,
      "step": 945
    },
    {
      "epoch": 0.05206670702845506,
      "grad_norm": 0.8779157400131226,
      "learning_rate": 9.98655820236363e-06,
      "loss": 0.8988,
      "step": 946
    },
    {
      "epoch": 0.05212174583081072,
      "grad_norm": 0.8182910680770874,
      "learning_rate": 9.986526420571272e-06,
      "loss": 0.7534,
      "step": 947
    },
    {
      "epoch": 0.052176784633166384,
      "grad_norm": 0.9205981492996216,
      "learning_rate": 9.986494601301513e-06,
      "loss": 0.7516,
      "step": 948
    },
    {
      "epoch": 0.052231823435522046,
      "grad_norm": 0.9829681515693665,
      "learning_rate": 9.986462744554598e-06,
      "loss": 0.9358,
      "step": 949
    },
    {
      "epoch": 0.05228686223787771,
      "grad_norm": 0.8869890570640564,
      "learning_rate": 9.986430850330762e-06,
      "loss": 0.7933,
      "step": 950
    },
    {
      "epoch": 0.05234190104023336,
      "grad_norm": 1.0226716995239258,
      "learning_rate": 9.986398918630248e-06,
      "loss": 0.9523,
      "step": 951
    },
    {
      "epoch": 0.05239693984258902,
      "grad_norm": 0.9549778699874878,
      "learning_rate": 9.986366949453293e-06,
      "loss": 0.9368,
      "step": 952
    },
    {
      "epoch": 0.052451978644944684,
      "grad_norm": 0.860454797744751,
      "learning_rate": 9.98633494280014e-06,
      "loss": 0.7618,
      "step": 953
    },
    {
      "epoch": 0.052507017447300346,
      "grad_norm": 0.9623841643333435,
      "learning_rate": 9.986302898671027e-06,
      "loss": 0.8356,
      "step": 954
    },
    {
      "epoch": 0.05256205624965601,
      "grad_norm": 0.9236606359481812,
      "learning_rate": 9.986270817066196e-06,
      "loss": 0.921,
      "step": 955
    },
    {
      "epoch": 0.05261709505201167,
      "grad_norm": 1.0599812269210815,
      "learning_rate": 9.98623869798589e-06,
      "loss": 0.8082,
      "step": 956
    },
    {
      "epoch": 0.05267213385436733,
      "grad_norm": 1.0321687459945679,
      "learning_rate": 9.986206541430347e-06,
      "loss": 0.9001,
      "step": 957
    },
    {
      "epoch": 0.05272717265672299,
      "grad_norm": 0.8884543776512146,
      "learning_rate": 9.986174347399813e-06,
      "loss": 0.8317,
      "step": 958
    },
    {
      "epoch": 0.05278221145907865,
      "grad_norm": 0.9592668414115906,
      "learning_rate": 9.986142115894526e-06,
      "loss": 0.9955,
      "step": 959
    },
    {
      "epoch": 0.052837250261434314,
      "grad_norm": 0.9604032039642334,
      "learning_rate": 9.986109846914729e-06,
      "loss": 0.876,
      "step": 960
    },
    {
      "epoch": 0.052892289063789975,
      "grad_norm": 0.9837536811828613,
      "learning_rate": 9.986077540460664e-06,
      "loss": 0.8247,
      "step": 961
    },
    {
      "epoch": 0.05294732786614563,
      "grad_norm": 0.8570861220359802,
      "learning_rate": 9.986045196532576e-06,
      "loss": 0.879,
      "step": 962
    },
    {
      "epoch": 0.05300236666850129,
      "grad_norm": 0.8441471457481384,
      "learning_rate": 9.986012815130708e-06,
      "loss": 0.8979,
      "step": 963
    },
    {
      "epoch": 0.05305740547085695,
      "grad_norm": 0.8976197838783264,
      "learning_rate": 9.985980396255302e-06,
      "loss": 0.9382,
      "step": 964
    },
    {
      "epoch": 0.053112444273212614,
      "grad_norm": 0.9685307741165161,
      "learning_rate": 9.985947939906599e-06,
      "loss": 0.8627,
      "step": 965
    },
    {
      "epoch": 0.053167483075568275,
      "grad_norm": 0.8939018249511719,
      "learning_rate": 9.98591544608485e-06,
      "loss": 0.9221,
      "step": 966
    },
    {
      "epoch": 0.05322252187792394,
      "grad_norm": 0.9218310713768005,
      "learning_rate": 9.985882914790292e-06,
      "loss": 0.8356,
      "step": 967
    },
    {
      "epoch": 0.0532775606802796,
      "grad_norm": 0.9342261552810669,
      "learning_rate": 9.985850346023174e-06,
      "loss": 0.971,
      "step": 968
    },
    {
      "epoch": 0.05333259948263526,
      "grad_norm": 1.0860705375671387,
      "learning_rate": 9.985817739783741e-06,
      "loss": 0.906,
      "step": 969
    },
    {
      "epoch": 0.05338763828499092,
      "grad_norm": 0.8675006031990051,
      "learning_rate": 9.985785096072234e-06,
      "loss": 0.906,
      "step": 970
    },
    {
      "epoch": 0.05344267708734658,
      "grad_norm": 0.8170626163482666,
      "learning_rate": 9.985752414888903e-06,
      "loss": 0.8109,
      "step": 971
    },
    {
      "epoch": 0.05349771588970224,
      "grad_norm": 0.936434805393219,
      "learning_rate": 9.98571969623399e-06,
      "loss": 0.9219,
      "step": 972
    },
    {
      "epoch": 0.0535527546920579,
      "grad_norm": 0.9316715002059937,
      "learning_rate": 9.985686940107741e-06,
      "loss": 0.8569,
      "step": 973
    },
    {
      "epoch": 0.05360779349441356,
      "grad_norm": 1.183008074760437,
      "learning_rate": 9.985654146510405e-06,
      "loss": 0.837,
      "step": 974
    },
    {
      "epoch": 0.05366283229676922,
      "grad_norm": 1.0788745880126953,
      "learning_rate": 9.98562131544223e-06,
      "loss": 0.8822,
      "step": 975
    },
    {
      "epoch": 0.05371787109912488,
      "grad_norm": 0.9285461902618408,
      "learning_rate": 9.985588446903455e-06,
      "loss": 0.9279,
      "step": 976
    },
    {
      "epoch": 0.053772909901480544,
      "grad_norm": 0.9389022588729858,
      "learning_rate": 9.985555540894334e-06,
      "loss": 0.9839,
      "step": 977
    },
    {
      "epoch": 0.053827948703836205,
      "grad_norm": 0.8920616507530212,
      "learning_rate": 9.985522597415112e-06,
      "loss": 0.9205,
      "step": 978
    },
    {
      "epoch": 0.053882987506191866,
      "grad_norm": 0.9755093455314636,
      "learning_rate": 9.985489616466035e-06,
      "loss": 0.8987,
      "step": 979
    },
    {
      "epoch": 0.05393802630854753,
      "grad_norm": 0.96027010679245,
      "learning_rate": 9.985456598047356e-06,
      "loss": 0.8543,
      "step": 980
    },
    {
      "epoch": 0.05399306511090319,
      "grad_norm": 1.0489718914031982,
      "learning_rate": 9.985423542159317e-06,
      "loss": 0.9179,
      "step": 981
    },
    {
      "epoch": 0.05404810391325885,
      "grad_norm": 0.8665526509284973,
      "learning_rate": 9.985390448802171e-06,
      "loss": 0.9047,
      "step": 982
    },
    {
      "epoch": 0.054103142715614505,
      "grad_norm": 0.8849464654922485,
      "learning_rate": 9.985357317976163e-06,
      "loss": 0.8892,
      "step": 983
    },
    {
      "epoch": 0.054158181517970166,
      "grad_norm": 1.0083115100860596,
      "learning_rate": 9.985324149681545e-06,
      "loss": 0.7713,
      "step": 984
    },
    {
      "epoch": 0.05421322032032583,
      "grad_norm": 0.8233863711357117,
      "learning_rate": 9.985290943918565e-06,
      "loss": 0.7967,
      "step": 985
    },
    {
      "epoch": 0.05426825912268149,
      "grad_norm": 0.9615303874015808,
      "learning_rate": 9.985257700687472e-06,
      "loss": 0.8576,
      "step": 986
    },
    {
      "epoch": 0.05432329792503715,
      "grad_norm": 0.8856416344642639,
      "learning_rate": 9.985224419988517e-06,
      "loss": 0.8614,
      "step": 987
    },
    {
      "epoch": 0.05437833672739281,
      "grad_norm": 0.968325674533844,
      "learning_rate": 9.98519110182195e-06,
      "loss": 0.8247,
      "step": 988
    },
    {
      "epoch": 0.05443337552974847,
      "grad_norm": 0.878402054309845,
      "learning_rate": 9.985157746188021e-06,
      "loss": 0.8661,
      "step": 989
    },
    {
      "epoch": 0.054488414332104135,
      "grad_norm": 0.8376438021659851,
      "learning_rate": 9.985124353086981e-06,
      "loss": 0.8554,
      "step": 990
    },
    {
      "epoch": 0.054543453134459796,
      "grad_norm": 1.0293036699295044,
      "learning_rate": 9.98509092251908e-06,
      "loss": 0.8049,
      "step": 991
    },
    {
      "epoch": 0.05459849193681546,
      "grad_norm": 1.2345234155654907,
      "learning_rate": 9.98505745448457e-06,
      "loss": 1.0358,
      "step": 992
    },
    {
      "epoch": 0.05465353073917112,
      "grad_norm": 0.9974482655525208,
      "learning_rate": 9.985023948983703e-06,
      "loss": 0.9329,
      "step": 993
    },
    {
      "epoch": 0.05470856954152677,
      "grad_norm": 1.383955478668213,
      "learning_rate": 9.984990406016732e-06,
      "loss": 0.8688,
      "step": 994
    },
    {
      "epoch": 0.054763608343882435,
      "grad_norm": 0.9369306564331055,
      "learning_rate": 9.984956825583906e-06,
      "loss": 0.8308,
      "step": 995
    },
    {
      "epoch": 0.054818647146238096,
      "grad_norm": 0.8676120042800903,
      "learning_rate": 9.984923207685478e-06,
      "loss": 0.8283,
      "step": 996
    },
    {
      "epoch": 0.05487368594859376,
      "grad_norm": 0.9218453168869019,
      "learning_rate": 9.984889552321704e-06,
      "loss": 0.7247,
      "step": 997
    },
    {
      "epoch": 0.05492872475094942,
      "grad_norm": 0.8575478196144104,
      "learning_rate": 9.984855859492833e-06,
      "loss": 0.8462,
      "step": 998
    },
    {
      "epoch": 0.05498376355330508,
      "grad_norm": 1.0042616128921509,
      "learning_rate": 9.98482212919912e-06,
      "loss": 0.9383,
      "step": 999
    },
    {
      "epoch": 0.05503880235566074,
      "grad_norm": 0.8642181158065796,
      "learning_rate": 9.984788361440817e-06,
      "loss": 0.8805,
      "step": 1000
    },
    {
      "epoch": 0.0550938411580164,
      "grad_norm": 0.8413823843002319,
      "learning_rate": 9.984754556218178e-06,
      "loss": 0.8161,
      "step": 1001
    },
    {
      "epoch": 0.055148879960372064,
      "grad_norm": 0.9473856091499329,
      "learning_rate": 9.984720713531462e-06,
      "loss": 0.8425,
      "step": 1002
    },
    {
      "epoch": 0.055203918762727726,
      "grad_norm": 0.7854379415512085,
      "learning_rate": 9.984686833380917e-06,
      "loss": 0.7506,
      "step": 1003
    },
    {
      "epoch": 0.05525895756508339,
      "grad_norm": 0.9481745958328247,
      "learning_rate": 9.984652915766801e-06,
      "loss": 0.954,
      "step": 1004
    },
    {
      "epoch": 0.05531399636743904,
      "grad_norm": 0.767803966999054,
      "learning_rate": 9.984618960689366e-06,
      "loss": 0.8113,
      "step": 1005
    },
    {
      "epoch": 0.0553690351697947,
      "grad_norm": 0.8957781195640564,
      "learning_rate": 9.984584968148871e-06,
      "loss": 0.9042,
      "step": 1006
    },
    {
      "epoch": 0.055424073972150364,
      "grad_norm": 1.116646409034729,
      "learning_rate": 9.98455093814557e-06,
      "loss": 0.8648,
      "step": 1007
    },
    {
      "epoch": 0.055479112774506026,
      "grad_norm": 0.9567018151283264,
      "learning_rate": 9.98451687067972e-06,
      "loss": 0.9446,
      "step": 1008
    },
    {
      "epoch": 0.05553415157686169,
      "grad_norm": 0.8470665812492371,
      "learning_rate": 9.98448276575157e-06,
      "loss": 0.8186,
      "step": 1009
    },
    {
      "epoch": 0.05558919037921735,
      "grad_norm": 0.9595193862915039,
      "learning_rate": 9.984448623361387e-06,
      "loss": 0.8406,
      "step": 1010
    },
    {
      "epoch": 0.05564422918157301,
      "grad_norm": 1.0579735040664673,
      "learning_rate": 9.98441444350942e-06,
      "loss": 0.9676,
      "step": 1011
    },
    {
      "epoch": 0.05569926798392867,
      "grad_norm": 0.8693701028823853,
      "learning_rate": 9.98438022619593e-06,
      "loss": 0.9451,
      "step": 1012
    },
    {
      "epoch": 0.05575430678628433,
      "grad_norm": 0.9251859784126282,
      "learning_rate": 9.98434597142117e-06,
      "loss": 0.7858,
      "step": 1013
    },
    {
      "epoch": 0.055809345588639994,
      "grad_norm": 0.8584280014038086,
      "learning_rate": 9.984311679185402e-06,
      "loss": 0.8481,
      "step": 1014
    },
    {
      "epoch": 0.05586438439099565,
      "grad_norm": 0.8903968334197998,
      "learning_rate": 9.98427734948888e-06,
      "loss": 0.7832,
      "step": 1015
    },
    {
      "epoch": 0.05591942319335131,
      "grad_norm": 0.905581533908844,
      "learning_rate": 9.984242982331864e-06,
      "loss": 0.8088,
      "step": 1016
    },
    {
      "epoch": 0.05597446199570697,
      "grad_norm": 0.9866476655006409,
      "learning_rate": 9.984208577714612e-06,
      "loss": 0.8366,
      "step": 1017
    },
    {
      "epoch": 0.05602950079806263,
      "grad_norm": 0.8843809962272644,
      "learning_rate": 9.984174135637384e-06,
      "loss": 0.8961,
      "step": 1018
    },
    {
      "epoch": 0.056084539600418294,
      "grad_norm": 0.9071753621101379,
      "learning_rate": 9.984139656100435e-06,
      "loss": 0.8671,
      "step": 1019
    },
    {
      "epoch": 0.056139578402773956,
      "grad_norm": 0.9894018173217773,
      "learning_rate": 9.984105139104028e-06,
      "loss": 0.9099,
      "step": 1020
    },
    {
      "epoch": 0.05619461720512962,
      "grad_norm": 0.8432741165161133,
      "learning_rate": 9.98407058464842e-06,
      "loss": 0.7817,
      "step": 1021
    },
    {
      "epoch": 0.05624965600748528,
      "grad_norm": 0.9538390040397644,
      "learning_rate": 9.984035992733873e-06,
      "loss": 0.8689,
      "step": 1022
    },
    {
      "epoch": 0.05630469480984094,
      "grad_norm": 0.9263421297073364,
      "learning_rate": 9.984001363360645e-06,
      "loss": 0.9066,
      "step": 1023
    },
    {
      "epoch": 0.0563597336121966,
      "grad_norm": 0.8921047449111938,
      "learning_rate": 9.983966696528996e-06,
      "loss": 0.8304,
      "step": 1024
    },
    {
      "epoch": 0.05641477241455226,
      "grad_norm": 0.8379812240600586,
      "learning_rate": 9.983931992239188e-06,
      "loss": 0.866,
      "step": 1025
    },
    {
      "epoch": 0.05646981121690792,
      "grad_norm": 0.9444219470024109,
      "learning_rate": 9.983897250491481e-06,
      "loss": 0.9456,
      "step": 1026
    },
    {
      "epoch": 0.05652485001926358,
      "grad_norm": 1.0268759727478027,
      "learning_rate": 9.983862471286137e-06,
      "loss": 0.8277,
      "step": 1027
    },
    {
      "epoch": 0.05657988882161924,
      "grad_norm": 1.3949217796325684,
      "learning_rate": 9.983827654623418e-06,
      "loss": 0.9721,
      "step": 1028
    },
    {
      "epoch": 0.0566349276239749,
      "grad_norm": 0.8899377584457397,
      "learning_rate": 9.983792800503582e-06,
      "loss": 0.8794,
      "step": 1029
    },
    {
      "epoch": 0.05668996642633056,
      "grad_norm": 0.989072322845459,
      "learning_rate": 9.983757908926895e-06,
      "loss": 0.8852,
      "step": 1030
    },
    {
      "epoch": 0.056745005228686224,
      "grad_norm": 0.9797759056091309,
      "learning_rate": 9.983722979893615e-06,
      "loss": 1.0405,
      "step": 1031
    },
    {
      "epoch": 0.056800044031041885,
      "grad_norm": 0.9044767618179321,
      "learning_rate": 9.98368801340401e-06,
      "loss": 0.7243,
      "step": 1032
    },
    {
      "epoch": 0.05685508283339755,
      "grad_norm": 1.116324782371521,
      "learning_rate": 9.983653009458338e-06,
      "loss": 0.9183,
      "step": 1033
    },
    {
      "epoch": 0.05691012163575321,
      "grad_norm": 0.9373337030410767,
      "learning_rate": 9.983617968056866e-06,
      "loss": 0.9417,
      "step": 1034
    },
    {
      "epoch": 0.05696516043810887,
      "grad_norm": 1.0587197542190552,
      "learning_rate": 9.983582889199855e-06,
      "loss": 0.896,
      "step": 1035
    },
    {
      "epoch": 0.05702019924046453,
      "grad_norm": 1.0080119371414185,
      "learning_rate": 9.983547772887568e-06,
      "loss": 0.924,
      "step": 1036
    },
    {
      "epoch": 0.057075238042820185,
      "grad_norm": 0.847091019153595,
      "learning_rate": 9.98351261912027e-06,
      "loss": 0.7443,
      "step": 1037
    },
    {
      "epoch": 0.05713027684517585,
      "grad_norm": 0.9876272082328796,
      "learning_rate": 9.983477427898225e-06,
      "loss": 0.9365,
      "step": 1038
    },
    {
      "epoch": 0.05718531564753151,
      "grad_norm": 0.9188169240951538,
      "learning_rate": 9.983442199221698e-06,
      "loss": 0.9213,
      "step": 1039
    },
    {
      "epoch": 0.05724035444988717,
      "grad_norm": 0.932399332523346,
      "learning_rate": 9.983406933090954e-06,
      "loss": 0.958,
      "step": 1040
    },
    {
      "epoch": 0.05729539325224283,
      "grad_norm": 0.9126465320587158,
      "learning_rate": 9.983371629506258e-06,
      "loss": 0.8913,
      "step": 1041
    },
    {
      "epoch": 0.05735043205459849,
      "grad_norm": 0.80904620885849,
      "learning_rate": 9.983336288467873e-06,
      "loss": 0.7719,
      "step": 1042
    },
    {
      "epoch": 0.057405470856954154,
      "grad_norm": 0.873833417892456,
      "learning_rate": 9.983300909976067e-06,
      "loss": 0.9201,
      "step": 1043
    },
    {
      "epoch": 0.057460509659309815,
      "grad_norm": 0.8331829309463501,
      "learning_rate": 9.983265494031107e-06,
      "loss": 0.8605,
      "step": 1044
    },
    {
      "epoch": 0.057515548461665476,
      "grad_norm": 0.8364768624305725,
      "learning_rate": 9.983230040633255e-06,
      "loss": 0.8627,
      "step": 1045
    },
    {
      "epoch": 0.05757058726402114,
      "grad_norm": 0.9226736426353455,
      "learning_rate": 9.98319454978278e-06,
      "loss": 0.9759,
      "step": 1046
    },
    {
      "epoch": 0.05762562606637679,
      "grad_norm": 0.8174427151679993,
      "learning_rate": 9.98315902147995e-06,
      "loss": 0.8066,
      "step": 1047
    },
    {
      "epoch": 0.057680664868732454,
      "grad_norm": 0.9154924750328064,
      "learning_rate": 9.98312345572503e-06,
      "loss": 0.9112,
      "step": 1048
    },
    {
      "epoch": 0.057735703671088115,
      "grad_norm": 0.8884655237197876,
      "learning_rate": 9.983087852518289e-06,
      "loss": 0.8699,
      "step": 1049
    },
    {
      "epoch": 0.057790742473443776,
      "grad_norm": 0.8849230408668518,
      "learning_rate": 9.983052211859992e-06,
      "loss": 0.8999,
      "step": 1050
    },
    {
      "epoch": 0.05784578127579944,
      "grad_norm": 1.025843858718872,
      "learning_rate": 9.98301653375041e-06,
      "loss": 0.7764,
      "step": 1051
    },
    {
      "epoch": 0.0579008200781551,
      "grad_norm": 0.900505006313324,
      "learning_rate": 9.98298081818981e-06,
      "loss": 0.9196,
      "step": 1052
    },
    {
      "epoch": 0.05795585888051076,
      "grad_norm": 0.9506704211235046,
      "learning_rate": 9.982945065178457e-06,
      "loss": 0.8319,
      "step": 1053
    },
    {
      "epoch": 0.05801089768286642,
      "grad_norm": 0.9439849853515625,
      "learning_rate": 9.982909274716626e-06,
      "loss": 0.8561,
      "step": 1054
    },
    {
      "epoch": 0.05806593648522208,
      "grad_norm": 0.8761240243911743,
      "learning_rate": 9.982873446804579e-06,
      "loss": 0.9681,
      "step": 1055
    },
    {
      "epoch": 0.058120975287577745,
      "grad_norm": 0.8756145238876343,
      "learning_rate": 9.982837581442592e-06,
      "loss": 0.8452,
      "step": 1056
    },
    {
      "epoch": 0.058176014089933406,
      "grad_norm": 0.8732383847236633,
      "learning_rate": 9.982801678630932e-06,
      "loss": 0.9018,
      "step": 1057
    },
    {
      "epoch": 0.05823105289228906,
      "grad_norm": 0.8338272571563721,
      "learning_rate": 9.982765738369867e-06,
      "loss": 0.9308,
      "step": 1058
    },
    {
      "epoch": 0.05828609169464472,
      "grad_norm": 0.843163013458252,
      "learning_rate": 9.982729760659669e-06,
      "loss": 0.7802,
      "step": 1059
    },
    {
      "epoch": 0.05834113049700038,
      "grad_norm": 1.2007580995559692,
      "learning_rate": 9.982693745500606e-06,
      "loss": 0.8406,
      "step": 1060
    },
    {
      "epoch": 0.058396169299356045,
      "grad_norm": 0.8760073781013489,
      "learning_rate": 9.982657692892954e-06,
      "loss": 0.8528,
      "step": 1061
    },
    {
      "epoch": 0.058451208101711706,
      "grad_norm": 0.925309419631958,
      "learning_rate": 9.982621602836978e-06,
      "loss": 0.9601,
      "step": 1062
    },
    {
      "epoch": 0.05850624690406737,
      "grad_norm": 0.9277135133743286,
      "learning_rate": 9.982585475332952e-06,
      "loss": 0.8405,
      "step": 1063
    },
    {
      "epoch": 0.05856128570642303,
      "grad_norm": 0.928044319152832,
      "learning_rate": 9.98254931038115e-06,
      "loss": 0.8259,
      "step": 1064
    },
    {
      "epoch": 0.05861632450877869,
      "grad_norm": 0.8363838195800781,
      "learning_rate": 9.982513107981837e-06,
      "loss": 0.8655,
      "step": 1065
    },
    {
      "epoch": 0.05867136331113435,
      "grad_norm": 0.9800984859466553,
      "learning_rate": 9.982476868135292e-06,
      "loss": 0.9285,
      "step": 1066
    },
    {
      "epoch": 0.05872640211349001,
      "grad_norm": 0.8062636256217957,
      "learning_rate": 9.982440590841785e-06,
      "loss": 0.754,
      "step": 1067
    },
    {
      "epoch": 0.058781440915845674,
      "grad_norm": 1.2010705471038818,
      "learning_rate": 9.982404276101586e-06,
      "loss": 0.9872,
      "step": 1068
    },
    {
      "epoch": 0.05883647971820133,
      "grad_norm": 1.0036406517028809,
      "learning_rate": 9.982367923914971e-06,
      "loss": 0.8724,
      "step": 1069
    },
    {
      "epoch": 0.05889151852055699,
      "grad_norm": 0.8768866658210754,
      "learning_rate": 9.982331534282212e-06,
      "loss": 0.838,
      "step": 1070
    },
    {
      "epoch": 0.05894655732291265,
      "grad_norm": 0.7892739176750183,
      "learning_rate": 9.982295107203584e-06,
      "loss": 0.6974,
      "step": 1071
    },
    {
      "epoch": 0.05900159612526831,
      "grad_norm": 0.863315999507904,
      "learning_rate": 9.982258642679358e-06,
      "loss": 0.9282,
      "step": 1072
    },
    {
      "epoch": 0.059056634927623974,
      "grad_norm": 0.8645132780075073,
      "learning_rate": 9.982222140709812e-06,
      "loss": 0.8504,
      "step": 1073
    },
    {
      "epoch": 0.059111673729979636,
      "grad_norm": 1.0003199577331543,
      "learning_rate": 9.982185601295216e-06,
      "loss": 1.0293,
      "step": 1074
    },
    {
      "epoch": 0.0591667125323353,
      "grad_norm": 0.8391831517219543,
      "learning_rate": 9.982149024435848e-06,
      "loss": 0.8609,
      "step": 1075
    },
    {
      "epoch": 0.05922175133469096,
      "grad_norm": 0.9940230846405029,
      "learning_rate": 9.982112410131981e-06,
      "loss": 0.9623,
      "step": 1076
    },
    {
      "epoch": 0.05927679013704662,
      "grad_norm": 1.0670262575149536,
      "learning_rate": 9.98207575838389e-06,
      "loss": 0.9952,
      "step": 1077
    },
    {
      "epoch": 0.05933182893940228,
      "grad_norm": 0.8506165742874146,
      "learning_rate": 9.982039069191853e-06,
      "loss": 0.8401,
      "step": 1078
    },
    {
      "epoch": 0.05938686774175794,
      "grad_norm": 0.8956409096717834,
      "learning_rate": 9.982002342556144e-06,
      "loss": 0.8779,
      "step": 1079
    },
    {
      "epoch": 0.0594419065441136,
      "grad_norm": 0.8955749273300171,
      "learning_rate": 9.981965578477038e-06,
      "loss": 0.8946,
      "step": 1080
    },
    {
      "epoch": 0.05949694534646926,
      "grad_norm": 0.9035234451293945,
      "learning_rate": 9.981928776954811e-06,
      "loss": 0.9352,
      "step": 1081
    },
    {
      "epoch": 0.05955198414882492,
      "grad_norm": 0.8748759627342224,
      "learning_rate": 9.981891937989743e-06,
      "loss": 0.8803,
      "step": 1082
    },
    {
      "epoch": 0.05960702295118058,
      "grad_norm": 0.9966281056404114,
      "learning_rate": 9.981855061582108e-06,
      "loss": 0.9304,
      "step": 1083
    },
    {
      "epoch": 0.05966206175353624,
      "grad_norm": 0.8696668148040771,
      "learning_rate": 9.981818147732183e-06,
      "loss": 0.8706,
      "step": 1084
    },
    {
      "epoch": 0.059717100555891904,
      "grad_norm": 0.9823188185691833,
      "learning_rate": 9.981781196440249e-06,
      "loss": 0.9431,
      "step": 1085
    },
    {
      "epoch": 0.059772139358247565,
      "grad_norm": 0.8401583433151245,
      "learning_rate": 9.981744207706577e-06,
      "loss": 0.8369,
      "step": 1086
    },
    {
      "epoch": 0.05982717816060323,
      "grad_norm": 0.8775757551193237,
      "learning_rate": 9.981707181531452e-06,
      "loss": 0.9516,
      "step": 1087
    },
    {
      "epoch": 0.05988221696295889,
      "grad_norm": 0.9153465628623962,
      "learning_rate": 9.981670117915148e-06,
      "loss": 0.8997,
      "step": 1088
    },
    {
      "epoch": 0.05993725576531455,
      "grad_norm": 0.9053078889846802,
      "learning_rate": 9.981633016857946e-06,
      "loss": 0.9452,
      "step": 1089
    },
    {
      "epoch": 0.059992294567670204,
      "grad_norm": 0.9154480695724487,
      "learning_rate": 9.981595878360123e-06,
      "loss": 0.8293,
      "step": 1090
    },
    {
      "epoch": 0.060047333370025865,
      "grad_norm": 0.85718834400177,
      "learning_rate": 9.981558702421958e-06,
      "loss": 0.876,
      "step": 1091
    },
    {
      "epoch": 0.06010237217238153,
      "grad_norm": 0.9437130689620972,
      "learning_rate": 9.981521489043734e-06,
      "loss": 0.9731,
      "step": 1092
    },
    {
      "epoch": 0.06015741097473719,
      "grad_norm": 0.9014891386032104,
      "learning_rate": 9.981484238225725e-06,
      "loss": 0.811,
      "step": 1093
    },
    {
      "epoch": 0.06021244977709285,
      "grad_norm": 0.8942846655845642,
      "learning_rate": 9.981446949968216e-06,
      "loss": 0.808,
      "step": 1094
    },
    {
      "epoch": 0.06026748857944851,
      "grad_norm": 0.855297863483429,
      "learning_rate": 9.981409624271483e-06,
      "loss": 0.8319,
      "step": 1095
    },
    {
      "epoch": 0.06032252738180417,
      "grad_norm": 0.9310913681983948,
      "learning_rate": 9.981372261135811e-06,
      "loss": 0.899,
      "step": 1096
    },
    {
      "epoch": 0.060377566184159834,
      "grad_norm": 0.8472979664802551,
      "learning_rate": 9.981334860561478e-06,
      "loss": 0.8818,
      "step": 1097
    },
    {
      "epoch": 0.060432604986515495,
      "grad_norm": 0.896617591381073,
      "learning_rate": 9.981297422548764e-06,
      "loss": 0.8991,
      "step": 1098
    },
    {
      "epoch": 0.06048764378887116,
      "grad_norm": 0.8543037176132202,
      "learning_rate": 9.981259947097954e-06,
      "loss": 0.8595,
      "step": 1099
    },
    {
      "epoch": 0.06054268259122682,
      "grad_norm": 0.8794904947280884,
      "learning_rate": 9.981222434209327e-06,
      "loss": 0.8561,
      "step": 1100
    },
    {
      "epoch": 0.06059772139358247,
      "grad_norm": 0.8882116675376892,
      "learning_rate": 9.981184883883165e-06,
      "loss": 0.8099,
      "step": 1101
    },
    {
      "epoch": 0.060652760195938134,
      "grad_norm": 1.0068262815475464,
      "learning_rate": 9.98114729611975e-06,
      "loss": 0.8104,
      "step": 1102
    },
    {
      "epoch": 0.060707798998293795,
      "grad_norm": 1.072316288948059,
      "learning_rate": 9.981109670919366e-06,
      "loss": 0.9877,
      "step": 1103
    },
    {
      "epoch": 0.06076283780064946,
      "grad_norm": 0.9959045052528381,
      "learning_rate": 9.981072008282298e-06,
      "loss": 0.906,
      "step": 1104
    },
    {
      "epoch": 0.06081787660300512,
      "grad_norm": 0.8712790608406067,
      "learning_rate": 9.981034308208823e-06,
      "loss": 0.8725,
      "step": 1105
    },
    {
      "epoch": 0.06087291540536078,
      "grad_norm": 0.9114679098129272,
      "learning_rate": 9.980996570699228e-06,
      "loss": 0.8385,
      "step": 1106
    },
    {
      "epoch": 0.06092795420771644,
      "grad_norm": 1.0024466514587402,
      "learning_rate": 9.980958795753796e-06,
      "loss": 0.8661,
      "step": 1107
    },
    {
      "epoch": 0.0609829930100721,
      "grad_norm": 0.9578461050987244,
      "learning_rate": 9.98092098337281e-06,
      "loss": 0.9358,
      "step": 1108
    },
    {
      "epoch": 0.061038031812427763,
      "grad_norm": 0.8677787780761719,
      "learning_rate": 9.980883133556557e-06,
      "loss": 0.8146,
      "step": 1109
    },
    {
      "epoch": 0.061093070614783425,
      "grad_norm": 0.9072276949882507,
      "learning_rate": 9.98084524630532e-06,
      "loss": 0.91,
      "step": 1110
    },
    {
      "epoch": 0.061148109417139086,
      "grad_norm": 0.8827292919158936,
      "learning_rate": 9.980807321619381e-06,
      "loss": 0.8854,
      "step": 1111
    },
    {
      "epoch": 0.06120314821949474,
      "grad_norm": 1.0012744665145874,
      "learning_rate": 9.98076935949903e-06,
      "loss": 0.8242,
      "step": 1112
    },
    {
      "epoch": 0.0612581870218504,
      "grad_norm": 0.9152620434761047,
      "learning_rate": 9.980731359944548e-06,
      "loss": 0.8832,
      "step": 1113
    },
    {
      "epoch": 0.061313225824206063,
      "grad_norm": 0.8986824750900269,
      "learning_rate": 9.980693322956222e-06,
      "loss": 0.7975,
      "step": 1114
    },
    {
      "epoch": 0.061368264626561725,
      "grad_norm": 0.9373019933700562,
      "learning_rate": 9.98065524853434e-06,
      "loss": 0.9541,
      "step": 1115
    },
    {
      "epoch": 0.061423303428917386,
      "grad_norm": 0.9875593781471252,
      "learning_rate": 9.980617136679185e-06,
      "loss": 1.0052,
      "step": 1116
    },
    {
      "epoch": 0.06147834223127305,
      "grad_norm": 1.0664819478988647,
      "learning_rate": 9.980578987391045e-06,
      "loss": 0.8584,
      "step": 1117
    },
    {
      "epoch": 0.06153338103362871,
      "grad_norm": 0.9149377942085266,
      "learning_rate": 9.980540800670207e-06,
      "loss": 0.8467,
      "step": 1118
    },
    {
      "epoch": 0.06158841983598437,
      "grad_norm": 0.9303194284439087,
      "learning_rate": 9.980502576516959e-06,
      "loss": 0.8219,
      "step": 1119
    },
    {
      "epoch": 0.06164345863834003,
      "grad_norm": 0.9059457778930664,
      "learning_rate": 9.980464314931583e-06,
      "loss": 0.8459,
      "step": 1120
    },
    {
      "epoch": 0.06169849744069569,
      "grad_norm": 0.9368849396705627,
      "learning_rate": 9.980426015914375e-06,
      "loss": 0.8933,
      "step": 1121
    },
    {
      "epoch": 0.061753536243051355,
      "grad_norm": 0.8188626766204834,
      "learning_rate": 9.980387679465615e-06,
      "loss": 0.807,
      "step": 1122
    },
    {
      "epoch": 0.06180857504540701,
      "grad_norm": 1.027171015739441,
      "learning_rate": 9.980349305585595e-06,
      "loss": 0.8919,
      "step": 1123
    },
    {
      "epoch": 0.06186361384776267,
      "grad_norm": 0.831649899482727,
      "learning_rate": 9.980310894274603e-06,
      "loss": 0.8109,
      "step": 1124
    },
    {
      "epoch": 0.06191865265011833,
      "grad_norm": 1.0170252323150635,
      "learning_rate": 9.980272445532928e-06,
      "loss": 0.9537,
      "step": 1125
    },
    {
      "epoch": 0.06197369145247399,
      "grad_norm": 0.97837233543396,
      "learning_rate": 9.980233959360858e-06,
      "loss": 0.9104,
      "step": 1126
    },
    {
      "epoch": 0.062028730254829655,
      "grad_norm": 0.9548324942588806,
      "learning_rate": 9.980195435758681e-06,
      "loss": 0.9473,
      "step": 1127
    },
    {
      "epoch": 0.062083769057185316,
      "grad_norm": 0.8675842881202698,
      "learning_rate": 9.980156874726692e-06,
      "loss": 0.8313,
      "step": 1128
    },
    {
      "epoch": 0.06213880785954098,
      "grad_norm": 0.8948968052864075,
      "learning_rate": 9.980118276265173e-06,
      "loss": 0.8008,
      "step": 1129
    },
    {
      "epoch": 0.06219384666189664,
      "grad_norm": 0.8914239406585693,
      "learning_rate": 9.98007964037442e-06,
      "loss": 0.7642,
      "step": 1130
    },
    {
      "epoch": 0.0622488854642523,
      "grad_norm": 0.9499951004981995,
      "learning_rate": 9.980040967054723e-06,
      "loss": 0.8669,
      "step": 1131
    },
    {
      "epoch": 0.06230392426660796,
      "grad_norm": 0.8959251642227173,
      "learning_rate": 9.980002256306369e-06,
      "loss": 0.9177,
      "step": 1132
    },
    {
      "epoch": 0.062358963068963616,
      "grad_norm": 0.8634380102157593,
      "learning_rate": 9.97996350812965e-06,
      "loss": 0.8252,
      "step": 1133
    },
    {
      "epoch": 0.06241400187131928,
      "grad_norm": 0.9380598068237305,
      "learning_rate": 9.97992472252486e-06,
      "loss": 0.9335,
      "step": 1134
    },
    {
      "epoch": 0.06246904067367494,
      "grad_norm": 0.8373183608055115,
      "learning_rate": 9.97988589949229e-06,
      "loss": 0.848,
      "step": 1135
    },
    {
      "epoch": 0.0625240794760306,
      "grad_norm": 0.9649023413658142,
      "learning_rate": 9.97984703903223e-06,
      "loss": 0.9648,
      "step": 1136
    },
    {
      "epoch": 0.06257911827838626,
      "grad_norm": 0.9972373843193054,
      "learning_rate": 9.979808141144972e-06,
      "loss": 0.9104,
      "step": 1137
    },
    {
      "epoch": 0.06263415708074192,
      "grad_norm": 0.8230985403060913,
      "learning_rate": 9.97976920583081e-06,
      "loss": 0.8393,
      "step": 1138
    },
    {
      "epoch": 0.06268919588309758,
      "grad_norm": 0.9775324463844299,
      "learning_rate": 9.979730233090034e-06,
      "loss": 0.8385,
      "step": 1139
    },
    {
      "epoch": 0.06274423468545325,
      "grad_norm": 0.8288110494613647,
      "learning_rate": 9.97969122292294e-06,
      "loss": 0.7308,
      "step": 1140
    },
    {
      "epoch": 0.06279927348780891,
      "grad_norm": 0.8980758786201477,
      "learning_rate": 9.979652175329819e-06,
      "loss": 0.863,
      "step": 1141
    },
    {
      "epoch": 0.06285431229016457,
      "grad_norm": 7.43889045715332,
      "learning_rate": 9.979613090310965e-06,
      "loss": 0.9412,
      "step": 1142
    },
    {
      "epoch": 0.06290935109252023,
      "grad_norm": 0.9758191704750061,
      "learning_rate": 9.97957396786667e-06,
      "loss": 0.8896,
      "step": 1143
    },
    {
      "epoch": 0.06296438989487589,
      "grad_norm": 0.8211693167686462,
      "learning_rate": 9.979534807997234e-06,
      "loss": 0.7352,
      "step": 1144
    },
    {
      "epoch": 0.06301942869723155,
      "grad_norm": 0.8643441796302795,
      "learning_rate": 9.979495610702945e-06,
      "loss": 0.8701,
      "step": 1145
    },
    {
      "epoch": 0.06307446749958721,
      "grad_norm": 1.0199437141418457,
      "learning_rate": 9.9794563759841e-06,
      "loss": 0.9025,
      "step": 1146
    },
    {
      "epoch": 0.06312950630194288,
      "grad_norm": 0.8367893695831299,
      "learning_rate": 9.979417103840994e-06,
      "loss": 0.8491,
      "step": 1147
    },
    {
      "epoch": 0.06318454510429854,
      "grad_norm": 0.9411819577217102,
      "learning_rate": 9.979377794273923e-06,
      "loss": 0.8501,
      "step": 1148
    },
    {
      "epoch": 0.06323958390665418,
      "grad_norm": 1.1497365236282349,
      "learning_rate": 9.97933844728318e-06,
      "loss": 1.0227,
      "step": 1149
    },
    {
      "epoch": 0.06329462270900985,
      "grad_norm": 0.9892984628677368,
      "learning_rate": 9.979299062869064e-06,
      "loss": 0.8942,
      "step": 1150
    },
    {
      "epoch": 0.06334966151136551,
      "grad_norm": 0.947952926158905,
      "learning_rate": 9.979259641031867e-06,
      "loss": 1.0149,
      "step": 1151
    },
    {
      "epoch": 0.06340470031372117,
      "grad_norm": 0.9060251712799072,
      "learning_rate": 9.979220181771889e-06,
      "loss": 0.8607,
      "step": 1152
    },
    {
      "epoch": 0.06345973911607683,
      "grad_norm": 0.8331984281539917,
      "learning_rate": 9.979180685089424e-06,
      "loss": 0.8777,
      "step": 1153
    },
    {
      "epoch": 0.06351477791843249,
      "grad_norm": 0.9133188724517822,
      "learning_rate": 9.97914115098477e-06,
      "loss": 0.7409,
      "step": 1154
    },
    {
      "epoch": 0.06356981672078815,
      "grad_norm": 0.9095513820648193,
      "learning_rate": 9.979101579458224e-06,
      "loss": 0.8938,
      "step": 1155
    },
    {
      "epoch": 0.06362485552314381,
      "grad_norm": 0.9584553241729736,
      "learning_rate": 9.979061970510082e-06,
      "loss": 0.8765,
      "step": 1156
    },
    {
      "epoch": 0.06367989432549948,
      "grad_norm": 0.8742124438285828,
      "learning_rate": 9.979022324140644e-06,
      "loss": 0.8564,
      "step": 1157
    },
    {
      "epoch": 0.06373493312785514,
      "grad_norm": 0.8776904344558716,
      "learning_rate": 9.978982640350208e-06,
      "loss": 0.8713,
      "step": 1158
    },
    {
      "epoch": 0.0637899719302108,
      "grad_norm": 0.8667464852333069,
      "learning_rate": 9.97894291913907e-06,
      "loss": 0.8705,
      "step": 1159
    },
    {
      "epoch": 0.06384501073256646,
      "grad_norm": 0.9028087854385376,
      "learning_rate": 9.978903160507531e-06,
      "loss": 0.8297,
      "step": 1160
    },
    {
      "epoch": 0.06390004953492212,
      "grad_norm": 0.900812029838562,
      "learning_rate": 9.978863364455887e-06,
      "loss": 0.8456,
      "step": 1161
    },
    {
      "epoch": 0.06395508833727778,
      "grad_norm": 0.9667207598686218,
      "learning_rate": 9.97882353098444e-06,
      "loss": 0.8081,
      "step": 1162
    },
    {
      "epoch": 0.06401012713963344,
      "grad_norm": 0.8959711194038391,
      "learning_rate": 9.978783660093488e-06,
      "loss": 0.8455,
      "step": 1163
    },
    {
      "epoch": 0.0640651659419891,
      "grad_norm": 0.8519117832183838,
      "learning_rate": 9.97874375178333e-06,
      "loss": 0.849,
      "step": 1164
    },
    {
      "epoch": 0.06412020474434477,
      "grad_norm": 1.0532654523849487,
      "learning_rate": 9.978703806054267e-06,
      "loss": 0.7356,
      "step": 1165
    },
    {
      "epoch": 0.06417524354670043,
      "grad_norm": 1.0313252210617065,
      "learning_rate": 9.9786638229066e-06,
      "loss": 1.024,
      "step": 1166
    },
    {
      "epoch": 0.06423028234905609,
      "grad_norm": 1.0567537546157837,
      "learning_rate": 9.978623802340627e-06,
      "loss": 0.9423,
      "step": 1167
    },
    {
      "epoch": 0.06428532115141175,
      "grad_norm": 0.8198097348213196,
      "learning_rate": 9.97858374435665e-06,
      "loss": 0.829,
      "step": 1168
    },
    {
      "epoch": 0.06434035995376741,
      "grad_norm": 0.8718193173408508,
      "learning_rate": 9.97854364895497e-06,
      "loss": 0.7184,
      "step": 1169
    },
    {
      "epoch": 0.06439539875612307,
      "grad_norm": 0.8037594556808472,
      "learning_rate": 9.978503516135892e-06,
      "loss": 0.7961,
      "step": 1170
    },
    {
      "epoch": 0.06445043755847872,
      "grad_norm": 0.9052229523658752,
      "learning_rate": 9.978463345899709e-06,
      "loss": 0.8016,
      "step": 1171
    },
    {
      "epoch": 0.06450547636083438,
      "grad_norm": 1.0194638967514038,
      "learning_rate": 9.978423138246731e-06,
      "loss": 0.9045,
      "step": 1172
    },
    {
      "epoch": 0.06456051516319004,
      "grad_norm": 0.953078031539917,
      "learning_rate": 9.978382893177259e-06,
      "loss": 0.9661,
      "step": 1173
    },
    {
      "epoch": 0.0646155539655457,
      "grad_norm": 0.8777341842651367,
      "learning_rate": 9.978342610691592e-06,
      "loss": 0.8685,
      "step": 1174
    },
    {
      "epoch": 0.06467059276790137,
      "grad_norm": 1.0178394317626953,
      "learning_rate": 9.978302290790034e-06,
      "loss": 0.9075,
      "step": 1175
    },
    {
      "epoch": 0.06472563157025703,
      "grad_norm": 0.935694694519043,
      "learning_rate": 9.978261933472889e-06,
      "loss": 0.8438,
      "step": 1176
    },
    {
      "epoch": 0.06478067037261269,
      "grad_norm": 1.0022411346435547,
      "learning_rate": 9.97822153874046e-06,
      "loss": 0.8701,
      "step": 1177
    },
    {
      "epoch": 0.06483570917496835,
      "grad_norm": 1.0371203422546387,
      "learning_rate": 9.97818110659305e-06,
      "loss": 0.9111,
      "step": 1178
    },
    {
      "epoch": 0.06489074797732401,
      "grad_norm": 0.7972478866577148,
      "learning_rate": 9.978140637030963e-06,
      "loss": 0.8602,
      "step": 1179
    },
    {
      "epoch": 0.06494578677967967,
      "grad_norm": 0.8556679487228394,
      "learning_rate": 9.978100130054505e-06,
      "loss": 0.9149,
      "step": 1180
    },
    {
      "epoch": 0.06500082558203533,
      "grad_norm": 0.92474365234375,
      "learning_rate": 9.978059585663979e-06,
      "loss": 0.8608,
      "step": 1181
    },
    {
      "epoch": 0.065055864384391,
      "grad_norm": 1.0170830488204956,
      "learning_rate": 9.978019003859687e-06,
      "loss": 0.9986,
      "step": 1182
    },
    {
      "epoch": 0.06511090318674666,
      "grad_norm": 0.9405049681663513,
      "learning_rate": 9.97797838464194e-06,
      "loss": 0.9023,
      "step": 1183
    },
    {
      "epoch": 0.06516594198910232,
      "grad_norm": 0.9351203441619873,
      "learning_rate": 9.977937728011038e-06,
      "loss": 0.8698,
      "step": 1184
    },
    {
      "epoch": 0.06522098079145798,
      "grad_norm": 0.8620241284370422,
      "learning_rate": 9.97789703396729e-06,
      "loss": 0.9393,
      "step": 1185
    },
    {
      "epoch": 0.06527601959381364,
      "grad_norm": 0.9440441131591797,
      "learning_rate": 9.977856302511e-06,
      "loss": 0.8249,
      "step": 1186
    },
    {
      "epoch": 0.0653310583961693,
      "grad_norm": 0.8311079144477844,
      "learning_rate": 9.977815533642474e-06,
      "loss": 0.8614,
      "step": 1187
    },
    {
      "epoch": 0.06538609719852496,
      "grad_norm": 0.8911672830581665,
      "learning_rate": 9.977774727362018e-06,
      "loss": 0.7909,
      "step": 1188
    },
    {
      "epoch": 0.06544113600088063,
      "grad_norm": 0.9237088561058044,
      "learning_rate": 9.97773388366994e-06,
      "loss": 0.7116,
      "step": 1189
    },
    {
      "epoch": 0.06549617480323629,
      "grad_norm": 1.1155747175216675,
      "learning_rate": 9.977693002566549e-06,
      "loss": 0.9248,
      "step": 1190
    },
    {
      "epoch": 0.06555121360559195,
      "grad_norm": 0.9386736750602722,
      "learning_rate": 9.977652084052148e-06,
      "loss": 0.8307,
      "step": 1191
    },
    {
      "epoch": 0.0656062524079476,
      "grad_norm": 1.1666040420532227,
      "learning_rate": 9.977611128127044e-06,
      "loss": 0.9723,
      "step": 1192
    },
    {
      "epoch": 0.06566129121030326,
      "grad_norm": 1.2366368770599365,
      "learning_rate": 9.977570134791552e-06,
      "loss": 0.8253,
      "step": 1193
    },
    {
      "epoch": 0.06571633001265892,
      "grad_norm": 0.823443591594696,
      "learning_rate": 9.977529104045971e-06,
      "loss": 0.7472,
      "step": 1194
    },
    {
      "epoch": 0.06577136881501458,
      "grad_norm": 0.9481683969497681,
      "learning_rate": 9.977488035890617e-06,
      "loss": 0.887,
      "step": 1195
    },
    {
      "epoch": 0.06582640761737024,
      "grad_norm": 0.9120422005653381,
      "learning_rate": 9.977446930325794e-06,
      "loss": 0.867,
      "step": 1196
    },
    {
      "epoch": 0.0658814464197259,
      "grad_norm": 0.8595587015151978,
      "learning_rate": 9.977405787351811e-06,
      "loss": 0.8532,
      "step": 1197
    },
    {
      "epoch": 0.06593648522208156,
      "grad_norm": 0.8590419888496399,
      "learning_rate": 9.97736460696898e-06,
      "loss": 0.8998,
      "step": 1198
    },
    {
      "epoch": 0.06599152402443723,
      "grad_norm": 0.9670939445495605,
      "learning_rate": 9.977323389177609e-06,
      "loss": 0.8964,
      "step": 1199
    },
    {
      "epoch": 0.06604656282679289,
      "grad_norm": 0.8870261907577515,
      "learning_rate": 9.977282133978006e-06,
      "loss": 0.9542,
      "step": 1200
    },
    {
      "epoch": 0.06610160162914855,
      "grad_norm": 0.942294180393219,
      "learning_rate": 9.977240841370484e-06,
      "loss": 0.8681,
      "step": 1201
    },
    {
      "epoch": 0.06615664043150421,
      "grad_norm": 0.9632517099380493,
      "learning_rate": 9.977199511355353e-06,
      "loss": 0.7327,
      "step": 1202
    },
    {
      "epoch": 0.06621167923385987,
      "grad_norm": 4.8085479736328125,
      "learning_rate": 9.97715814393292e-06,
      "loss": 0.8528,
      "step": 1203
    },
    {
      "epoch": 0.06626671803621553,
      "grad_norm": 0.9084093570709229,
      "learning_rate": 9.977116739103503e-06,
      "loss": 0.7836,
      "step": 1204
    },
    {
      "epoch": 0.0663217568385712,
      "grad_norm": 0.8961902260780334,
      "learning_rate": 9.977075296867406e-06,
      "loss": 0.854,
      "step": 1205
    },
    {
      "epoch": 0.06637679564092686,
      "grad_norm": 0.8727987408638,
      "learning_rate": 9.977033817224945e-06,
      "loss": 0.7931,
      "step": 1206
    },
    {
      "epoch": 0.06643183444328252,
      "grad_norm": 0.8263267874717712,
      "learning_rate": 9.976992300176428e-06,
      "loss": 0.852,
      "step": 1207
    },
    {
      "epoch": 0.06648687324563818,
      "grad_norm": 1.0499639511108398,
      "learning_rate": 9.97695074572217e-06,
      "loss": 1.0427,
      "step": 1208
    },
    {
      "epoch": 0.06654191204799384,
      "grad_norm": 0.9337313771247864,
      "learning_rate": 9.976909153862482e-06,
      "loss": 0.8035,
      "step": 1209
    },
    {
      "epoch": 0.0665969508503495,
      "grad_norm": 0.8795992732048035,
      "learning_rate": 9.976867524597678e-06,
      "loss": 0.9022,
      "step": 1210
    },
    {
      "epoch": 0.06665198965270516,
      "grad_norm": 0.9787294268608093,
      "learning_rate": 9.976825857928069e-06,
      "loss": 0.8259,
      "step": 1211
    },
    {
      "epoch": 0.06670702845506082,
      "grad_norm": 0.8570082187652588,
      "learning_rate": 9.976784153853969e-06,
      "loss": 0.8567,
      "step": 1212
    },
    {
      "epoch": 0.06676206725741649,
      "grad_norm": 1.0620380640029907,
      "learning_rate": 9.976742412375694e-06,
      "loss": 0.851,
      "step": 1213
    },
    {
      "epoch": 0.06681710605977213,
      "grad_norm": 0.8545439839363098,
      "learning_rate": 9.976700633493551e-06,
      "loss": 0.8827,
      "step": 1214
    },
    {
      "epoch": 0.0668721448621278,
      "grad_norm": 0.8543682098388672,
      "learning_rate": 9.97665881720786e-06,
      "loss": 0.8524,
      "step": 1215
    },
    {
      "epoch": 0.06692718366448346,
      "grad_norm": 0.7748527526855469,
      "learning_rate": 9.976616963518935e-06,
      "loss": 0.7459,
      "step": 1216
    },
    {
      "epoch": 0.06698222246683912,
      "grad_norm": 0.9876659512519836,
      "learning_rate": 9.976575072427087e-06,
      "loss": 0.8426,
      "step": 1217
    },
    {
      "epoch": 0.06703726126919478,
      "grad_norm": 0.8763901591300964,
      "learning_rate": 9.976533143932635e-06,
      "loss": 0.8561,
      "step": 1218
    },
    {
      "epoch": 0.06709230007155044,
      "grad_norm": 0.7816654443740845,
      "learning_rate": 9.97649117803589e-06,
      "loss": 0.8361,
      "step": 1219
    },
    {
      "epoch": 0.0671473388739061,
      "grad_norm": 0.8659802675247192,
      "learning_rate": 9.97644917473717e-06,
      "loss": 0.897,
      "step": 1220
    },
    {
      "epoch": 0.06720237767626176,
      "grad_norm": 0.9180877208709717,
      "learning_rate": 9.97640713403679e-06,
      "loss": 0.9516,
      "step": 1221
    },
    {
      "epoch": 0.06725741647861742,
      "grad_norm": 0.9624410271644592,
      "learning_rate": 9.976365055935067e-06,
      "loss": 0.9119,
      "step": 1222
    },
    {
      "epoch": 0.06731245528097309,
      "grad_norm": 0.8291105031967163,
      "learning_rate": 9.976322940432314e-06,
      "loss": 0.788,
      "step": 1223
    },
    {
      "epoch": 0.06736749408332875,
      "grad_norm": 0.9858983755111694,
      "learning_rate": 9.976280787528854e-06,
      "loss": 0.8794,
      "step": 1224
    },
    {
      "epoch": 0.06742253288568441,
      "grad_norm": 0.8283948302268982,
      "learning_rate": 9.976238597224996e-06,
      "loss": 0.8571,
      "step": 1225
    },
    {
      "epoch": 0.06747757168804007,
      "grad_norm": 0.8585363626480103,
      "learning_rate": 9.976196369521063e-06,
      "loss": 0.9005,
      "step": 1226
    },
    {
      "epoch": 0.06753261049039573,
      "grad_norm": 0.847882091999054,
      "learning_rate": 9.976154104417369e-06,
      "loss": 0.8058,
      "step": 1227
    },
    {
      "epoch": 0.06758764929275139,
      "grad_norm": 0.9045611023902893,
      "learning_rate": 9.976111801914232e-06,
      "loss": 0.7864,
      "step": 1228
    },
    {
      "epoch": 0.06764268809510705,
      "grad_norm": 0.805932879447937,
      "learning_rate": 9.976069462011972e-06,
      "loss": 0.8436,
      "step": 1229
    },
    {
      "epoch": 0.06769772689746271,
      "grad_norm": 0.8809003233909607,
      "learning_rate": 9.976027084710906e-06,
      "loss": 0.7876,
      "step": 1230
    },
    {
      "epoch": 0.06775276569981838,
      "grad_norm": 0.8681740760803223,
      "learning_rate": 9.975984670011352e-06,
      "loss": 0.877,
      "step": 1231
    },
    {
      "epoch": 0.06780780450217404,
      "grad_norm": 0.9909854531288147,
      "learning_rate": 9.975942217913627e-06,
      "loss": 0.8957,
      "step": 1232
    },
    {
      "epoch": 0.0678628433045297,
      "grad_norm": 0.9213934540748596,
      "learning_rate": 9.975899728418056e-06,
      "loss": 0.8344,
      "step": 1233
    },
    {
      "epoch": 0.06791788210688536,
      "grad_norm": 0.8289967179298401,
      "learning_rate": 9.975857201524952e-06,
      "loss": 0.876,
      "step": 1234
    },
    {
      "epoch": 0.06797292090924101,
      "grad_norm": 0.891812264919281,
      "learning_rate": 9.97581463723464e-06,
      "loss": 0.8611,
      "step": 1235
    },
    {
      "epoch": 0.06802795971159667,
      "grad_norm": 1.0301382541656494,
      "learning_rate": 9.975772035547435e-06,
      "loss": 0.8177,
      "step": 1236
    },
    {
      "epoch": 0.06808299851395233,
      "grad_norm": 0.8380662798881531,
      "learning_rate": 9.975729396463659e-06,
      "loss": 0.8631,
      "step": 1237
    },
    {
      "epoch": 0.06813803731630799,
      "grad_norm": 0.9226046204566956,
      "learning_rate": 9.975686719983633e-06,
      "loss": 0.8927,
      "step": 1238
    },
    {
      "epoch": 0.06819307611866365,
      "grad_norm": 0.8917136192321777,
      "learning_rate": 9.975644006107679e-06,
      "loss": 0.9048,
      "step": 1239
    },
    {
      "epoch": 0.06824811492101931,
      "grad_norm": 0.8559191226959229,
      "learning_rate": 9.975601254836114e-06,
      "loss": 0.8169,
      "step": 1240
    },
    {
      "epoch": 0.06830315372337498,
      "grad_norm": 0.9345341920852661,
      "learning_rate": 9.975558466169263e-06,
      "loss": 0.7929,
      "step": 1241
    },
    {
      "epoch": 0.06835819252573064,
      "grad_norm": 0.9155850410461426,
      "learning_rate": 9.975515640107447e-06,
      "loss": 0.8825,
      "step": 1242
    },
    {
      "epoch": 0.0684132313280863,
      "grad_norm": 0.899712860584259,
      "learning_rate": 9.975472776650987e-06,
      "loss": 0.825,
      "step": 1243
    },
    {
      "epoch": 0.06846827013044196,
      "grad_norm": 0.8280880451202393,
      "learning_rate": 9.975429875800206e-06,
      "loss": 0.8539,
      "step": 1244
    },
    {
      "epoch": 0.06852330893279762,
      "grad_norm": 0.9589636325836182,
      "learning_rate": 9.975386937555426e-06,
      "loss": 0.9465,
      "step": 1245
    },
    {
      "epoch": 0.06857834773515328,
      "grad_norm": 1.1027253866195679,
      "learning_rate": 9.97534396191697e-06,
      "loss": 0.87,
      "step": 1246
    },
    {
      "epoch": 0.06863338653750894,
      "grad_norm": 1.0510318279266357,
      "learning_rate": 9.975300948885158e-06,
      "loss": 0.8569,
      "step": 1247
    },
    {
      "epoch": 0.0686884253398646,
      "grad_norm": 0.8897958397865295,
      "learning_rate": 9.975257898460317e-06,
      "loss": 0.8431,
      "step": 1248
    },
    {
      "epoch": 0.06874346414222027,
      "grad_norm": 0.8827036619186401,
      "learning_rate": 9.975214810642771e-06,
      "loss": 0.922,
      "step": 1249
    },
    {
      "epoch": 0.06879850294457593,
      "grad_norm": 0.8798324465751648,
      "learning_rate": 9.97517168543284e-06,
      "loss": 0.7837,
      "step": 1250
    },
    {
      "epoch": 0.06885354174693159,
      "grad_norm": 0.9053803086280823,
      "learning_rate": 9.975128522830853e-06,
      "loss": 0.82,
      "step": 1251
    },
    {
      "epoch": 0.06890858054928725,
      "grad_norm": 0.8362607359886169,
      "learning_rate": 9.975085322837129e-06,
      "loss": 0.7684,
      "step": 1252
    },
    {
      "epoch": 0.06896361935164291,
      "grad_norm": 0.8898602724075317,
      "learning_rate": 9.975042085451997e-06,
      "loss": 0.8205,
      "step": 1253
    },
    {
      "epoch": 0.06901865815399857,
      "grad_norm": 0.9210274815559387,
      "learning_rate": 9.97499881067578e-06,
      "loss": 0.8364,
      "step": 1254
    },
    {
      "epoch": 0.06907369695635424,
      "grad_norm": 1.0881952047348022,
      "learning_rate": 9.974955498508804e-06,
      "loss": 0.8234,
      "step": 1255
    },
    {
      "epoch": 0.0691287357587099,
      "grad_norm": 0.8875024914741516,
      "learning_rate": 9.974912148951394e-06,
      "loss": 0.7974,
      "step": 1256
    },
    {
      "epoch": 0.06918377456106554,
      "grad_norm": 0.9065666794776917,
      "learning_rate": 9.974868762003876e-06,
      "loss": 0.7721,
      "step": 1257
    },
    {
      "epoch": 0.0692388133634212,
      "grad_norm": 0.8904553651809692,
      "learning_rate": 9.974825337666576e-06,
      "loss": 0.8551,
      "step": 1258
    },
    {
      "epoch": 0.06929385216577687,
      "grad_norm": 0.8586102724075317,
      "learning_rate": 9.974781875939821e-06,
      "loss": 0.8666,
      "step": 1259
    },
    {
      "epoch": 0.06934889096813253,
      "grad_norm": 0.9103402495384216,
      "learning_rate": 9.974738376823935e-06,
      "loss": 0.8361,
      "step": 1260
    },
    {
      "epoch": 0.06940392977048819,
      "grad_norm": 0.8657701015472412,
      "learning_rate": 9.974694840319249e-06,
      "loss": 0.8217,
      "step": 1261
    },
    {
      "epoch": 0.06945896857284385,
      "grad_norm": 0.865703821182251,
      "learning_rate": 9.974651266426088e-06,
      "loss": 0.8751,
      "step": 1262
    },
    {
      "epoch": 0.06951400737519951,
      "grad_norm": 0.8932577967643738,
      "learning_rate": 9.974607655144779e-06,
      "loss": 0.8709,
      "step": 1263
    },
    {
      "epoch": 0.06956904617755517,
      "grad_norm": 0.8417405486106873,
      "learning_rate": 9.97456400647565e-06,
      "loss": 0.8104,
      "step": 1264
    },
    {
      "epoch": 0.06962408497991084,
      "grad_norm": 0.8578035235404968,
      "learning_rate": 9.974520320419032e-06,
      "loss": 0.9173,
      "step": 1265
    },
    {
      "epoch": 0.0696791237822665,
      "grad_norm": 0.957539439201355,
      "learning_rate": 9.974476596975249e-06,
      "loss": 0.8955,
      "step": 1266
    },
    {
      "epoch": 0.06973416258462216,
      "grad_norm": 0.851222038269043,
      "learning_rate": 9.974432836144632e-06,
      "loss": 0.8696,
      "step": 1267
    },
    {
      "epoch": 0.06978920138697782,
      "grad_norm": 0.8178789615631104,
      "learning_rate": 9.974389037927508e-06,
      "loss": 0.7921,
      "step": 1268
    },
    {
      "epoch": 0.06984424018933348,
      "grad_norm": 0.954091489315033,
      "learning_rate": 9.97434520232421e-06,
      "loss": 0.9362,
      "step": 1269
    },
    {
      "epoch": 0.06989927899168914,
      "grad_norm": 0.8525053858757019,
      "learning_rate": 9.974301329335063e-06,
      "loss": 0.7996,
      "step": 1270
    },
    {
      "epoch": 0.0699543177940448,
      "grad_norm": 0.9340476393699646,
      "learning_rate": 9.9742574189604e-06,
      "loss": 0.9091,
      "step": 1271
    },
    {
      "epoch": 0.07000935659640047,
      "grad_norm": 0.7946187257766724,
      "learning_rate": 9.974213471200548e-06,
      "loss": 0.874,
      "step": 1272
    },
    {
      "epoch": 0.07006439539875613,
      "grad_norm": 0.8048381209373474,
      "learning_rate": 9.97416948605584e-06,
      "loss": 0.8557,
      "step": 1273
    },
    {
      "epoch": 0.07011943420111179,
      "grad_norm": 0.9849064946174622,
      "learning_rate": 9.974125463526607e-06,
      "loss": 0.8154,
      "step": 1274
    },
    {
      "epoch": 0.07017447300346745,
      "grad_norm": 0.9030239582061768,
      "learning_rate": 9.974081403613178e-06,
      "loss": 0.9411,
      "step": 1275
    },
    {
      "epoch": 0.07022951180582311,
      "grad_norm": 0.8869300484657288,
      "learning_rate": 9.974037306315882e-06,
      "loss": 0.8978,
      "step": 1276
    },
    {
      "epoch": 0.07028455060817877,
      "grad_norm": 0.8558536767959595,
      "learning_rate": 9.973993171635057e-06,
      "loss": 0.8937,
      "step": 1277
    },
    {
      "epoch": 0.07033958941053442,
      "grad_norm": 0.9005453586578369,
      "learning_rate": 9.973948999571029e-06,
      "loss": 0.9336,
      "step": 1278
    },
    {
      "epoch": 0.07039462821289008,
      "grad_norm": 0.8489978909492493,
      "learning_rate": 9.973904790124131e-06,
      "loss": 0.8267,
      "step": 1279
    },
    {
      "epoch": 0.07044966701524574,
      "grad_norm": 0.8295948505401611,
      "learning_rate": 9.973860543294696e-06,
      "loss": 0.8478,
      "step": 1280
    },
    {
      "epoch": 0.0705047058176014,
      "grad_norm": 0.8111379742622375,
      "learning_rate": 9.973816259083058e-06,
      "loss": 0.8333,
      "step": 1281
    },
    {
      "epoch": 0.07055974461995707,
      "grad_norm": 0.9380189776420593,
      "learning_rate": 9.973771937489547e-06,
      "loss": 0.9718,
      "step": 1282
    },
    {
      "epoch": 0.07061478342231273,
      "grad_norm": 1.251194953918457,
      "learning_rate": 9.973727578514499e-06,
      "loss": 0.9531,
      "step": 1283
    },
    {
      "epoch": 0.07066982222466839,
      "grad_norm": 0.9897224307060242,
      "learning_rate": 9.973683182158243e-06,
      "loss": 0.7853,
      "step": 1284
    },
    {
      "epoch": 0.07072486102702405,
      "grad_norm": 0.8409335017204285,
      "learning_rate": 9.973638748421119e-06,
      "loss": 0.7692,
      "step": 1285
    },
    {
      "epoch": 0.07077989982937971,
      "grad_norm": 0.9019681215286255,
      "learning_rate": 9.973594277303456e-06,
      "loss": 0.8135,
      "step": 1286
    },
    {
      "epoch": 0.07083493863173537,
      "grad_norm": 0.9236096739768982,
      "learning_rate": 9.973549768805588e-06,
      "loss": 0.9304,
      "step": 1287
    },
    {
      "epoch": 0.07088997743409103,
      "grad_norm": 0.9244743585586548,
      "learning_rate": 9.973505222927854e-06,
      "loss": 0.9056,
      "step": 1288
    },
    {
      "epoch": 0.0709450162364467,
      "grad_norm": 1.3418753147125244,
      "learning_rate": 9.973460639670585e-06,
      "loss": 0.8419,
      "step": 1289
    },
    {
      "epoch": 0.07100005503880236,
      "grad_norm": 0.8715767860412598,
      "learning_rate": 9.973416019034117e-06,
      "loss": 0.9704,
      "step": 1290
    },
    {
      "epoch": 0.07105509384115802,
      "grad_norm": 0.9609012007713318,
      "learning_rate": 9.973371361018787e-06,
      "loss": 0.8807,
      "step": 1291
    },
    {
      "epoch": 0.07111013264351368,
      "grad_norm": 0.8085873126983643,
      "learning_rate": 9.973326665624927e-06,
      "loss": 0.7947,
      "step": 1292
    },
    {
      "epoch": 0.07116517144586934,
      "grad_norm": 0.919280469417572,
      "learning_rate": 9.973281932852877e-06,
      "loss": 0.9743,
      "step": 1293
    },
    {
      "epoch": 0.071220210248225,
      "grad_norm": 1.0651074647903442,
      "learning_rate": 9.973237162702968e-06,
      "loss": 0.7164,
      "step": 1294
    },
    {
      "epoch": 0.07127524905058066,
      "grad_norm": 0.987251341342926,
      "learning_rate": 9.973192355175542e-06,
      "loss": 0.9286,
      "step": 1295
    },
    {
      "epoch": 0.07133028785293632,
      "grad_norm": 1.5507274866104126,
      "learning_rate": 9.973147510270935e-06,
      "loss": 0.9733,
      "step": 1296
    },
    {
      "epoch": 0.07138532665529199,
      "grad_norm": 0.8439416885375977,
      "learning_rate": 9.97310262798948e-06,
      "loss": 0.7462,
      "step": 1297
    },
    {
      "epoch": 0.07144036545764765,
      "grad_norm": 0.9604889750480652,
      "learning_rate": 9.973057708331519e-06,
      "loss": 1.0006,
      "step": 1298
    },
    {
      "epoch": 0.07149540426000331,
      "grad_norm": 0.8568960428237915,
      "learning_rate": 9.973012751297386e-06,
      "loss": 0.878,
      "step": 1299
    },
    {
      "epoch": 0.07155044306235896,
      "grad_norm": 0.8169522285461426,
      "learning_rate": 9.972967756887419e-06,
      "loss": 0.8241,
      "step": 1300
    },
    {
      "epoch": 0.07160548186471462,
      "grad_norm": 0.875738799571991,
      "learning_rate": 9.97292272510196e-06,
      "loss": 0.854,
      "step": 1301
    },
    {
      "epoch": 0.07166052066707028,
      "grad_norm": 0.7877739071846008,
      "learning_rate": 9.972877655941345e-06,
      "loss": 0.779,
      "step": 1302
    },
    {
      "epoch": 0.07171555946942594,
      "grad_norm": 0.8148574829101562,
      "learning_rate": 9.972832549405912e-06,
      "loss": 0.6965,
      "step": 1303
    },
    {
      "epoch": 0.0717705982717816,
      "grad_norm": 0.936720609664917,
      "learning_rate": 9.972787405495998e-06,
      "loss": 0.798,
      "step": 1304
    },
    {
      "epoch": 0.07182563707413726,
      "grad_norm": 0.8932886123657227,
      "learning_rate": 9.972742224211949e-06,
      "loss": 0.9196,
      "step": 1305
    },
    {
      "epoch": 0.07188067587649292,
      "grad_norm": 0.899246871471405,
      "learning_rate": 9.972697005554099e-06,
      "loss": 0.8081,
      "step": 1306
    },
    {
      "epoch": 0.07193571467884859,
      "grad_norm": 0.8789899349212646,
      "learning_rate": 9.972651749522788e-06,
      "loss": 0.89,
      "step": 1307
    },
    {
      "epoch": 0.07199075348120425,
      "grad_norm": 1.2412173748016357,
      "learning_rate": 9.97260645611836e-06,
      "loss": 0.9866,
      "step": 1308
    },
    {
      "epoch": 0.07204579228355991,
      "grad_norm": 0.8655833005905151,
      "learning_rate": 9.972561125341152e-06,
      "loss": 0.8144,
      "step": 1309
    },
    {
      "epoch": 0.07210083108591557,
      "grad_norm": 0.8705299496650696,
      "learning_rate": 9.972515757191506e-06,
      "loss": 0.8431,
      "step": 1310
    },
    {
      "epoch": 0.07215586988827123,
      "grad_norm": 0.8813188672065735,
      "learning_rate": 9.972470351669761e-06,
      "loss": 0.859,
      "step": 1311
    },
    {
      "epoch": 0.0722109086906269,
      "grad_norm": 2.043627977371216,
      "learning_rate": 9.972424908776262e-06,
      "loss": 0.9886,
      "step": 1312
    },
    {
      "epoch": 0.07226594749298255,
      "grad_norm": 0.9167500734329224,
      "learning_rate": 9.972379428511348e-06,
      "loss": 0.7203,
      "step": 1313
    },
    {
      "epoch": 0.07232098629533822,
      "grad_norm": 1.3145136833190918,
      "learning_rate": 9.972333910875358e-06,
      "loss": 0.9325,
      "step": 1314
    },
    {
      "epoch": 0.07237602509769388,
      "grad_norm": 0.834710419178009,
      "learning_rate": 9.972288355868641e-06,
      "loss": 0.9361,
      "step": 1315
    },
    {
      "epoch": 0.07243106390004954,
      "grad_norm": 0.9039230942726135,
      "learning_rate": 9.972242763491535e-06,
      "loss": 0.8027,
      "step": 1316
    },
    {
      "epoch": 0.0724861027024052,
      "grad_norm": 0.8911495208740234,
      "learning_rate": 9.972197133744384e-06,
      "loss": 0.951,
      "step": 1317
    },
    {
      "epoch": 0.07254114150476086,
      "grad_norm": 1.0752439498901367,
      "learning_rate": 9.972151466627529e-06,
      "loss": 0.8421,
      "step": 1318
    },
    {
      "epoch": 0.07259618030711652,
      "grad_norm": 0.926135778427124,
      "learning_rate": 9.972105762141314e-06,
      "loss": 0.8901,
      "step": 1319
    },
    {
      "epoch": 0.07265121910947218,
      "grad_norm": 0.8166295289993286,
      "learning_rate": 9.972060020286085e-06,
      "loss": 0.7845,
      "step": 1320
    },
    {
      "epoch": 0.07270625791182783,
      "grad_norm": 1.0000934600830078,
      "learning_rate": 9.972014241062182e-06,
      "loss": 0.8383,
      "step": 1321
    },
    {
      "epoch": 0.0727612967141835,
      "grad_norm": 1.2617899179458618,
      "learning_rate": 9.971968424469951e-06,
      "loss": 0.9826,
      "step": 1322
    },
    {
      "epoch": 0.07281633551653915,
      "grad_norm": 0.8451040983200073,
      "learning_rate": 9.971922570509738e-06,
      "loss": 0.8262,
      "step": 1323
    },
    {
      "epoch": 0.07287137431889482,
      "grad_norm": 0.8101939558982849,
      "learning_rate": 9.971876679181884e-06,
      "loss": 0.6904,
      "step": 1324
    },
    {
      "epoch": 0.07292641312125048,
      "grad_norm": 0.8805514574050903,
      "learning_rate": 9.971830750486736e-06,
      "loss": 0.8491,
      "step": 1325
    },
    {
      "epoch": 0.07298145192360614,
      "grad_norm": 0.8236901164054871,
      "learning_rate": 9.97178478442464e-06,
      "loss": 0.8462,
      "step": 1326
    },
    {
      "epoch": 0.0730364907259618,
      "grad_norm": 0.9183042645454407,
      "learning_rate": 9.971738780995938e-06,
      "loss": 0.7577,
      "step": 1327
    },
    {
      "epoch": 0.07309152952831746,
      "grad_norm": 0.8425934314727783,
      "learning_rate": 9.971692740200982e-06,
      "loss": 0.8462,
      "step": 1328
    },
    {
      "epoch": 0.07314656833067312,
      "grad_norm": 0.9114993214607239,
      "learning_rate": 9.971646662040112e-06,
      "loss": 0.9132,
      "step": 1329
    },
    {
      "epoch": 0.07320160713302878,
      "grad_norm": 0.8516649603843689,
      "learning_rate": 9.971600546513675e-06,
      "loss": 0.8819,
      "step": 1330
    },
    {
      "epoch": 0.07325664593538445,
      "grad_norm": 1.0859558582305908,
      "learning_rate": 9.971554393622023e-06,
      "loss": 0.9929,
      "step": 1331
    },
    {
      "epoch": 0.07331168473774011,
      "grad_norm": 0.8906900882720947,
      "learning_rate": 9.971508203365497e-06,
      "loss": 0.9166,
      "step": 1332
    },
    {
      "epoch": 0.07336672354009577,
      "grad_norm": 0.8931803703308105,
      "learning_rate": 9.971461975744445e-06,
      "loss": 0.864,
      "step": 1333
    },
    {
      "epoch": 0.07342176234245143,
      "grad_norm": 0.8404982686042786,
      "learning_rate": 9.971415710759216e-06,
      "loss": 0.8609,
      "step": 1334
    },
    {
      "epoch": 0.07347680114480709,
      "grad_norm": 0.8016490340232849,
      "learning_rate": 9.971369408410157e-06,
      "loss": 0.7694,
      "step": 1335
    },
    {
      "epoch": 0.07353183994716275,
      "grad_norm": 0.7700600028038025,
      "learning_rate": 9.971323068697618e-06,
      "loss": 0.7875,
      "step": 1336
    },
    {
      "epoch": 0.07358687874951841,
      "grad_norm": 0.8679799437522888,
      "learning_rate": 9.971276691621946e-06,
      "loss": 0.8409,
      "step": 1337
    },
    {
      "epoch": 0.07364191755187408,
      "grad_norm": 0.8329173922538757,
      "learning_rate": 9.971230277183486e-06,
      "loss": 0.8707,
      "step": 1338
    },
    {
      "epoch": 0.07369695635422974,
      "grad_norm": 0.8790140151977539,
      "learning_rate": 9.97118382538259e-06,
      "loss": 0.7631,
      "step": 1339
    },
    {
      "epoch": 0.0737519951565854,
      "grad_norm": 1.1895341873168945,
      "learning_rate": 9.97113733621961e-06,
      "loss": 0.8555,
      "step": 1340
    },
    {
      "epoch": 0.07380703395894106,
      "grad_norm": 0.8531593680381775,
      "learning_rate": 9.97109080969489e-06,
      "loss": 0.7192,
      "step": 1341
    },
    {
      "epoch": 0.07386207276129672,
      "grad_norm": 1.0388946533203125,
      "learning_rate": 9.971044245808784e-06,
      "loss": 0.8182,
      "step": 1342
    },
    {
      "epoch": 0.07391711156365237,
      "grad_norm": 0.8858556747436523,
      "learning_rate": 9.970997644561639e-06,
      "loss": 0.7981,
      "step": 1343
    },
    {
      "epoch": 0.07397215036600803,
      "grad_norm": 0.8710204362869263,
      "learning_rate": 9.970951005953807e-06,
      "loss": 0.7667,
      "step": 1344
    },
    {
      "epoch": 0.07402718916836369,
      "grad_norm": 0.9788708090782166,
      "learning_rate": 9.970904329985638e-06,
      "loss": 0.9693,
      "step": 1345
    },
    {
      "epoch": 0.07408222797071935,
      "grad_norm": 0.7805914878845215,
      "learning_rate": 9.970857616657482e-06,
      "loss": 0.6683,
      "step": 1346
    },
    {
      "epoch": 0.07413726677307501,
      "grad_norm": 0.9977933168411255,
      "learning_rate": 9.97081086596969e-06,
      "loss": 0.8288,
      "step": 1347
    },
    {
      "epoch": 0.07419230557543068,
      "grad_norm": 0.829115629196167,
      "learning_rate": 9.970764077922617e-06,
      "loss": 0.8361,
      "step": 1348
    },
    {
      "epoch": 0.07424734437778634,
      "grad_norm": 1.226120114326477,
      "learning_rate": 9.97071725251661e-06,
      "loss": 1.0008,
      "step": 1349
    },
    {
      "epoch": 0.074302383180142,
      "grad_norm": 0.8997750878334045,
      "learning_rate": 9.970670389752021e-06,
      "loss": 0.8048,
      "step": 1350
    },
    {
      "epoch": 0.07435742198249766,
      "grad_norm": 1.0885238647460938,
      "learning_rate": 9.970623489629205e-06,
      "loss": 0.9202,
      "step": 1351
    },
    {
      "epoch": 0.07441246078485332,
      "grad_norm": 0.8736100792884827,
      "learning_rate": 9.970576552148515e-06,
      "loss": 0.8515,
      "step": 1352
    },
    {
      "epoch": 0.07446749958720898,
      "grad_norm": 0.9211294651031494,
      "learning_rate": 9.970529577310301e-06,
      "loss": 0.9389,
      "step": 1353
    },
    {
      "epoch": 0.07452253838956464,
      "grad_norm": 0.9334765672683716,
      "learning_rate": 9.970482565114917e-06,
      "loss": 0.8165,
      "step": 1354
    },
    {
      "epoch": 0.0745775771919203,
      "grad_norm": 0.8307162523269653,
      "learning_rate": 9.970435515562717e-06,
      "loss": 0.7829,
      "step": 1355
    },
    {
      "epoch": 0.07463261599427597,
      "grad_norm": 0.987634003162384,
      "learning_rate": 9.970388428654055e-06,
      "loss": 0.848,
      "step": 1356
    },
    {
      "epoch": 0.07468765479663163,
      "grad_norm": 1.094752311706543,
      "learning_rate": 9.970341304389281e-06,
      "loss": 1.003,
      "step": 1357
    },
    {
      "epoch": 0.07474269359898729,
      "grad_norm": 0.9865909814834595,
      "learning_rate": 9.970294142768755e-06,
      "loss": 0.9116,
      "step": 1358
    },
    {
      "epoch": 0.07479773240134295,
      "grad_norm": 0.8404149413108826,
      "learning_rate": 9.970246943792828e-06,
      "loss": 0.8699,
      "step": 1359
    },
    {
      "epoch": 0.07485277120369861,
      "grad_norm": 0.9602416753768921,
      "learning_rate": 9.970199707461855e-06,
      "loss": 0.8166,
      "step": 1360
    },
    {
      "epoch": 0.07490781000605427,
      "grad_norm": 0.9748693704605103,
      "learning_rate": 9.970152433776193e-06,
      "loss": 0.8767,
      "step": 1361
    },
    {
      "epoch": 0.07496284880840993,
      "grad_norm": 0.8721657991409302,
      "learning_rate": 9.970105122736194e-06,
      "loss": 0.8825,
      "step": 1362
    },
    {
      "epoch": 0.0750178876107656,
      "grad_norm": 0.8683610558509827,
      "learning_rate": 9.970057774342215e-06,
      "loss": 0.7873,
      "step": 1363
    },
    {
      "epoch": 0.07507292641312124,
      "grad_norm": 0.856396496295929,
      "learning_rate": 9.970010388594613e-06,
      "loss": 0.8505,
      "step": 1364
    },
    {
      "epoch": 0.0751279652154769,
      "grad_norm": 1.0709880590438843,
      "learning_rate": 9.969962965493744e-06,
      "loss": 0.9519,
      "step": 1365
    },
    {
      "epoch": 0.07518300401783257,
      "grad_norm": 0.8839450478553772,
      "learning_rate": 9.969915505039963e-06,
      "loss": 0.8041,
      "step": 1366
    },
    {
      "epoch": 0.07523804282018823,
      "grad_norm": 0.89545738697052,
      "learning_rate": 9.969868007233627e-06,
      "loss": 0.8713,
      "step": 1367
    },
    {
      "epoch": 0.07529308162254389,
      "grad_norm": 0.9870849251747131,
      "learning_rate": 9.969820472075094e-06,
      "loss": 0.8655,
      "step": 1368
    },
    {
      "epoch": 0.07534812042489955,
      "grad_norm": 1.3123797178268433,
      "learning_rate": 9.96977289956472e-06,
      "loss": 1.0425,
      "step": 1369
    },
    {
      "epoch": 0.07540315922725521,
      "grad_norm": 0.8538400530815125,
      "learning_rate": 9.969725289702865e-06,
      "loss": 0.7052,
      "step": 1370
    },
    {
      "epoch": 0.07545819802961087,
      "grad_norm": 0.933397114276886,
      "learning_rate": 9.969677642489884e-06,
      "loss": 0.9819,
      "step": 1371
    },
    {
      "epoch": 0.07551323683196653,
      "grad_norm": 0.8428112268447876,
      "learning_rate": 9.969629957926134e-06,
      "loss": 0.7313,
      "step": 1372
    },
    {
      "epoch": 0.0755682756343222,
      "grad_norm": 0.9023239612579346,
      "learning_rate": 9.96958223601198e-06,
      "loss": 0.8297,
      "step": 1373
    },
    {
      "epoch": 0.07562331443667786,
      "grad_norm": 0.8971324563026428,
      "learning_rate": 9.969534476747771e-06,
      "loss": 0.8832,
      "step": 1374
    },
    {
      "epoch": 0.07567835323903352,
      "grad_norm": 0.8709388375282288,
      "learning_rate": 9.969486680133874e-06,
      "loss": 0.743,
      "step": 1375
    },
    {
      "epoch": 0.07573339204138918,
      "grad_norm": 0.9094591736793518,
      "learning_rate": 9.969438846170644e-06,
      "loss": 0.8294,
      "step": 1376
    },
    {
      "epoch": 0.07578843084374484,
      "grad_norm": 1.0753988027572632,
      "learning_rate": 9.969390974858444e-06,
      "loss": 0.7479,
      "step": 1377
    },
    {
      "epoch": 0.0758434696461005,
      "grad_norm": 0.933775007724762,
      "learning_rate": 9.96934306619763e-06,
      "loss": 0.8235,
      "step": 1378
    },
    {
      "epoch": 0.07589850844845616,
      "grad_norm": 0.8419735431671143,
      "learning_rate": 9.969295120188565e-06,
      "loss": 0.8103,
      "step": 1379
    },
    {
      "epoch": 0.07595354725081183,
      "grad_norm": 0.8912790417671204,
      "learning_rate": 9.969247136831606e-06,
      "loss": 0.911,
      "step": 1380
    },
    {
      "epoch": 0.07600858605316749,
      "grad_norm": 0.8780983090400696,
      "learning_rate": 9.969199116127118e-06,
      "loss": 0.8619,
      "step": 1381
    },
    {
      "epoch": 0.07606362485552315,
      "grad_norm": 0.8503809571266174,
      "learning_rate": 9.969151058075459e-06,
      "loss": 0.8093,
      "step": 1382
    },
    {
      "epoch": 0.07611866365787881,
      "grad_norm": 0.8633087277412415,
      "learning_rate": 9.96910296267699e-06,
      "loss": 0.7524,
      "step": 1383
    },
    {
      "epoch": 0.07617370246023447,
      "grad_norm": 1.1203595399856567,
      "learning_rate": 9.969054829932074e-06,
      "loss": 0.945,
      "step": 1384
    },
    {
      "epoch": 0.07622874126259013,
      "grad_norm": 0.8766878843307495,
      "learning_rate": 9.969006659841072e-06,
      "loss": 0.7537,
      "step": 1385
    },
    {
      "epoch": 0.07628378006494578,
      "grad_norm": 0.9795958399772644,
      "learning_rate": 9.968958452404345e-06,
      "loss": 0.7963,
      "step": 1386
    },
    {
      "epoch": 0.07633881886730144,
      "grad_norm": 0.9117506146430969,
      "learning_rate": 9.968910207622257e-06,
      "loss": 0.9469,
      "step": 1387
    },
    {
      "epoch": 0.0763938576696571,
      "grad_norm": 0.9731466770172119,
      "learning_rate": 9.96886192549517e-06,
      "loss": 0.9536,
      "step": 1388
    },
    {
      "epoch": 0.07644889647201276,
      "grad_norm": 0.8923571109771729,
      "learning_rate": 9.968813606023446e-06,
      "loss": 0.8362,
      "step": 1389
    },
    {
      "epoch": 0.07650393527436843,
      "grad_norm": 0.8819600343704224,
      "learning_rate": 9.96876524920745e-06,
      "loss": 0.6938,
      "step": 1390
    },
    {
      "epoch": 0.07655897407672409,
      "grad_norm": 0.9629887342453003,
      "learning_rate": 9.968716855047545e-06,
      "loss": 0.9104,
      "step": 1391
    },
    {
      "epoch": 0.07661401287907975,
      "grad_norm": 0.992770254611969,
      "learning_rate": 9.968668423544093e-06,
      "loss": 0.944,
      "step": 1392
    },
    {
      "epoch": 0.07666905168143541,
      "grad_norm": 0.8578491806983948,
      "learning_rate": 9.96861995469746e-06,
      "loss": 0.898,
      "step": 1393
    },
    {
      "epoch": 0.07672409048379107,
      "grad_norm": 1.1169229745864868,
      "learning_rate": 9.968571448508008e-06,
      "loss": 0.8324,
      "step": 1394
    },
    {
      "epoch": 0.07677912928614673,
      "grad_norm": 0.9600160121917725,
      "learning_rate": 9.968522904976106e-06,
      "loss": 0.9519,
      "step": 1395
    },
    {
      "epoch": 0.0768341680885024,
      "grad_norm": 0.8271373510360718,
      "learning_rate": 9.968474324102112e-06,
      "loss": 0.8576,
      "step": 1396
    },
    {
      "epoch": 0.07688920689085806,
      "grad_norm": 0.9437325596809387,
      "learning_rate": 9.968425705886397e-06,
      "loss": 0.9201,
      "step": 1397
    },
    {
      "epoch": 0.07694424569321372,
      "grad_norm": 0.8679039478302002,
      "learning_rate": 9.968377050329325e-06,
      "loss": 0.8893,
      "step": 1398
    },
    {
      "epoch": 0.07699928449556938,
      "grad_norm": 1.0178717374801636,
      "learning_rate": 9.96832835743126e-06,
      "loss": 0.9718,
      "step": 1399
    },
    {
      "epoch": 0.07705432329792504,
      "grad_norm": 0.8354432582855225,
      "learning_rate": 9.96827962719257e-06,
      "loss": 0.83,
      "step": 1400
    },
    {
      "epoch": 0.0771093621002807,
      "grad_norm": 1.2244631052017212,
      "learning_rate": 9.968230859613619e-06,
      "loss": 0.907,
      "step": 1401
    },
    {
      "epoch": 0.07716440090263636,
      "grad_norm": 0.9099625945091248,
      "learning_rate": 9.968182054694775e-06,
      "loss": 0.809,
      "step": 1402
    },
    {
      "epoch": 0.07721943970499202,
      "grad_norm": 0.8591424226760864,
      "learning_rate": 9.968133212436404e-06,
      "loss": 0.8869,
      "step": 1403
    },
    {
      "epoch": 0.07727447850734769,
      "grad_norm": 1.068003535270691,
      "learning_rate": 9.968084332838876e-06,
      "loss": 0.8747,
      "step": 1404
    },
    {
      "epoch": 0.07732951730970335,
      "grad_norm": 0.8503691554069519,
      "learning_rate": 9.968035415902555e-06,
      "loss": 0.7478,
      "step": 1405
    },
    {
      "epoch": 0.07738455611205901,
      "grad_norm": 0.9209537506103516,
      "learning_rate": 9.967986461627808e-06,
      "loss": 0.9052,
      "step": 1406
    },
    {
      "epoch": 0.07743959491441466,
      "grad_norm": 0.8447962999343872,
      "learning_rate": 9.967937470015006e-06,
      "loss": 0.7897,
      "step": 1407
    },
    {
      "epoch": 0.07749463371677032,
      "grad_norm": 0.8731846809387207,
      "learning_rate": 9.967888441064515e-06,
      "loss": 0.837,
      "step": 1408
    },
    {
      "epoch": 0.07754967251912598,
      "grad_norm": 0.9810444712638855,
      "learning_rate": 9.967839374776705e-06,
      "loss": 0.8236,
      "step": 1409
    },
    {
      "epoch": 0.07760471132148164,
      "grad_norm": 0.8283190131187439,
      "learning_rate": 9.967790271151944e-06,
      "loss": 0.8443,
      "step": 1410
    },
    {
      "epoch": 0.0776597501238373,
      "grad_norm": 0.7999932765960693,
      "learning_rate": 9.9677411301906e-06,
      "loss": 0.7945,
      "step": 1411
    },
    {
      "epoch": 0.07771478892619296,
      "grad_norm": 0.9435983300209045,
      "learning_rate": 9.967691951893044e-06,
      "loss": 0.9745,
      "step": 1412
    },
    {
      "epoch": 0.07776982772854862,
      "grad_norm": 0.8885984420776367,
      "learning_rate": 9.967642736259646e-06,
      "loss": 0.9163,
      "step": 1413
    },
    {
      "epoch": 0.07782486653090429,
      "grad_norm": 0.993928074836731,
      "learning_rate": 9.967593483290776e-06,
      "loss": 0.7797,
      "step": 1414
    },
    {
      "epoch": 0.07787990533325995,
      "grad_norm": 1.058830976486206,
      "learning_rate": 9.9675441929868e-06,
      "loss": 0.8671,
      "step": 1415
    },
    {
      "epoch": 0.07793494413561561,
      "grad_norm": 1.0469766855239868,
      "learning_rate": 9.967494865348093e-06,
      "loss": 0.8671,
      "step": 1416
    },
    {
      "epoch": 0.07798998293797127,
      "grad_norm": 0.902729868888855,
      "learning_rate": 9.967445500375025e-06,
      "loss": 0.8748,
      "step": 1417
    },
    {
      "epoch": 0.07804502174032693,
      "grad_norm": 0.90755295753479,
      "learning_rate": 9.967396098067965e-06,
      "loss": 0.8279,
      "step": 1418
    },
    {
      "epoch": 0.07810006054268259,
      "grad_norm": 0.8822374939918518,
      "learning_rate": 9.967346658427287e-06,
      "loss": 0.9386,
      "step": 1419
    },
    {
      "epoch": 0.07815509934503825,
      "grad_norm": 0.9201469421386719,
      "learning_rate": 9.96729718145336e-06,
      "loss": 0.8684,
      "step": 1420
    },
    {
      "epoch": 0.07821013814739392,
      "grad_norm": 0.9451109766960144,
      "learning_rate": 9.967247667146558e-06,
      "loss": 0.7854,
      "step": 1421
    },
    {
      "epoch": 0.07826517694974958,
      "grad_norm": 0.9146197438240051,
      "learning_rate": 9.96719811550725e-06,
      "loss": 0.8496,
      "step": 1422
    },
    {
      "epoch": 0.07832021575210524,
      "grad_norm": 0.9771224856376648,
      "learning_rate": 9.967148526535813e-06,
      "loss": 0.9657,
      "step": 1423
    },
    {
      "epoch": 0.0783752545544609,
      "grad_norm": 0.8437683582305908,
      "learning_rate": 9.967098900232616e-06,
      "loss": 0.8336,
      "step": 1424
    },
    {
      "epoch": 0.07843029335681656,
      "grad_norm": 0.8232185244560242,
      "learning_rate": 9.967049236598034e-06,
      "loss": 0.8878,
      "step": 1425
    },
    {
      "epoch": 0.07848533215917222,
      "grad_norm": 1.0200369358062744,
      "learning_rate": 9.96699953563244e-06,
      "loss": 0.8135,
      "step": 1426
    },
    {
      "epoch": 0.07854037096152788,
      "grad_norm": 0.8779187202453613,
      "learning_rate": 9.966949797336208e-06,
      "loss": 0.9124,
      "step": 1427
    },
    {
      "epoch": 0.07859540976388354,
      "grad_norm": 0.9557466506958008,
      "learning_rate": 9.966900021709708e-06,
      "loss": 0.9118,
      "step": 1428
    },
    {
      "epoch": 0.07865044856623919,
      "grad_norm": 0.8431050777435303,
      "learning_rate": 9.966850208753317e-06,
      "loss": 0.8361,
      "step": 1429
    },
    {
      "epoch": 0.07870548736859485,
      "grad_norm": 0.9269648194313049,
      "learning_rate": 9.966800358467412e-06,
      "loss": 0.9194,
      "step": 1430
    },
    {
      "epoch": 0.07876052617095052,
      "grad_norm": 0.818681538105011,
      "learning_rate": 9.966750470852363e-06,
      "loss": 0.7483,
      "step": 1431
    },
    {
      "epoch": 0.07881556497330618,
      "grad_norm": 0.8788284659385681,
      "learning_rate": 9.966700545908547e-06,
      "loss": 0.858,
      "step": 1432
    },
    {
      "epoch": 0.07887060377566184,
      "grad_norm": 0.7734160423278809,
      "learning_rate": 9.966650583636342e-06,
      "loss": 0.694,
      "step": 1433
    },
    {
      "epoch": 0.0789256425780175,
      "grad_norm": 0.8846608996391296,
      "learning_rate": 9.966600584036117e-06,
      "loss": 0.8144,
      "step": 1434
    },
    {
      "epoch": 0.07898068138037316,
      "grad_norm": 0.9740058183670044,
      "learning_rate": 9.966550547108254e-06,
      "loss": 0.9314,
      "step": 1435
    },
    {
      "epoch": 0.07903572018272882,
      "grad_norm": 0.8731759786605835,
      "learning_rate": 9.966500472853124e-06,
      "loss": 0.8475,
      "step": 1436
    },
    {
      "epoch": 0.07909075898508448,
      "grad_norm": 0.8984843492507935,
      "learning_rate": 9.966450361271109e-06,
      "loss": 0.7803,
      "step": 1437
    },
    {
      "epoch": 0.07914579778744014,
      "grad_norm": 0.8897966742515564,
      "learning_rate": 9.96640021236258e-06,
      "loss": 0.8879,
      "step": 1438
    },
    {
      "epoch": 0.0792008365897958,
      "grad_norm": 0.80704265832901,
      "learning_rate": 9.966350026127917e-06,
      "loss": 0.7585,
      "step": 1439
    },
    {
      "epoch": 0.07925587539215147,
      "grad_norm": 1.0807467699050903,
      "learning_rate": 9.966299802567499e-06,
      "loss": 1.078,
      "step": 1440
    },
    {
      "epoch": 0.07931091419450713,
      "grad_norm": 0.7994028925895691,
      "learning_rate": 9.966249541681697e-06,
      "loss": 0.8074,
      "step": 1441
    },
    {
      "epoch": 0.07936595299686279,
      "grad_norm": 0.877592921257019,
      "learning_rate": 9.966199243470895e-06,
      "loss": 0.8084,
      "step": 1442
    },
    {
      "epoch": 0.07942099179921845,
      "grad_norm": 0.7704572081565857,
      "learning_rate": 9.966148907935469e-06,
      "loss": 0.7206,
      "step": 1443
    },
    {
      "epoch": 0.07947603060157411,
      "grad_norm": 0.8222140669822693,
      "learning_rate": 9.966098535075797e-06,
      "loss": 0.7768,
      "step": 1444
    },
    {
      "epoch": 0.07953106940392977,
      "grad_norm": 1.389320731163025,
      "learning_rate": 9.966048124892257e-06,
      "loss": 1.0356,
      "step": 1445
    },
    {
      "epoch": 0.07958610820628544,
      "grad_norm": 0.9082457423210144,
      "learning_rate": 9.965997677385229e-06,
      "loss": 0.7379,
      "step": 1446
    },
    {
      "epoch": 0.0796411470086411,
      "grad_norm": 0.8029153943061829,
      "learning_rate": 9.965947192555093e-06,
      "loss": 0.7826,
      "step": 1447
    },
    {
      "epoch": 0.07969618581099676,
      "grad_norm": 0.8752758502960205,
      "learning_rate": 9.965896670402227e-06,
      "loss": 0.8526,
      "step": 1448
    },
    {
      "epoch": 0.07975122461335242,
      "grad_norm": 1.0665404796600342,
      "learning_rate": 9.965846110927009e-06,
      "loss": 0.858,
      "step": 1449
    },
    {
      "epoch": 0.07980626341570807,
      "grad_norm": 0.9468502402305603,
      "learning_rate": 9.96579551412982e-06,
      "loss": 0.9658,
      "step": 1450
    },
    {
      "epoch": 0.07986130221806373,
      "grad_norm": 1.0239403247833252,
      "learning_rate": 9.965744880011046e-06,
      "loss": 0.7995,
      "step": 1451
    },
    {
      "epoch": 0.07991634102041939,
      "grad_norm": 0.9808099865913391,
      "learning_rate": 9.965694208571059e-06,
      "loss": 1.0173,
      "step": 1452
    },
    {
      "epoch": 0.07997137982277505,
      "grad_norm": 0.9338780641555786,
      "learning_rate": 9.965643499810245e-06,
      "loss": 0.7917,
      "step": 1453
    },
    {
      "epoch": 0.08002641862513071,
      "grad_norm": 0.9294295310974121,
      "learning_rate": 9.965592753728981e-06,
      "loss": 0.88,
      "step": 1454
    },
    {
      "epoch": 0.08008145742748637,
      "grad_norm": 1.0261508226394653,
      "learning_rate": 9.965541970327654e-06,
      "loss": 0.8825,
      "step": 1455
    },
    {
      "epoch": 0.08013649622984204,
      "grad_norm": 0.8964946269989014,
      "learning_rate": 9.965491149606642e-06,
      "loss": 0.81,
      "step": 1456
    },
    {
      "epoch": 0.0801915350321977,
      "grad_norm": 0.9468267560005188,
      "learning_rate": 9.965440291566329e-06,
      "loss": 0.9453,
      "step": 1457
    },
    {
      "epoch": 0.08024657383455336,
      "grad_norm": 0.8289040327072144,
      "learning_rate": 9.965389396207092e-06,
      "loss": 0.7373,
      "step": 1458
    },
    {
      "epoch": 0.08030161263690902,
      "grad_norm": 0.8782384991645813,
      "learning_rate": 9.965338463529322e-06,
      "loss": 0.9199,
      "step": 1459
    },
    {
      "epoch": 0.08035665143926468,
      "grad_norm": 0.8613787293434143,
      "learning_rate": 9.965287493533395e-06,
      "loss": 0.8719,
      "step": 1460
    },
    {
      "epoch": 0.08041169024162034,
      "grad_norm": 0.8474903106689453,
      "learning_rate": 9.965236486219696e-06,
      "loss": 0.8033,
      "step": 1461
    },
    {
      "epoch": 0.080466729043976,
      "grad_norm": 1.1442681550979614,
      "learning_rate": 9.965185441588609e-06,
      "loss": 0.8996,
      "step": 1462
    },
    {
      "epoch": 0.08052176784633167,
      "grad_norm": 1.564138412475586,
      "learning_rate": 9.965134359640518e-06,
      "loss": 0.7451,
      "step": 1463
    },
    {
      "epoch": 0.08057680664868733,
      "grad_norm": 0.9211083054542542,
      "learning_rate": 9.965083240375806e-06,
      "loss": 0.8939,
      "step": 1464
    },
    {
      "epoch": 0.08063184545104299,
      "grad_norm": 0.9503418207168579,
      "learning_rate": 9.965032083794856e-06,
      "loss": 0.8544,
      "step": 1465
    },
    {
      "epoch": 0.08068688425339865,
      "grad_norm": 0.9304021596908569,
      "learning_rate": 9.964980889898055e-06,
      "loss": 0.9192,
      "step": 1466
    },
    {
      "epoch": 0.08074192305575431,
      "grad_norm": 0.8430425524711609,
      "learning_rate": 9.964929658685787e-06,
      "loss": 0.8586,
      "step": 1467
    },
    {
      "epoch": 0.08079696185810997,
      "grad_norm": 0.8671759366989136,
      "learning_rate": 9.964878390158437e-06,
      "loss": 0.8807,
      "step": 1468
    },
    {
      "epoch": 0.08085200066046563,
      "grad_norm": 0.9548830986022949,
      "learning_rate": 9.964827084316389e-06,
      "loss": 0.9033,
      "step": 1469
    },
    {
      "epoch": 0.0809070394628213,
      "grad_norm": 0.8736767768859863,
      "learning_rate": 9.964775741160029e-06,
      "loss": 0.8509,
      "step": 1470
    },
    {
      "epoch": 0.08096207826517696,
      "grad_norm": 0.8827025890350342,
      "learning_rate": 9.964724360689745e-06,
      "loss": 0.897,
      "step": 1471
    },
    {
      "epoch": 0.0810171170675326,
      "grad_norm": 1.02822744846344,
      "learning_rate": 9.964672942905921e-06,
      "loss": 1.0371,
      "step": 1472
    },
    {
      "epoch": 0.08107215586988827,
      "grad_norm": 0.8619557619094849,
      "learning_rate": 9.964621487808946e-06,
      "loss": 0.7654,
      "step": 1473
    },
    {
      "epoch": 0.08112719467224393,
      "grad_norm": 0.7855951189994812,
      "learning_rate": 9.9645699953992e-06,
      "loss": 0.7767,
      "step": 1474
    },
    {
      "epoch": 0.08118223347459959,
      "grad_norm": 0.8139809370040894,
      "learning_rate": 9.96451846567708e-06,
      "loss": 0.7535,
      "step": 1475
    },
    {
      "epoch": 0.08123727227695525,
      "grad_norm": 0.8491657376289368,
      "learning_rate": 9.964466898642966e-06,
      "loss": 0.854,
      "step": 1476
    },
    {
      "epoch": 0.08129231107931091,
      "grad_norm": 0.8968605399131775,
      "learning_rate": 9.964415294297247e-06,
      "loss": 0.8914,
      "step": 1477
    },
    {
      "epoch": 0.08134734988166657,
      "grad_norm": 0.8692505359649658,
      "learning_rate": 9.964363652640313e-06,
      "loss": 0.9245,
      "step": 1478
    },
    {
      "epoch": 0.08140238868402223,
      "grad_norm": 0.8916530013084412,
      "learning_rate": 9.964311973672549e-06,
      "loss": 0.7662,
      "step": 1479
    },
    {
      "epoch": 0.0814574274863779,
      "grad_norm": 0.8239215612411499,
      "learning_rate": 9.964260257394347e-06,
      "loss": 0.9191,
      "step": 1480
    },
    {
      "epoch": 0.08151246628873356,
      "grad_norm": 0.8672100901603699,
      "learning_rate": 9.964208503806092e-06,
      "loss": 0.7656,
      "step": 1481
    },
    {
      "epoch": 0.08156750509108922,
      "grad_norm": 0.9195712208747864,
      "learning_rate": 9.964156712908177e-06,
      "loss": 0.8656,
      "step": 1482
    },
    {
      "epoch": 0.08162254389344488,
      "grad_norm": 0.8282535672187805,
      "learning_rate": 9.964104884700986e-06,
      "loss": 0.8264,
      "step": 1483
    },
    {
      "epoch": 0.08167758269580054,
      "grad_norm": 0.8492032289505005,
      "learning_rate": 9.964053019184913e-06,
      "loss": 0.7816,
      "step": 1484
    },
    {
      "epoch": 0.0817326214981562,
      "grad_norm": 0.8491117358207703,
      "learning_rate": 9.964001116360347e-06,
      "loss": 0.7885,
      "step": 1485
    },
    {
      "epoch": 0.08178766030051186,
      "grad_norm": 0.9415153861045837,
      "learning_rate": 9.963949176227677e-06,
      "loss": 0.8165,
      "step": 1486
    },
    {
      "epoch": 0.08184269910286752,
      "grad_norm": 0.8462526202201843,
      "learning_rate": 9.963897198787294e-06,
      "loss": 0.8498,
      "step": 1487
    },
    {
      "epoch": 0.08189773790522319,
      "grad_norm": 0.8591959476470947,
      "learning_rate": 9.963845184039586e-06,
      "loss": 0.8906,
      "step": 1488
    },
    {
      "epoch": 0.08195277670757885,
      "grad_norm": 0.840761661529541,
      "learning_rate": 9.963793131984949e-06,
      "loss": 0.7831,
      "step": 1489
    },
    {
      "epoch": 0.08200781550993451,
      "grad_norm": 0.931404173374176,
      "learning_rate": 9.96374104262377e-06,
      "loss": 0.889,
      "step": 1490
    },
    {
      "epoch": 0.08206285431229017,
      "grad_norm": 0.9048783779144287,
      "learning_rate": 9.963688915956443e-06,
      "loss": 0.8321,
      "step": 1491
    },
    {
      "epoch": 0.08211789311464583,
      "grad_norm": 0.9145931601524353,
      "learning_rate": 9.96363675198336e-06,
      "loss": 0.9918,
      "step": 1492
    },
    {
      "epoch": 0.08217293191700148,
      "grad_norm": 0.9256643652915955,
      "learning_rate": 9.963584550704908e-06,
      "loss": 0.8731,
      "step": 1493
    },
    {
      "epoch": 0.08222797071935714,
      "grad_norm": 1.0212007761001587,
      "learning_rate": 9.963532312121486e-06,
      "loss": 0.9077,
      "step": 1494
    },
    {
      "epoch": 0.0822830095217128,
      "grad_norm": 0.9206242561340332,
      "learning_rate": 9.963480036233483e-06,
      "loss": 0.9076,
      "step": 1495
    },
    {
      "epoch": 0.08233804832406846,
      "grad_norm": 0.8846865296363831,
      "learning_rate": 9.963427723041294e-06,
      "loss": 0.6826,
      "step": 1496
    },
    {
      "epoch": 0.08239308712642412,
      "grad_norm": 0.8745351433753967,
      "learning_rate": 9.963375372545309e-06,
      "loss": 0.7935,
      "step": 1497
    },
    {
      "epoch": 0.08244812592877979,
      "grad_norm": 0.9019666314125061,
      "learning_rate": 9.963322984745924e-06,
      "loss": 0.8435,
      "step": 1498
    },
    {
      "epoch": 0.08250316473113545,
      "grad_norm": 0.8586859703063965,
      "learning_rate": 9.963270559643531e-06,
      "loss": 0.8118,
      "step": 1499
    },
    {
      "epoch": 0.08255820353349111,
      "grad_norm": 0.9192817807197571,
      "learning_rate": 9.963218097238528e-06,
      "loss": 0.824,
      "step": 1500
    },
    {
      "epoch": 0.08261324233584677,
      "grad_norm": 0.8972243070602417,
      "learning_rate": 9.963165597531304e-06,
      "loss": 0.8404,
      "step": 1501
    },
    {
      "epoch": 0.08266828113820243,
      "grad_norm": 0.8953961133956909,
      "learning_rate": 9.963113060522256e-06,
      "loss": 0.9031,
      "step": 1502
    },
    {
      "epoch": 0.0827233199405581,
      "grad_norm": 0.9551270604133606,
      "learning_rate": 9.963060486211779e-06,
      "loss": 0.9177,
      "step": 1503
    },
    {
      "epoch": 0.08277835874291375,
      "grad_norm": 0.8524616956710815,
      "learning_rate": 9.963007874600268e-06,
      "loss": 0.8582,
      "step": 1504
    },
    {
      "epoch": 0.08283339754526942,
      "grad_norm": 0.8148764371871948,
      "learning_rate": 9.962955225688118e-06,
      "loss": 0.6859,
      "step": 1505
    },
    {
      "epoch": 0.08288843634762508,
      "grad_norm": 0.9110590219497681,
      "learning_rate": 9.962902539475728e-06,
      "loss": 0.7189,
      "step": 1506
    },
    {
      "epoch": 0.08294347514998074,
      "grad_norm": 0.8700116872787476,
      "learning_rate": 9.962849815963487e-06,
      "loss": 0.9462,
      "step": 1507
    },
    {
      "epoch": 0.0829985139523364,
      "grad_norm": 0.877109706401825,
      "learning_rate": 9.962797055151797e-06,
      "loss": 0.8138,
      "step": 1508
    },
    {
      "epoch": 0.08305355275469206,
      "grad_norm": 0.7818365097045898,
      "learning_rate": 9.962744257041053e-06,
      "loss": 0.8474,
      "step": 1509
    },
    {
      "epoch": 0.08310859155704772,
      "grad_norm": 0.88360196352005,
      "learning_rate": 9.96269142163165e-06,
      "loss": 0.8724,
      "step": 1510
    },
    {
      "epoch": 0.08316363035940338,
      "grad_norm": 0.8982682228088379,
      "learning_rate": 9.962638548923988e-06,
      "loss": 0.9687,
      "step": 1511
    },
    {
      "epoch": 0.08321866916175905,
      "grad_norm": 0.7362002730369568,
      "learning_rate": 9.962585638918462e-06,
      "loss": 0.7666,
      "step": 1512
    },
    {
      "epoch": 0.08327370796411471,
      "grad_norm": 1.0993375778198242,
      "learning_rate": 9.962532691615472e-06,
      "loss": 0.8869,
      "step": 1513
    },
    {
      "epoch": 0.08332874676647037,
      "grad_norm": 0.8684842586517334,
      "learning_rate": 9.962479707015415e-06,
      "loss": 0.872,
      "step": 1514
    },
    {
      "epoch": 0.08338378556882602,
      "grad_norm": 1.0598478317260742,
      "learning_rate": 9.962426685118689e-06,
      "loss": 0.9102,
      "step": 1515
    },
    {
      "epoch": 0.08343882437118168,
      "grad_norm": 0.8492125272750854,
      "learning_rate": 9.96237362592569e-06,
      "loss": 0.7554,
      "step": 1516
    },
    {
      "epoch": 0.08349386317353734,
      "grad_norm": 0.8489052653312683,
      "learning_rate": 9.962320529436821e-06,
      "loss": 0.9139,
      "step": 1517
    },
    {
      "epoch": 0.083548901975893,
      "grad_norm": 0.8650774359703064,
      "learning_rate": 9.962267395652479e-06,
      "loss": 0.8717,
      "step": 1518
    },
    {
      "epoch": 0.08360394077824866,
      "grad_norm": 0.8393206596374512,
      "learning_rate": 9.962214224573064e-06,
      "loss": 0.8256,
      "step": 1519
    },
    {
      "epoch": 0.08365897958060432,
      "grad_norm": 0.8304896354675293,
      "learning_rate": 9.962161016198974e-06,
      "loss": 0.8232,
      "step": 1520
    },
    {
      "epoch": 0.08371401838295998,
      "grad_norm": 0.8718386292457581,
      "learning_rate": 9.962107770530612e-06,
      "loss": 0.8206,
      "step": 1521
    },
    {
      "epoch": 0.08376905718531565,
      "grad_norm": 0.9109341502189636,
      "learning_rate": 9.962054487568373e-06,
      "loss": 0.9576,
      "step": 1522
    },
    {
      "epoch": 0.08382409598767131,
      "grad_norm": 0.9543303847312927,
      "learning_rate": 9.962001167312663e-06,
      "loss": 0.8816,
      "step": 1523
    },
    {
      "epoch": 0.08387913479002697,
      "grad_norm": 0.9992844462394714,
      "learning_rate": 9.961947809763881e-06,
      "loss": 0.8682,
      "step": 1524
    },
    {
      "epoch": 0.08393417359238263,
      "grad_norm": 0.8092770576477051,
      "learning_rate": 9.961894414922425e-06,
      "loss": 0.6352,
      "step": 1525
    },
    {
      "epoch": 0.08398921239473829,
      "grad_norm": 0.9888653755187988,
      "learning_rate": 9.961840982788703e-06,
      "loss": 0.8721,
      "step": 1526
    },
    {
      "epoch": 0.08404425119709395,
      "grad_norm": 1.0092703104019165,
      "learning_rate": 9.961787513363108e-06,
      "loss": 0.7776,
      "step": 1527
    },
    {
      "epoch": 0.08409928999944961,
      "grad_norm": 0.8654646277427673,
      "learning_rate": 9.961734006646049e-06,
      "loss": 0.8835,
      "step": 1528
    },
    {
      "epoch": 0.08415432880180528,
      "grad_norm": 0.7630153298377991,
      "learning_rate": 9.961680462637924e-06,
      "loss": 0.7501,
      "step": 1529
    },
    {
      "epoch": 0.08420936760416094,
      "grad_norm": 1.1883158683776855,
      "learning_rate": 9.961626881339138e-06,
      "loss": 0.9476,
      "step": 1530
    },
    {
      "epoch": 0.0842644064065166,
      "grad_norm": 0.8710927963256836,
      "learning_rate": 9.96157326275009e-06,
      "loss": 0.749,
      "step": 1531
    },
    {
      "epoch": 0.08431944520887226,
      "grad_norm": 0.9500633478164673,
      "learning_rate": 9.961519606871188e-06,
      "loss": 0.8994,
      "step": 1532
    },
    {
      "epoch": 0.08437448401122792,
      "grad_norm": 0.873257577419281,
      "learning_rate": 9.961465913702833e-06,
      "loss": 0.816,
      "step": 1533
    },
    {
      "epoch": 0.08442952281358358,
      "grad_norm": 0.8007022142410278,
      "learning_rate": 9.961412183245426e-06,
      "loss": 0.787,
      "step": 1534
    },
    {
      "epoch": 0.08448456161593924,
      "grad_norm": 0.8998435139656067,
      "learning_rate": 9.961358415499374e-06,
      "loss": 0.8741,
      "step": 1535
    },
    {
      "epoch": 0.08453960041829489,
      "grad_norm": 0.9152502417564392,
      "learning_rate": 9.961304610465081e-06,
      "loss": 0.9749,
      "step": 1536
    },
    {
      "epoch": 0.08459463922065055,
      "grad_norm": 0.8961958289146423,
      "learning_rate": 9.961250768142949e-06,
      "loss": 0.8683,
      "step": 1537
    },
    {
      "epoch": 0.08464967802300621,
      "grad_norm": 0.8683995008468628,
      "learning_rate": 9.961196888533387e-06,
      "loss": 0.8347,
      "step": 1538
    },
    {
      "epoch": 0.08470471682536188,
      "grad_norm": 0.835221529006958,
      "learning_rate": 9.961142971636795e-06,
      "loss": 0.8936,
      "step": 1539
    },
    {
      "epoch": 0.08475975562771754,
      "grad_norm": 0.8666725158691406,
      "learning_rate": 9.96108901745358e-06,
      "loss": 0.7344,
      "step": 1540
    },
    {
      "epoch": 0.0848147944300732,
      "grad_norm": 0.9509082436561584,
      "learning_rate": 9.96103502598415e-06,
      "loss": 0.8965,
      "step": 1541
    },
    {
      "epoch": 0.08486983323242886,
      "grad_norm": 0.8134233951568604,
      "learning_rate": 9.960980997228908e-06,
      "loss": 0.797,
      "step": 1542
    },
    {
      "epoch": 0.08492487203478452,
      "grad_norm": 1.0432242155075073,
      "learning_rate": 9.96092693118826e-06,
      "loss": 0.8754,
      "step": 1543
    },
    {
      "epoch": 0.08497991083714018,
      "grad_norm": 0.9560218453407288,
      "learning_rate": 9.960872827862613e-06,
      "loss": 0.9238,
      "step": 1544
    },
    {
      "epoch": 0.08503494963949584,
      "grad_norm": 0.8471649885177612,
      "learning_rate": 9.960818687252374e-06,
      "loss": 0.8622,
      "step": 1545
    },
    {
      "epoch": 0.0850899884418515,
      "grad_norm": 1.2584747076034546,
      "learning_rate": 9.960764509357951e-06,
      "loss": 0.8007,
      "step": 1546
    },
    {
      "epoch": 0.08514502724420717,
      "grad_norm": 0.8730618953704834,
      "learning_rate": 9.960710294179748e-06,
      "loss": 0.7412,
      "step": 1547
    },
    {
      "epoch": 0.08520006604656283,
      "grad_norm": 0.8361592292785645,
      "learning_rate": 9.960656041718176e-06,
      "loss": 0.7018,
      "step": 1548
    },
    {
      "epoch": 0.08525510484891849,
      "grad_norm": 0.8351722359657288,
      "learning_rate": 9.96060175197364e-06,
      "loss": 0.843,
      "step": 1549
    },
    {
      "epoch": 0.08531014365127415,
      "grad_norm": 0.8665090203285217,
      "learning_rate": 9.960547424946549e-06,
      "loss": 0.8235,
      "step": 1550
    },
    {
      "epoch": 0.08536518245362981,
      "grad_norm": 0.9254478812217712,
      "learning_rate": 9.960493060637313e-06,
      "loss": 0.8122,
      "step": 1551
    },
    {
      "epoch": 0.08542022125598547,
      "grad_norm": 0.8712261319160461,
      "learning_rate": 9.960438659046337e-06,
      "loss": 0.823,
      "step": 1552
    },
    {
      "epoch": 0.08547526005834113,
      "grad_norm": 0.9027207493782043,
      "learning_rate": 9.960384220174033e-06,
      "loss": 0.7964,
      "step": 1553
    },
    {
      "epoch": 0.0855302988606968,
      "grad_norm": 0.854626476764679,
      "learning_rate": 9.960329744020808e-06,
      "loss": 0.755,
      "step": 1554
    },
    {
      "epoch": 0.08558533766305246,
      "grad_norm": 0.9398048520088196,
      "learning_rate": 9.960275230587073e-06,
      "loss": 0.8607,
      "step": 1555
    },
    {
      "epoch": 0.08564037646540812,
      "grad_norm": 1.008002758026123,
      "learning_rate": 9.960220679873238e-06,
      "loss": 0.9711,
      "step": 1556
    },
    {
      "epoch": 0.08569541526776378,
      "grad_norm": 0.8999453783035278,
      "learning_rate": 9.96016609187971e-06,
      "loss": 0.8233,
      "step": 1557
    },
    {
      "epoch": 0.08575045407011943,
      "grad_norm": 0.8912106156349182,
      "learning_rate": 9.960111466606903e-06,
      "loss": 0.8271,
      "step": 1558
    },
    {
      "epoch": 0.08580549287247509,
      "grad_norm": 0.9269998073577881,
      "learning_rate": 9.960056804055227e-06,
      "loss": 0.7959,
      "step": 1559
    },
    {
      "epoch": 0.08586053167483075,
      "grad_norm": 1.083815336227417,
      "learning_rate": 9.96000210422509e-06,
      "loss": 0.9436,
      "step": 1560
    },
    {
      "epoch": 0.08591557047718641,
      "grad_norm": 0.8906280398368835,
      "learning_rate": 9.959947367116905e-06,
      "loss": 0.9317,
      "step": 1561
    },
    {
      "epoch": 0.08597060927954207,
      "grad_norm": 1.211696743965149,
      "learning_rate": 9.959892592731084e-06,
      "loss": 0.9076,
      "step": 1562
    },
    {
      "epoch": 0.08602564808189773,
      "grad_norm": 0.9050534963607788,
      "learning_rate": 9.959837781068038e-06,
      "loss": 0.8728,
      "step": 1563
    },
    {
      "epoch": 0.0860806868842534,
      "grad_norm": 0.9384796619415283,
      "learning_rate": 9.959782932128178e-06,
      "loss": 0.9277,
      "step": 1564
    },
    {
      "epoch": 0.08613572568660906,
      "grad_norm": 0.795844316482544,
      "learning_rate": 9.959728045911915e-06,
      "loss": 0.7666,
      "step": 1565
    },
    {
      "epoch": 0.08619076448896472,
      "grad_norm": 0.925956666469574,
      "learning_rate": 9.959673122419668e-06,
      "loss": 0.815,
      "step": 1566
    },
    {
      "epoch": 0.08624580329132038,
      "grad_norm": 0.898047924041748,
      "learning_rate": 9.959618161651843e-06,
      "loss": 0.8131,
      "step": 1567
    },
    {
      "epoch": 0.08630084209367604,
      "grad_norm": 0.8656220436096191,
      "learning_rate": 9.959563163608856e-06,
      "loss": 0.9336,
      "step": 1568
    },
    {
      "epoch": 0.0863558808960317,
      "grad_norm": 0.9184645414352417,
      "learning_rate": 9.95950812829112e-06,
      "loss": 0.9557,
      "step": 1569
    },
    {
      "epoch": 0.08641091969838736,
      "grad_norm": 0.8607667684555054,
      "learning_rate": 9.959453055699048e-06,
      "loss": 0.8272,
      "step": 1570
    },
    {
      "epoch": 0.08646595850074303,
      "grad_norm": 0.9561272263526917,
      "learning_rate": 9.959397945833056e-06,
      "loss": 0.8876,
      "step": 1571
    },
    {
      "epoch": 0.08652099730309869,
      "grad_norm": 0.8562412261962891,
      "learning_rate": 9.959342798693556e-06,
      "loss": 0.8404,
      "step": 1572
    },
    {
      "epoch": 0.08657603610545435,
      "grad_norm": 0.8924610614776611,
      "learning_rate": 9.95928761428096e-06,
      "loss": 0.8779,
      "step": 1573
    },
    {
      "epoch": 0.08663107490781001,
      "grad_norm": 0.8343208432197571,
      "learning_rate": 9.95923239259569e-06,
      "loss": 0.8992,
      "step": 1574
    },
    {
      "epoch": 0.08668611371016567,
      "grad_norm": 0.8835015296936035,
      "learning_rate": 9.959177133638155e-06,
      "loss": 1.0026,
      "step": 1575
    },
    {
      "epoch": 0.08674115251252133,
      "grad_norm": 0.9540221095085144,
      "learning_rate": 9.959121837408771e-06,
      "loss": 0.8507,
      "step": 1576
    },
    {
      "epoch": 0.086796191314877,
      "grad_norm": 1.087817668914795,
      "learning_rate": 9.959066503907957e-06,
      "loss": 0.8607,
      "step": 1577
    },
    {
      "epoch": 0.08685123011723266,
      "grad_norm": 0.8072447180747986,
      "learning_rate": 9.959011133136124e-06,
      "loss": 0.882,
      "step": 1578
    },
    {
      "epoch": 0.0869062689195883,
      "grad_norm": 0.7646876573562622,
      "learning_rate": 9.958955725093694e-06,
      "loss": 0.7653,
      "step": 1579
    },
    {
      "epoch": 0.08696130772194396,
      "grad_norm": 0.8979537487030029,
      "learning_rate": 9.958900279781078e-06,
      "loss": 0.9033,
      "step": 1580
    },
    {
      "epoch": 0.08701634652429963,
      "grad_norm": 0.9445611834526062,
      "learning_rate": 9.958844797198696e-06,
      "loss": 0.9423,
      "step": 1581
    },
    {
      "epoch": 0.08707138532665529,
      "grad_norm": 0.8836671113967896,
      "learning_rate": 9.958789277346963e-06,
      "loss": 0.839,
      "step": 1582
    },
    {
      "epoch": 0.08712642412901095,
      "grad_norm": 1.0333542823791504,
      "learning_rate": 9.958733720226296e-06,
      "loss": 0.9211,
      "step": 1583
    },
    {
      "epoch": 0.08718146293136661,
      "grad_norm": 0.8084085583686829,
      "learning_rate": 9.958678125837117e-06,
      "loss": 0.8387,
      "step": 1584
    },
    {
      "epoch": 0.08723650173372227,
      "grad_norm": 0.7769419550895691,
      "learning_rate": 9.958622494179838e-06,
      "loss": 0.8307,
      "step": 1585
    },
    {
      "epoch": 0.08729154053607793,
      "grad_norm": 0.8387578129768372,
      "learning_rate": 9.95856682525488e-06,
      "loss": 0.8001,
      "step": 1586
    },
    {
      "epoch": 0.0873465793384336,
      "grad_norm": 0.8989812731742859,
      "learning_rate": 9.95851111906266e-06,
      "loss": 0.7752,
      "step": 1587
    },
    {
      "epoch": 0.08740161814078926,
      "grad_norm": 0.8558734655380249,
      "learning_rate": 9.958455375603602e-06,
      "loss": 0.8149,
      "step": 1588
    },
    {
      "epoch": 0.08745665694314492,
      "grad_norm": 0.8890896439552307,
      "learning_rate": 9.958399594878117e-06,
      "loss": 0.8232,
      "step": 1589
    },
    {
      "epoch": 0.08751169574550058,
      "grad_norm": 0.875912070274353,
      "learning_rate": 9.95834377688663e-06,
      "loss": 0.7458,
      "step": 1590
    },
    {
      "epoch": 0.08756673454785624,
      "grad_norm": 0.808355987071991,
      "learning_rate": 9.958287921629557e-06,
      "loss": 0.8296,
      "step": 1591
    },
    {
      "epoch": 0.0876217733502119,
      "grad_norm": 0.9637090563774109,
      "learning_rate": 9.958232029107318e-06,
      "loss": 0.8769,
      "step": 1592
    },
    {
      "epoch": 0.08767681215256756,
      "grad_norm": 0.8980715870857239,
      "learning_rate": 9.958176099320336e-06,
      "loss": 0.7995,
      "step": 1593
    },
    {
      "epoch": 0.08773185095492322,
      "grad_norm": 0.9369860291481018,
      "learning_rate": 9.95812013226903e-06,
      "loss": 0.8545,
      "step": 1594
    },
    {
      "epoch": 0.08778688975727889,
      "grad_norm": 0.8589349389076233,
      "learning_rate": 9.958064127953819e-06,
      "loss": 0.8693,
      "step": 1595
    },
    {
      "epoch": 0.08784192855963455,
      "grad_norm": 0.929207444190979,
      "learning_rate": 9.958008086375126e-06,
      "loss": 0.811,
      "step": 1596
    },
    {
      "epoch": 0.08789696736199021,
      "grad_norm": 1.0825661420822144,
      "learning_rate": 9.957952007533371e-06,
      "loss": 1.0145,
      "step": 1597
    },
    {
      "epoch": 0.08795200616434587,
      "grad_norm": 0.8818382024765015,
      "learning_rate": 9.957895891428978e-06,
      "loss": 0.7771,
      "step": 1598
    },
    {
      "epoch": 0.08800704496670153,
      "grad_norm": 0.882780909538269,
      "learning_rate": 9.957839738062363e-06,
      "loss": 0.8857,
      "step": 1599
    },
    {
      "epoch": 0.08806208376905718,
      "grad_norm": 0.9136924743652344,
      "learning_rate": 9.957783547433955e-06,
      "loss": 0.8873,
      "step": 1600
    },
    {
      "epoch": 0.08811712257141284,
      "grad_norm": 0.8896858096122742,
      "learning_rate": 9.95772731954417e-06,
      "loss": 0.8463,
      "step": 1601
    },
    {
      "epoch": 0.0881721613737685,
      "grad_norm": 0.8671631813049316,
      "learning_rate": 9.957671054393436e-06,
      "loss": 0.8333,
      "step": 1602
    },
    {
      "epoch": 0.08822720017612416,
      "grad_norm": 0.9442896246910095,
      "learning_rate": 9.957614751982172e-06,
      "loss": 0.9676,
      "step": 1603
    },
    {
      "epoch": 0.08828223897847982,
      "grad_norm": 0.8249240517616272,
      "learning_rate": 9.957558412310803e-06,
      "loss": 0.7746,
      "step": 1604
    },
    {
      "epoch": 0.08833727778083549,
      "grad_norm": 0.8125253319740295,
      "learning_rate": 9.957502035379751e-06,
      "loss": 0.7816,
      "step": 1605
    },
    {
      "epoch": 0.08839231658319115,
      "grad_norm": 0.8467233777046204,
      "learning_rate": 9.957445621189442e-06,
      "loss": 0.7697,
      "step": 1606
    },
    {
      "epoch": 0.08844735538554681,
      "grad_norm": 0.8322175145149231,
      "learning_rate": 9.957389169740299e-06,
      "loss": 0.7561,
      "step": 1607
    },
    {
      "epoch": 0.08850239418790247,
      "grad_norm": 0.869163453578949,
      "learning_rate": 9.957332681032746e-06,
      "loss": 0.8984,
      "step": 1608
    },
    {
      "epoch": 0.08855743299025813,
      "grad_norm": 0.8755944967269897,
      "learning_rate": 9.957276155067206e-06,
      "loss": 0.8016,
      "step": 1609
    },
    {
      "epoch": 0.08861247179261379,
      "grad_norm": 0.8152669668197632,
      "learning_rate": 9.957219591844108e-06,
      "loss": 0.7763,
      "step": 1610
    },
    {
      "epoch": 0.08866751059496945,
      "grad_norm": 0.979752779006958,
      "learning_rate": 9.957162991363871e-06,
      "loss": 0.7755,
      "step": 1611
    },
    {
      "epoch": 0.08872254939732512,
      "grad_norm": 1.0481054782867432,
      "learning_rate": 9.957106353626926e-06,
      "loss": 0.9395,
      "step": 1612
    },
    {
      "epoch": 0.08877758819968078,
      "grad_norm": 0.7773686647415161,
      "learning_rate": 9.957049678633697e-06,
      "loss": 0.7713,
      "step": 1613
    },
    {
      "epoch": 0.08883262700203644,
      "grad_norm": 0.838979959487915,
      "learning_rate": 9.956992966384609e-06,
      "loss": 0.7909,
      "step": 1614
    },
    {
      "epoch": 0.0888876658043921,
      "grad_norm": 0.9527049660682678,
      "learning_rate": 9.956936216880089e-06,
      "loss": 0.7944,
      "step": 1615
    },
    {
      "epoch": 0.08894270460674776,
      "grad_norm": 0.7967305183410645,
      "learning_rate": 9.956879430120561e-06,
      "loss": 0.7703,
      "step": 1616
    },
    {
      "epoch": 0.08899774340910342,
      "grad_norm": 0.9065802097320557,
      "learning_rate": 9.956822606106456e-06,
      "loss": 0.8188,
      "step": 1617
    },
    {
      "epoch": 0.08905278221145908,
      "grad_norm": 0.7329322099685669,
      "learning_rate": 9.956765744838199e-06,
      "loss": 0.8043,
      "step": 1618
    },
    {
      "epoch": 0.08910782101381474,
      "grad_norm": 0.864973247051239,
      "learning_rate": 9.95670884631622e-06,
      "loss": 0.8334,
      "step": 1619
    },
    {
      "epoch": 0.0891628598161704,
      "grad_norm": 1.073559045791626,
      "learning_rate": 9.95665191054094e-06,
      "loss": 0.7755,
      "step": 1620
    },
    {
      "epoch": 0.08921789861852607,
      "grad_norm": 0.7347918748855591,
      "learning_rate": 9.956594937512794e-06,
      "loss": 0.7556,
      "step": 1621
    },
    {
      "epoch": 0.08927293742088172,
      "grad_norm": 0.8756610751152039,
      "learning_rate": 9.956537927232205e-06,
      "loss": 0.8129,
      "step": 1622
    },
    {
      "epoch": 0.08932797622323738,
      "grad_norm": 0.9132435917854309,
      "learning_rate": 9.956480879699605e-06,
      "loss": 0.8221,
      "step": 1623
    },
    {
      "epoch": 0.08938301502559304,
      "grad_norm": 1.1978256702423096,
      "learning_rate": 9.956423794915421e-06,
      "loss": 0.8651,
      "step": 1624
    },
    {
      "epoch": 0.0894380538279487,
      "grad_norm": 0.8493894934654236,
      "learning_rate": 9.956366672880082e-06,
      "loss": 0.7267,
      "step": 1625
    },
    {
      "epoch": 0.08949309263030436,
      "grad_norm": 1.0971951484680176,
      "learning_rate": 9.956309513594019e-06,
      "loss": 0.7852,
      "step": 1626
    },
    {
      "epoch": 0.08954813143266002,
      "grad_norm": 0.899974524974823,
      "learning_rate": 9.95625231705766e-06,
      "loss": 0.8868,
      "step": 1627
    },
    {
      "epoch": 0.08960317023501568,
      "grad_norm": 0.8995566368103027,
      "learning_rate": 9.956195083271436e-06,
      "loss": 0.87,
      "step": 1628
    },
    {
      "epoch": 0.08965820903737134,
      "grad_norm": 0.8924218416213989,
      "learning_rate": 9.956137812235776e-06,
      "loss": 0.7885,
      "step": 1629
    },
    {
      "epoch": 0.089713247839727,
      "grad_norm": 0.9232820868492126,
      "learning_rate": 9.956080503951108e-06,
      "loss": 0.7923,
      "step": 1630
    },
    {
      "epoch": 0.08976828664208267,
      "grad_norm": 0.9298982620239258,
      "learning_rate": 9.956023158417869e-06,
      "loss": 0.8625,
      "step": 1631
    },
    {
      "epoch": 0.08982332544443833,
      "grad_norm": 0.86515212059021,
      "learning_rate": 9.955965775636488e-06,
      "loss": 0.7683,
      "step": 1632
    },
    {
      "epoch": 0.08987836424679399,
      "grad_norm": 0.8016952276229858,
      "learning_rate": 9.955908355607392e-06,
      "loss": 0.8122,
      "step": 1633
    },
    {
      "epoch": 0.08993340304914965,
      "grad_norm": 0.842703640460968,
      "learning_rate": 9.955850898331015e-06,
      "loss": 0.8487,
      "step": 1634
    },
    {
      "epoch": 0.08998844185150531,
      "grad_norm": 0.8239083886146545,
      "learning_rate": 9.95579340380779e-06,
      "loss": 0.8701,
      "step": 1635
    },
    {
      "epoch": 0.09004348065386097,
      "grad_norm": 0.8575418591499329,
      "learning_rate": 9.955735872038149e-06,
      "loss": 0.8263,
      "step": 1636
    },
    {
      "epoch": 0.09009851945621664,
      "grad_norm": 0.8884586095809937,
      "learning_rate": 9.955678303022522e-06,
      "loss": 0.8112,
      "step": 1637
    },
    {
      "epoch": 0.0901535582585723,
      "grad_norm": 0.9024681448936462,
      "learning_rate": 9.955620696761345e-06,
      "loss": 0.9174,
      "step": 1638
    },
    {
      "epoch": 0.09020859706092796,
      "grad_norm": 0.8151944875717163,
      "learning_rate": 9.955563053255049e-06,
      "loss": 0.806,
      "step": 1639
    },
    {
      "epoch": 0.09026363586328362,
      "grad_norm": 0.8292184472084045,
      "learning_rate": 9.955505372504069e-06,
      "loss": 0.8007,
      "step": 1640
    },
    {
      "epoch": 0.09031867466563928,
      "grad_norm": 0.9445936679840088,
      "learning_rate": 9.955447654508835e-06,
      "loss": 0.7089,
      "step": 1641
    },
    {
      "epoch": 0.09037371346799494,
      "grad_norm": 0.781579315662384,
      "learning_rate": 9.955389899269782e-06,
      "loss": 0.8224,
      "step": 1642
    },
    {
      "epoch": 0.09042875227035059,
      "grad_norm": 0.9028880596160889,
      "learning_rate": 9.955332106787348e-06,
      "loss": 0.7976,
      "step": 1643
    },
    {
      "epoch": 0.09048379107270625,
      "grad_norm": 1.0336887836456299,
      "learning_rate": 9.955274277061963e-06,
      "loss": 0.9296,
      "step": 1644
    },
    {
      "epoch": 0.09053882987506191,
      "grad_norm": 0.8894197940826416,
      "learning_rate": 9.955216410094062e-06,
      "loss": 0.815,
      "step": 1645
    },
    {
      "epoch": 0.09059386867741757,
      "grad_norm": 0.8955528140068054,
      "learning_rate": 9.955158505884083e-06,
      "loss": 0.8707,
      "step": 1646
    },
    {
      "epoch": 0.09064890747977324,
      "grad_norm": 0.8012683987617493,
      "learning_rate": 9.955100564432458e-06,
      "loss": 0.7467,
      "step": 1647
    },
    {
      "epoch": 0.0907039462821289,
      "grad_norm": 0.917969286441803,
      "learning_rate": 9.955042585739623e-06,
      "loss": 0.8835,
      "step": 1648
    },
    {
      "epoch": 0.09075898508448456,
      "grad_norm": 0.8066666722297668,
      "learning_rate": 9.954984569806014e-06,
      "loss": 0.8338,
      "step": 1649
    },
    {
      "epoch": 0.09081402388684022,
      "grad_norm": 1.1324070692062378,
      "learning_rate": 9.954926516632069e-06,
      "loss": 0.8245,
      "step": 1650
    },
    {
      "epoch": 0.09086906268919588,
      "grad_norm": 0.8196014761924744,
      "learning_rate": 9.954868426218222e-06,
      "loss": 0.7897,
      "step": 1651
    },
    {
      "epoch": 0.09092410149155154,
      "grad_norm": 0.8713478446006775,
      "learning_rate": 9.95481029856491e-06,
      "loss": 0.891,
      "step": 1652
    },
    {
      "epoch": 0.0909791402939072,
      "grad_norm": 0.8489059805870056,
      "learning_rate": 9.954752133672569e-06,
      "loss": 0.7748,
      "step": 1653
    },
    {
      "epoch": 0.09103417909626287,
      "grad_norm": 0.8914602994918823,
      "learning_rate": 9.954693931541638e-06,
      "loss": 0.8657,
      "step": 1654
    },
    {
      "epoch": 0.09108921789861853,
      "grad_norm": 0.9031614661216736,
      "learning_rate": 9.954635692172555e-06,
      "loss": 0.7409,
      "step": 1655
    },
    {
      "epoch": 0.09114425670097419,
      "grad_norm": 0.8680000305175781,
      "learning_rate": 9.954577415565756e-06,
      "loss": 0.8535,
      "step": 1656
    },
    {
      "epoch": 0.09119929550332985,
      "grad_norm": 0.830596923828125,
      "learning_rate": 9.954519101721679e-06,
      "loss": 0.8601,
      "step": 1657
    },
    {
      "epoch": 0.09125433430568551,
      "grad_norm": 0.9041332602500916,
      "learning_rate": 9.954460750640762e-06,
      "loss": 0.9104,
      "step": 1658
    },
    {
      "epoch": 0.09130937310804117,
      "grad_norm": 0.7786296606063843,
      "learning_rate": 9.954402362323445e-06,
      "loss": 0.7671,
      "step": 1659
    },
    {
      "epoch": 0.09136441191039683,
      "grad_norm": 1.0363564491271973,
      "learning_rate": 9.954343936770165e-06,
      "loss": 0.9339,
      "step": 1660
    },
    {
      "epoch": 0.0914194507127525,
      "grad_norm": 0.8049986958503723,
      "learning_rate": 9.954285473981363e-06,
      "loss": 0.8125,
      "step": 1661
    },
    {
      "epoch": 0.09147448951510816,
      "grad_norm": 0.7842011451721191,
      "learning_rate": 9.954226973957477e-06,
      "loss": 0.7153,
      "step": 1662
    },
    {
      "epoch": 0.09152952831746382,
      "grad_norm": 0.8929729461669922,
      "learning_rate": 9.954168436698948e-06,
      "loss": 0.9563,
      "step": 1663
    },
    {
      "epoch": 0.09158456711981948,
      "grad_norm": 0.8850226402282715,
      "learning_rate": 9.954109862206216e-06,
      "loss": 0.8257,
      "step": 1664
    },
    {
      "epoch": 0.09163960592217513,
      "grad_norm": 0.8673348426818848,
      "learning_rate": 9.954051250479719e-06,
      "loss": 0.9489,
      "step": 1665
    },
    {
      "epoch": 0.09169464472453079,
      "grad_norm": 0.8726119995117188,
      "learning_rate": 9.9539926015199e-06,
      "loss": 0.8222,
      "step": 1666
    },
    {
      "epoch": 0.09174968352688645,
      "grad_norm": 0.7609312534332275,
      "learning_rate": 9.953933915327196e-06,
      "loss": 0.7749,
      "step": 1667
    },
    {
      "epoch": 0.09180472232924211,
      "grad_norm": 0.857404887676239,
      "learning_rate": 9.953875191902055e-06,
      "loss": 0.8496,
      "step": 1668
    },
    {
      "epoch": 0.09185976113159777,
      "grad_norm": 0.7835526466369629,
      "learning_rate": 9.953816431244909e-06,
      "loss": 0.7258,
      "step": 1669
    },
    {
      "epoch": 0.09191479993395343,
      "grad_norm": 0.944984495639801,
      "learning_rate": 9.95375763335621e-06,
      "loss": 0.902,
      "step": 1670
    },
    {
      "epoch": 0.0919698387363091,
      "grad_norm": 0.9038936495780945,
      "learning_rate": 9.953698798236391e-06,
      "loss": 0.7559,
      "step": 1671
    },
    {
      "epoch": 0.09202487753866476,
      "grad_norm": 0.8450848460197449,
      "learning_rate": 9.953639925885898e-06,
      "loss": 0.8338,
      "step": 1672
    },
    {
      "epoch": 0.09207991634102042,
      "grad_norm": 0.827419102191925,
      "learning_rate": 9.953581016305175e-06,
      "loss": 0.8167,
      "step": 1673
    },
    {
      "epoch": 0.09213495514337608,
      "grad_norm": 0.8517075777053833,
      "learning_rate": 9.953522069494663e-06,
      "loss": 0.8681,
      "step": 1674
    },
    {
      "epoch": 0.09218999394573174,
      "grad_norm": 0.9504323601722717,
      "learning_rate": 9.953463085454804e-06,
      "loss": 0.8688,
      "step": 1675
    },
    {
      "epoch": 0.0922450327480874,
      "grad_norm": 0.8905719518661499,
      "learning_rate": 9.953404064186044e-06,
      "loss": 0.8818,
      "step": 1676
    },
    {
      "epoch": 0.09230007155044306,
      "grad_norm": 0.9223340153694153,
      "learning_rate": 9.953345005688822e-06,
      "loss": 0.8752,
      "step": 1677
    },
    {
      "epoch": 0.09235511035279872,
      "grad_norm": 1.0500547885894775,
      "learning_rate": 9.953285909963588e-06,
      "loss": 0.7816,
      "step": 1678
    },
    {
      "epoch": 0.09241014915515439,
      "grad_norm": 0.8407441973686218,
      "learning_rate": 9.953226777010781e-06,
      "loss": 0.745,
      "step": 1679
    },
    {
      "epoch": 0.09246518795751005,
      "grad_norm": 0.7997288107872009,
      "learning_rate": 9.953167606830847e-06,
      "loss": 0.8171,
      "step": 1680
    },
    {
      "epoch": 0.09252022675986571,
      "grad_norm": 0.9752318859100342,
      "learning_rate": 9.953108399424234e-06,
      "loss": 0.8719,
      "step": 1681
    },
    {
      "epoch": 0.09257526556222137,
      "grad_norm": 0.8524298667907715,
      "learning_rate": 9.953049154791382e-06,
      "loss": 0.8257,
      "step": 1682
    },
    {
      "epoch": 0.09263030436457703,
      "grad_norm": 0.9460529088973999,
      "learning_rate": 9.952989872932739e-06,
      "loss": 0.7278,
      "step": 1683
    },
    {
      "epoch": 0.0926853431669327,
      "grad_norm": 0.8959575891494751,
      "learning_rate": 9.95293055384875e-06,
      "loss": 0.903,
      "step": 1684
    },
    {
      "epoch": 0.09274038196928835,
      "grad_norm": 0.8764386177062988,
      "learning_rate": 9.95287119753986e-06,
      "loss": 0.7958,
      "step": 1685
    },
    {
      "epoch": 0.092795420771644,
      "grad_norm": 0.9611337184906006,
      "learning_rate": 9.952811804006517e-06,
      "loss": 0.8726,
      "step": 1686
    },
    {
      "epoch": 0.09285045957399966,
      "grad_norm": 0.8155574202537537,
      "learning_rate": 9.952752373249165e-06,
      "loss": 0.7882,
      "step": 1687
    },
    {
      "epoch": 0.09290549837635532,
      "grad_norm": 0.8789697289466858,
      "learning_rate": 9.952692905268253e-06,
      "loss": 0.8642,
      "step": 1688
    },
    {
      "epoch": 0.09296053717871099,
      "grad_norm": 0.7910027503967285,
      "learning_rate": 9.952633400064227e-06,
      "loss": 0.7852,
      "step": 1689
    },
    {
      "epoch": 0.09301557598106665,
      "grad_norm": 0.815819501876831,
      "learning_rate": 9.952573857637533e-06,
      "loss": 0.8606,
      "step": 1690
    },
    {
      "epoch": 0.09307061478342231,
      "grad_norm": 0.9840701818466187,
      "learning_rate": 9.95251427798862e-06,
      "loss": 0.9349,
      "step": 1691
    },
    {
      "epoch": 0.09312565358577797,
      "grad_norm": 0.8715788722038269,
      "learning_rate": 9.952454661117936e-06,
      "loss": 0.813,
      "step": 1692
    },
    {
      "epoch": 0.09318069238813363,
      "grad_norm": 0.8287779092788696,
      "learning_rate": 9.952395007025926e-06,
      "loss": 0.8346,
      "step": 1693
    },
    {
      "epoch": 0.0932357311904893,
      "grad_norm": 0.9375059008598328,
      "learning_rate": 9.952335315713044e-06,
      "loss": 0.8868,
      "step": 1694
    },
    {
      "epoch": 0.09329076999284495,
      "grad_norm": 0.9063667058944702,
      "learning_rate": 9.952275587179734e-06,
      "loss": 0.9562,
      "step": 1695
    },
    {
      "epoch": 0.09334580879520062,
      "grad_norm": 0.816643476486206,
      "learning_rate": 9.952215821426447e-06,
      "loss": 0.7456,
      "step": 1696
    },
    {
      "epoch": 0.09340084759755628,
      "grad_norm": 0.9004347324371338,
      "learning_rate": 9.95215601845363e-06,
      "loss": 0.8545,
      "step": 1697
    },
    {
      "epoch": 0.09345588639991194,
      "grad_norm": 0.919195830821991,
      "learning_rate": 9.952096178261736e-06,
      "loss": 0.9347,
      "step": 1698
    },
    {
      "epoch": 0.0935109252022676,
      "grad_norm": 0.8313261866569519,
      "learning_rate": 9.952036300851211e-06,
      "loss": 0.9169,
      "step": 1699
    },
    {
      "epoch": 0.09356596400462326,
      "grad_norm": 0.8674910664558411,
      "learning_rate": 9.951976386222507e-06,
      "loss": 0.7621,
      "step": 1700
    },
    {
      "epoch": 0.09362100280697892,
      "grad_norm": 0.8931052684783936,
      "learning_rate": 9.951916434376074e-06,
      "loss": 0.8702,
      "step": 1701
    },
    {
      "epoch": 0.09367604160933458,
      "grad_norm": 0.8748393058776855,
      "learning_rate": 9.951856445312364e-06,
      "loss": 0.7446,
      "step": 1702
    },
    {
      "epoch": 0.09373108041169025,
      "grad_norm": 1.005459189414978,
      "learning_rate": 9.951796419031825e-06,
      "loss": 0.9843,
      "step": 1703
    },
    {
      "epoch": 0.09378611921404591,
      "grad_norm": 1.0155184268951416,
      "learning_rate": 9.95173635553491e-06,
      "loss": 0.8868,
      "step": 1704
    },
    {
      "epoch": 0.09384115801640157,
      "grad_norm": 2.1387271881103516,
      "learning_rate": 9.951676254822072e-06,
      "loss": 0.8691,
      "step": 1705
    },
    {
      "epoch": 0.09389619681875723,
      "grad_norm": 0.9768403768539429,
      "learning_rate": 9.951616116893757e-06,
      "loss": 0.8409,
      "step": 1706
    },
    {
      "epoch": 0.09395123562111289,
      "grad_norm": 0.7994607090950012,
      "learning_rate": 9.951555941750424e-06,
      "loss": 0.7836,
      "step": 1707
    },
    {
      "epoch": 0.09400627442346854,
      "grad_norm": 0.8460201025009155,
      "learning_rate": 9.95149572939252e-06,
      "loss": 0.8216,
      "step": 1708
    },
    {
      "epoch": 0.0940613132258242,
      "grad_norm": 0.8904135227203369,
      "learning_rate": 9.951435479820499e-06,
      "loss": 0.9053,
      "step": 1709
    },
    {
      "epoch": 0.09411635202817986,
      "grad_norm": 0.9084494113922119,
      "learning_rate": 9.951375193034815e-06,
      "loss": 0.9308,
      "step": 1710
    },
    {
      "epoch": 0.09417139083053552,
      "grad_norm": 1.0826482772827148,
      "learning_rate": 9.951314869035921e-06,
      "loss": 0.8468,
      "step": 1711
    },
    {
      "epoch": 0.09422642963289118,
      "grad_norm": 0.8068915009498596,
      "learning_rate": 9.95125450782427e-06,
      "loss": 0.8253,
      "step": 1712
    },
    {
      "epoch": 0.09428146843524685,
      "grad_norm": 0.8445400595664978,
      "learning_rate": 9.951194109400316e-06,
      "loss": 0.8386,
      "step": 1713
    },
    {
      "epoch": 0.09433650723760251,
      "grad_norm": 0.8180645704269409,
      "learning_rate": 9.951133673764513e-06,
      "loss": 0.7907,
      "step": 1714
    },
    {
      "epoch": 0.09439154603995817,
      "grad_norm": 0.8111036419868469,
      "learning_rate": 9.951073200917311e-06,
      "loss": 0.7918,
      "step": 1715
    },
    {
      "epoch": 0.09444658484231383,
      "grad_norm": 0.862042248249054,
      "learning_rate": 9.951012690859172e-06,
      "loss": 0.783,
      "step": 1716
    },
    {
      "epoch": 0.09450162364466949,
      "grad_norm": 0.8189615607261658,
      "learning_rate": 9.950952143590544e-06,
      "loss": 0.8192,
      "step": 1717
    },
    {
      "epoch": 0.09455666244702515,
      "grad_norm": 0.9714062809944153,
      "learning_rate": 9.950891559111887e-06,
      "loss": 0.774,
      "step": 1718
    },
    {
      "epoch": 0.09461170124938081,
      "grad_norm": 0.9691846370697021,
      "learning_rate": 9.950830937423655e-06,
      "loss": 0.8347,
      "step": 1719
    },
    {
      "epoch": 0.09466674005173648,
      "grad_norm": 0.8488250970840454,
      "learning_rate": 9.950770278526301e-06,
      "loss": 0.8228,
      "step": 1720
    },
    {
      "epoch": 0.09472177885409214,
      "grad_norm": 0.8638359904289246,
      "learning_rate": 9.950709582420282e-06,
      "loss": 0.8973,
      "step": 1721
    },
    {
      "epoch": 0.0947768176564478,
      "grad_norm": 1.0148643255233765,
      "learning_rate": 9.950648849106058e-06,
      "loss": 0.9638,
      "step": 1722
    },
    {
      "epoch": 0.09483185645880346,
      "grad_norm": 0.8870131969451904,
      "learning_rate": 9.95058807858408e-06,
      "loss": 0.8259,
      "step": 1723
    },
    {
      "epoch": 0.09488689526115912,
      "grad_norm": 0.9134769439697266,
      "learning_rate": 9.950527270854807e-06,
      "loss": 0.865,
      "step": 1724
    },
    {
      "epoch": 0.09494193406351478,
      "grad_norm": 0.7221654653549194,
      "learning_rate": 9.950466425918697e-06,
      "loss": 0.7593,
      "step": 1725
    },
    {
      "epoch": 0.09499697286587044,
      "grad_norm": 0.9386674165725708,
      "learning_rate": 9.950405543776207e-06,
      "loss": 0.9508,
      "step": 1726
    },
    {
      "epoch": 0.0950520116682261,
      "grad_norm": 0.7850627899169922,
      "learning_rate": 9.950344624427795e-06,
      "loss": 0.7999,
      "step": 1727
    },
    {
      "epoch": 0.09510705047058177,
      "grad_norm": 0.921198308467865,
      "learning_rate": 9.950283667873916e-06,
      "loss": 0.8249,
      "step": 1728
    },
    {
      "epoch": 0.09516208927293741,
      "grad_norm": 0.9503389000892639,
      "learning_rate": 9.95022267411503e-06,
      "loss": 0.901,
      "step": 1729
    },
    {
      "epoch": 0.09521712807529308,
      "grad_norm": 0.7977343201637268,
      "learning_rate": 9.950161643151597e-06,
      "loss": 0.838,
      "step": 1730
    },
    {
      "epoch": 0.09527216687764874,
      "grad_norm": 0.9056238532066345,
      "learning_rate": 9.950100574984072e-06,
      "loss": 0.9756,
      "step": 1731
    },
    {
      "epoch": 0.0953272056800044,
      "grad_norm": 0.8092935681343079,
      "learning_rate": 9.950039469612918e-06,
      "loss": 0.8812,
      "step": 1732
    },
    {
      "epoch": 0.09538224448236006,
      "grad_norm": 0.823693573474884,
      "learning_rate": 9.949978327038592e-06,
      "loss": 0.7914,
      "step": 1733
    },
    {
      "epoch": 0.09543728328471572,
      "grad_norm": 0.9114876389503479,
      "learning_rate": 9.949917147261554e-06,
      "loss": 0.7944,
      "step": 1734
    },
    {
      "epoch": 0.09549232208707138,
      "grad_norm": 1.0084123611450195,
      "learning_rate": 9.949855930282262e-06,
      "loss": 0.8544,
      "step": 1735
    },
    {
      "epoch": 0.09554736088942704,
      "grad_norm": 0.842462956905365,
      "learning_rate": 9.949794676101181e-06,
      "loss": 0.7056,
      "step": 1736
    },
    {
      "epoch": 0.0956023996917827,
      "grad_norm": 1.00497305393219,
      "learning_rate": 9.949733384718766e-06,
      "loss": 0.8372,
      "step": 1737
    },
    {
      "epoch": 0.09565743849413837,
      "grad_norm": 1.0166410207748413,
      "learning_rate": 9.94967205613548e-06,
      "loss": 0.9316,
      "step": 1738
    },
    {
      "epoch": 0.09571247729649403,
      "grad_norm": 0.8520192503929138,
      "learning_rate": 9.949610690351784e-06,
      "loss": 0.786,
      "step": 1739
    },
    {
      "epoch": 0.09576751609884969,
      "grad_norm": 0.8003227114677429,
      "learning_rate": 9.949549287368139e-06,
      "loss": 0.8003,
      "step": 1740
    },
    {
      "epoch": 0.09582255490120535,
      "grad_norm": 0.8657151460647583,
      "learning_rate": 9.949487847185006e-06,
      "loss": 0.8407,
      "step": 1741
    },
    {
      "epoch": 0.09587759370356101,
      "grad_norm": 1.1119858026504517,
      "learning_rate": 9.949426369802848e-06,
      "loss": 0.8594,
      "step": 1742
    },
    {
      "epoch": 0.09593263250591667,
      "grad_norm": 0.8968474864959717,
      "learning_rate": 9.949364855222126e-06,
      "loss": 0.8254,
      "step": 1743
    },
    {
      "epoch": 0.09598767130827233,
      "grad_norm": 0.8740531206130981,
      "learning_rate": 9.949303303443304e-06,
      "loss": 0.8748,
      "step": 1744
    },
    {
      "epoch": 0.096042710110628,
      "grad_norm": 0.8833459615707397,
      "learning_rate": 9.94924171446684e-06,
      "loss": 0.838,
      "step": 1745
    },
    {
      "epoch": 0.09609774891298366,
      "grad_norm": 0.8783486485481262,
      "learning_rate": 9.949180088293201e-06,
      "loss": 0.7972,
      "step": 1746
    },
    {
      "epoch": 0.09615278771533932,
      "grad_norm": 0.9197877049446106,
      "learning_rate": 9.949118424922852e-06,
      "loss": 0.8669,
      "step": 1747
    },
    {
      "epoch": 0.09620782651769498,
      "grad_norm": 0.9771283864974976,
      "learning_rate": 9.949056724356251e-06,
      "loss": 0.8461,
      "step": 1748
    },
    {
      "epoch": 0.09626286532005064,
      "grad_norm": 0.8325022459030151,
      "learning_rate": 9.948994986593864e-06,
      "loss": 0.8482,
      "step": 1749
    },
    {
      "epoch": 0.0963179041224063,
      "grad_norm": 0.9732363224029541,
      "learning_rate": 9.948933211636158e-06,
      "loss": 0.8825,
      "step": 1750
    },
    {
      "epoch": 0.09637294292476195,
      "grad_norm": 0.8229798078536987,
      "learning_rate": 9.948871399483592e-06,
      "loss": 0.8079,
      "step": 1751
    },
    {
      "epoch": 0.09642798172711761,
      "grad_norm": 0.8861554265022278,
      "learning_rate": 9.948809550136635e-06,
      "loss": 0.8323,
      "step": 1752
    },
    {
      "epoch": 0.09648302052947327,
      "grad_norm": 1.0618904829025269,
      "learning_rate": 9.94874766359575e-06,
      "loss": 0.8519,
      "step": 1753
    },
    {
      "epoch": 0.09653805933182893,
      "grad_norm": 0.8494864702224731,
      "learning_rate": 9.948685739861403e-06,
      "loss": 0.961,
      "step": 1754
    },
    {
      "epoch": 0.0965930981341846,
      "grad_norm": 0.8872213959693909,
      "learning_rate": 9.948623778934058e-06,
      "loss": 0.9367,
      "step": 1755
    },
    {
      "epoch": 0.09664813693654026,
      "grad_norm": 0.8441230058670044,
      "learning_rate": 9.948561780814181e-06,
      "loss": 0.7654,
      "step": 1756
    },
    {
      "epoch": 0.09670317573889592,
      "grad_norm": 0.8072223663330078,
      "learning_rate": 9.948499745502239e-06,
      "loss": 0.7894,
      "step": 1757
    },
    {
      "epoch": 0.09675821454125158,
      "grad_norm": 0.8285261392593384,
      "learning_rate": 9.948437672998696e-06,
      "loss": 0.8351,
      "step": 1758
    },
    {
      "epoch": 0.09681325334360724,
      "grad_norm": 0.9272124767303467,
      "learning_rate": 9.94837556330402e-06,
      "loss": 0.8708,
      "step": 1759
    },
    {
      "epoch": 0.0968682921459629,
      "grad_norm": 0.8689375519752502,
      "learning_rate": 9.94831341641868e-06,
      "loss": 0.8478,
      "step": 1760
    },
    {
      "epoch": 0.09692333094831856,
      "grad_norm": 1.040784239768982,
      "learning_rate": 9.94825123234314e-06,
      "loss": 0.8915,
      "step": 1761
    },
    {
      "epoch": 0.09697836975067423,
      "grad_norm": 0.7819718718528748,
      "learning_rate": 9.948189011077867e-06,
      "loss": 0.7728,
      "step": 1762
    },
    {
      "epoch": 0.09703340855302989,
      "grad_norm": 0.7959379553794861,
      "learning_rate": 9.948126752623331e-06,
      "loss": 0.8248,
      "step": 1763
    },
    {
      "epoch": 0.09708844735538555,
      "grad_norm": 0.8844753503799438,
      "learning_rate": 9.94806445698e-06,
      "loss": 0.7742,
      "step": 1764
    },
    {
      "epoch": 0.09714348615774121,
      "grad_norm": 0.9168505668640137,
      "learning_rate": 9.948002124148339e-06,
      "loss": 0.9145,
      "step": 1765
    },
    {
      "epoch": 0.09719852496009687,
      "grad_norm": 0.7199662923812866,
      "learning_rate": 9.947939754128819e-06,
      "loss": 0.6652,
      "step": 1766
    },
    {
      "epoch": 0.09725356376245253,
      "grad_norm": 0.866470992565155,
      "learning_rate": 9.947877346921909e-06,
      "loss": 0.8293,
      "step": 1767
    },
    {
      "epoch": 0.0973086025648082,
      "grad_norm": 0.9124754667282104,
      "learning_rate": 9.947814902528078e-06,
      "loss": 0.8599,
      "step": 1768
    },
    {
      "epoch": 0.09736364136716386,
      "grad_norm": 0.9169870615005493,
      "learning_rate": 9.947752420947792e-06,
      "loss": 0.8382,
      "step": 1769
    },
    {
      "epoch": 0.09741868016951952,
      "grad_norm": 1.0147640705108643,
      "learning_rate": 9.947689902181526e-06,
      "loss": 0.8425,
      "step": 1770
    },
    {
      "epoch": 0.09747371897187518,
      "grad_norm": 0.778575599193573,
      "learning_rate": 9.947627346229745e-06,
      "loss": 0.6979,
      "step": 1771
    },
    {
      "epoch": 0.09752875777423083,
      "grad_norm": 0.815101146697998,
      "learning_rate": 9.947564753092922e-06,
      "loss": 0.8617,
      "step": 1772
    },
    {
      "epoch": 0.09758379657658649,
      "grad_norm": 0.9556358456611633,
      "learning_rate": 9.947502122771527e-06,
      "loss": 0.9009,
      "step": 1773
    },
    {
      "epoch": 0.09763883537894215,
      "grad_norm": 0.8603761196136475,
      "learning_rate": 9.94743945526603e-06,
      "loss": 0.9443,
      "step": 1774
    },
    {
      "epoch": 0.09769387418129781,
      "grad_norm": 0.8621761798858643,
      "learning_rate": 9.947376750576903e-06,
      "loss": 0.7537,
      "step": 1775
    },
    {
      "epoch": 0.09774891298365347,
      "grad_norm": 0.7399948835372925,
      "learning_rate": 9.947314008704616e-06,
      "loss": 0.7477,
      "step": 1776
    },
    {
      "epoch": 0.09780395178600913,
      "grad_norm": 0.8855582475662231,
      "learning_rate": 9.947251229649641e-06,
      "loss": 0.8745,
      "step": 1777
    },
    {
      "epoch": 0.0978589905883648,
      "grad_norm": 0.8718472719192505,
      "learning_rate": 9.947188413412452e-06,
      "loss": 0.9672,
      "step": 1778
    },
    {
      "epoch": 0.09791402939072046,
      "grad_norm": 0.8598514795303345,
      "learning_rate": 9.947125559993517e-06,
      "loss": 0.8278,
      "step": 1779
    },
    {
      "epoch": 0.09796906819307612,
      "grad_norm": 1.0373798608779907,
      "learning_rate": 9.947062669393312e-06,
      "loss": 0.8123,
      "step": 1780
    },
    {
      "epoch": 0.09802410699543178,
      "grad_norm": 1.0198705196380615,
      "learning_rate": 9.946999741612306e-06,
      "loss": 0.9039,
      "step": 1781
    },
    {
      "epoch": 0.09807914579778744,
      "grad_norm": 0.8770025968551636,
      "learning_rate": 9.946936776650977e-06,
      "loss": 0.8326,
      "step": 1782
    },
    {
      "epoch": 0.0981341846001431,
      "grad_norm": 0.7970215678215027,
      "learning_rate": 9.946873774509794e-06,
      "loss": 0.848,
      "step": 1783
    },
    {
      "epoch": 0.09818922340249876,
      "grad_norm": 0.90342777967453,
      "learning_rate": 9.946810735189231e-06,
      "loss": 0.7993,
      "step": 1784
    },
    {
      "epoch": 0.09824426220485442,
      "grad_norm": 1.2095681428909302,
      "learning_rate": 9.946747658689763e-06,
      "loss": 0.8544,
      "step": 1785
    },
    {
      "epoch": 0.09829930100721009,
      "grad_norm": 0.8500953316688538,
      "learning_rate": 9.946684545011866e-06,
      "loss": 0.8398,
      "step": 1786
    },
    {
      "epoch": 0.09835433980956575,
      "grad_norm": 0.8570724725723267,
      "learning_rate": 9.946621394156011e-06,
      "loss": 0.9255,
      "step": 1787
    },
    {
      "epoch": 0.09840937861192141,
      "grad_norm": 0.8314846158027649,
      "learning_rate": 9.946558206122672e-06,
      "loss": 0.8398,
      "step": 1788
    },
    {
      "epoch": 0.09846441741427707,
      "grad_norm": 0.8894716501235962,
      "learning_rate": 9.946494980912326e-06,
      "loss": 0.8612,
      "step": 1789
    },
    {
      "epoch": 0.09851945621663273,
      "grad_norm": 0.9555756449699402,
      "learning_rate": 9.94643171852545e-06,
      "loss": 0.9551,
      "step": 1790
    },
    {
      "epoch": 0.09857449501898839,
      "grad_norm": 0.9556692838668823,
      "learning_rate": 9.946368418962515e-06,
      "loss": 0.8175,
      "step": 1791
    },
    {
      "epoch": 0.09862953382134405,
      "grad_norm": 0.7288535833358765,
      "learning_rate": 9.946305082224e-06,
      "loss": 0.6162,
      "step": 1792
    },
    {
      "epoch": 0.09868457262369972,
      "grad_norm": 0.95478355884552,
      "learning_rate": 9.94624170831038e-06,
      "loss": 0.9089,
      "step": 1793
    },
    {
      "epoch": 0.09873961142605536,
      "grad_norm": 0.9080137610435486,
      "learning_rate": 9.946178297222133e-06,
      "loss": 0.9443,
      "step": 1794
    },
    {
      "epoch": 0.09879465022841102,
      "grad_norm": 0.8060124516487122,
      "learning_rate": 9.946114848959732e-06,
      "loss": 0.7412,
      "step": 1795
    },
    {
      "epoch": 0.09884968903076669,
      "grad_norm": 0.8487932085990906,
      "learning_rate": 9.946051363523655e-06,
      "loss": 0.7098,
      "step": 1796
    },
    {
      "epoch": 0.09890472783312235,
      "grad_norm": 0.8982037901878357,
      "learning_rate": 9.945987840914381e-06,
      "loss": 0.8304,
      "step": 1797
    },
    {
      "epoch": 0.09895976663547801,
      "grad_norm": 0.8124602437019348,
      "learning_rate": 9.945924281132386e-06,
      "loss": 0.8441,
      "step": 1798
    },
    {
      "epoch": 0.09901480543783367,
      "grad_norm": 0.8081663250923157,
      "learning_rate": 9.945860684178147e-06,
      "loss": 0.732,
      "step": 1799
    },
    {
      "epoch": 0.09906984424018933,
      "grad_norm": 0.7662907242774963,
      "learning_rate": 9.945797050052147e-06,
      "loss": 0.7538,
      "step": 1800
    },
    {
      "epoch": 0.09912488304254499,
      "grad_norm": 0.8418399095535278,
      "learning_rate": 9.945733378754856e-06,
      "loss": 0.8488,
      "step": 1801
    },
    {
      "epoch": 0.09917992184490065,
      "grad_norm": 0.7298988699913025,
      "learning_rate": 9.94566967028676e-06,
      "loss": 0.7822,
      "step": 1802
    },
    {
      "epoch": 0.09923496064725632,
      "grad_norm": 0.7788695693016052,
      "learning_rate": 9.945605924648332e-06,
      "loss": 0.8037,
      "step": 1803
    },
    {
      "epoch": 0.09928999944961198,
      "grad_norm": 0.939297080039978,
      "learning_rate": 9.945542141840054e-06,
      "loss": 0.8654,
      "step": 1804
    },
    {
      "epoch": 0.09934503825196764,
      "grad_norm": 0.9274358749389648,
      "learning_rate": 9.945478321862406e-06,
      "loss": 0.7712,
      "step": 1805
    },
    {
      "epoch": 0.0994000770543233,
      "grad_norm": 0.816561222076416,
      "learning_rate": 9.945414464715866e-06,
      "loss": 0.7676,
      "step": 1806
    },
    {
      "epoch": 0.09945511585667896,
      "grad_norm": 0.867915153503418,
      "learning_rate": 9.945350570400916e-06,
      "loss": 0.8343,
      "step": 1807
    },
    {
      "epoch": 0.09951015465903462,
      "grad_norm": 0.8446162939071655,
      "learning_rate": 9.945286638918034e-06,
      "loss": 0.8128,
      "step": 1808
    },
    {
      "epoch": 0.09956519346139028,
      "grad_norm": 0.8372986316680908,
      "learning_rate": 9.945222670267703e-06,
      "loss": 0.8611,
      "step": 1809
    },
    {
      "epoch": 0.09962023226374594,
      "grad_norm": 0.787836492061615,
      "learning_rate": 9.945158664450399e-06,
      "loss": 0.7286,
      "step": 1810
    },
    {
      "epoch": 0.0996752710661016,
      "grad_norm": 0.9293436408042908,
      "learning_rate": 9.945094621466609e-06,
      "loss": 0.8699,
      "step": 1811
    },
    {
      "epoch": 0.09973030986845727,
      "grad_norm": 0.8336932063102722,
      "learning_rate": 9.94503054131681e-06,
      "loss": 0.8222,
      "step": 1812
    },
    {
      "epoch": 0.09978534867081293,
      "grad_norm": 0.8310953378677368,
      "learning_rate": 9.944966424001486e-06,
      "loss": 0.8131,
      "step": 1813
    },
    {
      "epoch": 0.09984038747316859,
      "grad_norm": 0.7703443169593811,
      "learning_rate": 9.944902269521117e-06,
      "loss": 0.8135,
      "step": 1814
    },
    {
      "epoch": 0.09989542627552424,
      "grad_norm": 0.750990092754364,
      "learning_rate": 9.944838077876186e-06,
      "loss": 0.8137,
      "step": 1815
    },
    {
      "epoch": 0.0999504650778799,
      "grad_norm": 0.8502481579780579,
      "learning_rate": 9.944773849067178e-06,
      "loss": 0.8973,
      "step": 1816
    },
    {
      "epoch": 0.10000550388023556,
      "grad_norm": 0.8299791812896729,
      "learning_rate": 9.94470958309457e-06,
      "loss": 0.8341,
      "step": 1817
    },
    {
      "epoch": 0.10006054268259122,
      "grad_norm": 0.8519022464752197,
      "learning_rate": 9.94464527995885e-06,
      "loss": 0.8529,
      "step": 1818
    },
    {
      "epoch": 0.10011558148494688,
      "grad_norm": 0.9318063259124756,
      "learning_rate": 9.944580939660501e-06,
      "loss": 0.8978,
      "step": 1819
    },
    {
      "epoch": 0.10017062028730254,
      "grad_norm": 0.847023069858551,
      "learning_rate": 9.944516562200004e-06,
      "loss": 0.8007,
      "step": 1820
    },
    {
      "epoch": 0.1002256590896582,
      "grad_norm": 0.8817011117935181,
      "learning_rate": 9.944452147577844e-06,
      "loss": 0.8819,
      "step": 1821
    },
    {
      "epoch": 0.10028069789201387,
      "grad_norm": 0.8560144901275635,
      "learning_rate": 9.944387695794505e-06,
      "loss": 0.8219,
      "step": 1822
    },
    {
      "epoch": 0.10033573669436953,
      "grad_norm": 0.9358342885971069,
      "learning_rate": 9.944323206850472e-06,
      "loss": 0.8533,
      "step": 1823
    },
    {
      "epoch": 0.10039077549672519,
      "grad_norm": 0.8327087163925171,
      "learning_rate": 9.94425868074623e-06,
      "loss": 0.8359,
      "step": 1824
    },
    {
      "epoch": 0.10044581429908085,
      "grad_norm": 1.0590367317199707,
      "learning_rate": 9.944194117482263e-06,
      "loss": 0.9659,
      "step": 1825
    },
    {
      "epoch": 0.10050085310143651,
      "grad_norm": 0.8739829063415527,
      "learning_rate": 9.944129517059055e-06,
      "loss": 0.7868,
      "step": 1826
    },
    {
      "epoch": 0.10055589190379217,
      "grad_norm": 0.8465235233306885,
      "learning_rate": 9.944064879477093e-06,
      "loss": 0.8554,
      "step": 1827
    },
    {
      "epoch": 0.10061093070614784,
      "grad_norm": 0.9068321585655212,
      "learning_rate": 9.944000204736864e-06,
      "loss": 0.8648,
      "step": 1828
    },
    {
      "epoch": 0.1006659695085035,
      "grad_norm": 0.8308066725730896,
      "learning_rate": 9.943935492838853e-06,
      "loss": 0.8471,
      "step": 1829
    },
    {
      "epoch": 0.10072100831085916,
      "grad_norm": 0.9973901510238647,
      "learning_rate": 9.943870743783545e-06,
      "loss": 0.9398,
      "step": 1830
    },
    {
      "epoch": 0.10077604711321482,
      "grad_norm": 0.8532593250274658,
      "learning_rate": 9.94380595757143e-06,
      "loss": 0.9001,
      "step": 1831
    },
    {
      "epoch": 0.10083108591557048,
      "grad_norm": 0.8571139574050903,
      "learning_rate": 9.94374113420299e-06,
      "loss": 0.85,
      "step": 1832
    },
    {
      "epoch": 0.10088612471792614,
      "grad_norm": 0.905624508857727,
      "learning_rate": 9.943676273678717e-06,
      "loss": 0.9587,
      "step": 1833
    },
    {
      "epoch": 0.1009411635202818,
      "grad_norm": 1.0224663019180298,
      "learning_rate": 9.943611375999097e-06,
      "loss": 0.8236,
      "step": 1834
    },
    {
      "epoch": 0.10099620232263747,
      "grad_norm": 0.8900588154792786,
      "learning_rate": 9.943546441164615e-06,
      "loss": 0.877,
      "step": 1835
    },
    {
      "epoch": 0.10105124112499313,
      "grad_norm": 0.8852938413619995,
      "learning_rate": 9.943481469175765e-06,
      "loss": 0.9521,
      "step": 1836
    },
    {
      "epoch": 0.10110627992734877,
      "grad_norm": 0.9249371290206909,
      "learning_rate": 9.943416460033027e-06,
      "loss": 0.8541,
      "step": 1837
    },
    {
      "epoch": 0.10116131872970444,
      "grad_norm": 0.8533583283424377,
      "learning_rate": 9.943351413736897e-06,
      "loss": 0.8571,
      "step": 1838
    },
    {
      "epoch": 0.1012163575320601,
      "grad_norm": 0.743800699710846,
      "learning_rate": 9.94328633028786e-06,
      "loss": 0.749,
      "step": 1839
    },
    {
      "epoch": 0.10127139633441576,
      "grad_norm": 0.7836641669273376,
      "learning_rate": 9.943221209686407e-06,
      "loss": 0.8237,
      "step": 1840
    },
    {
      "epoch": 0.10132643513677142,
      "grad_norm": 0.800782322883606,
      "learning_rate": 9.943156051933024e-06,
      "loss": 0.8323,
      "step": 1841
    },
    {
      "epoch": 0.10138147393912708,
      "grad_norm": 0.7531478404998779,
      "learning_rate": 9.943090857028206e-06,
      "loss": 0.8041,
      "step": 1842
    },
    {
      "epoch": 0.10143651274148274,
      "grad_norm": 0.9837996959686279,
      "learning_rate": 9.94302562497244e-06,
      "loss": 0.8084,
      "step": 1843
    },
    {
      "epoch": 0.1014915515438384,
      "grad_norm": 0.8038331866264343,
      "learning_rate": 9.942960355766216e-06,
      "loss": 0.8454,
      "step": 1844
    },
    {
      "epoch": 0.10154659034619407,
      "grad_norm": 0.7822145819664001,
      "learning_rate": 9.942895049410024e-06,
      "loss": 0.8137,
      "step": 1845
    },
    {
      "epoch": 0.10160162914854973,
      "grad_norm": 0.8222663998603821,
      "learning_rate": 9.942829705904358e-06,
      "loss": 0.8981,
      "step": 1846
    },
    {
      "epoch": 0.10165666795090539,
      "grad_norm": 1.0095717906951904,
      "learning_rate": 9.942764325249707e-06,
      "loss": 0.9159,
      "step": 1847
    },
    {
      "epoch": 0.10171170675326105,
      "grad_norm": 0.8264054656028748,
      "learning_rate": 9.942698907446561e-06,
      "loss": 0.9233,
      "step": 1848
    },
    {
      "epoch": 0.10176674555561671,
      "grad_norm": 0.8244288563728333,
      "learning_rate": 9.942633452495414e-06,
      "loss": 0.8507,
      "step": 1849
    },
    {
      "epoch": 0.10182178435797237,
      "grad_norm": 0.8457715511322021,
      "learning_rate": 9.942567960396755e-06,
      "loss": 0.7897,
      "step": 1850
    },
    {
      "epoch": 0.10187682316032803,
      "grad_norm": 0.8356698155403137,
      "learning_rate": 9.94250243115108e-06,
      "loss": 0.7927,
      "step": 1851
    },
    {
      "epoch": 0.1019318619626837,
      "grad_norm": 0.8251230716705322,
      "learning_rate": 9.94243686475888e-06,
      "loss": 0.8977,
      "step": 1852
    },
    {
      "epoch": 0.10198690076503936,
      "grad_norm": 0.8370125889778137,
      "learning_rate": 9.942371261220647e-06,
      "loss": 0.8204,
      "step": 1853
    },
    {
      "epoch": 0.10204193956739502,
      "grad_norm": 1.6722066402435303,
      "learning_rate": 9.942305620536876e-06,
      "loss": 0.9284,
      "step": 1854
    },
    {
      "epoch": 0.10209697836975068,
      "grad_norm": 0.8424906730651855,
      "learning_rate": 9.942239942708057e-06,
      "loss": 0.833,
      "step": 1855
    },
    {
      "epoch": 0.10215201717210634,
      "grad_norm": 0.7475115656852722,
      "learning_rate": 9.942174227734686e-06,
      "loss": 0.6158,
      "step": 1856
    },
    {
      "epoch": 0.102207055974462,
      "grad_norm": 0.8652095198631287,
      "learning_rate": 9.942108475617256e-06,
      "loss": 0.8781,
      "step": 1857
    },
    {
      "epoch": 0.10226209477681765,
      "grad_norm": 1.0621691942214966,
      "learning_rate": 9.942042686356263e-06,
      "loss": 1.0276,
      "step": 1858
    },
    {
      "epoch": 0.10231713357917331,
      "grad_norm": 1.113357424736023,
      "learning_rate": 9.941976859952199e-06,
      "loss": 0.8799,
      "step": 1859
    },
    {
      "epoch": 0.10237217238152897,
      "grad_norm": 0.9153568148612976,
      "learning_rate": 9.94191099640556e-06,
      "loss": 0.7988,
      "step": 1860
    },
    {
      "epoch": 0.10242721118388463,
      "grad_norm": 0.9217341542243958,
      "learning_rate": 9.941845095716842e-06,
      "loss": 0.7785,
      "step": 1861
    },
    {
      "epoch": 0.1024822499862403,
      "grad_norm": 0.8702190518379211,
      "learning_rate": 9.941779157886538e-06,
      "loss": 0.7648,
      "step": 1862
    },
    {
      "epoch": 0.10253728878859596,
      "grad_norm": 0.8609822988510132,
      "learning_rate": 9.941713182915144e-06,
      "loss": 0.9095,
      "step": 1863
    },
    {
      "epoch": 0.10259232759095162,
      "grad_norm": 0.7766719460487366,
      "learning_rate": 9.941647170803157e-06,
      "loss": 0.6984,
      "step": 1864
    },
    {
      "epoch": 0.10264736639330728,
      "grad_norm": 0.8497375249862671,
      "learning_rate": 9.941581121551074e-06,
      "loss": 0.9161,
      "step": 1865
    },
    {
      "epoch": 0.10270240519566294,
      "grad_norm": 0.8007600903511047,
      "learning_rate": 9.941515035159388e-06,
      "loss": 0.8099,
      "step": 1866
    },
    {
      "epoch": 0.1027574439980186,
      "grad_norm": 0.7932959794998169,
      "learning_rate": 9.941448911628599e-06,
      "loss": 0.8049,
      "step": 1867
    },
    {
      "epoch": 0.10281248280037426,
      "grad_norm": 1.3169244527816772,
      "learning_rate": 9.941382750959203e-06,
      "loss": 0.8601,
      "step": 1868
    },
    {
      "epoch": 0.10286752160272992,
      "grad_norm": 0.8011140823364258,
      "learning_rate": 9.941316553151696e-06,
      "loss": 0.8397,
      "step": 1869
    },
    {
      "epoch": 0.10292256040508559,
      "grad_norm": 0.811210572719574,
      "learning_rate": 9.941250318206577e-06,
      "loss": 0.7863,
      "step": 1870
    },
    {
      "epoch": 0.10297759920744125,
      "grad_norm": 0.8172751665115356,
      "learning_rate": 9.941184046124342e-06,
      "loss": 0.8114,
      "step": 1871
    },
    {
      "epoch": 0.10303263800979691,
      "grad_norm": 0.8072887063026428,
      "learning_rate": 9.941117736905493e-06,
      "loss": 0.8928,
      "step": 1872
    },
    {
      "epoch": 0.10308767681215257,
      "grad_norm": 0.9111380577087402,
      "learning_rate": 9.941051390550524e-06,
      "loss": 0.866,
      "step": 1873
    },
    {
      "epoch": 0.10314271561450823,
      "grad_norm": 0.8158383369445801,
      "learning_rate": 9.940985007059936e-06,
      "loss": 0.7805,
      "step": 1874
    },
    {
      "epoch": 0.1031977544168639,
      "grad_norm": 0.8858961462974548,
      "learning_rate": 9.940918586434226e-06,
      "loss": 0.8424,
      "step": 1875
    },
    {
      "epoch": 0.10325279321921955,
      "grad_norm": 0.8835182189941406,
      "learning_rate": 9.940852128673895e-06,
      "loss": 0.7816,
      "step": 1876
    },
    {
      "epoch": 0.10330783202157522,
      "grad_norm": 1.044227123260498,
      "learning_rate": 9.940785633779444e-06,
      "loss": 0.8952,
      "step": 1877
    },
    {
      "epoch": 0.10336287082393088,
      "grad_norm": 0.8255050778388977,
      "learning_rate": 9.940719101751367e-06,
      "loss": 0.8215,
      "step": 1878
    },
    {
      "epoch": 0.10341790962628654,
      "grad_norm": 0.8561689257621765,
      "learning_rate": 9.940652532590172e-06,
      "loss": 0.9686,
      "step": 1879
    },
    {
      "epoch": 0.10347294842864219,
      "grad_norm": 0.8798959255218506,
      "learning_rate": 9.94058592629635e-06,
      "loss": 0.8993,
      "step": 1880
    },
    {
      "epoch": 0.10352798723099785,
      "grad_norm": 0.9292098879814148,
      "learning_rate": 9.940519282870411e-06,
      "loss": 0.8536,
      "step": 1881
    },
    {
      "epoch": 0.10358302603335351,
      "grad_norm": 0.8865400552749634,
      "learning_rate": 9.940452602312851e-06,
      "loss": 0.8024,
      "step": 1882
    },
    {
      "epoch": 0.10363806483570917,
      "grad_norm": 0.8985510468482971,
      "learning_rate": 9.94038588462417e-06,
      "loss": 0.7748,
      "step": 1883
    },
    {
      "epoch": 0.10369310363806483,
      "grad_norm": 0.9973617196083069,
      "learning_rate": 9.940319129804872e-06,
      "loss": 0.875,
      "step": 1884
    },
    {
      "epoch": 0.1037481424404205,
      "grad_norm": 0.8615350723266602,
      "learning_rate": 9.940252337855458e-06,
      "loss": 0.904,
      "step": 1885
    },
    {
      "epoch": 0.10380318124277615,
      "grad_norm": 0.8752412796020508,
      "learning_rate": 9.940185508776429e-06,
      "loss": 0.8735,
      "step": 1886
    },
    {
      "epoch": 0.10385822004513182,
      "grad_norm": 0.8639446496963501,
      "learning_rate": 9.94011864256829e-06,
      "loss": 0.7952,
      "step": 1887
    },
    {
      "epoch": 0.10391325884748748,
      "grad_norm": 0.7932116389274597,
      "learning_rate": 9.94005173923154e-06,
      "loss": 0.8721,
      "step": 1888
    },
    {
      "epoch": 0.10396829764984314,
      "grad_norm": 0.8573791980743408,
      "learning_rate": 9.939984798766685e-06,
      "loss": 0.9271,
      "step": 1889
    },
    {
      "epoch": 0.1040233364521988,
      "grad_norm": 0.9080122113227844,
      "learning_rate": 9.939917821174225e-06,
      "loss": 0.8991,
      "step": 1890
    },
    {
      "epoch": 0.10407837525455446,
      "grad_norm": 0.7883808612823486,
      "learning_rate": 9.939850806454664e-06,
      "loss": 0.6895,
      "step": 1891
    },
    {
      "epoch": 0.10413341405691012,
      "grad_norm": 0.8067768216133118,
      "learning_rate": 9.93978375460851e-06,
      "loss": 0.835,
      "step": 1892
    },
    {
      "epoch": 0.10418845285926578,
      "grad_norm": 0.8756459951400757,
      "learning_rate": 9.939716665636262e-06,
      "loss": 0.8144,
      "step": 1893
    },
    {
      "epoch": 0.10424349166162145,
      "grad_norm": 0.8056700825691223,
      "learning_rate": 9.939649539538425e-06,
      "loss": 0.7454,
      "step": 1894
    },
    {
      "epoch": 0.10429853046397711,
      "grad_norm": 1.0756300687789917,
      "learning_rate": 9.939582376315505e-06,
      "loss": 0.8096,
      "step": 1895
    },
    {
      "epoch": 0.10435356926633277,
      "grad_norm": 0.8938102126121521,
      "learning_rate": 9.939515175968006e-06,
      "loss": 0.7496,
      "step": 1896
    },
    {
      "epoch": 0.10440860806868843,
      "grad_norm": 0.9371656775474548,
      "learning_rate": 9.939447938496434e-06,
      "loss": 0.9817,
      "step": 1897
    },
    {
      "epoch": 0.10446364687104409,
      "grad_norm": 1.0216082334518433,
      "learning_rate": 9.939380663901292e-06,
      "loss": 0.8804,
      "step": 1898
    },
    {
      "epoch": 0.10451868567339975,
      "grad_norm": 0.8791126012802124,
      "learning_rate": 9.939313352183088e-06,
      "loss": 0.7811,
      "step": 1899
    },
    {
      "epoch": 0.10457372447575541,
      "grad_norm": 0.9925445914268494,
      "learning_rate": 9.939246003342326e-06,
      "loss": 0.8892,
      "step": 1900
    },
    {
      "epoch": 0.10462876327811106,
      "grad_norm": 1.0459916591644287,
      "learning_rate": 9.939178617379514e-06,
      "loss": 0.7938,
      "step": 1901
    },
    {
      "epoch": 0.10468380208046672,
      "grad_norm": 0.9103816747665405,
      "learning_rate": 9.93911119429516e-06,
      "loss": 0.8282,
      "step": 1902
    },
    {
      "epoch": 0.10473884088282238,
      "grad_norm": 0.9602296352386475,
      "learning_rate": 9.939043734089764e-06,
      "loss": 0.919,
      "step": 1903
    },
    {
      "epoch": 0.10479387968517805,
      "grad_norm": 0.9529246687889099,
      "learning_rate": 9.93897623676384e-06,
      "loss": 0.9469,
      "step": 1904
    },
    {
      "epoch": 0.10484891848753371,
      "grad_norm": 0.9619705080986023,
      "learning_rate": 9.938908702317893e-06,
      "loss": 0.9371,
      "step": 1905
    },
    {
      "epoch": 0.10490395728988937,
      "grad_norm": 1.0106935501098633,
      "learning_rate": 9.938841130752428e-06,
      "loss": 0.7502,
      "step": 1906
    },
    {
      "epoch": 0.10495899609224503,
      "grad_norm": 0.913985013961792,
      "learning_rate": 9.938773522067957e-06,
      "loss": 0.8172,
      "step": 1907
    },
    {
      "epoch": 0.10501403489460069,
      "grad_norm": 0.9474983215332031,
      "learning_rate": 9.938705876264985e-06,
      "loss": 0.8999,
      "step": 1908
    },
    {
      "epoch": 0.10506907369695635,
      "grad_norm": 0.9185097813606262,
      "learning_rate": 9.938638193344024e-06,
      "loss": 0.8976,
      "step": 1909
    },
    {
      "epoch": 0.10512411249931201,
      "grad_norm": 0.7633675932884216,
      "learning_rate": 9.938570473305578e-06,
      "loss": 0.7777,
      "step": 1910
    },
    {
      "epoch": 0.10517915130166768,
      "grad_norm": 0.9547691345214844,
      "learning_rate": 9.938502716150159e-06,
      "loss": 0.8154,
      "step": 1911
    },
    {
      "epoch": 0.10523419010402334,
      "grad_norm": 0.8556191921234131,
      "learning_rate": 9.938434921878275e-06,
      "loss": 0.828,
      "step": 1912
    },
    {
      "epoch": 0.105289228906379,
      "grad_norm": 0.9826140999794006,
      "learning_rate": 9.938367090490437e-06,
      "loss": 0.8085,
      "step": 1913
    },
    {
      "epoch": 0.10534426770873466,
      "grad_norm": 0.8610432744026184,
      "learning_rate": 9.938299221987154e-06,
      "loss": 0.9103,
      "step": 1914
    },
    {
      "epoch": 0.10539930651109032,
      "grad_norm": 0.8383543491363525,
      "learning_rate": 9.938231316368934e-06,
      "loss": 0.8182,
      "step": 1915
    },
    {
      "epoch": 0.10545434531344598,
      "grad_norm": 0.8552964925765991,
      "learning_rate": 9.93816337363629e-06,
      "loss": 0.8024,
      "step": 1916
    },
    {
      "epoch": 0.10550938411580164,
      "grad_norm": 0.9255730509757996,
      "learning_rate": 9.938095393789732e-06,
      "loss": 0.8566,
      "step": 1917
    },
    {
      "epoch": 0.1055644229181573,
      "grad_norm": 0.9882987141609192,
      "learning_rate": 9.938027376829774e-06,
      "loss": 0.7119,
      "step": 1918
    },
    {
      "epoch": 0.10561946172051297,
      "grad_norm": 1.139404535293579,
      "learning_rate": 9.93795932275692e-06,
      "loss": 0.8839,
      "step": 1919
    },
    {
      "epoch": 0.10567450052286863,
      "grad_norm": 1.004782795906067,
      "learning_rate": 9.937891231571686e-06,
      "loss": 0.904,
      "step": 1920
    },
    {
      "epoch": 0.10572953932522429,
      "grad_norm": 0.8437260389328003,
      "learning_rate": 9.937823103274585e-06,
      "loss": 0.7942,
      "step": 1921
    },
    {
      "epoch": 0.10578457812757995,
      "grad_norm": 1.1388722658157349,
      "learning_rate": 9.937754937866127e-06,
      "loss": 0.9491,
      "step": 1922
    },
    {
      "epoch": 0.1058396169299356,
      "grad_norm": 0.9266740083694458,
      "learning_rate": 9.937686735346823e-06,
      "loss": 0.9067,
      "step": 1923
    },
    {
      "epoch": 0.10589465573229126,
      "grad_norm": 0.7536123991012573,
      "learning_rate": 9.93761849571719e-06,
      "loss": 0.6533,
      "step": 1924
    },
    {
      "epoch": 0.10594969453464692,
      "grad_norm": 0.8781737089157104,
      "learning_rate": 9.937550218977737e-06,
      "loss": 0.8319,
      "step": 1925
    },
    {
      "epoch": 0.10600473333700258,
      "grad_norm": 0.8577924966812134,
      "learning_rate": 9.937481905128976e-06,
      "loss": 0.8604,
      "step": 1926
    },
    {
      "epoch": 0.10605977213935824,
      "grad_norm": 0.8351713418960571,
      "learning_rate": 9.937413554171424e-06,
      "loss": 0.946,
      "step": 1927
    },
    {
      "epoch": 0.1061148109417139,
      "grad_norm": 0.971491813659668,
      "learning_rate": 9.937345166105594e-06,
      "loss": 0.7383,
      "step": 1928
    },
    {
      "epoch": 0.10616984974406957,
      "grad_norm": 0.8020079731941223,
      "learning_rate": 9.937276740932001e-06,
      "loss": 0.7468,
      "step": 1929
    },
    {
      "epoch": 0.10622488854642523,
      "grad_norm": 0.9057347178459167,
      "learning_rate": 9.937208278651153e-06,
      "loss": 0.8223,
      "step": 1930
    },
    {
      "epoch": 0.10627992734878089,
      "grad_norm": 0.8384734392166138,
      "learning_rate": 9.937139779263574e-06,
      "loss": 0.8773,
      "step": 1931
    },
    {
      "epoch": 0.10633496615113655,
      "grad_norm": 0.8732065558433533,
      "learning_rate": 9.93707124276977e-06,
      "loss": 0.8265,
      "step": 1932
    },
    {
      "epoch": 0.10639000495349221,
      "grad_norm": 0.8744868040084839,
      "learning_rate": 9.937002669170264e-06,
      "loss": 0.8497,
      "step": 1933
    },
    {
      "epoch": 0.10644504375584787,
      "grad_norm": 0.8589879870414734,
      "learning_rate": 9.936934058465564e-06,
      "loss": 0.8116,
      "step": 1934
    },
    {
      "epoch": 0.10650008255820353,
      "grad_norm": 0.8614563941955566,
      "learning_rate": 9.936865410656192e-06,
      "loss": 0.7823,
      "step": 1935
    },
    {
      "epoch": 0.1065551213605592,
      "grad_norm": 0.8381434082984924,
      "learning_rate": 9.93679672574266e-06,
      "loss": 0.7889,
      "step": 1936
    },
    {
      "epoch": 0.10661016016291486,
      "grad_norm": 0.9834293127059937,
      "learning_rate": 9.936728003725484e-06,
      "loss": 0.8358,
      "step": 1937
    },
    {
      "epoch": 0.10666519896527052,
      "grad_norm": 0.8461851477622986,
      "learning_rate": 9.936659244605184e-06,
      "loss": 0.8408,
      "step": 1938
    },
    {
      "epoch": 0.10672023776762618,
      "grad_norm": 1.0186371803283691,
      "learning_rate": 9.936590448382273e-06,
      "loss": 0.8118,
      "step": 1939
    },
    {
      "epoch": 0.10677527656998184,
      "grad_norm": 0.866321325302124,
      "learning_rate": 9.93652161505727e-06,
      "loss": 0.8696,
      "step": 1940
    },
    {
      "epoch": 0.1068303153723375,
      "grad_norm": 0.9179622530937195,
      "learning_rate": 9.936452744630692e-06,
      "loss": 0.8419,
      "step": 1941
    },
    {
      "epoch": 0.10688535417469316,
      "grad_norm": 0.8250496983528137,
      "learning_rate": 9.936383837103057e-06,
      "loss": 0.8511,
      "step": 1942
    },
    {
      "epoch": 0.10694039297704883,
      "grad_norm": 0.8475700616836548,
      "learning_rate": 9.936314892474883e-06,
      "loss": 0.8404,
      "step": 1943
    },
    {
      "epoch": 0.10699543177940447,
      "grad_norm": 0.774334192276001,
      "learning_rate": 9.936245910746684e-06,
      "loss": 0.7461,
      "step": 1944
    },
    {
      "epoch": 0.10705047058176013,
      "grad_norm": 0.9313948154449463,
      "learning_rate": 9.936176891918986e-06,
      "loss": 0.8486,
      "step": 1945
    },
    {
      "epoch": 0.1071055093841158,
      "grad_norm": 0.8784124255180359,
      "learning_rate": 9.936107835992304e-06,
      "loss": 0.84,
      "step": 1946
    },
    {
      "epoch": 0.10716054818647146,
      "grad_norm": 0.9087465405464172,
      "learning_rate": 9.936038742967154e-06,
      "loss": 0.9012,
      "step": 1947
    },
    {
      "epoch": 0.10721558698882712,
      "grad_norm": 0.8462012410163879,
      "learning_rate": 9.93596961284406e-06,
      "loss": 0.9193,
      "step": 1948
    },
    {
      "epoch": 0.10727062579118278,
      "grad_norm": 0.8984553813934326,
      "learning_rate": 9.935900445623538e-06,
      "loss": 0.781,
      "step": 1949
    },
    {
      "epoch": 0.10732566459353844,
      "grad_norm": 0.9197295308113098,
      "learning_rate": 9.935831241306111e-06,
      "loss": 0.8861,
      "step": 1950
    },
    {
      "epoch": 0.1073807033958941,
      "grad_norm": 0.8452801704406738,
      "learning_rate": 9.935761999892296e-06,
      "loss": 0.8649,
      "step": 1951
    },
    {
      "epoch": 0.10743574219824976,
      "grad_norm": 0.8047192096710205,
      "learning_rate": 9.935692721382618e-06,
      "loss": 0.8704,
      "step": 1952
    },
    {
      "epoch": 0.10749078100060543,
      "grad_norm": 0.9536359906196594,
      "learning_rate": 9.935623405777593e-06,
      "loss": 0.7803,
      "step": 1953
    },
    {
      "epoch": 0.10754581980296109,
      "grad_norm": 0.8215291500091553,
      "learning_rate": 9.935554053077744e-06,
      "loss": 0.8247,
      "step": 1954
    },
    {
      "epoch": 0.10760085860531675,
      "grad_norm": 0.9261930584907532,
      "learning_rate": 9.93548466328359e-06,
      "loss": 0.8594,
      "step": 1955
    },
    {
      "epoch": 0.10765589740767241,
      "grad_norm": 0.7973492741584778,
      "learning_rate": 9.935415236395656e-06,
      "loss": 0.7464,
      "step": 1956
    },
    {
      "epoch": 0.10771093621002807,
      "grad_norm": 0.9328988790512085,
      "learning_rate": 9.935345772414463e-06,
      "loss": 0.8472,
      "step": 1957
    },
    {
      "epoch": 0.10776597501238373,
      "grad_norm": 0.9490759968757629,
      "learning_rate": 9.935276271340532e-06,
      "loss": 0.806,
      "step": 1958
    },
    {
      "epoch": 0.1078210138147394,
      "grad_norm": 0.9149925112724304,
      "learning_rate": 9.935206733174385e-06,
      "loss": 0.8741,
      "step": 1959
    },
    {
      "epoch": 0.10787605261709506,
      "grad_norm": 1.0074039697647095,
      "learning_rate": 9.935137157916546e-06,
      "loss": 0.8493,
      "step": 1960
    },
    {
      "epoch": 0.10793109141945072,
      "grad_norm": 0.8783678412437439,
      "learning_rate": 9.935067545567535e-06,
      "loss": 0.8132,
      "step": 1961
    },
    {
      "epoch": 0.10798613022180638,
      "grad_norm": 0.8273885250091553,
      "learning_rate": 9.934997896127879e-06,
      "loss": 0.7448,
      "step": 1962
    },
    {
      "epoch": 0.10804116902416204,
      "grad_norm": 0.761947512626648,
      "learning_rate": 9.9349282095981e-06,
      "loss": 0.7933,
      "step": 1963
    },
    {
      "epoch": 0.1080962078265177,
      "grad_norm": 0.814809262752533,
      "learning_rate": 9.934858485978722e-06,
      "loss": 0.7551,
      "step": 1964
    },
    {
      "epoch": 0.10815124662887336,
      "grad_norm": 0.8108895421028137,
      "learning_rate": 9.934788725270266e-06,
      "loss": 0.6787,
      "step": 1965
    },
    {
      "epoch": 0.10820628543122901,
      "grad_norm": 0.8669139742851257,
      "learning_rate": 9.934718927473262e-06,
      "loss": 0.8395,
      "step": 1966
    },
    {
      "epoch": 0.10826132423358467,
      "grad_norm": 0.9093756079673767,
      "learning_rate": 9.93464909258823e-06,
      "loss": 0.8341,
      "step": 1967
    },
    {
      "epoch": 0.10831636303594033,
      "grad_norm": 0.8923841714859009,
      "learning_rate": 9.934579220615697e-06,
      "loss": 0.9422,
      "step": 1968
    },
    {
      "epoch": 0.108371401838296,
      "grad_norm": 0.850429117679596,
      "learning_rate": 9.934509311556186e-06,
      "loss": 0.8446,
      "step": 1969
    },
    {
      "epoch": 0.10842644064065166,
      "grad_norm": 0.8762460350990295,
      "learning_rate": 9.934439365410224e-06,
      "loss": 0.7788,
      "step": 1970
    },
    {
      "epoch": 0.10848147944300732,
      "grad_norm": 0.9700387716293335,
      "learning_rate": 9.934369382178338e-06,
      "loss": 0.8455,
      "step": 1971
    },
    {
      "epoch": 0.10853651824536298,
      "grad_norm": 0.8003185987472534,
      "learning_rate": 9.934299361861053e-06,
      "loss": 0.8026,
      "step": 1972
    },
    {
      "epoch": 0.10859155704771864,
      "grad_norm": 0.9626984596252441,
      "learning_rate": 9.934229304458893e-06,
      "loss": 0.8219,
      "step": 1973
    },
    {
      "epoch": 0.1086465958500743,
      "grad_norm": 0.8722280859947205,
      "learning_rate": 9.934159209972386e-06,
      "loss": 0.8866,
      "step": 1974
    },
    {
      "epoch": 0.10870163465242996,
      "grad_norm": 0.838736355304718,
      "learning_rate": 9.934089078402061e-06,
      "loss": 0.7723,
      "step": 1975
    },
    {
      "epoch": 0.10875667345478562,
      "grad_norm": 0.8373032808303833,
      "learning_rate": 9.934018909748443e-06,
      "loss": 0.9003,
      "step": 1976
    },
    {
      "epoch": 0.10881171225714129,
      "grad_norm": 0.8704653978347778,
      "learning_rate": 9.93394870401206e-06,
      "loss": 0.8926,
      "step": 1977
    },
    {
      "epoch": 0.10886675105949695,
      "grad_norm": 0.8088163733482361,
      "learning_rate": 9.933878461193437e-06,
      "loss": 0.8059,
      "step": 1978
    },
    {
      "epoch": 0.10892178986185261,
      "grad_norm": 0.856421947479248,
      "learning_rate": 9.933808181293108e-06,
      "loss": 0.8447,
      "step": 1979
    },
    {
      "epoch": 0.10897682866420827,
      "grad_norm": 0.9676237106323242,
      "learning_rate": 9.933737864311595e-06,
      "loss": 0.9009,
      "step": 1980
    },
    {
      "epoch": 0.10903186746656393,
      "grad_norm": 0.7955103516578674,
      "learning_rate": 9.933667510249428e-06,
      "loss": 0.881,
      "step": 1981
    },
    {
      "epoch": 0.10908690626891959,
      "grad_norm": 0.7935854196548462,
      "learning_rate": 9.933597119107136e-06,
      "loss": 0.8773,
      "step": 1982
    },
    {
      "epoch": 0.10914194507127525,
      "grad_norm": 0.7726008296012878,
      "learning_rate": 9.933526690885251e-06,
      "loss": 0.8133,
      "step": 1983
    },
    {
      "epoch": 0.10919698387363092,
      "grad_norm": 0.8577712178230286,
      "learning_rate": 9.9334562255843e-06,
      "loss": 0.7455,
      "step": 1984
    },
    {
      "epoch": 0.10925202267598658,
      "grad_norm": 0.9996447563171387,
      "learning_rate": 9.933385723204812e-06,
      "loss": 0.7312,
      "step": 1985
    },
    {
      "epoch": 0.10930706147834224,
      "grad_norm": 0.9600629806518555,
      "learning_rate": 9.933315183747318e-06,
      "loss": 0.8792,
      "step": 1986
    },
    {
      "epoch": 0.10936210028069789,
      "grad_norm": 0.9126206636428833,
      "learning_rate": 9.933244607212347e-06,
      "loss": 1.0023,
      "step": 1987
    },
    {
      "epoch": 0.10941713908305355,
      "grad_norm": 0.774153470993042,
      "learning_rate": 9.93317399360043e-06,
      "loss": 0.7877,
      "step": 1988
    },
    {
      "epoch": 0.10947217788540921,
      "grad_norm": 0.848495364189148,
      "learning_rate": 9.933103342912096e-06,
      "loss": 0.8825,
      "step": 1989
    },
    {
      "epoch": 0.10952721668776487,
      "grad_norm": 0.806408166885376,
      "learning_rate": 9.933032655147881e-06,
      "loss": 0.7389,
      "step": 1990
    },
    {
      "epoch": 0.10958225549012053,
      "grad_norm": 0.8579222559928894,
      "learning_rate": 9.932961930308312e-06,
      "loss": 0.8283,
      "step": 1991
    },
    {
      "epoch": 0.10963729429247619,
      "grad_norm": 0.7548109292984009,
      "learning_rate": 9.93289116839392e-06,
      "loss": 0.7971,
      "step": 1992
    },
    {
      "epoch": 0.10969233309483185,
      "grad_norm": 0.7954711318016052,
      "learning_rate": 9.93282036940524e-06,
      "loss": 0.849,
      "step": 1993
    },
    {
      "epoch": 0.10974737189718752,
      "grad_norm": 0.7911425232887268,
      "learning_rate": 9.932749533342802e-06,
      "loss": 0.86,
      "step": 1994
    },
    {
      "epoch": 0.10980241069954318,
      "grad_norm": 0.8505094051361084,
      "learning_rate": 9.932678660207141e-06,
      "loss": 0.7871,
      "step": 1995
    },
    {
      "epoch": 0.10985744950189884,
      "grad_norm": 0.809612512588501,
      "learning_rate": 9.932607749998784e-06,
      "loss": 0.8337,
      "step": 1996
    },
    {
      "epoch": 0.1099124883042545,
      "grad_norm": 0.738523006439209,
      "learning_rate": 9.93253680271827e-06,
      "loss": 0.7634,
      "step": 1997
    },
    {
      "epoch": 0.10996752710661016,
      "grad_norm": 0.8434372544288635,
      "learning_rate": 9.932465818366128e-06,
      "loss": 0.7987,
      "step": 1998
    },
    {
      "epoch": 0.11002256590896582,
      "grad_norm": 0.8068081140518188,
      "learning_rate": 9.932394796942895e-06,
      "loss": 0.9496,
      "step": 1999
    },
    {
      "epoch": 0.11007760471132148,
      "grad_norm": 0.754342794418335,
      "learning_rate": 9.932323738449103e-06,
      "loss": 0.7355,
      "step": 2000
    },
    {
      "epoch": 0.11013264351367714,
      "grad_norm": 0.8830806612968445,
      "learning_rate": 9.932252642885285e-06,
      "loss": 0.8458,
      "step": 2001
    },
    {
      "epoch": 0.1101876823160328,
      "grad_norm": 0.9915485978126526,
      "learning_rate": 9.932181510251977e-06,
      "loss": 0.8116,
      "step": 2002
    },
    {
      "epoch": 0.11024272111838847,
      "grad_norm": 0.858368992805481,
      "learning_rate": 9.932110340549712e-06,
      "loss": 0.8354,
      "step": 2003
    },
    {
      "epoch": 0.11029775992074413,
      "grad_norm": 0.8591521382331848,
      "learning_rate": 9.932039133779028e-06,
      "loss": 0.8316,
      "step": 2004
    },
    {
      "epoch": 0.11035279872309979,
      "grad_norm": 0.8714838624000549,
      "learning_rate": 9.931967889940455e-06,
      "loss": 0.8106,
      "step": 2005
    },
    {
      "epoch": 0.11040783752545545,
      "grad_norm": 0.8082797527313232,
      "learning_rate": 9.931896609034534e-06,
      "loss": 0.7762,
      "step": 2006
    },
    {
      "epoch": 0.11046287632781111,
      "grad_norm": 0.9226199984550476,
      "learning_rate": 9.931825291061797e-06,
      "loss": 0.8641,
      "step": 2007
    },
    {
      "epoch": 0.11051791513016677,
      "grad_norm": 0.8883050680160522,
      "learning_rate": 9.931753936022783e-06,
      "loss": 0.9014,
      "step": 2008
    },
    {
      "epoch": 0.11057295393252242,
      "grad_norm": 0.9024807810783386,
      "learning_rate": 9.931682543918024e-06,
      "loss": 0.9085,
      "step": 2009
    },
    {
      "epoch": 0.11062799273487808,
      "grad_norm": 0.8381460905075073,
      "learning_rate": 9.931611114748062e-06,
      "loss": 0.8043,
      "step": 2010
    },
    {
      "epoch": 0.11068303153723374,
      "grad_norm": 1.1222339868545532,
      "learning_rate": 9.931539648513429e-06,
      "loss": 0.8388,
      "step": 2011
    },
    {
      "epoch": 0.1107380703395894,
      "grad_norm": 0.9710868000984192,
      "learning_rate": 9.931468145214665e-06,
      "loss": 0.8934,
      "step": 2012
    },
    {
      "epoch": 0.11079310914194507,
      "grad_norm": 0.9821141958236694,
      "learning_rate": 9.931396604852304e-06,
      "loss": 0.931,
      "step": 2013
    },
    {
      "epoch": 0.11084814794430073,
      "grad_norm": 1.0658717155456543,
      "learning_rate": 9.931325027426889e-06,
      "loss": 0.9032,
      "step": 2014
    },
    {
      "epoch": 0.11090318674665639,
      "grad_norm": 0.8836946487426758,
      "learning_rate": 9.931253412938956e-06,
      "loss": 0.9131,
      "step": 2015
    },
    {
      "epoch": 0.11095822554901205,
      "grad_norm": 0.8438361883163452,
      "learning_rate": 9.93118176138904e-06,
      "loss": 0.8674,
      "step": 2016
    },
    {
      "epoch": 0.11101326435136771,
      "grad_norm": 0.928142786026001,
      "learning_rate": 9.93111007277768e-06,
      "loss": 0.8882,
      "step": 2017
    },
    {
      "epoch": 0.11106830315372337,
      "grad_norm": 0.9176276922225952,
      "learning_rate": 9.93103834710542e-06,
      "loss": 0.8904,
      "step": 2018
    },
    {
      "epoch": 0.11112334195607904,
      "grad_norm": 1.0462889671325684,
      "learning_rate": 9.930966584372795e-06,
      "loss": 0.8029,
      "step": 2019
    },
    {
      "epoch": 0.1111783807584347,
      "grad_norm": 0.7627375721931458,
      "learning_rate": 9.930894784580344e-06,
      "loss": 0.8474,
      "step": 2020
    },
    {
      "epoch": 0.11123341956079036,
      "grad_norm": 1.0545588731765747,
      "learning_rate": 9.93082294772861e-06,
      "loss": 0.7985,
      "step": 2021
    },
    {
      "epoch": 0.11128845836314602,
      "grad_norm": 0.9752298593521118,
      "learning_rate": 9.93075107381813e-06,
      "loss": 0.8725,
      "step": 2022
    },
    {
      "epoch": 0.11134349716550168,
      "grad_norm": 0.8403159379959106,
      "learning_rate": 9.930679162849444e-06,
      "loss": 0.8854,
      "step": 2023
    },
    {
      "epoch": 0.11139853596785734,
      "grad_norm": 0.8879380226135254,
      "learning_rate": 9.930607214823094e-06,
      "loss": 0.7269,
      "step": 2024
    },
    {
      "epoch": 0.111453574770213,
      "grad_norm": 0.907256543636322,
      "learning_rate": 9.930535229739618e-06,
      "loss": 0.8145,
      "step": 2025
    },
    {
      "epoch": 0.11150861357256867,
      "grad_norm": 1.1066968441009521,
      "learning_rate": 9.93046320759956e-06,
      "loss": 0.9281,
      "step": 2026
    },
    {
      "epoch": 0.11156365237492433,
      "grad_norm": 0.9226258397102356,
      "learning_rate": 9.930391148403462e-06,
      "loss": 0.9048,
      "step": 2027
    },
    {
      "epoch": 0.11161869117727999,
      "grad_norm": 0.9652156829833984,
      "learning_rate": 9.930319052151862e-06,
      "loss": 0.9321,
      "step": 2028
    },
    {
      "epoch": 0.11167372997963565,
      "grad_norm": 0.9102638363838196,
      "learning_rate": 9.930246918845305e-06,
      "loss": 0.8169,
      "step": 2029
    },
    {
      "epoch": 0.1117287687819913,
      "grad_norm": 0.7765716314315796,
      "learning_rate": 9.93017474848433e-06,
      "loss": 0.7691,
      "step": 2030
    },
    {
      "epoch": 0.11178380758434696,
      "grad_norm": 0.9053775072097778,
      "learning_rate": 9.930102541069484e-06,
      "loss": 0.782,
      "step": 2031
    },
    {
      "epoch": 0.11183884638670262,
      "grad_norm": 0.8892827033996582,
      "learning_rate": 9.930030296601306e-06,
      "loss": 0.8575,
      "step": 2032
    },
    {
      "epoch": 0.11189388518905828,
      "grad_norm": 0.8947604894638062,
      "learning_rate": 9.929958015080339e-06,
      "loss": 0.8607,
      "step": 2033
    },
    {
      "epoch": 0.11194892399141394,
      "grad_norm": 0.8936871290206909,
      "learning_rate": 9.929885696507127e-06,
      "loss": 0.8111,
      "step": 2034
    },
    {
      "epoch": 0.1120039627937696,
      "grad_norm": 0.9579165577888489,
      "learning_rate": 9.929813340882214e-06,
      "loss": 0.911,
      "step": 2035
    },
    {
      "epoch": 0.11205900159612527,
      "grad_norm": 0.7885386347770691,
      "learning_rate": 9.929740948206146e-06,
      "loss": 0.8074,
      "step": 2036
    },
    {
      "epoch": 0.11211404039848093,
      "grad_norm": 0.817939281463623,
      "learning_rate": 9.929668518479462e-06,
      "loss": 0.8451,
      "step": 2037
    },
    {
      "epoch": 0.11216907920083659,
      "grad_norm": 0.8695761561393738,
      "learning_rate": 9.92959605170271e-06,
      "loss": 0.7158,
      "step": 2038
    },
    {
      "epoch": 0.11222411800319225,
      "grad_norm": 0.8569639325141907,
      "learning_rate": 9.929523547876433e-06,
      "loss": 0.8568,
      "step": 2039
    },
    {
      "epoch": 0.11227915680554791,
      "grad_norm": 0.8569897413253784,
      "learning_rate": 9.929451007001176e-06,
      "loss": 0.8971,
      "step": 2040
    },
    {
      "epoch": 0.11233419560790357,
      "grad_norm": 0.8520069718360901,
      "learning_rate": 9.929378429077487e-06,
      "loss": 0.9027,
      "step": 2041
    },
    {
      "epoch": 0.11238923441025923,
      "grad_norm": 0.9338961839675903,
      "learning_rate": 9.929305814105907e-06,
      "loss": 0.8646,
      "step": 2042
    },
    {
      "epoch": 0.1124442732126149,
      "grad_norm": 0.8497192859649658,
      "learning_rate": 9.929233162086985e-06,
      "loss": 0.9068,
      "step": 2043
    },
    {
      "epoch": 0.11249931201497056,
      "grad_norm": 0.8570863008499146,
      "learning_rate": 9.929160473021267e-06,
      "loss": 0.962,
      "step": 2044
    },
    {
      "epoch": 0.11255435081732622,
      "grad_norm": 0.9072359800338745,
      "learning_rate": 9.929087746909296e-06,
      "loss": 0.8454,
      "step": 2045
    },
    {
      "epoch": 0.11260938961968188,
      "grad_norm": 0.7920698523521423,
      "learning_rate": 9.929014983751623e-06,
      "loss": 0.8031,
      "step": 2046
    },
    {
      "epoch": 0.11266442842203754,
      "grad_norm": 1.0180169343948364,
      "learning_rate": 9.928942183548791e-06,
      "loss": 0.7759,
      "step": 2047
    },
    {
      "epoch": 0.1127194672243932,
      "grad_norm": 0.8746892809867859,
      "learning_rate": 9.928869346301351e-06,
      "loss": 0.9038,
      "step": 2048
    },
    {
      "epoch": 0.11277450602674886,
      "grad_norm": 0.8283438086509705,
      "learning_rate": 9.928796472009846e-06,
      "loss": 0.8883,
      "step": 2049
    },
    {
      "epoch": 0.11282954482910452,
      "grad_norm": 1.321917176246643,
      "learning_rate": 9.928723560674828e-06,
      "loss": 0.835,
      "step": 2050
    },
    {
      "epoch": 0.11288458363146017,
      "grad_norm": 0.9356202483177185,
      "learning_rate": 9.928650612296841e-06,
      "loss": 0.8077,
      "step": 2051
    },
    {
      "epoch": 0.11293962243381583,
      "grad_norm": 0.8493767380714417,
      "learning_rate": 9.928577626876439e-06,
      "loss": 0.8295,
      "step": 2052
    },
    {
      "epoch": 0.1129946612361715,
      "grad_norm": 0.784818708896637,
      "learning_rate": 9.928504604414164e-06,
      "loss": 0.8322,
      "step": 2053
    },
    {
      "epoch": 0.11304970003852716,
      "grad_norm": 0.9095364809036255,
      "learning_rate": 9.928431544910567e-06,
      "loss": 0.8757,
      "step": 2054
    },
    {
      "epoch": 0.11310473884088282,
      "grad_norm": 0.8889689445495605,
      "learning_rate": 9.9283584483662e-06,
      "loss": 0.8583,
      "step": 2055
    },
    {
      "epoch": 0.11315977764323848,
      "grad_norm": 0.8702652454376221,
      "learning_rate": 9.928285314781607e-06,
      "loss": 0.8414,
      "step": 2056
    },
    {
      "epoch": 0.11321481644559414,
      "grad_norm": 0.8531168699264526,
      "learning_rate": 9.928212144157342e-06,
      "loss": 0.7844,
      "step": 2057
    },
    {
      "epoch": 0.1132698552479498,
      "grad_norm": 1.0250271558761597,
      "learning_rate": 9.928138936493956e-06,
      "loss": 0.8766,
      "step": 2058
    },
    {
      "epoch": 0.11332489405030546,
      "grad_norm": 0.7963449358940125,
      "learning_rate": 9.928065691791996e-06,
      "loss": 0.8166,
      "step": 2059
    },
    {
      "epoch": 0.11337993285266112,
      "grad_norm": 1.1033011674880981,
      "learning_rate": 9.927992410052013e-06,
      "loss": 0.8748,
      "step": 2060
    },
    {
      "epoch": 0.11343497165501679,
      "grad_norm": 0.8760959506034851,
      "learning_rate": 9.927919091274558e-06,
      "loss": 0.8623,
      "step": 2061
    },
    {
      "epoch": 0.11349001045737245,
      "grad_norm": 1.1783028841018677,
      "learning_rate": 9.927845735460182e-06,
      "loss": 0.9144,
      "step": 2062
    },
    {
      "epoch": 0.11354504925972811,
      "grad_norm": 0.8868625164031982,
      "learning_rate": 9.927772342609437e-06,
      "loss": 0.8614,
      "step": 2063
    },
    {
      "epoch": 0.11360008806208377,
      "grad_norm": 0.8784704804420471,
      "learning_rate": 9.927698912722874e-06,
      "loss": 0.7802,
      "step": 2064
    },
    {
      "epoch": 0.11365512686443943,
      "grad_norm": 1.0090643167495728,
      "learning_rate": 9.927625445801046e-06,
      "loss": 0.8876,
      "step": 2065
    },
    {
      "epoch": 0.1137101656667951,
      "grad_norm": 0.7624390721321106,
      "learning_rate": 9.927551941844502e-06,
      "loss": 0.794,
      "step": 2066
    },
    {
      "epoch": 0.11376520446915075,
      "grad_norm": 0.7814189791679382,
      "learning_rate": 9.927478400853798e-06,
      "loss": 0.8176,
      "step": 2067
    },
    {
      "epoch": 0.11382024327150642,
      "grad_norm": 0.876338541507721,
      "learning_rate": 9.927404822829486e-06,
      "loss": 0.8634,
      "step": 2068
    },
    {
      "epoch": 0.11387528207386208,
      "grad_norm": 0.7931430339813232,
      "learning_rate": 9.927331207772117e-06,
      "loss": 0.8012,
      "step": 2069
    },
    {
      "epoch": 0.11393032087621774,
      "grad_norm": 1.0064504146575928,
      "learning_rate": 9.927257555682246e-06,
      "loss": 0.8321,
      "step": 2070
    },
    {
      "epoch": 0.1139853596785734,
      "grad_norm": 0.8233053684234619,
      "learning_rate": 9.927183866560425e-06,
      "loss": 0.8004,
      "step": 2071
    },
    {
      "epoch": 0.11404039848092906,
      "grad_norm": 1.0106632709503174,
      "learning_rate": 9.927110140407211e-06,
      "loss": 0.8627,
      "step": 2072
    },
    {
      "epoch": 0.11409543728328471,
      "grad_norm": 0.8262843489646912,
      "learning_rate": 9.927036377223155e-06,
      "loss": 0.737,
      "step": 2073
    },
    {
      "epoch": 0.11415047608564037,
      "grad_norm": 0.9349029660224915,
      "learning_rate": 9.926962577008813e-06,
      "loss": 0.9049,
      "step": 2074
    },
    {
      "epoch": 0.11420551488799603,
      "grad_norm": 0.8689929842948914,
      "learning_rate": 9.926888739764739e-06,
      "loss": 0.7858,
      "step": 2075
    },
    {
      "epoch": 0.1142605536903517,
      "grad_norm": 0.8442347645759583,
      "learning_rate": 9.926814865491487e-06,
      "loss": 0.8145,
      "step": 2076
    },
    {
      "epoch": 0.11431559249270735,
      "grad_norm": 0.9143397212028503,
      "learning_rate": 9.926740954189615e-06,
      "loss": 0.8025,
      "step": 2077
    },
    {
      "epoch": 0.11437063129506302,
      "grad_norm": 1.293251395225525,
      "learning_rate": 9.926667005859676e-06,
      "loss": 1.0256,
      "step": 2078
    },
    {
      "epoch": 0.11442567009741868,
      "grad_norm": 0.9661351442337036,
      "learning_rate": 9.926593020502226e-06,
      "loss": 0.991,
      "step": 2079
    },
    {
      "epoch": 0.11448070889977434,
      "grad_norm": 0.8110861778259277,
      "learning_rate": 9.926518998117823e-06,
      "loss": 0.7129,
      "step": 2080
    },
    {
      "epoch": 0.11453574770213,
      "grad_norm": 0.8351119160652161,
      "learning_rate": 9.92644493870702e-06,
      "loss": 0.8894,
      "step": 2081
    },
    {
      "epoch": 0.11459078650448566,
      "grad_norm": 0.8492733240127563,
      "learning_rate": 9.926370842270377e-06,
      "loss": 0.8039,
      "step": 2082
    },
    {
      "epoch": 0.11464582530684132,
      "grad_norm": 0.895353376865387,
      "learning_rate": 9.92629670880845e-06,
      "loss": 0.8743,
      "step": 2083
    },
    {
      "epoch": 0.11470086410919698,
      "grad_norm": 0.7871271967887878,
      "learning_rate": 9.926222538321795e-06,
      "loss": 0.8426,
      "step": 2084
    },
    {
      "epoch": 0.11475590291155265,
      "grad_norm": 0.8904643058776855,
      "learning_rate": 9.92614833081097e-06,
      "loss": 0.8454,
      "step": 2085
    },
    {
      "epoch": 0.11481094171390831,
      "grad_norm": 0.9166308641433716,
      "learning_rate": 9.926074086276532e-06,
      "loss": 0.9162,
      "step": 2086
    },
    {
      "epoch": 0.11486598051626397,
      "grad_norm": 0.8730728626251221,
      "learning_rate": 9.92599980471904e-06,
      "loss": 0.8524,
      "step": 2087
    },
    {
      "epoch": 0.11492101931861963,
      "grad_norm": 0.7932829260826111,
      "learning_rate": 9.925925486139052e-06,
      "loss": 0.7838,
      "step": 2088
    },
    {
      "epoch": 0.11497605812097529,
      "grad_norm": 1.0033760070800781,
      "learning_rate": 9.925851130537127e-06,
      "loss": 0.8746,
      "step": 2089
    },
    {
      "epoch": 0.11503109692333095,
      "grad_norm": 0.7783192992210388,
      "learning_rate": 9.925776737913823e-06,
      "loss": 0.7308,
      "step": 2090
    },
    {
      "epoch": 0.11508613572568661,
      "grad_norm": 0.8441587686538696,
      "learning_rate": 9.925702308269702e-06,
      "loss": 0.7933,
      "step": 2091
    },
    {
      "epoch": 0.11514117452804228,
      "grad_norm": 0.9433023929595947,
      "learning_rate": 9.925627841605319e-06,
      "loss": 0.7857,
      "step": 2092
    },
    {
      "epoch": 0.11519621333039794,
      "grad_norm": 0.8958256244659424,
      "learning_rate": 9.925553337921235e-06,
      "loss": 0.9116,
      "step": 2093
    },
    {
      "epoch": 0.11525125213275358,
      "grad_norm": 0.7610845565795898,
      "learning_rate": 9.925478797218011e-06,
      "loss": 0.8006,
      "step": 2094
    },
    {
      "epoch": 0.11530629093510925,
      "grad_norm": 0.7977023720741272,
      "learning_rate": 9.925404219496207e-06,
      "loss": 0.8068,
      "step": 2095
    },
    {
      "epoch": 0.11536132973746491,
      "grad_norm": 0.8087283372879028,
      "learning_rate": 9.925329604756383e-06,
      "loss": 0.7968,
      "step": 2096
    },
    {
      "epoch": 0.11541636853982057,
      "grad_norm": 1.1066477298736572,
      "learning_rate": 9.925254952999102e-06,
      "loss": 0.8167,
      "step": 2097
    },
    {
      "epoch": 0.11547140734217623,
      "grad_norm": 0.7806832194328308,
      "learning_rate": 9.925180264224921e-06,
      "loss": 0.8069,
      "step": 2098
    },
    {
      "epoch": 0.11552644614453189,
      "grad_norm": 0.7745190858840942,
      "learning_rate": 9.925105538434406e-06,
      "loss": 0.7968,
      "step": 2099
    },
    {
      "epoch": 0.11558148494688755,
      "grad_norm": 0.9045543074607849,
      "learning_rate": 9.925030775628113e-06,
      "loss": 0.8417,
      "step": 2100
    },
    {
      "epoch": 0.11563652374924321,
      "grad_norm": 1.2962623834609985,
      "learning_rate": 9.924955975806608e-06,
      "loss": 0.8162,
      "step": 2101
    },
    {
      "epoch": 0.11569156255159888,
      "grad_norm": 0.8571485877037048,
      "learning_rate": 9.924881138970453e-06,
      "loss": 0.8581,
      "step": 2102
    },
    {
      "epoch": 0.11574660135395454,
      "grad_norm": 0.8326650857925415,
      "learning_rate": 9.92480626512021e-06,
      "loss": 0.8438,
      "step": 2103
    },
    {
      "epoch": 0.1158016401563102,
      "grad_norm": 0.7973701357841492,
      "learning_rate": 9.924731354256441e-06,
      "loss": 0.8337,
      "step": 2104
    },
    {
      "epoch": 0.11585667895866586,
      "grad_norm": 0.8614075779914856,
      "learning_rate": 9.924656406379708e-06,
      "loss": 0.8275,
      "step": 2105
    },
    {
      "epoch": 0.11591171776102152,
      "grad_norm": 0.7911350131034851,
      "learning_rate": 9.924581421490577e-06,
      "loss": 0.8032,
      "step": 2106
    },
    {
      "epoch": 0.11596675656337718,
      "grad_norm": 0.8763116598129272,
      "learning_rate": 9.92450639958961e-06,
      "loss": 0.8725,
      "step": 2107
    },
    {
      "epoch": 0.11602179536573284,
      "grad_norm": 0.9754133224487305,
      "learning_rate": 9.92443134067737e-06,
      "loss": 0.9115,
      "step": 2108
    },
    {
      "epoch": 0.1160768341680885,
      "grad_norm": 0.7783731818199158,
      "learning_rate": 9.924356244754425e-06,
      "loss": 0.8223,
      "step": 2109
    },
    {
      "epoch": 0.11613187297044417,
      "grad_norm": 0.865301787853241,
      "learning_rate": 9.924281111821335e-06,
      "loss": 0.8053,
      "step": 2110
    },
    {
      "epoch": 0.11618691177279983,
      "grad_norm": 0.8654297590255737,
      "learning_rate": 9.924205941878666e-06,
      "loss": 0.716,
      "step": 2111
    },
    {
      "epoch": 0.11624195057515549,
      "grad_norm": 0.7646550536155701,
      "learning_rate": 9.924130734926982e-06,
      "loss": 0.8027,
      "step": 2112
    },
    {
      "epoch": 0.11629698937751115,
      "grad_norm": 0.810587465763092,
      "learning_rate": 9.924055490966851e-06,
      "loss": 0.7416,
      "step": 2113
    },
    {
      "epoch": 0.11635202817986681,
      "grad_norm": 0.8610082268714905,
      "learning_rate": 9.923980209998838e-06,
      "loss": 0.8527,
      "step": 2114
    },
    {
      "epoch": 0.11640706698222247,
      "grad_norm": 0.8409233689308167,
      "learning_rate": 9.923904892023506e-06,
      "loss": 0.8169,
      "step": 2115
    },
    {
      "epoch": 0.11646210578457812,
      "grad_norm": 0.7786587476730347,
      "learning_rate": 9.923829537041425e-06,
      "loss": 0.6897,
      "step": 2116
    },
    {
      "epoch": 0.11651714458693378,
      "grad_norm": 0.852908730506897,
      "learning_rate": 9.923754145053158e-06,
      "loss": 0.7821,
      "step": 2117
    },
    {
      "epoch": 0.11657218338928944,
      "grad_norm": 0.9130391478538513,
      "learning_rate": 9.923678716059273e-06,
      "loss": 1.0377,
      "step": 2118
    },
    {
      "epoch": 0.1166272221916451,
      "grad_norm": 0.8371701240539551,
      "learning_rate": 9.923603250060336e-06,
      "loss": 0.8312,
      "step": 2119
    },
    {
      "epoch": 0.11668226099400077,
      "grad_norm": 0.8045756220817566,
      "learning_rate": 9.923527747056916e-06,
      "loss": 0.7971,
      "step": 2120
    },
    {
      "epoch": 0.11673729979635643,
      "grad_norm": 0.8832160234451294,
      "learning_rate": 9.923452207049577e-06,
      "loss": 0.7362,
      "step": 2121
    },
    {
      "epoch": 0.11679233859871209,
      "grad_norm": 0.8253088593482971,
      "learning_rate": 9.923376630038893e-06,
      "loss": 0.8177,
      "step": 2122
    },
    {
      "epoch": 0.11684737740106775,
      "grad_norm": 0.7953168749809265,
      "learning_rate": 9.923301016025424e-06,
      "loss": 0.7053,
      "step": 2123
    },
    {
      "epoch": 0.11690241620342341,
      "grad_norm": 0.7256457805633545,
      "learning_rate": 9.923225365009745e-06,
      "loss": 0.7554,
      "step": 2124
    },
    {
      "epoch": 0.11695745500577907,
      "grad_norm": 0.9896693229675293,
      "learning_rate": 9.923149676992424e-06,
      "loss": 0.8285,
      "step": 2125
    },
    {
      "epoch": 0.11701249380813473,
      "grad_norm": 0.7846312522888184,
      "learning_rate": 9.923073951974023e-06,
      "loss": 0.7527,
      "step": 2126
    },
    {
      "epoch": 0.1170675326104904,
      "grad_norm": 0.8949825167655945,
      "learning_rate": 9.92299818995512e-06,
      "loss": 0.8545,
      "step": 2127
    },
    {
      "epoch": 0.11712257141284606,
      "grad_norm": 1.0023548603057861,
      "learning_rate": 9.922922390936278e-06,
      "loss": 0.7668,
      "step": 2128
    },
    {
      "epoch": 0.11717761021520172,
      "grad_norm": 0.8663881421089172,
      "learning_rate": 9.92284655491807e-06,
      "loss": 0.8073,
      "step": 2129
    },
    {
      "epoch": 0.11723264901755738,
      "grad_norm": 0.8274385929107666,
      "learning_rate": 9.922770681901064e-06,
      "loss": 0.9002,
      "step": 2130
    },
    {
      "epoch": 0.11728768781991304,
      "grad_norm": 0.8508959412574768,
      "learning_rate": 9.922694771885832e-06,
      "loss": 0.9325,
      "step": 2131
    },
    {
      "epoch": 0.1173427266222687,
      "grad_norm": 0.8176792860031128,
      "learning_rate": 9.922618824872946e-06,
      "loss": 0.8415,
      "step": 2132
    },
    {
      "epoch": 0.11739776542462436,
      "grad_norm": 0.770951509475708,
      "learning_rate": 9.922542840862971e-06,
      "loss": 0.8051,
      "step": 2133
    },
    {
      "epoch": 0.11745280422698003,
      "grad_norm": 0.8558167219161987,
      "learning_rate": 9.922466819856484e-06,
      "loss": 0.85,
      "step": 2134
    },
    {
      "epoch": 0.11750784302933569,
      "grad_norm": 0.8288151025772095,
      "learning_rate": 9.922390761854053e-06,
      "loss": 0.8141,
      "step": 2135
    },
    {
      "epoch": 0.11756288183169135,
      "grad_norm": 0.8220882415771484,
      "learning_rate": 9.922314666856252e-06,
      "loss": 0.8109,
      "step": 2136
    },
    {
      "epoch": 0.117617920634047,
      "grad_norm": 0.7875000238418579,
      "learning_rate": 9.92223853486365e-06,
      "loss": 0.9085,
      "step": 2137
    },
    {
      "epoch": 0.11767295943640266,
      "grad_norm": 0.8052374124526978,
      "learning_rate": 9.922162365876822e-06,
      "loss": 0.8785,
      "step": 2138
    },
    {
      "epoch": 0.11772799823875832,
      "grad_norm": 1.0311180353164673,
      "learning_rate": 9.922086159896338e-06,
      "loss": 0.9112,
      "step": 2139
    },
    {
      "epoch": 0.11778303704111398,
      "grad_norm": 0.943911075592041,
      "learning_rate": 9.922009916922773e-06,
      "loss": 0.8332,
      "step": 2140
    },
    {
      "epoch": 0.11783807584346964,
      "grad_norm": 0.8156648278236389,
      "learning_rate": 9.921933636956697e-06,
      "loss": 0.8837,
      "step": 2141
    },
    {
      "epoch": 0.1178931146458253,
      "grad_norm": 0.860292375087738,
      "learning_rate": 9.921857319998688e-06,
      "loss": 0.7963,
      "step": 2142
    },
    {
      "epoch": 0.11794815344818096,
      "grad_norm": 0.8861456513404846,
      "learning_rate": 9.921780966049315e-06,
      "loss": 0.8335,
      "step": 2143
    },
    {
      "epoch": 0.11800319225053663,
      "grad_norm": 0.793533205986023,
      "learning_rate": 9.921704575109155e-06,
      "loss": 0.7881,
      "step": 2144
    },
    {
      "epoch": 0.11805823105289229,
      "grad_norm": 0.8039320111274719,
      "learning_rate": 9.921628147178781e-06,
      "loss": 0.8369,
      "step": 2145
    },
    {
      "epoch": 0.11811326985524795,
      "grad_norm": 0.8785450458526611,
      "learning_rate": 9.921551682258765e-06,
      "loss": 0.7981,
      "step": 2146
    },
    {
      "epoch": 0.11816830865760361,
      "grad_norm": 0.810251772403717,
      "learning_rate": 9.921475180349687e-06,
      "loss": 0.7926,
      "step": 2147
    },
    {
      "epoch": 0.11822334745995927,
      "grad_norm": 0.8470801115036011,
      "learning_rate": 9.921398641452117e-06,
      "loss": 0.8061,
      "step": 2148
    },
    {
      "epoch": 0.11827838626231493,
      "grad_norm": 0.8147469162940979,
      "learning_rate": 9.921322065566633e-06,
      "loss": 0.7906,
      "step": 2149
    },
    {
      "epoch": 0.1183334250646706,
      "grad_norm": 0.8792327046394348,
      "learning_rate": 9.92124545269381e-06,
      "loss": 0.9025,
      "step": 2150
    },
    {
      "epoch": 0.11838846386702626,
      "grad_norm": 0.794607400894165,
      "learning_rate": 9.921168802834223e-06,
      "loss": 0.8284,
      "step": 2151
    },
    {
      "epoch": 0.11844350266938192,
      "grad_norm": 0.8601556420326233,
      "learning_rate": 9.921092115988447e-06,
      "loss": 0.8196,
      "step": 2152
    },
    {
      "epoch": 0.11849854147173758,
      "grad_norm": 0.786967933177948,
      "learning_rate": 9.921015392157062e-06,
      "loss": 0.8744,
      "step": 2153
    },
    {
      "epoch": 0.11855358027409324,
      "grad_norm": 0.8481432199478149,
      "learning_rate": 9.920938631340641e-06,
      "loss": 0.7206,
      "step": 2154
    },
    {
      "epoch": 0.1186086190764489,
      "grad_norm": 0.8025142550468445,
      "learning_rate": 9.920861833539765e-06,
      "loss": 0.8126,
      "step": 2155
    },
    {
      "epoch": 0.11866365787880456,
      "grad_norm": 0.9853057265281677,
      "learning_rate": 9.920784998755006e-06,
      "loss": 0.8883,
      "step": 2156
    },
    {
      "epoch": 0.11871869668116022,
      "grad_norm": 1.0008476972579956,
      "learning_rate": 9.920708126986947e-06,
      "loss": 0.9326,
      "step": 2157
    },
    {
      "epoch": 0.11877373548351589,
      "grad_norm": 0.837347686290741,
      "learning_rate": 9.920631218236161e-06,
      "loss": 0.9002,
      "step": 2158
    },
    {
      "epoch": 0.11882877428587153,
      "grad_norm": 0.7866735458374023,
      "learning_rate": 9.920554272503227e-06,
      "loss": 0.765,
      "step": 2159
    },
    {
      "epoch": 0.1188838130882272,
      "grad_norm": 0.8714935779571533,
      "learning_rate": 9.920477289788726e-06,
      "loss": 1.0294,
      "step": 2160
    },
    {
      "epoch": 0.11893885189058286,
      "grad_norm": 1.0671826601028442,
      "learning_rate": 9.920400270093234e-06,
      "loss": 0.8341,
      "step": 2161
    },
    {
      "epoch": 0.11899389069293852,
      "grad_norm": 0.8594604134559631,
      "learning_rate": 9.92032321341733e-06,
      "loss": 0.8731,
      "step": 2162
    },
    {
      "epoch": 0.11904892949529418,
      "grad_norm": 0.8387738466262817,
      "learning_rate": 9.920246119761597e-06,
      "loss": 0.7898,
      "step": 2163
    },
    {
      "epoch": 0.11910396829764984,
      "grad_norm": 0.8957195281982422,
      "learning_rate": 9.920168989126608e-06,
      "loss": 0.8475,
      "step": 2164
    },
    {
      "epoch": 0.1191590071000055,
      "grad_norm": 0.8224207162857056,
      "learning_rate": 9.920091821512948e-06,
      "loss": 0.7944,
      "step": 2165
    },
    {
      "epoch": 0.11921404590236116,
      "grad_norm": 1.0309031009674072,
      "learning_rate": 9.920014616921192e-06,
      "loss": 0.8992,
      "step": 2166
    },
    {
      "epoch": 0.11926908470471682,
      "grad_norm": 0.7300832271575928,
      "learning_rate": 9.919937375351925e-06,
      "loss": 0.7016,
      "step": 2167
    },
    {
      "epoch": 0.11932412350707249,
      "grad_norm": 0.7565537691116333,
      "learning_rate": 9.919860096805724e-06,
      "loss": 0.8113,
      "step": 2168
    },
    {
      "epoch": 0.11937916230942815,
      "grad_norm": 1.0101505517959595,
      "learning_rate": 9.919782781283174e-06,
      "loss": 0.8765,
      "step": 2169
    },
    {
      "epoch": 0.11943420111178381,
      "grad_norm": 0.8369461894035339,
      "learning_rate": 9.919705428784852e-06,
      "loss": 0.8248,
      "step": 2170
    },
    {
      "epoch": 0.11948923991413947,
      "grad_norm": 0.8106105327606201,
      "learning_rate": 9.919628039311342e-06,
      "loss": 0.8585,
      "step": 2171
    },
    {
      "epoch": 0.11954427871649513,
      "grad_norm": 0.7863745093345642,
      "learning_rate": 9.919550612863224e-06,
      "loss": 0.8393,
      "step": 2172
    },
    {
      "epoch": 0.11959931751885079,
      "grad_norm": 0.8664719462394714,
      "learning_rate": 9.919473149441081e-06,
      "loss": 0.8882,
      "step": 2173
    },
    {
      "epoch": 0.11965435632120645,
      "grad_norm": 0.6977574825286865,
      "learning_rate": 9.919395649045494e-06,
      "loss": 0.7264,
      "step": 2174
    },
    {
      "epoch": 0.11970939512356212,
      "grad_norm": 0.8000102639198303,
      "learning_rate": 9.919318111677045e-06,
      "loss": 0.7828,
      "step": 2175
    },
    {
      "epoch": 0.11976443392591778,
      "grad_norm": 0.868228018283844,
      "learning_rate": 9.91924053733632e-06,
      "loss": 0.7904,
      "step": 2176
    },
    {
      "epoch": 0.11981947272827344,
      "grad_norm": 0.839080274105072,
      "learning_rate": 9.9191629260239e-06,
      "loss": 0.7663,
      "step": 2177
    },
    {
      "epoch": 0.1198745115306291,
      "grad_norm": 0.8222747445106506,
      "learning_rate": 9.919085277740366e-06,
      "loss": 0.7208,
      "step": 2178
    },
    {
      "epoch": 0.11992955033298476,
      "grad_norm": 1.4550986289978027,
      "learning_rate": 9.919007592486304e-06,
      "loss": 0.8154,
      "step": 2179
    },
    {
      "epoch": 0.11998458913534041,
      "grad_norm": 0.9110257625579834,
      "learning_rate": 9.9189298702623e-06,
      "loss": 0.8134,
      "step": 2180
    },
    {
      "epoch": 0.12003962793769607,
      "grad_norm": 0.84796142578125,
      "learning_rate": 9.918852111068935e-06,
      "loss": 0.8074,
      "step": 2181
    },
    {
      "epoch": 0.12009466674005173,
      "grad_norm": 0.8134179711341858,
      "learning_rate": 9.918774314906793e-06,
      "loss": 0.6335,
      "step": 2182
    },
    {
      "epoch": 0.12014970554240739,
      "grad_norm": 0.8481448888778687,
      "learning_rate": 9.918696481776461e-06,
      "loss": 0.8804,
      "step": 2183
    },
    {
      "epoch": 0.12020474434476305,
      "grad_norm": 0.88057941198349,
      "learning_rate": 9.918618611678523e-06,
      "loss": 0.9326,
      "step": 2184
    },
    {
      "epoch": 0.12025978314711872,
      "grad_norm": 0.8435977697372437,
      "learning_rate": 9.918540704613564e-06,
      "loss": 0.8141,
      "step": 2185
    },
    {
      "epoch": 0.12031482194947438,
      "grad_norm": 0.8186982870101929,
      "learning_rate": 9.918462760582169e-06,
      "loss": 0.837,
      "step": 2186
    },
    {
      "epoch": 0.12036986075183004,
      "grad_norm": 0.887783944606781,
      "learning_rate": 9.918384779584924e-06,
      "loss": 0.8062,
      "step": 2187
    },
    {
      "epoch": 0.1204248995541857,
      "grad_norm": 0.9368415474891663,
      "learning_rate": 9.918306761622417e-06,
      "loss": 1.0098,
      "step": 2188
    },
    {
      "epoch": 0.12047993835654136,
      "grad_norm": 0.8443986773490906,
      "learning_rate": 9.918228706695232e-06,
      "loss": 0.8178,
      "step": 2189
    },
    {
      "epoch": 0.12053497715889702,
      "grad_norm": 0.7897284626960754,
      "learning_rate": 9.918150614803956e-06,
      "loss": 0.8013,
      "step": 2190
    },
    {
      "epoch": 0.12059001596125268,
      "grad_norm": 0.886012077331543,
      "learning_rate": 9.91807248594918e-06,
      "loss": 0.8141,
      "step": 2191
    },
    {
      "epoch": 0.12064505476360834,
      "grad_norm": 0.8585757613182068,
      "learning_rate": 9.917994320131484e-06,
      "loss": 0.8381,
      "step": 2192
    },
    {
      "epoch": 0.120700093565964,
      "grad_norm": 1.6192269325256348,
      "learning_rate": 9.917916117351459e-06,
      "loss": 0.9082,
      "step": 2193
    },
    {
      "epoch": 0.12075513236831967,
      "grad_norm": 1.160414457321167,
      "learning_rate": 9.917837877609695e-06,
      "loss": 0.8673,
      "step": 2194
    },
    {
      "epoch": 0.12081017117067533,
      "grad_norm": 0.8363412022590637,
      "learning_rate": 9.917759600906775e-06,
      "loss": 0.816,
      "step": 2195
    },
    {
      "epoch": 0.12086520997303099,
      "grad_norm": 0.8344097137451172,
      "learning_rate": 9.917681287243292e-06,
      "loss": 0.8629,
      "step": 2196
    },
    {
      "epoch": 0.12092024877538665,
      "grad_norm": 0.9817582368850708,
      "learning_rate": 9.917602936619834e-06,
      "loss": 0.8106,
      "step": 2197
    },
    {
      "epoch": 0.12097528757774231,
      "grad_norm": 0.8828088641166687,
      "learning_rate": 9.917524549036987e-06,
      "loss": 0.8465,
      "step": 2198
    },
    {
      "epoch": 0.12103032638009797,
      "grad_norm": 0.8428277969360352,
      "learning_rate": 9.917446124495344e-06,
      "loss": 0.7721,
      "step": 2199
    },
    {
      "epoch": 0.12108536518245364,
      "grad_norm": 0.8748664855957031,
      "learning_rate": 9.917367662995489e-06,
      "loss": 0.8679,
      "step": 2200
    },
    {
      "epoch": 0.1211404039848093,
      "grad_norm": 0.8652347922325134,
      "learning_rate": 9.917289164538018e-06,
      "loss": 0.8906,
      "step": 2201
    },
    {
      "epoch": 0.12119544278716494,
      "grad_norm": 1.157142162322998,
      "learning_rate": 9.917210629123518e-06,
      "loss": 0.9046,
      "step": 2202
    },
    {
      "epoch": 0.1212504815895206,
      "grad_norm": 0.8186333179473877,
      "learning_rate": 9.917132056752576e-06,
      "loss": 0.8494,
      "step": 2203
    },
    {
      "epoch": 0.12130552039187627,
      "grad_norm": 0.7769078612327576,
      "learning_rate": 9.917053447425788e-06,
      "loss": 0.8018,
      "step": 2204
    },
    {
      "epoch": 0.12136055919423193,
      "grad_norm": 0.9190469980239868,
      "learning_rate": 9.916974801143742e-06,
      "loss": 0.8206,
      "step": 2205
    },
    {
      "epoch": 0.12141559799658759,
      "grad_norm": 1.2200725078582764,
      "learning_rate": 9.91689611790703e-06,
      "loss": 0.9109,
      "step": 2206
    },
    {
      "epoch": 0.12147063679894325,
      "grad_norm": 0.7902093529701233,
      "learning_rate": 9.916817397716243e-06,
      "loss": 0.8314,
      "step": 2207
    },
    {
      "epoch": 0.12152567560129891,
      "grad_norm": 0.8160610198974609,
      "learning_rate": 9.91673864057197e-06,
      "loss": 0.8605,
      "step": 2208
    },
    {
      "epoch": 0.12158071440365457,
      "grad_norm": 0.833163857460022,
      "learning_rate": 9.916659846474807e-06,
      "loss": 0.8125,
      "step": 2209
    },
    {
      "epoch": 0.12163575320601024,
      "grad_norm": 0.776314377784729,
      "learning_rate": 9.916581015425346e-06,
      "loss": 0.8137,
      "step": 2210
    },
    {
      "epoch": 0.1216907920083659,
      "grad_norm": 0.8525915145874023,
      "learning_rate": 9.916502147424178e-06,
      "loss": 0.8703,
      "step": 2211
    },
    {
      "epoch": 0.12174583081072156,
      "grad_norm": 0.8268684148788452,
      "learning_rate": 9.916423242471895e-06,
      "loss": 0.7775,
      "step": 2212
    },
    {
      "epoch": 0.12180086961307722,
      "grad_norm": 0.8717706799507141,
      "learning_rate": 9.916344300569091e-06,
      "loss": 0.8002,
      "step": 2213
    },
    {
      "epoch": 0.12185590841543288,
      "grad_norm": 0.9499961137771606,
      "learning_rate": 9.91626532171636e-06,
      "loss": 0.8861,
      "step": 2214
    },
    {
      "epoch": 0.12191094721778854,
      "grad_norm": 0.9521885514259338,
      "learning_rate": 9.916186305914296e-06,
      "loss": 0.7602,
      "step": 2215
    },
    {
      "epoch": 0.1219659860201442,
      "grad_norm": 0.8945447206497192,
      "learning_rate": 9.916107253163488e-06,
      "loss": 0.8603,
      "step": 2216
    },
    {
      "epoch": 0.12202102482249987,
      "grad_norm": 0.8232392072677612,
      "learning_rate": 9.916028163464536e-06,
      "loss": 0.8419,
      "step": 2217
    },
    {
      "epoch": 0.12207606362485553,
      "grad_norm": 0.8183467984199524,
      "learning_rate": 9.915949036818032e-06,
      "loss": 0.9038,
      "step": 2218
    },
    {
      "epoch": 0.12213110242721119,
      "grad_norm": 0.7805467247962952,
      "learning_rate": 9.915869873224571e-06,
      "loss": 0.7313,
      "step": 2219
    },
    {
      "epoch": 0.12218614122956685,
      "grad_norm": 0.838101327419281,
      "learning_rate": 9.915790672684749e-06,
      "loss": 0.7973,
      "step": 2220
    },
    {
      "epoch": 0.12224118003192251,
      "grad_norm": 0.7795171141624451,
      "learning_rate": 9.915711435199158e-06,
      "loss": 0.7796,
      "step": 2221
    },
    {
      "epoch": 0.12229621883427817,
      "grad_norm": 0.7971234917640686,
      "learning_rate": 9.915632160768398e-06,
      "loss": 0.8309,
      "step": 2222
    },
    {
      "epoch": 0.12235125763663382,
      "grad_norm": 0.8543851375579834,
      "learning_rate": 9.915552849393061e-06,
      "loss": 0.7826,
      "step": 2223
    },
    {
      "epoch": 0.12240629643898948,
      "grad_norm": 0.9315086007118225,
      "learning_rate": 9.915473501073744e-06,
      "loss": 0.9294,
      "step": 2224
    },
    {
      "epoch": 0.12246133524134514,
      "grad_norm": 0.8794427514076233,
      "learning_rate": 9.915394115811046e-06,
      "loss": 0.8968,
      "step": 2225
    },
    {
      "epoch": 0.1225163740437008,
      "grad_norm": 0.9499204754829407,
      "learning_rate": 9.91531469360556e-06,
      "loss": 0.9841,
      "step": 2226
    },
    {
      "epoch": 0.12257141284605647,
      "grad_norm": 0.9233788251876831,
      "learning_rate": 9.915235234457885e-06,
      "loss": 0.7794,
      "step": 2227
    },
    {
      "epoch": 0.12262645164841213,
      "grad_norm": 0.8971870541572571,
      "learning_rate": 9.915155738368618e-06,
      "loss": 0.919,
      "step": 2228
    },
    {
      "epoch": 0.12268149045076779,
      "grad_norm": 0.8122105002403259,
      "learning_rate": 9.915076205338356e-06,
      "loss": 0.8227,
      "step": 2229
    },
    {
      "epoch": 0.12273652925312345,
      "grad_norm": 0.7878004908561707,
      "learning_rate": 9.914996635367696e-06,
      "loss": 0.7622,
      "step": 2230
    },
    {
      "epoch": 0.12279156805547911,
      "grad_norm": 0.8229606747627258,
      "learning_rate": 9.914917028457238e-06,
      "loss": 0.8265,
      "step": 2231
    },
    {
      "epoch": 0.12284660685783477,
      "grad_norm": 0.8972312808036804,
      "learning_rate": 9.914837384607578e-06,
      "loss": 0.8914,
      "step": 2232
    },
    {
      "epoch": 0.12290164566019043,
      "grad_norm": 0.762922465801239,
      "learning_rate": 9.914757703819318e-06,
      "loss": 0.6853,
      "step": 2233
    },
    {
      "epoch": 0.1229566844625461,
      "grad_norm": 0.8949442505836487,
      "learning_rate": 9.914677986093054e-06,
      "loss": 0.8303,
      "step": 2234
    },
    {
      "epoch": 0.12301172326490176,
      "grad_norm": 1.0220820903778076,
      "learning_rate": 9.914598231429384e-06,
      "loss": 1.0027,
      "step": 2235
    },
    {
      "epoch": 0.12306676206725742,
      "grad_norm": 0.8265436887741089,
      "learning_rate": 9.914518439828911e-06,
      "loss": 0.8317,
      "step": 2236
    },
    {
      "epoch": 0.12312180086961308,
      "grad_norm": 0.780444324016571,
      "learning_rate": 9.914438611292231e-06,
      "loss": 0.756,
      "step": 2237
    },
    {
      "epoch": 0.12317683967196874,
      "grad_norm": 0.8569482564926147,
      "learning_rate": 9.914358745819948e-06,
      "loss": 0.8126,
      "step": 2238
    },
    {
      "epoch": 0.1232318784743244,
      "grad_norm": 0.8167145848274231,
      "learning_rate": 9.91427884341266e-06,
      "loss": 0.8345,
      "step": 2239
    },
    {
      "epoch": 0.12328691727668006,
      "grad_norm": 0.7915990948677063,
      "learning_rate": 9.914198904070967e-06,
      "loss": 0.7416,
      "step": 2240
    },
    {
      "epoch": 0.12334195607903573,
      "grad_norm": 0.8568083047866821,
      "learning_rate": 9.91411892779547e-06,
      "loss": 0.8329,
      "step": 2241
    },
    {
      "epoch": 0.12339699488139139,
      "grad_norm": 1.1727303266525269,
      "learning_rate": 9.914038914586772e-06,
      "loss": 0.8421,
      "step": 2242
    },
    {
      "epoch": 0.12345203368374705,
      "grad_norm": 0.8706398010253906,
      "learning_rate": 9.913958864445472e-06,
      "loss": 0.9013,
      "step": 2243
    },
    {
      "epoch": 0.12350707248610271,
      "grad_norm": 0.8376144170761108,
      "learning_rate": 9.913878777372173e-06,
      "loss": 0.8456,
      "step": 2244
    },
    {
      "epoch": 0.12356211128845836,
      "grad_norm": 0.8388974070549011,
      "learning_rate": 9.913798653367478e-06,
      "loss": 0.787,
      "step": 2245
    },
    {
      "epoch": 0.12361715009081402,
      "grad_norm": 0.8625446557998657,
      "learning_rate": 9.913718492431984e-06,
      "loss": 0.7758,
      "step": 2246
    },
    {
      "epoch": 0.12367218889316968,
      "grad_norm": 0.8805570006370544,
      "learning_rate": 9.913638294566299e-06,
      "loss": 0.8755,
      "step": 2247
    },
    {
      "epoch": 0.12372722769552534,
      "grad_norm": 0.8102611899375916,
      "learning_rate": 9.913558059771025e-06,
      "loss": 0.8495,
      "step": 2248
    },
    {
      "epoch": 0.123782266497881,
      "grad_norm": 0.8506311774253845,
      "learning_rate": 9.913477788046762e-06,
      "loss": 0.7413,
      "step": 2249
    },
    {
      "epoch": 0.12383730530023666,
      "grad_norm": 1.0789196491241455,
      "learning_rate": 9.913397479394116e-06,
      "loss": 0.8993,
      "step": 2250
    },
    {
      "epoch": 0.12389234410259232,
      "grad_norm": 1.5664849281311035,
      "learning_rate": 9.91331713381369e-06,
      "loss": 0.8322,
      "step": 2251
    },
    {
      "epoch": 0.12394738290494799,
      "grad_norm": 1.1347390413284302,
      "learning_rate": 9.913236751306085e-06,
      "loss": 0.8756,
      "step": 2252
    },
    {
      "epoch": 0.12400242170730365,
      "grad_norm": 0.8111063241958618,
      "learning_rate": 9.913156331871911e-06,
      "loss": 0.831,
      "step": 2253
    },
    {
      "epoch": 0.12405746050965931,
      "grad_norm": 0.817812979221344,
      "learning_rate": 9.913075875511769e-06,
      "loss": 0.8531,
      "step": 2254
    },
    {
      "epoch": 0.12411249931201497,
      "grad_norm": 0.7678318619728088,
      "learning_rate": 9.912995382226263e-06,
      "loss": 0.8028,
      "step": 2255
    },
    {
      "epoch": 0.12416753811437063,
      "grad_norm": 0.8207805156707764,
      "learning_rate": 9.912914852015998e-06,
      "loss": 0.8856,
      "step": 2256
    },
    {
      "epoch": 0.1242225769167263,
      "grad_norm": 0.978484570980072,
      "learning_rate": 9.912834284881582e-06,
      "loss": 0.933,
      "step": 2257
    },
    {
      "epoch": 0.12427761571908195,
      "grad_norm": 0.9215858578681946,
      "learning_rate": 9.912753680823617e-06,
      "loss": 0.7771,
      "step": 2258
    },
    {
      "epoch": 0.12433265452143762,
      "grad_norm": 0.8542179465293884,
      "learning_rate": 9.91267303984271e-06,
      "loss": 0.8652,
      "step": 2259
    },
    {
      "epoch": 0.12438769332379328,
      "grad_norm": 0.7985575199127197,
      "learning_rate": 9.912592361939469e-06,
      "loss": 0.7011,
      "step": 2260
    },
    {
      "epoch": 0.12444273212614894,
      "grad_norm": 0.8868670463562012,
      "learning_rate": 9.912511647114498e-06,
      "loss": 0.8222,
      "step": 2261
    },
    {
      "epoch": 0.1244977709285046,
      "grad_norm": 0.7966209650039673,
      "learning_rate": 9.912430895368405e-06,
      "loss": 0.776,
      "step": 2262
    },
    {
      "epoch": 0.12455280973086026,
      "grad_norm": 0.7844830751419067,
      "learning_rate": 9.912350106701796e-06,
      "loss": 0.7513,
      "step": 2263
    },
    {
      "epoch": 0.12460784853321592,
      "grad_norm": 0.7788559794425964,
      "learning_rate": 9.912269281115278e-06,
      "loss": 0.8517,
      "step": 2264
    },
    {
      "epoch": 0.12466288733557158,
      "grad_norm": 0.778225839138031,
      "learning_rate": 9.912188418609461e-06,
      "loss": 0.7504,
      "step": 2265
    },
    {
      "epoch": 0.12471792613792723,
      "grad_norm": 0.7955968976020813,
      "learning_rate": 9.912107519184947e-06,
      "loss": 0.8152,
      "step": 2266
    },
    {
      "epoch": 0.1247729649402829,
      "grad_norm": 1.1202566623687744,
      "learning_rate": 9.912026582842352e-06,
      "loss": 0.9325,
      "step": 2267
    },
    {
      "epoch": 0.12482800374263855,
      "grad_norm": 0.9762749671936035,
      "learning_rate": 9.911945609582279e-06,
      "loss": 0.9027,
      "step": 2268
    },
    {
      "epoch": 0.12488304254499422,
      "grad_norm": 0.8311051726341248,
      "learning_rate": 9.911864599405336e-06,
      "loss": 0.838,
      "step": 2269
    },
    {
      "epoch": 0.12493808134734988,
      "grad_norm": 1.0136815309524536,
      "learning_rate": 9.911783552312134e-06,
      "loss": 0.9288,
      "step": 2270
    },
    {
      "epoch": 0.12499312014970554,
      "grad_norm": 0.7960494160652161,
      "learning_rate": 9.911702468303282e-06,
      "loss": 0.8007,
      "step": 2271
    },
    {
      "epoch": 0.1250481589520612,
      "grad_norm": 0.9980880618095398,
      "learning_rate": 9.911621347379388e-06,
      "loss": 0.8613,
      "step": 2272
    },
    {
      "epoch": 0.12510319775441686,
      "grad_norm": 0.8916807770729065,
      "learning_rate": 9.911540189541065e-06,
      "loss": 0.8783,
      "step": 2273
    },
    {
      "epoch": 0.12515823655677252,
      "grad_norm": 0.9455892443656921,
      "learning_rate": 9.911458994788919e-06,
      "loss": 0.8676,
      "step": 2274
    },
    {
      "epoch": 0.12521327535912818,
      "grad_norm": 0.7649906277656555,
      "learning_rate": 9.911377763123561e-06,
      "loss": 0.7763,
      "step": 2275
    },
    {
      "epoch": 0.12526831416148385,
      "grad_norm": 0.8971202373504639,
      "learning_rate": 9.911296494545604e-06,
      "loss": 0.9022,
      "step": 2276
    },
    {
      "epoch": 0.1253233529638395,
      "grad_norm": 0.833678126335144,
      "learning_rate": 9.911215189055657e-06,
      "loss": 0.8401,
      "step": 2277
    },
    {
      "epoch": 0.12537839176619517,
      "grad_norm": 0.8967958688735962,
      "learning_rate": 9.911133846654331e-06,
      "loss": 0.8678,
      "step": 2278
    },
    {
      "epoch": 0.12543343056855083,
      "grad_norm": 0.8195546865463257,
      "learning_rate": 9.911052467342239e-06,
      "loss": 0.842,
      "step": 2279
    },
    {
      "epoch": 0.1254884693709065,
      "grad_norm": 1.095815896987915,
      "learning_rate": 9.910971051119988e-06,
      "loss": 0.845,
      "step": 2280
    },
    {
      "epoch": 0.12554350817326215,
      "grad_norm": 0.9452629685401917,
      "learning_rate": 9.910889597988197e-06,
      "loss": 0.8971,
      "step": 2281
    },
    {
      "epoch": 0.12559854697561781,
      "grad_norm": 0.9872332215309143,
      "learning_rate": 9.910808107947471e-06,
      "loss": 0.7994,
      "step": 2282
    },
    {
      "epoch": 0.12565358577797348,
      "grad_norm": 0.7761966586112976,
      "learning_rate": 9.910726580998427e-06,
      "loss": 0.7791,
      "step": 2283
    },
    {
      "epoch": 0.12570862458032914,
      "grad_norm": 0.8950315713882446,
      "learning_rate": 9.910645017141678e-06,
      "loss": 0.8499,
      "step": 2284
    },
    {
      "epoch": 0.1257636633826848,
      "grad_norm": 0.8796371221542358,
      "learning_rate": 9.910563416377834e-06,
      "loss": 0.8587,
      "step": 2285
    },
    {
      "epoch": 0.12581870218504046,
      "grad_norm": 0.8291982412338257,
      "learning_rate": 9.91048177870751e-06,
      "loss": 0.9166,
      "step": 2286
    },
    {
      "epoch": 0.12587374098739612,
      "grad_norm": 0.758369505405426,
      "learning_rate": 9.91040010413132e-06,
      "loss": 0.8305,
      "step": 2287
    },
    {
      "epoch": 0.12592877978975178,
      "grad_norm": 0.8775640726089478,
      "learning_rate": 9.910318392649876e-06,
      "loss": 0.8513,
      "step": 2288
    },
    {
      "epoch": 0.12598381859210744,
      "grad_norm": 0.8581671118736267,
      "learning_rate": 9.910236644263796e-06,
      "loss": 0.8134,
      "step": 2289
    },
    {
      "epoch": 0.1260388573944631,
      "grad_norm": 0.8570736050605774,
      "learning_rate": 9.910154858973689e-06,
      "loss": 0.826,
      "step": 2290
    },
    {
      "epoch": 0.12609389619681877,
      "grad_norm": 0.8712487816810608,
      "learning_rate": 9.910073036780173e-06,
      "loss": 0.8042,
      "step": 2291
    },
    {
      "epoch": 0.12614893499917443,
      "grad_norm": 0.7584837675094604,
      "learning_rate": 9.909991177683862e-06,
      "loss": 0.7715,
      "step": 2292
    },
    {
      "epoch": 0.1262039738015301,
      "grad_norm": 0.8618917465209961,
      "learning_rate": 9.909909281685373e-06,
      "loss": 0.8755,
      "step": 2293
    },
    {
      "epoch": 0.12625901260388575,
      "grad_norm": 0.9530277848243713,
      "learning_rate": 9.90982734878532e-06,
      "loss": 0.8538,
      "step": 2294
    },
    {
      "epoch": 0.1263140514062414,
      "grad_norm": 0.8394436836242676,
      "learning_rate": 9.909745378984319e-06,
      "loss": 0.8401,
      "step": 2295
    },
    {
      "epoch": 0.12636909020859707,
      "grad_norm": 0.8224034309387207,
      "learning_rate": 9.909663372282984e-06,
      "loss": 0.7201,
      "step": 2296
    },
    {
      "epoch": 0.12642412901095273,
      "grad_norm": 0.8215349912643433,
      "learning_rate": 9.909581328681934e-06,
      "loss": 0.8824,
      "step": 2297
    },
    {
      "epoch": 0.12647916781330837,
      "grad_norm": 0.839389443397522,
      "learning_rate": 9.909499248181786e-06,
      "loss": 0.8056,
      "step": 2298
    },
    {
      "epoch": 0.12653420661566403,
      "grad_norm": 0.9440048933029175,
      "learning_rate": 9.909417130783156e-06,
      "loss": 0.908,
      "step": 2299
    },
    {
      "epoch": 0.1265892454180197,
      "grad_norm": 0.8336486220359802,
      "learning_rate": 9.90933497648666e-06,
      "loss": 0.8382,
      "step": 2300
    },
    {
      "epoch": 0.12664428422037535,
      "grad_norm": 1.1541366577148438,
      "learning_rate": 9.909252785292918e-06,
      "loss": 0.8782,
      "step": 2301
    },
    {
      "epoch": 0.12669932302273101,
      "grad_norm": 0.8730320334434509,
      "learning_rate": 9.909170557202545e-06,
      "loss": 0.7687,
      "step": 2302
    },
    {
      "epoch": 0.12675436182508668,
      "grad_norm": 0.9927527904510498,
      "learning_rate": 9.90908829221616e-06,
      "loss": 0.8134,
      "step": 2303
    },
    {
      "epoch": 0.12680940062744234,
      "grad_norm": 0.9521791338920593,
      "learning_rate": 9.909005990334381e-06,
      "loss": 0.9187,
      "step": 2304
    },
    {
      "epoch": 0.126864439429798,
      "grad_norm": 0.8012455701828003,
      "learning_rate": 9.908923651557828e-06,
      "loss": 0.8581,
      "step": 2305
    },
    {
      "epoch": 0.12691947823215366,
      "grad_norm": 0.8882689476013184,
      "learning_rate": 9.90884127588712e-06,
      "loss": 0.9317,
      "step": 2306
    },
    {
      "epoch": 0.12697451703450932,
      "grad_norm": 0.8408340215682983,
      "learning_rate": 9.908758863322872e-06,
      "loss": 0.8444,
      "step": 2307
    },
    {
      "epoch": 0.12702955583686498,
      "grad_norm": 0.7856307029724121,
      "learning_rate": 9.908676413865709e-06,
      "loss": 0.8457,
      "step": 2308
    },
    {
      "epoch": 0.12708459463922064,
      "grad_norm": 0.9459167718887329,
      "learning_rate": 9.908593927516247e-06,
      "loss": 0.8153,
      "step": 2309
    },
    {
      "epoch": 0.1271396334415763,
      "grad_norm": 0.8629655838012695,
      "learning_rate": 9.908511404275107e-06,
      "loss": 0.8279,
      "step": 2310
    },
    {
      "epoch": 0.12719467224393197,
      "grad_norm": 1.2012875080108643,
      "learning_rate": 9.90842884414291e-06,
      "loss": 1.4388,
      "step": 2311
    },
    {
      "epoch": 0.12724971104628763,
      "grad_norm": 1.20725417137146,
      "learning_rate": 9.908346247120274e-06,
      "loss": 0.8704,
      "step": 2312
    },
    {
      "epoch": 0.1273047498486433,
      "grad_norm": 0.8152929544448853,
      "learning_rate": 9.908263613207822e-06,
      "loss": 0.8618,
      "step": 2313
    },
    {
      "epoch": 0.12735978865099895,
      "grad_norm": 0.8400965332984924,
      "learning_rate": 9.908180942406175e-06,
      "loss": 0.7881,
      "step": 2314
    },
    {
      "epoch": 0.1274148274533546,
      "grad_norm": 0.8856974840164185,
      "learning_rate": 9.908098234715956e-06,
      "loss": 0.9073,
      "step": 2315
    },
    {
      "epoch": 0.12746986625571027,
      "grad_norm": 0.8708439469337463,
      "learning_rate": 9.908015490137782e-06,
      "loss": 0.8099,
      "step": 2316
    },
    {
      "epoch": 0.12752490505806593,
      "grad_norm": 0.8632444143295288,
      "learning_rate": 9.907932708672277e-06,
      "loss": 0.8472,
      "step": 2317
    },
    {
      "epoch": 0.1275799438604216,
      "grad_norm": 0.8977149128913879,
      "learning_rate": 9.907849890320062e-06,
      "loss": 0.8878,
      "step": 2318
    },
    {
      "epoch": 0.12763498266277726,
      "grad_norm": 0.8589425086975098,
      "learning_rate": 9.907767035081765e-06,
      "loss": 0.7905,
      "step": 2319
    },
    {
      "epoch": 0.12769002146513292,
      "grad_norm": 0.9873501062393188,
      "learning_rate": 9.907684142958002e-06,
      "loss": 0.9002,
      "step": 2320
    },
    {
      "epoch": 0.12774506026748858,
      "grad_norm": 0.8963840007781982,
      "learning_rate": 9.9076012139494e-06,
      "loss": 0.92,
      "step": 2321
    },
    {
      "epoch": 0.12780009906984424,
      "grad_norm": 0.7933574318885803,
      "learning_rate": 9.90751824805658e-06,
      "loss": 0.7664,
      "step": 2322
    },
    {
      "epoch": 0.1278551378721999,
      "grad_norm": 0.9660933017730713,
      "learning_rate": 9.907435245280167e-06,
      "loss": 0.9162,
      "step": 2323
    },
    {
      "epoch": 0.12791017667455556,
      "grad_norm": 0.8698949217796326,
      "learning_rate": 9.907352205620783e-06,
      "loss": 0.7988,
      "step": 2324
    },
    {
      "epoch": 0.12796521547691123,
      "grad_norm": 0.9077615141868591,
      "learning_rate": 9.907269129079055e-06,
      "loss": 0.8581,
      "step": 2325
    },
    {
      "epoch": 0.1280202542792669,
      "grad_norm": 0.9128179550170898,
      "learning_rate": 9.907186015655607e-06,
      "loss": 0.8552,
      "step": 2326
    },
    {
      "epoch": 0.12807529308162255,
      "grad_norm": 0.9321265816688538,
      "learning_rate": 9.907102865351062e-06,
      "loss": 0.889,
      "step": 2327
    },
    {
      "epoch": 0.1281303318839782,
      "grad_norm": 0.9687464833259583,
      "learning_rate": 9.907019678166044e-06,
      "loss": 0.7944,
      "step": 2328
    },
    {
      "epoch": 0.12818537068633387,
      "grad_norm": 0.862223207950592,
      "learning_rate": 9.90693645410118e-06,
      "loss": 0.7699,
      "step": 2329
    },
    {
      "epoch": 0.12824040948868953,
      "grad_norm": 0.9662127494812012,
      "learning_rate": 9.906853193157095e-06,
      "loss": 0.7818,
      "step": 2330
    },
    {
      "epoch": 0.1282954482910452,
      "grad_norm": 0.8008295297622681,
      "learning_rate": 9.906769895334413e-06,
      "loss": 0.8443,
      "step": 2331
    },
    {
      "epoch": 0.12835048709340086,
      "grad_norm": 0.8638464212417603,
      "learning_rate": 9.906686560633765e-06,
      "loss": 0.8438,
      "step": 2332
    },
    {
      "epoch": 0.12840552589575652,
      "grad_norm": 0.9215866327285767,
      "learning_rate": 9.906603189055773e-06,
      "loss": 0.7481,
      "step": 2333
    },
    {
      "epoch": 0.12846056469811218,
      "grad_norm": 0.7926739454269409,
      "learning_rate": 9.906519780601066e-06,
      "loss": 0.7404,
      "step": 2334
    },
    {
      "epoch": 0.12851560350046784,
      "grad_norm": 0.9590242505073547,
      "learning_rate": 9.906436335270268e-06,
      "loss": 0.8319,
      "step": 2335
    },
    {
      "epoch": 0.1285706423028235,
      "grad_norm": 1.0300076007843018,
      "learning_rate": 9.906352853064009e-06,
      "loss": 0.8635,
      "step": 2336
    },
    {
      "epoch": 0.12862568110517916,
      "grad_norm": 0.8401443958282471,
      "learning_rate": 9.906269333982915e-06,
      "loss": 0.9584,
      "step": 2337
    },
    {
      "epoch": 0.12868071990753482,
      "grad_norm": 0.8144069910049438,
      "learning_rate": 9.906185778027613e-06,
      "loss": 0.7375,
      "step": 2338
    },
    {
      "epoch": 0.12873575870989049,
      "grad_norm": 0.8513948917388916,
      "learning_rate": 9.906102185198733e-06,
      "loss": 0.8353,
      "step": 2339
    },
    {
      "epoch": 0.12879079751224615,
      "grad_norm": 0.8243077397346497,
      "learning_rate": 9.906018555496903e-06,
      "loss": 0.8665,
      "step": 2340
    },
    {
      "epoch": 0.12884583631460178,
      "grad_norm": 0.8699066042900085,
      "learning_rate": 9.905934888922749e-06,
      "loss": 0.8537,
      "step": 2341
    },
    {
      "epoch": 0.12890087511695744,
      "grad_norm": 1.0980210304260254,
      "learning_rate": 9.905851185476902e-06,
      "loss": 0.8887,
      "step": 2342
    },
    {
      "epoch": 0.1289559139193131,
      "grad_norm": 0.8189190030097961,
      "learning_rate": 9.905767445159992e-06,
      "loss": 0.8467,
      "step": 2343
    },
    {
      "epoch": 0.12901095272166876,
      "grad_norm": 0.8273541331291199,
      "learning_rate": 9.905683667972645e-06,
      "loss": 0.8701,
      "step": 2344
    },
    {
      "epoch": 0.12906599152402443,
      "grad_norm": 0.8987969160079956,
      "learning_rate": 9.905599853915496e-06,
      "loss": 0.909,
      "step": 2345
    },
    {
      "epoch": 0.1291210303263801,
      "grad_norm": 0.818268895149231,
      "learning_rate": 9.905516002989168e-06,
      "loss": 0.7946,
      "step": 2346
    },
    {
      "epoch": 0.12917606912873575,
      "grad_norm": 0.7401725053787231,
      "learning_rate": 9.905432115194296e-06,
      "loss": 0.7006,
      "step": 2347
    },
    {
      "epoch": 0.1292311079310914,
      "grad_norm": 0.8263179659843445,
      "learning_rate": 9.905348190531511e-06,
      "loss": 0.7768,
      "step": 2348
    },
    {
      "epoch": 0.12928614673344707,
      "grad_norm": 0.9241918921470642,
      "learning_rate": 9.90526422900144e-06,
      "loss": 0.8593,
      "step": 2349
    },
    {
      "epoch": 0.12934118553580273,
      "grad_norm": 0.7804501056671143,
      "learning_rate": 9.905180230604718e-06,
      "loss": 0.7607,
      "step": 2350
    },
    {
      "epoch": 0.1293962243381584,
      "grad_norm": 0.9408491253852844,
      "learning_rate": 9.905096195341973e-06,
      "loss": 0.8906,
      "step": 2351
    },
    {
      "epoch": 0.12945126314051406,
      "grad_norm": 1.0356301069259644,
      "learning_rate": 9.905012123213838e-06,
      "loss": 0.8051,
      "step": 2352
    },
    {
      "epoch": 0.12950630194286972,
      "grad_norm": 0.8546886444091797,
      "learning_rate": 9.904928014220945e-06,
      "loss": 0.7543,
      "step": 2353
    },
    {
      "epoch": 0.12956134074522538,
      "grad_norm": 0.9229897856712341,
      "learning_rate": 9.904843868363927e-06,
      "loss": 0.8823,
      "step": 2354
    },
    {
      "epoch": 0.12961637954758104,
      "grad_norm": 0.8364199995994568,
      "learning_rate": 9.904759685643414e-06,
      "loss": 0.8825,
      "step": 2355
    },
    {
      "epoch": 0.1296714183499367,
      "grad_norm": 0.9092077016830444,
      "learning_rate": 9.90467546606004e-06,
      "loss": 0.8721,
      "step": 2356
    },
    {
      "epoch": 0.12972645715229236,
      "grad_norm": 1.042973518371582,
      "learning_rate": 9.904591209614441e-06,
      "loss": 0.7984,
      "step": 2357
    },
    {
      "epoch": 0.12978149595464802,
      "grad_norm": 0.7262618541717529,
      "learning_rate": 9.904506916307243e-06,
      "loss": 0.6721,
      "step": 2358
    },
    {
      "epoch": 0.12983653475700369,
      "grad_norm": 0.7562826871871948,
      "learning_rate": 9.904422586139086e-06,
      "loss": 0.7702,
      "step": 2359
    },
    {
      "epoch": 0.12989157355935935,
      "grad_norm": 0.8821595907211304,
      "learning_rate": 9.904338219110603e-06,
      "loss": 0.8555,
      "step": 2360
    },
    {
      "epoch": 0.129946612361715,
      "grad_norm": 1.0340098142623901,
      "learning_rate": 9.904253815222424e-06,
      "loss": 0.9004,
      "step": 2361
    },
    {
      "epoch": 0.13000165116407067,
      "grad_norm": 0.8533693552017212,
      "learning_rate": 9.904169374475188e-06,
      "loss": 0.836,
      "step": 2362
    },
    {
      "epoch": 0.13005668996642633,
      "grad_norm": 0.8564199805259705,
      "learning_rate": 9.904084896869528e-06,
      "loss": 0.9281,
      "step": 2363
    },
    {
      "epoch": 0.130111728768782,
      "grad_norm": 0.7817538976669312,
      "learning_rate": 9.904000382406079e-06,
      "loss": 0.7444,
      "step": 2364
    },
    {
      "epoch": 0.13016676757113765,
      "grad_norm": 1.1420893669128418,
      "learning_rate": 9.903915831085473e-06,
      "loss": 0.9116,
      "step": 2365
    },
    {
      "epoch": 0.13022180637349332,
      "grad_norm": 0.9671920537948608,
      "learning_rate": 9.903831242908351e-06,
      "loss": 0.899,
      "step": 2366
    },
    {
      "epoch": 0.13027684517584898,
      "grad_norm": 0.8528717756271362,
      "learning_rate": 9.903746617875345e-06,
      "loss": 0.7231,
      "step": 2367
    },
    {
      "epoch": 0.13033188397820464,
      "grad_norm": 0.786960244178772,
      "learning_rate": 9.903661955987091e-06,
      "loss": 0.7997,
      "step": 2368
    },
    {
      "epoch": 0.1303869227805603,
      "grad_norm": 0.941683292388916,
      "learning_rate": 9.903577257244228e-06,
      "loss": 0.9127,
      "step": 2369
    },
    {
      "epoch": 0.13044196158291596,
      "grad_norm": 0.886900007724762,
      "learning_rate": 9.903492521647391e-06,
      "loss": 0.9086,
      "step": 2370
    },
    {
      "epoch": 0.13049700038527162,
      "grad_norm": 0.9924801588058472,
      "learning_rate": 9.903407749197216e-06,
      "loss": 0.9055,
      "step": 2371
    },
    {
      "epoch": 0.13055203918762728,
      "grad_norm": 0.6998724341392517,
      "learning_rate": 9.903322939894342e-06,
      "loss": 0.6972,
      "step": 2372
    },
    {
      "epoch": 0.13060707798998294,
      "grad_norm": 0.8448702096939087,
      "learning_rate": 9.903238093739404e-06,
      "loss": 0.7862,
      "step": 2373
    },
    {
      "epoch": 0.1306621167923386,
      "grad_norm": 0.8557441830635071,
      "learning_rate": 9.90315321073304e-06,
      "loss": 0.8364,
      "step": 2374
    },
    {
      "epoch": 0.13071715559469427,
      "grad_norm": 0.7978441119194031,
      "learning_rate": 9.903068290875892e-06,
      "loss": 0.7671,
      "step": 2375
    },
    {
      "epoch": 0.13077219439704993,
      "grad_norm": 0.781315803527832,
      "learning_rate": 9.902983334168594e-06,
      "loss": 0.7963,
      "step": 2376
    },
    {
      "epoch": 0.1308272331994056,
      "grad_norm": 0.7326155304908752,
      "learning_rate": 9.902898340611785e-06,
      "loss": 0.8,
      "step": 2377
    },
    {
      "epoch": 0.13088227200176125,
      "grad_norm": 0.7693139314651489,
      "learning_rate": 9.902813310206105e-06,
      "loss": 0.8459,
      "step": 2378
    },
    {
      "epoch": 0.1309373108041169,
      "grad_norm": 0.9441308975219727,
      "learning_rate": 9.902728242952191e-06,
      "loss": 0.8519,
      "step": 2379
    },
    {
      "epoch": 0.13099234960647257,
      "grad_norm": 0.8350616693496704,
      "learning_rate": 9.902643138850686e-06,
      "loss": 0.876,
      "step": 2380
    },
    {
      "epoch": 0.13104738840882824,
      "grad_norm": 0.8675554394721985,
      "learning_rate": 9.902557997902227e-06,
      "loss": 0.8172,
      "step": 2381
    },
    {
      "epoch": 0.1311024272111839,
      "grad_norm": 0.9618930220603943,
      "learning_rate": 9.902472820107454e-06,
      "loss": 0.8852,
      "step": 2382
    },
    {
      "epoch": 0.13115746601353956,
      "grad_norm": 0.862341046333313,
      "learning_rate": 9.902387605467007e-06,
      "loss": 0.9256,
      "step": 2383
    },
    {
      "epoch": 0.1312125048158952,
      "grad_norm": 0.8749859929084778,
      "learning_rate": 9.902302353981527e-06,
      "loss": 0.8809,
      "step": 2384
    },
    {
      "epoch": 0.13126754361825085,
      "grad_norm": 0.9061958193778992,
      "learning_rate": 9.902217065651657e-06,
      "loss": 0.779,
      "step": 2385
    },
    {
      "epoch": 0.13132258242060652,
      "grad_norm": 0.8909298777580261,
      "learning_rate": 9.902131740478033e-06,
      "loss": 0.8203,
      "step": 2386
    },
    {
      "epoch": 0.13137762122296218,
      "grad_norm": 0.8507269024848938,
      "learning_rate": 9.902046378461302e-06,
      "loss": 0.776,
      "step": 2387
    },
    {
      "epoch": 0.13143266002531784,
      "grad_norm": 0.9577299356460571,
      "learning_rate": 9.901960979602101e-06,
      "loss": 0.8104,
      "step": 2388
    },
    {
      "epoch": 0.1314876988276735,
      "grad_norm": 0.9244948625564575,
      "learning_rate": 9.901875543901074e-06,
      "loss": 0.9035,
      "step": 2389
    },
    {
      "epoch": 0.13154273763002916,
      "grad_norm": 0.7534334063529968,
      "learning_rate": 9.901790071358861e-06,
      "loss": 0.7262,
      "step": 2390
    },
    {
      "epoch": 0.13159777643238482,
      "grad_norm": 0.8920090198516846,
      "learning_rate": 9.901704561976106e-06,
      "loss": 0.932,
      "step": 2391
    },
    {
      "epoch": 0.13165281523474048,
      "grad_norm": 0.8524243235588074,
      "learning_rate": 9.901619015753455e-06,
      "loss": 0.8107,
      "step": 2392
    },
    {
      "epoch": 0.13170785403709614,
      "grad_norm": 0.8170381784439087,
      "learning_rate": 9.901533432691543e-06,
      "loss": 0.8814,
      "step": 2393
    },
    {
      "epoch": 0.1317628928394518,
      "grad_norm": 0.8281697034835815,
      "learning_rate": 9.90144781279102e-06,
      "loss": 0.8221,
      "step": 2394
    },
    {
      "epoch": 0.13181793164180747,
      "grad_norm": 0.9283351302146912,
      "learning_rate": 9.901362156052528e-06,
      "loss": 0.8346,
      "step": 2395
    },
    {
      "epoch": 0.13187297044416313,
      "grad_norm": 0.8331275582313538,
      "learning_rate": 9.901276462476708e-06,
      "loss": 0.7498,
      "step": 2396
    },
    {
      "epoch": 0.1319280092465188,
      "grad_norm": 0.8427191972732544,
      "learning_rate": 9.901190732064207e-06,
      "loss": 0.8265,
      "step": 2397
    },
    {
      "epoch": 0.13198304804887445,
      "grad_norm": 0.8510351777076721,
      "learning_rate": 9.901104964815669e-06,
      "loss": 0.8369,
      "step": 2398
    },
    {
      "epoch": 0.1320380868512301,
      "grad_norm": 0.8468914031982422,
      "learning_rate": 9.901019160731738e-06,
      "loss": 0.8585,
      "step": 2399
    },
    {
      "epoch": 0.13209312565358577,
      "grad_norm": 0.8302182555198669,
      "learning_rate": 9.900933319813058e-06,
      "loss": 0.8611,
      "step": 2400
    },
    {
      "epoch": 0.13214816445594144,
      "grad_norm": 0.8527448773384094,
      "learning_rate": 9.900847442060277e-06,
      "loss": 0.899,
      "step": 2401
    },
    {
      "epoch": 0.1322032032582971,
      "grad_norm": 0.8354688286781311,
      "learning_rate": 9.900761527474037e-06,
      "loss": 0.8083,
      "step": 2402
    },
    {
      "epoch": 0.13225824206065276,
      "grad_norm": 0.8612173795700073,
      "learning_rate": 9.900675576054986e-06,
      "loss": 0.8124,
      "step": 2403
    },
    {
      "epoch": 0.13231328086300842,
      "grad_norm": 0.7424876689910889,
      "learning_rate": 9.900589587803767e-06,
      "loss": 0.6884,
      "step": 2404
    },
    {
      "epoch": 0.13236831966536408,
      "grad_norm": 0.8431115746498108,
      "learning_rate": 9.90050356272103e-06,
      "loss": 0.9575,
      "step": 2405
    },
    {
      "epoch": 0.13242335846771974,
      "grad_norm": 0.7958092093467712,
      "learning_rate": 9.90041750080742e-06,
      "loss": 0.7608,
      "step": 2406
    },
    {
      "epoch": 0.1324783972700754,
      "grad_norm": 0.926258385181427,
      "learning_rate": 9.900331402063583e-06,
      "loss": 0.9072,
      "step": 2407
    },
    {
      "epoch": 0.13253343607243107,
      "grad_norm": 0.7952526807785034,
      "learning_rate": 9.900245266490169e-06,
      "loss": 0.8001,
      "step": 2408
    },
    {
      "epoch": 0.13258847487478673,
      "grad_norm": 0.8309933543205261,
      "learning_rate": 9.900159094087822e-06,
      "loss": 0.9154,
      "step": 2409
    },
    {
      "epoch": 0.1326435136771424,
      "grad_norm": 0.858007550239563,
      "learning_rate": 9.90007288485719e-06,
      "loss": 0.855,
      "step": 2410
    },
    {
      "epoch": 0.13269855247949805,
      "grad_norm": 0.9513822197914124,
      "learning_rate": 9.899986638798923e-06,
      "loss": 0.8162,
      "step": 2411
    },
    {
      "epoch": 0.1327535912818537,
      "grad_norm": 0.8387427926063538,
      "learning_rate": 9.899900355913668e-06,
      "loss": 0.8955,
      "step": 2412
    },
    {
      "epoch": 0.13280863008420937,
      "grad_norm": 0.7727940678596497,
      "learning_rate": 9.899814036202073e-06,
      "loss": 0.6765,
      "step": 2413
    },
    {
      "epoch": 0.13286366888656503,
      "grad_norm": 0.7760928869247437,
      "learning_rate": 9.899727679664788e-06,
      "loss": 0.7179,
      "step": 2414
    },
    {
      "epoch": 0.1329187076889207,
      "grad_norm": 0.7798073887825012,
      "learning_rate": 9.899641286302462e-06,
      "loss": 0.8541,
      "step": 2415
    },
    {
      "epoch": 0.13297374649127636,
      "grad_norm": 0.8302769660949707,
      "learning_rate": 9.899554856115743e-06,
      "loss": 0.8925,
      "step": 2416
    },
    {
      "epoch": 0.13302878529363202,
      "grad_norm": 0.8300751447677612,
      "learning_rate": 9.89946838910528e-06,
      "loss": 0.7489,
      "step": 2417
    },
    {
      "epoch": 0.13308382409598768,
      "grad_norm": 0.8032094240188599,
      "learning_rate": 9.899381885271725e-06,
      "loss": 0.811,
      "step": 2418
    },
    {
      "epoch": 0.13313886289834334,
      "grad_norm": 5.237870216369629,
      "learning_rate": 9.899295344615727e-06,
      "loss": 0.7609,
      "step": 2419
    },
    {
      "epoch": 0.133193901700699,
      "grad_norm": 0.8145740628242493,
      "learning_rate": 9.899208767137935e-06,
      "loss": 0.8435,
      "step": 2420
    },
    {
      "epoch": 0.13324894050305466,
      "grad_norm": 0.9716018438339233,
      "learning_rate": 9.899122152839004e-06,
      "loss": 0.7924,
      "step": 2421
    },
    {
      "epoch": 0.13330397930541033,
      "grad_norm": 0.7846183776855469,
      "learning_rate": 9.899035501719582e-06,
      "loss": 0.8941,
      "step": 2422
    },
    {
      "epoch": 0.133359018107766,
      "grad_norm": 0.7653689980506897,
      "learning_rate": 9.89894881378032e-06,
      "loss": 0.811,
      "step": 2423
    },
    {
      "epoch": 0.13341405691012165,
      "grad_norm": 0.8221875429153442,
      "learning_rate": 9.89886208902187e-06,
      "loss": 0.8131,
      "step": 2424
    },
    {
      "epoch": 0.1334690957124773,
      "grad_norm": 0.7422335147857666,
      "learning_rate": 9.898775327444885e-06,
      "loss": 0.6366,
      "step": 2425
    },
    {
      "epoch": 0.13352413451483297,
      "grad_norm": 0.8072695136070251,
      "learning_rate": 9.898688529050014e-06,
      "loss": 0.7989,
      "step": 2426
    },
    {
      "epoch": 0.1335791733171886,
      "grad_norm": 0.7717600464820862,
      "learning_rate": 9.898601693837911e-06,
      "loss": 0.7524,
      "step": 2427
    },
    {
      "epoch": 0.13363421211954427,
      "grad_norm": 0.8070919513702393,
      "learning_rate": 9.898514821809231e-06,
      "loss": 0.7724,
      "step": 2428
    },
    {
      "epoch": 0.13368925092189993,
      "grad_norm": 0.8184726238250732,
      "learning_rate": 9.898427912964624e-06,
      "loss": 0.845,
      "step": 2429
    },
    {
      "epoch": 0.1337442897242556,
      "grad_norm": 0.8168759346008301,
      "learning_rate": 9.898340967304744e-06,
      "loss": 0.8377,
      "step": 2430
    },
    {
      "epoch": 0.13379932852661125,
      "grad_norm": 0.8701872825622559,
      "learning_rate": 9.898253984830244e-06,
      "loss": 0.908,
      "step": 2431
    },
    {
      "epoch": 0.1338543673289669,
      "grad_norm": 0.8092133402824402,
      "learning_rate": 9.898166965541779e-06,
      "loss": 0.866,
      "step": 2432
    },
    {
      "epoch": 0.13390940613132257,
      "grad_norm": 0.8337095975875854,
      "learning_rate": 9.898079909440002e-06,
      "loss": 0.8622,
      "step": 2433
    },
    {
      "epoch": 0.13396444493367823,
      "grad_norm": 1.1016209125518799,
      "learning_rate": 9.897992816525567e-06,
      "loss": 0.8486,
      "step": 2434
    },
    {
      "epoch": 0.1340194837360339,
      "grad_norm": 0.8136518597602844,
      "learning_rate": 9.89790568679913e-06,
      "loss": 0.8681,
      "step": 2435
    },
    {
      "epoch": 0.13407452253838956,
      "grad_norm": 0.8202341794967651,
      "learning_rate": 9.897818520261344e-06,
      "loss": 0.9144,
      "step": 2436
    },
    {
      "epoch": 0.13412956134074522,
      "grad_norm": 0.8836861848831177,
      "learning_rate": 9.897731316912866e-06,
      "loss": 0.8643,
      "step": 2437
    },
    {
      "epoch": 0.13418460014310088,
      "grad_norm": 0.9040210247039795,
      "learning_rate": 9.89764407675435e-06,
      "loss": 0.7681,
      "step": 2438
    },
    {
      "epoch": 0.13423963894545654,
      "grad_norm": 0.8762359619140625,
      "learning_rate": 9.897556799786452e-06,
      "loss": 0.8765,
      "step": 2439
    },
    {
      "epoch": 0.1342946777478122,
      "grad_norm": 0.8859462738037109,
      "learning_rate": 9.897469486009827e-06,
      "loss": 0.9051,
      "step": 2440
    },
    {
      "epoch": 0.13434971655016786,
      "grad_norm": 0.7727539539337158,
      "learning_rate": 9.897382135425134e-06,
      "loss": 0.7397,
      "step": 2441
    },
    {
      "epoch": 0.13440475535252353,
      "grad_norm": 0.9018967151641846,
      "learning_rate": 9.897294748033028e-06,
      "loss": 0.8542,
      "step": 2442
    },
    {
      "epoch": 0.1344597941548792,
      "grad_norm": 0.8228337168693542,
      "learning_rate": 9.897207323834165e-06,
      "loss": 0.7585,
      "step": 2443
    },
    {
      "epoch": 0.13451483295723485,
      "grad_norm": 0.7509974241256714,
      "learning_rate": 9.897119862829203e-06,
      "loss": 0.7285,
      "step": 2444
    },
    {
      "epoch": 0.1345698717595905,
      "grad_norm": 0.9225835800170898,
      "learning_rate": 9.897032365018797e-06,
      "loss": 0.8352,
      "step": 2445
    },
    {
      "epoch": 0.13462491056194617,
      "grad_norm": 0.800981879234314,
      "learning_rate": 9.896944830403609e-06,
      "loss": 0.7352,
      "step": 2446
    },
    {
      "epoch": 0.13467994936430183,
      "grad_norm": 0.8263673186302185,
      "learning_rate": 9.896857258984294e-06,
      "loss": 0.8426,
      "step": 2447
    },
    {
      "epoch": 0.1347349881666575,
      "grad_norm": 0.8857110738754272,
      "learning_rate": 9.89676965076151e-06,
      "loss": 0.8078,
      "step": 2448
    },
    {
      "epoch": 0.13479002696901315,
      "grad_norm": 0.8637158274650574,
      "learning_rate": 9.896682005735916e-06,
      "loss": 0.8688,
      "step": 2449
    },
    {
      "epoch": 0.13484506577136882,
      "grad_norm": 0.9050095081329346,
      "learning_rate": 9.89659432390817e-06,
      "loss": 0.831,
      "step": 2450
    },
    {
      "epoch": 0.13490010457372448,
      "grad_norm": 0.829757034778595,
      "learning_rate": 9.896506605278933e-06,
      "loss": 0.8095,
      "step": 2451
    },
    {
      "epoch": 0.13495514337608014,
      "grad_norm": 0.8910449743270874,
      "learning_rate": 9.896418849848864e-06,
      "loss": 0.9134,
      "step": 2452
    },
    {
      "epoch": 0.1350101821784358,
      "grad_norm": 0.8856307864189148,
      "learning_rate": 9.89633105761862e-06,
      "loss": 0.8171,
      "step": 2453
    },
    {
      "epoch": 0.13506522098079146,
      "grad_norm": 0.8159938454627991,
      "learning_rate": 9.896243228588864e-06,
      "loss": 0.8205,
      "step": 2454
    },
    {
      "epoch": 0.13512025978314712,
      "grad_norm": 0.8200929760932922,
      "learning_rate": 9.896155362760254e-06,
      "loss": 0.7529,
      "step": 2455
    },
    {
      "epoch": 0.13517529858550278,
      "grad_norm": 0.7591279149055481,
      "learning_rate": 9.89606746013345e-06,
      "loss": 0.8205,
      "step": 2456
    },
    {
      "epoch": 0.13523033738785845,
      "grad_norm": 0.8598676323890686,
      "learning_rate": 9.895979520709114e-06,
      "loss": 0.8212,
      "step": 2457
    },
    {
      "epoch": 0.1352853761902141,
      "grad_norm": 0.7290365099906921,
      "learning_rate": 9.895891544487905e-06,
      "loss": 0.7893,
      "step": 2458
    },
    {
      "epoch": 0.13534041499256977,
      "grad_norm": 0.8040594458580017,
      "learning_rate": 9.895803531470487e-06,
      "loss": 0.8358,
      "step": 2459
    },
    {
      "epoch": 0.13539545379492543,
      "grad_norm": 0.9286525249481201,
      "learning_rate": 9.895715481657522e-06,
      "loss": 0.8104,
      "step": 2460
    },
    {
      "epoch": 0.1354504925972811,
      "grad_norm": 0.843054473400116,
      "learning_rate": 9.895627395049668e-06,
      "loss": 0.7872,
      "step": 2461
    },
    {
      "epoch": 0.13550553139963675,
      "grad_norm": 0.7894387245178223,
      "learning_rate": 9.895539271647588e-06,
      "loss": 0.8615,
      "step": 2462
    },
    {
      "epoch": 0.13556057020199241,
      "grad_norm": 0.9185294508934021,
      "learning_rate": 9.895451111451948e-06,
      "loss": 0.8732,
      "step": 2463
    },
    {
      "epoch": 0.13561560900434808,
      "grad_norm": 0.8586474657058716,
      "learning_rate": 9.895362914463405e-06,
      "loss": 0.9658,
      "step": 2464
    },
    {
      "epoch": 0.13567064780670374,
      "grad_norm": 0.8810474276542664,
      "learning_rate": 9.895274680682628e-06,
      "loss": 0.8622,
      "step": 2465
    },
    {
      "epoch": 0.1357256866090594,
      "grad_norm": 0.8862990736961365,
      "learning_rate": 9.895186410110273e-06,
      "loss": 0.916,
      "step": 2466
    },
    {
      "epoch": 0.13578072541141506,
      "grad_norm": 0.7916743159294128,
      "learning_rate": 9.89509810274701e-06,
      "loss": 0.837,
      "step": 2467
    },
    {
      "epoch": 0.13583576421377072,
      "grad_norm": 0.9063515663146973,
      "learning_rate": 9.8950097585935e-06,
      "loss": 0.8065,
      "step": 2468
    },
    {
      "epoch": 0.13589080301612638,
      "grad_norm": 0.7656043767929077,
      "learning_rate": 9.894921377650405e-06,
      "loss": 0.7064,
      "step": 2469
    },
    {
      "epoch": 0.13594584181848202,
      "grad_norm": 1.0630278587341309,
      "learning_rate": 9.894832959918392e-06,
      "loss": 0.8168,
      "step": 2470
    },
    {
      "epoch": 0.13600088062083768,
      "grad_norm": 0.9118956923484802,
      "learning_rate": 9.894744505398126e-06,
      "loss": 0.8972,
      "step": 2471
    },
    {
      "epoch": 0.13605591942319334,
      "grad_norm": 0.8989213705062866,
      "learning_rate": 9.89465601409027e-06,
      "loss": 0.8374,
      "step": 2472
    },
    {
      "epoch": 0.136110958225549,
      "grad_norm": 0.9398229718208313,
      "learning_rate": 9.894567485995489e-06,
      "loss": 0.8956,
      "step": 2473
    },
    {
      "epoch": 0.13616599702790466,
      "grad_norm": 0.7980280518531799,
      "learning_rate": 9.894478921114449e-06,
      "loss": 0.8055,
      "step": 2474
    },
    {
      "epoch": 0.13622103583026032,
      "grad_norm": 0.8910034894943237,
      "learning_rate": 9.894390319447816e-06,
      "loss": 0.8371,
      "step": 2475
    },
    {
      "epoch": 0.13627607463261598,
      "grad_norm": 0.7848070859909058,
      "learning_rate": 9.894301680996255e-06,
      "loss": 0.8024,
      "step": 2476
    },
    {
      "epoch": 0.13633111343497165,
      "grad_norm": 0.8538175821304321,
      "learning_rate": 9.894213005760434e-06,
      "loss": 0.8819,
      "step": 2477
    },
    {
      "epoch": 0.1363861522373273,
      "grad_norm": 0.7885367274284363,
      "learning_rate": 9.894124293741017e-06,
      "loss": 0.7916,
      "step": 2478
    },
    {
      "epoch": 0.13644119103968297,
      "grad_norm": 0.8555673956871033,
      "learning_rate": 9.894035544938672e-06,
      "loss": 0.8521,
      "step": 2479
    },
    {
      "epoch": 0.13649622984203863,
      "grad_norm": 0.8104771971702576,
      "learning_rate": 9.893946759354066e-06,
      "loss": 0.8437,
      "step": 2480
    },
    {
      "epoch": 0.1365512686443943,
      "grad_norm": 0.9131864309310913,
      "learning_rate": 9.893857936987866e-06,
      "loss": 0.8123,
      "step": 2481
    },
    {
      "epoch": 0.13660630744674995,
      "grad_norm": 0.9414293766021729,
      "learning_rate": 9.893769077840739e-06,
      "loss": 0.7897,
      "step": 2482
    },
    {
      "epoch": 0.13666134624910561,
      "grad_norm": 0.823265016078949,
      "learning_rate": 9.893680181913355e-06,
      "loss": 0.847,
      "step": 2483
    },
    {
      "epoch": 0.13671638505146128,
      "grad_norm": 0.82098788022995,
      "learning_rate": 9.89359124920638e-06,
      "loss": 0.7823,
      "step": 2484
    },
    {
      "epoch": 0.13677142385381694,
      "grad_norm": 0.817551851272583,
      "learning_rate": 9.893502279720483e-06,
      "loss": 0.8084,
      "step": 2485
    },
    {
      "epoch": 0.1368264626561726,
      "grad_norm": 1.0722150802612305,
      "learning_rate": 9.893413273456333e-06,
      "loss": 0.7394,
      "step": 2486
    },
    {
      "epoch": 0.13688150145852826,
      "grad_norm": 0.8045433759689331,
      "learning_rate": 9.893324230414598e-06,
      "loss": 0.7528,
      "step": 2487
    },
    {
      "epoch": 0.13693654026088392,
      "grad_norm": 0.8694071173667908,
      "learning_rate": 9.893235150595949e-06,
      "loss": 0.803,
      "step": 2488
    },
    {
      "epoch": 0.13699157906323958,
      "grad_norm": 0.8238615989685059,
      "learning_rate": 9.893146034001054e-06,
      "loss": 0.7909,
      "step": 2489
    },
    {
      "epoch": 0.13704661786559524,
      "grad_norm": 0.7782405018806458,
      "learning_rate": 9.893056880630583e-06,
      "loss": 0.6859,
      "step": 2490
    },
    {
      "epoch": 0.1371016566679509,
      "grad_norm": 0.7865599989891052,
      "learning_rate": 9.892967690485207e-06,
      "loss": 0.7982,
      "step": 2491
    },
    {
      "epoch": 0.13715669547030657,
      "grad_norm": 0.768120288848877,
      "learning_rate": 9.892878463565595e-06,
      "loss": 0.8234,
      "step": 2492
    },
    {
      "epoch": 0.13721173427266223,
      "grad_norm": 0.812493085861206,
      "learning_rate": 9.89278919987242e-06,
      "loss": 0.9152,
      "step": 2493
    },
    {
      "epoch": 0.1372667730750179,
      "grad_norm": 0.7256335616111755,
      "learning_rate": 9.892699899406348e-06,
      "loss": 0.6703,
      "step": 2494
    },
    {
      "epoch": 0.13732181187737355,
      "grad_norm": 0.8022804260253906,
      "learning_rate": 9.892610562168054e-06,
      "loss": 0.7918,
      "step": 2495
    },
    {
      "epoch": 0.1373768506797292,
      "grad_norm": 0.8204907774925232,
      "learning_rate": 9.89252118815821e-06,
      "loss": 0.9094,
      "step": 2496
    },
    {
      "epoch": 0.13743188948208487,
      "grad_norm": 0.9986788630485535,
      "learning_rate": 9.892431777377484e-06,
      "loss": 0.8921,
      "step": 2497
    },
    {
      "epoch": 0.13748692828444053,
      "grad_norm": 0.7937983870506287,
      "learning_rate": 9.892342329826554e-06,
      "loss": 0.8048,
      "step": 2498
    },
    {
      "epoch": 0.1375419670867962,
      "grad_norm": 0.9295744895935059,
      "learning_rate": 9.892252845506086e-06,
      "loss": 0.755,
      "step": 2499
    },
    {
      "epoch": 0.13759700588915186,
      "grad_norm": 0.7920984625816345,
      "learning_rate": 9.892163324416757e-06,
      "loss": 0.7603,
      "step": 2500
    },
    {
      "epoch": 0.13765204469150752,
      "grad_norm": 0.9229464530944824,
      "learning_rate": 9.892073766559236e-06,
      "loss": 0.8115,
      "step": 2501
    },
    {
      "epoch": 0.13770708349386318,
      "grad_norm": 0.8205353021621704,
      "learning_rate": 9.8919841719342e-06,
      "loss": 0.8357,
      "step": 2502
    },
    {
      "epoch": 0.13776212229621884,
      "grad_norm": 0.86461341381073,
      "learning_rate": 9.891894540542318e-06,
      "loss": 0.748,
      "step": 2503
    },
    {
      "epoch": 0.1378171610985745,
      "grad_norm": 0.767145574092865,
      "learning_rate": 9.891804872384267e-06,
      "loss": 0.7404,
      "step": 2504
    },
    {
      "epoch": 0.13787219990093016,
      "grad_norm": 0.7492040991783142,
      "learning_rate": 9.891715167460721e-06,
      "loss": 0.6958,
      "step": 2505
    },
    {
      "epoch": 0.13792723870328583,
      "grad_norm": 0.8643150329589844,
      "learning_rate": 9.891625425772353e-06,
      "loss": 0.8408,
      "step": 2506
    },
    {
      "epoch": 0.1379822775056415,
      "grad_norm": 0.8026981353759766,
      "learning_rate": 9.891535647319838e-06,
      "loss": 0.7895,
      "step": 2507
    },
    {
      "epoch": 0.13803731630799715,
      "grad_norm": 1.2780394554138184,
      "learning_rate": 9.89144583210385e-06,
      "loss": 0.9113,
      "step": 2508
    },
    {
      "epoch": 0.1380923551103528,
      "grad_norm": 0.8476191163063049,
      "learning_rate": 9.891355980125064e-06,
      "loss": 0.8224,
      "step": 2509
    },
    {
      "epoch": 0.13814739391270847,
      "grad_norm": 1.048682689666748,
      "learning_rate": 9.891266091384157e-06,
      "loss": 0.8913,
      "step": 2510
    },
    {
      "epoch": 0.13820243271506413,
      "grad_norm": 1.0314993858337402,
      "learning_rate": 9.891176165881801e-06,
      "loss": 0.8315,
      "step": 2511
    },
    {
      "epoch": 0.1382574715174198,
      "grad_norm": 0.9500058889389038,
      "learning_rate": 9.891086203618676e-06,
      "loss": 0.9185,
      "step": 2512
    },
    {
      "epoch": 0.13831251031977543,
      "grad_norm": 0.7860653400421143,
      "learning_rate": 9.890996204595457e-06,
      "loss": 0.804,
      "step": 2513
    },
    {
      "epoch": 0.1383675491221311,
      "grad_norm": 0.8354741930961609,
      "learning_rate": 9.89090616881282e-06,
      "loss": 0.8214,
      "step": 2514
    },
    {
      "epoch": 0.13842258792448675,
      "grad_norm": 0.9115905165672302,
      "learning_rate": 9.890816096271438e-06,
      "loss": 0.8801,
      "step": 2515
    },
    {
      "epoch": 0.1384776267268424,
      "grad_norm": 0.8852075338363647,
      "learning_rate": 9.890725986971994e-06,
      "loss": 0.8821,
      "step": 2516
    },
    {
      "epoch": 0.13853266552919807,
      "grad_norm": 0.804314374923706,
      "learning_rate": 9.890635840915164e-06,
      "loss": 0.8412,
      "step": 2517
    },
    {
      "epoch": 0.13858770433155373,
      "grad_norm": 0.8242805600166321,
      "learning_rate": 9.890545658101623e-06,
      "loss": 0.8447,
      "step": 2518
    },
    {
      "epoch": 0.1386427431339094,
      "grad_norm": 0.8385655879974365,
      "learning_rate": 9.890455438532048e-06,
      "loss": 0.8161,
      "step": 2519
    },
    {
      "epoch": 0.13869778193626506,
      "grad_norm": 0.7950524687767029,
      "learning_rate": 9.89036518220712e-06,
      "loss": 0.8024,
      "step": 2520
    },
    {
      "epoch": 0.13875282073862072,
      "grad_norm": 1.0031861066818237,
      "learning_rate": 9.890274889127518e-06,
      "loss": 0.8399,
      "step": 2521
    },
    {
      "epoch": 0.13880785954097638,
      "grad_norm": 0.8403242230415344,
      "learning_rate": 9.890184559293917e-06,
      "loss": 0.8115,
      "step": 2522
    },
    {
      "epoch": 0.13886289834333204,
      "grad_norm": 0.8389976024627686,
      "learning_rate": 9.890094192706998e-06,
      "loss": 0.9573,
      "step": 2523
    },
    {
      "epoch": 0.1389179371456877,
      "grad_norm": 0.8408516645431519,
      "learning_rate": 9.890003789367442e-06,
      "loss": 0.8572,
      "step": 2524
    },
    {
      "epoch": 0.13897297594804336,
      "grad_norm": 0.7607787251472473,
      "learning_rate": 9.889913349275925e-06,
      "loss": 0.8119,
      "step": 2525
    },
    {
      "epoch": 0.13902801475039903,
      "grad_norm": 0.7696373462677002,
      "learning_rate": 9.889822872433127e-06,
      "loss": 0.8287,
      "step": 2526
    },
    {
      "epoch": 0.1390830535527547,
      "grad_norm": 0.8518380522727966,
      "learning_rate": 9.889732358839732e-06,
      "loss": 0.9008,
      "step": 2527
    },
    {
      "epoch": 0.13913809235511035,
      "grad_norm": 0.8851314783096313,
      "learning_rate": 9.889641808496416e-06,
      "loss": 0.8148,
      "step": 2528
    },
    {
      "epoch": 0.139193131157466,
      "grad_norm": 0.9245797395706177,
      "learning_rate": 9.889551221403862e-06,
      "loss": 0.846,
      "step": 2529
    },
    {
      "epoch": 0.13924816995982167,
      "grad_norm": 0.8445762991905212,
      "learning_rate": 9.889460597562748e-06,
      "loss": 0.8306,
      "step": 2530
    },
    {
      "epoch": 0.13930320876217733,
      "grad_norm": 0.9149277806282043,
      "learning_rate": 9.88936993697376e-06,
      "loss": 0.8033,
      "step": 2531
    },
    {
      "epoch": 0.139358247564533,
      "grad_norm": 0.894666850566864,
      "learning_rate": 9.889279239637572e-06,
      "loss": 0.8299,
      "step": 2532
    },
    {
      "epoch": 0.13941328636688866,
      "grad_norm": 1.2897371053695679,
      "learning_rate": 9.889188505554871e-06,
      "loss": 0.7776,
      "step": 2533
    },
    {
      "epoch": 0.13946832516924432,
      "grad_norm": 0.8927022218704224,
      "learning_rate": 9.889097734726341e-06,
      "loss": 0.8706,
      "step": 2534
    },
    {
      "epoch": 0.13952336397159998,
      "grad_norm": 0.7688571214675903,
      "learning_rate": 9.889006927152658e-06,
      "loss": 0.8191,
      "step": 2535
    },
    {
      "epoch": 0.13957840277395564,
      "grad_norm": 0.926671028137207,
      "learning_rate": 9.88891608283451e-06,
      "loss": 0.7489,
      "step": 2536
    },
    {
      "epoch": 0.1396334415763113,
      "grad_norm": 0.8316965699195862,
      "learning_rate": 9.888825201772577e-06,
      "loss": 0.7783,
      "step": 2537
    },
    {
      "epoch": 0.13968848037866696,
      "grad_norm": 0.8619750738143921,
      "learning_rate": 9.88873428396754e-06,
      "loss": 0.8269,
      "step": 2538
    },
    {
      "epoch": 0.13974351918102262,
      "grad_norm": 0.8588540554046631,
      "learning_rate": 9.888643329420086e-06,
      "loss": 0.8133,
      "step": 2539
    },
    {
      "epoch": 0.13979855798337829,
      "grad_norm": 0.7947841882705688,
      "learning_rate": 9.8885523381309e-06,
      "loss": 0.8041,
      "step": 2540
    },
    {
      "epoch": 0.13985359678573395,
      "grad_norm": 0.8440257906913757,
      "learning_rate": 9.888461310100661e-06,
      "loss": 0.8324,
      "step": 2541
    },
    {
      "epoch": 0.1399086355880896,
      "grad_norm": 0.7842260003089905,
      "learning_rate": 9.888370245330055e-06,
      "loss": 0.8031,
      "step": 2542
    },
    {
      "epoch": 0.13996367439044527,
      "grad_norm": 0.8108223080635071,
      "learning_rate": 9.888279143819768e-06,
      "loss": 0.7998,
      "step": 2543
    },
    {
      "epoch": 0.14001871319280093,
      "grad_norm": 0.9748625159263611,
      "learning_rate": 9.888188005570482e-06,
      "loss": 0.9553,
      "step": 2544
    },
    {
      "epoch": 0.1400737519951566,
      "grad_norm": 0.8465562462806702,
      "learning_rate": 9.888096830582883e-06,
      "loss": 0.7884,
      "step": 2545
    },
    {
      "epoch": 0.14012879079751225,
      "grad_norm": 0.9339833855628967,
      "learning_rate": 9.88800561885766e-06,
      "loss": 0.8135,
      "step": 2546
    },
    {
      "epoch": 0.14018382959986792,
      "grad_norm": 0.7749297022819519,
      "learning_rate": 9.887914370395492e-06,
      "loss": 0.8411,
      "step": 2547
    },
    {
      "epoch": 0.14023886840222358,
      "grad_norm": 0.862606942653656,
      "learning_rate": 9.887823085197068e-06,
      "loss": 0.7631,
      "step": 2548
    },
    {
      "epoch": 0.14029390720457924,
      "grad_norm": 1.3383793830871582,
      "learning_rate": 9.887731763263076e-06,
      "loss": 0.7979,
      "step": 2549
    },
    {
      "epoch": 0.1403489460069349,
      "grad_norm": 0.8092008233070374,
      "learning_rate": 9.887640404594199e-06,
      "loss": 0.7566,
      "step": 2550
    },
    {
      "epoch": 0.14040398480929056,
      "grad_norm": 0.9233745336532593,
      "learning_rate": 9.887549009191126e-06,
      "loss": 0.8954,
      "step": 2551
    },
    {
      "epoch": 0.14045902361164622,
      "grad_norm": 0.8533664345741272,
      "learning_rate": 9.887457577054542e-06,
      "loss": 0.8311,
      "step": 2552
    },
    {
      "epoch": 0.14051406241400188,
      "grad_norm": 0.7679287791252136,
      "learning_rate": 9.887366108185135e-06,
      "loss": 0.7641,
      "step": 2553
    },
    {
      "epoch": 0.14056910121635754,
      "grad_norm": 0.7998354434967041,
      "learning_rate": 9.887274602583594e-06,
      "loss": 0.7759,
      "step": 2554
    },
    {
      "epoch": 0.1406241400187132,
      "grad_norm": 0.8877138495445251,
      "learning_rate": 9.887183060250605e-06,
      "loss": 0.8928,
      "step": 2555
    },
    {
      "epoch": 0.14067917882106884,
      "grad_norm": 0.8022066354751587,
      "learning_rate": 9.887091481186855e-06,
      "loss": 0.8233,
      "step": 2556
    },
    {
      "epoch": 0.1407342176234245,
      "grad_norm": 0.8419097065925598,
      "learning_rate": 9.886999865393035e-06,
      "loss": 0.8044,
      "step": 2557
    },
    {
      "epoch": 0.14078925642578016,
      "grad_norm": 0.9581286311149597,
      "learning_rate": 9.88690821286983e-06,
      "loss": 0.8531,
      "step": 2558
    },
    {
      "epoch": 0.14084429522813582,
      "grad_norm": 0.894851803779602,
      "learning_rate": 9.886816523617933e-06,
      "loss": 0.8594,
      "step": 2559
    },
    {
      "epoch": 0.14089933403049149,
      "grad_norm": 0.7813432812690735,
      "learning_rate": 9.886724797638032e-06,
      "loss": 0.7311,
      "step": 2560
    },
    {
      "epoch": 0.14095437283284715,
      "grad_norm": 0.8194118142127991,
      "learning_rate": 9.886633034930814e-06,
      "loss": 0.8067,
      "step": 2561
    },
    {
      "epoch": 0.1410094116352028,
      "grad_norm": 0.8091121912002563,
      "learning_rate": 9.88654123549697e-06,
      "loss": 0.7558,
      "step": 2562
    },
    {
      "epoch": 0.14106445043755847,
      "grad_norm": 0.8334764242172241,
      "learning_rate": 9.88644939933719e-06,
      "loss": 0.8375,
      "step": 2563
    },
    {
      "epoch": 0.14111948923991413,
      "grad_norm": 0.8283817768096924,
      "learning_rate": 9.886357526452166e-06,
      "loss": 0.7839,
      "step": 2564
    },
    {
      "epoch": 0.1411745280422698,
      "grad_norm": 0.8708772659301758,
      "learning_rate": 9.886265616842585e-06,
      "loss": 0.8193,
      "step": 2565
    },
    {
      "epoch": 0.14122956684462545,
      "grad_norm": 0.9883641600608826,
      "learning_rate": 9.886173670509141e-06,
      "loss": 0.9409,
      "step": 2566
    },
    {
      "epoch": 0.14128460564698112,
      "grad_norm": 0.8601766228675842,
      "learning_rate": 9.886081687452523e-06,
      "loss": 0.9391,
      "step": 2567
    },
    {
      "epoch": 0.14133964444933678,
      "grad_norm": 0.8729620575904846,
      "learning_rate": 9.885989667673422e-06,
      "loss": 0.8372,
      "step": 2568
    },
    {
      "epoch": 0.14139468325169244,
      "grad_norm": 0.7899564504623413,
      "learning_rate": 9.885897611172532e-06,
      "loss": 0.7773,
      "step": 2569
    },
    {
      "epoch": 0.1414497220540481,
      "grad_norm": 0.8120512962341309,
      "learning_rate": 9.885805517950542e-06,
      "loss": 0.887,
      "step": 2570
    },
    {
      "epoch": 0.14150476085640376,
      "grad_norm": 0.8475256562232971,
      "learning_rate": 9.885713388008148e-06,
      "loss": 0.7935,
      "step": 2571
    },
    {
      "epoch": 0.14155979965875942,
      "grad_norm": 0.7669919729232788,
      "learning_rate": 9.885621221346038e-06,
      "loss": 0.7728,
      "step": 2572
    },
    {
      "epoch": 0.14161483846111508,
      "grad_norm": 0.8298916220664978,
      "learning_rate": 9.885529017964906e-06,
      "loss": 0.7723,
      "step": 2573
    },
    {
      "epoch": 0.14166987726347074,
      "grad_norm": 0.8630721569061279,
      "learning_rate": 9.885436777865447e-06,
      "loss": 0.8395,
      "step": 2574
    },
    {
      "epoch": 0.1417249160658264,
      "grad_norm": 0.7566008567810059,
      "learning_rate": 9.885344501048352e-06,
      "loss": 0.806,
      "step": 2575
    },
    {
      "epoch": 0.14177995486818207,
      "grad_norm": 0.7870769500732422,
      "learning_rate": 9.885252187514316e-06,
      "loss": 0.7683,
      "step": 2576
    },
    {
      "epoch": 0.14183499367053773,
      "grad_norm": 0.879648745059967,
      "learning_rate": 9.885159837264033e-06,
      "loss": 0.8472,
      "step": 2577
    },
    {
      "epoch": 0.1418900324728934,
      "grad_norm": 0.76839280128479,
      "learning_rate": 9.885067450298196e-06,
      "loss": 0.8534,
      "step": 2578
    },
    {
      "epoch": 0.14194507127524905,
      "grad_norm": 0.8268701434135437,
      "learning_rate": 9.884975026617498e-06,
      "loss": 0.7799,
      "step": 2579
    },
    {
      "epoch": 0.1420001100776047,
      "grad_norm": 0.8226090669631958,
      "learning_rate": 9.884882566222638e-06,
      "loss": 0.6756,
      "step": 2580
    },
    {
      "epoch": 0.14205514887996037,
      "grad_norm": 0.8299756050109863,
      "learning_rate": 9.884790069114307e-06,
      "loss": 0.734,
      "step": 2581
    },
    {
      "epoch": 0.14211018768231604,
      "grad_norm": 0.8241812586784363,
      "learning_rate": 9.8846975352932e-06,
      "loss": 0.8335,
      "step": 2582
    },
    {
      "epoch": 0.1421652264846717,
      "grad_norm": 0.8458926677703857,
      "learning_rate": 9.884604964760016e-06,
      "loss": 0.7376,
      "step": 2583
    },
    {
      "epoch": 0.14222026528702736,
      "grad_norm": 0.876966655254364,
      "learning_rate": 9.884512357515447e-06,
      "loss": 0.9414,
      "step": 2584
    },
    {
      "epoch": 0.14227530408938302,
      "grad_norm": 0.770252525806427,
      "learning_rate": 9.88441971356019e-06,
      "loss": 0.8312,
      "step": 2585
    },
    {
      "epoch": 0.14233034289173868,
      "grad_norm": 0.7883023023605347,
      "learning_rate": 9.884327032894945e-06,
      "loss": 0.8568,
      "step": 2586
    },
    {
      "epoch": 0.14238538169409434,
      "grad_norm": 0.9092289209365845,
      "learning_rate": 9.884234315520405e-06,
      "loss": 0.9078,
      "step": 2587
    },
    {
      "epoch": 0.14244042049645,
      "grad_norm": 0.7946531176567078,
      "learning_rate": 9.884141561437266e-06,
      "loss": 0.6895,
      "step": 2588
    },
    {
      "epoch": 0.14249545929880567,
      "grad_norm": 0.7791070342063904,
      "learning_rate": 9.884048770646227e-06,
      "loss": 0.6984,
      "step": 2589
    },
    {
      "epoch": 0.14255049810116133,
      "grad_norm": 0.7775537371635437,
      "learning_rate": 9.883955943147982e-06,
      "loss": 0.7568,
      "step": 2590
    },
    {
      "epoch": 0.142605536903517,
      "grad_norm": 0.7735158801078796,
      "learning_rate": 9.883863078943234e-06,
      "loss": 0.8215,
      "step": 2591
    },
    {
      "epoch": 0.14266057570587265,
      "grad_norm": 0.881365180015564,
      "learning_rate": 9.88377017803268e-06,
      "loss": 0.8817,
      "step": 2592
    },
    {
      "epoch": 0.1427156145082283,
      "grad_norm": 0.8643443584442139,
      "learning_rate": 9.883677240417014e-06,
      "loss": 0.8024,
      "step": 2593
    },
    {
      "epoch": 0.14277065331058397,
      "grad_norm": 0.885713517665863,
      "learning_rate": 9.883584266096938e-06,
      "loss": 0.7612,
      "step": 2594
    },
    {
      "epoch": 0.14282569211293963,
      "grad_norm": 0.771340012550354,
      "learning_rate": 9.88349125507315e-06,
      "loss": 0.8293,
      "step": 2595
    },
    {
      "epoch": 0.1428807309152953,
      "grad_norm": 0.8284093737602234,
      "learning_rate": 9.88339820734635e-06,
      "loss": 0.8539,
      "step": 2596
    },
    {
      "epoch": 0.14293576971765096,
      "grad_norm": 0.9597725868225098,
      "learning_rate": 9.883305122917233e-06,
      "loss": 0.9054,
      "step": 2597
    },
    {
      "epoch": 0.14299080852000662,
      "grad_norm": 0.7552937269210815,
      "learning_rate": 9.883212001786504e-06,
      "loss": 0.8047,
      "step": 2598
    },
    {
      "epoch": 0.14304584732236225,
      "grad_norm": 0.8008492588996887,
      "learning_rate": 9.883118843954861e-06,
      "loss": 0.802,
      "step": 2599
    },
    {
      "epoch": 0.1431008861247179,
      "grad_norm": 0.8169753551483154,
      "learning_rate": 9.883025649423003e-06,
      "loss": 0.8837,
      "step": 2600
    },
    {
      "epoch": 0.14315592492707357,
      "grad_norm": 0.8521036505699158,
      "learning_rate": 9.882932418191632e-06,
      "loss": 0.8266,
      "step": 2601
    },
    {
      "epoch": 0.14321096372942924,
      "grad_norm": 0.8647341728210449,
      "learning_rate": 9.882839150261449e-06,
      "loss": 0.8949,
      "step": 2602
    },
    {
      "epoch": 0.1432660025317849,
      "grad_norm": 0.9236162304878235,
      "learning_rate": 9.882745845633153e-06,
      "loss": 0.8474,
      "step": 2603
    },
    {
      "epoch": 0.14332104133414056,
      "grad_norm": 0.8422677516937256,
      "learning_rate": 9.882652504307445e-06,
      "loss": 0.8396,
      "step": 2604
    },
    {
      "epoch": 0.14337608013649622,
      "grad_norm": 0.902036190032959,
      "learning_rate": 9.88255912628503e-06,
      "loss": 0.8075,
      "step": 2605
    },
    {
      "epoch": 0.14343111893885188,
      "grad_norm": 0.8972339630126953,
      "learning_rate": 9.882465711566605e-06,
      "loss": 0.8143,
      "step": 2606
    },
    {
      "epoch": 0.14348615774120754,
      "grad_norm": 0.8025243282318115,
      "learning_rate": 9.882372260152877e-06,
      "loss": 0.771,
      "step": 2607
    },
    {
      "epoch": 0.1435411965435632,
      "grad_norm": 0.8260911107063293,
      "learning_rate": 9.882278772044545e-06,
      "loss": 0.7679,
      "step": 2608
    },
    {
      "epoch": 0.14359623534591887,
      "grad_norm": 0.8069774508476257,
      "learning_rate": 9.882185247242313e-06,
      "loss": 0.8489,
      "step": 2609
    },
    {
      "epoch": 0.14365127414827453,
      "grad_norm": 0.8702567219734192,
      "learning_rate": 9.882091685746883e-06,
      "loss": 0.9258,
      "step": 2610
    },
    {
      "epoch": 0.1437063129506302,
      "grad_norm": 0.8841683268547058,
      "learning_rate": 9.881998087558959e-06,
      "loss": 0.7858,
      "step": 2611
    },
    {
      "epoch": 0.14376135175298585,
      "grad_norm": 0.7302986979484558,
      "learning_rate": 9.881904452679246e-06,
      "loss": 0.7339,
      "step": 2612
    },
    {
      "epoch": 0.1438163905553415,
      "grad_norm": 0.7852466106414795,
      "learning_rate": 9.881810781108442e-06,
      "loss": 0.8397,
      "step": 2613
    },
    {
      "epoch": 0.14387142935769717,
      "grad_norm": 0.7986249327659607,
      "learning_rate": 9.881717072847258e-06,
      "loss": 0.7573,
      "step": 2614
    },
    {
      "epoch": 0.14392646816005283,
      "grad_norm": 0.750000536441803,
      "learning_rate": 9.881623327896395e-06,
      "loss": 0.7128,
      "step": 2615
    },
    {
      "epoch": 0.1439815069624085,
      "grad_norm": 0.8796436786651611,
      "learning_rate": 9.881529546256557e-06,
      "loss": 0.9364,
      "step": 2616
    },
    {
      "epoch": 0.14403654576476416,
      "grad_norm": 0.8621297478675842,
      "learning_rate": 9.881435727928449e-06,
      "loss": 0.9323,
      "step": 2617
    },
    {
      "epoch": 0.14409158456711982,
      "grad_norm": 0.8213173151016235,
      "learning_rate": 9.881341872912777e-06,
      "loss": 0.7746,
      "step": 2618
    },
    {
      "epoch": 0.14414662336947548,
      "grad_norm": 0.7761938571929932,
      "learning_rate": 9.881247981210247e-06,
      "loss": 0.8065,
      "step": 2619
    },
    {
      "epoch": 0.14420166217183114,
      "grad_norm": 0.8333988785743713,
      "learning_rate": 9.881154052821564e-06,
      "loss": 0.8727,
      "step": 2620
    },
    {
      "epoch": 0.1442567009741868,
      "grad_norm": 0.7263909578323364,
      "learning_rate": 9.881060087747433e-06,
      "loss": 0.8194,
      "step": 2621
    },
    {
      "epoch": 0.14431173977654246,
      "grad_norm": 0.7472667098045349,
      "learning_rate": 9.880966085988562e-06,
      "loss": 0.77,
      "step": 2622
    },
    {
      "epoch": 0.14436677857889813,
      "grad_norm": 0.7999943494796753,
      "learning_rate": 9.880872047545656e-06,
      "loss": 0.7936,
      "step": 2623
    },
    {
      "epoch": 0.1444218173812538,
      "grad_norm": 0.8359610438346863,
      "learning_rate": 9.88077797241942e-06,
      "loss": 0.7946,
      "step": 2624
    },
    {
      "epoch": 0.14447685618360945,
      "grad_norm": 0.8666403889656067,
      "learning_rate": 9.880683860610566e-06,
      "loss": 0.8152,
      "step": 2625
    },
    {
      "epoch": 0.1445318949859651,
      "grad_norm": 0.7883741855621338,
      "learning_rate": 9.880589712119797e-06,
      "loss": 0.7972,
      "step": 2626
    },
    {
      "epoch": 0.14458693378832077,
      "grad_norm": 0.8048827648162842,
      "learning_rate": 9.880495526947824e-06,
      "loss": 0.8221,
      "step": 2627
    },
    {
      "epoch": 0.14464197259067643,
      "grad_norm": 0.718292236328125,
      "learning_rate": 9.88040130509535e-06,
      "loss": 0.7648,
      "step": 2628
    },
    {
      "epoch": 0.1446970113930321,
      "grad_norm": 0.7748421430587769,
      "learning_rate": 9.880307046563088e-06,
      "loss": 0.8146,
      "step": 2629
    },
    {
      "epoch": 0.14475205019538775,
      "grad_norm": 0.8015987873077393,
      "learning_rate": 9.880212751351745e-06,
      "loss": 0.7935,
      "step": 2630
    },
    {
      "epoch": 0.14480708899774342,
      "grad_norm": 0.7628459930419922,
      "learning_rate": 9.88011841946203e-06,
      "loss": 0.7469,
      "step": 2631
    },
    {
      "epoch": 0.14486212780009908,
      "grad_norm": 0.7152888774871826,
      "learning_rate": 9.88002405089465e-06,
      "loss": 0.7721,
      "step": 2632
    },
    {
      "epoch": 0.14491716660245474,
      "grad_norm": 0.8075545430183411,
      "learning_rate": 9.879929645650315e-06,
      "loss": 0.8799,
      "step": 2633
    },
    {
      "epoch": 0.1449722054048104,
      "grad_norm": 0.7981964945793152,
      "learning_rate": 9.879835203729736e-06,
      "loss": 0.8265,
      "step": 2634
    },
    {
      "epoch": 0.14502724420716606,
      "grad_norm": 0.7699866890907288,
      "learning_rate": 9.879740725133623e-06,
      "loss": 0.8489,
      "step": 2635
    },
    {
      "epoch": 0.14508228300952172,
      "grad_norm": 0.7991634011268616,
      "learning_rate": 9.879646209862682e-06,
      "loss": 0.8754,
      "step": 2636
    },
    {
      "epoch": 0.14513732181187738,
      "grad_norm": 0.8284991383552551,
      "learning_rate": 9.879551657917628e-06,
      "loss": 0.811,
      "step": 2637
    },
    {
      "epoch": 0.14519236061423305,
      "grad_norm": 0.9189227819442749,
      "learning_rate": 9.87945706929917e-06,
      "loss": 0.8486,
      "step": 2638
    },
    {
      "epoch": 0.1452473994165887,
      "grad_norm": 0.8599026799201965,
      "learning_rate": 9.879362444008018e-06,
      "loss": 0.8383,
      "step": 2639
    },
    {
      "epoch": 0.14530243821894437,
      "grad_norm": 0.8764603137969971,
      "learning_rate": 9.879267782044885e-06,
      "loss": 0.7918,
      "step": 2640
    },
    {
      "epoch": 0.14535747702130003,
      "grad_norm": 0.8061341047286987,
      "learning_rate": 9.87917308341048e-06,
      "loss": 0.8292,
      "step": 2641
    },
    {
      "epoch": 0.14541251582365566,
      "grad_norm": 1.031220555305481,
      "learning_rate": 9.879078348105518e-06,
      "loss": 0.6612,
      "step": 2642
    },
    {
      "epoch": 0.14546755462601133,
      "grad_norm": 1.014491319656372,
      "learning_rate": 9.878983576130708e-06,
      "loss": 0.8512,
      "step": 2643
    },
    {
      "epoch": 0.145522593428367,
      "grad_norm": 0.8365896940231323,
      "learning_rate": 9.878888767486764e-06,
      "loss": 0.7995,
      "step": 2644
    },
    {
      "epoch": 0.14557763223072265,
      "grad_norm": 0.8086197972297668,
      "learning_rate": 9.878793922174397e-06,
      "loss": 0.8069,
      "step": 2645
    },
    {
      "epoch": 0.1456326710330783,
      "grad_norm": 0.8075234889984131,
      "learning_rate": 9.878699040194322e-06,
      "loss": 0.8415,
      "step": 2646
    },
    {
      "epoch": 0.14568770983543397,
      "grad_norm": 0.9413748979568481,
      "learning_rate": 9.87860412154725e-06,
      "loss": 0.7811,
      "step": 2647
    },
    {
      "epoch": 0.14574274863778963,
      "grad_norm": 0.7744552493095398,
      "learning_rate": 9.878509166233895e-06,
      "loss": 0.7983,
      "step": 2648
    },
    {
      "epoch": 0.1457977874401453,
      "grad_norm": 0.8184664845466614,
      "learning_rate": 9.878414174254974e-06,
      "loss": 0.8052,
      "step": 2649
    },
    {
      "epoch": 0.14585282624250095,
      "grad_norm": 0.928814172744751,
      "learning_rate": 9.878319145611195e-06,
      "loss": 0.7695,
      "step": 2650
    },
    {
      "epoch": 0.14590786504485662,
      "grad_norm": 0.9623318314552307,
      "learning_rate": 9.878224080303276e-06,
      "loss": 0.9025,
      "step": 2651
    },
    {
      "epoch": 0.14596290384721228,
      "grad_norm": 0.866538405418396,
      "learning_rate": 9.87812897833193e-06,
      "loss": 0.7895,
      "step": 2652
    },
    {
      "epoch": 0.14601794264956794,
      "grad_norm": 0.9248599410057068,
      "learning_rate": 9.878033839697874e-06,
      "loss": 0.8532,
      "step": 2653
    },
    {
      "epoch": 0.1460729814519236,
      "grad_norm": 0.7866301536560059,
      "learning_rate": 9.87793866440182e-06,
      "loss": 0.8724,
      "step": 2654
    },
    {
      "epoch": 0.14612802025427926,
      "grad_norm": 0.8471634387969971,
      "learning_rate": 9.877843452444485e-06,
      "loss": 0.9184,
      "step": 2655
    },
    {
      "epoch": 0.14618305905663492,
      "grad_norm": 0.7367103695869446,
      "learning_rate": 9.877748203826585e-06,
      "loss": 0.7328,
      "step": 2656
    },
    {
      "epoch": 0.14623809785899058,
      "grad_norm": 0.95980304479599,
      "learning_rate": 9.877652918548834e-06,
      "loss": 0.9274,
      "step": 2657
    },
    {
      "epoch": 0.14629313666134625,
      "grad_norm": 1.0511064529418945,
      "learning_rate": 9.87755759661195e-06,
      "loss": 0.8223,
      "step": 2658
    },
    {
      "epoch": 0.1463481754637019,
      "grad_norm": 0.7616510391235352,
      "learning_rate": 9.877462238016649e-06,
      "loss": 0.7473,
      "step": 2659
    },
    {
      "epoch": 0.14640321426605757,
      "grad_norm": 0.7814056873321533,
      "learning_rate": 9.877366842763647e-06,
      "loss": 0.8898,
      "step": 2660
    },
    {
      "epoch": 0.14645825306841323,
      "grad_norm": 0.8707298636436462,
      "learning_rate": 9.877271410853662e-06,
      "loss": 0.8792,
      "step": 2661
    },
    {
      "epoch": 0.1465132918707689,
      "grad_norm": 0.8618701696395874,
      "learning_rate": 9.877175942287409e-06,
      "loss": 0.8761,
      "step": 2662
    },
    {
      "epoch": 0.14656833067312455,
      "grad_norm": 0.9437732100486755,
      "learning_rate": 9.877080437065609e-06,
      "loss": 0.7922,
      "step": 2663
    },
    {
      "epoch": 0.14662336947548021,
      "grad_norm": 0.9465780258178711,
      "learning_rate": 9.876984895188976e-06,
      "loss": 0.8449,
      "step": 2664
    },
    {
      "epoch": 0.14667840827783588,
      "grad_norm": 0.7149911522865295,
      "learning_rate": 9.876889316658233e-06,
      "loss": 0.6408,
      "step": 2665
    },
    {
      "epoch": 0.14673344708019154,
      "grad_norm": 0.9996811151504517,
      "learning_rate": 9.876793701474092e-06,
      "loss": 0.9324,
      "step": 2666
    },
    {
      "epoch": 0.1467884858825472,
      "grad_norm": 0.7941329479217529,
      "learning_rate": 9.876698049637277e-06,
      "loss": 0.8115,
      "step": 2667
    },
    {
      "epoch": 0.14684352468490286,
      "grad_norm": 0.754175066947937,
      "learning_rate": 9.876602361148504e-06,
      "loss": 0.7709,
      "step": 2668
    },
    {
      "epoch": 0.14689856348725852,
      "grad_norm": 0.7867946624755859,
      "learning_rate": 9.876506636008494e-06,
      "loss": 0.8578,
      "step": 2669
    },
    {
      "epoch": 0.14695360228961418,
      "grad_norm": 0.7441185116767883,
      "learning_rate": 9.876410874217965e-06,
      "loss": 0.8491,
      "step": 2670
    },
    {
      "epoch": 0.14700864109196984,
      "grad_norm": 0.8414027690887451,
      "learning_rate": 9.876315075777638e-06,
      "loss": 0.8404,
      "step": 2671
    },
    {
      "epoch": 0.1470636798943255,
      "grad_norm": 0.7911489009857178,
      "learning_rate": 9.876219240688231e-06,
      "loss": 0.8606,
      "step": 2672
    },
    {
      "epoch": 0.14711871869668117,
      "grad_norm": 0.8601381778717041,
      "learning_rate": 9.876123368950465e-06,
      "loss": 0.7753,
      "step": 2673
    },
    {
      "epoch": 0.14717375749903683,
      "grad_norm": 0.8672378659248352,
      "learning_rate": 9.876027460565062e-06,
      "loss": 0.7763,
      "step": 2674
    },
    {
      "epoch": 0.1472287963013925,
      "grad_norm": 0.7192933559417725,
      "learning_rate": 9.875931515532742e-06,
      "loss": 0.7681,
      "step": 2675
    },
    {
      "epoch": 0.14728383510374815,
      "grad_norm": 0.7483426332473755,
      "learning_rate": 9.875835533854226e-06,
      "loss": 0.8129,
      "step": 2676
    },
    {
      "epoch": 0.1473388739061038,
      "grad_norm": 0.8883694410324097,
      "learning_rate": 9.875739515530235e-06,
      "loss": 0.8912,
      "step": 2677
    },
    {
      "epoch": 0.14739391270845947,
      "grad_norm": 0.8440148234367371,
      "learning_rate": 9.87564346056149e-06,
      "loss": 0.8411,
      "step": 2678
    },
    {
      "epoch": 0.14744895151081513,
      "grad_norm": 0.8916668891906738,
      "learning_rate": 9.875547368948715e-06,
      "loss": 0.8484,
      "step": 2679
    },
    {
      "epoch": 0.1475039903131708,
      "grad_norm": 0.805258572101593,
      "learning_rate": 9.875451240692631e-06,
      "loss": 0.8172,
      "step": 2680
    },
    {
      "epoch": 0.14755902911552646,
      "grad_norm": 0.8322305679321289,
      "learning_rate": 9.87535507579396e-06,
      "loss": 0.809,
      "step": 2681
    },
    {
      "epoch": 0.14761406791788212,
      "grad_norm": 0.7320597767829895,
      "learning_rate": 9.875258874253424e-06,
      "loss": 0.7346,
      "step": 2682
    },
    {
      "epoch": 0.14766910672023778,
      "grad_norm": 1.018036127090454,
      "learning_rate": 9.875162636071749e-06,
      "loss": 0.931,
      "step": 2683
    },
    {
      "epoch": 0.14772414552259344,
      "grad_norm": 0.8601503968238831,
      "learning_rate": 9.875066361249657e-06,
      "loss": 0.7689,
      "step": 2684
    },
    {
      "epoch": 0.14777918432494908,
      "grad_norm": 0.8478472232818604,
      "learning_rate": 9.87497004978787e-06,
      "loss": 0.9545,
      "step": 2685
    },
    {
      "epoch": 0.14783422312730474,
      "grad_norm": 0.7510890364646912,
      "learning_rate": 9.874873701687115e-06,
      "loss": 0.7794,
      "step": 2686
    },
    {
      "epoch": 0.1478892619296604,
      "grad_norm": 0.8226999044418335,
      "learning_rate": 9.874777316948112e-06,
      "loss": 0.8477,
      "step": 2687
    },
    {
      "epoch": 0.14794430073201606,
      "grad_norm": 0.8284991979598999,
      "learning_rate": 9.874680895571588e-06,
      "loss": 0.8498,
      "step": 2688
    },
    {
      "epoch": 0.14799933953437172,
      "grad_norm": 0.9007356762886047,
      "learning_rate": 9.874584437558267e-06,
      "loss": 0.8526,
      "step": 2689
    },
    {
      "epoch": 0.14805437833672738,
      "grad_norm": 0.8770126104354858,
      "learning_rate": 9.874487942908877e-06,
      "loss": 0.844,
      "step": 2690
    },
    {
      "epoch": 0.14810941713908304,
      "grad_norm": 1.1561466455459595,
      "learning_rate": 9.874391411624138e-06,
      "loss": 0.976,
      "step": 2691
    },
    {
      "epoch": 0.1481644559414387,
      "grad_norm": 0.8162640929222107,
      "learning_rate": 9.874294843704777e-06,
      "loss": 0.8581,
      "step": 2692
    },
    {
      "epoch": 0.14821949474379437,
      "grad_norm": 0.8308132290840149,
      "learning_rate": 9.874198239151522e-06,
      "loss": 0.8303,
      "step": 2693
    },
    {
      "epoch": 0.14827453354615003,
      "grad_norm": 0.771024227142334,
      "learning_rate": 9.874101597965098e-06,
      "loss": 0.8351,
      "step": 2694
    },
    {
      "epoch": 0.1483295723485057,
      "grad_norm": 0.7588162422180176,
      "learning_rate": 9.874004920146232e-06,
      "loss": 0.7858,
      "step": 2695
    },
    {
      "epoch": 0.14838461115086135,
      "grad_norm": 0.8282446265220642,
      "learning_rate": 9.873908205695648e-06,
      "loss": 0.8465,
      "step": 2696
    },
    {
      "epoch": 0.148439649953217,
      "grad_norm": 0.8342786431312561,
      "learning_rate": 9.873811454614076e-06,
      "loss": 0.8688,
      "step": 2697
    },
    {
      "epoch": 0.14849468875557267,
      "grad_norm": 0.7957108020782471,
      "learning_rate": 9.87371466690224e-06,
      "loss": 0.8381,
      "step": 2698
    },
    {
      "epoch": 0.14854972755792833,
      "grad_norm": 0.8763726353645325,
      "learning_rate": 9.87361784256087e-06,
      "loss": 0.8922,
      "step": 2699
    },
    {
      "epoch": 0.148604766360284,
      "grad_norm": 0.7760055661201477,
      "learning_rate": 9.873520981590693e-06,
      "loss": 0.8384,
      "step": 2700
    },
    {
      "epoch": 0.14865980516263966,
      "grad_norm": 0.9691097736358643,
      "learning_rate": 9.873424083992436e-06,
      "loss": 0.8581,
      "step": 2701
    },
    {
      "epoch": 0.14871484396499532,
      "grad_norm": 0.9072558879852295,
      "learning_rate": 9.87332714976683e-06,
      "loss": 0.8942,
      "step": 2702
    },
    {
      "epoch": 0.14876988276735098,
      "grad_norm": 0.8961714506149292,
      "learning_rate": 9.8732301789146e-06,
      "loss": 0.8062,
      "step": 2703
    },
    {
      "epoch": 0.14882492156970664,
      "grad_norm": 1.4835050106048584,
      "learning_rate": 9.873133171436477e-06,
      "loss": 0.886,
      "step": 2704
    },
    {
      "epoch": 0.1488799603720623,
      "grad_norm": 0.8153702616691589,
      "learning_rate": 9.87303612733319e-06,
      "loss": 0.8369,
      "step": 2705
    },
    {
      "epoch": 0.14893499917441796,
      "grad_norm": 0.8755800724029541,
      "learning_rate": 9.872939046605467e-06,
      "loss": 0.7591,
      "step": 2706
    },
    {
      "epoch": 0.14899003797677363,
      "grad_norm": 0.8173243403434753,
      "learning_rate": 9.872841929254038e-06,
      "loss": 0.8626,
      "step": 2707
    },
    {
      "epoch": 0.1490450767791293,
      "grad_norm": 0.7891639471054077,
      "learning_rate": 9.872744775279634e-06,
      "loss": 0.737,
      "step": 2708
    },
    {
      "epoch": 0.14910011558148495,
      "grad_norm": 1.0270631313323975,
      "learning_rate": 9.872647584682985e-06,
      "loss": 0.9202,
      "step": 2709
    },
    {
      "epoch": 0.1491551543838406,
      "grad_norm": 0.7736123204231262,
      "learning_rate": 9.872550357464822e-06,
      "loss": 0.7835,
      "step": 2710
    },
    {
      "epoch": 0.14921019318619627,
      "grad_norm": 0.7791550159454346,
      "learning_rate": 9.872453093625873e-06,
      "loss": 0.8375,
      "step": 2711
    },
    {
      "epoch": 0.14926523198855193,
      "grad_norm": 0.8410583734512329,
      "learning_rate": 9.872355793166872e-06,
      "loss": 0.877,
      "step": 2712
    },
    {
      "epoch": 0.1493202707909076,
      "grad_norm": 0.8277738094329834,
      "learning_rate": 9.87225845608855e-06,
      "loss": 0.7255,
      "step": 2713
    },
    {
      "epoch": 0.14937530959326326,
      "grad_norm": 0.8617290258407593,
      "learning_rate": 9.872161082391635e-06,
      "loss": 0.7885,
      "step": 2714
    },
    {
      "epoch": 0.14943034839561892,
      "grad_norm": 0.8866406679153442,
      "learning_rate": 9.872063672076864e-06,
      "loss": 0.8621,
      "step": 2715
    },
    {
      "epoch": 0.14948538719797458,
      "grad_norm": 0.7581049799919128,
      "learning_rate": 9.871966225144964e-06,
      "loss": 0.8177,
      "step": 2716
    },
    {
      "epoch": 0.14954042600033024,
      "grad_norm": 0.833696722984314,
      "learning_rate": 9.871868741596673e-06,
      "loss": 0.8382,
      "step": 2717
    },
    {
      "epoch": 0.1495954648026859,
      "grad_norm": 1.0857365131378174,
      "learning_rate": 9.871771221432718e-06,
      "loss": 0.9254,
      "step": 2718
    },
    {
      "epoch": 0.14965050360504156,
      "grad_norm": 0.7622446417808533,
      "learning_rate": 9.871673664653837e-06,
      "loss": 0.832,
      "step": 2719
    },
    {
      "epoch": 0.14970554240739722,
      "grad_norm": 0.7436832785606384,
      "learning_rate": 9.871576071260758e-06,
      "loss": 0.7642,
      "step": 2720
    },
    {
      "epoch": 0.14976058120975289,
      "grad_norm": 0.8547641634941101,
      "learning_rate": 9.87147844125422e-06,
      "loss": 0.7584,
      "step": 2721
    },
    {
      "epoch": 0.14981562001210855,
      "grad_norm": 0.7634096145629883,
      "learning_rate": 9.871380774634953e-06,
      "loss": 0.8332,
      "step": 2722
    },
    {
      "epoch": 0.1498706588144642,
      "grad_norm": 0.7949081063270569,
      "learning_rate": 9.871283071403692e-06,
      "loss": 0.7812,
      "step": 2723
    },
    {
      "epoch": 0.14992569761681987,
      "grad_norm": 0.8089914321899414,
      "learning_rate": 9.871185331561171e-06,
      "loss": 0.8503,
      "step": 2724
    },
    {
      "epoch": 0.14998073641917553,
      "grad_norm": 0.8451627492904663,
      "learning_rate": 9.871087555108125e-06,
      "loss": 0.9101,
      "step": 2725
    },
    {
      "epoch": 0.1500357752215312,
      "grad_norm": 0.8399865627288818,
      "learning_rate": 9.87098974204529e-06,
      "loss": 0.8222,
      "step": 2726
    },
    {
      "epoch": 0.15009081402388685,
      "grad_norm": 0.7786773443222046,
      "learning_rate": 9.870891892373397e-06,
      "loss": 0.8069,
      "step": 2727
    }
  ],
  "logging_steps": 1,
  "max_steps": 36338,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 909,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 8.047544142365983e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}