{
  "best_metric": 0.7807017543859649,
  "best_model_checkpoint": "videomae-base-Badminton_strokes-finetuned-stroke-classification_10\\checkpoint-2214",
  "epoch": 9.096326530612245,
  "eval_steps": 500,
  "global_step": 2450,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004081632653061225,
      "grad_norm": 4.422181129455566,
      "learning_rate": 2.040816326530612e-06,
      "loss": 2.4923,
      "step": 10
    },
    {
      "epoch": 0.00816326530612245,
      "grad_norm": 6.700362682342529,
      "learning_rate": 4.081632653061224e-06,
      "loss": 2.4502,
      "step": 20
    },
    {
      "epoch": 0.012244897959183673,
      "grad_norm": 5.830870628356934,
      "learning_rate": 6.122448979591837e-06,
      "loss": 2.3498,
      "step": 30
    },
    {
      "epoch": 0.0163265306122449,
      "grad_norm": 4.021888256072998,
      "learning_rate": 8.163265306122448e-06,
      "loss": 2.2118,
      "step": 40
    },
    {
      "epoch": 0.02040816326530612,
      "grad_norm": 3.9514455795288086,
      "learning_rate": 1.0204081632653061e-05,
      "loss": 2.1642,
      "step": 50
    },
    {
      "epoch": 0.024489795918367346,
      "grad_norm": 3.8018665313720703,
      "learning_rate": 1.2244897959183674e-05,
      "loss": 2.0841,
      "step": 60
    },
    {
      "epoch": 0.02857142857142857,
      "grad_norm": 6.1774187088012695,
      "learning_rate": 1.4285714285714285e-05,
      "loss": 2.1007,
      "step": 70
    },
    {
      "epoch": 0.0326530612244898,
      "grad_norm": 4.433764934539795,
      "learning_rate": 1.6326530612244897e-05,
      "loss": 2.083,
      "step": 80
    },
    {
      "epoch": 0.036734693877551024,
      "grad_norm": 4.373590469360352,
      "learning_rate": 1.836734693877551e-05,
      "loss": 1.9969,
      "step": 90
    },
    {
      "epoch": 0.04081632653061224,
      "grad_norm": 5.8374810218811035,
      "learning_rate": 2.0408163265306123e-05,
      "loss": 2.0792,
      "step": 100
    },
    {
      "epoch": 0.044897959183673466,
      "grad_norm": 4.199350833892822,
      "learning_rate": 2.2448979591836737e-05,
      "loss": 2.0843,
      "step": 110
    },
    {
      "epoch": 0.04897959183673469,
      "grad_norm": 3.5531275272369385,
      "learning_rate": 2.448979591836735e-05,
      "loss": 2.0739,
      "step": 120
    },
    {
      "epoch": 0.053061224489795916,
      "grad_norm": 4.77189826965332,
      "learning_rate": 2.6530612244897963e-05,
      "loss": 1.9767,
      "step": 130
    },
    {
      "epoch": 0.05714285714285714,
      "grad_norm": 6.462856769561768,
      "learning_rate": 2.857142857142857e-05,
      "loss": 1.9281,
      "step": 140
    },
    {
      "epoch": 0.061224489795918366,
      "grad_norm": 5.483211994171143,
      "learning_rate": 3.061224489795919e-05,
      "loss": 1.7622,
      "step": 150
    },
    {
      "epoch": 0.0653061224489796,
      "grad_norm": 8.356924057006836,
      "learning_rate": 3.265306122448979e-05,
      "loss": 1.6668,
      "step": 160
    },
    {
      "epoch": 0.06938775510204082,
      "grad_norm": 5.412153720855713,
      "learning_rate": 3.469387755102041e-05,
      "loss": 1.648,
      "step": 170
    },
    {
      "epoch": 0.07346938775510205,
      "grad_norm": 4.69065523147583,
      "learning_rate": 3.673469387755102e-05,
      "loss": 1.5435,
      "step": 180
    },
    {
      "epoch": 0.07755102040816327,
      "grad_norm": 5.284121990203857,
      "learning_rate": 3.8775510204081634e-05,
      "loss": 1.5461,
      "step": 190
    },
    {
      "epoch": 0.08163265306122448,
      "grad_norm": 8.057074546813965,
      "learning_rate": 4.0816326530612245e-05,
      "loss": 1.4362,
      "step": 200
    },
    {
      "epoch": 0.08571428571428572,
      "grad_norm": 7.888145446777344,
      "learning_rate": 4.2857142857142856e-05,
      "loss": 1.4473,
      "step": 210
    },
    {
      "epoch": 0.08979591836734693,
      "grad_norm": 11.86211109161377,
      "learning_rate": 4.4897959183673474e-05,
      "loss": 1.3792,
      "step": 220
    },
    {
      "epoch": 0.09387755102040816,
      "grad_norm": 6.048102855682373,
      "learning_rate": 4.6938775510204086e-05,
      "loss": 1.4187,
      "step": 230
    },
    {
      "epoch": 0.09795918367346938,
      "grad_norm": 5.002302646636963,
      "learning_rate": 4.89795918367347e-05,
      "loss": 1.3775,
      "step": 240
    },
    {
      "epoch": 0.10040816326530612,
      "eval_accuracy": 0.4783625730994152,
      "eval_loss": 1.5476539134979248,
      "eval_runtime": 781.3422,
      "eval_samples_per_second": 2.189,
      "eval_steps_per_second": 0.092,
      "step": 246
    },
    {
      "epoch": 1.0016326530612245,
      "grad_norm": 7.02606725692749,
      "learning_rate": 4.9886621315192745e-05,
      "loss": 1.3045,
      "step": 250
    },
    {
      "epoch": 1.0057142857142858,
      "grad_norm": 6.545066833496094,
      "learning_rate": 4.965986394557823e-05,
      "loss": 1.1286,
      "step": 260
    },
    {
      "epoch": 1.0097959183673468,
      "grad_norm": 8.413867950439453,
      "learning_rate": 4.9433106575963725e-05,
      "loss": 1.478,
      "step": 270
    },
    {
      "epoch": 1.013877551020408,
      "grad_norm": 5.661056041717529,
      "learning_rate": 4.9206349206349204e-05,
      "loss": 1.1755,
      "step": 280
    },
    {
      "epoch": 1.0179591836734694,
      "grad_norm": 3.3354427814483643,
      "learning_rate": 4.89795918367347e-05,
      "loss": 1.2003,
      "step": 290
    },
    {
      "epoch": 1.0220408163265307,
      "grad_norm": 8.000494956970215,
      "learning_rate": 4.875283446712018e-05,
      "loss": 1.2312,
      "step": 300
    },
    {
      "epoch": 1.026122448979592,
      "grad_norm": 7.573913097381592,
      "learning_rate": 4.8526077097505676e-05,
      "loss": 1.2039,
      "step": 310
    },
    {
      "epoch": 1.030204081632653,
      "grad_norm": 11.523215293884277,
      "learning_rate": 4.8299319727891155e-05,
      "loss": 1.1787,
      "step": 320
    },
    {
      "epoch": 1.0342857142857143,
      "grad_norm": 5.250390529632568,
      "learning_rate": 4.807256235827665e-05,
      "loss": 1.2585,
      "step": 330
    },
    {
      "epoch": 1.0383673469387755,
      "grad_norm": 7.881366729736328,
      "learning_rate": 4.7845804988662134e-05,
      "loss": 1.1318,
      "step": 340
    },
    {
      "epoch": 1.0424489795918368,
      "grad_norm": 9.184869766235352,
      "learning_rate": 4.761904761904762e-05,
      "loss": 1.1961,
      "step": 350
    },
    {
      "epoch": 1.046530612244898,
      "grad_norm": 5.172229766845703,
      "learning_rate": 4.7392290249433106e-05,
      "loss": 1.107,
      "step": 360
    },
    {
      "epoch": 1.0506122448979591,
      "grad_norm": 8.629165649414062,
      "learning_rate": 4.71655328798186e-05,
      "loss": 1.1346,
      "step": 370
    },
    {
      "epoch": 1.0546938775510204,
      "grad_norm": 8.821961402893066,
      "learning_rate": 4.6938775510204086e-05,
      "loss": 1.1584,
      "step": 380
    },
    {
      "epoch": 1.0587755102040817,
      "grad_norm": 6.845242023468018,
      "learning_rate": 4.671201814058957e-05,
      "loss": 1.0883,
      "step": 390
    },
    {
      "epoch": 1.062857142857143,
      "grad_norm": 6.316799163818359,
      "learning_rate": 4.648526077097506e-05,
      "loss": 1.0708,
      "step": 400
    },
    {
      "epoch": 1.066938775510204,
      "grad_norm": 8.14439582824707,
      "learning_rate": 4.625850340136055e-05,
      "loss": 1.0572,
      "step": 410
    },
    {
      "epoch": 1.0710204081632653,
      "grad_norm": 6.715014934539795,
      "learning_rate": 4.603174603174603e-05,
      "loss": 0.9144,
      "step": 420
    },
    {
      "epoch": 1.0751020408163265,
      "grad_norm": 5.173260688781738,
      "learning_rate": 4.580498866213152e-05,
      "loss": 1.0762,
      "step": 430
    },
    {
      "epoch": 1.0791836734693878,
      "grad_norm": 9.654570579528809,
      "learning_rate": 4.557823129251701e-05,
      "loss": 1.1108,
      "step": 440
    },
    {
      "epoch": 1.083265306122449,
      "grad_norm": 8.643160820007324,
      "learning_rate": 4.53514739229025e-05,
      "loss": 0.9241,
      "step": 450
    },
    {
      "epoch": 1.0873469387755101,
      "grad_norm": 8.947994232177734,
      "learning_rate": 4.512471655328798e-05,
      "loss": 0.8726,
      "step": 460
    },
    {
      "epoch": 1.0914285714285714,
      "grad_norm": 15.66603946685791,
      "learning_rate": 4.4897959183673474e-05,
      "loss": 1.0067,
      "step": 470
    },
    {
      "epoch": 1.0955102040816327,
      "grad_norm": 7.348424911499023,
      "learning_rate": 4.467120181405896e-05,
      "loss": 1.0321,
      "step": 480
    },
    {
      "epoch": 1.099591836734694,
      "grad_norm": 11.021227836608887,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 0.9098,
      "step": 490
    },
    {
      "epoch": 1.1004081632653062,
      "eval_accuracy": 0.6964912280701754,
      "eval_loss": 1.2118452787399292,
      "eval_runtime": 756.1595,
      "eval_samples_per_second": 2.261,
      "eval_steps_per_second": 0.095,
      "step": 492
    },
    {
      "epoch": 2.003265306122449,
      "grad_norm": 5.652357578277588,
      "learning_rate": 4.421768707482993e-05,
      "loss": 0.9034,
      "step": 500
    },
    {
      "epoch": 2.0073469387755103,
      "grad_norm": 8.300456047058105,
      "learning_rate": 4.3990929705215426e-05,
      "loss": 0.7905,
      "step": 510
    },
    {
      "epoch": 2.0114285714285716,
      "grad_norm": 8.094884872436523,
      "learning_rate": 4.376417233560091e-05,
      "loss": 0.6445,
      "step": 520
    },
    {
      "epoch": 2.015510204081633,
      "grad_norm": 8.103925704956055,
      "learning_rate": 4.35374149659864e-05,
      "loss": 0.8278,
      "step": 530
    },
    {
      "epoch": 2.0195918367346937,
      "grad_norm": 6.3901801109313965,
      "learning_rate": 4.3310657596371884e-05,
      "loss": 0.7736,
      "step": 540
    },
    {
      "epoch": 2.023673469387755,
      "grad_norm": 11.346807479858398,
      "learning_rate": 4.308390022675737e-05,
      "loss": 1.0031,
      "step": 550
    },
    {
      "epoch": 2.027755102040816,
      "grad_norm": 10.086901664733887,
      "learning_rate": 4.2857142857142856e-05,
      "loss": 0.9582,
      "step": 560
    },
    {
      "epoch": 2.0318367346938775,
      "grad_norm": 4.69091796875,
      "learning_rate": 4.263038548752835e-05,
      "loss": 0.8926,
      "step": 570
    },
    {
      "epoch": 2.0359183673469388,
      "grad_norm": 11.110679626464844,
      "learning_rate": 4.2403628117913835e-05,
      "loss": 0.745,
      "step": 580
    },
    {
      "epoch": 2.04,
      "grad_norm": 10.121854782104492,
      "learning_rate": 4.217687074829932e-05,
      "loss": 0.794,
      "step": 590
    },
    {
      "epoch": 2.0440816326530613,
      "grad_norm": 12.487133026123047,
      "learning_rate": 4.195011337868481e-05,
      "loss": 0.975,
      "step": 600
    },
    {
      "epoch": 2.0481632653061226,
      "grad_norm": 5.699638843536377,
      "learning_rate": 4.1723356009070294e-05,
      "loss": 0.7269,
      "step": 610
    },
    {
      "epoch": 2.052244897959184,
      "grad_norm": 6.98757791519165,
      "learning_rate": 4.149659863945579e-05,
      "loss": 0.9338,
      "step": 620
    },
    {
      "epoch": 2.0563265306122447,
      "grad_norm": 7.258986473083496,
      "learning_rate": 4.126984126984127e-05,
      "loss": 0.7356,
      "step": 630
    },
    {
      "epoch": 2.060408163265306,
      "grad_norm": 8.993372917175293,
      "learning_rate": 4.104308390022676e-05,
      "loss": 0.778,
      "step": 640
    },
    {
      "epoch": 2.0644897959183672,
      "grad_norm": 8.101334571838379,
      "learning_rate": 4.0816326530612245e-05,
      "loss": 0.612,
      "step": 650
    },
    {
      "epoch": 2.0685714285714285,
      "grad_norm": 7.610772132873535,
      "learning_rate": 4.058956916099774e-05,
      "loss": 0.7947,
      "step": 660
    },
    {
      "epoch": 2.07265306122449,
      "grad_norm": 7.818012237548828,
      "learning_rate": 4.036281179138322e-05,
      "loss": 0.7262,
      "step": 670
    },
    {
      "epoch": 2.076734693877551,
      "grad_norm": 8.464200973510742,
      "learning_rate": 4.013605442176871e-05,
      "loss": 0.8635,
      "step": 680
    },
    {
      "epoch": 2.0808163265306123,
      "grad_norm": 7.1510233879089355,
      "learning_rate": 3.9909297052154196e-05,
      "loss": 0.7381,
      "step": 690
    },
    {
      "epoch": 2.0848979591836736,
      "grad_norm": 3.6917271614074707,
      "learning_rate": 3.968253968253968e-05,
      "loss": 0.7398,
      "step": 700
    },
    {
      "epoch": 2.088979591836735,
      "grad_norm": 10.353333473205566,
      "learning_rate": 3.945578231292517e-05,
      "loss": 0.7111,
      "step": 710
    },
    {
      "epoch": 2.093061224489796,
      "grad_norm": 5.636819839477539,
      "learning_rate": 3.922902494331066e-05,
      "loss": 0.793,
      "step": 720
    },
    {
      "epoch": 2.097142857142857,
      "grad_norm": 7.487854957580566,
      "learning_rate": 3.900226757369615e-05,
      "loss": 0.6294,
      "step": 730
    },
    {
      "epoch": 2.100408163265306,
      "eval_accuracy": 0.716374269005848,
      "eval_loss": 1.1314142942428589,
      "eval_runtime": 759.7521,
      "eval_samples_per_second": 2.251,
      "eval_steps_per_second": 0.095,
      "step": 738
    },
    {
      "epoch": 3.0008163265306123,
      "grad_norm": 6.67496919631958,
      "learning_rate": 3.8775510204081634e-05,
      "loss": 0.9053,
      "step": 740
    },
    {
      "epoch": 3.0048979591836735,
      "grad_norm": 10.205514907836914,
      "learning_rate": 3.854875283446712e-05,
      "loss": 0.6987,
      "step": 750
    },
    {
      "epoch": 3.008979591836735,
      "grad_norm": 5.589556694030762,
      "learning_rate": 3.832199546485261e-05,
      "loss": 0.6399,
      "step": 760
    },
    {
      "epoch": 3.013061224489796,
      "grad_norm": 13.978158950805664,
      "learning_rate": 3.809523809523809e-05,
      "loss": 0.6441,
      "step": 770
    },
    {
      "epoch": 3.0171428571428573,
      "grad_norm": 8.94792652130127,
      "learning_rate": 3.7868480725623585e-05,
      "loss": 0.6705,
      "step": 780
    },
    {
      "epoch": 3.021224489795918,
      "grad_norm": 5.165012359619141,
      "learning_rate": 3.764172335600907e-05,
      "loss": 0.6792,
      "step": 790
    },
    {
      "epoch": 3.0253061224489795,
      "grad_norm": 4.369375228881836,
      "learning_rate": 3.7414965986394564e-05,
      "loss": 0.599,
      "step": 800
    },
    {
      "epoch": 3.0293877551020407,
      "grad_norm": 10.160274505615234,
      "learning_rate": 3.7188208616780044e-05,
      "loss": 0.6651,
      "step": 810
    },
    {
      "epoch": 3.033469387755102,
      "grad_norm": 11.945816993713379,
      "learning_rate": 3.6961451247165536e-05,
      "loss": 0.6486,
      "step": 820
    },
    {
      "epoch": 3.0375510204081633,
      "grad_norm": 8.221893310546875,
      "learning_rate": 3.673469387755102e-05,
      "loss": 0.6481,
      "step": 830
    },
    {
      "epoch": 3.0416326530612245,
      "grad_norm": 8.286681175231934,
      "learning_rate": 3.650793650793651e-05,
      "loss": 0.5535,
      "step": 840
    },
    {
      "epoch": 3.045714285714286,
      "grad_norm": 5.675285816192627,
      "learning_rate": 3.6281179138321995e-05,
      "loss": 0.6915,
      "step": 850
    },
    {
      "epoch": 3.049795918367347,
      "grad_norm": 7.121517658233643,
      "learning_rate": 3.605442176870749e-05,
      "loss": 0.5688,
      "step": 860
    },
    {
      "epoch": 3.0538775510204084,
      "grad_norm": 7.682671546936035,
      "learning_rate": 3.5827664399092974e-05,
      "loss": 0.6005,
      "step": 870
    },
    {
      "epoch": 3.057959183673469,
      "grad_norm": 7.741525173187256,
      "learning_rate": 3.560090702947846e-05,
      "loss": 0.5067,
      "step": 880
    },
    {
      "epoch": 3.0620408163265305,
      "grad_norm": 6.186898231506348,
      "learning_rate": 3.5374149659863946e-05,
      "loss": 0.5619,
      "step": 890
    },
    {
      "epoch": 3.0661224489795917,
      "grad_norm": 5.949254035949707,
      "learning_rate": 3.514739229024944e-05,
      "loss": 0.5297,
      "step": 900
    },
    {
      "epoch": 3.070204081632653,
      "grad_norm": 12.493196487426758,
      "learning_rate": 3.492063492063492e-05,
      "loss": 0.6647,
      "step": 910
    },
    {
      "epoch": 3.0742857142857143,
      "grad_norm": 15.777326583862305,
      "learning_rate": 3.469387755102041e-05,
      "loss": 0.8303,
      "step": 920
    },
    {
      "epoch": 3.0783673469387756,
      "grad_norm": 5.946107864379883,
      "learning_rate": 3.44671201814059e-05,
      "loss": 0.5871,
      "step": 930
    },
    {
      "epoch": 3.082448979591837,
      "grad_norm": 6.941315650939941,
      "learning_rate": 3.4240362811791384e-05,
      "loss": 0.5455,
      "step": 940
    },
    {
      "epoch": 3.086530612244898,
      "grad_norm": 9.79609489440918,
      "learning_rate": 3.401360544217687e-05,
      "loss": 0.5152,
      "step": 950
    },
    {
      "epoch": 3.0906122448979594,
      "grad_norm": 5.163089275360107,
      "learning_rate": 3.378684807256236e-05,
      "loss": 0.5824,
      "step": 960
    },
    {
      "epoch": 3.09469387755102,
      "grad_norm": 5.999682426452637,
      "learning_rate": 3.356009070294785e-05,
      "loss": 0.5886,
      "step": 970
    },
    {
      "epoch": 3.0987755102040815,
      "grad_norm": 6.851431846618652,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.6993,
      "step": 980
    },
    {
      "epoch": 3.100408163265306,
      "eval_accuracy": 0.7333333333333333,
      "eval_loss": 1.1106853485107422,
      "eval_runtime": 755.202,
      "eval_samples_per_second": 2.264,
      "eval_steps_per_second": 0.095,
      "step": 984
    },
    {
      "epoch": 4.002448979591836,
      "grad_norm": 10.152717590332031,
      "learning_rate": 3.310657596371882e-05,
      "loss": 0.6247,
      "step": 990
    },
    {
      "epoch": 4.006530612244898,
      "grad_norm": 12.136672973632812,
      "learning_rate": 3.2879818594104314e-05,
      "loss": 0.5202,
      "step": 1000
    },
    {
      "epoch": 4.010612244897959,
      "grad_norm": 9.652105331420898,
      "learning_rate": 3.265306122448979e-05,
      "loss": 0.4666,
      "step": 1010
    },
    {
      "epoch": 4.014693877551021,
      "grad_norm": 16.446027755737305,
      "learning_rate": 3.2426303854875286e-05,
      "loss": 0.4363,
      "step": 1020
    },
    {
      "epoch": 4.018775510204081,
      "grad_norm": 5.725858688354492,
      "learning_rate": 3.219954648526077e-05,
      "loss": 0.4498,
      "step": 1030
    },
    {
      "epoch": 4.022857142857143,
      "grad_norm": 9.73865032196045,
      "learning_rate": 3.1972789115646265e-05,
      "loss": 0.4881,
      "step": 1040
    },
    {
      "epoch": 4.026938775510204,
      "grad_norm": 10.271039962768555,
      "learning_rate": 3.1746031746031745e-05,
      "loss": 0.7649,
      "step": 1050
    },
    {
      "epoch": 4.031020408163266,
      "grad_norm": 8.36655044555664,
      "learning_rate": 3.151927437641724e-05,
      "loss": 0.4447,
      "step": 1060
    },
    {
      "epoch": 4.0351020408163265,
      "grad_norm": 9.38914966583252,
      "learning_rate": 3.1292517006802724e-05,
      "loss": 0.4334,
      "step": 1070
    },
    {
      "epoch": 4.039183673469387,
      "grad_norm": 6.157915115356445,
      "learning_rate": 3.106575963718821e-05,
      "loss": 0.4684,
      "step": 1080
    },
    {
      "epoch": 4.043265306122449,
      "grad_norm": 7.4239020347595215,
      "learning_rate": 3.0839002267573696e-05,
      "loss": 0.4357,
      "step": 1090
    },
    {
      "epoch": 4.04734693877551,
      "grad_norm": 7.730371952056885,
      "learning_rate": 3.061224489795919e-05,
      "loss": 0.5067,
      "step": 1100
    },
    {
      "epoch": 4.051428571428572,
      "grad_norm": 9.309793472290039,
      "learning_rate": 3.0385487528344675e-05,
      "loss": 0.5358,
      "step": 1110
    },
    {
      "epoch": 4.055510204081632,
      "grad_norm": 5.453812599182129,
      "learning_rate": 3.0158730158730158e-05,
      "loss": 0.4429,
      "step": 1120
    },
    {
      "epoch": 4.059591836734694,
      "grad_norm": 6.250613689422607,
      "learning_rate": 2.9931972789115647e-05,
      "loss": 0.5217,
      "step": 1130
    },
    {
      "epoch": 4.063673469387755,
      "grad_norm": 12.171501159667969,
      "learning_rate": 2.9705215419501137e-05,
      "loss": 0.5578,
      "step": 1140
    },
    {
      "epoch": 4.067755102040817,
      "grad_norm": 5.649395942687988,
      "learning_rate": 2.947845804988662e-05,
      "loss": 0.508,
      "step": 1150
    },
    {
      "epoch": 4.0718367346938775,
      "grad_norm": 7.545301914215088,
      "learning_rate": 2.925170068027211e-05,
      "loss": 0.3983,
      "step": 1160
    },
    {
      "epoch": 4.075918367346938,
      "grad_norm": 8.015406608581543,
      "learning_rate": 2.90249433106576e-05,
      "loss": 0.4655,
      "step": 1170
    },
    {
      "epoch": 4.08,
      "grad_norm": 8.508922576904297,
      "learning_rate": 2.8798185941043088e-05,
      "loss": 0.4419,
      "step": 1180
    },
    {
      "epoch": 4.084081632653061,
      "grad_norm": 7.398991107940674,
      "learning_rate": 2.857142857142857e-05,
      "loss": 0.5536,
      "step": 1190
    },
    {
      "epoch": 4.088163265306123,
      "grad_norm": 7.41541051864624,
      "learning_rate": 2.834467120181406e-05,
      "loss": 0.5126,
      "step": 1200
    },
    {
      "epoch": 4.0922448979591834,
      "grad_norm": 9.597835540771484,
      "learning_rate": 2.811791383219955e-05,
      "loss": 0.5008,
      "step": 1210
    },
    {
      "epoch": 4.096326530612245,
      "grad_norm": 7.991727352142334,
      "learning_rate": 2.7891156462585033e-05,
      "loss": 0.4599,
      "step": 1220
    },
    {
      "epoch": 4.100408163265306,
      "grad_norm": 11.23975658416748,
      "learning_rate": 2.7664399092970522e-05,
      "loss": 0.4355,
      "step": 1230
    },
    {
      "epoch": 4.100408163265306,
      "eval_accuracy": 0.7497076023391813,
      "eval_loss": 1.077431559562683,
      "eval_runtime": 742.1867,
      "eval_samples_per_second": 2.304,
      "eval_steps_per_second": 0.097,
      "step": 1230
    },
    {
      "epoch": 5.004081632653061,
      "grad_norm": 5.663974285125732,
      "learning_rate": 2.7437641723356012e-05,
      "loss": 0.4312,
      "step": 1240
    },
    {
      "epoch": 5.0081632653061225,
      "grad_norm": 11.165666580200195,
      "learning_rate": 2.72108843537415e-05,
      "loss": 0.4112,
      "step": 1250
    },
    {
      "epoch": 5.012244897959183,
      "grad_norm": 3.895768165588379,
      "learning_rate": 2.6984126984126984e-05,
      "loss": 0.4421,
      "step": 1260
    },
    {
      "epoch": 5.016326530612245,
      "grad_norm": 14.455580711364746,
      "learning_rate": 2.6757369614512473e-05,
      "loss": 0.4569,
      "step": 1270
    },
    {
      "epoch": 5.020408163265306,
      "grad_norm": 7.778404712677002,
      "learning_rate": 2.6530612244897963e-05,
      "loss": 0.4152,
      "step": 1280
    },
    {
      "epoch": 5.024489795918368,
      "grad_norm": 20.504398345947266,
      "learning_rate": 2.6303854875283446e-05,
      "loss": 0.5674,
      "step": 1290
    },
    {
      "epoch": 5.0285714285714285,
      "grad_norm": 10.40569019317627,
      "learning_rate": 2.6077097505668935e-05,
      "loss": 0.421,
      "step": 1300
    },
    {
      "epoch": 5.03265306122449,
      "grad_norm": 5.579968452453613,
      "learning_rate": 2.5850340136054425e-05,
      "loss": 0.4584,
      "step": 1310
    },
    {
      "epoch": 5.036734693877551,
      "grad_norm": 8.29798698425293,
      "learning_rate": 2.5623582766439914e-05,
      "loss": 0.4372,
      "step": 1320
    },
    {
      "epoch": 5.040816326530612,
      "grad_norm": 6.832752227783203,
      "learning_rate": 2.5396825396825397e-05,
      "loss": 0.4213,
      "step": 1330
    },
    {
      "epoch": 5.044897959183674,
      "grad_norm": 13.543517112731934,
      "learning_rate": 2.5170068027210887e-05,
      "loss": 0.4999,
      "step": 1340
    },
    {
      "epoch": 5.048979591836734,
      "grad_norm": 7.032736778259277,
      "learning_rate": 2.4943310657596373e-05,
      "loss": 0.392,
      "step": 1350
    },
    {
      "epoch": 5.053061224489796,
      "grad_norm": 7.005382537841797,
      "learning_rate": 2.4716553287981862e-05,
      "loss": 0.4503,
      "step": 1360
    },
    {
      "epoch": 5.057142857142857,
      "grad_norm": 7.160999298095703,
      "learning_rate": 2.448979591836735e-05,
      "loss": 0.3743,
      "step": 1370
    },
    {
      "epoch": 5.061224489795919,
      "grad_norm": 11.003737449645996,
      "learning_rate": 2.4263038548752838e-05,
      "loss": 0.4526,
      "step": 1380
    },
    {
      "epoch": 5.0653061224489795,
      "grad_norm": 7.8346076011657715,
      "learning_rate": 2.4036281179138324e-05,
      "loss": 0.4225,
      "step": 1390
    },
    {
      "epoch": 5.069387755102041,
      "grad_norm": 13.947251319885254,
      "learning_rate": 2.380952380952381e-05,
      "loss": 0.4708,
      "step": 1400
    },
    {
      "epoch": 5.073469387755102,
      "grad_norm": 18.543668746948242,
      "learning_rate": 2.35827664399093e-05,
      "loss": 0.2931,
      "step": 1410
    },
    {
      "epoch": 5.077551020408163,
      "grad_norm": 4.890735149383545,
      "learning_rate": 2.3356009070294786e-05,
      "loss": 0.4582,
      "step": 1420
    },
    {
      "epoch": 5.081632653061225,
      "grad_norm": 3.5454611778259277,
      "learning_rate": 2.3129251700680275e-05,
      "loss": 0.3117,
      "step": 1430
    },
    {
      "epoch": 5.085714285714285,
      "grad_norm": 19.41689109802246,
      "learning_rate": 2.290249433106576e-05,
      "loss": 0.465,
      "step": 1440
    },
    {
      "epoch": 5.089795918367347,
      "grad_norm": 15.91568374633789,
      "learning_rate": 2.267573696145125e-05,
      "loss": 0.439,
      "step": 1450
    },
    {
      "epoch": 5.093877551020408,
      "grad_norm": 6.774694442749023,
      "learning_rate": 2.2448979591836737e-05,
      "loss": 0.5177,
      "step": 1460
    },
    {
      "epoch": 5.09795918367347,
      "grad_norm": 6.013669490814209,
      "learning_rate": 2.2222222222222223e-05,
      "loss": 0.3388,
      "step": 1470
    },
    {
      "epoch": 5.100408163265306,
      "eval_accuracy": 0.7672514619883041,
      "eval_loss": 1.070756435394287,
      "eval_runtime": 762.1738,
      "eval_samples_per_second": 2.244,
      "eval_steps_per_second": 0.094,
      "step": 1476
    },
    {
      "epoch": 6.0016326530612245,
      "grad_norm": 9.088335990905762,
      "learning_rate": 2.1995464852607713e-05,
      "loss": 0.3312,
      "step": 1480
    },
    {
      "epoch": 6.005714285714285,
      "grad_norm": 5.159632205963135,
      "learning_rate": 2.17687074829932e-05,
      "loss": 0.2506,
      "step": 1490
    },
    {
      "epoch": 6.009795918367347,
      "grad_norm": 3.322460174560547,
      "learning_rate": 2.1541950113378685e-05,
      "loss": 0.2576,
      "step": 1500
    },
    {
      "epoch": 6.013877551020408,
      "grad_norm": 3.4191062450408936,
      "learning_rate": 2.1315192743764175e-05,
      "loss": 0.2997,
      "step": 1510
    },
    {
      "epoch": 6.01795918367347,
      "grad_norm": 6.195023059844971,
      "learning_rate": 2.108843537414966e-05,
      "loss": 0.3168,
      "step": 1520
    },
    {
      "epoch": 6.02204081632653,
      "grad_norm": 5.718242168426514,
      "learning_rate": 2.0861678004535147e-05,
      "loss": 0.3911,
      "step": 1530
    },
    {
      "epoch": 6.026122448979592,
      "grad_norm": 7.038877010345459,
      "learning_rate": 2.0634920634920636e-05,
      "loss": 0.3152,
      "step": 1540
    },
    {
      "epoch": 6.030204081632653,
      "grad_norm": 8.966346740722656,
      "learning_rate": 2.0408163265306123e-05,
      "loss": 0.3379,
      "step": 1550
    },
    {
      "epoch": 6.034285714285715,
      "grad_norm": 10.551358222961426,
      "learning_rate": 2.018140589569161e-05,
      "loss": 0.3484,
      "step": 1560
    },
    {
      "epoch": 6.0383673469387755,
      "grad_norm": 8.191295623779297,
      "learning_rate": 1.9954648526077098e-05,
      "loss": 0.3636,
      "step": 1570
    },
    {
      "epoch": 6.042448979591836,
      "grad_norm": 6.954779148101807,
      "learning_rate": 1.9727891156462584e-05,
      "loss": 0.2535,
      "step": 1580
    },
    {
      "epoch": 6.046530612244898,
      "grad_norm": 7.736076354980469,
      "learning_rate": 1.9501133786848074e-05,
      "loss": 0.38,
      "step": 1590
    },
    {
      "epoch": 6.050612244897959,
      "grad_norm": 3.5329229831695557,
      "learning_rate": 1.927437641723356e-05,
      "loss": 0.2262,
      "step": 1600
    },
    {
      "epoch": 6.054693877551021,
      "grad_norm": 12.468216896057129,
      "learning_rate": 1.9047619047619046e-05,
      "loss": 0.3723,
      "step": 1610
    },
    {
      "epoch": 6.0587755102040814,
      "grad_norm": 6.249111175537109,
      "learning_rate": 1.8820861678004536e-05,
      "loss": 0.4139,
      "step": 1620
    },
    {
      "epoch": 6.062857142857143,
      "grad_norm": 6.767730236053467,
      "learning_rate": 1.8594104308390022e-05,
      "loss": 0.3185,
      "step": 1630
    },
    {
      "epoch": 6.066938775510204,
      "grad_norm": 6.568230152130127,
      "learning_rate": 1.836734693877551e-05,
      "loss": 0.3436,
      "step": 1640
    },
    {
      "epoch": 6.071020408163266,
      "grad_norm": 9.211495399475098,
      "learning_rate": 1.8140589569160997e-05,
      "loss": 0.3812,
      "step": 1650
    },
    {
      "epoch": 6.0751020408163265,
      "grad_norm": 2.9120309352874756,
      "learning_rate": 1.7913832199546487e-05,
      "loss": 0.3187,
      "step": 1660
    },
    {
      "epoch": 6.079183673469387,
      "grad_norm": 6.394941806793213,
      "learning_rate": 1.7687074829931973e-05,
      "loss": 0.3097,
      "step": 1670
    },
    {
      "epoch": 6.083265306122449,
      "grad_norm": 7.2203192710876465,
      "learning_rate": 1.746031746031746e-05,
      "loss": 0.3097,
      "step": 1680
    },
    {
      "epoch": 6.08734693877551,
      "grad_norm": 7.860384464263916,
      "learning_rate": 1.723356009070295e-05,
      "loss": 0.338,
      "step": 1690
    },
    {
      "epoch": 6.091428571428572,
      "grad_norm": 11.43612289428711,
      "learning_rate": 1.7006802721088435e-05,
      "loss": 0.3943,
      "step": 1700
    },
    {
      "epoch": 6.0955102040816325,
      "grad_norm": 3.026212215423584,
      "learning_rate": 1.6780045351473924e-05,
      "loss": 0.2806,
      "step": 1710
    },
    {
      "epoch": 6.099591836734694,
      "grad_norm": 6.003236770629883,
      "learning_rate": 1.655328798185941e-05,
      "loss": 0.448,
      "step": 1720
    },
    {
      "epoch": 6.100408163265306,
      "eval_accuracy": 0.7678362573099415,
      "eval_loss": 1.1309159994125366,
      "eval_runtime": 760.8059,
      "eval_samples_per_second": 2.248,
      "eval_steps_per_second": 0.095,
      "step": 1722
    },
    {
      "epoch": 7.003265306122449,
      "grad_norm": 6.932886600494385,
      "learning_rate": 1.6326530612244897e-05,
      "loss": 0.2641,
      "step": 1730
    },
    {
      "epoch": 7.00734693877551,
      "grad_norm": 8.136345863342285,
      "learning_rate": 1.6099773242630386e-05,
      "loss": 0.3278,
      "step": 1740
    },
    {
      "epoch": 7.011428571428572,
      "grad_norm": 4.856635093688965,
      "learning_rate": 1.5873015873015872e-05,
      "loss": 0.2806,
      "step": 1750
    },
    {
      "epoch": 7.015510204081632,
      "grad_norm": 5.214656352996826,
      "learning_rate": 1.5646258503401362e-05,
      "loss": 0.3219,
      "step": 1760
    },
    {
      "epoch": 7.019591836734694,
      "grad_norm": 15.459710121154785,
      "learning_rate": 1.5419501133786848e-05,
      "loss": 0.3271,
      "step": 1770
    },
    {
      "epoch": 7.023673469387755,
      "grad_norm": 6.767300128936768,
      "learning_rate": 1.5192743764172338e-05,
      "loss": 0.2539,
      "step": 1780
    },
    {
      "epoch": 7.027755102040817,
      "grad_norm": 8.534014701843262,
      "learning_rate": 1.4965986394557824e-05,
      "loss": 0.3525,
      "step": 1790
    },
    {
      "epoch": 7.0318367346938775,
      "grad_norm": 6.5173187255859375,
      "learning_rate": 1.473922902494331e-05,
      "loss": 0.28,
      "step": 1800
    },
    {
      "epoch": 7.035918367346939,
      "grad_norm": 5.321302890777588,
      "learning_rate": 1.45124716553288e-05,
      "loss": 0.2639,
      "step": 1810
    },
    {
      "epoch": 7.04,
      "grad_norm": 11.483617782592773,
      "learning_rate": 1.4285714285714285e-05,
      "loss": 0.2779,
      "step": 1820
    },
    {
      "epoch": 7.044081632653061,
      "grad_norm": 11.726727485656738,
      "learning_rate": 1.4058956916099775e-05,
      "loss": 0.3351,
      "step": 1830
    },
    {
      "epoch": 7.048163265306123,
      "grad_norm": 8.581147193908691,
      "learning_rate": 1.3832199546485261e-05,
      "loss": 0.3345,
      "step": 1840
    },
    {
      "epoch": 7.052244897959183,
      "grad_norm": 10.193452835083008,
      "learning_rate": 1.360544217687075e-05,
      "loss": 0.2625,
      "step": 1850
    },
    {
      "epoch": 7.056326530612245,
      "grad_norm": 7.469024658203125,
      "learning_rate": 1.3378684807256237e-05,
      "loss": 0.267,
      "step": 1860
    },
    {
      "epoch": 7.060408163265306,
      "grad_norm": 10.515392303466797,
      "learning_rate": 1.3151927437641723e-05,
      "loss": 0.2268,
      "step": 1870
    },
    {
      "epoch": 7.064489795918368,
      "grad_norm": 1.660530924797058,
      "learning_rate": 1.2925170068027212e-05,
      "loss": 0.2194,
      "step": 1880
    },
    {
      "epoch": 7.0685714285714285,
      "grad_norm": 14.603185653686523,
      "learning_rate": 1.2698412698412699e-05,
      "loss": 0.2231,
      "step": 1890
    },
    {
      "epoch": 7.07265306122449,
      "grad_norm": 6.94572639465332,
      "learning_rate": 1.2471655328798186e-05,
      "loss": 0.2184,
      "step": 1900
    },
    {
      "epoch": 7.076734693877551,
      "grad_norm": 9.031844139099121,
      "learning_rate": 1.2244897959183674e-05,
      "loss": 0.3445,
      "step": 1910
    },
    {
      "epoch": 7.080816326530612,
      "grad_norm": 11.935467720031738,
      "learning_rate": 1.2018140589569162e-05,
      "loss": 0.2813,
      "step": 1920
    },
    {
      "epoch": 7.084897959183674,
      "grad_norm": 16.639739990234375,
      "learning_rate": 1.179138321995465e-05,
      "loss": 0.2856,
      "step": 1930
    },
    {
      "epoch": 7.088979591836734,
      "grad_norm": 12.219932556152344,
      "learning_rate": 1.1564625850340138e-05,
      "loss": 0.3086,
      "step": 1940
    },
    {
      "epoch": 7.093061224489796,
      "grad_norm": 6.9921875,
      "learning_rate": 1.1337868480725626e-05,
      "loss": 0.3269,
      "step": 1950
    },
    {
      "epoch": 7.097142857142857,
      "grad_norm": 6.7659406661987305,
      "learning_rate": 1.1111111111111112e-05,
      "loss": 0.2328,
      "step": 1960
    },
    {
      "epoch": 7.100408163265306,
      "eval_accuracy": 0.7736842105263158,
      "eval_loss": 1.0998854637145996,
      "eval_runtime": 755.5903,
      "eval_samples_per_second": 2.263,
      "eval_steps_per_second": 0.095,
      "step": 1968
    },
    {
      "epoch": 8.000816326530613,
      "grad_norm": 7.732854843139648,
      "learning_rate": 1.08843537414966e-05,
      "loss": 0.4175,
      "step": 1970
    },
    {
      "epoch": 8.004897959183673,
      "grad_norm": 4.466553688049316,
      "learning_rate": 1.0657596371882087e-05,
      "loss": 0.2961,
      "step": 1980
    },
    {
      "epoch": 8.008979591836734,
      "grad_norm": 10.974610328674316,
      "learning_rate": 1.0430839002267573e-05,
      "loss": 0.257,
      "step": 1990
    },
    {
      "epoch": 8.013061224489796,
      "grad_norm": 8.84461784362793,
      "learning_rate": 1.0204081632653061e-05,
      "loss": 0.2006,
      "step": 2000
    },
    {
      "epoch": 8.017142857142858,
      "grad_norm": 8.123458862304688,
      "learning_rate": 9.977324263038549e-06,
      "loss": 0.2158,
      "step": 2010
    },
    {
      "epoch": 8.021224489795918,
      "grad_norm": 1.604798436164856,
      "learning_rate": 9.750566893424037e-06,
      "loss": 0.1893,
      "step": 2020
    },
    {
      "epoch": 8.02530612244898,
      "grad_norm": 8.343064308166504,
      "learning_rate": 9.523809523809523e-06,
      "loss": 0.2289,
      "step": 2030
    },
    {
      "epoch": 8.029387755102041,
      "grad_norm": 1.9065176248550415,
      "learning_rate": 9.297052154195011e-06,
      "loss": 0.2887,
      "step": 2040
    },
    {
      "epoch": 8.033469387755103,
      "grad_norm": 10.564911842346191,
      "learning_rate": 9.070294784580499e-06,
      "loss": 0.2056,
      "step": 2050
    },
    {
      "epoch": 8.037551020408163,
      "grad_norm": 9.196011543273926,
      "learning_rate": 8.843537414965987e-06,
      "loss": 0.2425,
      "step": 2060
    },
    {
      "epoch": 8.041632653061225,
      "grad_norm": 7.146062850952148,
      "learning_rate": 8.616780045351474e-06,
      "loss": 0.1673,
      "step": 2070
    },
    {
      "epoch": 8.045714285714286,
      "grad_norm": 5.323041915893555,
      "learning_rate": 8.390022675736962e-06,
      "loss": 0.1949,
      "step": 2080
    },
    {
      "epoch": 8.049795918367346,
      "grad_norm": 10.371600151062012,
      "learning_rate": 8.163265306122448e-06,
      "loss": 0.2263,
      "step": 2090
    },
    {
      "epoch": 8.053877551020408,
      "grad_norm": 0.6877457499504089,
      "learning_rate": 7.936507936507936e-06,
      "loss": 0.2532,
      "step": 2100
    },
    {
      "epoch": 8.05795918367347,
      "grad_norm": 2.1630640029907227,
      "learning_rate": 7.709750566893424e-06,
      "loss": 0.2739,
      "step": 2110
    },
    {
      "epoch": 8.062040816326531,
      "grad_norm": 6.128444194793701,
      "learning_rate": 7.482993197278912e-06,
      "loss": 0.2762,
      "step": 2120
    },
    {
      "epoch": 8.066122448979591,
      "grad_norm": 10.738118171691895,
      "learning_rate": 7.2562358276644e-06,
      "loss": 0.3025,
      "step": 2130
    },
    {
      "epoch": 8.070204081632653,
      "grad_norm": 9.642598152160645,
      "learning_rate": 7.0294784580498875e-06,
      "loss": 0.2756,
      "step": 2140
    },
    {
      "epoch": 8.074285714285715,
      "grad_norm": 6.180073261260986,
      "learning_rate": 6.802721088435375e-06,
      "loss": 0.3265,
      "step": 2150
    },
    {
      "epoch": 8.078367346938775,
      "grad_norm": 5.613744735717773,
      "learning_rate": 6.5759637188208614e-06,
      "loss": 0.2121,
      "step": 2160
    },
    {
      "epoch": 8.082448979591836,
      "grad_norm": 8.959142684936523,
      "learning_rate": 6.349206349206349e-06,
      "loss": 0.1768,
      "step": 2170
    },
    {
      "epoch": 8.086530612244898,
      "grad_norm": 5.29737663269043,
      "learning_rate": 6.122448979591837e-06,
      "loss": 0.25,
      "step": 2180
    },
    {
      "epoch": 8.09061224489796,
      "grad_norm": 5.707335948944092,
      "learning_rate": 5.895691609977325e-06,
      "loss": 0.2059,
      "step": 2190
    },
    {
      "epoch": 8.09469387755102,
      "grad_norm": 5.561722278594971,
      "learning_rate": 5.668934240362813e-06,
      "loss": 0.1966,
      "step": 2200
    },
    {
      "epoch": 8.098775510204081,
      "grad_norm": 5.105309009552002,
      "learning_rate": 5.4421768707483e-06,
      "loss": 0.2329,
      "step": 2210
    },
    {
      "epoch": 8.100408163265307,
      "eval_accuracy": 0.7807017543859649,
      "eval_loss": 1.1141033172607422,
      "eval_runtime": 761.671,
      "eval_samples_per_second": 2.245,
      "eval_steps_per_second": 0.095,
      "step": 2214
    },
    {
      "epoch": 9.002448979591836,
      "grad_norm": 9.717642784118652,
      "learning_rate": 5.215419501133787e-06,
      "loss": 0.199,
      "step": 2220
    },
    {
      "epoch": 9.006530612244898,
      "grad_norm": 1.3099863529205322,
      "learning_rate": 4.9886621315192745e-06,
      "loss": 0.1484,
      "step": 2230
    },
    {
      "epoch": 9.01061224489796,
      "grad_norm": 6.000232696533203,
      "learning_rate": 4.7619047619047615e-06,
      "loss": 0.2215,
      "step": 2240
    },
    {
      "epoch": 9.01469387755102,
      "grad_norm": 6.975632667541504,
      "learning_rate": 4.535147392290249e-06,
      "loss": 0.2325,
      "step": 2250
    },
    {
      "epoch": 9.018775510204081,
      "grad_norm": 6.907474994659424,
      "learning_rate": 4.308390022675737e-06,
      "loss": 0.1989,
      "step": 2260
    },
    {
      "epoch": 9.022857142857143,
      "grad_norm": 3.785592794418335,
      "learning_rate": 4.081632653061224e-06,
      "loss": 0.2137,
      "step": 2270
    },
    {
      "epoch": 9.026938775510205,
      "grad_norm": 5.131585597991943,
      "learning_rate": 3.854875283446712e-06,
      "loss": 0.1331,
      "step": 2280
    },
    {
      "epoch": 9.031020408163265,
      "grad_norm": 7.016502380371094,
      "learning_rate": 3.6281179138322e-06,
      "loss": 0.2636,
      "step": 2290
    },
    {
      "epoch": 9.035102040816327,
      "grad_norm": 4.56027364730835,
      "learning_rate": 3.4013605442176877e-06,
      "loss": 0.1722,
      "step": 2300
    },
    {
      "epoch": 9.039183673469388,
      "grad_norm": 23.117076873779297,
      "learning_rate": 3.1746031746031746e-06,
      "loss": 0.2598,
      "step": 2310
    },
    {
      "epoch": 9.043265306122448,
      "grad_norm": 2.165933132171631,
      "learning_rate": 2.9478458049886625e-06,
      "loss": 0.1233,
      "step": 2320
    },
    {
      "epoch": 9.04734693877551,
      "grad_norm": 9.032445907592773,
      "learning_rate": 2.72108843537415e-06,
      "loss": 0.1919,
      "step": 2330
    },
    {
      "epoch": 9.051428571428572,
      "grad_norm": 3.221755266189575,
      "learning_rate": 2.4943310657596373e-06,
      "loss": 0.2282,
      "step": 2340
    },
    {
      "epoch": 9.055510204081633,
      "grad_norm": 2.723907709121704,
      "learning_rate": 2.2675736961451247e-06,
      "loss": 0.2176,
      "step": 2350
    },
    {
      "epoch": 9.059591836734693,
      "grad_norm": 7.58160924911499,
      "learning_rate": 2.040816326530612e-06,
      "loss": 0.1815,
      "step": 2360
    },
    {
      "epoch": 9.063673469387755,
      "grad_norm": 11.342548370361328,
      "learning_rate": 1.8140589569161e-06,
      "loss": 0.2318,
      "step": 2370
    },
    {
      "epoch": 9.067755102040817,
      "grad_norm": 6.335953235626221,
      "learning_rate": 1.5873015873015873e-06,
      "loss": 0.1899,
      "step": 2380
    },
    {
      "epoch": 9.071836734693878,
      "grad_norm": 12.549899101257324,
      "learning_rate": 1.360544217687075e-06,
      "loss": 0.2156,
      "step": 2390
    },
    {
      "epoch": 9.075918367346938,
      "grad_norm": 13.524937629699707,
      "learning_rate": 1.1337868480725623e-06,
      "loss": 0.1842,
      "step": 2400
    },
    {
      "epoch": 9.08,
      "grad_norm": 3.897021532058716,
      "learning_rate": 9.0702947845805e-07,
      "loss": 0.2026,
      "step": 2410
    },
    {
      "epoch": 9.084081632653062,
      "grad_norm": 16.518413543701172,
      "learning_rate": 6.802721088435375e-07,
      "loss": 0.2534,
      "step": 2420
    },
    {
      "epoch": 9.088163265306122,
      "grad_norm": 4.3819580078125,
      "learning_rate": 4.53514739229025e-07,
      "loss": 0.2089,
      "step": 2430
    },
    {
      "epoch": 9.092244897959183,
      "grad_norm": 9.91723918914795,
      "learning_rate": 2.267573696145125e-07,
      "loss": 0.2467,
      "step": 2440
    },
    {
      "epoch": 9.096326530612245,
      "grad_norm": 5.503404140472412,
      "learning_rate": 0.0,
      "loss": 0.1596,
      "step": 2450
    },
    {
      "epoch": 9.096326530612245,
      "eval_accuracy": 0.7795321637426901,
      "eval_loss": 1.1184571981430054,
      "eval_runtime": 767.3021,
      "eval_samples_per_second": 2.229,
      "eval_steps_per_second": 0.094,
      "step": 2450
    },
    {
      "epoch": 9.096326530612245,
      "step": 2450,
      "total_flos": 7.308381545357289e+19,
      "train_loss": 0.6407903413869896,
      "train_runtime": 33040.9588,
      "train_samples_per_second": 1.78,
      "train_steps_per_second": 0.074
    },
    {
      "epoch": 9.096326530612245,
      "eval_accuracy": 0.8550922761449077,
      "eval_loss": 0.5230759382247925,
      "eval_runtime": 638.0216,
      "eval_samples_per_second": 2.293,
      "eval_steps_per_second": 0.096,
      "step": 2450
    },
    {
      "epoch": 9.096326530612245,
      "eval_accuracy": 0.8550922761449077,
      "eval_loss": 0.5230759382247925,
      "eval_runtime": 633.2216,
      "eval_samples_per_second": 2.31,
      "eval_steps_per_second": 0.096,
      "step": 2450
    }
  ],
  "logging_steps": 10,
  "max_steps": 2450,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.308381545357289e+19,
  "train_batch_size": 24,
  "trial_name": null,
  "trial_params": null
}