End of training

Browse files

Files changed (5) hide show

README.md +3 -3
all_results.json +4 -0
runs/Sep25_06-15-09_stupa-ai/events.out.tfevents.1727244913.stupa-ai.2576179.4 +2 -2
test_results.json +4 -0
trainer_state.json +1291 -0

README.md CHANGED Viewed

@@ -18,9 +18,9 @@ This model is a fine-tuned version of [MCG-NJU/videomae-base](https://huggingfac
 It achieves the following results on the evaluation set:
 - eval_loss: 0.2618
 - eval_accuracy: 0.9412
-- eval_runtime: 88.9045
-- eval_samples_per_second: 0.574
-- eval_steps_per_second: 0.146
 - epoch: 24.0020
 - step: 1450

 It achieves the following results on the evaluation set:
 - eval_loss: 0.2618
 - eval_accuracy: 0.9412
+- eval_runtime: 89.4759
+- eval_samples_per_second: 0.57
+- eval_steps_per_second: 0.145
 - epoch: 24.0020
 - step: 1450

all_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "eval_accuracy": 0.9411764705882353,
+    "eval_loss": 0.2618250548839569
+}

runs/Sep25_06-15-09_stupa-ai/events.out.tfevents.1727244913.stupa-ai.2576179.4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a635d2f7c69c778e88b1261273763c6dc50a82832dfbf747e197ada8fdb2661b
-size 44194

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5620cba702463d636611f5b00b9c706d377ad7ddab5e2d622825f3e873edd12
+size 44517

test_results.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "eval_accuracy": 0.9411764705882353,
+    "eval_loss": 0.2618250548839569
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1291 @@

+{
+  "best_metric": 0.9375,
+  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset_fhbh/checkpoint-638",
+  "epoch": 24.0020350877193,
+  "eval_steps": 500,
+  "global_step": 1450,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0003508771929824561,
+      "grad_norm": 5.952354907989502,
+      "learning_rate": 1.7543859649122808e-07,
+      "loss": 0.745,
+      "step": 10
+    },
+    {
+      "epoch": 0.0007017543859649122,
+      "grad_norm": 4.616081714630127,
+      "learning_rate": 3.5087719298245616e-07,
+      "loss": 0.6751,
+      "step": 20
+    },
+    {
+      "epoch": 0.0010526315789473684,
+      "grad_norm": 14.299074172973633,
+      "learning_rate": 5.263157894736843e-07,
+      "loss": 0.7311,
+      "step": 30
+    },
+    {
+      "epoch": 0.0014035087719298245,
+      "grad_norm": 9.126326560974121,
+      "learning_rate": 7.017543859649123e-07,
+      "loss": 0.6957,
+      "step": 40
+    },
+    {
+      "epoch": 0.0017543859649122807,
+      "grad_norm": 6.692790985107422,
+      "learning_rate": 8.771929824561404e-07,
+      "loss": 0.7533,
+      "step": 50
+    },
+    {
+      "epoch": 0.0020350877192982456,
+      "eval_accuracy": 0.5416666666666666,
+      "eval_loss": 0.677791178226471,
+      "eval_runtime": 78.366,
+      "eval_samples_per_second": 0.613,
+      "eval_steps_per_second": 0.153,
+      "step": 58
+    },
+    {
+      "epoch": 1.0000701754385966,
+      "grad_norm": 6.502946853637695,
+      "learning_rate": 1.0526315789473685e-06,
+      "loss": 0.7694,
+      "step": 60
+    },
+    {
+      "epoch": 1.0004210526315789,
+      "grad_norm": 11.516799926757812,
+      "learning_rate": 1.2280701754385965e-06,
+      "loss": 0.7382,
+      "step": 70
+    },
+    {
+      "epoch": 1.0007719298245614,
+      "grad_norm": 7.619742393493652,
+      "learning_rate": 1.4035087719298246e-06,
+      "loss": 0.6912,
+      "step": 80
+    },
+    {
+      "epoch": 1.001122807017544,
+      "grad_norm": 5.542720794677734,
+      "learning_rate": 1.5789473684210528e-06,
+      "loss": 0.7054,
+      "step": 90
+    },
+    {
+      "epoch": 1.0014736842105263,
+      "grad_norm": 7.172524929046631,
+      "learning_rate": 1.7543859649122807e-06,
+      "loss": 0.7533,
+      "step": 100
+    },
+    {
+      "epoch": 1.0018245614035088,
+      "grad_norm": 6.668615341186523,
+      "learning_rate": 1.929824561403509e-06,
+      "loss": 0.7229,
+      "step": 110
+    },
+    {
+      "epoch": 1.0020350877192983,
+      "eval_accuracy": 0.5416666666666666,
+      "eval_loss": 0.663836658000946,
+      "eval_runtime": 77.9477,
+      "eval_samples_per_second": 0.616,
+      "eval_steps_per_second": 0.154,
+      "step": 116
+    },
+    {
+      "epoch": 2.000140350877193,
+      "grad_norm": 4.909543991088867,
+      "learning_rate": 2.105263157894737e-06,
+      "loss": 0.6922,
+      "step": 120
+    },
+    {
+      "epoch": 2.0004912280701754,
+      "grad_norm": 9.0471830368042,
+      "learning_rate": 2.2807017543859652e-06,
+      "loss": 0.6736,
+      "step": 130
+    },
+    {
+      "epoch": 2.0008421052631578,
+      "grad_norm": 6.69089412689209,
+      "learning_rate": 2.456140350877193e-06,
+      "loss": 0.6865,
+      "step": 140
+    },
+    {
+      "epoch": 2.0011929824561405,
+      "grad_norm": 9.476597785949707,
+      "learning_rate": 2.631578947368421e-06,
+      "loss": 0.6844,
+      "step": 150
+    },
+    {
+      "epoch": 2.001543859649123,
+      "grad_norm": 7.067219257354736,
+      "learning_rate": 2.8070175438596493e-06,
+      "loss": 0.6768,
+      "step": 160
+    },
+    {
+      "epoch": 2.001894736842105,
+      "grad_norm": 5.748457908630371,
+      "learning_rate": 2.9824561403508774e-06,
+      "loss": 0.6827,
+      "step": 170
+    },
+    {
+      "epoch": 2.0020350877192983,
+      "eval_accuracy": 0.6041666666666666,
+      "eval_loss": 0.6515334248542786,
+      "eval_runtime": 77.9754,
+      "eval_samples_per_second": 0.616,
+      "eval_steps_per_second": 0.154,
+      "step": 174
+    },
+    {
+      "epoch": 3.0002105263157897,
+      "grad_norm": 8.415090560913086,
+      "learning_rate": 3.1578947368421056e-06,
+      "loss": 0.7035,
+      "step": 180
+    },
+    {
+      "epoch": 3.000561403508772,
+      "grad_norm": 7.755239963531494,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.712,
+      "step": 190
+    },
+    {
+      "epoch": 3.0009122807017543,
+      "grad_norm": 11.437898635864258,
+      "learning_rate": 3.5087719298245615e-06,
+      "loss": 0.6409,
+      "step": 200
+    },
+    {
+      "epoch": 3.0012631578947366,
+      "grad_norm": 6.896209239959717,
+      "learning_rate": 3.6842105263157892e-06,
+      "loss": 0.6862,
+      "step": 210
+    },
+    {
+      "epoch": 3.0016140350877194,
+      "grad_norm": 5.764392852783203,
+      "learning_rate": 3.859649122807018e-06,
+      "loss": 0.6459,
+      "step": 220
+    },
+    {
+      "epoch": 3.0019649122807017,
+      "grad_norm": 8.806387901306152,
+      "learning_rate": 4.035087719298246e-06,
+      "loss": 0.7322,
+      "step": 230
+    },
+    {
+      "epoch": 3.0020350877192983,
+      "eval_accuracy": 0.75,
+      "eval_loss": 0.6666872501373291,
+      "eval_runtime": 78.325,
+      "eval_samples_per_second": 0.613,
+      "eval_steps_per_second": 0.153,
+      "step": 232
+    },
+    {
+      "epoch": 4.000280701754386,
+      "grad_norm": 11.507173538208008,
+      "learning_rate": 4.210526315789474e-06,
+      "loss": 0.6937,
+      "step": 240
+    },
+    {
+      "epoch": 4.0006315789473685,
+      "grad_norm": 7.351099491119385,
+      "learning_rate": 4.3859649122807014e-06,
+      "loss": 0.6292,
+      "step": 250
+    },
+    {
+      "epoch": 4.000982456140351,
+      "grad_norm": 4.936241149902344,
+      "learning_rate": 4.5614035087719304e-06,
+      "loss": 0.6041,
+      "step": 260
+    },
+    {
+      "epoch": 4.001333333333333,
+      "grad_norm": 10.265213012695312,
+      "learning_rate": 4.736842105263159e-06,
+      "loss": 0.6616,
+      "step": 270
+    },
+    {
+      "epoch": 4.0016842105263155,
+      "grad_norm": 14.022355079650879,
+      "learning_rate": 4.912280701754386e-06,
+      "loss": 0.6489,
+      "step": 280
+    },
+    {
+      "epoch": 4.002035087719298,
+      "grad_norm": 14.538658142089844,
+      "learning_rate": 5.087719298245614e-06,
+      "loss": 0.6552,
+      "step": 290
+    },
+    {
+      "epoch": 4.002035087719298,
+      "eval_accuracy": 0.75,
+      "eval_loss": 0.6378026604652405,
+      "eval_runtime": 78.4115,
+      "eval_samples_per_second": 0.612,
+      "eval_steps_per_second": 0.153,
+      "step": 290
+    },
+    {
+      "epoch": 5.000350877192982,
+      "grad_norm": 6.908311367034912,
+      "learning_rate": 5.263157894736842e-06,
+      "loss": 0.6183,
+      "step": 300
+    },
+    {
+      "epoch": 5.000701754385965,
+      "grad_norm": 6.211957931518555,
+      "learning_rate": 5.43859649122807e-06,
+      "loss": 0.5759,
+      "step": 310
+    },
+    {
+      "epoch": 5.001052631578947,
+      "grad_norm": 4.951029300689697,
+      "learning_rate": 5.6140350877192985e-06,
+      "loss": 0.6144,
+      "step": 320
+    },
+    {
+      "epoch": 5.00140350877193,
+      "grad_norm": 8.593265533447266,
+      "learning_rate": 5.789473684210527e-06,
+      "loss": 0.5619,
+      "step": 330
+    },
+    {
+      "epoch": 5.0017543859649125,
+      "grad_norm": 19.80694007873535,
+      "learning_rate": 5.964912280701755e-06,
+      "loss": 0.4691,
+      "step": 340
+    },
+    {
+      "epoch": 5.002035087719298,
+      "eval_accuracy": 0.75,
+      "eval_loss": 0.5537357926368713,
+      "eval_runtime": 80.2663,
+      "eval_samples_per_second": 0.598,
+      "eval_steps_per_second": 0.15,
+      "step": 348
+    },
+    {
+      "epoch": 6.000070175438596,
+      "grad_norm": 19.27092170715332,
+      "learning_rate": 6.140350877192982e-06,
+      "loss": 0.5575,
+      "step": 350
+    },
+    {
+      "epoch": 6.000421052631579,
+      "grad_norm": 14.520448684692383,
+      "learning_rate": 6.315789473684211e-06,
+      "loss": 0.5209,
+      "step": 360
+    },
+    {
+      "epoch": 6.000771929824562,
+      "grad_norm": 13.577587127685547,
+      "learning_rate": 6.4912280701754385e-06,
+      "loss": 0.4873,
+      "step": 370
+    },
+    {
+      "epoch": 6.001122807017544,
+      "grad_norm": 2.4672834873199463,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.3996,
+      "step": 380
+    },
+    {
+      "epoch": 6.001473684210526,
+      "grad_norm": 29.06943702697754,
+      "learning_rate": 6.842105263157896e-06,
+      "loss": 0.58,
+      "step": 390
+    },
+    {
+      "epoch": 6.001824561403509,
+      "grad_norm": 10.214743614196777,
+      "learning_rate": 7.017543859649123e-06,
+      "loss": 0.6845,
+      "step": 400
+    },
+    {
+      "epoch": 6.002035087719298,
+      "eval_accuracy": 0.7083333333333334,
+      "eval_loss": 0.6998243927955627,
+      "eval_runtime": 81.5316,
+      "eval_samples_per_second": 0.589,
+      "eval_steps_per_second": 0.147,
+      "step": 406
+    },
+    {
+      "epoch": 7.000140350877193,
+      "grad_norm": 72.12657928466797,
+      "learning_rate": 7.192982456140351e-06,
+      "loss": 0.6733,
+      "step": 410
+    },
+    {
+      "epoch": 7.000491228070175,
+      "grad_norm": 5.446975231170654,
+      "learning_rate": 7.3684210526315784e-06,
+      "loss": 0.2873,
+      "step": 420
+    },
+    {
+      "epoch": 7.000842105263158,
+      "grad_norm": 9.24228286743164,
+      "learning_rate": 7.5438596491228074e-06,
+      "loss": 0.4578,
+      "step": 430
+    },
+    {
+      "epoch": 7.00119298245614,
+      "grad_norm": 1.2333711385726929,
+      "learning_rate": 7.719298245614036e-06,
+      "loss": 0.3516,
+      "step": 440
+    },
+    {
+      "epoch": 7.001543859649122,
+      "grad_norm": 6.666906833648682,
+      "learning_rate": 7.894736842105263e-06,
+      "loss": 0.5434,
+      "step": 450
+    },
+    {
+      "epoch": 7.001894736842106,
+      "grad_norm": 18.284526824951172,
+      "learning_rate": 8.070175438596492e-06,
+      "loss": 0.6754,
+      "step": 460
+    },
+    {
+      "epoch": 7.002035087719298,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.36466991901397705,
+      "eval_runtime": 80.8792,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.148,
+      "step": 464
+    },
+    {
+      "epoch": 8.00021052631579,
+      "grad_norm": 8.833359718322754,
+      "learning_rate": 8.245614035087721e-06,
+      "loss": 0.4877,
+      "step": 470
+    },
+    {
+      "epoch": 8.000561403508772,
+      "grad_norm": 10.950183868408203,
+      "learning_rate": 8.421052631578948e-06,
+      "loss": 0.3044,
+      "step": 480
+    },
+    {
+      "epoch": 8.000912280701755,
+      "grad_norm": 2.037674903869629,
+      "learning_rate": 8.596491228070176e-06,
+      "loss": 0.2232,
+      "step": 490
+    },
+    {
+      "epoch": 8.001263157894737,
+      "grad_norm": 78.8741455078125,
+      "learning_rate": 8.771929824561403e-06,
+      "loss": 0.1771,
+      "step": 500
+    },
+    {
+      "epoch": 8.00161403508772,
+      "grad_norm": 90.6770248413086,
+      "learning_rate": 8.947368421052632e-06,
+      "loss": 1.1209,
+      "step": 510
+    },
+    {
+      "epoch": 8.001964912280702,
+      "grad_norm": 39.13031768798828,
+      "learning_rate": 9.122807017543861e-06,
+      "loss": 0.8425,
+      "step": 520
+    },
+    {
+      "epoch": 8.002035087719298,
+      "eval_accuracy": 0.5416666666666666,
+      "eval_loss": 0.6199241876602173,
+      "eval_runtime": 81.9922,
+      "eval_samples_per_second": 0.585,
+      "eval_steps_per_second": 0.146,
+      "step": 522
+    },
+    {
+      "epoch": 9.000280701754386,
+      "grad_norm": 17.226152420043945,
+      "learning_rate": 9.298245614035088e-06,
+      "loss": 0.7695,
+      "step": 530
+    },
+    {
+      "epoch": 9.000631578947369,
+      "grad_norm": 12.632246971130371,
+      "learning_rate": 9.473684210526317e-06,
+      "loss": 0.5423,
+      "step": 540
+    },
+    {
+      "epoch": 9.00098245614035,
+      "grad_norm": 7.4788336753845215,
+      "learning_rate": 9.649122807017545e-06,
+      "loss": 0.6734,
+      "step": 550
+    },
+    {
+      "epoch": 9.001333333333333,
+      "grad_norm": 32.823486328125,
+      "learning_rate": 9.824561403508772e-06,
+      "loss": 0.4033,
+      "step": 560
+    },
+    {
+      "epoch": 9.001684210526316,
+      "grad_norm": 5.6088480949401855,
+      "learning_rate": 1e-05,
+      "loss": 0.2009,
+      "step": 570
+    },
+    {
+      "epoch": 9.002035087719298,
+      "grad_norm": 0.8267044425010681,
+      "learning_rate": 1.0175438596491228e-05,
+      "loss": 0.2276,
+      "step": 580
+    },
+    {
+      "epoch": 9.002035087719298,
+      "eval_accuracy": 0.7291666666666666,
+      "eval_loss": 0.9983854293823242,
+      "eval_runtime": 81.8828,
+      "eval_samples_per_second": 0.586,
+      "eval_steps_per_second": 0.147,
+      "step": 580
+    },
+    {
+      "epoch": 10.000350877192982,
+      "grad_norm": 0.6918083429336548,
+      "learning_rate": 1.0350877192982457e-05,
+      "loss": 0.4027,
+      "step": 590
+    },
+    {
+      "epoch": 10.000701754385965,
+      "grad_norm": 12.070817947387695,
+      "learning_rate": 1.0526315789473684e-05,
+      "loss": 0.1868,
+      "step": 600
+    },
+    {
+      "epoch": 10.001052631578947,
+      "grad_norm": 11.899476051330566,
+      "learning_rate": 1.0701754385964913e-05,
+      "loss": 0.8328,
+      "step": 610
+    },
+    {
+      "epoch": 10.00140350877193,
+      "grad_norm": 18.76070213317871,
+      "learning_rate": 1.087719298245614e-05,
+      "loss": 0.4753,
+      "step": 620
+    },
+    {
+      "epoch": 10.001754385964912,
+      "grad_norm": 15.813506126403809,
+      "learning_rate": 1.1052631578947368e-05,
+      "loss": 0.3953,
+      "step": 630
+    },
+    {
+      "epoch": 10.002035087719298,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.3595670759677887,
+      "eval_runtime": 84.5422,
+      "eval_samples_per_second": 0.568,
+      "eval_steps_per_second": 0.142,
+      "step": 638
+    },
+    {
+      "epoch": 11.000070175438596,
+      "grad_norm": 2.381981372833252,
+      "learning_rate": 1.1228070175438597e-05,
+      "loss": 0.3252,
+      "step": 640
+    },
+    {
+      "epoch": 11.000421052631578,
+      "grad_norm": 8.495650291442871,
+      "learning_rate": 1.1403508771929824e-05,
+      "loss": 0.2205,
+      "step": 650
+    },
+    {
+      "epoch": 11.00077192982456,
+      "grad_norm": 0.5458263754844666,
+      "learning_rate": 1.1578947368421053e-05,
+      "loss": 0.4623,
+      "step": 660
+    },
+    {
+      "epoch": 11.001122807017543,
+      "grad_norm": 35.78744888305664,
+      "learning_rate": 1.1754385964912282e-05,
+      "loss": 0.4652,
+      "step": 670
+    },
+    {
+      "epoch": 11.001473684210527,
+      "grad_norm": 69.58731842041016,
+      "learning_rate": 1.192982456140351e-05,
+      "loss": 0.2175,
+      "step": 680
+    },
+    {
+      "epoch": 11.00182456140351,
+      "grad_norm": 80.09464263916016,
+      "learning_rate": 1.2105263157894737e-05,
+      "loss": 0.3255,
+      "step": 690
+    },
+    {
+      "epoch": 11.002035087719298,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.39784160256385803,
+      "eval_runtime": 82.0895,
+      "eval_samples_per_second": 0.585,
+      "eval_steps_per_second": 0.146,
+      "step": 696
+    },
+    {
+      "epoch": 12.000140350877192,
+      "grad_norm": 0.08766458928585052,
+      "learning_rate": 1.2280701754385964e-05,
+      "loss": 0.0288,
+      "step": 700
+    },
+    {
+      "epoch": 12.000491228070176,
+      "grad_norm": 10.239900588989258,
+      "learning_rate": 1.2456140350877193e-05,
+      "loss": 0.2648,
+      "step": 710
+    },
+    {
+      "epoch": 12.000842105263159,
+      "grad_norm": 5.331236839294434,
+      "learning_rate": 1.2631578947368422e-05,
+      "loss": 0.3223,
+      "step": 720
+    },
+    {
+      "epoch": 12.001192982456141,
+      "grad_norm": 0.24060657620429993,
+      "learning_rate": 1.2807017543859651e-05,
+      "loss": 0.2808,
+      "step": 730
+    },
+    {
+      "epoch": 12.001543859649123,
+      "grad_norm": 0.31760913133621216,
+      "learning_rate": 1.2982456140350877e-05,
+      "loss": 0.2207,
+      "step": 740
+    },
+    {
+      "epoch": 12.001894736842106,
+      "grad_norm": 70.13704681396484,
+      "learning_rate": 1.3157894736842106e-05,
+      "loss": 0.2524,
+      "step": 750
+    },
+    {
+      "epoch": 12.002035087719298,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.3351368010044098,
+      "eval_runtime": 80.8837,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.148,
+      "step": 754
+    },
+    {
+      "epoch": 13.00021052631579,
+      "grad_norm": 0.32135623693466187,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.2225,
+      "step": 760
+    },
+    {
+      "epoch": 13.000561403508772,
+      "grad_norm": 21.094276428222656,
+      "learning_rate": 1.3508771929824562e-05,
+      "loss": 0.5212,
+      "step": 770
+    },
+    {
+      "epoch": 13.000912280701755,
+      "grad_norm": 0.08428701013326645,
+      "learning_rate": 1.3684210526315791e-05,
+      "loss": 0.4246,
+      "step": 780
+    },
+    {
+      "epoch": 13.001263157894737,
+      "grad_norm": 0.18355534970760345,
+      "learning_rate": 1.3859649122807017e-05,
+      "loss": 0.0793,
+      "step": 790
+    },
+    {
+      "epoch": 13.00161403508772,
+      "grad_norm": 8.33340072631836,
+      "learning_rate": 1.4035087719298246e-05,
+      "loss": 0.3384,
+      "step": 800
+    },
+    {
+      "epoch": 13.001964912280702,
+      "grad_norm": 0.7141004204750061,
+      "learning_rate": 1.4210526315789475e-05,
+      "loss": 0.5978,
+      "step": 810
+    },
+    {
+      "epoch": 13.002035087719298,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.23082482814788818,
+      "eval_runtime": 81.747,
+      "eval_samples_per_second": 0.587,
+      "eval_steps_per_second": 0.147,
+      "step": 812
+    },
+    {
+      "epoch": 14.000280701754386,
+      "grad_norm": 0.15585492551326752,
+      "learning_rate": 1.4385964912280702e-05,
+      "loss": 0.122,
+      "step": 820
+    },
+    {
+      "epoch": 14.000631578947369,
+      "grad_norm": 49.04802322387695,
+      "learning_rate": 1.4561403508771931e-05,
+      "loss": 0.522,
+      "step": 830
+    },
+    {
+      "epoch": 14.00098245614035,
+      "grad_norm": 0.3657858967781067,
+      "learning_rate": 1.4736842105263157e-05,
+      "loss": 0.0476,
+      "step": 840
+    },
+    {
+      "epoch": 14.001333333333333,
+      "grad_norm": 0.05123307183384895,
+      "learning_rate": 1.4912280701754386e-05,
+      "loss": 0.2268,
+      "step": 850
+    },
+    {
+      "epoch": 14.001684210526316,
+      "grad_norm": 0.08785073459148407,
+      "learning_rate": 1.5087719298245615e-05,
+      "loss": 0.4392,
+      "step": 860
+    },
+    {
+      "epoch": 14.002035087719298,
+      "grad_norm": 0.33805736899375916,
+      "learning_rate": 1.5263157894736842e-05,
+      "loss": 0.1542,
+      "step": 870
+    },
+    {
+      "epoch": 14.002035087719298,
+      "eval_accuracy": 0.8958333333333334,
+      "eval_loss": 0.5762323141098022,
+      "eval_runtime": 82.832,
+      "eval_samples_per_second": 0.579,
+      "eval_steps_per_second": 0.145,
+      "step": 870
+    },
+    {
+      "epoch": 15.000350877192982,
+      "grad_norm": 0.06892251968383789,
+      "learning_rate": 1.543859649122807e-05,
+      "loss": 0.1377,
+      "step": 880
+    },
+    {
+      "epoch": 15.000701754385965,
+      "grad_norm": 0.07005161046981812,
+      "learning_rate": 1.56140350877193e-05,
+      "loss": 0.0053,
+      "step": 890
+    },
+    {
+      "epoch": 15.001052631578947,
+      "grad_norm": 0.03198734670877457,
+      "learning_rate": 1.5789473684210526e-05,
+      "loss": 0.5775,
+      "step": 900
+    },
+    {
+      "epoch": 15.00140350877193,
+      "grad_norm": 171.48255920410156,
+      "learning_rate": 1.5964912280701755e-05,
+      "loss": 0.3737,
+      "step": 910
+    },
+    {
+      "epoch": 15.001754385964912,
+      "grad_norm": 0.4068077504634857,
+      "learning_rate": 1.6140350877192984e-05,
+      "loss": 0.3073,
+      "step": 920
+    },
+    {
+      "epoch": 15.002035087719298,
+      "eval_accuracy": 0.8958333333333334,
+      "eval_loss": 0.33416375517845154,
+      "eval_runtime": 83.3591,
+      "eval_samples_per_second": 0.576,
+      "eval_steps_per_second": 0.144,
+      "step": 928
+    },
+    {
+      "epoch": 16.000070175438598,
+      "grad_norm": 0.3335668444633484,
+      "learning_rate": 1.6315789473684213e-05,
+      "loss": 0.7197,
+      "step": 930
+    },
+    {
+      "epoch": 16.00042105263158,
+      "grad_norm": 1.4757983684539795,
+      "learning_rate": 1.6491228070175442e-05,
+      "loss": 0.2539,
+      "step": 940
+    },
+    {
+      "epoch": 16.000771929824563,
+      "grad_norm": 0.17356331646442413,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0063,
+      "step": 950
+    },
+    {
+      "epoch": 16.001122807017545,
+      "grad_norm": 0.1452503204345703,
+      "learning_rate": 1.6842105263157896e-05,
+      "loss": 0.5967,
+      "step": 960
+    },
+    {
+      "epoch": 16.001473684210527,
+      "grad_norm": 0.1030503362417221,
+      "learning_rate": 1.7017543859649125e-05,
+      "loss": 0.6578,
+      "step": 970
+    },
+    {
+      "epoch": 16.00182456140351,
+      "grad_norm": 12.400784492492676,
+      "learning_rate": 1.719298245614035e-05,
+      "loss": 0.5518,
+      "step": 980
+    },
+    {
+      "epoch": 16.0020350877193,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.4223368465900421,
+      "eval_runtime": 83.4362,
+      "eval_samples_per_second": 0.575,
+      "eval_steps_per_second": 0.144,
+      "step": 986
+    },
+    {
+      "epoch": 17.000140350877192,
+      "grad_norm": 0.28909754753112793,
+      "learning_rate": 1.736842105263158e-05,
+      "loss": 0.2008,
+      "step": 990
+    },
+    {
+      "epoch": 17.000491228070175,
+      "grad_norm": 0.21579360961914062,
+      "learning_rate": 1.7543859649122806e-05,
+      "loss": 0.3298,
+      "step": 1000
+    },
+    {
+      "epoch": 17.000842105263157,
+      "grad_norm": 0.10615105926990509,
+      "learning_rate": 1.7719298245614035e-05,
+      "loss": 0.004,
+      "step": 1010
+    },
+    {
+      "epoch": 17.00119298245614,
+      "grad_norm": 0.046201951801776886,
+      "learning_rate": 1.7894736842105264e-05,
+      "loss": 0.3526,
+      "step": 1020
+    },
+    {
+      "epoch": 17.00154385964912,
+      "grad_norm": 0.06010481342673302,
+      "learning_rate": 1.8070175438596493e-05,
+      "loss": 0.3399,
+      "step": 1030
+    },
+    {
+      "epoch": 17.001894736842104,
+      "grad_norm": 8.584966659545898,
+      "learning_rate": 1.8245614035087722e-05,
+      "loss": 0.6157,
+      "step": 1040
+    },
+    {
+      "epoch": 17.0020350877193,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.17038817703723907,
+      "eval_runtime": 83.7401,
+      "eval_samples_per_second": 0.573,
+      "eval_steps_per_second": 0.143,
+      "step": 1044
+    },
+    {
+      "epoch": 18.00021052631579,
+      "grad_norm": 0.774956464767456,
+      "learning_rate": 1.8421052631578947e-05,
+      "loss": 0.1596,
+      "step": 1050
+    },
+    {
+      "epoch": 18.000561403508772,
+      "grad_norm": 0.36749064922332764,
+      "learning_rate": 1.8596491228070176e-05,
+      "loss": 0.2122,
+      "step": 1060
+    },
+    {
+      "epoch": 18.000912280701755,
+      "grad_norm": 0.06645552814006805,
+      "learning_rate": 1.8771929824561405e-05,
+      "loss": 0.2568,
+      "step": 1070
+    },
+    {
+      "epoch": 18.001263157894737,
+      "grad_norm": 0.021599041298031807,
+      "learning_rate": 1.8947368421052634e-05,
+      "loss": 0.283,
+      "step": 1080
+    },
+    {
+      "epoch": 18.00161403508772,
+      "grad_norm": 113.25637817382812,
+      "learning_rate": 1.9122807017543863e-05,
+      "loss": 0.3591,
+      "step": 1090
+    },
+    {
+      "epoch": 18.0019649122807,
+      "grad_norm": 0.21973834931850433,
+      "learning_rate": 1.929824561403509e-05,
+      "loss": 0.2544,
+      "step": 1100
+    },
+    {
+      "epoch": 18.0020350877193,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.35440635681152344,
+      "eval_runtime": 82.2034,
+      "eval_samples_per_second": 0.584,
+      "eval_steps_per_second": 0.146,
+      "step": 1102
+    },
+    {
+      "epoch": 19.000280701754384,
+      "grad_norm": 0.06097158417105675,
+      "learning_rate": 1.9473684210526315e-05,
+      "loss": 0.3663,
+      "step": 1110
+    },
+    {
+      "epoch": 19.000631578947367,
+      "grad_norm": 25.72997283935547,
+      "learning_rate": 1.9649122807017544e-05,
+      "loss": 0.8104,
+      "step": 1120
+    },
+    {
+      "epoch": 19.000982456140353,
+      "grad_norm": 0.5115303993225098,
+      "learning_rate": 1.9824561403508773e-05,
+      "loss": 0.2474,
+      "step": 1130
+    },
+    {
+      "epoch": 19.001333333333335,
+      "grad_norm": 0.27492067217826843,
+      "learning_rate": 2e-05,
+      "loss": 0.3686,
+      "step": 1140
+    },
+    {
+      "epoch": 19.001684210526317,
+      "grad_norm": 22.944690704345703,
+      "learning_rate": 2.0175438596491227e-05,
+      "loss": 0.2315,
+      "step": 1150
+    },
+    {
+      "epoch": 19.0020350877193,
+      "grad_norm": 0.11991500854492188,
+      "learning_rate": 2.0350877192982456e-05,
+      "loss": 0.4036,
+      "step": 1160
+    },
+    {
+      "epoch": 19.0020350877193,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.25051262974739075,
+      "eval_runtime": 80.7899,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.149,
+      "step": 1160
+    },
+    {
+      "epoch": 20.000350877192982,
+      "grad_norm": 0.44547587633132935,
+      "learning_rate": 2.0526315789473685e-05,
+      "loss": 0.1078,
+      "step": 1170
+    },
+    {
+      "epoch": 20.000701754385965,
+      "grad_norm": 76.07775115966797,
+      "learning_rate": 2.0701754385964914e-05,
+      "loss": 0.4915,
+      "step": 1180
+    },
+    {
+      "epoch": 20.001052631578947,
+      "grad_norm": 0.349282830953598,
+      "learning_rate": 2.0877192982456143e-05,
+      "loss": 0.2929,
+      "step": 1190
+    },
+    {
+      "epoch": 20.00140350877193,
+      "grad_norm": 8.304322242736816,
+      "learning_rate": 2.105263157894737e-05,
+      "loss": 0.219,
+      "step": 1200
+    },
+    {
+      "epoch": 20.00175438596491,
+      "grad_norm": 0.08941491693258286,
+      "learning_rate": 2.1228070175438598e-05,
+      "loss": 0.2382,
+      "step": 1210
+    },
+    {
+      "epoch": 20.0020350877193,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.3155660927295685,
+      "eval_runtime": 82.6296,
+      "eval_samples_per_second": 0.581,
+      "eval_steps_per_second": 0.145,
+      "step": 1218
+    },
+    {
+      "epoch": 21.000070175438598,
+      "grad_norm": 6.294134140014648,
+      "learning_rate": 2.1403508771929827e-05,
+      "loss": 0.2611,
+      "step": 1220
+    },
+    {
+      "epoch": 21.00042105263158,
+      "grad_norm": 0.11261521279811859,
+      "learning_rate": 2.1578947368421053e-05,
+      "loss": 0.1969,
+      "step": 1230
+    },
+    {
+      "epoch": 21.000771929824563,
+      "grad_norm": 0.2796896696090698,
+      "learning_rate": 2.175438596491228e-05,
+      "loss": 0.2955,
+      "step": 1240
+    },
+    {
+      "epoch": 21.001122807017545,
+      "grad_norm": 0.07930008322000504,
+      "learning_rate": 2.1929824561403507e-05,
+      "loss": 0.013,
+      "step": 1250
+    },
+    {
+      "epoch": 21.001473684210527,
+      "grad_norm": 5.909428119659424,
+      "learning_rate": 2.2105263157894736e-05,
+      "loss": 0.3568,
+      "step": 1260
+    },
+    {
+      "epoch": 21.00182456140351,
+      "grad_norm": 168.33380126953125,
+      "learning_rate": 2.2280701754385965e-05,
+      "loss": 0.6751,
+      "step": 1270
+    },
+    {
+      "epoch": 21.0020350877193,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.259630411863327,
+      "eval_runtime": 82.1271,
+      "eval_samples_per_second": 0.584,
+      "eval_steps_per_second": 0.146,
+      "step": 1276
+    },
+    {
+      "epoch": 22.000140350877192,
+      "grad_norm": 0.22503353655338287,
+      "learning_rate": 2.2456140350877194e-05,
+      "loss": 0.3249,
+      "step": 1280
+    },
+    {
+      "epoch": 22.000491228070175,
+      "grad_norm": 0.2562604248523712,
+      "learning_rate": 2.2631578947368423e-05,
+      "loss": 0.2267,
+      "step": 1290
+    },
+    {
+      "epoch": 22.000842105263157,
+      "grad_norm": 0.6118970513343811,
+      "learning_rate": 2.280701754385965e-05,
+      "loss": 0.7495,
+      "step": 1300
+    },
+    {
+      "epoch": 22.00119298245614,
+      "grad_norm": 0.2397994101047516,
+      "learning_rate": 2.2982456140350878e-05,
+      "loss": 0.0388,
+      "step": 1310
+    },
+    {
+      "epoch": 22.00154385964912,
+      "grad_norm": 0.10384727269411087,
+      "learning_rate": 2.3157894736842107e-05,
+      "loss": 0.3285,
+      "step": 1320
+    },
+    {
+      "epoch": 22.001894736842104,
+      "grad_norm": 0.0419117733836174,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.2848,
+      "step": 1330
+    },
+    {
+      "epoch": 22.0020350877193,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.822706937789917,
+      "eval_runtime": 83.5818,
+      "eval_samples_per_second": 0.574,
+      "eval_steps_per_second": 0.144,
+      "step": 1334
+    },
+    {
+      "epoch": 23.00021052631579,
+      "grad_norm": 121.5499038696289,
+      "learning_rate": 2.3508771929824565e-05,
+      "loss": 0.5364,
+      "step": 1340
+    },
+    {
+      "epoch": 23.000561403508772,
+      "grad_norm": 0.10266309231519699,
+      "learning_rate": 2.368421052631579e-05,
+      "loss": 0.8097,
+      "step": 1350
+    },
+    {
+      "epoch": 23.000912280701755,
+      "grad_norm": 9.736127853393555,
+      "learning_rate": 2.385964912280702e-05,
+      "loss": 0.6052,
+      "step": 1360
+    },
+    {
+      "epoch": 23.001263157894737,
+      "grad_norm": 4.3637471199035645,
+      "learning_rate": 2.4035087719298245e-05,
+      "loss": 0.3504,
+      "step": 1370
+    },
+    {
+      "epoch": 23.00161403508772,
+      "grad_norm": 0.19882246851921082,
+      "learning_rate": 2.4210526315789474e-05,
+      "loss": 0.3784,
+      "step": 1380
+    },
+    {
+      "epoch": 23.0019649122807,
+      "grad_norm": 0.27082210779190063,
+      "learning_rate": 2.4385964912280703e-05,
+      "loss": 0.1225,
+      "step": 1390
+    },
+    {
+      "epoch": 23.0020350877193,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.2921377420425415,
+      "eval_runtime": 82.9556,
+      "eval_samples_per_second": 0.579,
+      "eval_steps_per_second": 0.145,
+      "step": 1392
+    },
+    {
+      "epoch": 24.000280701754384,
+      "grad_norm": 0.2171986997127533,
+      "learning_rate": 2.456140350877193e-05,
+      "loss": 0.1094,
+      "step": 1400
+    },
+    {
+      "epoch": 24.000631578947367,
+      "grad_norm": 0.21692253649234772,
+      "learning_rate": 2.4736842105263158e-05,
+      "loss": 0.3332,
+      "step": 1410
+    },
+    {
+      "epoch": 24.000982456140353,
+      "grad_norm": 0.3834693729877472,
+      "learning_rate": 2.4912280701754387e-05,
+      "loss": 0.2847,
+      "step": 1420
+    },
+    {
+      "epoch": 24.001333333333335,
+      "grad_norm": 0.08816500753164291,
+      "learning_rate": 2.5087719298245616e-05,
+      "loss": 0.1147,
+      "step": 1430
+    },
+    {
+      "epoch": 24.001684210526317,
+      "grad_norm": 0.21103212237358093,
+      "learning_rate": 2.5263157894736845e-05,
+      "loss": 0.4283,
+      "step": 1440
+    },
+    {
+      "epoch": 24.0020350877193,
+      "grad_norm": 0.27631059288978577,
+      "learning_rate": 2.5438596491228074e-05,
+      "loss": 0.616,
+      "step": 1450
+    },
+    {
+      "epoch": 24.0020350877193,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.2928893566131592,
+      "eval_runtime": 81.6066,
+      "eval_samples_per_second": 0.588,
+      "eval_steps_per_second": 0.147,
+      "step": 1450
+    },
+    {
+      "epoch": 24.0020350877193,
+      "eval_accuracy": 0.9411764705882353,
+      "eval_loss": 0.2618250548839569,
+      "eval_runtime": 88.9045,
+      "eval_samples_per_second": 0.574,
+      "eval_steps_per_second": 0.146,
+      "step": 1450
+    },
+    {
+      "epoch": 24.0020350877193,
+      "eval_accuracy": 0.9411764705882353,
+      "eval_loss": 0.2618250548839569,
+      "eval_runtime": 89.4759,
+      "eval_samples_per_second": 0.57,
+      "eval_steps_per_second": 0.145,
+      "step": 1450
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 28500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.164871389462528e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}