Joy28
/

videomae-base-finetuned-subset-check10

@@ -1,8 +1,8 @@
 {
-    "epoch": 49.01,
-    "eval_accuracy": 0.6805555555555556,
-    "eval_loss": 0.7703171968460083,
-    "eval_runtime": 162.7205,
-    "eval_samples_per_second": 1.327,
-    "eval_steps_per_second": 0.166
 }

 {
+    "epoch": 19.04,
+    "eval_accuracy": 0.6666666666666666,
+    "eval_loss": 0.6926783919334412,
+    "eval_runtime": 163.2396,
+    "eval_samples_per_second": 1.323,
+    "eval_steps_per_second": 0.165
 }

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 49.01,
-    "eval_accuracy": 0.6805555555555556,
-    "eval_loss": 0.7703171968460083,
-    "eval_runtime": 162.7205,
-    "eval_samples_per_second": 1.327,
-    "eval_steps_per_second": 0.166
 }

 {
+    "epoch": 19.04,
+    "eval_accuracy": 0.6666666666666666,
+    "eval_loss": 0.6926783919334412,
+    "eval_runtime": 163.2396,
+    "eval_samples_per_second": 1.323,
+    "eval_steps_per_second": 0.165
 }

trainer_state.json CHANGED Viewed

@@ -1,2159 +1,893 @@
 {
-  "best_metric": 0.6912442396313364,
   "best_model_checkpoint": "videomae-base-finetuned-subset-check10/checkpoint-896",
-  "epoch": 49.01117117117117,
   "eval_steps": 500,
-  "global_step": 2775,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "learning_rate": 3.5971223021582736e-07,
-      "loss": 1.6473,
       "step": 10
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 7.194244604316547e-07,
-      "loss": 1.6938,
       "step": 20
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 1.079136690647482e-06,
-      "loss": 1.6967,
       "step": 30
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 1.4388489208633094e-06,
-      "loss": 1.6515,
       "step": 40
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 1.7985611510791368e-06,
-      "loss": 1.6256,
       "step": 50
     },
     {
-      "epoch": 0.02,
-      "eval_accuracy": 0.1382488479262673,
-      "eval_loss": 1.6078100204467773,
-      "eval_runtime": 169.5226,
-      "eval_samples_per_second": 1.28,
       "eval_steps_per_second": 0.165,
       "step": 56
     },
     {
       "epoch": 1.0,
-      "learning_rate": 2.158273381294964e-06,
-      "loss": 1.6524,
       "step": 60
     },
     {
       "epoch": 1.01,
-      "learning_rate": 2.5179856115107916e-06,
-      "loss": 1.662,
       "step": 70
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 2.877697841726619e-06,
-      "loss": 1.6402,
       "step": 80
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 3.237410071942446e-06,
-      "loss": 1.6405,
       "step": 90
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 3.5971223021582737e-06,
-      "loss": 1.6123,
       "step": 100
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 3.956834532374101e-06,
-      "loss": 1.6131,
       "step": 110
     },
     {
-      "epoch": 1.02,
-      "eval_accuracy": 0.17972350230414746,
-      "eval_loss": 1.5918368101119995,
-      "eval_runtime": 164.3238,
-      "eval_samples_per_second": 1.321,
-      "eval_steps_per_second": 0.17,
       "step": 112
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 4.316546762589928e-06,
-      "loss": 1.6037,
       "step": 120
     },
     {
-      "epoch": 2.01,
-      "learning_rate": 4.676258992805755e-06,
-      "loss": 1.618,
       "step": 130
     },
     {
-      "epoch": 2.01,
-      "learning_rate": 5.035971223021583e-06,
-      "loss": 1.6164,
       "step": 140
     },
     {
-      "epoch": 2.01,
-      "learning_rate": 5.3956834532374105e-06,
-      "loss": 1.5948,
       "step": 150
     },
     {
-      "epoch": 2.02,
-      "learning_rate": 5.755395683453238e-06,
-      "loss": 1.5876,
       "step": 160
     },
     {
-      "epoch": 2.02,
-      "eval_accuracy": 0.30414746543778803,
-      "eval_loss": 1.5944809913635254,
-      "eval_runtime": 166.4449,
-      "eval_samples_per_second": 1.304,
-      "eval_steps_per_second": 0.168,
       "step": 168
     },
     {
       "epoch": 3.0,
-      "learning_rate": 6.115107913669065e-06,
-      "loss": 1.649,
       "step": 170
     },
     {
-      "epoch": 3.0,
-      "learning_rate": 6.474820143884892e-06,
-      "loss": 1.6068,
       "step": 180
     },
     {
-      "epoch": 3.01,
-      "learning_rate": 6.834532374100719e-06,
-      "loss": 1.5767,
       "step": 190
     },
     {
-      "epoch": 3.01,
-      "learning_rate": 7.194244604316547e-06,
-      "loss": 1.6003,
       "step": 200
     },
     {
-      "epoch": 3.02,
-      "learning_rate": 7.5539568345323745e-06,
-      "loss": 1.5721,
       "step": 210
     },
     {
-      "epoch": 3.02,
-      "learning_rate": 7.913669064748202e-06,
-      "loss": 1.6136,
       "step": 220
     },
     {
-      "epoch": 3.02,
-      "eval_accuracy": 0.4608294930875576,
-      "eval_loss": 1.5251535177230835,
-      "eval_runtime": 163.7672,
-      "eval_samples_per_second": 1.325,
-      "eval_steps_per_second": 0.171,
       "step": 224
     },
     {
-      "epoch": 4.0,
-      "learning_rate": 8.273381294964029e-06,
-      "loss": 1.6221,
       "step": 230
     },
     {
       "epoch": 4.01,
-      "learning_rate": 8.633093525179856e-06,
-      "loss": 1.5636,
       "step": 240
     },
     {
-      "epoch": 4.01,
-      "learning_rate": 8.992805755395683e-06,
-      "loss": 1.5337,
       "step": 250
     },
     {
-      "epoch": 4.01,
-      "learning_rate": 9.35251798561151e-06,
-      "loss": 1.562,
       "step": 260
     },
     {
-      "epoch": 4.02,
-      "learning_rate": 9.712230215827338e-06,
-      "loss": 1.5213,
       "step": 270
     },
     {
-      "epoch": 4.02,
-      "learning_rate": 9.99199038846616e-06,
-      "loss": 1.5186,
       "step": 280
     },
     {
-      "epoch": 4.02,
-      "eval_accuracy": 0.4377880184331797,
-      "eval_loss": 1.4925481081008911,
-      "eval_runtime": 165.4099,
-      "eval_samples_per_second": 1.312,
-      "eval_steps_per_second": 0.169,
       "step": 280
     },
     {
-      "epoch": 5.0,
-      "learning_rate": 9.951942330796958e-06,
-      "loss": 1.4726,
       "step": 290
     },
     {
-      "epoch": 5.01,
-      "learning_rate": 9.911894273127755e-06,
-      "loss": 1.4936,
       "step": 300
     },
     {
-      "epoch": 5.01,
-      "learning_rate": 9.871846215458551e-06,
-      "loss": 1.4841,
       "step": 310
     },
     {
-      "epoch": 5.01,
-      "learning_rate": 9.831798157789349e-06,
-      "loss": 1.3298,
       "step": 320
     },
     {
-      "epoch": 5.02,
-      "learning_rate": 9.791750100120145e-06,
-      "loss": 1.3534,
       "step": 330
     },
     {
-      "epoch": 5.02,
-      "eval_accuracy": 0.5299539170506913,
-      "eval_loss": 1.24056875705719,
-      "eval_runtime": 164.7127,
-      "eval_samples_per_second": 1.317,
-      "eval_steps_per_second": 0.17,
       "step": 336
     },
     {
       "epoch": 6.0,
-      "learning_rate": 9.751702042450942e-06,
-      "loss": 1.4524,
       "step": 340
     },
     {
       "epoch": 6.01,
-      "learning_rate": 9.71165398478174e-06,
-      "loss": 1.294,
       "step": 350
     },
     {
-      "epoch": 6.01,
-      "learning_rate": 9.671605927112536e-06,
-      "loss": 1.3003,
       "step": 360
     },
     {
-      "epoch": 6.01,
-      "learning_rate": 9.631557869443333e-06,
-      "loss": 1.195,
       "step": 370
     },
     {
-      "epoch": 6.02,
-      "learning_rate": 9.59150981177413e-06,
-      "loss": 1.137,
       "step": 380
     },
     {
-      "epoch": 6.02,
-      "learning_rate": 9.551461754104927e-06,
-      "loss": 1.2166,
       "step": 390
     },
     {
-      "epoch": 6.02,
-      "eval_accuracy": 0.6082949308755761,
-      "eval_loss": 1.1090563535690308,
-      "eval_runtime": 164.323,
-      "eval_samples_per_second": 1.321,
-      "eval_steps_per_second": 0.17,
       "step": 392
     },
     {
-      "epoch": 7.0,
-      "learning_rate": 9.511413696435725e-06,
-      "loss": 1.1719,
       "step": 400
     },
     {
-      "epoch": 7.01,
-      "learning_rate": 9.47136563876652e-06,
-      "loss": 1.1407,
       "step": 410
     },
     {
-      "epoch": 7.01,
-      "learning_rate": 9.431317581097318e-06,
-      "loss": 1.1204,
       "step": 420
     },
     {
-      "epoch": 7.01,
-      "learning_rate": 9.391269523428114e-06,
-      "loss": 1.1748,
       "step": 430
     },
     {
-      "epoch": 7.02,
-      "learning_rate": 9.351221465758912e-06,
-      "loss": 1.1799,
       "step": 440
     },
     {
-      "epoch": 7.02,
-      "eval_accuracy": 0.5253456221198156,
-      "eval_loss": 1.1851890087127686,
-      "eval_runtime": 165.7908,
-      "eval_samples_per_second": 1.309,
-      "eval_steps_per_second": 0.169,
       "step": 448
     },
     {
       "epoch": 8.0,
-      "learning_rate": 9.31117340808971e-06,
-      "loss": 1.2371,
       "step": 450
     },
     {
-      "epoch": 8.0,
-      "learning_rate": 9.271125350420505e-06,
-      "loss": 1.0314,
       "step": 460
     },
     {
-      "epoch": 8.01,
-      "learning_rate": 9.231077292751303e-06,
-      "loss": 1.138,
       "step": 470
     },
     {
-      "epoch": 8.01,
-      "learning_rate": 9.191029235082099e-06,
-      "loss": 1.219,
       "step": 480
     },
     {
-      "epoch": 8.02,
-      "learning_rate": 9.150981177412896e-06,
-      "loss": 1.0251,
       "step": 490
     },
     {
-      "epoch": 8.02,
-      "learning_rate": 9.110933119743694e-06,
-      "loss": 1.0207,
       "step": 500
     },
     {
-      "epoch": 8.02,
-      "eval_accuracy": 0.5529953917050692,
-      "eval_loss": 1.1371861696243286,
-      "eval_runtime": 163.5913,
-      "eval_samples_per_second": 1.326,
-      "eval_steps_per_second": 0.171,
       "step": 504
     },
     {
-      "epoch": 9.0,
-      "learning_rate": 9.07088506207449e-06,
-      "loss": 0.9883,
       "step": 510
     },
     {
       "epoch": 9.01,
-      "learning_rate": 9.030837004405287e-06,
-      "loss": 1.2037,
       "step": 520
     },
     {
-      "epoch": 9.01,
-      "learning_rate": 8.990788946736085e-06,
-      "loss": 1.0463,
       "step": 530
     },
     {
-      "epoch": 9.01,
-      "learning_rate": 8.950740889066881e-06,
-      "loss": 1.0991,
       "step": 540
     },
     {
-      "epoch": 9.02,
-      "learning_rate": 8.910692831397679e-06,
-      "loss": 1.006,
       "step": 550
     },
     {
-      "epoch": 9.02,
-      "learning_rate": 8.870644773728475e-06,
-      "loss": 1.131,
       "step": 560
     },
     {
-      "epoch": 9.02,
-      "eval_accuracy": 0.4792626728110599,
-      "eval_loss": 1.2173593044281006,
-      "eval_runtime": 166.496,
-      "eval_samples_per_second": 1.303,
-      "eval_steps_per_second": 0.168,
       "step": 560
     },
     {
-      "epoch": 10.0,
-      "learning_rate": 8.830596716059272e-06,
-      "loss": 1.0511,
       "step": 570
     },
     {
-      "epoch": 10.01,
-      "learning_rate": 8.79054865839007e-06,
-      "loss": 1.1173,
       "step": 580
     },
     {
-      "epoch": 10.01,
-      "learning_rate": 8.750500600720866e-06,
-      "loss": 1.0267,
       "step": 590
     },
     {
-      "epoch": 10.01,
-      "learning_rate": 8.710452543051663e-06,
-      "loss": 0.9008,
       "step": 600
     },
     {
-      "epoch": 10.02,
-      "learning_rate": 8.67040448538246e-06,
-      "loss": 0.9063,
       "step": 610
     },
     {
-      "epoch": 10.02,
-      "eval_accuracy": 0.5714285714285714,
-      "eval_loss": 1.055660605430603,
-      "eval_runtime": 164.406,
-      "eval_samples_per_second": 1.32,
-      "eval_steps_per_second": 0.17,
       "step": 616
     },
     {
       "epoch": 11.0,
-      "learning_rate": 8.630356427713257e-06,
-      "loss": 0.9433,
       "step": 620
     },
     {
       "epoch": 11.01,
-      "learning_rate": 8.590308370044054e-06,
-      "loss": 0.9096,
       "step": 630
     },
     {
-      "epoch": 11.01,
-      "learning_rate": 8.55026031237485e-06,
-      "loss": 0.9989,
       "step": 640
     },
     {
-      "epoch": 11.01,
-      "learning_rate": 8.510212254705648e-06,
-      "loss": 0.856,
       "step": 650
     },
     {
-      "epoch": 11.02,
-      "learning_rate": 8.470164197036444e-06,
-      "loss": 0.9063,
       "step": 660
     },
     {
-      "epoch": 11.02,
-      "learning_rate": 8.430116139367241e-06,
-      "loss": 1.0308,
       "step": 670
     },
     {
-      "epoch": 11.02,
-      "eval_accuracy": 0.5944700460829493,
-      "eval_loss": 1.055904746055603,
-      "eval_runtime": 163.9813,
-      "eval_samples_per_second": 1.323,
-      "eval_steps_per_second": 0.171,
       "step": 672
     },
     {
-      "epoch": 12.0,
-      "learning_rate": 8.390068081698039e-06,
-      "loss": 0.9958,
       "step": 680
     },
     {
-      "epoch": 12.01,
-      "learning_rate": 8.350020024028835e-06,
-      "loss": 0.9275,
       "step": 690
     },
     {
-      "epoch": 12.01,
-      "learning_rate": 8.309971966359633e-06,
-      "loss": 0.9112,
       "step": 700
     },
     {
-      "epoch": 12.01,
-      "learning_rate": 8.269923908690429e-06,
-      "loss": 0.8474,
       "step": 710
     },
     {
-      "epoch": 12.02,
-      "learning_rate": 8.229875851021226e-06,
-      "loss": 0.8939,
       "step": 720
     },
     {
-      "epoch": 12.02,
-      "eval_accuracy": 0.47465437788018433,
-      "eval_loss": 1.265906810760498,
-      "eval_runtime": 165.9908,
-      "eval_samples_per_second": 1.307,
-      "eval_steps_per_second": 0.169,
       "step": 728
     },
     {
       "epoch": 13.0,
-      "learning_rate": 8.189827793352024e-06,
-      "loss": 0.9501,
       "step": 730
     },
     {
-      "epoch": 13.0,
-      "learning_rate": 8.14977973568282e-06,
-      "loss": 0.8779,
       "step": 740
     },
     {
-      "epoch": 13.01,
-      "learning_rate": 8.109731678013617e-06,
-      "loss": 0.9526,
       "step": 750
     },
     {
-      "epoch": 13.01,
-      "learning_rate": 8.069683620344413e-06,
-      "loss": 0.9557,
       "step": 760
     },
     {
-      "epoch": 13.02,
-      "learning_rate": 8.02963556267521e-06,
-      "loss": 0.8857,
       "step": 770
     },
     {
-      "epoch": 13.02,
-      "learning_rate": 7.989587505006008e-06,
-      "loss": 0.7683,
       "step": 780
     },
     {
-      "epoch": 13.02,
-      "eval_accuracy": 0.5990783410138248,
-      "eval_loss": 0.9757941365242004,
-      "eval_runtime": 164.1944,
       "eval_samples_per_second": 1.322,
       "eval_steps_per_second": 0.171,
       "step": 784
     },
     {
-      "epoch": 14.0,
-      "learning_rate": 7.949539447336804e-06,
-      "loss": 0.944,
       "step": 790
     },
     {
       "epoch": 14.01,
-      "learning_rate": 7.909491389667602e-06,
-      "loss": 0.8302,
       "step": 800
     },
     {
-      "epoch": 14.01,
-      "learning_rate": 7.869443331998398e-06,
-      "loss": 0.8932,
       "step": 810
     },
     {
-      "epoch": 14.01,
-      "learning_rate": 7.829395274329196e-06,
-      "loss": 0.7827,
       "step": 820
     },
     {
-      "epoch": 14.02,
-      "learning_rate": 7.789347216659993e-06,
-      "loss": 0.8574,
       "step": 830
     },
     {
-      "epoch": 14.02,
-      "learning_rate": 7.749299158990789e-06,
-      "loss": 0.8586,
       "step": 840
     },
     {
-      "epoch": 14.02,
-      "eval_accuracy": 0.6728110599078341,
-      "eval_loss": 0.8495957851409912,
-      "eval_runtime": 165.1894,
-      "eval_samples_per_second": 1.314,
-      "eval_steps_per_second": 0.17,
       "step": 840
     },
     {
-      "epoch": 15.0,
-      "learning_rate": 7.709251101321587e-06,
-      "loss": 0.8769,
       "step": 850
     },
     {
-      "epoch": 15.01,
-      "learning_rate": 7.669203043652384e-06,
-      "loss": 0.8732,
       "step": 860
     },
     {
-      "epoch": 15.01,
-      "learning_rate": 7.62915498598318e-06,
-      "loss": 0.8314,
       "step": 870
     },
     {
-      "epoch": 15.01,
-      "learning_rate": 7.589106928313977e-06,
-      "loss": 0.7307,
       "step": 880
     },
     {
-      "epoch": 15.02,
-      "learning_rate": 7.5490588706447746e-06,
-      "loss": 0.7655,
       "step": 890
     },
     {
-      "epoch": 15.02,
-      "eval_accuracy": 0.6912442396313364,
-      "eval_loss": 0.8554534316062927,
-      "eval_runtime": 166.6109,
-      "eval_samples_per_second": 1.302,
-      "eval_steps_per_second": 0.168,
       "step": 896
     },
     {
       "epoch": 16.0,
-      "learning_rate": 7.509010812975571e-06,
-      "loss": 0.7943,
       "step": 900
     },
     {
       "epoch": 16.01,
-      "learning_rate": 7.468962755306368e-06,
-      "loss": 0.7588,
       "step": 910
     },
     {
-      "epoch": 16.01,
-      "learning_rate": 7.428914697637165e-06,
-      "loss": 0.9166,
       "step": 920
     },
     {
-      "epoch": 16.01,
-      "learning_rate": 7.3888666399679625e-06,
-      "loss": 0.8153,
       "step": 930
     },
     {
-      "epoch": 16.02,
-      "learning_rate": 7.348818582298759e-06,
-      "loss": 0.8269,
       "step": 940
     },
     {
-      "epoch": 16.02,
-      "learning_rate": 7.308770524629556e-06,
-      "loss": 0.622,
       "step": 950
     },
     {
-      "epoch": 16.02,
-      "eval_accuracy": 0.5207373271889401,
-      "eval_loss": 1.2835302352905273,
-      "eval_runtime": 164.5709,
-      "eval_samples_per_second": 1.319,
-      "eval_steps_per_second": 0.17,
       "step": 952
     },
     {
-      "epoch": 17.0,
-      "learning_rate": 7.268722466960353e-06,
-      "loss": 0.8316,
       "step": 960
     },
     {
-      "epoch": 17.01,
-      "learning_rate": 7.2286744092911495e-06,
-      "loss": 0.7093,
       "step": 970
     },
     {
-      "epoch": 17.01,
-      "learning_rate": 7.188626351621947e-06,
-      "loss": 0.6915,
       "step": 980
     },
     {
-      "epoch": 17.01,
-      "learning_rate": 7.148578293952744e-06,
-      "loss": 0.7887,
       "step": 990
     },
     {
-      "epoch": 17.02,
-      "learning_rate": 7.108530236283541e-06,
-      "loss": 0.878,
       "step": 1000
     },
     {
-      "epoch": 17.02,
-      "eval_accuracy": 0.6912442396313364,
-      "eval_loss": 0.7960665225982666,
-      "eval_runtime": 163.5823,
-      "eval_samples_per_second": 1.327,
-      "eval_steps_per_second": 0.171,
       "step": 1008
     },
     {
       "epoch": 18.0,
-      "learning_rate": 7.0684821786143374e-06,
-      "loss": 0.8681,
       "step": 1010
     },
     {
-      "epoch": 18.0,
-      "learning_rate": 7.028434120945134e-06,
-      "loss": 0.9578,
       "step": 1020
     },
     {
-      "epoch": 18.01,
-      "learning_rate": 6.988386063275932e-06,
-      "loss": 0.7911,
       "step": 1030
     },
     {
-      "epoch": 18.01,
-      "learning_rate": 6.948338005606729e-06,
-      "loss": 0.9059,
       "step": 1040
     },
     {
-      "epoch": 18.02,
-      "learning_rate": 6.908289947937525e-06,
-      "loss": 0.7579,
       "step": 1050
     },
     {
-      "epoch": 18.02,
-      "learning_rate": 6.868241890268322e-06,
-      "loss": 0.5976,
       "step": 1060
     },
     {
-      "epoch": 18.02,
-      "eval_accuracy": 0.6405529953917051,
-      "eval_loss": 0.9144326448440552,
-      "eval_runtime": 165.1317,
-      "eval_samples_per_second": 1.314,
-      "eval_steps_per_second": 0.17,
       "step": 1064
     },
     {
-      "epoch": 19.0,
-      "learning_rate": 6.828193832599119e-06,
-      "loss": 0.6986,
       "step": 1070
     },
     {
       "epoch": 19.01,
-      "learning_rate": 6.7881457749299165e-06,
-      "loss": 0.9337,
       "step": 1080
     },
     {
-      "epoch": 19.01,
-      "learning_rate": 6.748097717260713e-06,
-      "loss": 0.8697,
       "step": 1090
     },
     {
-      "epoch": 19.01,
-      "learning_rate": 6.70804965959151e-06,
-      "loss": 0.6017,
       "step": 1100
     },
     {
-      "epoch": 19.02,
-      "learning_rate": 6.668001601922307e-06,
-      "loss": 0.7251,
       "step": 1110
     },
     {
-      "epoch": 19.02,
-      "learning_rate": 6.627953544253104e-06,
-      "loss": 0.7254,
-      "step": 1120
-    },
-    {
-      "epoch": 19.02,
-      "eval_accuracy": 0.6175115207373272,
-      "eval_loss": 0.9288573861122131,
-      "eval_runtime": 163.2915,
-      "eval_samples_per_second": 1.329,
-      "eval_steps_per_second": 0.171,
-      "step": 1120
-    },
-    {
-      "epoch": 20.0,
-      "learning_rate": 6.587905486583901e-06,
-      "loss": 0.7905,
-      "step": 1130
-    },
-    {
-      "epoch": 20.01,
-      "learning_rate": 6.547857428914698e-06,
-      "loss": 0.7592,
-      "step": 1140
-    },
-    {
-      "epoch": 20.01,
-      "learning_rate": 6.507809371245495e-06,
-      "loss": 0.7639,
-      "step": 1150
-    },
-    {
-      "epoch": 20.01,
-      "learning_rate": 6.4677613135762915e-06,
-      "loss": 0.7202,
-      "step": 1160
-    },
-    {
-      "epoch": 20.02,
-      "learning_rate": 6.427713255907089e-06,
-      "loss": 0.7443,
-      "step": 1170
-    },
-    {
-      "epoch": 20.02,
-      "eval_accuracy": 0.511520737327189,
-      "eval_loss": 1.2425593137741089,
-      "eval_runtime": 165.1561,
-      "eval_samples_per_second": 1.314,
-      "eval_steps_per_second": 0.17,
-      "step": 1176
-    },
-    {
-      "epoch": 21.0,
-      "learning_rate": 6.387665198237886e-06,
-      "loss": 0.7448,
-      "step": 1180
-    },
-    {
-      "epoch": 21.01,
-      "learning_rate": 6.347617140568683e-06,
-      "loss": 0.6349,
-      "step": 1190
-    },
-    {
-      "epoch": 21.01,
-      "learning_rate": 6.307569082899479e-06,
-      "loss": 0.672,
-      "step": 1200
-    },
-    {
-      "epoch": 21.01,
-      "learning_rate": 6.267521025230276e-06,
-      "loss": 0.5567,
-      "step": 1210
-    },
-    {
-      "epoch": 21.02,
-      "learning_rate": 6.227472967561074e-06,
-      "loss": 0.809,
-      "step": 1220
     },
     {
-      "epoch": 21.02,
-      "learning_rate": 6.1874249098918705e-06,
-      "loss": 0.5463,
-      "step": 1230
     },
     {
-      "epoch": 21.02,
-      "eval_accuracy": 0.5529953917050692,
-      "eval_loss": 1.1711310148239136,
-      "eval_runtime": 165.4332,
       "eval_samples_per_second": 1.312,
-      "eval_steps_per_second": 0.169,
-      "step": 1232
-    },
-    {
-      "epoch": 22.0,
-      "learning_rate": 6.147376852222667e-06,
-      "loss": 0.5671,
-      "step": 1240
-    },
-    {
-      "epoch": 22.01,
-      "learning_rate": 6.107328794553464e-06,
-      "loss": 0.6794,
-      "step": 1250
-    },
-    {
-      "epoch": 22.01,
-      "learning_rate": 6.067280736884261e-06,
-      "loss": 0.7263,
-      "step": 1260
-    },
-    {
-      "epoch": 22.01,
-      "learning_rate": 6.027232679215058e-06,
-      "loss": 0.6543,
-      "step": 1270
-    },
-    {
-      "epoch": 22.02,
-      "learning_rate": 5.987184621545855e-06,
-      "loss": 0.7503,
-      "step": 1280
-    },
-    {
-      "epoch": 22.02,
-      "eval_accuracy": 0.4792626728110599,
-      "eval_loss": 1.4511420726776123,
-      "eval_runtime": 163.4694,
-      "eval_samples_per_second": 1.327,
-      "eval_steps_per_second": 0.171,
-      "step": 1288
-    },
-    {
-      "epoch": 23.0,
-      "learning_rate": 5.947136563876652e-06,
-      "loss": 0.7247,
-      "step": 1290
-    },
-    {
-      "epoch": 23.0,
-      "learning_rate": 5.907088506207449e-06,
-      "loss": 0.6522,
-      "step": 1300
-    },
-    {
-      "epoch": 23.01,
-      "learning_rate": 5.867040448538246e-06,
-      "loss": 0.6363,
-      "step": 1310
-    },
-    {
-      "epoch": 23.01,
-      "learning_rate": 5.826992390869043e-06,
-      "loss": 0.7127,
-      "step": 1320
-    },
-    {
-      "epoch": 23.02,
-      "learning_rate": 5.78694433319984e-06,
-      "loss": 0.5885,
-      "step": 1330
-    },
-    {
-      "epoch": 23.02,
-      "learning_rate": 5.746896275530637e-06,
-      "loss": 0.6529,
-      "step": 1340
-    },
-    {
-      "epoch": 23.02,
-      "eval_accuracy": 0.6866359447004609,
-      "eval_loss": 0.9009619951248169,
-      "eval_runtime": 171.0268,
-      "eval_samples_per_second": 1.269,
       "eval_steps_per_second": 0.164,
-      "step": 1344
-    },
-    {
-      "epoch": 24.0,
-      "learning_rate": 5.706848217861433e-06,
-      "loss": 0.5402,
-      "step": 1350
-    },
-    {
-      "epoch": 24.01,
-      "learning_rate": 5.666800160192231e-06,
-      "loss": 0.6978,
-      "step": 1360
-    },
-    {
-      "epoch": 24.01,
-      "learning_rate": 5.626752102523028e-06,
-      "loss": 0.6435,
-      "step": 1370
-    },
-    {
-      "epoch": 24.01,
-      "learning_rate": 5.5867040448538245e-06,
-      "loss": 0.6665,
-      "step": 1380
-    },
-    {
-      "epoch": 24.02,
-      "learning_rate": 5.546655987184621e-06,
-      "loss": 0.805,
-      "step": 1390
-    },
-    {
-      "epoch": 24.02,
-      "learning_rate": 5.506607929515418e-06,
-      "loss": 0.6001,
-      "step": 1400
-    },
-    {
-      "epoch": 24.02,
-      "eval_accuracy": 0.6129032258064516,
-      "eval_loss": 0.9717797040939331,
-      "eval_runtime": 163.6301,
-      "eval_samples_per_second": 1.326,
-      "eval_steps_per_second": 0.171,
-      "step": 1400
-    },
-    {
-      "epoch": 25.0,
-      "learning_rate": 5.466559871846216e-06,
-      "loss": 0.6452,
-      "step": 1410
     },
     {
-      "epoch": 25.01,
-      "learning_rate": 5.4265118141770124e-06,
-      "loss": 0.5866,
-      "step": 1420
-    },
-    {
-      "epoch": 25.01,
-      "learning_rate": 5.386463756507809e-06,
-      "loss": 0.7066,
-      "step": 1430
-    },
-    {
-      "epoch": 25.01,
-      "learning_rate": 5.346415698838606e-06,
-      "loss": 0.543,
-      "step": 1440
-    },
-    {
-      "epoch": 25.02,
-      "learning_rate": 5.306367641169404e-06,
-      "loss": 0.55,
-      "step": 1450
-    },
-    {
-      "epoch": 25.02,
-      "eval_accuracy": 0.4377880184331797,
-      "eval_loss": 1.3723992109298706,
-      "eval_runtime": 164.6177,
-      "eval_samples_per_second": 1.318,
-      "eval_steps_per_second": 0.17,
-      "step": 1456
-    },
-    {
-      "epoch": 26.0,
-      "learning_rate": 5.2663195835002e-06,
-      "loss": 0.6087,
-      "step": 1460
-    },
-    {
-      "epoch": 26.01,
-      "learning_rate": 5.226271525830998e-06,
-      "loss": 0.6169,
-      "step": 1470
-    },
-    {
-      "epoch": 26.01,
-      "learning_rate": 5.186223468161795e-06,
-      "loss": 0.9426,
-      "step": 1480
-    },
-    {
-      "epoch": 26.01,
-      "learning_rate": 5.146175410492592e-06,
-      "loss": 0.4587,
-      "step": 1490
-    },
-    {
-      "epoch": 26.02,
-      "learning_rate": 5.106127352823389e-06,
-      "loss": 0.6725,
-      "step": 1500
-    },
-    {
-      "epoch": 26.02,
-      "learning_rate": 5.066079295154186e-06,
-      "loss": 0.7328,
-      "step": 1510
-    },
-    {
-      "epoch": 26.02,
-      "eval_accuracy": 0.4930875576036866,
-      "eval_loss": 1.2508519887924194,
-      "eval_runtime": 165.1191,
-      "eval_samples_per_second": 1.314,
-      "eval_steps_per_second": 0.17,
-      "step": 1512
-    },
-    {
-      "epoch": 27.0,
-      "learning_rate": 5.026031237484983e-06,
-      "loss": 0.4386,
-      "step": 1520
-    },
-    {
-      "epoch": 27.01,
-      "learning_rate": 4.985983179815779e-06,
-      "loss": 0.5087,
-      "step": 1530
-    },
-    {
-      "epoch": 27.01,
-      "learning_rate": 4.945935122146576e-06,
-      "loss": 0.8035,
-      "step": 1540
-    },
-    {
-      "epoch": 27.01,
-      "learning_rate": 4.905887064477373e-06,
-      "loss": 0.6609,
-      "step": 1550
-    },
-    {
-      "epoch": 27.02,
-      "learning_rate": 4.86583900680817e-06,
-      "loss": 0.5754,
-      "step": 1560
-    },
-    {
-      "epoch": 27.02,
-      "eval_accuracy": 0.663594470046083,
-      "eval_loss": 0.9112865924835205,
-      "eval_runtime": 163.6522,
-      "eval_samples_per_second": 1.326,
-      "eval_steps_per_second": 0.171,
-      "step": 1568
-    },
-    {
-      "epoch": 28.0,
-      "learning_rate": 4.825790949138967e-06,
-      "loss": 0.7097,
-      "step": 1570
-    },
-    {
-      "epoch": 28.0,
-      "learning_rate": 4.785742891469764e-06,
-      "loss": 0.5724,
-      "step": 1580
-    },
-    {
-      "epoch": 28.01,
-      "learning_rate": 4.745694833800561e-06,
-      "loss": 0.666,
-      "step": 1590
-    },
-    {
-      "epoch": 28.01,
-      "learning_rate": 4.705646776131358e-06,
-      "loss": 0.7482,
-      "step": 1600
-    },
-    {
-      "epoch": 28.02,
-      "learning_rate": 4.665598718462155e-06,
-      "loss": 0.7556,
-      "step": 1610
-    },
-    {
-      "epoch": 28.02,
-      "learning_rate": 4.625550660792952e-06,
-      "loss": 0.6717,
-      "step": 1620
-    },
-    {
-      "epoch": 28.02,
-      "eval_accuracy": 0.5345622119815668,
-      "eval_loss": 1.0872467756271362,
-      "eval_runtime": 163.65,
-      "eval_samples_per_second": 1.326,
-      "eval_steps_per_second": 0.171,
-      "step": 1624
-    },
-    {
-      "epoch": 29.0,
-      "learning_rate": 4.585502603123749e-06,
-      "loss": 0.7058,
-      "step": 1630
-    },
-    {
-      "epoch": 29.01,
-      "learning_rate": 4.5454545454545455e-06,
-      "loss": 0.6564,
-      "step": 1640
-    },
-    {
-      "epoch": 29.01,
-      "learning_rate": 4.505406487785342e-06,
-      "loss": 0.5864,
-      "step": 1650
-    },
-    {
-      "epoch": 29.01,
-      "learning_rate": 4.46535843011614e-06,
-      "loss": 0.751,
-      "step": 1660
-    },
-    {
-      "epoch": 29.02,
-      "learning_rate": 4.425310372446937e-06,
-      "loss": 0.6114,
-      "step": 1670
-    },
-    {
-      "epoch": 29.02,
-      "learning_rate": 4.3852623147777334e-06,
-      "loss": 0.8697,
-      "step": 1680
-    },
-    {
-      "epoch": 29.02,
-      "eval_accuracy": 0.663594470046083,
-      "eval_loss": 0.8410985469818115,
-      "eval_runtime": 163.2869,
-      "eval_samples_per_second": 1.329,
-      "eval_steps_per_second": 0.171,
-      "step": 1680
-    },
-    {
-      "epoch": 30.0,
-      "learning_rate": 4.34521425710853e-06,
-      "loss": 0.5641,
-      "step": 1690
-    },
-    {
-      "epoch": 30.01,
-      "learning_rate": 4.305166199439327e-06,
-      "loss": 0.6042,
-      "step": 1700
-    },
-    {
-      "epoch": 30.01,
-      "learning_rate": 4.2651181417701246e-06,
-      "loss": 0.6321,
-      "step": 1710
-    },
-    {
-      "epoch": 30.01,
-      "learning_rate": 4.225070084100921e-06,
-      "loss": 0.5942,
-      "step": 1720
-    },
-    {
-      "epoch": 30.02,
-      "learning_rate": 4.185022026431718e-06,
-      "loss": 0.4557,
-      "step": 1730
-    },
-    {
-      "epoch": 30.02,
-      "eval_accuracy": 0.5852534562211982,
-      "eval_loss": 1.0334526300430298,
-      "eval_runtime": 164.4022,
-      "eval_samples_per_second": 1.32,
-      "eval_steps_per_second": 0.17,
-      "step": 1736
-    },
-    {
-      "epoch": 31.0,
-      "learning_rate": 4.144973968762515e-06,
-      "loss": 0.5802,
-      "step": 1740
-    },
-    {
-      "epoch": 31.01,
-      "learning_rate": 4.1049259110933125e-06,
-      "loss": 0.8083,
-      "step": 1750
-    },
-    {
-      "epoch": 31.01,
-      "learning_rate": 4.064877853424109e-06,
-      "loss": 0.5083,
-      "step": 1760
-    },
-    {
-      "epoch": 31.01,
-      "learning_rate": 4.024829795754906e-06,
-      "loss": 0.782,
-      "step": 1770
-    },
-    {
-      "epoch": 31.02,
-      "learning_rate": 3.984781738085703e-06,
-      "loss": 0.6633,
-      "step": 1780
-    },
-    {
-      "epoch": 31.02,
-      "learning_rate": 3.9447336804165e-06,
-      "loss": 0.4873,
-      "step": 1790
-    },
-    {
-      "epoch": 31.02,
-      "eval_accuracy": 0.5299539170506913,
-      "eval_loss": 1.154846429824829,
-      "eval_runtime": 164.5771,
-      "eval_samples_per_second": 1.319,
-      "eval_steps_per_second": 0.17,
-      "step": 1792
-    },
-    {
-      "epoch": 32.0,
-      "learning_rate": 3.904685622747297e-06,
-      "loss": 0.569,
-      "step": 1800
-    },
-    {
-      "epoch": 32.01,
-      "learning_rate": 3.864637565078094e-06,
-      "loss": 0.5574,
-      "step": 1810
-    },
-    {
-      "epoch": 32.01,
-      "learning_rate": 3.8245895074088915e-06,
-      "loss": 0.5999,
-      "step": 1820
-    },
-    {
-      "epoch": 32.01,
-      "learning_rate": 3.7845414497396883e-06,
-      "loss": 0.6882,
-      "step": 1830
-    },
-    {
-      "epoch": 32.02,
-      "learning_rate": 3.744493392070485e-06,
-      "loss": 0.7812,
-      "step": 1840
-    },
-    {
-      "epoch": 32.02,
-      "eval_accuracy": 0.5990783410138248,
-      "eval_loss": 1.036067247390747,
-      "eval_runtime": 165.0007,
-      "eval_samples_per_second": 1.315,
-      "eval_steps_per_second": 0.17,
-      "step": 1848
-    },
-    {
-      "epoch": 33.0,
-      "learning_rate": 3.7044453344012823e-06,
-      "loss": 0.6552,
-      "step": 1850
-    },
-    {
-      "epoch": 33.0,
-      "learning_rate": 3.664397276732079e-06,
-      "loss": 0.724,
-      "step": 1860
-    },
-    {
-      "epoch": 33.01,
-      "learning_rate": 3.6243492190628758e-06,
-      "loss": 0.6444,
-      "step": 1870
-    },
-    {
-      "epoch": 33.01,
-      "learning_rate": 3.584301161393673e-06,
-      "loss": 0.5467,
-      "step": 1880
-    },
-    {
-      "epoch": 33.02,
-      "learning_rate": 3.5442531037244697e-06,
-      "loss": 0.4304,
-      "step": 1890
-    },
-    {
-      "epoch": 33.02,
-      "learning_rate": 3.504205046055267e-06,
-      "loss": 0.5975,
-      "step": 1900
-    },
-    {
-      "epoch": 33.02,
-      "eval_accuracy": 0.5253456221198156,
-      "eval_loss": 1.2160247564315796,
-      "eval_runtime": 164.1864,
-      "eval_samples_per_second": 1.322,
-      "eval_steps_per_second": 0.171,
-      "step": 1904
-    },
-    {
-      "epoch": 34.0,
-      "learning_rate": 3.4641569883860637e-06,
-      "loss": 0.5616,
-      "step": 1910
-    },
-    {
-      "epoch": 34.01,
-      "learning_rate": 3.424108930716861e-06,
-      "loss": 0.5305,
-      "step": 1920
-    },
-    {
-      "epoch": 34.01,
-      "learning_rate": 3.3840608730476576e-06,
-      "loss": 0.5134,
-      "step": 1930
-    },
-    {
-      "epoch": 34.01,
-      "learning_rate": 3.3440128153784544e-06,
-      "loss": 0.5199,
-      "step": 1940
-    },
-    {
-      "epoch": 34.02,
-      "learning_rate": 3.3039647577092516e-06,
-      "loss": 0.5365,
-      "step": 1950
-    },
-    {
-      "epoch": 34.02,
-      "learning_rate": 3.2639167000400484e-06,
-      "loss": 0.6439,
-      "step": 1960
-    },
-    {
-      "epoch": 34.02,
-      "eval_accuracy": 0.576036866359447,
-      "eval_loss": 1.0630296468734741,
-      "eval_runtime": 164.642,
-      "eval_samples_per_second": 1.318,
-      "eval_steps_per_second": 0.17,
-      "step": 1960
-    },
-    {
-      "epoch": 35.0,
-      "learning_rate": 3.2238686423708456e-06,
-      "loss": 0.4724,
-      "step": 1970
-    },
-    {
-      "epoch": 35.01,
-      "learning_rate": 3.1838205847016423e-06,
-      "loss": 0.5804,
-      "step": 1980
-    },
-    {
-      "epoch": 35.01,
-      "learning_rate": 3.143772527032439e-06,
-      "loss": 0.607,
-      "step": 1990
-    },
-    {
-      "epoch": 35.01,
-      "learning_rate": 3.1037244693632363e-06,
-      "loss": 0.64,
-      "step": 2000
-    },
-    {
-      "epoch": 35.02,
-      "learning_rate": 3.063676411694033e-06,
-      "loss": 0.597,
-      "step": 2010
-    },
-    {
-      "epoch": 35.02,
-      "eval_accuracy": 0.6082949308755761,
-      "eval_loss": 1.0567601919174194,
-      "eval_runtime": 163.9076,
-      "eval_samples_per_second": 1.324,
-      "eval_steps_per_second": 0.171,
-      "step": 2016
-    },
-    {
-      "epoch": 36.0,
-      "learning_rate": 3.0236283540248302e-06,
-      "loss": 0.5915,
-      "step": 2020
-    },
-    {
-      "epoch": 36.01,
-      "learning_rate": 2.983580296355627e-06,
-      "loss": 0.6774,
-      "step": 2030
-    },
-    {
-      "epoch": 36.01,
-      "learning_rate": 2.943532238686424e-06,
-      "loss": 0.4855,
-      "step": 2040
-    },
-    {
-      "epoch": 36.01,
-      "learning_rate": 2.903484181017221e-06,
-      "loss": 0.6448,
-      "step": 2050
-    },
-    {
-      "epoch": 36.02,
-      "learning_rate": 2.8634361233480177e-06,
-      "loss": 0.6921,
-      "step": 2060
-    },
-    {
-      "epoch": 36.02,
-      "learning_rate": 2.823388065678815e-06,
-      "loss": 0.5641,
-      "step": 2070
-    },
-    {
-      "epoch": 36.02,
-      "eval_accuracy": 0.6682027649769585,
-      "eval_loss": 0.950232982635498,
-      "eval_runtime": 163.9254,
-      "eval_samples_per_second": 1.324,
-      "eval_steps_per_second": 0.171,
-      "step": 2072
-    },
-    {
-      "epoch": 37.0,
-      "learning_rate": 2.7833400080096117e-06,
-      "loss": 0.4284,
-      "step": 2080
-    },
-    {
-      "epoch": 37.01,
-      "learning_rate": 2.743291950340409e-06,
-      "loss": 0.4562,
-      "step": 2090
-    },
-    {
-      "epoch": 37.01,
-      "learning_rate": 2.7032438926712056e-06,
-      "loss": 0.3981,
-      "step": 2100
-    },
-    {
-      "epoch": 37.01,
-      "learning_rate": 2.663195835002003e-06,
-      "loss": 0.675,
-      "step": 2110
-    },
-    {
-      "epoch": 37.02,
-      "learning_rate": 2.6231477773327996e-06,
-      "loss": 0.4992,
-      "step": 2120
-    },
-    {
-      "epoch": 37.02,
-      "eval_accuracy": 0.5898617511520737,
-      "eval_loss": 1.0643178224563599,
-      "eval_runtime": 163.7021,
-      "eval_samples_per_second": 1.326,
-      "eval_steps_per_second": 0.171,
-      "step": 2128
-    },
-    {
-      "epoch": 38.0,
-      "learning_rate": 2.5830997196635963e-06,
-      "loss": 0.5807,
-      "step": 2130
-    },
-    {
-      "epoch": 38.0,
-      "learning_rate": 2.5430516619943935e-06,
-      "loss": 0.5385,
-      "step": 2140
-    },
-    {
-      "epoch": 38.01,
-      "learning_rate": 2.5030036043251903e-06,
-      "loss": 0.5467,
-      "step": 2150
-    },
-    {
-      "epoch": 38.01,
-      "learning_rate": 2.4629555466559875e-06,
-      "loss": 0.5206,
-      "step": 2160
-    },
-    {
-      "epoch": 38.02,
-      "learning_rate": 2.4229074889867843e-06,
-      "loss": 0.648,
-      "step": 2170
-    },
-    {
-      "epoch": 38.02,
-      "learning_rate": 2.3828594313175814e-06,
-      "loss": 0.4136,
-      "step": 2180
-    },
-    {
-      "epoch": 38.02,
-      "eval_accuracy": 0.6082949308755761,
-      "eval_loss": 0.9271302223205566,
-      "eval_runtime": 163.5799,
-      "eval_samples_per_second": 1.327,
-      "eval_steps_per_second": 0.171,
-      "step": 2184
-    },
-    {
-      "epoch": 39.0,
-      "learning_rate": 2.342811373648378e-06,
-      "loss": 0.6367,
-      "step": 2190
-    },
-    {
-      "epoch": 39.01,
-      "learning_rate": 2.302763315979175e-06,
-      "loss": 0.4054,
-      "step": 2200
-    },
-    {
-      "epoch": 39.01,
-      "learning_rate": 2.262715258309972e-06,
-      "loss": 0.6031,
-      "step": 2210
-    },
-    {
-      "epoch": 39.01,
-      "learning_rate": 2.222667200640769e-06,
-      "loss": 0.6353,
-      "step": 2220
-    },
-    {
-      "epoch": 39.02,
-      "learning_rate": 2.182619142971566e-06,
-      "loss": 0.7539,
-      "step": 2230
-    },
-    {
-      "epoch": 39.02,
-      "learning_rate": 2.142571085302363e-06,
-      "loss": 0.5194,
-      "step": 2240
-    },
-    {
-      "epoch": 39.02,
-      "eval_accuracy": 0.576036866359447,
-      "eval_loss": 1.0672531127929688,
-      "eval_runtime": 166.7593,
-      "eval_samples_per_second": 1.301,
-      "eval_steps_per_second": 0.168,
-      "step": 2240
-    },
-    {
-      "epoch": 40.0,
-      "learning_rate": 2.1025230276331596e-06,
-      "loss": 0.5378,
-      "step": 2250
-    },
-    {
-      "epoch": 40.01,
-      "learning_rate": 2.062474969963957e-06,
-      "loss": 0.548,
-      "step": 2260
-    },
-    {
-      "epoch": 40.01,
-      "learning_rate": 2.0224269122947536e-06,
-      "loss": 0.4956,
-      "step": 2270
-    },
-    {
-      "epoch": 40.01,
-      "learning_rate": 1.982378854625551e-06,
-      "loss": 0.5747,
-      "step": 2280
-    },
-    {
-      "epoch": 40.02,
-      "learning_rate": 1.942330796956348e-06,
-      "loss": 0.7653,
-      "step": 2290
-    },
-    {
-      "epoch": 40.02,
-      "eval_accuracy": 0.6267281105990783,
-      "eval_loss": 0.9899203181266785,
-      "eval_runtime": 163.3473,
-      "eval_samples_per_second": 1.328,
-      "eval_steps_per_second": 0.171,
-      "step": 2296
-    },
-    {
-      "epoch": 41.0,
-      "learning_rate": 1.902282739287145e-06,
-      "loss": 0.6948,
-      "step": 2300
-    },
-    {
-      "epoch": 41.01,
-      "learning_rate": 1.8622346816179417e-06,
-      "loss": 0.4703,
-      "step": 2310
-    },
-    {
-      "epoch": 41.01,
-      "learning_rate": 1.8221866239487387e-06,
-      "loss": 0.5782,
-      "step": 2320
-    },
-    {
-      "epoch": 41.01,
-      "learning_rate": 1.7821385662795357e-06,
-      "loss": 0.4866,
-      "step": 2330
-    },
-    {
-      "epoch": 41.02,
-      "learning_rate": 1.7420905086103327e-06,
-      "loss": 0.5591,
-      "step": 2340
-    },
-    {
-      "epoch": 41.02,
-      "learning_rate": 1.7020424509411296e-06,
-      "loss": 0.6247,
-      "step": 2350
-    },
-    {
-      "epoch": 41.02,
-      "eval_accuracy": 0.631336405529954,
-      "eval_loss": 1.0216394662857056,
-      "eval_runtime": 164.836,
-      "eval_samples_per_second": 1.316,
-      "eval_steps_per_second": 0.17,
-      "step": 2352
-    },
-    {
-      "epoch": 42.0,
-      "learning_rate": 1.6619943932719266e-06,
-      "loss": 0.4712,
-      "step": 2360
-    },
-    {
-      "epoch": 42.01,
-      "learning_rate": 1.6219463356027234e-06,
-      "loss": 0.4287,
-      "step": 2370
-    },
-    {
-      "epoch": 42.01,
-      "learning_rate": 1.5818982779335204e-06,
-      "loss": 0.5673,
-      "step": 2380
-    },
-    {
-      "epoch": 42.01,
-      "learning_rate": 1.5418502202643173e-06,
-      "loss": 0.4914,
-      "step": 2390
-    },
-    {
-      "epoch": 42.02,
-      "learning_rate": 1.5018021625951143e-06,
-      "loss": 0.6901,
-      "step": 2400
-    },
-    {
-      "epoch": 42.02,
-      "eval_accuracy": 0.5576036866359447,
-      "eval_loss": 1.1336352825164795,
-      "eval_runtime": 163.2895,
-      "eval_samples_per_second": 1.329,
-      "eval_steps_per_second": 0.171,
-      "step": 2408
-    },
-    {
-      "epoch": 43.0,
-      "learning_rate": 1.4617541049259113e-06,
-      "loss": 0.4876,
-      "step": 2410
-    },
-    {
-      "epoch": 43.0,
-      "learning_rate": 1.4217060472567083e-06,
-      "loss": 0.4494,
-      "step": 2420
-    },
-    {
-      "epoch": 43.01,
-      "learning_rate": 1.3816579895875052e-06,
-      "loss": 0.5611,
-      "step": 2430
-    },
-    {
-      "epoch": 43.01,
-      "learning_rate": 1.341609931918302e-06,
-      "loss": 0.7779,
-      "step": 2440
-    },
-    {
-      "epoch": 43.02,
-      "learning_rate": 1.301561874249099e-06,
-      "loss": 0.4958,
-      "step": 2450
-    },
-    {
-      "epoch": 43.02,
-      "learning_rate": 1.261513816579896e-06,
-      "loss": 0.4731,
-      "step": 2460
-    },
-    {
-      "epoch": 43.02,
-      "eval_accuracy": 0.5944700460829493,
-      "eval_loss": 1.1247893571853638,
-      "eval_runtime": 169.0052,
-      "eval_samples_per_second": 1.284,
-      "eval_steps_per_second": 0.166,
-      "step": 2464
-    },
-    {
-      "epoch": 44.0,
-      "learning_rate": 1.221465758910693e-06,
-      "loss": 0.3636,
-      "step": 2470
-    },
-    {
-      "epoch": 44.01,
-      "learning_rate": 1.18141770124149e-06,
-      "loss": 0.4359,
-      "step": 2480
-    },
-    {
-      "epoch": 44.01,
-      "learning_rate": 1.1413696435722869e-06,
-      "loss": 0.5232,
-      "step": 2490
-    },
-    {
-      "epoch": 44.01,
-      "learning_rate": 1.1013215859030837e-06,
-      "loss": 0.3694,
-      "step": 2500
-    },
-    {
-      "epoch": 44.02,
-      "learning_rate": 1.0612735282338806e-06,
-      "loss": 0.6064,
-      "step": 2510
-    },
-    {
-      "epoch": 44.02,
-      "learning_rate": 1.0212254705646776e-06,
-      "loss": 0.4623,
-      "step": 2520
-    },
-    {
-      "epoch": 44.02,
-      "eval_accuracy": 0.6359447004608295,
-      "eval_loss": 1.010471224784851,
-      "eval_runtime": 162.4614,
-      "eval_samples_per_second": 1.336,
-      "eval_steps_per_second": 0.172,
-      "step": 2520
-    },
-    {
-      "epoch": 45.0,
-      "learning_rate": 9.811774128954748e-07,
-      "loss": 0.4463,
-      "step": 2530
-    },
-    {
-      "epoch": 45.01,
-      "learning_rate": 9.411293552262717e-07,
-      "loss": 0.5154,
-      "step": 2540
-    },
-    {
-      "epoch": 45.01,
-      "learning_rate": 9.010812975570686e-07,
-      "loss": 0.5859,
-      "step": 2550
-    },
-    {
-      "epoch": 45.01,
-      "learning_rate": 8.610332398878655e-07,
-      "loss": 0.6416,
-      "step": 2560
-    },
-    {
-      "epoch": 45.02,
-      "learning_rate": 8.209851822186625e-07,
-      "loss": 0.5236,
-      "step": 2570
-    },
-    {
-      "epoch": 45.02,
-      "eval_accuracy": 0.5622119815668203,
-      "eval_loss": 1.2222412824630737,
-      "eval_runtime": 166.434,
-      "eval_samples_per_second": 1.304,
-      "eval_steps_per_second": 0.168,
-      "step": 2576
-    },
-    {
-      "epoch": 46.0,
-      "learning_rate": 7.809371245494595e-07,
-      "loss": 0.4967,
-      "step": 2580
-    },
-    {
-      "epoch": 46.01,
-      "learning_rate": 7.408890668802563e-07,
-      "loss": 0.4661,
-      "step": 2590
-    },
-    {
-      "epoch": 46.01,
-      "learning_rate": 7.008410092110533e-07,
-      "loss": 0.6802,
-      "step": 2600
-    },
-    {
-      "epoch": 46.01,
-      "learning_rate": 6.607929515418503e-07,
-      "loss": 0.3791,
-      "step": 2610
-    },
-    {
-      "epoch": 46.02,
-      "learning_rate": 6.207448938726472e-07,
-      "loss": 0.688,
-      "step": 2620
-    },
-    {
-      "epoch": 46.02,
-      "learning_rate": 5.806968362034441e-07,
-      "loss": 0.4865,
-      "step": 2630
-    },
-    {
-      "epoch": 46.02,
-      "eval_accuracy": 0.5668202764976958,
-      "eval_loss": 1.1389591693878174,
-      "eval_runtime": 164.5648,
-      "eval_samples_per_second": 1.319,
-      "eval_steps_per_second": 0.17,
-      "step": 2632
-    },
-    {
-      "epoch": 47.0,
-      "learning_rate": 5.406487785342411e-07,
-      "loss": 0.5445,
-      "step": 2640
-    },
-    {
-      "epoch": 47.01,
-      "learning_rate": 5.006007208650381e-07,
-      "loss": 0.445,
-      "step": 2650
-    },
-    {
-      "epoch": 47.01,
-      "learning_rate": 4.605526631958351e-07,
-      "loss": 0.4754,
-      "step": 2660
-    },
-    {
-      "epoch": 47.01,
-      "learning_rate": 4.20504605526632e-07,
-      "loss": 0.5643,
-      "step": 2670
-    },
-    {
-      "epoch": 47.02,
-      "learning_rate": 3.80456547857429e-07,
-      "loss": 0.6178,
-      "step": 2680
-    },
-    {
-      "epoch": 47.02,
-      "eval_accuracy": 0.5806451612903226,
-      "eval_loss": 1.118094801902771,
-      "eval_runtime": 163.1432,
-      "eval_samples_per_second": 1.33,
-      "eval_steps_per_second": 0.172,
-      "step": 2688
-    },
-    {
-      "epoch": 48.0,
-      "learning_rate": 3.404084901882259e-07,
-      "loss": 0.4701,
-      "step": 2690
-    },
-    {
-      "epoch": 48.0,
-      "learning_rate": 3.0036043251902283e-07,
-      "loss": 0.3917,
-      "step": 2700
-    },
-    {
-      "epoch": 48.01,
-      "learning_rate": 2.603123748498198e-07,
-      "loss": 0.5181,
-      "step": 2710
-    },
-    {
-      "epoch": 48.01,
-      "learning_rate": 2.2026431718061676e-07,
-      "loss": 0.5627,
-      "step": 2720
-    },
-    {
-      "epoch": 48.02,
-      "learning_rate": 1.802162595114137e-07,
-      "loss": 0.449,
-      "step": 2730
-    },
-    {
-      "epoch": 48.02,
-      "learning_rate": 1.4016820184221066e-07,
-      "loss": 0.6068,
-      "step": 2740
-    },
-    {
-      "epoch": 48.02,
-      "eval_accuracy": 0.6036866359447005,
-      "eval_loss": 1.0918972492218018,
-      "eval_runtime": 166.7399,
-      "eval_samples_per_second": 1.301,
-      "eval_steps_per_second": 0.168,
-      "step": 2744
-    },
-    {
-      "epoch": 49.0,
-      "learning_rate": 1.0012014417300762e-07,
-      "loss": 0.4975,
-      "step": 2750
-    },
-    {
-      "epoch": 49.01,
-      "learning_rate": 6.007208650380457e-08,
-      "loss": 0.4256,
-      "step": 2760
-    },
-    {
-      "epoch": 49.01,
-      "learning_rate": 2.0024028834601525e-08,
-      "loss": 0.4835,
-      "step": 2770
-    },
-    {
-      "epoch": 49.01,
-      "eval_accuracy": 0.5852534562211982,
-      "eval_loss": 1.0932610034942627,
-      "eval_runtime": 164.2231,
-      "eval_samples_per_second": 1.321,
-      "eval_steps_per_second": 0.17,
-      "step": 2775
-    },
-    {
-      "epoch": 49.01,
-      "step": 2775,
-      "total_flos": 2.7602315185605673e+19,
-      "train_loss": 0.8102743840432381,
-      "train_runtime": 28793.9081,
-      "train_samples_per_second": 0.771,
-      "train_steps_per_second": 0.096
-    },
-    {
-      "epoch": 49.01,
-      "eval_accuracy": 0.6805555555555556,
-      "eval_loss": 0.7703173160552979,
-      "eval_runtime": 171.6337,
-      "eval_samples_per_second": 1.258,
-      "eval_steps_per_second": 0.157,
-      "step": 2775
-    },
-    {
-      "epoch": 49.01,
-      "eval_accuracy": 0.6805555555555556,
-      "eval_loss": 0.7703171968460083,
-      "eval_runtime": 162.7205,
-      "eval_samples_per_second": 1.327,
-      "eval_steps_per_second": 0.166,
-      "step": 2775
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2775,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
-  "total_flos": 2.7602315185605673e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7419354838709677,
   "best_model_checkpoint": "videomae-base-finetuned-subset-check10/checkpoint-896",
+  "epoch": 19.041441441441442,
   "eval_steps": 500,
+  "global_step": 1110,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01,
+      "learning_rate": 9.00900900900901e-07,
+      "loss": 1.6695,
       "step": 10
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.801801801801802e-06,
+      "loss": 1.6945,
       "step": 20
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 2.702702702702703e-06,
+      "loss": 1.6484,
       "step": 30
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 3.603603603603604e-06,
+      "loss": 1.6661,
       "step": 40
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 4.504504504504505e-06,
+      "loss": 1.6348,
       "step": 50
     },
     {
+      "epoch": 0.05,
+      "eval_accuracy": 0.511520737327189,
+      "eval_loss": 1.544296383857727,
+      "eval_runtime": 169.659,
+      "eval_samples_per_second": 1.279,
       "eval_steps_per_second": 0.165,
       "step": 56
     },
     {
       "epoch": 1.0,
+      "learning_rate": 5.405405405405406e-06,
+      "loss": 1.5964,
       "step": 60
     },
     {
       "epoch": 1.01,
+      "learning_rate": 6.3063063063063065e-06,
+      "loss": 1.6218,
       "step": 70
     },
     {
+      "epoch": 1.02,
+      "learning_rate": 7.207207207207208e-06,
+      "loss": 1.6405,
       "step": 80
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 8.108108108108109e-06,
+      "loss": 1.6203,
       "step": 90
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 9.00900900900901e-06,
+      "loss": 1.6147,
       "step": 100
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 9.90990990990991e-06,
+      "loss": 1.6015,
       "step": 110
     },
     {
+      "epoch": 1.05,
+      "eval_accuracy": 0.4792626728110599,
+      "eval_loss": 1.529832124710083,
+      "eval_runtime": 163.2712,
+      "eval_samples_per_second": 1.329,
+      "eval_steps_per_second": 0.171,
       "step": 112
     },
     {
+      "epoch": 2.01,
+      "learning_rate": 9.90990990990991e-06,
+      "loss": 1.5899,
       "step": 120
     },
     {
+      "epoch": 2.02,
+      "learning_rate": 9.80980980980981e-06,
+      "loss": 1.6095,
       "step": 130
     },
     {
+      "epoch": 2.03,
+      "learning_rate": 9.70970970970971e-06,
+      "loss": 1.613,
       "step": 140
     },
     {
+      "epoch": 2.03,
+      "learning_rate": 9.60960960960961e-06,
+      "loss": 1.5829,
       "step": 150
     },
     {
+      "epoch": 2.04,
+      "learning_rate": 9.50950950950951e-06,
+      "loss": 1.5683,
       "step": 160
     },
     {
+      "epoch": 2.05,
+      "eval_accuracy": 0.3271889400921659,
+      "eval_loss": 1.5288971662521362,
+      "eval_runtime": 162.8221,
+      "eval_samples_per_second": 1.333,
+      "eval_steps_per_second": 0.172,
       "step": 168
     },
     {
       "epoch": 3.0,
+      "learning_rate": 9.40940940940941e-06,
+      "loss": 1.5958,
       "step": 170
     },
     {
+      "epoch": 3.01,
+      "learning_rate": 9.30930930930931e-06,
+      "loss": 1.5487,
       "step": 180
     },
     {
+      "epoch": 3.02,
+      "learning_rate": 9.20920920920921e-06,
+      "loss": 1.5407,
       "step": 190
     },
     {
+      "epoch": 3.03,
+      "learning_rate": 9.10910910910911e-06,
+      "loss": 1.5352,
       "step": 200
     },
     {
+      "epoch": 3.04,
+      "learning_rate": 9.00900900900901e-06,
+      "loss": 1.4537,
       "step": 210
     },
     {
+      "epoch": 3.05,
+      "learning_rate": 8.90890890890891e-06,
+      "loss": 1.512,
       "step": 220
     },
     {
+      "epoch": 3.05,
+      "eval_accuracy": 0.631336405529954,
+      "eval_loss": 1.302922248840332,
+      "eval_runtime": 162.9796,
+      "eval_samples_per_second": 1.331,
+      "eval_steps_per_second": 0.172,
       "step": 224
     },
     {
+      "epoch": 4.01,
+      "learning_rate": 8.80880880880881e-06,
+      "loss": 1.4831,
       "step": 230
     },
     {
       "epoch": 4.01,
+      "learning_rate": 8.70870870870871e-06,
+      "loss": 1.3654,
       "step": 240
     },
     {
+      "epoch": 4.02,
+      "learning_rate": 8.60860860860861e-06,
+      "loss": 1.3439,
       "step": 250
     },
     {
+      "epoch": 4.03,
+      "learning_rate": 8.50850850850851e-06,
+      "loss": 1.2985,
       "step": 260
     },
     {
+      "epoch": 4.04,
+      "learning_rate": 8.408408408408409e-06,
+      "loss": 1.2316,
       "step": 270
     },
     {
+      "epoch": 4.05,
+      "learning_rate": 8.308308308308309e-06,
+      "loss": 1.2309,
       "step": 280
     },
     {
+      "epoch": 4.05,
+      "eval_accuracy": 0.5207373271889401,
+      "eval_loss": 1.21807861328125,
+      "eval_runtime": 162.5548,
+      "eval_samples_per_second": 1.335,
+      "eval_steps_per_second": 0.172,
       "step": 280
     },
     {
+      "epoch": 5.01,
+      "learning_rate": 8.208208208208209e-06,
+      "loss": 1.3147,
       "step": 290
     },
     {
+      "epoch": 5.02,
+      "learning_rate": 8.108108108108109e-06,
+      "loss": 1.2977,
       "step": 300
     },
     {
+      "epoch": 5.03,
+      "learning_rate": 8.00800800800801e-06,
+      "loss": 1.2603,
       "step": 310
     },
     {
+      "epoch": 5.04,
+      "learning_rate": 7.90790790790791e-06,
+      "loss": 1.1538,
       "step": 320
     },
     {
+      "epoch": 5.05,
+      "learning_rate": 7.807807807807808e-06,
+      "loss": 1.1949,
       "step": 330
     },
     {
+      "epoch": 5.05,
+      "eval_accuracy": 0.6589861751152074,
+      "eval_loss": 1.0441014766693115,
+      "eval_runtime": 161.7405,
+      "eval_samples_per_second": 1.342,
+      "eval_steps_per_second": 0.173,
       "step": 336
     },
     {
       "epoch": 6.0,
+      "learning_rate": 7.707707707707708e-06,
+      "loss": 1.2623,
       "step": 340
     },
     {
       "epoch": 6.01,
+      "learning_rate": 7.607607607607608e-06,
+      "loss": 1.1608,
       "step": 350
     },
     {
+      "epoch": 6.02,
+      "learning_rate": 7.507507507507507e-06,
+      "loss": 1.1801,
       "step": 360
     },
     {
+      "epoch": 6.03,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 1.0873,
       "step": 370
     },
     {
+      "epoch": 6.04,
+      "learning_rate": 7.307307307307308e-06,
+      "loss": 1.0739,
       "step": 380
     },
     {
+      "epoch": 6.05,
+      "learning_rate": 7.207207207207208e-06,
+      "loss": 1.0987,
       "step": 390
     },
     {
+      "epoch": 6.05,
+      "eval_accuracy": 0.6129032258064516,
+      "eval_loss": 1.004054307937622,
+      "eval_runtime": 161.9536,
+      "eval_samples_per_second": 1.34,
+      "eval_steps_per_second": 0.173,
       "step": 392
     },
     {
+      "epoch": 7.01,
+      "learning_rate": 7.107107107107107e-06,
+      "loss": 1.142,
       "step": 400
     },
     {
+      "epoch": 7.02,
+      "learning_rate": 7.007007007007007e-06,
+      "loss": 1.0111,
       "step": 410
     },
     {
+      "epoch": 7.03,
+      "learning_rate": 6.906906906906907e-06,
+      "loss": 1.0603,
       "step": 420
     },
     {
+      "epoch": 7.03,
+      "learning_rate": 6.8068068068068075e-06,
+      "loss": 1.185,
       "step": 430
     },
     {
+      "epoch": 7.04,
+      "learning_rate": 6.706706706706707e-06,
+      "loss": 1.148,
       "step": 440
     },
     {
+      "epoch": 7.05,
+      "eval_accuracy": 0.6175115207373272,
+      "eval_loss": 1.0258899927139282,
+      "eval_runtime": 163.4987,
+      "eval_samples_per_second": 1.327,
+      "eval_steps_per_second": 0.171,
       "step": 448
     },
     {
       "epoch": 8.0,
+      "learning_rate": 6.606606606606607e-06,
+      "loss": 1.1361,
       "step": 450
     },
     {
+      "epoch": 8.01,
+      "learning_rate": 6.506506506506507e-06,
+      "loss": 0.9612,
       "step": 460
     },
     {
+      "epoch": 8.02,
+      "learning_rate": 6.406406406406407e-06,
+      "loss": 1.0823,
       "step": 470
     },
     {
+      "epoch": 8.03,
+      "learning_rate": 6.3063063063063065e-06,
+      "loss": 1.21,
       "step": 480
     },
     {
+      "epoch": 8.04,
+      "learning_rate": 6.206206206206207e-06,
+      "loss": 0.9171,
       "step": 490
     },
     {
+      "epoch": 8.05,
+      "learning_rate": 6.106106106106107e-06,
+      "loss": 0.9958,
       "step": 500
     },
     {
+      "epoch": 8.05,
+      "eval_accuracy": 0.6728110599078341,
+      "eval_loss": 0.9507986307144165,
+      "eval_runtime": 161.9408,
+      "eval_samples_per_second": 1.34,
+      "eval_steps_per_second": 0.173,
       "step": 504
     },
     {
+      "epoch": 9.01,
+      "learning_rate": 6.006006006006007e-06,
+      "loss": 0.9985,
       "step": 510
     },
     {
       "epoch": 9.01,
+      "learning_rate": 5.905905905905906e-06,
+      "loss": 1.1594,
       "step": 520
     },
     {
+      "epoch": 9.02,
+      "learning_rate": 5.805805805805806e-06,
+      "loss": 1.0034,
       "step": 530
     },
     {
+      "epoch": 9.03,
+      "learning_rate": 5.7057057057057065e-06,
+      "loss": 0.9761,
       "step": 540
     },
     {
+      "epoch": 9.04,
+      "learning_rate": 5.605605605605607e-06,
+      "loss": 0.8942,
       "step": 550
     },
     {
+      "epoch": 9.05,
+      "learning_rate": 5.505505505505506e-06,
+      "loss": 1.0856,
       "step": 560
     },
     {
+      "epoch": 9.05,
+      "eval_accuracy": 0.5944700460829493,
+      "eval_loss": 1.0041232109069824,
+      "eval_runtime": 162.8782,
+      "eval_samples_per_second": 1.332,
+      "eval_steps_per_second": 0.172,
       "step": 560
     },
     {
+      "epoch": 10.01,
+      "learning_rate": 5.405405405405406e-06,
+      "loss": 0.972,
       "step": 570
     },
     {
+      "epoch": 10.02,
+      "learning_rate": 5.305305305305306e-06,
+      "loss": 1.0112,
       "step": 580
     },
     {
+      "epoch": 10.03,
+      "learning_rate": 5.205205205205206e-06,
+      "loss": 0.9801,
       "step": 590
     },
     {
+      "epoch": 10.04,
+      "learning_rate": 5.105105105105106e-06,
+      "loss": 0.8615,
       "step": 600
     },
     {
+      "epoch": 10.05,
+      "learning_rate": 5.005005005005006e-06,
+      "loss": 0.8809,
       "step": 610
     },
     {
+      "epoch": 10.05,
+      "eval_accuracy": 0.6359447004608295,
+      "eval_loss": 0.9638356566429138,
+      "eval_runtime": 161.5478,
+      "eval_samples_per_second": 1.343,
+      "eval_steps_per_second": 0.173,
       "step": 616
     },
     {
       "epoch": 11.0,
+      "learning_rate": 4.904904904904905e-06,
+      "loss": 0.8911,
       "step": 620
     },
     {
       "epoch": 11.01,
+      "learning_rate": 4.804804804804805e-06,
+      "loss": 0.8545,
       "step": 630
     },
     {
+      "epoch": 11.02,
+      "learning_rate": 4.704704704704705e-06,
+      "loss": 0.8887,
       "step": 640
     },
     {
+      "epoch": 11.03,
+      "learning_rate": 4.604604604604605e-06,
+      "loss": 0.8687,
       "step": 650
     },
     {
+      "epoch": 11.04,
+      "learning_rate": 4.504504504504505e-06,
+      "loss": 0.8959,
       "step": 660
     },
     {
+      "epoch": 11.05,
+      "learning_rate": 4.404404404404405e-06,
+      "loss": 0.9185,
       "step": 670
     },
     {
+      "epoch": 11.05,
+      "eval_accuracy": 0.6820276497695853,
+      "eval_loss": 0.9248147010803223,
+      "eval_runtime": 161.5706,
+      "eval_samples_per_second": 1.343,
+      "eval_steps_per_second": 0.173,
       "step": 672
     },
     {
+      "epoch": 12.01,
+      "learning_rate": 4.304304304304305e-06,
+      "loss": 0.9707,
       "step": 680
     },
     {
+      "epoch": 12.02,
+      "learning_rate": 4.204204204204204e-06,
+      "loss": 0.7837,
       "step": 690
     },
     {
+      "epoch": 12.03,
+      "learning_rate": 4.1041041041041045e-06,
+      "loss": 0.9325,
       "step": 700
     },
     {
+      "epoch": 12.03,
+      "learning_rate": 4.004004004004005e-06,
+      "loss": 0.8425,
       "step": 710
     },
     {
+      "epoch": 12.04,
+      "learning_rate": 3.903903903903904e-06,
+      "loss": 0.9136,
       "step": 720
     },
     {
+      "epoch": 12.05,
+      "eval_accuracy": 0.6728110599078341,
+      "eval_loss": 1.0136313438415527,
+      "eval_runtime": 162.7529,
+      "eval_samples_per_second": 1.333,
+      "eval_steps_per_second": 0.172,
       "step": 728
     },
     {
       "epoch": 13.0,
+      "learning_rate": 3.803803803803804e-06,
+      "loss": 0.9652,
       "step": 730
     },
     {
+      "epoch": 13.01,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.8421,
       "step": 740
     },
     {
+      "epoch": 13.02,
+      "learning_rate": 3.603603603603604e-06,
+      "loss": 0.9862,
       "step": 750
     },
     {
+      "epoch": 13.03,
+      "learning_rate": 3.5035035035035036e-06,
+      "loss": 0.9638,
       "step": 760
     },
     {
+      "epoch": 13.04,
+      "learning_rate": 3.4034034034034037e-06,
+      "loss": 0.8826,
       "step": 770
     },
     {
+      "epoch": 13.05,
+      "learning_rate": 3.3033033033033035e-06,
+      "loss": 0.8537,
       "step": 780
     },
     {
+      "epoch": 13.05,
+      "eval_accuracy": 0.7188940092165899,
+      "eval_loss": 0.8515194058418274,
+      "eval_runtime": 164.1283,
       "eval_samples_per_second": 1.322,
       "eval_steps_per_second": 0.171,
       "step": 784
     },
     {
+      "epoch": 14.01,
+      "learning_rate": 3.2032032032032036e-06,
+      "loss": 0.9158,
       "step": 790
     },
     {
       "epoch": 14.01,
+      "learning_rate": 3.1031031031031033e-06,
+      "loss": 0.8456,
       "step": 800
     },
     {
+      "epoch": 14.02,
+      "learning_rate": 3.0030030030030034e-06,
+      "loss": 0.8235,
       "step": 810
     },
     {
+      "epoch": 14.03,
+      "learning_rate": 2.902902902902903e-06,
+      "loss": 0.7452,
       "step": 820
     },
     {
+      "epoch": 14.04,
+      "learning_rate": 2.8028028028028033e-06,
+      "loss": 0.8251,
       "step": 830
     },
     {
+      "epoch": 14.05,
+      "learning_rate": 2.702702702702703e-06,
+      "loss": 0.7921,
       "step": 840
     },
     {
+      "epoch": 14.05,
+      "eval_accuracy": 0.7004608294930875,
+      "eval_loss": 0.8222436308860779,
+      "eval_runtime": 161.8478,
+      "eval_samples_per_second": 1.341,
+      "eval_steps_per_second": 0.173,
       "step": 840
     },
     {
+      "epoch": 15.01,
+      "learning_rate": 2.602602602602603e-06,
+      "loss": 0.9356,
       "step": 850
     },
     {
+      "epoch": 15.02,
+      "learning_rate": 2.502502502502503e-06,
+      "loss": 0.8556,
       "step": 860
     },
     {
+      "epoch": 15.03,
+      "learning_rate": 2.4024024024024026e-06,
+      "loss": 0.7946,
       "step": 870
     },
     {
+      "epoch": 15.04,
+      "learning_rate": 2.3023023023023023e-06,
+      "loss": 0.7411,
       "step": 880
     },
     {
+      "epoch": 15.05,
+      "learning_rate": 2.2022022022022024e-06,
+      "loss": 0.7313,
       "step": 890
     },
     {
+      "epoch": 15.05,
+      "eval_accuracy": 0.7419354838709677,
+      "eval_loss": 0.7512253522872925,
+      "eval_runtime": 161.7824,
+      "eval_samples_per_second": 1.341,
+      "eval_steps_per_second": 0.173,
       "step": 896
     },
     {
       "epoch": 16.0,
+      "learning_rate": 2.102102102102102e-06,
+      "loss": 0.8169,
       "step": 900
     },
     {
       "epoch": 16.01,
+      "learning_rate": 2.0020020020020023e-06,
+      "loss": 0.7236,
       "step": 910
     },
     {
+      "epoch": 16.02,
+      "learning_rate": 1.901901901901902e-06,
+      "loss": 0.8335,
       "step": 920
     },
     {
+      "epoch": 16.03,
+      "learning_rate": 1.801801801801802e-06,
+      "loss": 0.8666,
       "step": 930
     },
     {
+      "epoch": 16.04,
+      "learning_rate": 1.7017017017017019e-06,
+      "loss": 0.8429,
       "step": 940
     },
     {
+      "epoch": 16.05,
+      "learning_rate": 1.6016016016016018e-06,
+      "loss": 0.5998,
       "step": 950
     },
     {
+      "epoch": 16.05,
+      "eval_accuracy": 0.6129032258064516,
+      "eval_loss": 0.9409515857696533,
+      "eval_runtime": 161.5869,
+      "eval_samples_per_second": 1.343,
+      "eval_steps_per_second": 0.173,
       "step": 952
     },
     {
+      "epoch": 17.01,
+      "learning_rate": 1.5015015015015017e-06,
+      "loss": 0.8206,
       "step": 960
     },
     {
+      "epoch": 17.02,
+      "learning_rate": 1.4014014014014016e-06,
+      "loss": 0.7474,
       "step": 970
     },
     {
+      "epoch": 17.03,
+      "learning_rate": 1.3013013013013016e-06,
+      "loss": 0.7778,
       "step": 980
     },
     {
+      "epoch": 17.03,
+      "learning_rate": 1.2012012012012013e-06,
+      "loss": 0.7003,
       "step": 990
     },
     {
+      "epoch": 17.04,
+      "learning_rate": 1.1011011011011012e-06,
+      "loss": 0.8093,
       "step": 1000
     },
     {
+      "epoch": 17.05,
+      "eval_accuracy": 0.7050691244239631,
+      "eval_loss": 0.8144727349281311,
+      "eval_runtime": 161.5502,
+      "eval_samples_per_second": 1.343,
+      "eval_steps_per_second": 0.173,
       "step": 1008
     },
     {
       "epoch": 18.0,
+      "learning_rate": 1.0010010010010011e-06,
+      "loss": 0.8227,
       "step": 1010
     },
     {
+      "epoch": 18.01,
+      "learning_rate": 9.00900900900901e-07,
+      "loss": 0.8949,
       "step": 1020
     },
     {
+      "epoch": 18.02,
+      "learning_rate": 8.008008008008009e-07,
+      "loss": 0.6573,
       "step": 1030
     },
     {
+      "epoch": 18.03,
+      "learning_rate": 7.007007007007008e-07,
+      "loss": 0.8836,
       "step": 1040
     },
     {
+      "epoch": 18.04,
+      "learning_rate": 6.006006006006006e-07,
+      "loss": 0.7605,
       "step": 1050
     },
     {
+      "epoch": 18.05,
+      "learning_rate": 5.005005005005006e-07,
+      "loss": 0.604,
       "step": 1060
     },
     {
+      "epoch": 18.05,
+      "eval_accuracy": 0.6820276497695853,
+      "eval_loss": 0.9013708233833313,
+      "eval_runtime": 162.7504,
+      "eval_samples_per_second": 1.333,
+      "eval_steps_per_second": 0.172,
       "step": 1064
     },
     {
+      "epoch": 19.01,
+      "learning_rate": 4.0040040040040045e-07,
+      "loss": 0.7955,
       "step": 1070
     },
     {
       "epoch": 19.01,
+      "learning_rate": 3.003003003003003e-07,
+      "loss": 0.9212,
       "step": 1080
     },
     {
+      "epoch": 19.02,
+      "learning_rate": 2.0020020020020022e-07,
+      "loss": 0.9198,
       "step": 1090
     },
     {
+      "epoch": 19.03,
+      "learning_rate": 1.0010010010010011e-07,
+      "loss": 0.5744,
       "step": 1100
     },
     {
+      "epoch": 19.04,
+      "learning_rate": 0.0,
+      "loss": 0.7066,
       "step": 1110
     },
     {
+      "epoch": 19.04,
+      "eval_accuracy": 0.6682027649769585,
+      "eval_loss": 0.893532931804657,
+      "eval_runtime": 167.9329,
+      "eval_samples_per_second": 1.292,
+      "eval_steps_per_second": 0.167,
+      "step": 1110
     },
     {
+      "epoch": 19.04,
+      "step": 1110,
+      "total_flos": 1.1041673732998595e+19,
+      "train_loss": 1.0829452497465117,
+      "train_runtime": 11433.1912,
+      "train_samples_per_second": 0.777,
+      "train_steps_per_second": 0.097
     },
     {
+      "epoch": 19.04,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_loss": 0.6926783919334412,
+      "eval_runtime": 164.6443,
       "eval_samples_per_second": 1.312,
       "eval_steps_per_second": 0.164,
+      "step": 1110
     },
     {
+      "epoch": 19.04,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_loss": 0.6926783919334412,
+      "eval_runtime": 163.2396,
+      "eval_samples_per_second": 1.323,
+      "eval_steps_per_second": 0.165,
+      "step": 1110
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1110,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
+  "total_flos": 1.1041673732998595e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null