🍻 cheers

Browse files

Files changed (5) hide show

README.md +3 -2
all_results.json +10 -10
eval_results.json +5 -5
train_results.json +6 -6
trainer_state.json +2379 -471

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: microsoft/swin-tiny-patch4-window7-224
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -15,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # swin-tiny-patch4-window7-224-finetuned_ASL_Isolated_Swin_dataset2
-This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0605
 - Accuracy: 0.9846
 ## Model description

 license: apache-2.0
 base_model: microsoft/swin-tiny-patch4-window7-224
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # swin-tiny-patch4-window7-224-finetuned_ASL_Isolated_Swin_dataset2
+This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on the ASL_Isolated_Swin_dataset dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0439
 - Accuracy: 0.9846
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 20.0,
     "eval_accuracy": 0.9846153846153847,
-    "eval_loss": 0.07838542014360428,
-    "eval_runtime": 1.8983,
-    "eval_samples_per_second": 136.961,
-    "eval_steps_per_second": 17.384,
-    "total_flos": 7.30261234607063e+17,
-    "train_loss": 0.5343924296938855,
-    "train_runtime": 403.7255,
-    "train_samples_per_second": 72.723,
-    "train_steps_per_second": 4.558
 }

 {
+    "epoch": 50.0,
     "eval_accuracy": 0.9846153846153847,
+    "eval_loss": 0.04389451816678047,
+    "eval_runtime": 1.9107,
+    "eval_samples_per_second": 136.079,
+    "eval_steps_per_second": 17.272,
+    "total_flos": 1.8256530865176576e+18,
+    "train_loss": 0.3511605499069328,
+    "train_runtime": 996.2222,
+    "train_samples_per_second": 73.678,
+    "train_steps_per_second": 4.617
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 20.0,
     "eval_accuracy": 0.9846153846153847,
-    "eval_loss": 0.07838542014360428,
-    "eval_runtime": 1.8983,
-    "eval_samples_per_second": 136.961,
-    "eval_steps_per_second": 17.384
 }

 {
+    "epoch": 50.0,
     "eval_accuracy": 0.9846153846153847,
+    "eval_loss": 0.04389451816678047,
+    "eval_runtime": 1.9107,
+    "eval_samples_per_second": 136.079,
+    "eval_steps_per_second": 17.272
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 20.0,
-    "total_flos": 7.30261234607063e+17,
-    "train_loss": 0.5343924296938855,
-    "train_runtime": 403.7255,
-    "train_samples_per_second": 72.723,
-    "train_steps_per_second": 4.558
 }

 {
+    "epoch": 50.0,
+    "total_flos": 1.8256530865176576e+18,
+    "train_loss": 0.3511605499069328,
+    "train_runtime": 996.2222,
+    "train_samples_per_second": 73.678,
+    "train_steps_per_second": 4.617
 }

trainer_state.json CHANGED Viewed

@@ -1,1294 +1,3202 @@
 {
   "best_metric": 0.9846153846153847,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned_ASL_Isolated_Swin_dataset2/checkpoint-1600",
-  "epoch": 20.0,
   "eval_steps": 100,
-  "global_step": 1840,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.11,
-      "learning_rate": 0.00019902173913043477,
-      "loss": 3.3338,
       "step": 10
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.00019804347826086956,
-      "loss": 3.1809,
       "step": 20
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.00019695652173913044,
-      "loss": 3.0792,
       "step": 30
     },
     {
       "epoch": 0.43,
-      "learning_rate": 0.0001958695652173913,
-      "loss": 2.7788,
       "step": 40
     },
     {
       "epoch": 0.54,
-      "learning_rate": 0.00019478260869565218,
-      "loss": 2.4649,
       "step": 50
     },
     {
       "epoch": 0.65,
-      "learning_rate": 0.00019369565217391307,
-      "loss": 2.2866,
       "step": 60
     },
     {
       "epoch": 0.76,
-      "learning_rate": 0.00019260869565217392,
-      "loss": 2.1811,
       "step": 70
     },
     {
       "epoch": 0.87,
-      "learning_rate": 0.00019152173913043478,
-      "loss": 1.8357,
       "step": 80
     },
     {
       "epoch": 0.98,
-      "learning_rate": 0.00019043478260869566,
-      "loss": 1.8457,
       "step": 90
     },
     {
       "epoch": 1.09,
-      "learning_rate": 0.00018945652173913045,
-      "loss": 1.7296,
       "step": 100
     },
     {
       "epoch": 1.09,
-      "eval_accuracy": 0.6115384615384616,
-      "eval_loss": 1.2288414239883423,
-      "eval_runtime": 2.0363,
-      "eval_samples_per_second": 127.683,
-      "eval_steps_per_second": 16.206,
       "step": 100
     },
     {
       "epoch": 1.2,
-      "learning_rate": 0.0001883695652173913,
-      "loss": 1.4324,
       "step": 110
     },
     {
       "epoch": 1.3,
-      "learning_rate": 0.00018728260869565216,
-      "loss": 1.2437,
       "step": 120
     },
     {
       "epoch": 1.41,
-      "learning_rate": 0.00018619565217391305,
-      "loss": 1.4662,
       "step": 130
     },
     {
       "epoch": 1.52,
-      "learning_rate": 0.00018510869565217393,
-      "loss": 1.3662,
       "step": 140
     },
     {
       "epoch": 1.63,
-      "learning_rate": 0.0001840217391304348,
-      "loss": 1.2175,
       "step": 150
     },
     {
       "epoch": 1.74,
-      "learning_rate": 0.00018293478260869564,
-      "loss": 0.9581,
       "step": 160
     },
     {
       "epoch": 1.85,
-      "learning_rate": 0.00018184782608695655,
-      "loss": 0.9719,
       "step": 170
     },
     {
       "epoch": 1.96,
-      "learning_rate": 0.0001807608695652174,
-      "loss": 1.1808,
       "step": 180
     },
     {
       "epoch": 2.07,
-      "learning_rate": 0.00017967391304347827,
-      "loss": 1.1631,
       "step": 190
     },
     {
       "epoch": 2.17,
-      "learning_rate": 0.00017858695652173912,
-      "loss": 1.0961,
       "step": 200
     },
     {
       "epoch": 2.17,
-      "eval_accuracy": 0.8115384615384615,
-      "eval_loss": 0.6632584929466248,
-      "eval_runtime": 1.8061,
-      "eval_samples_per_second": 143.955,
-      "eval_steps_per_second": 18.271,
       "step": 200
     },
     {
       "epoch": 2.28,
-      "learning_rate": 0.0001775,
-      "loss": 0.8802,
       "step": 210
     },
     {
       "epoch": 2.39,
-      "learning_rate": 0.0001764130434782609,
-      "loss": 0.9565,
       "step": 220
     },
     {
       "epoch": 2.5,
-      "learning_rate": 0.00017532608695652174,
-      "loss": 0.8544,
       "step": 230
     },
     {
       "epoch": 2.61,
-      "learning_rate": 0.00017423913043478263,
-      "loss": 0.9685,
       "step": 240
     },
     {
       "epoch": 2.72,
-      "learning_rate": 0.00017315217391304348,
-      "loss": 0.952,
       "step": 250
     },
     {
       "epoch": 2.83,
-      "learning_rate": 0.00017206521739130434,
-      "loss": 0.908,
       "step": 260
     },
     {
       "epoch": 2.93,
-      "learning_rate": 0.00017097826086956522,
-      "loss": 0.664,
       "step": 270
     },
     {
       "epoch": 3.04,
-      "learning_rate": 0.0001698913043478261,
-      "loss": 0.8025,
       "step": 280
     },
     {
       "epoch": 3.15,
-      "learning_rate": 0.00016880434782608696,
-      "loss": 0.8284,
       "step": 290
     },
     {
       "epoch": 3.26,
-      "learning_rate": 0.00016771739130434782,
-      "loss": 0.5971,
       "step": 300
     },
     {
       "epoch": 3.26,
-      "eval_accuracy": 0.8846153846153846,
-      "eval_loss": 0.2988673150539398,
-      "eval_runtime": 1.8449,
-      "eval_samples_per_second": 140.926,
-      "eval_steps_per_second": 17.887,
       "step": 300
     },
     {
       "epoch": 3.37,
-      "learning_rate": 0.0001666304347826087,
-      "loss": 0.7568,
       "step": 310
     },
     {
       "epoch": 3.48,
-      "learning_rate": 0.00016554347826086958,
-      "loss": 0.8648,
       "step": 320
     },
     {
       "epoch": 3.59,
-      "learning_rate": 0.00016445652173913044,
-      "loss": 0.8262,
       "step": 330
     },
     {
       "epoch": 3.7,
-      "learning_rate": 0.0001633695652173913,
-      "loss": 0.6327,
       "step": 340
     },
     {
       "epoch": 3.8,
-      "learning_rate": 0.00016228260869565218,
-      "loss": 0.6862,
       "step": 350
     },
     {
       "epoch": 3.91,
-      "learning_rate": 0.00016119565217391306,
-      "loss": 0.7705,
       "step": 360
     },
     {
       "epoch": 4.02,
-      "learning_rate": 0.00016010869565217392,
-      "loss": 0.6674,
       "step": 370
     },
     {
       "epoch": 4.13,
-      "learning_rate": 0.00015902173913043478,
-      "loss": 0.7293,
       "step": 380
     },
     {
       "epoch": 4.24,
-      "learning_rate": 0.00015793478260869566,
-      "loss": 0.608,
       "step": 390
     },
     {
       "epoch": 4.35,
-      "learning_rate": 0.00015684782608695654,
-      "loss": 0.5663,
       "step": 400
     },
     {
       "epoch": 4.35,
-      "eval_accuracy": 0.9538461538461539,
-      "eval_loss": 0.2658146917819977,
-      "eval_runtime": 1.8142,
-      "eval_samples_per_second": 143.313,
-      "eval_steps_per_second": 18.19,
       "step": 400
     },
     {
       "epoch": 4.46,
-      "learning_rate": 0.0001557608695652174,
-      "loss": 0.5467,
       "step": 410
     },
     {
       "epoch": 4.57,
-      "learning_rate": 0.00015467391304347828,
-      "loss": 0.515,
       "step": 420
     },
     {
       "epoch": 4.67,
-      "learning_rate": 0.00015358695652173914,
-      "loss": 0.5092,
       "step": 430
     },
     {
       "epoch": 4.78,
-      "learning_rate": 0.0001525,
-      "loss": 0.6435,
       "step": 440
     },
     {
       "epoch": 4.89,
-      "learning_rate": 0.00015141304347826088,
-      "loss": 0.7066,
       "step": 450
     },
     {
       "epoch": 5.0,
-      "learning_rate": 0.00015032608695652176,
-      "loss": 0.6563,
       "step": 460
     },
     {
       "epoch": 5.11,
-      "learning_rate": 0.00014923913043478262,
-      "loss": 0.5409,
       "step": 470
     },
     {
       "epoch": 5.22,
-      "learning_rate": 0.00014815217391304347,
-      "loss": 0.5893,
       "step": 480
     },
     {
       "epoch": 5.33,
-      "learning_rate": 0.00014706521739130436,
-      "loss": 0.5211,
       "step": 490
     },
     {
       "epoch": 5.43,
-      "learning_rate": 0.00014597826086956524,
-      "loss": 0.6431,
       "step": 500
     },
     {
       "epoch": 5.43,
-      "eval_accuracy": 0.8846153846153846,
-      "eval_loss": 0.3099747896194458,
-      "eval_runtime": 1.8526,
-      "eval_samples_per_second": 140.344,
-      "eval_steps_per_second": 17.813,
       "step": 500
     },
     {
       "epoch": 5.54,
-      "learning_rate": 0.0001448913043478261,
-      "loss": 0.5512,
       "step": 510
     },
     {
       "epoch": 5.65,
-      "learning_rate": 0.00014380434782608695,
-      "loss": 0.6073,
       "step": 520
     },
     {
       "epoch": 5.76,
-      "learning_rate": 0.00014271739130434783,
-      "loss": 0.5843,
       "step": 530
     },
     {
       "epoch": 5.87,
-      "learning_rate": 0.00014163043478260872,
-      "loss": 0.637,
       "step": 540
     },
     {
       "epoch": 5.98,
-      "learning_rate": 0.00014054347826086957,
-      "loss": 0.4641,
       "step": 550
     },
     {
       "epoch": 6.09,
-      "learning_rate": 0.00013945652173913043,
-      "loss": 0.6379,
       "step": 560
     },
     {
       "epoch": 6.2,
-      "learning_rate": 0.0001383695652173913,
-      "loss": 0.5705,
       "step": 570
     },
     {
       "epoch": 6.3,
-      "learning_rate": 0.00013728260869565217,
-      "loss": 0.3212,
       "step": 580
     },
     {
       "epoch": 6.41,
-      "learning_rate": 0.00013619565217391305,
-      "loss": 0.5207,
       "step": 590
     },
     {
       "epoch": 6.52,
-      "learning_rate": 0.00013510869565217394,
-      "loss": 0.49,
       "step": 600
     },
     {
       "epoch": 6.52,
-      "eval_accuracy": 0.9192307692307692,
-      "eval_loss": 0.24573320150375366,
-      "eval_runtime": 2.0074,
-      "eval_samples_per_second": 129.523,
-      "eval_steps_per_second": 16.439,
       "step": 600
     },
     {
       "epoch": 6.63,
-      "learning_rate": 0.0001340217391304348,
-      "loss": 0.452,
       "step": 610
     },
     {
       "epoch": 6.74,
-      "learning_rate": 0.00013293478260869565,
-      "loss": 0.3719,
       "step": 620
     },
     {
       "epoch": 6.85,
-      "learning_rate": 0.00013184782608695653,
-      "loss": 0.4104,
       "step": 630
     },
     {
       "epoch": 6.96,
-      "learning_rate": 0.00013076086956521741,
-      "loss": 0.5211,
       "step": 640
     },
     {
       "epoch": 7.07,
-      "learning_rate": 0.00012967391304347827,
-      "loss": 0.4204,
       "step": 650
     },
     {
       "epoch": 7.17,
-      "learning_rate": 0.00012858695652173913,
-      "loss": 0.312,
       "step": 660
     },
     {
       "epoch": 7.28,
-      "learning_rate": 0.0001275,
-      "loss": 0.4948,
       "step": 670
     },
     {
       "epoch": 7.39,
-      "learning_rate": 0.0001264130434782609,
-      "loss": 0.4796,
       "step": 680
     },
     {
       "epoch": 7.5,
-      "learning_rate": 0.00012532608695652175,
-      "loss": 0.5536,
       "step": 690
     },
     {
       "epoch": 7.61,
-      "learning_rate": 0.0001242391304347826,
-      "loss": 0.4639,
       "step": 700
     },
     {
       "epoch": 7.61,
-      "eval_accuracy": 0.9153846153846154,
-      "eval_loss": 0.295836478471756,
-      "eval_runtime": 1.8268,
-      "eval_samples_per_second": 142.325,
-      "eval_steps_per_second": 18.064,
       "step": 700
     },
     {
       "epoch": 7.72,
-      "learning_rate": 0.0001231521739130435,
-      "loss": 0.4924,
       "step": 710
     },
     {
       "epoch": 7.83,
-      "learning_rate": 0.00012206521739130434,
-      "loss": 0.3013,
       "step": 720
     },
     {
       "epoch": 7.93,
-      "learning_rate": 0.00012097826086956523,
-      "loss": 0.4905,
       "step": 730
     },
     {
       "epoch": 8.04,
-      "learning_rate": 0.0001198913043478261,
-      "loss": 0.3835,
       "step": 740
     },
     {
       "epoch": 8.15,
-      "learning_rate": 0.00011880434782608695,
-      "loss": 0.3558,
       "step": 750
     },
     {
       "epoch": 8.26,
-      "learning_rate": 0.00011771739130434782,
-      "loss": 0.5588,
       "step": 760
     },
     {
       "epoch": 8.37,
-      "learning_rate": 0.0001166304347826087,
-      "loss": 0.3189,
       "step": 770
     },
     {
       "epoch": 8.48,
-      "learning_rate": 0.00011554347826086958,
-      "loss": 0.3049,
       "step": 780
     },
     {
       "epoch": 8.59,
-      "learning_rate": 0.00011445652173913045,
-      "loss": 0.4394,
       "step": 790
     },
     {
       "epoch": 8.7,
-      "learning_rate": 0.0001133695652173913,
-      "loss": 0.2436,
       "step": 800
     },
     {
       "epoch": 8.7,
-      "eval_accuracy": 0.9192307692307692,
-      "eval_loss": 0.2146582454442978,
-      "eval_runtime": 1.8308,
-      "eval_samples_per_second": 142.012,
-      "eval_steps_per_second": 18.025,
       "step": 800
     },
     {
       "epoch": 8.8,
-      "learning_rate": 0.00011228260869565217,
-      "loss": 0.3024,
       "step": 810
     },
     {
       "epoch": 8.91,
-      "learning_rate": 0.00011119565217391305,
-      "loss": 0.3009,
       "step": 820
     },
     {
       "epoch": 9.02,
-      "learning_rate": 0.00011010869565217392,
-      "loss": 0.3867,
       "step": 830
     },
     {
       "epoch": 9.13,
-      "learning_rate": 0.00010902173913043478,
-      "loss": 0.3032,
       "step": 840
     },
     {
       "epoch": 9.24,
-      "learning_rate": 0.00010793478260869565,
-      "loss": 0.3227,
       "step": 850
     },
     {
       "epoch": 9.35,
-      "learning_rate": 0.00010684782608695653,
-      "loss": 0.2126,
       "step": 860
     },
     {
       "epoch": 9.46,
-      "learning_rate": 0.0001057608695652174,
-      "loss": 0.2606,
       "step": 870
     },
     {
       "epoch": 9.57,
-      "learning_rate": 0.00010467391304347827,
-      "loss": 0.4299,
       "step": 880
     },
     {
       "epoch": 9.67,
-      "learning_rate": 0.00010358695652173913,
-      "loss": 0.5039,
       "step": 890
     },
     {
       "epoch": 9.78,
-      "learning_rate": 0.0001025,
-      "loss": 0.2652,
       "step": 900
     },
     {
       "epoch": 9.78,
-      "eval_accuracy": 0.9615384615384616,
-      "eval_loss": 0.18220607936382294,
-      "eval_runtime": 1.8325,
-      "eval_samples_per_second": 141.881,
-      "eval_steps_per_second": 18.008,
       "step": 900
     },
     {
       "epoch": 9.89,
-      "learning_rate": 0.00010141304347826088,
-      "loss": 0.2374,
       "step": 910
     },
     {
       "epoch": 10.0,
-      "learning_rate": 0.00010032608695652175,
-      "loss": 0.3522,
       "step": 920
     },
     {
       "epoch": 10.11,
-      "learning_rate": 9.923913043478261e-05,
-      "loss": 0.2455,
       "step": 930
     },
     {
       "epoch": 10.22,
-      "learning_rate": 9.815217391304349e-05,
-      "loss": 0.2028,
       "step": 940
     },
     {
       "epoch": 10.33,
-      "learning_rate": 9.706521739130435e-05,
-      "loss": 0.4767,
       "step": 950
     },
     {
       "epoch": 10.43,
-      "learning_rate": 9.597826086956522e-05,
-      "loss": 0.2277,
       "step": 960
     },
     {
       "epoch": 10.54,
-      "learning_rate": 9.48913043478261e-05,
-      "loss": 0.3051,
       "step": 970
     },
     {
       "epoch": 10.65,
-      "learning_rate": 9.380434782608696e-05,
-      "loss": 0.1665,
       "step": 980
     },
     {
       "epoch": 10.76,
-      "learning_rate": 9.271739130434784e-05,
-      "loss": 0.3633,
       "step": 990
     },
     {
       "epoch": 10.87,
-      "learning_rate": 9.16304347826087e-05,
-      "loss": 0.2346,
       "step": 1000
     },
     {
       "epoch": 10.87,
-      "eval_accuracy": 0.9384615384615385,
-      "eval_loss": 0.27161160111427307,
-      "eval_runtime": 1.9489,
-      "eval_samples_per_second": 133.405,
-      "eval_steps_per_second": 16.932,
       "step": 1000
     },
     {
       "epoch": 10.98,
-      "learning_rate": 9.054347826086958e-05,
-      "loss": 0.3591,
       "step": 1010
     },
     {
       "epoch": 11.09,
-      "learning_rate": 8.945652173913043e-05,
-      "loss": 0.1646,
       "step": 1020
     },
     {
       "epoch": 11.2,
-      "learning_rate": 8.83695652173913e-05,
-      "loss": 0.2254,
       "step": 1030
     },
     {
       "epoch": 11.3,
-      "learning_rate": 8.728260869565217e-05,
-      "loss": 0.2712,
       "step": 1040
     },
     {
       "epoch": 11.41,
-      "learning_rate": 8.619565217391304e-05,
-      "loss": 0.3244,
       "step": 1050
     },
     {
       "epoch": 11.52,
-      "learning_rate": 8.510869565217393e-05,
-      "loss": 0.5431,
       "step": 1060
     },
     {
       "epoch": 11.63,
-      "learning_rate": 8.402173913043478e-05,
-      "loss": 0.3306,
       "step": 1070
     },
     {
       "epoch": 11.74,
-      "learning_rate": 8.293478260869567e-05,
-      "loss": 0.2765,
       "step": 1080
     },
     {
       "epoch": 11.85,
-      "learning_rate": 8.184782608695652e-05,
-      "loss": 0.1797,
       "step": 1090
     },
     {
       "epoch": 11.96,
-      "learning_rate": 8.076086956521739e-05,
-      "loss": 0.3326,
       "step": 1100
     },
     {
       "epoch": 11.96,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.09300269931554794,
-      "eval_runtime": 1.8336,
-      "eval_samples_per_second": 141.797,
-      "eval_steps_per_second": 17.997,
       "step": 1100
     },
     {
       "epoch": 12.07,
-      "learning_rate": 7.967391304347826e-05,
-      "loss": 0.2801,
       "step": 1110
     },
     {
       "epoch": 12.17,
-      "learning_rate": 7.858695652173913e-05,
-      "loss": 0.1963,
       "step": 1120
     },
     {
       "epoch": 12.28,
-      "learning_rate": 7.75e-05,
-      "loss": 0.3328,
       "step": 1130
     },
     {
       "epoch": 12.39,
-      "learning_rate": 7.641304347826087e-05,
-      "loss": 0.2452,
       "step": 1140
     },
     {
       "epoch": 12.5,
-      "learning_rate": 7.532608695652175e-05,
-      "loss": 0.3876,
       "step": 1150
     },
     {
       "epoch": 12.61,
-      "learning_rate": 7.423913043478261e-05,
-      "loss": 0.3523,
       "step": 1160
     },
     {
       "epoch": 12.72,
-      "learning_rate": 7.315217391304349e-05,
-      "loss": 0.2854,
       "step": 1170
     },
     {
       "epoch": 12.83,
-      "learning_rate": 7.206521739130435e-05,
-      "loss": 0.3044,
       "step": 1180
     },
     {
       "epoch": 12.93,
-      "learning_rate": 7.097826086956522e-05,
-      "loss": 0.2829,
       "step": 1190
     },
     {
       "epoch": 13.04,
-      "learning_rate": 6.989130434782609e-05,
-      "loss": 0.4255,
       "step": 1200
     },
     {
       "epoch": 13.04,
-      "eval_accuracy": 0.95,
-      "eval_loss": 0.15650111436843872,
-      "eval_runtime": 2.2463,
-      "eval_samples_per_second": 115.745,
-      "eval_steps_per_second": 14.691,
       "step": 1200
     },
     {
       "epoch": 13.15,
-      "learning_rate": 6.880434782608696e-05,
-      "loss": 0.4168,
       "step": 1210
     },
     {
       "epoch": 13.26,
-      "learning_rate": 6.771739130434783e-05,
-      "loss": 0.1493,
       "step": 1220
     },
     {
       "epoch": 13.37,
-      "learning_rate": 6.66304347826087e-05,
-      "loss": 0.3662,
       "step": 1230
     },
     {
       "epoch": 13.48,
-      "learning_rate": 6.554347826086957e-05,
-      "loss": 0.2641,
       "step": 1240
     },
     {
       "epoch": 13.59,
-      "learning_rate": 6.445652173913044e-05,
-      "loss": 0.1724,
       "step": 1250
     },
     {
       "epoch": 13.7,
-      "learning_rate": 6.33695652173913e-05,
-      "loss": 0.2753,
       "step": 1260
     },
     {
       "epoch": 13.8,
-      "learning_rate": 6.228260869565218e-05,
-      "loss": 0.3445,
       "step": 1270
     },
     {
       "epoch": 13.91,
-      "learning_rate": 6.119565217391304e-05,
-      "loss": 0.1927,
       "step": 1280
     },
     {
       "epoch": 14.02,
-      "learning_rate": 6.010869565217392e-05,
-      "loss": 0.2233,
       "step": 1290
     },
     {
       "epoch": 14.13,
-      "learning_rate": 5.9021739130434784e-05,
-      "loss": 0.3486,
       "step": 1300
     },
     {
       "epoch": 14.13,
-      "eval_accuracy": 0.9807692307692307,
-      "eval_loss": 0.08807563781738281,
-      "eval_runtime": 1.846,
-      "eval_samples_per_second": 140.846,
-      "eval_steps_per_second": 17.877,
       "step": 1300
     },
     {
       "epoch": 14.24,
-      "learning_rate": 5.793478260869566e-05,
-      "loss": 0.2479,
       "step": 1310
     },
     {
       "epoch": 14.35,
-      "learning_rate": 5.6847826086956524e-05,
-      "loss": 0.3112,
       "step": 1320
     },
     {
       "epoch": 14.46,
-      "learning_rate": 5.5760869565217386e-05,
-      "loss": 0.2721,
       "step": 1330
     },
     {
       "epoch": 14.57,
-      "learning_rate": 5.467391304347826e-05,
-      "loss": 0.145,
       "step": 1340
     },
     {
       "epoch": 14.67,
-      "learning_rate": 5.3586956521739126e-05,
-      "loss": 0.323,
       "step": 1350
     },
     {
       "epoch": 14.78,
-      "learning_rate": 5.25e-05,
-      "loss": 0.2676,
       "step": 1360
     },
     {
       "epoch": 14.89,
-      "learning_rate": 5.141304347826087e-05,
-      "loss": 0.2826,
       "step": 1370
     },
     {
       "epoch": 15.0,
-      "learning_rate": 5.032608695652175e-05,
-      "loss": 0.219,
       "step": 1380
     },
     {
       "epoch": 15.11,
-      "learning_rate": 4.923913043478261e-05,
-      "loss": 0.176,
       "step": 1390
     },
     {
       "epoch": 15.22,
-      "learning_rate": 4.815217391304348e-05,
-      "loss": 0.2801,
       "step": 1400
     },
     {
       "epoch": 15.22,
-      "eval_accuracy": 0.9576923076923077,
-      "eval_loss": 0.10833106189966202,
-      "eval_runtime": 2.5226,
-      "eval_samples_per_second": 103.068,
-      "eval_steps_per_second": 13.082,
       "step": 1400
     },
     {
       "epoch": 15.33,
-      "learning_rate": 4.706521739130435e-05,
-      "loss": 0.1336,
       "step": 1410
     },
     {
       "epoch": 15.43,
-      "learning_rate": 4.597826086956522e-05,
-      "loss": 0.1522,
       "step": 1420
     },
     {
       "epoch": 15.54,
-      "learning_rate": 4.489130434782609e-05,
-      "loss": 0.2929,
       "step": 1430
     },
     {
       "epoch": 15.65,
-      "learning_rate": 4.380434782608696e-05,
-      "loss": 0.2111,
       "step": 1440
     },
     {
       "epoch": 15.76,
-      "learning_rate": 4.271739130434783e-05,
-      "loss": 0.3614,
       "step": 1450
     },
     {
       "epoch": 15.87,
-      "learning_rate": 4.16304347826087e-05,
-      "loss": 0.3736,
       "step": 1460
     },
     {
       "epoch": 15.98,
-      "learning_rate": 4.054347826086957e-05,
-      "loss": 0.2388,
       "step": 1470
     },
     {
       "epoch": 16.09,
-      "learning_rate": 3.945652173913044e-05,
-      "loss": 0.212,
       "step": 1480
     },
     {
       "epoch": 16.2,
-      "learning_rate": 3.836956521739131e-05,
-      "loss": 0.1982,
       "step": 1490
     },
     {
       "epoch": 16.3,
-      "learning_rate": 3.728260869565218e-05,
-      "loss": 0.164,
       "step": 1500
     },
     {
       "epoch": 16.3,
-      "eval_accuracy": 0.9730769230769231,
-      "eval_loss": 0.09941530972719193,
-      "eval_runtime": 1.8161,
-      "eval_samples_per_second": 143.163,
-      "eval_steps_per_second": 18.171,
       "step": 1500
     },
     {
       "epoch": 16.41,
-      "learning_rate": 3.619565217391305e-05,
-      "loss": 0.1593,
       "step": 1510
     },
     {
       "epoch": 16.52,
-      "learning_rate": 3.510869565217392e-05,
-      "loss": 0.127,
       "step": 1520
     },
     {
       "epoch": 16.63,
-      "learning_rate": 3.402173913043478e-05,
-      "loss": 0.2097,
       "step": 1530
     },
     {
       "epoch": 16.74,
-      "learning_rate": 3.293478260869565e-05,
-      "loss": 0.2947,
       "step": 1540
     },
     {
       "epoch": 16.85,
-      "learning_rate": 3.1847826086956526e-05,
-      "loss": 0.2027,
       "step": 1550
     },
     {
       "epoch": 16.96,
-      "learning_rate": 3.0760869565217395e-05,
-      "loss": 0.29,
       "step": 1560
     },
     {
       "epoch": 17.07,
-      "learning_rate": 2.967391304347826e-05,
-      "loss": 0.1293,
       "step": 1570
     },
     {
       "epoch": 17.17,
-      "learning_rate": 2.8586956521739135e-05,
-      "loss": 0.2181,
       "step": 1580
     },
     {
       "epoch": 17.28,
-      "learning_rate": 2.7500000000000004e-05,
-      "loss": 0.2735,
       "step": 1590
     },
     {
       "epoch": 17.39,
-      "learning_rate": 2.6413043478260867e-05,
-      "loss": 0.2892,
       "step": 1600
     },
     {
       "epoch": 17.39,
-      "eval_accuracy": 0.9846153846153847,
-      "eval_loss": 0.07838542014360428,
-      "eval_runtime": 2.5953,
-      "eval_samples_per_second": 100.181,
-      "eval_steps_per_second": 12.715,
       "step": 1600
     },
     {
       "epoch": 17.5,
-      "learning_rate": 2.5326086956521737e-05,
-      "loss": 0.1602,
       "step": 1610
     },
     {
       "epoch": 17.61,
-      "learning_rate": 2.423913043478261e-05,
-      "loss": 0.1958,
       "step": 1620
     },
     {
       "epoch": 17.72,
-      "learning_rate": 2.315217391304348e-05,
-      "loss": 0.323,
       "step": 1630
     },
     {
       "epoch": 17.83,
-      "learning_rate": 2.206521739130435e-05,
-      "loss": 0.1871,
       "step": 1640
     },
     {
       "epoch": 17.93,
-      "learning_rate": 2.097826086956522e-05,
-      "loss": 0.2017,
       "step": 1650
     },
     {
       "epoch": 18.04,
-      "learning_rate": 1.9891304347826085e-05,
-      "loss": 0.1395,
       "step": 1660
     },
     {
       "epoch": 18.15,
-      "learning_rate": 1.8804347826086958e-05,
-      "loss": 0.217,
       "step": 1670
     },
     {
       "epoch": 18.26,
-      "learning_rate": 1.7717391304347828e-05,
-      "loss": 0.1622,
       "step": 1680
     },
     {
       "epoch": 18.37,
-      "learning_rate": 1.6630434782608698e-05,
-      "loss": 0.2306,
       "step": 1690
     },
     {
       "epoch": 18.48,
-      "learning_rate": 1.5543478260869564e-05,
-      "loss": 0.1033,
       "step": 1700
     },
     {
       "epoch": 18.48,
-      "eval_accuracy": 0.9807692307692307,
-      "eval_loss": 0.09326102584600449,
-      "eval_runtime": 1.8301,
-      "eval_samples_per_second": 142.071,
-      "eval_steps_per_second": 18.032,
       "step": 1700
     },
     {
       "epoch": 18.59,
-      "learning_rate": 1.4456521739130435e-05,
-      "loss": 0.2286,
       "step": 1710
     },
     {
       "epoch": 18.7,
-      "learning_rate": 1.3369565217391305e-05,
-      "loss": 0.1722,
       "step": 1720
     },
     {
       "epoch": 18.8,
-      "learning_rate": 1.2282608695652175e-05,
-      "loss": 0.1801,
       "step": 1730
     },
     {
       "epoch": 18.91,
-      "learning_rate": 1.1195652173913044e-05,
-      "loss": 0.1624,
       "step": 1740
     },
     {
       "epoch": 19.02,
-      "learning_rate": 1.0108695652173914e-05,
-      "loss": 0.1473,
       "step": 1750
     },
     {
       "epoch": 19.13,
-      "learning_rate": 9.021739130434784e-06,
-      "loss": 0.2875,
       "step": 1760
     },
     {
       "epoch": 19.24,
-      "learning_rate": 7.934782608695653e-06,
-      "loss": 0.193,
       "step": 1770
     },
     {
       "epoch": 19.35,
-      "learning_rate": 6.847826086956521e-06,
-      "loss": 0.1731,
       "step": 1780
     },
     {
       "epoch": 19.46,
-      "learning_rate": 5.760869565217392e-06,
-      "loss": 0.1206,
       "step": 1790
     },
     {
       "epoch": 19.57,
-      "learning_rate": 4.673913043478261e-06,
-      "loss": 0.1612,
       "step": 1800
     },
     {
       "epoch": 19.57,
-      "eval_accuracy": 0.9846153846153847,
-      "eval_loss": 0.0834396481513977,
-      "eval_runtime": 2.6459,
-      "eval_samples_per_second": 98.267,
-      "eval_steps_per_second": 12.472,
       "step": 1800
     },
     {
       "epoch": 19.67,
-      "learning_rate": 3.5869565217391305e-06,
-      "loss": 0.2104,
       "step": 1810
     },
     {
       "epoch": 19.78,
-      "learning_rate": 2.5e-06,
-      "loss": 0.1541,
       "step": 1820
     },
     {
       "epoch": 19.89,
-      "learning_rate": 1.4130434782608697e-06,
-      "loss": 0.1168,
       "step": 1830
     },
     {
       "epoch": 20.0,
-      "learning_rate": 3.260869565217391e-07,
-      "loss": 0.1346,
       "step": 1840
     },
     {
-      "epoch": 20.0,
-      "step": 1840,
-      "total_flos": 7.30261234607063e+17,
-      "train_loss": 0.5343924296938855,
-      "train_runtime": 403.7255,
-      "train_samples_per_second": 72.723,
-      "train_steps_per_second": 4.558
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1840,
-  "num_train_epochs": 20,
   "save_steps": 100,
-  "total_flos": 7.30261234607063e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 0.9846153846153847,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned_ASL_Isolated_Swin_dataset2/checkpoint-4300",
+  "epoch": 50.0,
   "eval_steps": 100,
+  "global_step": 4600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.11,
+      "learning_rate": 0.00019960869565217393,
+      "loss": 3.2965,
       "step": 10
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.00019917391304347828,
+      "loss": 3.1473,
       "step": 20
     },
     {
       "epoch": 0.33,
+      "learning_rate": 0.00019873913043478263,
+      "loss": 3.105,
       "step": 30
     },
     {
       "epoch": 0.43,
+      "learning_rate": 0.00019830434782608695,
+      "loss": 2.6938,
       "step": 40
     },
     {
       "epoch": 0.54,
+      "learning_rate": 0.0001978695652173913,
+      "loss": 2.1946,
       "step": 50
     },
     {
       "epoch": 0.65,
+      "learning_rate": 0.00019743478260869564,
+      "loss": 2.0158,
       "step": 60
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.00019700000000000002,
+      "loss": 1.8826,
       "step": 70
     },
     {
       "epoch": 0.87,
+      "learning_rate": 0.00019656521739130437,
+      "loss": 1.5858,
       "step": 80
     },
     {
       "epoch": 0.98,
+      "learning_rate": 0.0001961739130434783,
+      "loss": 1.7169,
       "step": 90
     },
     {
       "epoch": 1.09,
+      "learning_rate": 0.00019573913043478263,
+      "loss": 1.5603,
       "step": 100
     },
     {
       "epoch": 1.09,
+      "eval_accuracy": 0.6423076923076924,
+      "eval_loss": 1.0931396484375,
+      "eval_runtime": 2.8125,
+      "eval_samples_per_second": 92.445,
+      "eval_steps_per_second": 11.733,
       "step": 100
     },
     {
       "epoch": 1.2,
+      "learning_rate": 0.00019530434782608698,
+      "loss": 1.2246,
       "step": 110
     },
     {
       "epoch": 1.3,
+      "learning_rate": 0.0001948695652173913,
+      "loss": 1.2599,
       "step": 120
     },
     {
       "epoch": 1.41,
+      "learning_rate": 0.00019443478260869565,
+      "loss": 1.144,
       "step": 130
     },
     {
       "epoch": 1.52,
+      "learning_rate": 0.000194,
+      "loss": 1.1205,
       "step": 140
     },
     {
       "epoch": 1.63,
+      "learning_rate": 0.00019356521739130435,
+      "loss": 1.1298,
       "step": 150
     },
     {
       "epoch": 1.74,
+      "learning_rate": 0.0001931304347826087,
+      "loss": 1.0351,
       "step": 160
     },
     {
       "epoch": 1.85,
+      "learning_rate": 0.00019269565217391304,
+      "loss": 1.0621,
       "step": 170
     },
     {
       "epoch": 1.96,
+      "learning_rate": 0.00019226086956521742,
+      "loss": 1.0776,
       "step": 180
     },
     {
       "epoch": 2.07,
+      "learning_rate": 0.00019182608695652177,
+      "loss": 1.0902,
       "step": 190
     },
     {
       "epoch": 2.17,
+      "learning_rate": 0.00019139130434782611,
+      "loss": 0.9055,
       "step": 200
     },
     {
       "epoch": 2.17,
+      "eval_accuracy": 0.8615384615384616,
+      "eval_loss": 0.5069058537483215,
+      "eval_runtime": 2.293,
+      "eval_samples_per_second": 113.388,
+      "eval_steps_per_second": 14.391,
       "step": 200
     },
     {
       "epoch": 2.28,
+      "learning_rate": 0.00019095652173913043,
+      "loss": 0.8321,
       "step": 210
     },
     {
       "epoch": 2.39,
+      "learning_rate": 0.00019052173913043478,
+      "loss": 0.9898,
       "step": 220
     },
     {
       "epoch": 2.5,
+      "learning_rate": 0.00019008695652173913,
+      "loss": 0.7569,
       "step": 230
     },
     {
       "epoch": 2.61,
+      "learning_rate": 0.00018965217391304348,
+      "loss": 0.9883,
       "step": 240
     },
     {
       "epoch": 2.72,
+      "learning_rate": 0.00018921739130434783,
+      "loss": 0.8266,
       "step": 250
     },
     {
       "epoch": 2.83,
+      "learning_rate": 0.00018878260869565217,
+      "loss": 0.7038,
       "step": 260
     },
     {
       "epoch": 2.93,
+      "learning_rate": 0.00018834782608695655,
+      "loss": 0.6173,
       "step": 270
     },
     {
       "epoch": 3.04,
+      "learning_rate": 0.0001879130434782609,
+      "loss": 0.8538,
       "step": 280
     },
     {
       "epoch": 3.15,
+      "learning_rate": 0.00018747826086956524,
+      "loss": 0.6864,
       "step": 290
     },
     {
       "epoch": 3.26,
+      "learning_rate": 0.00018704347826086957,
+      "loss": 0.4254,
       "step": 300
     },
     {
       "epoch": 3.26,
+      "eval_accuracy": 0.8153846153846154,
+      "eval_loss": 0.5633840560913086,
+      "eval_runtime": 1.7896,
+      "eval_samples_per_second": 145.283,
+      "eval_steps_per_second": 18.44,
       "step": 300
     },
     {
       "epoch": 3.37,
+      "learning_rate": 0.00018665217391304349,
+      "loss": 0.8916,
       "step": 310
     },
     {
       "epoch": 3.48,
+      "learning_rate": 0.00018621739130434783,
+      "loss": 0.8267,
       "step": 320
     },
     {
       "epoch": 3.59,
+      "learning_rate": 0.00018578260869565218,
+      "loss": 0.6477,
       "step": 330
     },
     {
       "epoch": 3.7,
+      "learning_rate": 0.00018534782608695653,
+      "loss": 0.6123,
       "step": 340
     },
     {
       "epoch": 3.8,
+      "learning_rate": 0.00018491304347826088,
+      "loss": 0.7279,
       "step": 350
     },
     {
       "epoch": 3.91,
+      "learning_rate": 0.00018447826086956523,
+      "loss": 0.7231,
       "step": 360
     },
     {
       "epoch": 4.02,
+      "learning_rate": 0.00018404347826086957,
+      "loss": 0.6572,
       "step": 370
     },
     {
       "epoch": 4.13,
+      "learning_rate": 0.00018360869565217392,
+      "loss": 0.7716,
       "step": 380
     },
     {
       "epoch": 4.24,
+      "learning_rate": 0.00018317391304347827,
+      "loss": 0.631,
       "step": 390
     },
     {
       "epoch": 4.35,
+      "learning_rate": 0.00018273913043478262,
+      "loss": 0.5814,
       "step": 400
     },
     {
       "epoch": 4.35,
+      "eval_accuracy": 0.9153846153846154,
+      "eval_loss": 0.2882762551307678,
+      "eval_runtime": 2.1616,
+      "eval_samples_per_second": 120.283,
+      "eval_steps_per_second": 15.267,
       "step": 400
     },
     {
       "epoch": 4.46,
+      "learning_rate": 0.00018230434782608696,
+      "loss": 0.6552,
       "step": 410
     },
     {
       "epoch": 4.57,
+      "learning_rate": 0.0001818695652173913,
+      "loss": 0.7173,
       "step": 420
     },
     {
       "epoch": 4.67,
+      "learning_rate": 0.00018143478260869566,
+      "loss": 0.5855,
       "step": 430
     },
     {
       "epoch": 4.78,
+      "learning_rate": 0.000181,
+      "loss": 0.5147,
       "step": 440
     },
     {
       "epoch": 4.89,
+      "learning_rate": 0.00018056521739130436,
+      "loss": 0.611,
       "step": 450
     },
     {
       "epoch": 5.0,
+      "learning_rate": 0.0001801304347826087,
+      "loss": 0.6129,
       "step": 460
     },
     {
       "epoch": 5.11,
+      "learning_rate": 0.00017969565217391305,
+      "loss": 0.626,
       "step": 470
     },
     {
       "epoch": 5.22,
+      "learning_rate": 0.0001792608695652174,
+      "loss": 0.6765,
       "step": 480
     },
     {
       "epoch": 5.33,
+      "learning_rate": 0.00017882608695652175,
+      "loss": 0.6244,
       "step": 490
     },
     {
       "epoch": 5.43,
+      "learning_rate": 0.0001783913043478261,
+      "loss": 0.4953,
       "step": 500
     },
     {
       "epoch": 5.43,
+      "eval_accuracy": 0.9153846153846154,
+      "eval_loss": 0.2710036039352417,
+      "eval_runtime": 1.7274,
+      "eval_samples_per_second": 150.518,
+      "eval_steps_per_second": 19.104,
       "step": 500
     },
     {
       "epoch": 5.54,
+      "learning_rate": 0.00017795652173913044,
+      "loss": 0.6148,
       "step": 510
     },
     {
       "epoch": 5.65,
+      "learning_rate": 0.0001775217391304348,
+      "loss": 0.5308,
       "step": 520
     },
     {
       "epoch": 5.76,
+      "learning_rate": 0.00017708695652173914,
+      "loss": 0.5074,
       "step": 530
     },
     {
       "epoch": 5.87,
+      "learning_rate": 0.0001766521739130435,
+      "loss": 0.562,
       "step": 540
     },
     {
       "epoch": 5.98,
+      "learning_rate": 0.00017621739130434784,
+      "loss": 0.5955,
       "step": 550
     },
     {
       "epoch": 6.09,
+      "learning_rate": 0.00017578260869565218,
+      "loss": 0.6948,
       "step": 560
     },
     {
       "epoch": 6.2,
+      "learning_rate": 0.00017534782608695653,
+      "loss": 0.6886,
       "step": 570
     },
     {
       "epoch": 6.3,
+      "learning_rate": 0.00017491304347826088,
+      "loss": 0.331,
       "step": 580
     },
     {
       "epoch": 6.41,
+      "learning_rate": 0.00017447826086956523,
+      "loss": 0.4959,
       "step": 590
     },
     {
       "epoch": 6.52,
+      "learning_rate": 0.00017404347826086957,
+      "loss": 0.4456,
       "step": 600
     },
     {
       "epoch": 6.52,
+      "eval_accuracy": 0.9346153846153846,
+      "eval_loss": 0.24508638679981232,
+      "eval_runtime": 1.8052,
+      "eval_samples_per_second": 144.025,
+      "eval_steps_per_second": 18.28,
       "step": 600
     },
     {
       "epoch": 6.63,
+      "learning_rate": 0.00017360869565217392,
+      "loss": 0.523,
       "step": 610
     },
     {
       "epoch": 6.74,
+      "learning_rate": 0.00017317391304347827,
+      "loss": 0.3426,
       "step": 620
     },
     {
       "epoch": 6.85,
+      "learning_rate": 0.00017273913043478262,
+      "loss": 0.5624,
       "step": 630
     },
     {
       "epoch": 6.96,
+      "learning_rate": 0.00017230434782608697,
+      "loss": 0.5904,
       "step": 640
     },
     {
       "epoch": 7.07,
+      "learning_rate": 0.00017186956521739131,
+      "loss": 0.5562,
       "step": 650
     },
     {
       "epoch": 7.17,
+      "learning_rate": 0.00017143478260869566,
+      "loss": 0.4099,
       "step": 660
     },
     {
       "epoch": 7.28,
+      "learning_rate": 0.000171,
+      "loss": 0.4719,
       "step": 670
     },
     {
       "epoch": 7.39,
+      "learning_rate": 0.00017056521739130436,
+      "loss": 0.2764,
       "step": 680
     },
     {
       "epoch": 7.5,
+      "learning_rate": 0.0001701304347826087,
+      "loss": 0.5919,
       "step": 690
     },
     {
       "epoch": 7.61,
+      "learning_rate": 0.00016969565217391305,
+      "loss": 0.4524,
       "step": 700
     },
     {
       "epoch": 7.61,
+      "eval_accuracy": 0.9307692307692308,
+      "eval_loss": 0.2624644935131073,
+      "eval_runtime": 1.8314,
+      "eval_samples_per_second": 141.967,
+      "eval_steps_per_second": 18.019,
       "step": 700
     },
     {
       "epoch": 7.72,
+      "learning_rate": 0.0001692608695652174,
+      "loss": 0.5307,
       "step": 710
     },
     {
       "epoch": 7.83,
+      "learning_rate": 0.00016882608695652175,
+      "loss": 0.2834,
       "step": 720
     },
     {
       "epoch": 7.93,
+      "learning_rate": 0.0001683913043478261,
+      "loss": 0.5806,
       "step": 730
     },
     {
       "epoch": 8.04,
+      "learning_rate": 0.00016795652173913044,
+      "loss": 0.5453,
       "step": 740
     },
     {
       "epoch": 8.15,
+      "learning_rate": 0.0001675217391304348,
+      "loss": 0.4557,
       "step": 750
     },
     {
       "epoch": 8.26,
+      "learning_rate": 0.00016708695652173914,
+      "loss": 0.5652,
       "step": 760
     },
     {
       "epoch": 8.37,
+      "learning_rate": 0.0001666521739130435,
+      "loss": 0.3756,
       "step": 770
     },
     {
       "epoch": 8.48,
+      "learning_rate": 0.00016621739130434784,
+      "loss": 0.3881,
       "step": 780
     },
     {
       "epoch": 8.59,
+      "learning_rate": 0.00016578260869565218,
+      "loss": 0.4609,
       "step": 790
     },
     {
       "epoch": 8.7,
+      "learning_rate": 0.00016534782608695653,
+      "loss": 0.3095,
       "step": 800
     },
     {
       "epoch": 8.7,
+      "eval_accuracy": 0.9461538461538461,
+      "eval_loss": 0.23966941237449646,
+      "eval_runtime": 1.7618,
+      "eval_samples_per_second": 147.575,
+      "eval_steps_per_second": 18.731,
       "step": 800
     },
     {
       "epoch": 8.8,
+      "learning_rate": 0.00016491304347826088,
+      "loss": 0.5227,
       "step": 810
     },
     {
       "epoch": 8.91,
+      "learning_rate": 0.00016447826086956523,
+      "loss": 0.3551,
       "step": 820
     },
     {
       "epoch": 9.02,
+      "learning_rate": 0.00016404347826086958,
+      "loss": 0.4476,
       "step": 830
     },
     {
       "epoch": 9.13,
+      "learning_rate": 0.00016360869565217392,
+      "loss": 0.4683,
       "step": 840
     },
     {
       "epoch": 9.24,
+      "learning_rate": 0.00016317391304347827,
+      "loss": 0.4259,
       "step": 850
     },
     {
       "epoch": 9.35,
+      "learning_rate": 0.00016273913043478262,
+      "loss": 0.2351,
       "step": 860
     },
     {
       "epoch": 9.46,
+      "learning_rate": 0.00016230434782608697,
+      "loss": 0.4937,
       "step": 870
     },
     {
       "epoch": 9.57,
+      "learning_rate": 0.00016186956521739131,
+      "loss": 0.4265,
       "step": 880
     },
     {
       "epoch": 9.67,
+      "learning_rate": 0.00016143478260869566,
+      "loss": 0.6405,
       "step": 890
     },
     {
       "epoch": 9.78,
+      "learning_rate": 0.000161,
+      "loss": 0.3224,
       "step": 900
     },
     {
       "epoch": 9.78,
+      "eval_accuracy": 0.9384615384615385,
+      "eval_loss": 0.17866389453411102,
+      "eval_runtime": 1.7568,
+      "eval_samples_per_second": 147.997,
+      "eval_steps_per_second": 18.784,
       "step": 900
     },
     {
       "epoch": 9.89,
+      "learning_rate": 0.00016056521739130436,
+      "loss": 0.3498,
       "step": 910
     },
     {
       "epoch": 10.0,
+      "learning_rate": 0.0001601304347826087,
+      "loss": 0.4179,
       "step": 920
     },
     {
       "epoch": 10.11,
+      "learning_rate": 0.00015969565217391305,
+      "loss": 0.3454,
       "step": 930
     },
     {
       "epoch": 10.22,
+      "learning_rate": 0.0001592608695652174,
+      "loss": 0.4429,
       "step": 940
     },
     {
       "epoch": 10.33,
+      "learning_rate": 0.00015882608695652175,
+      "loss": 0.5527,
       "step": 950
     },
     {
       "epoch": 10.43,
+      "learning_rate": 0.0001583913043478261,
+      "loss": 0.3509,
       "step": 960
     },
     {
       "epoch": 10.54,
+      "learning_rate": 0.00015795652173913045,
+      "loss": 0.3791,
       "step": 970
     },
     {
       "epoch": 10.65,
+      "learning_rate": 0.0001575217391304348,
+      "loss": 0.398,
       "step": 980
     },
     {
       "epoch": 10.76,
+      "learning_rate": 0.00015708695652173914,
+      "loss": 0.3508,
       "step": 990
     },
     {
       "epoch": 10.87,
+      "learning_rate": 0.0001566521739130435,
+      "loss": 0.4069,
       "step": 1000
     },
     {
       "epoch": 10.87,
+      "eval_accuracy": 0.9230769230769231,
+      "eval_loss": 0.3375781178474426,
+      "eval_runtime": 1.7586,
+      "eval_samples_per_second": 147.841,
+      "eval_steps_per_second": 18.764,
       "step": 1000
     },
     {
       "epoch": 10.98,
+      "learning_rate": 0.00015621739130434784,
+      "loss": 0.3569,
       "step": 1010
     },
     {
       "epoch": 11.09,
+      "learning_rate": 0.00015578260869565218,
+      "loss": 0.3331,
       "step": 1020
     },
     {
       "epoch": 11.2,
+      "learning_rate": 0.00015534782608695653,
+      "loss": 0.3407,
       "step": 1030
     },
     {
       "epoch": 11.3,
+      "learning_rate": 0.00015491304347826088,
+      "loss": 0.3258,
       "step": 1040
     },
     {
       "epoch": 11.41,
+      "learning_rate": 0.00015447826086956523,
+      "loss": 0.3554,
       "step": 1050
     },
     {
       "epoch": 11.52,
+      "learning_rate": 0.00015404347826086958,
+      "loss": 0.6916,
       "step": 1060
     },
     {
       "epoch": 11.63,
+      "learning_rate": 0.00015360869565217392,
+      "loss": 0.3777,
       "step": 1070
     },
     {
       "epoch": 11.74,
+      "learning_rate": 0.00015317391304347827,
+      "loss": 0.4418,
       "step": 1080
     },
     {
       "epoch": 11.85,
+      "learning_rate": 0.00015273913043478262,
+      "loss": 0.3512,
       "step": 1090
     },
     {
       "epoch": 11.96,
+      "learning_rate": 0.00015230434782608697,
+      "loss": 0.3467,
       "step": 1100
     },
     {
       "epoch": 11.96,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.16032785177230835,
+      "eval_runtime": 1.775,
+      "eval_samples_per_second": 146.48,
+      "eval_steps_per_second": 18.592,
       "step": 1100
     },
     {
       "epoch": 12.07,
+      "learning_rate": 0.00015186956521739132,
+      "loss": 0.4753,
       "step": 1110
     },
     {
       "epoch": 12.17,
+      "learning_rate": 0.00015143478260869566,
+      "loss": 0.2328,
       "step": 1120
     },
     {
       "epoch": 12.28,
+      "learning_rate": 0.000151,
+      "loss": 0.4159,
       "step": 1130
     },
     {
       "epoch": 12.39,
+      "learning_rate": 0.00015056521739130436,
+      "loss": 0.3399,
       "step": 1140
     },
     {
       "epoch": 12.5,
+      "learning_rate": 0.0001501304347826087,
+      "loss": 0.3935,
       "step": 1150
     },
     {
       "epoch": 12.61,
+      "learning_rate": 0.00014969565217391305,
+      "loss": 0.4221,
       "step": 1160
     },
     {
       "epoch": 12.72,
+      "learning_rate": 0.0001492608695652174,
+      "loss": 0.4216,
       "step": 1170
     },
     {
       "epoch": 12.83,
+      "learning_rate": 0.00014882608695652175,
+      "loss": 0.3447,
       "step": 1180
     },
     {
       "epoch": 12.93,
+      "learning_rate": 0.0001483913043478261,
+      "loss": 0.4653,
       "step": 1190
     },
     {
       "epoch": 13.04,
+      "learning_rate": 0.00014795652173913045,
+      "loss": 0.469,
       "step": 1200
     },
     {
       "epoch": 13.04,
+      "eval_accuracy": 0.9423076923076923,
+      "eval_loss": 0.2247328907251358,
+      "eval_runtime": 1.7799,
+      "eval_samples_per_second": 146.074,
+      "eval_steps_per_second": 18.54,
       "step": 1200
     },
     {
       "epoch": 13.15,
+      "learning_rate": 0.0001475217391304348,
+      "loss": 0.4646,
       "step": 1210
     },
     {
       "epoch": 13.26,
+      "learning_rate": 0.00014708695652173914,
+      "loss": 0.3872,
       "step": 1220
     },
     {
       "epoch": 13.37,
+      "learning_rate": 0.0001466521739130435,
+      "loss": 0.4123,
       "step": 1230
     },
     {
       "epoch": 13.48,
+      "learning_rate": 0.00014621739130434784,
+      "loss": 0.4176,
       "step": 1240
     },
     {
       "epoch": 13.59,
+      "learning_rate": 0.00014578260869565219,
+      "loss": 0.2891,
       "step": 1250
     },
     {
       "epoch": 13.7,
+      "learning_rate": 0.0001453478260869565,
+      "loss": 0.4156,
       "step": 1260
     },
     {
       "epoch": 13.8,
+      "learning_rate": 0.00014491304347826088,
+      "loss": 0.3565,
       "step": 1270
     },
     {
       "epoch": 13.91,
+      "learning_rate": 0.00014447826086956523,
+      "loss": 0.4015,
       "step": 1280
     },
     {
       "epoch": 14.02,
+      "learning_rate": 0.00014404347826086958,
+      "loss": 0.3909,
       "step": 1290
     },
     {
       "epoch": 14.13,
+      "learning_rate": 0.00014360869565217392,
+      "loss": 0.4523,
       "step": 1300
     },
     {
       "epoch": 14.13,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.15518945455551147,
+      "eval_runtime": 1.7762,
+      "eval_samples_per_second": 146.378,
+      "eval_steps_per_second": 18.579,
       "step": 1300
     },
     {
       "epoch": 14.24,
+      "learning_rate": 0.00014317391304347827,
+      "loss": 0.3042,
       "step": 1310
     },
     {
       "epoch": 14.35,
+      "learning_rate": 0.00014273913043478262,
+      "loss": 0.525,
       "step": 1320
     },
     {
       "epoch": 14.46,
+      "learning_rate": 0.00014230434782608697,
+      "loss": 0.4193,
       "step": 1330
     },
     {
       "epoch": 14.57,
+      "learning_rate": 0.00014186956521739132,
+      "loss": 0.243,
       "step": 1340
     },
     {
       "epoch": 14.67,
+      "learning_rate": 0.00014143478260869564,
+      "loss": 0.4345,
       "step": 1350
     },
     {
       "epoch": 14.78,
+      "learning_rate": 0.000141,
+      "loss": 0.3999,
       "step": 1360
     },
     {
       "epoch": 14.89,
+      "learning_rate": 0.00014056521739130436,
+      "loss": 0.4394,
       "step": 1370
     },
     {
       "epoch": 15.0,
+      "learning_rate": 0.0001401304347826087,
+      "loss": 0.2955,
       "step": 1380
     },
     {
       "epoch": 15.11,
+      "learning_rate": 0.00013969565217391306,
+      "loss": 0.2917,
       "step": 1390
     },
     {
       "epoch": 15.22,
+      "learning_rate": 0.0001392608695652174,
+      "loss": 0.2923,
       "step": 1400
     },
     {
       "epoch": 15.22,
+      "eval_accuracy": 0.9346153846153846,
+      "eval_loss": 0.3376471996307373,
+      "eval_runtime": 1.7862,
+      "eval_samples_per_second": 145.564,
+      "eval_steps_per_second": 18.475,
       "step": 1400
     },
     {
       "epoch": 15.33,
+      "learning_rate": 0.00013882608695652175,
+      "loss": 0.2461,
       "step": 1410
     },
     {
       "epoch": 15.43,
+      "learning_rate": 0.0001383913043478261,
+      "loss": 0.2381,
       "step": 1420
     },
     {
       "epoch": 15.54,
+      "learning_rate": 0.00013795652173913045,
+      "loss": 0.3407,
       "step": 1430
     },
     {
       "epoch": 15.65,
+      "learning_rate": 0.00013752173913043477,
+      "loss": 0.2788,
       "step": 1440
     },
     {
       "epoch": 15.76,
+      "learning_rate": 0.00013708695652173914,
+      "loss": 0.4629,
       "step": 1450
     },
     {
       "epoch": 15.87,
+      "learning_rate": 0.0001366521739130435,
+      "loss": 0.4188,
       "step": 1460
     },
     {
       "epoch": 15.98,
+      "learning_rate": 0.00013621739130434784,
+      "loss": 0.3927,
       "step": 1470
     },
     {
       "epoch": 16.09,
+      "learning_rate": 0.00013578260869565219,
+      "loss": 0.4012,
       "step": 1480
     },
     {
       "epoch": 16.2,
+      "learning_rate": 0.00013534782608695653,
+      "loss": 0.2857,
       "step": 1490
     },
     {
       "epoch": 16.3,
+      "learning_rate": 0.00013491304347826088,
+      "loss": 0.3139,
       "step": 1500
     },
     {
       "epoch": 16.3,
+      "eval_accuracy": 0.9576923076923077,
+      "eval_loss": 0.14485935866832733,
+      "eval_runtime": 1.8112,
+      "eval_samples_per_second": 143.551,
+      "eval_steps_per_second": 18.22,
       "step": 1500
     },
     {
       "epoch": 16.41,
+      "learning_rate": 0.00013447826086956523,
+      "loss": 0.1576,
       "step": 1510
     },
     {
       "epoch": 16.52,
+      "learning_rate": 0.00013404347826086958,
+      "loss": 0.304,
       "step": 1520
     },
     {
       "epoch": 16.63,
+      "learning_rate": 0.0001336086956521739,
+      "loss": 0.373,
       "step": 1530
     },
     {
       "epoch": 16.74,
+      "learning_rate": 0.00013317391304347825,
+      "loss": 0.4767,
       "step": 1540
     },
     {
       "epoch": 16.85,
+      "learning_rate": 0.00013273913043478262,
+      "loss": 0.2466,
       "step": 1550
     },
     {
       "epoch": 16.96,
+      "learning_rate": 0.00013230434782608697,
+      "loss": 0.3481,
       "step": 1560
     },
     {
       "epoch": 17.07,
+      "learning_rate": 0.00013186956521739132,
+      "loss": 0.2583,
       "step": 1570
     },
     {
       "epoch": 17.17,
+      "learning_rate": 0.00013143478260869567,
+      "loss": 0.3555,
       "step": 1580
     },
     {
       "epoch": 17.28,
+      "learning_rate": 0.000131,
+      "loss": 0.3939,
       "step": 1590
     },
     {
       "epoch": 17.39,
+      "learning_rate": 0.00013056521739130436,
+      "loss": 0.3873,
       "step": 1600
     },
     {
       "epoch": 17.39,
+      "eval_accuracy": 0.9653846153846154,
+      "eval_loss": 0.14950522780418396,
+      "eval_runtime": 1.7354,
+      "eval_samples_per_second": 149.82,
+      "eval_steps_per_second": 19.016,
       "step": 1600
     },
     {
       "epoch": 17.5,
+      "learning_rate": 0.0001301304347826087,
+      "loss": 0.2708,
       "step": 1610
     },
     {
       "epoch": 17.61,
+      "learning_rate": 0.00012969565217391303,
+      "loss": 0.3253,
       "step": 1620
     },
     {
       "epoch": 17.72,
+      "learning_rate": 0.00012926086956521738,
+      "loss": 0.4359,
       "step": 1630
     },
     {
       "epoch": 17.83,
+      "learning_rate": 0.00012882608695652175,
+      "loss": 0.2208,
       "step": 1640
     },
     {
       "epoch": 17.93,
+      "learning_rate": 0.0001283913043478261,
+      "loss": 0.3663,
       "step": 1650
     },
     {
       "epoch": 18.04,
+      "learning_rate": 0.00012795652173913045,
+      "loss": 0.3553,
       "step": 1660
     },
     {
       "epoch": 18.15,
+      "learning_rate": 0.0001275217391304348,
+      "loss": 0.2674,
       "step": 1670
     },
     {
       "epoch": 18.26,
+      "learning_rate": 0.00012708695652173914,
+      "loss": 0.3081,
       "step": 1680
     },
     {
       "epoch": 18.37,
+      "learning_rate": 0.0001266521739130435,
+      "loss": 0.3599,
       "step": 1690
     },
     {
       "epoch": 18.48,
+      "learning_rate": 0.00012621739130434784,
+      "loss": 0.2994,
       "step": 1700
     },
     {
       "epoch": 18.48,
+      "eval_accuracy": 0.9653846153846154,
+      "eval_loss": 0.18205522000789642,
+      "eval_runtime": 1.7775,
+      "eval_samples_per_second": 146.275,
+      "eval_steps_per_second": 18.566,
       "step": 1700
     },
     {
       "epoch": 18.59,
+      "learning_rate": 0.00012578260869565216,
+      "loss": 0.3319,
       "step": 1710
     },
     {
       "epoch": 18.7,
+      "learning_rate": 0.0001253478260869565,
+      "loss": 0.2963,
       "step": 1720
     },
     {
       "epoch": 18.8,
+      "learning_rate": 0.00012491304347826088,
+      "loss": 0.3717,
       "step": 1730
     },
     {
       "epoch": 18.91,
+      "learning_rate": 0.00012447826086956523,
+      "loss": 0.3256,
       "step": 1740
     },
     {
       "epoch": 19.02,
+      "learning_rate": 0.00012404347826086958,
+      "loss": 0.2594,
       "step": 1750
     },
     {
       "epoch": 19.13,
+      "learning_rate": 0.00012360869565217393,
+      "loss": 0.3113,
       "step": 1760
     },
     {
       "epoch": 19.24,
+      "learning_rate": 0.00012317391304347827,
+      "loss": 0.2882,
       "step": 1770
     },
     {
       "epoch": 19.35,
+      "learning_rate": 0.00012273913043478262,
+      "loss": 0.3324,
       "step": 1780
     },
     {
       "epoch": 19.46,
+      "learning_rate": 0.00012230434782608694,
+      "loss": 0.3019,
       "step": 1790
     },
     {
       "epoch": 19.57,
+      "learning_rate": 0.0001218695652173913,
+      "loss": 0.2611,
       "step": 1800
     },
     {
       "epoch": 19.57,
+      "eval_accuracy": 0.9769230769230769,
+      "eval_loss": 0.12944568693637848,
+      "eval_runtime": 1.7814,
+      "eval_samples_per_second": 145.955,
+      "eval_steps_per_second": 18.525,
       "step": 1800
     },
     {
       "epoch": 19.67,
+      "learning_rate": 0.00012143478260869565,
+      "loss": 0.2507,
       "step": 1810
     },
     {
       "epoch": 19.78,
+      "learning_rate": 0.000121,
+      "loss": 0.4102,
       "step": 1820
     },
     {
       "epoch": 19.89,
+      "learning_rate": 0.00012056521739130435,
+      "loss": 0.148,
       "step": 1830
     },
     {
       "epoch": 20.0,
+      "learning_rate": 0.00012013043478260871,
+      "loss": 0.2765,
       "step": 1840
     },
     {
+      "epoch": 20.11,
+      "learning_rate": 0.00011969565217391306,
+      "loss": 0.2522,
+      "step": 1850
+    },
+    {
+      "epoch": 20.22,
+      "learning_rate": 0.0001192608695652174,
+      "loss": 0.2824,
+      "step": 1860
+    },
+    {
+      "epoch": 20.33,
+      "learning_rate": 0.00011882608695652175,
+      "loss": 0.4457,
+      "step": 1870
+    },
+    {
+      "epoch": 20.43,
+      "learning_rate": 0.00011839130434782609,
+      "loss": 0.2364,
+      "step": 1880
+    },
+    {
+      "epoch": 20.54,
+      "learning_rate": 0.00011795652173913044,
+      "loss": 0.2911,
+      "step": 1890
+    },
+    {
+      "epoch": 20.65,
+      "learning_rate": 0.00011752173913043478,
+      "loss": 0.1883,
+      "step": 1900
+    },
+    {
+      "epoch": 20.65,
+      "eval_accuracy": 0.9730769230769231,
+      "eval_loss": 0.0878596231341362,
+      "eval_runtime": 1.7876,
+      "eval_samples_per_second": 145.447,
+      "eval_steps_per_second": 18.461,
+      "step": 1900
+    },
+    {
+      "epoch": 20.76,
+      "learning_rate": 0.00011708695652173913,
+      "loss": 0.318,
+      "step": 1910
+    },
+    {
+      "epoch": 20.87,
+      "learning_rate": 0.00011665217391304348,
+      "loss": 0.1883,
+      "step": 1920
+    },
+    {
+      "epoch": 20.98,
+      "learning_rate": 0.00011621739130434783,
+      "loss": 0.4074,
+      "step": 1930
+    },
+    {
+      "epoch": 21.09,
+      "learning_rate": 0.00011578260869565219,
+      "loss": 0.2993,
+      "step": 1940
+    },
+    {
+      "epoch": 21.2,
+      "learning_rate": 0.00011534782608695654,
+      "loss": 0.3601,
+      "step": 1950
+    },
+    {
+      "epoch": 21.3,
+      "learning_rate": 0.00011491304347826088,
+      "loss": 0.2871,
+      "step": 1960
+    },
+    {
+      "epoch": 21.41,
+      "learning_rate": 0.00011447826086956522,
+      "loss": 0.2251,
+      "step": 1970
+    },
+    {
+      "epoch": 21.52,
+      "learning_rate": 0.00011404347826086957,
+      "loss": 0.3803,
+      "step": 1980
+    },
+    {
+      "epoch": 21.63,
+      "learning_rate": 0.00011360869565217391,
+      "loss": 0.2488,
+      "step": 1990
+    },
+    {
+      "epoch": 21.74,
+      "learning_rate": 0.00011317391304347826,
+      "loss": 0.2076,
+      "step": 2000
+    },
+    {
+      "epoch": 21.74,
+      "eval_accuracy": 0.95,
+      "eval_loss": 0.19687730073928833,
+      "eval_runtime": 1.754,
+      "eval_samples_per_second": 148.235,
+      "eval_steps_per_second": 18.814,
+      "step": 2000
+    },
+    {
+      "epoch": 21.85,
+      "learning_rate": 0.00011273913043478261,
+      "loss": 0.2438,
+      "step": 2010
+    },
+    {
+      "epoch": 21.96,
+      "learning_rate": 0.00011230434782608696,
+      "loss": 0.2422,
+      "step": 2020
+    },
+    {
+      "epoch": 22.07,
+      "learning_rate": 0.00011186956521739132,
+      "loss": 0.2734,
+      "step": 2030
+    },
+    {
+      "epoch": 22.17,
+      "learning_rate": 0.00011143478260869567,
+      "loss": 0.3248,
+      "step": 2040
+    },
+    {
+      "epoch": 22.28,
+      "learning_rate": 0.00011100000000000001,
+      "loss": 0.4294,
+      "step": 2050
+    },
+    {
+      "epoch": 22.39,
+      "learning_rate": 0.00011056521739130435,
+      "loss": 0.32,
+      "step": 2060
+    },
+    {
+      "epoch": 22.5,
+      "learning_rate": 0.0001101304347826087,
+      "loss": 0.1754,
+      "step": 2070
+    },
+    {
+      "epoch": 22.61,
+      "learning_rate": 0.00010969565217391304,
+      "loss": 0.2761,
+      "step": 2080
+    },
+    {
+      "epoch": 22.72,
+      "learning_rate": 0.00010926086956521739,
+      "loss": 0.2663,
+      "step": 2090
+    },
+    {
+      "epoch": 22.83,
+      "learning_rate": 0.00010882608695652174,
+      "loss": 0.3531,
+      "step": 2100
+    },
+    {
+      "epoch": 22.83,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.21350117027759552,
+      "eval_runtime": 1.7496,
+      "eval_samples_per_second": 148.61,
+      "eval_steps_per_second": 18.862,
+      "step": 2100
+    },
+    {
+      "epoch": 22.93,
+      "learning_rate": 0.00010839130434782609,
+      "loss": 0.3053,
+      "step": 2110
+    },
+    {
+      "epoch": 23.04,
+      "learning_rate": 0.00010795652173913045,
+      "loss": 0.2148,
+      "step": 2120
+    },
+    {
+      "epoch": 23.15,
+      "learning_rate": 0.0001075217391304348,
+      "loss": 0.3206,
+      "step": 2130
+    },
+    {
+      "epoch": 23.26,
+      "learning_rate": 0.00010708695652173915,
+      "loss": 0.2588,
+      "step": 2140
+    },
+    {
+      "epoch": 23.37,
+      "learning_rate": 0.00010665217391304348,
+      "loss": 0.3145,
+      "step": 2150
+    },
+    {
+      "epoch": 23.48,
+      "learning_rate": 0.00010621739130434783,
+      "loss": 0.226,
+      "step": 2160
+    },
+    {
+      "epoch": 23.59,
+      "learning_rate": 0.00010578260869565218,
+      "loss": 0.1001,
+      "step": 2170
+    },
+    {
+      "epoch": 23.7,
+      "learning_rate": 0.00010534782608695652,
+      "loss": 0.4069,
+      "step": 2180
+    },
+    {
+      "epoch": 23.8,
+      "learning_rate": 0.00010491304347826087,
+      "loss": 0.28,
+      "step": 2190
+    },
+    {
+      "epoch": 23.91,
+      "learning_rate": 0.00010447826086956522,
+      "loss": 0.4339,
+      "step": 2200
+    },
+    {
+      "epoch": 23.91,
+      "eval_accuracy": 0.9615384615384616,
+      "eval_loss": 0.10298635810613632,
+      "eval_runtime": 1.7772,
+      "eval_samples_per_second": 146.294,
+      "eval_steps_per_second": 18.568,
+      "step": 2200
+    },
+    {
+      "epoch": 24.02,
+      "learning_rate": 0.00010404347826086958,
+      "loss": 0.1528,
+      "step": 2210
+    },
+    {
+      "epoch": 24.13,
+      "learning_rate": 0.00010360869565217393,
+      "loss": 0.3256,
+      "step": 2220
+    },
+    {
+      "epoch": 24.24,
+      "learning_rate": 0.00010317391304347828,
+      "loss": 0.232,
+      "step": 2230
+    },
+    {
+      "epoch": 24.35,
+      "learning_rate": 0.00010273913043478261,
+      "loss": 0.2191,
+      "step": 2240
+    },
+    {
+      "epoch": 24.46,
+      "learning_rate": 0.00010230434782608696,
+      "loss": 0.3411,
+      "step": 2250
+    },
+    {
+      "epoch": 24.57,
+      "learning_rate": 0.0001018695652173913,
+      "loss": 0.1255,
+      "step": 2260
+    },
+    {
+      "epoch": 24.67,
+      "learning_rate": 0.00010143478260869565,
+      "loss": 0.2217,
+      "step": 2270
+    },
+    {
+      "epoch": 24.78,
+      "learning_rate": 0.000101,
+      "loss": 0.3112,
+      "step": 2280
+    },
+    {
+      "epoch": 24.89,
+      "learning_rate": 0.00010056521739130435,
+      "loss": 0.1857,
+      "step": 2290
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 0.00010013043478260871,
+      "loss": 0.2959,
+      "step": 2300
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.9730769230769231,
+      "eval_loss": 0.15792931616306305,
+      "eval_runtime": 1.8,
+      "eval_samples_per_second": 144.447,
+      "eval_steps_per_second": 18.334,
+      "step": 2300
+    },
+    {
+      "epoch": 25.11,
+      "learning_rate": 9.969565217391305e-05,
+      "loss": 0.1414,
+      "step": 2310
+    },
+    {
+      "epoch": 25.22,
+      "learning_rate": 9.92608695652174e-05,
+      "loss": 0.2258,
+      "step": 2320
+    },
+    {
+      "epoch": 25.33,
+      "learning_rate": 9.882608695652174e-05,
+      "loss": 0.3728,
+      "step": 2330
+    },
+    {
+      "epoch": 25.43,
+      "learning_rate": 9.83913043478261e-05,
+      "loss": 0.1948,
+      "step": 2340
+    },
+    {
+      "epoch": 25.54,
+      "learning_rate": 9.795652173913044e-05,
+      "loss": 0.1891,
+      "step": 2350
+    },
+    {
+      "epoch": 25.65,
+      "learning_rate": 9.752173913043478e-05,
+      "loss": 0.3699,
+      "step": 2360
+    },
+    {
+      "epoch": 25.76,
+      "learning_rate": 9.708695652173913e-05,
+      "loss": 0.2302,
+      "step": 2370
+    },
+    {
+      "epoch": 25.87,
+      "learning_rate": 9.665217391304348e-05,
+      "loss": 0.4142,
+      "step": 2380
+    },
+    {
+      "epoch": 25.98,
+      "learning_rate": 9.621739130434783e-05,
+      "loss": 0.3039,
+      "step": 2390
+    },
+    {
+      "epoch": 26.09,
+      "learning_rate": 9.578260869565218e-05,
+      "loss": 0.1546,
+      "step": 2400
+    },
+    {
+      "epoch": 26.09,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.16483497619628906,
+      "eval_runtime": 1.7576,
+      "eval_samples_per_second": 147.927,
+      "eval_steps_per_second": 18.775,
+      "step": 2400
+    },
+    {
+      "epoch": 26.2,
+      "learning_rate": 9.534782608695652e-05,
+      "loss": 0.2446,
+      "step": 2410
+    },
+    {
+      "epoch": 26.3,
+      "learning_rate": 9.491304347826087e-05,
+      "loss": 0.3131,
+      "step": 2420
+    },
+    {
+      "epoch": 26.41,
+      "learning_rate": 9.447826086956523e-05,
+      "loss": 0.2961,
+      "step": 2430
+    },
+    {
+      "epoch": 26.52,
+      "learning_rate": 9.404347826086957e-05,
+      "loss": 0.1788,
+      "step": 2440
+    },
+    {
+      "epoch": 26.63,
+      "learning_rate": 9.360869565217392e-05,
+      "loss": 0.2026,
+      "step": 2450
+    },
+    {
+      "epoch": 26.74,
+      "learning_rate": 9.317391304347826e-05,
+      "loss": 0.1844,
+      "step": 2460
+    },
+    {
+      "epoch": 26.85,
+      "learning_rate": 9.273913043478261e-05,
+      "loss": 0.3184,
+      "step": 2470
+    },
+    {
+      "epoch": 26.96,
+      "learning_rate": 9.230434782608696e-05,
+      "loss": 0.288,
+      "step": 2480
+    },
+    {
+      "epoch": 27.07,
+      "learning_rate": 9.186956521739131e-05,
+      "loss": 0.1849,
+      "step": 2490
+    },
+    {
+      "epoch": 27.17,
+      "learning_rate": 9.143478260869566e-05,
+      "loss": 0.1315,
+      "step": 2500
+    },
+    {
+      "epoch": 27.17,
+      "eval_accuracy": 0.9576923076923077,
+      "eval_loss": 0.15139609575271606,
+      "eval_runtime": 1.7638,
+      "eval_samples_per_second": 147.411,
+      "eval_steps_per_second": 18.71,
+      "step": 2500
+    },
+    {
+      "epoch": 27.28,
+      "learning_rate": 9.1e-05,
+      "loss": 0.2901,
+      "step": 2510
+    },
+    {
+      "epoch": 27.39,
+      "learning_rate": 9.056521739130435e-05,
+      "loss": 0.1043,
+      "step": 2520
+    },
+    {
+      "epoch": 27.5,
+      "learning_rate": 9.01304347826087e-05,
+      "loss": 0.3867,
+      "step": 2530
+    },
+    {
+      "epoch": 27.61,
+      "learning_rate": 8.969565217391305e-05,
+      "loss": 0.1998,
+      "step": 2540
+    },
+    {
+      "epoch": 27.72,
+      "learning_rate": 8.92608695652174e-05,
+      "loss": 0.2806,
+      "step": 2550
+    },
+    {
+      "epoch": 27.83,
+      "learning_rate": 8.882608695652174e-05,
+      "loss": 0.2673,
+      "step": 2560
+    },
+    {
+      "epoch": 27.93,
+      "learning_rate": 8.839130434782609e-05,
+      "loss": 0.2356,
+      "step": 2570
+    },
+    {
+      "epoch": 28.04,
+      "learning_rate": 8.795652173913044e-05,
+      "loss": 0.3593,
+      "step": 2580
+    },
+    {
+      "epoch": 28.15,
+      "learning_rate": 8.752173913043479e-05,
+      "loss": 0.2084,
+      "step": 2590
+    },
+    {
+      "epoch": 28.26,
+      "learning_rate": 8.708695652173913e-05,
+      "loss": 0.2191,
+      "step": 2600
+    },
+    {
+      "epoch": 28.26,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.12568195164203644,
+      "eval_runtime": 1.7726,
+      "eval_samples_per_second": 146.681,
+      "eval_steps_per_second": 18.617,
+      "step": 2600
+    },
+    {
+      "epoch": 28.37,
+      "learning_rate": 8.665217391304348e-05,
+      "loss": 0.2051,
+      "step": 2610
+    },
+    {
+      "epoch": 28.48,
+      "learning_rate": 8.621739130434783e-05,
+      "loss": 0.1161,
+      "step": 2620
+    },
+    {
+      "epoch": 28.59,
+      "learning_rate": 8.578260869565218e-05,
+      "loss": 0.2165,
+      "step": 2630
+    },
+    {
+      "epoch": 28.7,
+      "learning_rate": 8.534782608695653e-05,
+      "loss": 0.1372,
+      "step": 2640
+    },
+    {
+      "epoch": 28.8,
+      "learning_rate": 8.491304347826087e-05,
+      "loss": 0.1993,
+      "step": 2650
+    },
+    {
+      "epoch": 28.91,
+      "learning_rate": 8.447826086956522e-05,
+      "loss": 0.3131,
+      "step": 2660
+    },
+    {
+      "epoch": 29.02,
+      "learning_rate": 8.404347826086957e-05,
+      "loss": 0.2358,
+      "step": 2670
+    },
+    {
+      "epoch": 29.13,
+      "learning_rate": 8.360869565217392e-05,
+      "loss": 0.3139,
+      "step": 2680
+    },
+    {
+      "epoch": 29.24,
+      "learning_rate": 8.317391304347826e-05,
+      "loss": 0.1685,
+      "step": 2690
+    },
+    {
+      "epoch": 29.35,
+      "learning_rate": 8.273913043478261e-05,
+      "loss": 0.16,
+      "step": 2700
+    },
+    {
+      "epoch": 29.35,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.11622560024261475,
+      "eval_runtime": 1.7362,
+      "eval_samples_per_second": 149.75,
+      "eval_steps_per_second": 19.007,
+      "step": 2700
+    },
+    {
+      "epoch": 29.46,
+      "learning_rate": 8.230434782608696e-05,
+      "loss": 0.2255,
+      "step": 2710
+    },
+    {
+      "epoch": 29.57,
+      "learning_rate": 8.186956521739131e-05,
+      "loss": 0.2569,
+      "step": 2720
+    },
+    {
+      "epoch": 29.67,
+      "learning_rate": 8.143478260869566e-05,
+      "loss": 0.1493,
+      "step": 2730
+    },
+    {
+      "epoch": 29.78,
+      "learning_rate": 8.1e-05,
+      "loss": 0.3093,
+      "step": 2740
+    },
+    {
+      "epoch": 29.89,
+      "learning_rate": 8.056521739130435e-05,
+      "loss": 0.1791,
+      "step": 2750
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 8.01304347826087e-05,
+      "loss": 0.2002,
+      "step": 2760
+    },
+    {
+      "epoch": 30.11,
+      "learning_rate": 7.969565217391305e-05,
+      "loss": 0.2863,
+      "step": 2770
+    },
+    {
+      "epoch": 30.22,
+      "learning_rate": 7.92608695652174e-05,
+      "loss": 0.1432,
+      "step": 2780
+    },
+    {
+      "epoch": 30.33,
+      "learning_rate": 7.882608695652174e-05,
+      "loss": 0.2592,
+      "step": 2790
+    },
+    {
+      "epoch": 30.43,
+      "learning_rate": 7.839130434782609e-05,
+      "loss": 0.1567,
+      "step": 2800
+    },
+    {
+      "epoch": 30.43,
+      "eval_accuracy": 0.9730769230769231,
+      "eval_loss": 0.12521864473819733,
+      "eval_runtime": 1.7177,
+      "eval_samples_per_second": 151.361,
+      "eval_steps_per_second": 19.211,
+      "step": 2800
+    },
+    {
+      "epoch": 30.54,
+      "learning_rate": 7.795652173913044e-05,
+      "loss": 0.2531,
+      "step": 2810
+    },
+    {
+      "epoch": 30.65,
+      "learning_rate": 7.752173913043479e-05,
+      "loss": 0.3029,
+      "step": 2820
+    },
+    {
+      "epoch": 30.76,
+      "learning_rate": 7.71304347826087e-05,
+      "loss": 0.3449,
+      "step": 2830
+    },
+    {
+      "epoch": 30.87,
+      "learning_rate": 7.669565217391304e-05,
+      "loss": 0.1435,
+      "step": 2840
+    },
+    {
+      "epoch": 30.98,
+      "learning_rate": 7.626086956521739e-05,
+      "loss": 0.2932,
+      "step": 2850
+    },
+    {
+      "epoch": 31.09,
+      "learning_rate": 7.582608695652175e-05,
+      "loss": 0.092,
+      "step": 2860
+    },
+    {
+      "epoch": 31.2,
+      "learning_rate": 7.539130434782609e-05,
+      "loss": 0.2932,
+      "step": 2870
+    },
+    {
+      "epoch": 31.3,
+      "learning_rate": 7.495652173913043e-05,
+      "loss": 0.2363,
+      "step": 2880
+    },
+    {
+      "epoch": 31.41,
+      "learning_rate": 7.452173913043478e-05,
+      "loss": 0.2038,
+      "step": 2890
+    },
+    {
+      "epoch": 31.52,
+      "learning_rate": 7.408695652173914e-05,
+      "loss": 0.1147,
+      "step": 2900
+    },
+    {
+      "epoch": 31.52,
+      "eval_accuracy": 0.9576923076923077,
+      "eval_loss": 0.264168381690979,
+      "eval_runtime": 1.8009,
+      "eval_samples_per_second": 144.371,
+      "eval_steps_per_second": 18.324,
+      "step": 2900
+    },
+    {
+      "epoch": 31.63,
+      "learning_rate": 7.365217391304348e-05,
+      "loss": 0.2453,
+      "step": 2910
+    },
+    {
+      "epoch": 31.74,
+      "learning_rate": 7.321739130434783e-05,
+      "loss": 0.1713,
+      "step": 2920
+    },
+    {
+      "epoch": 31.85,
+      "learning_rate": 7.278260869565217e-05,
+      "loss": 0.2043,
+      "step": 2930
+    },
+    {
+      "epoch": 31.96,
+      "learning_rate": 7.234782608695652e-05,
+      "loss": 0.1301,
+      "step": 2940
+    },
+    {
+      "epoch": 32.07,
+      "learning_rate": 7.191304347826088e-05,
+      "loss": 0.2134,
+      "step": 2950
+    },
+    {
+      "epoch": 32.17,
+      "learning_rate": 7.147826086956522e-05,
+      "loss": 0.1719,
+      "step": 2960
+    },
+    {
+      "epoch": 32.28,
+      "learning_rate": 7.104347826086956e-05,
+      "loss": 0.2543,
+      "step": 2970
+    },
+    {
+      "epoch": 32.39,
+      "learning_rate": 7.060869565217391e-05,
+      "loss": 0.1225,
+      "step": 2980
+    },
+    {
+      "epoch": 32.5,
+      "learning_rate": 7.017391304347827e-05,
+      "loss": 0.2335,
+      "step": 2990
+    },
+    {
+      "epoch": 32.61,
+      "learning_rate": 6.973913043478261e-05,
+      "loss": 0.1434,
+      "step": 3000
+    },
+    {
+      "epoch": 32.61,
+      "eval_accuracy": 0.9769230769230769,
+      "eval_loss": 0.1370551437139511,
+      "eval_runtime": 1.8004,
+      "eval_samples_per_second": 144.414,
+      "eval_steps_per_second": 18.329,
+      "step": 3000
+    },
+    {
+      "epoch": 32.72,
+      "learning_rate": 6.930434782608696e-05,
+      "loss": 0.1627,
+      "step": 3010
+    },
+    {
+      "epoch": 32.83,
+      "learning_rate": 6.88695652173913e-05,
+      "loss": 0.1493,
+      "step": 3020
+    },
+    {
+      "epoch": 32.93,
+      "learning_rate": 6.843478260869565e-05,
+      "loss": 0.3723,
+      "step": 3030
+    },
+    {
+      "epoch": 33.04,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 0.1544,
+      "step": 3040
+    },
+    {
+      "epoch": 33.15,
+      "learning_rate": 6.756521739130435e-05,
+      "loss": 0.2468,
+      "step": 3050
+    },
+    {
+      "epoch": 33.26,
+      "learning_rate": 6.71304347826087e-05,
+      "loss": 0.2653,
+      "step": 3060
+    },
+    {
+      "epoch": 33.37,
+      "learning_rate": 6.669565217391304e-05,
+      "loss": 0.206,
+      "step": 3070
+    },
+    {
+      "epoch": 33.48,
+      "learning_rate": 6.62608695652174e-05,
+      "loss": 0.172,
+      "step": 3080
+    },
+    {
+      "epoch": 33.59,
+      "learning_rate": 6.582608695652174e-05,
+      "loss": 0.1463,
+      "step": 3090
+    },
+    {
+      "epoch": 33.7,
+      "learning_rate": 6.539130434782609e-05,
+      "loss": 0.2488,
+      "step": 3100
+    },
+    {
+      "epoch": 33.7,
+      "eval_accuracy": 0.9769230769230769,
+      "eval_loss": 0.11605165898799896,
+      "eval_runtime": 1.7765,
+      "eval_samples_per_second": 146.351,
+      "eval_steps_per_second": 18.575,
+      "step": 3100
+    },
+    {
+      "epoch": 33.8,
+      "learning_rate": 6.495652173913043e-05,
+      "loss": 0.179,
+      "step": 3110
+    },
+    {
+      "epoch": 33.91,
+      "learning_rate": 6.452173913043478e-05,
+      "loss": 0.1539,
+      "step": 3120
+    },
+    {
+      "epoch": 34.02,
+      "learning_rate": 6.408695652173914e-05,
+      "loss": 0.1868,
+      "step": 3130
+    },
+    {
+      "epoch": 34.13,
+      "learning_rate": 6.365217391304348e-05,
+      "loss": 0.1211,
+      "step": 3140
+    },
+    {
+      "epoch": 34.24,
+      "learning_rate": 6.321739130434783e-05,
+      "loss": 0.1994,
+      "step": 3150
+    },
+    {
+      "epoch": 34.35,
+      "learning_rate": 6.278260869565217e-05,
+      "loss": 0.1636,
+      "step": 3160
+    },
+    {
+      "epoch": 34.46,
+      "learning_rate": 6.234782608695654e-05,
+      "loss": 0.3548,
+      "step": 3170
+    },
+    {
+      "epoch": 34.57,
+      "learning_rate": 6.191304347826087e-05,
+      "loss": 0.1397,
+      "step": 3180
+    },
+    {
+      "epoch": 34.67,
+      "learning_rate": 6.147826086956522e-05,
+      "loss": 0.2691,
+      "step": 3190
+    },
+    {
+      "epoch": 34.78,
+      "learning_rate": 6.104347826086957e-05,
+      "loss": 0.1646,
+      "step": 3200
+    },
+    {
+      "epoch": 34.78,
+      "eval_accuracy": 0.9615384615384616,
+      "eval_loss": 0.2051740437746048,
+      "eval_runtime": 1.8,
+      "eval_samples_per_second": 144.442,
+      "eval_steps_per_second": 18.333,
+      "step": 3200
+    },
+    {
+      "epoch": 34.89,
+      "learning_rate": 6.060869565217392e-05,
+      "loss": 0.1621,
+      "step": 3210
+    },
+    {
+      "epoch": 35.0,
+      "learning_rate": 6.017391304347826e-05,
+      "loss": 0.1123,
+      "step": 3220
+    },
+    {
+      "epoch": 35.11,
+      "learning_rate": 5.973913043478261e-05,
+      "loss": 0.2226,
+      "step": 3230
+    },
+    {
+      "epoch": 35.22,
+      "learning_rate": 5.930434782608696e-05,
+      "loss": 0.1163,
+      "step": 3240
+    },
+    {
+      "epoch": 35.33,
+      "learning_rate": 5.886956521739131e-05,
+      "loss": 0.0945,
+      "step": 3250
+    },
+    {
+      "epoch": 35.43,
+      "learning_rate": 5.843478260869566e-05,
+      "loss": 0.1778,
+      "step": 3260
+    },
+    {
+      "epoch": 35.54,
+      "learning_rate": 5.8e-05,
+      "loss": 0.1871,
+      "step": 3270
+    },
+    {
+      "epoch": 35.65,
+      "learning_rate": 5.756521739130435e-05,
+      "loss": 0.0933,
+      "step": 3280
+    },
+    {
+      "epoch": 35.76,
+      "learning_rate": 5.7130434782608696e-05,
+      "loss": 0.2772,
+      "step": 3290
+    },
+    {
+      "epoch": 35.87,
+      "learning_rate": 5.669565217391305e-05,
+      "loss": 0.1326,
+      "step": 3300
+    },
+    {
+      "epoch": 35.87,
+      "eval_accuracy": 0.9769230769230769,
+      "eval_loss": 0.19951356947422028,
+      "eval_runtime": 1.8242,
+      "eval_samples_per_second": 142.526,
+      "eval_steps_per_second": 18.09,
+      "step": 3300
+    },
+    {
+      "epoch": 35.98,
+      "learning_rate": 5.626086956521739e-05,
+      "loss": 0.1642,
+      "step": 3310
+    },
+    {
+      "epoch": 36.09,
+      "learning_rate": 5.582608695652174e-05,
+      "loss": 0.2632,
+      "step": 3320
+    },
+    {
+      "epoch": 36.2,
+      "learning_rate": 5.539130434782609e-05,
+      "loss": 0.2157,
+      "step": 3330
+    },
+    {
+      "epoch": 36.3,
+      "learning_rate": 5.495652173913044e-05,
+      "loss": 0.121,
+      "step": 3340
+    },
+    {
+      "epoch": 36.41,
+      "learning_rate": 5.452173913043479e-05,
+      "loss": 0.1678,
+      "step": 3350
+    },
+    {
+      "epoch": 36.52,
+      "learning_rate": 5.408695652173913e-05,
+      "loss": 0.1978,
+      "step": 3360
+    },
+    {
+      "epoch": 36.63,
+      "learning_rate": 5.365217391304348e-05,
+      "loss": 0.1735,
+      "step": 3370
+    },
+    {
+      "epoch": 36.74,
+      "learning_rate": 5.321739130434783e-05,
+      "loss": 0.1146,
+      "step": 3380
+    },
+    {
+      "epoch": 36.85,
+      "learning_rate": 5.278260869565218e-05,
+      "loss": 0.1784,
+      "step": 3390
+    },
+    {
+      "epoch": 36.96,
+      "learning_rate": 5.234782608695652e-05,
+      "loss": 0.137,
+      "step": 3400
+    },
+    {
+      "epoch": 36.96,
+      "eval_accuracy": 0.9730769230769231,
+      "eval_loss": 0.11240039020776749,
+      "eval_runtime": 1.8523,
+      "eval_samples_per_second": 140.367,
+      "eval_steps_per_second": 17.816,
+      "step": 3400
+    },
+    {
+      "epoch": 37.07,
+      "learning_rate": 5.191304347826087e-05,
+      "loss": 0.1146,
+      "step": 3410
+    },
+    {
+      "epoch": 37.17,
+      "learning_rate": 5.147826086956522e-05,
+      "loss": 0.1942,
+      "step": 3420
+    },
+    {
+      "epoch": 37.28,
+      "learning_rate": 5.104347826086957e-05,
+      "loss": 0.2097,
+      "step": 3430
+    },
+    {
+      "epoch": 37.39,
+      "learning_rate": 5.060869565217392e-05,
+      "loss": 0.1218,
+      "step": 3440
+    },
+    {
+      "epoch": 37.5,
+      "learning_rate": 5.017391304347826e-05,
+      "loss": 0.2491,
+      "step": 3450
+    },
+    {
+      "epoch": 37.61,
+      "learning_rate": 4.973913043478261e-05,
+      "loss": 0.1269,
+      "step": 3460
+    },
+    {
+      "epoch": 37.72,
+      "learning_rate": 4.930434782608696e-05,
+      "loss": 0.1248,
+      "step": 3470
+    },
+    {
+      "epoch": 37.83,
+      "learning_rate": 4.8869565217391305e-05,
+      "loss": 0.2291,
+      "step": 3480
+    },
+    {
+      "epoch": 37.93,
+      "learning_rate": 4.843478260869565e-05,
+      "loss": 0.2026,
+      "step": 3490
+    },
+    {
+      "epoch": 38.04,
+      "learning_rate": 4.8e-05,
+      "loss": 0.1633,
+      "step": 3500
+    },
+    {
+      "epoch": 38.04,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.1620192676782608,
+      "eval_runtime": 1.8103,
+      "eval_samples_per_second": 143.623,
+      "eval_steps_per_second": 18.229,
+      "step": 3500
+    },
+    {
+      "epoch": 38.15,
+      "learning_rate": 4.756521739130435e-05,
+      "loss": 0.2162,
+      "step": 3510
+    },
+    {
+      "epoch": 38.26,
+      "learning_rate": 4.71304347826087e-05,
+      "loss": 0.1133,
+      "step": 3520
+    },
+    {
+      "epoch": 38.37,
+      "learning_rate": 4.6695652173913045e-05,
+      "loss": 0.1274,
+      "step": 3530
+    },
+    {
+      "epoch": 38.48,
+      "learning_rate": 4.62608695652174e-05,
+      "loss": 0.3265,
+      "step": 3540
+    },
+    {
+      "epoch": 38.59,
+      "learning_rate": 4.582608695652174e-05,
+      "loss": 0.1762,
+      "step": 3550
+    },
+    {
+      "epoch": 38.7,
+      "learning_rate": 4.539130434782609e-05,
+      "loss": 0.1412,
+      "step": 3560
+    },
+    {
+      "epoch": 38.8,
+      "learning_rate": 4.4956521739130436e-05,
+      "loss": 0.1581,
+      "step": 3570
+    },
+    {
+      "epoch": 38.91,
+      "learning_rate": 4.4521739130434784e-05,
+      "loss": 0.2164,
+      "step": 3580
+    },
+    {
+      "epoch": 39.02,
+      "learning_rate": 4.408695652173913e-05,
+      "loss": 0.1605,
+      "step": 3590
+    },
+    {
+      "epoch": 39.13,
+      "learning_rate": 4.365217391304348e-05,
+      "loss": 0.1593,
+      "step": 3600
+    },
+    {
+      "epoch": 39.13,
+      "eval_accuracy": 0.9730769230769231,
+      "eval_loss": 0.18379810452461243,
+      "eval_runtime": 1.7823,
+      "eval_samples_per_second": 145.88,
+      "eval_steps_per_second": 18.516,
+      "step": 3600
+    },
+    {
+      "epoch": 39.24,
+      "learning_rate": 4.321739130434783e-05,
+      "loss": 0.2068,
+      "step": 3610
+    },
+    {
+      "epoch": 39.35,
+      "learning_rate": 4.2782608695652176e-05,
+      "loss": 0.1922,
+      "step": 3620
+    },
+    {
+      "epoch": 39.46,
+      "learning_rate": 4.2347826086956523e-05,
+      "loss": 0.1854,
+      "step": 3630
+    },
+    {
+      "epoch": 39.57,
+      "learning_rate": 4.191304347826087e-05,
+      "loss": 0.1933,
+      "step": 3640
+    },
+    {
+      "epoch": 39.67,
+      "learning_rate": 4.147826086956522e-05,
+      "loss": 0.0847,
+      "step": 3650
+    },
+    {
+      "epoch": 39.78,
+      "learning_rate": 4.104347826086957e-05,
+      "loss": 0.0809,
+      "step": 3660
+    },
+    {
+      "epoch": 39.89,
+      "learning_rate": 4.0608695652173915e-05,
+      "loss": 0.2112,
+      "step": 3670
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 4.017391304347826e-05,
+      "loss": 0.1198,
+      "step": 3680
+    },
+    {
+      "epoch": 40.11,
+      "learning_rate": 3.973913043478261e-05,
+      "loss": 0.2487,
+      "step": 3690
+    },
+    {
+      "epoch": 40.22,
+      "learning_rate": 3.930434782608696e-05,
+      "loss": 0.2192,
+      "step": 3700
+    },
+    {
+      "epoch": 40.22,
+      "eval_accuracy": 0.9769230769230769,
+      "eval_loss": 0.13305215537548065,
+      "eval_runtime": 1.8315,
+      "eval_samples_per_second": 141.957,
+      "eval_steps_per_second": 18.018,
+      "step": 3700
+    },
+    {
+      "epoch": 40.33,
+      "learning_rate": 3.8869565217391306e-05,
+      "loss": 0.2575,
+      "step": 3710
+    },
+    {
+      "epoch": 40.43,
+      "learning_rate": 3.8434782608695654e-05,
+      "loss": 0.0822,
+      "step": 3720
+    },
+    {
+      "epoch": 40.54,
+      "learning_rate": 3.8e-05,
+      "loss": 0.1304,
+      "step": 3730
+    },
+    {
+      "epoch": 40.65,
+      "learning_rate": 3.756521739130435e-05,
+      "loss": 0.0941,
+      "step": 3740
+    },
+    {
+      "epoch": 40.76,
+      "learning_rate": 3.71304347826087e-05,
+      "loss": 0.1848,
+      "step": 3750
+    },
+    {
+      "epoch": 40.87,
+      "learning_rate": 3.6695652173913046e-05,
+      "loss": 0.1457,
+      "step": 3760
+    },
+    {
+      "epoch": 40.98,
+      "learning_rate": 3.6260869565217394e-05,
+      "loss": 0.2354,
+      "step": 3770
+    },
+    {
+      "epoch": 41.09,
+      "learning_rate": 3.582608695652174e-05,
+      "loss": 0.1257,
+      "step": 3780
+    },
+    {
+      "epoch": 41.2,
+      "learning_rate": 3.539130434782609e-05,
+      "loss": 0.2613,
+      "step": 3790
+    },
+    {
+      "epoch": 41.3,
+      "learning_rate": 3.495652173913044e-05,
+      "loss": 0.1495,
+      "step": 3800
+    },
+    {
+      "epoch": 41.3,
+      "eval_accuracy": 0.9730769230769231,
+      "eval_loss": 0.1290873885154724,
+      "eval_runtime": 1.8023,
+      "eval_samples_per_second": 144.257,
+      "eval_steps_per_second": 18.31,
+      "step": 3800
+    },
+    {
+      "epoch": 41.41,
+      "learning_rate": 3.4521739130434785e-05,
+      "loss": 0.176,
+      "step": 3810
+    },
+    {
+      "epoch": 41.52,
+      "learning_rate": 3.408695652173913e-05,
+      "loss": 0.191,
+      "step": 3820
+    },
+    {
+      "epoch": 41.63,
+      "learning_rate": 3.365217391304348e-05,
+      "loss": 0.2018,
+      "step": 3830
+    },
+    {
+      "epoch": 41.74,
+      "learning_rate": 3.321739130434783e-05,
+      "loss": 0.135,
+      "step": 3840
+    },
+    {
+      "epoch": 41.85,
+      "learning_rate": 3.278260869565217e-05,
+      "loss": 0.2563,
+      "step": 3850
+    },
+    {
+      "epoch": 41.96,
+      "learning_rate": 3.2347826086956524e-05,
+      "loss": 0.2406,
+      "step": 3860
+    },
+    {
+      "epoch": 42.07,
+      "learning_rate": 3.191304347826087e-05,
+      "loss": 0.1189,
+      "step": 3870
+    },
+    {
+      "epoch": 42.17,
+      "learning_rate": 3.147826086956522e-05,
+      "loss": 0.1208,
+      "step": 3880
+    },
+    {
+      "epoch": 42.28,
+      "learning_rate": 3.104347826086957e-05,
+      "loss": 0.1186,
+      "step": 3890
+    },
+    {
+      "epoch": 42.39,
+      "learning_rate": 3.0608695652173916e-05,
+      "loss": 0.226,
+      "step": 3900
+    },
+    {
+      "epoch": 42.39,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.10904478281736374,
+      "eval_runtime": 1.7773,
+      "eval_samples_per_second": 146.286,
+      "eval_steps_per_second": 18.567,
+      "step": 3900
+    },
+    {
+      "epoch": 42.5,
+      "learning_rate": 3.0173913043478264e-05,
+      "loss": 0.0956,
+      "step": 3910
+    },
+    {
+      "epoch": 42.61,
+      "learning_rate": 2.9739130434782608e-05,
+      "loss": 0.0871,
+      "step": 3920
+    },
+    {
+      "epoch": 42.72,
+      "learning_rate": 2.930434782608696e-05,
+      "loss": 0.1092,
+      "step": 3930
+    },
+    {
+      "epoch": 42.83,
+      "learning_rate": 2.8869565217391304e-05,
+      "loss": 0.1455,
+      "step": 3940
+    },
+    {
+      "epoch": 42.93,
+      "learning_rate": 2.8434782608695655e-05,
+      "loss": 0.1314,
+      "step": 3950
+    },
+    {
+      "epoch": 43.04,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.1083,
+      "step": 3960
+    },
+    {
+      "epoch": 43.15,
+      "learning_rate": 2.7565217391304347e-05,
+      "loss": 0.1211,
+      "step": 3970
+    },
+    {
+      "epoch": 43.26,
+      "learning_rate": 2.71304347826087e-05,
+      "loss": 0.1161,
+      "step": 3980
+    },
+    {
+      "epoch": 43.37,
+      "learning_rate": 2.6695652173913043e-05,
+      "loss": 0.1177,
+      "step": 3990
+    },
+    {
+      "epoch": 43.48,
+      "learning_rate": 2.6260869565217394e-05,
+      "loss": 0.1383,
+      "step": 4000
+    },
+    {
+      "epoch": 43.48,
+      "eval_accuracy": 0.9653846153846154,
+      "eval_loss": 0.09941285848617554,
+      "eval_runtime": 1.8083,
+      "eval_samples_per_second": 143.781,
+      "eval_steps_per_second": 18.249,
+      "step": 4000
+    },
+    {
+      "epoch": 43.59,
+      "learning_rate": 2.582608695652174e-05,
+      "loss": 0.0991,
+      "step": 4010
+    },
+    {
+      "epoch": 43.7,
+      "learning_rate": 2.539130434782609e-05,
+      "loss": 0.2098,
+      "step": 4020
+    },
+    {
+      "epoch": 43.8,
+      "learning_rate": 2.4956521739130438e-05,
+      "loss": 0.0725,
+      "step": 4030
+    },
+    {
+      "epoch": 43.91,
+      "learning_rate": 2.4521739130434786e-05,
+      "loss": 0.0751,
+      "step": 4040
+    },
+    {
+      "epoch": 44.02,
+      "learning_rate": 2.408695652173913e-05,
+      "loss": 0.0937,
+      "step": 4050
+    },
+    {
+      "epoch": 44.13,
+      "learning_rate": 2.3652173913043478e-05,
+      "loss": 0.1337,
+      "step": 4060
+    },
+    {
+      "epoch": 44.24,
+      "learning_rate": 2.3217391304347826e-05,
+      "loss": 0.2065,
+      "step": 4070
+    },
+    {
+      "epoch": 44.35,
+      "learning_rate": 2.2782608695652174e-05,
+      "loss": 0.0914,
+      "step": 4080
+    },
+    {
+      "epoch": 44.46,
+      "learning_rate": 2.2347826086956522e-05,
+      "loss": 0.1386,
+      "step": 4090
+    },
+    {
+      "epoch": 44.57,
+      "learning_rate": 2.191304347826087e-05,
+      "loss": 0.0491,
+      "step": 4100
+    },
+    {
+      "epoch": 44.57,
+      "eval_accuracy": 0.9769230769230769,
+      "eval_loss": 0.06600923091173172,
+      "eval_runtime": 1.8306,
+      "eval_samples_per_second": 142.027,
+      "eval_steps_per_second": 18.027,
+      "step": 4100
+    },
+    {
+      "epoch": 44.67,
+      "learning_rate": 2.1478260869565218e-05,
+      "loss": 0.0547,
+      "step": 4110
+    },
+    {
+      "epoch": 44.78,
+      "learning_rate": 2.104347826086957e-05,
+      "loss": 0.1547,
+      "step": 4120
+    },
+    {
+      "epoch": 44.89,
+      "learning_rate": 2.0608695652173913e-05,
+      "loss": 0.2631,
+      "step": 4130
+    },
+    {
+      "epoch": 45.0,
+      "learning_rate": 2.017391304347826e-05,
+      "loss": 0.0651,
+      "step": 4140
+    },
+    {
+      "epoch": 45.11,
+      "learning_rate": 1.973913043478261e-05,
+      "loss": 0.1835,
+      "step": 4150
+    },
+    {
+      "epoch": 45.22,
+      "learning_rate": 1.9304347826086957e-05,
+      "loss": 0.1625,
+      "step": 4160
+    },
+    {
+      "epoch": 45.33,
+      "learning_rate": 1.8869565217391305e-05,
+      "loss": 0.2268,
+      "step": 4170
+    },
+    {
+      "epoch": 45.43,
+      "learning_rate": 1.8434782608695653e-05,
+      "loss": 0.1337,
+      "step": 4180
+    },
+    {
+      "epoch": 45.54,
+      "learning_rate": 1.8e-05,
+      "loss": 0.1421,
+      "step": 4190
+    },
+    {
+      "epoch": 45.65,
+      "learning_rate": 1.756521739130435e-05,
+      "loss": 0.1034,
+      "step": 4200
+    },
+    {
+      "epoch": 45.65,
+      "eval_accuracy": 0.9807692307692307,
+      "eval_loss": 0.06976764649152756,
+      "eval_runtime": 2.2976,
+      "eval_samples_per_second": 113.162,
+      "eval_steps_per_second": 14.363,
+      "step": 4200
+    },
+    {
+      "epoch": 45.76,
+      "learning_rate": 1.7130434782608696e-05,
+      "loss": 0.0545,
+      "step": 4210
+    },
+    {
+      "epoch": 45.87,
+      "learning_rate": 1.6695652173913044e-05,
+      "loss": 0.2117,
+      "step": 4220
+    },
+    {
+      "epoch": 45.98,
+      "learning_rate": 1.6260869565217392e-05,
+      "loss": 0.1373,
+      "step": 4230
+    },
+    {
+      "epoch": 46.09,
+      "learning_rate": 1.582608695652174e-05,
+      "loss": 0.2125,
+      "step": 4240
+    },
+    {
+      "epoch": 46.2,
+      "learning_rate": 1.5391304347826088e-05,
+      "loss": 0.1378,
+      "step": 4250
+    },
+    {
+      "epoch": 46.3,
+      "learning_rate": 1.4956521739130436e-05,
+      "loss": 0.1553,
+      "step": 4260
+    },
+    {
+      "epoch": 46.41,
+      "learning_rate": 1.4521739130434783e-05,
+      "loss": 0.0898,
+      "step": 4270
+    },
+    {
+      "epoch": 46.52,
+      "learning_rate": 1.4086956521739131e-05,
+      "loss": 0.2507,
+      "step": 4280
+    },
+    {
+      "epoch": 46.63,
+      "learning_rate": 1.3652173913043479e-05,
+      "loss": 0.129,
+      "step": 4290
+    },
+    {
+      "epoch": 46.74,
+      "learning_rate": 1.3217391304347825e-05,
+      "loss": 0.0893,
+      "step": 4300
+    },
+    {
+      "epoch": 46.74,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.04389451816678047,
+      "eval_runtime": 2.1908,
+      "eval_samples_per_second": 118.681,
+      "eval_steps_per_second": 15.063,
+      "step": 4300
+    },
+    {
+      "epoch": 46.85,
+      "learning_rate": 1.2782608695652173e-05,
+      "loss": 0.1806,
+      "step": 4310
+    },
+    {
+      "epoch": 46.96,
+      "learning_rate": 1.2347826086956523e-05,
+      "loss": 0.0068,
+      "step": 4320
+    },
+    {
+      "epoch": 47.07,
+      "learning_rate": 1.191304347826087e-05,
+      "loss": 0.1044,
+      "step": 4330
+    },
+    {
+      "epoch": 47.17,
+      "learning_rate": 1.1478260869565217e-05,
+      "loss": 0.1536,
+      "step": 4340
+    },
+    {
+      "epoch": 47.28,
+      "learning_rate": 1.1043478260869566e-05,
+      "loss": 0.0993,
+      "step": 4350
+    },
+    {
+      "epoch": 47.39,
+      "learning_rate": 1.0608695652173914e-05,
+      "loss": 0.1052,
+      "step": 4360
+    },
+    {
+      "epoch": 47.5,
+      "learning_rate": 1.0173913043478262e-05,
+      "loss": 0.0869,
+      "step": 4370
+    },
+    {
+      "epoch": 47.61,
+      "learning_rate": 9.739130434782608e-06,
+      "loss": 0.1301,
+      "step": 4380
+    },
+    {
+      "epoch": 47.72,
+      "learning_rate": 9.304347826086956e-06,
+      "loss": 0.0556,
+      "step": 4390
+    },
+    {
+      "epoch": 47.83,
+      "learning_rate": 8.869565217391304e-06,
+      "loss": 0.1789,
+      "step": 4400
+    },
+    {
+      "epoch": 47.83,
+      "eval_accuracy": 0.9807692307692307,
+      "eval_loss": 0.05766405537724495,
+      "eval_runtime": 1.7993,
+      "eval_samples_per_second": 144.5,
+      "eval_steps_per_second": 18.34,
+      "step": 4400
+    },
+    {
+      "epoch": 47.93,
+      "learning_rate": 8.434782608695653e-06,
+      "loss": 0.0955,
+      "step": 4410
+    },
+    {
+      "epoch": 48.04,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.1019,
+      "step": 4420
+    },
+    {
+      "epoch": 48.15,
+      "learning_rate": 7.565217391304348e-06,
+      "loss": 0.1429,
+      "step": 4430
+    },
+    {
+      "epoch": 48.26,
+      "learning_rate": 7.130434782608695e-06,
+      "loss": 0.108,
+      "step": 4440
+    },
+    {
+      "epoch": 48.37,
+      "learning_rate": 6.695652173913043e-06,
+      "loss": 0.0836,
+      "step": 4450
+    },
+    {
+      "epoch": 48.48,
+      "learning_rate": 6.260869565217392e-06,
+      "loss": 0.1733,
+      "step": 4460
+    },
+    {
+      "epoch": 48.59,
+      "learning_rate": 5.82608695652174e-06,
+      "loss": 0.2102,
+      "step": 4470
+    },
+    {
+      "epoch": 48.7,
+      "learning_rate": 5.391304347826087e-06,
+      "loss": 0.1313,
+      "step": 4480
+    },
+    {
+      "epoch": 48.8,
+      "learning_rate": 4.956521739130435e-06,
+      "loss": 0.1631,
+      "step": 4490
+    },
+    {
+      "epoch": 48.91,
+      "learning_rate": 4.5217391304347826e-06,
+      "loss": 0.0569,
+      "step": 4500
+    },
+    {
+      "epoch": 48.91,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.054685913026332855,
+      "eval_runtime": 2.2625,
+      "eval_samples_per_second": 114.917,
+      "eval_steps_per_second": 14.586,
+      "step": 4500
+    },
+    {
+      "epoch": 49.02,
+      "learning_rate": 4.08695652173913e-06,
+      "loss": 0.0988,
+      "step": 4510
+    },
+    {
+      "epoch": 49.13,
+      "learning_rate": 3.6521739130434787e-06,
+      "loss": 0.1308,
+      "step": 4520
+    },
+    {
+      "epoch": 49.24,
+      "learning_rate": 3.217391304347826e-06,
+      "loss": 0.1696,
+      "step": 4530
+    },
+    {
+      "epoch": 49.35,
+      "learning_rate": 2.782608695652174e-06,
+      "loss": 0.1302,
+      "step": 4540
+    },
+    {
+      "epoch": 49.46,
+      "learning_rate": 2.347826086956522e-06,
+      "loss": 0.0954,
+      "step": 4550
+    },
+    {
+      "epoch": 49.57,
+      "learning_rate": 1.9130434782608697e-06,
+      "loss": 0.1856,
+      "step": 4560
+    },
+    {
+      "epoch": 49.67,
+      "learning_rate": 1.4782608695652174e-06,
+      "loss": 0.0849,
+      "step": 4570
+    },
+    {
+      "epoch": 49.78,
+      "learning_rate": 1.0434782608695653e-06,
+      "loss": 0.1334,
+      "step": 4580
+    },
+    {
+      "epoch": 49.89,
+      "learning_rate": 6.08695652173913e-07,
+      "loss": 0.1779,
+      "step": 4590
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 1.7391304347826088e-07,
+      "loss": 0.1113,
+      "step": 4600
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.06046212837100029,
+      "eval_runtime": 1.8739,
+      "eval_samples_per_second": 138.744,
+      "eval_steps_per_second": 17.61,
+      "step": 4600
+    },
+    {
+      "epoch": 50.0,
+      "step": 4600,
+      "total_flos": 1.8256530865176576e+18,
+      "train_loss": 0.3511605499069328,
+      "train_runtime": 996.2222,
+      "train_samples_per_second": 73.678,
+      "train_steps_per_second": 4.617
     }
   ],
   "logging_steps": 10,
+  "max_steps": 4600,
+  "num_train_epochs": 50,
   "save_steps": 100,
+  "total_flos": 1.8256530865176576e+18,
   "trial_name": null,
   "trial_params": null
 }