🍻 cheers

Browse files

Files changed (5) hide show

README.md +4 -3
all_results.json +11 -11
eval_results.json +6 -6
train_results.json +6 -6
trainer_state.json +472 -2380

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: microsoft/swin-tiny-patch4-window7-224
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -15,10 +16,10 @@ should probably proofread and complete it, then remove this comment. -->
 # swin-tiny-patch4-window7-224-finetuned_ASL_Isolated_Swin_dataset2
-This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0504
-- Accuracy: 0.9769
 ## Model description

 license: apache-2.0
 base_model: microsoft/swin-tiny-patch4-window7-224
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # swin-tiny-patch4-window7-224-finetuned_ASL_Isolated_Swin_dataset2
+This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on the ASL_Isolated_Swin_dataset dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0558
+- Accuracy: 0.9846
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 50.0,
-    "eval_accuracy": 0.9884615384615385,
-    "eval_loss": 0.12455728650093079,
-    "eval_runtime": 1.9696,
-    "eval_samples_per_second": 132.009,
-    "eval_steps_per_second": 16.755,
-    "total_flos": 1.8256530865176576e+18,
-    "train_loss": 0.3526626825786155,
-    "train_runtime": 995.2393,
-    "train_samples_per_second": 73.751,
-    "train_steps_per_second": 4.622
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.9846153846153847,
+    "eval_loss": 0.05584708973765373,
+    "eval_runtime": 2.0579,
+    "eval_samples_per_second": 126.342,
+    "eval_steps_per_second": 16.036,
+    "total_flos": 7.30261234607063e+17,
+    "train_loss": 0.5342570722103119,
+    "train_runtime": 409.3983,
+    "train_samples_per_second": 71.715,
+    "train_steps_per_second": 4.494
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 50.0,
-    "eval_accuracy": 0.9884615384615385,
-    "eval_loss": 0.12455728650093079,
-    "eval_runtime": 1.9696,
-    "eval_samples_per_second": 132.009,
-    "eval_steps_per_second": 16.755
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.9846153846153847,
+    "eval_loss": 0.05584708973765373,
+    "eval_runtime": 2.0579,
+    "eval_samples_per_second": 126.342,
+    "eval_steps_per_second": 16.036
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 50.0,
-    "total_flos": 1.8256530865176576e+18,
-    "train_loss": 0.3526626825786155,
-    "train_runtime": 995.2393,
-    "train_samples_per_second": 73.751,
-    "train_steps_per_second": 4.622
 }

 {
+    "epoch": 20.0,
+    "total_flos": 7.30261234607063e+17,
+    "train_loss": 0.5342570722103119,
+    "train_runtime": 409.3983,
+    "train_samples_per_second": 71.715,
+    "train_steps_per_second": 4.494
 }

trainer_state.json CHANGED Viewed

@@ -1,3202 +1,1294 @@
 {
-  "best_metric": 0.9884615384615385,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned_ASL_Isolated_Swin_dataset2/checkpoint-3600",
-  "epoch": 50.0,
   "eval_steps": 100,
-  "global_step": 4600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.11,
-      "learning_rate": 0.00019960869565217393,
-      "loss": 3.3054,
       "step": 10
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.00019917391304347828,
-      "loss": 3.1481,
       "step": 20
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.00019873913043478263,
-      "loss": 3.0688,
       "step": 30
     },
     {
       "epoch": 0.43,
-      "learning_rate": 0.00019830434782608695,
-      "loss": 2.7014,
       "step": 40
     },
     {
       "epoch": 0.54,
-      "learning_rate": 0.0001978695652173913,
-      "loss": 2.2834,
       "step": 50
     },
     {
       "epoch": 0.65,
-      "learning_rate": 0.00019743478260869564,
-      "loss": 2.0143,
       "step": 60
     },
     {
       "epoch": 0.76,
-      "learning_rate": 0.00019700000000000002,
-      "loss": 1.7308,
       "step": 70
     },
     {
       "epoch": 0.87,
-      "learning_rate": 0.0001966086956521739,
-      "loss": 1.5816,
       "step": 80
     },
     {
       "epoch": 0.98,
-      "learning_rate": 0.0001961739130434783,
-      "loss": 1.5232,
       "step": 90
     },
     {
       "epoch": 1.09,
-      "learning_rate": 0.00019573913043478263,
-      "loss": 1.4683,
       "step": 100
     },
     {
       "epoch": 1.09,
-      "eval_accuracy": 0.5692307692307692,
-      "eval_loss": 1.1744574308395386,
-      "eval_runtime": 1.9194,
-      "eval_samples_per_second": 135.456,
-      "eval_steps_per_second": 17.193,
       "step": 100
     },
     {
       "epoch": 1.2,
-      "learning_rate": 0.00019530434782608698,
-      "loss": 1.1985,
       "step": 110
     },
     {
       "epoch": 1.3,
-      "learning_rate": 0.0001948695652173913,
-      "loss": 1.2874,
       "step": 120
     },
     {
       "epoch": 1.41,
-      "learning_rate": 0.00019443478260869565,
-      "loss": 1.1879,
       "step": 130
     },
     {
       "epoch": 1.52,
-      "learning_rate": 0.000194,
-      "loss": 1.0703,
       "step": 140
     },
     {
       "epoch": 1.63,
-      "learning_rate": 0.00019356521739130435,
-      "loss": 0.935,
       "step": 150
     },
     {
       "epoch": 1.74,
-      "learning_rate": 0.0001931304347826087,
-      "loss": 1.003,
       "step": 160
     },
     {
       "epoch": 1.85,
-      "learning_rate": 0.00019269565217391304,
-      "loss": 0.8789,
       "step": 170
     },
     {
       "epoch": 1.96,
-      "learning_rate": 0.00019226086956521742,
-      "loss": 1.0651,
       "step": 180
     },
     {
       "epoch": 2.07,
-      "learning_rate": 0.00019182608695652177,
-      "loss": 1.106,
       "step": 190
     },
     {
       "epoch": 2.17,
-      "learning_rate": 0.00019139130434782611,
-      "loss": 1.0278,
       "step": 200
     },
     {
       "epoch": 2.17,
-      "eval_accuracy": 0.8384615384615385,
-      "eval_loss": 0.5679711103439331,
-      "eval_runtime": 2.3986,
-      "eval_samples_per_second": 108.398,
-      "eval_steps_per_second": 13.758,
       "step": 200
     },
     {
       "epoch": 2.28,
-      "learning_rate": 0.00019095652173913043,
-      "loss": 0.8058,
       "step": 210
     },
     {
       "epoch": 2.39,
-      "learning_rate": 0.00019052173913043478,
-      "loss": 1.0418,
       "step": 220
     },
     {
       "epoch": 2.5,
-      "learning_rate": 0.00019008695652173913,
-      "loss": 0.7689,
       "step": 230
     },
     {
       "epoch": 2.61,
-      "learning_rate": 0.00018965217391304348,
-      "loss": 1.0218,
       "step": 240
     },
     {
       "epoch": 2.72,
-      "learning_rate": 0.00018921739130434783,
-      "loss": 0.8868,
       "step": 250
     },
     {
       "epoch": 2.83,
-      "learning_rate": 0.00018878260869565217,
-      "loss": 0.7203,
       "step": 260
     },
     {
       "epoch": 2.93,
-      "learning_rate": 0.00018834782608695655,
-      "loss": 0.6535,
       "step": 270
     },
     {
       "epoch": 3.04,
-      "learning_rate": 0.0001879130434782609,
-      "loss": 0.7889,
       "step": 280
     },
     {
       "epoch": 3.15,
-      "learning_rate": 0.00018747826086956524,
-      "loss": 0.7151,
       "step": 290
     },
     {
       "epoch": 3.26,
-      "learning_rate": 0.00018704347826086957,
-      "loss": 0.6458,
       "step": 300
     },
     {
       "epoch": 3.26,
-      "eval_accuracy": 0.8807692307692307,
-      "eval_loss": 0.2887081503868103,
-      "eval_runtime": 2.4065,
-      "eval_samples_per_second": 108.039,
-      "eval_steps_per_second": 13.713,
       "step": 300
     },
     {
       "epoch": 3.37,
-      "learning_rate": 0.0001866086956521739,
-      "loss": 0.7461,
       "step": 310
     },
     {
       "epoch": 3.48,
-      "learning_rate": 0.00018617391304347826,
-      "loss": 0.9252,
       "step": 320
     },
     {
       "epoch": 3.59,
-      "learning_rate": 0.0001857391304347826,
-      "loss": 0.8101,
       "step": 330
     },
     {
       "epoch": 3.7,
-      "learning_rate": 0.00018530434782608696,
-      "loss": 0.6978,
       "step": 340
     },
     {
       "epoch": 3.8,
-      "learning_rate": 0.0001848695652173913,
-      "loss": 0.8036,
       "step": 350
     },
     {
       "epoch": 3.91,
-      "learning_rate": 0.00018443478260869568,
-      "loss": 0.8744,
       "step": 360
     },
     {
       "epoch": 4.02,
-      "learning_rate": 0.00018400000000000003,
-      "loss": 0.7999,
       "step": 370
     },
     {
       "epoch": 4.13,
-      "learning_rate": 0.00018356521739130438,
-      "loss": 0.6261,
       "step": 380
     },
     {
       "epoch": 4.24,
-      "learning_rate": 0.0001831304347826087,
-      "loss": 0.6083,
       "step": 390
     },
     {
       "epoch": 4.35,
-      "learning_rate": 0.00018269565217391304,
-      "loss": 0.6043,
       "step": 400
     },
     {
       "epoch": 4.35,
-      "eval_accuracy": 0.9384615384615385,
-      "eval_loss": 0.24507971107959747,
-      "eval_runtime": 2.5346,
-      "eval_samples_per_second": 102.582,
-      "eval_steps_per_second": 13.02,
       "step": 400
     },
     {
       "epoch": 4.46,
-      "learning_rate": 0.0001822608695652174,
-      "loss": 0.5909,
       "step": 410
     },
     {
       "epoch": 4.57,
-      "learning_rate": 0.00018182608695652174,
-      "loss": 0.6176,
       "step": 420
     },
     {
       "epoch": 4.67,
-      "learning_rate": 0.0001813913043478261,
-      "loss": 0.4938,
       "step": 430
     },
     {
       "epoch": 4.78,
-      "learning_rate": 0.00018095652173913044,
-      "loss": 0.6233,
       "step": 440
     },
     {
       "epoch": 4.89,
-      "learning_rate": 0.0001805217391304348,
-      "loss": 0.5976,
       "step": 450
     },
     {
       "epoch": 5.0,
-      "learning_rate": 0.00018008695652173916,
-      "loss": 0.6603,
       "step": 460
     },
     {
       "epoch": 5.11,
-      "learning_rate": 0.0001796521739130435,
-      "loss": 0.5788,
       "step": 470
     },
     {
       "epoch": 5.22,
-      "learning_rate": 0.00017921739130434783,
-      "loss": 0.5944,
       "step": 480
     },
     {
       "epoch": 5.33,
-      "learning_rate": 0.00017878260869565217,
-      "loss": 0.5945,
       "step": 490
     },
     {
       "epoch": 5.43,
-      "learning_rate": 0.00017834782608695652,
-      "loss": 0.5372,
       "step": 500
     },
     {
       "epoch": 5.43,
-      "eval_accuracy": 0.9230769230769231,
-      "eval_loss": 0.2226274162530899,
-      "eval_runtime": 1.8172,
-      "eval_samples_per_second": 143.077,
-      "eval_steps_per_second": 18.16,
       "step": 500
     },
     {
       "epoch": 5.54,
-      "learning_rate": 0.00017791304347826087,
-      "loss": 0.5606,
       "step": 510
     },
     {
       "epoch": 5.65,
-      "learning_rate": 0.00017747826086956522,
-      "loss": 0.6493,
       "step": 520
     },
     {
       "epoch": 5.76,
-      "learning_rate": 0.00017704347826086957,
-      "loss": 0.4905,
       "step": 530
     },
     {
       "epoch": 5.87,
-      "learning_rate": 0.00017660869565217394,
-      "loss": 0.8186,
       "step": 540
     },
     {
       "epoch": 5.98,
-      "learning_rate": 0.0001761739130434783,
-      "loss": 0.612,
       "step": 550
     },
     {
       "epoch": 6.09,
-      "learning_rate": 0.0001757391304347826,
-      "loss": 0.7152,
       "step": 560
     },
     {
       "epoch": 6.2,
-      "learning_rate": 0.00017530434782608696,
-      "loss": 0.5914,
       "step": 570
     },
     {
       "epoch": 6.3,
-      "learning_rate": 0.0001748695652173913,
-      "loss": 0.3955,
       "step": 580
     },
     {
       "epoch": 6.41,
-      "learning_rate": 0.00017443478260869565,
-      "loss": 0.5577,
       "step": 590
     },
     {
       "epoch": 6.52,
-      "learning_rate": 0.000174,
-      "loss": 0.4619,
       "step": 600
     },
     {
       "epoch": 6.52,
-      "eval_accuracy": 0.9115384615384615,
-      "eval_loss": 0.3454606533050537,
-      "eval_runtime": 2.2659,
-      "eval_samples_per_second": 114.745,
-      "eval_steps_per_second": 14.564,
       "step": 600
     },
     {
       "epoch": 6.63,
-      "learning_rate": 0.00017356521739130435,
-      "loss": 0.5097,
       "step": 610
     },
     {
       "epoch": 6.74,
-      "learning_rate": 0.0001731304347826087,
-      "loss": 0.4338,
       "step": 620
     },
     {
       "epoch": 6.85,
-      "learning_rate": 0.00017269565217391307,
-      "loss": 0.4486,
       "step": 630
     },
     {
       "epoch": 6.96,
-      "learning_rate": 0.00017226086956521742,
-      "loss": 0.5887,
       "step": 640
     },
     {
       "epoch": 7.07,
-      "learning_rate": 0.00017182608695652174,
-      "loss": 0.5752,
       "step": 650
     },
     {
       "epoch": 7.17,
-      "learning_rate": 0.0001713913043478261,
-      "loss": 0.4971,
       "step": 660
     },
     {
       "epoch": 7.28,
-      "learning_rate": 0.00017095652173913044,
-      "loss": 0.3792,
       "step": 670
     },
     {
       "epoch": 7.39,
-      "learning_rate": 0.00017052173913043478,
-      "loss": 0.2748,
       "step": 680
     },
     {
       "epoch": 7.5,
-      "learning_rate": 0.00017008695652173913,
-      "loss": 0.5585,
       "step": 690
     },
     {
       "epoch": 7.61,
-      "learning_rate": 0.00016965217391304348,
-      "loss": 0.5265,
       "step": 700
     },
     {
       "epoch": 7.61,
-      "eval_accuracy": 0.9153846153846154,
-      "eval_loss": 0.31777822971343994,
-      "eval_runtime": 1.8523,
-      "eval_samples_per_second": 140.366,
-      "eval_steps_per_second": 17.816,
       "step": 700
     },
     {
       "epoch": 7.72,
-      "learning_rate": 0.00016921739130434783,
-      "loss": 0.6863,
       "step": 710
     },
     {
       "epoch": 7.83,
-      "learning_rate": 0.0001687826086956522,
-      "loss": 0.3957,
       "step": 720
     },
     {
       "epoch": 7.93,
-      "learning_rate": 0.00016834782608695655,
-      "loss": 0.5072,
       "step": 730
     },
     {
       "epoch": 8.04,
-      "learning_rate": 0.00016791304347826087,
-      "loss": 0.4274,
       "step": 740
     },
     {
       "epoch": 8.15,
-      "learning_rate": 0.00016747826086956522,
-      "loss": 0.3224,
       "step": 750
     },
     {
       "epoch": 8.26,
-      "learning_rate": 0.00016704347826086957,
-      "loss": 0.5873,
       "step": 760
     },
     {
       "epoch": 8.37,
-      "learning_rate": 0.00016660869565217391,
-      "loss": 0.4524,
       "step": 770
     },
     {
       "epoch": 8.48,
-      "learning_rate": 0.00016617391304347826,
-      "loss": 0.3896,
       "step": 780
     },
     {
       "epoch": 8.59,
-      "learning_rate": 0.0001657391304347826,
-      "loss": 0.5826,
       "step": 790
     },
     {
       "epoch": 8.7,
-      "learning_rate": 0.00016530434782608696,
-      "loss": 0.284,
       "step": 800
     },
     {
       "epoch": 8.7,
-      "eval_accuracy": 0.8884615384615384,
-      "eval_loss": 0.44208580255508423,
-      "eval_runtime": 1.8545,
-      "eval_samples_per_second": 140.199,
-      "eval_steps_per_second": 17.795,
       "step": 800
     },
     {
       "epoch": 8.8,
-      "learning_rate": 0.0001648695652173913,
-      "loss": 0.4775,
       "step": 810
     },
     {
       "epoch": 8.91,
-      "learning_rate": 0.00016443478260869568,
-      "loss": 0.3023,
       "step": 820
     },
     {
       "epoch": 9.02,
-      "learning_rate": 0.000164,
-      "loss": 0.5154,
       "step": 830
     },
     {
       "epoch": 9.13,
-      "learning_rate": 0.00016356521739130435,
-      "loss": 0.4916,
       "step": 840
     },
     {
       "epoch": 9.24,
-      "learning_rate": 0.0001631304347826087,
-      "loss": 0.4106,
       "step": 850
     },
     {
       "epoch": 9.35,
-      "learning_rate": 0.00016269565217391305,
-      "loss": 0.2205,
       "step": 860
     },
     {
       "epoch": 9.46,
-      "learning_rate": 0.0001622608695652174,
-      "loss": 0.3173,
       "step": 870
     },
     {
       "epoch": 9.57,
-      "learning_rate": 0.00016182608695652174,
-      "loss": 0.5083,
       "step": 880
     },
     {
       "epoch": 9.67,
-      "learning_rate": 0.0001613913043478261,
-      "loss": 0.5707,
       "step": 890
     },
     {
       "epoch": 9.78,
-      "learning_rate": 0.00016095652173913044,
-      "loss": 0.4421,
       "step": 900
     },
     {
       "epoch": 9.78,
-      "eval_accuracy": 0.9307692307692308,
-      "eval_loss": 0.22608502209186554,
-      "eval_runtime": 2.0734,
-      "eval_samples_per_second": 125.399,
-      "eval_steps_per_second": 15.916,
       "step": 900
     },
     {
       "epoch": 9.89,
-      "learning_rate": 0.0001605217391304348,
-      "loss": 0.4098,
       "step": 910
     },
     {
       "epoch": 10.0,
-      "learning_rate": 0.00016008695652173913,
-      "loss": 0.4572,
       "step": 920
     },
     {
       "epoch": 10.11,
-      "learning_rate": 0.00015965217391304348,
-      "loss": 0.3418,
       "step": 930
     },
     {
       "epoch": 10.22,
-      "learning_rate": 0.00015921739130434783,
-      "loss": 0.2752,
       "step": 940
     },
     {
       "epoch": 10.33,
-      "learning_rate": 0.00015878260869565218,
-      "loss": 0.4817,
       "step": 950
     },
     {
       "epoch": 10.43,
-      "learning_rate": 0.00015834782608695652,
-      "loss": 0.5141,
       "step": 960
     },
     {
       "epoch": 10.54,
-      "learning_rate": 0.00015791304347826087,
-      "loss": 0.5455,
       "step": 970
     },
     {
       "epoch": 10.65,
-      "learning_rate": 0.00015747826086956522,
-      "loss": 0.3143,
       "step": 980
     },
     {
       "epoch": 10.76,
-      "learning_rate": 0.00015704347826086957,
-      "loss": 0.4953,
       "step": 990
     },
     {
       "epoch": 10.87,
-      "learning_rate": 0.00015660869565217394,
-      "loss": 0.3366,
       "step": 1000
     },
     {
       "epoch": 10.87,
-      "eval_accuracy": 0.9423076923076923,
-      "eval_loss": 0.20851510763168335,
-      "eval_runtime": 1.8573,
-      "eval_samples_per_second": 139.987,
-      "eval_steps_per_second": 17.768,
       "step": 1000
     },
     {
       "epoch": 10.98,
-      "learning_rate": 0.00015617391304347826,
-      "loss": 0.4971,
       "step": 1010
     },
     {
       "epoch": 11.09,
-      "learning_rate": 0.0001557391304347826,
-      "loss": 0.2471,
       "step": 1020
     },
     {
       "epoch": 11.2,
-      "learning_rate": 0.00015530434782608696,
-      "loss": 0.2852,
       "step": 1030
     },
     {
       "epoch": 11.3,
-      "learning_rate": 0.0001548695652173913,
-      "loss": 0.3441,
       "step": 1040
     },
     {
       "epoch": 11.41,
-      "learning_rate": 0.00015443478260869565,
-      "loss": 0.3399,
       "step": 1050
     },
     {
       "epoch": 11.52,
-      "learning_rate": 0.000154,
-      "loss": 0.6415,
       "step": 1060
     },
     {
       "epoch": 11.63,
-      "learning_rate": 0.00015356521739130435,
-      "loss": 0.4671,
       "step": 1070
     },
     {
       "epoch": 11.74,
-      "learning_rate": 0.0001531304347826087,
-      "loss": 0.3037,
       "step": 1080
     },
     {
       "epoch": 11.85,
-      "learning_rate": 0.00015273913043478262,
-      "loss": 0.2522,
       "step": 1090
     },
     {
       "epoch": 11.96,
-      "learning_rate": 0.00015230434782608697,
-      "loss": 0.4313,
       "step": 1100
     },
     {
       "epoch": 11.96,
-      "eval_accuracy": 0.9653846153846154,
-      "eval_loss": 0.19381502270698547,
-      "eval_runtime": 2.4428,
-      "eval_samples_per_second": 106.434,
-      "eval_steps_per_second": 13.509,
       "step": 1100
     },
     {
       "epoch": 12.07,
-      "learning_rate": 0.00015186956521739132,
-      "loss": 0.4242,
       "step": 1110
     },
     {
       "epoch": 12.17,
-      "learning_rate": 0.00015143478260869566,
-      "loss": 0.3869,
       "step": 1120
     },
     {
       "epoch": 12.28,
-      "learning_rate": 0.000151,
-      "loss": 0.3848,
       "step": 1130
     },
     {
       "epoch": 12.39,
-      "learning_rate": 0.00015056521739130436,
-      "loss": 0.3096,
       "step": 1140
     },
     {
       "epoch": 12.5,
-      "learning_rate": 0.0001501304347826087,
-      "loss": 0.3504,
       "step": 1150
     },
     {
       "epoch": 12.61,
-      "learning_rate": 0.00014969565217391305,
-      "loss": 0.4618,
       "step": 1160
     },
     {
       "epoch": 12.72,
-      "learning_rate": 0.0001492608695652174,
-      "loss": 0.422,
       "step": 1170
     },
     {
       "epoch": 12.83,
-      "learning_rate": 0.00014882608695652175,
-      "loss": 0.4747,
       "step": 1180
     },
     {
       "epoch": 12.93,
-      "learning_rate": 0.0001483913043478261,
-      "loss": 0.4213,
       "step": 1190
     },
     {
       "epoch": 13.04,
-      "learning_rate": 0.00014795652173913045,
-      "loss": 0.4708,
       "step": 1200
     },
     {
       "epoch": 13.04,
-      "eval_accuracy": 0.9615384615384616,
-      "eval_loss": 0.09830717742443085,
-      "eval_runtime": 1.8063,
-      "eval_samples_per_second": 143.943,
-      "eval_steps_per_second": 18.27,
       "step": 1200
     },
     {
       "epoch": 13.15,
-      "learning_rate": 0.0001475217391304348,
-      "loss": 0.4838,
       "step": 1210
     },
     {
       "epoch": 13.26,
-      "learning_rate": 0.00014708695652173914,
-      "loss": 0.2553,
       "step": 1220
     },
     {
       "epoch": 13.37,
-      "learning_rate": 0.0001466521739130435,
-      "loss": 0.4845,
       "step": 1230
     },
     {
       "epoch": 13.48,
-      "learning_rate": 0.00014621739130434784,
-      "loss": 0.392,
       "step": 1240
     },
     {
       "epoch": 13.59,
-      "learning_rate": 0.00014578260869565219,
-      "loss": 0.2566,
       "step": 1250
     },
     {
       "epoch": 13.7,
-      "learning_rate": 0.0001453478260869565,
-      "loss": 0.3421,
       "step": 1260
     },
     {
       "epoch": 13.8,
-      "learning_rate": 0.00014491304347826088,
-      "loss": 0.4546,
       "step": 1270
     },
     {
       "epoch": 13.91,
-      "learning_rate": 0.00014447826086956523,
-      "loss": 0.3361,
       "step": 1280
     },
     {
       "epoch": 14.02,
-      "learning_rate": 0.00014404347826086958,
-      "loss": 0.3381,
       "step": 1290
     },
     {
       "epoch": 14.13,
-      "learning_rate": 0.00014360869565217392,
-      "loss": 0.5222,
       "step": 1300
     },
     {
       "epoch": 14.13,
-      "eval_accuracy": 0.9384615384615385,
-      "eval_loss": 0.2471397966146469,
-      "eval_runtime": 2.6705,
-      "eval_samples_per_second": 97.36,
-      "eval_steps_per_second": 12.357,
       "step": 1300
     },
     {
       "epoch": 14.24,
-      "learning_rate": 0.00014317391304347827,
-      "loss": 0.358,
       "step": 1310
     },
     {
       "epoch": 14.35,
-      "learning_rate": 0.00014273913043478262,
-      "loss": 0.5186,
       "step": 1320
     },
     {
       "epoch": 14.46,
-      "learning_rate": 0.00014230434782608697,
-      "loss": 0.3595,
       "step": 1330
     },
     {
       "epoch": 14.57,
-      "learning_rate": 0.00014186956521739132,
-      "loss": 0.2905,
       "step": 1340
     },
     {
       "epoch": 14.67,
-      "learning_rate": 0.00014143478260869564,
-      "loss": 0.3964,
       "step": 1350
     },
     {
       "epoch": 14.78,
-      "learning_rate": 0.000141,
-      "loss": 0.4401,
       "step": 1360
     },
     {
       "epoch": 14.89,
-      "learning_rate": 0.00014056521739130436,
-      "loss": 0.4114,
       "step": 1370
     },
     {
       "epoch": 15.0,
-      "learning_rate": 0.0001401304347826087,
-      "loss": 0.3029,
       "step": 1380
     },
     {
       "epoch": 15.11,
-      "learning_rate": 0.00013969565217391306,
-      "loss": 0.2695,
       "step": 1390
     },
     {
       "epoch": 15.22,
-      "learning_rate": 0.0001392608695652174,
-      "loss": 0.4582,
       "step": 1400
     },
     {
       "epoch": 15.22,
-      "eval_accuracy": 0.9807692307692307,
-      "eval_loss": 0.09266785532236099,
-      "eval_runtime": 1.8003,
-      "eval_samples_per_second": 144.423,
-      "eval_steps_per_second": 18.331,
       "step": 1400
     },
     {
       "epoch": 15.33,
-      "learning_rate": 0.00013882608695652175,
-      "loss": 0.3313,
       "step": 1410
     },
     {
       "epoch": 15.43,
-      "learning_rate": 0.0001383913043478261,
-      "loss": 0.2894,
       "step": 1420
     },
     {
       "epoch": 15.54,
-      "learning_rate": 0.00013795652173913045,
-      "loss": 0.3195,
       "step": 1430
     },
     {
       "epoch": 15.65,
-      "learning_rate": 0.00013752173913043477,
-      "loss": 0.3371,
       "step": 1440
     },
     {
       "epoch": 15.76,
-      "learning_rate": 0.00013708695652173914,
-      "loss": 0.5094,
       "step": 1450
     },
     {
       "epoch": 15.87,
-      "learning_rate": 0.0001366521739130435,
-      "loss": 0.4538,
       "step": 1460
     },
     {
       "epoch": 15.98,
-      "learning_rate": 0.00013621739130434784,
-      "loss": 0.3469,
       "step": 1470
     },
     {
       "epoch": 16.09,
-      "learning_rate": 0.00013578260869565219,
-      "loss": 0.3314,
       "step": 1480
     },
     {
       "epoch": 16.2,
-      "learning_rate": 0.00013534782608695653,
-      "loss": 0.2637,
       "step": 1490
     },
     {
       "epoch": 16.3,
-      "learning_rate": 0.00013491304347826088,
-      "loss": 0.3018,
       "step": 1500
     },
     {
       "epoch": 16.3,
-      "eval_accuracy": 0.9384615384615385,
-      "eval_loss": 0.2099553942680359,
-      "eval_runtime": 2.662,
-      "eval_samples_per_second": 97.67,
-      "eval_steps_per_second": 12.397,
       "step": 1500
     },
     {
       "epoch": 16.41,
-      "learning_rate": 0.00013447826086956523,
-      "loss": 0.2024,
       "step": 1510
     },
     {
       "epoch": 16.52,
-      "learning_rate": 0.00013404347826086958,
-      "loss": 0.3111,
       "step": 1520
     },
     {
       "epoch": 16.63,
-      "learning_rate": 0.0001336086956521739,
-      "loss": 0.4285,
       "step": 1530
     },
     {
       "epoch": 16.74,
-      "learning_rate": 0.00013317391304347825,
-      "loss": 0.5108,
       "step": 1540
     },
     {
       "epoch": 16.85,
-      "learning_rate": 0.00013273913043478262,
-      "loss": 0.3297,
       "step": 1550
     },
     {
       "epoch": 16.96,
-      "learning_rate": 0.00013230434782608697,
-      "loss": 0.3104,
       "step": 1560
     },
     {
       "epoch": 17.07,
-      "learning_rate": 0.00013186956521739132,
-      "loss": 0.2415,
       "step": 1570
     },
     {
       "epoch": 17.17,
-      "learning_rate": 0.00013143478260869567,
-      "loss": 0.2966,
       "step": 1580
     },
     {
       "epoch": 17.28,
-      "learning_rate": 0.000131,
-      "loss": 0.332,
       "step": 1590
     },
     {
       "epoch": 17.39,
-      "learning_rate": 0.00013056521739130436,
-      "loss": 0.3666,
       "step": 1600
     },
     {
       "epoch": 17.39,
-      "eval_accuracy": 0.95,
-      "eval_loss": 0.268606036901474,
-      "eval_runtime": 1.8148,
-      "eval_samples_per_second": 143.265,
-      "eval_steps_per_second": 18.184,
       "step": 1600
     },
     {
       "epoch": 17.5,
-      "learning_rate": 0.0001301304347826087,
-      "loss": 0.2901,
       "step": 1610
     },
     {
       "epoch": 17.61,
-      "learning_rate": 0.00012969565217391303,
-      "loss": 0.3256,
       "step": 1620
     },
     {
       "epoch": 17.72,
-      "learning_rate": 0.00012926086956521738,
-      "loss": 0.3876,
       "step": 1630
     },
     {
       "epoch": 17.83,
-      "learning_rate": 0.00012882608695652175,
-      "loss": 0.248,
       "step": 1640
     },
     {
       "epoch": 17.93,
-      "learning_rate": 0.0001283913043478261,
-      "loss": 0.328,
       "step": 1650
     },
     {
       "epoch": 18.04,
-      "learning_rate": 0.00012795652173913045,
-      "loss": 0.1971,
       "step": 1660
     },
     {
       "epoch": 18.15,
-      "learning_rate": 0.0001275217391304348,
-      "loss": 0.2928,
       "step": 1670
     },
     {
       "epoch": 18.26,
-      "learning_rate": 0.00012708695652173914,
-      "loss": 0.2983,
       "step": 1680
     },
     {
       "epoch": 18.37,
-      "learning_rate": 0.0001266521739130435,
-      "loss": 0.2786,
       "step": 1690
     },
     {
       "epoch": 18.48,
-      "learning_rate": 0.00012621739130434784,
-      "loss": 0.2042,
       "step": 1700
     },
     {
       "epoch": 18.48,
-      "eval_accuracy": 0.95,
-      "eval_loss": 0.2468329817056656,
-      "eval_runtime": 2.6658,
-      "eval_samples_per_second": 97.532,
-      "eval_steps_per_second": 12.379,
       "step": 1700
     },
     {
       "epoch": 18.59,
-      "learning_rate": 0.00012578260869565216,
-      "loss": 0.393,
       "step": 1710
     },
     {
       "epoch": 18.7,
-      "learning_rate": 0.0001253478260869565,
-      "loss": 0.2358,
       "step": 1720
     },
     {
       "epoch": 18.8,
-      "learning_rate": 0.00012491304347826088,
-      "loss": 0.2882,
       "step": 1730
     },
     {
       "epoch": 18.91,
-      "learning_rate": 0.00012447826086956523,
-      "loss": 0.2829,
       "step": 1740
     },
     {
       "epoch": 19.02,
-      "learning_rate": 0.00012404347826086958,
-      "loss": 0.2133,
       "step": 1750
     },
     {
       "epoch": 19.13,
-      "learning_rate": 0.00012360869565217393,
-      "loss": 0.4416,
       "step": 1760
     },
     {
       "epoch": 19.24,
-      "learning_rate": 0.00012317391304347827,
-      "loss": 0.2759,
       "step": 1770
     },
     {
       "epoch": 19.35,
-      "learning_rate": 0.00012273913043478262,
-      "loss": 0.2461,
       "step": 1780
     },
     {
       "epoch": 19.46,
-      "learning_rate": 0.00012230434782608694,
-      "loss": 0.2832,
       "step": 1790
     },
     {
       "epoch": 19.57,
-      "learning_rate": 0.0001218695652173913,
-      "loss": 0.4278,
       "step": 1800
     },
     {
       "epoch": 19.57,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.1991642415523529,
-      "eval_runtime": 1.8414,
-      "eval_samples_per_second": 141.198,
-      "eval_steps_per_second": 17.921,
       "step": 1800
     },
     {
       "epoch": 19.67,
-      "learning_rate": 0.00012143478260869565,
-      "loss": 0.311,
       "step": 1810
     },
     {
       "epoch": 19.78,
-      "learning_rate": 0.000121,
-      "loss": 0.2397,
       "step": 1820
     },
     {
       "epoch": 19.89,
-      "learning_rate": 0.00012056521739130435,
-      "loss": 0.2212,
       "step": 1830
     },
     {
       "epoch": 20.0,
-      "learning_rate": 0.00012013043478260871,
-      "loss": 0.2397,
       "step": 1840
     },
     {
-      "epoch": 20.11,
-      "learning_rate": 0.00011969565217391306,
-      "loss": 0.4092,
-      "step": 1850
-    },
-    {
-      "epoch": 20.22,
-      "learning_rate": 0.0001192608695652174,
-      "loss": 0.2989,
-      "step": 1860
-    },
-    {
-      "epoch": 20.33,
-      "learning_rate": 0.00011882608695652175,
-      "loss": 0.4813,
-      "step": 1870
-    },
-    {
-      "epoch": 20.43,
-      "learning_rate": 0.00011839130434782609,
-      "loss": 0.0967,
-      "step": 1880
-    },
-    {
-      "epoch": 20.54,
-      "learning_rate": 0.00011795652173913044,
-      "loss": 0.2902,
-      "step": 1890
-    },
-    {
-      "epoch": 20.65,
-      "learning_rate": 0.00011752173913043478,
-      "loss": 0.2769,
-      "step": 1900
-    },
-    {
-      "epoch": 20.65,
-      "eval_accuracy": 0.95,
-      "eval_loss": 0.1938965767621994,
-      "eval_runtime": 2.5866,
-      "eval_samples_per_second": 100.519,
-      "eval_steps_per_second": 12.758,
-      "step": 1900
-    },
-    {
-      "epoch": 20.76,
-      "learning_rate": 0.00011708695652173913,
-      "loss": 0.443,
-      "step": 1910
-    },
-    {
-      "epoch": 20.87,
-      "learning_rate": 0.00011665217391304348,
-      "loss": 0.2882,
-      "step": 1920
-    },
-    {
-      "epoch": 20.98,
-      "learning_rate": 0.00011621739130434783,
-      "loss": 0.3616,
-      "step": 1930
-    },
-    {
-      "epoch": 21.09,
-      "learning_rate": 0.00011578260869565219,
-      "loss": 0.2436,
-      "step": 1940
-    },
-    {
-      "epoch": 21.2,
-      "learning_rate": 0.00011534782608695654,
-      "loss": 0.3428,
-      "step": 1950
-    },
-    {
-      "epoch": 21.3,
-      "learning_rate": 0.00011491304347826088,
-      "loss": 0.2317,
-      "step": 1960
-    },
-    {
-      "epoch": 21.41,
-      "learning_rate": 0.00011447826086956522,
-      "loss": 0.1838,
-      "step": 1970
-    },
-    {
-      "epoch": 21.52,
-      "learning_rate": 0.00011404347826086957,
-      "loss": 0.3383,
-      "step": 1980
-    },
-    {
-      "epoch": 21.63,
-      "learning_rate": 0.00011360869565217391,
-      "loss": 0.3384,
-      "step": 1990
-    },
-    {
-      "epoch": 21.74,
-      "learning_rate": 0.00011317391304347826,
-      "loss": 0.2471,
-      "step": 2000
-    },
-    {
-      "epoch": 21.74,
-      "eval_accuracy": 0.95,
-      "eval_loss": 0.17909857630729675,
-      "eval_runtime": 1.8343,
-      "eval_samples_per_second": 141.746,
-      "eval_steps_per_second": 17.991,
-      "step": 2000
-    },
-    {
-      "epoch": 21.85,
-      "learning_rate": 0.00011273913043478261,
-      "loss": 0.2243,
-      "step": 2010
-    },
-    {
-      "epoch": 21.96,
-      "learning_rate": 0.00011230434782608696,
-      "loss": 0.2756,
-      "step": 2020
-    },
-    {
-      "epoch": 22.07,
-      "learning_rate": 0.00011186956521739132,
-      "loss": 0.2575,
-      "step": 2030
-    },
-    {
-      "epoch": 22.17,
-      "learning_rate": 0.00011143478260869567,
-      "loss": 0.3987,
-      "step": 2040
-    },
-    {
-      "epoch": 22.28,
-      "learning_rate": 0.00011100000000000001,
-      "loss": 0.2974,
-      "step": 2050
-    },
-    {
-      "epoch": 22.39,
-      "learning_rate": 0.00011056521739130435,
-      "loss": 0.2818,
-      "step": 2060
-    },
-    {
-      "epoch": 22.5,
-      "learning_rate": 0.0001101304347826087,
-      "loss": 0.1453,
-      "step": 2070
-    },
-    {
-      "epoch": 22.61,
-      "learning_rate": 0.00010969565217391304,
-      "loss": 0.2972,
-      "step": 2080
-    },
-    {
-      "epoch": 22.72,
-      "learning_rate": 0.00010926086956521739,
-      "loss": 0.1785,
-      "step": 2090
-    },
-    {
-      "epoch": 22.83,
-      "learning_rate": 0.00010882608695652174,
-      "loss": 0.3054,
-      "step": 2100
-    },
-    {
-      "epoch": 22.83,
-      "eval_accuracy": 0.9615384615384616,
-      "eval_loss": 0.18149061501026154,
-      "eval_runtime": 2.3493,
-      "eval_samples_per_second": 110.67,
-      "eval_steps_per_second": 14.047,
-      "step": 2100
-    },
-    {
-      "epoch": 22.93,
-      "learning_rate": 0.00010839130434782609,
-      "loss": 0.2999,
-      "step": 2110
-    },
-    {
-      "epoch": 23.04,
-      "learning_rate": 0.00010795652173913045,
-      "loss": 0.1633,
-      "step": 2120
-    },
-    {
-      "epoch": 23.15,
-      "learning_rate": 0.0001075217391304348,
-      "loss": 0.3255,
-      "step": 2130
-    },
-    {
-      "epoch": 23.26,
-      "learning_rate": 0.00010708695652173915,
-      "loss": 0.2453,
-      "step": 2140
-    },
-    {
-      "epoch": 23.37,
-      "learning_rate": 0.00010665217391304348,
-      "loss": 0.4836,
-      "step": 2150
-    },
-    {
-      "epoch": 23.48,
-      "learning_rate": 0.00010621739130434783,
-      "loss": 0.1796,
-      "step": 2160
-    },
-    {
-      "epoch": 23.59,
-      "learning_rate": 0.00010578260869565218,
-      "loss": 0.1229,
-      "step": 2170
-    },
-    {
-      "epoch": 23.7,
-      "learning_rate": 0.00010534782608695652,
-      "loss": 0.4153,
-      "step": 2180
-    },
-    {
-      "epoch": 23.8,
-      "learning_rate": 0.00010491304347826087,
-      "loss": 0.2937,
-      "step": 2190
-    },
-    {
-      "epoch": 23.91,
-      "learning_rate": 0.00010447826086956522,
-      "loss": 0.4803,
-      "step": 2200
-    },
-    {
-      "epoch": 23.91,
-      "eval_accuracy": 0.95,
-      "eval_loss": 0.23987938463687897,
-      "eval_runtime": 1.8204,
-      "eval_samples_per_second": 142.824,
-      "eval_steps_per_second": 18.128,
-      "step": 2200
-    },
-    {
-      "epoch": 24.02,
-      "learning_rate": 0.00010404347826086958,
-      "loss": 0.1835,
-      "step": 2210
-    },
-    {
-      "epoch": 24.13,
-      "learning_rate": 0.00010360869565217393,
-      "loss": 0.2622,
-      "step": 2220
-    },
-    {
-      "epoch": 24.24,
-      "learning_rate": 0.00010317391304347828,
-      "loss": 0.2113,
-      "step": 2230
-    },
-    {
-      "epoch": 24.35,
-      "learning_rate": 0.00010273913043478261,
-      "loss": 0.1929,
-      "step": 2240
-    },
-    {
-      "epoch": 24.46,
-      "learning_rate": 0.00010230434782608696,
-      "loss": 0.483,
-      "step": 2250
-    },
-    {
-      "epoch": 24.57,
-      "learning_rate": 0.0001018695652173913,
-      "loss": 0.1994,
-      "step": 2260
-    },
-    {
-      "epoch": 24.67,
-      "learning_rate": 0.00010143478260869565,
-      "loss": 0.3179,
-      "step": 2270
-    },
-    {
-      "epoch": 24.78,
-      "learning_rate": 0.000101,
-      "loss": 0.2537,
-      "step": 2280
-    },
-    {
-      "epoch": 24.89,
-      "learning_rate": 0.00010056521739130435,
-      "loss": 0.3047,
-      "step": 2290
-    },
-    {
-      "epoch": 25.0,
-      "learning_rate": 0.00010013043478260871,
-      "loss": 0.218,
-      "step": 2300
-    },
-    {
-      "epoch": 25.0,
-      "eval_accuracy": 0.9461538461538461,
-      "eval_loss": 0.28188276290893555,
-      "eval_runtime": 2.2046,
-      "eval_samples_per_second": 117.936,
-      "eval_steps_per_second": 14.969,
-      "step": 2300
-    },
-    {
-      "epoch": 25.11,
-      "learning_rate": 9.969565217391305e-05,
-      "loss": 0.1038,
-      "step": 2310
-    },
-    {
-      "epoch": 25.22,
-      "learning_rate": 9.92608695652174e-05,
-      "loss": 0.2629,
-      "step": 2320
-    },
-    {
-      "epoch": 25.33,
-      "learning_rate": 9.882608695652174e-05,
-      "loss": 0.2938,
-      "step": 2330
-    },
-    {
-      "epoch": 25.43,
-      "learning_rate": 9.83913043478261e-05,
-      "loss": 0.2453,
-      "step": 2340
-    },
-    {
-      "epoch": 25.54,
-      "learning_rate": 9.795652173913044e-05,
-      "loss": 0.2449,
-      "step": 2350
-    },
-    {
-      "epoch": 25.65,
-      "learning_rate": 9.752173913043478e-05,
-      "loss": 0.355,
-      "step": 2360
-    },
-    {
-      "epoch": 25.76,
-      "learning_rate": 9.708695652173913e-05,
-      "loss": 0.199,
-      "step": 2370
-    },
-    {
-      "epoch": 25.87,
-      "learning_rate": 9.665217391304348e-05,
-      "loss": 0.3433,
-      "step": 2380
-    },
-    {
-      "epoch": 25.98,
-      "learning_rate": 9.621739130434783e-05,
-      "loss": 0.2047,
-      "step": 2390
-    },
-    {
-      "epoch": 26.09,
-      "learning_rate": 9.578260869565218e-05,
-      "loss": 0.1858,
-      "step": 2400
-    },
-    {
-      "epoch": 26.09,
-      "eval_accuracy": 0.9769230769230769,
-      "eval_loss": 0.20682699978351593,
-      "eval_runtime": 1.9198,
-      "eval_samples_per_second": 135.43,
-      "eval_steps_per_second": 17.189,
-      "step": 2400
-    },
-    {
-      "epoch": 26.2,
-      "learning_rate": 9.534782608695652e-05,
-      "loss": 0.2261,
-      "step": 2410
-    },
-    {
-      "epoch": 26.3,
-      "learning_rate": 9.491304347826087e-05,
-      "loss": 0.2663,
-      "step": 2420
-    },
-    {
-      "epoch": 26.41,
-      "learning_rate": 9.447826086956523e-05,
-      "loss": 0.209,
-      "step": 2430
-    },
-    {
-      "epoch": 26.52,
-      "learning_rate": 9.404347826086957e-05,
-      "loss": 0.1664,
-      "step": 2440
-    },
-    {
-      "epoch": 26.63,
-      "learning_rate": 9.360869565217392e-05,
-      "loss": 0.2993,
-      "step": 2450
-    },
-    {
-      "epoch": 26.74,
-      "learning_rate": 9.317391304347826e-05,
-      "loss": 0.1812,
-      "step": 2460
-    },
-    {
-      "epoch": 26.85,
-      "learning_rate": 9.273913043478261e-05,
-      "loss": 0.3832,
-      "step": 2470
-    },
-    {
-      "epoch": 26.96,
-      "learning_rate": 9.230434782608696e-05,
-      "loss": 0.2746,
-      "step": 2480
-    },
-    {
-      "epoch": 27.07,
-      "learning_rate": 9.186956521739131e-05,
-      "loss": 0.2398,
-      "step": 2490
-    },
-    {
-      "epoch": 27.17,
-      "learning_rate": 9.143478260869566e-05,
-      "loss": 0.214,
-      "step": 2500
-    },
-    {
-      "epoch": 27.17,
-      "eval_accuracy": 0.9461538461538461,
-      "eval_loss": 0.2683180868625641,
-      "eval_runtime": 1.97,
-      "eval_samples_per_second": 131.981,
-      "eval_steps_per_second": 16.751,
-      "step": 2500
-    },
-    {
-      "epoch": 27.28,
-      "learning_rate": 9.1e-05,
-      "loss": 0.3322,
-      "step": 2510
-    },
-    {
-      "epoch": 27.39,
-      "learning_rate": 9.056521739130435e-05,
-      "loss": 0.1819,
-      "step": 2520
-    },
-    {
-      "epoch": 27.5,
-      "learning_rate": 9.01304347826087e-05,
-      "loss": 0.358,
-      "step": 2530
-    },
-    {
-      "epoch": 27.61,
-      "learning_rate": 8.969565217391305e-05,
-      "loss": 0.1992,
-      "step": 2540
-    },
-    {
-      "epoch": 27.72,
-      "learning_rate": 8.92608695652174e-05,
-      "loss": 0.2446,
-      "step": 2550
-    },
-    {
-      "epoch": 27.83,
-      "learning_rate": 8.882608695652174e-05,
-      "loss": 0.2713,
-      "step": 2560
-    },
-    {
-      "epoch": 27.93,
-      "learning_rate": 8.839130434782609e-05,
-      "loss": 0.1827,
-      "step": 2570
-    },
-    {
-      "epoch": 28.04,
-      "learning_rate": 8.795652173913044e-05,
-      "loss": 0.3405,
-      "step": 2580
-    },
-    {
-      "epoch": 28.15,
-      "learning_rate": 8.752173913043479e-05,
-      "loss": 0.3026,
-      "step": 2590
-    },
-    {
-      "epoch": 28.26,
-      "learning_rate": 8.708695652173913e-05,
-      "loss": 0.2532,
-      "step": 2600
-    },
-    {
-      "epoch": 28.26,
-      "eval_accuracy": 0.9615384615384616,
-      "eval_loss": 0.13641561567783356,
-      "eval_runtime": 1.8692,
-      "eval_samples_per_second": 139.096,
-      "eval_steps_per_second": 17.654,
-      "step": 2600
-    },
-    {
-      "epoch": 28.37,
-      "learning_rate": 8.665217391304348e-05,
-      "loss": 0.298,
-      "step": 2610
-    },
-    {
-      "epoch": 28.48,
-      "learning_rate": 8.621739130434783e-05,
-      "loss": 0.1697,
-      "step": 2620
-    },
-    {
-      "epoch": 28.59,
-      "learning_rate": 8.578260869565218e-05,
-      "loss": 0.1527,
-      "step": 2630
-    },
-    {
-      "epoch": 28.7,
-      "learning_rate": 8.534782608695653e-05,
-      "loss": 0.1777,
-      "step": 2640
-    },
-    {
-      "epoch": 28.8,
-      "learning_rate": 8.491304347826087e-05,
-      "loss": 0.212,
-      "step": 2650
-    },
-    {
-      "epoch": 28.91,
-      "learning_rate": 8.447826086956522e-05,
-      "loss": 0.3394,
-      "step": 2660
-    },
-    {
-      "epoch": 29.02,
-      "learning_rate": 8.404347826086957e-05,
-      "loss": 0.1577,
-      "step": 2670
-    },
-    {
-      "epoch": 29.13,
-      "learning_rate": 8.360869565217392e-05,
-      "loss": 0.2502,
-      "step": 2680
-    },
-    {
-      "epoch": 29.24,
-      "learning_rate": 8.317391304347826e-05,
-      "loss": 0.2463,
-      "step": 2690
-    },
-    {
-      "epoch": 29.35,
-      "learning_rate": 8.273913043478261e-05,
-      "loss": 0.2021,
-      "step": 2700
-    },
-    {
-      "epoch": 29.35,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.15067297220230103,
-      "eval_runtime": 1.8314,
-      "eval_samples_per_second": 141.965,
-      "eval_steps_per_second": 18.019,
-      "step": 2700
-    },
-    {
-      "epoch": 29.46,
-      "learning_rate": 8.230434782608696e-05,
-      "loss": 0.204,
-      "step": 2710
-    },
-    {
-      "epoch": 29.57,
-      "learning_rate": 8.186956521739131e-05,
-      "loss": 0.2408,
-      "step": 2720
-    },
-    {
-      "epoch": 29.67,
-      "learning_rate": 8.143478260869566e-05,
-      "loss": 0.1918,
-      "step": 2730
-    },
-    {
-      "epoch": 29.78,
-      "learning_rate": 8.1e-05,
-      "loss": 0.1922,
-      "step": 2740
-    },
-    {
-      "epoch": 29.89,
-      "learning_rate": 8.056521739130435e-05,
-      "loss": 0.1565,
-      "step": 2750
-    },
-    {
-      "epoch": 30.0,
-      "learning_rate": 8.01304347826087e-05,
-      "loss": 0.1015,
-      "step": 2760
-    },
-    {
-      "epoch": 30.11,
-      "learning_rate": 7.969565217391305e-05,
-      "loss": 0.267,
-      "step": 2770
-    },
-    {
-      "epoch": 30.22,
-      "learning_rate": 7.92608695652174e-05,
-      "loss": 0.1925,
-      "step": 2780
-    },
-    {
-      "epoch": 30.33,
-      "learning_rate": 7.882608695652174e-05,
-      "loss": 0.189,
-      "step": 2790
-    },
-    {
-      "epoch": 30.43,
-      "learning_rate": 7.839130434782609e-05,
-      "loss": 0.1794,
-      "step": 2800
-    },
-    {
-      "epoch": 30.43,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14496548473834991,
-      "eval_runtime": 1.8418,
-      "eval_samples_per_second": 141.168,
-      "eval_steps_per_second": 17.917,
-      "step": 2800
-    },
-    {
-      "epoch": 30.54,
-      "learning_rate": 7.795652173913044e-05,
-      "loss": 0.2747,
-      "step": 2810
-    },
-    {
-      "epoch": 30.65,
-      "learning_rate": 7.752173913043479e-05,
-      "loss": 0.2668,
-      "step": 2820
-    },
-    {
-      "epoch": 30.76,
-      "learning_rate": 7.708695652173913e-05,
-      "loss": 0.4758,
-      "step": 2830
-    },
-    {
-      "epoch": 30.87,
-      "learning_rate": 7.665217391304348e-05,
-      "loss": 0.1839,
-      "step": 2840
-    },
-    {
-      "epoch": 30.98,
-      "learning_rate": 7.621739130434783e-05,
-      "loss": 0.3076,
-      "step": 2850
-    },
-    {
-      "epoch": 31.09,
-      "learning_rate": 7.578260869565218e-05,
-      "loss": 0.1099,
-      "step": 2860
-    },
-    {
-      "epoch": 31.2,
-      "learning_rate": 7.534782608695653e-05,
-      "loss": 0.2545,
-      "step": 2870
-    },
-    {
-      "epoch": 31.3,
-      "learning_rate": 7.491304347826087e-05,
-      "loss": 0.2875,
-      "step": 2880
-    },
-    {
-      "epoch": 31.41,
-      "learning_rate": 7.447826086956522e-05,
-      "loss": 0.183,
-      "step": 2890
-    },
-    {
-      "epoch": 31.52,
-      "learning_rate": 7.404347826086957e-05,
-      "loss": 0.1263,
-      "step": 2900
-    },
-    {
-      "epoch": 31.52,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.15624746680259705,
-      "eval_runtime": 1.8016,
-      "eval_samples_per_second": 144.316,
-      "eval_steps_per_second": 18.317,
-      "step": 2900
-    },
-    {
-      "epoch": 31.63,
-      "learning_rate": 7.360869565217392e-05,
-      "loss": 0.2734,
-      "step": 2910
-    },
-    {
-      "epoch": 31.74,
-      "learning_rate": 7.317391304347827e-05,
-      "loss": 0.2466,
-      "step": 2920
-    },
-    {
-      "epoch": 31.85,
-      "learning_rate": 7.273913043478261e-05,
-      "loss": 0.2409,
-      "step": 2930
-    },
-    {
-      "epoch": 31.96,
-      "learning_rate": 7.230434782608696e-05,
-      "loss": 0.1569,
-      "step": 2940
-    },
-    {
-      "epoch": 32.07,
-      "learning_rate": 7.186956521739131e-05,
-      "loss": 0.1666,
-      "step": 2950
-    },
-    {
-      "epoch": 32.17,
-      "learning_rate": 7.143478260869566e-05,
-      "loss": 0.1791,
-      "step": 2960
-    },
-    {
-      "epoch": 32.28,
-      "learning_rate": 7.1e-05,
-      "loss": 0.2163,
-      "step": 2970
-    },
-    {
-      "epoch": 32.39,
-      "learning_rate": 7.056521739130435e-05,
-      "loss": 0.1386,
-      "step": 2980
-    },
-    {
-      "epoch": 32.5,
-      "learning_rate": 7.01304347826087e-05,
-      "loss": 0.2482,
-      "step": 2990
-    },
-    {
-      "epoch": 32.61,
-      "learning_rate": 6.969565217391305e-05,
-      "loss": 0.1298,
-      "step": 3000
-    },
-    {
-      "epoch": 32.61,
-      "eval_accuracy": 0.9807692307692307,
-      "eval_loss": 0.10777488350868225,
-      "eval_runtime": 1.8606,
-      "eval_samples_per_second": 139.737,
-      "eval_steps_per_second": 17.736,
-      "step": 3000
-    },
-    {
-      "epoch": 32.72,
-      "learning_rate": 6.92608695652174e-05,
-      "loss": 0.191,
-      "step": 3010
-    },
-    {
-      "epoch": 32.83,
-      "learning_rate": 6.882608695652174e-05,
-      "loss": 0.1915,
-      "step": 3020
-    },
-    {
-      "epoch": 32.93,
-      "learning_rate": 6.839130434782609e-05,
-      "loss": 0.3359,
-      "step": 3030
-    },
-    {
-      "epoch": 33.04,
-      "learning_rate": 6.795652173913044e-05,
-      "loss": 0.0779,
-      "step": 3040
-    },
-    {
-      "epoch": 33.15,
-      "learning_rate": 6.752173913043479e-05,
-      "loss": 0.2502,
-      "step": 3050
-    },
-    {
-      "epoch": 33.26,
-      "learning_rate": 6.708695652173914e-05,
-      "loss": 0.2406,
-      "step": 3060
-    },
-    {
-      "epoch": 33.37,
-      "learning_rate": 6.665217391304348e-05,
-      "loss": 0.2338,
-      "step": 3070
-    },
-    {
-      "epoch": 33.48,
-      "learning_rate": 6.621739130434783e-05,
-      "loss": 0.1917,
-      "step": 3080
-    },
-    {
-      "epoch": 33.59,
-      "learning_rate": 6.578260869565218e-05,
-      "loss": 0.2137,
-      "step": 3090
-    },
-    {
-      "epoch": 33.7,
-      "learning_rate": 6.534782608695653e-05,
-      "loss": 0.1883,
-      "step": 3100
-    },
-    {
-      "epoch": 33.7,
-      "eval_accuracy": 0.9846153846153847,
-      "eval_loss": 0.07627514749765396,
-      "eval_runtime": 1.8071,
-      "eval_samples_per_second": 143.881,
-      "eval_steps_per_second": 18.262,
-      "step": 3100
-    },
-    {
-      "epoch": 33.8,
-      "learning_rate": 6.491304347826087e-05,
-      "loss": 0.1658,
-      "step": 3110
-    },
-    {
-      "epoch": 33.91,
-      "learning_rate": 6.447826086956522e-05,
-      "loss": 0.1709,
-      "step": 3120
-    },
-    {
-      "epoch": 34.02,
-      "learning_rate": 6.404347826086957e-05,
-      "loss": 0.1934,
-      "step": 3130
-    },
-    {
-      "epoch": 34.13,
-      "learning_rate": 6.36086956521739e-05,
-      "loss": 0.1042,
-      "step": 3140
-    },
-    {
-      "epoch": 34.24,
-      "learning_rate": 6.317391304347827e-05,
-      "loss": 0.1438,
-      "step": 3150
-    },
-    {
-      "epoch": 34.35,
-      "learning_rate": 6.273913043478261e-05,
-      "loss": 0.1592,
-      "step": 3160
-    },
-    {
-      "epoch": 34.46,
-      "learning_rate": 6.230434782608696e-05,
-      "loss": 0.3535,
-      "step": 3170
-    },
-    {
-      "epoch": 34.57,
-      "learning_rate": 6.186956521739131e-05,
-      "loss": 0.1521,
-      "step": 3180
-    },
-    {
-      "epoch": 34.67,
-      "learning_rate": 6.143478260869566e-05,
-      "loss": 0.2928,
-      "step": 3190
-    },
-    {
-      "epoch": 34.78,
-      "learning_rate": 6.1e-05,
-      "loss": 0.1773,
-      "step": 3200
-    },
-    {
-      "epoch": 34.78,
-      "eval_accuracy": 0.9846153846153847,
-      "eval_loss": 0.07703894376754761,
-      "eval_runtime": 1.8178,
-      "eval_samples_per_second": 143.029,
-      "eval_steps_per_second": 18.154,
-      "step": 3200
-    },
-    {
-      "epoch": 34.89,
-      "learning_rate": 6.056521739130435e-05,
-      "loss": 0.1186,
-      "step": 3210
-    },
-    {
-      "epoch": 35.0,
-      "learning_rate": 6.01304347826087e-05,
-      "loss": 0.1795,
-      "step": 3220
-    },
-    {
-      "epoch": 35.11,
-      "learning_rate": 5.969565217391304e-05,
-      "loss": 0.1586,
-      "step": 3230
-    },
-    {
-      "epoch": 35.22,
-      "learning_rate": 5.926086956521739e-05,
-      "loss": 0.2032,
-      "step": 3240
-    },
-    {
-      "epoch": 35.33,
-      "learning_rate": 5.8826086956521745e-05,
-      "loss": 0.1276,
-      "step": 3250
-    },
-    {
-      "epoch": 35.43,
-      "learning_rate": 5.839130434782609e-05,
-      "loss": 0.1245,
-      "step": 3260
-    },
-    {
-      "epoch": 35.54,
-      "learning_rate": 5.795652173913044e-05,
-      "loss": 0.1988,
-      "step": 3270
-    },
-    {
-      "epoch": 35.65,
-      "learning_rate": 5.752173913043478e-05,
-      "loss": 0.0685,
-      "step": 3280
-    },
-    {
-      "epoch": 35.76,
-      "learning_rate": 5.708695652173913e-05,
-      "loss": 0.2522,
-      "step": 3290
-    },
-    {
-      "epoch": 35.87,
-      "learning_rate": 5.6652173913043484e-05,
-      "loss": 0.1491,
-      "step": 3300
-    },
-    {
-      "epoch": 35.87,
-      "eval_accuracy": 0.9846153846153847,
-      "eval_loss": 0.09560323506593704,
-      "eval_runtime": 1.8328,
-      "eval_samples_per_second": 141.861,
-      "eval_steps_per_second": 18.005,
-      "step": 3300
-    },
-    {
-      "epoch": 35.98,
-      "learning_rate": 5.621739130434783e-05,
-      "loss": 0.1288,
-      "step": 3310
-    },
-    {
-      "epoch": 36.09,
-      "learning_rate": 5.578260869565217e-05,
-      "loss": 0.2158,
-      "step": 3320
-    },
-    {
-      "epoch": 36.2,
-      "learning_rate": 5.534782608695652e-05,
-      "loss": 0.2777,
-      "step": 3330
-    },
-    {
-      "epoch": 36.3,
-      "learning_rate": 5.495652173913044e-05,
-      "loss": 0.1669,
-      "step": 3340
-    },
-    {
-      "epoch": 36.41,
-      "learning_rate": 5.452173913043479e-05,
-      "loss": 0.1559,
-      "step": 3350
-    },
-    {
-      "epoch": 36.52,
-      "learning_rate": 5.408695652173913e-05,
-      "loss": 0.3045,
-      "step": 3360
-    },
-    {
-      "epoch": 36.63,
-      "learning_rate": 5.365217391304348e-05,
-      "loss": 0.1495,
-      "step": 3370
-    },
-    {
-      "epoch": 36.74,
-      "learning_rate": 5.321739130434783e-05,
-      "loss": 0.0966,
-      "step": 3380
-    },
-    {
-      "epoch": 36.85,
-      "learning_rate": 5.278260869565218e-05,
-      "loss": 0.1606,
-      "step": 3390
-    },
-    {
-      "epoch": 36.96,
-      "learning_rate": 5.234782608695652e-05,
-      "loss": 0.1866,
-      "step": 3400
-    },
-    {
-      "epoch": 36.96,
-      "eval_accuracy": 0.9846153846153847,
-      "eval_loss": 0.11623835563659668,
-      "eval_runtime": 1.8358,
-      "eval_samples_per_second": 141.631,
-      "eval_steps_per_second": 17.976,
-      "step": 3400
-    },
-    {
-      "epoch": 37.07,
-      "learning_rate": 5.191304347826087e-05,
-      "loss": 0.1166,
-      "step": 3410
-    },
-    {
-      "epoch": 37.17,
-      "learning_rate": 5.147826086956522e-05,
-      "loss": 0.1632,
-      "step": 3420
-    },
-    {
-      "epoch": 37.28,
-      "learning_rate": 5.104347826086957e-05,
-      "loss": 0.3038,
-      "step": 3430
-    },
-    {
-      "epoch": 37.39,
-      "learning_rate": 5.060869565217392e-05,
-      "loss": 0.1259,
-      "step": 3440
-    },
-    {
-      "epoch": 37.5,
-      "learning_rate": 5.017391304347826e-05,
-      "loss": 0.1906,
-      "step": 3450
-    },
-    {
-      "epoch": 37.61,
-      "learning_rate": 4.973913043478261e-05,
-      "loss": 0.1809,
-      "step": 3460
-    },
-    {
-      "epoch": 37.72,
-      "learning_rate": 4.930434782608696e-05,
-      "loss": 0.1133,
-      "step": 3470
-    },
-    {
-      "epoch": 37.83,
-      "learning_rate": 4.8869565217391305e-05,
-      "loss": 0.2476,
-      "step": 3480
-    },
-    {
-      "epoch": 37.93,
-      "learning_rate": 4.843478260869565e-05,
-      "loss": 0.2042,
-      "step": 3490
-    },
-    {
-      "epoch": 38.04,
-      "learning_rate": 4.8e-05,
-      "loss": 0.1269,
-      "step": 3500
-    },
-    {
-      "epoch": 38.04,
-      "eval_accuracy": 0.9769230769230769,
-      "eval_loss": 0.13658243417739868,
-      "eval_runtime": 1.8465,
-      "eval_samples_per_second": 140.804,
-      "eval_steps_per_second": 17.871,
-      "step": 3500
-    },
-    {
-      "epoch": 38.15,
-      "learning_rate": 4.756521739130435e-05,
-      "loss": 0.244,
-      "step": 3510
-    },
-    {
-      "epoch": 38.26,
-      "learning_rate": 4.71304347826087e-05,
-      "loss": 0.1274,
-      "step": 3520
-    },
-    {
-      "epoch": 38.37,
-      "learning_rate": 4.6695652173913045e-05,
-      "loss": 0.175,
-      "step": 3530
-    },
-    {
-      "epoch": 38.48,
-      "learning_rate": 4.62608695652174e-05,
-      "loss": 0.2629,
-      "step": 3540
-    },
-    {
-      "epoch": 38.59,
-      "learning_rate": 4.582608695652174e-05,
-      "loss": 0.1863,
-      "step": 3550
-    },
-    {
-      "epoch": 38.7,
-      "learning_rate": 4.539130434782609e-05,
-      "loss": 0.1337,
-      "step": 3560
-    },
-    {
-      "epoch": 38.8,
-      "learning_rate": 4.4956521739130436e-05,
-      "loss": 0.1694,
-      "step": 3570
-    },
-    {
-      "epoch": 38.91,
-      "learning_rate": 4.4521739130434784e-05,
-      "loss": 0.1895,
-      "step": 3580
-    },
-    {
-      "epoch": 39.02,
-      "learning_rate": 4.408695652173913e-05,
-      "loss": 0.1817,
-      "step": 3590
-    },
-    {
-      "epoch": 39.13,
-      "learning_rate": 4.365217391304348e-05,
-      "loss": 0.1498,
-      "step": 3600
-    },
-    {
-      "epoch": 39.13,
-      "eval_accuracy": 0.9884615384615385,
-      "eval_loss": 0.12455728650093079,
-      "eval_runtime": 1.8064,
-      "eval_samples_per_second": 143.932,
-      "eval_steps_per_second": 18.268,
-      "step": 3600
-    },
-    {
-      "epoch": 39.24,
-      "learning_rate": 4.321739130434783e-05,
-      "loss": 0.1889,
-      "step": 3610
-    },
-    {
-      "epoch": 39.35,
-      "learning_rate": 4.2782608695652176e-05,
-      "loss": 0.2648,
-      "step": 3620
-    },
-    {
-      "epoch": 39.46,
-      "learning_rate": 4.2347826086956523e-05,
-      "loss": 0.1157,
-      "step": 3630
-    },
-    {
-      "epoch": 39.57,
-      "learning_rate": 4.191304347826087e-05,
-      "loss": 0.2186,
-      "step": 3640
-    },
-    {
-      "epoch": 39.67,
-      "learning_rate": 4.147826086956522e-05,
-      "loss": 0.1046,
-      "step": 3650
-    },
-    {
-      "epoch": 39.78,
-      "learning_rate": 4.104347826086957e-05,
-      "loss": 0.0709,
-      "step": 3660
-    },
-    {
-      "epoch": 39.89,
-      "learning_rate": 4.0608695652173915e-05,
-      "loss": 0.1139,
-      "step": 3670
-    },
-    {
-      "epoch": 40.0,
-      "learning_rate": 4.017391304347826e-05,
-      "loss": 0.114,
-      "step": 3680
-    },
-    {
-      "epoch": 40.11,
-      "learning_rate": 3.973913043478261e-05,
-      "loss": 0.2728,
-      "step": 3690
-    },
-    {
-      "epoch": 40.22,
-      "learning_rate": 3.930434782608696e-05,
-      "loss": 0.1981,
-      "step": 3700
-    },
-    {
-      "epoch": 40.22,
-      "eval_accuracy": 0.9807692307692307,
-      "eval_loss": 0.09199390560388565,
-      "eval_runtime": 1.826,
-      "eval_samples_per_second": 142.387,
-      "eval_steps_per_second": 18.072,
-      "step": 3700
-    },
-    {
-      "epoch": 40.33,
-      "learning_rate": 3.8869565217391306e-05,
-      "loss": 0.2243,
-      "step": 3710
-    },
-    {
-      "epoch": 40.43,
-      "learning_rate": 3.8434782608695654e-05,
-      "loss": 0.1076,
-      "step": 3720
-    },
-    {
-      "epoch": 40.54,
-      "learning_rate": 3.8e-05,
-      "loss": 0.1188,
-      "step": 3730
-    },
-    {
-      "epoch": 40.65,
-      "learning_rate": 3.756521739130435e-05,
-      "loss": 0.1285,
-      "step": 3740
-    },
-    {
-      "epoch": 40.76,
-      "learning_rate": 3.71304347826087e-05,
-      "loss": 0.1592,
-      "step": 3750
-    },
-    {
-      "epoch": 40.87,
-      "learning_rate": 3.6695652173913046e-05,
-      "loss": 0.0863,
-      "step": 3760
-    },
-    {
-      "epoch": 40.98,
-      "learning_rate": 3.6260869565217394e-05,
-      "loss": 0.1847,
-      "step": 3770
-    },
-    {
-      "epoch": 41.09,
-      "learning_rate": 3.582608695652174e-05,
-      "loss": 0.1492,
-      "step": 3780
-    },
-    {
-      "epoch": 41.2,
-      "learning_rate": 3.539130434782609e-05,
-      "loss": 0.2077,
-      "step": 3790
-    },
-    {
-      "epoch": 41.3,
-      "learning_rate": 3.495652173913044e-05,
-      "loss": 0.1421,
-      "step": 3800
-    },
-    {
-      "epoch": 41.3,
-      "eval_accuracy": 0.9807692307692307,
-      "eval_loss": 0.09830256551504135,
-      "eval_runtime": 1.8855,
-      "eval_samples_per_second": 137.894,
-      "eval_steps_per_second": 17.502,
-      "step": 3800
-    },
-    {
-      "epoch": 41.41,
-      "learning_rate": 3.4521739130434785e-05,
-      "loss": 0.1659,
-      "step": 3810
-    },
-    {
-      "epoch": 41.52,
-      "learning_rate": 3.408695652173913e-05,
-      "loss": 0.1637,
-      "step": 3820
-    },
-    {
-      "epoch": 41.63,
-      "learning_rate": 3.365217391304348e-05,
-      "loss": 0.1876,
-      "step": 3830
-    },
-    {
-      "epoch": 41.74,
-      "learning_rate": 3.321739130434783e-05,
-      "loss": 0.2014,
-      "step": 3840
-    },
-    {
-      "epoch": 41.85,
-      "learning_rate": 3.278260869565217e-05,
-      "loss": 0.2616,
-      "step": 3850
-    },
-    {
-      "epoch": 41.96,
-      "learning_rate": 3.2347826086956524e-05,
-      "loss": 0.2388,
-      "step": 3860
-    },
-    {
-      "epoch": 42.07,
-      "learning_rate": 3.191304347826087e-05,
-      "loss": 0.1195,
-      "step": 3870
-    },
-    {
-      "epoch": 42.17,
-      "learning_rate": 3.147826086956522e-05,
-      "loss": 0.0911,
-      "step": 3880
-    },
-    {
-      "epoch": 42.28,
-      "learning_rate": 3.104347826086957e-05,
-      "loss": 0.1069,
-      "step": 3890
-    },
-    {
-      "epoch": 42.39,
-      "learning_rate": 3.0608695652173916e-05,
-      "loss": 0.1936,
-      "step": 3900
-    },
-    {
-      "epoch": 42.39,
-      "eval_accuracy": 0.9769230769230769,
-      "eval_loss": 0.11225084215402603,
-      "eval_runtime": 1.8302,
-      "eval_samples_per_second": 142.059,
-      "eval_steps_per_second": 18.031,
-      "step": 3900
-    },
-    {
-      "epoch": 42.5,
-      "learning_rate": 3.0173913043478264e-05,
-      "loss": 0.1685,
-      "step": 3910
-    },
-    {
-      "epoch": 42.61,
-      "learning_rate": 2.9739130434782608e-05,
-      "loss": 0.0714,
-      "step": 3920
-    },
-    {
-      "epoch": 42.72,
-      "learning_rate": 2.930434782608696e-05,
-      "loss": 0.1757,
-      "step": 3930
-    },
-    {
-      "epoch": 42.83,
-      "learning_rate": 2.8869565217391304e-05,
-      "loss": 0.1768,
-      "step": 3940
-    },
-    {
-      "epoch": 42.93,
-      "learning_rate": 2.8434782608695655e-05,
-      "loss": 0.1389,
-      "step": 3950
-    },
-    {
-      "epoch": 43.04,
-      "learning_rate": 2.8000000000000003e-05,
-      "loss": 0.1236,
-      "step": 3960
-    },
-    {
-      "epoch": 43.15,
-      "learning_rate": 2.7565217391304347e-05,
-      "loss": 0.1475,
-      "step": 3970
-    },
-    {
-      "epoch": 43.26,
-      "learning_rate": 2.71304347826087e-05,
-      "loss": 0.0922,
-      "step": 3980
-    },
-    {
-      "epoch": 43.37,
-      "learning_rate": 2.6695652173913043e-05,
-      "loss": 0.1054,
-      "step": 3990
-    },
-    {
-      "epoch": 43.48,
-      "learning_rate": 2.6260869565217394e-05,
-      "loss": 0.097,
-      "step": 4000
-    },
-    {
-      "epoch": 43.48,
-      "eval_accuracy": 0.9769230769230769,
-      "eval_loss": 0.15064960718154907,
-      "eval_runtime": 1.9877,
-      "eval_samples_per_second": 130.807,
-      "eval_steps_per_second": 16.602,
-      "step": 4000
-    },
-    {
-      "epoch": 43.59,
-      "learning_rate": 2.582608695652174e-05,
-      "loss": 0.1154,
-      "step": 4010
-    },
-    {
-      "epoch": 43.7,
-      "learning_rate": 2.539130434782609e-05,
-      "loss": 0.1719,
-      "step": 4020
-    },
-    {
-      "epoch": 43.8,
-      "learning_rate": 2.4956521739130438e-05,
-      "loss": 0.0627,
-      "step": 4030
-    },
-    {
-      "epoch": 43.91,
-      "learning_rate": 2.4521739130434786e-05,
-      "loss": 0.1385,
-      "step": 4040
-    },
-    {
-      "epoch": 44.02,
-      "learning_rate": 2.408695652173913e-05,
-      "loss": 0.1673,
-      "step": 4050
-    },
-    {
-      "epoch": 44.13,
-      "learning_rate": 2.3652173913043478e-05,
-      "loss": 0.1678,
-      "step": 4060
-    },
-    {
-      "epoch": 44.24,
-      "learning_rate": 2.3217391304347826e-05,
-      "loss": 0.1634,
-      "step": 4070
-    },
-    {
-      "epoch": 44.35,
-      "learning_rate": 2.2782608695652174e-05,
-      "loss": 0.0712,
-      "step": 4080
-    },
-    {
-      "epoch": 44.46,
-      "learning_rate": 2.2347826086956522e-05,
-      "loss": 0.1366,
-      "step": 4090
-    },
-    {
-      "epoch": 44.57,
-      "learning_rate": 2.191304347826087e-05,
-      "loss": 0.0791,
-      "step": 4100
-    },
-    {
-      "epoch": 44.57,
-      "eval_accuracy": 0.9769230769230769,
-      "eval_loss": 0.14431653916835785,
-      "eval_runtime": 1.8767,
-      "eval_samples_per_second": 138.543,
-      "eval_steps_per_second": 17.584,
-      "step": 4100
-    },
-    {
-      "epoch": 44.67,
-      "learning_rate": 2.1478260869565218e-05,
-      "loss": 0.0557,
-      "step": 4110
-    },
-    {
-      "epoch": 44.78,
-      "learning_rate": 2.104347826086957e-05,
-      "loss": 0.1431,
-      "step": 4120
-    },
-    {
-      "epoch": 44.89,
-      "learning_rate": 2.0608695652173913e-05,
-      "loss": 0.1888,
-      "step": 4130
-    },
-    {
-      "epoch": 45.0,
-      "learning_rate": 2.017391304347826e-05,
-      "loss": 0.0463,
-      "step": 4140
-    },
-    {
-      "epoch": 45.11,
-      "learning_rate": 1.973913043478261e-05,
-      "loss": 0.1608,
-      "step": 4150
-    },
-    {
-      "epoch": 45.22,
-      "learning_rate": 1.9304347826086957e-05,
-      "loss": 0.1379,
-      "step": 4160
-    },
-    {
-      "epoch": 45.33,
-      "learning_rate": 1.8869565217391305e-05,
-      "loss": 0.2226,
-      "step": 4170
-    },
-    {
-      "epoch": 45.43,
-      "learning_rate": 1.8434782608695653e-05,
-      "loss": 0.1258,
-      "step": 4180
-    },
-    {
-      "epoch": 45.54,
-      "learning_rate": 1.8e-05,
-      "loss": 0.1235,
-      "step": 4190
-    },
-    {
-      "epoch": 45.65,
-      "learning_rate": 1.756521739130435e-05,
-      "loss": 0.0935,
-      "step": 4200
-    },
-    {
-      "epoch": 45.65,
-      "eval_accuracy": 0.9807692307692307,
-      "eval_loss": 0.1689443737268448,
-      "eval_runtime": 2.3394,
-      "eval_samples_per_second": 111.142,
-      "eval_steps_per_second": 14.106,
-      "step": 4200
-    },
-    {
-      "epoch": 45.76,
-      "learning_rate": 1.7130434782608696e-05,
-      "loss": 0.0753,
-      "step": 4210
-    },
-    {
-      "epoch": 45.87,
-      "learning_rate": 1.6695652173913044e-05,
-      "loss": 0.1414,
-      "step": 4220
-    },
-    {
-      "epoch": 45.98,
-      "learning_rate": 1.6260869565217392e-05,
-      "loss": 0.131,
-      "step": 4230
-    },
-    {
-      "epoch": 46.09,
-      "learning_rate": 1.582608695652174e-05,
-      "loss": 0.2012,
-      "step": 4240
-    },
-    {
-      "epoch": 46.2,
-      "learning_rate": 1.5434782608695654e-05,
-      "loss": 0.1882,
-      "step": 4250
-    },
-    {
-      "epoch": 46.3,
-      "learning_rate": 1.5e-05,
-      "loss": 0.1026,
-      "step": 4260
-    },
-    {
-      "epoch": 46.41,
-      "learning_rate": 1.4565217391304348e-05,
-      "loss": 0.0967,
-      "step": 4270
-    },
-    {
-      "epoch": 46.52,
-      "learning_rate": 1.4130434782608694e-05,
-      "loss": 0.2006,
-      "step": 4280
-    },
-    {
-      "epoch": 46.63,
-      "learning_rate": 1.3695652173913042e-05,
-      "loss": 0.1477,
-      "step": 4290
-    },
-    {
-      "epoch": 46.74,
-      "learning_rate": 1.3260869565217394e-05,
-      "loss": 0.1061,
-      "step": 4300
-    },
-    {
-      "epoch": 46.74,
-      "eval_accuracy": 0.9807692307692307,
-      "eval_loss": 0.13794825971126556,
-      "eval_runtime": 1.8376,
-      "eval_samples_per_second": 141.486,
-      "eval_steps_per_second": 17.958,
-      "step": 4300
-    },
-    {
-      "epoch": 46.85,
-      "learning_rate": 1.2826086956521741e-05,
-      "loss": 0.1748,
-      "step": 4310
-    },
-    {
-      "epoch": 46.96,
-      "learning_rate": 1.2391304347826088e-05,
-      "loss": 0.0196,
-      "step": 4320
-    },
-    {
-      "epoch": 47.07,
-      "learning_rate": 1.1956521739130435e-05,
-      "loss": 0.076,
-      "step": 4330
-    },
-    {
-      "epoch": 47.17,
-      "learning_rate": 1.1521739130434783e-05,
-      "loss": 0.1635,
-      "step": 4340
-    },
-    {
-      "epoch": 47.28,
-      "learning_rate": 1.1086956521739131e-05,
-      "loss": 0.1393,
-      "step": 4350
-    },
-    {
-      "epoch": 47.39,
-      "learning_rate": 1.0652173913043479e-05,
-      "loss": 0.0914,
-      "step": 4360
-    },
-    {
-      "epoch": 47.5,
-      "learning_rate": 1.0217391304347827e-05,
-      "loss": 0.0768,
-      "step": 4370
-    },
-    {
-      "epoch": 47.61,
-      "learning_rate": 9.782608695652175e-06,
-      "loss": 0.1176,
-      "step": 4380
-    },
-    {
-      "epoch": 47.72,
-      "learning_rate": 9.347826086956523e-06,
-      "loss": 0.0986,
-      "step": 4390
-    },
-    {
-      "epoch": 47.83,
-      "learning_rate": 8.91304347826087e-06,
-      "loss": 0.2041,
-      "step": 4400
-    },
-    {
-      "epoch": 47.83,
-      "eval_accuracy": 0.9769230769230769,
-      "eval_loss": 0.1391335427761078,
-      "eval_runtime": 2.4421,
-      "eval_samples_per_second": 106.467,
-      "eval_steps_per_second": 13.513,
-      "step": 4400
-    },
-    {
-      "epoch": 47.93,
-      "learning_rate": 8.478260869565217e-06,
-      "loss": 0.0854,
-      "step": 4410
-    },
-    {
-      "epoch": 48.04,
-      "learning_rate": 8.043478260869565e-06,
-      "loss": 0.1058,
-      "step": 4420
-    },
-    {
-      "epoch": 48.15,
-      "learning_rate": 7.608695652173914e-06,
-      "loss": 0.1268,
-      "step": 4430
-    },
-    {
-      "epoch": 48.26,
-      "learning_rate": 7.173913043478261e-06,
-      "loss": 0.0727,
-      "step": 4440
-    },
-    {
-      "epoch": 48.37,
-      "learning_rate": 6.739130434782609e-06,
-      "loss": 0.0944,
-      "step": 4450
-    },
-    {
-      "epoch": 48.48,
-      "learning_rate": 6.304347826086957e-06,
-      "loss": 0.1517,
-      "step": 4460
-    },
-    {
-      "epoch": 48.59,
-      "learning_rate": 5.869565217391305e-06,
-      "loss": 0.1887,
-      "step": 4470
-    },
-    {
-      "epoch": 48.7,
-      "learning_rate": 5.4347826086956525e-06,
-      "loss": 0.1824,
-      "step": 4480
-    },
-    {
-      "epoch": 48.8,
-      "learning_rate": 5e-06,
-      "loss": 0.1564,
-      "step": 4490
-    },
-    {
-      "epoch": 48.91,
-      "learning_rate": 4.565217391304348e-06,
-      "loss": 0.0262,
-      "step": 4500
-    },
-    {
-      "epoch": 48.91,
-      "eval_accuracy": 0.9769230769230769,
-      "eval_loss": 0.135969340801239,
-      "eval_runtime": 1.8658,
-      "eval_samples_per_second": 139.349,
-      "eval_steps_per_second": 17.687,
-      "step": 4500
-    },
-    {
-      "epoch": 49.02,
-      "learning_rate": 4.130434782608695e-06,
-      "loss": 0.1187,
-      "step": 4510
-    },
-    {
-      "epoch": 49.13,
-      "learning_rate": 3.695652173913044e-06,
-      "loss": 0.0973,
-      "step": 4520
-    },
-    {
-      "epoch": 49.24,
-      "learning_rate": 3.2608695652173914e-06,
-      "loss": 0.1082,
-      "step": 4530
-    },
-    {
-      "epoch": 49.35,
-      "learning_rate": 2.8260869565217393e-06,
-      "loss": 0.1439,
-      "step": 4540
-    },
-    {
-      "epoch": 49.46,
-      "learning_rate": 2.391304347826087e-06,
-      "loss": 0.1052,
-      "step": 4550
-    },
-    {
-      "epoch": 49.57,
-      "learning_rate": 1.956521739130435e-06,
-      "loss": 0.1465,
-      "step": 4560
-    },
-    {
-      "epoch": 49.67,
-      "learning_rate": 1.5217391304347827e-06,
-      "loss": 0.1092,
-      "step": 4570
-    },
-    {
-      "epoch": 49.78,
-      "learning_rate": 1.0869565217391306e-06,
-      "loss": 0.1454,
-      "step": 4580
-    },
-    {
-      "epoch": 49.89,
-      "learning_rate": 6.521739130434782e-07,
-      "loss": 0.1703,
-      "step": 4590
-    },
-    {
-      "epoch": 50.0,
-      "learning_rate": 2.173913043478261e-07,
-      "loss": 0.1274,
-      "step": 4600
-    },
-    {
-      "epoch": 50.0,
-      "eval_accuracy": 0.9769230769230769,
-      "eval_loss": 0.13699783384799957,
-      "eval_runtime": 2.6653,
-      "eval_samples_per_second": 97.548,
-      "eval_steps_per_second": 12.381,
-      "step": 4600
-    },
-    {
-      "epoch": 50.0,
-      "step": 4600,
-      "total_flos": 1.8256530865176576e+18,
-      "train_loss": 0.3526626825786155,
-      "train_runtime": 995.2393,
-      "train_samples_per_second": 73.751,
-      "train_steps_per_second": 4.622
     }
   ],
   "logging_steps": 10,
-  "max_steps": 4600,
-  "num_train_epochs": 50,
   "save_steps": 100,
-  "total_flos": 1.8256530865176576e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.9846153846153847,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned_ASL_Isolated_Swin_dataset2/checkpoint-1700",
+  "epoch": 20.0,
   "eval_steps": 100,
+  "global_step": 1840,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.11,
+      "learning_rate": 0.00019891304347826087,
+      "loss": 3.3365,
       "step": 10
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.00019782608695652175,
+      "loss": 3.2188,
       "step": 20
     },
     {
       "epoch": 0.33,
+      "learning_rate": 0.00019673913043478263,
+      "loss": 3.1756,
       "step": 30
     },
     {
       "epoch": 0.43,
+      "learning_rate": 0.0001956521739130435,
+      "loss": 2.9023,
       "step": 40
     },
     {
       "epoch": 0.54,
+      "learning_rate": 0.00019467391304347825,
+      "loss": 2.5517,
       "step": 50
     },
     {
       "epoch": 0.65,
+      "learning_rate": 0.00019358695652173916,
+      "loss": 2.4131,
       "step": 60
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.00019250000000000002,
+      "loss": 2.0957,
       "step": 70
     },
     {
       "epoch": 0.87,
+      "learning_rate": 0.00019141304347826087,
+      "loss": 1.8856,
       "step": 80
     },
     {
       "epoch": 0.98,
+      "learning_rate": 0.00019032608695652176,
+      "loss": 1.7217,
       "step": 90
     },
     {
       "epoch": 1.09,
+      "learning_rate": 0.0001892391304347826,
+      "loss": 1.6758,
       "step": 100
     },
     {
       "epoch": 1.09,
+      "eval_accuracy": 0.5769230769230769,
+      "eval_loss": 1.320558786392212,
+      "eval_runtime": 2.846,
+      "eval_samples_per_second": 91.356,
+      "eval_steps_per_second": 11.595,
       "step": 100
     },
     {
       "epoch": 1.2,
+      "learning_rate": 0.0001881521739130435,
+      "loss": 1.4695,
       "step": 110
     },
     {
       "epoch": 1.3,
+      "learning_rate": 0.00018706521739130435,
+      "loss": 1.311,
       "step": 120
     },
     {
       "epoch": 1.41,
+      "learning_rate": 0.00018597826086956523,
+      "loss": 1.2741,
       "step": 130
     },
     {
       "epoch": 1.52,
+      "learning_rate": 0.0001848913043478261,
+      "loss": 1.3444,
       "step": 140
     },
     {
       "epoch": 1.63,
+      "learning_rate": 0.00018380434782608697,
+      "loss": 1.0445,
       "step": 150
     },
     {
       "epoch": 1.74,
+      "learning_rate": 0.00018282608695652174,
+      "loss": 1.0316,
       "step": 160
     },
     {
       "epoch": 1.85,
+      "learning_rate": 0.00018173913043478262,
+      "loss": 1.0877,
       "step": 170
     },
     {
       "epoch": 1.96,
+      "learning_rate": 0.00018065217391304348,
+      "loss": 1.1561,
       "step": 180
     },
     {
       "epoch": 2.07,
+      "learning_rate": 0.00017956521739130436,
+      "loss": 1.0726,
       "step": 190
     },
     {
       "epoch": 2.17,
+      "learning_rate": 0.00017847826086956522,
+      "loss": 1.0717,
       "step": 200
     },
     {
       "epoch": 2.17,
+      "eval_accuracy": 0.8153846153846154,
+      "eval_loss": 0.6482219696044922,
+      "eval_runtime": 1.825,
+      "eval_samples_per_second": 142.465,
+      "eval_steps_per_second": 18.082,
       "step": 200
     },
     {
       "epoch": 2.28,
+      "learning_rate": 0.0001773913043478261,
+      "loss": 0.744,
       "step": 210
     },
     {
       "epoch": 2.39,
+      "learning_rate": 0.00017630434782608695,
+      "loss": 0.9959,
       "step": 220
     },
     {
       "epoch": 2.5,
+      "learning_rate": 0.00017521739130434784,
+      "loss": 0.9342,
       "step": 230
     },
     {
       "epoch": 2.61,
+      "learning_rate": 0.00017413043478260872,
+      "loss": 0.8275,
       "step": 240
     },
     {
       "epoch": 2.72,
+      "learning_rate": 0.00017304347826086958,
+      "loss": 0.8388,
       "step": 250
     },
     {
       "epoch": 2.83,
+      "learning_rate": 0.00017195652173913043,
+      "loss": 0.8996,
       "step": 260
     },
     {
       "epoch": 2.93,
+      "learning_rate": 0.00017086956521739132,
+      "loss": 0.6616,
       "step": 270
     },
     {
       "epoch": 3.04,
+      "learning_rate": 0.0001697826086956522,
+      "loss": 0.7714,
       "step": 280
     },
     {
       "epoch": 3.15,
+      "learning_rate": 0.00016869565217391306,
+      "loss": 0.7296,
       "step": 290
     },
     {
       "epoch": 3.26,
+      "learning_rate": 0.0001676086956521739,
+      "loss": 0.627,
       "step": 300
     },
     {
       "epoch": 3.26,
+      "eval_accuracy": 0.8653846153846154,
+      "eval_loss": 0.4485549330711365,
+      "eval_runtime": 2.5537,
+      "eval_samples_per_second": 101.814,
+      "eval_steps_per_second": 12.923,
       "step": 300
     },
     {
       "epoch": 3.37,
+      "learning_rate": 0.0001666304347826087,
+      "loss": 0.8732,
       "step": 310
     },
     {
       "epoch": 3.48,
+      "learning_rate": 0.00016554347826086958,
+      "loss": 0.8933,
       "step": 320
     },
     {
       "epoch": 3.59,
+      "learning_rate": 0.00016445652173913044,
+      "loss": 0.8468,
       "step": 330
     },
     {
       "epoch": 3.7,
+      "learning_rate": 0.0001633695652173913,
+      "loss": 0.6468,
       "step": 340
     },
     {
       "epoch": 3.8,
+      "learning_rate": 0.00016228260869565218,
+      "loss": 0.7266,
       "step": 350
     },
     {
       "epoch": 3.91,
+      "learning_rate": 0.00016119565217391306,
+      "loss": 0.8522,
       "step": 360
     },
     {
       "epoch": 4.02,
+      "learning_rate": 0.00016010869565217392,
+      "loss": 0.5888,
       "step": 370
     },
     {
       "epoch": 4.13,
+      "learning_rate": 0.00015902173913043478,
+      "loss": 0.685,
       "step": 380
     },
     {
       "epoch": 4.24,
+      "learning_rate": 0.00015793478260869566,
+      "loss": 0.6937,
       "step": 390
     },
     {
       "epoch": 4.35,
+      "learning_rate": 0.00015684782608695654,
+      "loss": 0.5397,
       "step": 400
     },
     {
       "epoch": 4.35,
+      "eval_accuracy": 0.8923076923076924,
+      "eval_loss": 0.2977767884731293,
+      "eval_runtime": 1.8479,
+      "eval_samples_per_second": 140.701,
+      "eval_steps_per_second": 17.858,
       "step": 400
     },
     {
       "epoch": 4.46,
+      "learning_rate": 0.0001557608695652174,
+      "loss": 0.6058,
       "step": 410
     },
     {
       "epoch": 4.57,
+      "learning_rate": 0.00015467391304347828,
+      "loss": 0.553,
       "step": 420
     },
     {
       "epoch": 4.67,
+      "learning_rate": 0.00015358695652173914,
+      "loss": 0.4621,
       "step": 430
     },
     {
       "epoch": 4.78,
+      "learning_rate": 0.0001525,
+      "loss": 0.5002,
       "step": 440
     },
     {
       "epoch": 4.89,
+      "learning_rate": 0.00015141304347826088,
+      "loss": 0.4833,
       "step": 450
     },
     {
       "epoch": 5.0,
+      "learning_rate": 0.00015032608695652176,
+      "loss": 0.5952,
       "step": 460
     },
     {
       "epoch": 5.11,
+      "learning_rate": 0.00014923913043478262,
+      "loss": 0.5049,
       "step": 470
     },
     {
       "epoch": 5.22,
+      "learning_rate": 0.00014815217391304347,
+      "loss": 0.5219,
       "step": 480
     },
     {
       "epoch": 5.33,
+      "learning_rate": 0.00014706521739130436,
+      "loss": 0.6222,
       "step": 490
     },
     {
       "epoch": 5.43,
+      "learning_rate": 0.00014597826086956524,
+      "loss": 0.537,
       "step": 500
     },
     {
       "epoch": 5.43,
+      "eval_accuracy": 0.9423076923076923,
+      "eval_loss": 0.151279479265213,
+      "eval_runtime": 1.8783,
+      "eval_samples_per_second": 138.42,
+      "eval_steps_per_second": 17.569,
       "step": 500
     },
     {
       "epoch": 5.54,
+      "learning_rate": 0.0001448913043478261,
+      "loss": 0.498,
       "step": 510
     },
     {
       "epoch": 5.65,
+      "learning_rate": 0.00014380434782608695,
+      "loss": 0.5532,
       "step": 520
     },
     {
       "epoch": 5.76,
+      "learning_rate": 0.00014271739130434783,
+      "loss": 0.5434,
       "step": 530
     },
     {
       "epoch": 5.87,
+      "learning_rate": 0.00014163043478260872,
+      "loss": 0.6535,
       "step": 540
     },
     {
       "epoch": 5.98,
+      "learning_rate": 0.00014054347826086957,
+      "loss": 0.4965,
       "step": 550
     },
     {
       "epoch": 6.09,
+      "learning_rate": 0.00013945652173913043,
+      "loss": 0.6712,
       "step": 560
     },
     {
       "epoch": 6.2,
+      "learning_rate": 0.0001383695652173913,
+      "loss": 0.5683,
       "step": 570
     },
     {
       "epoch": 6.3,
+      "learning_rate": 0.00013728260869565217,
+      "loss": 0.3377,
       "step": 580
     },
     {
       "epoch": 6.41,
+      "learning_rate": 0.00013619565217391305,
+      "loss": 0.482,
       "step": 590
     },
     {
       "epoch": 6.52,
+      "learning_rate": 0.00013510869565217394,
+      "loss": 0.3766,
       "step": 600
     },
     {
       "epoch": 6.52,
+      "eval_accuracy": 0.8846153846153846,
+      "eval_loss": 0.4736884534358978,
+      "eval_runtime": 1.8513,
+      "eval_samples_per_second": 140.44,
+      "eval_steps_per_second": 17.825,
       "step": 600
     },
     {
       "epoch": 6.63,
+      "learning_rate": 0.0001340217391304348,
+      "loss": 0.5068,
       "step": 610
     },
     {
       "epoch": 6.74,
+      "learning_rate": 0.00013293478260869565,
+      "loss": 0.3019,
       "step": 620
     },
     {
       "epoch": 6.85,
+      "learning_rate": 0.00013184782608695653,
+      "loss": 0.4852,
       "step": 630
     },
     {
       "epoch": 6.96,
+      "learning_rate": 0.00013076086956521741,
+      "loss": 0.55,
       "step": 640
     },
     {
       "epoch": 7.07,
+      "learning_rate": 0.00012967391304347827,
+      "loss": 0.4122,
       "step": 650
     },
     {
       "epoch": 7.17,
+      "learning_rate": 0.00012858695652173913,
+      "loss": 0.3566,
       "step": 660
     },
     {
       "epoch": 7.28,
+      "learning_rate": 0.0001275,
+      "loss": 0.4279,
       "step": 670
     },
     {
       "epoch": 7.39,
+      "learning_rate": 0.0001264130434782609,
+      "loss": 0.3295,
       "step": 680
     },
     {
       "epoch": 7.5,
+      "learning_rate": 0.00012532608695652175,
+      "loss": 0.5113,
       "step": 690
     },
     {
       "epoch": 7.61,
+      "learning_rate": 0.0001242391304347826,
+      "loss": 0.3994,
       "step": 700
     },
     {
       "epoch": 7.61,
+      "eval_accuracy": 0.9115384615384615,
+      "eval_loss": 0.3060305714607239,
+      "eval_runtime": 1.8463,
+      "eval_samples_per_second": 140.821,
+      "eval_steps_per_second": 17.873,
       "step": 700
     },
     {
       "epoch": 7.72,
+      "learning_rate": 0.0001231521739130435,
+      "loss": 0.5572,
       "step": 710
     },
     {
       "epoch": 7.83,
+      "learning_rate": 0.00012206521739130434,
+      "loss": 0.2986,
       "step": 720
     },
     {
       "epoch": 7.93,
+      "learning_rate": 0.00012097826086956523,
+      "loss": 0.5146,
       "step": 730
     },
     {
       "epoch": 8.04,
+      "learning_rate": 0.0001198913043478261,
+      "loss": 0.4029,
       "step": 740
     },
     {
       "epoch": 8.15,
+      "learning_rate": 0.00011880434782608695,
+      "loss": 0.3901,
       "step": 750
     },
     {
       "epoch": 8.26,
+      "learning_rate": 0.00011771739130434782,
+      "loss": 0.5112,
       "step": 760
     },
     {
       "epoch": 8.37,
+      "learning_rate": 0.0001166304347826087,
+      "loss": 0.2704,
       "step": 770
     },
     {
       "epoch": 8.48,
+      "learning_rate": 0.00011554347826086958,
+      "loss": 0.3839,
       "step": 780
     },
     {
       "epoch": 8.59,
+      "learning_rate": 0.00011445652173913045,
+      "loss": 0.4988,
       "step": 790
     },
     {
       "epoch": 8.7,
+      "learning_rate": 0.0001133695652173913,
+      "loss": 0.2139,
       "step": 800
     },
     {
       "epoch": 8.7,
+      "eval_accuracy": 0.9576923076923077,
+      "eval_loss": 0.13448870182037354,
+      "eval_runtime": 1.9169,
+      "eval_samples_per_second": 135.638,
+      "eval_steps_per_second": 17.216,
       "step": 800
     },
     {
       "epoch": 8.8,
+      "learning_rate": 0.00011228260869565217,
+      "loss": 0.2857,
       "step": 810
     },
     {
       "epoch": 8.91,
+      "learning_rate": 0.00011119565217391305,
+      "loss": 0.2416,
       "step": 820
     },
     {
       "epoch": 9.02,
+      "learning_rate": 0.00011010869565217392,
+      "loss": 0.4803,
       "step": 830
     },
     {
       "epoch": 9.13,
+      "learning_rate": 0.00010902173913043478,
+      "loss": 0.4416,
       "step": 840
     },
     {
       "epoch": 9.24,
+      "learning_rate": 0.00010793478260869565,
+      "loss": 0.3271,
       "step": 850
     },
     {
       "epoch": 9.35,
+      "learning_rate": 0.00010684782608695653,
+      "loss": 0.2261,
       "step": 860
     },
     {
       "epoch": 9.46,
+      "learning_rate": 0.0001057608695652174,
+      "loss": 0.2063,
       "step": 870
     },
     {
       "epoch": 9.57,
+      "learning_rate": 0.00010467391304347827,
+      "loss": 0.4865,
       "step": 880
     },
     {
       "epoch": 9.67,
+      "learning_rate": 0.00010358695652173913,
+      "loss": 0.4903,
       "step": 890
     },
     {
       "epoch": 9.78,
+      "learning_rate": 0.0001025,
+      "loss": 0.2995,
       "step": 900
     },
     {
       "epoch": 9.78,
+      "eval_accuracy": 0.95,
+      "eval_loss": 0.155814990401268,
+      "eval_runtime": 1.8528,
+      "eval_samples_per_second": 140.328,
+      "eval_steps_per_second": 17.811,
       "step": 900
     },
     {
       "epoch": 9.89,
+      "learning_rate": 0.00010141304347826088,
+      "loss": 0.2847,
       "step": 910
     },
     {
       "epoch": 10.0,
+      "learning_rate": 0.00010032608695652175,
+      "loss": 0.2913,
       "step": 920
     },
     {
       "epoch": 10.11,
+      "learning_rate": 9.923913043478261e-05,
+      "loss": 0.2779,
       "step": 930
     },
     {
       "epoch": 10.22,
+      "learning_rate": 9.815217391304349e-05,
+      "loss": 0.2205,
       "step": 940
     },
     {
       "epoch": 10.33,
+      "learning_rate": 9.706521739130435e-05,
+      "loss": 0.405,
       "step": 950
     },
     {
       "epoch": 10.43,
+      "learning_rate": 9.597826086956522e-05,
+      "loss": 0.3613,
       "step": 960
     },
     {
       "epoch": 10.54,
+      "learning_rate": 9.48913043478261e-05,
+      "loss": 0.2381,
       "step": 970
     },
     {
       "epoch": 10.65,
+      "learning_rate": 9.380434782608696e-05,
+      "loss": 0.224,
       "step": 980
     },
     {
       "epoch": 10.76,
+      "learning_rate": 9.271739130434784e-05,
+      "loss": 0.2544,
       "step": 990
     },
     {
       "epoch": 10.87,
+      "learning_rate": 9.16304347826087e-05,
+      "loss": 0.2835,
       "step": 1000
     },
     {
       "epoch": 10.87,
+      "eval_accuracy": 0.9730769230769231,
+      "eval_loss": 0.09426813572645187,
+      "eval_runtime": 2.2351,
+      "eval_samples_per_second": 116.327,
+      "eval_steps_per_second": 14.765,
       "step": 1000
     },
     {
       "epoch": 10.98,
+      "learning_rate": 9.054347826086958e-05,
+      "loss": 0.4605,
       "step": 1010
     },
     {
       "epoch": 11.09,
+      "learning_rate": 8.945652173913043e-05,
+      "loss": 0.2259,
       "step": 1020
     },
     {
       "epoch": 11.2,
+      "learning_rate": 8.83695652173913e-05,
+      "loss": 0.2241,
       "step": 1030
     },
     {
       "epoch": 11.3,
+      "learning_rate": 8.728260869565217e-05,
+      "loss": 0.2173,
       "step": 1040
     },
     {
       "epoch": 11.41,
+      "learning_rate": 8.619565217391304e-05,
+      "loss": 0.3629,
       "step": 1050
     },
     {
       "epoch": 11.52,
+      "learning_rate": 8.510869565217393e-05,
+      "loss": 0.6198,
       "step": 1060
     },
     {
       "epoch": 11.63,
+      "learning_rate": 8.402173913043478e-05,
+      "loss": 0.5369,
       "step": 1070
     },
     {
       "epoch": 11.74,
+      "learning_rate": 8.293478260869567e-05,
+      "loss": 0.304,
       "step": 1080
     },
     {
       "epoch": 11.85,
+      "learning_rate": 8.184782608695652e-05,
+      "loss": 0.2756,
       "step": 1090
     },
     {
       "epoch": 11.96,
+      "learning_rate": 8.076086956521739e-05,
+      "loss": 0.3089,
       "step": 1100
     },
     {
       "epoch": 11.96,
+      "eval_accuracy": 0.9576923076923077,
+      "eval_loss": 0.09128668904304504,
+      "eval_runtime": 1.8693,
+      "eval_samples_per_second": 139.093,
+      "eval_steps_per_second": 17.654,
       "step": 1100
     },
     {
       "epoch": 12.07,
+      "learning_rate": 7.967391304347826e-05,
+      "loss": 0.3491,
       "step": 1110
     },
     {
       "epoch": 12.17,
+      "learning_rate": 7.858695652173913e-05,
+      "loss": 0.1677,
       "step": 1120
     },
     {
       "epoch": 12.28,
+      "learning_rate": 7.75e-05,
+      "loss": 0.2795,
       "step": 1130
     },
     {
       "epoch": 12.39,
+      "learning_rate": 7.641304347826087e-05,
+      "loss": 0.2714,
       "step": 1140
     },
     {
       "epoch": 12.5,
+      "learning_rate": 7.532608695652175e-05,
+      "loss": 0.302,
       "step": 1150
     },
     {
       "epoch": 12.61,
+      "learning_rate": 7.423913043478261e-05,
+      "loss": 0.3564,
       "step": 1160
     },
     {
       "epoch": 12.72,
+      "learning_rate": 7.32608695652174e-05,
+      "loss": 0.3085,
       "step": 1170
     },
     {
       "epoch": 12.83,
+      "learning_rate": 7.217391304347827e-05,
+      "loss": 0.2515,
       "step": 1180
     },
     {
       "epoch": 12.93,
+      "learning_rate": 7.108695652173914e-05,
+      "loss": 0.3075,
       "step": 1190
     },
     {
       "epoch": 13.04,
+      "learning_rate": 7e-05,
+      "loss": 0.3632,
       "step": 1200
     },
     {
       "epoch": 13.04,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.08875690400600433,
+      "eval_runtime": 2.7533,
+      "eval_samples_per_second": 94.431,
+      "eval_steps_per_second": 11.986,
       "step": 1200
     },
     {
       "epoch": 13.15,
+      "learning_rate": 6.891304347826088e-05,
+      "loss": 0.3888,
       "step": 1210
     },
     {
       "epoch": 13.26,
+      "learning_rate": 6.782608695652173e-05,
+      "loss": 0.1683,
       "step": 1220
     },
     {
       "epoch": 13.37,
+      "learning_rate": 6.673913043478262e-05,
+      "loss": 0.3672,
       "step": 1230
     },
     {
       "epoch": 13.48,
+      "learning_rate": 6.565217391304349e-05,
+      "loss": 0.335,
       "step": 1240
     },
     {
       "epoch": 13.59,
+      "learning_rate": 6.456521739130436e-05,
+      "loss": 0.1861,
       "step": 1250
     },
     {
       "epoch": 13.7,
+      "learning_rate": 6.347826086956523e-05,
+      "loss": 0.3386,
       "step": 1260
     },
     {
       "epoch": 13.8,
+      "learning_rate": 6.239130434782608e-05,
+      "loss": 0.2222,
       "step": 1270
     },
     {
       "epoch": 13.91,
+      "learning_rate": 6.130434782608696e-05,
+      "loss": 0.1714,
       "step": 1280
     },
     {
       "epoch": 14.02,
+      "learning_rate": 6.021739130434783e-05,
+      "loss": 0.2699,
       "step": 1290
     },
     {
       "epoch": 14.13,
+      "learning_rate": 5.9130434782608704e-05,
+      "loss": 0.327,
       "step": 1300
     },
     {
       "epoch": 14.13,
+      "eval_accuracy": 0.9807692307692307,
+      "eval_loss": 0.10383553802967072,
+      "eval_runtime": 1.9077,
+      "eval_samples_per_second": 136.293,
+      "eval_steps_per_second": 17.299,
       "step": 1300
     },
     {
       "epoch": 14.24,
+      "learning_rate": 5.804347826086957e-05,
+      "loss": 0.224,
       "step": 1310
     },
     {
       "epoch": 14.35,
+      "learning_rate": 5.695652173913044e-05,
+      "loss": 0.378,
       "step": 1320
     },
     {
       "epoch": 14.46,
+      "learning_rate": 5.5869565217391306e-05,
+      "loss": 0.2503,
       "step": 1330
     },
     {
       "epoch": 14.57,
+      "learning_rate": 5.478260869565217e-05,
+      "loss": 0.1633,
       "step": 1340
     },
     {
       "epoch": 14.67,
+      "learning_rate": 5.3695652173913046e-05,
+      "loss": 0.2973,
       "step": 1350
     },
     {
       "epoch": 14.78,
+      "learning_rate": 5.260869565217391e-05,
+      "loss": 0.1887,
       "step": 1360
     },
     {
       "epoch": 14.89,
+      "learning_rate": 5.1521739130434785e-05,
+      "loss": 0.2953,
       "step": 1370
     },
     {
       "epoch": 15.0,
+      "learning_rate": 5.0434782608695655e-05,
+      "loss": 0.248,
       "step": 1380
     },
     {
       "epoch": 15.11,
+      "learning_rate": 4.9347826086956524e-05,
+      "loss": 0.152,
       "step": 1390
     },
     {
       "epoch": 15.22,
+      "learning_rate": 4.8260869565217394e-05,
+      "loss": 0.313,
       "step": 1400
     },
     {
       "epoch": 15.22,
+      "eval_accuracy": 0.9730769230769231,
+      "eval_loss": 0.09758734703063965,
+      "eval_runtime": 2.57,
+      "eval_samples_per_second": 101.167,
+      "eval_steps_per_second": 12.84,
       "step": 1400
     },
     {
       "epoch": 15.33,
+      "learning_rate": 4.7173913043478264e-05,
+      "loss": 0.2301,
       "step": 1410
     },
     {
       "epoch": 15.43,
+      "learning_rate": 4.608695652173913e-05,
+      "loss": 0.1671,
       "step": 1420
     },
     {
       "epoch": 15.54,
+      "learning_rate": 4.5e-05,
+      "loss": 0.2399,
       "step": 1430
     },
     {
       "epoch": 15.65,
+      "learning_rate": 4.391304347826087e-05,
+      "loss": 0.278,
       "step": 1440
     },
     {
       "epoch": 15.76,
+      "learning_rate": 4.282608695652174e-05,
+      "loss": 0.3062,
       "step": 1450
     },
     {
       "epoch": 15.87,
+      "learning_rate": 4.1739130434782605e-05,
+      "loss": 0.3704,
       "step": 1460
     },
     {
       "epoch": 15.98,
+      "learning_rate": 4.065217391304348e-05,
+      "loss": 0.231,
       "step": 1470
     },
     {
       "epoch": 16.09,
+      "learning_rate": 3.956521739130435e-05,
+      "loss": 0.2339,
       "step": 1480
     },
     {
       "epoch": 16.2,
+      "learning_rate": 3.847826086956522e-05,
+      "loss": 0.2079,
       "step": 1490
     },
     {
       "epoch": 16.3,
+      "learning_rate": 3.739130434782609e-05,
+      "loss": 0.1752,
       "step": 1500
     },
     {
       "epoch": 16.3,
+      "eval_accuracy": 0.9807692307692307,
+      "eval_loss": 0.050352372229099274,
+      "eval_runtime": 1.9714,
+      "eval_samples_per_second": 131.889,
+      "eval_steps_per_second": 16.74,
       "step": 1500
     },
     {
       "epoch": 16.41,
+      "learning_rate": 3.630434782608696e-05,
+      "loss": 0.1359,
       "step": 1510
     },
     {
       "epoch": 16.52,
+      "learning_rate": 3.521739130434783e-05,
+      "loss": 0.1186,
       "step": 1520
     },
     {
       "epoch": 16.63,
+      "learning_rate": 3.413043478260869e-05,
+      "loss": 0.2223,
       "step": 1530
     },
     {
       "epoch": 16.74,
+      "learning_rate": 3.304347826086956e-05,
+      "loss": 0.3185,
       "step": 1540
     },
     {
       "epoch": 16.85,
+      "learning_rate": 3.195652173913043e-05,
+      "loss": 0.1554,
       "step": 1550
     },
     {
       "epoch": 16.96,
+      "learning_rate": 3.086956521739131e-05,
+      "loss": 0.2177,
       "step": 1560
     },
     {
       "epoch": 17.07,
+      "learning_rate": 2.9782608695652175e-05,
+      "loss": 0.167,
       "step": 1570
     },
     {
       "epoch": 17.17,
+      "learning_rate": 2.8695652173913044e-05,
+      "loss": 0.216,
       "step": 1580
     },
     {
       "epoch": 17.28,
+      "learning_rate": 2.7608695652173917e-05,
+      "loss": 0.2664,
       "step": 1590
     },
     {
       "epoch": 17.39,
+      "learning_rate": 2.6521739130434787e-05,
+      "loss": 0.2397,
       "step": 1600
     },
     {
       "epoch": 17.39,
+      "eval_accuracy": 0.9807692307692307,
+      "eval_loss": 0.06116783991456032,
+      "eval_runtime": 1.9643,
+      "eval_samples_per_second": 132.362,
+      "eval_steps_per_second": 16.8,
       "step": 1600
     },
     {
       "epoch": 17.5,
+      "learning_rate": 2.543478260869565e-05,
+      "loss": 0.1432,
       "step": 1610
     },
     {
       "epoch": 17.61,
+      "learning_rate": 2.4347826086956523e-05,
+      "loss": 0.2176,
       "step": 1620
     },
     {
       "epoch": 17.72,
+      "learning_rate": 2.3260869565217393e-05,
+      "loss": 0.296,
       "step": 1630
     },
     {
       "epoch": 17.83,
+      "learning_rate": 2.2173913043478262e-05,
+      "loss": 0.2308,
       "step": 1640
     },
     {
       "epoch": 17.93,
+      "learning_rate": 2.1086956521739132e-05,
+      "loss": 0.1676,
       "step": 1650
     },
     {
       "epoch": 18.04,
+      "learning_rate": 2e-05,
+      "loss": 0.1274,
       "step": 1660
     },
     {
       "epoch": 18.15,
+      "learning_rate": 1.8913043478260868e-05,
+      "loss": 0.179,
       "step": 1670
     },
     {
       "epoch": 18.26,
+      "learning_rate": 1.782608695652174e-05,
+      "loss": 0.1569,
       "step": 1680
     },
     {
       "epoch": 18.37,
+      "learning_rate": 1.673913043478261e-05,
+      "loss": 0.1897,
       "step": 1690
     },
     {
       "epoch": 18.48,
+      "learning_rate": 1.565217391304348e-05,
+      "loss": 0.1348,
       "step": 1700
     },
     {
       "epoch": 18.48,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.05584708973765373,
+      "eval_runtime": 1.9494,
+      "eval_samples_per_second": 133.373,
+      "eval_steps_per_second": 16.928,
       "step": 1700
     },
     {
       "epoch": 18.59,
+      "learning_rate": 1.4565217391304348e-05,
+      "loss": 0.1662,
       "step": 1710
     },
     {
       "epoch": 18.7,
+      "learning_rate": 1.3478260869565218e-05,
+      "loss": 0.1644,
       "step": 1720
     },
     {
       "epoch": 18.8,
+      "learning_rate": 1.2391304347826088e-05,
+      "loss": 0.2025,
       "step": 1730
     },
     {
       "epoch": 18.91,
+      "learning_rate": 1.1304347826086957e-05,
+      "loss": 0.1745,
       "step": 1740
     },
     {
       "epoch": 19.02,
+      "learning_rate": 1.0217391304347827e-05,
+      "loss": 0.1786,
       "step": 1750
     },
     {
       "epoch": 19.13,
+      "learning_rate": 9.130434782608697e-06,
+      "loss": 0.2791,
       "step": 1760
     },
     {
       "epoch": 19.24,
+      "learning_rate": 8.043478260869565e-06,
+      "loss": 0.2056,
       "step": 1770
     },
     {
       "epoch": 19.35,
+      "learning_rate": 6.956521739130435e-06,
+      "loss": 0.2616,
       "step": 1780
     },
     {
       "epoch": 19.46,
+      "learning_rate": 5.869565217391305e-06,
+      "loss": 0.1488,
       "step": 1790
     },
     {
       "epoch": 19.57,
+      "learning_rate": 4.782608695652174e-06,
+      "loss": 0.2842,
       "step": 1800
     },
     {
       "epoch": 19.57,
+      "eval_accuracy": 0.9769230769230769,
+      "eval_loss": 0.05035410821437836,
+      "eval_runtime": 1.9009,
+      "eval_samples_per_second": 136.776,
+      "eval_steps_per_second": 17.36,
       "step": 1800
     },
     {
       "epoch": 19.67,
+      "learning_rate": 3.695652173913044e-06,
+      "loss": 0.1487,
       "step": 1810
     },
     {
       "epoch": 19.78,
+      "learning_rate": 2.608695652173913e-06,
+      "loss": 0.1818,
       "step": 1820
     },
     {
       "epoch": 19.89,
+      "learning_rate": 1.5217391304347827e-06,
+      "loss": 0.1469,
       "step": 1830
     },
     {
       "epoch": 20.0,
+      "learning_rate": 4.347826086956522e-07,
+      "loss": 0.213,
       "step": 1840
     },
     {
+      "epoch": 20.0,
+      "step": 1840,
+      "total_flos": 7.30261234607063e+17,
+      "train_loss": 0.5342570722103119,
+      "train_runtime": 409.3983,
+      "train_samples_per_second": 71.715,
+      "train_steps_per_second": 4.494
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1840,
+  "num_train_epochs": 20,
   "save_steps": 100,
+  "total_flos": 7.30261234607063e+17,
   "trial_name": null,
   "trial_params": null
 }