End of training

Browse files

Files changed (9) hide show

README.md +81 -83
all_results.json +10 -10
eval_results.json +6 -6
model.safetensors +1 -1
runs/Feb04_10-06-24_DESKTOP-SKBE9FB/events.out.tfevents.1738685186.DESKTOP-SKBE9FB.14636.0 +3 -0
runs/Feb04_10-06-24_DESKTOP-SKBE9FB/events.out.tfevents.1738687878.DESKTOP-SKBE9FB.14636.1 +3 -0
train_results.json +5 -5
trainer_state.json +966 -1224
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -22,7 +22,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7411764705882353
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -32,8 +32,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.5439
-- Accuracy: 0.7412
 ## Model description
@@ -67,86 +67,84 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 1.608         | 0.99  | 20   | 1.6029          | 0.4588   |
-| 1.5901        | 1.98  | 40   | 1.5388          | 0.4588   |
-| 1.5323        | 2.96  | 60   | 1.4237          | 0.4588   |
-| 1.4589        | 4.0   | 81   | 1.3122          | 0.5765   |
-| 1.2716        | 4.99  | 101  | 0.9964          | 0.7059   |
-| 1.1056        | 5.98  | 121  | 0.8281          | 0.7176   |
-| 0.9718        | 6.96  | 141  | 0.7180          | 0.7176   |
-| 0.8742        | 8.0   | 162  | 0.9129          | 0.6706   |
-| 0.8124        | 8.99  | 182  | 0.7813          | 0.6941   |
-| 0.7795        | 9.98  | 202  | 0.7164          | 0.7294   |
-| 0.6641        | 10.96 | 222  | 0.6778          | 0.7176   |
-| 0.6144        | 12.0  | 243  | 0.8102          | 0.6824   |
-| 0.4955        | 12.99 | 263  | 0.7380          | 0.7059   |
-| 0.5205        | 13.98 | 283  | 0.8915          | 0.6941   |
-| 0.4759        | 14.96 | 303  | 0.8514          | 0.7059   |
-| 0.4158        | 16.0  | 324  | 0.8801          | 0.6588   |
-| 0.4081        | 16.99 | 344  | 0.8873          | 0.7176   |
-| 0.3459        | 17.98 | 364  | 0.8625          | 0.7059   |
-| 0.3394        | 18.96 | 384  | 1.0716          | 0.7059   |
-| 0.3424        | 20.0  | 405  | 1.0256          | 0.6706   |
-| 0.299         | 20.99 | 425  | 1.0252          | 0.6824   |
-| 0.3092        | 21.98 | 445  | 1.1101          | 0.6706   |
-| 0.3017        | 22.96 | 465  | 0.9969          | 0.7059   |
-| 0.2703        | 24.0  | 486  | 1.1108          | 0.6941   |
-| 0.2808        | 24.99 | 506  | 1.1121          | 0.7059   |
-| 0.2711        | 25.98 | 526  | 1.2440          | 0.6941   |
-| 0.2993        | 26.96 | 546  | 1.0980          | 0.6824   |
-| 0.1981        | 28.0  | 567  | 1.2268          | 0.7059   |
-| 0.2735        | 28.99 | 587  | 1.0831          | 0.7059   |
-| 0.2238        | 29.98 | 607  | 1.2662          | 0.6706   |
-| 0.2374        | 30.96 | 627  | 1.2892          | 0.6941   |
-| 0.2239        | 32.0  | 648  | 1.1821          | 0.7294   |
-| 0.1676        | 32.99 | 668  | 1.2823          | 0.6824   |
-| 0.2211        | 33.98 | 688  | 1.2916          | 0.7059   |
-| 0.1835        | 34.96 | 708  | 1.2470          | 0.6941   |
-| 0.2121        | 36.0  | 729  | 1.2540          | 0.7176   |
-| 0.2404        | 36.99 | 749  | 1.3146          | 0.7059   |
-| 0.1648        | 37.98 | 769  | 1.3728          | 0.6941   |
-| 0.1655        | 38.96 | 789  | 1.4059          | 0.6824   |
-| 0.2119        | 40.0  | 810  | 1.3854          | 0.6941   |
-| 0.2041        | 40.99 | 830  | 1.4595          | 0.6706   |
-| 0.192         | 41.98 | 850  | 1.4397          | 0.6824   |
-| 0.1937        | 42.96 | 870  | 1.2949          | 0.6706   |
-| 0.1647        | 44.0  | 891  | 1.4009          | 0.6941   |
-| 0.1788        | 44.99 | 911  | 1.4960          | 0.7294   |
-| 0.1489        | 45.98 | 931  | 1.2899          | 0.7294   |
-| 0.154         | 46.96 | 951  | 1.4071          | 0.6941   |
-| 0.1441        | 48.0  | 972  | 1.6576          | 0.6824   |
-| 0.1473        | 48.99 | 992  | 1.5780          | 0.7059   |
-| 0.1512        | 49.98 | 1012 | 1.5647          | 0.6941   |
-| 0.142         | 50.96 | 1032 | 1.4777          | 0.7176   |
-| 0.1222        | 52.0  | 1053 | 1.5708          | 0.6588   |
-| 0.1334        | 52.99 | 1073 | 1.5238          | 0.6941   |
-| 0.1432        | 53.98 | 1093 | 1.5657          | 0.6941   |
-| 0.1391        | 54.96 | 1113 | 1.4855          | 0.7059   |
-| 0.1496        | 56.0  | 1134 | 1.4871          | 0.6706   |
-| 0.1723        | 56.99 | 1154 | 1.4687          | 0.7176   |
-| 0.1082        | 57.98 | 1174 | 1.5720          | 0.6941   |
-| 0.1183        | 58.96 | 1194 | 1.5949          | 0.6706   |
-| 0.1773        | 60.0  | 1215 | 1.5555          | 0.6941   |
-| 0.1199        | 60.99 | 1235 | 1.5171          | 0.7059   |
-| 0.1235        | 61.98 | 1255 | 1.6093          | 0.6824   |
-| 0.0917        | 62.96 | 1275 | 1.5284          | 0.6941   |
-| 0.1397        | 64.0  | 1296 | 1.5439          | 0.7412   |
-| 0.1116        | 64.99 | 1316 | 1.4917          | 0.7176   |
-| 0.154         | 65.98 | 1336 | 1.4918          | 0.7176   |
-| 0.1165        | 66.96 | 1356 | 1.5680          | 0.7176   |
-| 0.0803        | 68.0  | 1377 | 1.6101          | 0.6941   |
-| 0.1155        | 68.99 | 1397 | 1.5572          | 0.7059   |
-| 0.1177        | 69.98 | 1417 | 1.5404          | 0.7176   |
-| 0.0948        | 70.96 | 1437 | 1.5666          | 0.7059   |
-| 0.1262        | 72.0  | 1458 | 1.6310          | 0.6941   |
-| 0.0985        | 72.99 | 1478 | 1.6212          | 0.6941   |
-| 0.106         | 73.98 | 1498 | 1.6286          | 0.6941   |
-| 0.1292        | 74.96 | 1518 | 1.6159          | 0.7059   |
-| 0.0927        | 76.0  | 1539 | 1.6224          | 0.7059   |
-| 0.0908        | 76.99 | 1559 | 1.6389          | 0.6941   |
-| 0.1324        | 77.98 | 1579 | 1.6460          | 0.6941   |
-| 0.0942        | 78.96 | 1599 | 1.6474          | 0.7059   |
-| 0.1172        | 79.01 | 1600 | 1.6474          | 0.7059   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8068181818181818
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0322
+- Accuracy: 0.8068
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 1.6093        | 0.97  | 15   | 1.6090          | 0.2045   |
+| 1.6042        | 2.0   | 31   | 1.6055          | 0.2045   |
+| 1.586         | 2.97  | 46   | 1.5730          | 0.1932   |
+| 1.4855        | 4.0   | 62   | 1.4935          | 0.2614   |
+| 1.3738        | 4.97  | 77   | 1.3273          | 0.5      |
+| 1.1557        | 6.0   | 93   | 1.0828          | 0.625    |
+| 1.0441        | 6.97  | 108  | 0.8971          | 0.6023   |
+| 0.9358        | 8.0   | 124  | 0.7635          | 0.6818   |
+| 0.7707        | 8.97  | 139  | 0.8718          | 0.6477   |
+| 0.7161        | 10.0  | 155  | 0.6903          | 0.7727   |
+| 0.6799        | 10.97 | 170  | 0.8108          | 0.7273   |
+| 0.6402        | 12.0  | 186  | 0.7147          | 0.7273   |
+| 0.5131        | 12.97 | 201  | 0.7521          | 0.75     |
+| 0.5262        | 14.0  | 217  | 0.7967          | 0.7273   |
+| 0.4757        | 14.97 | 232  | 0.7084          | 0.7614   |
+| 0.4758        | 16.0  | 248  | 0.7529          | 0.7727   |
+| 0.4184        | 16.97 | 263  | 0.7769          | 0.7727   |
+| 0.398         | 18.0  | 279  | 0.8496          | 0.7386   |
+| 0.3591        | 18.97 | 294  | 0.8204          | 0.7273   |
+| 0.3536        | 20.0  | 310  | 0.8589          | 0.7614   |
+| 0.2589        | 20.97 | 325  | 0.9754          | 0.7045   |
+| 0.3218        | 22.0  | 341  | 1.0231          | 0.7159   |
+| 0.3151        | 22.97 | 356  | 0.9173          | 0.7386   |
+| 0.2708        | 24.0  | 372  | 0.9598          | 0.7273   |
+| 0.2802        | 24.97 | 387  | 0.9050          | 0.7386   |
+| 0.3114        | 26.0  | 403  | 0.8725          | 0.7727   |
+| 0.2794        | 26.97 | 418  | 0.9579          | 0.7386   |
+| 0.26          | 28.0  | 434  | 1.0064          | 0.7273   |
+| 0.2961        | 28.97 | 449  | 1.1056          | 0.75     |
+| 0.297         | 30.0  | 465  | 0.8761          | 0.7727   |
+| 0.2044        | 30.97 | 480  | 1.0461          | 0.7614   |
+| 0.1884        | 32.0  | 496  | 0.9889          | 0.75     |
+| 0.2156        | 32.97 | 511  | 1.0186          | 0.7727   |
+| 0.194         | 34.0  | 527  | 1.0900          | 0.7727   |
+| 0.2085        | 34.97 | 542  | 1.0762          | 0.75     |
+| 0.1909        | 36.0  | 558  | 1.0325          | 0.7841   |
+| 0.1551        | 36.97 | 573  | 1.1497          | 0.7045   |
+| 0.2106        | 38.0  | 589  | 1.0304          | 0.7727   |
+| 0.1771        | 38.97 | 604  | 1.0794          | 0.7841   |
+| 0.1567        | 40.0  | 620  | 1.0634          | 0.7955   |
+| 0.1856        | 40.97 | 635  | 1.0716          | 0.7614   |
+| 0.185         | 42.0  | 651  | 1.0322          | 0.8068   |
+| 0.1239        | 42.97 | 666  | 1.1516          | 0.7614   |
+| 0.1617        | 44.0  | 682  | 1.0322          | 0.7841   |
+| 0.1221        | 44.97 | 697  | 1.0553          | 0.8068   |
+| 0.1433        | 46.0  | 713  | 1.0597          | 0.7727   |
+| 0.216         | 46.97 | 728  | 1.1586          | 0.75     |
+| 0.1807        | 48.0  | 744  | 1.0873          | 0.7727   |
+| 0.185         | 48.97 | 759  | 1.2490          | 0.7727   |
+| 0.1554        | 50.0  | 775  | 1.2223          | 0.7614   |
+| 0.1359        | 50.97 | 790  | 1.2345          | 0.75     |
+| 0.0929        | 52.0  | 806  | 1.1833          | 0.7614   |
+| 0.1379        | 52.97 | 821  | 1.2581          | 0.7386   |
+| 0.145         | 54.0  | 837  | 1.3023          | 0.75     |
+| 0.134         | 54.97 | 852  | 1.2469          | 0.75     |
+| 0.1974        | 56.0  | 868  | 1.2671          | 0.7386   |
+| 0.122         | 56.97 | 883  | 1.2676          | 0.7273   |
+| 0.1487        | 58.0  | 899  | 1.2846          | 0.7273   |
+| 0.1282        | 58.97 | 914  | 1.1780          | 0.75     |
+| 0.0989        | 60.0  | 930  | 1.2320          | 0.75     |
+| 0.0997        | 60.97 | 945  | 1.2792          | 0.7386   |
+| 0.1058        | 62.0  | 961  | 1.2126          | 0.7614   |
+| 0.1105        | 62.97 | 976  | 1.2561          | 0.7386   |
+| 0.0957        | 64.0  | 992  | 1.1702          | 0.7614   |
+| 0.1326        | 64.97 | 1007 | 1.1839          | 0.75     |
+| 0.0838        | 66.0  | 1023 | 1.2728          | 0.7386   |
+| 0.1163        | 66.97 | 1038 | 1.2736          | 0.75     |
+| 0.0926        | 68.0  | 1054 | 1.2641          | 0.75     |
+| 0.102         | 68.97 | 1069 | 1.3310          | 0.75     |
+| 0.0996        | 70.0  | 1085 | 1.3120          | 0.7273   |
+| 0.081         | 70.97 | 1100 | 1.3358          | 0.7273   |
+| 0.1305        | 72.0  | 1116 | 1.3440          | 0.7273   |
+| 0.1131        | 72.97 | 1131 | 1.3126          | 0.7273   |
+| 0.0883        | 74.0  | 1147 | 1.2848          | 0.7386   |
+| 0.0873        | 74.97 | 1162 | 1.2802          | 0.7386   |
+| 0.0991        | 76.0  | 1178 | 1.2711          | 0.75     |
+| 0.0881        | 76.97 | 1193 | 1.2746          | 0.75     |
+| 0.0895        | 77.42 | 1200 | 1.2752          | 0.75     |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 79.01,
-    "eval_accuracy": 0.7411764705882353,
-    "eval_loss": 1.5438880920410156,
-    "eval_runtime": 0.4091,
-    "eval_samples_per_second": 207.777,
-    "eval_steps_per_second": 14.667,
-    "train_loss": 0.33946088805794716,
-    "train_runtime": 1321.034,
-    "train_samples_per_second": 78.0,
-    "train_steps_per_second": 1.211
 }

 {
+    "epoch": 77.42,
+    "eval_accuracy": 0.8068181818181818,
+    "eval_loss": 1.0321924686431885,
+    "eval_runtime": 1.2083,
+    "eval_samples_per_second": 72.831,
+    "eval_steps_per_second": 4.966,
+    "train_loss": 0.34467112536231675,
+    "train_runtime": 2690.4819,
+    "train_samples_per_second": 29.14,
+    "train_steps_per_second": 0.446
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 79.01,
-    "eval_accuracy": 0.7411764705882353,
-    "eval_loss": 1.5438880920410156,
-    "eval_runtime": 0.4091,
-    "eval_samples_per_second": 207.777,
-    "eval_steps_per_second": 14.667
 }

 {
+    "epoch": 77.42,
+    "eval_accuracy": 0.8068181818181818,
+    "eval_loss": 1.0321924686431885,
+    "eval_runtime": 1.2083,
+    "eval_samples_per_second": 72.831,
+    "eval_steps_per_second": 4.966
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23465bb8331f814c23f8c170a31520d9f88efafbd2d2e890d3f6709a6c005f58
 size 110359372

 version https://git-lfs.github.com/spec/v1
+oid sha256:bae448fc19dc668baef35b6daa0e185c54f7072d9c1559745215cb0a98c90f4d
 size 110359372

runs/Feb04_10-06-24_DESKTOP-SKBE9FB/events.out.tfevents.1738685186.DESKTOP-SKBE9FB.14636.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4cb5df47b1b3abc627ba6041f137781309aba3ab74c99c197c2d4d25a6bc130e
+size 49138

runs/Feb04_10-06-24_DESKTOP-SKBE9FB/events.out.tfevents.1738687878.DESKTOP-SKBE9FB.14636.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6d844049c71ea4c8cc8a010e882ce8ac192ff2bed9c8b1ecd23241a3f46c230
+size 411

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 79.01,
-    "train_loss": 0.33946088805794716,
-    "train_runtime": 1321.034,
-    "train_samples_per_second": 78.0,
-    "train_steps_per_second": 1.211
 }

 {
+    "epoch": 77.42,
+    "train_loss": 0.34467112536231675,
+    "train_runtime": 2690.4819,
+    "train_samples_per_second": 29.14,
+    "train_steps_per_second": 0.446
 }

trainer_state.json CHANGED Viewed

@@ -1,1709 +1,1451 @@
 {
-  "best_metric": 0.7411764705882353,
-  "best_model_checkpoint": "/Modelos/Swin-DA2-final-AMD-Wet\\checkpoint-1296",
-  "epoch": 79.01234567901234,
   "eval_steps": 500,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.49,
-      "learning_rate": 3.125e-06,
       "loss": 1.6093,
       "step": 10
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 6.25e-06,
-      "loss": 1.608,
-      "step": 20
     },
     {
-      "epoch": 0.99,
-      "eval_accuracy": 0.4588235294117647,
-      "eval_loss": 1.6028821468353271,
-      "eval_runtime": 0.4261,
-      "eval_samples_per_second": 199.486,
-      "eval_steps_per_second": 14.081,
       "step": 20
     },
     {
-      "epoch": 1.48,
-      "learning_rate": 9.375000000000001e-06,
-      "loss": 1.6036,
       "step": 30
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 1.25e-05,
-      "loss": 1.5901,
-      "step": 40
     },
     {
-      "epoch": 1.98,
-      "eval_accuracy": 0.4588235294117647,
-      "eval_loss": 1.5388413667678833,
-      "eval_runtime": 0.4061,
-      "eval_samples_per_second": 209.312,
-      "eval_steps_per_second": 14.775,
       "step": 40
     },
     {
-      "epoch": 2.47,
-      "learning_rate": 1.5625e-05,
-      "loss": 1.5733,
       "step": 50
     },
     {
-      "epoch": 2.96,
-      "learning_rate": 1.8750000000000002e-05,
-      "loss": 1.5323,
       "step": 60
     },
     {
-      "epoch": 2.96,
-      "eval_accuracy": 0.4588235294117647,
-      "eval_loss": 1.423707365989685,
-      "eval_runtime": 0.4201,
-      "eval_samples_per_second": 202.335,
-      "eval_steps_per_second": 14.283,
-      "step": 60
     },
     {
-      "epoch": 3.46,
-      "learning_rate": 2.1875e-05,
-      "loss": 1.505,
       "step": 70
     },
     {
-      "epoch": 3.95,
-      "learning_rate": 2.5e-05,
-      "loss": 1.4589,
-      "step": 80
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.5764705882352941,
-      "eval_loss": 1.3121548891067505,
-      "eval_runtime": 0.4311,
-      "eval_samples_per_second": 197.171,
-      "eval_steps_per_second": 13.918,
-      "step": 81
     },
     {
-      "epoch": 4.44,
-      "learning_rate": 2.8125000000000003e-05,
-      "loss": 1.379,
       "step": 90
     },
     {
-      "epoch": 4.94,
-      "learning_rate": 3.125e-05,
-      "loss": 1.2716,
       "step": 100
     },
     {
-      "epoch": 4.99,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 0.9963641166687012,
-      "eval_runtime": 0.4601,
-      "eval_samples_per_second": 184.741,
-      "eval_steps_per_second": 13.041,
-      "step": 101
     },
     {
-      "epoch": 5.43,
-      "learning_rate": 3.4375e-05,
-      "loss": 1.204,
       "step": 110
     },
     {
-      "epoch": 5.93,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 1.1056,
       "step": 120
     },
     {
-      "epoch": 5.98,
-      "eval_accuracy": 0.7176470588235294,
-      "eval_loss": 0.8281134963035583,
-      "eval_runtime": 0.4201,
-      "eval_samples_per_second": 202.335,
-      "eval_steps_per_second": 14.283,
-      "step": 121
     },
     {
-      "epoch": 6.42,
-      "learning_rate": 4.0625000000000005e-05,
-      "loss": 1.0476,
       "step": 130
     },
     {
-      "epoch": 6.91,
-      "learning_rate": 4.375e-05,
-      "loss": 0.9718,
-      "step": 140
     },
     {
-      "epoch": 6.96,
-      "eval_accuracy": 0.7176470588235294,
-      "eval_loss": 0.7179611921310425,
-      "eval_runtime": 0.4191,
-      "eval_samples_per_second": 202.818,
-      "eval_steps_per_second": 14.317,
-      "step": 141
     },
     {
-      "epoch": 7.41,
-      "learning_rate": 4.6875e-05,
-      "loss": 0.95,
       "step": 150
     },
     {
-      "epoch": 7.9,
-      "learning_rate": 5e-05,
-      "loss": 0.8742,
       "step": 160
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.6705882352941176,
-      "eval_loss": 0.9129191637039185,
-      "eval_runtime": 0.4231,
-      "eval_samples_per_second": 200.9,
-      "eval_steps_per_second": 14.181,
-      "step": 162
     },
     {
-      "epoch": 8.4,
-      "learning_rate": 4.965277777777778e-05,
-      "loss": 0.9236,
       "step": 170
     },
     {
-      "epoch": 8.89,
-      "learning_rate": 4.930555555555556e-05,
-      "loss": 0.8124,
       "step": 180
     },
     {
-      "epoch": 8.99,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 0.7812695503234863,
-      "eval_runtime": 0.4161,
-      "eval_samples_per_second": 204.281,
-      "eval_steps_per_second": 14.42,
-      "step": 182
     },
     {
-      "epoch": 9.38,
-      "learning_rate": 4.8958333333333335e-05,
-      "loss": 0.7201,
       "step": 190
     },
     {
-      "epoch": 9.88,
-      "learning_rate": 4.8611111111111115e-05,
-      "loss": 0.7795,
       "step": 200
     },
     {
-      "epoch": 9.98,
-      "eval_accuracy": 0.7294117647058823,
-      "eval_loss": 0.7163568139076233,
-      "eval_runtime": 0.4151,
-      "eval_samples_per_second": 204.773,
-      "eval_steps_per_second": 14.455,
-      "step": 202
     },
     {
-      "epoch": 10.37,
-      "learning_rate": 4.8263888888888895e-05,
-      "loss": 0.677,
       "step": 210
     },
     {
-      "epoch": 10.86,
-      "learning_rate": 4.791666666666667e-05,
-      "loss": 0.6641,
-      "step": 220
     },
     {
-      "epoch": 10.96,
-      "eval_accuracy": 0.7176470588235294,
-      "eval_loss": 0.677833080291748,
-      "eval_runtime": 0.4261,
-      "eval_samples_per_second": 199.485,
-      "eval_steps_per_second": 14.081,
-      "step": 222
     },
     {
-      "epoch": 11.36,
-      "learning_rate": 4.756944444444444e-05,
-      "loss": 0.6385,
       "step": 230
     },
     {
-      "epoch": 11.85,
-      "learning_rate": 4.722222222222222e-05,
-      "loss": 0.6144,
       "step": 240
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.6823529411764706,
-      "eval_loss": 0.8102446794509888,
-      "eval_runtime": 0.4221,
-      "eval_samples_per_second": 201.376,
-      "eval_steps_per_second": 14.215,
-      "step": 243
     },
     {
-      "epoch": 12.35,
-      "learning_rate": 4.6875e-05,
-      "loss": 0.5516,
       "step": 250
     },
     {
-      "epoch": 12.84,
-      "learning_rate": 4.652777777777778e-05,
-      "loss": 0.4955,
       "step": 260
     },
     {
-      "epoch": 12.99,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 0.7380304932594299,
-      "eval_runtime": 0.4281,
-      "eval_samples_per_second": 198.553,
-      "eval_steps_per_second": 14.016,
       "step": 263
     },
     {
-      "epoch": 13.33,
-      "learning_rate": 4.618055555555556e-05,
-      "loss": 0.5124,
       "step": 270
     },
     {
-      "epoch": 13.83,
-      "learning_rate": 4.5833333333333334e-05,
-      "loss": 0.5205,
-      "step": 280
     },
     {
-      "epoch": 13.98,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 0.8914799690246582,
-      "eval_runtime": 0.4171,
-      "eval_samples_per_second": 203.791,
-      "eval_steps_per_second": 14.385,
-      "step": 283
     },
     {
-      "epoch": 14.32,
-      "learning_rate": 4.5486111111111114e-05,
-      "loss": 0.4596,
       "step": 290
     },
     {
-      "epoch": 14.81,
-      "learning_rate": 4.5138888888888894e-05,
-      "loss": 0.4759,
       "step": 300
     },
     {
-      "epoch": 14.96,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 0.8514336943626404,
-      "eval_runtime": 0.4261,
-      "eval_samples_per_second": 199.486,
-      "eval_steps_per_second": 14.081,
-      "step": 303
     },
     {
-      "epoch": 15.31,
-      "learning_rate": 4.4791666666666673e-05,
-      "loss": 0.4514,
       "step": 310
     },
     {
-      "epoch": 15.8,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.4158,
       "step": 320
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy": 0.6588235294117647,
-      "eval_loss": 0.8800526261329651,
-      "eval_runtime": 0.4221,
-      "eval_samples_per_second": 201.377,
-      "eval_steps_per_second": 14.215,
-      "step": 324
     },
     {
-      "epoch": 16.3,
-      "learning_rate": 4.4097222222222226e-05,
-      "loss": 0.4417,
       "step": 330
     },
     {
-      "epoch": 16.79,
-      "learning_rate": 4.375e-05,
-      "loss": 0.4081,
       "step": 340
     },
     {
-      "epoch": 16.99,
-      "eval_accuracy": 0.7176470588235294,
-      "eval_loss": 0.887298047542572,
-      "eval_runtime": 0.4181,
-      "eval_samples_per_second": 203.304,
-      "eval_steps_per_second": 14.351,
-      "step": 344
     },
     {
-      "epoch": 17.28,
-      "learning_rate": 4.340277777777778e-05,
-      "loss": 0.3554,
       "step": 350
     },
     {
-      "epoch": 17.78,
-      "learning_rate": 4.305555555555556e-05,
-      "loss": 0.3459,
-      "step": 360
     },
     {
-      "epoch": 17.98,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 0.8625325560569763,
-      "eval_runtime": 0.4211,
-      "eval_samples_per_second": 201.855,
-      "eval_steps_per_second": 14.249,
-      "step": 364
     },
     {
-      "epoch": 18.27,
-      "learning_rate": 4.270833333333333e-05,
-      "loss": 0.3252,
       "step": 370
     },
     {
-      "epoch": 18.77,
-      "learning_rate": 4.236111111111111e-05,
-      "loss": 0.3394,
       "step": 380
     },
     {
-      "epoch": 18.96,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.071554183959961,
-      "eval_runtime": 0.4211,
-      "eval_samples_per_second": 201.855,
-      "eval_steps_per_second": 14.249,
-      "step": 384
     },
     {
-      "epoch": 19.26,
-      "learning_rate": 4.201388888888889e-05,
-      "loss": 0.3679,
       "step": 390
     },
     {
-      "epoch": 19.75,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.3424,
       "step": 400
     },
     {
-      "epoch": 20.0,
-      "eval_accuracy": 0.6705882352941176,
-      "eval_loss": 1.0255895853042603,
-      "eval_runtime": 0.4161,
-      "eval_samples_per_second": 204.281,
-      "eval_steps_per_second": 14.42,
-      "step": 405
     },
     {
-      "epoch": 20.25,
-      "learning_rate": 4.1319444444444445e-05,
-      "loss": 0.3519,
       "step": 410
     },
     {
-      "epoch": 20.74,
-      "learning_rate": 4.0972222222222225e-05,
-      "loss": 0.299,
-      "step": 420
     },
     {
-      "epoch": 20.99,
-      "eval_accuracy": 0.6823529411764706,
-      "eval_loss": 1.0252176523208618,
-      "eval_runtime": 0.4591,
-      "eval_samples_per_second": 185.144,
-      "eval_steps_per_second": 13.069,
-      "step": 425
     },
     {
-      "epoch": 21.23,
-      "learning_rate": 4.0625000000000005e-05,
-      "loss": 0.2807,
       "step": 430
     },
     {
-      "epoch": 21.73,
-      "learning_rate": 4.027777777777778e-05,
-      "loss": 0.3092,
       "step": 440
     },
     {
-      "epoch": 21.98,
-      "eval_accuracy": 0.6705882352941176,
-      "eval_loss": 1.1101115942001343,
-      "eval_runtime": 0.4641,
-      "eval_samples_per_second": 183.148,
-      "eval_steps_per_second": 12.928,
-      "step": 445
     },
     {
-      "epoch": 22.22,
-      "learning_rate": 3.993055555555556e-05,
-      "loss": 0.2652,
       "step": 450
     },
     {
-      "epoch": 22.72,
-      "learning_rate": 3.958333333333333e-05,
-      "loss": 0.3017,
       "step": 460
     },
     {
-      "epoch": 22.96,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 0.9969448447227478,
-      "eval_runtime": 0.4651,
-      "eval_samples_per_second": 182.754,
-      "eval_steps_per_second": 12.9,
       "step": 465
     },
     {
-      "epoch": 23.21,
-      "learning_rate": 3.923611111111111e-05,
-      "loss": 0.3203,
       "step": 470
     },
     {
-      "epoch": 23.7,
-      "learning_rate": 3.888888888888889e-05,
-      "loss": 0.2703,
       "step": 480
     },
     {
-      "epoch": 24.0,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.1107916831970215,
-      "eval_runtime": 0.4231,
-      "eval_samples_per_second": 200.901,
-      "eval_steps_per_second": 14.181,
-      "step": 486
     },
     {
-      "epoch": 24.2,
-      "learning_rate": 3.854166666666667e-05,
-      "loss": 0.2774,
       "step": 490
     },
     {
-      "epoch": 24.69,
-      "learning_rate": 3.8194444444444444e-05,
-      "loss": 0.2808,
-      "step": 500
     },
     {
-      "epoch": 24.99,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.1121238470077515,
-      "eval_runtime": 0.4191,
-      "eval_samples_per_second": 202.818,
-      "eval_steps_per_second": 14.317,
-      "step": 506
     },
     {
-      "epoch": 25.19,
-      "learning_rate": 3.7847222222222224e-05,
-      "loss": 0.2613,
       "step": 510
     },
     {
-      "epoch": 25.68,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.2711,
       "step": 520
     },
     {
-      "epoch": 25.98,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.2440009117126465,
-      "eval_runtime": 0.4181,
-      "eval_samples_per_second": 203.303,
-      "eval_steps_per_second": 14.351,
-      "step": 526
     },
     {
-      "epoch": 26.17,
-      "learning_rate": 3.715277777777778e-05,
-      "loss": 0.2334,
       "step": 530
     },
     {
-      "epoch": 26.67,
-      "learning_rate": 3.6805555555555556e-05,
-      "loss": 0.2993,
       "step": 540
     },
     {
-      "epoch": 26.96,
-      "eval_accuracy": 0.6823529411764706,
-      "eval_loss": 1.09800386428833,
-      "eval_runtime": 0.4251,
-      "eval_samples_per_second": 199.955,
-      "eval_steps_per_second": 14.114,
-      "step": 546
     },
     {
-      "epoch": 27.16,
-      "learning_rate": 3.6458333333333336e-05,
-      "loss": 0.2667,
       "step": 550
     },
     {
-      "epoch": 27.65,
-      "learning_rate": 3.611111111111111e-05,
-      "loss": 0.1981,
-      "step": 560
     },
     {
-      "epoch": 28.0,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.22683584690094,
-      "eval_runtime": 0.4531,
-      "eval_samples_per_second": 187.595,
-      "eval_steps_per_second": 13.242,
-      "step": 567
     },
     {
-      "epoch": 28.15,
-      "learning_rate": 3.576388888888889e-05,
-      "loss": 0.2428,
       "step": 570
     },
     {
-      "epoch": 28.64,
-      "learning_rate": 3.541666666666667e-05,
-      "loss": 0.2735,
       "step": 580
     },
     {
-      "epoch": 28.99,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.0830715894699097,
-      "eval_runtime": 0.4571,
-      "eval_samples_per_second": 185.954,
-      "eval_steps_per_second": 13.126,
-      "step": 587
     },
     {
-      "epoch": 29.14,
-      "learning_rate": 3.506944444444444e-05,
-      "loss": 0.241,
       "step": 590
     },
     {
-      "epoch": 29.63,
-      "learning_rate": 3.472222222222222e-05,
-      "loss": 0.2238,
       "step": 600
     },
     {
-      "epoch": 29.98,
-      "eval_accuracy": 0.6705882352941176,
-      "eval_loss": 1.2661923170089722,
-      "eval_runtime": 0.4181,
-      "eval_samples_per_second": 203.303,
-      "eval_steps_per_second": 14.351,
-      "step": 607
     },
     {
-      "epoch": 30.12,
-      "learning_rate": 3.4375e-05,
-      "loss": 0.2509,
       "step": 610
     },
     {
-      "epoch": 30.62,
-      "learning_rate": 3.402777777777778e-05,
-      "loss": 0.2374,
       "step": 620
     },
     {
-      "epoch": 30.96,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.2891523838043213,
-      "eval_runtime": 0.4661,
-      "eval_samples_per_second": 182.362,
-      "eval_steps_per_second": 12.873,
-      "step": 627
     },
     {
-      "epoch": 31.11,
-      "learning_rate": 3.368055555555556e-05,
-      "loss": 0.2149,
       "step": 630
     },
     {
-      "epoch": 31.6,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.2239,
-      "step": 640
     },
     {
-      "epoch": 32.0,
-      "eval_accuracy": 0.7294117647058823,
-      "eval_loss": 1.1820646524429321,
-      "eval_runtime": 0.4651,
-      "eval_samples_per_second": 182.755,
-      "eval_steps_per_second": 12.9,
-      "step": 648
     },
     {
-      "epoch": 32.1,
-      "learning_rate": 3.2986111111111115e-05,
-      "loss": 0.2407,
       "step": 650
     },
     {
-      "epoch": 32.59,
-      "learning_rate": 3.263888888888889e-05,
-      "loss": 0.1676,
       "step": 660
     },
     {
-      "epoch": 32.99,
-      "eval_accuracy": 0.6823529411764706,
-      "eval_loss": 1.2822729349136353,
-      "eval_runtime": 0.4191,
-      "eval_samples_per_second": 202.818,
-      "eval_steps_per_second": 14.317,
-      "step": 668
     },
     {
-      "epoch": 33.09,
-      "learning_rate": 3.229166666666667e-05,
-      "loss": 0.2115,
       "step": 670
     },
     {
-      "epoch": 33.58,
-      "learning_rate": 3.194444444444444e-05,
-      "loss": 0.2211,
       "step": 680
     },
     {
-      "epoch": 33.98,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.2916243076324463,
-      "eval_runtime": 0.4191,
-      "eval_samples_per_second": 202.818,
-      "eval_steps_per_second": 14.317,
-      "step": 688
     },
     {
-      "epoch": 34.07,
-      "learning_rate": 3.159722222222222e-05,
-      "loss": 0.2231,
       "step": 690
     },
     {
-      "epoch": 34.57,
-      "learning_rate": 3.125e-05,
-      "loss": 0.1835,
-      "step": 700
     },
     {
-      "epoch": 34.96,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.247016191482544,
-      "eval_runtime": 0.4201,
-      "eval_samples_per_second": 202.335,
-      "eval_steps_per_second": 14.283,
-      "step": 708
     },
     {
-      "epoch": 35.06,
-      "learning_rate": 3.090277777777778e-05,
-      "loss": 0.1702,
       "step": 710
     },
     {
-      "epoch": 35.56,
-      "learning_rate": 3.055555555555556e-05,
-      "loss": 0.2121,
       "step": 720
     },
     {
-      "epoch": 36.0,
-      "eval_accuracy": 0.7176470588235294,
-      "eval_loss": 1.2540191411972046,
-      "eval_runtime": 0.4181,
-      "eval_samples_per_second": 203.303,
-      "eval_steps_per_second": 14.351,
-      "step": 729
     },
     {
-      "epoch": 36.05,
-      "learning_rate": 3.0208333333333334e-05,
-      "loss": 0.1958,
       "step": 730
     },
     {
-      "epoch": 36.54,
-      "learning_rate": 2.9861111111111113e-05,
-      "loss": 0.2404,
       "step": 740
     },
     {
-      "epoch": 36.99,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.3146324157714844,
-      "eval_runtime": 0.4181,
-      "eval_samples_per_second": 203.303,
-      "eval_steps_per_second": 14.351,
-      "step": 749
     },
     {
-      "epoch": 37.04,
-      "learning_rate": 2.951388888888889e-05,
-      "loss": 0.2191,
       "step": 750
     },
     {
-      "epoch": 37.53,
-      "learning_rate": 2.916666666666667e-05,
-      "loss": 0.1648,
-      "step": 760
     },
     {
-      "epoch": 37.98,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.3727829456329346,
-      "eval_runtime": 0.4651,
-      "eval_samples_per_second": 182.755,
-      "eval_steps_per_second": 12.9,
-      "step": 769
     },
     {
-      "epoch": 38.02,
-      "learning_rate": 2.8819444444444443e-05,
-      "loss": 0.1967,
       "step": 770
     },
     {
-      "epoch": 38.52,
-      "learning_rate": 2.8472222222222223e-05,
-      "loss": 0.1655,
       "step": 780
     },
     {
-      "epoch": 38.96,
-      "eval_accuracy": 0.6823529411764706,
-      "eval_loss": 1.4059263467788696,
-      "eval_runtime": 0.4251,
-      "eval_samples_per_second": 199.955,
-      "eval_steps_per_second": 14.114,
-      "step": 789
     },
     {
-      "epoch": 39.01,
-      "learning_rate": 2.8125000000000003e-05,
-      "loss": 0.205,
       "step": 790
     },
     {
-      "epoch": 39.51,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.2093,
       "step": 800
     },
     {
-      "epoch": 40.0,
-      "learning_rate": 2.743055555555556e-05,
-      "loss": 0.2119,
-      "step": 810
     },
     {
-      "epoch": 40.0,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.3854056596755981,
-      "eval_runtime": 0.4701,
-      "eval_samples_per_second": 180.81,
-      "eval_steps_per_second": 12.763,
       "step": 810
     },
     {
-      "epoch": 40.49,
-      "learning_rate": 2.7083333333333332e-05,
-      "loss": 0.2192,
       "step": 820
     },
     {
-      "epoch": 40.99,
-      "learning_rate": 2.6736111111111112e-05,
-      "loss": 0.2041,
-      "step": 830
     },
     {
-      "epoch": 40.99,
-      "eval_accuracy": 0.6705882352941176,
-      "eval_loss": 1.459546446800232,
-      "eval_runtime": 0.4201,
-      "eval_samples_per_second": 202.335,
-      "eval_steps_per_second": 14.282,
       "step": 830
     },
     {
-      "epoch": 41.48,
-      "learning_rate": 2.6388888888888892e-05,
-      "loss": 0.1603,
       "step": 840
     },
     {
-      "epoch": 41.98,
-      "learning_rate": 2.604166666666667e-05,
-      "loss": 0.192,
       "step": 850
     },
     {
-      "epoch": 41.98,
-      "eval_accuracy": 0.6823529411764706,
-      "eval_loss": 1.4397283792495728,
-      "eval_runtime": 0.4751,
-      "eval_samples_per_second": 178.907,
-      "eval_steps_per_second": 12.629,
-      "step": 850
     },
     {
-      "epoch": 42.47,
-      "learning_rate": 2.5694444444444445e-05,
-      "loss": 0.188,
       "step": 860
     },
     {
-      "epoch": 42.96,
-      "learning_rate": 2.534722222222222e-05,
-      "loss": 0.1937,
-      "step": 870
     },
     {
-      "epoch": 42.96,
-      "eval_accuracy": 0.6705882352941176,
-      "eval_loss": 1.294859528541565,
-      "eval_runtime": 0.4591,
-      "eval_samples_per_second": 185.143,
-      "eval_steps_per_second": 13.069,
       "step": 870
     },
     {
-      "epoch": 43.46,
-      "learning_rate": 2.5e-05,
-      "loss": 0.1425,
       "step": 880
     },
     {
-      "epoch": 43.95,
-      "learning_rate": 2.465277777777778e-05,
-      "loss": 0.1647,
       "step": 890
     },
     {
-      "epoch": 44.0,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.4008865356445312,
-      "eval_runtime": 0.4231,
-      "eval_samples_per_second": 200.901,
-      "eval_steps_per_second": 14.181,
-      "step": 891
     },
     {
-      "epoch": 44.44,
-      "learning_rate": 2.4305555555555558e-05,
-      "loss": 0.1918,
       "step": 900
     },
     {
-      "epoch": 44.94,
-      "learning_rate": 2.3958333333333334e-05,
-      "loss": 0.1788,
       "step": 910
     },
     {
-      "epoch": 44.99,
-      "eval_accuracy": 0.7294117647058823,
-      "eval_loss": 1.4960347414016724,
-      "eval_runtime": 0.4171,
-      "eval_samples_per_second": 203.791,
-      "eval_steps_per_second": 14.385,
-      "step": 911
     },
     {
-      "epoch": 45.43,
-      "learning_rate": 2.361111111111111e-05,
-      "loss": 0.1816,
       "step": 920
     },
     {
-      "epoch": 45.93,
-      "learning_rate": 2.326388888888889e-05,
-      "loss": 0.1489,
       "step": 930
     },
     {
-      "epoch": 45.98,
-      "eval_accuracy": 0.7294117647058823,
-      "eval_loss": 1.289921522140503,
-      "eval_runtime": 0.4181,
-      "eval_samples_per_second": 203.303,
-      "eval_steps_per_second": 14.351,
-      "step": 931
     },
     {
-      "epoch": 46.42,
-      "learning_rate": 2.2916666666666667e-05,
-      "loss": 0.1536,
       "step": 940
     },
     {
-      "epoch": 46.91,
-      "learning_rate": 2.2569444444444447e-05,
-      "loss": 0.154,
-      "step": 950
     },
     {
-      "epoch": 46.96,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.4070924520492554,
-      "eval_runtime": 0.4741,
-      "eval_samples_per_second": 179.285,
-      "eval_steps_per_second": 12.655,
-      "step": 951
     },
     {
-      "epoch": 47.41,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.1515,
       "step": 960
     },
     {
-      "epoch": 47.9,
-      "learning_rate": 2.1875e-05,
-      "loss": 0.1441,
       "step": 970
     },
     {
-      "epoch": 48.0,
-      "eval_accuracy": 0.6823529411764706,
-      "eval_loss": 1.65756094455719,
-      "eval_runtime": 0.4181,
-      "eval_samples_per_second": 203.303,
-      "eval_steps_per_second": 14.351,
-      "step": 972
     },
     {
-      "epoch": 48.4,
-      "learning_rate": 2.152777777777778e-05,
-      "loss": 0.1451,
       "step": 980
     },
     {
-      "epoch": 48.89,
-      "learning_rate": 2.1180555555555556e-05,
-      "loss": 0.1473,
       "step": 990
     },
     {
-      "epoch": 48.99,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.578020691871643,
-      "eval_runtime": 0.4611,
-      "eval_samples_per_second": 184.34,
-      "eval_steps_per_second": 13.012,
       "step": 992
     },
     {
-      "epoch": 49.38,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 0.1377,
       "step": 1000
     },
     {
-      "epoch": 49.88,
-      "learning_rate": 2.0486111111111113e-05,
-      "loss": 0.1512,
-      "step": 1010
     },
     {
-      "epoch": 49.98,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.5647401809692383,
-      "eval_runtime": 0.4171,
-      "eval_samples_per_second": 203.791,
-      "eval_steps_per_second": 14.385,
-      "step": 1012
     },
     {
-      "epoch": 50.37,
-      "learning_rate": 2.013888888888889e-05,
-      "loss": 0.1175,
       "step": 1020
     },
     {
-      "epoch": 50.86,
-      "learning_rate": 1.9791666666666665e-05,
-      "loss": 0.142,
       "step": 1030
     },
     {
-      "epoch": 50.96,
-      "eval_accuracy": 0.7176470588235294,
-      "eval_loss": 1.4776697158813477,
-      "eval_runtime": 0.4191,
-      "eval_samples_per_second": 202.818,
-      "eval_steps_per_second": 14.317,
-      "step": 1032
     },
     {
-      "epoch": 51.36,
-      "learning_rate": 1.9444444444444445e-05,
-      "loss": 0.1531,
       "step": 1040
     },
     {
-      "epoch": 51.85,
-      "learning_rate": 1.9097222222222222e-05,
-      "loss": 0.1222,
       "step": 1050
     },
     {
-      "epoch": 52.0,
-      "eval_accuracy": 0.6588235294117647,
-      "eval_loss": 1.5707907676696777,
-      "eval_runtime": 0.4641,
-      "eval_samples_per_second": 183.148,
-      "eval_steps_per_second": 12.928,
-      "step": 1053
     },
     {
-      "epoch": 52.35,
-      "learning_rate": 1.8750000000000002e-05,
-      "loss": 0.1441,
       "step": 1060
     },
     {
-      "epoch": 52.84,
-      "learning_rate": 1.8402777777777778e-05,
-      "loss": 0.1334,
-      "step": 1070
     },
     {
-      "epoch": 52.99,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.5238498449325562,
-      "eval_runtime": 0.4201,
-      "eval_samples_per_second": 202.336,
-      "eval_steps_per_second": 14.283,
-      "step": 1073
     },
     {
-      "epoch": 53.33,
-      "learning_rate": 1.8055555555555555e-05,
-      "loss": 0.1655,
       "step": 1080
     },
     {
-      "epoch": 53.83,
-      "learning_rate": 1.7708333333333335e-05,
-      "loss": 0.1432,
       "step": 1090
     },
     {
-      "epoch": 53.98,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.5657267570495605,
-      "eval_runtime": 0.4611,
-      "eval_samples_per_second": 184.34,
-      "eval_steps_per_second": 13.012,
-      "step": 1093
     },
     {
-      "epoch": 54.32,
-      "learning_rate": 1.736111111111111e-05,
-      "loss": 0.1234,
       "step": 1100
     },
     {
-      "epoch": 54.81,
-      "learning_rate": 1.701388888888889e-05,
-      "loss": 0.1391,
       "step": 1110
     },
     {
-      "epoch": 54.96,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.4855289459228516,
-      "eval_runtime": 0.4211,
-      "eval_samples_per_second": 201.855,
-      "eval_steps_per_second": 14.249,
-      "step": 1113
     },
     {
-      "epoch": 55.31,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.1528,
       "step": 1120
     },
     {
-      "epoch": 55.8,
-      "learning_rate": 1.6319444444444444e-05,
-      "loss": 0.1496,
       "step": 1130
     },
     {
-      "epoch": 56.0,
-      "eval_accuracy": 0.6705882352941176,
-      "eval_loss": 1.4871221780776978,
-      "eval_runtime": 0.4701,
-      "eval_samples_per_second": 180.81,
-      "eval_steps_per_second": 12.763,
-      "step": 1134
     },
     {
-      "epoch": 56.3,
-      "learning_rate": 1.597222222222222e-05,
-      "loss": 0.1717,
       "step": 1140
     },
     {
-      "epoch": 56.79,
-      "learning_rate": 1.5625e-05,
-      "loss": 0.1723,
-      "step": 1150
     },
     {
-      "epoch": 56.99,
-      "eval_accuracy": 0.7176470588235294,
-      "eval_loss": 1.4687236547470093,
-      "eval_runtime": 0.4781,
-      "eval_samples_per_second": 177.784,
-      "eval_steps_per_second": 12.549,
-      "step": 1154
     },
     {
-      "epoch": 57.28,
-      "learning_rate": 1.527777777777778e-05,
-      "loss": 0.1117,
       "step": 1160
     },
     {
-      "epoch": 57.78,
-      "learning_rate": 1.4930555555555557e-05,
-      "loss": 0.1082,
       "step": 1170
     },
     {
-      "epoch": 57.98,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.5719561576843262,
-      "eval_runtime": 0.4291,
-      "eval_samples_per_second": 198.091,
-      "eval_steps_per_second": 13.983,
-      "step": 1174
     },
     {
-      "epoch": 58.27,
-      "learning_rate": 1.4583333333333335e-05,
-      "loss": 0.1093,
       "step": 1180
     },
     {
-      "epoch": 58.77,
-      "learning_rate": 1.4236111111111111e-05,
-      "loss": 0.1183,
       "step": 1190
     },
     {
-      "epoch": 58.96,
-      "eval_accuracy": 0.6705882352941176,
-      "eval_loss": 1.5949270725250244,
-      "eval_runtime": 0.4571,
-      "eval_samples_per_second": 185.954,
-      "eval_steps_per_second": 13.126,
-      "step": 1194
     },
     {
-      "epoch": 59.26,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.1106,
       "step": 1200
     },
     {
-      "epoch": 59.75,
-      "learning_rate": 1.3541666666666666e-05,
-      "loss": 0.1773,
-      "step": 1210
-    },
-    {
-      "epoch": 60.0,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.5555047988891602,
-      "eval_runtime": 0.4201,
-      "eval_samples_per_second": 202.335,
-      "eval_steps_per_second": 14.282,
-      "step": 1215
-    },
-    {
-      "epoch": 60.25,
-      "learning_rate": 1.3194444444444446e-05,
-      "loss": 0.1239,
-      "step": 1220
-    },
-    {
-      "epoch": 60.74,
-      "learning_rate": 1.2847222222222222e-05,
-      "loss": 0.1199,
-      "step": 1230
-    },
-    {
-      "epoch": 60.99,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.5170692205429077,
-      "eval_runtime": 0.4581,
-      "eval_samples_per_second": 185.548,
-      "eval_steps_per_second": 13.097,
-      "step": 1235
-    },
-    {
-      "epoch": 61.23,
-      "learning_rate": 1.25e-05,
-      "loss": 0.1142,
-      "step": 1240
-    },
-    {
-      "epoch": 61.73,
-      "learning_rate": 1.2152777777777779e-05,
-      "loss": 0.1235,
-      "step": 1250
-    },
-    {
-      "epoch": 61.98,
-      "eval_accuracy": 0.6823529411764706,
-      "eval_loss": 1.609281301498413,
-      "eval_runtime": 0.4211,
-      "eval_samples_per_second": 201.855,
-      "eval_steps_per_second": 14.249,
-      "step": 1255
-    },
-    {
-      "epoch": 62.22,
-      "learning_rate": 1.1805555555555555e-05,
-      "loss": 0.1353,
-      "step": 1260
-    },
-    {
-      "epoch": 62.72,
-      "learning_rate": 1.1458333333333333e-05,
-      "loss": 0.0917,
-      "step": 1270
-    },
-    {
-      "epoch": 62.96,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.5284392833709717,
-      "eval_runtime": 0.4501,
-      "eval_samples_per_second": 188.846,
-      "eval_steps_per_second": 13.33,
-      "step": 1275
-    },
-    {
-      "epoch": 63.21,
-      "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.1338,
-      "step": 1280
-    },
-    {
-      "epoch": 63.7,
-      "learning_rate": 1.076388888888889e-05,
-      "loss": 0.1397,
-      "step": 1290
-    },
-    {
-      "epoch": 64.0,
-      "eval_accuracy": 0.7411764705882353,
-      "eval_loss": 1.5438880920410156,
-      "eval_runtime": 0.4211,
-      "eval_samples_per_second": 201.855,
-      "eval_steps_per_second": 14.249,
-      "step": 1296
-    },
-    {
-      "epoch": 64.2,
-      "learning_rate": 1.0416666666666668e-05,
-      "loss": 0.1037,
-      "step": 1300
-    },
-    {
-      "epoch": 64.69,
-      "learning_rate": 1.0069444444444445e-05,
-      "loss": 0.1116,
-      "step": 1310
-    },
-    {
-      "epoch": 64.99,
-      "eval_accuracy": 0.7176470588235294,
-      "eval_loss": 1.4917408227920532,
-      "eval_runtime": 0.4671,
-      "eval_samples_per_second": 181.972,
-      "eval_steps_per_second": 12.845,
-      "step": 1316
-    },
-    {
-      "epoch": 65.19,
-      "learning_rate": 9.722222222222223e-06,
-      "loss": 0.084,
-      "step": 1320
-    },
-    {
-      "epoch": 65.68,
-      "learning_rate": 9.375000000000001e-06,
-      "loss": 0.154,
-      "step": 1330
-    },
-    {
-      "epoch": 65.98,
-      "eval_accuracy": 0.7176470588235294,
-      "eval_loss": 1.4917773008346558,
-      "eval_runtime": 0.4221,
-      "eval_samples_per_second": 201.376,
-      "eval_steps_per_second": 14.215,
-      "step": 1336
-    },
-    {
-      "epoch": 66.17,
-      "learning_rate": 9.027777777777777e-06,
-      "loss": 0.1385,
-      "step": 1340
-    },
-    {
-      "epoch": 66.67,
-      "learning_rate": 8.680555555555556e-06,
-      "loss": 0.1165,
-      "step": 1350
-    },
-    {
-      "epoch": 66.96,
-      "eval_accuracy": 0.7176470588235294,
-      "eval_loss": 1.567964792251587,
-      "eval_runtime": 0.4221,
-      "eval_samples_per_second": 201.376,
-      "eval_steps_per_second": 14.215,
-      "step": 1356
-    },
-    {
-      "epoch": 67.16,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 0.1235,
-      "step": 1360
-    },
-    {
-      "epoch": 67.65,
-      "learning_rate": 7.98611111111111e-06,
-      "loss": 0.0803,
-      "step": 1370
-    },
-    {
-      "epoch": 68.0,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.6100775003433228,
-      "eval_runtime": 0.4591,
-      "eval_samples_per_second": 185.143,
-      "eval_steps_per_second": 13.069,
-      "step": 1377
-    },
-    {
-      "epoch": 68.15,
-      "learning_rate": 7.63888888888889e-06,
-      "loss": 0.1418,
-      "step": 1380
-    },
-    {
-      "epoch": 68.64,
-      "learning_rate": 7.2916666666666674e-06,
-      "loss": 0.1155,
-      "step": 1390
-    },
-    {
-      "epoch": 68.99,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.5571577548980713,
-      "eval_runtime": 0.4471,
-      "eval_samples_per_second": 190.114,
-      "eval_steps_per_second": 13.42,
-      "step": 1397
-    },
-    {
-      "epoch": 69.14,
-      "learning_rate": 6.944444444444445e-06,
-      "loss": 0.1345,
-      "step": 1400
-    },
-    {
-      "epoch": 69.63,
-      "learning_rate": 6.597222222222223e-06,
-      "loss": 0.1177,
-      "step": 1410
-    },
-    {
-      "epoch": 69.98,
-      "eval_accuracy": 0.7176470588235294,
-      "eval_loss": 1.540352702140808,
-      "eval_runtime": 0.4261,
-      "eval_samples_per_second": 199.485,
-      "eval_steps_per_second": 14.081,
-      "step": 1417
-    },
-    {
-      "epoch": 70.12,
-      "learning_rate": 6.25e-06,
-      "loss": 0.0858,
-      "step": 1420
-    },
-    {
-      "epoch": 70.62,
-      "learning_rate": 5.902777777777778e-06,
-      "loss": 0.0948,
-      "step": 1430
-    },
-    {
-      "epoch": 70.96,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.5666162967681885,
-      "eval_runtime": 0.4211,
-      "eval_samples_per_second": 201.854,
-      "eval_steps_per_second": 14.249,
-      "step": 1437
-    },
-    {
-      "epoch": 71.11,
-      "learning_rate": 5.555555555555556e-06,
-      "loss": 0.1391,
-      "step": 1440
-    },
-    {
-      "epoch": 71.6,
-      "learning_rate": 5.208333333333334e-06,
-      "loss": 0.1262,
-      "step": 1450
-    },
-    {
-      "epoch": 72.0,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.6309505701065063,
-      "eval_runtime": 0.4821,
-      "eval_samples_per_second": 176.309,
-      "eval_steps_per_second": 12.445,
-      "step": 1458
-    },
-    {
-      "epoch": 72.1,
-      "learning_rate": 4.861111111111111e-06,
-      "loss": 0.0788,
-      "step": 1460
-    },
-    {
-      "epoch": 72.59,
-      "learning_rate": 4.513888888888889e-06,
-      "loss": 0.0985,
-      "step": 1470
-    },
-    {
-      "epoch": 72.99,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.6212233304977417,
-      "eval_runtime": 0.4181,
-      "eval_samples_per_second": 203.303,
-      "eval_steps_per_second": 14.351,
-      "step": 1478
-    },
-    {
-      "epoch": 73.09,
-      "learning_rate": 4.166666666666667e-06,
-      "loss": 0.1069,
-      "step": 1480
-    },
-    {
-      "epoch": 73.58,
-      "learning_rate": 3.819444444444445e-06,
-      "loss": 0.106,
-      "step": 1490
-    },
-    {
-      "epoch": 73.98,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.6286240816116333,
-      "eval_runtime": 0.4121,
-      "eval_samples_per_second": 206.264,
-      "eval_steps_per_second": 14.56,
-      "step": 1498
-    },
-    {
-      "epoch": 74.07,
-      "learning_rate": 3.4722222222222224e-06,
-      "loss": 0.1089,
-      "step": 1500
-    },
-    {
-      "epoch": 74.57,
-      "learning_rate": 3.125e-06,
-      "loss": 0.1292,
-      "step": 1510
-    },
-    {
-      "epoch": 74.96,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.6158820390701294,
-      "eval_runtime": 0.4141,
-      "eval_samples_per_second": 205.268,
-      "eval_steps_per_second": 14.489,
-      "step": 1518
-    },
-    {
-      "epoch": 75.06,
-      "learning_rate": 2.777777777777778e-06,
-      "loss": 0.0942,
-      "step": 1520
-    },
-    {
-      "epoch": 75.56,
-      "learning_rate": 2.4305555555555557e-06,
-      "loss": 0.0927,
-      "step": 1530
-    },
-    {
-      "epoch": 76.0,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.6224379539489746,
-      "eval_runtime": 0.4171,
-      "eval_samples_per_second": 203.791,
-      "eval_steps_per_second": 14.385,
-      "step": 1539
-    },
-    {
-      "epoch": 76.05,
-      "learning_rate": 2.0833333333333334e-06,
-      "loss": 0.107,
-      "step": 1540
-    },
-    {
-      "epoch": 76.54,
-      "learning_rate": 1.7361111111111112e-06,
-      "loss": 0.0908,
-      "step": 1550
-    },
-    {
-      "epoch": 76.99,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.6388969421386719,
-      "eval_runtime": 0.4151,
-      "eval_samples_per_second": 204.773,
-      "eval_steps_per_second": 14.455,
-      "step": 1559
-    },
-    {
-      "epoch": 77.04,
-      "learning_rate": 1.388888888888889e-06,
-      "loss": 0.1139,
-      "step": 1560
-    },
-    {
-      "epoch": 77.53,
-      "learning_rate": 1.0416666666666667e-06,
-      "loss": 0.1324,
-      "step": 1570
-    },
-    {
-      "epoch": 77.98,
-      "eval_accuracy": 0.6941176470588235,
-      "eval_loss": 1.6460027694702148,
-      "eval_runtime": 0.4141,
-      "eval_samples_per_second": 205.268,
-      "eval_steps_per_second": 14.489,
-      "step": 1579
-    },
-    {
-      "epoch": 78.02,
-      "learning_rate": 6.944444444444445e-07,
-      "loss": 0.1232,
-      "step": 1580
-    },
-    {
-      "epoch": 78.52,
-      "learning_rate": 3.4722222222222224e-07,
-      "loss": 0.0942,
-      "step": 1590
-    },
-    {
-      "epoch": 78.96,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.6473891735076904,
-      "eval_runtime": 0.4291,
-      "eval_samples_per_second": 198.09,
-      "eval_steps_per_second": 13.983,
-      "step": 1599
     },
     {
-      "epoch": 79.01,
-      "learning_rate": 0.0,
-      "loss": 0.1172,
-      "step": 1600
-    },
-    {
-      "epoch": 79.01,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_loss": 1.6473920345306396,
-      "eval_runtime": 0.4161,
-      "eval_samples_per_second": 204.281,
-      "eval_steps_per_second": 14.42,
-      "step": 1600
-    },
-    {
-      "epoch": 79.01,
-      "step": 1600,
-      "total_flos": 3.3112304999580303e+18,
-      "train_loss": 0.33946088805794716,
-      "train_runtime": 1321.034,
-      "train_samples_per_second": 78.0,
-      "train_steps_per_second": 1.211
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1600,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 80,
   "save_steps": 500,
-  "total_flos": 3.3112304999580303e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8068181818181818,
+  "best_model_checkpoint": "/Modelos/Swin-DA2-final-AMD-Wet\\checkpoint-651",
+  "epoch": 77.41935483870968,
   "eval_steps": 500,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.65,
+      "learning_rate": 4.166666666666667e-06,
       "loss": 1.6093,
       "step": 10
     },
     {
+      "epoch": 0.97,
+      "eval_accuracy": 0.20454545454545456,
+      "eval_loss": 1.6090493202209473,
+      "eval_runtime": 1.6312,
+      "eval_samples_per_second": 53.948,
+      "eval_steps_per_second": 3.678,
+      "step": 15
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.6084,
       "step": 20
     },
     {
+      "epoch": 1.94,
+      "learning_rate": 1.25e-05,
+      "loss": 1.6042,
       "step": 30
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.20454545454545456,
+      "eval_loss": 1.605498194694519,
+      "eval_runtime": 1.0762,
+      "eval_samples_per_second": 81.766,
+      "eval_steps_per_second": 5.575,
+      "step": 31
     },
     {
+      "epoch": 2.58,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.586,
       "step": 40
     },
     {
+      "epoch": 2.97,
+      "eval_accuracy": 0.19318181818181818,
+      "eval_loss": 1.5730183124542236,
+      "eval_runtime": 1.0502,
+      "eval_samples_per_second": 83.791,
+      "eval_steps_per_second": 5.713,
+      "step": 46
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 1.5425,
       "step": 50
     },
     {
+      "epoch": 3.87,
+      "learning_rate": 2.5e-05,
+      "loss": 1.4855,
       "step": 60
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.26136363636363635,
+      "eval_loss": 1.4935040473937988,
+      "eval_runtime": 1.0352,
+      "eval_samples_per_second": 85.005,
+      "eval_steps_per_second": 5.796,
+      "step": 62
     },
     {
+      "epoch": 4.52,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 1.3738,
       "step": 70
     },
     {
+      "epoch": 4.97,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.3272513151168823,
+      "eval_runtime": 1.0512,
+      "eval_samples_per_second": 83.711,
+      "eval_steps_per_second": 5.708,
+      "step": 77
     },
     {
+      "epoch": 5.16,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.2795,
+      "step": 80
     },
     {
+      "epoch": 5.81,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.1557,
       "step": 90
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.625,
+      "eval_loss": 1.0827698707580566,
+      "eval_runtime": 1.0852,
+      "eval_samples_per_second": 81.088,
+      "eval_steps_per_second": 5.529,
+      "step": 93
+    },
+    {
+      "epoch": 6.45,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.0441,
       "step": 100
     },
     {
+      "epoch": 6.97,
+      "eval_accuracy": 0.6022727272727273,
+      "eval_loss": 0.8971154689788818,
+      "eval_runtime": 1.0662,
+      "eval_samples_per_second": 82.533,
+      "eval_steps_per_second": 5.627,
+      "step": 108
     },
     {
+      "epoch": 7.1,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 0.9639,
       "step": 110
     },
     {
+      "epoch": 7.74,
+      "learning_rate": 5e-05,
+      "loss": 0.9358,
       "step": 120
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.6818181818181818,
+      "eval_loss": 0.7635229229927063,
+      "eval_runtime": 1.0302,
+      "eval_samples_per_second": 85.418,
+      "eval_steps_per_second": 5.824,
+      "step": 124
     },
     {
+      "epoch": 8.39,
+      "learning_rate": 4.9537037037037035e-05,
+      "loss": 0.7707,
       "step": 130
     },
     {
+      "epoch": 8.97,
+      "eval_accuracy": 0.6477272727272727,
+      "eval_loss": 0.8717986941337585,
+      "eval_runtime": 1.0472,
+      "eval_samples_per_second": 84.031,
+      "eval_steps_per_second": 5.729,
+      "step": 139
     },
     {
+      "epoch": 9.03,
+      "learning_rate": 4.9074074074074075e-05,
+      "loss": 0.8861,
+      "step": 140
     },
     {
+      "epoch": 9.68,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 0.7161,
       "step": 150
     },
     {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 0.6902639269828796,
+      "eval_runtime": 1.0472,
+      "eval_samples_per_second": 84.031,
+      "eval_steps_per_second": 5.729,
+      "step": 155
+    },
+    {
+      "epoch": 10.32,
+      "learning_rate": 4.814814814814815e-05,
+      "loss": 0.7251,
       "step": 160
     },
     {
+      "epoch": 10.97,
+      "learning_rate": 4.768518518518519e-05,
+      "loss": 0.6799,
+      "step": 170
     },
     {
+      "epoch": 10.97,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 0.8108208179473877,
+      "eval_runtime": 1.0902,
+      "eval_samples_per_second": 80.716,
+      "eval_steps_per_second": 5.503,
       "step": 170
     },
     {
+      "epoch": 11.61,
+      "learning_rate": 4.722222222222222e-05,
+      "loss": 0.6402,
       "step": 180
     },
     {
+      "epoch": 12.0,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 0.7146868109703064,
+      "eval_runtime": 1.0392,
+      "eval_samples_per_second": 84.678,
+      "eval_steps_per_second": 5.773,
+      "step": 186
     },
     {
+      "epoch": 12.26,
+      "learning_rate": 4.675925925925926e-05,
+      "loss": 0.5816,
       "step": 190
     },
     {
+      "epoch": 12.9,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.5131,
       "step": 200
     },
     {
+      "epoch": 12.97,
+      "eval_accuracy": 0.75,
+      "eval_loss": 0.7520684599876404,
+      "eval_runtime": 1.1293,
+      "eval_samples_per_second": 77.928,
+      "eval_steps_per_second": 5.313,
+      "step": 201
     },
     {
+      "epoch": 13.55,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 0.5262,
       "step": 210
     },
     {
+      "epoch": 14.0,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 0.7967298626899719,
+      "eval_runtime": 1.0822,
+      "eval_samples_per_second": 81.313,
+      "eval_steps_per_second": 5.544,
+      "step": 217
     },
     {
+      "epoch": 14.19,
+      "learning_rate": 4.5370370370370374e-05,
+      "loss": 0.5323,
+      "step": 220
     },
     {
+      "epoch": 14.84,
+      "learning_rate": 4.490740740740741e-05,
+      "loss": 0.4757,
       "step": 230
     },
     {
+      "epoch": 14.97,
+      "eval_accuracy": 0.7613636363636364,
+      "eval_loss": 0.7084075808525085,
+      "eval_runtime": 1.0422,
+      "eval_samples_per_second": 84.434,
+      "eval_steps_per_second": 5.757,
+      "step": 232
+    },
+    {
+      "epoch": 15.48,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.4758,
       "step": 240
     },
     {
+      "epoch": 16.0,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 0.7528924345970154,
+      "eval_runtime": 1.0702,
+      "eval_samples_per_second": 82.224,
+      "eval_steps_per_second": 5.606,
+      "step": 248
     },
     {
+      "epoch": 16.13,
+      "learning_rate": 4.3981481481481486e-05,
+      "loss": 0.4203,
       "step": 250
     },
     {
+      "epoch": 16.77,
+      "learning_rate": 4.351851851851852e-05,
+      "loss": 0.4184,
       "step": 260
     },
     {
+      "epoch": 16.97,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 0.7768625020980835,
+      "eval_runtime": 1.0432,
+      "eval_samples_per_second": 84.353,
+      "eval_steps_per_second": 5.751,
       "step": 263
     },
     {
+      "epoch": 17.42,
+      "learning_rate": 4.305555555555556e-05,
+      "loss": 0.398,
       "step": 270
     },
     {
+      "epoch": 18.0,
+      "eval_accuracy": 0.7386363636363636,
+      "eval_loss": 0.8496245741844177,
+      "eval_runtime": 1.0792,
+      "eval_samples_per_second": 81.539,
+      "eval_steps_per_second": 5.559,
+      "step": 279
     },
     {
+      "epoch": 18.06,
+      "learning_rate": 4.259259259259259e-05,
+      "loss": 0.3623,
+      "step": 280
     },
     {
+      "epoch": 18.71,
+      "learning_rate": 4.212962962962963e-05,
+      "loss": 0.3591,
       "step": 290
     },
     {
+      "epoch": 18.97,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 0.8204294443130493,
+      "eval_runtime": 1.0712,
+      "eval_samples_per_second": 82.148,
+      "eval_steps_per_second": 5.601,
+      "step": 294
+    },
+    {
+      "epoch": 19.35,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.3449,
       "step": 300
     },
     {
+      "epoch": 20.0,
+      "learning_rate": 4.1203703703703705e-05,
+      "loss": 0.3536,
+      "step": 310
     },
     {
+      "epoch": 20.0,
+      "eval_accuracy": 0.7613636363636364,
+      "eval_loss": 0.8589130640029907,
+      "eval_runtime": 1.0792,
+      "eval_samples_per_second": 81.539,
+      "eval_steps_per_second": 5.559,
       "step": 310
     },
     {
+      "epoch": 20.65,
+      "learning_rate": 4.074074074074074e-05,
+      "loss": 0.2589,
       "step": 320
     },
     {
+      "epoch": 20.97,
+      "eval_accuracy": 0.7045454545454546,
+      "eval_loss": 0.9754377007484436,
+      "eval_runtime": 1.0472,
+      "eval_samples_per_second": 84.031,
+      "eval_steps_per_second": 5.729,
+      "step": 325
     },
     {
+      "epoch": 21.29,
+      "learning_rate": 4.027777777777778e-05,
+      "loss": 0.286,
       "step": 330
     },
     {
+      "epoch": 21.94,
+      "learning_rate": 3.981481481481482e-05,
+      "loss": 0.3218,
       "step": 340
     },
     {
+      "epoch": 22.0,
+      "eval_accuracy": 0.7159090909090909,
+      "eval_loss": 1.0231382846832275,
+      "eval_runtime": 1.0582,
+      "eval_samples_per_second": 83.157,
+      "eval_steps_per_second": 5.67,
+      "step": 341
     },
     {
+      "epoch": 22.58,
+      "learning_rate": 3.935185185185186e-05,
+      "loss": 0.3151,
       "step": 350
     },
     {
+      "epoch": 22.97,
+      "eval_accuracy": 0.7386363636363636,
+      "eval_loss": 0.9173128604888916,
+      "eval_runtime": 1.0472,
+      "eval_samples_per_second": 84.031,
+      "eval_steps_per_second": 5.729,
+      "step": 356
     },
     {
+      "epoch": 23.23,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.3135,
+      "step": 360
     },
     {
+      "epoch": 23.87,
+      "learning_rate": 3.8425925925925924e-05,
+      "loss": 0.2708,
       "step": 370
     },
     {
+      "epoch": 24.0,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 0.9598014950752258,
+      "eval_runtime": 1.0532,
+      "eval_samples_per_second": 83.552,
+      "eval_steps_per_second": 5.697,
+      "step": 372
+    },
+    {
+      "epoch": 24.52,
+      "learning_rate": 3.7962962962962964e-05,
+      "loss": 0.2802,
       "step": 380
     },
     {
+      "epoch": 24.97,
+      "eval_accuracy": 0.7386363636363636,
+      "eval_loss": 0.904956579208374,
+      "eval_runtime": 1.0442,
+      "eval_samples_per_second": 84.272,
+      "eval_steps_per_second": 5.746,
+      "step": 387
     },
     {
+      "epoch": 25.16,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.2795,
       "step": 390
     },
     {
+      "epoch": 25.81,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.3114,
       "step": 400
     },
     {
+      "epoch": 26.0,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 0.8725055456161499,
+      "eval_runtime": 1.0662,
+      "eval_samples_per_second": 82.533,
+      "eval_steps_per_second": 5.627,
+      "step": 403
     },
     {
+      "epoch": 26.45,
+      "learning_rate": 3.6574074074074076e-05,
+      "loss": 0.2794,
       "step": 410
     },
     {
+      "epoch": 26.97,
+      "eval_accuracy": 0.7386363636363636,
+      "eval_loss": 0.9578754901885986,
+      "eval_runtime": 1.0662,
+      "eval_samples_per_second": 82.533,
+      "eval_steps_per_second": 5.627,
+      "step": 418
     },
     {
+      "epoch": 27.1,
+      "learning_rate": 3.611111111111111e-05,
+      "loss": 0.2289,
+      "step": 420
     },
     {
+      "epoch": 27.74,
+      "learning_rate": 3.564814814814815e-05,
+      "loss": 0.26,
       "step": 430
     },
     {
+      "epoch": 28.0,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 1.0064443349838257,
+      "eval_runtime": 1.0862,
+      "eval_samples_per_second": 81.013,
+      "eval_steps_per_second": 5.524,
+      "step": 434
+    },
+    {
+      "epoch": 28.39,
+      "learning_rate": 3.518518518518519e-05,
+      "loss": 0.2961,
       "step": 440
     },
     {
+      "epoch": 28.97,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.1055842638015747,
+      "eval_runtime": 1.1363,
+      "eval_samples_per_second": 77.447,
+      "eval_steps_per_second": 5.281,
+      "step": 449
     },
     {
+      "epoch": 29.03,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 0.2547,
       "step": 450
     },
     {
+      "epoch": 29.68,
+      "learning_rate": 3.425925925925926e-05,
+      "loss": 0.297,
       "step": 460
     },
     {
+      "epoch": 30.0,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 0.8761419653892517,
+      "eval_runtime": 1.1092,
+      "eval_samples_per_second": 79.333,
+      "eval_steps_per_second": 5.409,
       "step": 465
     },
     {
+      "epoch": 30.32,
+      "learning_rate": 3.3796296296296295e-05,
+      "loss": 0.2583,
       "step": 470
     },
     {
+      "epoch": 30.97,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.2044,
       "step": 480
     },
     {
+      "epoch": 30.97,
+      "eval_accuracy": 0.7613636363636364,
+      "eval_loss": 1.0461256504058838,
+      "eval_runtime": 1.1173,
+      "eval_samples_per_second": 78.765,
+      "eval_steps_per_second": 5.37,
+      "step": 480
     },
     {
+      "epoch": 31.61,
+      "learning_rate": 3.2870370370370375e-05,
+      "loss": 0.1884,
       "step": 490
     },
     {
+      "epoch": 32.0,
+      "eval_accuracy": 0.75,
+      "eval_loss": 0.9888725280761719,
+      "eval_runtime": 1.0972,
+      "eval_samples_per_second": 80.201,
+      "eval_steps_per_second": 5.468,
+      "step": 496
     },
     {
+      "epoch": 32.26,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 0.1857,
+      "step": 500
     },
     {
+      "epoch": 32.9,
+      "learning_rate": 3.194444444444444e-05,
+      "loss": 0.2156,
       "step": 510
     },
     {
+      "epoch": 32.97,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 1.0186409950256348,
+      "eval_runtime": 1.1423,
+      "eval_samples_per_second": 77.04,
+      "eval_steps_per_second": 5.253,
+      "step": 511
+    },
+    {
+      "epoch": 33.55,
+      "learning_rate": 3.148148148148148e-05,
+      "loss": 0.194,
       "step": 520
     },
     {
+      "epoch": 34.0,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 1.0899921655654907,
+      "eval_runtime": 1.1843,
+      "eval_samples_per_second": 74.308,
+      "eval_steps_per_second": 5.066,
+      "step": 527
     },
     {
+      "epoch": 34.19,
+      "learning_rate": 3.101851851851852e-05,
+      "loss": 0.181,
       "step": 530
     },
     {
+      "epoch": 34.84,
+      "learning_rate": 3.055555555555556e-05,
+      "loss": 0.2085,
       "step": 540
     },
     {
+      "epoch": 34.97,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.0762078762054443,
+      "eval_runtime": 1.1223,
+      "eval_samples_per_second": 78.414,
+      "eval_steps_per_second": 5.346,
+      "step": 542
     },
     {
+      "epoch": 35.48,
+      "learning_rate": 3.0092592592592593e-05,
+      "loss": 0.1909,
       "step": 550
     },
     {
+      "epoch": 36.0,
+      "eval_accuracy": 0.7840909090909091,
+      "eval_loss": 1.0324878692626953,
+      "eval_runtime": 1.1523,
+      "eval_samples_per_second": 76.372,
+      "eval_steps_per_second": 5.207,
+      "step": 558
     },
     {
+      "epoch": 36.13,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 0.1864,
+      "step": 560
     },
     {
+      "epoch": 36.77,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 0.1551,
       "step": 570
     },
     {
+      "epoch": 36.97,
+      "eval_accuracy": 0.7045454545454546,
+      "eval_loss": 1.149728775024414,
+      "eval_runtime": 1.1653,
+      "eval_samples_per_second": 75.519,
+      "eval_steps_per_second": 5.149,
+      "step": 573
+    },
+    {
+      "epoch": 37.42,
+      "learning_rate": 2.8703703703703706e-05,
+      "loss": 0.2106,
       "step": 580
     },
     {
+      "epoch": 38.0,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 1.0304036140441895,
+      "eval_runtime": 1.1102,
+      "eval_samples_per_second": 79.261,
+      "eval_steps_per_second": 5.404,
+      "step": 589
     },
     {
+      "epoch": 38.06,
+      "learning_rate": 2.824074074074074e-05,
+      "loss": 0.1922,
       "step": 590
     },
     {
+      "epoch": 38.71,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.1771,
       "step": 600
     },
     {
+      "epoch": 38.97,
+      "eval_accuracy": 0.7840909090909091,
+      "eval_loss": 1.0794123411178589,
+      "eval_runtime": 1.1483,
+      "eval_samples_per_second": 76.638,
+      "eval_steps_per_second": 5.225,
+      "step": 604
     },
     {
+      "epoch": 39.35,
+      "learning_rate": 2.7314814814814816e-05,
+      "loss": 0.2051,
       "step": 610
     },
     {
+      "epoch": 40.0,
+      "learning_rate": 2.6851851851851855e-05,
+      "loss": 0.1567,
       "step": 620
     },
     {
+      "epoch": 40.0,
+      "eval_accuracy": 0.7954545454545454,
+      "eval_loss": 1.0634194612503052,
+      "eval_runtime": 1.1643,
+      "eval_samples_per_second": 75.584,
+      "eval_steps_per_second": 5.153,
+      "step": 620
     },
     {
+      "epoch": 40.65,
+      "learning_rate": 2.6388888888888892e-05,
+      "loss": 0.1856,
       "step": 630
     },
     {
+      "epoch": 40.97,
+      "eval_accuracy": 0.7613636363636364,
+      "eval_loss": 1.0716369152069092,
+      "eval_runtime": 1.1173,
+      "eval_samples_per_second": 78.765,
+      "eval_steps_per_second": 5.37,
+      "step": 635
     },
     {
+      "epoch": 41.29,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.1765,
+      "step": 640
     },
     {
+      "epoch": 41.94,
+      "learning_rate": 2.5462962962962965e-05,
+      "loss": 0.185,
       "step": 650
     },
     {
+      "epoch": 42.0,
+      "eval_accuracy": 0.8068181818181818,
+      "eval_loss": 1.0321924686431885,
+      "eval_runtime": 1.1433,
+      "eval_samples_per_second": 76.973,
+      "eval_steps_per_second": 5.248,
+      "step": 651
+    },
+    {
+      "epoch": 42.58,
+      "learning_rate": 2.5e-05,
+      "loss": 0.1239,
       "step": 660
     },
     {
+      "epoch": 42.97,
+      "eval_accuracy": 0.7613636363636364,
+      "eval_loss": 1.1515936851501465,
+      "eval_runtime": 1.1523,
+      "eval_samples_per_second": 76.372,
+      "eval_steps_per_second": 5.207,
+      "step": 666
     },
     {
+      "epoch": 43.23,
+      "learning_rate": 2.4537037037037038e-05,
+      "loss": 0.2364,
       "step": 670
     },
     {
+      "epoch": 43.87,
+      "learning_rate": 2.4074074074074074e-05,
+      "loss": 0.1617,
       "step": 680
     },
     {
+      "epoch": 44.0,
+      "eval_accuracy": 0.7840909090909091,
+      "eval_loss": 1.0321751832962036,
+      "eval_runtime": 1.1253,
+      "eval_samples_per_second": 78.205,
+      "eval_steps_per_second": 5.332,
+      "step": 682
     },
     {
+      "epoch": 44.52,
+      "learning_rate": 2.361111111111111e-05,
+      "loss": 0.1221,
       "step": 690
     },
     {
+      "epoch": 44.97,
+      "eval_accuracy": 0.8068181818181818,
+      "eval_loss": 1.0553076267242432,
+      "eval_runtime": 1.1333,
+      "eval_samples_per_second": 77.652,
+      "eval_steps_per_second": 5.294,
+      "step": 697
     },
     {
+      "epoch": 45.16,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 0.1953,
+      "step": 700
     },
     {
+      "epoch": 45.81,
+      "learning_rate": 2.2685185185185187e-05,
+      "loss": 0.1433,
       "step": 710
     },
     {
+      "epoch": 46.0,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 1.0596939325332642,
+      "eval_runtime": 1.1092,
+      "eval_samples_per_second": 79.333,
+      "eval_steps_per_second": 5.409,
+      "step": 713
+    },
+    {
+      "epoch": 46.45,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.216,
       "step": 720
     },
     {
+      "epoch": 46.97,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.1585843563079834,
+      "eval_runtime": 1.1223,
+      "eval_samples_per_second": 78.414,
+      "eval_steps_per_second": 5.346,
+      "step": 728
     },
     {
+      "epoch": 47.1,
+      "learning_rate": 2.175925925925926e-05,
+      "loss": 0.17,
       "step": 730
     },
     {
+      "epoch": 47.74,
+      "learning_rate": 2.1296296296296296e-05,
+      "loss": 0.1807,
       "step": 740
     },
     {
+      "epoch": 48.0,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 1.0872578620910645,
+      "eval_runtime": 1.1243,
+      "eval_samples_per_second": 78.274,
+      "eval_steps_per_second": 5.337,
+      "step": 744
     },
     {
+      "epoch": 48.39,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.185,
       "step": 750
     },
     {
+      "epoch": 48.97,
+      "eval_accuracy": 0.7727272727272727,
+      "eval_loss": 1.2490220069885254,
+      "eval_runtime": 1.1133,
+      "eval_samples_per_second": 79.048,
+      "eval_steps_per_second": 5.39,
+      "step": 759
     },
     {
+      "epoch": 49.03,
+      "learning_rate": 2.037037037037037e-05,
+      "loss": 0.1114,
+      "step": 760
     },
     {
+      "epoch": 49.68,
+      "learning_rate": 1.990740740740741e-05,
+      "loss": 0.1554,
       "step": 770
     },
     {
+      "epoch": 50.0,
+      "eval_accuracy": 0.7613636363636364,
+      "eval_loss": 1.222277045249939,
+      "eval_runtime": 1.2013,
+      "eval_samples_per_second": 73.256,
+      "eval_steps_per_second": 4.995,
+      "step": 775
+    },
+    {
+      "epoch": 50.32,
+      "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.1378,
       "step": 780
     },
     {
+      "epoch": 50.97,
+      "learning_rate": 1.8981481481481482e-05,
+      "loss": 0.1359,
+      "step": 790
     },
     {
+      "epoch": 50.97,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.2345318794250488,
+      "eval_runtime": 1.1193,
+      "eval_samples_per_second": 78.624,
+      "eval_steps_per_second": 5.361,
       "step": 790
     },
     {
+      "epoch": 51.61,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0929,
       "step": 800
     },
     {
+      "epoch": 52.0,
+      "eval_accuracy": 0.7613636363636364,
+      "eval_loss": 1.1833394765853882,
+      "eval_runtime": 1.1123,
+      "eval_samples_per_second": 79.119,
+      "eval_steps_per_second": 5.394,
+      "step": 806
     },
     {
+      "epoch": 52.26,
+      "learning_rate": 1.8055555555555555e-05,
+      "loss": 0.1513,
       "step": 810
     },
     {
+      "epoch": 52.9,
+      "learning_rate": 1.7592592592592595e-05,
+      "loss": 0.1379,
       "step": 820
     },
     {
+      "epoch": 52.97,
+      "eval_accuracy": 0.7386363636363636,
+      "eval_loss": 1.2581446170806885,
+      "eval_runtime": 1.1193,
+      "eval_samples_per_second": 78.624,
+      "eval_steps_per_second": 5.361,
+      "step": 821
     },
     {
+      "epoch": 53.55,
+      "learning_rate": 1.712962962962963e-05,
+      "loss": 0.145,
       "step": 830
     },
     {
+      "epoch": 54.0,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.3023442029953003,
+      "eval_runtime": 1.1203,
+      "eval_samples_per_second": 78.554,
+      "eval_steps_per_second": 5.356,
+      "step": 837
+    },
+    {
+      "epoch": 54.19,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.1646,
       "step": 840
     },
     {
+      "epoch": 54.84,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 0.134,
       "step": 850
     },
     {
+      "epoch": 54.97,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.2468658685684204,
+      "eval_runtime": 1.1072,
+      "eval_samples_per_second": 79.476,
+      "eval_steps_per_second": 5.419,
+      "step": 852
     },
     {
+      "epoch": 55.48,
+      "learning_rate": 1.574074074074074e-05,
+      "loss": 0.1974,
       "step": 860
     },
     {
+      "epoch": 56.0,
+      "eval_accuracy": 0.7386363636363636,
+      "eval_loss": 1.2670570611953735,
+      "eval_runtime": 1.1002,
+      "eval_samples_per_second": 79.982,
+      "eval_steps_per_second": 5.453,
+      "step": 868
     },
     {
+      "epoch": 56.13,
+      "learning_rate": 1.527777777777778e-05,
+      "loss": 0.1158,
       "step": 870
     },
     {
+      "epoch": 56.77,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.122,
       "step": 880
     },
     {
+      "epoch": 56.97,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 1.267562747001648,
+      "eval_runtime": 1.0852,
+      "eval_samples_per_second": 81.088,
+      "eval_steps_per_second": 5.529,
+      "step": 883
+    },
+    {
+      "epoch": 57.42,
+      "learning_rate": 1.4351851851851853e-05,
+      "loss": 0.1487,
       "step": 890
     },
     {
+      "epoch": 58.0,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 1.2845935821533203,
+      "eval_runtime": 1.1173,
+      "eval_samples_per_second": 78.765,
+      "eval_steps_per_second": 5.37,
+      "step": 899
     },
     {
+      "epoch": 58.06,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.1473,
       "step": 900
     },
     {
+      "epoch": 58.71,
+      "learning_rate": 1.3425925925925928e-05,
+      "loss": 0.1282,
       "step": 910
     },
     {
+      "epoch": 58.97,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.1780353784561157,
+      "eval_runtime": 1.0612,
+      "eval_samples_per_second": 82.922,
+      "eval_steps_per_second": 5.654,
+      "step": 914
     },
     {
+      "epoch": 59.35,
+      "learning_rate": 1.2962962962962962e-05,
+      "loss": 0.1006,
       "step": 920
     },
     {
+      "epoch": 60.0,
+      "learning_rate": 1.25e-05,
+      "loss": 0.0989,
       "step": 930
     },
     {
+      "epoch": 60.0,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.231979489326477,
+      "eval_runtime": 1.0982,
+      "eval_samples_per_second": 80.128,
+      "eval_steps_per_second": 5.463,
+      "step": 930
     },
     {
+      "epoch": 60.65,
+      "learning_rate": 1.2037037037037037e-05,
+      "loss": 0.0997,
       "step": 940
     },
     {
+      "epoch": 60.97,
+      "eval_accuracy": 0.7386363636363636,
+      "eval_loss": 1.2791739702224731,
+      "eval_runtime": 1.1663,
+      "eval_samples_per_second": 75.455,
+      "eval_steps_per_second": 5.145,
+      "step": 945
     },
     {
+      "epoch": 61.29,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 0.1234,
+      "step": 950
     },
     {
+      "epoch": 61.94,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.1058,
       "step": 960
     },
     {
+      "epoch": 62.0,
+      "eval_accuracy": 0.7613636363636364,
+      "eval_loss": 1.2126153707504272,
+      "eval_runtime": 1.1072,
+      "eval_samples_per_second": 79.476,
+      "eval_steps_per_second": 5.419,
+      "step": 961
+    },
+    {
+      "epoch": 62.58,
+      "learning_rate": 1.0648148148148148e-05,
+      "loss": 0.1105,
       "step": 970
     },
     {
+      "epoch": 62.97,
+      "eval_accuracy": 0.7386363636363636,
+      "eval_loss": 1.256054401397705,
+      "eval_runtime": 1.0872,
+      "eval_samples_per_second": 80.939,
+      "eval_steps_per_second": 5.519,
+      "step": 976
     },
     {
+      "epoch": 63.23,
+      "learning_rate": 1.0185185185185185e-05,
+      "loss": 0.1254,
       "step": 980
     },
     {
+      "epoch": 63.87,
+      "learning_rate": 9.722222222222223e-06,
+      "loss": 0.0957,
       "step": 990
     },
     {
+      "epoch": 64.0,
+      "eval_accuracy": 0.7613636363636364,
+      "eval_loss": 1.1701573133468628,
+      "eval_runtime": 1.1323,
+      "eval_samples_per_second": 77.721,
+      "eval_steps_per_second": 5.299,
       "step": 992
     },
     {
+      "epoch": 64.52,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.1326,
       "step": 1000
     },
     {
+      "epoch": 64.97,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.1838548183441162,
+      "eval_runtime": 1.1042,
+      "eval_samples_per_second": 79.692,
+      "eval_steps_per_second": 5.434,
+      "step": 1007
     },
     {
+      "epoch": 65.16,
+      "learning_rate": 8.796296296296297e-06,
+      "loss": 0.1424,
+      "step": 1010
     },
     {
+      "epoch": 65.81,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0838,
       "step": 1020
     },
     {
+      "epoch": 66.0,
+      "eval_accuracy": 0.7386363636363636,
+      "eval_loss": 1.2728073596954346,
+      "eval_runtime": 1.1643,
+      "eval_samples_per_second": 75.584,
+      "eval_steps_per_second": 5.153,
+      "step": 1023
+    },
+    {
+      "epoch": 66.45,
+      "learning_rate": 7.87037037037037e-06,
+      "loss": 0.1163,
       "step": 1030
     },
     {
+      "epoch": 66.97,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.2736155986785889,
+      "eval_runtime": 1.1353,
+      "eval_samples_per_second": 77.516,
+      "eval_steps_per_second": 5.285,
+      "step": 1038
     },
     {
+      "epoch": 67.1,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.1363,
       "step": 1040
     },
     {
+      "epoch": 67.74,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.0926,
       "step": 1050
     },
     {
+      "epoch": 68.0,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.2641026973724365,
+      "eval_runtime": 1.1493,
+      "eval_samples_per_second": 76.571,
+      "eval_steps_per_second": 5.221,
+      "step": 1054
     },
     {
+      "epoch": 68.39,
+      "learning_rate": 6.481481481481481e-06,
+      "loss": 0.102,
       "step": 1060
     },
     {
+      "epoch": 68.97,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.3310309648513794,
+      "eval_runtime": 1.1102,
+      "eval_samples_per_second": 79.261,
+      "eval_steps_per_second": 5.404,
+      "step": 1069
     },
     {
+      "epoch": 69.03,
+      "learning_rate": 6.0185185185185185e-06,
+      "loss": 0.1224,
+      "step": 1070
     },
     {
+      "epoch": 69.68,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.0996,
       "step": 1080
     },
     {
+      "epoch": 70.0,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 1.3119887113571167,
+      "eval_runtime": 1.1012,
+      "eval_samples_per_second": 79.909,
+      "eval_steps_per_second": 5.448,
+      "step": 1085
+    },
+    {
+      "epoch": 70.32,
+      "learning_rate": 5.092592592592592e-06,
+      "loss": 0.1182,
       "step": 1090
     },
     {
+      "epoch": 70.97,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 0.081,
+      "step": 1100
     },
     {
+      "epoch": 70.97,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 1.3357912302017212,
+      "eval_runtime": 1.1133,
+      "eval_samples_per_second": 79.048,
+      "eval_steps_per_second": 5.39,
       "step": 1100
     },
     {
+      "epoch": 71.61,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.1305,
       "step": 1110
     },
     {
+      "epoch": 72.0,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 1.3439818620681763,
+      "eval_runtime": 1.1243,
+      "eval_samples_per_second": 78.274,
+      "eval_steps_per_second": 5.337,
+      "step": 1116
     },
     {
+      "epoch": 72.26,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.1309,
       "step": 1120
     },
     {
+      "epoch": 72.9,
+      "learning_rate": 3.2407407407407406e-06,
+      "loss": 0.1131,
       "step": 1130
     },
     {
+      "epoch": 72.97,
+      "eval_accuracy": 0.7272727272727273,
+      "eval_loss": 1.3126434087753296,
+      "eval_runtime": 1.1203,
+      "eval_samples_per_second": 78.554,
+      "eval_steps_per_second": 5.356,
+      "step": 1131
     },
     {
+      "epoch": 73.55,
+      "learning_rate": 2.777777777777778e-06,
+      "loss": 0.0883,
       "step": 1140
     },
     {
+      "epoch": 74.0,
+      "eval_accuracy": 0.7386363636363636,
+      "eval_loss": 1.284845232963562,
+      "eval_runtime": 1.0972,
+      "eval_samples_per_second": 80.201,
+      "eval_steps_per_second": 5.468,
+      "step": 1147
     },
     {
+      "epoch": 74.19,
+      "learning_rate": 2.3148148148148148e-06,
+      "loss": 0.1135,
+      "step": 1150
     },
     {
+      "epoch": 74.84,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.0873,
       "step": 1160
     },
     {
+      "epoch": 74.97,
+      "eval_accuracy": 0.7386363636363636,
+      "eval_loss": 1.2801809310913086,
+      "eval_runtime": 1.1313,
+      "eval_samples_per_second": 77.79,
+      "eval_steps_per_second": 5.304,
+      "step": 1162
+    },
+    {
+      "epoch": 75.48,
+      "learning_rate": 1.388888888888889e-06,
+      "loss": 0.0991,
       "step": 1170
     },
     {
+      "epoch": 76.0,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.2710990905761719,
+      "eval_runtime": 1.1643,
+      "eval_samples_per_second": 75.584,
+      "eval_steps_per_second": 5.153,
+      "step": 1178
     },
     {
+      "epoch": 76.13,
+      "learning_rate": 9.259259259259259e-07,
+      "loss": 0.0946,
       "step": 1180
     },
     {
+      "epoch": 76.77,
+      "learning_rate": 4.6296296296296297e-07,
+      "loss": 0.0881,
       "step": 1190
     },
     {
+      "epoch": 76.97,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.2746005058288574,
+      "eval_runtime": 1.4135,
+      "eval_samples_per_second": 62.256,
+      "eval_steps_per_second": 4.245,
+      "step": 1193
     },
     {
+      "epoch": 77.42,
+      "learning_rate": 0.0,
+      "loss": 0.0895,
       "step": 1200
     },
     {
+      "epoch": 77.42,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.275152325630188,
+      "eval_runtime": 1.1543,
+      "eval_samples_per_second": 76.239,
+      "eval_steps_per_second": 5.198,
+      "step": 1200
     },
     {
+      "epoch": 77.42,
+      "step": 1200,
+      "total_flos": 2.4687812024881644e+18,
+      "train_loss": 0.34467112536231675,
+      "train_runtime": 2690.4819,
+      "train_samples_per_second": 29.14,
+      "train_steps_per_second": 0.446
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1200,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 80,
   "save_steps": 500,
+  "total_flos": 2.4687812024881644e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77777a9f7ae88f5b27e9b13e612698e34c882d7cf8626c15b8f514d8378c9461
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:18090fdadccf48c9d95b1c06c7930e2bbf8d2ce2e91d373591632e49d3c84478
 size 4728