End of training

Browse files

Files changed (11) hide show

README.md +11 -46
all_results.json +11 -11
config.json +4 -14
eval_results.json +6 -6
model.safetensors +2 -2
runs/Sep01_13-00-27_c4735777ea3c/events.out.tfevents.1725195641.c4735777ea3c.36.0 +3 -0
runs/Sep01_13-01-10_c4735777ea3c/events.out.tfevents.1725195681.c4735777ea3c.36.1 +3 -0
runs/Sep01_13-01-10_c4735777ea3c/events.out.tfevents.1725200277.c4735777ea3c.36.2 +3 -0
train_results.json +6 -6
trainer_state.json +569 -863
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -22,7 +22,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.9126310534198702
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -32,8 +32,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3206
-- Accuracy: 0.9126
 ## Model description
@@ -61,52 +61,17 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 40
 ### Training results
-| Training Loss | Epoch   | Step | Validation Loss | Accuracy |
-|:-------------:|:-------:|:----:|:---------------:|:--------:|
-| 1.1235        | 0.9841  | 31   | 1.0728          | 0.6565   |
-| 0.8201        | 2.0     | 63   | 0.8410          | 0.6915   |
-| 0.634         | 2.9841  | 94   | 0.6349          | 0.7773   |
-| 0.561         | 4.0     | 126  | 0.5739          | 0.7958   |
-| 0.4839        | 4.9841  | 157  | 0.4544          | 0.8382   |
-| 0.4073        | 6.0     | 189  | 0.4398          | 0.8462   |
-| 0.4035        | 6.9841  | 220  | 0.4284          | 0.8487   |
-| 0.3609        | 8.0     | 252  | 0.3886          | 0.8542   |
-| 0.3196        | 8.9841  | 283  | 0.4561          | 0.8432   |
-| 0.2723        | 10.0    | 315  | 0.3703          | 0.8697   |
-| 0.2521        | 10.9841 | 346  | 0.3639          | 0.8722   |
-| 0.2644        | 12.0    | 378  | 0.3288          | 0.8832   |
-| 0.2282        | 12.9841 | 409  | 0.3625          | 0.8712   |
-| 0.2435        | 14.0    | 441  | 0.3175          | 0.8962   |
-| 0.2051        | 14.9841 | 472  | 0.3649          | 0.8707   |
-| 0.1922        | 16.0    | 504  | 0.3022          | 0.8952   |
-| 0.1824        | 16.9841 | 535  | 0.3596          | 0.8752   |
-| 0.1799        | 18.0    | 567  | 0.3293          | 0.8942   |
-| 0.1562        | 18.9841 | 598  | 0.3204          | 0.8992   |
-| 0.1582        | 20.0    | 630  | 0.3467          | 0.8837   |
-| 0.1516        | 20.9841 | 661  | 0.3247          | 0.8942   |
-| 0.1285        | 22.0    | 693  | 0.3304          | 0.8912   |
-| 0.1454        | 22.9841 | 724  | 0.3031          | 0.8957   |
-| 0.1548        | 24.0    | 756  | 0.3086          | 0.8992   |
-| 0.1041        | 24.9841 | 787  | 0.2945          | 0.9021   |
-| 0.1161        | 26.0    | 819  | 0.2968          | 0.9106   |
-| 0.1141        | 26.9841 | 850  | 0.2805          | 0.9096   |
-| 0.1078        | 28.0    | 882  | 0.3178          | 0.9011   |
-| 0.1192        | 28.9841 | 913  | 0.3182          | 0.9041   |
-| 0.0977        | 30.0    | 945  | 0.3000          | 0.9061   |
-| 0.1011        | 30.9841 | 976  | 0.3065          | 0.9041   |
-| 0.0865        | 32.0    | 1008 | 0.3193          | 0.9051   |
-| 0.0845        | 32.9841 | 1039 | 0.3047          | 0.9121   |
-| 0.0823        | 34.0    | 1071 | 0.3037          | 0.9116   |
-| 0.0809        | 34.9841 | 1102 | 0.3329          | 0.9011   |
-| 0.0789        | 36.0    | 1134 | 0.3215          | 0.9121   |
-| 0.0724        | 36.9841 | 1165 | 0.3273          | 0.9096   |
-| 0.0722        | 38.0    | 1197 | 0.3096          | 0.9091   |
-| 0.0811        | 38.9841 | 1228 | 0.3206          | 0.9126   |
-| 0.0659        | 39.3651 | 1240 | 0.3216          | 0.9126   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.994671729544341
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0256
+- Accuracy: 0.9947
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 5
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Accuracy |
+|:-------------:|:------:|:----:|:---------------:|:--------:|
+| 0.0268        | 0.9990 | 255  | 0.0256          | 0.9947   |
+| 0.0167        | 1.9980 | 510  | 0.0275          | 0.9947   |
+| 0.0177        | 2.9971 | 765  | 0.0268          | 0.9936   |
+| 0.0158        | 4.0    | 1021 | 0.0238          | 0.9945   |
+| 0.0112        | 4.9951 | 1275 | 0.0259          | 0.9944   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 39.36507936507937,
-    "eval_accuracy": 0.9126310534198702,
-    "eval_loss": 0.320569783449173,
-    "eval_runtime": 25.2588,
-    "eval_samples_per_second": 79.299,
-    "eval_steps_per_second": 1.267,
-    "total_flos": 7.840972523253768e+18,
-    "train_loss": 0.24690783341084757,
-    "train_runtime": 6145.2319,
-    "train_samples_per_second": 52.151,
-    "train_steps_per_second": 0.202
 }

 {
+    "epoch": 4.995102840352596,
+    "eval_accuracy": 0.994671729544341,
+    "eval_loss": 0.025641364976763725,
+    "eval_runtime": 102.6469,
+    "eval_samples_per_second": 159.07,
+    "eval_steps_per_second": 2.494,
+    "total_flos": 8.109813238393209e+18,
+    "train_loss": 0.030976083857171675,
+    "train_runtime": 4473.2861,
+    "train_samples_per_second": 73.002,
+    "train_steps_per_second": 0.285
 }

config.json CHANGED Viewed

@@ -17,24 +17,14 @@
   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
-    "0": "akiec",
-    "1": "bcc",
-    "2": "bkl",
-    "3": "df",
-    "4": "mel",
-    "5": "nv",
-    "6": "vasc"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "label2id": {
-    "akiec": 0,
-    "bcc": 1,
-    "bkl": 2,
-    "df": 3,
-    "mel": 4,
-    "nv": 5,
-    "vasc": 6
   },
   "layer_norm_eps": 1e-05,
   "mlp_ratio": 4.0,

   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
+    "0": "images_class_0",
+    "1": "images_class_1"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "label2id": {
+    "images_class_0": 0,
+    "images_class_1": 1
   },
   "layer_norm_eps": 1e-05,
   "mlp_ratio": 4.0,

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 39.36507936507937,
-    "eval_accuracy": 0.9126310534198702,
-    "eval_loss": 0.320569783449173,
-    "eval_runtime": 25.2588,
-    "eval_samples_per_second": 79.299,
-    "eval_steps_per_second": 1.267
 }

 {
+    "epoch": 4.995102840352596,
+    "eval_accuracy": 0.994671729544341,
+    "eval_loss": 0.025641364976763725,
+    "eval_runtime": 102.6469,
+    "eval_samples_per_second": 159.07,
+    "eval_steps_per_second": 2.494
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b535bb8ce3f7d269ecb963663144b8b175ee46aaf079e873210516f57e9b4cd
-size 110358212

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e99d284193dff48e7408acb1e292b749fb80dfded99dd7a9cac006f9cedcd63
+size 110342832

runs/Sep01_13-00-27_c4735777ea3c/events.out.tfevents.1725195641.c4735777ea3c.36.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:460c1abd62a221991453d26571558712f0be7b82e9d8844149ce04890437fb34
+size 5415

runs/Sep01_13-01-10_c4735777ea3c/events.out.tfevents.1725195681.c4735777ea3c.36.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a546d17d197aa389b0ba06ae202fe68078c9f0d6a0c76655956e79a7e7f0e5f
+size 34131

runs/Sep01_13-01-10_c4735777ea3c/events.out.tfevents.1725200277.c4735777ea3c.36.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ede407413d2c9b7ea17e049da582d1cee5f855b6df7e41b4c24169224716570a
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 39.36507936507937,
-    "total_flos": 7.840972523253768e+18,
-    "train_loss": 0.24690783341084757,
-    "train_runtime": 6145.2319,
-    "train_samples_per_second": 52.151,
-    "train_steps_per_second": 0.202
 }

 {
+    "epoch": 4.995102840352596,
+    "total_flos": 8.109813238393209e+18,
+    "train_loss": 0.030976083857171675,
+    "train_runtime": 4473.2861,
+    "train_samples_per_second": 73.002,
+    "train_steps_per_second": 0.285
 }

trainer_state.json CHANGED Viewed

@@ -1,1255 +1,961 @@
 {
-  "best_metric": 0.9126310534198702,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-1228",
-  "epoch": 39.36507936507937,
   "eval_steps": 500,
-  "global_step": 1240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.31746031746031744,
-      "grad_norm": 7.819032192230225,
-      "learning_rate": 4.032258064516129e-06,
-      "loss": 1.711,
       "step": 10
     },
     {
-      "epoch": 0.6349206349206349,
-      "grad_norm": 6.724701404571533,
-      "learning_rate": 8.064516129032258e-06,
-      "loss": 1.4406,
       "step": 20
     },
     {
-      "epoch": 0.9523809523809523,
-      "grad_norm": 3.3038227558135986,
-      "learning_rate": 1.2096774193548388e-05,
-      "loss": 1.1235,
       "step": 30
     },
     {
-      "epoch": 0.9841269841269841,
-      "eval_accuracy": 0.6565152271592611,
-      "eval_loss": 1.0728416442871094,
-      "eval_runtime": 34.2718,
-      "eval_samples_per_second": 58.445,
-      "eval_steps_per_second": 0.934,
-      "step": 31
-    },
-    {
-      "epoch": 1.2698412698412698,
-      "grad_norm": 6.524947166442871,
-      "learning_rate": 1.6129032258064517e-05,
-      "loss": 0.929,
       "step": 40
     },
     {
-      "epoch": 1.5873015873015874,
-      "grad_norm": 4.941163539886475,
-      "learning_rate": 2.0161290322580645e-05,
-      "loss": 0.8707,
       "step": 50
     },
     {
-      "epoch": 1.9047619047619047,
-      "grad_norm": 5.925607204437256,
-      "learning_rate": 2.4193548387096777e-05,
-      "loss": 0.8201,
       "step": 60
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.691462805791313,
-      "eval_loss": 0.8410265445709229,
-      "eval_runtime": 24.8815,
-      "eval_samples_per_second": 80.502,
-      "eval_steps_per_second": 1.286,
-      "step": 63
-    },
-    {
-      "epoch": 2.2222222222222223,
-      "grad_norm": 3.6991262435913086,
-      "learning_rate": 2.822580645161291e-05,
-      "loss": 0.7149,
       "step": 70
     },
     {
-      "epoch": 2.5396825396825395,
-      "grad_norm": 9.60767936706543,
-      "learning_rate": 3.2258064516129034e-05,
-      "loss": 0.6696,
       "step": 80
     },
     {
-      "epoch": 2.857142857142857,
-      "grad_norm": 4.910393714904785,
-      "learning_rate": 3.6290322580645165e-05,
-      "loss": 0.634,
       "step": 90
     },
     {
-      "epoch": 2.984126984126984,
-      "eval_accuracy": 0.7773339990014978,
-      "eval_loss": 0.6348706483840942,
-      "eval_runtime": 24.8572,
-      "eval_samples_per_second": 80.58,
-      "eval_steps_per_second": 1.287,
-      "step": 94
-    },
-    {
-      "epoch": 3.1746031746031744,
-      "grad_norm": 9.863725662231445,
-      "learning_rate": 4.032258064516129e-05,
-      "loss": 0.5768,
       "step": 100
     },
     {
-      "epoch": 3.492063492063492,
-      "grad_norm": 6.171677112579346,
-      "learning_rate": 4.435483870967742e-05,
-      "loss": 0.5521,
       "step": 110
     },
     {
-      "epoch": 3.8095238095238093,
-      "grad_norm": 8.241861343383789,
-      "learning_rate": 4.8387096774193554e-05,
-      "loss": 0.561,
       "step": 120
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7958062905641538,
-      "eval_loss": 0.5738771557807922,
-      "eval_runtime": 24.4894,
-      "eval_samples_per_second": 81.79,
-      "eval_steps_per_second": 1.307,
-      "step": 126
-    },
-    {
-      "epoch": 4.1269841269841265,
-      "grad_norm": 6.913752555847168,
-      "learning_rate": 4.973118279569893e-05,
-      "loss": 0.4906,
       "step": 130
     },
     {
-      "epoch": 4.444444444444445,
-      "grad_norm": 4.96409797668457,
-      "learning_rate": 4.92831541218638e-05,
-      "loss": 0.4588,
       "step": 140
     },
     {
-      "epoch": 4.761904761904762,
-      "grad_norm": 11.189750671386719,
-      "learning_rate": 4.8835125448028677e-05,
-      "loss": 0.4839,
       "step": 150
     },
     {
-      "epoch": 4.984126984126984,
-      "eval_accuracy": 0.8382426360459311,
-      "eval_loss": 0.4543745219707489,
-      "eval_runtime": 24.7801,
-      "eval_samples_per_second": 80.831,
-      "eval_steps_per_second": 1.291,
-      "step": 157
-    },
-    {
-      "epoch": 5.079365079365079,
-      "grad_norm": 4.5059404373168945,
-      "learning_rate": 4.8387096774193554e-05,
-      "loss": 0.4574,
       "step": 160
     },
     {
-      "epoch": 5.396825396825397,
-      "grad_norm": 10.079263687133789,
-      "learning_rate": 4.7939068100358424e-05,
-      "loss": 0.4431,
       "step": 170
     },
     {
-      "epoch": 5.714285714285714,
-      "grad_norm": 8.396503448486328,
-      "learning_rate": 4.74910394265233e-05,
-      "loss": 0.4073,
       "step": 180
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.8462306540189716,
-      "eval_loss": 0.4398318827152252,
-      "eval_runtime": 24.2749,
-      "eval_samples_per_second": 82.513,
-      "eval_steps_per_second": 1.318,
-      "step": 189
-    },
-    {
-      "epoch": 6.031746031746032,
-      "grad_norm": 4.483707904815674,
-      "learning_rate": 4.704301075268818e-05,
-      "loss": 0.4442,
       "step": 190
     },
     {
-      "epoch": 6.349206349206349,
-      "grad_norm": 7.485744476318359,
-      "learning_rate": 4.659498207885305e-05,
-      "loss": 0.3724,
       "step": 200
     },
     {
-      "epoch": 6.666666666666667,
-      "grad_norm": 6.369739055633545,
-      "learning_rate": 4.614695340501792e-05,
-      "loss": 0.3718,
       "step": 210
     },
     {
-      "epoch": 6.984126984126984,
-      "grad_norm": 9.252875328063965,
-      "learning_rate": 4.56989247311828e-05,
-      "loss": 0.4035,
-      "step": 220
-    },
-    {
-      "epoch": 6.984126984126984,
-      "eval_accuracy": 0.8487269096355466,
-      "eval_loss": 0.4284241795539856,
-      "eval_runtime": 24.7921,
-      "eval_samples_per_second": 80.792,
-      "eval_steps_per_second": 1.291,
       "step": 220
     },
     {
-      "epoch": 7.301587301587301,
-      "grad_norm": 11.154105186462402,
-      "learning_rate": 4.5250896057347674e-05,
-      "loss": 0.3237,
       "step": 230
     },
     {
-      "epoch": 7.619047619047619,
-      "grad_norm": 5.150094509124756,
-      "learning_rate": 4.4802867383512545e-05,
-      "loss": 0.3502,
       "step": 240
     },
     {
-      "epoch": 7.936507936507937,
-      "grad_norm": 5.770071506500244,
-      "learning_rate": 4.435483870967742e-05,
-      "loss": 0.3609,
       "step": 250
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.854218671992012,
-      "eval_loss": 0.38860228657722473,
-      "eval_runtime": 24.3118,
-      "eval_samples_per_second": 82.388,
-      "eval_steps_per_second": 1.316,
-      "step": 252
     },
     {
-      "epoch": 8.253968253968253,
-      "grad_norm": 9.657562255859375,
-      "learning_rate": 4.390681003584229e-05,
-      "loss": 0.3115,
       "step": 260
     },
     {
-      "epoch": 8.571428571428571,
-      "grad_norm": 6.7540812492370605,
-      "learning_rate": 4.345878136200717e-05,
-      "loss": 0.306,
       "step": 270
     },
     {
-      "epoch": 8.88888888888889,
-      "grad_norm": 9.384312629699707,
-      "learning_rate": 4.301075268817205e-05,
-      "loss": 0.3196,
       "step": 280
     },
     {
-      "epoch": 8.984126984126984,
-      "eval_accuracy": 0.8432351472790813,
-      "eval_loss": 0.45614635944366455,
-      "eval_runtime": 25.2083,
-      "eval_samples_per_second": 79.458,
-      "eval_steps_per_second": 1.269,
-      "step": 283
-    },
-    {
-      "epoch": 9.206349206349206,
-      "grad_norm": 5.623856544494629,
-      "learning_rate": 4.256272401433692e-05,
-      "loss": 0.3088,
       "step": 290
     },
     {
-      "epoch": 9.523809523809524,
-      "grad_norm": 8.197659492492676,
-      "learning_rate": 4.2114695340501795e-05,
-      "loss": 0.2964,
       "step": 300
     },
     {
-      "epoch": 9.841269841269842,
-      "grad_norm": 6.508030414581299,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.2723,
       "step": 310
     },
     {
-      "epoch": 10.0,
-      "eval_accuracy": 0.8696954568147778,
-      "eval_loss": 0.3703114986419678,
-      "eval_runtime": 24.8054,
-      "eval_samples_per_second": 80.749,
-      "eval_steps_per_second": 1.29,
-      "step": 315
-    },
-    {
-      "epoch": 10.158730158730158,
-      "grad_norm": 6.234573841094971,
-      "learning_rate": 4.121863799283154e-05,
-      "loss": 0.2525,
       "step": 320
     },
     {
-      "epoch": 10.476190476190476,
-      "grad_norm": 5.158910274505615,
-      "learning_rate": 4.077060931899642e-05,
-      "loss": 0.2707,
       "step": 330
     },
     {
-      "epoch": 10.793650793650794,
-      "grad_norm": 7.1439971923828125,
-      "learning_rate": 4.032258064516129e-05,
-      "loss": 0.2521,
       "step": 340
     },
     {
-      "epoch": 10.984126984126984,
-      "eval_accuracy": 0.872191712431353,
-      "eval_loss": 0.3638671636581421,
-      "eval_runtime": 24.7377,
-      "eval_samples_per_second": 80.97,
-      "eval_steps_per_second": 1.294,
-      "step": 346
-    },
-    {
-      "epoch": 11.11111111111111,
-      "grad_norm": 6.113388538360596,
-      "learning_rate": 3.987455197132617e-05,
-      "loss": 0.271,
       "step": 350
     },
     {
-      "epoch": 11.428571428571429,
-      "grad_norm": 8.854401588439941,
-      "learning_rate": 3.9426523297491045e-05,
-      "loss": 0.2671,
       "step": 360
     },
     {
-      "epoch": 11.746031746031747,
-      "grad_norm": 8.250101089477539,
-      "learning_rate": 3.8978494623655915e-05,
-      "loss": 0.2644,
       "step": 370
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.8831752371442836,
-      "eval_loss": 0.32876166701316833,
-      "eval_runtime": 24.8834,
-      "eval_samples_per_second": 80.495,
-      "eval_steps_per_second": 1.286,
-      "step": 378
-    },
-    {
-      "epoch": 12.063492063492063,
-      "grad_norm": 6.271592140197754,
-      "learning_rate": 3.8530465949820786e-05,
-      "loss": 0.2441,
       "step": 380
     },
     {
-      "epoch": 12.380952380952381,
-      "grad_norm": 6.686671733856201,
-      "learning_rate": 3.808243727598566e-05,
-      "loss": 0.2624,
       "step": 390
     },
     {
-      "epoch": 12.698412698412698,
-      "grad_norm": 6.1020989418029785,
-      "learning_rate": 3.763440860215054e-05,
-      "loss": 0.2282,
       "step": 400
     },
     {
-      "epoch": 12.984126984126984,
-      "eval_accuracy": 0.871193210184723,
-      "eval_loss": 0.36250728368759155,
-      "eval_runtime": 24.5366,
-      "eval_samples_per_second": 81.633,
-      "eval_steps_per_second": 1.304,
-      "step": 409
-    },
-    {
-      "epoch": 13.015873015873016,
-      "grad_norm": 7.433064937591553,
-      "learning_rate": 3.718637992831541e-05,
-      "loss": 0.2257,
       "step": 410
     },
     {
-      "epoch": 13.333333333333334,
-      "grad_norm": 6.756991863250732,
-      "learning_rate": 3.673835125448029e-05,
-      "loss": 0.2036,
       "step": 420
     },
     {
-      "epoch": 13.65079365079365,
-      "grad_norm": 6.9047393798828125,
-      "learning_rate": 3.6290322580645165e-05,
-      "loss": 0.2335,
       "step": 430
     },
     {
-      "epoch": 13.968253968253968,
-      "grad_norm": 9.594013214111328,
-      "learning_rate": 3.5842293906810036e-05,
-      "loss": 0.2435,
       "step": 440
     },
     {
-      "epoch": 14.0,
-      "eval_accuracy": 0.8961557663504743,
-      "eval_loss": 0.3175117075443268,
-      "eval_runtime": 24.4645,
-      "eval_samples_per_second": 81.874,
-      "eval_steps_per_second": 1.308,
-      "step": 441
-    },
-    {
-      "epoch": 14.285714285714286,
-      "grad_norm": 8.859041213989258,
-      "learning_rate": 3.539426523297491e-05,
-      "loss": 0.2068,
       "step": 450
     },
     {
-      "epoch": 14.603174603174603,
-      "grad_norm": 7.455759048461914,
-      "learning_rate": 3.494623655913979e-05,
-      "loss": 0.2284,
       "step": 460
     },
     {
-      "epoch": 14.920634920634921,
-      "grad_norm": 5.559782028198242,
-      "learning_rate": 3.449820788530466e-05,
-      "loss": 0.2051,
       "step": 470
     },
     {
-      "epoch": 14.984126984126984,
-      "eval_accuracy": 0.8706939590614079,
-      "eval_loss": 0.3648614287376404,
-      "eval_runtime": 24.4773,
-      "eval_samples_per_second": 81.831,
-      "eval_steps_per_second": 1.307,
-      "step": 472
-    },
-    {
-      "epoch": 15.238095238095237,
-      "grad_norm": 5.328235149383545,
-      "learning_rate": 3.405017921146954e-05,
-      "loss": 0.2018,
       "step": 480
     },
     {
-      "epoch": 15.555555555555555,
-      "grad_norm": 7.363594055175781,
-      "learning_rate": 3.360215053763441e-05,
-      "loss": 0.1869,
       "step": 490
     },
     {
-      "epoch": 15.873015873015873,
-      "grad_norm": 10.774445533752441,
-      "learning_rate": 3.3154121863799286e-05,
-      "loss": 0.1922,
       "step": 500
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy": 0.8951572641038442,
-      "eval_loss": 0.30218109488487244,
-      "eval_runtime": 24.9213,
-      "eval_samples_per_second": 80.373,
-      "eval_steps_per_second": 1.284,
-      "step": 504
     },
     {
-      "epoch": 16.19047619047619,
-      "grad_norm": 6.6121039390563965,
-      "learning_rate": 3.270609318996416e-05,
-      "loss": 0.1825,
       "step": 510
     },
     {
-      "epoch": 16.507936507936506,
-      "grad_norm": 6.801867485046387,
-      "learning_rate": 3.2258064516129034e-05,
-      "loss": 0.1741,
       "step": 520
     },
     {
-      "epoch": 16.825396825396826,
-      "grad_norm": 6.467336177825928,
-      "learning_rate": 3.1810035842293904e-05,
-      "loss": 0.1824,
       "step": 530
     },
     {
-      "epoch": 16.984126984126984,
-      "eval_accuracy": 0.8751872191712431,
-      "eval_loss": 0.35959309339523315,
-      "eval_runtime": 24.721,
-      "eval_samples_per_second": 81.024,
-      "eval_steps_per_second": 1.294,
-      "step": 535
-    },
-    {
-      "epoch": 17.142857142857142,
-      "grad_norm": 7.638742923736572,
-      "learning_rate": 3.136200716845878e-05,
-      "loss": 0.1841,
       "step": 540
     },
     {
-      "epoch": 17.46031746031746,
-      "grad_norm": 12.39472484588623,
-      "learning_rate": 3.091397849462366e-05,
-      "loss": 0.1808,
       "step": 550
     },
     {
-      "epoch": 17.77777777777778,
-      "grad_norm": 6.454930305480957,
-      "learning_rate": 3.046594982078853e-05,
-      "loss": 0.1799,
       "step": 560
     },
     {
-      "epoch": 18.0,
-      "eval_accuracy": 0.8941587618572142,
-      "eval_loss": 0.32931479811668396,
-      "eval_runtime": 24.732,
-      "eval_samples_per_second": 80.988,
-      "eval_steps_per_second": 1.294,
-      "step": 567
-    },
-    {
-      "epoch": 18.095238095238095,
-      "grad_norm": 6.038789749145508,
-      "learning_rate": 3.0017921146953403e-05,
-      "loss": 0.1544,
       "step": 570
     },
     {
-      "epoch": 18.41269841269841,
-      "grad_norm": 6.287538051605225,
-      "learning_rate": 2.9569892473118284e-05,
-      "loss": 0.1709,
       "step": 580
     },
     {
-      "epoch": 18.73015873015873,
-      "grad_norm": 6.68491268157959,
-      "learning_rate": 2.9121863799283154e-05,
-      "loss": 0.1562,
       "step": 590
     },
     {
-      "epoch": 18.984126984126984,
-      "eval_accuracy": 0.8991512730903645,
-      "eval_loss": 0.3203687369823456,
-      "eval_runtime": 24.7468,
-      "eval_samples_per_second": 80.94,
-      "eval_steps_per_second": 1.293,
-      "step": 598
-    },
-    {
-      "epoch": 19.047619047619047,
-      "grad_norm": 8.029606819152832,
-      "learning_rate": 2.8673835125448028e-05,
-      "loss": 0.1582,
       "step": 600
     },
     {
-      "epoch": 19.365079365079364,
-      "grad_norm": 5.551252365112305,
-      "learning_rate": 2.822580645161291e-05,
-      "loss": 0.1585,
       "step": 610
     },
     {
-      "epoch": 19.682539682539684,
-      "grad_norm": 4.9365997314453125,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.1618,
       "step": 620
     },
     {
-      "epoch": 20.0,
-      "grad_norm": 6.0366997718811035,
-      "learning_rate": 2.7329749103942653e-05,
-      "loss": 0.1582,
       "step": 630
     },
     {
-      "epoch": 20.0,
-      "eval_accuracy": 0.8836744882675986,
-      "eval_loss": 0.3466728925704956,
-      "eval_runtime": 24.9872,
-      "eval_samples_per_second": 80.161,
-      "eval_steps_per_second": 1.281,
-      "step": 630
-    },
-    {
-      "epoch": 20.317460317460316,
-      "grad_norm": 8.681838989257812,
-      "learning_rate": 2.6881720430107527e-05,
-      "loss": 0.1645,
       "step": 640
     },
     {
-      "epoch": 20.634920634920636,
-      "grad_norm": 7.834855556488037,
-      "learning_rate": 2.6433691756272404e-05,
-      "loss": 0.1509,
       "step": 650
     },
     {
-      "epoch": 20.952380952380953,
-      "grad_norm": 5.852224349975586,
-      "learning_rate": 2.5985663082437278e-05,
-      "loss": 0.1516,
       "step": 660
     },
     {
-      "epoch": 20.984126984126984,
-      "eval_accuracy": 0.8941587618572142,
-      "eval_loss": 0.32471397519111633,
-      "eval_runtime": 25.4422,
-      "eval_samples_per_second": 78.727,
-      "eval_steps_per_second": 1.258,
-      "step": 661
-    },
-    {
-      "epoch": 21.26984126984127,
-      "grad_norm": 5.681866645812988,
-      "learning_rate": 2.5537634408602152e-05,
-      "loss": 0.1411,
       "step": 670
     },
     {
-      "epoch": 21.58730158730159,
-      "grad_norm": 4.268200874328613,
-      "learning_rate": 2.5089605734767026e-05,
-      "loss": 0.131,
       "step": 680
     },
     {
-      "epoch": 21.904761904761905,
-      "grad_norm": 4.7456488609313965,
-      "learning_rate": 2.46415770609319e-05,
-      "loss": 0.1285,
       "step": 690
     },
     {
-      "epoch": 22.0,
-      "eval_accuracy": 0.891163255117324,
-      "eval_loss": 0.33040687441825867,
-      "eval_runtime": 24.24,
-      "eval_samples_per_second": 82.632,
-      "eval_steps_per_second": 1.32,
-      "step": 693
-    },
-    {
-      "epoch": 22.22222222222222,
-      "grad_norm": 5.077579021453857,
-      "learning_rate": 2.4193548387096777e-05,
-      "loss": 0.1238,
       "step": 700
     },
     {
-      "epoch": 22.53968253968254,
-      "grad_norm": 5.799654483795166,
-      "learning_rate": 2.374551971326165e-05,
-      "loss": 0.1202,
       "step": 710
     },
     {
-      "epoch": 22.857142857142858,
-      "grad_norm": 4.615148544311523,
-      "learning_rate": 2.3297491039426525e-05,
-      "loss": 0.1454,
       "step": 720
     },
     {
-      "epoch": 22.984126984126984,
-      "eval_accuracy": 0.8956565152271593,
-      "eval_loss": 0.30313894152641296,
-      "eval_runtime": 24.5031,
-      "eval_samples_per_second": 81.745,
-      "eval_steps_per_second": 1.306,
-      "step": 724
-    },
-    {
-      "epoch": 23.174603174603174,
-      "grad_norm": 4.609182834625244,
-      "learning_rate": 2.28494623655914e-05,
-      "loss": 0.1063,
       "step": 730
     },
     {
-      "epoch": 23.49206349206349,
-      "grad_norm": 6.323965549468994,
-      "learning_rate": 2.2401433691756272e-05,
-      "loss": 0.1177,
       "step": 740
     },
     {
-      "epoch": 23.80952380952381,
-      "grad_norm": 8.178818702697754,
-      "learning_rate": 2.1953405017921146e-05,
-      "loss": 0.1548,
       "step": 750
     },
     {
-      "epoch": 24.0,
-      "eval_accuracy": 0.8991512730903645,
-      "eval_loss": 0.30859947204589844,
-      "eval_runtime": 24.3496,
-      "eval_samples_per_second": 82.26,
-      "eval_steps_per_second": 1.314,
-      "step": 756
     },
     {
-      "epoch": 24.126984126984127,
-      "grad_norm": 5.583525657653809,
-      "learning_rate": 2.1505376344086024e-05,
-      "loss": 0.1293,
-      "step": 760
     },
     {
-      "epoch": 24.444444444444443,
-      "grad_norm": 3.8900668621063232,
-      "learning_rate": 2.1057347670250897e-05,
-      "loss": 0.1229,
       "step": 770
     },
     {
-      "epoch": 24.761904761904763,
-      "grad_norm": 5.418626308441162,
-      "learning_rate": 2.060931899641577e-05,
-      "loss": 0.1041,
       "step": 780
     },
     {
-      "epoch": 24.984126984126984,
-      "eval_accuracy": 0.9021467798302546,
-      "eval_loss": 0.29453128576278687,
-      "eval_runtime": 24.6344,
-      "eval_samples_per_second": 81.309,
-      "eval_steps_per_second": 1.299,
-      "step": 787
-    },
-    {
-      "epoch": 25.07936507936508,
-      "grad_norm": 3.8356785774230957,
-      "learning_rate": 2.0161290322580645e-05,
-      "loss": 0.1131,
       "step": 790
     },
     {
-      "epoch": 25.396825396825395,
-      "grad_norm": 5.460204124450684,
-      "learning_rate": 1.9713261648745522e-05,
-      "loss": 0.1192,
       "step": 800
     },
     {
-      "epoch": 25.714285714285715,
-      "grad_norm": 4.820821285247803,
-      "learning_rate": 1.9265232974910393e-05,
-      "loss": 0.1161,
       "step": 810
     },
     {
-      "epoch": 26.0,
-      "eval_accuracy": 0.91063404892661,
-      "eval_loss": 0.2968132495880127,
-      "eval_runtime": 24.1187,
-      "eval_samples_per_second": 83.047,
-      "eval_steps_per_second": 1.327,
-      "step": 819
-    },
-    {
-      "epoch": 26.03174603174603,
-      "grad_norm": 8.177849769592285,
-      "learning_rate": 1.881720430107527e-05,
-      "loss": 0.1178,
       "step": 820
     },
     {
-      "epoch": 26.349206349206348,
-      "grad_norm": 6.220778942108154,
-      "learning_rate": 1.8369175627240144e-05,
-      "loss": 0.1076,
       "step": 830
     },
     {
-      "epoch": 26.666666666666668,
-      "grad_norm": 7.938710689544678,
-      "learning_rate": 1.7921146953405018e-05,
-      "loss": 0.1146,
       "step": 840
     },
     {
-      "epoch": 26.984126984126984,
-      "grad_norm": 5.643862247467041,
-      "learning_rate": 1.7473118279569895e-05,
-      "loss": 0.1141,
-      "step": 850
-    },
-    {
-      "epoch": 26.984126984126984,
-      "eval_accuracy": 0.90963554667998,
-      "eval_loss": 0.2805466949939728,
-      "eval_runtime": 24.6132,
-      "eval_samples_per_second": 81.379,
-      "eval_steps_per_second": 1.3,
       "step": 850
     },
     {
-      "epoch": 27.3015873015873,
-      "grad_norm": 4.576446533203125,
-      "learning_rate": 1.702508960573477e-05,
-      "loss": 0.1126,
       "step": 860
     },
     {
-      "epoch": 27.61904761904762,
-      "grad_norm": 3.556596279144287,
-      "learning_rate": 1.6577060931899643e-05,
-      "loss": 0.1058,
       "step": 870
     },
     {
-      "epoch": 27.936507936507937,
-      "grad_norm": 6.387381553649902,
-      "learning_rate": 1.6129032258064517e-05,
-      "loss": 0.1078,
       "step": 880
     },
     {
-      "epoch": 28.0,
-      "eval_accuracy": 0.9011482775836246,
-      "eval_loss": 0.31776800751686096,
-      "eval_runtime": 24.1357,
-      "eval_samples_per_second": 82.989,
-      "eval_steps_per_second": 1.326,
-      "step": 882
-    },
-    {
-      "epoch": 28.253968253968253,
-      "grad_norm": 3.115154266357422,
-      "learning_rate": 1.568100358422939e-05,
-      "loss": 0.0964,
       "step": 890
     },
     {
-      "epoch": 28.571428571428573,
-      "grad_norm": 5.499573707580566,
-      "learning_rate": 1.5232974910394265e-05,
-      "loss": 0.1023,
       "step": 900
     },
     {
-      "epoch": 28.88888888888889,
-      "grad_norm": 6.842806816101074,
-      "learning_rate": 1.4784946236559142e-05,
-      "loss": 0.1192,
       "step": 910
     },
     {
-      "epoch": 28.984126984126984,
-      "eval_accuracy": 0.9041437843235147,
-      "eval_loss": 0.3182041049003601,
-      "eval_runtime": 24.1925,
-      "eval_samples_per_second": 82.794,
-      "eval_steps_per_second": 1.323,
-      "step": 913
-    },
-    {
-      "epoch": 29.206349206349206,
-      "grad_norm": 6.668429374694824,
-      "learning_rate": 1.4336917562724014e-05,
-      "loss": 0.1,
       "step": 920
     },
     {
-      "epoch": 29.523809523809526,
-      "grad_norm": 4.984645843505859,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.0921,
       "step": 930
     },
     {
-      "epoch": 29.841269841269842,
-      "grad_norm": 5.513997554779053,
-      "learning_rate": 1.3440860215053763e-05,
-      "loss": 0.0977,
       "step": 940
     },
     {
-      "epoch": 30.0,
-      "eval_accuracy": 0.9061407888167748,
-      "eval_loss": 0.29999998211860657,
-      "eval_runtime": 24.4501,
-      "eval_samples_per_second": 81.922,
-      "eval_steps_per_second": 1.309,
-      "step": 945
-    },
-    {
-      "epoch": 30.158730158730158,
-      "grad_norm": 4.359825611114502,
-      "learning_rate": 1.2992831541218639e-05,
-      "loss": 0.0855,
       "step": 950
     },
     {
-      "epoch": 30.476190476190474,
-      "grad_norm": 5.671274662017822,
-      "learning_rate": 1.2544802867383513e-05,
-      "loss": 0.0911,
       "step": 960
     },
     {
-      "epoch": 30.793650793650794,
-      "grad_norm": 8.433524131774902,
-      "learning_rate": 1.2096774193548388e-05,
-      "loss": 0.1011,
       "step": 970
     },
     {
-      "epoch": 30.984126984126984,
-      "eval_accuracy": 0.9041437843235147,
-      "eval_loss": 0.3065091669559479,
-      "eval_runtime": 36.3982,
-      "eval_samples_per_second": 55.03,
-      "eval_steps_per_second": 0.879,
-      "step": 976
-    },
-    {
-      "epoch": 31.11111111111111,
-      "grad_norm": 5.782038688659668,
-      "learning_rate": 1.1648745519713262e-05,
-      "loss": 0.0967,
       "step": 980
     },
     {
-      "epoch": 31.428571428571427,
-      "grad_norm": 5.8083271980285645,
-      "learning_rate": 1.1200716845878136e-05,
-      "loss": 0.0983,
       "step": 990
     },
     {
-      "epoch": 31.746031746031747,
-      "grad_norm": 4.4911675453186035,
-      "learning_rate": 1.0752688172043012e-05,
-      "loss": 0.0865,
       "step": 1000
     },
     {
-      "epoch": 32.0,
-      "eval_accuracy": 0.9051422865701447,
-      "eval_loss": 0.3192664086818695,
-      "eval_runtime": 24.8956,
-      "eval_samples_per_second": 80.456,
-      "eval_steps_per_second": 1.285,
-      "step": 1008
-    },
-    {
-      "epoch": 32.06349206349206,
-      "grad_norm": 4.185471534729004,
-      "learning_rate": 1.0304659498207886e-05,
-      "loss": 0.0821,
       "step": 1010
     },
     {
-      "epoch": 32.38095238095238,
-      "grad_norm": 4.876070499420166,
-      "learning_rate": 9.856630824372761e-06,
-      "loss": 0.0843,
       "step": 1020
     },
     {
-      "epoch": 32.698412698412696,
-      "grad_norm": 5.560541152954102,
-      "learning_rate": 9.408602150537635e-06,
-      "loss": 0.0845,
       "step": 1030
     },
     {
-      "epoch": 32.98412698412698,
-      "eval_accuracy": 0.9121318022965552,
-      "eval_loss": 0.30474382638931274,
-      "eval_runtime": 24.6177,
-      "eval_samples_per_second": 81.364,
-      "eval_steps_per_second": 1.3,
-      "step": 1039
-    },
-    {
-      "epoch": 33.01587301587302,
-      "grad_norm": 3.8526599407196045,
-      "learning_rate": 8.960573476702509e-06,
-      "loss": 0.0979,
       "step": 1040
     },
     {
-      "epoch": 33.333333333333336,
-      "grad_norm": 5.010209083557129,
-      "learning_rate": 8.512544802867385e-06,
-      "loss": 0.0751,
       "step": 1050
     },
     {
-      "epoch": 33.65079365079365,
-      "grad_norm": 4.15861701965332,
-      "learning_rate": 8.064516129032258e-06,
-      "loss": 0.09,
       "step": 1060
     },
     {
-      "epoch": 33.96825396825397,
-      "grad_norm": 5.510195255279541,
-      "learning_rate": 7.616487455197132e-06,
-      "loss": 0.0823,
       "step": 1070
     },
     {
-      "epoch": 34.0,
-      "eval_accuracy": 0.9116325511732402,
-      "eval_loss": 0.3036876320838928,
-      "eval_runtime": 24.6681,
-      "eval_samples_per_second": 81.198,
-      "eval_steps_per_second": 1.297,
-      "step": 1071
-    },
-    {
-      "epoch": 34.285714285714285,
-      "grad_norm": 4.8823771476745605,
-      "learning_rate": 7.168458781362007e-06,
-      "loss": 0.0866,
       "step": 1080
     },
     {
-      "epoch": 34.6031746031746,
-      "grad_norm": 4.3600006103515625,
-      "learning_rate": 6.720430107526882e-06,
-      "loss": 0.0784,
       "step": 1090
     },
     {
-      "epoch": 34.92063492063492,
-      "grad_norm": 5.2714009284973145,
-      "learning_rate": 6.2724014336917564e-06,
-      "loss": 0.0809,
       "step": 1100
     },
     {
-      "epoch": 34.98412698412698,
-      "eval_accuracy": 0.9011482775836246,
-      "eval_loss": 0.3329264521598816,
-      "eval_runtime": 24.4806,
-      "eval_samples_per_second": 81.82,
-      "eval_steps_per_second": 1.307,
-      "step": 1102
-    },
-    {
-      "epoch": 35.23809523809524,
-      "grad_norm": 3.9122490882873535,
-      "learning_rate": 5.824372759856631e-06,
-      "loss": 0.0704,
       "step": 1110
     },
     {
-      "epoch": 35.55555555555556,
-      "grad_norm": 4.517535209655762,
-      "learning_rate": 5.376344086021506e-06,
-      "loss": 0.0778,
       "step": 1120
     },
     {
-      "epoch": 35.87301587301587,
-      "grad_norm": 4.29276704788208,
-      "learning_rate": 4.928315412186381e-06,
-      "loss": 0.0789,
       "step": 1130
     },
     {
-      "epoch": 36.0,
-      "eval_accuracy": 0.9121318022965552,
-      "eval_loss": 0.3215394914150238,
-      "eval_runtime": 24.2645,
-      "eval_samples_per_second": 82.549,
-      "eval_steps_per_second": 1.319,
-      "step": 1134
-    },
-    {
-      "epoch": 36.19047619047619,
-      "grad_norm": 3.785637140274048,
-      "learning_rate": 4.4802867383512545e-06,
-      "loss": 0.0764,
       "step": 1140
     },
     {
-      "epoch": 36.507936507936506,
-      "grad_norm": 5.800527572631836,
-      "learning_rate": 4.032258064516129e-06,
-      "loss": 0.0735,
       "step": 1150
     },
     {
-      "epoch": 36.82539682539682,
-      "grad_norm": 3.3133223056793213,
-      "learning_rate": 3.5842293906810035e-06,
-      "loss": 0.0724,
       "step": 1160
     },
     {
-      "epoch": 36.98412698412698,
-      "eval_accuracy": 0.90963554667998,
-      "eval_loss": 0.3272792100906372,
-      "eval_runtime": 24.4675,
-      "eval_samples_per_second": 81.864,
-      "eval_steps_per_second": 1.308,
-      "step": 1165
-    },
-    {
-      "epoch": 37.142857142857146,
-      "grad_norm": 5.3057050704956055,
-      "learning_rate": 3.1362007168458782e-06,
-      "loss": 0.0763,
       "step": 1170
     },
     {
-      "epoch": 37.46031746031746,
-      "grad_norm": 3.7078752517700195,
-      "learning_rate": 2.688172043010753e-06,
-      "loss": 0.0757,
       "step": 1180
     },
     {
-      "epoch": 37.77777777777778,
-      "grad_norm": 4.193051338195801,
-      "learning_rate": 2.2401433691756272e-06,
-      "loss": 0.0722,
       "step": 1190
     },
     {
-      "epoch": 38.0,
-      "eval_accuracy": 0.909136295556665,
-      "eval_loss": 0.30959054827690125,
-      "eval_runtime": 24.6671,
-      "eval_samples_per_second": 81.201,
-      "eval_steps_per_second": 1.297,
-      "step": 1197
-    },
-    {
-      "epoch": 38.095238095238095,
-      "grad_norm": 4.277989387512207,
-      "learning_rate": 1.7921146953405017e-06,
-      "loss": 0.0793,
       "step": 1200
     },
     {
-      "epoch": 38.41269841269841,
-      "grad_norm": 5.62402868270874,
-      "learning_rate": 1.3440860215053765e-06,
-      "loss": 0.0737,
       "step": 1210
     },
     {
-      "epoch": 38.73015873015873,
-      "grad_norm": 2.6461453437805176,
-      "learning_rate": 8.960573476702509e-07,
-      "loss": 0.0811,
       "step": 1220
     },
     {
-      "epoch": 38.98412698412698,
-      "eval_accuracy": 0.9126310534198702,
-      "eval_loss": 0.320569783449173,
-      "eval_runtime": 24.7673,
-      "eval_samples_per_second": 80.873,
-      "eval_steps_per_second": 1.292,
-      "step": 1228
-    },
-    {
-      "epoch": 39.04761904761905,
-      "grad_norm": 4.357304573059082,
-      "learning_rate": 4.4802867383512544e-07,
-      "loss": 0.0855,
       "step": 1230
     },
     {
-      "epoch": 39.36507936507937,
-      "grad_norm": 3.4464972019195557,
-      "learning_rate": 0.0,
-      "loss": 0.0659,
       "step": 1240
     },
     {
-      "epoch": 39.36507936507937,
-      "eval_accuracy": 0.9126310534198702,
-      "eval_loss": 0.32159659266471863,
-      "eval_runtime": 25.3948,
-      "eval_samples_per_second": 78.874,
-      "eval_steps_per_second": 1.26,
-      "step": 1240
     },
     {
-      "epoch": 39.36507936507937,
-      "step": 1240,
-      "total_flos": 7.840972523253768e+18,
-      "train_loss": 0.24690783341084757,
-      "train_runtime": 6145.2319,
-      "train_samples_per_second": 52.151,
-      "train_steps_per_second": 0.202
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1240,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 40,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1263,7 +969,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.840972523253768e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.994671729544341,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-255",
+  "epoch": 4.995102840352596,
   "eval_steps": 500,
+  "global_step": 1275,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.039177277179236046,
+      "grad_norm": 9.329336166381836,
+      "learning_rate": 3.90625e-06,
+      "loss": 0.7,
       "step": 10
     },
     {
+      "epoch": 0.07835455435847209,
+      "grad_norm": 4.470575332641602,
+      "learning_rate": 7.8125e-06,
+      "loss": 0.4115,
       "step": 20
     },
     {
+      "epoch": 0.11753183153770813,
+      "grad_norm": 1.0650607347488403,
+      "learning_rate": 1.171875e-05,
+      "loss": 0.1272,
       "step": 30
     },
     {
+      "epoch": 0.15670910871694418,
+      "grad_norm": 0.7108937501907349,
+      "learning_rate": 1.5625e-05,
+      "loss": 0.0479,
       "step": 40
     },
     {
+      "epoch": 0.1958863858961802,
+      "grad_norm": 1.0625723600387573,
+      "learning_rate": 1.953125e-05,
+      "loss": 0.0359,
       "step": 50
     },
     {
+      "epoch": 0.23506366307541626,
+      "grad_norm": 0.1246357336640358,
+      "learning_rate": 2.34375e-05,
+      "loss": 0.0227,
       "step": 60
     },
     {
+      "epoch": 0.2742409402546523,
+      "grad_norm": 0.5148888826370239,
+      "learning_rate": 2.734375e-05,
+      "loss": 0.0295,
       "step": 70
     },
     {
+      "epoch": 0.31341821743388837,
+      "grad_norm": 0.9743920564651489,
+      "learning_rate": 3.125e-05,
+      "loss": 0.0294,
       "step": 80
     },
     {
+      "epoch": 0.3525954946131244,
+      "grad_norm": 0.31461623311042786,
+      "learning_rate": 3.5156250000000004e-05,
+      "loss": 0.0289,
       "step": 90
     },
     {
+      "epoch": 0.3917727717923604,
+      "grad_norm": 1.0115059614181519,
+      "learning_rate": 3.90625e-05,
+      "loss": 0.0391,
       "step": 100
     },
     {
+      "epoch": 0.4309500489715965,
+      "grad_norm": 0.08507003635168076,
+      "learning_rate": 4.2968750000000004e-05,
+      "loss": 0.018,
       "step": 110
     },
     {
+      "epoch": 0.4701273261508325,
+      "grad_norm": 0.1573338657617569,
+      "learning_rate": 4.6875e-05,
+      "loss": 0.0214,
       "step": 120
     },
     {
+      "epoch": 0.5093046033300686,
+      "grad_norm": 0.4784347712993622,
+      "learning_rate": 4.9912816041848304e-05,
+      "loss": 0.0264,
       "step": 130
     },
     {
+      "epoch": 0.5484818805093046,
+      "grad_norm": 0.2329588085412979,
+      "learning_rate": 4.94768962510898e-05,
+      "loss": 0.0277,
       "step": 140
     },
     {
+      "epoch": 0.5876591576885406,
+      "grad_norm": 0.05806314945220947,
+      "learning_rate": 4.90409764603313e-05,
+      "loss": 0.0221,
       "step": 150
     },
     {
+      "epoch": 0.6268364348677767,
+      "grad_norm": 1.9614442586898804,
+      "learning_rate": 4.86050566695728e-05,
+      "loss": 0.0311,
       "step": 160
     },
     {
+      "epoch": 0.6660137120470128,
+      "grad_norm": 1.0261849164962769,
+      "learning_rate": 4.8169136878814306e-05,
+      "loss": 0.0334,
       "step": 170
     },
     {
+      "epoch": 0.7051909892262488,
+      "grad_norm": 0.30455902218818665,
+      "learning_rate": 4.7733217088055796e-05,
+      "loss": 0.0271,
       "step": 180
     },
     {
+      "epoch": 0.7443682664054848,
+      "grad_norm": 0.38795918226242065,
+      "learning_rate": 4.72972972972973e-05,
+      "loss": 0.018,
       "step": 190
     },
     {
+      "epoch": 0.7835455435847208,
+      "grad_norm": 0.25275129079818726,
+      "learning_rate": 4.68613775065388e-05,
+      "loss": 0.0331,
       "step": 200
     },
     {
+      "epoch": 0.8227228207639569,
+      "grad_norm": 0.15323331952095032,
+      "learning_rate": 4.642545771578029e-05,
+      "loss": 0.0242,
       "step": 210
     },
     {
+      "epoch": 0.861900097943193,
+      "grad_norm": 0.4740907847881317,
+      "learning_rate": 4.59895379250218e-05,
+      "loss": 0.0232,
       "step": 220
     },
     {
+      "epoch": 0.901077375122429,
+      "grad_norm": 0.5308133363723755,
+      "learning_rate": 4.55536181342633e-05,
+      "loss": 0.0177,
       "step": 230
     },
     {
+      "epoch": 0.940254652301665,
+      "grad_norm": 0.985102653503418,
+      "learning_rate": 4.51176983435048e-05,
+      "loss": 0.0301,
       "step": 240
     },
     {
+      "epoch": 0.9794319294809011,
+      "grad_norm": 0.6651228070259094,
+      "learning_rate": 4.4681778552746294e-05,
+      "loss": 0.0268,
       "step": 250
     },
     {
+      "epoch": 0.9990205680705191,
+      "eval_accuracy": 0.994671729544341,
+      "eval_loss": 0.025641364976763725,
+      "eval_runtime": 164.878,
+      "eval_samples_per_second": 99.031,
+      "eval_steps_per_second": 1.553,
+      "step": 255
     },
     {
+      "epoch": 1.018609206660137,
+      "grad_norm": 0.157534658908844,
+      "learning_rate": 4.42458587619878e-05,
+      "loss": 0.0175,
       "step": 260
     },
     {
+      "epoch": 1.0577864838393731,
+      "grad_norm": 0.3950434923171997,
+      "learning_rate": 4.3809938971229295e-05,
+      "loss": 0.0205,
       "step": 270
     },
     {
+      "epoch": 1.0969637610186092,
+      "grad_norm": 0.771115243434906,
+      "learning_rate": 4.337401918047079e-05,
+      "loss": 0.032,
       "step": 280
     },
     {
+      "epoch": 1.1361410381978452,
+      "grad_norm": 0.24406306445598602,
+      "learning_rate": 4.2938099389712295e-05,
+      "loss": 0.0261,
       "step": 290
     },
     {
+      "epoch": 1.1753183153770812,
+      "grad_norm": 0.5867096781730652,
+      "learning_rate": 4.250217959895379e-05,
+      "loss": 0.0297,
       "step": 300
     },
     {
+      "epoch": 1.2144955925563172,
+      "grad_norm": 0.3914402723312378,
+      "learning_rate": 4.2066259808195296e-05,
+      "loss": 0.0245,
       "step": 310
     },
     {
+      "epoch": 1.2536728697355533,
+      "grad_norm": 0.2989954352378845,
+      "learning_rate": 4.163034001743679e-05,
+      "loss": 0.0275,
       "step": 320
     },
     {
+      "epoch": 1.2928501469147895,
+      "grad_norm": 0.46654826402664185,
+      "learning_rate": 4.119442022667829e-05,
+      "loss": 0.031,
       "step": 330
     },
     {
+      "epoch": 1.3320274240940255,
+      "grad_norm": 0.17611253261566162,
+      "learning_rate": 4.0758500435919793e-05,
+      "loss": 0.0247,
       "step": 340
     },
     {
+      "epoch": 1.3712047012732616,
+      "grad_norm": 0.31176942586898804,
+      "learning_rate": 4.032258064516129e-05,
+      "loss": 0.0242,
       "step": 350
     },
     {
+      "epoch": 1.4103819784524976,
+      "grad_norm": 0.5007725954055786,
+      "learning_rate": 3.9886660854402794e-05,
+      "loss": 0.033,
       "step": 360
     },
     {
+      "epoch": 1.4495592556317336,
+      "grad_norm": 0.6336463093757629,
+      "learning_rate": 3.945074106364429e-05,
+      "loss": 0.0127,
       "step": 370
     },
     {
+      "epoch": 1.4887365328109696,
+      "grad_norm": 0.349540650844574,
+      "learning_rate": 3.9014821272885795e-05,
+      "loss": 0.0327,
       "step": 380
     },
     {
+      "epoch": 1.5279138099902057,
+      "grad_norm": 0.48749464750289917,
+      "learning_rate": 3.857890148212729e-05,
+      "loss": 0.0247,
       "step": 390
     },
     {
+      "epoch": 1.5670910871694417,
+      "grad_norm": 0.21512505412101746,
+      "learning_rate": 3.814298169136879e-05,
+      "loss": 0.0244,
       "step": 400
     },
     {
+      "epoch": 1.606268364348678,
+      "grad_norm": 0.1843574196100235,
+      "learning_rate": 3.770706190061029e-05,
+      "loss": 0.0238,
       "step": 410
     },
     {
+      "epoch": 1.645445641527914,
+      "grad_norm": 0.17209237813949585,
+      "learning_rate": 3.727114210985179e-05,
+      "loss": 0.0159,
       "step": 420
     },
     {
+      "epoch": 1.68462291870715,
+      "grad_norm": 0.17134279012680054,
+      "learning_rate": 3.6835222319093286e-05,
+      "loss": 0.0147,
       "step": 430
     },
     {
+      "epoch": 1.723800195886386,
+      "grad_norm": 0.3783511519432068,
+      "learning_rate": 3.639930252833479e-05,
+      "loss": 0.026,
       "step": 440
     },
     {
+      "epoch": 1.762977473065622,
+      "grad_norm": 0.20875829458236694,
+      "learning_rate": 3.596338273757629e-05,
+      "loss": 0.0169,
       "step": 450
     },
     {
+      "epoch": 1.802154750244858,
+      "grad_norm": 0.061811015009880066,
+      "learning_rate": 3.552746294681778e-05,
+      "loss": 0.0115,
       "step": 460
     },
     {
+      "epoch": 1.841332027424094,
+      "grad_norm": 0.5182923078536987,
+      "learning_rate": 3.509154315605929e-05,
+      "loss": 0.0217,
       "step": 470
     },
     {
+      "epoch": 1.88050930460333,
+      "grad_norm": 0.3887523114681244,
+      "learning_rate": 3.465562336530079e-05,
+      "loss": 0.0189,
       "step": 480
     },
     {
+      "epoch": 1.9196865817825661,
+      "grad_norm": 0.13711315393447876,
+      "learning_rate": 3.421970357454228e-05,
+      "loss": 0.0132,
       "step": 490
     },
     {
+      "epoch": 1.9588638589618022,
+      "grad_norm": 0.3663609027862549,
+      "learning_rate": 3.3783783783783784e-05,
+      "loss": 0.025,
       "step": 500
     },
     {
+      "epoch": 1.9980411361410382,
+      "grad_norm": 0.28243473172187805,
+      "learning_rate": 3.334786399302529e-05,
+      "loss": 0.0167,
+      "step": 510
     },
     {
+      "epoch": 1.9980411361410382,
+      "eval_accuracy": 0.994671729544341,
+      "eval_loss": 0.027501454576849937,
+      "eval_runtime": 109.9626,
+      "eval_samples_per_second": 148.487,
+      "eval_steps_per_second": 2.328,
       "step": 510
     },
     {
+      "epoch": 2.037218413320274,
+      "grad_norm": 0.20075927674770355,
+      "learning_rate": 3.2911944202266785e-05,
+      "loss": 0.0189,
       "step": 520
     },
     {
+      "epoch": 2.0763956904995102,
+      "grad_norm": 0.5090253353118896,
+      "learning_rate": 3.247602441150828e-05,
+      "loss": 0.0158,
       "step": 530
     },
     {
+      "epoch": 2.1155729676787463,
+      "grad_norm": 0.20879769325256348,
+      "learning_rate": 3.2040104620749785e-05,
+      "loss": 0.0198,
       "step": 540
     },
     {
+      "epoch": 2.1547502448579823,
+      "grad_norm": 0.7945526242256165,
+      "learning_rate": 3.160418482999128e-05,
+      "loss": 0.0244,
       "step": 550
     },
     {
+      "epoch": 2.1939275220372183,
+      "grad_norm": 0.49813878536224365,
+      "learning_rate": 3.116826503923278e-05,
+      "loss": 0.0325,
       "step": 560
     },
     {
+      "epoch": 2.2331047992164543,
+      "grad_norm": 0.417555034160614,
+      "learning_rate": 3.073234524847428e-05,
+      "loss": 0.0245,
       "step": 570
     },
     {
+      "epoch": 2.2722820763956904,
+      "grad_norm": 0.13541927933692932,
+      "learning_rate": 3.0296425457715783e-05,
+      "loss": 0.0176,
       "step": 580
     },
     {
+      "epoch": 2.3114593535749264,
+      "grad_norm": 0.22694525122642517,
+      "learning_rate": 2.9860505666957283e-05,
+      "loss": 0.0199,
       "step": 590
     },
     {
+      "epoch": 2.3506366307541624,
+      "grad_norm": 0.06209595128893852,
+      "learning_rate": 2.942458587619878e-05,
+      "loss": 0.0127,
       "step": 600
     },
     {
+      "epoch": 2.389813907933399,
+      "grad_norm": 0.4733225703239441,
+      "learning_rate": 2.898866608544028e-05,
+      "loss": 0.0334,
       "step": 610
     },
     {
+      "epoch": 2.4289911851126345,
+      "grad_norm": 0.37968209385871887,
+      "learning_rate": 2.855274629468178e-05,
+      "loss": 0.028,
       "step": 620
     },
     {
+      "epoch": 2.468168462291871,
+      "grad_norm": 0.1550379991531372,
+      "learning_rate": 2.8116826503923278e-05,
+      "loss": 0.0227,
       "step": 630
     },
     {
+      "epoch": 2.5073457394711065,
+      "grad_norm": 0.4125171899795532,
+      "learning_rate": 2.7680906713164778e-05,
+      "loss": 0.0149,
       "step": 640
     },
     {
+      "epoch": 2.546523016650343,
+      "grad_norm": 0.6104760766029358,
+      "learning_rate": 2.724498692240628e-05,
+      "loss": 0.0256,
       "step": 650
     },
     {
+      "epoch": 2.585700293829579,
+      "grad_norm": 0.4356853663921356,
+      "learning_rate": 2.6809067131647782e-05,
+      "loss": 0.0222,
       "step": 660
     },
     {
+      "epoch": 2.624877571008815,
+      "grad_norm": 0.3686465322971344,
+      "learning_rate": 2.6373147340889275e-05,
+      "loss": 0.0213,
       "step": 670
     },
     {
+      "epoch": 2.664054848188051,
+      "grad_norm": 0.30900245904922485,
+      "learning_rate": 2.5937227550130776e-05,
+      "loss": 0.0226,
       "step": 680
     },
     {
+      "epoch": 2.703232125367287,
+      "grad_norm": 0.1763727217912674,
+      "learning_rate": 2.550130775937228e-05,
+      "loss": 0.0175,
       "step": 690
     },
     {
+      "epoch": 2.742409402546523,
+      "grad_norm": 0.7033935785293579,
+      "learning_rate": 2.5065387968613773e-05,
+      "loss": 0.0161,
       "step": 700
     },
     {
+      "epoch": 2.781586679725759,
+      "grad_norm": 0.4877593219280243,
+      "learning_rate": 2.4629468177855277e-05,
+      "loss": 0.0245,
       "step": 710
     },
     {
+      "epoch": 2.820763956904995,
+      "grad_norm": 0.22476495802402496,
+      "learning_rate": 2.4193548387096777e-05,
+      "loss": 0.0158,
       "step": 720
     },
     {
+      "epoch": 2.859941234084231,
+      "grad_norm": 0.5083233118057251,
+      "learning_rate": 2.3757628596338274e-05,
+      "loss": 0.02,
       "step": 730
     },
     {
+      "epoch": 2.899118511263467,
+      "grad_norm": 0.131087526679039,
+      "learning_rate": 2.3321708805579774e-05,
+      "loss": 0.021,
       "step": 740
     },
     {
+      "epoch": 2.9382957884427032,
+      "grad_norm": 0.2617853581905365,
+      "learning_rate": 2.2885789014821274e-05,
+      "loss": 0.0204,
       "step": 750
     },
     {
+      "epoch": 2.9774730656219393,
+      "grad_norm": 0.19207285344600677,
+      "learning_rate": 2.244986922406277e-05,
+      "loss": 0.0177,
+      "step": 760
     },
     {
+      "epoch": 2.997061704211557,
+      "eval_accuracy": 0.9935693287604116,
+      "eval_loss": 0.026763953268527985,
+      "eval_runtime": 112.7695,
+      "eval_samples_per_second": 144.791,
+      "eval_steps_per_second": 2.27,
+      "step": 765
     },
     {
+      "epoch": 3.0166503428011753,
+      "grad_norm": 0.7242885231971741,
+      "learning_rate": 2.2013949433304275e-05,
+      "loss": 0.0206,
       "step": 770
     },
     {
+      "epoch": 3.0558276199804113,
+      "grad_norm": 0.6204590201377869,
+      "learning_rate": 2.1578029642545772e-05,
+      "loss": 0.0167,
       "step": 780
     },
     {
+      "epoch": 3.0950048971596473,
+      "grad_norm": 0.14467577636241913,
+      "learning_rate": 2.1142109851787272e-05,
+      "loss": 0.0207,
       "step": 790
     },
     {
+      "epoch": 3.1341821743388834,
+      "grad_norm": 0.3296276032924652,
+      "learning_rate": 2.0706190061028772e-05,
+      "loss": 0.0177,
       "step": 800
     },
     {
+      "epoch": 3.1733594515181194,
+      "grad_norm": 0.7694735527038574,
+      "learning_rate": 2.0270270270270273e-05,
+      "loss": 0.0141,
       "step": 810
     },
     {
+      "epoch": 3.2125367286973554,
+      "grad_norm": 0.35446447134017944,
+      "learning_rate": 1.983435047951177e-05,
+      "loss": 0.0206,
       "step": 820
     },
     {
+      "epoch": 3.2517140058765914,
+      "grad_norm": 1.089401125907898,
+      "learning_rate": 1.939843068875327e-05,
+      "loss": 0.0326,
       "step": 830
     },
     {
+      "epoch": 3.2908912830558275,
+      "grad_norm": 0.21801254153251648,
+      "learning_rate": 1.896251089799477e-05,
+      "loss": 0.0162,
       "step": 840
     },
     {
+      "epoch": 3.3300685602350635,
+      "grad_norm": 0.42867550253868103,
+      "learning_rate": 1.8526591107236267e-05,
+      "loss": 0.0195,
       "step": 850
     },
     {
+      "epoch": 3.3692458374143,
+      "grad_norm": 0.24043036997318268,
+      "learning_rate": 1.809067131647777e-05,
+      "loss": 0.0155,
       "step": 860
     },
     {
+      "epoch": 3.4084231145935355,
+      "grad_norm": 0.4469415545463562,
+      "learning_rate": 1.7654751525719268e-05,
+      "loss": 0.0193,
       "step": 870
     },
     {
+      "epoch": 3.447600391772772,
+      "grad_norm": 0.14562171697616577,
+      "learning_rate": 1.7218831734960768e-05,
+      "loss": 0.0169,
       "step": 880
     },
     {
+      "epoch": 3.486777668952008,
+      "grad_norm": 0.4943673610687256,
+      "learning_rate": 1.6782911944202268e-05,
+      "loss": 0.0281,
       "step": 890
     },
     {
+      "epoch": 3.525954946131244,
+      "grad_norm": 0.5602672696113586,
+      "learning_rate": 1.6346992153443765e-05,
+      "loss": 0.0252,
       "step": 900
     },
     {
+      "epoch": 3.56513222331048,
+      "grad_norm": 0.6581624150276184,
+      "learning_rate": 1.591107236268527e-05,
+      "loss": 0.0202,
       "step": 910
     },
     {
+      "epoch": 3.604309500489716,
+      "grad_norm": 0.45326659083366394,
+      "learning_rate": 1.5475152571926766e-05,
+      "loss": 0.0257,
       "step": 920
     },
     {
+      "epoch": 3.643486777668952,
+      "grad_norm": 1.0565999746322632,
+      "learning_rate": 1.5039232781168266e-05,
+      "loss": 0.02,
       "step": 930
     },
     {
+      "epoch": 3.682664054848188,
+      "grad_norm": 0.2989865839481354,
+      "learning_rate": 1.4603312990409764e-05,
+      "loss": 0.0163,
       "step": 940
     },
     {
+      "epoch": 3.721841332027424,
+      "grad_norm": 0.09961768984794617,
+      "learning_rate": 1.4167393199651266e-05,
+      "loss": 0.0121,
       "step": 950
     },
     {
+      "epoch": 3.76101860920666,
+      "grad_norm": 0.6661494970321655,
+      "learning_rate": 1.3731473408892765e-05,
+      "loss": 0.0123,
       "step": 960
     },
     {
+      "epoch": 3.8001958863858962,
+      "grad_norm": 0.4994729459285736,
+      "learning_rate": 1.3295553618134264e-05,
+      "loss": 0.0261,
       "step": 970
     },
     {
+      "epoch": 3.8393731635651323,
+      "grad_norm": 0.5843683481216431,
+      "learning_rate": 1.2859633827375764e-05,
+      "loss": 0.0222,
       "step": 980
     },
     {
+      "epoch": 3.8785504407443683,
+      "grad_norm": 0.30400168895721436,
+      "learning_rate": 1.2423714036617264e-05,
+      "loss": 0.0217,
       "step": 990
     },
     {
+      "epoch": 3.9177277179236043,
+      "grad_norm": 0.1775442361831665,
+      "learning_rate": 1.1987794245858763e-05,
+      "loss": 0.0194,
       "step": 1000
     },
     {
+      "epoch": 3.9569049951028403,
+      "grad_norm": 0.754188060760498,
+      "learning_rate": 1.1551874455100261e-05,
+      "loss": 0.0235,
       "step": 1010
     },
     {
+      "epoch": 3.9960822722820764,
+      "grad_norm": 0.2706276774406433,
+      "learning_rate": 1.1115954664341762e-05,
+      "loss": 0.0158,
       "step": 1020
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9944879960803528,
+      "eval_loss": 0.023838121443986893,
+      "eval_runtime": 105.6855,
+      "eval_samples_per_second": 154.496,
+      "eval_steps_per_second": 2.422,
+      "step": 1021
+    },
+    {
+      "epoch": 4.035259549461313,
+      "grad_norm": 0.7036624550819397,
+      "learning_rate": 1.0680034873583262e-05,
+      "loss": 0.0212,
       "step": 1030
     },
     {
+      "epoch": 4.074436826640548,
+      "grad_norm": 0.3211575746536255,
+      "learning_rate": 1.024411508282476e-05,
+      "loss": 0.0158,
       "step": 1040
     },
     {
+      "epoch": 4.113614103819785,
+      "grad_norm": 0.28554221987724304,
+      "learning_rate": 9.80819529206626e-06,
+      "loss": 0.0166,
       "step": 1050
     },
     {
+      "epoch": 4.1527913809990205,
+      "grad_norm": 0.23619802296161652,
+      "learning_rate": 9.372275501307761e-06,
+      "loss": 0.022,
       "step": 1060
     },
     {
+      "epoch": 4.191968658178257,
+      "grad_norm": 0.24213068187236786,
+      "learning_rate": 8.93635571054926e-06,
+      "loss": 0.0201,
       "step": 1070
     },
     {
+      "epoch": 4.2311459353574925,
+      "grad_norm": 0.5181974172592163,
+      "learning_rate": 8.500435919790758e-06,
+      "loss": 0.0289,
       "step": 1080
     },
     {
+      "epoch": 4.270323212536729,
+      "grad_norm": 0.9876229166984558,
+      "learning_rate": 8.064516129032258e-06,
+      "loss": 0.0198,
       "step": 1090
     },
     {
+      "epoch": 4.3095004897159646,
+      "grad_norm": 1.2217401266098022,
+      "learning_rate": 7.628596338273758e-06,
+      "loss": 0.0197,
       "step": 1100
     },
     {
+      "epoch": 4.348677766895201,
+      "grad_norm": 0.6681068539619446,
+      "learning_rate": 7.192676547515258e-06,
+      "loss": 0.0217,
       "step": 1110
     },
     {
+      "epoch": 4.387855044074437,
+      "grad_norm": 0.2516974210739136,
+      "learning_rate": 6.7567567567567575e-06,
+      "loss": 0.015,
       "step": 1120
     },
     {
+      "epoch": 4.427032321253673,
+      "grad_norm": 0.6431485414505005,
+      "learning_rate": 6.320836965998257e-06,
+      "loss": 0.0165,
       "step": 1130
     },
     {
+      "epoch": 4.466209598432909,
+      "grad_norm": 0.8847171664237976,
+      "learning_rate": 5.884917175239756e-06,
+      "loss": 0.0169,
       "step": 1140
     },
     {
+      "epoch": 4.505386875612145,
+      "grad_norm": 0.13626788556575775,
+      "learning_rate": 5.448997384481256e-06,
+      "loss": 0.0135,
       "step": 1150
     },
     {
+      "epoch": 4.544564152791381,
+      "grad_norm": 0.19009195268154144,
+      "learning_rate": 5.013077593722755e-06,
+      "loss": 0.0082,
       "step": 1160
     },
     {
+      "epoch": 4.583741429970617,
+      "grad_norm": 0.5194115042686462,
+      "learning_rate": 4.577157802964255e-06,
+      "loss": 0.0186,
       "step": 1170
     },
     {
+      "epoch": 4.622918707149853,
+      "grad_norm": 0.3963209092617035,
+      "learning_rate": 4.141238012205754e-06,
+      "loss": 0.0211,
       "step": 1180
     },
     {
+      "epoch": 4.662095984329089,
+      "grad_norm": 0.392490953207016,
+      "learning_rate": 3.7053182214472536e-06,
+      "loss": 0.0121,
       "step": 1190
     },
     {
+      "epoch": 4.701273261508325,
+      "grad_norm": 0.2609846293926239,
+      "learning_rate": 3.2693984306887534e-06,
+      "loss": 0.024,
       "step": 1200
     },
     {
+      "epoch": 4.740450538687561,
+      "grad_norm": 0.9114863872528076,
+      "learning_rate": 2.8334786399302533e-06,
+      "loss": 0.022,
       "step": 1210
     },
     {
+      "epoch": 4.779627815866798,
+      "grad_norm": 0.3400118947029114,
+      "learning_rate": 2.3975588491717523e-06,
+      "loss": 0.0139,
       "step": 1220
     },
     {
+      "epoch": 4.818805093046033,
+      "grad_norm": 0.8354482650756836,
+      "learning_rate": 1.961639058413252e-06,
+      "loss": 0.0168,
       "step": 1230
     },
     {
+      "epoch": 4.857982370225269,
+      "grad_norm": 0.4545687139034271,
+      "learning_rate": 1.5257192676547516e-06,
+      "loss": 0.0176,
       "step": 1240
     },
     {
+      "epoch": 4.897159647404505,
+      "grad_norm": 0.6158453226089478,
+      "learning_rate": 1.0897994768962512e-06,
+      "loss": 0.0169,
+      "step": 1250
+    },
+    {
+      "epoch": 4.936336924583742,
+      "grad_norm": 0.11892726272344589,
+      "learning_rate": 6.538796861377506e-07,
+      "loss": 0.0196,
+      "step": 1260
+    },
+    {
+      "epoch": 4.975514201762977,
+      "grad_norm": 0.5337911248207092,
+      "learning_rate": 2.179598953792502e-07,
+      "loss": 0.0112,
+      "step": 1270
+    },
+    {
+      "epoch": 4.995102840352596,
+      "eval_accuracy": 0.9943655071043606,
+      "eval_loss": 0.02594069205224514,
+      "eval_runtime": 104.7525,
+      "eval_samples_per_second": 155.872,
+      "eval_steps_per_second": 2.444,
+      "step": 1275
     },
     {
+      "epoch": 4.995102840352596,
+      "step": 1275,
+      "total_flos": 8.109813238393209e+18,
+      "train_loss": 0.030976083857171675,
+      "train_runtime": 4473.2861,
+      "train_samples_per_second": 73.002,
+      "train_steps_per_second": 0.285
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1275,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 8.109813238393209e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d198d97c8dad6592f41037d1dc6ee08e107c4ed3176ecb5883f0d1b69e853b4d
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c28f4f40287fbfa917bd2f4f97b7457f8e5f3e4b2a551453613ec650e854b4e
 size 5240