End of training

Browse files

Files changed (11) hide show

README.md +153 -0
all_results.json +12 -0
config.json +60 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +22 -0
runs/Feb04_08-26-01_DESKTOP-SKBE9FB/events.out.tfevents.1738679162.DESKTOP-SKBE9FB.1684.0 +3 -0
runs/Feb04_08-26-01_DESKTOP-SKBE9FB/events.out.tfevents.1738680059.DESKTOP-SKBE9FB.1684.1 +3 -0
train_results.json +7 -0
trainer_state.json +1338 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,153 @@

+---
+license: apache-2.0
+base_model: microsoft/swinv2-tiny-patch4-window8-256
+tags:
+- generated_from_trainer
+datasets:
+- imagefolder
+metrics:
+- accuracy
+model-index:
+- name: Swin-DA2-final-AMD-Wet
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: imagefolder
+      type: imagefolder
+      config: default
+      split: validation
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.788235294117647
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# Swin-DA2-final-AMD-Wet
+This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6258
+- Accuracy: 0.7882
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 80
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 1.6093        | 0.95  | 13   | 1.6082          | 0.2118   |
+| 1.6076        | 1.96  | 27   | 1.5981          | 0.1765   |
+| 1.5847        | 2.98  | 41   | 1.5665          | 0.3059   |
+| 1.5563        | 4.0   | 55   | 1.5250          | 0.2588   |
+| 1.5127        | 4.95  | 68   | 1.3810          | 0.4353   |
+| 1.2694        | 5.96  | 82   | 1.1126          | 0.5647   |
+| 1.207         | 6.98  | 96   | 0.8636          | 0.7647   |
+| 1.0502        | 8.0   | 110  | 0.9073          | 0.6471   |
+| 0.9587        | 8.95  | 123  | 0.8657          | 0.6471   |
+| 0.9694        | 9.96  | 137  | 0.7357          | 0.7412   |
+| 0.8198        | 10.98 | 151  | 0.6258          | 0.7882   |
+| 0.7846        | 12.0  | 165  | 0.6916          | 0.7294   |
+| 0.7633        | 12.95 | 178  | 0.6798          | 0.6588   |
+| 0.6097        | 13.96 | 192  | 0.6048          | 0.7294   |
+| 0.5937        | 14.98 | 206  | 0.6778          | 0.7529   |
+| 0.5789        | 16.0  | 220  | 0.8130          | 0.6941   |
+| 0.5041        | 16.95 | 233  | 0.7081          | 0.7176   |
+| 0.5102        | 17.96 | 247  | 0.7835          | 0.7176   |
+| 0.4183        | 18.98 | 261  | 0.7358          | 0.7176   |
+| 0.4632        | 20.0  | 275  | 0.7227          | 0.7176   |
+| 0.3722        | 20.95 | 288  | 0.8009          | 0.7059   |
+| 0.3962        | 21.96 | 302  | 0.7978          | 0.7529   |
+| 0.3813        | 22.98 | 316  | 0.8392          | 0.7529   |
+| 0.3254        | 24.0  | 330  | 0.9322          | 0.6941   |
+| 0.3575        | 24.95 | 343  | 0.8846          | 0.7294   |
+| 0.3335        | 25.96 | 357  | 0.9651          | 0.7294   |
+| 0.3055        | 26.98 | 371  | 0.8926          | 0.7412   |
+| 0.2969        | 28.0  | 385  | 1.0529          | 0.6824   |
+| 0.3243        | 28.95 | 398  | 1.0659          | 0.7294   |
+| 0.3012        | 29.96 | 412  | 0.9155          | 0.7882   |
+| 0.2582        | 30.98 | 426  | 1.0367          | 0.7176   |
+| 0.2881        | 32.0  | 440  | 0.9626          | 0.7176   |
+| 0.2538        | 32.95 | 453  | 0.9636          | 0.7294   |
+| 0.2368        | 33.96 | 467  | 1.0624          | 0.7059   |
+| 0.299         | 34.98 | 481  | 0.9683          | 0.7412   |
+| 0.2553        | 36.0  | 495  | 0.9977          | 0.7176   |
+| 0.2325        | 36.95 | 508  | 0.9951          | 0.7176   |
+| 0.2363        | 37.96 | 522  | 1.1467          | 0.7176   |
+| 0.2424        | 38.98 | 536  | 1.1336          | 0.6941   |
+| 0.2096        | 40.0  | 550  | 1.0932          | 0.7294   |
+| 0.1978        | 40.95 | 563  | 1.1394          | 0.6941   |
+| 0.1746        | 41.96 | 577  | 1.0977          | 0.7529   |
+| 0.2248        | 42.98 | 591  | 1.1301          | 0.7529   |
+| 0.2484        | 44.0  | 605  | 1.2937          | 0.6941   |
+| 0.2012        | 44.95 | 618  | 1.2553          | 0.7176   |
+| 0.2347        | 45.96 | 632  | 1.1070          | 0.7412   |
+| 0.2061        | 46.98 | 646  | 1.2093          | 0.7059   |
+| 0.2057        | 48.0  | 660  | 1.1720          | 0.7294   |
+| 0.1808        | 48.95 | 673  | 1.3337          | 0.6941   |
+| 0.1872        | 49.96 | 687  | 1.3495          | 0.6824   |
+| 0.1584        | 50.98 | 701  | 1.3836          | 0.6941   |
+| 0.1237        | 52.0  | 715  | 1.3276          | 0.7176   |
+| 0.2186        | 52.95 | 728  | 1.3548          | 0.6824   |
+| 0.2053        | 53.96 | 742  | 1.3200          | 0.6941   |
+| 0.1618        | 54.98 | 756  | 1.2399          | 0.7059   |
+| 0.1568        | 56.0  | 770  | 1.3510          | 0.7059   |
+| 0.175         | 56.95 | 783  | 1.3852          | 0.7059   |
+| 0.15          | 57.96 | 797  | 1.3693          | 0.7176   |
+| 0.2088        | 58.98 | 811  | 1.4166          | 0.6824   |
+| 0.1635        | 60.0  | 825  | 1.2657          | 0.7059   |
+| 0.1681        | 60.95 | 838  | 1.3034          | 0.7176   |
+| 0.166         | 61.96 | 852  | 1.2800          | 0.7294   |
+| 0.1585        | 62.98 | 866  | 1.3041          | 0.7294   |
+| 0.152         | 64.0  | 880  | 1.4154          | 0.6824   |
+| 0.155         | 64.95 | 893  | 1.3989          | 0.6824   |
+| 0.1547        | 65.96 | 907  | 1.3432          | 0.7176   |
+| 0.1113        | 66.98 | 921  | 1.3281          | 0.7294   |
+| 0.159         | 68.0  | 935  | 1.3717          | 0.7294   |
+| 0.1149        | 68.95 | 948  | 1.3776          | 0.7294   |
+| 0.1478        | 69.96 | 962  | 1.3459          | 0.7294   |
+| 0.1675        | 70.98 | 976  | 1.3941          | 0.7294   |
+| 0.1476        | 72.0  | 990  | 1.4110          | 0.7059   |
+| 0.1515        | 72.95 | 1003 | 1.3704          | 0.7059   |
+| 0.1635        | 73.96 | 1017 | 1.3647          | 0.7176   |
+| 0.1445        | 74.98 | 1031 | 1.3673          | 0.7176   |
+| 0.1398        | 75.64 | 1040 | 1.3689          | 0.7176   |
+### Framework versions
+- Transformers 4.36.2
+- Pytorch 2.1.2+cu118
+- Datasets 2.16.1
+- Tokenizers 0.15.0

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 75.64,
+    "eval_accuracy": 0.788235294117647,
+    "eval_loss": 0.62584388256073,
+    "eval_runtime": 0.4111,
+    "eval_samples_per_second": 206.767,
+    "eval_steps_per_second": 14.595,
+    "train_loss": 0.41205361909591237,
+    "train_runtime": 895.6069,
+    "train_samples_per_second": 78.338,
+    "train_steps_per_second": 1.161
+}

config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "microsoft/swinv2-tiny-patch4-window8-256",
+  "architectures": [
+    "Swinv2ForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "depths": [
+    2,
+    2,
+    6,
+    2
+  ],
+  "drop_path_rate": 0.1,
+  "embed_dim": 96,
+  "encoder_stride": 32,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "avanzada",
+    "1": "avanzada humeda",
+    "2": "leve",
+    "3": "moderada",
+    "4": "no dmae"
+  },
+  "image_size": 256,
+  "initializer_range": 0.02,
+  "label2id": {
+    "avanzada": 0,
+    "avanzada humeda": 1,
+    "leve": 2,
+    "moderada": 3,
+    "no dmae": 4
+  },
+  "layer_norm_eps": 1e-05,
+  "mlp_ratio": 4.0,
+  "model_type": "swinv2",
+  "num_channels": 3,
+  "num_heads": [
+    3,
+    6,
+    12,
+    24
+  ],
+  "num_layers": 4,
+  "patch_size": 4,
+  "path_norm": true,
+  "pretrained_window_sizes": [
+    0,
+    0,
+    0,
+    0
+  ],
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2",
+  "use_absolute_embeddings": false,
+  "window_size": 8
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 75.64,
+    "eval_accuracy": 0.788235294117647,
+    "eval_loss": 0.62584388256073,
+    "eval_runtime": 0.4111,
+    "eval_samples_per_second": 206.767,
+    "eval_steps_per_second": 14.595
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80a3fa42743f4d37da768220e98dbfb5bfea11894170f72e61ca1190019d35c1
+size 110359372

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 256,
+    "width": 256
+  }
+}

runs/Feb04_08-26-01_DESKTOP-SKBE9FB/events.out.tfevents.1738679162.DESKTOP-SKBE9FB.1684.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e24ab7fea7132744eb4e1ae2e777591c7a906dbc70f6371f002b7e47ff9be3d0
+size 45974

runs/Feb04_08-26-01_DESKTOP-SKBE9FB/events.out.tfevents.1738680059.DESKTOP-SKBE9FB.1684.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f46936e26eaf6930e9b3c7c5282051a90bc7c726dfc90131b3853f542e9e9c1c
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 75.64,
+    "train_loss": 0.41205361909591237,
+    "train_runtime": 895.6069,
+    "train_samples_per_second": 78.338,
+    "train_steps_per_second": 1.161
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1338 @@

+{
+  "best_metric": 0.788235294117647,
+  "best_model_checkpoint": "/Modelos/Swin-DA2-final-AMD-Wet\\checkpoint-151",
+  "epoch": 75.63636363636364,
+  "eval_steps": 500,
+  "global_step": 1040,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.73,
+      "learning_rate": 4.807692307692308e-06,
+      "loss": 1.6093,
+      "step": 10
+    },
+    {
+      "epoch": 0.95,
+      "eval_accuracy": 0.21176470588235294,
+      "eval_loss": 1.6081717014312744,
+      "eval_runtime": 0.8052,
+      "eval_samples_per_second": 105.566,
+      "eval_steps_per_second": 7.452,
+      "step": 13
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 9.615384615384616e-06,
+      "loss": 1.6076,
+      "step": 20
+    },
+    {
+      "epoch": 1.96,
+      "eval_accuracy": 0.17647058823529413,
+      "eval_loss": 1.598115086555481,
+      "eval_runtime": 0.4141,
+      "eval_samples_per_second": 205.268,
+      "eval_steps_per_second": 14.489,
+      "step": 27
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 1.4423076923076923e-05,
+      "loss": 1.602,
+      "step": 30
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 1.5847,
+      "step": 40
+    },
+    {
+      "epoch": 2.98,
+      "eval_accuracy": 0.3058823529411765,
+      "eval_loss": 1.566546082496643,
+      "eval_runtime": 0.4121,
+      "eval_samples_per_second": 206.264,
+      "eval_steps_per_second": 14.56,
+      "step": 41
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 2.4038461538461542e-05,
+      "loss": 1.5563,
+      "step": 50
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.25882352941176473,
+      "eval_loss": 1.525040626525879,
+      "eval_runtime": 0.4171,
+      "eval_samples_per_second": 203.791,
+      "eval_steps_per_second": 14.385,
+      "step": 55
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 2.8846153846153845e-05,
+      "loss": 1.5127,
+      "step": 60
+    },
+    {
+      "epoch": 4.95,
+      "eval_accuracy": 0.43529411764705883,
+      "eval_loss": 1.3809895515441895,
+      "eval_runtime": 0.4181,
+      "eval_samples_per_second": 203.303,
+      "eval_steps_per_second": 14.351,
+      "step": 68
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 3.365384615384616e-05,
+      "loss": 1.4057,
+      "step": 70
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 1.2694,
+      "step": 80
+    },
+    {
+      "epoch": 5.96,
+      "eval_accuracy": 0.5647058823529412,
+      "eval_loss": 1.1125926971435547,
+      "eval_runtime": 0.4161,
+      "eval_samples_per_second": 204.281,
+      "eval_steps_per_second": 14.42,
+      "step": 82
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 4.326923076923077e-05,
+      "loss": 1.207,
+      "step": 90
+    },
+    {
+      "epoch": 6.98,
+      "eval_accuracy": 0.7647058823529411,
+      "eval_loss": 0.8636198043823242,
+      "eval_runtime": 0.4131,
+      "eval_samples_per_second": 205.765,
+      "eval_steps_per_second": 14.525,
+      "step": 96
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 4.8076923076923084e-05,
+      "loss": 1.0562,
+      "step": 100
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 4.9679487179487185e-05,
+      "loss": 1.0502,
+      "step": 110
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.6470588235294118,
+      "eval_loss": 0.9073464870452881,
+      "eval_runtime": 0.4161,
+      "eval_samples_per_second": 204.281,
+      "eval_steps_per_second": 14.42,
+      "step": 110
+    },
+    {
+      "epoch": 8.73,
+      "learning_rate": 4.9145299145299147e-05,
+      "loss": 0.9587,
+      "step": 120
+    },
+    {
+      "epoch": 8.95,
+      "eval_accuracy": 0.6470588235294118,
+      "eval_loss": 0.8657189011573792,
+      "eval_runtime": 0.4311,
+      "eval_samples_per_second": 197.171,
+      "eval_steps_per_second": 13.918,
+      "step": 123
+    },
+    {
+      "epoch": 9.45,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 0.9694,
+      "step": 130
+    },
+    {
+      "epoch": 9.96,
+      "eval_accuracy": 0.7411764705882353,
+      "eval_loss": 0.7357165217399597,
+      "eval_runtime": 0.4171,
+      "eval_samples_per_second": 203.791,
+      "eval_steps_per_second": 14.385,
+      "step": 137
+    },
+    {
+      "epoch": 10.18,
+      "learning_rate": 4.8076923076923084e-05,
+      "loss": 0.8916,
+      "step": 140
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 4.7542735042735045e-05,
+      "loss": 0.8198,
+      "step": 150
+    },
+    {
+      "epoch": 10.98,
+      "eval_accuracy": 0.788235294117647,
+      "eval_loss": 0.62584388256073,
+      "eval_runtime": 0.4151,
+      "eval_samples_per_second": 204.773,
+      "eval_steps_per_second": 14.455,
+      "step": 151
+    },
+    {
+      "epoch": 11.64,
+      "learning_rate": 4.700854700854701e-05,
+      "loss": 0.7846,
+      "step": 160
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 0.6916422247886658,
+      "eval_runtime": 0.4591,
+      "eval_samples_per_second": 185.143,
+      "eval_steps_per_second": 13.069,
+      "step": 165
+    },
+    {
+      "epoch": 12.36,
+      "learning_rate": 4.6474358974358976e-05,
+      "loss": 0.7633,
+      "step": 170
+    },
+    {
+      "epoch": 12.95,
+      "eval_accuracy": 0.6588235294117647,
+      "eval_loss": 0.6798376441001892,
+      "eval_runtime": 0.4411,
+      "eval_samples_per_second": 192.7,
+      "eval_steps_per_second": 13.602,
+      "step": 178
+    },
+    {
+      "epoch": 13.09,
+      "learning_rate": 4.594017094017094e-05,
+      "loss": 0.6697,
+      "step": 180
+    },
+    {
+      "epoch": 13.82,
+      "learning_rate": 4.5405982905982906e-05,
+      "loss": 0.6097,
+      "step": 190
+    },
+    {
+      "epoch": 13.96,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 0.6048377752304077,
+      "eval_runtime": 0.4151,
+      "eval_samples_per_second": 204.773,
+      "eval_steps_per_second": 14.455,
+      "step": 192
+    },
+    {
+      "epoch": 14.55,
+      "learning_rate": 4.4871794871794874e-05,
+      "loss": 0.5937,
+      "step": 200
+    },
+    {
+      "epoch": 14.98,
+      "eval_accuracy": 0.7529411764705882,
+      "eval_loss": 0.6778049468994141,
+      "eval_runtime": 0.4131,
+      "eval_samples_per_second": 205.765,
+      "eval_steps_per_second": 14.525,
+      "step": 206
+    },
+    {
+      "epoch": 15.27,
+      "learning_rate": 4.4337606837606836e-05,
+      "loss": 0.5214,
+      "step": 210
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 4.3803418803418805e-05,
+      "loss": 0.5789,
+      "step": 220
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.6941176470588235,
+      "eval_loss": 0.8130398988723755,
+      "eval_runtime": 0.4201,
+      "eval_samples_per_second": 202.336,
+      "eval_steps_per_second": 14.283,
+      "step": 220
+    },
+    {
+      "epoch": 16.73,
+      "learning_rate": 4.326923076923077e-05,
+      "loss": 0.5041,
+      "step": 230
+    },
+    {
+      "epoch": 16.95,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 0.7080594897270203,
+      "eval_runtime": 0.4181,
+      "eval_samples_per_second": 203.303,
+      "eval_steps_per_second": 14.351,
+      "step": 233
+    },
+    {
+      "epoch": 17.45,
+      "learning_rate": 4.2735042735042735e-05,
+      "loss": 0.5102,
+      "step": 240
+    },
+    {
+      "epoch": 17.96,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 0.7834978103637695,
+      "eval_runtime": 0.4211,
+      "eval_samples_per_second": 201.855,
+      "eval_steps_per_second": 14.249,
+      "step": 247
+    },
+    {
+      "epoch": 18.18,
+      "learning_rate": 4.2200854700854704e-05,
+      "loss": 0.4691,
+      "step": 250
+    },
+    {
+      "epoch": 18.91,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.4183,
+      "step": 260
+    },
+    {
+      "epoch": 18.98,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 0.7358449697494507,
+      "eval_runtime": 0.4141,
+      "eval_samples_per_second": 205.268,
+      "eval_steps_per_second": 14.489,
+      "step": 261
+    },
+    {
+      "epoch": 19.64,
+      "learning_rate": 4.1132478632478634e-05,
+      "loss": 0.4632,
+      "step": 270
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 0.7226832509040833,
+      "eval_runtime": 0.4531,
+      "eval_samples_per_second": 187.596,
+      "eval_steps_per_second": 13.242,
+      "step": 275
+    },
+    {
+      "epoch": 20.36,
+      "learning_rate": 4.05982905982906e-05,
+      "loss": 0.3722,
+      "step": 280
+    },
+    {
+      "epoch": 20.95,
+      "eval_accuracy": 0.7058823529411765,
+      "eval_loss": 0.8008852005004883,
+      "eval_runtime": 0.4181,
+      "eval_samples_per_second": 203.303,
+      "eval_steps_per_second": 14.351,
+      "step": 288
+    },
+    {
+      "epoch": 21.09,
+      "learning_rate": 4.006410256410257e-05,
+      "loss": 0.4272,
+      "step": 290
+    },
+    {
+      "epoch": 21.82,
+      "learning_rate": 3.952991452991453e-05,
+      "loss": 0.3962,
+      "step": 300
+    },
+    {
+      "epoch": 21.96,
+      "eval_accuracy": 0.7529411764705882,
+      "eval_loss": 0.7977811098098755,
+      "eval_runtime": 0.4411,
+      "eval_samples_per_second": 192.7,
+      "eval_steps_per_second": 13.602,
+      "step": 302
+    },
+    {
+      "epoch": 22.55,
+      "learning_rate": 3.89957264957265e-05,
+      "loss": 0.3813,
+      "step": 310
+    },
+    {
+      "epoch": 22.98,
+      "eval_accuracy": 0.7529411764705882,
+      "eval_loss": 0.8392243981361389,
+      "eval_runtime": 0.4171,
+      "eval_samples_per_second": 203.791,
+      "eval_steps_per_second": 14.385,
+      "step": 316
+    },
+    {
+      "epoch": 23.27,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 0.3852,
+      "step": 320
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 3.7927350427350425e-05,
+      "loss": 0.3254,
+      "step": 330
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.6941176470588235,
+      "eval_loss": 0.9321720600128174,
+      "eval_runtime": 0.4281,
+      "eval_samples_per_second": 198.553,
+      "eval_steps_per_second": 14.016,
+      "step": 330
+    },
+    {
+      "epoch": 24.73,
+      "learning_rate": 3.739316239316239e-05,
+      "loss": 0.3575,
+      "step": 340
+    },
+    {
+      "epoch": 24.95,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 0.8846125602722168,
+      "eval_runtime": 0.4341,
+      "eval_samples_per_second": 195.808,
+      "eval_steps_per_second": 13.822,
+      "step": 343
+    },
+    {
+      "epoch": 25.45,
+      "learning_rate": 3.685897435897436e-05,
+      "loss": 0.3335,
+      "step": 350
+    },
+    {
+      "epoch": 25.96,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 0.9651345014572144,
+      "eval_runtime": 0.7482,
+      "eval_samples_per_second": 113.611,
+      "eval_steps_per_second": 8.02,
+      "step": 357
+    },
+    {
+      "epoch": 26.18,
+      "learning_rate": 3.6324786324786323e-05,
+      "loss": 0.3756,
+      "step": 360
+    },
+    {
+      "epoch": 26.91,
+      "learning_rate": 3.579059829059829e-05,
+      "loss": 0.3055,
+      "step": 370
+    },
+    {
+      "epoch": 26.98,
+      "eval_accuracy": 0.7411764705882353,
+      "eval_loss": 0.8926057815551758,
+      "eval_runtime": 0.4221,
+      "eval_samples_per_second": 201.376,
+      "eval_steps_per_second": 14.215,
+      "step": 371
+    },
+    {
+      "epoch": 27.64,
+      "learning_rate": 3.525641025641026e-05,
+      "loss": 0.2969,
+      "step": 380
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.6823529411764706,
+      "eval_loss": 1.05293869972229,
+      "eval_runtime": 0.4271,
+      "eval_samples_per_second": 199.018,
+      "eval_steps_per_second": 14.048,
+      "step": 385
+    },
+    {
+      "epoch": 28.36,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 0.3243,
+      "step": 390
+    },
+    {
+      "epoch": 28.95,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 1.065946340560913,
+      "eval_runtime": 0.4271,
+      "eval_samples_per_second": 199.018,
+      "eval_steps_per_second": 14.048,
+      "step": 398
+    },
+    {
+      "epoch": 29.09,
+      "learning_rate": 3.418803418803419e-05,
+      "loss": 0.3214,
+      "step": 400
+    },
+    {
+      "epoch": 29.82,
+      "learning_rate": 3.365384615384616e-05,
+      "loss": 0.3012,
+      "step": 410
+    },
+    {
+      "epoch": 29.96,
+      "eval_accuracy": 0.788235294117647,
+      "eval_loss": 0.9155008792877197,
+      "eval_runtime": 0.4251,
+      "eval_samples_per_second": 199.955,
+      "eval_steps_per_second": 14.114,
+      "step": 412
+    },
+    {
+      "epoch": 30.55,
+      "learning_rate": 3.311965811965812e-05,
+      "loss": 0.2582,
+      "step": 420
+    },
+    {
+      "epoch": 30.98,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 1.0367075204849243,
+      "eval_runtime": 0.4241,
+      "eval_samples_per_second": 200.426,
+      "eval_steps_per_second": 14.148,
+      "step": 426
+    },
+    {
+      "epoch": 31.27,
+      "learning_rate": 3.258547008547009e-05,
+      "loss": 0.3075,
+      "step": 430
+    },
+    {
+      "epoch": 32.0,
+      "learning_rate": 3.205128205128206e-05,
+      "loss": 0.2881,
+      "step": 440
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 0.9625994563102722,
+      "eval_runtime": 0.4311,
+      "eval_samples_per_second": 197.171,
+      "eval_steps_per_second": 13.918,
+      "step": 440
+    },
+    {
+      "epoch": 32.73,
+      "learning_rate": 3.151709401709402e-05,
+      "loss": 0.2538,
+      "step": 450
+    },
+    {
+      "epoch": 32.95,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 0.9636082649230957,
+      "eval_runtime": 0.4271,
+      "eval_samples_per_second": 199.018,
+      "eval_steps_per_second": 14.048,
+      "step": 453
+    },
+    {
+      "epoch": 33.45,
+      "learning_rate": 3.098290598290599e-05,
+      "loss": 0.2368,
+      "step": 460
+    },
+    {
+      "epoch": 33.96,
+      "eval_accuracy": 0.7058823529411765,
+      "eval_loss": 1.0623918771743774,
+      "eval_runtime": 0.4231,
+      "eval_samples_per_second": 200.9,
+      "eval_steps_per_second": 14.181,
+      "step": 467
+    },
+    {
+      "epoch": 34.18,
+      "learning_rate": 3.0448717948717947e-05,
+      "loss": 0.2655,
+      "step": 470
+    },
+    {
+      "epoch": 34.91,
+      "learning_rate": 2.9914529914529915e-05,
+      "loss": 0.299,
+      "step": 480
+    },
+    {
+      "epoch": 34.98,
+      "eval_accuracy": 0.7411764705882353,
+      "eval_loss": 0.968308687210083,
+      "eval_runtime": 0.4381,
+      "eval_samples_per_second": 194.02,
+      "eval_steps_per_second": 13.696,
+      "step": 481
+    },
+    {
+      "epoch": 35.64,
+      "learning_rate": 2.9380341880341884e-05,
+      "loss": 0.2553,
+      "step": 490
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 0.9977430701255798,
+      "eval_runtime": 0.4541,
+      "eval_samples_per_second": 187.182,
+      "eval_steps_per_second": 13.213,
+      "step": 495
+    },
+    {
+      "epoch": 36.36,
+      "learning_rate": 2.8846153846153845e-05,
+      "loss": 0.2325,
+      "step": 500
+    },
+    {
+      "epoch": 36.95,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 0.9950642585754395,
+      "eval_runtime": 0.4741,
+      "eval_samples_per_second": 179.284,
+      "eval_steps_per_second": 12.655,
+      "step": 508
+    },
+    {
+      "epoch": 37.09,
+      "learning_rate": 2.8311965811965814e-05,
+      "loss": 0.1955,
+      "step": 510
+    },
+    {
+      "epoch": 37.82,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.2363,
+      "step": 520
+    },
+    {
+      "epoch": 37.96,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 1.1467396020889282,
+      "eval_runtime": 1.0832,
+      "eval_samples_per_second": 78.468,
+      "eval_steps_per_second": 5.539,
+      "step": 522
+    },
+    {
+      "epoch": 38.55,
+      "learning_rate": 2.724358974358974e-05,
+      "loss": 0.2424,
+      "step": 530
+    },
+    {
+      "epoch": 38.98,
+      "eval_accuracy": 0.6941176470588235,
+      "eval_loss": 1.133606195449829,
+      "eval_runtime": 1.6874,
+      "eval_samples_per_second": 50.374,
+      "eval_steps_per_second": 3.556,
+      "step": 536
+    },
+    {
+      "epoch": 39.27,
+      "learning_rate": 2.670940170940171e-05,
+      "loss": 0.2323,
+      "step": 540
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 2.6175213675213678e-05,
+      "loss": 0.2096,
+      "step": 550
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 1.0931720733642578,
+      "eval_runtime": 0.4311,
+      "eval_samples_per_second": 197.171,
+      "eval_steps_per_second": 13.918,
+      "step": 550
+    },
+    {
+      "epoch": 40.73,
+      "learning_rate": 2.564102564102564e-05,
+      "loss": 0.1978,
+      "step": 560
+    },
+    {
+      "epoch": 40.95,
+      "eval_accuracy": 0.6941176470588235,
+      "eval_loss": 1.139365792274475,
+      "eval_runtime": 0.4251,
+      "eval_samples_per_second": 199.955,
+      "eval_steps_per_second": 14.114,
+      "step": 563
+    },
+    {
+      "epoch": 41.45,
+      "learning_rate": 2.5106837606837608e-05,
+      "loss": 0.1746,
+      "step": 570
+    },
+    {
+      "epoch": 41.96,
+      "eval_accuracy": 0.7529411764705882,
+      "eval_loss": 1.0977457761764526,
+      "eval_runtime": 0.4151,
+      "eval_samples_per_second": 204.773,
+      "eval_steps_per_second": 14.455,
+      "step": 577
+    },
+    {
+      "epoch": 42.18,
+      "learning_rate": 2.4572649572649573e-05,
+      "loss": 0.1675,
+      "step": 580
+    },
+    {
+      "epoch": 42.91,
+      "learning_rate": 2.4038461538461542e-05,
+      "loss": 0.2248,
+      "step": 590
+    },
+    {
+      "epoch": 42.98,
+      "eval_accuracy": 0.7529411764705882,
+      "eval_loss": 1.1300934553146362,
+      "eval_runtime": 0.4191,
+      "eval_samples_per_second": 202.818,
+      "eval_steps_per_second": 14.317,
+      "step": 591
+    },
+    {
+      "epoch": 43.64,
+      "learning_rate": 2.3504273504273504e-05,
+      "loss": 0.2484,
+      "step": 600
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.6941176470588235,
+      "eval_loss": 1.2936742305755615,
+      "eval_runtime": 0.4331,
+      "eval_samples_per_second": 196.261,
+      "eval_steps_per_second": 13.854,
+      "step": 605
+    },
+    {
+      "epoch": 44.36,
+      "learning_rate": 2.297008547008547e-05,
+      "loss": 0.2012,
+      "step": 610
+    },
+    {
+      "epoch": 44.95,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 1.2552695274353027,
+      "eval_runtime": 0.4221,
+      "eval_samples_per_second": 201.376,
+      "eval_steps_per_second": 14.215,
+      "step": 618
+    },
+    {
+      "epoch": 45.09,
+      "learning_rate": 2.2435897435897437e-05,
+      "loss": 0.2492,
+      "step": 620
+    },
+    {
+      "epoch": 45.82,
+      "learning_rate": 2.1901709401709402e-05,
+      "loss": 0.2347,
+      "step": 630
+    },
+    {
+      "epoch": 45.96,
+      "eval_accuracy": 0.7411764705882353,
+      "eval_loss": 1.1069552898406982,
+      "eval_runtime": 0.4191,
+      "eval_samples_per_second": 202.818,
+      "eval_steps_per_second": 14.317,
+      "step": 632
+    },
+    {
+      "epoch": 46.55,
+      "learning_rate": 2.1367521367521368e-05,
+      "loss": 0.2061,
+      "step": 640
+    },
+    {
+      "epoch": 46.98,
+      "eval_accuracy": 0.7058823529411765,
+      "eval_loss": 1.2092617750167847,
+      "eval_runtime": 0.4241,
+      "eval_samples_per_second": 200.426,
+      "eval_steps_per_second": 14.148,
+      "step": 646
+    },
+    {
+      "epoch": 47.27,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.1832,
+      "step": 650
+    },
+    {
+      "epoch": 48.0,
+      "learning_rate": 2.02991452991453e-05,
+      "loss": 0.2057,
+      "step": 660
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 1.1720176935195923,
+      "eval_runtime": 0.4261,
+      "eval_samples_per_second": 199.486,
+      "eval_steps_per_second": 14.081,
+      "step": 660
+    },
+    {
+      "epoch": 48.73,
+      "learning_rate": 1.9764957264957266e-05,
+      "loss": 0.1808,
+      "step": 670
+    },
+    {
+      "epoch": 48.95,
+      "eval_accuracy": 0.6941176470588235,
+      "eval_loss": 1.3336892127990723,
+      "eval_runtime": 0.4211,
+      "eval_samples_per_second": 201.855,
+      "eval_steps_per_second": 14.249,
+      "step": 673
+    },
+    {
+      "epoch": 49.45,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 0.1872,
+      "step": 680
+    },
+    {
+      "epoch": 49.96,
+      "eval_accuracy": 0.6823529411764706,
+      "eval_loss": 1.3495038747787476,
+      "eval_runtime": 0.4221,
+      "eval_samples_per_second": 201.376,
+      "eval_steps_per_second": 14.215,
+      "step": 687
+    },
+    {
+      "epoch": 50.18,
+      "learning_rate": 1.8696581196581197e-05,
+      "loss": 0.1647,
+      "step": 690
+    },
+    {
+      "epoch": 50.91,
+      "learning_rate": 1.8162393162393162e-05,
+      "loss": 0.1584,
+      "step": 700
+    },
+    {
+      "epoch": 50.98,
+      "eval_accuracy": 0.6941176470588235,
+      "eval_loss": 1.3835796117782593,
+      "eval_runtime": 0.4181,
+      "eval_samples_per_second": 203.303,
+      "eval_steps_per_second": 14.351,
+      "step": 701
+    },
+    {
+      "epoch": 51.64,
+      "learning_rate": 1.762820512820513e-05,
+      "loss": 0.1237,
+      "step": 710
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 1.3275655508041382,
+      "eval_runtime": 0.4631,
+      "eval_samples_per_second": 183.544,
+      "eval_steps_per_second": 12.956,
+      "step": 715
+    },
+    {
+      "epoch": 52.36,
+      "learning_rate": 1.7094017094017095e-05,
+      "loss": 0.2186,
+      "step": 720
+    },
+    {
+      "epoch": 52.95,
+      "eval_accuracy": 0.6823529411764706,
+      "eval_loss": 1.3548001050949097,
+      "eval_runtime": 0.4231,
+      "eval_samples_per_second": 200.901,
+      "eval_steps_per_second": 14.181,
+      "step": 728
+    },
+    {
+      "epoch": 53.09,
+      "learning_rate": 1.655982905982906e-05,
+      "loss": 0.2106,
+      "step": 730
+    },
+    {
+      "epoch": 53.82,
+      "learning_rate": 1.602564102564103e-05,
+      "loss": 0.2053,
+      "step": 740
+    },
+    {
+      "epoch": 53.96,
+      "eval_accuracy": 0.6941176470588235,
+      "eval_loss": 1.320010781288147,
+      "eval_runtime": 0.4181,
+      "eval_samples_per_second": 203.303,
+      "eval_steps_per_second": 14.351,
+      "step": 742
+    },
+    {
+      "epoch": 54.55,
+      "learning_rate": 1.5491452991452994e-05,
+      "loss": 0.1618,
+      "step": 750
+    },
+    {
+      "epoch": 54.98,
+      "eval_accuracy": 0.7058823529411765,
+      "eval_loss": 1.2398937940597534,
+      "eval_runtime": 0.4191,
+      "eval_samples_per_second": 202.818,
+      "eval_steps_per_second": 14.317,
+      "step": 756
+    },
+    {
+      "epoch": 55.27,
+      "learning_rate": 1.4957264957264958e-05,
+      "loss": 0.1739,
+      "step": 760
+    },
+    {
+      "epoch": 56.0,
+      "learning_rate": 1.4423076923076923e-05,
+      "loss": 0.1568,
+      "step": 770
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.7058823529411765,
+      "eval_loss": 1.3509585857391357,
+      "eval_runtime": 0.4221,
+      "eval_samples_per_second": 201.377,
+      "eval_steps_per_second": 14.215,
+      "step": 770
+    },
+    {
+      "epoch": 56.73,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.175,
+      "step": 780
+    },
+    {
+      "epoch": 56.95,
+      "eval_accuracy": 0.7058823529411765,
+      "eval_loss": 1.385174036026001,
+      "eval_runtime": 0.4231,
+      "eval_samples_per_second": 200.901,
+      "eval_steps_per_second": 14.181,
+      "step": 783
+    },
+    {
+      "epoch": 57.45,
+      "learning_rate": 1.3354700854700855e-05,
+      "loss": 0.15,
+      "step": 790
+    },
+    {
+      "epoch": 57.96,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 1.369346261024475,
+      "eval_runtime": 0.4161,
+      "eval_samples_per_second": 204.281,
+      "eval_steps_per_second": 14.42,
+      "step": 797
+    },
+    {
+      "epoch": 58.18,
+      "learning_rate": 1.282051282051282e-05,
+      "loss": 0.1607,
+      "step": 800
+    },
+    {
+      "epoch": 58.91,
+      "learning_rate": 1.2286324786324787e-05,
+      "loss": 0.2088,
+      "step": 810
+    },
+    {
+      "epoch": 58.98,
+      "eval_accuracy": 0.6823529411764706,
+      "eval_loss": 1.4165531396865845,
+      "eval_runtime": 0.4171,
+      "eval_samples_per_second": 203.791,
+      "eval_steps_per_second": 14.385,
+      "step": 811
+    },
+    {
+      "epoch": 59.64,
+      "learning_rate": 1.1752136752136752e-05,
+      "loss": 0.1635,
+      "step": 820
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.7058823529411765,
+      "eval_loss": 1.2656704187393188,
+      "eval_runtime": 0.4231,
+      "eval_samples_per_second": 200.9,
+      "eval_steps_per_second": 14.181,
+      "step": 825
+    },
+    {
+      "epoch": 60.36,
+      "learning_rate": 1.1217948717948719e-05,
+      "loss": 0.1681,
+      "step": 830
+    },
+    {
+      "epoch": 60.95,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 1.3033798933029175,
+      "eval_runtime": 0.4341,
+      "eval_samples_per_second": 195.809,
+      "eval_steps_per_second": 13.822,
+      "step": 838
+    },
+    {
+      "epoch": 61.09,
+      "learning_rate": 1.0683760683760684e-05,
+      "loss": 0.1875,
+      "step": 840
+    },
+    {
+      "epoch": 61.82,
+      "learning_rate": 1.014957264957265e-05,
+      "loss": 0.166,
+      "step": 850
+    },
+    {
+      "epoch": 61.96,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 1.2799781560897827,
+      "eval_runtime": 0.4171,
+      "eval_samples_per_second": 203.791,
+      "eval_steps_per_second": 14.385,
+      "step": 852
+    },
+    {
+      "epoch": 62.55,
+      "learning_rate": 9.615384615384616e-06,
+      "loss": 0.1585,
+      "step": 860
+    },
+    {
+      "epoch": 62.98,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 1.3041337728500366,
+      "eval_runtime": 0.4201,
+      "eval_samples_per_second": 202.335,
+      "eval_steps_per_second": 14.283,
+      "step": 866
+    },
+    {
+      "epoch": 63.27,
+      "learning_rate": 9.081196581196581e-06,
+      "loss": 0.1498,
+      "step": 870
+    },
+    {
+      "epoch": 64.0,
+      "learning_rate": 8.547008547008548e-06,
+      "loss": 0.152,
+      "step": 880
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.6823529411764706,
+      "eval_loss": 1.415377140045166,
+      "eval_runtime": 0.4221,
+      "eval_samples_per_second": 201.377,
+      "eval_steps_per_second": 14.215,
+      "step": 880
+    },
+    {
+      "epoch": 64.73,
+      "learning_rate": 8.012820512820515e-06,
+      "loss": 0.155,
+      "step": 890
+    },
+    {
+      "epoch": 64.95,
+      "eval_accuracy": 0.6823529411764706,
+      "eval_loss": 1.3989214897155762,
+      "eval_runtime": 0.4201,
+      "eval_samples_per_second": 202.336,
+      "eval_steps_per_second": 14.283,
+      "step": 893
+    },
+    {
+      "epoch": 65.45,
+      "learning_rate": 7.478632478632479e-06,
+      "loss": 0.1547,
+      "step": 900
+    },
+    {
+      "epoch": 65.96,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 1.3432484865188599,
+      "eval_runtime": 0.4241,
+      "eval_samples_per_second": 200.426,
+      "eval_steps_per_second": 14.148,
+      "step": 907
+    },
+    {
+      "epoch": 66.18,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.1666,
+      "step": 910
+    },
+    {
+      "epoch": 66.91,
+      "learning_rate": 6.41025641025641e-06,
+      "loss": 0.1113,
+      "step": 920
+    },
+    {
+      "epoch": 66.98,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 1.3281364440917969,
+      "eval_runtime": 0.4191,
+      "eval_samples_per_second": 202.819,
+      "eval_steps_per_second": 14.317,
+      "step": 921
+    },
+    {
+      "epoch": 67.64,
+      "learning_rate": 5.876068376068376e-06,
+      "loss": 0.159,
+      "step": 930
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 1.3717232942581177,
+      "eval_runtime": 0.4141,
+      "eval_samples_per_second": 205.267,
+      "eval_steps_per_second": 14.489,
+      "step": 935
+    },
+    {
+      "epoch": 68.36,
+      "learning_rate": 5.341880341880342e-06,
+      "loss": 0.1149,
+      "step": 940
+    },
+    {
+      "epoch": 68.95,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 1.37764310836792,
+      "eval_runtime": 0.4141,
+      "eval_samples_per_second": 205.268,
+      "eval_steps_per_second": 14.489,
+      "step": 948
+    },
+    {
+      "epoch": 69.09,
+      "learning_rate": 4.807692307692308e-06,
+      "loss": 0.1622,
+      "step": 950
+    },
+    {
+      "epoch": 69.82,
+      "learning_rate": 4.273504273504274e-06,
+      "loss": 0.1478,
+      "step": 960
+    },
+    {
+      "epoch": 69.96,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 1.3459463119506836,
+      "eval_runtime": 0.4091,
+      "eval_samples_per_second": 207.777,
+      "eval_steps_per_second": 14.667,
+      "step": 962
+    },
+    {
+      "epoch": 70.55,
+      "learning_rate": 3.7393162393162394e-06,
+      "loss": 0.1675,
+      "step": 970
+    },
+    {
+      "epoch": 70.98,
+      "eval_accuracy": 0.7294117647058823,
+      "eval_loss": 1.3941361904144287,
+      "eval_runtime": 0.4201,
+      "eval_samples_per_second": 202.335,
+      "eval_steps_per_second": 14.282,
+      "step": 976
+    },
+    {
+      "epoch": 71.27,
+      "learning_rate": 3.205128205128205e-06,
+      "loss": 0.1617,
+      "step": 980
+    },
+    {
+      "epoch": 72.0,
+      "learning_rate": 2.670940170940171e-06,
+      "loss": 0.1476,
+      "step": 990
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.7058823529411765,
+      "eval_loss": 1.4110150337219238,
+      "eval_runtime": 0.4201,
+      "eval_samples_per_second": 202.335,
+      "eval_steps_per_second": 14.282,
+      "step": 990
+    },
+    {
+      "epoch": 72.73,
+      "learning_rate": 2.136752136752137e-06,
+      "loss": 0.1515,
+      "step": 1000
+    },
+    {
+      "epoch": 72.95,
+      "eval_accuracy": 0.7058823529411765,
+      "eval_loss": 1.370444893836975,
+      "eval_runtime": 0.4171,
+      "eval_samples_per_second": 203.791,
+      "eval_steps_per_second": 14.385,
+      "step": 1003
+    },
+    {
+      "epoch": 73.45,
+      "learning_rate": 1.6025641025641025e-06,
+      "loss": 0.1635,
+      "step": 1010
+    },
+    {
+      "epoch": 73.96,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 1.3646893501281738,
+      "eval_runtime": 0.4201,
+      "eval_samples_per_second": 202.335,
+      "eval_steps_per_second": 14.282,
+      "step": 1017
+    },
+    {
+      "epoch": 74.18,
+      "learning_rate": 1.0683760683760685e-06,
+      "loss": 0.1281,
+      "step": 1020
+    },
+    {
+      "epoch": 74.91,
+      "learning_rate": 5.341880341880342e-07,
+      "loss": 0.1445,
+      "step": 1030
+    },
+    {
+      "epoch": 74.98,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 1.3672693967819214,
+      "eval_runtime": 0.4071,
+      "eval_samples_per_second": 208.798,
+      "eval_steps_per_second": 14.739,
+      "step": 1031
+    },
+    {
+      "epoch": 75.64,
+      "learning_rate": 0.0,
+      "loss": 0.1398,
+      "step": 1040
+    },
+    {
+      "epoch": 75.64,
+      "eval_accuracy": 0.7176470588235294,
+      "eval_loss": 1.3689277172088623,
+      "eval_runtime": 0.4071,
+      "eval_samples_per_second": 208.798,
+      "eval_steps_per_second": 14.739,
+      "step": 1040
+    },
+    {
+      "epoch": 75.64,
+      "step": 1040,
+      "total_flos": 2.15834520885461e+18,
+      "train_loss": 0.41205361909591237,
+      "train_runtime": 895.6069,
+      "train_samples_per_second": 78.338,
+      "train_steps_per_second": 1.161
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1040,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 80,
+  "save_steps": 500,
+  "total_flos": 2.15834520885461e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eaaed6432f8abbc6dc4e038dd2ef0ea9f136ec698c8ffa2b08a649af4d60304e
+size 4728