End of training

Browse files

Files changed (11) hide show

README.md +114 -0
all_results.json +12 -0
config.json +77 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +28 -0
runs/Oct11_09-00-01_DESKTOP-SKBE9FB/events.out.tfevents.1728658803.DESKTOP-SKBE9FB.1940.0 +3 -0
runs/Oct11_09-00-01_DESKTOP-SKBE9FB/events.out.tfevents.1728659525.DESKTOP-SKBE9FB.1940.1 +3 -0
train_results.json +7 -0
trainer_state.json +483 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,114 @@

+---
+license: apache-2.0
+base_model: microsoft/beit-base-patch16-224
+tags:
+- generated_from_trainer
+datasets:
+- imagefolder
+metrics:
+- accuracy
+model-index:
+- name: beit-base-patch16-224-OT-2
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: imagefolder
+      type: imagefolder
+      config: default
+      split: train
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.8387096774193549
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# beit-base-patch16-224-OT-2
+This model is a fine-tuned version of [microsoft/beit-base-patch16-224](https://huggingface.co/microsoft/beit-base-patch16-224) on the imagefolder dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5047
+- Accuracy: 0.8387
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3.5e-05
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 40
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 0.91  | 5    | 1.8532          | 0.0806   |
+| 1.7494        | 2.0   | 11   | 1.7818          | 0.0806   |
+| 1.7494        | 2.91  | 16   | 1.6613          | 0.0806   |
+| 1.6235        | 4.0   | 22   | 1.4651          | 0.0806   |
+| 1.6235        | 4.91  | 27   | 1.3293          | 0.0806   |
+| 1.3836        | 6.0   | 33   | 1.2034          | 0.5161   |
+| 1.3836        | 6.91  | 38   | 1.1748          | 0.3710   |
+| 1.2192        | 8.0   | 44   | 1.0815          | 0.4677   |
+| 1.2192        | 8.91  | 49   | 1.0238          | 0.5      |
+| 1.093         | 10.0  | 55   | 1.0225          | 0.4516   |
+| 0.9938        | 10.91 | 60   | 0.9650          | 0.6452   |
+| 0.9938        | 12.0  | 66   | 0.9314          | 0.6935   |
+| 0.9235        | 12.91 | 71   | 0.9490          | 0.6452   |
+| 0.9235        | 14.0  | 77   | 0.8234          | 0.7258   |
+| 0.8258        | 14.91 | 82   | 0.8159          | 0.7258   |
+| 0.8258        | 16.0  | 88   | 0.7514          | 0.7419   |
+| 0.716         | 16.91 | 93   | 0.7469          | 0.7419   |
+| 0.716         | 18.0  | 99   | 0.6734          | 0.7903   |
+| 0.6026        | 18.91 | 104  | 0.6926          | 0.7581   |
+| 0.5725        | 20.0  | 110  | 0.7952          | 0.7258   |
+| 0.5725        | 20.91 | 115  | 0.6284          | 0.7742   |
+| 0.554         | 22.0  | 121  | 0.6317          | 0.7742   |
+| 0.554         | 22.91 | 126  | 0.6361          | 0.7419   |
+| 0.5162        | 24.0  | 132  | 0.5501          | 0.8226   |
+| 0.5162        | 24.91 | 137  | 0.6278          | 0.7581   |
+| 0.4768        | 26.0  | 143  | 0.5868          | 0.7903   |
+| 0.4768        | 26.91 | 148  | 0.5047          | 0.8387   |
+| 0.4488        | 28.0  | 154  | 0.5264          | 0.7903   |
+| 0.4488        | 28.91 | 159  | 0.4942          | 0.8387   |
+| 0.4281        | 30.0  | 165  | 0.5127          | 0.8387   |
+| 0.4126        | 30.91 | 170  | 0.5027          | 0.8387   |
+| 0.4126        | 32.0  | 176  | 0.5387          | 0.7742   |
+| 0.4326        | 32.91 | 181  | 0.5251          | 0.7903   |
+| 0.4326        | 34.0  | 187  | 0.5091          | 0.8065   |
+| 0.3765        | 34.91 | 192  | 0.5142          | 0.8065   |
+| 0.3765        | 36.0  | 198  | 0.5142          | 0.7903   |
+| 0.3913        | 36.36 | 200  | 0.5144          | 0.7903   |
+### Framework versions
+- Transformers 4.36.2
+- Pytorch 2.1.2+cu118
+- Datasets 2.16.1
+- Tokenizers 0.15.0

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 36.36,
+    "eval_accuracy": 0.8387096774193549,
+    "eval_loss": 0.5047271251678467,
+    "eval_runtime": 2.5816,
+    "eval_samples_per_second": 24.016,
+    "eval_steps_per_second": 1.549,
+    "train_loss": 0.786993111371994,
+    "train_runtime": 718.789,
+    "train_samples_per_second": 19.477,
+    "train_steps_per_second": 0.278
+}

config.json ADDED Viewed

	@@ -0,0 +1,77 @@

+{
+  "_name_or_path": "microsoft/beit-base-patch16-224",
+  "add_fpn": false,
+  "architectures": [
+    "BeitForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "auxiliary_channels": 256,
+  "auxiliary_concat_input": false,
+  "auxiliary_loss_weight": 0.4,
+  "auxiliary_num_convs": 1,
+  "drop_path_rate": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "active",
+    "1": "active-inactive",
+    "2": "healthy",
+    "3": "inactive"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "active": 0,
+    "active-inactive": 1,
+    "healthy": 2,
+    "inactive": 3
+  },
+  "layer_norm_eps": 1e-12,
+  "layer_scale_init_value": 0.1,
+  "model_type": "beit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "out_features": [
+    "stage12"
+  ],
+  "out_indices": [
+    12
+  ],
+  "patch_size": 16,
+  "pool_scales": [
+    1,
+    2,
+    3,
+    6
+  ],
+  "problem_type": "single_label_classification",
+  "reshape_hidden_states": true,
+  "semantic_loss_ignore_index": 255,
+  "stage_names": [
+    "stem",
+    "stage1",
+    "stage2",
+    "stage3",
+    "stage4",
+    "stage5",
+    "stage6",
+    "stage7",
+    "stage8",
+    "stage9",
+    "stage10",
+    "stage11",
+    "stage12"
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2",
+  "use_absolute_position_embeddings": false,
+  "use_auxiliary_head": true,
+  "use_mask_token": false,
+  "use_mean_pooling": true,
+  "use_relative_position_bias": true,
+  "use_shared_relative_position_bias": false,
+  "vocab_size": 8192
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 36.36,
+    "eval_accuracy": 0.8387096774193549,
+    "eval_loss": 0.5047271251678467,
+    "eval_runtime": 2.5816,
+    "eval_samples_per_second": 24.016,
+    "eval_steps_per_second": 1.549
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93dde8d21ab8ea2857b23b374bc6d37e993a6935173a9fdb1d0fd88d358c1479
+size 343086480

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "crop_size": {
+    "height": 224,
+    "width": 224
+  },
+  "do_center_crop": false,
+  "do_normalize": true,
+  "do_reduce_labels": false,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "BeitImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

runs/Oct11_09-00-01_DESKTOP-SKBE9FB/events.out.tfevents.1728658803.DESKTOP-SKBE9FB.1940.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a588f4a1e22228d8787c4c1cc1e531561b3cc30771d1f98c59d780049418a4cd
+size 20600

runs/Oct11_09-00-01_DESKTOP-SKBE9FB/events.out.tfevents.1728659525.DESKTOP-SKBE9FB.1940.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69a2bff249dba7a18d0930e95e4a83309621d3a82e52743fe3399615fcf573f3
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 36.36,
+    "train_loss": 0.786993111371994,
+    "train_runtime": 718.789,
+    "train_samples_per_second": 19.477,
+    "train_steps_per_second": 0.278
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,483 @@

+{
+  "best_metric": 0.8387096774193549,
+  "best_model_checkpoint": "beit-base-patch16-224-OT-2\\checkpoint-148",
+  "epoch": 36.36363636363637,
+  "eval_steps": 500,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.91,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 1.853175163269043,
+      "eval_runtime": 2.2425,
+      "eval_samples_per_second": 27.647,
+      "eval_steps_per_second": 1.784,
+      "step": 5
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 1.75e-05,
+      "loss": 1.7494,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 1.7818024158477783,
+      "eval_runtime": 2.2481,
+      "eval_samples_per_second": 27.579,
+      "eval_steps_per_second": 1.779,
+      "step": 11
+    },
+    {
+      "epoch": 2.91,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 1.6613073348999023,
+      "eval_runtime": 2.2572,
+      "eval_samples_per_second": 27.468,
+      "eval_steps_per_second": 1.772,
+      "step": 16
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 3.5e-05,
+      "loss": 1.6235,
+      "step": 20
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 1.4651364088058472,
+      "eval_runtime": 2.2621,
+      "eval_samples_per_second": 27.409,
+      "eval_steps_per_second": 1.768,
+      "step": 22
+    },
+    {
+      "epoch": 4.91,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 1.3293113708496094,
+      "eval_runtime": 2.221,
+      "eval_samples_per_second": 27.915,
+      "eval_steps_per_second": 1.801,
+      "step": 27
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 3.3055555555555553e-05,
+      "loss": 1.3836,
+      "step": 30
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5161290322580645,
+      "eval_loss": 1.2034481763839722,
+      "eval_runtime": 2.214,
+      "eval_samples_per_second": 28.003,
+      "eval_steps_per_second": 1.807,
+      "step": 33
+    },
+    {
+      "epoch": 6.91,
+      "eval_accuracy": 0.3709677419354839,
+      "eval_loss": 1.1748452186584473,
+      "eval_runtime": 2.2906,
+      "eval_samples_per_second": 27.068,
+      "eval_steps_per_second": 1.746,
+      "step": 38
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 3.111111111111111e-05,
+      "loss": 1.2192,
+      "step": 40
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.46774193548387094,
+      "eval_loss": 1.0814906358718872,
+      "eval_runtime": 2.3561,
+      "eval_samples_per_second": 26.315,
+      "eval_steps_per_second": 1.698,
+      "step": 44
+    },
+    {
+      "epoch": 8.91,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.0237908363342285,
+      "eval_runtime": 2.2371,
+      "eval_samples_per_second": 27.715,
+      "eval_steps_per_second": 1.788,
+      "step": 49
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 2.9166666666666666e-05,
+      "loss": 1.093,
+      "step": 50
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.0225210189819336,
+      "eval_runtime": 2.1705,
+      "eval_samples_per_second": 28.565,
+      "eval_steps_per_second": 1.843,
+      "step": 55
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 2.722222222222222e-05,
+      "loss": 0.9938,
+      "step": 60
+    },
+    {
+      "epoch": 10.91,
+      "eval_accuracy": 0.6451612903225806,
+      "eval_loss": 0.9649767279624939,
+      "eval_runtime": 2.178,
+      "eval_samples_per_second": 28.466,
+      "eval_steps_per_second": 1.837,
+      "step": 60
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.6935483870967742,
+      "eval_loss": 0.9313719868659973,
+      "eval_runtime": 2.2561,
+      "eval_samples_per_second": 27.482,
+      "eval_steps_per_second": 1.773,
+      "step": 66
+    },
+    {
+      "epoch": 12.73,
+      "learning_rate": 2.5277777777777776e-05,
+      "loss": 0.9235,
+      "step": 70
+    },
+    {
+      "epoch": 12.91,
+      "eval_accuracy": 0.6451612903225806,
+      "eval_loss": 0.9490375518798828,
+      "eval_runtime": 2.2295,
+      "eval_samples_per_second": 27.809,
+      "eval_steps_per_second": 1.794,
+      "step": 71
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.7258064516129032,
+      "eval_loss": 0.8233911395072937,
+      "eval_runtime": 2.1996,
+      "eval_samples_per_second": 28.187,
+      "eval_steps_per_second": 1.819,
+      "step": 77
+    },
+    {
+      "epoch": 14.55,
+      "learning_rate": 2.333333333333333e-05,
+      "loss": 0.8258,
+      "step": 80
+    },
+    {
+      "epoch": 14.91,
+      "eval_accuracy": 0.7258064516129032,
+      "eval_loss": 0.8159334659576416,
+      "eval_runtime": 2.2264,
+      "eval_samples_per_second": 27.848,
+      "eval_steps_per_second": 1.797,
+      "step": 82
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.7419354838709677,
+      "eval_loss": 0.7513789534568787,
+      "eval_runtime": 2.242,
+      "eval_samples_per_second": 27.653,
+      "eval_steps_per_second": 1.784,
+      "step": 88
+    },
+    {
+      "epoch": 16.36,
+      "learning_rate": 2.138888888888889e-05,
+      "loss": 0.716,
+      "step": 90
+    },
+    {
+      "epoch": 16.91,
+      "eval_accuracy": 0.7419354838709677,
+      "eval_loss": 0.7468788027763367,
+      "eval_runtime": 2.2824,
+      "eval_samples_per_second": 27.165,
+      "eval_steps_per_second": 1.753,
+      "step": 93
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.6733937859535217,
+      "eval_runtime": 2.2143,
+      "eval_samples_per_second": 28.0,
+      "eval_steps_per_second": 1.806,
+      "step": 99
+    },
+    {
+      "epoch": 18.18,
+      "learning_rate": 1.9444444444444442e-05,
+      "loss": 0.6026,
+      "step": 100
+    },
+    {
+      "epoch": 18.91,
+      "eval_accuracy": 0.7580645161290323,
+      "eval_loss": 0.6926217079162598,
+      "eval_runtime": 2.2096,
+      "eval_samples_per_second": 28.06,
+      "eval_steps_per_second": 1.81,
+      "step": 104
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 1.75e-05,
+      "loss": 0.5725,
+      "step": 110
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.7258064516129032,
+      "eval_loss": 0.7951985001564026,
+      "eval_runtime": 2.1841,
+      "eval_samples_per_second": 28.388,
+      "eval_steps_per_second": 1.831,
+      "step": 110
+    },
+    {
+      "epoch": 20.91,
+      "eval_accuracy": 0.7741935483870968,
+      "eval_loss": 0.6283877491950989,
+      "eval_runtime": 2.2365,
+      "eval_samples_per_second": 27.721,
+      "eval_steps_per_second": 1.788,
+      "step": 115
+    },
+    {
+      "epoch": 21.82,
+      "learning_rate": 1.5555555555555555e-05,
+      "loss": 0.554,
+      "step": 120
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.7741935483870968,
+      "eval_loss": 0.6316818594932556,
+      "eval_runtime": 2.1575,
+      "eval_samples_per_second": 28.737,
+      "eval_steps_per_second": 1.854,
+      "step": 121
+    },
+    {
+      "epoch": 22.91,
+      "eval_accuracy": 0.7419354838709677,
+      "eval_loss": 0.6361408233642578,
+      "eval_runtime": 2.2285,
+      "eval_samples_per_second": 27.821,
+      "eval_steps_per_second": 1.795,
+      "step": 126
+    },
+    {
+      "epoch": 23.64,
+      "learning_rate": 1.361111111111111e-05,
+      "loss": 0.5162,
+      "step": 130
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8225806451612904,
+      "eval_loss": 0.5500665903091431,
+      "eval_runtime": 2.2304,
+      "eval_samples_per_second": 27.798,
+      "eval_steps_per_second": 1.793,
+      "step": 132
+    },
+    {
+      "epoch": 24.91,
+      "eval_accuracy": 0.7580645161290323,
+      "eval_loss": 0.6277778744697571,
+      "eval_runtime": 2.2482,
+      "eval_samples_per_second": 27.577,
+      "eval_steps_per_second": 1.779,
+      "step": 137
+    },
+    {
+      "epoch": 25.45,
+      "learning_rate": 1.1666666666666665e-05,
+      "loss": 0.4768,
+      "step": 140
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.5867522358894348,
+      "eval_runtime": 2.211,
+      "eval_samples_per_second": 28.041,
+      "eval_steps_per_second": 1.809,
+      "step": 143
+    },
+    {
+      "epoch": 26.91,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5047271251678467,
+      "eval_runtime": 2.199,
+      "eval_samples_per_second": 28.194,
+      "eval_steps_per_second": 1.819,
+      "step": 148
+    },
+    {
+      "epoch": 27.27,
+      "learning_rate": 9.722222222222221e-06,
+      "loss": 0.4488,
+      "step": 150
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.5263858437538147,
+      "eval_runtime": 2.226,
+      "eval_samples_per_second": 27.852,
+      "eval_steps_per_second": 1.797,
+      "step": 154
+    },
+    {
+      "epoch": 28.91,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.49419379234313965,
+      "eval_runtime": 2.2036,
+      "eval_samples_per_second": 28.136,
+      "eval_steps_per_second": 1.815,
+      "step": 159
+    },
+    {
+      "epoch": 29.09,
+      "learning_rate": 7.777777777777777e-06,
+      "loss": 0.4281,
+      "step": 160
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5126697421073914,
+      "eval_runtime": 2.1663,
+      "eval_samples_per_second": 28.62,
+      "eval_steps_per_second": 1.846,
+      "step": 165
+    },
+    {
+      "epoch": 30.91,
+      "learning_rate": 5.833333333333332e-06,
+      "loss": 0.4126,
+      "step": 170
+    },
+    {
+      "epoch": 30.91,
+      "eval_accuracy": 0.8387096774193549,
+      "eval_loss": 0.5026701092720032,
+      "eval_runtime": 2.1795,
+      "eval_samples_per_second": 28.447,
+      "eval_steps_per_second": 1.835,
+      "step": 170
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.7741935483870968,
+      "eval_loss": 0.5387425422668457,
+      "eval_runtime": 2.5256,
+      "eval_samples_per_second": 24.549,
+      "eval_steps_per_second": 1.584,
+      "step": 176
+    },
+    {
+      "epoch": 32.73,
+      "learning_rate": 3.888888888888889e-06,
+      "loss": 0.4326,
+      "step": 180
+    },
+    {
+      "epoch": 32.91,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.5250905156135559,
+      "eval_runtime": 2.2035,
+      "eval_samples_per_second": 28.137,
+      "eval_steps_per_second": 1.815,
+      "step": 181
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.8064516129032258,
+      "eval_loss": 0.5091389417648315,
+      "eval_runtime": 2.3211,
+      "eval_samples_per_second": 26.712,
+      "eval_steps_per_second": 1.723,
+      "step": 187
+    },
+    {
+      "epoch": 34.55,
+      "learning_rate": 1.9444444444444444e-06,
+      "loss": 0.3765,
+      "step": 190
+    },
+    {
+      "epoch": 34.91,
+      "eval_accuracy": 0.8064516129032258,
+      "eval_loss": 0.5141739845275879,
+      "eval_runtime": 2.2025,
+      "eval_samples_per_second": 28.15,
+      "eval_steps_per_second": 1.816,
+      "step": 192
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.514202356338501,
+      "eval_runtime": 2.1798,
+      "eval_samples_per_second": 28.443,
+      "eval_steps_per_second": 1.835,
+      "step": 198
+    },
+    {
+      "epoch": 36.36,
+      "learning_rate": 0.0,
+      "loss": 0.3913,
+      "step": 200
+    },
+    {
+      "epoch": 36.36,
+      "eval_accuracy": 0.7903225806451613,
+      "eval_loss": 0.5144444108009338,
+      "eval_runtime": 2.196,
+      "eval_samples_per_second": 28.233,
+      "eval_steps_per_second": 1.821,
+      "step": 200
+    },
+    {
+      "epoch": 36.36,
+      "step": 200,
+      "total_flos": 9.859141601338982e+17,
+      "train_loss": 0.786993111371994,
+      "train_runtime": 718.789,
+      "train_samples_per_second": 19.477,
+      "train_steps_per_second": 0.278
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 500,
+  "total_flos": 9.859141601338982e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36e96da6446cba44d6ae08cb924e141f94e6c3bff23eb872eca89a73e9a155de
+size 4728