maintain safetensors only & newly trained

Browse files

Files changed (9) hide show

.gitattributes +1 -0
README.md +9 -13
all_results.json +10 -10
eval_results.json +6 -6
model.safetensors +1 -1
pytorch_model.bin +0 -3
train_results.json +5 -5
trainer_state.json +74 -176
training_args.bin +1 -1

.gitattributes CHANGED Viewed

@@ -35,3 +35,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 pytorch_model.bin filter=lfs diff=lfs merge=lfs -text

 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+model.safetensors filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [xlm-roberta-large](https://huggingface.co/xlm-roberta-large) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3162
-- F1: 0.8667
 ## Model description
@@ -43,22 +43,18 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 10
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | F1     |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
-| 0.2614        | 1.0   | 553  | 0.2190          | 0.8499 |
-| 0.2071        | 2.0   | 1106 | 0.2217          | 0.8516 |
-| 0.1836        | 3.0   | 1659 | 0.2060          | 0.8491 |
-| 0.1594        | 4.0   | 2212 | 0.2083          | 0.8638 |
-| 0.1482        | 5.0   | 2765 | 0.2350          | 0.8526 |
-| 0.1235        | 6.0   | 3318 | 0.2546          | 0.8484 |
-| 0.1171        | 7.0   | 3871 | 0.2522          | 0.8627 |
-| 0.1047        | 8.0   | 4424 | 0.2703          | 0.8665 |
-| 0.0955        | 9.0   | 4977 | 0.2934          | 0.8638 |
-| 0.0856        | 10.0  | 5530 | 0.3162          | 0.8667 |
 ### Framework versions

 This model is a fine-tuned version of [xlm-roberta-large](https://huggingface.co/xlm-roberta-large) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2236
+- F1: 0.8688
 ## Model description
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 6
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | F1     |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
+| 0.2618        | 1.0   | 553  | 0.2357          | 0.8314 |
+| 0.2025        | 2.0   | 1106 | 0.2209          | 0.8661 |
+| 0.186         | 3.0   | 1659 | 0.2075          | 0.8588 |
+| 0.162         | 4.0   | 2212 | 0.2234          | 0.8609 |
+| 0.1428        | 5.0   | 2765 | 0.2233          | 0.8700 |
+| 0.1328        | 6.0   | 3318 | 0.2236          | 0.8688 |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 10.0,
-    "eval_f1": 0.8667100977198697,
-    "eval_loss": 0.31616073846817017,
-    "eval_runtime": 1.2909,
     "eval_samples": 3933,
-    "eval_samples_per_second": 3046.625,
-    "eval_steps_per_second": 48.027,
-    "train_loss": 0.1538462488819419,
-    "train_runtime": 909.5125,
     "train_samples": 35391,
-    "train_samples_per_second": 389.121,
-    "train_steps_per_second": 6.08
 }

 {
+    "epoch": 6.0,
+    "eval_f1": 0.8688311688311688,
+    "eval_loss": 0.22363461554050446,
+    "eval_runtime": 3.1776,
     "eval_samples": 3933,
+    "eval_samples_per_second": 1237.713,
+    "eval_steps_per_second": 19.511,
+    "train_loss": 0.19685660219106277,
+    "train_runtime": 1032.5628,
     "train_samples": 35391,
+    "train_samples_per_second": 205.649,
+    "train_steps_per_second": 3.213
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 10.0,
-    "eval_f1": 0.8667100977198697,
-    "eval_loss": 0.31616073846817017,
-    "eval_runtime": 1.2909,
     "eval_samples": 3933,
-    "eval_samples_per_second": 3046.625,
-    "eval_steps_per_second": 48.027
 }

 {
+    "epoch": 6.0,
+    "eval_f1": 0.8688311688311688,
+    "eval_loss": 0.22363461554050446,
+    "eval_runtime": 3.1776,
     "eval_samples": 3933,
+    "eval_samples_per_second": 1237.713,
+    "eval_steps_per_second": 19.511
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:885f750f59b34386e45c71ff1fc725cf0e59e3872c10e4f9cb276743473ad47a
 size 2235428256

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c8f21c0040acb4a0e2ac14fb522d57a81d8c37ca559014d49e2d2e754c99391
 size 2235428256

pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:000d654375f4298dae5763995330cb6c89b1c30559d4fc0676844bfad3ac248f
-size 2235514665

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "train_loss": 0.1538462488819419,
-    "train_runtime": 909.5125,
     "train_samples": 35391,
-    "train_samples_per_second": 389.121,
-    "train_steps_per_second": 6.08
 }

 {
+    "epoch": 6.0,
+    "train_loss": 0.19685660219106277,
+    "train_runtime": 1032.5628,
     "train_samples": 35391,
+    "train_samples_per_second": 205.649,
+    "train_steps_per_second": 3.213
 }

trainer_state.json CHANGED Viewed

@@ -1,277 +1,175 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
-  "global_step": 5530,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.36,
-      "learning_rate": 9.64376130198915e-06,
-      "loss": 0.4215,
       "step": 200
     },
     {
       "epoch": 0.72,
-      "learning_rate": 9.282097649186258e-06,
-      "loss": 0.2614,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_f1": 0.8499488752556237,
-      "eval_loss": 0.2190244346857071,
-      "eval_runtime": 1.2446,
-      "eval_samples_per_second": 3159.939,
-      "eval_steps_per_second": 49.813,
       "step": 553
     },
     {
       "epoch": 1.08,
-      "learning_rate": 8.922242314647379e-06,
-      "loss": 0.2192,
       "step": 600
     },
     {
       "epoch": 1.45,
-      "learning_rate": 8.562386980108501e-06,
-      "loss": 0.2058,
       "step": 800
     },
     {
       "epoch": 1.81,
-      "learning_rate": 8.200723327305607e-06,
-      "loss": 0.2071,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_f1": 0.8515634971282705,
-      "eval_loss": 0.2217494249343872,
-      "eval_runtime": 1.2522,
-      "eval_samples_per_second": 3140.749,
-      "eval_steps_per_second": 49.511,
       "step": 1106
     },
     {
       "epoch": 2.17,
-      "learning_rate": 7.839059674502714e-06,
-      "loss": 0.1868,
       "step": 1200
     },
     {
       "epoch": 2.53,
-      "learning_rate": 7.47739602169982e-06,
-      "loss": 0.192,
       "step": 1400
     },
     {
       "epoch": 2.89,
-      "learning_rate": 7.115732368896926e-06,
-      "loss": 0.1836,
       "step": 1600
     },
     {
       "epoch": 3.0,
-      "eval_f1": 0.8491147036181679,
-      "eval_loss": 0.20601968467235565,
-      "eval_runtime": 1.2402,
-      "eval_samples_per_second": 3171.202,
-      "eval_steps_per_second": 49.991,
       "step": 1659
     },
     {
       "epoch": 3.25,
-      "learning_rate": 6.754068716094033e-06,
-      "loss": 0.159,
       "step": 1800
     },
     {
       "epoch": 3.62,
-      "learning_rate": 6.392405063291139e-06,
-      "loss": 0.162,
       "step": 2000
     },
     {
       "epoch": 3.98,
-      "learning_rate": 6.0307414104882465e-06,
-      "loss": 0.1594,
       "step": 2200
     },
     {
       "epoch": 4.0,
-      "eval_f1": 0.8638192911852525,
-      "eval_loss": 0.20834437012672424,
-      "eval_runtime": 1.2423,
-      "eval_samples_per_second": 3165.867,
-      "eval_steps_per_second": 49.907,
       "step": 2212
     },
     {
       "epoch": 4.34,
-      "learning_rate": 5.669077757685353e-06,
-      "loss": 0.1375,
       "step": 2400
     },
     {
       "epoch": 4.7,
-      "learning_rate": 5.30741410488246e-06,
-      "loss": 0.1482,
       "step": 2600
     },
     {
       "epoch": 5.0,
-      "eval_f1": 0.8526206538661131,
-      "eval_loss": 0.23504559695720673,
-      "eval_runtime": 1.2399,
-      "eval_samples_per_second": 3171.911,
-      "eval_steps_per_second": 50.002,
       "step": 2765
     },
     {
       "epoch": 5.06,
-      "learning_rate": 4.9457504520795664e-06,
-      "loss": 0.1414,
       "step": 2800
     },
     {
       "epoch": 5.42,
-      "learning_rate": 4.584086799276673e-06,
-      "loss": 0.1266,
       "step": 3000
     },
     {
       "epoch": 5.79,
-      "learning_rate": 4.22242314647378e-06,
-      "loss": 0.1235,
       "step": 3200
     },
     {
       "epoch": 6.0,
-      "eval_f1": 0.848414539829853,
-      "eval_loss": 0.254622220993042,
-      "eval_runtime": 1.2422,
-      "eval_samples_per_second": 3166.078,
-      "eval_steps_per_second": 49.91,
       "step": 3318
     },
     {
-      "epoch": 6.15,
-      "learning_rate": 3.860759493670886e-06,
-      "loss": 0.1236,
-      "step": 3400
-    },
-    {
-      "epoch": 6.51,
-      "learning_rate": 3.499095840867993e-06,
-      "loss": 0.1156,
-      "step": 3600
-    },
-    {
-      "epoch": 6.87,
-      "learning_rate": 3.1374321880650997e-06,
-      "loss": 0.1171,
-      "step": 3800
-    },
-    {
-      "epoch": 7.0,
-      "eval_f1": 0.8627246678822611,
-      "eval_loss": 0.25215205550193787,
-      "eval_runtime": 1.24,
-      "eval_samples_per_second": 3171.812,
-      "eval_steps_per_second": 50.001,
-      "step": 3871
-    },
-    {
-      "epoch": 7.23,
-      "learning_rate": 2.7757685352622067e-06,
-      "loss": 0.1142,
-      "step": 4000
-    },
-    {
-      "epoch": 7.59,
-      "learning_rate": 2.414104882459313e-06,
-      "loss": 0.1077,
-      "step": 4200
-    },
-    {
-      "epoch": 7.96,
-      "learning_rate": 2.0524412296564196e-06,
-      "loss": 0.1047,
-      "step": 4400
-    },
-    {
-      "epoch": 8.0,
-      "eval_f1": 0.8664757938573661,
-      "eval_loss": 0.2702699601650238,
-      "eval_runtime": 1.241,
-      "eval_samples_per_second": 3169.155,
-      "eval_steps_per_second": 49.959,
-      "step": 4424
-    },
-    {
-      "epoch": 8.32,
-      "learning_rate": 1.6907775768535265e-06,
-      "loss": 0.1065,
-      "step": 4600
-    },
-    {
-      "epoch": 8.68,
-      "learning_rate": 1.3291139240506329e-06,
-      "loss": 0.0955,
-      "step": 4800
-    },
-    {
-      "epoch": 9.0,
-      "eval_f1": 0.863843648208469,
-      "eval_loss": 0.29335275292396545,
-      "eval_runtime": 1.2406,
-      "eval_samples_per_second": 3170.163,
-      "eval_steps_per_second": 49.975,
-      "step": 4977
-    },
-    {
-      "epoch": 9.04,
-      "learning_rate": 9.674502712477397e-07,
-      "loss": 0.0943,
-      "step": 5000
-    },
-    {
-      "epoch": 9.4,
-      "learning_rate": 6.057866184448463e-07,
-      "loss": 0.0954,
-      "step": 5200
-    },
-    {
-      "epoch": 9.76,
-      "learning_rate": 2.44122965641953e-07,
-      "loss": 0.0856,
-      "step": 5400
-    },
-    {
-      "epoch": 10.0,
-      "eval_f1": 0.8667100977198697,
-      "eval_loss": 0.31616073846817017,
-      "eval_runtime": 1.2411,
-      "eval_samples_per_second": 3168.901,
-      "eval_steps_per_second": 49.955,
-      "step": 5530
-    },
-    {
-      "epoch": 10.0,
-      "step": 5530,
-      "total_flos": 2.167962002090455e+16,
-      "train_loss": 0.1538462488819419,
-      "train_runtime": 909.5125,
-      "train_samples_per_second": 389.121,
-      "train_steps_per_second": 6.08
     }
   ],
-  "max_steps": 5530,
-  "num_train_epochs": 10,
-  "total_flos": 2.167962002090455e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.0,
+  "global_step": 3318,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.36,
+      "learning_rate": 9.415310427968657e-06,
+      "loss": 0.5182,
       "step": 200
     },
     {
       "epoch": 0.72,
+      "learning_rate": 8.812537673297168e-06,
+      "loss": 0.2618,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_f1": 0.8314353647853836,
+      "eval_loss": 0.23568011820316315,
+      "eval_runtime": 3.3132,
+      "eval_samples_per_second": 1187.067,
+      "eval_steps_per_second": 18.713,
       "step": 553
     },
     {
       "epoch": 1.08,
+      "learning_rate": 8.212778782399036e-06,
+      "loss": 0.2304,
       "step": 600
     },
     {
       "epoch": 1.45,
+      "learning_rate": 7.613019891500905e-06,
+      "loss": 0.2153,
       "step": 800
     },
     {
       "epoch": 1.81,
+      "learning_rate": 7.010247136829416e-06,
+      "loss": 0.2025,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_f1": 0.8660783804827408,
+      "eval_loss": 0.22088249027729034,
+      "eval_runtime": 3.1453,
+      "eval_samples_per_second": 1250.451,
+      "eval_steps_per_second": 19.712,
       "step": 1106
     },
     {
       "epoch": 2.17,
+      "learning_rate": 6.407474382157926e-06,
+      "loss": 0.1936,
       "step": 1200
     },
     {
       "epoch": 2.53,
+      "learning_rate": 5.804701627486437e-06,
+      "loss": 0.179,
       "step": 1400
     },
     {
       "epoch": 2.89,
+      "learning_rate": 5.20192887281495e-06,
+      "loss": 0.186,
       "step": 1600
     },
     {
       "epoch": 3.0,
+      "eval_f1": 0.8587556125721616,
+      "eval_loss": 0.20751279592514038,
+      "eval_runtime": 3.1566,
+      "eval_samples_per_second": 1245.944,
+      "eval_steps_per_second": 19.641,
       "step": 1659
     },
     {
       "epoch": 3.25,
+      "learning_rate": 4.5991561181434605e-06,
+      "loss": 0.1695,
       "step": 1800
     },
     {
       "epoch": 3.62,
+      "learning_rate": 3.996383363471971e-06,
+      "loss": 0.1578,
       "step": 2000
     },
     {
       "epoch": 3.98,
+      "learning_rate": 3.393610608800483e-06,
+      "loss": 0.162,
       "step": 2200
     },
     {
       "epoch": 4.0,
+      "eval_f1": 0.8609391124871001,
+      "eval_loss": 0.22340959310531616,
+      "eval_runtime": 3.171,
+      "eval_samples_per_second": 1240.321,
+      "eval_steps_per_second": 19.552,
       "step": 2212
     },
     {
       "epoch": 4.34,
+      "learning_rate": 2.7908378541289937e-06,
+      "loss": 0.1512,
       "step": 2400
     },
     {
       "epoch": 4.7,
+      "learning_rate": 2.188065099457505e-06,
+      "loss": 0.1428,
       "step": 2600
     },
     {
       "epoch": 5.0,
+      "eval_f1": 0.8699831146902196,
+      "eval_loss": 0.2233397215604782,
+      "eval_runtime": 3.2963,
+      "eval_samples_per_second": 1193.162,
+      "eval_steps_per_second": 18.809,
       "step": 2765
     },
     {
       "epoch": 5.06,
+      "learning_rate": 1.5852923447860157e-06,
+      "loss": 0.148,
       "step": 2800
     },
     {
       "epoch": 5.42,
+      "learning_rate": 9.82519590114527e-07,
+      "loss": 0.1353,
       "step": 3000
     },
     {
       "epoch": 5.79,
+      "learning_rate": 3.79746835443038e-07,
+      "loss": 0.1328,
       "step": 3200
     },
     {
       "epoch": 6.0,
+      "eval_f1": 0.8688311688311688,
+      "eval_loss": 0.22363461554050446,
+      "eval_runtime": 3.2118,
+      "eval_samples_per_second": 1224.552,
+      "eval_steps_per_second": 19.304,
       "step": 3318
     },
     {
+      "epoch": 6.0,
+      "step": 3318,
+      "total_flos": 1.2966767506908096e+16,
+      "train_loss": 0.19685660219106277,
+      "train_runtime": 1032.5628,
+      "train_samples_per_second": 205.649,
+      "train_steps_per_second": 3.213
     }
   ],
+  "max_steps": 3318,
+  "num_train_epochs": 6,
+  "total_flos": 1.2966767506908096e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:323c4da4e0fda9b0292a8e4c447705e2384b4796bdac10410e0f4e6582573058
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:081fd3b588506f4bddd3baf10a7d8ef8494d111ef8adba3e7983c033d9d05446
 size 4027