peterbeamish
/

trained_model

@@ -18,10 +18,10 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/flan-t5-small](https://huggingface.co/google/flan-t5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.3339
-- Rouge1: 0.3861
-- Rouge2: 0.2867
-- Rougel: 0.3878
-- Rougelsum: 0.3898
 - Gen Len: 13.16
 ## Model description
@@ -53,9 +53,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
-| 1.9101        | 2.0   | 100  | 1.4032          | 0.3914 | 0.2858 | 0.3924 | 0.3934    | 12.7    |
-| 1.4264        | 4.0   | 200  | 1.3399          | 0.3805 | 0.287  | 0.382  | 0.3841    | 12.68   |
-| 1.3121        | 6.0   | 300  | 1.3339          | 0.3861 | 0.2867 | 0.3878 | 0.3898    | 13.16   |
 ### Framework versions

 This model is a fine-tuned version of [google/flan-t5-small](https://huggingface.co/google/flan-t5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.3339
+- Rouge1: 0.3878
+- Rouge2: 0.2902
+- Rougel: 0.3871
+- Rougelsum: 0.3871
 - Gen Len: 13.16
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
+| 1.9101        | 2.0   | 100  | 1.4032          | 0.3928 | 0.2897 | 0.3915 | 0.3911    | 12.7    |
+| 1.4264        | 4.0   | 200  | 1.3399          | 0.3826 | 0.2908 | 0.3808 | 0.3809    | 12.68   |
+| 1.3121        | 6.0   | 300  | 1.3339          | 0.3878 | 0.2902 | 0.3871 | 0.3871    | 13.16   |
 ### Framework versions

trainer_state.json CHANGED Viewed

@@ -18,13 +18,13 @@
       "epoch": 2.0,
       "eval_gen_len": 12.7,
       "eval_loss": 1.4032484292984009,
-      "eval_rouge1": 0.3914,
-      "eval_rouge2": 0.2858,
-      "eval_rougeL": 0.3924,
-      "eval_rougeLsum": 0.3934,
-      "eval_runtime": 14.4875,
-      "eval_samples_per_second": 6.903,
-      "eval_steps_per_second": 3.451,
       "step": 100
     },
     {
@@ -37,13 +37,13 @@
       "epoch": 4.0,
       "eval_gen_len": 12.68,
       "eval_loss": 1.3398905992507935,
-      "eval_rouge1": 0.3805,
-      "eval_rouge2": 0.287,
-      "eval_rougeL": 0.382,
-      "eval_rougeLsum": 0.3841,
-      "eval_runtime": 14.5729,
-      "eval_samples_per_second": 6.862,
-      "eval_steps_per_second": 3.431,
       "step": 200
     },
     {
@@ -56,13 +56,13 @@
       "epoch": 6.0,
       "eval_gen_len": 13.16,
       "eval_loss": 1.3339253664016724,
-      "eval_rouge1": 0.3861,
-      "eval_rouge2": 0.2867,
-      "eval_rougeL": 0.3878,
-      "eval_rougeLsum": 0.3898,
-      "eval_runtime": 15.3545,
-      "eval_samples_per_second": 6.513,
-      "eval_steps_per_second": 3.256,
       "step": 300
     },
     {
@@ -70,9 +70,9 @@
       "step": 300,
       "total_flos": 111534302822400.0,
       "train_loss": 1.5495406595865886,
-      "train_runtime": 74.9004,
-      "train_samples_per_second": 8.011,
-      "train_steps_per_second": 4.005
     }
   ],
   "logging_steps": 100,

       "epoch": 2.0,
       "eval_gen_len": 12.7,
       "eval_loss": 1.4032484292984009,
+      "eval_rouge1": 0.3928,
+      "eval_rouge2": 0.2897,
+      "eval_rougeL": 0.3915,
+      "eval_rougeLsum": 0.3911,
+      "eval_runtime": 14.5472,
+      "eval_samples_per_second": 6.874,
+      "eval_steps_per_second": 3.437,
       "step": 100
     },
     {
       "epoch": 4.0,
       "eval_gen_len": 12.68,
       "eval_loss": 1.3398905992507935,
+      "eval_rouge1": 0.3826,
+      "eval_rouge2": 0.2908,
+      "eval_rougeL": 0.3808,
+      "eval_rougeLsum": 0.3809,
+      "eval_runtime": 14.6388,
+      "eval_samples_per_second": 6.831,
+      "eval_steps_per_second": 3.416,
       "step": 200
     },
     {
       "epoch": 6.0,
       "eval_gen_len": 13.16,
       "eval_loss": 1.3339253664016724,
+      "eval_rouge1": 0.3878,
+      "eval_rouge2": 0.2902,
+      "eval_rougeL": 0.3871,
+      "eval_rougeLsum": 0.3871,
+      "eval_runtime": 15.4855,
+      "eval_samples_per_second": 6.458,
+      "eval_steps_per_second": 3.229,
       "step": 300
     },
     {
       "step": 300,
       "total_flos": 111534302822400.0,
       "train_loss": 1.5495406595865886,
+      "train_runtime": 75.3909,
+      "train_samples_per_second": 7.959,
+      "train_steps_per_second": 3.979
     }
   ],
   "logging_steps": 100,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9da472b08deaef8c8414c7727a31d6ee03fb06b4f3e229ea402bdd50ebbc5835
 size 4219

 version https://git-lfs.github.com/spec/v1
+oid sha256:47e37319b6c5f5fc1cf34c2c247f61d37f8f85bb95fcd70040aa535f8b9d85e4
 size 4219