End of training

Browse files

Files changed (5) hide show

README.md +14 -2
all_results.json +14 -14
eval_results.json +10 -10
train_results.json +5 -5
trainer_state.json +421 -13

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: apache-2.0
 base_model: google-t5/t5-base
 tags:
 - generated_from_trainer
 metrics:
 - rouge
 model-index:
 - name: pep_summarization
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,7 +27,7 @@ should probably proofread and complete it, then remove this comment. -->
 # pep_summarization
-This model is a fine-tuned version of [google-t5/t5-base](https://huggingface.co/google-t5/t5-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0564
 - Rouge1: 89.1468

 base_model: google-t5/t5-base
 tags:
 - generated_from_trainer
+datasets:
+- fedora-copr/pep-sum
 metrics:
 - rouge
 model-index:
 - name: pep_summarization
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    dataset:
+      name: fedora-copr/pep-sum
+      type: fedora-copr/pep-sum
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 89.1468
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # pep_summarization
+This model is a fine-tuned version of [google-t5/t5-base](https://huggingface.co/google-t5/t5-base) on the fedora-copr/pep-sum dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0564
 - Rouge1: 89.1468

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
-    "epoch": 10.0,
-    "eval_gen_len": 67.85507246376811,
-    "eval_loss": 0.03478159010410309,
-    "eval_rouge1": 87.9903,
-    "eval_rouge2": 87.5298,
-    "eval_rougeL": 88.0594,
-    "eval_rougeLsum": 87.9148,
-    "eval_runtime": 11.488,
     "eval_samples": 69,
-    "eval_samples_per_second": 6.006,
-    "eval_steps_per_second": 1.567,
-    "train_loss": 0.04075576412504998,
-    "train_runtime": 147.9128,
     "train_samples": 276,
-    "train_samples_per_second": 18.66,
-    "train_steps_per_second": 4.665
 }

 {
+    "epoch": 30.0,
+    "eval_gen_len": 63.72463768115942,
+    "eval_loss": 0.05641184747219086,
+    "eval_rouge1": 89.1468,
+    "eval_rouge2": 88.6354,
+    "eval_rougeL": 89.0016,
+    "eval_rougeLsum": 89.0138,
+    "eval_runtime": 9.8718,
     "eval_samples": 69,
+    "eval_samples_per_second": 6.99,
+    "eval_steps_per_second": 1.823,
+    "train_loss": 0.0141942559161048,
+    "train_runtime": 754.2364,
     "train_samples": 276,
+    "train_samples_per_second": 10.978,
+    "train_steps_per_second": 2.744
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 10.0,
-    "eval_gen_len": 67.85507246376811,
-    "eval_loss": 0.03478159010410309,
-    "eval_rouge1": 87.9903,
-    "eval_rouge2": 87.5298,
-    "eval_rougeL": 88.0594,
-    "eval_rougeLsum": 87.9148,
-    "eval_runtime": 11.488,
     "eval_samples": 69,
-    "eval_samples_per_second": 6.006,
-    "eval_steps_per_second": 1.567
 }

 {
+    "epoch": 30.0,
+    "eval_gen_len": 63.72463768115942,
+    "eval_loss": 0.05641184747219086,
+    "eval_rouge1": 89.1468,
+    "eval_rouge2": 88.6354,
+    "eval_rougeL": 89.0016,
+    "eval_rougeLsum": 89.0138,
+    "eval_runtime": 9.8718,
     "eval_samples": 69,
+    "eval_samples_per_second": 6.99,
+    "eval_steps_per_second": 1.823
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "train_loss": 0.04075576412504998,
-    "train_runtime": 147.9128,
     "train_samples": 276,
-    "train_samples_per_second": 18.66,
-    "train_steps_per_second": 4.665
 }

 {
+    "epoch": 30.0,
+    "train_loss": 0.0141942559161048,
+    "train_runtime": 754.2364,
     "train_samples": 276,
+    "train_samples_per_second": 10.978,
+    "train_steps_per_second": 2.744
 }

trainer_state.json CHANGED Viewed

@@ -1,35 +1,443 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 690,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 7.25,
-      "learning_rate": 1.3768115942028985e-05,
-      "loss": 0.0529,
       "step": 500
     },
     {
       "epoch": 10.0,
-      "step": 690,
-      "total_flos": 3359758649241600.0,
-      "train_loss": 0.04075576412504998,
-      "train_runtime": 147.9128,
-      "train_samples_per_second": 18.66,
-      "train_steps_per_second": 4.665
     }
   ],
   "logging_steps": 500,
-  "max_steps": 690,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 3359758649241600.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 30.0,
   "eval_steps": 500,
+  "global_step": 2070,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_gen_len": 74.18840579710145,
+      "eval_loss": 0.04634086787700653,
+      "eval_rouge1": 84.7175,
+      "eval_rouge2": 84.1187,
+      "eval_rougeL": 84.7778,
+      "eval_rougeLsum": 84.4607,
+      "eval_runtime": 11.3083,
+      "eval_samples_per_second": 6.102,
+      "eval_steps_per_second": 1.592,
+      "step": 69
+    },
+    {
+      "epoch": 2.0,
+      "eval_gen_len": 70.0,
+      "eval_loss": 0.03123296983540058,
+      "eval_rouge1": 87.2197,
+      "eval_rouge2": 86.9176,
+      "eval_rougeL": 87.1927,
+      "eval_rougeLsum": 87.1243,
+      "eval_runtime": 10.965,
+      "eval_samples_per_second": 6.293,
+      "eval_steps_per_second": 1.642,
+      "step": 138
+    },
+    {
+      "epoch": 3.0,
+      "eval_gen_len": 68.05797101449275,
+      "eval_loss": 0.03574327379465103,
+      "eval_rouge1": 87.3839,
+      "eval_rouge2": 87.2143,
+      "eval_rougeL": 87.4316,
+      "eval_rougeLsum": 87.3834,
+      "eval_runtime": 10.4263,
+      "eval_samples_per_second": 6.618,
+      "eval_steps_per_second": 1.726,
+      "step": 207
+    },
+    {
+      "epoch": 4.0,
+      "eval_gen_len": 68.05797101449275,
+      "eval_loss": 0.03339318931102753,
+      "eval_rouge1": 87.8426,
+      "eval_rouge2": 87.5124,
+      "eval_rougeL": 87.8504,
+      "eval_rougeLsum": 87.7767,
+      "eval_runtime": 10.962,
+      "eval_samples_per_second": 6.294,
+      "eval_steps_per_second": 1.642,
+      "step": 276
+    },
+    {
+      "epoch": 5.0,
+      "eval_gen_len": 65.85507246376811,
+      "eval_loss": 0.03297444432973862,
+      "eval_rouge1": 89.2541,
+      "eval_rouge2": 88.8329,
+      "eval_rougeL": 89.2476,
+      "eval_rougeLsum": 89.1951,
+      "eval_runtime": 10.415,
+      "eval_samples_per_second": 6.625,
+      "eval_steps_per_second": 1.728,
+      "step": 345
+    },
+    {
+      "epoch": 6.0,
+      "eval_gen_len": 67.95652173913044,
+      "eval_loss": 0.03524705395102501,
+      "eval_rouge1": 89.8437,
+      "eval_rouge2": 89.6094,
+      "eval_rougeL": 90.0088,
+      "eval_rougeLsum": 89.8354,
+      "eval_runtime": 10.7899,
+      "eval_samples_per_second": 6.395,
+      "eval_steps_per_second": 1.668,
+      "step": 414
+    },
+    {
+      "epoch": 7.0,
+      "eval_gen_len": 68.8840579710145,
+      "eval_loss": 0.0350663997232914,
+      "eval_rouge1": 87.6113,
+      "eval_rouge2": 87.1275,
+      "eval_rougeL": 87.5987,
+      "eval_rougeLsum": 87.4656,
+      "eval_runtime": 10.7938,
+      "eval_samples_per_second": 6.393,
+      "eval_steps_per_second": 1.668,
+      "step": 483
+    },
     {
       "epoch": 7.25,
+      "learning_rate": 3.7922705314009665e-05,
+      "loss": 0.0508,
       "step": 500
     },
+    {
+      "epoch": 8.0,
+      "eval_gen_len": 64.92753623188406,
+      "eval_loss": 0.034591469913721085,
+      "eval_rouge1": 90.0332,
+      "eval_rouge2": 89.523,
+      "eval_rougeL": 89.93,
+      "eval_rougeLsum": 89.9648,
+      "eval_runtime": 10.6322,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 1.693,
+      "step": 552
+    },
+    {
+      "epoch": 9.0,
+      "eval_gen_len": 60.21739130434783,
+      "eval_loss": 0.03408576548099518,
+      "eval_rouge1": 90.2056,
+      "eval_rouge2": 89.7318,
+      "eval_rougeL": 90.0764,
+      "eval_rougeLsum": 90.1856,
+      "eval_runtime": 10.1861,
+      "eval_samples_per_second": 6.774,
+      "eval_steps_per_second": 1.767,
+      "step": 621
+    },
     {
       "epoch": 10.0,
+      "eval_gen_len": 62.492753623188406,
+      "eval_loss": 0.04049117490649223,
+      "eval_rouge1": 90.2441,
+      "eval_rouge2": 89.7403,
+      "eval_rougeL": 90.1241,
+      "eval_rougeLsum": 90.1975,
+      "eval_runtime": 10.0613,
+      "eval_samples_per_second": 6.858,
+      "eval_steps_per_second": 1.789,
+      "step": 690
+    },
+    {
+      "epoch": 11.0,
+      "eval_gen_len": 62.6231884057971,
+      "eval_loss": 0.0422113761305809,
+      "eval_rouge1": 89.9563,
+      "eval_rouge2": 89.3932,
+      "eval_rougeL": 89.8517,
+      "eval_rougeLsum": 89.919,
+      "eval_runtime": 10.2103,
+      "eval_samples_per_second": 6.758,
+      "eval_steps_per_second": 1.763,
+      "step": 759
+    },
+    {
+      "epoch": 12.0,
+      "eval_gen_len": 64.55072463768116,
+      "eval_loss": 0.04623664915561676,
+      "eval_rouge1": 88.9553,
+      "eval_rouge2": 88.5149,
+      "eval_rougeL": 88.8596,
+      "eval_rougeLsum": 88.8863,
+      "eval_runtime": 10.0663,
+      "eval_samples_per_second": 6.855,
+      "eval_steps_per_second": 1.788,
+      "step": 828
+    },
+    {
+      "epoch": 13.0,
+      "eval_gen_len": 68.6086956521739,
+      "eval_loss": 0.04621581733226776,
+      "eval_rouge1": 88.3505,
+      "eval_rouge2": 87.8014,
+      "eval_rougeL": 88.2999,
+      "eval_rougeLsum": 88.1348,
+      "eval_runtime": 10.8311,
+      "eval_samples_per_second": 6.371,
+      "eval_steps_per_second": 1.662,
+      "step": 897
+    },
+    {
+      "epoch": 14.0,
+      "eval_gen_len": 63.79710144927536,
+      "eval_loss": 0.04529334604740143,
+      "eval_rouge1": 89.2841,
+      "eval_rouge2": 88.7915,
+      "eval_rougeL": 89.0835,
+      "eval_rougeLsum": 89.1838,
+      "eval_runtime": 10.3712,
+      "eval_samples_per_second": 6.653,
+      "eval_steps_per_second": 1.736,
+      "step": 966
+    },
+    {
+      "epoch": 14.49,
+      "learning_rate": 2.5845410628019323e-05,
+      "loss": 0.0047,
+      "step": 1000
+    },
+    {
+      "epoch": 15.0,
+      "eval_gen_len": 65.43478260869566,
+      "eval_loss": 0.0474562793970108,
+      "eval_rouge1": 89.207,
+      "eval_rouge2": 88.8346,
+      "eval_rougeL": 89.1459,
+      "eval_rougeLsum": 89.1182,
+      "eval_runtime": 10.3999,
+      "eval_samples_per_second": 6.635,
+      "eval_steps_per_second": 1.731,
+      "step": 1035
+    },
+    {
+      "epoch": 16.0,
+      "eval_gen_len": 65.92753623188406,
+      "eval_loss": 0.052605073899030685,
+      "eval_rouge1": 89.7978,
+      "eval_rouge2": 89.3703,
+      "eval_rougeL": 89.7601,
+      "eval_rougeLsum": 89.7866,
+      "eval_runtime": 10.9419,
+      "eval_samples_per_second": 6.306,
+      "eval_steps_per_second": 1.645,
+      "step": 1104
+    },
+    {
+      "epoch": 17.0,
+      "eval_gen_len": 66.40579710144928,
+      "eval_loss": 0.051739003509283066,
+      "eval_rouge1": 88.0891,
+      "eval_rouge2": 87.7321,
+      "eval_rougeL": 88.1064,
+      "eval_rougeLsum": 88.0137,
+      "eval_runtime": 10.4936,
+      "eval_samples_per_second": 6.575,
+      "eval_steps_per_second": 1.715,
+      "step": 1173
+    },
+    {
+      "epoch": 18.0,
+      "eval_gen_len": 62.10144927536232,
+      "eval_loss": 0.05028064176440239,
+      "eval_rouge1": 90.3002,
+      "eval_rouge2": 89.7609,
+      "eval_rougeL": 90.1585,
+      "eval_rougeLsum": 90.218,
+      "eval_runtime": 10.1757,
+      "eval_samples_per_second": 6.781,
+      "eval_steps_per_second": 1.769,
+      "step": 1242
+    },
+    {
+      "epoch": 19.0,
+      "eval_gen_len": 65.69565217391305,
+      "eval_loss": 0.05453991889953613,
+      "eval_rouge1": 88.9807,
+      "eval_rouge2": 88.5391,
+      "eval_rougeL": 88.8142,
+      "eval_rougeLsum": 88.8417,
+      "eval_runtime": 10.5092,
+      "eval_samples_per_second": 6.566,
+      "eval_steps_per_second": 1.713,
+      "step": 1311
+    },
+    {
+      "epoch": 20.0,
+      "eval_gen_len": 65.17391304347827,
+      "eval_loss": 0.05472288280725479,
+      "eval_rouge1": 89.2547,
+      "eval_rouge2": 88.8381,
+      "eval_rougeL": 89.1517,
+      "eval_rougeLsum": 89.158,
+      "eval_runtime": 10.261,
+      "eval_samples_per_second": 6.725,
+      "eval_steps_per_second": 1.754,
+      "step": 1380
+    },
+    {
+      "epoch": 21.0,
+      "eval_gen_len": 66.08695652173913,
+      "eval_loss": 0.055956244468688965,
+      "eval_rouge1": 88.2792,
+      "eval_rouge2": 87.9155,
+      "eval_rougeL": 88.2849,
+      "eval_rougeLsum": 88.1559,
+      "eval_runtime": 10.3755,
+      "eval_samples_per_second": 6.65,
+      "eval_steps_per_second": 1.735,
+      "step": 1449
+    },
+    {
+      "epoch": 21.74,
+      "learning_rate": 1.3768115942028985e-05,
+      "loss": 0.0019,
+      "step": 1500
+    },
+    {
+      "epoch": 22.0,
+      "eval_gen_len": 66.40579710144928,
+      "eval_loss": 0.057451289147138596,
+      "eval_rouge1": 88.0891,
+      "eval_rouge2": 87.7321,
+      "eval_rougeL": 88.1064,
+      "eval_rougeLsum": 88.0137,
+      "eval_runtime": 10.8006,
+      "eval_samples_per_second": 6.389,
+      "eval_steps_per_second": 1.667,
+      "step": 1518
+    },
+    {
+      "epoch": 23.0,
+      "eval_gen_len": 66.04347826086956,
+      "eval_loss": 0.05758647620677948,
+      "eval_rouge1": 87.7192,
+      "eval_rouge2": 87.309,
+      "eval_rougeL": 87.7299,
+      "eval_rougeLsum": 87.5507,
+      "eval_runtime": 10.8774,
+      "eval_samples_per_second": 6.343,
+      "eval_steps_per_second": 1.655,
+      "step": 1587
+    },
+    {
+      "epoch": 24.0,
+      "eval_gen_len": 64.15942028985508,
+      "eval_loss": 0.05580032616853714,
+      "eval_rouge1": 89.0175,
+      "eval_rouge2": 88.5301,
+      "eval_rougeL": 88.8811,
+      "eval_rougeLsum": 88.906,
+      "eval_runtime": 10.4052,
+      "eval_samples_per_second": 6.631,
+      "eval_steps_per_second": 1.73,
+      "step": 1656
+    },
+    {
+      "epoch": 25.0,
+      "eval_gen_len": 64.15942028985508,
+      "eval_loss": 0.05610496550798416,
+      "eval_rouge1": 89.0175,
+      "eval_rouge2": 88.5301,
+      "eval_rougeL": 88.8811,
+      "eval_rougeLsum": 88.906,
+      "eval_runtime": 10.2012,
+      "eval_samples_per_second": 6.764,
+      "eval_steps_per_second": 1.764,
+      "step": 1725
+    },
+    {
+      "epoch": 26.0,
+      "eval_gen_len": 62.42028985507246,
+      "eval_loss": 0.055899713188409805,
+      "eval_rouge1": 90.1169,
+      "eval_rouge2": 89.6101,
+      "eval_rougeL": 89.9618,
+      "eval_rougeLsum": 90.0139,
+      "eval_runtime": 10.18,
+      "eval_samples_per_second": 6.778,
+      "eval_steps_per_second": 1.768,
+      "step": 1794
+    },
+    {
+      "epoch": 27.0,
+      "eval_gen_len": 63.72463768115942,
+      "eval_loss": 0.056867022067308426,
+      "eval_rouge1": 89.1468,
+      "eval_rouge2": 88.6354,
+      "eval_rougeL": 89.0016,
+      "eval_rougeLsum": 89.0138,
+      "eval_runtime": 10.263,
+      "eval_samples_per_second": 6.723,
+      "eval_steps_per_second": 1.754,
+      "step": 1863
+    },
+    {
+      "epoch": 28.0,
+      "eval_gen_len": 63.72463768115942,
+      "eval_loss": 0.05622243136167526,
+      "eval_rouge1": 89.1468,
+      "eval_rouge2": 88.6354,
+      "eval_rougeL": 89.0016,
+      "eval_rougeLsum": 89.0138,
+      "eval_runtime": 10.3037,
+      "eval_samples_per_second": 6.697,
+      "eval_steps_per_second": 1.747,
+      "step": 1932
+    },
+    {
+      "epoch": 28.99,
+      "learning_rate": 1.6908212560386474e-06,
+      "loss": 0.0013,
+      "step": 2000
+    },
+    {
+      "epoch": 29.0,
+      "eval_gen_len": 63.72463768115942,
+      "eval_loss": 0.05626355856657028,
+      "eval_rouge1": 89.1468,
+      "eval_rouge2": 88.6354,
+      "eval_rougeL": 89.0016,
+      "eval_rougeLsum": 89.0138,
+      "eval_runtime": 10.3631,
+      "eval_samples_per_second": 6.658,
+      "eval_steps_per_second": 1.737,
+      "step": 2001
+    },
+    {
+      "epoch": 30.0,
+      "eval_gen_len": 63.72463768115942,
+      "eval_loss": 0.05641184747219086,
+      "eval_rouge1": 89.1468,
+      "eval_rouge2": 88.6354,
+      "eval_rougeL": 89.0016,
+      "eval_rougeLsum": 89.0138,
+      "eval_runtime": 10.1065,
+      "eval_samples_per_second": 6.827,
+      "eval_steps_per_second": 1.781,
+      "step": 2070
+    },
+    {
+      "epoch": 30.0,
+      "step": 2070,
+      "total_flos": 1.0082653761024e+16,
+      "train_loss": 0.0141942559161048,
+      "train_runtime": 754.2364,
+      "train_samples_per_second": 10.978,
+      "train_steps_per_second": 2.744
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2070,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
   "save_steps": 500,
+  "total_flos": 1.0082653761024e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null