Shresthadev403 commited on Dec 9, 2023

Commit

aef6b33

1 Parent(s): 521d0fe

End of training

Browse files

Files changed (17) hide show

README.md +8 -8
logs/events.out.tfevents.1702141643.62a1e4c74a80.42734.12 +3 -0
logs/events.out.tfevents.1702141700.62a1e4c74a80.42734.13 +3 -0
logs/events.out.tfevents.1702141798.62a1e4c74a80.42734.14 +3 -0
logs/events.out.tfevents.1702141860.62a1e4c74a80.42734.15 +3 -0
logs/events.out.tfevents.1702142103.62a1e4c74a80.42734.16 +3 -0
logs/events.out.tfevents.1702142220.62a1e4c74a80.42734.17 +3 -0
logs/events.out.tfevents.1702142397.62a1e4c74a80.42734.18 +3 -0
logs/events.out.tfevents.1702142503.62a1e4c74a80.42734.19 +3 -0
logs/events.out.tfevents.1702142787.62a1e4c74a80.42734.20 +3 -0
logs/events.out.tfevents.1702143232.62a1e4c74a80.42734.21 +3 -0
logs/events.out.tfevents.1702143345.62a1e4c74a80.42734.22 +3 -0
logs/events.out.tfevents.1702143757.62a1e4c74a80.42734.23 +3 -0
logs/events.out.tfevents.1702143852.62a1e4c74a80.42734.24 +3 -0
logs/events.out.tfevents.1702144190.62a1e4c74a80.42734.25 +3 -0
model.safetensors +1 -1
trainer_state.json +46 -46

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.1188
 ## Model description
@@ -46,13 +46,13 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 17.0348       | 1.0   | 10   | 4.3278          |
-| 4.1755        | 2.0   | 20   | 2.9010          |
-| 2.9516        | 3.0   | 30   | 2.5815          |
-| 2.4828        | 4.0   | 40   | 2.1538          |
-| 2.2802        | 5.0   | 50   | 2.1050          |
-| 2.1949        | 6.0   | 60   | 2.1221          |
-| 2.0416        | 7.0   | 70   | 2.1188          |
 ### Framework versions

 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.7084
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 16.994        | 1.0   | 10   | 4.2000          |
+| 3.8266        | 2.0   | 20   | 3.1920          |
+| 3.0646        | 3.0   | 30   | 2.2112          |
+| 2.3667        | 4.0   | 40   | 1.9768          |
+| 2.0815        | 5.0   | 50   | 1.8096          |
+| 1.9727        | 6.0   | 60   | 1.7462          |
+| 1.8305        | 7.0   | 70   | 1.7084          |
 ### Framework versions

logs/events.out.tfevents.1702141643.62a1e4c74a80.42734.12 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8f3b1cbc90af3df29859e9f95323ff69663844e172761dbd65f96d9c17d822f
+size 4606

logs/events.out.tfevents.1702141700.62a1e4c74a80.42734.13 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5692b3cf90af6cd33796035637a638eccff8a9dd47835aded87e0707544f4edd
+size 4606

logs/events.out.tfevents.1702141798.62a1e4c74a80.42734.14 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8023540862a59981d10bd1c5cd1806341e537c4ded0fda6a8cd4c34ffbd5238c
+size 4606

logs/events.out.tfevents.1702141860.62a1e4c74a80.42734.15 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b07a10500bc4df9cbfccbd417ce32277d6a5681dc138f743c55058c7423a9eb
+size 4606

logs/events.out.tfevents.1702142103.62a1e4c74a80.42734.16 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7561f7ec08f996ce5434eddb66a4a0678daa21d4d792b022269537c9837e2124
+size 4606

logs/events.out.tfevents.1702142220.62a1e4c74a80.42734.17 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea175ad66c333c6a5bbc8457c9b9fcbb6b300129233508bb9b57977eb3b2b380
+size 4606

logs/events.out.tfevents.1702142397.62a1e4c74a80.42734.18 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d3cadf90022728bebe5860f59875298569dc6178699ea34318d4e1159fe357f
+size 4606

logs/events.out.tfevents.1702142503.62a1e4c74a80.42734.19 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ecad16e2c7c0d119e9e7789fddd52fc66d02ed172184df2599bb472c897d6c9
+size 4606

logs/events.out.tfevents.1702142787.62a1e4c74a80.42734.20 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:572bf5adb0cbd8bb65d849a3a354958048cf97c8380b600997697515e174af10
+size 4606

logs/events.out.tfevents.1702143232.62a1e4c74a80.42734.21 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf7ec42db451bc974284a7fea152966e6a1b47b24f2036e8174fcaee9dce2a9d
+size 4606

logs/events.out.tfevents.1702143345.62a1e4c74a80.42734.22 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:666ef2a489b11be7cfd2cc954ded83fbd219aab35fcaff2e8fec3036dc41074c
+size 4606

logs/events.out.tfevents.1702143757.62a1e4c74a80.42734.23 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fec0649428a27ed99becd8d10b0a4e36c63b2d404dbe1bf3a02e1d17a6a0a54
+size 4606

logs/events.out.tfevents.1702143852.62a1e4c74a80.42734.24 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b65ec14bd5f1037745aac6f695c7624d598077d4f2a4b68075569c4ecd11f67f
+size 4606

logs/events.out.tfevents.1702144190.62a1e4c74a80.42734.25 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0324a6b18d78ba569f831affce5344b2644cdef69296bf909480f4a736d4a5db
+size 7740

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09037655973ebe73f63dc99bf71b69df1b21e4ed23b2b929dd5d59a3c929ef1f
 size 497814144

 version https://git-lfs.github.com/spec/v1
+oid sha256:787fcb2b2868b4abaaf1ab8042b45c7c44eb9ba39f096b720c514963d76869c9
 size 497814144

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 2.105010747909546,
-  "best_model_checkpoint": "bert-base-banking77-pt2/checkpoint-50",
   "epoch": 7.0,
   "eval_steps": 10,
   "global_step": 70,
@@ -10,110 +10,110 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 4e-05,
-      "loss": 17.0348,
       "step": 10
     },
     {
       "epoch": 1.0,
-      "eval_loss": 4.327815055847168,
-      "eval_runtime": 0.2279,
-      "eval_samples_per_second": 43.887,
-      "eval_steps_per_second": 8.777,
       "step": 10
     },
     {
       "epoch": 2.0,
-      "learning_rate": 3e-05,
-      "loss": 4.1755,
       "step": 20
     },
     {
       "epoch": 2.0,
-      "eval_loss": 2.9009530544281006,
-      "eval_runtime": 0.1465,
-      "eval_samples_per_second": 68.244,
-      "eval_steps_per_second": 13.649,
       "step": 20
     },
     {
       "epoch": 3.0,
-      "learning_rate": 2e-05,
-      "loss": 2.9516,
       "step": 30
     },
     {
       "epoch": 3.0,
-      "eval_loss": 2.581455707550049,
-      "eval_runtime": 0.1718,
-      "eval_samples_per_second": 58.205,
-      "eval_steps_per_second": 11.641,
       "step": 30
     },
     {
       "epoch": 4.0,
-      "learning_rate": 1e-05,
-      "loss": 2.4828,
       "step": 40
     },
     {
       "epoch": 4.0,
-      "eval_loss": 2.1537680625915527,
-      "eval_runtime": 0.1261,
-      "eval_samples_per_second": 79.287,
-      "eval_steps_per_second": 15.857,
       "step": 40
     },
     {
       "epoch": 5.0,
-      "learning_rate": 0.0,
-      "loss": 2.2802,
       "step": 50
     },
     {
       "epoch": 5.0,
-      "eval_loss": 2.105010747909546,
-      "eval_runtime": 0.1259,
-      "eval_samples_per_second": 79.453,
-      "eval_steps_per_second": 15.891,
       "step": 50
     },
     {
       "epoch": 6.0,
       "learning_rate": 7.142857142857143e-06,
-      "loss": 2.1949,
       "step": 60
     },
     {
       "epoch": 6.0,
-      "eval_loss": 2.1220641136169434,
-      "eval_runtime": 0.161,
-      "eval_samples_per_second": 62.127,
-      "eval_steps_per_second": 12.425,
       "step": 60
     },
     {
       "epoch": 7.0,
       "learning_rate": 0.0,
-      "loss": 2.0416,
       "step": 70
     },
     {
       "epoch": 7.0,
-      "eval_loss": 2.118767023086548,
-      "eval_runtime": 0.1487,
-      "eval_samples_per_second": 67.242,
-      "eval_steps_per_second": 13.448,
       "step": 70
     },
     {
       "epoch": 7.0,
       "step": 70,
       "total_flos": 4572610560000.0,
-      "train_loss": 0.6052134922572545,
-      "train_runtime": 34.1418,
-      "train_samples_per_second": 2.05,
-      "train_steps_per_second": 2.05
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 1.7083709239959717,
+  "best_model_checkpoint": "bert-base-banking77-pt2/checkpoint-70",
   "epoch": 7.0,
   "eval_steps": 10,
   "global_step": 70,
   "log_history": [
     {
       "epoch": 1.0,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 16.994,
       "step": 10
     },
     {
       "epoch": 1.0,
+      "eval_loss": 4.199960231781006,
+      "eval_runtime": 0.1251,
+      "eval_samples_per_second": 79.92,
+      "eval_steps_per_second": 15.984,
       "step": 10
     },
     {
       "epoch": 2.0,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 3.8266,
       "step": 20
     },
     {
       "epoch": 2.0,
+      "eval_loss": 3.1919631958007812,
+      "eval_runtime": 0.1628,
+      "eval_samples_per_second": 61.412,
+      "eval_steps_per_second": 12.282,
       "step": 20
     },
     {
       "epoch": 3.0,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 3.0646,
       "step": 30
     },
     {
       "epoch": 3.0,
+      "eval_loss": 2.2111892700195312,
+      "eval_runtime": 0.1271,
+      "eval_samples_per_second": 78.703,
+      "eval_steps_per_second": 15.741,
       "step": 30
     },
     {
       "epoch": 4.0,
+      "learning_rate": 2.1428571428571428e-05,
+      "loss": 2.3667,
       "step": 40
     },
     {
       "epoch": 4.0,
+      "eval_loss": 1.9768412113189697,
+      "eval_runtime": 0.1291,
+      "eval_samples_per_second": 77.443,
+      "eval_steps_per_second": 15.489,
       "step": 40
     },
     {
       "epoch": 5.0,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 2.0815,
       "step": 50
     },
     {
       "epoch": 5.0,
+      "eval_loss": 1.8095529079437256,
+      "eval_runtime": 0.1244,
+      "eval_samples_per_second": 80.397,
+      "eval_steps_per_second": 16.079,
       "step": 50
     },
     {
       "epoch": 6.0,
       "learning_rate": 7.142857142857143e-06,
+      "loss": 1.9727,
       "step": 60
     },
     {
       "epoch": 6.0,
+      "eval_loss": 1.7462323904037476,
+      "eval_runtime": 0.1467,
+      "eval_samples_per_second": 68.173,
+      "eval_steps_per_second": 13.635,
       "step": 60
     },
     {
       "epoch": 7.0,
       "learning_rate": 0.0,
+      "loss": 1.8305,
       "step": 70
     },
     {
       "epoch": 7.0,
+      "eval_loss": 1.7083709239959717,
+      "eval_runtime": 0.1559,
+      "eval_samples_per_second": 64.127,
+      "eval_steps_per_second": 12.825,
       "step": 70
     },
     {
       "epoch": 7.0,
       "step": 70,
       "total_flos": 4572610560000.0,
+      "train_loss": 4.5909277507237025,
+      "train_runtime": 92.0015,
+      "train_samples_per_second": 0.761,
+      "train_steps_per_second": 0.761
     }
   ],
   "logging_steps": 10,