Model save

Browse files

Files changed (6) hide show

README.md +66 -0
all_results.json +9 -0
generation_config.json +7 -0
runs/Sep28_14-43-08_ip-10-192-36-160/events.out.tfevents.1727534591.ip-10-192-36-160.3362089.0 +2 -2
train_results.json +9 -0
trainer_state.json +162 -0

README.md ADDED Viewed

	@@ -0,0 +1,66 @@

+---
+library_name: transformers
+base_model: weqweasdas/gpt2-cpt-dutch
+tags:
+- trl
+- sft
+- generated_from_trainer
+datasets:
+- generator
+model-index:
+- name: gpt2-sft-dutch
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# gpt2-sft-dutch
+This model is a fine-tuned version of [weqweasdas/gpt2-cpt-dutch](https://huggingface.co/weqweasdas/gpt2-cpt-dutch) on the generator dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.9502
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- total_train_batch_size: 32
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 3.1156        | 1.0   | 76   | 2.9502          |
+### Framework versions
+- Transformers 4.44.2
+- Pytorch 2.1.2
+- Datasets 3.0.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 317731110912000.0,
+    "train_loss": 3.1433490953947367,
+    "train_runtime": 1149.309,
+    "train_samples": 1925,
+    "train_samples_per_second": 2.11,
+    "train_steps_per_second": 0.066
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.44.2",
+  "use_cache": false
+}

runs/Sep28_14-43-08_ip-10-192-36-160/events.out.tfevents.1727534591.ip-10-192-36-160.3362089.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19156893e9b5b719608d80f378001dfd02ca09ebb3601614faf085d63183d21d
-size 9072

 version https://git-lfs.github.com/spec/v1
+oid sha256:410a26b6761641d638a0421c71ebb8328908112c8fb7d41d373fa93674e29d1b
+size 9686

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 317731110912000.0,
+    "train_loss": 3.1433490953947367,
+    "train_runtime": 1149.309,
+    "train_samples": 1925,
+    "train_samples_per_second": 2.11,
+    "train_steps_per_second": 0.066
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,162 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 76,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013157894736842105,
+      "grad_norm": 2.890625,
+      "learning_rate": 2.5e-06,
+      "loss": 3.1602,
+      "step": 1
+    },
+    {
+      "epoch": 0.06578947368421052,
+      "grad_norm": 2.859375,
+      "learning_rate": 1.25e-05,
+      "loss": 3.2031,
+      "step": 5
+    },
+    {
+      "epoch": 0.13157894736842105,
+      "grad_norm": 2.953125,
+      "learning_rate": 1.9957341762950346e-05,
+      "loss": 3.2461,
+      "step": 10
+    },
+    {
+      "epoch": 0.19736842105263158,
+      "grad_norm": 2.46875,
+      "learning_rate": 1.948160647590966e-05,
+      "loss": 3.2055,
+      "step": 15
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 2.4375,
+      "learning_rate": 1.8502171357296144e-05,
+      "loss": 3.168,
+      "step": 20
+    },
+    {
+      "epoch": 0.32894736842105265,
+      "grad_norm": 2.234375,
+      "learning_rate": 1.7071067811865477e-05,
+      "loss": 3.15,
+      "step": 25
+    },
+    {
+      "epoch": 0.39473684210526316,
+      "grad_norm": 2.140625,
+      "learning_rate": 1.526432162877356e-05,
+      "loss": 3.1352,
+      "step": 30
+    },
+    {
+      "epoch": 0.4605263157894737,
+      "grad_norm": 2.046875,
+      "learning_rate": 1.3177914195819018e-05,
+      "loss": 3.1156,
+      "step": 35
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 1.9296875,
+      "learning_rate": 1.092268359463302e-05,
+      "loss": 3.1227,
+      "step": 40
+    },
+    {
+      "epoch": 0.5921052631578947,
+      "grad_norm": 1.890625,
+      "learning_rate": 8.618436450481182e-06,
+      "loss": 3.1273,
+      "step": 45
+    },
+    {
+      "epoch": 0.6578947368421053,
+      "grad_norm": 2.015625,
+      "learning_rate": 6.387583338128471e-06,
+      "loss": 3.1133,
+      "step": 50
+    },
+    {
+      "epoch": 0.7236842105263158,
+      "grad_norm": 1.9765625,
+      "learning_rate": 4.348635855774082e-06,
+      "loss": 3.125,
+      "step": 55
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 2.03125,
+      "learning_rate": 2.6099108277934105e-06,
+      "loss": 3.1,
+      "step": 60
+    },
+    {
+      "epoch": 0.8552631578947368,
+      "grad_norm": 2.09375,
+      "learning_rate": 1.2637760935363053e-06,
+      "loss": 3.1195,
+      "step": 65
+    },
+    {
+      "epoch": 0.9210526315789473,
+      "grad_norm": 1.953125,
+      "learning_rate": 3.817435682718096e-07,
+      "loss": 3.1187,
+      "step": 70
+    },
+    {
+      "epoch": 0.9868421052631579,
+      "grad_norm": 1.9609375,
+      "learning_rate": 1.0670251976275803e-08,
+      "loss": 3.1156,
+      "step": 75
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.950244188308716,
+      "eval_runtime": 862.1559,
+      "eval_samples_per_second": 30.726,
+      "eval_steps_per_second": 0.96,
+      "step": 76
+    },
+    {
+      "epoch": 1.0,
+      "step": 76,
+      "total_flos": 317731110912000.0,
+      "train_loss": 3.1433490953947367,
+      "train_runtime": 1149.309,
+      "train_samples_per_second": 2.11,
+      "train_steps_per_second": 0.066
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 76,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 317731110912000.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}