Training in progress, step 3600, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/README.md +0 -12
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/special_tokens_map.json +21 -3
last-checkpoint/tokenizer.json +6 -1
last-checkpoint/trainer_state.json +10 -80
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -201,18 +201,6 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 ## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: True
-- bnb_4bit_compute_dtype: float16
 ### Framework versions


201	## Training procedure
202
203












204	### Framework versions
205
206

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:665743a09bf79dcd69946448918fb0c16aa79bd6616b8cfb311dda0ec4b4bdf5
 size 50338848

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab272531ca4f7f21d89ada6774e8e5bc07ab11ecffda04d158c5f53998ca655d
 size 50338848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c545798a80cf3e21310f966375ea19a1ece615f35be28021957920f347dae719
-size 100693001

 version https://git-lfs.github.com/spec/v1
+oid sha256:c562f3b307809fe2836dff271710f225ad458098595e0784fc6a7f5379d7ae0b
+size 100691721

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be9cef20fcb5836bc994b3161e3caaa39c6412b1a8cf4e470a339da81589749a
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0fe9debfc0931dca2aebaaa146c3890943a5809c00b1b2ba715c1a4eb6e57da
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ef51ed05818f33aebca9592cb64baf0df006aad2a34a7cf944f4a48b70afce3
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:43e3cf8d56a3f083d00cc85544d76ada2f884a1018c8752332d96f2799911117
 size 627

last-checkpoint/special_tokens_map.json CHANGED Viewed

@@ -1,6 +1,24 @@
 {
-  "bos_token": "<|endoftext|>",
-  "eos_token": "<|endoftext|>",
   "pad_token": "<|endoftext|>",
-  "unk_token": "<|endoftext|>"
 }

 {
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
   "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

last-checkpoint/tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 512,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.205187439918518,
-  "best_model_checkpoint": "./outputs/checkpoint-4100",
-  "epoch": 2.987249544626594,
   "eval_steps": 100,
-  "global_step": 4100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -501,93 +501,23 @@
     {
       "epoch": 2.62,
       "learning_rate": 0.0002,
-      "loss": 1.2425,
       "step": 3600
     },
     {
       "epoch": 2.62,
-      "eval_loss": 1.2600913047790527,
-      "eval_runtime": 143.6927,
-      "eval_samples_per_second": 43.663,
-      "eval_steps_per_second": 5.463,
       "step": 3600
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 0.0002,
-      "loss": 1.225,
-      "step": 3700
-    },
-    {
-      "epoch": 2.7,
-      "eval_loss": 1.2477346658706665,
-      "eval_runtime": 143.7426,
-      "eval_samples_per_second": 43.647,
-      "eval_steps_per_second": 5.461,
-      "step": 3700
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 0.0002,
-      "loss": 1.2032,
-      "step": 3800
-    },
-    {
-      "epoch": 2.77,
-      "eval_loss": 1.2393803596496582,
-      "eval_runtime": 148.064,
-      "eval_samples_per_second": 42.374,
-      "eval_steps_per_second": 5.302,
-      "step": 3800
-    },
-    {
-      "epoch": 2.84,
-      "learning_rate": 0.0002,
-      "loss": 1.2152,
-      "step": 3900
-    },
-    {
-      "epoch": 2.84,
-      "eval_loss": 1.2263625860214233,
-      "eval_runtime": 143.4886,
-      "eval_samples_per_second": 43.725,
-      "eval_steps_per_second": 5.471,
-      "step": 3900
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.0002,
-      "loss": 1.1959,
-      "step": 4000
-    },
-    {
-      "epoch": 2.91,
-      "eval_loss": 1.2177170515060425,
-      "eval_runtime": 143.5576,
-      "eval_samples_per_second": 43.704,
-      "eval_steps_per_second": 5.468,
-      "step": 4000
-    },
-    {
-      "epoch": 2.99,
-      "learning_rate": 0.0002,
-      "loss": 1.1936,
-      "step": 4100
-    },
-    {
-      "epoch": 2.99,
-      "eval_loss": 1.205187439918518,
-      "eval_runtime": 143.4816,
-      "eval_samples_per_second": 43.727,
-      "eval_steps_per_second": 5.471,
-      "step": 4100
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
-  "total_flos": 2.444085005899776e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.2722229957580566,
+  "best_model_checkpoint": "./outputs/checkpoint-3500",
+  "epoch": 2.62367941712204,
   "eval_steps": 100,
+  "global_step": 3600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 2.62,
       "learning_rate": 0.0002,
+      "loss": 1.3031,
       "step": 3600
     },
     {
       "epoch": 2.62,
+      "eval_loss": 1.3205279111862183,
+      "eval_runtime": 138.0704,
+      "eval_samples_per_second": 45.441,
+      "eval_steps_per_second": 5.686,
       "step": 3600
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
+  "total_flos": 2.146160479353815e+17,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fffa2fe9c9c78adddfbb05849466ee1b7dd93baaa7a7769de151728e5912f64d
 size 4219

 version https://git-lfs.github.com/spec/v1
+oid sha256:8359692bdb4a6bb3efa0d10dd8036b5f919a9ea002e4dc4eb94a27d30c9b489f
 size 4219