Training in progress, step 3100, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/README.md +0 -12
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/special_tokens_map.json +7 -1
last-checkpoint/tokenizer_config.json +5 -1
last-checkpoint/trainer_state.json +10 -66
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -201,18 +201,6 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 ## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: True
-- bnb_4bit_compute_dtype: float16
 ### Framework versions


201	## Training procedure
202
203












204	### Framework versions
205
206

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:027649fdc9bb39375f7877e818837eec9151d245c636ff7645c95d33d3a52732
 size 75507072

 version https://git-lfs.github.com/spec/v1
+oid sha256:153147260199c704e8bfd106addf0bce7dd09e996a0b77778bff08d6d95bc8c8
 size 75507072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ff7270ada9cf8cf5634d4915d2aa34fa7bf7f529feeec57587911f95fff17cb
-size 151034501

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f8382c25b1ec233f3d8dde2bd7aaeff523df68b0959f1aa2b74feb2306b777e
+size 151032837

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5111e44aa3c7fb3d2679f29ed14de9b378a43fa023e1e3c7c0e2bac399b6ea6f
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab6b545b6dd6418e570a8474ea31c45a1baed67ab97da8014ad68491fbcf9bed
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31f466e63f2d702a9646f61d3cb0499d7a443ca833cfea51694a53eaa24cfd01
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f4766a50a63740d51a19c983a4de442d7f62ff1e951fc016c44cc6c58fb9db1
 size 627

last-checkpoint/special_tokens_map.json CHANGED Viewed

@@ -12,6 +12,12 @@
     ">>SUFFIX<<",
     ">>MIDDLE<<"
   ],
-  "eos_token": "<|endoftext|>",
   "pad_token": "<|endoftext|>"
 }

     ">>SUFFIX<<",
     ">>MIDDLE<<"
   ],
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
   "pad_token": "<|endoftext|>"
 }

last-checkpoint/tokenizer_config.json CHANGED Viewed

@@ -113,11 +113,15 @@
   ],
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 2048,
   "pad_token": "<|endoftext|>",
-  "tokenizer_class": "PreTrainedTokenizerFast"
 }

   ],
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
+  "max_length": 512,
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 2048,
   "pad_token": "<|endoftext|>",
+  "stride": 0,
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first"
 }

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.128933310508728,
-  "best_model_checkpoint": "./outputs/checkpoint-3500",
-  "epoch": 2.5500910746812386,
   "eval_steps": 100,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -431,79 +431,23 @@
     {
       "epoch": 2.26,
       "learning_rate": 0.0002,
-      "loss": 1.1391,
       "step": 3100
     },
     {
       "epoch": 2.26,
-      "eval_loss": 1.1678684949874878,
-      "eval_runtime": 418.5265,
-      "eval_samples_per_second": 14.991,
-      "eval_steps_per_second": 1.876,
       "step": 3100
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 0.0002,
-      "loss": 1.1423,
-      "step": 3200
-    },
-    {
-      "epoch": 2.33,
-      "eval_loss": 1.1581230163574219,
-      "eval_runtime": 425.212,
-      "eval_samples_per_second": 14.755,
-      "eval_steps_per_second": 1.846,
-      "step": 3200
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 0.0002,
-      "loss": 1.1262,
-      "step": 3300
-    },
-    {
-      "epoch": 2.4,
-      "eval_loss": 1.147517442703247,
-      "eval_runtime": 424.8484,
-      "eval_samples_per_second": 14.768,
-      "eval_steps_per_second": 1.848,
-      "step": 3300
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 0.0002,
-      "loss": 1.1114,
-      "step": 3400
-    },
-    {
-      "epoch": 2.48,
-      "eval_loss": 1.1388046741485596,
-      "eval_runtime": 418.7042,
-      "eval_samples_per_second": 14.984,
-      "eval_steps_per_second": 1.875,
-      "step": 3400
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.0002,
-      "loss": 1.1112,
-      "step": 3500
-    },
-    {
-      "epoch": 2.55,
-      "eval_loss": 1.128933310508728,
-      "eval_runtime": 418.5353,
-      "eval_samples_per_second": 14.99,
-      "eval_steps_per_second": 1.876,
-      "step": 3500
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
-  "total_flos": 1.134669408060162e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.175557017326355,
+  "best_model_checkpoint": "./outputs/checkpoint-3000",
+  "epoch": 2.2593806921675776,
   "eval_steps": 100,
+  "global_step": 3100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 2.26,
       "learning_rate": 0.0002,
+      "loss": 1.1799,
       "step": 3100
     },
     {
       "epoch": 2.26,
+      "eval_loss": 1.1915525197982788,
+      "eval_runtime": 341.6989,
+      "eval_samples_per_second": 18.361,
+      "eval_steps_per_second": 2.297,
       "step": 3100
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
+  "total_flos": 1.0050808386648453e+18,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9ab7fd32b0972b4627931468d93dab0ebd2b5e2b7a37d3907f097b2d2c0cfba
 size 4219

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac18d79547677891adc0e1a81cd6b672e7bb00fb497880f12dac0fd79be710c2
 size 4219