Training in progress, step 1800, checkpoint

Files changed (9) hide show

last-checkpoint/README.md CHANGED Viewed

@@ -201,18 +201,6 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 ## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: True
-- bnb_4bit_compute_dtype: float16
 ### Framework versions

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c3694b9769451b4e7587f8afd0bf460e687c5c552683b2b6a8832e5d0943cd6
 size 50349441

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0e617333294c663e0e8e0a9c6128eec6573f75784de9b79819e9c3c76627aae
 size 50349441

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f211b36881b86340c0e1c1926f46a2a99a1d45eb54e2a242690a4e07cddb2cf6
-size 100693001

 version https://git-lfs.github.com/spec/v1
+oid sha256:62ce02d027a3d5884b9e99ddaa4ac0ac1441dd8e99dca2d29a8692a2980e52bb
+size 100691721

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1389c8fb4da5b08654d5ecff1c857ae43115866bad194f9289834fc2a0b6a9c8
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:a85376be8f1e945d481585c1087e047e7112f253e5e6b615f10107365cf015a8
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0410ad60e6d0138b921a03b0a3e367fd27c6ab07cb9a5006fcb66ea8e5bbacc4
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0e0a1736a46fd1627af3c246e44261aaac909256abbd413b5ee5c968f6b2d8e
 size 627

last-checkpoint/special_tokens_map.json CHANGED Viewed

@@ -1,6 +1,24 @@
 {
-  "bos_token": "<|endoftext|>",
-  "eos_token": "<|endoftext|>",
   "pad_token": "<|endoftext|>",
-  "unk_token": "<|endoftext|>"
 }

 {
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
   "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

last-checkpoint/tokenizer_config.json CHANGED Viewed

@@ -13,8 +13,12 @@
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",
   "tokenizer_class": "GPT2Tokenizer",
   "unk_token": "<|endoftext|>"
 }

   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
+  "max_length": 512,
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",
+  "stride": 0,
   "tokenizer_class": "GPT2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
   "unk_token": "<|endoftext|>"
 }

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.5012134313583374,
   "best_model_checkpoint": "./outputs/checkpoint-1700",
-  "epoch": 1.238615664845173,
   "eval_steps": 100,
-  "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -245,13 +245,27 @@
       "eval_samples_per_second": 43.564,
       "eval_steps_per_second": 5.451,
       "step": 1700
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
-  "total_flos": 1.0135854358789325e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 1.5012134313583374,
   "best_model_checkpoint": "./outputs/checkpoint-1700",
+  "epoch": 1.31183970856102,
   "eval_steps": 100,
+  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 43.564,
       "eval_steps_per_second": 5.451,
       "step": 1700
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0002,
+      "loss": 1.5144,
+      "step": 1800
+    },
+    {
+      "epoch": 1.31,
+      "eval_loss": 1.511275291442871,
+      "eval_runtime": 133.6708,
+      "eval_samples_per_second": 46.936,
+      "eval_steps_per_second": 5.873,
+      "step": 1800
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
+  "total_flos": 1.0731249717030912e+17,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e42e5fbd3480211daf1554d169929e03bb21f025d78cef4fbd2e91363be51943
 size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:6526a0e7745e6a6ee8517a3ecbb9cc450f19bb44a59493674b49cefdbde34f69
 size 4155