Training in progress, step 50, checkpoint

Files changed (6) hide show

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": "unsloth",
   "target_modules": [
-    "down_proj",
-    "o_proj",
-    "v_proj",
-    "up_proj",
-    "k_proj",
     "q_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": "unsloth",
   "target_modules": [
     "q_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "down_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f79c51cd876c8b5b6f891bdff8fd168dd531ab20717f8389982574d19f0dbea0
 size 1912664024

 version https://git-lfs.github.com/spec/v1
+oid sha256:46e19924cdd9d90593dba79dcc7bb890667c5dee7cb8242c8ece6b143bb46c9f
 size 1912664024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bf021cd132f16efcbc21f9c136335d5522103e91e16b4f5562176a75367b8c4
 size 958697364

 version https://git-lfs.github.com/spec/v1
+oid sha256:5461d77cb41a184a2bff02c6a64c2df7c57bc39308a8adb227ef080fe473bb0d
 size 958697364

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4039ca40b296c95519ba3582af20e2ac85fa629c760519260b975e4ffc9aa9b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:43eaf6e8b9b7e97d802563efbae1976d32c9bf9869f2ff306873ea7672065324
 size 1064

last-checkpoint/tokenizer_config.json CHANGED Viewed

@@ -122,7 +122,7 @@
   "legacy": false,
   "model_max_length": 4096,
   "pad_token": "<|placeholder6|>",
-  "padding_side": "left",
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": "<unk>",

   "legacy": false,
   "model_max_length": 4096,
   "pad_token": "<|placeholder6|>",
+  "padding_side": "right",
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": "<unk>",

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -10,32 +10,32 @@
   "log_history": [
     {
       "epoch": 0.0012270691453463403,
-      "grad_norm": NaN,
-      "learning_rate": 0.0,
-      "loss": 3.3245,
       "step": 20
     },
     {
       "epoch": 0.0012270691453463403,
-      "eval_loss": 1.7450172901153564,
-      "eval_runtime": 24.6271,
-      "eval_samples_per_second": 4.061,
-      "eval_steps_per_second": 0.528,
       "step": 20
     },
     {
       "epoch": 0.0024541382906926807,
-      "grad_norm": 0.0,
-      "learning_rate": 0.0001999263532588683,
-      "loss": 3.5708,
       "step": 40
     },
     {
       "epoch": 0.0024541382906926807,
-      "eval_loss": 1.7450109720230103,
-      "eval_runtime": 26.043,
-      "eval_samples_per_second": 3.84,
-      "eval_steps_per_second": 0.499,
       "step": 40
     }
   ],
@@ -44,7 +44,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,
-  "total_flos": 3253280243097600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.0012270691453463403,
+      "grad_norm": 0.05003070831298828,
+      "learning_rate": 0.00019981588314717073,
+      "loss": 2.6972,
       "step": 20
     },
     {
       "epoch": 0.0012270691453463403,
+      "eval_loss": 2.2967841625213623,
+      "eval_runtime": 23.2641,
+      "eval_samples_per_second": 4.298,
+      "eval_steps_per_second": 0.559,
       "step": 20
     },
     {
       "epoch": 0.0024541382906926807,
+      "grad_norm": 0.07180789858102798,
+      "learning_rate": 0.00019957039401006504,
+      "loss": 2.2022,
       "step": 40
     },
     {
       "epoch": 0.0024541382906926807,
+      "eval_loss": 2.068006992340088,
+      "eval_runtime": 23.5719,
+      "eval_samples_per_second": 4.242,
+      "eval_steps_per_second": 0.552,
       "step": 40
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,
+  "total_flos": 3276518679244800.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null