Training in progress, step 50

Browse files

Files changed (5) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
metrics.json +1 -6
state.json +5 -81
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -20,12 +20,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
     "q_proj",
-    "down_proj",
     "gate_proj",
-    "v_proj",
     "k_proj",
     "up_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "o_proj",
     "gate_proj",
+    "down_proj",
     "k_proj",
+    "v_proj",
     "up_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0064e74028932ad7f7ba5f4b0b4726cba07b854acdb38ca06c6ead7e6b9125d
 size 35668592

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bf964742964d2ec503f25da4ead7a6c8a5691fc8d1cb60aa46b3a6fe8d444f8
 size 35668592

metrics.json CHANGED Viewed

@@ -1,6 +1 @@
-{"Step":50,"eval_loss":1.7156720161,"eval_runtime":149.1859,"eval_samples_per_second":3.352,"eval_steps_per_second":0.422,"epoch":0.08}
-{"Step":100,"eval_loss":1.5024453402,"eval_runtime":149.3514,"eval_samples_per_second":3.348,"eval_steps_per_second":0.422,"epoch":0.16}
-{"Step":150,"eval_loss":1.4826966524,"eval_runtime":149.1669,"eval_samples_per_second":3.352,"eval_steps_per_second":0.422,"epoch":0.24}
-{"Step":200,"eval_loss":1.4759048223,"eval_runtime":149.1268,"eval_samples_per_second":3.353,"eval_steps_per_second":0.422,"epoch":0.32}
-{"Step":250,"eval_loss":1.4729492664,"eval_runtime":149.0332,"eval_samples_per_second":3.355,"eval_steps_per_second":0.423,"epoch":0.4}
-{"Step":300,"eval_loss":1.4703065157,"eval_runtime":149.278,"eval_samples_per_second":3.349,"eval_steps_per_second":0.422,"epoch":0.48}


1	+ {"Step":50,"eval_loss":1.7071695328,"eval_runtime":27.6118,"eval_samples_per_second":3.622,"eval_steps_per_second":0.471,"epoch":0.08}

state.json CHANGED Viewed

@@ -1,89 +1,13 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.48,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.08,
-      "grad_norm": 0.05632242560386658,
-      "learning_rate": 0.00013297872340425532,
-      "loss": 1.8852,
-      "step": 50
-    },
-    {
-      "epoch": 0.08,
-      "eval_loss": 1.7156720161437988,
-      "eval_runtime": 149.1859,
-      "eval_samples_per_second": 3.352,
-      "eval_steps_per_second": 0.422,
-      "step": 50
-    },
-    {
-      "epoch": 0.16,
-      "grad_norm": 0.02606302499771118,
-      "learning_rate": 0.0002632978723404255,
-      "loss": 1.6036,
-      "step": 100
-    },
-    {
-      "epoch": 0.16,
-      "eval_loss": 1.5024453401565552,
-      "eval_runtime": 149.3514,
-      "eval_samples_per_second": 3.348,
-      "eval_steps_per_second": 0.422,
-      "step": 100
-    },
-    {
-      "epoch": 0.24,
-      "grad_norm": 0.034023039042949677,
-      "learning_rate": 0.00039627659574468084,
-      "loss": 1.5186,
-      "step": 150
-    },
-    {
-      "epoch": 0.24,
-      "eval_loss": 1.4826966524124146,
-      "eval_runtime": 149.1669,
-      "eval_samples_per_second": 3.352,
-      "eval_steps_per_second": 0.422,
-      "step": 150
-    },
-    {
-      "epoch": 0.32,
-      "grad_norm": 0.04070857912302017,
-      "learning_rate": 0.0004967397747480735,
-      "loss": 1.4822,
-      "step": 200
-    },
-    {
-      "epoch": 0.32,
-      "eval_loss": 1.4759048223495483,
-      "eval_runtime": 149.1268,
-      "eval_samples_per_second": 3.353,
-      "eval_steps_per_second": 0.422,
-      "step": 200
-    },
-    {
-      "epoch": 0.4,
-      "grad_norm": 0.03537657856941223,
-      "learning_rate": 0.00048192056905749855,
-      "loss": 1.5035,
-      "step": 250
-    },
-    {
-      "epoch": 0.4,
-      "eval_loss": 1.4729492664337158,
-      "eval_runtime": 149.0332,
-      "eval_samples_per_second": 3.355,
-      "eval_steps_per_second": 0.423,
-      "step": 250
-    }
-  ],
   "logging_steps": 50,
   "max_steps": 1875,
   "num_input_tokens_seen": 0,
@@ -95,13 +19,13 @@
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
-        "should_save": true,
         "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.999548261801984e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08,
   "eval_steps": 50,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
+  "log_history": [],
   "logging_steps": 50,
   "max_steps": 1875,
   "num_input_tokens_seen": 0,
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
+        "should_save": false,
         "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6aadb86e7c11eaf53076fa580bc16d46538da6411436f54844013f1933386b8
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5858438e1844bba514e3e6e10e8359b859b0963a7a05503baf18f6704d9be96
 size 5432