Training in progress, step 264, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +67 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77e5602370f71396a4a9d536fa31db82d52fdb27311cc5775a584a26abcfbe95
 size 201892112

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc55da3a89171bf252e042ada42565e064487a2157541887e69eac3d97d442b2
 size 201892112

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f37bf22f63a7f59903a5094dea3f1ab6d7e03349c78dd0e1086bd5b31c9c1331
-size 102864548

 version https://git-lfs.github.com/spec/v1
+oid sha256:da2d2119e83f390d39071b1ec721709219117ccbb0dd644e82b4474f317dcb14
+size 102864868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:418e0ff9289d2a7afcb614530a676e000b998e80e40980bc423384419c5d5263
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e1bd3ac95599b40f1305be1f0a64cd545e152ad7b38b9a60045306725bab973
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d40b4021f74e2e4610fc648a5c9341998feef6ab8f05cc4e06b8e0f1f8685d5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:93ded0d5cb9245a05d18914685d015def341481d1dc23b96d02a9408efc885cf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.5,
   "eval_steps": 24,
-  "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -655,6 +655,70 @@
       "eval_samples_per_second": 48.466,
       "eval_steps_per_second": 6.283,
       "step": 240
     }
   ],
   "logging_steps": 3,
@@ -674,7 +738,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.420861980095283e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.75,
   "eval_steps": 24,
+  "global_step": 264,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 48.466,
       "eval_steps_per_second": 6.283,
       "step": 240
+    },
+    {
+      "epoch": 2.53125,
+      "grad_norm": 0.46080684661865234,
+      "learning_rate": 3.1634847988458615e-06,
+      "loss": 1.3173,
+      "step": 243
+    },
+    {
+      "epoch": 2.5625,
+      "grad_norm": 0.46182775497436523,
+      "learning_rate": 2.7634428858242995e-06,
+      "loss": 1.3378,
+      "step": 246
+    },
+    {
+      "epoch": 2.59375,
+      "grad_norm": 0.48507875204086304,
+      "learning_rate": 2.388956133279266e-06,
+      "loss": 1.339,
+      "step": 249
+    },
+    {
+      "epoch": 2.625,
+      "grad_norm": 0.5142520666122437,
+      "learning_rate": 2.040454916695972e-06,
+      "loss": 1.3046,
+      "step": 252
+    },
+    {
+      "epoch": 2.65625,
+      "grad_norm": 0.5162761807441711,
+      "learning_rate": 1.7183397479194174e-06,
+      "loss": 1.3473,
+      "step": 255
+    },
+    {
+      "epoch": 2.6875,
+      "grad_norm": 0.5032109022140503,
+      "learning_rate": 1.4229808148697733e-06,
+      "loss": 1.3258,
+      "step": 258
+    },
+    {
+      "epoch": 2.71875,
+      "grad_norm": 0.5153303146362305,
+      "learning_rate": 1.1547175561073154e-06,
+      "loss": 1.2873,
+      "step": 261
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 0.5076745748519897,
+      "learning_rate": 9.13858270735743e-07,
+      "loss": 1.3198,
+      "step": 264
+    },
+    {
+      "epoch": 2.75,
+      "eval_loss": 1.3732330799102783,
+      "eval_runtime": 3.334,
+      "eval_samples_per_second": 48.591,
+      "eval_steps_per_second": 6.299,
+      "step": 264
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 5.959481812844544e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null