Training in progress, step 280, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +151 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47d1b5f64bd2a32d210dc344d1aff48c8e493243e614ec9102648d191115dc29
 size 250422888

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ec4daa34e1b935faa5430b839c1b1376234e001622e8070291431ae3b9045a6
 size 250422888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98f1e84050803c2c14633c1d7ea4207038a49fbb83d078e48cf5120e5f6a2bb9
 size 127788756

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2cf3d564b798f114de21e7824ed904bb2253270fddc61cb4be5dbab804c0dbe
 size 127788756

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5099e825b9d64fd5c6ba8576cc14367aedac4b0fecec8ded967a654f174bf6f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:95c4ab9d7cc61365afe9c1520630b1d6dab7e2688ccbe4b330d8eeb62edffd3d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50b7ff23712e03935414ffb227695142d0eb9d939a270308f287d92b88215dbb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa1e27bc8c4f6272ee858bf97369b9e68f7265e3e9a72207bbd5098643e86719
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05984061681866567,
   "eval_steps": 20,
-  "global_step": 260,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1939,6 +1939,154 @@
       "eval_samples_per_second": 4.194,
       "eval_steps_per_second": 4.194,
       "step": 260
     }
   ],
   "logging_steps": 1,
@@ -1958,7 +2106,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.12608947552256e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.06444374118933226,
   "eval_steps": 20,
+  "global_step": 280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.194,
       "eval_steps_per_second": 4.194,
       "step": 260
+    },
+    {
+      "epoch": 0.060070773037199,
+      "grad_norm": 5.089763164520264,
+      "learning_rate": 1.3189384779019535e-05,
+      "loss": 2.9909,
+      "step": 261
+    },
+    {
+      "epoch": 0.06030092925573233,
+      "grad_norm": 4.29011869430542,
+      "learning_rate": 1.25311378409661e-05,
+      "loss": 1.7705,
+      "step": 262
+    },
+    {
+      "epoch": 0.06053108547426566,
+      "grad_norm": 3.4714138507843018,
+      "learning_rate": 1.1889023483392879e-05,
+      "loss": 1.7503,
+      "step": 263
+    },
+    {
+      "epoch": 0.060761241692798985,
+      "grad_norm": 4.181496620178223,
+      "learning_rate": 1.1263117061266675e-05,
+      "loss": 0.8877,
+      "step": 264
+    },
+    {
+      "epoch": 0.06099139791133232,
+      "grad_norm": 2.1141738891601562,
+      "learning_rate": 1.0653492027481286e-05,
+      "loss": 1.2273,
+      "step": 265
+    },
+    {
+      "epoch": 0.061221554129865643,
+      "grad_norm": 6.813518047332764,
+      "learning_rate": 1.0060219924237379e-05,
+      "loss": 2.4627,
+      "step": 266
+    },
+    {
+      "epoch": 0.061451710348398976,
+      "grad_norm": 3.919358730316162,
+      "learning_rate": 9.48337037464666e-06,
+      "loss": 1.6218,
+      "step": 267
+    },
+    {
+      "epoch": 0.06168186656693231,
+      "grad_norm": 5.324815273284912,
+      "learning_rate": 8.923011074561404e-06,
+      "loss": 2.7972,
+      "step": 268
+    },
+    {
+      "epoch": 0.061912022785465634,
+      "grad_norm": 5.306177616119385,
+      "learning_rate": 8.379207784630004e-06,
+      "loss": 2.748,
+      "step": 269
+    },
+    {
+      "epoch": 0.06214217900399897,
+      "grad_norm": 5.779840469360352,
+      "learning_rate": 7.852024322579648e-06,
+      "loss": 2.8093,
+      "step": 270
+    },
+    {
+      "epoch": 0.06237233522253229,
+      "grad_norm": 4.838181495666504,
+      "learning_rate": 7.34152255572697e-06,
+      "loss": 3.2099,
+      "step": 271
+    },
+    {
+      "epoch": 0.06260249144106562,
+      "grad_norm": 2.9259281158447266,
+      "learning_rate": 6.847762393717782e-06,
+      "loss": 0.6693,
+      "step": 272
+    },
+    {
+      "epoch": 0.06283264765959895,
+      "grad_norm": 4.114650726318359,
+      "learning_rate": 6.370801781496326e-06,
+      "loss": 3.2477,
+      "step": 273
+    },
+    {
+      "epoch": 0.06306280387813228,
+      "grad_norm": 4.7701592445373535,
+      "learning_rate": 5.910696692505201e-06,
+      "loss": 1.5787,
+      "step": 274
+    },
+    {
+      "epoch": 0.06329296009666562,
+      "grad_norm": 4.48903226852417,
+      "learning_rate": 5.467501122116563e-06,
+      "loss": 1.4006,
+      "step": 275
+    },
+    {
+      "epoch": 0.06352311631519894,
+      "grad_norm": 3.0731749534606934,
+      "learning_rate": 5.0412670812956465e-06,
+      "loss": 0.4172,
+      "step": 276
+    },
+    {
+      "epoch": 0.06375327253373227,
+      "grad_norm": 6.239867210388184,
+      "learning_rate": 4.6320445904969475e-06,
+      "loss": 2.111,
+      "step": 277
+    },
+    {
+      "epoch": 0.0639834287522656,
+      "grad_norm": 4.272534370422363,
+      "learning_rate": 4.239881673794165e-06,
+      "loss": 1.026,
+      "step": 278
+    },
+    {
+      "epoch": 0.06421358497079893,
+      "grad_norm": 4.327932834625244,
+      "learning_rate": 3.864824353244367e-06,
+      "loss": 1.7713,
+      "step": 279
+    },
+    {
+      "epoch": 0.06444374118933226,
+      "grad_norm": 7.858902454376221,
+      "learning_rate": 3.506916643487001e-06,
+      "loss": 3.015,
+      "step": 280
+    },
+    {
+      "epoch": 0.06444374118933226,
+      "eval_loss": 0.3807111978530884,
+      "eval_runtime": 83.9232,
+      "eval_samples_per_second": 4.194,
+      "eval_steps_per_second": 4.194,
+      "step": 280
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.44348097363968e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null