Training in progress, step 500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +7 -173

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97cc9e08ee5159d5202718bc471c4dd25fcf65be39e9b592c11e051c6ae0bfe6
 size 1625426996

 version https://git-lfs.github.com/spec/v1
+oid sha256:73f9709676fd308493096edfefbab55e00200fd0ec9eee8d1c8d9c9b9393dd60
 size 1625426996

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b9d19d06ed67d28893aca72c07d4b34a8af6dd4fa79383c0f53b9d612ea5ce2
 size 3250759951

 version https://git-lfs.github.com/spec/v1
+oid sha256:13b3726efa7754053b08c4fa6b30b5a12364126ed953d7f0b1fcf11d22c76b26
 size 3250759951

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7895c8a6b7630afd0066c4bcfcb4467e3f329e730f605a8bf5d91c3d820ec41
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e7af7a01e94a9a7176c2bbdf2cb9b8139105cfe65528853ec5a27025100d6bc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6afe57b8e9e4434d4502cf3231a760a5e0234ecf9276a3bb9f6e04b8cf09b373
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9eeeb5bdd24cb6de6ccdee8afd347d0c5c5a88be6c8e7e24752989eef5c1513
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,191 +1,25 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.6,
   "eval_steps": 500,
-  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.1,
-      "learning_rate": 1.9346230820547033e-05,
-      "loss": 0.449,
-      "step": 500
-    },
     {
       "epoch": 0.2,
-      "learning_rate": 1.8679119412941963e-05,
-      "loss": 0.3794,
-      "step": 1000
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 1.8012008005336892e-05,
-      "loss": 0.3172,
-      "step": 1500
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 1.734489659773182e-05,
-      "loss": 0.2633,
-      "step": 2000
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 1.667778519012675e-05,
-      "loss": 0.3007,
-      "step": 2500
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 1.6010673782521683e-05,
-      "loss": 0.2715,
-      "step": 3000
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 1.5343562374916613e-05,
-      "loss": 0.2032,
-      "step": 3500
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 1.4676450967311542e-05,
-      "loss": 0.1486,
-      "step": 4000
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 1.4009339559706471e-05,
-      "loss": 0.2056,
-      "step": 4500
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 1.3342228152101402e-05,
-      "loss": 0.1911,
-      "step": 5000
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 2.493464231491089,
-      "eval_runtime": 1867.8035,
-      "eval_samples_per_second": 1.338,
-      "eval_steps_per_second": 0.168,
-      "step": 5000
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 1.2675116744496331e-05,
-      "loss": 0.1399,
-      "step": 5500
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 1.2008005336891262e-05,
-      "loss": 0.173,
-      "step": 6000
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 1.1340893929286192e-05,
-      "loss": 0.107,
-      "step": 6500
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 1.0673782521681123e-05,
-      "loss": 0.146,
-      "step": 7000
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 1.0006671114076052e-05,
-      "loss": 0.1157,
-      "step": 7500
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 9.339559706470981e-06,
-      "loss": 0.0823,
-      "step": 8000
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 8.67244829886591e-06,
-      "loss": 0.1076,
-      "step": 8500
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 8.005336891260842e-06,
-      "loss": 0.0775,
-      "step": 9000
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 7.338225483655771e-06,
-      "loss": 0.095,
-      "step": 9500
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 6.671114076050701e-06,
-      "loss": 0.0749,
-      "step": 10000
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 2.147020101547241,
-      "eval_runtime": 1887.6613,
-      "eval_samples_per_second": 1.324,
-      "eval_steps_per_second": 0.166,
-      "step": 10000
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 6.004002668445631e-06,
-      "loss": 0.1234,
-      "step": 10500
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 5.336891260840561e-06,
-      "loss": 0.085,
-      "step": 11000
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 4.669779853235491e-06,
-      "loss": 0.062,
-      "step": 11500
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 4.002668445630421e-06,
-      "loss": 0.0709,
-      "step": 12000
-    },
-    {
-      "epoch": 2.5,
-      "learning_rate": 3.3355570380253505e-06,
-      "loss": 0.0731,
-      "step": 12500
-    },
-    {
-      "epoch": 2.6,
-      "learning_rate": 2.6684456304202807e-06,
-      "loss": 0.0686,
-      "step": 13000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 15000,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 2.20088095899648e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2,
   "eval_steps": 500,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.2,
+      "learning_rate": 1.869158878504673e-05,
+      "loss": 0.4912,
+      "step": 500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 7500,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 846525235200000.0,
   "trial_name": null,
   "trial_params": null
 }