Training in progress, step 270000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a6cf8e52153476c0d24566862211ae73b151847958bccb312e482641f34fe2f
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0f45e9ea7aeadf9f10b1643bf00c0b8ef58ef51944d08e1b0ad72f902bd82cd
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20d31269cc8100e5fc218adcef1522ff7b0dd07e50b44819d9df2a65286c8129
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1752842aa50d3948c8a46f98f668fd33584b25521cc864747236962908637e8
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d20a1051f008a83adbc4c881b4baac5cd60ff30165ed01dcd9fea7e631712e7d
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d20a1051f008a83adbc4c881b4baac5cd60ff30165ed01dcd9fea7e631712e7d
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d20a1051f008a83adbc4c881b4baac5cd60ff30165ed01dcd9fea7e631712e7d
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d20a1051f008a83adbc4c881b4baac5cd60ff30165ed01dcd9fea7e631712e7d
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d20a1051f008a83adbc4c881b4baac5cd60ff30165ed01dcd9fea7e631712e7d
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d20a1051f008a83adbc4c881b4baac5cd60ff30165ed01dcd9fea7e631712e7d
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d20a1051f008a83adbc4c881b4baac5cd60ff30165ed01dcd9fea7e631712e7d
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d20a1051f008a83adbc4c881b4baac5cd60ff30165ed01dcd9fea7e631712e7d
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b7fe86b6bf62db9f7989d6e264b9b70447a29a8d4bbea419af77ab1989ca356
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cb61348726887e329b19406ea4e3e39ac391edeec6dfd8508b3cb524aa33e28
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.626229675314746,
-  "global_step": 260000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5206,11 +5206,211 @@
       "eval_samples_per_second": 748.473,
       "eval_steps_per_second": 11.976,
       "step": 260000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
-  "total_flos": 8.30658473465873e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.881084662826852,
+  "global_step": 270000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 748.473,
       "eval_steps_per_second": 11.976,
       "step": 260000
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 0.00015691796905504187,
+      "loss": 0.2862,
+      "step": 260500
+    },
+    {
+      "epoch": 6.65,
+      "learning_rate": 0.00015643849514435944,
+      "loss": 0.2871,
+      "step": 261000
+    },
+    {
+      "epoch": 6.65,
+      "eval_loss": 0.8193889260292053,
+      "eval_runtime": 1.2087,
+      "eval_samples_per_second": 827.32,
+      "eval_steps_per_second": 13.237,
+      "step": 261000
+    },
+    {
+      "epoch": 6.66,
+      "learning_rate": 0.00015595900550252463,
+      "loss": 0.2867,
+      "step": 261500
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 0.00015547950537315926,
+      "loss": 0.2863,
+      "step": 262000
+    },
+    {
+      "epoch": 6.68,
+      "eval_loss": 0.8058978319168091,
+      "eval_runtime": 1.2707,
+      "eval_samples_per_second": 786.99,
+      "eval_steps_per_second": 12.592,
+      "step": 262000
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 0.00015499999999999997,
+      "loss": 0.2862,
+      "step": 262500
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 0.00015452049462684068,
+      "loss": 0.2864,
+      "step": 263000
+    },
+    {
+      "epoch": 6.7,
+      "eval_loss": 0.8194664120674133,
+      "eval_runtime": 1.2245,
+      "eval_samples_per_second": 816.647,
+      "eval_steps_per_second": 13.066,
+      "step": 263000
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 0.00015404099449747535,
+      "loss": 0.2861,
+      "step": 263500
+    },
+    {
+      "epoch": 6.73,
+      "learning_rate": 0.0001535615048556405,
+      "loss": 0.2863,
+      "step": 264000
+    },
+    {
+      "epoch": 6.73,
+      "eval_loss": 0.8099100589752197,
+      "eval_runtime": 1.2591,
+      "eval_samples_per_second": 794.217,
+      "eval_steps_per_second": 12.707,
+      "step": 264000
+    },
+    {
+      "epoch": 6.74,
+      "learning_rate": 0.0001530820309449581,
+      "loss": 0.2861,
+      "step": 264500
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 0.00015260257800887798,
+      "loss": 0.2868,
+      "step": 265000
+    },
+    {
+      "epoch": 6.75,
+      "eval_loss": 0.8127309679985046,
+      "eval_runtime": 1.3337,
+      "eval_samples_per_second": 749.803,
+      "eval_steps_per_second": 11.997,
+      "step": 265000
+    },
+    {
+      "epoch": 6.77,
+      "learning_rate": 0.0001521231512906207,
+      "loss": 0.2868,
+      "step": 265500
+    },
+    {
+      "epoch": 6.78,
+      "learning_rate": 0.00015164375603311998,
+      "loss": 0.2863,
+      "step": 266000
+    },
+    {
+      "epoch": 6.78,
+      "eval_loss": 0.806861162185669,
+      "eval_runtime": 1.2726,
+      "eval_samples_per_second": 785.768,
+      "eval_steps_per_second": 12.572,
+      "step": 266000
+    },
+    {
+      "epoch": 6.79,
+      "learning_rate": 0.00015116439747896553,
+      "loss": 0.2856,
+      "step": 266500
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 0.00015068508087034578,
+      "loss": 0.2854,
+      "step": 267000
+    },
+    {
+      "epoch": 6.8,
+      "eval_loss": 0.8032740354537964,
+      "eval_runtime": 1.28,
+      "eval_samples_per_second": 781.242,
+      "eval_steps_per_second": 12.5,
+      "step": 267000
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 0.00015020581144899027,
+      "loss": 0.2857,
+      "step": 267500
+    },
+    {
+      "epoch": 6.83,
+      "learning_rate": 0.0001497265944561127,
+      "loss": 0.2855,
+      "step": 268000
+    },
+    {
+      "epoch": 6.83,
+      "eval_loss": 0.8096611499786377,
+      "eval_runtime": 1.2917,
+      "eval_samples_per_second": 774.163,
+      "eval_steps_per_second": 12.387,
+      "step": 268000
+    },
+    {
+      "epoch": 6.84,
+      "learning_rate": 0.00014924743513235327,
+      "loss": 0.2856,
+      "step": 268500
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 0.0001487683387177216,
+      "loss": 0.2864,
+      "step": 269000
+    },
+    {
+      "epoch": 6.86,
+      "eval_loss": 0.8095938563346863,
+      "eval_runtime": 1.2896,
+      "eval_samples_per_second": 775.42,
+      "eval_steps_per_second": 12.407,
+      "step": 269000
+    },
+    {
+      "epoch": 6.87,
+      "learning_rate": 0.00014828931045153928,
+      "loss": 0.2857,
+      "step": 269500
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 0.00014781035557238272,
+      "loss": 0.2865,
+      "step": 270000
+    },
+    {
+      "epoch": 6.88,
+      "eval_loss": 0.8193797469139099,
+      "eval_runtime": 1.2225,
+      "eval_samples_per_second": 817.974,
+      "eval_steps_per_second": 13.088,
+      "step": 270000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
+  "total_flos": 8.62607187343323e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20d31269cc8100e5fc218adcef1522ff7b0dd07e50b44819d9df2a65286c8129
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1752842aa50d3948c8a46f98f668fd33584b25521cc864747236962908637e8
 size 102501541