Training in progress, step 250000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dd6a017b241710845a02e0580947768eef1dfbc1f0827d4a1cd087465f14ae0
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3ab9dc056c74cdf5d65dc3a03d7bd30aade58ae1e720539569500f125901ec6
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08123eb498e0376035cfc13e99904da381c8fd27d56ad427569e3314a31c3e52
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:b912672be50d1a4d1c80a97a69c79548a9895fd6edfdbc5e52d33a97a1f00535
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a310455c0ab00dbcb4f4c26c03e0304d748fbc8c3e547006fb15346d32ac70da
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:438f3db980ad0547f739432602e1f85cc46b6fbef312b9261fd3b355ceeb97af
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.116519700290534,
-  "global_step": 240000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4806,11 +4806,211 @@
       "eval_samples_per_second": 777.28,
       "eval_steps_per_second": 12.436,
       "step": 240000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
-  "total_flos": 7.66761045710973e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.37137468780264,
+  "global_step": 250000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 777.28,
       "eval_steps_per_second": 12.436,
       "step": 240000
+    },
+    {
+      "epoch": 6.13,
+      "learning_rate": 0.00017602390554989563,
+      "loss": 0.2885,
+      "step": 240500
+    },
+    {
+      "epoch": 6.14,
+      "learning_rate": 0.0001755493522675115,
+      "loss": 0.2899,
+      "step": 241000
+    },
+    {
+      "epoch": 6.14,
+      "eval_loss": 0.8203925490379333,
+      "eval_runtime": 1.3437,
+      "eval_samples_per_second": 744.194,
+      "eval_steps_per_second": 11.907,
+      "step": 241000
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 0.00017507457426070317,
+      "loss": 0.2894,
+      "step": 241500
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 0.00017459957672156704,
+      "loss": 0.2894,
+      "step": 242000
+    },
+    {
+      "epoch": 6.17,
+      "eval_loss": 0.8142299652099609,
+      "eval_runtime": 1.2947,
+      "eval_samples_per_second": 772.387,
+      "eval_steps_per_second": 12.358,
+      "step": 242000
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 0.00017412436484459998,
+      "loss": 0.2896,
+      "step": 242500
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 0.00017364894382664297,
+      "loss": 0.2893,
+      "step": 243000
+    },
+    {
+      "epoch": 6.19,
+      "eval_loss": 0.8166674971580505,
+      "eval_runtime": 1.2594,
+      "eval_samples_per_second": 794.0,
+      "eval_steps_per_second": 12.704,
+      "step": 243000
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 0.00017317331886682408,
+      "loss": 0.2887,
+      "step": 243500
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 0.0001726974951665017,
+      "loss": 0.2883,
+      "step": 244000
+    },
+    {
+      "epoch": 6.22,
+      "eval_loss": 0.8151687979698181,
+      "eval_runtime": 1.3439,
+      "eval_samples_per_second": 744.094,
+      "eval_steps_per_second": 11.905,
+      "step": 244000
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 0.0001722214779292076,
+      "loss": 0.2884,
+      "step": 244500
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 0.00017174527236058998,
+      "loss": 0.2882,
+      "step": 245000
+    },
+    {
+      "epoch": 6.24,
+      "eval_loss": 0.8129110336303711,
+      "eval_runtime": 1.2934,
+      "eval_samples_per_second": 773.156,
+      "eval_steps_per_second": 12.371,
+      "step": 245000
+    },
+    {
+      "epoch": 6.26,
+      "learning_rate": 0.00017126888366835662,
+      "loss": 0.2879,
+      "step": 245500
+    },
+    {
+      "epoch": 6.27,
+      "learning_rate": 0.000170792317062218,
+      "loss": 0.2883,
+      "step": 246000
+    },
+    {
+      "epoch": 6.27,
+      "eval_loss": 0.8146284222602844,
+      "eval_runtime": 1.2384,
+      "eval_samples_per_second": 807.487,
+      "eval_steps_per_second": 12.92,
+      "step": 246000
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 0.00017031557775383011,
+      "loss": 0.2883,
+      "step": 246500
+    },
+    {
+      "epoch": 6.29,
+      "learning_rate": 0.0001698386709567377,
+      "loss": 0.2886,
+      "step": 247000
+    },
+    {
+      "epoch": 6.29,
+      "eval_loss": 0.8157382607460022,
+      "eval_runtime": 1.2484,
+      "eval_samples_per_second": 801.025,
+      "eval_steps_per_second": 12.816,
+      "step": 247000
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 0.0001693616018863171,
+      "loss": 0.2891,
+      "step": 247500
+    },
+    {
+      "epoch": 6.32,
+      "learning_rate": 0.00016888437575971913,
+      "loss": 0.2886,
+      "step": 248000
+    },
+    {
+      "epoch": 6.32,
+      "eval_loss": 0.8171519041061401,
+      "eval_runtime": 1.2819,
+      "eval_samples_per_second": 780.066,
+      "eval_steps_per_second": 12.481,
+      "step": 248000
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 0.00016840699779581238,
+      "loss": 0.2879,
+      "step": 248500
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 0.00016792947321512573,
+      "loss": 0.2885,
+      "step": 249000
+    },
+    {
+      "epoch": 6.35,
+      "eval_loss": 0.82103031873703,
+      "eval_runtime": 1.2758,
+      "eval_samples_per_second": 783.796,
+      "eval_steps_per_second": 12.541,
+      "step": 249000
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 0.00016745180723979144,
+      "loss": 0.2879,
+      "step": 249500
+    },
+    {
+      "epoch": 6.37,
+      "learning_rate": 0.00016697400509348818,
+      "loss": 0.2886,
+      "step": 250000
+    },
+    {
+      "epoch": 6.37,
+      "eval_loss": 0.8212683200836182,
+      "eval_runtime": 1.2677,
+      "eval_samples_per_second": 788.807,
+      "eval_steps_per_second": 12.621,
+      "step": 250000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
+  "total_flos": 7.98709759588423e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08123eb498e0376035cfc13e99904da381c8fd27d56ad427569e3314a31c3e52
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:b912672be50d1a4d1c80a97a69c79548a9895fd6edfdbc5e52d33a97a1f00535
 size 102501541