Training in progress, step 50000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60cb01bc9e67975e1bb1ed22126a2e438f937a6615e57c3f2220be60495920b2
 size 202193937

 version https://git-lfs.github.com/spec/v1
+oid sha256:23ff89d2a81bd757315b81207676f44c6832e84aae635f046c3e647c3040b483
 size 202193937

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fe754e765d5235d6d33bcfe88cdb3a933ccbfc6b7ea5ab60542395d9d85e684
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2aabbbc7ed5c34ff08e86aca48f8310b460422b65244f1250c9b83aff072675
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24c2467e9acf06a94a3ca165e312978b81f51dda2e7f32b8607c9d3f773c46e2
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d79bfab61db4aceee2eb018ca16c6d4240f46f1f2f65a7d0758ecdb28fb7c5ff
+size 14439

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f10426f56c7c01ca78fb77f1b5bd9d6f429ab8feed08a9636c7f90c77533d382
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d41251322a5c7e3d079b6606a53e326a7bb151cabc9051e0857ad86ba9d2a108
+size 14439

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50c64be9bba64fb9b54421cbdb5d49bbf62e8dede6378e3090056f6fda12cc3b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba57e5623e2946c142c99b408508d7eb57876cf791e80cad946e566180db53c3
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15fb56fed836ca09e88803cfd50127dd08d2e98851e7cca02b6a5cfa6f8d7f94
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:864755d58f82608f1190822ec9564d234220e4c5990982be3ccbb807c5a0be73
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c328439be9bb4cea23920597b019c57083a44b1906a345c7adf7efb277d292f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e60e4e496eff781a98bdb365b0f44c5af8c43d94935dec1bfea72243fe40e318
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdb4fabc1b2d87119cb5ed67a0ca4df3e9e1c5d3ea269627d2e42cc2977023fd
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f14620f77e9f29a7b2fc64f011dd315353254d0795197f0559b275ff978e16d
+size 14439

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15fb56fed836ca09e88803cfd50127dd08d2e98851e7cca02b6a5cfa6f8d7f94
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:76ce42d7854aed6ba8f7821d926516d66fdbe5198bf7a96423e32af1d108a944
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ba5ebd9e984982fc400bda128508420216070834c053705f8708435245bde3f
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:2462e5ce80c7440f25a48dc31b2625ee60dfa64106981368292a46775f568768
+size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a74054da3729955ad5eacae83f875e2df84ec7d4ca3ed3437d6f2cf84557171f
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ec5c60f6b831a1ad5ababd554115ca1132f641d196d63d42183ef95c8827963
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2255277428842795,
-  "global_step": 40000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -806,11 +806,211 @@
       "eval_samples_per_second": 1858.547,
       "eval_steps_per_second": 29.737,
       "step": 40000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.2779405671460241e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5319096786053494,
+  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1858.547,
       "eval_steps_per_second": 29.737,
       "step": 40000
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00029923873905521244,
+      "loss": 0.4471,
+      "step": 40500
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.000299188879869657,
+      "loss": 0.446,
+      "step": 41000
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.7949715852737427,
+      "eval_runtime": 0.5157,
+      "eval_samples_per_second": 1939.022,
+      "eval_steps_per_second": 31.024,
+      "step": 41000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00029913744385761244,
+      "loss": 0.4446,
+      "step": 41500
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00029908443158157465,
+      "loss": 0.4437,
+      "step": 42000
+    },
+    {
+      "epoch": 1.29,
+      "eval_loss": 0.7941656112670898,
+      "eval_runtime": 0.5261,
+      "eval_samples_per_second": 1900.807,
+      "eval_steps_per_second": 30.413,
+      "step": 42000
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0002990298436212775,
+      "loss": 0.4422,
+      "step": 42500
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0002989736805736861,
+      "loss": 0.4413,
+      "step": 43000
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.7861095666885376,
+      "eval_runtime": 0.5221,
+      "eval_samples_per_second": 1915.408,
+      "eval_steps_per_second": 30.647,
+      "step": 43000
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00029891594305299065,
+      "loss": 0.44,
+      "step": 43500
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00029885663169059926,
+      "loss": 0.4391,
+      "step": 44000
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.7935870289802551,
+      "eval_runtime": 0.5329,
+      "eval_samples_per_second": 1876.586,
+      "eval_steps_per_second": 30.025,
+      "step": 44000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0002987957471351316,
+      "loss": 0.4378,
+      "step": 44500
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00029873329005241137,
+      "loss": 0.4366,
+      "step": 45000
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 0.7878534197807312,
+      "eval_runtime": 0.5149,
+      "eval_samples_per_second": 1941.994,
+      "eval_steps_per_second": 31.072,
+      "step": 45000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00029866926112545925,
+      "loss": 0.4355,
+      "step": 45500
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00029860366105448534,
+      "loss": 0.4342,
+      "step": 46000
+    },
+    {
+      "epoch": 1.41,
+      "eval_loss": 0.7861126661300659,
+      "eval_runtime": 0.5143,
+      "eval_samples_per_second": 1944.264,
+      "eval_steps_per_second": 31.108,
+      "step": 46000
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00029853649055688143,
+      "loss": 0.4333,
+      "step": 46500
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00029846775036721337,
+      "loss": 0.432,
+      "step": 47000
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 0.7865832448005676,
+      "eval_runtime": 0.5183,
+      "eval_samples_per_second": 1929.412,
+      "eval_steps_per_second": 30.871,
+      "step": 47000
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0002983974412372129,
+      "loss": 0.4308,
+      "step": 47500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00029832556393576934,
+      "loss": 0.4297,
+      "step": 48000
+    },
+    {
+      "epoch": 1.47,
+      "eval_loss": 0.777747392654419,
+      "eval_runtime": 0.527,
+      "eval_samples_per_second": 1897.653,
+      "eval_steps_per_second": 30.362,
+      "step": 48000
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0002982521192489214,
+      "loss": 0.4288,
+      "step": 48500
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0002981771079798483,
+      "loss": 0.4278,
+      "step": 49000
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.7763716578483582,
+      "eval_runtime": 0.5211,
+      "eval_samples_per_second": 1919.193,
+      "eval_steps_per_second": 30.707,
+      "step": 49000
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00029810053094886136,
+      "loss": 0.4269,
+      "step": 49500
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00029802238899339473,
+      "loss": 0.4258,
+      "step": 50000
+    },
+    {
+      "epoch": 1.53,
+      "eval_loss": 0.7902368307113647,
+      "eval_runtime": 0.5206,
+      "eval_samples_per_second": 1920.725,
+      "eval_steps_per_second": 30.732,
+      "step": 50000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.597427705920524e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fe754e765d5235d6d33bcfe88cdb3a933ccbfc6b7ea5ab60542395d9d85e684
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2aabbbc7ed5c34ff08e86aca48f8310b460422b65244f1250c9b83aff072675
 size 102501541