Training in progress, step 330000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:229a42ebe682c3ef3fa77824f414f8052ce22269902d2cf833bbceae01b4ee94
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:a22ef790a0c2f4f62e66619584ea27ceb6ef6b7c3985ca2d9f4be0901d33fb7e
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2234ce12404bc4801fab809254f08127bd71fca09a8dab3e0c720a225f0006ed
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:91c8cb7bfe62bed4ad754b48993f10b7da9c98b6075ef529d78d9d2d0a013fff
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b54a8c5749446bd4a65592cc408c92cd1c1a63789b632ec709bae613de880e8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d377ee122e46b8fa76b1d2b74be365b9135d1e8e6cede7fa0fe3ff751bb7334
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e12e956d2c1594d69772425e394d5c7340f5558535a744e143a62985c9f6b3a
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a10a546cee3b4518e4cb32764590234884d4cbc2be79dd9856924e21cdd3fd8
+size 14567

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5034bb9708a34c35b3368c1e0fff63513e2cb5f1c0dd56fffa0328312b7e4831
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a33a6a869db9bf49441e17af5679e56376e6e829633250eded5937f47c2020aa
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e06a3dca10a2bccff3cb0c6a7b393b12b0f08503dc63d7b7533eeb15ed495c6
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:03c277499f6406d581d5a424d585bc71aa0cb5fc2c33d575b72b1f53a009a2c5
+size 14567

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a94f09290bc683f43d0869ce2fa5f9751184b5e70371828d250a3714d35fe40
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b59b474b08b06647b657ae7d97ae9d06a436e1b6da58f15374f2b25278144cf8
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4915e195da15bfd64d34239234d248cd0ab1ad7df671f2845974753597da8bc3
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d0b7236bb0eefa8365b0f6eccaff3b57014a0d4fca20545eaa932daadd82f47
+size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057d8e4139ad7708d7871dd8361365fbd9951b2ae3daf5aded867e56c2fe457c
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ec7b72e871e355904aa3d42031ed74fefb8d0ce9e7a1a82df41ead92a13bbee
 size 14439

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7115cc7cbcc32a343bb9b4e7b15f1fa12bd3bb61d63d5248eaa0a65935d6e80c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a490aaf46199ae217198d1b46bb5a0022da5901da5b5a0d9b96059f1a94a188
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5673377a057c7734bd1a0ee14d972f6f3bfc67bb8208ac49ae618347d18d616b
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:636cb28fce30ad56f68aface20193360fd815697da4c2ec39f5ca647b5e6b45b
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.804221943074236,
-  "global_step": 320000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6406,11 +6406,211 @@
       "eval_samples_per_second": 2004.192,
       "eval_steps_per_second": 32.067,
       "step": 320000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.0223516549216217e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.110603878795306,
+  "global_step": 330000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2004.192,
       "eval_steps_per_second": 32.067,
       "step": 320000
+    },
+    {
+      "epoch": 9.82,
+      "learning_rate": 0.00010073144655927253,
+      "loss": 0.3273,
+      "step": 320500
+    },
+    {
+      "epoch": 9.83,
+      "learning_rate": 0.0001002870876838929,
+      "loss": 0.3276,
+      "step": 321000
+    },
+    {
+      "epoch": 9.83,
+      "eval_loss": 0.7801169157028198,
+      "eval_runtime": 0.505,
+      "eval_samples_per_second": 1980.071,
+      "eval_steps_per_second": 31.681,
+      "step": 321000
+    },
+    {
+      "epoch": 9.85,
+      "learning_rate": 9.984332714015662e-05,
+      "loss": 0.3272,
+      "step": 321500
+    },
+    {
+      "epoch": 9.87,
+      "learning_rate": 9.94001697809578e-05,
+      "loss": 0.3273,
+      "step": 322000
+    },
+    {
+      "epoch": 9.87,
+      "eval_loss": 0.7831940650939941,
+      "eval_runtime": 0.5116,
+      "eval_samples_per_second": 1954.711,
+      "eval_steps_per_second": 31.275,
+      "step": 322000
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 9.895762045259445e-05,
+      "loss": 0.3274,
+      "step": 322500
+    },
+    {
+      "epoch": 9.9,
+      "learning_rate": 9.851568399471498e-05,
+      "loss": 0.3277,
+      "step": 323000
+    },
+    {
+      "epoch": 9.9,
+      "eval_loss": 0.7861186265945435,
+      "eval_runtime": 0.4926,
+      "eval_samples_per_second": 2030.062,
+      "eval_steps_per_second": 32.481,
+      "step": 323000
+    },
+    {
+      "epoch": 9.91,
+      "learning_rate": 9.807436524026574e-05,
+      "loss": 0.3275,
+      "step": 323500
+    },
+    {
+      "epoch": 9.93,
+      "learning_rate": 9.763366901543801e-05,
+      "loss": 0.3269,
+      "step": 324000
+    },
+    {
+      "epoch": 9.93,
+      "eval_loss": 0.7829710841178894,
+      "eval_runtime": 0.5448,
+      "eval_samples_per_second": 1835.417,
+      "eval_steps_per_second": 29.367,
+      "step": 324000
+    },
+    {
+      "epoch": 9.94,
+      "learning_rate": 9.719360013961495e-05,
+      "loss": 0.3269,
+      "step": 324500
+    },
+    {
+      "epoch": 9.96,
+      "learning_rate": 9.675416342531944e-05,
+      "loss": 0.3269,
+      "step": 325000
+    },
+    {
+      "epoch": 9.96,
+      "eval_loss": 0.7878097891807556,
+      "eval_runtime": 0.4984,
+      "eval_samples_per_second": 2006.57,
+      "eval_steps_per_second": 32.105,
+      "step": 325000
+    },
+    {
+      "epoch": 9.97,
+      "learning_rate": 9.631536367816086e-05,
+      "loss": 0.3282,
+      "step": 325500
+    },
+    {
+      "epoch": 9.99,
+      "learning_rate": 9.587720569678299e-05,
+      "loss": 0.3267,
+      "step": 326000
+    },
+    {
+      "epoch": 9.99,
+      "eval_loss": 0.7815366387367249,
+      "eval_runtime": 0.5069,
+      "eval_samples_per_second": 1972.941,
+      "eval_steps_per_second": 31.567,
+      "step": 326000
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 9.543969427281131e-05,
+      "loss": 0.3268,
+      "step": 326500
+    },
+    {
+      "epoch": 10.02,
+      "learning_rate": 9.500283419080062e-05,
+      "loss": 0.3269,
+      "step": 327000
+    },
+    {
+      "epoch": 10.02,
+      "eval_loss": 0.7789347767829895,
+      "eval_runtime": 0.5192,
+      "eval_samples_per_second": 1925.943,
+      "eval_steps_per_second": 30.815,
+      "step": 327000
+    },
+    {
+      "epoch": 10.03,
+      "learning_rate": 9.45666302281829e-05,
+      "loss": 0.3268,
+      "step": 327500
+    },
+    {
+      "epoch": 10.05,
+      "learning_rate": 9.413108715521467e-05,
+      "loss": 0.3266,
+      "step": 328000
+    },
+    {
+      "epoch": 10.05,
+      "eval_loss": 0.7733815908432007,
+      "eval_runtime": 0.5128,
+      "eval_samples_per_second": 1950.206,
+      "eval_steps_per_second": 31.203,
+      "step": 328000
+    },
+    {
+      "epoch": 10.06,
+      "learning_rate": 9.369620973492525e-05,
+      "loss": 0.3265,
+      "step": 328500
+    },
+    {
+      "epoch": 10.08,
+      "learning_rate": 9.326200272306445e-05,
+      "loss": 0.3262,
+      "step": 329000
+    },
+    {
+      "epoch": 10.08,
+      "eval_loss": 0.7761348485946655,
+      "eval_runtime": 0.5067,
+      "eval_samples_per_second": 1973.572,
+      "eval_steps_per_second": 31.577,
+      "step": 329000
+    },
+    {
+      "epoch": 10.1,
+      "learning_rate": 9.282847086805059e-05,
+      "loss": 0.3267,
+      "step": 329500
+    },
+    {
+      "epoch": 10.11,
+      "learning_rate": 9.239561891091853e-05,
+      "loss": 0.3264,
+      "step": 330000
+    },
+    {
+      "epoch": 10.11,
+      "eval_loss": 0.7795162200927734,
+      "eval_runtime": 0.5194,
+      "eval_samples_per_second": 1925.383,
+      "eval_steps_per_second": 30.806,
+      "step": 330000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.0542995700038742e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2234ce12404bc4801fab809254f08127bd71fca09a8dab3e0c720a225f0006ed
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:91c8cb7bfe62bed4ad754b48993f10b7da9c98b6075ef529d78d9d2d0a013fff
 size 102501541