Training in progress, step 260000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/rng_state_4.pth +2 -2
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9c431c8ac0b934898a38cd62a12706d8ab0fc93577c4e6844d7870ae6512e7f
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:66c0b735c70ca1ca003eab9d686d7e3ea552331bf016385c8fad2dfe60c740ac
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36871e0a0236345a131fc6413f45a963c57827bc4a63fc490f54666ca02cdc4f
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8e8c193ef48de967d7501e0b15a06f4b379c56e8efdf426bfb091824f5c716b
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66f8a69dfc02c488bc648729ef9bad2ca2a24c53ab78fef957c6f965ce64fa70
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:89edb9f9ff26027cc98aa82c2133f2e1b82d5b92ed39de235eb4cb2271e68c3d
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f85e11280175f8d49e58ca2c243b97ecb329b334e32f849def115ac8e9089484
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:54ee6f005be263ffc1028eeae009e64fa85afa0eb3360fe9f44a8e6025237de1
+size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f308a322446c83c7ff8ca339af44e90f317ca3e4bc00bec09d3fca34b1bd288
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3500ada53b759cb5c8307ed7d4c05bb6055c04f57f48c3b210c40f88bacd59f
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b730665b8791d2a5bb5ca82f14abbe6976f10590220fbbf30dfd68881b966e88
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9805eeb18ee0853d0258572c1ad542ff4bc6ff2393ff8df1da096af07bacd6d
+size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:896821ffe540c0e03a6707d24bb82c6126a1dd196a3f95efa94bb655e9f2789a
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b00333ce97a5a96a0369400120eb38a7bfd7ee5df94e91c7d6993e0e7f5524ba
+size 14439

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bf3b1113ea18a94bc71b301c56b529f1a0a69f16d8397dc90d5d9cb24b83265
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4802de77ca51e4efac2063b9b4a2ac08f4acde74a027da9b43cf90af44cf0108
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7202c113cacd346ee4859b578e536f19b58145065a28d3ad52e00f885db71f7e
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f2a04b63259c1a14b093267b1fd26d6b21fab4af2fc765329473d9fca239907
 size 14439

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d7c35cdfe9dea2fc398ff2f4cb9aef06694dd8b7b25c155eaae9f938d26d546
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f74dc2cbdc738c6fbf513addd5269b878530a18e75ada83dcaec9120da52354f
+size 14439

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:438f3db980ad0547f739432602e1f85cc46b6fbef312b9261fd3b355ceeb97af
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b7fe86b6bf62db9f7989d6e264b9b70447a29a8d4bbea419af77ab1989ca356
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.659548393026747,
-  "global_step": 250000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5006,11 +5006,211 @@
       "eval_samples_per_second": 1847.755,
       "eval_steps_per_second": 29.564,
       "step": 250000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 7.987122553698669e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.965930328747817,
+  "global_step": 260000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1847.755,
       "eval_steps_per_second": 29.564,
       "step": 250000
+    },
+    {
+      "epoch": 7.67,
+      "learning_rate": 0.00016649607200138356,
+      "loss": 0.3383,
+      "step": 250500
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 0.00016601801319007743,
+      "loss": 0.3382,
+      "step": 251000
+    },
+    {
+      "epoch": 7.69,
+      "eval_loss": 0.782693088054657,
+      "eval_runtime": 0.5248,
+      "eval_samples_per_second": 1905.624,
+      "eval_steps_per_second": 30.49,
+      "step": 251000
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 0.00016553983388754428,
+      "loss": 0.3381,
+      "step": 251500
+    },
+    {
+      "epoch": 7.72,
+      "learning_rate": 0.00016506153932307636,
+      "loss": 0.3377,
+      "step": 252000
+    },
+    {
+      "epoch": 7.72,
+      "eval_loss": 0.7844077944755554,
+      "eval_runtime": 0.5281,
+      "eval_samples_per_second": 1893.751,
+      "eval_steps_per_second": 30.3,
+      "step": 252000
+    },
+    {
+      "epoch": 7.74,
+      "learning_rate": 0.00016458313472722638,
+      "loss": 0.3376,
+      "step": 252500
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 0.00016410462533175045,
+      "loss": 0.3377,
+      "step": 253000
+    },
+    {
+      "epoch": 7.75,
+      "eval_loss": 0.7837400436401367,
+      "eval_runtime": 0.5195,
+      "eval_samples_per_second": 1924.894,
+      "eval_steps_per_second": 30.798,
+      "step": 253000
+    },
+    {
+      "epoch": 7.77,
+      "learning_rate": 0.00016362601636955049,
+      "loss": 0.3378,
+      "step": 253500
+    },
+    {
+      "epoch": 7.78,
+      "learning_rate": 0.00016314731307461754,
+      "loss": 0.3377,
+      "step": 254000
+    },
+    {
+      "epoch": 7.78,
+      "eval_loss": 0.7803494930267334,
+      "eval_runtime": 0.5126,
+      "eval_samples_per_second": 1950.683,
+      "eval_steps_per_second": 31.211,
+      "step": 254000
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 0.0001626685206819742,
+      "loss": 0.3376,
+      "step": 254500
+    },
+    {
+      "epoch": 7.81,
+      "learning_rate": 0.0001621896444276172,
+      "loss": 0.337,
+      "step": 255000
+    },
+    {
+      "epoch": 7.81,
+      "eval_loss": 0.7785842418670654,
+      "eval_runtime": 0.5059,
+      "eval_samples_per_second": 1976.634,
+      "eval_steps_per_second": 31.626,
+      "step": 255000
+    },
+    {
+      "epoch": 7.83,
+      "learning_rate": 0.00016171068954846067,
+      "loss": 0.3373,
+      "step": 255500
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 0.00016123166128227835,
+      "loss": 0.3372,
+      "step": 256000
+    },
+    {
+      "epoch": 7.84,
+      "eval_loss": 0.7810379266738892,
+      "eval_runtime": 0.5109,
+      "eval_samples_per_second": 1957.233,
+      "eval_steps_per_second": 31.316,
+      "step": 256000
+    },
+    {
+      "epoch": 7.86,
+      "learning_rate": 0.0001607525648676467,
+      "loss": 0.3368,
+      "step": 256500
+    },
+    {
+      "epoch": 7.87,
+      "learning_rate": 0.0001602734055438873,
+      "loss": 0.337,
+      "step": 257000
+    },
+    {
+      "epoch": 7.87,
+      "eval_loss": 0.7789760828018188,
+      "eval_runtime": 0.541,
+      "eval_samples_per_second": 1848.491,
+      "eval_steps_per_second": 29.576,
+      "step": 257000
+    },
+    {
+      "epoch": 7.89,
+      "learning_rate": 0.00015979418855100963,
+      "loss": 0.3367,
+      "step": 257500
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 0.00015931491912965417,
+      "loss": 0.3366,
+      "step": 258000
+    },
+    {
+      "epoch": 7.9,
+      "eval_loss": 0.7777426838874817,
+      "eval_runtime": 0.5219,
+      "eval_samples_per_second": 1916.204,
+      "eval_steps_per_second": 30.659,
+      "step": 258000
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 0.0001588356025210344,
+      "loss": 0.3369,
+      "step": 258500
+    },
+    {
+      "epoch": 7.94,
+      "learning_rate": 0.00015835624396688,
+      "loss": 0.3364,
+      "step": 259000
+    },
+    {
+      "epoch": 7.94,
+      "eval_loss": 0.7759175300598145,
+      "eval_runtime": 0.5164,
+      "eval_samples_per_second": 1936.553,
+      "eval_steps_per_second": 30.985,
+      "step": 259000
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 0.00015787684870937924,
+      "loss": 0.3364,
+      "step": 259500
+    },
+    {
+      "epoch": 7.97,
+      "learning_rate": 0.00015739742199112196,
+      "loss": 0.3364,
+      "step": 260000
+    },
+    {
+      "epoch": 7.97,
+      "eval_loss": 0.7805649638175964,
+      "eval_runtime": 0.5211,
+      "eval_samples_per_second": 1919.019,
+      "eval_steps_per_second": 30.704,
+      "step": 260000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 8.306609692473169e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36871e0a0236345a131fc6413f45a963c57827bc4a63fc490f54666ca02cdc4f
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8e8c193ef48de967d7501e0b15a06f4b379c56e8efdf426bfb091824f5c716b
 size 102501541