Training in progress, step 270000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66c0b735c70ca1ca003eab9d686d7e3ea552331bf016385c8fad2dfe60c740ac
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:185444010f2414af8f6b292f79fa769076772990bf1219a1dafd09b6faae29a4
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8e8c193ef48de967d7501e0b15a06f4b379c56e8efdf426bfb091824f5c716b
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:94365aa60c35fc7ec52e5e8ba19311622aaab34d18bf7ce3dd77401881509519
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89edb9f9ff26027cc98aa82c2133f2e1b82d5b92ed39de235eb4cb2271e68c3d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6f6ae6faade50eb043968b5667df29128b1e4a2530013bd32474d5a36afc850
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54ee6f005be263ffc1028eeae009e64fa85afa0eb3360fe9f44a8e6025237de1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cc3f7b88227092a0043ff66b55085eb9bd377bb70cc891cc293b48f870db21f
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3500ada53b759cb5c8307ed7d4c05bb6055c04f57f48c3b210c40f88bacd59f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f3a5a051f0b0618eb7cb1692de034b0ac1fd365c0c181b09a598798b6235801
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9805eeb18ee0853d0258572c1ad542ff4bc6ff2393ff8df1da096af07bacd6d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9c6b8fbeaadc53fb4ee209c1d104938ceaf8c8a8cbc2fa87ebcabcc6284da17
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b00333ce97a5a96a0369400120eb38a7bfd7ee5df94e91c7d6993e0e7f5524ba
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d753925d97c5520e660dcdd16394471ced5c4bc24193ed0a377ef70d8717a46
 size 14439

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4802de77ca51e4efac2063b9b4a2ac08f4acde74a027da9b43cf90af44cf0108
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdee02ae130781f905df4745f98c06bad459194317ec411b25af7a96f282fee2
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f2a04b63259c1a14b093267b1fd26d6b21fab4af2fc765329473d9fca239907
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:823a83d9a98cde647a58d74cc1bea63c670933d602a5a07e7fc2bfa68d3b9e32
+size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f74dc2cbdc738c6fbf513addd5269b878530a18e75ada83dcaec9120da52354f
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4ef1c7732ec4132391d0d6a205bc292fbd5fe79d85d00447b48ac3c30b01e18
+size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b7fe86b6bf62db9f7989d6e264b9b70447a29a8d4bbea419af77ab1989ca356
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cb61348726887e329b19406ea4e3e39ac391edeec6dfd8508b3cb524aa33e28
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.965930328747817,
-  "global_step": 260000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5206,11 +5206,211 @@
       "eval_samples_per_second": 1919.019,
       "eval_steps_per_second": 30.704,
       "step": 260000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 8.306609692473169e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.272312264468887,
+  "global_step": 270000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1919.019,
       "eval_steps_per_second": 30.704,
       "step": 260000
+    },
+    {
+      "epoch": 7.98,
+      "learning_rate": 0.00015691796905504187,
+      "loss": 0.3366,
+      "step": 260500
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.00015643849514435944,
+      "loss": 0.3364,
+      "step": 261000
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.776075005531311,
+      "eval_runtime": 0.5349,
+      "eval_samples_per_second": 1869.618,
+      "eval_steps_per_second": 29.914,
+      "step": 261000
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 0.00015595900550252463,
+      "loss": 0.3362,
+      "step": 261500
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 0.00015547950537315926,
+      "loss": 0.3363,
+      "step": 262000
+    },
+    {
+      "epoch": 8.03,
+      "eval_loss": 0.7857484221458435,
+      "eval_runtime": 0.538,
+      "eval_samples_per_second": 1858.594,
+      "eval_steps_per_second": 29.738,
+      "step": 262000
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 0.00015499999999999997,
+      "loss": 0.336,
+      "step": 262500
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 0.00015452049462684068,
+      "loss": 0.3359,
+      "step": 263000
+    },
+    {
+      "epoch": 8.06,
+      "eval_loss": 0.7803733348846436,
+      "eval_runtime": 0.5241,
+      "eval_samples_per_second": 1908.102,
+      "eval_steps_per_second": 30.53,
+      "step": 263000
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 0.00015404099449747535,
+      "loss": 0.3356,
+      "step": 263500
+    },
+    {
+      "epoch": 8.09,
+      "learning_rate": 0.0001535615048556405,
+      "loss": 0.3357,
+      "step": 264000
+    },
+    {
+      "epoch": 8.09,
+      "eval_loss": 0.7824040651321411,
+      "eval_runtime": 0.5311,
+      "eval_samples_per_second": 1882.719,
+      "eval_steps_per_second": 30.124,
+      "step": 264000
+    },
+    {
+      "epoch": 8.1,
+      "learning_rate": 0.0001530820309449581,
+      "loss": 0.3355,
+      "step": 264500
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 0.00015260257800887798,
+      "loss": 0.3354,
+      "step": 265000
+    },
+    {
+      "epoch": 8.12,
+      "eval_loss": 0.776350200176239,
+      "eval_runtime": 0.5238,
+      "eval_samples_per_second": 1908.966,
+      "eval_steps_per_second": 30.543,
+      "step": 265000
+    },
+    {
+      "epoch": 8.13,
+      "learning_rate": 0.0001521231512906207,
+      "loss": 0.3359,
+      "step": 265500
+    },
+    {
+      "epoch": 8.15,
+      "learning_rate": 0.00015164375603311998,
+      "loss": 0.3355,
+      "step": 266000
+    },
+    {
+      "epoch": 8.15,
+      "eval_loss": 0.7818763256072998,
+      "eval_runtime": 0.5354,
+      "eval_samples_per_second": 1867.774,
+      "eval_steps_per_second": 29.884,
+      "step": 266000
+    },
+    {
+      "epoch": 8.17,
+      "learning_rate": 0.00015116439747896553,
+      "loss": 0.3364,
+      "step": 266500
+    },
+    {
+      "epoch": 8.18,
+      "learning_rate": 0.00015068508087034578,
+      "loss": 0.3352,
+      "step": 267000
+    },
+    {
+      "epoch": 8.18,
+      "eval_loss": 0.7747774720191956,
+      "eval_runtime": 0.5186,
+      "eval_samples_per_second": 1928.442,
+      "eval_steps_per_second": 30.855,
+      "step": 267000
+    },
+    {
+      "epoch": 8.2,
+      "learning_rate": 0.00015020581144899027,
+      "loss": 0.335,
+      "step": 267500
+    },
+    {
+      "epoch": 8.21,
+      "learning_rate": 0.0001497265944561127,
+      "loss": 0.3347,
+      "step": 268000
+    },
+    {
+      "epoch": 8.21,
+      "eval_loss": 0.7758739590644836,
+      "eval_runtime": 0.5149,
+      "eval_samples_per_second": 1942.219,
+      "eval_steps_per_second": 31.076,
+      "step": 268000
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 0.00014924743513235327,
+      "loss": 0.3347,
+      "step": 268500
+    },
+    {
+      "epoch": 8.24,
+      "learning_rate": 0.0001487683387177216,
+      "loss": 0.3347,
+      "step": 269000
+    },
+    {
+      "epoch": 8.24,
+      "eval_loss": 0.777352511882782,
+      "eval_runtime": 0.511,
+      "eval_samples_per_second": 1956.914,
+      "eval_steps_per_second": 31.311,
+      "step": 269000
+    },
+    {
+      "epoch": 8.26,
+      "learning_rate": 0.00014828931045153928,
+      "loss": 0.6491,
+      "step": 269500
+    },
+    {
+      "epoch": 8.27,
+      "learning_rate": 0.00014781035557238272,
+      "loss": 0.737,
+      "step": 270000
+    },
+    {
+      "epoch": 8.27,
+      "eval_loss": 0.9018945097923279,
+      "eval_runtime": 0.5226,
+      "eval_samples_per_second": 1913.356,
+      "eval_steps_per_second": 30.614,
+      "step": 270000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 8.626088843295693e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8e8c193ef48de967d7501e0b15a06f4b379c56e8efdf426bfb091824f5c716b
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:94365aa60c35fc7ec52e5e8ba19311622aaab34d18bf7ce3dd77401881509519
 size 102501541