Training in progress, step 440000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +2 -2
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2037a39653e9a86b52eb755df70a2048c15c66b97fc5c5b2e730133643a54847
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:2088799669b8cbfd210d30dfce8989698daa830165d0ca944114a10a59871693
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f68b8d9c04c07b07e7749f58776534bd53918c6e2c126a3b13ccf6e4c8fe0c11
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a7b0c7d08046c0c4e1a91c3f9d63b1d7bdf393ee4dbbd4736af162b969bdfb9
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b2daf51037932e93e0733ea24caef617dc93e09ea15b9fd221dcc7444c15f0e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7e233a8ef519d9d16a9b95d7a7171d6def7872349c82be02599284c8c6acffd
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3a3ebd3780a0e2b9539a7e9e3280f39aab22ea827f57421c4c22612d438cdfb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:be16f8037c6901bc41919bcc8cb1118de728673c68c18b0ae386bea63c0e3e3d
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86247109bf049f289c15c3221972c6c603aeaaab8c73e9572f0b173c34fca77b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:be92d6d899a07c4671d400b60ab95a700562ae501c22a4fee8fa76e7589e996f
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cefc44f7d07864c913b59c01e54c2d25ff69e14a2f34a7e0e54f8b7ef0768fa
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:8770268f899c830767a9d97c2302203be584e1c1cc37d9570826bfabc17c0fa2
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e44801ad618d45c1ec0026a0fb986a5b4b4808493b86436a804a9e6412bb1dd2
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cc40f97d6fc7a436b02585a6f0d5affbb2d92e52b230fd202e6e0bc79392801
+size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb1f285c2e8ce7b907118ccf23b5cb322a34d0e9eb54ad8436c82bf6abb8cfb2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:593a229cfaacb8e002eb9c5c553875fab30c88f8d710b8359f369800ad7eef0c
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b32a0be0231f2f19d42d8561635e493d94c812c82d1070981857c9fbb59cf960
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d4f52680b07fe7330a884622b4d2a5e39ee242550e8d535f6458b2b4ab42b35
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:847320643082b3f276294a5fa2113e3868a05e1a1e4d298c40cb20665e82af38
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3181d4c08032a76433b86390db671ed6c1b5ecc3604448dc1685a0d499892b2
+size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f427c751ea4b109969727e0c5f2ef9ef6fd7587de8192ab50fc2201ab4ba3ed9
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1894f32b2441ea8820978bbb44f8f2d9ce0a579e669301efbd1655378591798a
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 13.174423236006005,
-  "global_step": 430000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8606,11 +8606,211 @@
       "eval_samples_per_second": 1947.536,
       "eval_steps_per_second": 31.161,
       "step": 430000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.3737843123927814e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 13.480805171727075,
+  "global_step": 440000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1947.536,
       "eval_steps_per_second": 31.161,
       "step": 430000
+    },
+    {
+      "epoch": 13.19,
+      "learning_rate": 2.5050805238106804e-05,
+      "loss": 0.3152,
+      "step": 430500
+    },
+    {
+      "epoch": 13.21,
+      "learning_rate": 2.4838784403798542e-05,
+      "loss": 0.3154,
+      "step": 431000
+    },
+    {
+      "epoch": 13.21,
+      "eval_loss": 0.7730093002319336,
+      "eval_runtime": 0.5076,
+      "eval_samples_per_second": 1969.931,
+      "eval_steps_per_second": 31.519,
+      "step": 431000
+    },
+    {
+      "epoch": 13.22,
+      "learning_rate": 2.4628186991690346e-05,
+      "loss": 0.3153,
+      "step": 431500
+    },
+    {
+      "epoch": 13.24,
+      "learning_rate": 2.4419015304841797e-05,
+      "loss": 0.3155,
+      "step": 432000
+    },
+    {
+      "epoch": 13.24,
+      "eval_loss": 0.7782933115959167,
+      "eval_runtime": 0.5119,
+      "eval_samples_per_second": 1953.36,
+      "eval_steps_per_second": 31.254,
+      "step": 432000
+    },
+    {
+      "epoch": 13.25,
+      "learning_rate": 2.4211271630720957e-05,
+      "loss": 0.3151,
+      "step": 432500
+    },
+    {
+      "epoch": 13.27,
+      "learning_rate": 2.4004958241179347e-05,
+      "loss": 0.315,
+      "step": 433000
+    },
+    {
+      "epoch": 13.27,
+      "eval_loss": 0.7781816124916077,
+      "eval_runtime": 0.5016,
+      "eval_samples_per_second": 1993.463,
+      "eval_steps_per_second": 31.895,
+      "step": 433000
+    },
+    {
+      "epoch": 13.28,
+      "learning_rate": 2.3800077392427193e-05,
+      "loss": 0.3153,
+      "step": 433500
+    },
+    {
+      "epoch": 13.3,
+      "learning_rate": 2.3596631325008536e-05,
+      "loss": 0.3152,
+      "step": 434000
+    },
+    {
+      "epoch": 13.3,
+      "eval_loss": 0.7795186638832092,
+      "eval_runtime": 0.5038,
+      "eval_samples_per_second": 1985.024,
+      "eval_steps_per_second": 31.76,
+      "step": 434000
+    },
+    {
+      "epoch": 13.31,
+      "learning_rate": 2.3394622263777042e-05,
+      "loss": 0.3154,
+      "step": 434500
+    },
+    {
+      "epoch": 13.33,
+      "learning_rate": 2.3194052417871433e-05,
+      "loss": 0.3155,
+      "step": 435000
+    },
+    {
+      "epoch": 13.33,
+      "eval_loss": 0.7748437523841858,
+      "eval_runtime": 0.5107,
+      "eval_samples_per_second": 1958.226,
+      "eval_steps_per_second": 31.332,
+      "step": 435000
+    },
+    {
+      "epoch": 13.34,
+      "learning_rate": 2.2994923980691425e-05,
+      "loss": 0.315,
+      "step": 435500
+    },
+    {
+      "epoch": 13.36,
+      "learning_rate": 2.279723912987365e-05,
+      "loss": 0.3147,
+      "step": 436000
+    },
+    {
+      "epoch": 13.36,
+      "eval_loss": 0.7737230062484741,
+      "eval_runtime": 0.4938,
+      "eval_samples_per_second": 2025.279,
+      "eval_steps_per_second": 32.404,
+      "step": 436000
+    },
+    {
+      "epoch": 13.37,
+      "learning_rate": 2.2601000027268006e-05,
+      "loss": 0.3149,
+      "step": 436500
+    },
+    {
+      "epoch": 13.39,
+      "learning_rate": 2.2406208818913857e-05,
+      "loss": 0.3148,
+      "step": 437000
+    },
+    {
+      "epoch": 13.39,
+      "eval_loss": 0.7748478055000305,
+      "eval_runtime": 0.5039,
+      "eval_samples_per_second": 1984.516,
+      "eval_steps_per_second": 31.752,
+      "step": 437000
+    },
+    {
+      "epoch": 13.4,
+      "learning_rate": 2.221286763501666e-05,
+      "loss": 0.3151,
+      "step": 437500
+    },
+    {
+      "epoch": 13.42,
+      "learning_rate": 2.2020978589924673e-05,
+      "loss": 0.3148,
+      "step": 438000
+    },
+    {
+      "epoch": 13.42,
+      "eval_loss": 0.7769352793693542,
+      "eval_runtime": 0.5123,
+      "eval_samples_per_second": 1951.966,
+      "eval_steps_per_second": 31.231,
+      "step": 438000
+    },
+    {
+      "epoch": 13.43,
+      "learning_rate": 2.1830543782105647e-05,
+      "loss": 0.3149,
+      "step": 438500
+    },
+    {
+      "epoch": 13.45,
+      "learning_rate": 2.1641565294124206e-05,
+      "loss": 0.3146,
+      "step": 439000
+    },
+    {
+      "epoch": 13.45,
+      "eval_loss": 0.7766078114509583,
+      "eval_runtime": 0.5088,
+      "eval_samples_per_second": 1965.524,
+      "eval_steps_per_second": 31.448,
+      "step": 439000
+    },
+    {
+      "epoch": 13.47,
+      "learning_rate": 2.1454045192618794e-05,
+      "loss": 0.315,
+      "step": 439500
+    },
+    {
+      "epoch": 13.48,
+      "learning_rate": 2.1267985528279212e-05,
+      "loss": 0.3147,
+      "step": 440000
+    },
+    {
+      "epoch": 13.48,
+      "eval_loss": 0.7768784165382385,
+      "eval_runtime": 0.5177,
+      "eval_samples_per_second": 1931.767,
+      "eval_steps_per_second": 30.908,
+      "step": 440000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.4057330262702314e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f68b8d9c04c07b07e7749f58776534bd53918c6e2c126a3b13ccf6e4c8fe0c11
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a7b0c7d08046c0c4e1a91c3f9d63b1d7bdf393ee4dbbd4736af162b969bdfb9
 size 102501541