Training in progress, step 480000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +2 -2
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bc4138b4d57f8e4a675a838e7f7c445fa2f2850d452063b02b0b163a34a7798
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:915c0a3320162732d7d0277198910bd1c5fe36e91a2494488dcd5fe9ecfa67b3
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:399d2fd5053b20d89296de77093797a9b20b303b26b5c54e0ac988e918c3a2b8
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:8136bbdd727fc3ba0cd916f87b90e8d7992cbeeded2bac704ee561d225bd54ff
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39649affd710e5288e8103a7ce71440cea00f53d7c4b1b77287e55e4fba903c9
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:58dd7aa49620cc3a97afcabbb7850c385a241b9dcc8d07d333d6f65040a60603
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24fdf31146f9e2573e4fd97d3ef660e7e36be173064143bba073688856627f33
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:02e70e32ef25d8d010a4b8053a0291d1477416df257354e41c4a63cf4dc2e643
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5340a3b2a3128c15a2e26d8d92bda85367d97c29b7ab61268eaf585f02d028cc
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e68cc11f4318aee75c400e1894d33192a70b9883c303c9fa9cedc5946464e08
+size 14439

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac2d9083cc062d05a152912781673b09c3efbb96bd37d28e564815b34b3ab7b4
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:64a46f3a13aa9f98adfc5de8699e24132915127b3a6b2cea5827a2046f9700ac
+size 14439

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a59c37be606f12c13a42a1df1734ee1dfacdb5c6d84f45ffa367935178d29c37
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb51fb524aa906bf1e2b1400af5152fa96888bd9aa6527a094a0343f901ed25d
 size 14439

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b5928441e789260c503b832ccd0e73fec0b6dedeb24fbfc4a89078adb4680e9
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:35c12f52a705d4e5218bd23d5bd9019926a903ddc54e4326eae90cf72f0b4f8f
 size 14439

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1cfa650386285df001bb485d9e06712c20b2d44c391fb3f87f5e92d68fae75c4
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4e0d82ec0129c8f13f015b8a1236f72049a8e4b658d7d70897f776f9bde416e
 size 14439

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e02ab0e747b127b3be6acd4dea7efa17b59fc5315b526da3be35482035d021d
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f58c7e90cbf160b31d955598aee9f14bbda5806f105e3c62619fe3545749dd33
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d15e11a6de6abd55121a73bc214cc950fb971f927ae2b1d5067145da50de5d0
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebbfa680b1187d22cc7371654116ef29dab3c85749ad34b845956736ad3b3612
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 14.399950978890285,
-  "global_step": 470000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9406,11 +9406,211 @@
       "eval_samples_per_second": 1935.302,
       "eval_steps_per_second": 30.965,
       "step": 470000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.5015783691073838e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 14.706332914611355,
+  "global_step": 480000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1935.302,
       "eval_steps_per_second": 30.965,
       "step": 470000
+    },
+    {
+      "epoch": 14.42,
+      "learning_rate": 1.2751163567020592e-05,
+      "loss": 0.3129,
+      "step": 470500
+    },
+    {
+      "epoch": 14.43,
+      "learning_rate": 1.2658977796373478e-05,
+      "loss": 0.313,
+      "step": 471000
+    },
+    {
+      "epoch": 14.43,
+      "eval_loss": 0.7727963924407959,
+      "eval_runtime": 0.508,
+      "eval_samples_per_second": 1968.327,
+      "eval_steps_per_second": 31.493,
+      "step": 471000
+    },
+    {
+      "epoch": 14.45,
+      "learning_rate": 1.2568348644340153e-05,
+      "loss": 0.3132,
+      "step": 471500
+    },
+    {
+      "epoch": 14.46,
+      "learning_rate": 1.2479277102026465e-05,
+      "loss": 0.3131,
+      "step": 472000
+    },
+    {
+      "epoch": 14.46,
+      "eval_loss": 0.7726814150810242,
+      "eval_runtime": 0.5186,
+      "eval_samples_per_second": 1928.247,
+      "eval_steps_per_second": 30.852,
+      "step": 472000
+    },
+    {
+      "epoch": 14.48,
+      "learning_rate": 1.2391764143504556e-05,
+      "loss": 0.313,
+      "step": 472500
+    },
+    {
+      "epoch": 14.49,
+      "learning_rate": 1.2305810725802118e-05,
+      "loss": 0.3127,
+      "step": 473000
+    },
+    {
+      "epoch": 14.49,
+      "eval_loss": 0.7736928462982178,
+      "eval_runtime": 0.5222,
+      "eval_samples_per_second": 1915.078,
+      "eval_steps_per_second": 30.641,
+      "step": 473000
+    },
+    {
+      "epoch": 14.51,
+      "learning_rate": 1.222141778889195e-05,
+      "loss": 0.3129,
+      "step": 473500
+    },
+    {
+      "epoch": 14.52,
+      "learning_rate": 1.2138586255681707e-05,
+      "loss": 0.3128,
+      "step": 474000
+    },
+    {
+      "epoch": 14.52,
+      "eval_loss": 0.7748116254806519,
+      "eval_runtime": 0.5115,
+      "eval_samples_per_second": 1955.159,
+      "eval_steps_per_second": 31.283,
+      "step": 474000
+    },
+    {
+      "epoch": 14.54,
+      "learning_rate": 1.2057317032003731e-05,
+      "loss": 0.3128,
+      "step": 474500
+    },
+    {
+      "epoch": 14.55,
+      "learning_rate": 1.1977611006605263e-05,
+      "loss": 0.3127,
+      "step": 475000
+    },
+    {
+      "epoch": 14.55,
+      "eval_loss": 0.7728310227394104,
+      "eval_runtime": 0.5087,
+      "eval_samples_per_second": 1965.811,
+      "eval_steps_per_second": 31.453,
+      "step": 475000
+    },
+    {
+      "epoch": 14.57,
+      "learning_rate": 1.1899469051138602e-05,
+      "loss": 0.3128,
+      "step": 475500
+    },
+    {
+      "epoch": 14.58,
+      "learning_rate": 1.1822892020151667e-05,
+      "loss": 0.3127,
+      "step": 476000
+    },
+    {
+      "epoch": 14.58,
+      "eval_loss": 0.7735549211502075,
+      "eval_runtime": 0.512,
+      "eval_samples_per_second": 1953.213,
+      "eval_steps_per_second": 31.251,
+      "step": 476000
+    },
+    {
+      "epoch": 14.6,
+      "learning_rate": 1.1747880751078614e-05,
+      "loss": 0.313,
+      "step": 476500
+    },
+    {
+      "epoch": 14.61,
+      "learning_rate": 1.1674436064230637e-05,
+      "loss": 0.3127,
+      "step": 477000
+    },
+    {
+      "epoch": 14.61,
+      "eval_loss": 0.7763468623161316,
+      "eval_runtime": 0.4992,
+      "eval_samples_per_second": 2003.099,
+      "eval_steps_per_second": 32.05,
+      "step": 477000
+    },
+    {
+      "epoch": 14.63,
+      "learning_rate": 1.1602558762787069e-05,
+      "loss": 0.3126,
+      "step": 477500
+    },
+    {
+      "epoch": 14.65,
+      "learning_rate": 1.1532249632786582e-05,
+      "loss": 0.3127,
+      "step": 478000
+    },
+    {
+      "epoch": 14.65,
+      "eval_loss": 0.7772842049598694,
+      "eval_runtime": 0.503,
+      "eval_samples_per_second": 1988.055,
+      "eval_steps_per_second": 31.809,
+      "step": 478000
+    },
+    {
+      "epoch": 14.66,
+      "learning_rate": 1.1463509443118552e-05,
+      "loss": 0.3126,
+      "step": 478500
+    },
+    {
+      "epoch": 14.68,
+      "learning_rate": 1.1396338945514663e-05,
+      "loss": 0.3127,
+      "step": 479000
+    },
+    {
+      "epoch": 14.68,
+      "eval_loss": 0.7746040225028992,
+      "eval_runtime": 0.5177,
+      "eval_samples_per_second": 1931.572,
+      "eval_steps_per_second": 30.905,
+      "step": 479000
+    },
+    {
+      "epoch": 14.69,
+      "learning_rate": 1.133073887454072e-05,
+      "loss": 0.3129,
+      "step": 479500
+    },
+    {
+      "epoch": 14.71,
+      "learning_rate": 1.1266709947588599e-05,
+      "loss": 0.3126,
+      "step": 480000
+    },
+    {
+      "epoch": 14.71,
+      "eval_loss": 0.7748845815658569,
+      "eval_runtime": 0.5138,
+      "eval_samples_per_second": 1946.296,
+      "eval_steps_per_second": 31.141,
+      "step": 480000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.5335270829848338e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:399d2fd5053b20d89296de77093797a9b20b303b26b5c54e0ac988e918c3a2b8
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:8136bbdd727fc3ba0cd916f87b90e8d7992cbeeded2bac704ee561d225bd54ff
 size 102501541