Training in progress, step 320000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d30543a63c3f49005c19382ae197f2cf2879229339898c2554a8df1a8a2421f
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:229a42ebe682c3ef3fa77824f414f8052ce22269902d2cf833bbceae01b4ee94
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07e69690c144d55eab2611717957556e397812111ed907e27900f2d419339d70
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:2234ce12404bc4801fab809254f08127bd71fca09a8dab3e0c720a225f0006ed
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:548110cdd23dffd1b7f96561a08e3cbe6bf67f48bac9ee8d0ebf3314491785e9
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b54a8c5749446bd4a65592cc408c92cd1c1a63789b632ec709bae613de880e8
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:992c07370b8db97dbb38b7b82bcfcf2b4063ad427f2a7c1da17dc6b7936247f4
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e12e956d2c1594d69772425e394d5c7340f5558535a744e143a62985c9f6b3a
+size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:309d45549a36b33343b31b19dff62c40cbca438acddc29ad6300e29a9b1364dd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:5034bb9708a34c35b3368c1e0fff63513e2cb5f1c0dd56fffa0328312b7e4831
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b9ac8da3681828a13f22af7d6fffaed7afbe91d2bf410206cc27808e2ecc0ca
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e06a3dca10a2bccff3cb0c6a7b393b12b0f08503dc63d7b7533eeb15ed495c6
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9df044a6fee5eeed1506b8dbce5bf547aca68cd5a201fa67f209077ea7b2dfb1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a94f09290bc683f43d0869ce2fa5f9751184b5e70371828d250a3714d35fe40
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c04c575cebc96e7d40383dac3dbdc79efa292cede7a20d6c65225e6c903061e2
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4915e195da15bfd64d34239234d248cd0ab1ad7df671f2845974753597da8bc3
+size 14439

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:472356308bd424b33e07d9161a75bf7fa03c160c8593923578d6c5cdc5036926
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:057d8e4139ad7708d7871dd8361365fbd9951b2ae3daf5aded867e56c2fe457c
+size 14439

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74c5657fa915531128d8604d48f9f541ac95d7782dff879847610bd62a46c3d1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7115cc7cbcc32a343bb9b4e7b15f1fa12bd3bb61d63d5248eaa0a65935d6e80c
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b8c10dab6d3ee824fc8fe4628d3bf3ceea806ce0d2fbe513f32af4d508ab89e
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:5673377a057c7734bd1a0ee14d972f6f3bfc67bb8208ac49ae618347d18d616b
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.497840007353167,
-  "global_step": 310000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6206,11 +6206,211 @@
       "eval_samples_per_second": 1914.938,
       "eval_steps_per_second": 30.639,
       "step": 310000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 9.904029410441717e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.804221943074236,
+  "global_step": 320000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1914.938,
       "eval_steps_per_second": 30.639,
       "step": 310000
+    },
+    {
+      "epoch": 9.51,
+      "learning_rate": 0.00010973674410951567,
+      "loss": 0.3293,
+      "step": 310500
+    },
+    {
+      "epoch": 9.53,
+      "learning_rate": 0.00010928144739511337,
+      "loss": 0.329,
+      "step": 311000
+    },
+    {
+      "epoch": 9.53,
+      "eval_loss": 0.776207685470581,
+      "eval_runtime": 0.5118,
+      "eval_samples_per_second": 1953.912,
+      "eval_steps_per_second": 31.263,
+      "step": 311000
+    },
+    {
+      "epoch": 9.54,
+      "learning_rate": 0.00010882665065147757,
+      "loss": 0.3287,
+      "step": 311500
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 0.00010837235885219267,
+      "loss": 0.3286,
+      "step": 312000
+    },
+    {
+      "epoch": 9.56,
+      "eval_loss": 0.7779992818832397,
+      "eval_runtime": 0.5097,
+      "eval_samples_per_second": 1962.124,
+      "eval_steps_per_second": 31.394,
+      "step": 312000
+    },
+    {
+      "epoch": 9.57,
+      "learning_rate": 0.00010791857696532089,
+      "loss": 0.3287,
+      "step": 312500
+    },
+    {
+      "epoch": 9.59,
+      "learning_rate": 0.00010746530995334832,
+      "loss": 0.3285,
+      "step": 313000
+    },
+    {
+      "epoch": 9.59,
+      "eval_loss": 0.7776817679405212,
+      "eval_runtime": 0.5012,
+      "eval_samples_per_second": 1995.205,
+      "eval_steps_per_second": 31.923,
+      "step": 313000
+    },
+    {
+      "epoch": 9.61,
+      "learning_rate": 0.0001070125627731304,
+      "loss": 0.3285,
+      "step": 313500
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 0.0001065603403758377,
+      "loss": 0.3288,
+      "step": 314000
+    },
+    {
+      "epoch": 9.62,
+      "eval_loss": 0.7795534133911133,
+      "eval_runtime": 0.523,
+      "eval_samples_per_second": 1912.141,
+      "eval_steps_per_second": 30.594,
+      "step": 314000
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 0.00010610864770690196,
+      "loss": 0.3285,
+      "step": 314500
+    },
+    {
+      "epoch": 9.65,
+      "learning_rate": 0.00010565748970596172,
+      "loss": 0.3281,
+      "step": 315000
+    },
+    {
+      "epoch": 9.65,
+      "eval_loss": 0.7744332551956177,
+      "eval_runtime": 0.5161,
+      "eval_samples_per_second": 1937.422,
+      "eval_steps_per_second": 30.999,
+      "step": 315000
+    },
+    {
+      "epoch": 9.67,
+      "learning_rate": 0.00010520687130680884,
+      "loss": 0.3279,
+      "step": 315500
+    },
+    {
+      "epoch": 9.68,
+      "learning_rate": 0.00010475679743733364,
+      "loss": 0.3284,
+      "step": 316000
+    },
+    {
+      "epoch": 9.68,
+      "eval_loss": 0.7782894968986511,
+      "eval_runtime": 0.5278,
+      "eval_samples_per_second": 1894.746,
+      "eval_steps_per_second": 30.316,
+      "step": 316000
+    },
+    {
+      "epoch": 9.7,
+      "learning_rate": 0.00010430727301947202,
+      "loss": 0.3282,
+      "step": 316500
+    },
+    {
+      "epoch": 9.71,
+      "learning_rate": 0.00010385830296915104,
+      "loss": 0.328,
+      "step": 317000
+    },
+    {
+      "epoch": 9.71,
+      "eval_loss": 0.7791895866394043,
+      "eval_runtime": 0.4908,
+      "eval_samples_per_second": 2037.475,
+      "eval_steps_per_second": 32.6,
+      "step": 317000
+    },
+    {
+      "epoch": 9.73,
+      "learning_rate": 0.00010340989219623508,
+      "loss": 0.328,
+      "step": 317500
+    },
+    {
+      "epoch": 9.74,
+      "learning_rate": 0.0001029620456044727,
+      "loss": 0.3278,
+      "step": 318000
+    },
+    {
+      "epoch": 9.74,
+      "eval_loss": 0.7816545367240906,
+      "eval_runtime": 0.5081,
+      "eval_samples_per_second": 1968.272,
+      "eval_steps_per_second": 31.492,
+      "step": 318000
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 0.00010251476809144226,
+      "loss": 0.3279,
+      "step": 318500
+    },
+    {
+      "epoch": 9.77,
+      "learning_rate": 0.00010206806454849917,
+      "loss": 0.3276,
+      "step": 319000
+    },
+    {
+      "epoch": 9.77,
+      "eval_loss": 0.7802248597145081,
+      "eval_runtime": 0.4946,
+      "eval_samples_per_second": 2021.73,
+      "eval_steps_per_second": 32.348,
+      "step": 319000
+    },
+    {
+      "epoch": 9.79,
+      "learning_rate": 0.00010162193986072167,
+      "loss": 0.3272,
+      "step": 319500
+    },
+    {
+      "epoch": 9.8,
+      "learning_rate": 0.00010117639890685795,
+      "loss": 0.3273,
+      "step": 320000
+    },
+    {
+      "epoch": 9.8,
+      "eval_loss": 0.7808557152748108,
+      "eval_runtime": 0.499,
+      "eval_samples_per_second": 2004.192,
+      "eval_steps_per_second": 32.067,
+      "step": 320000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.0223516549216217e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07e69690c144d55eab2611717957556e397812111ed907e27900f2d419339d70
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:2234ce12404bc4801fab809254f08127bd71fca09a8dab3e0c720a225f0006ed
 size 102501541