Training in progress, step 400000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +2 -2
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1df67f6183cc09f42fe2f0f37f8357c9b8e65f61395be8418801628a4f2e406
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:0052ea96d09049ac49c449aedeb504aaa0702f05c2816a11a3a3ddaec5b81730
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a319b7f2b744152a6d0b7c7b011dcbab2f50e31847aad07fbf0452468b5c5506
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:c24a6ee4938298e902a6aac60f7e4dbd5863d20fb13bdb77f169f65d5ebb0f24
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b801257833dcb303ed75576841dd61289770bb2e540d74ef6ab937039253da2
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e807b27cec95286b3bd60cbc83a1b68ff438706d30976e63e3494b79245fec8
+size 14567

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6243d1d6e37c5feee8bc48e8b6c7c5cd2d209aa34c8943a605523b56be5d5e4
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:cfa21a62b639444b92fd71394cab9bd093866e1e95bfe1d8e5b6de28be79d78c
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1abc03aa32f692919d10687fb19b346a26a86c47bfcdc5586f5937683d9a753d
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b36797d3e65ccb749a8a1d0f61a264827cdf623c6e7863e3dfa8e9c3447a0a8
+size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05b257bebecd01fe3120913d4e730e44697707b0fb5a5618a441dd1149c501fa
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:0003365be88deed59bbfa00e162d3630d1e08211c08c414200b29c59541ecb7c
 size 14439

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:593b188cbaecd147825c6ab6a7428985fef9dedd306035b01be6e3046807b5ca
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b337da7a0b88d9b474d84be36e393eab1c1ad113d73339c380d95ef63a86215
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab242969f427542b52610398ae9f7ae92f28c7f51c41a80b11d327fe5508415b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:66dcedf6f85c5051262e76eedab8ba3cfcd6591d68fb4105fa9e6200b9ada3de
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d23f4669a6b401e22fd0094f76b78d30e5af5448c611b04bb84563f4723f22b5
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:80c55158bbb5df46a8134172c7b9fd2596d23ab49cc5ead3b21e0f52b5035ea2
+size 14439

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c94a5e21ff6cb02edd9d7611a60f73f17f810262fe1570be2488fda0b577fd53
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf0f19d16897e4a2b672fed3e2c7deef05b6f1ddc375a14dbbca90f09eb7f307
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:864647684ab3694f7aa2a258c1806e10c4abf99f67ed5e54443050e485ac9436
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ba83cbca80cb672828600b248dd69c4c050beb355cdcf7faf0b56212421edca
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.948895493121725,
-  "global_step": 390000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7806,11 +7806,211 @@
       "eval_samples_per_second": 1955.764,
       "eval_steps_per_second": 31.292,
       "step": 390000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.2459910544733766e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.255277428842795,
+  "global_step": 400000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1955.764,
       "eval_steps_per_second": 31.292,
       "step": 390000
+    },
+    {
+      "epoch": 11.96,
+      "learning_rate": 4.639259509788768e-05,
+      "loss": 0.3189,
+      "step": 390500
+    },
+    {
+      "epoch": 11.98,
+      "learning_rate": 4.60754920716572e-05,
+      "loss": 0.3193,
+      "step": 391000
+    },
+    {
+      "epoch": 11.98,
+      "eval_loss": 0.7768589854240417,
+      "eval_runtime": 0.4937,
+      "eval_samples_per_second": 2025.701,
+      "eval_steps_per_second": 32.411,
+      "step": 391000
+    },
+    {
+      "epoch": 11.99,
+      "learning_rate": 4.5759580226394167e-05,
+      "loss": 0.3191,
+      "step": 391500
+    },
+    {
+      "epoch": 12.01,
+      "learning_rate": 4.544486301685993e-05,
+      "loss": 0.3191,
+      "step": 392000
+    },
+    {
+      "epoch": 12.01,
+      "eval_loss": 0.7793305516242981,
+      "eval_runtime": 0.4963,
+      "eval_samples_per_second": 2015.052,
+      "eval_steps_per_second": 32.241,
+      "step": 392000
+    },
+    {
+      "epoch": 12.03,
+      "learning_rate": 4.5131343884751484e-05,
+      "loss": 0.3189,
+      "step": 392500
+    },
+    {
+      "epoch": 12.04,
+      "learning_rate": 4.4819026258663774e-05,
+      "loss": 0.3188,
+      "step": 393000
+    },
+    {
+      "epoch": 12.04,
+      "eval_loss": 0.7801252007484436,
+      "eval_runtime": 0.5034,
+      "eval_samples_per_second": 1986.635,
+      "eval_steps_per_second": 31.786,
+      "step": 393000
+    },
+    {
+      "epoch": 12.06,
+      "learning_rate": 4.450791355405234e-05,
+      "loss": 0.3188,
+      "step": 393500
+    },
+    {
+      "epoch": 12.07,
+      "learning_rate": 4.419800917319588e-05,
+      "loss": 0.3188,
+      "step": 394000
+    },
+    {
+      "epoch": 12.07,
+      "eval_loss": 0.7790648937225342,
+      "eval_runtime": 0.5072,
+      "eval_samples_per_second": 1971.795,
+      "eval_steps_per_second": 31.549,
+      "step": 394000
+    },
+    {
+      "epoch": 12.09,
+      "learning_rate": 4.3889316505159056e-05,
+      "loss": 0.3185,
+      "step": 394500
+    },
+    {
+      "epoch": 12.1,
+      "learning_rate": 4.3581838925755465e-05,
+      "loss": 0.3187,
+      "step": 395000
+    },
+    {
+      "epoch": 12.1,
+      "eval_loss": 0.7797361016273499,
+      "eval_runtime": 0.4981,
+      "eval_samples_per_second": 2007.807,
+      "eval_steps_per_second": 32.125,
+      "step": 395000
+    },
+    {
+      "epoch": 12.12,
+      "learning_rate": 4.327557979751057e-05,
+      "loss": 0.3187,
+      "step": 395500
+    },
+    {
+      "epoch": 12.13,
+      "learning_rate": 4.297054246962517e-05,
+      "loss": 0.3186,
+      "step": 396000
+    },
+    {
+      "epoch": 12.13,
+      "eval_loss": 0.7804706692695618,
+      "eval_runtime": 0.5208,
+      "eval_samples_per_second": 1920.29,
+      "eval_steps_per_second": 30.725,
+      "step": 396000
+    },
+    {
+      "epoch": 12.15,
+      "learning_rate": 4.266673027793864e-05,
+      "loss": 0.3184,
+      "step": 396500
+    },
+    {
+      "epoch": 12.16,
+      "learning_rate": 4.236414654489242e-05,
+      "loss": 0.3185,
+      "step": 397000
+    },
+    {
+      "epoch": 12.16,
+      "eval_loss": 0.7770272493362427,
+      "eval_runtime": 0.5197,
+      "eval_samples_per_second": 1924.081,
+      "eval_steps_per_second": 30.785,
+      "step": 397000
+    },
+    {
+      "epoch": 12.18,
+      "learning_rate": 4.206279457949371e-05,
+      "loss": 0.3183,
+      "step": 397500
+    },
+    {
+      "epoch": 12.19,
+      "learning_rate": 4.1762677677279335e-05,
+      "loss": 0.3185,
+      "step": 398000
+    },
+    {
+      "epoch": 12.19,
+      "eval_loss": 0.7785659432411194,
+      "eval_runtime": 0.5333,
+      "eval_samples_per_second": 1875.117,
+      "eval_steps_per_second": 30.002,
+      "step": 398000
+    },
+    {
+      "epoch": 12.21,
+      "learning_rate": 4.146379912027964e-05,
+      "loss": 0.3184,
+      "step": 398500
+    },
+    {
+      "epoch": 12.22,
+      "learning_rate": 4.1166162176982664e-05,
+      "loss": 0.3187,
+      "step": 399000
+    },
+    {
+      "epoch": 12.22,
+      "eval_loss": 0.7719516754150391,
+      "eval_runtime": 0.5091,
+      "eval_samples_per_second": 1964.072,
+      "eval_steps_per_second": 31.425,
+      "step": 399000
+    },
+    {
+      "epoch": 12.24,
+      "learning_rate": 4.086977010229838e-05,
+      "loss": 0.3182,
+      "step": 399500
+    },
+    {
+      "epoch": 12.26,
+      "learning_rate": 4.057462613752294e-05,
+      "loss": 0.3181,
+      "step": 400000
+    },
+    {
+      "epoch": 12.26,
+      "eval_loss": 0.7777762413024902,
+      "eval_runtime": 0.5134,
+      "eval_samples_per_second": 1947.706,
+      "eval_steps_per_second": 31.163,
+      "step": 400000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.277938969555629e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a319b7f2b744152a6d0b7c7b011dcbab2f50e31847aad07fbf0452468b5c5506
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:c24a6ee4938298e902a6aac60f7e4dbd5863d20fb13bdb77f169f65d5ebb0f24
 size 102501541