Training in progress, step 240000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9d08b16b8f0a6abe7e4ff06562f781b437ddd6c1464c0f95d747d51260c40e3
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dd6a017b241710845a02e0580947768eef1dfbc1f0827d4a1cd087465f14ae0
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf594ad85da8b14fc79f1305a9d38a155ee31dc640b1cde587a09e1650e1b112
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:08123eb498e0376035cfc13e99904da381c8fd27d56ad427569e3314a31c3e52
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:183346140573b10db5b967d424c726559ad36fe06d5946002c429fd0425a547c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:183346140573b10db5b967d424c726559ad36fe06d5946002c429fd0425a547c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:183346140573b10db5b967d424c726559ad36fe06d5946002c429fd0425a547c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:183346140573b10db5b967d424c726559ad36fe06d5946002c429fd0425a547c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:183346140573b10db5b967d424c726559ad36fe06d5946002c429fd0425a547c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:183346140573b10db5b967d424c726559ad36fe06d5946002c429fd0425a547c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:183346140573b10db5b967d424c726559ad36fe06d5946002c429fd0425a547c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:183346140573b10db5b967d424c726559ad36fe06d5946002c429fd0425a547c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:525fecdf426cb91f007f65ad628cb2afdc5c951475490489af137b7537b71a0e
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a2bb37359d05bc7917d91ab1261ba8c4d8f00648cd8cb2d11c677b6c91ddb27
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a310455c0ab00dbcb4f4c26c03e0304d748fbc8c3e547006fb15346d32ac70da
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.861664712778429,
-  "global_step": 230000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4606,11 +4606,211 @@
       "eval_samples_per_second": 764.442,
       "eval_steps_per_second": 12.231,
       "step": 230000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
-  "total_flos": 7.348136797248275e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.116519700290534,
+  "global_step": 240000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 764.442,
       "eval_steps_per_second": 12.231,
       "step": 230000
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 0.00018545980690870903,
+      "loss": 0.2899,
+      "step": 230500
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 0.00018499083425600648,
+      "loss": 0.2898,
+      "step": 231000
+    },
+    {
+      "epoch": 5.89,
+      "eval_loss": 0.8181861639022827,
+      "eval_runtime": 1.2638,
+      "eval_samples_per_second": 791.236,
+      "eval_steps_per_second": 12.66,
+      "step": 231000
+    },
+    {
+      "epoch": 5.9,
+      "learning_rate": 0.00018452153362834552,
+      "loss": 0.2896,
+      "step": 231500
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 0.00018405191015792254,
+      "loss": 0.29,
+      "step": 232000
+    },
+    {
+      "epoch": 5.91,
+      "eval_loss": 0.8149720430374146,
+      "eval_runtime": 1.2755,
+      "eval_samples_per_second": 783.985,
+      "eval_steps_per_second": 12.544,
+      "step": 232000
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 0.0001835819689804646,
+      "loss": 0.2892,
+      "step": 232500
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 0.0001831117152351732,
+      "loss": 0.2905,
+      "step": 233000
+    },
+    {
+      "epoch": 5.94,
+      "eval_loss": 0.8126420378684998,
+      "eval_runtime": 1.2766,
+      "eval_samples_per_second": 783.351,
+      "eval_steps_per_second": 12.534,
+      "step": 233000
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 0.00018264115406466778,
+      "loss": 0.2893,
+      "step": 233500
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 0.00018217029061493007,
+      "loss": 0.2894,
+      "step": 234000
+    },
+    {
+      "epoch": 5.96,
+      "eval_loss": 0.82079017162323,
+      "eval_runtime": 1.3447,
+      "eval_samples_per_second": 743.651,
+      "eval_steps_per_second": 11.898,
+      "step": 234000
+    },
+    {
+      "epoch": 5.98,
+      "learning_rate": 0.00018169913003524717,
+      "loss": 0.2893,
+      "step": 234500
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 0.00018122767747815594,
+      "loss": 0.2894,
+      "step": 235000
+    },
+    {
+      "epoch": 5.99,
+      "eval_loss": 0.8262202739715576,
+      "eval_runtime": 1.2956,
+      "eval_samples_per_second": 771.835,
+      "eval_steps_per_second": 12.349,
+      "step": 235000
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.00018075593809938574,
+      "loss": 0.2898,
+      "step": 235500
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 0.00018028391705780295,
+      "loss": 0.2899,
+      "step": 236000
+    },
+    {
+      "epoch": 6.01,
+      "eval_loss": 0.8133281469345093,
+      "eval_runtime": 1.2572,
+      "eval_samples_per_second": 795.402,
+      "eval_steps_per_second": 12.726,
+      "step": 236000
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 0.0001798116195153541,
+      "loss": 0.2895,
+      "step": 236500
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 0.0001793390506370094,
+      "loss": 0.2891,
+      "step": 237000
+    },
+    {
+      "epoch": 6.04,
+      "eval_loss": 0.8038508296012878,
+      "eval_runtime": 1.2713,
+      "eval_samples_per_second": 786.62,
+      "eval_steps_per_second": 12.586,
+      "step": 237000
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 0.00017886621559070638,
+      "loss": 0.289,
+      "step": 237500
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 0.00017839311954729337,
+      "loss": 0.2887,
+      "step": 238000
+    },
+    {
+      "epoch": 6.07,
+      "eval_loss": 0.8181630969047546,
+      "eval_runtime": 1.3231,
+      "eval_samples_per_second": 755.824,
+      "eval_steps_per_second": 12.093,
+      "step": 238000
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 0.00017791976768047292,
+      "loss": 0.2891,
+      "step": 238500
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 0.00017744616516674518,
+      "loss": 0.2889,
+      "step": 239000
+    },
+    {
+      "epoch": 6.09,
+      "eval_loss": 0.806620717048645,
+      "eval_runtime": 1.2977,
+      "eval_samples_per_second": 770.587,
+      "eval_steps_per_second": 12.329,
+      "step": 239000
+    },
+    {
+      "epoch": 6.1,
+      "learning_rate": 0.00017697231718535132,
+      "loss": 0.2888,
+      "step": 239500
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 0.00017649822891821707,
+      "loss": 0.2889,
+      "step": 240000
+    },
+    {
+      "epoch": 6.12,
+      "eval_loss": 0.8128913640975952,
+      "eval_runtime": 1.2865,
+      "eval_samples_per_second": 777.28,
+      "eval_steps_per_second": 12.436,
+      "step": 240000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
+  "total_flos": 7.66761045710973e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf594ad85da8b14fc79f1305a9d38a155ee31dc640b1cde587a09e1650e1b112
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:08123eb498e0376035cfc13e99904da381c8fd27d56ad427569e3314a31c3e52
 size 102501541