Donw lstr 512

Browse files

Files changed (6) hide show

optimizer.pt +2 -2
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +59 -329

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:175aca2d22d4e0ffe707aa0203de63cde30621cf49a4e7a9ded1eabcd757b3ae
-size 2498489737

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5772f0d132c52d6c7666a76eefa6acb743e5062963c285f6e91ff07779b68b1
+size 2498513929

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:808080093cf66db7b341badb099355e4b67f4fcaefe5d6307115899a4c9bfca7
 size 1266126445

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a3ba17d5b17bb6071632212add5e7a861df1991153686e2b139bda01650420d
 size 1266126445

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5e9db4f8fb9adcedf9b8f43bc1c1355687d2a0381ee8c01e6f555f0a82cb5dc
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7c914e03b6244226666d251f841b0bbc1d1bfb51226ea62c98deeaaf6176005
+size 14567

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fccda41cf05d0c2582a5ae864ddced240b945973cac170056ad38621f56c053
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e26ec2eeed5d2393eae8db5740c3d49711ae46ff10dcff4c5d8a4a07cdc5062
 size 559

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f178de8fd426d107cb3181bc3de3565897ca73a1fcc762375a87651bd94651ae
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fff2c89694c75e0ec2f7fd167cc6e42ee90aad80a67c0b576b690e62f6ab285
 size 623

trainer_state.json CHANGED Viewed

@@ -1,376 +1,106 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
-  "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.42,
-      "learning_rate": 7.500000000000001e-05,
-      "loss": 1.2218,
       "step": 10
     },
     {
-      "epoch": 0.42,
-      "eval_accuracy": 0.6041666865348816,
-      "eval_loss": 0.9863560795783997,
-      "eval_runtime": 10.1253,
-      "eval_samples_per_second": 4.741,
-      "eval_steps_per_second": 1.185,
       "step": 10
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 7.083333333333334e-05,
-      "loss": 0.9652,
       "step": 20
     },
     {
-      "epoch": 0.83,
-      "eval_accuracy": 0.5833333134651184,
-      "eval_loss": 0.8854789733886719,
-      "eval_runtime": 11.1802,
-      "eval_samples_per_second": 4.293,
-      "eval_steps_per_second": 1.073,
       "step": 20
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 6.666666666666667e-05,
-      "loss": 0.9764,
       "step": 30
     },
     {
-      "epoch": 1.25,
-      "eval_accuracy": 0.6666666865348816,
-      "eval_loss": 0.8104388117790222,
-      "eval_runtime": 10.0746,
-      "eval_samples_per_second": 4.764,
-      "eval_steps_per_second": 1.191,
       "step": 30
     },
     {
-      "epoch": 1.67,
-      "learning_rate": 6.25e-05,
-      "loss": 0.5574,
       "step": 40
     },
     {
-      "epoch": 1.67,
-      "eval_accuracy": 0.625,
-      "eval_loss": 1.0489534139633179,
-      "eval_runtime": 11.7457,
-      "eval_samples_per_second": 4.087,
-      "eval_steps_per_second": 1.022,
       "step": 40
     },
     {
-      "epoch": 2.08,
-      "learning_rate": 5.833333333333334e-05,
-      "loss": 0.778,
       "step": 50
     },
     {
-      "epoch": 2.08,
-      "eval_accuracy": 0.6458333134651184,
-      "eval_loss": 0.8387454152107239,
-      "eval_runtime": 10.2158,
-      "eval_samples_per_second": 4.699,
-      "eval_steps_per_second": 1.175,
       "step": 50
     },
     {
-      "epoch": 2.5,
-      "learning_rate": 5.4166666666666664e-05,
-      "loss": 0.4129,
       "step": 60
     },
     {
-      "epoch": 2.5,
-      "eval_accuracy": 0.7083333134651184,
-      "eval_loss": 0.7567564845085144,
-      "eval_runtime": 11.1124,
-      "eval_samples_per_second": 4.319,
-      "eval_steps_per_second": 1.08,
       "step": 60
-    },
-    {
-      "epoch": 2.92,
-      "learning_rate": 5e-05,
-      "loss": 0.4054,
-      "step": 70
-    },
-    {
-      "epoch": 2.92,
-      "eval_accuracy": 0.75,
-      "eval_loss": 0.7560882568359375,
-      "eval_runtime": 10.3666,
-      "eval_samples_per_second": 4.63,
-      "eval_steps_per_second": 1.158,
-      "step": 70
-    },
-    {
-      "epoch": 3.33,
-      "learning_rate": 4.5833333333333334e-05,
-      "loss": 0.3773,
-      "step": 80
-    },
-    {
-      "epoch": 3.33,
-      "eval_accuracy": 0.8125,
-      "eval_loss": 0.6256787180900574,
-      "eval_runtime": 11.7432,
-      "eval_samples_per_second": 4.087,
-      "eval_steps_per_second": 1.022,
-      "step": 80
-    },
-    {
-      "epoch": 3.75,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.1139,
-      "step": 90
-    },
-    {
-      "epoch": 3.75,
-      "eval_accuracy": 0.875,
-      "eval_loss": 0.44811201095581055,
-      "eval_runtime": 10.2271,
-      "eval_samples_per_second": 4.693,
-      "eval_steps_per_second": 1.173,
-      "step": 90
-    },
-    {
-      "epoch": 4.17,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.1395,
-      "step": 100
-    },
-    {
-      "epoch": 4.17,
-      "eval_accuracy": 0.7708333134651184,
-      "eval_loss": 0.7507086396217346,
-      "eval_runtime": 11.1455,
-      "eval_samples_per_second": 4.307,
-      "eval_steps_per_second": 1.077,
-      "step": 100
-    },
-    {
-      "epoch": 4.58,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.0564,
-      "step": 110
-    },
-    {
-      "epoch": 4.58,
-      "eval_accuracy": 0.7916666865348816,
-      "eval_loss": 0.7551252841949463,
-      "eval_runtime": 10.0567,
-      "eval_samples_per_second": 4.773,
-      "eval_steps_per_second": 1.193,
-      "step": 110
-    },
-    {
-      "epoch": 5.0,
-      "learning_rate": 2.916666666666667e-05,
-      "loss": 0.0767,
-      "step": 120
-    },
-    {
-      "epoch": 5.0,
-      "eval_accuracy": 0.7916666865348816,
-      "eval_loss": 0.7378367781639099,
-      "eval_runtime": 11.5811,
-      "eval_samples_per_second": 4.145,
-      "eval_steps_per_second": 1.036,
-      "step": 120
-    },
-    {
-      "epoch": 5.42,
-      "learning_rate": 2.5e-05,
-      "loss": 0.0464,
-      "step": 130
-    },
-    {
-      "epoch": 5.42,
-      "eval_accuracy": 0.7291666865348816,
-      "eval_loss": 1.1143478155136108,
-      "eval_runtime": 10.0199,
-      "eval_samples_per_second": 4.79,
-      "eval_steps_per_second": 1.198,
-      "step": 130
-    },
-    {
-      "epoch": 5.83,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 0.0996,
-      "step": 140
-    },
-    {
-      "epoch": 5.83,
-      "eval_accuracy": 0.8333333134651184,
-      "eval_loss": 0.6909031867980957,
-      "eval_runtime": 11.7023,
-      "eval_samples_per_second": 4.102,
-      "eval_steps_per_second": 1.025,
-      "step": 140
-    },
-    {
-      "epoch": 6.25,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.0166,
-      "step": 150
-    },
-    {
-      "epoch": 6.25,
-      "eval_accuracy": 0.8333333134651184,
-      "eval_loss": 0.6695077419281006,
-      "eval_runtime": 9.8609,
-      "eval_samples_per_second": 4.868,
-      "eval_steps_per_second": 1.217,
-      "step": 150
-    },
-    {
-      "epoch": 6.67,
-      "learning_rate": 1.25e-05,
-      "loss": 0.0547,
-      "step": 160
-    },
-    {
-      "epoch": 6.67,
-      "eval_accuracy": 0.75,
-      "eval_loss": 0.9423481822013855,
-      "eval_runtime": 11.5884,
-      "eval_samples_per_second": 4.142,
-      "eval_steps_per_second": 1.036,
-      "step": 160
-    },
-    {
-      "epoch": 7.08,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 0.1214,
-      "step": 170
-    },
-    {
-      "epoch": 7.08,
-      "eval_accuracy": 0.7916666865348816,
-      "eval_loss": 0.7280401587486267,
-      "eval_runtime": 10.0684,
-      "eval_samples_per_second": 4.767,
-      "eval_steps_per_second": 1.192,
-      "step": 170
-    },
-    {
-      "epoch": 7.5,
-      "learning_rate": 4.166666666666667e-06,
-      "loss": 0.0096,
-      "step": 180
-    },
-    {
-      "epoch": 7.5,
-      "eval_accuracy": 0.7916666865348816,
-      "eval_loss": 0.6912185549736023,
-      "eval_runtime": 11.3942,
-      "eval_samples_per_second": 4.213,
-      "eval_steps_per_second": 1.053,
-      "step": 180
-    },
-    {
-      "epoch": 7.92,
-      "learning_rate": 0.0,
-      "loss": 0.0611,
-      "step": 190
-    },
-    {
-      "epoch": 7.92,
-      "eval_accuracy": 0.7916666865348816,
-      "eval_loss": 0.6880165934562683,
-      "eval_runtime": 10.0683,
-      "eval_samples_per_second": 4.767,
-      "eval_steps_per_second": 1.192,
-      "step": 190
-    },
-    {
-      "epoch": 8.33,
-      "learning_rate": 0.0,
-      "loss": 0.0254,
-      "step": 200
-    },
-    {
-      "epoch": 8.33,
-      "eval_accuracy": 0.7916666865348816,
-      "eval_loss": 0.6880165934562683,
-      "eval_runtime": 12.1412,
-      "eval_samples_per_second": 3.953,
-      "eval_steps_per_second": 0.988,
-      "step": 200
-    },
-    {
-      "epoch": 8.75,
-      "learning_rate": 0.0,
-      "loss": 0.0073,
-      "step": 210
-    },
-    {
-      "epoch": 8.75,
-      "eval_accuracy": 0.7916666865348816,
-      "eval_loss": 0.6880165934562683,
-      "eval_runtime": 9.9345,
-      "eval_samples_per_second": 4.832,
-      "eval_steps_per_second": 1.208,
-      "step": 210
-    },
-    {
-      "epoch": 9.17,
-      "learning_rate": 0.0,
-      "loss": 0.0153,
-      "step": 220
-    },
-    {
-      "epoch": 9.17,
-      "eval_accuracy": 0.7916666865348816,
-      "eval_loss": 0.6880165934562683,
-      "eval_runtime": 10.0673,
-      "eval_samples_per_second": 4.768,
-      "eval_steps_per_second": 1.192,
-      "step": 220
-    },
-    {
-      "epoch": 9.58,
-      "learning_rate": 0.0,
-      "loss": 0.0093,
-      "step": 230
-    },
-    {
-      "epoch": 9.58,
-      "eval_accuracy": 0.7916666865348816,
-      "eval_loss": 0.6880165934562683,
-      "eval_runtime": 9.9352,
-      "eval_samples_per_second": 4.831,
-      "eval_steps_per_second": 1.208,
-      "step": 230
-    },
-    {
-      "epoch": 10.0,
-      "learning_rate": 0.0,
-      "loss": 0.0575,
-      "step": 240
-    },
-    {
-      "epoch": 10.0,
-      "eval_accuracy": 0.7916666865348816,
-      "eval_loss": 0.6880165934562683,
-      "eval_runtime": 10.1458,
-      "eval_samples_per_second": 4.731,
-      "eval_steps_per_second": 1.183,
-      "step": 240
     }
   ],
-  "max_steps": 240,
-  "num_train_epochs": 10,
-  "total_flos": 6.925070959567395e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3908045977011494,
+  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.23,
+      "learning_rate": 9.418604651162792e-05,
+      "loss": 1.9238,
       "step": 10
     },
     {
+      "epoch": 0.23,
+      "eval_accuracy": 0.1818181872367859,
+      "eval_loss": 1.9564208984375,
+      "eval_runtime": 19.1351,
+      "eval_samples_per_second": 4.599,
+      "eval_steps_per_second": 1.15,
       "step": 10
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 8.837209302325582e-05,
+      "loss": 1.9589,
       "step": 20
     },
     {
+      "epoch": 0.46,
+      "eval_accuracy": 0.15909090638160706,
+      "eval_loss": 1.9498623609542847,
+      "eval_runtime": 21.5957,
+      "eval_samples_per_second": 4.075,
+      "eval_steps_per_second": 1.019,
       "step": 20
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 8.255813953488373e-05,
+      "loss": 1.9677,
       "step": 30
     },
     {
+      "epoch": 0.69,
+      "eval_accuracy": 0.17045454680919647,
+      "eval_loss": 1.8762873411178589,
+      "eval_runtime": 19.1489,
+      "eval_samples_per_second": 4.596,
+      "eval_steps_per_second": 1.149,
       "step": 30
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 7.674418604651163e-05,
+      "loss": 1.9357,
       "step": 40
     },
     {
+      "epoch": 0.92,
+      "eval_accuracy": 0.21590909361839294,
+      "eval_loss": 1.8796330690383911,
+      "eval_runtime": 21.6027,
+      "eval_samples_per_second": 4.074,
+      "eval_steps_per_second": 1.018,
       "step": 40
     },
     {
+      "epoch": 1.16,
+      "learning_rate": 7.093023255813955e-05,
+      "loss": 1.9529,
       "step": 50
     },
     {
+      "epoch": 1.16,
+      "eval_accuracy": 0.22727273404598236,
+      "eval_loss": 1.841020107269287,
+      "eval_runtime": 22.0824,
+      "eval_samples_per_second": 3.985,
+      "eval_steps_per_second": 0.996,
       "step": 50
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 6.511627906976745e-05,
+      "loss": 1.8197,
       "step": 60
     },
     {
+      "epoch": 1.39,
+      "eval_accuracy": 0.35227271914482117,
+      "eval_loss": 1.6947021484375,
+      "eval_runtime": 21.8177,
+      "eval_samples_per_second": 4.033,
+      "eval_steps_per_second": 1.008,
       "step": 60
     }
   ],
+  "max_steps": 172,
+  "num_train_epochs": 4,
+  "total_flos": 1.7581701250290854e+17,
   "trial_name": null,
   "trial_params": null
 }