Training in progress, step 1500

Browse files

Files changed (6) hide show

model.safetensors +1 -1
run-0/checkpoint-1500/model.safetensors +1 -1
run-0/checkpoint-1500/optimizer.pt +1 -1
run-0/checkpoint-1500/scheduler.pt +1 -1
run-0/checkpoint-1500/trainer_state.json +32 -32
run-0/checkpoint-1500/training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a29f49bda4e119ccbd443de2bc09bedf840d876182c780b9c8a2c9231f57f13
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ac061dd2d4c26446ac963d9f9edbb1a5fad62538e3bea67171acf5cc7531ba0
 size 268290900

run-0/checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21a3f6cbbbaa574f734119b3a655ae3f6c464632f6a1f7a1366eee3c3c982746
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ac061dd2d4c26446ac963d9f9edbb1a5fad62538e3bea67171acf5cc7531ba0
 size 268290900

run-0/checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2de09a1aa9983c9bb3c91ac625182cb24b987ea411c6a02256c64756f691e735
 size 536641018

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd68de8f9c7e0205a8e62dd4f4e83901ceadd71d8c2f30514cb6dde2a0195bba
 size 536641018

run-0/checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcd6ed9c4966f04e48f7e49950e7ebd650efdad29179dc7040c5fcd1878b86b2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d64c2fcc199bcaa9f6cc6a50071234f29de10ac43b1d2efd9b3a1263b2bd2351
 size 1064

run-0/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -10,70 +10,70 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6209677419354839,
-      "eval_loss": 0.30407604575157166,
-      "eval_runtime": 32.7661,
-      "eval_samples_per_second": 94.61,
-      "eval_steps_per_second": 1.984,
       "step": 318
     },
     {
       "epoch": 1.57,
-      "learning_rate": 1.371069182389937e-05,
-      "loss": 0.4692,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8306451612903226,
-      "eval_loss": 0.1361115723848343,
-      "eval_runtime": 33.7989,
-      "eval_samples_per_second": 91.719,
-      "eval_steps_per_second": 1.923,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8732258064516129,
-      "eval_loss": 0.08754292130470276,
-      "eval_runtime": 35.7067,
-      "eval_samples_per_second": 86.818,
-      "eval_steps_per_second": 1.82,
       "step": 954
     },
     {
       "epoch": 3.14,
-      "learning_rate": 7.421383647798742e-06,
-      "loss": 0.1581,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.89,
-      "eval_loss": 0.06889040023088455,
-      "eval_runtime": 34.2286,
-      "eval_samples_per_second": 90.568,
-      "eval_steps_per_second": 1.899,
       "step": 1272
     },
     {
       "epoch": 4.72,
-      "learning_rate": 1.1320754716981133e-06,
-      "loss": 0.1026,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1590,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 391111083046572.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.7270057172031172,
-    "num_train_epochs": 5,
-    "temperature": 3
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5725806451612904,
+      "eval_loss": 0.19595691561698914,
+      "eval_runtime": 32.0568,
+      "eval_samples_per_second": 96.703,
+      "eval_steps_per_second": 2.028,
       "step": 318
     },
     {
       "epoch": 1.57,
+      "learning_rate": 1.650593990216632e-05,
+      "loss": 0.3121,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8225806451612904,
+      "eval_loss": 0.09427216649055481,
+      "eval_runtime": 32.0856,
+      "eval_samples_per_second": 96.617,
+      "eval_steps_per_second": 2.026,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8803225806451613,
+      "eval_loss": 0.06379777938127518,
+      "eval_runtime": 32.0237,
+      "eval_samples_per_second": 96.803,
+      "eval_steps_per_second": 2.03,
       "step": 954
     },
     {
       "epoch": 3.14,
+      "learning_rate": 1.3011879804332637e-05,
+      "loss": 0.1092,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8970967741935484,
+      "eval_loss": 0.04936477169394493,
+      "eval_runtime": 32.5484,
+      "eval_samples_per_second": 95.243,
+      "eval_steps_per_second": 1.997,
       "step": 1272
     },
     {
       "epoch": 4.72,
+      "learning_rate": 9.517819706498952e-06,
+      "loss": 0.07,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2862,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
   "save_steps": 500,
+  "total_flos": 398395396548492.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.7640228560672628,
+    "num_train_epochs": 9,
+    "temperature": 14
   }
 }

run-0/checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0d34e4afda155d42bbd522b2a044ab9287e1cedfefacf95b85ce5c12856ae43
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:73a3231765e793379f3c2eb18638a0e9162675eda88f8bacd01ec84f388025e7
 size 4728