Training in progress, step 2000

Browse files

Files changed (7) hide show

model.safetensors +1 -1
run-0/checkpoint-2000/model.safetensors +1 -1
run-0/checkpoint-2000/optimizer.pt +1 -1
run-0/checkpoint-2000/scheduler.pt +1 -1
run-0/checkpoint-2000/trainer_state.json +48 -48
run-0/checkpoint-2000/training_args.bin +1 -1
runs/Aug28_01-37-39_61274092231a/events.out.tfevents.1724809400.61274092231a.346.0 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c477f7a907877bd4f6c28bcf11f979c0482872e341c414cd2ecdfe4a3a59731
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0c4938cf1997eaa7f230de2c460ceff1a3fafc4a1177ca772c47775c0bb604b
 size 268290900

run-0/checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1435a107f5e2b932d222187a0c2d7c18d4ff63b3e6d543b3962f28ffb6adc115
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0c4938cf1997eaa7f230de2c460ceff1a3fafc4a1177ca772c47775c0bb604b
 size 268290900

run-0/checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:580de368af6d91f48c42992d215d5548cca48bfbc2e3f56cc3d3697da0995ea1
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab1ca30a9c506a79c23fb9226bcbc12201d7aeefb295294b974bbb78c0fa3ec4
 size 536643898

run-0/checkpoint-2000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f38866eaf1d2baeb52a55cb38ece6ee67f3213265b0830dd06c82a9148795bea
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bf6d4c2c13eda2c2dfacdbfc8684055c5603a92b6c0c386d7c757b108195d12
 size 1064

run-0/checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -10,91 +10,91 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5783870967741935,
-      "eval_loss": 0.19767619669437408,
-      "eval_runtime": 6.8983,
-      "eval_samples_per_second": 449.384,
-      "eval_steps_per_second": 9.423,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5253991484642029,
-      "learning_rate": 1.550763701707098e-05,
-      "loss": 0.3154,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8151612903225807,
-      "eval_loss": 0.09857291728258133,
-      "eval_runtime": 6.9285,
-      "eval_samples_per_second": 447.424,
-      "eval_steps_per_second": 9.381,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8722580645161291,
-      "eval_loss": 0.06783536076545715,
-      "eval_runtime": 5.8131,
-      "eval_samples_per_second": 533.278,
-      "eval_steps_per_second": 11.182,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.4484029710292816,
-      "learning_rate": 1.101527403414196e-05,
-      "loss": 0.1139,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8938709677419355,
-      "eval_loss": 0.05406318977475166,
-      "eval_runtime": 5.9462,
-      "eval_samples_per_second": 521.342,
-      "eval_steps_per_second": 10.931,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.31517869234085083,
-      "learning_rate": 6.522911051212939e-06,
-      "loss": 0.0759,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9012903225806451,
-      "eval_loss": 0.04607924818992615,
-      "eval_runtime": 6.3687,
-      "eval_samples_per_second": 486.755,
-      "eval_steps_per_second": 10.206,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9038709677419355,
-      "eval_loss": 0.04200601950287819,
-      "eval_runtime": 5.4702,
-      "eval_samples_per_second": 566.709,
-      "eval_steps_per_second": 11.883,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.29168257117271423,
-      "learning_rate": 2.0305480682839176e-06,
-      "loss": 0.0626,
       "step": 2000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2226,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -108,12 +108,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 520991326672152.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.6369202392102897,
-    "num_train_epochs": 7,
-    "temperature": 14
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5922580645161291,
+      "eval_loss": 0.20889601111412048,
+      "eval_runtime": 5.414,
+      "eval_samples_per_second": 572.59,
+      "eval_steps_per_second": 12.006,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.542173445224762,
+      "learning_rate": 1.606918238993711e-05,
+      "loss": 0.3345,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8241935483870968,
+      "eval_loss": 0.10050595551729202,
+      "eval_runtime": 5.7639,
+      "eval_samples_per_second": 537.832,
+      "eval_steps_per_second": 11.277,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8796774193548387,
+      "eval_loss": 0.06686455011367798,
+      "eval_runtime": 5.5547,
+      "eval_samples_per_second": 558.085,
+      "eval_steps_per_second": 11.702,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.4653903543949127,
+      "learning_rate": 1.2138364779874214e-05,
+      "loss": 0.1167,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8977419354838709,
+      "eval_loss": 0.0517834909260273,
+      "eval_runtime": 5.5384,
+      "eval_samples_per_second": 559.724,
+      "eval_steps_per_second": 11.736,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3185347020626068,
+      "learning_rate": 8.207547169811321e-06,
+      "loss": 0.0748,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9077419354838709,
+      "eval_loss": 0.04287005588412285,
+      "eval_runtime": 5.7308,
+      "eval_samples_per_second": 540.936,
+      "eval_steps_per_second": 11.342,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9093548387096774,
+      "eval_loss": 0.038017407059669495,
+      "eval_runtime": 5.4241,
+      "eval_samples_per_second": 571.523,
+      "eval_steps_per_second": 11.984,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.28105106949806213,
+      "learning_rate": 4.276729559748428e-06,
+      "loss": 0.0595,
       "step": 2000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2544,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 557026887825240.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.2538508748497722,
+    "num_train_epochs": 8,
+    "temperature": 8
   }
 }

run-0/checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd0157c06cf74a0ef8d4bfe1d9f32f70cf2017a9b45a06922514ee718def89a0
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:73e9a605faa3902a303e6371d0d6948b2792d2dacb2db5a88d43ea8ab45fc2f6
 size 5176

runs/Aug28_01-37-39_61274092231a/events.out.tfevents.1724809400.61274092231a.346.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d0a0f3eff777996b448c97ed48d6c55ed27deed95468535bccb65c3c7f0206d
-size 26585

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ed0aea1555ab6839d737647d2dc5d0db1008a5fe9dc567dfae453e77488e3a2
+size 27442