End of training

Browse files

Files changed (5) hide show

all_results.json +10 -10
eval_results.json +6 -6
runs/Jan28_16-59-28_1f25944bc523/events.out.tfevents.1643399381.1f25944bc523.834.2 +3 -0
train_results.json +5 -5
trainer_state.json +86 -12

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 50.0,
-    "eval_loss": 3.314453125,
-    "eval_runtime": 2.4108,
     "eval_samples": 9,
-    "eval_samples_per_second": 3.733,
-    "eval_steps_per_second": 0.83,
-    "perplexity": 27.507346790200362,
-    "train_loss": 2.098372395833333,
-    "train_runtime": 945.6359,
     "train_samples": 23,
-    "train_samples_per_second": 1.216,
-    "train_steps_per_second": 0.159
 }

 {
+    "epoch": 500.0,
+    "eval_loss": 6.0234375,
+    "eval_runtime": 2.3608,
     "eval_samples": 9,
+    "eval_samples_per_second": 3.812,
+    "eval_steps_per_second": 0.847,
+    "perplexity": 412.9958316281291,
+    "train_loss": 0.36582159678141274,
+    "train_runtime": 9345.1631,
     "train_samples": 23,
+    "train_samples_per_second": 1.231,
+    "train_steps_per_second": 0.161
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 50.0,
-    "eval_loss": 3.314453125,
-    "eval_runtime": 2.4108,
     "eval_samples": 9,
-    "eval_samples_per_second": 3.733,
-    "eval_steps_per_second": 0.83,
-    "perplexity": 27.507346790200362
 }

 {
+    "epoch": 500.0,
+    "eval_loss": 6.0234375,
+    "eval_runtime": 2.3608,
     "eval_samples": 9,
+    "eval_samples_per_second": 3.812,
+    "eval_steps_per_second": 0.847,
+    "perplexity": 412.9958316281291
 }

runs/Jan28_16-59-28_1f25944bc523/events.out.tfevents.1643399381.1f25944bc523.834.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11753d86902fa8693e53663b0283d1f2b2824f2b91fee284d12df8565a58c955
+size 311

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 50.0,
-    "train_loss": 2.098372395833333,
-    "train_runtime": 945.6359,
     "train_samples": 23,
-    "train_samples_per_second": 1.216,
-    "train_steps_per_second": 0.159
 }

 {
+    "epoch": 500.0,
+    "train_loss": 0.36582159678141274,
+    "train_runtime": 9345.1631,
     "train_samples": 23,
+    "train_samples_per_second": 1.231,
+    "train_steps_per_second": 0.161
 }

trainer_state.json CHANGED Viewed

@@ -1,25 +1,99 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 50.0,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 50.0,
-      "step": 150,
-      "total_flos": 300491279958016.0,
-      "train_loss": 2.098372395833333,
-      "train_runtime": 945.6359,
-      "train_samples_per_second": 1.216,
-      "train_steps_per_second": 0.159
     }
   ],
-  "max_steps": 150,
-  "num_train_epochs": 50,
-  "total_flos": 300491279958016.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 500.0,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 66.67,
+      "eval_loss": 3.64453125,
+      "eval_runtime": 2.3703,
+      "eval_samples_per_second": 3.797,
+      "eval_steps_per_second": 0.844,
+      "step": 200
+    },
+    {
+      "epoch": 133.33,
+      "eval_loss": 4.5703125,
+      "eval_runtime": 2.3618,
+      "eval_samples_per_second": 3.811,
+      "eval_steps_per_second": 0.847,
+      "step": 400
+    },
+    {
+      "epoch": 166.67,
+      "learning_rate": 5e-05,
+      "loss": 1.0101,
+      "step": 500
+    },
+    {
+      "epoch": 200.0,
+      "eval_loss": 5.2109375,
+      "eval_runtime": 2.3656,
+      "eval_samples_per_second": 3.805,
+      "eval_steps_per_second": 0.845,
+      "step": 600
+    },
+    {
+      "epoch": 266.67,
+      "eval_loss": 5.54296875,
+      "eval_runtime": 2.3648,
+      "eval_samples_per_second": 3.806,
+      "eval_steps_per_second": 0.846,
+      "step": 800
+    },
+    {
+      "epoch": 333.33,
+      "learning_rate": 5e-05,
+      "loss": 0.0681,
+      "step": 1000
+    },
+    {
+      "epoch": 333.33,
+      "eval_loss": 5.72265625,
+      "eval_runtime": 2.3619,
+      "eval_samples_per_second": 3.81,
+      "eval_steps_per_second": 0.847,
+      "step": 1000
+    },
+    {
+      "epoch": 400.0,
+      "eval_loss": 5.8671875,
+      "eval_runtime": 2.3493,
+      "eval_samples_per_second": 3.831,
+      "eval_steps_per_second": 0.851,
+      "step": 1200
+    },
+    {
+      "epoch": 466.67,
+      "eval_loss": 5.99609375,
+      "eval_runtime": 2.3621,
+      "eval_samples_per_second": 3.81,
+      "eval_steps_per_second": 0.847,
+      "step": 1400
+    },
+    {
+      "epoch": 500.0,
+      "learning_rate": 5e-05,
+      "loss": 0.0193,
+      "step": 1500
+    },
+    {
+      "epoch": 500.0,
+      "step": 1500,
+      "total_flos": 3004912665362432.0,
+      "train_loss": 0.36582159678141274,
+      "train_runtime": 9345.1631,
+      "train_samples_per_second": 1.231,
+      "train_steps_per_second": 0.161
     }
   ],
+  "max_steps": 1500,
+  "num_train_epochs": 500,
+  "total_flos": 3004912665362432.0,
   "trial_name": null,
   "trial_params": null
 }