YL95
/

copa_v_wright_CPT_mistral_file_folder_path_checkpoint

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

YL95 commited on Jul 22

Commit

d3c5397

•

1 Parent(s): ddc96ba

training state at step 75

Files changed (1) hide show

trainer_state.json +78 -3

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9655172413793104,
   "eval_steps": 1,
-  "global_step": 70,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1012,6 +1012,81 @@
       "eval_samples_per_second": 1.098,
       "eval_steps_per_second": 0.549,
       "step": 69
     }
   ],
   "logging_steps": 1,
@@ -1031,7 +1106,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.799498944033587e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0344827586206897,
   "eval_steps": 1,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.098,
       "eval_steps_per_second": 0.549,
       "step": 69
+    },
+    {
+      "epoch": 0.9655172413793104,
+      "grad_norm": 2.1164538860321045,
+      "learning_rate": 3.409090909090909e-05,
+      "loss": 1.3873,
+      "step": 70
+    },
+    {
+      "epoch": 0.9655172413793104,
+      "eval_loss": 0.7753366231918335,
+      "eval_runtime": 18.5302,
+      "eval_samples_per_second": 1.079,
+      "eval_steps_per_second": 0.54,
+      "step": 70
+    },
+    {
+      "epoch": 0.9793103448275862,
+      "grad_norm": 2.032721996307373,
+      "learning_rate": 3.6363636363636364e-05,
+      "loss": 1.232,
+      "step": 71
+    },
+    {
+      "epoch": 0.9793103448275862,
+      "eval_loss": 0.7628229856491089,
+      "eval_runtime": 18.4062,
+      "eval_samples_per_second": 1.087,
+      "eval_steps_per_second": 0.543,
+      "step": 71
+    },
+    {
+      "epoch": 0.993103448275862,
+      "grad_norm": 2.1039462089538574,
+      "learning_rate": 3.8636363636363636e-05,
+      "loss": 1.2715,
+      "step": 72
+    },
+    {
+      "epoch": 0.993103448275862,
+      "eval_loss": 0.751362681388855,
+      "eval_runtime": 18.2628,
+      "eval_samples_per_second": 1.095,
+      "eval_steps_per_second": 0.548,
+      "step": 72
+    },
+    {
+      "epoch": 1.006896551724138,
+      "grad_norm": 2.1415343284606934,
+      "learning_rate": 4.0909090909090915e-05,
+      "loss": 1.3012,
+      "step": 73
+    },
+    {
+      "epoch": 1.006896551724138,
+      "eval_loss": 0.7407116293907166,
+      "eval_runtime": 18.1993,
+      "eval_samples_per_second": 1.099,
+      "eval_steps_per_second": 0.549,
+      "step": 73
+    },
+    {
+      "epoch": 1.0206896551724138,
+      "grad_norm": 1.9539107084274292,
+      "learning_rate": 4.318181818181819e-05,
+      "loss": 1.1411,
+      "step": 74
+    },
+    {
+      "epoch": 1.0206896551724138,
+      "eval_loss": 0.7367935180664062,
+      "eval_runtime": 18.2237,
+      "eval_samples_per_second": 1.097,
+      "eval_steps_per_second": 0.549,
+      "step": 74
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.437537876803584e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null