YL95
/

copa_v_wright_CPT_mistral_file_folder_path_checkpoint

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

YL95 commited on Jul 22

Commit

79acaaf

•

1 Parent(s): db92803

training state at step 95

Files changed (1) hide show

trainer_state.json +78 -3

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2413793103448276,
   "eval_steps": 1,
-  "global_step": 90,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1312,6 +1312,81 @@
       "eval_samples_per_second": 1.108,
       "eval_steps_per_second": 0.554,
       "step": 89
     }
   ],
   "logging_steps": 1,
@@ -1331,7 +1406,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1395900243505971e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3103448275862069,
   "eval_steps": 1,
+  "global_step": 95,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.108,
       "eval_steps_per_second": 0.554,
       "step": 89
+    },
+    {
+      "epoch": 1.2413793103448276,
+      "grad_norm": 2.28176212310791,
+      "learning_rate": 4.944806430988927e-05,
+      "loss": 1.3304,
+      "step": 90
+    },
+    {
+      "epoch": 1.2413793103448276,
+      "eval_loss": 0.6826642751693726,
+      "eval_runtime": 18.5055,
+      "eval_samples_per_second": 1.081,
+      "eval_steps_per_second": 0.54,
+      "step": 90
+    },
+    {
+      "epoch": 1.2551724137931035,
+      "grad_norm": 1.894646406173706,
+      "learning_rate": 4.936026311617316e-05,
+      "loss": 1.0935,
+      "step": 91
+    },
+    {
+      "epoch": 1.2551724137931035,
+      "eval_loss": 0.678307831287384,
+      "eval_runtime": 18.3532,
+      "eval_samples_per_second": 1.09,
+      "eval_steps_per_second": 0.545,
+      "step": 91
+    },
+    {
+      "epoch": 1.2689655172413792,
+      "grad_norm": 2.0475075244903564,
+      "learning_rate": 4.926607386564898e-05,
+      "loss": 1.2393,
+      "step": 92
+    },
+    {
+      "epoch": 1.2689655172413792,
+      "eval_loss": 0.6765857934951782,
+      "eval_runtime": 18.2689,
+      "eval_samples_per_second": 1.095,
+      "eval_steps_per_second": 0.547,
+      "step": 92
+    },
+    {
+      "epoch": 1.282758620689655,
+      "grad_norm": 2.140949249267578,
+      "learning_rate": 4.916552125781528e-05,
+      "loss": 1.0277,
+      "step": 93
+    },
+    {
+      "epoch": 1.282758620689655,
+      "eval_loss": 0.6735562682151794,
+      "eval_runtime": 18.1407,
+      "eval_samples_per_second": 1.102,
+      "eval_steps_per_second": 0.551,
+      "step": 93
+    },
+    {
+      "epoch": 1.296551724137931,
+      "grad_norm": 2.235147476196289,
+      "learning_rate": 4.9058631660850765e-05,
+      "loss": 1.2081,
+      "step": 94
+    },
+    {
+      "epoch": 1.296551724137931,
+      "eval_loss": 0.6619122624397278,
+      "eval_runtime": 18.2145,
+      "eval_samples_per_second": 1.098,
+      "eval_steps_per_second": 0.549,
+      "step": 94
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.2071987453003366e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null