YL95
/

copa_v_wright_CPT_mistral_file_folder_path_checkpoint

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

YL95 commited on Jul 19

Commit

1074d60

•

1 Parent(s): b8561ab

training state at step 40

Files changed (1) hide show

trainer_state.json +78 -3

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4827586206896552,
   "eval_steps": 1,
-  "global_step": 35,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -517,6 +517,81 @@
       "eval_samples_per_second": 1.136,
       "eval_steps_per_second": 0.568,
       "step": 34
     }
   ],
   "logging_steps": 1,
@@ -536,7 +611,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.450920354589901e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5517241379310345,
   "eval_steps": 1,
+  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.136,
       "eval_steps_per_second": 0.568,
       "step": 34
+    },
+    {
+      "epoch": 0.4827586206896552,
+      "grad_norm": 2.2027809619903564,
+      "learning_rate": 4.944806430988927e-05,
+      "loss": 1.3801,
+      "step": 35
+    },
+    {
+      "epoch": 0.4827586206896552,
+      "eval_loss": 0.9546059370040894,
+      "eval_runtime": 17.5811,
+      "eval_samples_per_second": 1.138,
+      "eval_steps_per_second": 0.569,
+      "step": 35
+    },
+    {
+      "epoch": 0.496551724137931,
+      "grad_norm": 2.3457250595092773,
+      "learning_rate": 4.936026311617316e-05,
+      "loss": 1.4401,
+      "step": 36
+    },
+    {
+      "epoch": 0.496551724137931,
+      "eval_loss": 0.9482511281967163,
+      "eval_runtime": 17.8351,
+      "eval_samples_per_second": 1.121,
+      "eval_steps_per_second": 0.561,
+      "step": 36
+    },
+    {
+      "epoch": 0.5103448275862069,
+      "grad_norm": 2.161039352416992,
+      "learning_rate": 4.926607386564898e-05,
+      "loss": 1.4067,
+      "step": 37
+    },
+    {
+      "epoch": 0.5103448275862069,
+      "eval_loss": 0.9448164701461792,
+      "eval_runtime": 17.6014,
+      "eval_samples_per_second": 1.136,
+      "eval_steps_per_second": 0.568,
+      "step": 37
+    },
+    {
+      "epoch": 0.5241379310344828,
+      "grad_norm": 2.1683900356292725,
+      "learning_rate": 4.916552125781528e-05,
+      "loss": 1.3806,
+      "step": 38
+    },
+    {
+      "epoch": 0.5241379310344828,
+      "eval_loss": 0.9402996897697449,
+      "eval_runtime": 17.6524,
+      "eval_samples_per_second": 1.133,
+      "eval_steps_per_second": 0.566,
+      "step": 38
+    },
+    {
+      "epoch": 0.5379310344827586,
+      "grad_norm": 2.2735962867736816,
+      "learning_rate": 4.9058631660850765e-05,
+      "loss": 1.4937,
+      "step": 39
+    },
+    {
+      "epoch": 0.5379310344827586,
+      "eval_loss": 0.9291872978210449,
+      "eval_runtime": 17.5838,
+      "eval_samples_per_second": 1.137,
+      "eval_steps_per_second": 0.569,
+      "step": 39
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.112519916024627e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null