YL95
/

copa_v_wright_CPT_mistral_file_folder_path_checkpoint

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

YL95 commited on Jul 19

Commit

0ab8d1a

•

1 Parent(s): 99266bf

training state at step 20

Files changed (1) hide show

trainer_state.json +78 -3

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.20689655172413793,
   "eval_steps": 1,
-  "global_step": 15,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -217,6 +217,81 @@
       "eval_samples_per_second": 1.134,
       "eval_steps_per_second": 0.567,
       "step": 14
     }
   ],
   "logging_steps": 1,
@@ -236,7 +311,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8199561861840896e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.27586206896551724,
   "eval_steps": 1,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.134,
       "eval_steps_per_second": 0.567,
       "step": 14
+    },
+    {
+      "epoch": 0.20689655172413793,
+      "grad_norm": 2.538036823272705,
+      "learning_rate": 3.409090909090909e-05,
+      "loss": 1.6763,
+      "step": 15
+    },
+    {
+      "epoch": 0.20689655172413793,
+      "eval_loss": 1.2366451025009155,
+      "eval_runtime": 18.6172,
+      "eval_samples_per_second": 1.074,
+      "eval_steps_per_second": 0.537,
+      "step": 15
+    },
+    {
+      "epoch": 0.2206896551724138,
+      "grad_norm": 2.5125789642333984,
+      "learning_rate": 3.6363636363636364e-05,
+      "loss": 1.668,
+      "step": 16
+    },
+    {
+      "epoch": 0.2206896551724138,
+      "eval_loss": 1.2205184698104858,
+      "eval_runtime": 17.7529,
+      "eval_samples_per_second": 1.127,
+      "eval_steps_per_second": 0.563,
+      "step": 16
+    },
+    {
+      "epoch": 0.23448275862068965,
+      "grad_norm": 5.055665969848633,
+      "learning_rate": 3.8636363636363636e-05,
+      "loss": 1.5703,
+      "step": 17
+    },
+    {
+      "epoch": 0.23448275862068965,
+      "eval_loss": 1.167407751083374,
+      "eval_runtime": 17.5902,
+      "eval_samples_per_second": 1.137,
+      "eval_steps_per_second": 0.568,
+      "step": 17
+    },
+    {
+      "epoch": 0.2482758620689655,
+      "grad_norm": 2.567411422729492,
+      "learning_rate": 4.0909090909090915e-05,
+      "loss": 1.4859,
+      "step": 18
+    },
+    {
+      "epoch": 0.2482758620689655,
+      "eval_loss": 1.1367636919021606,
+      "eval_runtime": 17.4832,
+      "eval_samples_per_second": 1.144,
+      "eval_steps_per_second": 0.572,
+      "step": 18
+    },
+    {
+      "epoch": 0.2620689655172414,
+      "grad_norm": 2.3214948177337646,
+      "learning_rate": 4.318181818181819e-05,
+      "loss": 1.4511,
+      "step": 19
+    },
+    {
+      "epoch": 0.2620689655172414,
+      "eval_loss": 1.1296402215957642,
+      "eval_runtime": 17.6655,
+      "eval_samples_per_second": 1.132,
+      "eval_steps_per_second": 0.566,
+      "step": 19
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.4706263096016896e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null