YL95
/

copa_v_wright_CPT_mistral_file_folder_path_checkpoint

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

YL95 commited on Jul 22

Commit

e831c16

•

1 Parent(s): f44038a

training state at step 90

Files changed (1) hide show

trainer_state.json +78 -3

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1724137931034484,
   "eval_steps": 1,
-  "global_step": 85,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1237,6 +1237,81 @@
       "eval_samples_per_second": 1.102,
       "eval_steps_per_second": 0.551,
       "step": 84
     }
   ],
   "logging_steps": 1,
@@ -1256,7 +1331,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.074128969822208e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2413793103448276,
   "eval_steps": 1,
+  "global_step": 90,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.102,
       "eval_steps_per_second": 0.551,
       "step": 84
+    },
+    {
+      "epoch": 1.1724137931034484,
+      "grad_norm": 2.1747775077819824,
+      "learning_rate": 4.9790502530660635e-05,
+      "loss": 1.1778,
+      "step": 85
+    },
+    {
+      "epoch": 1.1724137931034484,
+      "eval_loss": 0.6942981481552124,
+      "eval_runtime": 18.8763,
+      "eval_samples_per_second": 1.06,
+      "eval_steps_per_second": 0.53,
+      "step": 85
+    },
+    {
+      "epoch": 1.186206896551724,
+      "grad_norm": 2.152348041534424,
+      "learning_rate": 4.9734953280908904e-05,
+      "loss": 1.331,
+      "step": 86
+    },
+    {
+      "epoch": 1.186206896551724,
+      "eval_loss": 0.6978840827941895,
+      "eval_runtime": 18.349,
+      "eval_samples_per_second": 1.09,
+      "eval_steps_per_second": 0.545,
+      "step": 86
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 2.069314956665039,
+      "learning_rate": 4.967291771834727e-05,
+      "loss": 1.1638,
+      "step": 87
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.6983293294906616,
+      "eval_runtime": 18.1961,
+      "eval_samples_per_second": 1.099,
+      "eval_steps_per_second": 0.55,
+      "step": 87
+    },
+    {
+      "epoch": 1.2137931034482758,
+      "grad_norm": 2.037853717803955,
+      "learning_rate": 4.960441211072686e-05,
+      "loss": 1.1118,
+      "step": 88
+    },
+    {
+      "epoch": 1.2137931034482758,
+      "eval_loss": 0.6962876915931702,
+      "eval_runtime": 18.1105,
+      "eval_samples_per_second": 1.104,
+      "eval_steps_per_second": 0.552,
+      "step": 88
+    },
+    {
+      "epoch": 1.2275862068965517,
+      "grad_norm": 1.9961076974868774,
+      "learning_rate": 4.9529454422455976e-05,
+      "loss": 1.0972,
+      "step": 89
+    },
+    {
+      "epoch": 1.2275862068965517,
+      "eval_loss": 0.6896785497665405,
+      "eval_runtime": 18.0553,
+      "eval_samples_per_second": 1.108,
+      "eval_steps_per_second": 0.554,
+      "step": 89
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.1395900243505971e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null