YL95
/

copa_v_wright_CPT_mistral_file_folder_path_checkpoint

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

YL95 commited on Jul 22

Commit

1e73f0b

•

1 Parent(s): ab60d15

training state at step 65

Files changed (1) hide show

trainer_state.json +78 -3

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8275862068965517,
   "eval_steps": 1,
-  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -862,6 +862,81 @@
       "eval_samples_per_second": 1.098,
       "eval_steps_per_second": 0.549,
       "step": 59
     }
   ],
   "logging_steps": 1,
@@ -881,7 +956,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.477855969291469e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.896551724137931,
   "eval_steps": 1,
+  "global_step": 65,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.098,
       "eval_steps_per_second": 0.549,
       "step": 59
+    },
+    {
+      "epoch": 0.8275862068965517,
+      "grad_norm": 2.0684103965759277,
+      "learning_rate": 1.1363636363636365e-05,
+      "loss": 1.3615,
+      "step": 60
+    },
+    {
+      "epoch": 0.8275862068965517,
+      "eval_loss": 0.8328086137771606,
+      "eval_runtime": 18.8073,
+      "eval_samples_per_second": 1.063,
+      "eval_steps_per_second": 0.532,
+      "step": 60
+    },
+    {
+      "epoch": 0.8413793103448276,
+      "grad_norm": 2.0212347507476807,
+      "learning_rate": 1.3636363636363637e-05,
+      "loss": 1.3648,
+      "step": 61
+    },
+    {
+      "epoch": 0.8413793103448276,
+      "eval_loss": 0.8308294415473938,
+      "eval_runtime": 18.376,
+      "eval_samples_per_second": 1.088,
+      "eval_steps_per_second": 0.544,
+      "step": 61
+    },
+    {
+      "epoch": 0.8551724137931035,
+      "grad_norm": 1.9967029094696045,
+      "learning_rate": 1.590909090909091e-05,
+      "loss": 1.4334,
+      "step": 62
+    },
+    {
+      "epoch": 0.8551724137931035,
+      "eval_loss": 0.8297985792160034,
+      "eval_runtime": 18.24,
+      "eval_samples_per_second": 1.096,
+      "eval_steps_per_second": 0.548,
+      "step": 62
+    },
+    {
+      "epoch": 0.8689655172413793,
+      "grad_norm": 1.956730842590332,
+      "learning_rate": 1.8181818181818182e-05,
+      "loss": 1.246,
+      "step": 63
+    },
+    {
+      "epoch": 0.8689655172413793,
+      "eval_loss": 0.8276138305664062,
+      "eval_runtime": 18.1099,
+      "eval_samples_per_second": 1.104,
+      "eval_steps_per_second": 0.552,
+      "step": 63
+    },
+    {
+      "epoch": 0.8827586206896552,
+      "grad_norm": 1.8840367794036865,
+      "learning_rate": 2.0454545454545457e-05,
+      "loss": 1.2346,
+      "step": 64
+    },
+    {
+      "epoch": 0.8827586206896552,
+      "eval_loss": 0.8268927335739136,
+      "eval_runtime": 18.2242,
+      "eval_samples_per_second": 1.097,
+      "eval_steps_per_second": 0.549,
+      "step": 64
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.144087573982413e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null