YL95
/

copa_v_wright_CPT_mistral_file_folder_path_checkpoint

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

YL95 commited on Jul 22

Commit

a6e6cd8

•

1 Parent(s): bc3efc8

training state at step 50

Files changed (1) hide show

trainer_state.json +78 -3

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6206896551724138,
   "eval_steps": 1,
-  "global_step": 45,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -652,6 +652,81 @@
       "eval_samples_per_second": 1.275,
       "eval_steps_per_second": 0.637,
       "step": 44
     }
   ],
   "logging_steps": 1,
@@ -671,7 +746,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.643858048835584e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6896551724137931,
   "eval_steps": 1,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.275,
       "eval_steps_per_second": 0.637,
       "step": 44
+    },
+    {
+      "epoch": 0.6206896551724138,
+      "grad_norm": 2.1096601486206055,
+      "learning_rate": 1.1363636363636365e-05,
+      "loss": 1.3981,
+      "step": 45
+    },
+    {
+      "epoch": 0.6206896551724138,
+      "eval_loss": 0.8982122540473938,
+      "eval_runtime": 15.707,
+      "eval_samples_per_second": 1.273,
+      "eval_steps_per_second": 0.637,
+      "step": 45
+    },
+    {
+      "epoch": 0.6344827586206897,
+      "grad_norm": 1.971846342086792,
+      "learning_rate": 1.3636363636363637e-05,
+      "loss": 1.263,
+      "step": 46
+    },
+    {
+      "epoch": 0.6344827586206897,
+      "eval_loss": 0.891434371471405,
+      "eval_runtime": 15.7993,
+      "eval_samples_per_second": 1.266,
+      "eval_steps_per_second": 0.633,
+      "step": 46
+    },
+    {
+      "epoch": 0.6482758620689655,
+      "grad_norm": 1.9724080562591553,
+      "learning_rate": 1.590909090909091e-05,
+      "loss": 1.355,
+      "step": 47
+    },
+    {
+      "epoch": 0.6482758620689655,
+      "eval_loss": 0.8870094418525696,
+      "eval_runtime": 15.6828,
+      "eval_samples_per_second": 1.275,
+      "eval_steps_per_second": 0.638,
+      "step": 47
+    },
+    {
+      "epoch": 0.6620689655172414,
+      "grad_norm": 2.0631349086761475,
+      "learning_rate": 1.8181818181818182e-05,
+      "loss": 1.3375,
+      "step": 48
+    },
+    {
+      "epoch": 0.6620689655172414,
+      "eval_loss": 0.8790606260299683,
+      "eval_runtime": 15.6783,
+      "eval_samples_per_second": 1.276,
+      "eval_steps_per_second": 0.638,
+      "step": 48
+    },
+    {
+      "epoch": 0.6758620689655173,
+      "grad_norm": 2.1942760944366455,
+      "learning_rate": 2.0454545454545457e-05,
+      "loss": 1.3937,
+      "step": 49
+    },
+    {
+      "epoch": 0.6758620689655173,
+      "eval_loss": 0.8732376098632812,
+      "eval_runtime": 15.6854,
+      "eval_samples_per_second": 1.275,
+      "eval_steps_per_second": 0.638,
+      "step": 49
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.308160393859891e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null