SonishMaharjan
/

ditmodel

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.92,
-    "total_flos": 5.6158236080942285e+17,
-    "train_loss": 0.9780613832306444,
-    "train_runtime": 1760.8586,
-    "train_samples_per_second": 4.21,
-    "train_steps_per_second": 0.032
 }

 {
+    "epoch": 2.94,
+    "total_flos": 1.1265748270391624e+18,
+    "train_loss": 0.6647836283633584,
+    "train_runtime": 6473.0815,
+    "train_samples_per_second": 2.286,
+    "train_steps_per_second": 0.018
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.92,
-    "total_flos": 5.6158236080942285e+17,
-    "train_loss": 0.9780613832306444,
-    "train_runtime": 1760.8586,
-    "train_samples_per_second": 4.21,
-    "train_steps_per_second": 0.032
 }

 {
+    "epoch": 2.94,
+    "total_flos": 1.1265748270391624e+18,
+    "train_loss": 0.6647836283633584,
+    "train_runtime": 6473.0815,
+    "train_samples_per_second": 2.286,
+    "train_steps_per_second": 0.018
 }

trainer_state.json CHANGED Viewed

@@ -1,112 +1,142 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9230769230769234,
   "eval_steps": 500,
-  "global_step": 57,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 1.5498,
       "step": 1
     },
     {
       "epoch": 0.62,
       "learning_rate": 4.411764705882353e-05,
-      "loss": 1.3111,
-      "step": 12
     },
     {
-      "epoch": 0.97,
-      "eval_Macro F1": 0.38463266827131015,
-      "eval_Macro Precision": 0.3513860547447244,
-      "eval_Macro Recall": 0.45842986022199095,
-      "eval_Micro F1": 0.46153846153846156,
-      "eval_Micro Precision": 0.46153846153846156,
-      "eval_Micro Recall": 0.46153846153846156,
-      "eval_Weighted F1": 0.39257303711149655,
-      "eval_Weighted Precision": 0.36331970047517986,
-      "eval_Weighted Recall": 0.46153846153846156,
-      "eval_accuracy": 0.46153846153846156,
-      "eval_loss": 1.004745602607727,
-      "eval_runtime": 492.4481,
-      "eval_samples_per_second": 2.587,
-      "eval_steps_per_second": 0.081,
-      "step": 19
     },
     {
-      "epoch": 1.23,
       "learning_rate": 3.235294117647059e-05,
-      "loss": 1.0359,
-      "step": 24
     },
     {
-      "epoch": 1.85,
       "learning_rate": 2.058823529411765e-05,
-      "loss": 0.923,
-      "step": 36
     },
     {
-      "epoch": 2.0,
-      "eval_Macro F1": 0.5093855651518693,
-      "eval_Macro Precision": 0.7237298314233377,
-      "eval_Macro Recall": 0.5863700553639922,
-      "eval_Micro F1": 0.6004709576138147,
-      "eval_Micro Precision": 0.6004709576138147,
-      "eval_Micro Recall": 0.6004709576138147,
-      "eval_Weighted F1": 0.5303808904978752,
-      "eval_Weighted Precision": 0.7224619896227847,
-      "eval_Weighted Recall": 0.6004709576138147,
-      "eval_accuracy": 0.6004709576138147,
-      "eval_loss": 0.7626671195030212,
-      "eval_runtime": 31.9216,
-      "eval_samples_per_second": 39.91,
       "eval_steps_per_second": 1.253,
-      "step": 39
     },
     {
-      "epoch": 2.46,
       "learning_rate": 8.823529411764707e-06,
-      "loss": 0.7743,
-      "step": 48
     },
     {
-      "epoch": 2.92,
-      "eval_Macro F1": 0.5605146596385748,
-      "eval_Macro Precision": 0.7334668145101633,
-      "eval_Macro Recall": 0.6217819801854411,
-      "eval_Micro F1": 0.640502354788069,
-      "eval_Micro Precision": 0.640502354788069,
-      "eval_Micro Recall": 0.640502354788069,
-      "eval_Weighted F1": 0.5794525732393071,
-      "eval_Weighted Precision": 0.727397633667412,
-      "eval_Weighted Recall": 0.640502354788069,
-      "eval_accuracy": 0.640502354788069,
-      "eval_loss": 0.6403084993362427,
-      "eval_runtime": 32.0563,
-      "eval_samples_per_second": 39.743,
-      "eval_steps_per_second": 1.248,
-      "step": 57
     },
     {
-      "epoch": 2.92,
-      "step": 57,
-      "total_flos": 5.6158236080942285e+17,
-      "train_loss": 0.9780613832306444,
-      "train_runtime": 1760.8586,
-      "train_samples_per_second": 4.21,
-      "train_steps_per_second": 0.032
     }
   ],
   "logging_steps": 12,
-  "max_steps": 57,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 5.6158236080942285e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9419354838709677,
   "eval_steps": 500,
+  "global_step": 114,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.03,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 1.3431,
       "step": 1
     },
+    {
+      "epoch": 0.31,
+      "learning_rate": 5e-05,
+      "loss": 1.226,
+      "step": 12
+    },
     {
       "epoch": 0.62,
       "learning_rate": 4.411764705882353e-05,
+      "loss": 0.9888,
+      "step": 24
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 3.8235294117647055e-05,
+      "loss": 0.8637,
+      "step": 36
+    },
+    {
+      "epoch": 0.98,
+      "eval_Macro F1": 0.5661973571975384,
+      "eval_Macro Precision": 0.7510967291822963,
+      "eval_Macro Recall": 0.6473652579844594,
+      "eval_Micro F1": 0.6778127458693942,
+      "eval_Micro Precision": 0.6778127458693942,
+      "eval_Micro Recall": 0.6778127458693942,
+      "eval_Weighted F1": 0.5949172262865288,
+      "eval_Weighted Precision": 0.7505686242573377,
+      "eval_Weighted Recall": 0.6778127458693942,
+      "eval_accuracy": 0.6778127458693942,
+      "eval_loss": 0.598620593547821,
+      "eval_runtime": 1926.4978,
+      "eval_samples_per_second": 1.319,
+      "eval_steps_per_second": 0.042,
+      "step": 38
     },
     {
+      "epoch": 1.24,
       "learning_rate": 3.235294117647059e-05,
+      "loss": 0.6928,
+      "step": 48
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.647058823529412e-05,
+      "loss": 0.6054,
+      "step": 60
     },
     {
+      "epoch": 1.86,
       "learning_rate": 2.058823529411765e-05,
+      "loss": 0.5018,
+      "step": 72
     },
     {
+      "epoch": 1.99,
+      "eval_Macro F1": 0.8376972138667833,
+      "eval_Macro Precision": 0.8622787078319065,
+      "eval_Macro Recall": 0.8344563153022619,
+      "eval_Micro F1": 0.8516915814319432,
+      "eval_Micro Precision": 0.8516915814319433,
+      "eval_Micro Recall": 0.8516915814319433,
+      "eval_Weighted F1": 0.8452584084591334,
+      "eval_Weighted Precision": 0.8588424441061323,
+      "eval_Weighted Recall": 0.8516915814319433,
+      "eval_accuracy": 0.8516915814319433,
+      "eval_loss": 0.270693838596344,
+      "eval_runtime": 63.8305,
+      "eval_samples_per_second": 39.824,
       "eval_steps_per_second": 1.253,
+      "step": 77
     },
     {
+      "epoch": 2.17,
+      "learning_rate": 1.4705882352941177e-05,
+      "loss": 0.4449,
+      "step": 84
+    },
+    {
+      "epoch": 2.48,
       "learning_rate": 8.823529411764707e-06,
+      "loss": 0.4168,
+      "step": 96
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.9411764705882355e-06,
+      "loss": 0.3761,
+      "step": 108
     },
     {
+      "epoch": 2.94,
+      "eval_Macro F1": 0.8640166757623045,
+      "eval_Macro Precision": 0.8744992381555277,
+      "eval_Macro Recall": 0.8626385930557097,
+      "eval_Micro F1": 0.8741148701809599,
+      "eval_Micro Precision": 0.8741148701809599,
+      "eval_Micro Recall": 0.8741148701809599,
+      "eval_Weighted F1": 0.8719933502245091,
+      "eval_Weighted Precision": 0.8780283114822369,
+      "eval_Weighted Recall": 0.8741148701809599,
+      "eval_accuracy": 0.8741148701809599,
+      "eval_loss": 0.22845804691314697,
+      "eval_runtime": 63.2765,
+      "eval_samples_per_second": 40.173,
+      "eval_steps_per_second": 1.264,
+      "step": 114
     },
     {
+      "epoch": 2.94,
+      "step": 114,
+      "total_flos": 1.1265748270391624e+18,
+      "train_loss": 0.6647836283633584,
+      "train_runtime": 6473.0815,
+      "train_samples_per_second": 2.286,
+      "train_steps_per_second": 0.018
     }
   ],
   "logging_steps": 12,
+  "max_steps": 114,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 1.1265748270391624e+18,
   "trial_name": null,
   "trial_params": null
 }