indiejoseph
/

bert-base-cantonese

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "train_loss": 0.3749944605037362,
-    "train_runtime": 1805.8732,
     "train_samples": 128272,
-    "train_samples_per_second": 355.152,
-    "train_steps_per_second": 2.774
 }

 {
+    "epoch": 7.0,
+    "train_loss": 0.34533324811340976,
+    "train_runtime": 2399.0328,
     "train_samples": 128272,
+    "train_samples_per_second": 374.277,
+    "train_steps_per_second": 2.924
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "train_loss": 0.3749944605037362,
-    "train_runtime": 1805.8732,
     "train_samples": 128272,
-    "train_samples_per_second": 355.152,
-    "train_steps_per_second": 2.774
 }

 {
+    "epoch": 7.0,
+    "train_loss": 0.34533324811340976,
+    "train_runtime": 2399.0328,
     "train_samples": 128272,
+    "train_samples_per_second": 374.277,
+    "train_steps_per_second": 2.924
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.999750530123488,
   "eval_steps": 500,
-  "global_step": 5010,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -309,20 +309,140 @@
       "step": 5000
     },
     {
-      "epoch": 5.0,
-      "step": 5010,
-      "total_flos": 8.106812063308723e+16,
-      "train_loss": 0.3749944605037362,
-      "train_runtime": 1805.8732,
-      "train_samples_per_second": 355.152,
-      "train_steps_per_second": 2.774
     }
   ],
   "logging_steps": 100,
-  "max_steps": 5010,
-  "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 8.106812063308723e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.999625795185231,
   "eval_steps": 500,
+  "global_step": 7014,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 5000
     },
     {
+      "epoch": 5.09,
+      "learning_rate": 1.364414029084688e-05,
+      "loss": 1.2276,
+      "step": 5100
+    },
+    {
+      "epoch": 5.19,
+      "learning_rate": 1.2931280296549758e-05,
+      "loss": 1.2064,
+      "step": 5200
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 1.2218420302252638e-05,
+      "loss": 1.2102,
+      "step": 5300
+    },
+    {
+      "epoch": 5.39,
+      "learning_rate": 1.1505560307955517e-05,
+      "loss": 1.2095,
+      "step": 5400
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 1.0792700313658398e-05,
+      "loss": 1.2239,
+      "step": 5500
+    },
+    {
+      "epoch": 5.59,
+      "learning_rate": 1.0079840319361278e-05,
+      "loss": 1.216,
+      "step": 5600
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 9.366980325064158e-06,
+      "loss": 1.2206,
+      "step": 5700
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 8.654120330767037e-06,
+      "loss": 1.2133,
+      "step": 5800
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 7.941260336469917e-06,
+      "loss": 1.2059,
+      "step": 5900
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 7.228400342172797e-06,
+      "loss": 1.206,
+      "step": 6000
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 6.5155403478756775e-06,
+      "loss": 1.1976,
+      "step": 6100
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 5.802680353578557e-06,
+      "loss": 1.1966,
+      "step": 6200
+    },
+    {
+      "epoch": 6.29,
+      "learning_rate": 5.0898203592814375e-06,
+      "loss": 1.1992,
+      "step": 6300
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 4.376960364984317e-06,
+      "loss": 1.1946,
+      "step": 6400
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 3.664100370687197e-06,
+      "loss": 1.1879,
+      "step": 6500
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 2.951240376390077e-06,
+      "loss": 1.1863,
+      "step": 6600
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 2.238380382092957e-06,
+      "loss": 1.182,
+      "step": 6700
+    },
+    {
+      "epoch": 6.79,
+      "learning_rate": 1.525520387795837e-06,
+      "loss": 1.1914,
+      "step": 6800
+    },
+    {
+      "epoch": 6.89,
+      "learning_rate": 8.12660393498717e-07,
+      "loss": 1.1892,
+      "step": 6900
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 9.98003992015968e-08,
+      "loss": 1.1943,
+      "step": 7000
+    },
+    {
+      "epoch": 7.0,
+      "step": 7014,
+      "total_flos": 1.1685618503900851e+17,
+      "train_loss": 0.34533324811340976,
+      "train_runtime": 2399.0328,
+      "train_samples_per_second": 374.277,
+      "train_steps_per_second": 2.924
     }
   ],
   "logging_steps": 100,
+  "max_steps": 7014,
+  "num_train_epochs": 7,
   "save_steps": 500,
+  "total_flos": 1.1685618503900851e+17,
   "trial_name": null,
   "trial_params": null
 }