indiejoseph
/

bert-base-cantonese

@@ -1,4 +1,5 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
@@ -11,7 +12,7 @@ should probably proofread and complete it, then remove this comment. -->
 # bert-base-cantonese
-This model was trained from scratch on an unknown dataset.
 ## Model description

 ---
+base_model: /notebooks/cantonese/bert-base-cantonese
 tags:
 - generated_from_trainer
 model-index:
 # bert-base-cantonese
+This model is a fine-tuned version of [/notebooks/cantonese/bert-base-cantonese](https://huggingface.co//notebooks/cantonese/bert-base-cantonese) on an unknown dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 6.29,
-    "train_loss": 0.0,
-    "train_runtime": 0.0679,
     "train_samples": 12403,
-    "train_samples_per_second": 2740728.613,
-    "train_steps_per_second": 14142.275
 }

 {
+    "epoch": 14.92,
+    "train_loss": 0.7002776622772217,
+    "train_runtime": 2199.0947,
     "train_samples": 12403,
+    "train_samples_per_second": 84.601,
+    "train_steps_per_second": 0.437
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 6.29,
-    "train_loss": 0.0,
-    "train_runtime": 0.0679,
     "train_samples": 12403,
-    "train_samples_per_second": 2740728.613,
-    "train_steps_per_second": 14142.275
 }

 {
+    "epoch": 14.92,
+    "train_loss": 0.7002776622772217,
+    "train_runtime": 2199.0947,
     "train_samples": 12403,
+    "train_samples_per_second": 84.601,
+    "train_steps_per_second": 0.437
 }

trainer_state.json CHANGED Viewed

@@ -1,208 +1,82 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.287660466334818,
   "eval_steps": 500,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.21,
-      "learning_rate": 4.8502545672356995e-05,
-      "loss": 4.386,
       "step": 100
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 4.700509134471399e-05,
-      "loss": 2.3961,
       "step": 200
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 4.550763701707098e-05,
-      "loss": 2.0441,
       "step": 300
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 4.401018268942798e-05,
-      "loss": 1.8911,
       "step": 400
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 4.251272836178497e-05,
-      "loss": 1.8026,
       "step": 500
     },
     {
-      "epoch": 1.26,
-      "learning_rate": 4.101527403414196e-05,
-      "loss": 1.7257,
       "step": 600
     },
     {
-      "epoch": 1.47,
-      "learning_rate": 3.9517819706498955e-05,
-      "loss": 1.6764,
       "step": 700
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 3.802036537885595e-05,
-      "loss": 1.6339,
       "step": 800
     },
     {
-      "epoch": 1.89,
-      "learning_rate": 3.652291105121294e-05,
-      "loss": 1.6142,
       "step": 900
     },
     {
-      "epoch": 2.1,
-      "learning_rate": 3.502545672356993e-05,
-      "loss": 1.5706,
-      "step": 1000
-    },
-    {
-      "epoch": 2.31,
-      "learning_rate": 3.352800239592693e-05,
-      "loss": 1.5514,
-      "step": 1100
-    },
-    {
-      "epoch": 2.52,
-      "learning_rate": 3.2030548068283916e-05,
-      "loss": 1.5279,
-      "step": 1200
-    },
-    {
-      "epoch": 2.72,
-      "learning_rate": 3.053309374064091e-05,
-      "loss": 1.521,
-      "step": 1300
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 2.9035639412997907e-05,
-      "loss": 1.4941,
-      "step": 1400
-    },
-    {
-      "epoch": 3.14,
-      "learning_rate": 2.75381850853549e-05,
-      "loss": 1.4752,
-      "step": 1500
-    },
-    {
-      "epoch": 3.35,
-      "learning_rate": 2.604073075771189e-05,
-      "loss": 1.4605,
-      "step": 1600
-    },
-    {
-      "epoch": 3.56,
-      "learning_rate": 2.4543276430068884e-05,
-      "loss": 1.4337,
-      "step": 1700
-    },
-    {
-      "epoch": 3.77,
-      "learning_rate": 2.3045822102425876e-05,
-      "loss": 1.4441,
-      "step": 1800
-    },
-    {
-      "epoch": 3.98,
-      "learning_rate": 2.154836777478287e-05,
-      "loss": 1.4323,
-      "step": 1900
-    },
-    {
-      "epoch": 4.19,
-      "learning_rate": 2.0050913447139864e-05,
-      "loss": 1.4108,
-      "step": 2000
-    },
-    {
-      "epoch": 4.4,
-      "learning_rate": 1.8553459119496856e-05,
-      "loss": 1.4184,
-      "step": 2100
-    },
-    {
-      "epoch": 4.61,
-      "learning_rate": 1.7056004791853848e-05,
-      "loss": 1.3959,
-      "step": 2200
-    },
-    {
-      "epoch": 4.82,
-      "learning_rate": 1.555855046421084e-05,
-      "loss": 1.3924,
-      "step": 2300
-    },
-    {
-      "epoch": 5.03,
-      "learning_rate": 1.4061096136567836e-05,
-      "loss": 1.3933,
-      "step": 2400
-    },
-    {
-      "epoch": 5.24,
-      "learning_rate": 1.2563641808924828e-05,
-      "loss": 1.3788,
-      "step": 2500
-    },
-    {
-      "epoch": 5.45,
-      "learning_rate": 1.1066187481281822e-05,
-      "loss": 1.3677,
-      "step": 2600
-    },
-    {
-      "epoch": 5.66,
-      "learning_rate": 9.568733153638814e-06,
-      "loss": 1.3602,
-      "step": 2700
-    },
-    {
-      "epoch": 5.87,
-      "learning_rate": 8.071278825995808e-06,
-      "loss": 1.3592,
-      "step": 2800
-    },
-    {
-      "epoch": 6.08,
-      "learning_rate": 6.5738244983528e-06,
-      "loss": 1.3522,
-      "step": 2900
-    },
-    {
-      "epoch": 6.29,
-      "learning_rate": 5.0763701707097935e-06,
-      "loss": 1.3586,
-      "step": 3000
-    },
-    {
-      "epoch": 6.29,
-      "step": 3000,
-      "total_flos": 9.05720378183041e+16,
-      "train_loss": 0.0,
-      "train_runtime": 0.0679,
-      "train_samples_per_second": 2740728.613,
-      "train_steps_per_second": 14142.275
     }
   ],
   "logging_steps": 100,
   "max_steps": 960,
   "num_train_epochs": 15,
   "save_steps": 500,
-  "total_flos": 9.05720378183041e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 14.922630560928432,
   "eval_steps": 500,
+  "global_step": 960,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.55,
+      "learning_rate": 4.21875e-05,
+      "loss": 4.1586,
       "step": 100
     },
     {
+      "epoch": 3.09,
+      "learning_rate": 3.4375e-05,
+      "loss": 2.0648,
       "step": 200
     },
     {
+      "epoch": 4.64,
+      "learning_rate": 2.6562500000000002e-05,
+      "loss": 1.7655,
       "step": 300
     },
     {
+      "epoch": 6.19,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 1.6324,
       "step": 400
     },
     {
+      "epoch": 7.74,
+      "learning_rate": 1.09375e-05,
+      "loss": 1.5631,
       "step": 500
     },
     {
+      "epoch": 9.35,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 1.5197,
       "step": 600
     },
     {
+      "epoch": 10.9,
+      "learning_rate": 1.3541666666666666e-05,
+      "loss": 1.4763,
       "step": 700
     },
     {
+      "epoch": 12.45,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.4491,
       "step": 800
     },
     {
+      "epoch": 13.99,
+      "learning_rate": 3.125e-06,
+      "loss": 1.4228,
       "step": 900
     },
     {
+      "epoch": 14.92,
+      "step": 960,
+      "total_flos": 4.8490452612096e+16,
+      "train_loss": 0.7002776622772217,
+      "train_runtime": 2199.0947,
+      "train_samples_per_second": 84.601,
+      "train_steps_per_second": 0.437
     }
   ],
   "logging_steps": 100,
   "max_steps": 960,
   "num_train_epochs": 15,
   "save_steps": 500,
+  "total_flos": 4.8490452612096e+16,
   "trial_name": null,
   "trial_params": null
 }