indiejoseph
/

bert-base-cantonese

@@ -1,4 +1,5 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
@@ -11,7 +12,7 @@ should probably proofread and complete it, then remove this comment. -->
 # bert-base-cantonese
-This model was trained from scratch on an unknown dataset.
 ## Model description

 ---
+base_model: /notebooks/cantonese/bert-base-cantonese
 tags:
 - generated_from_trainer
 model-index:
 # bert-base-cantonese
+This model is a fine-tuned version of [/notebooks/cantonese/bert-base-cantonese](https://huggingface.co//notebooks/cantonese/bert-base-cantonese) on an unknown dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 1.1470813844522174,
-    "train_runtime": 3794.0646,
-    "train_samples": 91601,
-    "train_samples_per_second": 72.43,
-    "train_steps_per_second": 0.377
 }

 {
+    "epoch": 6.29,
+    "train_loss": 0.0,
+    "train_runtime": 0.0679,
+    "train_samples": 12403,
+    "train_samples_per_second": 2740728.613,
+    "train_steps_per_second": 14142.275
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 1.1470813844522174,
-    "train_runtime": 3794.0646,
-    "train_samples": 91601,
-    "train_samples_per_second": 72.43,
-    "train_steps_per_second": 0.377
 }

 {
+    "epoch": 6.29,
+    "train_loss": 0.0,
+    "train_runtime": 0.0679,
+    "train_samples": 12403,
+    "train_samples_per_second": 2740728.613,
+    "train_steps_per_second": 14142.275
 }

trainer_state.json CHANGED Viewed

@@ -1,112 +1,208 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.999214042441708,
   "eval_steps": 500,
-  "global_step": 1431,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.21,
-      "learning_rate": 4.650593990216632e-05,
-      "loss": 1.3096,
       "step": 100
     },
     {
       "epoch": 0.42,
-      "learning_rate": 4.301187980433264e-05,
-      "loss": 1.2305,
       "step": 200
     },
     {
       "epoch": 0.63,
-      "learning_rate": 3.9517819706498955e-05,
-      "loss": 1.1942,
       "step": 300
     },
     {
       "epoch": 0.84,
-      "learning_rate": 3.602375960866527e-05,
-      "loss": 1.1705,
       "step": 400
     },
     {
       "epoch": 1.05,
-      "learning_rate": 3.252969951083159e-05,
-      "loss": 1.152,
       "step": 500
     },
     {
       "epoch": 1.26,
-      "learning_rate": 2.9035639412997907e-05,
-      "loss": 1.1318,
       "step": 600
     },
     {
       "epoch": 1.47,
-      "learning_rate": 2.554157931516422e-05,
-      "loss": 1.1211,
       "step": 700
     },
     {
       "epoch": 1.68,
-      "learning_rate": 2.204751921733054e-05,
-      "loss": 1.1145,
       "step": 800
     },
     {
       "epoch": 1.89,
-      "learning_rate": 1.8553459119496856e-05,
-      "loss": 1.1184,
       "step": 900
     },
     {
       "epoch": 2.1,
-      "learning_rate": 1.5059399021663173e-05,
-      "loss": 1.1012,
       "step": 1000
     },
     {
       "epoch": 2.31,
-      "learning_rate": 1.1565338923829489e-05,
-      "loss": 1.1053,
       "step": 1100
     },
     {
       "epoch": 2.52,
-      "learning_rate": 8.071278825995808e-06,
-      "loss": 1.1016,
       "step": 1200
     },
     {
       "epoch": 2.72,
-      "learning_rate": 4.577218728162125e-06,
-      "loss": 1.1131,
       "step": 1300
     },
     {
       "epoch": 2.93,
-      "learning_rate": 1.0831586303284416e-06,
-      "loss": 1.1086,
       "step": 1400
     },
     {
-      "epoch": 3.0,
-      "step": 1431,
-      "total_flos": 4.3173778473741864e+16,
-      "train_loss": 1.1470813844522174,
-      "train_runtime": 3794.0646,
-      "train_samples_per_second": 72.43,
-      "train_steps_per_second": 0.377
     }
   ],
   "logging_steps": 100,
-  "max_steps": 1431,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 4.3173778473741864e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.287660466334818,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.21,
+      "learning_rate": 4.8502545672356995e-05,
+      "loss": 4.386,
       "step": 100
     },
     {
       "epoch": 0.42,
+      "learning_rate": 4.700509134471399e-05,
+      "loss": 2.3961,
       "step": 200
     },
     {
       "epoch": 0.63,
+      "learning_rate": 4.550763701707098e-05,
+      "loss": 2.0441,
       "step": 300
     },
     {
       "epoch": 0.84,
+      "learning_rate": 4.401018268942798e-05,
+      "loss": 1.8911,
       "step": 400
     },
     {
       "epoch": 1.05,
+      "learning_rate": 4.251272836178497e-05,
+      "loss": 1.8026,
       "step": 500
     },
     {
       "epoch": 1.26,
+      "learning_rate": 4.101527403414196e-05,
+      "loss": 1.7257,
       "step": 600
     },
     {
       "epoch": 1.47,
+      "learning_rate": 3.9517819706498955e-05,
+      "loss": 1.6764,
       "step": 700
     },
     {
       "epoch": 1.68,
+      "learning_rate": 3.802036537885595e-05,
+      "loss": 1.6339,
       "step": 800
     },
     {
       "epoch": 1.89,
+      "learning_rate": 3.652291105121294e-05,
+      "loss": 1.6142,
       "step": 900
     },
     {
       "epoch": 2.1,
+      "learning_rate": 3.502545672356993e-05,
+      "loss": 1.5706,
       "step": 1000
     },
     {
       "epoch": 2.31,
+      "learning_rate": 3.352800239592693e-05,
+      "loss": 1.5514,
       "step": 1100
     },
     {
       "epoch": 2.52,
+      "learning_rate": 3.2030548068283916e-05,
+      "loss": 1.5279,
       "step": 1200
     },
     {
       "epoch": 2.72,
+      "learning_rate": 3.053309374064091e-05,
+      "loss": 1.521,
       "step": 1300
     },
     {
       "epoch": 2.93,
+      "learning_rate": 2.9035639412997907e-05,
+      "loss": 1.4941,
       "step": 1400
     },
     {
+      "epoch": 3.14,
+      "learning_rate": 2.75381850853549e-05,
+      "loss": 1.4752,
+      "step": 1500
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 2.604073075771189e-05,
+      "loss": 1.4605,
+      "step": 1600
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 2.4543276430068884e-05,
+      "loss": 1.4337,
+      "step": 1700
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 2.3045822102425876e-05,
+      "loss": 1.4441,
+      "step": 1800
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 2.154836777478287e-05,
+      "loss": 1.4323,
+      "step": 1900
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 2.0050913447139864e-05,
+      "loss": 1.4108,
+      "step": 2000
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 1.8553459119496856e-05,
+      "loss": 1.4184,
+      "step": 2100
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 1.7056004791853848e-05,
+      "loss": 1.3959,
+      "step": 2200
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 1.555855046421084e-05,
+      "loss": 1.3924,
+      "step": 2300
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 1.4061096136567836e-05,
+      "loss": 1.3933,
+      "step": 2400
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 1.2563641808924828e-05,
+      "loss": 1.3788,
+      "step": 2500
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 1.1066187481281822e-05,
+      "loss": 1.3677,
+      "step": 2600
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 9.568733153638814e-06,
+      "loss": 1.3602,
+      "step": 2700
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 8.071278825995808e-06,
+      "loss": 1.3592,
+      "step": 2800
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 6.5738244983528e-06,
+      "loss": 1.3522,
+      "step": 2900
+    },
+    {
+      "epoch": 6.29,
+      "learning_rate": 5.0763701707097935e-06,
+      "loss": 1.3586,
+      "step": 3000
+    },
+    {
+      "epoch": 6.29,
+      "step": 3000,
+      "total_flos": 9.05720378183041e+16,
+      "train_loss": 0.0,
+      "train_runtime": 0.0679,
+      "train_samples_per_second": 2740728.613,
+      "train_steps_per_second": 14142.275
     }
   ],
   "logging_steps": 100,
+  "max_steps": 960,
+  "num_train_epochs": 15,
   "save_steps": 500,
+  "total_flos": 9.05720378183041e+16,
   "trial_name": null,
   "trial_params": null
 }