Upload 16 files

Browse files

Files changed (7) hide show

README.md +20 -20
all_results.json +10 -10
eval_results.json +6 -6
train_results.json +4 -4
trainer_state.json +44 -44
training_args.bin +1 -1
vocab.json +0 -0

README.md CHANGED Viewed

@@ -1,19 +1,19 @@
 ---
 base_model: openai/whisper-tiny.en
 datasets:
 - lalipa/jv_id_asr_split
-library_name: transformers
-license: apache-2.0
 metrics:
 - wer
-tags:
-- generated_from_trainer
 model-index:
-- name: finetune
   results:
   - task:
-      type: automatic-speech-recognition
       name: Automatic Speech Recognition
     dataset:
       name: lalipa/jv_id_asr_split jv_id_asr_source
       type: lalipa/jv_id_asr_split
@@ -21,21 +21,21 @@ model-index:
       split: validation
       args: jv_id_asr_source
     metrics:
-    - type: wer
-      value: 0.7835602493955974
-      name: Wer
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# finetune
 This model is a fine-tuned version of [openai/whisper-tiny.en](https://huggingface.co/openai/whisper-tiny.en) on the lalipa/jv_id_asr_split jv_id_asr_source dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.7784
-- Wer: 0.7836
-- Cer: 0.2535
 ## Model description
@@ -67,13 +67,13 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch  | Step | Validation Loss | Wer    | Cer    |
-|:-------------:|:------:|:----:|:---------------:|:------:|:------:|
-| 3.6903        | 0.2041 | 30   | 2.9875          | 1.0127 | 0.4365 |
-| 2.533         | 0.4082 | 60   | 2.2360          | 0.8879 | 0.2921 |
-| 2.0604        | 0.6122 | 90   | 1.9514          | 0.8253 | 0.2670 |
-| 1.852         | 0.8163 | 120  | 1.8182          | 0.7949 | 0.2581 |
-| 1.7929        | 1.0204 | 150  | 1.7784          | 0.7836 | 0.2535 |
 ### Framework versions

 ---
+library_name: transformers
+license: apache-2.0
 base_model: openai/whisper-tiny.en
+tags:
+- generated_from_trainer
 datasets:
 - lalipa/jv_id_asr_split
 metrics:
 - wer
 model-index:
+- name: from-scratch
   results:
   - task:
       name: Automatic Speech Recognition
+      type: automatic-speech-recognition
     dataset:
       name: lalipa/jv_id_asr_split jv_id_asr_source
       type: lalipa/jv_id_asr_split
       split: validation
       args: jv_id_asr_source
     metrics:
+    - name: Wer
+      type: wer
+      value: 6.432243287950121
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# from-scratch
 This model is a fine-tuned version of [openai/whisper-tiny.en](https://huggingface.co/openai/whisper-tiny.en) on the lalipa/jv_id_asr_split jv_id_asr_source dataset.
 It achieves the following results on the evaluation set:
+- Loss: 10.8537
+- Wer: 6.4322
+- Cer: 9.6337
 ## Model description
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Wer     | Cer     |
+|:-------------:|:------:|:----:|:---------------:|:-------:|:-------:|
+| 10.8562       | 0.2041 | 30   | 10.8560         | 17.0625 | 24.9361 |
+| 10.8557       | 0.4082 | 60   | 10.8553         | 20.3833 | 28.0200 |
+| 10.8549       | 0.6122 | 90   | 10.8545         | 11.6823 | 17.2418 |
+| 10.8542       | 0.8163 | 120  | 10.8539         | 10.5108 | 15.8910 |
+| 10.8538       | 1.0204 | 150  | 10.8537         | 6.4322  | 9.6337  |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 1.0204081632653061,
-    "eval_cer": 0.253486835896952,
-    "eval_loss": 1.7784144878387451,
-    "eval_runtime": 159.8385,
     "eval_samples": 1136,
-    "eval_samples_per_second": 7.107,
-    "eval_steps_per_second": 0.444,
-    "eval_wer": 0.7835602493955974,
     "total_flos": 2.3614434607104e+17,
-    "train_loss": 2.385703277587891,
-    "train_runtime": 5094.7107,
     "train_samples": 9400,
-    "train_samples_per_second": 1.884,
-    "train_steps_per_second": 0.029
 }

 {
     "epoch": 1.0204081632653061,
+    "eval_cer": 9.633726526375389,
+    "eval_loss": 10.85368824005127,
+    "eval_runtime": 461.8513,
     "eval_samples": 1136,
+    "eval_samples_per_second": 2.46,
+    "eval_steps_per_second": 0.154,
+    "eval_wer": 6.432243287950121,
     "total_flos": 2.3614434607104e+17,
+    "train_loss": 10.854962158203126,
+    "train_runtime": 4570.606,
     "train_samples": 9400,
+    "train_samples_per_second": 2.1,
+    "train_steps_per_second": 0.033
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 1.0204081632653061,
-    "eval_cer": 0.253486835896952,
-    "eval_loss": 1.7784144878387451,
-    "eval_runtime": 159.8385,
     "eval_samples": 1136,
-    "eval_samples_per_second": 7.107,
-    "eval_steps_per_second": 0.444,
-    "eval_wer": 0.7835602493955974
 }

 {
     "epoch": 1.0204081632653061,
+    "eval_cer": 9.633726526375389,
+    "eval_loss": 10.85368824005127,
+    "eval_runtime": 461.8513,
     "eval_samples": 1136,
+    "eval_samples_per_second": 2.46,
+    "eval_steps_per_second": 0.154,
+    "eval_wer": 6.432243287950121
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.0204081632653061,
     "total_flos": 2.3614434607104e+17,
-    "train_loss": 2.385703277587891,
-    "train_runtime": 5094.7107,
     "train_samples": 9400,
-    "train_samples_per_second": 1.884,
-    "train_steps_per_second": 0.029
 }

 {
     "epoch": 1.0204081632653061,
     "total_flos": 2.3614434607104e+17,
+    "train_loss": 10.854962158203126,
+    "train_runtime": 4570.606,
     "train_samples": 9400,
+    "train_samples_per_second": 2.1,
+    "train_steps_per_second": 0.033
 }

trainer_state.json CHANGED Viewed

@@ -10,97 +10,97 @@
   "log_history": [
     {
       "epoch": 0.20408163265306123,
-      "grad_norm": 28829.30859375,
       "learning_rate": 1e-05,
-      "loss": 3.6903,
       "step": 30
     },
     {
       "epoch": 0.20408163265306123,
-      "eval_cer": 0.43646314994809854,
-      "eval_loss": 2.987450122833252,
-      "eval_runtime": 203.3511,
-      "eval_samples_per_second": 5.586,
-      "eval_steps_per_second": 0.349,
-      "eval_wer": 1.0127242651736863,
       "step": 30
     },
     {
       "epoch": 0.40816326530612246,
-      "grad_norm": 26780.62109375,
       "learning_rate": 7.500000000000001e-06,
-      "loss": 2.533,
       "step": 60
     },
     {
       "epoch": 0.40816326530612246,
-      "eval_cer": 0.2920826649051618,
-      "eval_loss": 2.235991954803467,
-      "eval_runtime": 163.1323,
-      "eval_samples_per_second": 6.964,
-      "eval_steps_per_second": 0.435,
-      "eval_wer": 0.8878992238198244,
       "step": 60
     },
     {
       "epoch": 0.6122448979591837,
-      "grad_norm": 9.42530632019043,
       "learning_rate": 5e-06,
-      "loss": 2.0604,
       "step": 90
     },
     {
       "epoch": 0.6122448979591837,
-      "eval_cer": 0.26696234783429273,
-      "eval_loss": 1.951379656791687,
-      "eval_runtime": 171.6219,
-      "eval_samples_per_second": 6.619,
-      "eval_steps_per_second": 0.414,
-      "eval_wer": 0.8252958391652883,
       "step": 90
     },
     {
       "epoch": 0.8163265306122449,
-      "grad_norm": 724720.0625,
       "learning_rate": 2.5e-06,
-      "loss": 1.852,
       "step": 120
     },
     {
       "epoch": 0.8163265306122449,
-      "eval_cer": 0.25809191280551097,
-      "eval_loss": 1.8181612491607666,
-      "eval_runtime": 180.4927,
-      "eval_samples_per_second": 6.294,
-      "eval_steps_per_second": 0.393,
-      "eval_wer": 0.7948848454001781,
       "step": 120
     },
     {
       "epoch": 1.0204081632653061,
-      "grad_norm": 9.10916519165039,
       "learning_rate": 0.0,
-      "loss": 1.7929,
       "step": 150
     },
     {
       "epoch": 1.0204081632653061,
-      "eval_cer": 0.253486835896952,
-      "eval_loss": 1.7784144878387451,
-      "eval_runtime": 183.691,
-      "eval_samples_per_second": 6.184,
-      "eval_steps_per_second": 0.387,
-      "eval_wer": 0.7835602493955974,
       "step": 150
     },
     {
       "epoch": 1.0204081632653061,
       "step": 150,
       "total_flos": 2.3614434607104e+17,
-      "train_loss": 2.385703277587891,
-      "train_runtime": 5094.7107,
-      "train_samples_per_second": 1.884,
-      "train_steps_per_second": 0.029
     }
   ],
   "logging_steps": 30,

   "log_history": [
     {
       "epoch": 0.20408163265306123,
+      "grad_norm": 19.92782211303711,
       "learning_rate": 1e-05,
+      "loss": 10.8562,
       "step": 30
     },
     {
       "epoch": 0.20408163265306123,
+      "eval_cer": 24.936057374728698,
+      "eval_loss": 10.856045722961426,
+      "eval_runtime": 524.0657,
+      "eval_samples_per_second": 2.168,
+      "eval_steps_per_second": 0.135,
+      "eval_wer": 17.0624761420028,
       "step": 30
     },
     {
       "epoch": 0.40816326530612246,
+      "grad_norm": 18.936391830444336,
       "learning_rate": 7.500000000000001e-06,
+      "loss": 10.8557,
       "step": 60
     },
     {
       "epoch": 0.40816326530612246,
+      "eval_cer": 28.020024535245824,
+      "eval_loss": 10.855280876159668,
+      "eval_runtime": 546.8477,
+      "eval_samples_per_second": 2.077,
+      "eval_steps_per_second": 0.13,
+      "eval_wer": 20.38325486703143,
       "step": 60
     },
     {
       "epoch": 0.6122448979591837,
+      "grad_norm": 0.06280206888914108,
       "learning_rate": 5e-06,
+      "loss": 10.8549,
       "step": 90
     },
     {
       "epoch": 0.6122448979591837,
+      "eval_cer": 17.241804284231385,
+      "eval_loss": 10.854511260986328,
+      "eval_runtime": 487.9237,
+      "eval_samples_per_second": 2.328,
+      "eval_steps_per_second": 0.146,
+      "eval_wer": 11.682275098613054,
       "step": 90
     },
     {
       "epoch": 0.8163265306122449,
+      "grad_norm": 18.20659828186035,
       "learning_rate": 2.5e-06,
+      "loss": 10.8542,
       "step": 120
     },
     {
       "epoch": 0.8163265306122449,
+      "eval_cer": 15.890988015476077,
+      "eval_loss": 10.853907585144043,
+      "eval_runtime": 553.861,
+      "eval_samples_per_second": 2.051,
+      "eval_steps_per_second": 0.128,
+      "eval_wer": 10.510752004071765,
       "step": 120
     },
     {
       "epoch": 1.0204081632653061,
+      "grad_norm": 17.312578201293945,
       "learning_rate": 0.0,
+      "loss": 10.8538,
       "step": 150
     },
     {
       "epoch": 1.0204081632653061,
+      "eval_cer": 9.633726526375389,
+      "eval_loss": 10.85368824005127,
+      "eval_runtime": 444.8852,
+      "eval_samples_per_second": 2.553,
+      "eval_steps_per_second": 0.16,
+      "eval_wer": 6.432243287950121,
       "step": 150
     },
     {
       "epoch": 1.0204081632653061,
       "step": 150,
       "total_flos": 2.3614434607104e+17,
+      "train_loss": 10.854962158203126,
+      "train_runtime": 4570.606,
+      "train_samples_per_second": 2.1,
+      "train_steps_per_second": 0.033
     }
   ],
   "logging_steps": 30,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adb59dce1518b3dd6568a6cc562e4afcb56e424e6b498b28a4052dc7bfa10edd
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6e284de677cedf31ded5945f8429c4273dde4e1fdd0f42a17e2b354207344d9
 size 5368

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff