File size: 3,609 Bytes
e3501a9 0bb8080 e3501a9 31d14b9 e3501a9 c300b01 e3501a9 078c030 0bb8080 e3501a9 bc25934 e3501a9 e58483b 9bab4df 1972d06 e3501a9 1972d06 9bab4df e3501a9 0bb8080 e3501a9 01ac8d7 e3501a9 9bab4df 0315b53 e3501a9 9bab4df e3501a9 2d5825d |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 |
---
library_name: transformers
language:
- hu
base_model: openai/whisper-base
tags:
- generated_from_trainer
datasets:
- fleurs
metrics:
- wer
model-index:
- name: Whisper Base Hungarian v1
results:
- task:
name: Automatic Speech Recognition
type: automatic-speech-recognition
dataset:
name: google/fleurs
type: fleurs
config: hu_hu
split: test
args: hu_hu
metrics:
- name: Wer
type: wer
value: 29.48142356294297
---
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->
A kezdeti próbálkozásokat mind eltávolítottam, ez a jelenleg rendelkezésre álló eszközök és technológia által létrehozható legjobb magyar nyelvere finomhangolt whisper base modell.
A többi magyar nyelvre finomhangolt base modelltől nagyságrendellek jobb eredményeket ér el minden adatkészleten!
# Whisper Base Hungarian
Ez a modell a finomhangolt változata a [openai/whisper-base](https://huggingface.co./openai/whisper-base) -nek sarpba/big_audio_data_hun adatkészleten.
Teszteredmények:
("google/fleurs", "hu_hu", "test") (képzés közbeni)
- Loss: 0.7999
- Wer Ortho: 33.8788
- Wer: 29.4814
("mozilla-foundation/common_voice_17_0", "hu", "test")
- WER: 25.58
- CER: 6.34
- Normalised WER: 21.18
- Normalised CER: 5.31
## Model description
Egyedi adatkészleten magyarta finomhangolt whisper base modell.
## Intended uses & limitations
Üzleti cálra a modell a hozzájárulásom nélkül nem használható! Magán célra szabadon felhasználható a whisper esedeti licenszfeltételei szerint! Commercial use of this fine-tuning is not permitted!
## Training and evaluation data
A modell hozzávetőleg 1200 óra gondosan válogatott magyar hanganyag alapján készült. A képzés során a tesztek a google/flerus-t használták a fejlődés ellenőrzésére.
Alatta a mozilla-foundation/common_voice_17_0 eredménye.
Egyik adatkészlet sem szerepelt a képzési adatok közt, a modell tesztanyaggal nem fertőzött!
## Training procedure
A képzés optimalizációja 3 napig futott a ray[tune] segítségével, a megtalált optimális képzési paraméterekkel a finomhangolás hozzávetőleg 17 órába telt!
### Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 0.0003
- train_batch_size: 64
- eval_batch_size: 32
- seed: 42
- gradient_accumulation_steps: 4
- total_train_batch_size: 256
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_ratio: 0.05
- training_steps: 8000
- mixed_precision_training: Native AMP
### Training results
| Training Loss | Epoch | Step | Validation Loss | Wer Ortho | Wer |
|:-------------:|:------:|:----:|:---------------:|:---------:|:-------:|
| 0.2523 | 0.3770 | 1000 | 0.9703 | 50.8988 | 46.7185 |
| 0.1859 | 0.7539 | 2000 | 0.8605 | 43.4345 | 39.4103 |
| 0.127 | 1.1309 | 3000 | 0.8378 | 40.6107 | 36.0040 |
| 0.1226 | 1.5079 | 4000 | 0.8153 | 38.9189 | 34.1842 |
| 0.1105 | 1.8848 | 5000 | 0.7847 | 36.6018 | 32.1979 |
| 0.0659 | 2.2618 | 6000 | 0.8298 | 35.3752 | 30.6379 |
| 0.0594 | 2.6388 | 7000 | 0.8132 | 34.8255 | 30.2280 |
| 0.0316 | 3.0157 | 8000 | 0.7999 | 33.8788 | 29.4814 |
### Framework versions
- Transformers 4.45.2
- Pytorch 2.3.0+cu121
- Datasets 3.0.1
- Tokenizers 0.20.1 |