File size: 3,609 Bytes
e3501a9
 
 
 
 
 
 
 
 
 
 
 
0bb8080
e3501a9
 
 
 
 
31d14b9
e3501a9
 
c300b01
e3501a9
 
 
 
 
 
 
 
 
078c030
0bb8080
e3501a9
bc25934
e3501a9
e58483b
9bab4df
1972d06
e3501a9
 
 
 
1972d06
9bab4df
 
 
 
 
e3501a9
 
0bb8080
e3501a9
 
01ac8d7
e3501a9
 
 
9bab4df
 
 
0315b53
e3501a9
 
 
9bab4df
 
e3501a9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2d5825d
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
---
library_name: transformers
language:
- hu
base_model: openai/whisper-base
tags:
- generated_from_trainer
datasets:
- fleurs
metrics:
- wer
model-index:
- name: Whisper Base Hungarian v1
  results:
  - task:
      name: Automatic Speech Recognition
      type: automatic-speech-recognition
    dataset:
      name: google/fleurs
      type: fleurs
      config: hu_hu
      split: test
      args: hu_hu
    metrics:
    - name: Wer
      type: wer
      value: 29.48142356294297
---

<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->
A kezdeti próbálkozásokat mind eltávolítottam, ez a jelenleg rendelkezésre álló eszközök és technológia által létrehozható legjobb magyar nyelvere finomhangolt whisper base modell.
A többi magyar nyelvre finomhangolt base modelltől nagyságrendellek jobb eredményeket ér el minden adatkészleten!

# Whisper Base Hungarian

Ez a modell a finomhangolt változata a [openai/whisper-base](https://huggingface.co./openai/whisper-base) -nek sarpba/big_audio_data_hun adatkészleten.
Teszteredmények:
("google/fleurs", "hu_hu", "test") (képzés közbeni)
- Loss: 0.7999
- Wer Ortho: 33.8788
- Wer: 29.4814

("mozilla-foundation/common_voice_17_0", "hu", "test")
- WER: 25.58
- CER: 6.34
- Normalised WER: 21.18
- Normalised CER: 5.31

## Model description

Egyedi adatkészleten magyarta finomhangolt whisper base modell.
## Intended uses & limitations

Üzleti cálra a modell a hozzájárulásom nélkül nem használható! Magán célra szabadon felhasználható a whisper esedeti licenszfeltételei szerint! Commercial use of this fine-tuning is not permitted!

## Training and evaluation data

A modell hozzávetőleg 1200 óra gondosan válogatott magyar hanganyag alapján készült. A képzés során a tesztek a google/flerus-t használták a fejlődés ellenőrzésére. 
Alatta a mozilla-foundation/common_voice_17_0 eredménye. 

Egyik adatkészlet sem szerepelt a képzési adatok közt, a modell tesztanyaggal nem fertőzött!

## Training procedure

A képzés optimalizációja 3 napig futott a ray[tune] segítségével, a megtalált optimális képzési paraméterekkel a finomhangolás hozzávetőleg 17 órába telt!

### Training hyperparameters

The following hyperparameters were used during training:
- learning_rate: 0.0003
- train_batch_size: 64
- eval_batch_size: 32
- seed: 42
- gradient_accumulation_steps: 4
- total_train_batch_size: 256
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_ratio: 0.05
- training_steps: 8000
- mixed_precision_training: Native AMP

### Training results

| Training Loss | Epoch  | Step | Validation Loss | Wer Ortho | Wer     |
|:-------------:|:------:|:----:|:---------------:|:---------:|:-------:|
| 0.2523        | 0.3770 | 1000 | 0.9703          | 50.8988   | 46.7185 |
| 0.1859        | 0.7539 | 2000 | 0.8605          | 43.4345   | 39.4103 |
| 0.127         | 1.1309 | 3000 | 0.8378          | 40.6107   | 36.0040 |
| 0.1226        | 1.5079 | 4000 | 0.8153          | 38.9189   | 34.1842 |
| 0.1105        | 1.8848 | 5000 | 0.7847          | 36.6018   | 32.1979 |
| 0.0659        | 2.2618 | 6000 | 0.8298          | 35.3752   | 30.6379 |
| 0.0594        | 2.6388 | 7000 | 0.8132          | 34.8255   | 30.2280 |
| 0.0316        | 3.0157 | 8000 | 0.7999          | 33.8788   | 29.4814 |


### Framework versions

- Transformers 4.45.2
- Pytorch 2.3.0+cu121
- Datasets 3.0.1
- Tokenizers 0.20.1