bond005 commited on
Commit
b0f39b0
1 Parent(s): 2fdd7f8

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +94 -48
README.md CHANGED
@@ -3,6 +3,7 @@ language: ru
3
  datasets:
4
  - SberDevices/Golos
5
  - common_voice
 
6
  metrics:
7
  - wer
8
  - cer
@@ -12,6 +13,7 @@ tags:
12
  - speech
13
  - common_voice
14
  - SberDevices/Golos
 
15
  license: apache-2.0
16
  widget:
17
  - example_title: test Russian speech "нейросети это хорошо" (in English, "neural networks are good")
@@ -29,10 +31,10 @@ model-index:
29
  metrics:
30
  - name: Test WER
31
  type: wer
32
- value: 4.272
33
  - name: Test CER
34
  type: cer
35
- value: 0.983
36
  - task:
37
  name: Speech Recognition
38
  type: automatic-speech-recognition
@@ -43,10 +45,10 @@ model-index:
43
  metrics:
44
  - name: Test WER
45
  type: wer
46
- value: 11.405
47
  - name: Test CER
48
  type: cer
49
- value: 3.628
50
  - task:
51
  name: Automatic Speech Recognition
52
  type: automatic-speech-recognition
@@ -57,10 +59,24 @@ model-index:
57
  metrics:
58
  - name: Test WER
59
  type: wer
60
- value: 19.053
61
  - name: Test CER
62
  type: cer
63
- value: 4.876
 
 
 
 
 
 
 
 
 
 
 
 
 
 
64
  ---
65
  # Wav2Vec2-Large-Ru-Golos-With-LM
66
 
@@ -92,7 +108,7 @@ from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM
92
 
93
  MODEL_ID = "bond005/wav2vec2-large-ru-golos-with-lm"
94
  DATASET_ID = "bond005/sberdevices_golos_10h_crowd"
95
- SAMPLES = 20
96
 
97
  nltk.download('punkt')
98
  num_processes = max(1, os.cpu_count())
@@ -139,72 +155,102 @@ with warnings.catch_warnings():
139
 
140
  ```text
141
  ----------------------------------------------------------------------------------------------------
142
- Reference: шестьдесят тысяч тенге сколько будет стоить
143
- Prediction: шестьдесят тысяч тенге сколько будет стоить
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
144
  ----------------------------------------------------------------------------------------------------
145
- Reference: покажи мне на смотрешке телеканал синергия тв
146
- Prediction: покажи мне на смотрешке телеканал синергия тв
147
  ----------------------------------------------------------------------------------------------------
148
- Reference: заказать яблоки зеленые
149
- Prediction: заказать яблоки зеленые
150
  ----------------------------------------------------------------------------------------------------
151
- Reference: алиса закажи килограммовый торт графские развалины
152
- Prediction: алиса закажи килограммовый торт графские развалины
153
  ----------------------------------------------------------------------------------------------------
154
- Reference: ищи телеканал про бизнес на тиви
155
- Prediction: ищи телеканал про бизнес на тви
156
  ----------------------------------------------------------------------------------------------------
157
- Reference: михаила мурадяна
158
- Prediction: михаила мурадяна
159
  ----------------------------------------------------------------------------------------------------
160
- Reference: любовницы две тысячи тринадцать пятнадцатый сезон
161
- Prediction: любовница две тысячи тринадцать пятнадцатый сезон
162
  ----------------------------------------------------------------------------------------------------
163
- Reference: найди боевики
164
- Prediction: найди боевики
165
  ----------------------------------------------------------------------------------------------------
166
- Reference: гетто сезон три
167
- Prediction: гетта сезон три
168
  ----------------------------------------------------------------------------------------------------
169
- Reference: хочу посмотреть ростов папа на телевизоре
170
- Prediction: хочу посмотреть ростов папа на телевизоре
171
  ----------------------------------------------------------------------------------------------------
172
- Reference: сбер какое твое самое ненавистное занятие
173
- Prediction: сбер какое твое самое ненавистное занятие
174
  ----------------------------------------------------------------------------------------------------
175
- Reference: афина чем платят у китайцев
176
- Prediction: афина чем платят у китайцев
177
  ----------------------------------------------------------------------------------------------------
178
- Reference: джой как работает досрочное погашение кредита
179
- Prediction: джой как работает досрочное погашение кредита
180
  ----------------------------------------------------------------------------------------------------
181
- Reference: у тебя найдется люк кейдж
182
- Prediction: у тебя найдется люк кейдж
183
  ----------------------------------------------------------------------------------------------------
184
- Reference: у тебя будет лучшая часть пинк
185
- Prediction: у тебя будет лучшая часть пинк
186
  ----------------------------------------------------------------------------------------------------
187
- Reference: пожалуйста пополните мне счет
188
- Prediction: пожалуйста пополните мне счет
189
  ----------------------------------------------------------------------------------------------------
190
- Reference: анне павловне шабуровой
191
- Prediction: анне павловне шабуровой
192
  ----------------------------------------------------------------------------------------------------
193
- Reference: врубай на смотрешке муз тв
194
- Prediction: врубай на смотрешке муз тиви
195
  ----------------------------------------------------------------------------------------------------
196
- Reference: найди на смотрешке лдпр тв
197
- Prediction: найди на смотрешке лдпр тв
198
  ----------------------------------------------------------------------------------------------------
199
- Reference: сбер мне нужен педикюр забей мне место
200
- Prediction: сбер мне нужен педикюр забелье место
201
  ```
202
 
203
 
204
  The Google Colab version of [this script](https://colab.research.google.com/drive/1SnQmrt6HmMNV-zK-UCPajuwl1JvoCqbX?usp=sharing) is available too.
205
 
206
  ## Evaluation
207
- This model was evaluated on the test subsets of [SberDevices Golos](https://huggingface.co/datasets/SberDevices/Golos) and [Common Voice 6.0](https://huggingface.co/datasets/common_voice) (Russian part), but it was trained on the training subset of SberDevices Golos only.
208
 
209
  ## Citation
210
  If you want to cite this model you can use this:
 
3
  datasets:
4
  - SberDevices/Golos
5
  - common_voice
6
+ - bond005/rulibrispeech
7
  metrics:
8
  - wer
9
  - cer
 
13
  - speech
14
  - common_voice
15
  - SberDevices/Golos
16
+ - bond005/rulibrispeech
17
  license: apache-2.0
18
  widget:
19
  - example_title: test Russian speech "нейросети это хорошо" (in English, "neural networks are good")
 
31
  metrics:
32
  - name: Test WER
33
  type: wer
34
+ value: 4.447
35
  - name: Test CER
36
  type: cer
37
+ value: 0.975
38
  - task:
39
  name: Speech Recognition
40
  type: automatic-speech-recognition
 
45
  metrics:
46
  - name: Test WER
47
  type: wer
48
+ value: 10.940
49
  - name: Test CER
50
  type: cer
51
+ value: 3.595
52
  - task:
53
  name: Automatic Speech Recognition
54
  type: automatic-speech-recognition
 
59
  metrics:
60
  - name: Test WER
61
  type: wer
62
+ value: 12.488
63
  - name: Test CER
64
  type: cer
65
+ value: 3.012
66
+ - task:
67
+ name: Automatic Speech Recognition
68
+ type: automatic-speech-recognition
69
+ dataset:
70
+ name: Russian Librispeech
71
+ type: bond005/rulibrispeech
72
+ args: ru
73
+ metrics:
74
+ - name: Test WER
75
+ type: wer
76
+ value: 16.551
77
+ - name: Test CER
78
+ type: cer
79
+ value: 3.708
80
  ---
81
  # Wav2Vec2-Large-Ru-Golos-With-LM
82
 
 
108
 
109
  MODEL_ID = "bond005/wav2vec2-large-ru-golos-with-lm"
110
  DATASET_ID = "bond005/sberdevices_golos_10h_crowd"
111
+ SAMPLES = 30
112
 
113
  nltk.download('punkt')
114
  num_processes = max(1, os.cpu_count())
 
155
 
156
  ```text
157
  ----------------------------------------------------------------------------------------------------
158
+ Reference: шестьдесят тысяч тенге сколько будет стоить
159
+ Prediction: шестьдесят тысяч тенге сколько будет стоить
160
+ ----------------------------------------------------------------------------------------------------
161
+ Reference: покажи мне на смотрешке телеканал синергия тв
162
+ Prediction: покажи мне на смотрешке телеканал синергия тв
163
+ ----------------------------------------------------------------------------------------------------
164
+ Reference: заказать яблоки зеленые
165
+ Prediction: заказать яблоки зеленые
166
+ ----------------------------------------------------------------------------------------------------
167
+ Reference: алиса закажи килограммовый торт графские развалины
168
+ Prediction: алиса закажи килограммовый торт графские развалины
169
+ ----------------------------------------------------------------------------------------------------
170
+ Reference: ищи телеканал про бизнес на тиви
171
+ Prediction: ищи телеканал про бизнес на т в
172
+ ----------------------------------------------------------------------------------------------------
173
+ Reference: михаила мурадяна
174
+ Prediction: михаила мурадяна
175
+ ----------------------------------------------------------------------------------------------------
176
+ Reference: любовницы две тысячи тринадцать пятнадцатый сезон
177
+ Prediction: любовница две тысячи тринадцать пятнадцатый сезон
178
+ ----------------------------------------------------------------------------------------------------
179
+ Reference: найди боевики
180
+ Prediction: найди боевики
181
+ ----------------------------------------------------------------------------------------------------
182
+ Reference: гетто сезон три
183
+ Prediction: гетта сезон три
184
+ ----------------------------------------------------------------------------------------------------
185
+ Reference: хочу посмотреть ростов папа на телевизоре
186
+ Prediction: хочу посмотреть ростов папа на телевизоре
187
+ ----------------------------------------------------------------------------------------------------
188
+ Reference: сбер какое твое самое ненавистное занятие
189
+ Prediction: сбер какое твое самое ненавистное занятие
190
  ----------------------------------------------------------------------------------------------------
191
+ Reference: афина чем платят у китайцев
192
+ Prediction: афина чем платят у китайцев
193
  ----------------------------------------------------------------------------------------------------
194
+ Reference: джой как работает досрочное погашение кредита
195
+ Prediction: джой как работает досрочное погашение кредита
196
  ----------------------------------------------------------------------------------------------------
197
+ Reference: у тебя найдется люк кейдж
198
+ Prediction: у тебя найдется люк кейдж
199
  ----------------------------------------------------------------------------------------------------
200
+ Reference: у тебя будет лучшая часть пинк
201
+ Prediction: у тебя будет лучшая часть пинк
202
  ----------------------------------------------------------------------------------------------------
203
+ Reference: пожалуйста пополните мне счет
204
+ Prediction: пожалуйста пополните мне счет
205
  ----------------------------------------------------------------------------------------------------
206
+ Reference: анне павловне шабуровой
207
+ Prediction: анне павловне шабуровой
208
  ----------------------------------------------------------------------------------------------------
209
+ Reference: врубай на смотрешке муз тв
210
+ Prediction: врубай на смотрешке муз тви
211
  ----------------------------------------------------------------------------------------------------
212
+ Reference: найди на смотрешке лдпр тв
213
+ Prediction: найди на смотрешке лдпр тв
214
  ----------------------------------------------------------------------------------------------------
215
+ Reference: сбер мне нужен педикюр забей мне место
216
+ Prediction: сбер мне нужен педикюр за биль не место
217
  ----------------------------------------------------------------------------------------------------
218
+ Reference: галины афанасьевны
219
+ Prediction: галины афанасьевны
220
  ----------------------------------------------------------------------------------------------------
221
+ Reference: сколько стоимость обмена китайского юаня на российский рубль
222
+ Prediction: сколько стоимость обмена китайского юаня на российский рубль
223
  ----------------------------------------------------------------------------------------------------
224
+ Reference: обмани меня сезон восемь часть тринадцать
225
+ Prediction: обмани меня сезон восемь часть тринадцать
226
  ----------------------------------------------------------------------------------------------------
227
+ Reference: включи канал футбол эйч ди
228
+ Prediction: включи канал футбол эйч ди
229
  ----------------------------------------------------------------------------------------------------
230
+ Reference: поп звезда не переставай не останавливайся найти
231
+ Prediction: поп звезда не переставая не останавливайся найти
232
  ----------------------------------------------------------------------------------------------------
233
+ Reference: салют самый популярный фильм люка бессона
234
+ Prediction: салют самый популярный фильм люка бессона
235
  ----------------------------------------------------------------------------------------------------
236
+ Reference: татьяна зиганшина
237
+ Prediction: татьяна зиганшина
238
  ----------------------------------------------------------------------------------------------------
239
+ Reference: джой когда перестало существовать хеттское царство
240
+ Prediction: джой когда перестало существовать хеттское царство
241
  ----------------------------------------------------------------------------------------------------
242
+ Reference: олег яковлев
243
+ Prediction: олег яковлев
244
  ----------------------------------------------------------------------------------------------------
245
+ Reference: посоветуй мне шестая часть как избежать наказания за убийство
246
+ Prediction: посоветуй мне шестая часть как избежать наказания за убийство
247
  ```
248
 
249
 
250
  The Google Colab version of [this script](https://colab.research.google.com/drive/1SnQmrt6HmMNV-zK-UCPajuwl1JvoCqbX?usp=sharing) is available too.
251
 
252
  ## Evaluation
253
+ This model was evaluated on the test subsets of [SberDevices Golos](https://huggingface.co/datasets/SberDevices/Golos), [Common Voice 6.0](https://huggingface.co/datasets/common_voice) (Russian part), and [Russian Librispeech](https://huggingface.co/datasets/bond005/rulibrispeech), but it was trained on the training subset of SberDevices Golos only. You can see the evaluation script on other datasets, including Russian Librispeech and SOVA RuDevices, on my Kaggle web-page https://www.kaggle.com/code/bond005/wav2vec2-ru-lm-eval
254
 
255
  ## Citation
256
  If you want to cite this model you can use this: