File size: 5,665 Bytes
556450f
 
 
 
 
 
fb09efc
 
a2e4087
 
 
 
556450f
ac977b1
f814075
ac977b1
fb09efc
ac977b1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fb09efc
543cac1
f814075
 
 
 
 
 
fb09efc
 
ac977b1
 
fb09efc
 
 
 
 
 
 
3d4fef8
 
 
ac977b1
3d4fef8
594d540
 
 
 
ac977b1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
---
license: mit
language:
- ru
- az
- lez
datasets:
- AlidarAsvarov/lezgi-rus-azer-corpus
base_model: facebook/nllb-200-distilled-600M
metrics:
- bleu
- chrf
---
# Neural machine translation system for Lezgian, Russian and Azerbaijani languages

We release the first neural machine translation system for translation between Russian, Azerbaijani and the endangered Lezgian languages, as well as monolingual and parallel datasets collected and aligned for training and evaluating the system.

# Get Usage

## Russian-Lezgian example

```python
from transformers import NllbTokenizer, AutoModelForSeq2SeqLM

model = AutoModelForSeq2SeqLM.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj")
tokenizer = NllbTokenizer.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj", )

model.eval()

tokenizer.src_lang = 'rus_Cyrl'
inputs = tokenizer(
    'Футбольная ассоциации Англии рассчитывала провести финал кубка на перестроенном стадионе "Уэмбли"', 
    return_tensors='pt',
    padding=True,
    truncation=True,
    max_length=40
)

tokenizer.tgt_lang = 'lez_Cyrl'
tokenizer.batch_decode(
    model.generate(
        **inputs,
        forced_bos_token_id=tokenizer.convert_tokens_to_ids(tokenizer.tgt_lang),
        max_new_tokens=int(32 + 3 * inputs.input_ids.shape[1]),
        num_beams=5
    ),
    skip_special_tokens=True
)
```

## Azerbaijani-Lezgian example

```python
from transformers import NllbTokenizer, AutoModelForSeq2SeqLM

model = AutoModelForSeq2SeqLM.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj")
tokenizer = NllbTokenizer.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj", )

model.eval()

tokenizer.src_lang = 'azj_Latn'
inputs = tokenizer(
    '1741-ci ilin payızında Nadir s ̧ah Mu ̈s ̧ku ̈r lәzgilәrinә hu ̈cum edib onlara divan tutur.', 
    return_tensors='pt',
    padding=True,
    truncation=True,
    max_length=102
)

tokenizer.tgt_lang = 'lez_Cyrl'
tokenizer.batch_decode(
    model.generate(
        **inputs,
        forced_bos_token_id=tokenizer.convert_tokens_to_ids(tokenizer.tgt_lang),
        max_new_tokens=int(32 + 3 * inputs.input_ids.shape[1]),
        num_beams=5
    ),
    skip_special_tokens=True
)
```

# Quality

## BLEU score

| BLEU   | All   | Bible | Quran | Qusar  |
| ------ | ----- | ----- | ----- | -----  |
| lez-az | 26.14 | 24.21 | 30.77 | 25.85  |
| az-lez | 22.89 | 20.27 | 27.29 | 23.66  |
| lez-ru | 29.48 | 27.61 | 41.42 | 21.35* |
| ru-lez | 24.25 | 22.10 | 31.78 | 20.31* |
| ru-az  | 31.65 | 25.73 | 32.93 | 41.10* |
| az-ru  | 33.63 | 28.78 | 36.83 | 40.46* |

## ChrF score

| ChrF++ | All   | Bible | Quran | Qusar  |
| ------ | ----- | ----- | ----- | -----  |
| lez2az | 48.62 | 47.17 | 53.95 | 47.02  |
| az2lez | 48.37 | 46.19 | 53.65 | 47.61  |
| lez2ru | 48.74 | 47.76 | 59.33 | 41.85* |
| ru2lez | 49.55 | 47.95 | 57.49 | 45.16* |
| ru2az  | 54.97 | 49.46 | 55.50 | 63.62* |
| az2ru  | 54.71 | 49.21 | 56.32 | 62.54* |


## Random examples of translation from Russian to Lezgian:

|                        Russian (source)                                                                                               | Lezgian (target)                                                                                                      | Comment                                            |
|---------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------|----------------------------------------------------|
| Футбольная ассоциации Англии рассчитывала провести финал кубка на перестроенном стадионе "Уэмбли"                                     | Англиядин футболдин командадик цӀийи кьилелай эцигай "Уэмбли" стадионда кубокдин финал кьиле тухудай фикир кьуна      | "Association" translated as "team"                 |
| На одиннадцатый день рождения Гарри узнаёт, что является волшебником, и ему уготовано место в школе волшебства "Хогвартс"             | ЦӀуд лагьай юкъуз Гарриди вич суьгьуьрчи тирди винел акъудна ва адал "Хогварц" суьгьуьрчивилин мектебда чка гьазурна. | "On eleven's bithday" translated as "On tenth day" |
| В 1960-х годах Советский Союз развивал стратегические ракетные вооружения, в то же время США делали ставку на стратегическую авиацию. | 1960-йисара СССР-ди стратегиядин ракетдин яракьар вилик тухвана, гьакӀни АСШ-ди стратегиядин авиациядин хиве кьунай.  |                                                    |

# Citation

If you use that results in your research, please cite our paper:

```bibtex
@misc{asvarov2024neuralmachinetranslationlezgian,
      title={Neural machine translation system for Lezgian, Russian and Azerbaijani languages}, 
      author={Alidar Asvarov and Andrey Grabovoy},
      year={2024},
      eprint={2410.05472},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2410.05472}, 
}
```