Text-to-Speech
Transformers
Safetensors
Arabic
vits
text-to-audio
Inference Endpoints
wasmdashai commited on
Commit
74bb657
·
verified ·
1 Parent(s): 00674ff

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +60 -154
README.md CHANGED
@@ -9,9 +9,6 @@ pipeline_tag: text-to-speech
9
  ---
10
  # Model Card for Model ID
11
 
12
- <!-- Provide a quick summary of what the model is/does. -->
13
-
14
- This modelcard aims to be a base template for new models. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/modelcard_template.md?plain=1).
15
 
16
  ## Model Details
17
 
@@ -19,185 +16,94 @@ This modelcard aims to be a base template for new models. It has been generated
19
 
20
  <!-- Provide a longer summary of what this model is. -->
21
 
 
22
 
 
 
23
 
24
- - **Developed by:** [More Information Needed]
25
- - **Funded by [optional]:** [More Information Needed]
26
- - **Shared by [optional]:** [More Information Needed]
27
- - **Model type:** [More Information Needed]
28
- - **Language(s) (NLP):** [More Information Needed]
29
- - **License:** [More Information Needed]
30
- - **Finetuned from model [optional]:** [More Information Needed]
31
-
32
- ### Model Sources [optional]
33
-
34
- <!-- Provide the basic links for the model. -->
35
-
36
- - **Repository:** [More Information Needed]
37
- - **Paper [optional]:** [More Information Needed]
38
- - **Demo [optional]:** [More Information Needed]
39
-
40
- ## Uses
41
-
42
- <!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
43
-
44
- ### Direct Use
45
-
46
- <!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
47
-
48
- [More Information Needed]
49
-
50
- ### Downstream Use [optional]
51
-
52
- <!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
53
-
54
- [More Information Needed]
55
-
56
- ### Out-of-Scope Use
57
-
58
- <!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
59
-
60
- [More Information Needed]
61
-
62
- ## Bias, Risks, and Limitations
63
-
64
- <!-- This section is meant to convey both technical and sociotechnical limitations. -->
65
-
66
- [More Information Needed]
67
-
68
- ### Recommendations
69
-
70
- <!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
71
-
72
- Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
73
-
74
- ## How to Get Started with the Model
75
-
76
- Use the code below to get started with the model.
77
-
78
- [More Information Needed]
79
-
80
- ## Training Details
81
-
82
- ### Training Data
83
-
84
- <!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
85
-
86
- [More Information Needed]
87
-
88
- ### Training Procedure
89
-
90
- <!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
91
-
92
- #### Preprocessing [optional]
93
-
94
- [More Information Needed]
95
-
96
-
97
- #### Training Hyperparameters
98
-
99
- - **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
100
-
101
- #### Speeds, Sizes, Times [optional]
102
-
103
- <!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
104
-
105
- [More Information Needed]
106
-
107
- ## Evaluation
108
-
109
- <!-- This section describes the evaluation protocols and provides the results. -->
110
-
111
- ### Testing Data, Factors & Metrics
112
-
113
- #### Testing Data
114
-
115
- <!-- This should link to a Dataset Card if possible. -->
116
-
117
- [More Information Needed]
118
-
119
- #### Factors
120
-
121
- <!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
122
-
123
- [More Information Needed]
124
-
125
- #### Metrics
126
-
127
- <!-- These are the evaluation metrics being used, ideally with a description of why. -->
128
-
129
- [More Information Needed]
130
-
131
- ### Results
132
-
133
- [More Information Needed]
134
-
135
- #### Summary
136
-
137
-
138
-
139
- ## Model Examination [optional]
140
-
141
- <!-- Relevant interpretability work for the model goes here -->
142
 
143
- [More Information Needed]
144
 
145
- ## Environmental Impact
146
 
147
- <!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
 
148
 
149
- Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
 
 
150
 
151
- - **Hardware Type:** [More Information Needed]
152
- - **Hours used:** [More Information Needed]
153
- - **Cloud Provider:** [More Information Needed]
154
- - **Compute Region:** [More Information Needed]
155
- - **Carbon Emitted:** [More Information Needed]
156
 
157
- ## Technical Specifications [optional]
 
 
158
 
159
- ### Model Architecture and Objective
 
160
 
161
- [More Information Needed]
 
162
 
163
- ### Compute Infrastructure
 
 
164
 
165
- [More Information Needed]
166
 
167
- #### Hardware
168
 
169
- [More Information Needed]
170
 
171
- #### Software
 
172
 
173
- [More Information Needed]
174
 
175
- ## Citation [optional]
176
 
177
- <!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
178
 
179
- **BibTeX:**
180
 
181
- [More Information Needed]
182
 
183
- **APA:**
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
184
 
185
- [More Information Needed]
186
 
187
- ## Glossary [optional]
188
 
189
- <!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
190
 
191
- [More Information Needed]
192
 
193
- ## More Information [optional]
194
 
195
- [More Information Needed]
196
 
197
- ## Model Card Authors [optional]
198
 
199
- [More Information Needed]
200
 
201
- ## Model Card Contact
202
 
203
- [More Information Needed]
 
9
  ---
10
  # Model Card for Model ID
11
 
 
 
 
12
 
13
  ## Model Details
14
 
 
16
 
17
  <!-- Provide a longer summary of what this model is. -->
18
 
19
+ An advanced text-to-speech (TTS) system specifically designed for the Arabic language, built on the VITS architecture and utilizing the pre-trained weights from Facebook's vits ara model. The model is capable of:
20
 
21
+ Generating natural and realistic speech: Producing high-quality Arabic speech that closely mimics human voices, preserving intonation and linguistic nuances.
22
+ Understanding colloquial text: Processing text written in various Arabic dialects, including idiomatic expressions and local vocabulary.
23
 
24
+ Model Details
25
+ VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is an end-to-end speech synthesis model that predicts a speech waveform conditional on an input text sequence. It is a conditional variational autoencoder (VAE) comprised of a posterior encoder, decoder, and conditional prior.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
26
 
27
+ A set of spectrogram-based acoustic features are predicted by the flow-based module, which is formed of a Transformer-based text encoder and multiple coupling layers. The spectrogram is decoded using a stack of transposed convolutional layers, much in the same style as the HiFi-GAN vocoder. Motivated by the one-to-many nature of the TTS problem, where the same text input can be spoken in multiple ways, the model also includes a stochastic duration predictor, which allows the model to synthesise speech with different rhythms from the same input text.
28
 
29
+ ## Usage
30
 
31
+ MMS-TTS is available in the 🤗 Transformers library from version 4.33 onwards. To use this checkpoint,
32
+ first install the latest version of the library:
33
 
34
+ ```
35
+ pip install transformers[torch]
36
+ ```
37
 
38
+ Then, run inference with the following code-snippet:
 
 
 
 
39
 
40
+ ```python
41
+ from transformers import VitsModel, AutoTokenizer
42
+ import torch
43
 
44
+ model = VitsModel.from_pretrained("wasmdashai/vits-ar")
45
+ tokenizer = AutoTokenizer.from_pretrained("wasmdashai/vits-ar")
46
 
47
+ text = "السلام عليكم ورحمة الله وبركاتة ما الجديد ؟ "
48
+ inputs = tokenizer(text, return_tensors="pt")
49
 
50
+ with torch.no_grad():
51
+ full_generation =model(**inputs)
52
+ full_generation_waveform = full_generation.waveform.cpu().numpy().reshape(-1)
53
 
54
+ from IPython.display import Audio
55
 
56
+ Audio(full_generation_waveform, rate=model.config.sampling_rate)
57
 
58
+ ```
59
 
60
+ ## Contact
61
+ You can also email us at [email protected]
62
 
 
63
 
 
64
 
65
+ ## مجموعة نماذج توليد اللهجات العربية
66
 
67
+ ### مقدمة
68
 
69
+ يسرنا أن نعلن عن إصدار مجموعة من نماذج توليد اللهجات العربية قريبًا. تم تصميم هذه النماذج باستخدام تقنيات الذكاء الاصطناعي المتقدمة لتقديم تجربة طبيعية وواقعية في تحويل النص إلى كلام (Text-to-Speech) بمختلف اللهجات العربية.
70
 
71
+ ### جدول النماذج
72
+ | **اللهجة** | **اسم النموذج** | **الوصف** | **تاريخ الإصدار المتوقع** | **مستوى جودة الصوت** |
73
+ |-------------------|---------------------------------------------------------------------------------|---------------------------------------------------------------------------|----------------------------|----------------------|
74
+ | اللغة العربية | [vits-ar](https://huggingface.co/wasmdashai/vits-ar) | نموذج لتحويل النص إلى كلام باللهجة اليمنية بتفاصيل دقيقة. | متوفر | متوسط |
75
+ | اللهجة اليمنية | [vits-ar-ye](https://huggingface.co/wasmdashai/vits-ar-ye) | نموذج لتحويل النص إلى كلام باللهجة اليمنية بتفاصيل دقيقة. | قريباً | متوسط |
76
+ | اللهجة السعودية | [vits-ar-sa](https://huggingface.co/wasmdashai/vits-ar-sa-huba) | نموذج لتحويل النص إلى كلام باللهجة السعودية بجودة عالية وتفاصيل دقيقة. | متوفر | متوسط |
77
+ | اللهجة المصرية | [vits-ar-eg](https://huggingface.co/wasmdashai/vits-ar-eg) | نموذج لتحويل النص إلى كلام باللهجة المصرية بأسلوب طبيعي وسلس. | قريباً | متوسط |
78
+ | اللهجة اللبنانية | [vits-ar-lb](https://huggingface.co/wasmdashai/vits-ar-lb) | نموذج متخصص في اللهجة اللبنانية لتوليد كلام بتفاصيل دقيقة وواقعية. | قريباً | متوسط |
79
+ | اللهجة المغربية | [vits-ar-ma](https://huggingface.co/wasmdashai/vits-ar-ma) | نموذج لتحويل النص إلى كلام باللهجة المغربية بقدرة على فهم المصطلحات المحلية.| قريباً | متوسط |
80
+ | اللهجة الإماراتية | [vits-ar-ae](https://huggingface.co/wasmdashai/vits-ar-ae) | نموذج لتحويل النص إلى كلام باللهجة الإماراتية بواقعية وتفاصيل دقيقة. | قريباً | متوسط |
81
+ | اللهجة الأردنية | [vits-ar-jo](https://huggingface.co/wasmdashai/vits-ar-jo) | نموذج لتحويل النص إلى كلام باللهجة الأردنية بإتقان للتفاصيل الصوتية. | قريباً | متوسط |
82
+ | اللهجة العراقية | [vits-ar-iq](https://huggingface.co/wasmdashai/vits-ar-iq) | نموذج لتوليد الكلام باللهجة العراقية بدقة في نطق الكلمات والتعابير الشائعة. | قريباً | متوسط |
83
+ | اللهجة السورية | [vits-ar-sy](https://huggingface.co/wasmdashai/vits-ar-sy) | نموذج لتحويل النص إلى كلام باللهجة السورية بوضوح وصوت طبيعي. | قريباً | متوسط |
84
+ | اللهجة الفلسطينية | [vits-ar-ps](https://huggingface.co/wasmdashai/vits-ar-ps) | نموذج لتحويل النص إلى كلام باللهجة الفلسطينية بتفاصيل دقيقة. | قريباً | متوسط |
85
+ | اللهجة السودانية | [vits-ar-sd](https://huggingface.co/wasmdashai/vits-ar-sd) | نموذج لتحويل النص إلى كلام باللهجة السودانية مع فهم المفردات المحلية. | قريباً | متوسط |
86
+ | اللهجة الجزائرية | [vits-ar-dz](https://huggingface.co/wasmdashai/vits-ar-dz) | نموذج لتحويل النص إلى كلام باللهجة الجزائرية بدقة وجودة عالية. | قريباً | متوسط |
87
+ | اللهجة التونسية | [vits-ar-tn](https://huggingface.co/wasmdashai/vits-ar-tn) | نموذج لتحويل النص إلى كلام باللهجة التونسية بإتقان للتفاصيل المحلية. | قريباً | متوسط |
88
+ | اللهجة الليبية | [vits-ar-ly](https://huggingface.co/wasmdashai/vits-ar-ly) | نموذج لتحويل النص إلى كلام باللهجة الليبية بدقة وواقعية في النطق. | قريباً | متوسط |
89
+ | اللهجة البحرينية | [vits-ar-bh](https://huggingface.co/wasmdashai/vits-ar-bh) | نموذج لتحويل النص إلى كلام باللهجة البحرينية بجودة صوت عالية. | قريباً | متوسط |
90
+ | اللهجة العمانية | [vits-ar-om](https://huggingface.co/wasmdashai/vits-ar-om) | نموذج لتحويل النص إلى كلام باللهجة العمانية بدقة ووضوح في النطق. | قريباً | متوسط |
91
+ | اللهجة القطرية | [vits-ar-qa](https://huggingface.co/wasmdashai/vits-ar-qa) | نموذج لتحويل النص إلى كلام باللهجة القطرية بتفاصيل دقيقة وواقعية. | قريباً | متوسط |
92
+ | اللهجة الكويتية | [vits-ar-kw](https://huggingface.co/wasmdashai/vits-ar-kw) | نموذج لتحويل النص إلى كلام باللهجة الكويتية بجودة عالية ووضوح. | قريباً | متوسط |
93
+ | اللهجة الموريتانية | [vits-ar-mr](https://huggingface.co/wasmdashai/vits-ar-mr) | نموذج لتحويل النص إلى كلام باللهجة الموريتانية بتفاصيل دقيقة وواقعية. | قريباً | متوسط |
94
 
95
+ ### التفاصيل الفنية
96
 
97
+ تعتمد جميع النماذج على بنية VITS، وهي نموذج شامل لتحويل النص إلى كلام يتيح توليد موجات صوتية واقعية بناءً على المدخلات النصية. تحتوي النماذج على محولات لتحليل النص وتوليد الكلام بناءً على خصائص الصوت المحلية لكل لهجة.
98
 
99
+ ### الترقيات المستقبلية
100
 
101
+ سيتم تقديم تحديثات منتظمة لتحسين جودة الصوت وزيادة كفاءة فهم اللهجات المختلفة. تابعونا لمعرفة المزيد حول تواريخ الإطلاق الدقيقة لكل نموذج.
102
 
 
103
 
 
104
 
105
+ ## Acknowledgements
106
 
 
107
 
 
108
 
109
+ This implementation is based on [tts-arabic](https://github.com/nipponjo/tts-arabic-pytorch), [VITS](https://github.com/jaywalnut310/vits), [Finetune VITS](https://github.com/ylacombe/finetune-hf-vits) and [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2). We appreciate their awesome work.