Spaces:

vihangp
/

marathi-park-speaker

Paused

App Files Files Community

vihangp commited on May 15, 2024

Commit

ab40649

verified ·

1 Parent(s): 95b03dd

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -16

app.py CHANGED Viewed

@@ -15,7 +15,7 @@ def _grab_best_device(use_gpu=True):
 device = _grab_best_device()
 default_model_per_language = {
-    "marathi": "facebook/mms-tts-mar"
 }
 models_per_language = {
@@ -58,26 +58,26 @@ def generate_audio(text, model_id, language):
     out = []
     # first generate original model result
     output = pipe_dict["original_pipe"](text)
-    output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=True, label=f"Non finetuned model prediction {default_model_per_language[language]}", show_label=True,
                                visible=True)
     out.append(output)
-    if num_speakers>1:
-        for i in range(min(num_speakers, max_speakers - 1)):
-            forward_params = {"speaker_id": i}
-            output = pipe_dict["pipe"](text, forward_params=forward_params)
-            output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=False, label=f"Generated Audio - speaker {i}", show_label=True,
-                               visible=True)
-            out.append(output)
-        out.extend([gr.Audio(visible=False)]*(max_speakers-num_speakers))
-    else:
-        output = pipe_dict["pipe"](text)
-        output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=True, label="Generated Audio - Mono speaker", show_label=True,
-                               visible=True)
-        out.append(output)
-        out.extend([gr.Audio(visible=False)]*(max_speakers-2))
     return out

 device = _grab_best_device()
 default_model_per_language = {
+    "marathi": "ylacombe/mms-mar-finetuned-monospeaker"
 }
 models_per_language = {
     out = []
     # first generate original model result
     output = pipe_dict["original_pipe"](text)
+    output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=True, label=f"Finetuned model prediction {default_model_per_language[language]}", show_label=True,
                                visible=True)
     out.append(output)
+    # if num_speakers>1:
+    #     for i in range(min(num_speakers, max_speakers - 1)):
+    #         forward_params = {"speaker_id": i}
+    #         output = pipe_dict["pipe"](text, forward_params=forward_params)
+    #         output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=False, label=f"Generated Audio - speaker {i}", show_label=True,
+    #                            visible=True)
+    #         out.append(output)
+    #     out.extend([gr.Audio(visible=False)]*(max_speakers-num_speakers))
+    # else:
+    #     output = pipe_dict["pipe"](text)
+    #     output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=True, label="Generated Audio - Mono speaker", show_label=True,
+    #                            visible=True)
+    #     out.append(output)
+    #     out.extend([gr.Audio(visible=False)]*(max_speakers-2))
     return out