Spaces:

rayl-aoit
/

translate_text_and_speech

Running

App Files Files Community

rayl-aoit commited on Jul 8

Commit

3c2c1d3

•

1 Parent(s): 401a0de

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -19

app.py CHANGED Viewed

@@ -16,16 +16,10 @@ SAMPLE_RATE = 16000  # Hz
 # load ASR model
 canary_model = EncDecMultiTaskModel.from_pretrained('nvidia/canary-1b')
-# update dcode params
 decode_cfg = canary_model.cfg.decoding
 decode_cfg.beam.beam_size = 1
 canary_model.change_decoding_strategy(decode_cfg)
-# load TTS model
-# tts_model = VitsModel.from_pretrained("facebook/mms-tts-eng")
-# tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 # Function to convert audio to text using ASR
 def gen_text(audio_filepath, action, source_lang, target_lang):
     if audio_filepath is None:
@@ -72,7 +66,6 @@ def gen_text(audio_filepath, action, source_lang, target_lang):
 # Function to convert text to speech using TTS
 def gen_speech(text, lang):
     set_seed(555)  # Make it deterministic
     match lang:
         case "en":
              model = "facebook/mms-tts-eng"
@@ -85,11 +78,6 @@ def gen_speech(text, lang):
         case _:
             model = "facebook/mms-tts-eng"
-    # if lang=="en":
-    #     model = "facebook/mms-tts-eng"
-    # elif lang=="fr":
-    #     model = "facebook/mms-tts-fra"
     # load TTS model
     tts_model = VitsModel.from_pretrained(model)
     tts_tokenizer = AutoTokenizer.from_pretrained(model)
@@ -146,13 +134,18 @@ with playground:
         with gr.Column():
             clear_button = gr.ClearButton(components=[input_audio, source_lang, target_lang, transcipted_text, translated_text, translated_speech], value="Clear")
-    # with gr.Row():
-    #     gr.Examples(
-    #         examples=["sample.wav"],
-    #         inputs=[input_audio],
-    #         outputs=[transcipted_text, translated_speech, translated_text],
-    #         run_on_click=True, cache_examples=True, fn=start_process
-    #     )
     submit_button.click(start_process, inputs=[input_audio, source_lang, target_lang], outputs=[transcipted_text, translated_text, translated_speech])

 # load ASR model
 canary_model = EncDecMultiTaskModel.from_pretrained('nvidia/canary-1b')
 decode_cfg = canary_model.cfg.decoding
 decode_cfg.beam.beam_size = 1
 canary_model.change_decoding_strategy(decode_cfg)
 # Function to convert audio to text using ASR
 def gen_text(audio_filepath, action, source_lang, target_lang):
     if audio_filepath is None:
 # Function to convert text to speech using TTS
 def gen_speech(text, lang):
     set_seed(555)  # Make it deterministic
     match lang:
         case "en":
              model = "facebook/mms-tts-eng"
         case _:
             model = "facebook/mms-tts-eng"
     # load TTS model
     tts_model = VitsModel.from_pretrained(model)
     tts_tokenizer = AutoTokenizer.from_pretrained(model)
         with gr.Column():
             clear_button = gr.ClearButton(components=[input_audio, source_lang, target_lang, transcipted_text, translated_text, translated_speech], value="Clear")
+    with gr.Row():
+        gr.Examples(
+            examples=[
+                ["sample_en.wav","en","fr"],
+                ["sample_fr.wav","fr","de"],
+                ["sample_de.wav","de","es"],
+                ["sample_es.wav","es","en"]
+            ],
+            inputs=[input_audio, source_lang, target_lang],
+            outputs=[transcipted_text, translated_text, translated_speech],
+            run_on_click=True, cache_examples=True, fn=start_process
+        )
     submit_button.click(start_process, inputs=[input_audio, source_lang, target_lang], outputs=[transcipted_text, translated_text, translated_speech])