Spaces:

rayl-aoit
/

translate_text_and_speech

Running

rayl-aoit commited on Jul 8

Commit

e796a00

•

1 Parent(s): 1180d04

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -27,7 +27,7 @@ canary_model.change_decoding_strategy(decode_cfg)
 # tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 # Function to convert audio to text using ASR
-def gen_text(audio_filepath, action):
     if audio_filepath is None:
         raise gr.Error("Please provide some input audio.")
@@ -45,8 +45,8 @@ def gen_text(audio_filepath, action):
         manifest_data = {
             "audio_filepath": converted_audio_filepath,
             "taskname": action,
-            "source_lang": "en",
-            "target_lang": "en" if action=="asr" else "fr",
             "pnc": "no",
             "answer": "predict",
             "duration": str(duration),
@@ -92,11 +92,11 @@ def gen_speech(text, lang):
 # Root function for Gradio interface
 def start_process(audio_filepath, source_lang, target_lang):
-    transcription = gen_text(audio_filepath, "asr")
     print("Done transcribing")
-    translation = gen_text(audio_filepath, "s2t_translation")
     print("Done translation")
-    audio_output_filepath = gen_speech(transcription, target_lang)
     print("Done speaking")
     return transcription, translation, audio_output_filepath

 # tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 # Function to convert audio to text using ASR
+def gen_text(audio_filepath, action, source_lang, target_lang):
     if audio_filepath is None:
         raise gr.Error("Please provide some input audio.")
         manifest_data = {
             "audio_filepath": converted_audio_filepath,
             "taskname": action,
+            "source_lang": source_lang,
+            "target_lang": source_lang if action=="asr" else target_lang,
             "pnc": "no",
             "answer": "predict",
             "duration": str(duration),
 # Root function for Gradio interface
 def start_process(audio_filepath, source_lang, target_lang):
+    transcription = gen_text(audio_filepath, "asr", source_lang, target_lang)
     print("Done transcribing")
+    translation = gen_text(audio_filepath, "s2t_translation", source_lang, target_lang)
     print("Done translation")
+    audio_output_filepath = gen_speech(translation, target_lang)
     print("Done speaking")
     return transcription, translation, audio_output_filepath