Uganda_2_English_Speech_Translation

Runtime error

allandclive commited on Jul 19, 2023

Commit

f01f4ac

1 Parent(s): 52f0ba0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,9 +5,12 @@ import json
 from transformers import pipeline
 from stitched_model import CombinedModel
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
-model = CombinedModel("indonesian-nlp/wav2vec2-luganda", "Sunbird/sunbird-mul-en-mbart-merged", device=device)
 def transcribe(audio_file_mic=None, audio_file_upload=None):
     if audio_file_mic:
@@ -17,27 +20,16 @@ def transcribe(audio_file_mic=None, audio_file_upload=None):
     else:
         return "Please upload an audio file or record one"
-    # Load the audio file
-    speech, sample_rate = librosa.load(audio_file, sr=16000, mono=True)
-    # Split the audio into 10-second chunks
-    chunk_size = 10 * 16000
-    chunks = [speech[i:i + chunk_size] for i in range(0, len(speech), chunk_size)]
-    # Process each chunk and concatenate the results
-    transcriptions = []
-    translations = []
-    for chunk in chunks:
-        chunk = torch.tensor([chunk])
-        with torch.no_grad():
-            transcription, translation = model({"audio": chunk})
-        transcriptions.append(transcription)
-        translations.append(translation[0])
-    transcription = "".join(transcriptions)
-    translation = "".join(translations)
-    return transcription, translation
 description = '''Luganda to English Speech Translation'''
@@ -50,4 +42,4 @@ iface = gr.Interface(fn=transcribe,
                      ],
                      description=description
                      )
-iface.launch()

 from transformers import pipeline
 from stitched_model import CombinedModel
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
+model = CombinedModel("facebook/mms-1b-all", "Sunbird/sunbird-mul-en-mbart-merged", device="cpu")
 def transcribe(audio_file_mic=None, audio_file_upload=None):
     if audio_file_mic:
     else:
         return "Please upload an audio file or record one"
+    # Make sure audio is 16kHz
+    speech, sample_rate = librosa.load(audio_file)
+    if sample_rate != 16000:
+        speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
+    speech = torch.tensor([speech])
+    with torch.no_grad():
+        transcription, translation = model({"audio":speech})
+    return transcription, translation[0]
 description = '''Luganda to English Speech Translation'''
                      ],
                      description=description
                      )
+iface.launch()