Spaces:

Detomo
/

audio-stream-translate

Build error

App Files Files Community

vumichien commited on Aug 22, 2022

Commit

4671727

•

1 Parent(s): 947682e

Create new file

Browse files

Files changed (1) hide show

app.py +54 -0

app.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import gradio as gr
+import librosa
+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+import torch
+import librosa
+# load model and processor
+processor = Wav2Vec2Processor.from_pretrained("jonatasgrosman/wav2vec2-large-xlsr-53-english")
+model = Wav2Vec2ForCTC.from_pretrained("jonatasgrosman/wav2vec2-large-xlsr-53-english")
+tokenizer = AutoTokenizer.from_pretrained("icon-it-tdtu/mt-en-vi-optimum")
+model_lm = ORTModelForSeq2SeqLM.from_pretrained("icon-it-tdtu/mt-en-vi-optimum")
+def process_audio_file(file):
+    data, sr = librosa.load(file)
+    if sr != 16000:
+        data = librosa.resample(data, sr, 16000)
+    inputs = processor(data, sampling_rate=16000, return_tensors="pt", padding=True)
+    return inputs
+def transcribe(file, state=""):
+    inputs = process_audio_file(file)
+    with torch.no_grad():
+        output_logit = model(inputs.input_values).logits
+    pred_ids = torch.argmax(output_logit, dim=-1)
+    text = processor.batch_decode(pred_ids)[0].lower()
+    print(text)
+    text = translate(text)
+    state += text + " "
+    return state, state
+def translate(text):
+    batch = tokenizer([text], return_tensors="pt")
+    generated_ids = model_lm.generate(**batch)
+    translated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
+    return translated_text
+# Set the starting state to an empty string
+gr.Interface(
+    fn=transcribe,
+    inputs=[
+        gr.Audio(source="microphone", type="filepath", streaming=True),
+        "state"
+    ],
+    outputs=[
+        "textbox",
+        "state"
+    ],
+    live=True).launch(debug=True)