Spaces:

RikeshSilwal
/

awajstt

Runtime error

App Files Files Community

RikeshSilwal commited on Oct 17, 2023

Commit

6308522

•

1 Parent(s): 1233998

Create app.py

Browse files

Files changed (1) hide show

app.py +44 -0

app.py ADDED Viewed

	@@ -0,0 +1,44 @@

+import gradio as gr
+from transformers import WhisperProcessor, WhisperForConditionalGeneration
+from datasets import Audio, load_dataset
+import torchaudio
+from torchaudio.transforms import Resample
+# load model and processor
+processor = WhisperProcessor.from_pretrained("openai/whisper-medium")
+model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-medium")
+forced_decoder_ids = processor.get_decoder_prompt_ids(language="hindi", task="transcribe")
+def transcribe_audio(audio_file):
+  input_arr, sampling_rate =torchaudio.load(audio_file)
+  input_arr = input_arr[0].numpy()
+  if sampling_rate != 16000:
+    resampler = Resample(orig_freq=sampling_rate, new_freq=16000)
+    input_arr = resampler(input_arr).squeeze().numpy()
+    sampling_rate = 16000
+  input_features = processor(input_arr, sampling_rate=sampling_rate, return_tensors="pt").input_features
+  # generate token ids
+  predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
+  # decode token ids to text
+  transcription = processor.batch_decode(predicted_ids)
+  transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+  print(transcription)
+  return transcription[0]
+audio_input = gr.inputs.Audio(source="upload", type="filepath")
+iface = gr.Interface(fn=transcribe_audio, inputs=audio_input,
+                         outputs=["textbox"], title="Speech To Text",
+                         description="Upload an audio file and hit the 'Submit'\
+                             button")
+iface.launch(inline=False)