Spaces:

sarahai
/

uz-stt

Sleeping

App Files Files Community

sarahai commited on Aug 16

Commit

82077c2

•

1 Parent(s): 1a7dd8c

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -12

app.py CHANGED Viewed

@@ -1,15 +1,18 @@
 import streamlit as st
 import torchaudio
 import torch
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 # Load the fine-tuned model and processor
 model_name_or_path = "sarahai/uzbek-stt-3"  # Replace with your model's path
 processor = Wav2Vec2Processor.from_pretrained(model_name_or_path)
 model = Wav2Vec2ForCTC.from_pretrained(model_name_or_path)
-# Function to preprocess and transcribe audio
-def preprocess_audio(file):
     speech_array, sampling_rate = torchaudio.load(file)
     # Resample to 16 kHz if necessary
@@ -18,15 +21,26 @@ def preprocess_audio(file):
         speech_array = resampler(speech_array)
     speech_array = speech_array.squeeze().numpy()
-    return speech_array
-def transcribe_audio(speech_array):
-    input_values = processor(speech_array, return_tensors="pt", sampling_rate=16000).input_values
-    with torch.no_grad():
-        logits = model(input_values).logits
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.decode(predicted_ids[0])
-    return transcription.replace("[UNK]", "'")
 # Streamlit interface
 st.title("Speech-to-Text Transcription App")
@@ -36,8 +50,9 @@ audio_file = st.file_uploader("Upload an audio file", type=["wav", "mp3"])
 if audio_file is not None:
     # Preprocess and transcribe
-    speech_array = preprocess_audio(audio_file)
-    transcription = transcribe_audio(speech_array)
     st.write("Transcription:")
     st.text(transcription)

 import streamlit as st
 import torchaudio
 import torch
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+import numpy as np
 # Load the fine-tuned model and processor
 model_name_or_path = "sarahai/uzbek-stt-3"  # Replace with your model's path
 processor = Wav2Vec2Processor.from_pretrained(model_name_or_path)
 model = Wav2Vec2ForCTC.from_pretrained(model_name_or_path)
+# Function to preprocess and split audio into chunks
+def preprocess_audio(file, chunk_duration=10):
     speech_array, sampling_rate = torchaudio.load(file)
     # Resample to 16 kHz if necessary
         speech_array = resampler(speech_array)
     speech_array = speech_array.squeeze().numpy()
+    # Split audio into chunks (e.g., 10 seconds per chunk)
+    chunk_size = chunk_duration * 16000  # 10 seconds * 16000 samples per second
+    chunks = [speech_array[i:i + chunk_size] for i in range(0, len(speech_array), chunk_size)]
+    return chunks
+def transcribe_audio(chunks):
+    transcription = ""
+    for chunk in chunks:
+        input_values = processor(chunk, return_tensors="pt", sampling_rate=16000).input_values
+        with torch.no_grad():
+            logits = model(input_values).logits
+        predicted_ids = torch.argmax(logits, dim=-1)
+        chunk_transcription = processor.decode(predicted_ids[0])
+        chunk_transcription = chunk_transcription.replace("[UNK]", "'")
+        transcription += chunk_transcription + " "  # Add a space between chunks
+    return transcription.strip()
 # Streamlit interface
 st.title("Speech-to-Text Transcription App")
 if audio_file is not None:
     # Preprocess and transcribe
+    chunks = preprocess_audio(audio_file)
+    transcription = transcribe_audio(chunks)
     st.write("Transcription:")
     st.text(transcription)