Spaces:

Blandskron
/

Audio-to-Text

Sleeping

App Files Files Community

Blandskron commited on Jan 15

Commit

043abd9

verified ·

1 Parent(s): 0123ce7

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -52

app.py CHANGED Viewed

@@ -1,21 +1,13 @@
 from transformers import pipeline
 from pydub import AudioSegment
 from pydub.utils import make_chunks
 import os
-import gradio as gr
-# Inicializar el modelo de Hugging Face
 modelo = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-large-xlsr-53-spanish")
-# Función para dividir audios largos en fragmentos
 def dividir_audio(input_path, output_dir, chunk_length_ms=30000):
-    """
-    Divide un archivo de audio en fragmentos más pequeños.
-    Args:
-        input_path (str): Ruta al archivo de audio original.
-        output_dir (str): Carpeta donde se guardarán los fragmentos.
-        chunk_length_ms (int): Duración de cada fragmento en milisegundos.
-    """
     audio = AudioSegment.from_file(input_path)
     chunks = make_chunks(audio, chunk_length_ms)
     os.makedirs(output_dir, exist_ok=True)
@@ -23,56 +15,26 @@ def dividir_audio(input_path, output_dir, chunk_length_ms=30000):
     for i, chunk in enumerate(chunks):
         chunk_name = os.path.join(output_dir, f"chunk_{i}.wav")
         chunk.export(chunk_name, format="wav")
-        print(f"Guardado: {chunk_name}")
-# Función para transcribir audios
 def transcribir_audio(audio_path):
-    """
-    Transcribe un archivo de audio usando Hugging Face.
-    Args:
-        audio_path (str): Ruta al archivo de audio.
-    Returns:
-        str: Texto transcrito.
-    """
-    print(f"Procesando: {audio_path}")
-    result = modelo(audio_path)
-    return result["text"]
-# Función principal para manejar la transcripción desde la interfaz
-def procesar_audio(input_audio):
     output_dir = "chunks"
-    chunk_length_ms = 30000  # Dividir en fragmentos de 30 segundos
-    # Guardar el archivo cargado temporalmente
-    input_audio_path = "input_audio.wav"
-    input_audio.export(input_audio_path, format="wav")
-    print("Dividiendo audio...")
-    dividir_audio(input_audio_path, output_dir, chunk_length_ms)
-    print("Transcribiendo fragmentos...")
     transcripcion_final = []
     for filename in sorted(os.listdir(output_dir)):
         if filename.endswith(".wav"):
             filepath = os.path.join(output_dir, filename)
-            texto = transcribir_audio(filepath)
-            transcripcion_final.append(texto)
-    # Concatenar la transcripción final
-    transcripcion_completa = " ".join(transcripcion_final)
-    # Devolver la transcripción completa
-    return transcripcion_completa
-# Crear la interfaz de usuario con Gradio
-interface = gr.Interface(
-    fn=procesar_audio,
-    inputs=gr.Audio(source="upload", type="file", label="Sube tu archivo de audio"),
-    outputs=gr.Textbox(label="Transcripción"),
-    title="Transcriptor de Audio",
-    description="Sube un archivo de audio de una reunión y obtén la transcripción completa."
-)
-# Ejecutar la aplicación
-if __name__ == "__main__":
-    interface.launch()

+import gradio as gr
 from transformers import pipeline
 from pydub import AudioSegment
 from pydub.utils import make_chunks
 import os
+# Modelo ASR
 modelo = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-large-xlsr-53-spanish")
 def dividir_audio(input_path, output_dir, chunk_length_ms=30000):
     audio = AudioSegment.from_file(input_path)
     chunks = make_chunks(audio, chunk_length_ms)
     os.makedirs(output_dir, exist_ok=True)
     for i, chunk in enumerate(chunks):
         chunk_name = os.path.join(output_dir, f"chunk_{i}.wav")
         chunk.export(chunk_name, format="wav")
 def transcribir_audio(audio_path):
+    return modelo(audio_path)["text"]
+def transcribir(audio_file):
     output_dir = "chunks"
+    dividir_audio(audio_file, output_dir)
     transcripcion_final = []
     for filename in sorted(os.listdir(output_dir)):
         if filename.endswith(".wav"):
             filepath = os.path.join(output_dir, filename)
+            transcripcion_final.append(transcribir_audio(filepath))
+    return " ".join(transcripcion_final)
+with gr.Interface(
+    fn=transcribir,
+    inputs=gr.Audio(type="file", label="Sube tu archivo de audio"),
+    outputs="text",
+    title="Transcriptor de Audio"
+) as interfaz:
+    interfaz.launch()