Spaces:

Manyue-DataScientist
/

speaker-diarization-app

Sleeping

Manyue-DataScientist commited on Jan 12

Commit

853df82

verified ·

1 Parent(s): 06de8a8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,10 +1,11 @@
 import streamlit as st
 from pyannote.audio import Pipeline
-import whisper  # Changed import
 import tempfile
 import os
 import torch
 from transformers import pipeline as tf_pipeline
 @st.cache_resource
 def load_models():
@@ -29,9 +30,19 @@ def load_models():
 def process_audio(audio_file, max_duration=600):  # limit to 5 minutes initially
     try:
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
-            tmp.write(audio_file.getvalue())
             tmp_path = tmp.name
         # Get cached models
         diarization, transcriber, summarizer = load_models()

 import streamlit as st
 from pyannote.audio import Pipeline
+import whisper
 import tempfile
 import os
 import torch
 from transformers import pipeline as tf_pipeline
+from pydub import AudioSegment
 @st.cache_resource
 def load_models():
 def process_audio(audio_file, max_duration=600):  # limit to 5 minutes initially
     try:
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
+            # Convert MP3 to WAV if needed
+            if audio_file.name.endswith('.mp3'):
+                audio = AudioSegment.from_mp3(audio_file)
+            else:
+                audio = AudioSegment.from_wav(audio_file)
+            # Export as WAV
+            audio.export(tmp.name, format="wav")
             tmp_path = tmp.name
         # Get cached models
         diarization, transcriber, summarizer = load_models()