Spaces:

Shanulhaq
/

Multi-Voice-App

Runtime error

App Files Files Community

Shanulhaq commited on Oct 9, 2024

Commit

f539be4

verified ·

1 Parent(s): a34db48

Create app.py

Browse files

Files changed (1) hide show

app.py +92 -0

app.py ADDED Viewed

	@@ -0,0 +1,92 @@

+import os
+import gradio as gr
+import whisper
+from gtts import gTTS
+import tempfile
+import logging
+import numpy as np
+import requests
+# Set up logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+# Set up Eleven Labs API key
+eleven_labs_api_key = os.getenv('sk_e64bdb06f08a04813fc4aa482316d0ff751ff73e2aa88cc1')
+if not eleven_labs_api_key:
+    raise ValueError("ELEVEN_LABS_API_KEY is not set.")
+logger.info("Eleven Labs API key is set.")
+try:
+    # Load Whisper model
+    whisper_model = whisper.load_model("base")
+    logger.info("Whisper model loaded successfully.")
+except Exception as e:
+    logger.error(f"Failed to load Whisper model: {e}")
+    raise
+def process_audio(audio_file):
+    try:
+        # Transcribe audio using Whisper
+        result = whisper_model.transcribe(audio_file)
+        user_text = result['text']
+        logger.info(f"Transcription successful: {user_text}")
+    except Exception as e:
+        logger.error(f"Error in transcribing audio: {e}")
+        return "Error in transcribing audio.", None
+    try:
+        # Generate response using Eleven Labs API
+        headers = {
+            "Authorization": f"Bearer {eleven_labs_api_key}",
+            "Content-Type": "application/json"
+        }
+        payload = {
+            "model": "llama3-8b-8192",
+            "messages": [
+                {
+                    "role": "user",
+                    "content": user_text,
+                }
+            ]
+        }
+        response = requests.post("https://api.elevenlabs.io/v1/chat/completions", json=payload, headers=headers)
+        response.raise_for_status()
+        response_data = response.json()
+        response_text = response_data['choices'][0]['message']['content']
+        logger.info(f"Received response from Eleven Labs API: {response_text}")
+    except Exception as e:
+        logger.error(f"Error in generating response with Eleven Labs API: {e}")
+        return "Error in generating response with Eleven Labs API.", None
+    try:
+        # Convert response text to speech using gTTS
+        tts = gTTS(text=response_text, lang='en')
+        audio_file = tempfile.NamedTemporaryFile(delete=False, suffix='.mp3')
+        tts.save(audio_file.name)
+        logger.info("Text-to-speech conversion successful.")
+    except Exception as e:
+        logger.error(f"Error in text-to-speech conversion: {e}")
+        return "Error in text-to-speech conversion.", None
+    return response_text, audio_file.name
+# Create Gradio interface
+iface = gr.Interface(
+    fn=process_audio,
+    inputs=gr.Audio(type="filepath"),
+    title="AI-Powered Converter",
+    outputs=[gr.Textbox(label="Response"), gr.Audio(label="Response Audio")],
+    live=True
+)
+try:
+    iface.launch()
+    logger.info("Gradio interface launched successfully.")
+except Exception as e:
+    logger.error(f"Failed to launch Gradio interface: {e}")
+    raise