Spaces:

VanguardAI
/

MultiModal_OpenSource_AI

Sleeping

App Files Files Community

VanguardAI commited on Aug 13, 2024

Commit

82043d5

verified ·

1 Parent(s): cc79e1c

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -10

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import os
 import numpy as np
 from groq import Groq
 import spaces
-from transformers import AutoModel, AutoTokenizer, BitsAndBytesConfig
 from diffusers import StableDiffusionXLPipeline, UNet2DConditionModel, EulerDiscreteScheduler
 from parler_tts import ParlerTTSForConditionalGeneration
 import soundfile as sf
@@ -20,8 +20,6 @@ import requests
 client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
 MODEL = 'llama3-groq-70b-8192-tool-use-preview'
-############### MINICPM MEIN ERROR HAI, USKO REPLACE KARNA HOGA ###############
 # Load MiniCPM-V-2_6 with 4-bit quantization
 text_model = AutoModel.from_pretrained('openbmb/MiniCPM-V-2', trust_remote_code=True,
                                        device_map="auto", torch_dtype=torch.bfloat16)
@@ -30,9 +28,9 @@ tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-V-2', trust_remote_co
 tts_model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-large-v1")
 tts_tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-large-v1")
-image_model = UNet2DConditionModel.from_config("stabilityai/stable-diffusion-xl-base-1.0", subfolder="unet")
-image_pipe = StableDiffusionXLPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", unet=image_model, torch_dtype=torch.float16, variant="fp16")
-image_pipe.scheduler = EulerDiscreteScheduler.from_config(image_pipe.scheduler.config, timestep_spacing="trailing")
 # Initialize voice-only mode
 def play_voice_output(response):
@@ -174,13 +172,13 @@ def initialize_tools():
         }
     ]
     return tools
 @spaces.GPU()
-# Gradio Interface
 def main_interface(user_prompt, image=None, video=None, audio=None, doc=None, voice_only=False):
-    text_model = text_model.to(device='cuda', dtype=torch.bfloat16)
     tts_model.to("cuda")
     image_model.to("cuda", torch.float16)
-    image_pip.to("cuda")
     response = handle_input(user_prompt, image=image, video=video, audio=audio, doc=doc)
     if voice_only:
         audio_file = play_voice_output(response)
@@ -205,4 +203,4 @@ with gr.Blocks() as demo:
         outputs=output
     )
-demo.launch(inline=False)

 import numpy as np
 from groq import Groq
 import spaces
+from transformers import AutoModel, AutoTokenizer
 from diffusers import StableDiffusionXLPipeline, UNet2DConditionModel, EulerDiscreteScheduler
 from parler_tts import ParlerTTSForConditionalGeneration
 import soundfile as sf
 client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
 MODEL = 'llama3-groq-70b-8192-tool-use-preview'
 # Load MiniCPM-V-2_6 with 4-bit quantization
 text_model = AutoModel.from_pretrained('openbmb/MiniCPM-V-2', trust_remote_code=True,
                                        device_map="auto", torch_dtype=torch.bfloat16)
 tts_model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-large-v1")
 tts_tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-large-v1")
+image_model = UNet2DConditionModel.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", subfolder="unet")
+image_pipe = StableDiffusionXLPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", unet=image_model, torch_dtype=torch.float16)
+image_pipe.scheduler = EulerDiscreteScheduler.from_pretrained(image_pipe.scheduler.config, timestep_spacing="trailing")
 # Initialize voice-only mode
 def play_voice_output(response):
         }
     ]
     return tools
 @spaces.GPU()
 def main_interface(user_prompt, image=None, video=None, audio=None, doc=None, voice_only=False):
+    text_model.to(device='cuda', dtype=torch.bfloat16)
     tts_model.to("cuda")
     image_model.to("cuda", torch.float16)
+    image_pipe.to("cuda")
     response = handle_input(user_prompt, image=image, video=video, audio=audio, doc=doc)
     if voice_only:
         audio_file = play_voice_output(response)
         outputs=output
     )
+demo.launch(inline=False)