Spaces:

themanas021
/

myracle-llava

Sleeping

App Files Files Community

themanas021 commited on Sep 6, 2024

Commit

d436c8a

verified ·

1 Parent(s): c2bab7c

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -50

app.py CHANGED Viewed

@@ -1,22 +1,11 @@
 import gradio as gr
 import base64
 from PIL import Image
-import torch
-from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
-from qwen_vl_utils import process_vision_info
-model = Qwen2VLForConditionalGeneration.from_pretrained(
-    "Qwen/Qwen2-VL-2B-Instruct",
-    torch_dtype="auto",
-    device_map="auto",
-)
-processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model.to(device)
-# Function to encode images into base64
 def encode_images(image_paths):
     base64_images = []
     for image_path in image_paths:
@@ -25,24 +14,22 @@ def encode_images(image_paths):
             base64_images.append(f"data:image/jpeg;base64,{base64_image}")
     return base64_images
-# Function to resize images to a uniform shape
 def resize_images(image_paths, target_size=(224, 224)):
     resized_images = []
     for image_path in image_paths:
         img = Image.open(image_path)
-        img_resized = img.resize(target_size)  # Resize image to target size
         resized_images.append(img_resized)
     return resized_images
 def generate_testing_instructions(images, context):
-    # Resize all images to a uniform shape (e.g., 224x224)
     resized_images = resize_images(images)
-    # Encode resized images to base64
     base64_images = encode_images(images)
-    # Prepare messages with the base64-encoded images
-    messages = [
         {
             "role": "user",
             "content": [
@@ -70,35 +57,14 @@ Please demonstrate your approach using the following features of a mobile app:
             ]
         }
         for base64_image in base64_images
-    ]
-    text_prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
-    # Create input tensors
-    inputs = processor(
-        text=[text_prompt],
-        images=resized_images,  # Use resized images for model input
-        padding=True,
-        return_tensors="pt"
-    )
-    # Move tensors to GPU if available
-    inputs = inputs.to(device)
-    # Generate output
-    output_ids = model.generate(**inputs, max_new_tokens=1024)
-    generated_ids = [
-        output_ids[len(input_ids):]
-        for input_ids, output_ids in zip(inputs.input_ids, output_ids)
-    ]
-    # Decode the output text
-    output_text = processor.batch_decode(
-        generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
-    )
-    return output_text
 # Create the Gradio interface
 with gr.Blocks() as demo:
@@ -113,7 +79,6 @@ with gr.Blocks() as demo:
     button = gr.Button("Describe Testing Instructions")
-    # Action on button click
     button.click(
         generate_testing_instructions,
         inputs=[image_upload, context],

 import gradio as gr
 import base64
 from PIL import Image
+from groq import Groq
+import os
+client = Groq(api_key=os.environ.getenv('GROQ_API_KEY'))
 def encode_images(image_paths):
     base64_images = []
     for image_path in image_paths:
             base64_images.append(f"data:image/jpeg;base64,{base64_image}")
     return base64_images
 def resize_images(image_paths, target_size=(224, 224)):
     resized_images = []
     for image_path in image_paths:
         img = Image.open(image_path)
+        img_resized = img.resize(target_size)
         resized_images.append(img_resized)
     return resized_images
 def generate_testing_instructions(images, context):
     resized_images = resize_images(images)
     base64_images = encode_images(images)
+    completion = client.chat.completions.create(
+        model="llava-v1.5-7b-4096-preview",
+        messages=[
         {
             "role": "user",
             "content": [
             ]
         }
         for base64_image in base64_images
+    ],
+    temperature=0,
+    max_tokens=1024,
+    top_p=1,
+    stream=False,
+    stop=None,
+)
+    return completion.choices[0].message
 # Create the Gradio interface
 with gr.Blocks() as demo:
     button = gr.Button("Describe Testing Instructions")
     button.click(
         generate_testing_instructions,
         inputs=[image_upload, context],