ckandemir
/

blip-image-captioning-large-inference

image-captioning

endpoints-template

Inference Endpoints

Model card Files Files and versions Community

ckandemir commited on Oct 13, 2023

Commit

c4fb714

·

1 Parent(s): 366e626

Update handler.py

Files changed (1) hide show

handler.py +8 -12

handler.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import requests
-from typing import Dict, List, Any
 from PIL import Image
 import torch
 from io import BytesIO
@@ -14,22 +14,19 @@ class EndpointHandler():
             "Salesforce/blip-image-captioning-large"
         ).to(device)
         self.model.eval()
-        self.model = self.model.to(device)
     def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
-        image_urls = data.get("images")
-        # Check if images is None or empty and handle it appropriately
-        if not image_urls:
             return {"captions": [], "error": "No images provided"}
-        # Default to "a photography of" if texts not provided
-        texts = data.get("texts", ["a photography of"] * len(image_urls))
         try:
-            raw_images = [Image.open(requests.get(url, stream=True).raw).convert("RGB") for url in image_urls]
             processed_inputs = [
-                self.processor(img, txt, return_tensors="pt") for img, txt in zip(raw_images, texts)
             ]
             processed_inputs = {
                 "pixel_values": torch.cat([inp["pixel_values"] for inp in processed_inputs], dim=0).to(device),
@@ -43,6 +40,5 @@ class EndpointHandler():
             captions = self.processor.batch_decode(out, skip_special_tokens=True)
             return {"captions": captions}
         except Exception as e:
-            # Handle or log the exception and optionally return an error message
             print(f"Error during processing: {str(e)}")
             return {"captions": [], "error": str(e)}

 import requests
+from typing import Dict, Any
 from PIL import Image
 import torch
 from io import BytesIO
             "Salesforce/blip-image-captioning-large"
         ).to(device)
         self.model.eval()
     def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
+        encoded_images = data.get("images")
+        if not encoded_images:
             return {"captions": [], "error": "No images provided"}
+        texts = data.get("texts", ["a photography of"] * len(encoded_images))
         try:
+            raw_images = [Image.open(BytesIO(base64.b64decode(img))).convert("RGB") for img in encoded_images]
             processed_inputs = [
+                self.processor(image, text, return_tensors="pt") for image, text in zip(raw_images, texts)
             ]
             processed_inputs = {
                 "pixel_values": torch.cat([inp["pixel_values"] for inp in processed_inputs], dim=0).to(device),
             captions = self.processor.batch_decode(out, skip_special_tokens=True)
             return {"captions": captions}
         except Exception as e:
             print(f"Error during processing: {str(e)}")
             return {"captions": [], "error": str(e)}