damerajee
/

GPT-Vision

Vision Language Model

Inference Endpoints

Model card Files Files and versions Community

damerajee commited on Jul 29, 2024

Commit

f2de4bf

·

verified ·

1 Parent(s): d9d60c5

Update vision_encoder.py

Files changed (1) hide show

vision_encoder.py +6 -6

vision_encoder.py CHANGED Viewed

@@ -1,10 +1,10 @@
-import torch.nn as nn
-from transformers import ViTModel
 from torchvision import transforms
-import torch
 import transformers
 transformers.logging.set_verbosity_error()
 class VisionEncoder(nn.Module):
@@ -17,9 +17,9 @@ class VisionEncoder(nn.Module):
             transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
         ])
-    def forward(self, image, device):
-        processed_images = torch.stack([self.image_transform(image) for image in images]).to(device)
         with torch.no_grad():
-            pixel_values = self.vision_model(processed_image)
             image_features = pixel_values.last_hidden_state
         return image_features

+from transformers import  ViTModel
 from torchvision import transforms
+import torch
 import transformers
 transformers.logging.set_verbosity_error()
 class VisionEncoder(nn.Module):
             transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
         ])
+    def forward(self, images,device):
+        processed_images = torch.stack([self.image_transform(image) for image in images]).to(device)
         with torch.no_grad():
+            pixel_values = self.vision_model(processed_images)
             image_features = pixel_values.last_hidden_state
         return image_features