Spaces:

krishnapal2308
/

eye_for_blind

Sleeping

krishnapal2308 commited on Feb 8, 2024

Commit

92872fa

1 Parent(s): bf82131

pytorch instead of tensorflow

Files changed (2) hide show

__pycache__/vit_gpt2.cpython-310.pyc CHANGED Viewed

Binary files a/__pycache__/vit_gpt2.cpython-310.pyc and b/__pycache__/vit_gpt2.cpython-310.pyc differ

vit_gpt2.py CHANGED Viewed

@@ -1,8 +1,7 @@
-import tensorflow as tf
-from transformers import TFVisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
 from PIL import Image
-model = TFVisionEncoderDecoderModel.from_pretrained("vit-gpt2-image-captioning", from_pt=True)
 feature_extractor = ViTImageProcessor.from_pretrained("vit-gpt2-image-captioning")
 tokenizer = AutoTokenizer.from_pretrained("vit-gpt2-image-captioning")
@@ -17,7 +16,7 @@ def predict_step(img_array):
     if i_image.mode != "RGB":
         i_image = i_image.convert(mode="RGB")
-    pixel_values = feature_extractor(images=i_image, return_tensors="tf", do_normalize=True).pixel_values
     output_ids = model.generate(pixel_values, **gen_kwargs)

+from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
 from PIL import Image
+model = VisionEncoderDecoderModel.from_pretrained("vit-gpt2-image-captioning")
 feature_extractor = ViTImageProcessor.from_pretrained("vit-gpt2-image-captioning")
 tokenizer = AutoTokenizer.from_pretrained("vit-gpt2-image-captioning")
     if i_image.mode != "RGB":
         i_image = i_image.convert(mode="RGB")
+    pixel_values = feature_extractor(images=i_image, return_tensors="pt", do_normalize=True).pixel_values
     output_ids = model.generate(pixel_values, **gen_kwargs)