dandelin
/

vilt-b32-finetuned-vqa

Visual Question Answering

Inference Endpoints

Model card Files Files and versions Community

Neryvert commited on 10 days ago

Commit

efc8c59

·

verified ·

1 Parent(s): d0a1f6a

Upload app.py

Files changed (1) hide show

app.py +20 -0

app.py ADDED Viewed

	@@ -0,0 +1,20 @@

+from transformers import ViltProcessor, ViltForQuestionAnswering
+import requests
+from PIL import Image
+# prepare image + question
+url = "http://images.cocodataset.org/val2017/000000039769.jpg"
+image = Image.open(requests.get(url, stream=True).raw)
+text = "How many cats are there?"
+processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
+model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
+# prepare inputs
+encoding = processor(image, text, return_tensors="pt")
+# forward pass
+outputs = model(**encoding)
+logits = outputs.logits
+idx = logits.argmax(-1).item()
+print("Predicted answer:", model.config.id2label[idx])