Spaces:

kusumakar
/

image_to_context_and_context_to_paragraph

Runtime error

App Files Files Community

kusumakar commited on Jun 14, 2023

Commit

d90da65

1 Parent(s): 867889f

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -13

app.py CHANGED Viewed

@@ -2,8 +2,7 @@ import torch
 import numpy as np
 from PIL import Image
 import streamlit as st
-from transformers import GPT2Tokenizer, GPT2LMHeadModel
-from transformers import AutoTokenizer, VisionEncoderDecoderModel, ViTFeatureExtractor
 # Load the Model,feature extractor and tokenizer
 model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
@@ -19,19 +18,19 @@ def generate_captions(image):
 # Load the pre-trained model and tokenizer
 model_name = "gpt2"
-tokenizer = GPT2Tokenizer.from_pretrained(model_name)
-model = GPT2LMHeadModel.from_pretrained(model_name)
 # Define the Streamlit app
 def generate_paragraph(prompt):
     # Tokenize the prompt
-    input_ids = tokenizer.encode(prompt, return_tensors="pt")
     # Generate the paragraph
-    output = model.generate(input_ids, max_length=200, num_return_sequences=1, early_stopping=True)
     # Decode the generated output into text
-    paragraph = tokenizer.decode(output[0], skip_special_tokens=True)
     return paragraph
 # Streamlit app
@@ -47,14 +46,9 @@ def main():
     if uploaded_file is not None:
         # load the image
         image = Image.open(uploaded_file).convert("RGB")
-        image = image.resize((224, 224))
-        image_array = np.array(image)
-        normalized_image = image_array / 255.0
-        reshaped_image = normalized_image.reshape((1, 224, 224, 3))
-        image_tensor = torch.from_numpy(normalized_image).permute(2, 0, 1).unsqueeze(0).float()
         # context as prompt
-        prompt = generate_captions(image_tensor)
         st.write("The Context is:", prompt)
         # display the image

 import numpy as np
 from PIL import Image
 import streamlit as st
+from transformers import AutoTokenizer, VisionEncoderDecoderModel, ViTFeatureExtractor, GPT2Tokenizer, GPT2LMHeadModel
 # Load the Model,feature extractor and tokenizer
 model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 # Load the pre-trained model and tokenizer
 model_name = "gpt2"
+tokenizer_2 = GPT2Tokenizer.from_pretrained(model_name)
+model_2 = GPT2LMHeadModel.from_pretrained(model_name)
 # Define the Streamlit app
 def generate_paragraph(prompt):
     # Tokenize the prompt
+    input_ids = tokenizer_2.encode(prompt, return_tensors="pt")
     # Generate the paragraph
+    output = model_2.generate(input_ids, max_length=200, num_return_sequences=1, early_stopping=True)
     # Decode the generated output into text
+    paragraph = tokenizer_2.decode(output[0], skip_special_tokens=True)
     return paragraph
 # Streamlit app
     if uploaded_file is not None:
         # load the image
         image = Image.open(uploaded_file).convert("RGB")
         # context as prompt
+        prompt = generate_captions(image)
         st.write("The Context is:", prompt)
         # display the image