Spaces:
Running
Running
File size: 2,735 Bytes
64fa793 07ecc9d e65e6e5 07ecc9d 64fa793 e65e6e5 64fa793 e65e6e5 4504b4a 64fa793 e65e6e5 64fa793 4504b4a e65e6e5 4504b4a 07ecc9d 4504b4a 07ecc9d 9572852 07ecc9d 64fa793 4504b4a 64fa793 4504b4a e65e6e5 4504b4a 07ecc9d |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 |
import streamlit as st
import numpy as np
import cv2
import torch
from PIL import Image
from transformers import AutoTokenizer, ViTFeatureExtractor, VisionEncoderDecoderModel
# Инициализация модели
model_id = "nttdataspain/vit-gpt2-stablediffusion2-lora"
model = VisionEncoderDecoderModel.from_pretrained(model_id)
tokenizer = AutoTokenizer.from_pretrained(model_id)
feature_extractor = ViTFeatureExtractor.from_pretrained(model_id)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
# Функция для получения текста из изображения
def predict(image):
img = image.convert('RGB')
model.eval()
pixel_values = feature_extractor(images=[img], return_tensors="pt").pixel_values.to(device)
with torch.no_grad():
output_ids = model.generate(pixel_values, max_length=16, num_beams=4, return_dict_in_generate=True).sequences
preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
preds = [pred.strip() for pred in preds]
return preds[0]
# Streamlit интерфейс
st.title("Video Frame to Image Description")
# Загрузка видеофайла
uploaded_file = st.file_uploader("Upload a video file", type=["mp4", "avi", "mov"])
cap = None # Инициализируем объект cap как None
if uploaded_file is not None:
# Создаем временный файл для хранения видео
tfile = tempfile.NamedTemporaryFile(delete=False)
tfile.write(uploaded_file.read())
# Захват видео
cap = cv2.VideoCapture(tfile.name)
length = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
if length > 0:
# Выбор случайного кадра
random_frame = np.random.randint(length)
cap.set(cv2.CAP_PROP_POS_FRAMES, random_frame)
ret, frame = cap.read()
if ret:
# Конвертация кадра OpenCV в PIL Image
frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
pil_image = Image.fromarray(frame_rgb)
# Отображение выбранного кадра
st.image(pil_image, caption=f"Random Frame {random_frame}")
# Получение текста из изображения
description = predict(pil_image)
st.success(f"Generated Description: {description}")
else:
st.error("Error: Could not read a frame from the video.")
else:
st.error("Error: Video file does not contain any frames.")
# Проверяем, был ли cap создан, и только тогда освобождаем ресурсы
if cap is not None:
cap.release() |