Spaces:

AlexCool2024
/

video_screen

Running

App Files Files Community

AlexCool2024 commited on Sep 15, 2024

Commit

64fa793

verified ·

1 Parent(s): d5d26af

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -45

app.py CHANGED Viewed

@@ -1,51 +1,51 @@
-import streamlit as st
-import cv2
-import random
-import numpy as np
-import requests
-from PIL import Image
-import os
-# Функция для извлечения случайного кадра из видео
-def get_random_frame(video_file):
-    cap = cv2.VideoCapture(video_file)
-    total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
-    random_frame_number = random.randint(0, total_frames - 1)
-    cap.set(cv2.CAP_PROP_POS_FRAMES, random_frame_number)
-    success, frame = cap.read()
-    cap.release()
-    return frame if success else None
-# Заголовок приложения
-st.title("Video to Text Converter")
-# Загрузка видеофайла
-uploaded_file = st.file_uploader("Загрузите видео файл...", type=["mp4", "avi"])
-if uploaded_file is not None:
-    frame = get_random_frame(uploaded_file)
-    if frame is not None:
-        st.image(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB), caption='Случайный кадр', use_column_width=True)
-        _, buffer = cv2.imencode('.png', frame)
-        image_data = buffer.tobytes()
-        if st.button("Преобразовать в текст"):
-            model_url = "https://api-inference.huggingface.co/models/nttdataspain/Image-To-Text-Lora-ViT"
-            headers = {"Authorization": f"Bearer {os.getenv('HUGGINGFACE_TOKEN_READ')}"}
-            response = requests.post(
-                model_url,
-                headers=headers,
-                files={"file": image_data}
-            )
-            if response.status_code == 200:
-                output_text = response.json().get("generated_text")
-                st.success(output_text)
-            else:
-                st.error("Ошибка при обработке изображения!")
-    else:
-        st.error("Не удалось извлечь кадр из видео.")

+import streamlit as st
+import numpy as np
+import cv2
+import requests
+import tempfile
+# Заголовок приложения
+st.title("Video Frame to Image Description")
+# Загрузка видеофайла
+uploaded_file = st.file_uploader("Upload a video file", type=["mp4", "avi", "mov"])
+if uploaded_file is not None:
+    # Создаем временный файл для хранения видео
+    tfile = tempfile.NamedTemporaryFile(delete=False)
+    tfile.write(uploaded_file.read())
+    # Захват видео
+    cap = cv2.VideoCapture(tfile.name)
+    length = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+    # Выбор случайного кадра
+    random_frame = np.random.randint(length)
+    cap.set(cv2.CAP_PROP_POS_FRAMES, random_frame)
+    ret, frame = cap.read()
+    if ret:
+        # Отображение выбранного кадра
+        st.image(frame, channels="BGR", caption=f"Random Frame {random_frame}")
+        # Конвертация кадра в формат, пригодный для отправки в модель
+        _, buf = cv2.imencode('.jpg', frame)
+        files = {'file': ('image.jpg', buf.tobytes(), 'image/jpeg')}
+        # Отправка изображения в модель
+        response = requests.post(
+            "https://hf.space/embed/nttdataspain/Image-To-Text-Lora-ViT/api/predict",
+            files=files
+        )
+        # Получение и отображение результата
+        if response.status_code == 200:
+            result = response.json()
+            description = result['data'][0]['generated_text']
+            st.success(f"Generated Description: {description}")
+        else:
+            st.error("Error: Could not get a response from the model.")
+    else:
+        st.error("Error: Could not read a frame from the video.")
+cap.release()