Spaces:

flocolombari
/

COLOMBARI_VIGNES-FERRINO_DERNIAUX_NIYONKURU

Runtime error

App Files Files Community

flocolombari commited on Sep 19, 2023

Commit

0cad1a1

1 Parent(s): d6268bc

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -79

app.py CHANGED Viewed

@@ -1,95 +1,48 @@
 import gradio as gr
 from transformers import pipeline
-from PIL import Image
-import moviepy.editor as mp
-import numpy as np
-import os
-# Étape 1: Configurez vos pipelines
-model1 = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")
-#model2 = pipeline("summarization", model="ainize/kobart-news")
-#model3 = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-pt")
-#model4 = pipeline("text-to-speech", model="microsoft/speecht5_tts")
-def process_video(video):
-    if not os.path.exists("/main/images/"):
-        os.makedirs("/main/images/")
     # Ouvrir la vidéo
-    cap = cv2.VideoCapture(video)
-    if not cap.isOpened():
-        print("Erreur lors de l'ouverture de la vidéo.")
-        return
-    # Fréquence d'images de la vidéo
     fps = int(cap.get(cv2.CAP_PROP_FPS))
-    # Nombre total d'images dans la vidéo
-    total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
-    # Calculer le nombre d'images à sauter pour obtenir une image toutes les demi-secondes
-    frames_to_skip = int(fps * interval)
-    count = 0
-    for i in range(0, total_frames, frames_to_skip):
-        cap.set(cv2.CAP_PROP_POS_FRAMES, i)
-        ret, frame = cap.read()
-        # Si la lecture a réussi, enregistrez l'image
-        if ret:
-            output_path = os.path.join("/main/images/", f"frame_{count}.jpg")
-            cv2.imwrite(output_path, frame)
-            count += 1
-    cap.release()
-    fichiers = os.listdir("/main/images/")
-    output_texts = []
-    for fichier in fichiers:
-        if fichier.endswith(".jpg") or fichier.endswith(".png"):
-            # Construisez le chemin complet vers le fichier
-            chemin_complet = os.path.join(chemin_dossier, fichier)
-            model1_output = model1(image)
-            output_texts.append(model1_output["generated_text"])
-        # Convertir chaque frame en Image pour pouvoir l'utiliser dans le pipeline
-        #image = Image.fromarray(frame)
-        # Étape 3: Utiliser le modèle 1
-        #model1_output = model1(image)
-        # Étape 4: Utiliser le modèle 2
-        #model2_output = model2(model1_output["generated_text"])
-        # Étape 5: Utiliser le modèle 3
-        #model3_output = model3(model2_output["generated_text"])
-        #output_texts.append(model1_output["generated_text"])
-    # Étape 6: Utiliser le modèle 4 pour générer l'audio
-    #model4_output = model4(" ".join(output_texts))
-    # Récupérer l'audio et le retourner
-    #audio_output = model4_output["..."] # Remplacer "..." avec la clé appropriée
-    #return audio_output
-    return " ".join(output_texts)
-# Créer une interface gradio
 iface = gr.Interface(
-    fn=process_video,
-    inputs=gr.inputs.Video(label="Votre Vidéo"),
     outputs="text",
-    live=True
 )
-iface.launch()

 import gradio as gr
 from transformers import pipeline
+import cv2
+def video_to_descriptions(video):
+    # Charger le modèle via pipeline
+    model = pipeline('image-to-text', model='nlpconnect/vit-gpt2-image-captioning')
     # Ouvrir la vidéo
+    cap = cv2.VideoCapture(video.name)
     fps = int(cap.get(cv2.CAP_PROP_FPS))
+    descriptions = []
+    frame_count = 0
+    while True:
+        ret, frame = cap.read()
+        if not ret:
+            break
+        # Extraire une image toutes les demi-secondes
+        if frame_count % (fps // 2) == 0:
+            # Convertir l'image en RGB
+            frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+            # Obtenir la description de l'image
+            outputs = model(frame_rgb)
+            description = outputs[0]['describe-text']
+            descriptions.append(description)
+        frame_count += 1
+    # Fermer le lecteur vidéo
+    cap.release()
+    # Concaténer les descriptions
+    concatenated_descriptions = " ".join(descriptions)
+    return concatenated_descriptions
 iface = gr.Interface(
+    fn=video_to_descriptions,
+    inputs=gr.inputs.Video(type="file", label="Importez une vidéo"),
     outputs="text",
+    live=False
 )
+if __name__ == "__app__":
+    iface.launch()