Spaces:

Woziii
/

datasetTTS

Sleeping

App Files Files Community

Woziii commited on Jan 28

Commit

33931a7

verified ·

1 Parent(s): 3e8d076

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -34

app.py CHANGED Viewed

@@ -61,53 +61,58 @@ def transcribe_audio(audio_path):
 # ------------------------
 # Étape 5 : Validation des segments + découpe
 # ------------------------
-def validate_segments(audio_path, table_data, metadata_state):
     """
-    1) Pour chaque ligne du tableau, on découpe l'audio
-    2) On stocke les chemins des extraits dans 'metadata_state'
-    3) On renvoie une liste de chemins pour écoute sur l'interface
     """
     if not audio_path:
-        return ["Aucun fichier audio..."], metadata_state
-    # Nettoyage du dossier temporaire avant de recréer les extraits
     if os.path.exists(TEMP_DIR):
         shutil.rmtree(TEMP_DIR)
     os.makedirs(TEMP_DIR, exist_ok=True)
-    # Charger l'audio complet pour la découpe
-    original_audio = AudioSegment.from_file(audio_path)
     segment_paths = []
     updated_metadata = []
     for i, row in enumerate(table_data):
-        # row = [ Texte, Start, End, ID ] (4 colonnes)
-        if len(row) < 4:
-            # S'il n'y a pas toutes les colonnes, on ignore
             continue
-        segment_text, start_time, end_time, seg_id = row
-        if not segment_text or start_time is None or end_time is None:
-            # Ignore ligne vide ou incomplète
-            continue
-        # Générer un ID si l'utilisateur ne l'a pas renseigné
-        if not seg_id:
-            seg_id = f"seg_{i+1:02d}"
-        # Découpe réelle de l'audio
-        start_ms = int(float(start_time) * 1000)
-        end_ms = int(float(end_time) * 1000)
-        extract = original_audio[start_ms:end_ms]
         segment_filename = f"{Path(audio_path).stem}_{seg_id}.wav"
-        segment_filepath = os.path.join(TEMP_DIR, segment_filename)
-        extract.export(segment_filepath, format="wav")
-        segment_paths.append(segment_filepath)
-        # Stocker la méta (pour le futur CSV)
         updated_metadata.append({
             "audio_file": segment_filename,
             "text": segment_text,
@@ -116,11 +121,12 @@ def validate_segments(audio_path, table_data, metadata_state):
             "id": seg_id
         })
-    # Mettre à jour le State
-    # (Dans Gradio, on renvoie la nouvelle valeur)
-    return segment_paths, updated_metadata
 # ------------------------
 # Étape 7 : Génération du ZIP (avec metadata.csv)
 # ------------------------
@@ -235,13 +241,12 @@ with gr.Blocks(css="style.css") as demo:
         outputs=[raw_transcription, table, audio_input],  # On renvoie le path en 3e
     )
-    # Étape 2 : Callback quand on valide les segments => on découpe
     validate_button.click(
-        fn=validate_segments,
         inputs=[audio_input, table, metadata_state],
         outputs=[
-            audio_player_1, audio_player_2, audio_player_3, audio_player_4, audio_player_5,  # Les 5 lecteurs audio
-            metadata_state  # État des métadonnées mis à jour
         ]
     )

 # ------------------------
 # Étape 5 : Validation des segments + découpe
 # ------------------------
+def validate_segments_with_timestamps(audio_path, table_data, metadata_state):
     """
+    Valide les segments définis par l'utilisateur et ajoute automatiquement
+    les timestamps (`start_time` et `end_time`) pour les lignes sans valeurs.
     """
     if not audio_path:
+        return [None] * 20, metadata_state
+    # Charger l'audio complet
+    original_audio = AudioSegment.from_file(audio_path)
+    audio_duration = len(original_audio) / 1000  # Durée totale en secondes
+    # Nettoyer le dossier temporaire
     if os.path.exists(TEMP_DIR):
         shutil.rmtree(TEMP_DIR)
     os.makedirs(TEMP_DIR, exist_ok=True)
     segment_paths = []
     updated_metadata = []
+    # Dernier temps utilisé (pour calculer les suivants)
+    last_end_time = 0.0
     for i, row in enumerate(table_data):
+        # Vérifier si la ligne contient des données
+        if len(row) < 4 or not row[0]:  # Texte vide
             continue
+        segment_text = row[0]  # Texte
+        start_time = row[1] if row[1] is not None else last_end_time
+        end_time = row[2] if row[2] is not None else min(audio_duration, start_time + 5)  # Segment de 5s par défaut
+        # Ajuster `end_time` si nécessaire
+        if end_time <= start_time:
+            end_time = min(audio_duration, start_time + 5)  # Minimum 5s
+        seg_id = row[3] if row[3] else f"seg_{i+1:02d}"  # Générer ID si absent
+        # Convertir en millisecondes
+        start_ms = int(start_time * 1000)
+        end_ms = int(end_time * 1000)
+        # Découpe de l'audio
         segment_filename = f"{Path(audio_path).stem}_{seg_id}.wav"
+        segment_path = os.path.join(TEMP_DIR, segment_filename)
+        extract = original_audio[start_ms:end_ms]
+        extract.export(segment_path, format="wav")
+        # Mise à jour des timestamps
+        last_end_time = end_time
+        # Stocker la méta (pour metadata_state)
         updated_metadata.append({
             "audio_file": segment_filename,
             "text": segment_text,
             "id": seg_id
         })
+        segment_paths.append(segment_path)
+    # Remplir les 20 slots si moins de 20 segments
+    output_paths = segment_paths + [None] * (20 - len(segment_paths))
+    return output_paths, updated_metadata
 # ------------------------
 # Étape 7 : Génération du ZIP (avec metadata.csv)
 # ------------------------
         outputs=[raw_transcription, table, audio_input],  # On renvoie le path en 3e
     )
     validate_button.click(
+        fn=validate_segments_with_timestamps,
         inputs=[audio_input, table, metadata_state],
         outputs=[
+            [audio_player_1, audio_player_2, audio_player_3, audio_player_4, audio_player_5],
+            metadata_state
         ]
     )