whisper-large-v3-et-subs

Running on Zero

TanelAlumae commited on Nov 26, 2024

Commit

abba8cd

verified ·

1 Parent(s): fce98f9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -58,14 +58,32 @@ def convert_to_vtt(whisper_output):
     return vtt_output
-@spaces.GPU(duration=600)
-def transcribe(inputs):
     if inputs is None:
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")
     result = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs={"task": "transcribe", "language": "et"}, return_timestamps=True)
     return convert_to_vtt(result)
 def _return_yt_html_embed(yt_url):
     video_id = yt_url.split("?v=")[-1]
@@ -106,20 +124,14 @@ def download_yt_audio(yt_url, filename):
         except youtube_dl.utils.ExtractorError as err:
             raise gr.Error(str(err))
-@spaces.GPU
 def yt_transcribe(yt_url, max_filesize=75.0):
     with tempfile.TemporaryDirectory() as tmpdirname:
         filepath = os.path.join(tmpdirname, "video.mp4")
         download_yt_audio(yt_url, filepath)
-        with open(filepath, "rb") as f:
-            inputs = f.read()
-    inputs = ffmpeg_read(inputs, pipe.feature_extractor.sampling_rate)
-    inputs = {"array": inputs, "sampling_rate": pipe.feature_extractor.sampling_rate}
-    result = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs={"task": "transcribe",  "language": "et"}, return_timestamps=True)
-    text = convert_to_vtt(result)
     return text

     return vtt_output
+def dynamic_gpu_duration(func, duration, *args):
+    # @torch.inference_mode()
+    @spaces.GPU(duration=duration)
+    def wrapped_func():
+        yield from func(*args)
+    return wrapped_func()
+def do_transcribe(inputs):
     if inputs is None:
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")
     result = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs={"task": "transcribe", "language": "et"}, return_timestamps=True)
     return convert_to_vtt(result)
+def transcribe(file_path):
+     audio_data, sampling_rate = ffmpeg_read(file_path)
+    # Calculate the length in seconds
+    audio_length = len(audio_data) / sampling_rate
+    expected_transcribe_duration = audio_length/5.0
+    gr.Info(f"Starting to transcribe, requesting a GPU for {expected_transcribe_duration} seconds")
+    return dynamic_gpu_duration(do_transcribe, expected_transcribe_duration, do_transcribe)
 def _return_yt_html_embed(yt_url):
     video_id = yt_url.split("?v=")[-1]
         except youtube_dl.utils.ExtractorError as err:
             raise gr.Error(str(err))
 def yt_transcribe(yt_url, max_filesize=75.0):
     with tempfile.TemporaryDirectory() as tmpdirname:
         filepath = os.path.join(tmpdirname, "video.mp4")
         download_yt_audio(yt_url, filepath)
+        text = transcribe(transcribe, filepath)
     return text