Spaces:

AIDHD
/

audio-video-transcriber

Runtime error

App Files Files Community

salmanmapkar commited on Dec 23, 2022

Commit

124dbfa

•

1 Parent(s): f2e18d1

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -9

app.py CHANGED Viewed

@@ -47,9 +47,9 @@ def RemoveAllFiles():
         if (os.path.isfile(file)):
             os.remove(file)
-def Transcribe(NumberOfSpeakers, SpeakerNames="", audio="temp_audio.wav"):
     SPEAKER_DICT = {}
-    SPEAKERS = []
     def GetSpeaker(sp):
         speaker = sp
@@ -61,10 +61,6 @@ def Transcribe(NumberOfSpeakers, SpeakerNames="", audio="temp_audio.wav"):
         else:
             speaker = SPEAKER_DICT[sp]
         return speaker
-    def GenerateSpeakerDict(sp):
-        global SPEAKERS
-        SPEAKERS = [speaker.strip() for speaker in sp.split(',')]
     def millisec(timeStr):
         spl = timeStr.split(":")
@@ -113,7 +109,7 @@ def Transcribe(NumberOfSpeakers, SpeakerNames="", audio="temp_audio.wav"):
         return f"dz_{audio}.wav", dzList, segments
     def transcribe(dz_audio):
-        model = whisper.load_model("base")
         result = model.transcribe(dz_audio)
         # for _ in result['segments']:
         #     print(_['start'], _['end'], _['text'])
@@ -140,7 +136,6 @@ def Transcribe(NumberOfSpeakers, SpeakerNames="", audio="temp_audio.wav"):
                   #print(f"[{dzList[i][2]}] {c[2]}")
         return conversation, ("".join([f"{speaker} --> {text}\n" for speaker, text in conversation]))
-    GenerateSpeakerDict(SpeakerNames)
     spacermilli, spacer = preprocess(audio)
     dz_audio, dzList, segments = diarization(audio)
     conversation, t_text = transcribe(dz_audio)
@@ -179,7 +174,7 @@ def Transcribe_V2(num_speakers, speaker_names, audio="temp_audio.wav"):
             #         conversation.append([GetSpeaker(segment["speaker"]), segment["text"][1:]]) # segment["speaker"] + ' ' + str(time(segment["start"])) + '\n\n'
             # conversation[-1][1] += segment["text"][1:]
         # return output
-        return ("".join([f"{speaker} --> {text}\n" for speaker, text in conversation])), conversation
     def get_duration(path):
         with contextlib.closing(wave.open(path,'r')) as f:

         if (os.path.isfile(file)):
             os.remove(file)
+def Transcribe_V1(NumberOfSpeakers, SpeakerNames="", audio="temp_audio.wav"):
     SPEAKER_DICT = {}
+    SPEAKERS = [speaker.strip() for speaker in SpeakerNames.split(',')]
     def GetSpeaker(sp):
         speaker = sp
         else:
             speaker = SPEAKER_DICT[sp]
         return speaker
     def millisec(timeStr):
         spl = timeStr.split(":")
         return f"dz_{audio}.wav", dzList, segments
     def transcribe(dz_audio):
+        model = whisper.load_model("large")
         result = model.transcribe(dz_audio)
         # for _ in result['segments']:
         #     print(_['start'], _['end'], _['text'])
                   #print(f"[{dzList[i][2]}] {c[2]}")
         return conversation, ("".join([f"{speaker} --> {text}\n" for speaker, text in conversation]))
     spacermilli, spacer = preprocess(audio)
     dz_audio, dzList, segments = diarization(audio)
     conversation, t_text = transcribe(dz_audio)
             #         conversation.append([GetSpeaker(segment["speaker"]), segment["text"][1:]]) # segment["speaker"] + ' ' + str(time(segment["start"])) + '\n\n'
             # conversation[-1][1] += segment["text"][1:]
         # return output
+        return ("".join([f"{speaker} --> {text}\n" for speaker, text in conversation])), ({ "data": [{"speaker": speaker, "text": text} for speaker, text in conversation]}))
     def get_duration(path):
         with contextlib.closing(wave.open(path,'r')) as f: