Spaces:

LPhilp1943
/

speech_2_speech_voice_cloning

Build error

LPhilp1943 commited on Mar 16

Commit

6ef1f34

•

1 Parent(s): 7cbb513

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import gradio as gr
 import torchaudio
-from speechbrain.pretrained import EncoderClassifier, Tacotron2, HIFIGAN, ASR
 import os
 import soundfile as sf
 # Ensure output directory exists
 os.makedirs("output_audio", exist_ok=True)
@@ -11,11 +11,14 @@ os.makedirs("output_audio", exist_ok=True)
 encoder = EncoderClassifier.from_hparams(source="speechbrain/spkrec-ecapa-voxceleb", savedir="models/encoder")
 tacotron2 = Tacotron2.from_hparams(source="speechbrain/tts-tacotron2-ljspeech", savedir="models/tacotron2")
 hifigan = HIFIGAN.from_hparams(source="speechbrain/tts-hifigan-ljspeech", savedir="models/hifigan")
-asr = ASR.from_hparams(source="speechbrain/asr-transformer-librispeech", savedir="models/asr")
 def speech_to_text(input_audio):
     sig, sr = torchaudio.load(input_audio)
-    transcription = asr.transcribe_file(input_audio)
     return transcription
 def speech_to_speech(input_audio, target_text):

 import gradio as gr
 import torchaudio
 import os
 import soundfile as sf
+from speechbrain.pretrained import EncoderClassifier, Tacotron2, HIFIGAN, EncoderDecoderASR
 # Ensure output directory exists
 os.makedirs("output_audio", exist_ok=True)
 encoder = EncoderClassifier.from_hparams(source="speechbrain/spkrec-ecapa-voxceleb", savedir="models/encoder")
 tacotron2 = Tacotron2.from_hparams(source="speechbrain/tts-tacotron2-ljspeech", savedir="models/tacotron2")
 hifigan = HIFIGAN.from_hparams(source="speechbrain/tts-hifigan-ljspeech", savedir="models/hifigan")
+asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-transformerlm-librispeech", savedir="models/asr")
 def speech_to_text(input_audio):
     sig, sr = torchaudio.load(input_audio)
+    # Ensure the sample rate is 16000, expected by the model
+    if sr != 16000:
+        sig = torchaudio.transforms.Resample(orig_freq=sr, new_freq=16000)(sig)
+    transcription = asr_model.transcribe_file(input_audio)
     return transcription
 def speech_to_speech(input_audio, target_text):