Spaces:

LPhilp1943
/

speech_2_speech_voice_cloning

Build error

LPhilp1943 commited on Mar 16

Commit

1064862

•

1 Parent(s): c301c7c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,16 +3,15 @@ import os
 import torch
 import soundfile as sf
 import torchaudio
-from scipy.io.wavfile import write
-from transformers import VitsProcessor, VitsForConditionalGeneration
-from speechbrain.pretrained import EncoderClassifier, EncoderDecoderASR
 # Ensure the output directory exists
 os.makedirs("output_audio", exist_ok=True)
-# Load the Facebook MMS TTS model and processor
-tts_processor = VitsProcessor.from_pretrained("facebook/mms-tts-eng")
-tts_model = VitsForConditionalGeneration.from_pretrained("facebook/mms-tts-eng")
 # SpeechBrain ASR Model for Speech to Text
 asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-transformerlm-librispeech", savedir="models/asr")
@@ -25,20 +24,19 @@ def speech_to_text(input_audio):
     return transcription
 def text_to_speech(text):
-    inputs = tts_processor(text, return_tensors="pt")
     with torch.no_grad():
-        generated = tts_model.generate(**inputs)
-        waveform = generated.audio.squeeze().cpu().numpy()
     output_path = "output_audio/text_to_speech.wav"
-    sf.write(output_path, waveform, 22050)
     return output_path
 def speech_to_speech(input_audio, target_text):
-    # Speech to Text
     transcription = speech_to_text(input_audio)
-    # Text to Speech with Facebook MMS TTS
     return text_to_speech(target_text)
 iface = gr.Interface(
@@ -64,3 +62,4 @@ iface = gr.Interface(
 if __name__ == "__main__":
     iface.launch()

 import torch
 import soundfile as sf
 import torchaudio
+from transformers import VitsModel, AutoTokenizer
+from speechbrain.pretrained import EncoderDecoderASR
 # Ensure the output directory exists
 os.makedirs("output_audio", exist_ok=True)
+# Load the Facebook MMS TTS model and tokenizer
+model = VitsModel.from_pretrained("facebook/mms-tts-eng")
+tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 # SpeechBrain ASR Model for Speech to Text
 asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-transformerlm-librispeech", savedir="models/asr")
     return transcription
 def text_to_speech(text):
+    inputs = tokenizer(text, return_tensors="pt")
     with torch.no_grad():
+        output = model(**inputs).waveform
+    waveform = output.numpy()
     output_path = "output_audio/text_to_speech.wav"
+    sf.write(output_path, waveform.squeeze(), 22050)
     return output_path
 def speech_to_speech(input_audio, target_text):
+    # Use speech_to_text to transcribe, then synthesize speech from the transcription
     transcription = speech_to_text(input_audio)
     return text_to_speech(target_text)
 iface = gr.Interface(
 if __name__ == "__main__":
     iface.launch()