Spaces:

ganga4364
/

mms-tts-bod

Sleeping

ganga4364 commited on Oct 8, 2024

Commit

3cd13ab

verified ·

1 Parent(s): bfb8ce2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import soundfile as sf
 import uuid
 import datetime
 import shutil
-from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
 import scipy.io.wavfile
 import numpy as np
@@ -71,13 +71,9 @@ def tts_tibetan(input_text):
         # Perform TTS inference for each sentence
         speech = synthesiser(sentence)
-        # Extract the audio data and sampling rate from the pipeline output
-        audio_data = np.array(speech["audio"])
-        sample_rate = speech["sampling_rate"]
         # Save each sentence as a separate WAV file
         wav_path = f"{user_dir}/s_{str(i).zfill(10)}.wav"
-        scipy.io.wavfile.write(wav_path, rate=sample_rate, data=audio_data.astype(np.int16))  # Ensure correct format
     # Combine the generated audio into one file
     combined_file_path = combine_wav(user_dir, timestamp)

 import uuid
 import datetime
 import shutil
+from transformers import pipeline
 import scipy.io.wavfile
 import numpy as np
         # Perform TTS inference for each sentence
         speech = synthesiser(sentence)
         # Save each sentence as a separate WAV file
         wav_path = f"{user_dir}/s_{str(i).zfill(10)}.wav"
+        scipy.io.wavfile.write(wav_path, rate=speech["sampling_rate"], data=speech["audio"][0])
     # Combine the generated audio into one file
     combined_file_path = combine_wav(user_dir, timestamp)