glaswegian-tts-demo

Runtime error

App Files Files Community

divakaivan commited on May 18

Commit

6742dfa

•

1 Parent(s): 4f76169

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -21

app.py CHANGED Viewed

@@ -8,18 +8,7 @@ from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5Hif
 #.
 checkpoint = "microsoft/speecht5_tts"
 processor = SpeechT5Processor.from_pretrained(checkpoint)
-model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint)
-vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-speaker_embeddings = {
-    "BDL": "spkemb/cmu_us_bdl_arctic-wav-arctic_a0009.npy",
-    "CLB": "spkemb/cmu_us_clb_arctic-wav-arctic_a0144.npy",
-    "KSP": "spkemb/cmu_us_ksp_arctic-wav-arctic_b0087.npy",
-    "RMS": "spkemb/cmu_us_rms_arctic-wav-arctic_b0353.npy",
-    "SLT": "spkemb/cmu_us_slt_arctic-wav-arctic_a0508.npy",
-}
 from datasets import load_dataset, Audio
@@ -137,18 +126,11 @@ def predict(text, speaker):
     ### ### ###
     example = dataset['test'][11]
-    speaker_embedding = torch.tensor(example["speaker_embeddings"]).unsqueeze(0).to(device)
-    # Ensure the speaker_embedding has the correct dimensions
-    if speaker_embedding.dim() == 2:
-        speaker_embedding = speaker_embedding.unsqueeze(1).expand(-1, inputs["input_ids"].size(1), -1)
-    elif speaker_embedding.dim() == 3:
-        speaker_embedding = speaker_embedding.expand(-1, inputs["input_ids"].size(1), -1)
-    spectrogram = model.generate_speech(inputs["input_ids"].to(device), speaker_embedding)
     with torch.no_grad():
         speech = vocoder(spectrogram)
-    # speech = model.generate_speech(input_ids, speaker_embedding, vocoder=vocoder)
     speech = (speech.numpy() * 32767).astype(np.int16)
     return (16000, speech)

 #.
 checkpoint = "microsoft/speecht5_tts"
 processor = SpeechT5Processor.from_pretrained(checkpoint)
+model = SpeechT5ForTextToSpeech.from_pretrained("divakaivan/glaswegian_tts")
 from datasets import load_dataset, Audio
     ### ### ###
     example = dataset['test'][11]
+    speaker_embeddings = torch.tensor(example["speaker_embeddings"]).unsqueeze(0)
+    spectrogram = model.generate_speech(inputs["input_ids"], speaker_embeddings)
     with torch.no_grad():
         speech = vocoder(spectrogram)
     speech = (speech.numpy() * 32767).astype(np.int16)
     return (16000, speech)