Spaces:

uzdzn
/

voice_conversion_demo

Running

uzdzn commited on Feb 13

Commit

15564d2

•

1 Parent(s): 33079ce

Update inference.py

Files changed (1) hide show

inference.py CHANGED Viewed

@@ -17,22 +17,22 @@ class InferencePipeline():
         # download vocoder
         self.hifigan = torch.hub.load("bshall/hifigan:main", "hifigan_hubert_soft", trust_repo=True, map_location=torch.device('cpu'))
-        # load source audio
-        #self.source, sr = torchaudio.load("test.wav")
-        #self.source = torchaudio.functional.resample(self.source, sr, 16000)
-        #self.source = self.source.unsqueeze(0)#.cuda()
         # load target speaker embedding
         self.trg_spk_emb = np.load('p225_007_mic1.npy')
         self.trg_spk_emb = torch.from_numpy(self.trg_spk_emb)
         self.trg_spk_emb = self.trg_spk_emb.unsqueeze(0)#.cuda()
-    def voice_conversion(self, audio_file_path):
         # run inference
         self.model.eval()
         with torch.inference_mode():
             # Extract speech units
-            units = self.hubert.units(audio_file_path)
             # Generate target spectrogram
             mel = self.model.generate(units, self.trg_spk_emb).transpose(1, 2)
             # Generate audio waveform
@@ -41,8 +41,6 @@ class InferencePipeline():
         # Assuming `target` is a tensor with the audio waveform
         # Convert it to numpy array and save it as an output audio file
         output_audio_path = "output.wav"
-        torchaudio.save(output_audio_path, target.cpu(), sample_rate=16000)
-        return output_audio_path
-#torchaudio.save("output.wav", target.squeeze(0), 16000)

         # download vocoder
         self.hifigan = torch.hub.load("bshall/hifigan:main", "hifigan_hubert_soft", trust_repo=True, map_location=torch.device('cpu'))
         # load target speaker embedding
         self.trg_spk_emb = np.load('p225_007_mic1.npy')
         self.trg_spk_emb = torch.from_numpy(self.trg_spk_emb)
         self.trg_spk_emb = self.trg_spk_emb.unsqueeze(0)#.cuda()
+    def voice_conversion(self, audio_path):
+        # load source audio
+        source, sr = torchaudio.load(audio_path) #"test.wav")
+        source = torchaudio.functional.resample(source, sr, 16000)
+        source = source.unsqueeze(0)#.cuda()
         # run inference
         self.model.eval()
         with torch.inference_mode():
             # Extract speech units
+            units = self.hubert.units(source)
             # Generate target spectrogram
             mel = self.model.generate(units, self.trg_spk_emb).transpose(1, 2)
             # Generate audio waveform
         # Assuming `target` is a tensor with the audio waveform
         # Convert it to numpy array and save it as an output audio file
         output_audio_path = "output.wav"
+        torchaudio.save("output.wav", target.squeeze(0), 16000)
+        return output_audio_path