Spaces:

Mahiruoshi
/

MyGO_VIts-bert

Running

App Files Files Community

Mahiruoshi commited on Dec 11, 2023

Commit

826b5e0

1 Parent(s): d6566ec

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -5

app.py CHANGED Viewed

@@ -56,9 +56,9 @@ device = (
             else "cpu"
         )
     )
 BandList = {
-        #"PoppinParty":["香澄","有咲","たえ","りみ","沙綾"],
         "Afterglow":["蘭","モカ","ひまり","巴","つぐみ"],
         "HelloHappyWorld":["こころ","美咲","薫","花音","はぐみ"],
         "PastelPalettes":["彩","日菜","千聖","イヴ","麻弥"],
@@ -86,9 +86,10 @@ def get_net_g(model_path: str, version: str, device: str, hps):
     return net_g
 def get_text(text, language_str, hps, device):
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
     phone, tone, language = cleaned_text_to_sequence(phone, tone, language_str)
-    #print(text)
     if hps.data.add_blank:
         phone = commons.intersperse(phone, 0)
         tone = commons.intersperse(tone, 0)
@@ -157,10 +158,12 @@ def infer(
 ):
     language= 'JP' if is_japanese(text) else 'ZH'
     bert, ja_bert, en_bert, phones, tones, lang_ids = get_text(
         text, language, hps, device
     )
     emo = get_emo_(reference_audio, emotion)
     with torch.no_grad():
         x_tst = phones.to(device).unsqueeze(0)
         tones = tones.to(device).unsqueeze(0)
@@ -170,7 +173,6 @@ def infer(
         en_bert = en_bert.to(device).unsqueeze(0)
         x_tst_lengths = torch.LongTensor([phones.size(0)]).to(device)
         emo = emo.to(device).unsqueeze(0)
-        print(emo)
         del phones
         speakers = torch.LongTensor([hps.data.spk2id[sid]]).to(device)
         audio = (
@@ -216,7 +218,7 @@ if __name__ == "__main__":
     emotional_model = EmotionModel.from_pretrained(emotional_model_name).to(device)
     languages = [ "Auto", "ZH", "JP"]
     modelPaths = []
-    for dirpath, dirnames, filenames in os.walk("Data/Bushiroad/models/"):
         for filename in filenames:
             modelPaths.append(os.path.join(dirpath, filename))
     hps = utils.get_hparams_from_file('Data/Bushiroad/configs/config.json')

             else "cpu"
         )
     )
+device = "cpu"
 BandList = {
+        "PoppinParty":["香澄","有咲","たえ","りみ","沙綾"],
         "Afterglow":["蘭","モカ","ひまり","巴","つぐみ"],
         "HelloHappyWorld":["こころ","美咲","薫","花音","はぐみ"],
         "PastelPalettes":["彩","日菜","千聖","イヴ","麻弥"],
     return net_g
 def get_text(text, language_str, hps, device):
+    # 在此处实现当前版本的get_text
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
     phone, tone, language = cleaned_text_to_sequence(phone, tone, language_str)
     if hps.data.add_blank:
         phone = commons.intersperse(phone, 0)
         tone = commons.intersperse(tone, 0)
 ):
     language= 'JP' if is_japanese(text) else 'ZH'
+    print(language)
     bert, ja_bert, en_bert, phones, tones, lang_ids = get_text(
         text, language, hps, device
     )
     emo = get_emo_(reference_audio, emotion)
+    print(emo)
     with torch.no_grad():
         x_tst = phones.to(device).unsqueeze(0)
         tones = tones.to(device).unsqueeze(0)
         en_bert = en_bert.to(device).unsqueeze(0)
         x_tst_lengths = torch.LongTensor([phones.size(0)]).to(device)
         emo = emo.to(device).unsqueeze(0)
         del phones
         speakers = torch.LongTensor([hps.data.spk2id[sid]]).to(device)
         audio = (
     emotional_model = EmotionModel.from_pretrained(emotional_model_name).to(device)
     languages = [ "Auto", "ZH", "JP"]
     modelPaths = []
+    for dirpath, dirnames, filenames in os.walk('Data/Bushiroad/models/'):
         for filename in filenames:
             modelPaths.append(os.path.join(dirpath, filename))
     hps = utils.get_hparams_from_file('Data/Bushiroad/configs/config.json')