Spaces:

Mahiruoshi
/

MyGO_VIts-bert

Running

App Files Files Community

Mahiruoshi commited on Nov 29, 2023

Commit

cb9e52f

1 Parent(s): d0a23bd

更新全员模型

Browse files

Files changed (1) hide show

app.py +28 -13

app.py CHANGED Viewed

@@ -58,8 +58,19 @@ device = (
     )
 BandList = {
         "MyGo":["燈","愛音","そよ","立希","楽奈"],
-        "AveMujica":["祥子","睦","海鈴","にゃむ","初華"]
 }
 def get_net_g(model_path: str, version: str, device: str, hps):
@@ -77,7 +88,7 @@ def get_net_g(model_path: str, version: str, device: str, hps):
 def get_text(text, language_str, hps, device):
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
     phone, tone, language = cleaned_text_to_sequence(phone, tone, language_str)
-    print(text)
     if hps.data.add_blank:
         phone = commons.intersperse(phone, 0)
         tone = commons.intersperse(tone, 0)
@@ -114,11 +125,12 @@ def get_text(text, language_str, hps, device):
     return bert, ja_bert, en_bert, phone, tone, language
 def get_emo_(reference_audio, emotion):
-    emo = (
-        torch.from_numpy(get_emo(reference_audio))
-        if reference_audio
-        else torch.Tensor([emotion])
-    )
     return emo
 def get_emo(path):
@@ -202,15 +214,15 @@ if __name__ == "__main__":
     REPO_ID = "audeering/wav2vec2-large-robust-12-ft-emotion-msp-dim"
     emotional_processor = Wav2Vec2Processor.from_pretrained(emotional_model_name)
     emotional_model = EmotionModel.from_pretrained(emotional_model_name).to(device)
-    hps = utils.get_hparams_from_file('Data/BanGDream/configs/config.json')
     net_g = get_net_g(
-        model_path='Data/BanGDream/models/G_132000.pth', version="2.1", device=device, hps=hps
     )
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
     languages = [ "Auto", "ZH", "JP"]
     modelPaths = []
-    for dirpath, dirnames, filenames in os.walk("Data/BanGDream/models/"):
         for filename in filenames:
             modelPaths.append(os.path.join(dirpath, filename))
     with gr.Blocks() as app:
@@ -219,7 +231,7 @@ if __name__ == "__main__":
                 for name in BandList[band]:
                     with gr.TabItem(name):
                         classifiedPaths = []
-                        for dirpath, dirnames, filenames in os.walk("Data/BanGDream/classifedSample/"+name):
                             for filename in filenames:
                                 classifiedPaths.append(os.path.join(dirpath, filename))
                         with gr.Row():
@@ -234,7 +246,7 @@ if __name__ == "__main__":
                                         minimum=0.1, maximum=2, value=1, step=0.01, label="语速调节"
                                     )
                                 emotion = gr.Slider(
-                                    minimum=-10, maximum=10, value=0, step=0.1, label="Emotion"
                                 )
                                 with gr.Accordion(label="参数设定", open=False):
                                     sdp_ratio = gr.Slider(
@@ -260,7 +272,10 @@ if __name__ == "__main__":
                                     placeholder="输入纯日语或者中文",
                                     value="为什么要演奏春日影!",
                                 )
-                                reference_audio = gr.Dropdown(label = "情感参考", choices = classifiedPaths, value = classifiedPaths[0], type = "value")
                                 btn = gr.Button("点击生成", variant="primary")
                                 audio_output = gr.Audio(label="Output Audio")
                                 '''

     )
 BandList = {
+        "PoppinParty":["香澄","有咲","たえ","りみ","沙綾"],
+        "Afterglow":["蘭","モカ","ひまり","巴","つぐみ"],
+        "HelloHappyWorld":["こころ","美咲","薫","花音","はぐみ"],
+        "PastelPalettes":["彩","日菜","千聖","イヴ","麻弥"],
+        "Roselia":["友希那","紗夜","リサ","燐子","あこ"],
+        "RaiseASuilen":["レイヤ","ロック","ますき","チュチュ","パレオ"],
+        "Morfonica":["ましろ","瑠唯","つくし","七深","透子"],
         "MyGo":["燈","愛音","そよ","立希","楽奈"],
+        "AveMujica":["祥子","睦","海鈴","にゃむ","初華"],
+        "圣翔音乐学园":["華戀","光","香子","雙葉","真晝","純那","克洛迪娜","真矢","奈奈"],
+        "凛明馆女子学校":["珠緒","壘","文","悠悠子","一愛"],
+        "弗隆提亚艺术学校":["艾露","艾露露","菈樂菲","司","靜羽"],
+        "西克菲尔特音乐学院":["晶","未知留","八千代","栞","美帆"]
 }
 def get_net_g(model_path: str, version: str, device: str, hps):
 def get_text(text, language_str, hps, device):
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
     phone, tone, language = cleaned_text_to_sequence(phone, tone, language_str)
+    #print(text)
     if hps.data.add_blank:
         phone = commons.intersperse(phone, 0)
         tone = commons.intersperse(tone, 0)
     return bert, ja_bert, en_bert, phone, tone, language
 def get_emo_(reference_audio, emotion):
+    if (emotion == 10 and reference_audio):
+        emo = torch.from_numpy(get_emo(reference_audio))
+    else:
+        emo = torch.Tensor([emotion])
     return emo
 def get_emo(path):
     REPO_ID = "audeering/wav2vec2-large-robust-12-ft-emotion-msp-dim"
     emotional_processor = Wav2Vec2Processor.from_pretrained(emotional_model_name)
     emotional_model = EmotionModel.from_pretrained(emotional_model_name).to(device)
+    hps = utils.get_hparams_from_file('Data/Bushiroad/configs/config.json')
     net_g = get_net_g(
+        model_path='Data/Bushiroad/models/G_29000.pth', version="2.1", device=device, hps=hps
     )
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
     languages = [ "Auto", "ZH", "JP"]
     modelPaths = []
+    for dirpath, dirnames, filenames in os.walk("Data/Bushiroad/models/"):
         for filename in filenames:
             modelPaths.append(os.path.join(dirpath, filename))
     with gr.Blocks() as app:
                 for name in BandList[band]:
                     with gr.TabItem(name):
                         classifiedPaths = []
+                        for dirpath, dirnames, filenames in os.walk("Data/Bushiroad/classifedSample/"+name):
                             for filename in filenames:
                                 classifiedPaths.append(os.path.join(dirpath, filename))
                         with gr.Row():
                                         minimum=0.1, maximum=2, value=1, step=0.01, label="语速调节"
                                     )
                                 emotion = gr.Slider(
+                                    minimum=-10, maximum=10, value=0, step=0.1, label="Emotion参数(调至10开启音频参考,如不启动则设为0)"
                                 )
                                 with gr.Accordion(label="参数设定", open=False):
                                     sdp_ratio = gr.Slider(
                                     placeholder="输入纯日语或者中文",
                                     value="为什么要演奏春日影!",
                                 )
+                                try:
+                                    reference_audio = gr.Dropdown(label = "情感参考", choices = classifiedPaths, value = classifiedPaths[0], type = "value")
+                                except:
+                                    reference_audio = gr.Audio(label="情感参考音频）", type="filepath")
                                 btn = gr.Button("点击生成", variant="primary")
                                 audio_output = gr.Audio(label="Output Audio")
                                 '''