Spaces:

marigold334
/

Glow-HiFi-TTS

Runtime error

App Files Files Community

marigold334 commited on Jun 15, 2023

Commit

26dee9c

•

1 Parent(s): f523506

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -13

app.py CHANGED Viewed

@@ -18,7 +18,7 @@ class TTS:
         torch.cuda.manual_seed(1234) if torch.cuda.is_available() else None
         self.flowgenerator = Glow_model(n_vocab = 70, h_c= 192, f_c = 768, f_c_dp = 256, out_c = 80, k_s = 3, k_s_dec = 5, heads=2, layers_enc = 6).to(device)
         self.voicegenerator = GAN_model().to(device)
-        if model_variant == '은식':
             name = '1038_eunsik_01'
             last_chpt1 = './log/1038_eunsik_01/Glow_TTS_00289602.pt'
         elif model_variant == 'KSS':
@@ -27,7 +27,7 @@ class TTS:
         self.flowgenerator.load_state_dict(check_point['generator'])
         self.flowgenerator.decoder.skip()
         self.flowgenerator.eval()
-        if model_variant == '은식':
             last_chpt2 = './log/1038_eunsik_01/HiFI_GAN_00257000.pt'
         elif model_variant == 'KSS':
             last_chpt2 = './log/KSS/HiFi_GAN_00135000.pt'
@@ -36,7 +36,7 @@ class TTS:
         self.voicegenerator.eval()
         self.voicegenerator.remove_weight_norm()
-    def inference(self, input_text):
         filters = '([.,!?])'
         sentence = re.sub(re.compile(filters), '', input_text)
         x = text_to_sequence(sentence)
@@ -44,8 +44,6 @@ class TTS:
         x_length = torch.tensor(x.shape[1]).unsqueeze(0).to(device)
         with torch.no_grad():
-            noise_scale = .667
-            length_scale = 1.0
             (y_gen_tst, *_), *_, (attn_gen, *_) = self.flowgenerator(x, x_length, gen = True, noise_scale = noise_scale, length_scale = length_scale)
             y = self.voicegenerator(y_gen_tst)
             audio = y.squeeze() * 32768.0
@@ -56,14 +54,14 @@ def init_session_state():
     # Model
     if "init_model" not in st.session_state:
         st.session_state.init_model = True
-        st.session_state.model_variant = "은식"
-        st.session_state.TTS = TTS("은식")
 def update_model():
     if st.session_state.model_variant == "KSS":
         st.session_state.TTS = TTS("KSS")
-    elif st.session_state.model_variant == "은식":
-        st.session_state.TTS = TTS("은식")
 def update_session_state(state_id, state_value):
     st.session_state[f"{state_id}"] = state_value
@@ -89,7 +87,7 @@ st.write(" ")
 mode = "p"
 st.markdown(
-    f"<{mode} style='text-align: left;'><small>This is a demo trained by our vocie. The voice \"KSS\" is traind by KSS Dataset. \"은식\" which is about 1 hour audio is finetuned from \"KSS\". We got this deomoformat from Nix-TTS Interactive Demo</small></{mode}>",
     unsafe_allow_html = True
 )
@@ -100,10 +98,10 @@ col1, col2 = st.columns(2)
 with col1:
     input_text = st.text_input(
         "한글로만 입력해주세요",
-        value = "딥러닝은 정말 재밌어!",
     )
 with col2:
-    model_variant = st.selectbox("목소리 선택해주세요", options = ["KSS", "은식"], index = 1)
     if model_variant != st.session_state.model_variant:
         # Update variant choice
         update_session_state("model_variant", model_variant)
@@ -111,9 +109,11 @@ with col2:
         update_model()
         st.snow()
 button_gen = st.button("Generate Voice")
 if button_gen == True:
-    generate_voice(input_text)
     st.balloons()

         torch.cuda.manual_seed(1234) if torch.cuda.is_available() else None
         self.flowgenerator = Glow_model(n_vocab = 70, h_c= 192, f_c = 768, f_c_dp = 256, out_c = 80, k_s = 3, k_s_dec = 5, heads=2, layers_enc = 6).to(device)
         self.voicegenerator = GAN_model().to(device)
+        if model_variant == '감기걸린 은식':
             name = '1038_eunsik_01'
             last_chpt1 = './log/1038_eunsik_01/Glow_TTS_00289602.pt'
         elif model_variant == 'KSS':
         self.flowgenerator.load_state_dict(check_point['generator'])
         self.flowgenerator.decoder.skip()
         self.flowgenerator.eval()
+        if model_variant == '감기걸린 은식':
             last_chpt2 = './log/1038_eunsik_01/HiFI_GAN_00257000.pt'
         elif model_variant == 'KSS':
             last_chpt2 = './log/KSS/HiFi_GAN_00135000.pt'
         self.voicegenerator.eval()
         self.voicegenerator.remove_weight_norm()
+    def inference(self, input_textm, noise_scale = 0.667, length_scale = 1.0):
         filters = '([.,!?])'
         sentence = re.sub(re.compile(filters), '', input_text)
         x = text_to_sequence(sentence)
         x_length = torch.tensor(x.shape[1]).unsqueeze(0).to(device)
         with torch.no_grad():
             (y_gen_tst, *_), *_, (attn_gen, *_) = self.flowgenerator(x, x_length, gen = True, noise_scale = noise_scale, length_scale = length_scale)
             y = self.voicegenerator(y_gen_tst)
             audio = y.squeeze() * 32768.0
     # Model
     if "init_model" not in st.session_state:
         st.session_state.init_model = True
+        st.session_state.model_variant = "감기걸린 은식"
+        st.session_state.TTS = TTS("감기걸린 은식")
 def update_model():
     if st.session_state.model_variant == "KSS":
         st.session_state.TTS = TTS("KSS")
+    elif st.session_state.model_variant == "감기걸린 은식":
+        st.session_state.TTS = TTS("감기걸린 은식")
 def update_session_state(state_id, state_value):
     st.session_state[f"{state_id}"] = state_value
 mode = "p"
 st.markdown(
+    f"<{mode} style='text-align: left;'><small>This is a demo trained by our vocie. The voice \"KSS\" is traind by <a href= 'https://www.kaggle.com/datasets/bryanpark/korean-single-speaker-speech-dataset'>KSS Dataset</a>. The voice \"감기걸린 은식\" is trained from pre-trained \"KSS\". We got this deomoformat from Nix-TTS Interactive Demo</small></{mode}>",
     unsafe_allow_html = True
 )
 with col1:
     input_text = st.text_input(
         "한글로만 입력해주세요",
+        value = "밥은 먹고다니냐?",
     )
 with col2:
+    model_variant = st.selectbox("목소리 선택해주세요", options = ["KSS", "감기걸린 은식"], index = 1)
     if model_variant != st.session_state.model_variant:
         # Update variant choice
         update_session_state("model_variant", model_variant)
         update_model()
         st.snow()
+noise_scale = st.slider('noise를 추가합니다.', 0, 1, value = 0.66, step = 0.01)
+length_scale = st.slider('속도를 조절합니다.', 0, 2, value = 1., step = 0.01)
 button_gen = st.button("Generate Voice")
 if button_gen == True:
+    generate_voice(input_text, noise_scale, length_scale)
     st.balloons()