Spaces:

marigold334
/

Glow-HiFi-TTS

Runtime error

File size: 4,365 Bytes

41989ff
 
8fde97d
41989ff
 
 
 
 
dcef047
 
 
 
41989ff
8fde97d
 
dcef047
371ba49
dcef047
 
 
8fde97d
 
 
3ad4727
 
4936e8e
 
8fde97d
 
 
3ad4727
 
 
4936e8e
 
8fde97d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
41989ff
 
 
 
 
8fde97d
 
41989ff
 
 
8fde97d
41989ff
8fde97d
41989ff
 
 
 
 
 
 
 
8fde97d
41989ff
8fde97d
41989ff
 
b35e31e
620ca40
41989ff
8fde97d
 
dcef047
41989ff
 
 
 
 
 
 
 
 
3ad4727
41989ff
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3ad4727
41989ff

import streamlit as st
import soundfile as sf
import os, re
import torch
from datautils import *
from model import Generator as Glow_model
from Hmodel import Generator as GAN_model

st.set_page_config(
    page_title = "소신 Team Demo",
    page_icon = "🔉",
)

class TTS:
    def __init__(self, model_variant):
        global device
        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        torch.cuda.manual_seed(1234) if torch.cuda.is_available() else None
        self.flowgenerator = Glow_model(n_vocab = 70, h_c= 192, f_c = 768, f_c_dp = 256, out_c = 80, k_s = 3, k_s_dec = 5, heads=2, layers_enc = 6).to(device)
        self.voicegenerator = GAN_model().to(device)
        if model_variant == '은식':
            name = '1038_eunsik_01'
            last_chpt1 = './log/1038_eunsik_01/Glow_TTS_00289602.pt'
        elif model_variant == 'KSS':
            last_chpt1 = './log/KSS/Glow_TTS_00280641.pt'
        check_point = torch.load(last_chpt1, map_location = device)
        self.flowgenerator.load_state_dict(check_point['generator'])
        self.flowgenerator.decoder.skip()
        self.flowgenerator.eval()
        if model_variant == '은식':
            last_chpt2 = './log/1038_eunsik_01/HiFI_GAN_00257000.pt'\
        elif model_variant == 'KSS':
            last_chpt1 = './log/KSS/HiFi_GAN_00135000.pt'
        check_point = torch.load(last_chpt2, map_location = device)
        self.voicegenerator.load_state_dict(check_point['gen_model'])
        self.voicegenerator.eval()
        self.voicegenerator.remove_weight_norm()
    
    def inference(self, input_text):
        filters = '([.,!?])'
        sentence = re.sub(re.compile(filters), '', input_text)
        x = text_to_sequence(sentence)
        x = torch.autograd.Variable(torch.tensor(x).unsqueeze(0)).to(device).long()
        x_length = torch.tensor(x.shape[1]).unsqueeze(0).to(device)
        
        with torch.no_grad():
            noise_scale = .667
            length_scale = 1.0
            (y_gen_tst, *_), *_, (attn_gen, *_) = self.flowgenerator(x, x_length, gen = True, noise_scale = noise_scale, length_scale = length_scale)
            y = self.voicegenerator(y_gen_tst)
            audio = y.squeeze() * 32768.0
            voice = audio.cpu().numpy().astype('int16')
        return voice

def init_session_state():
    # Model
    if "init_model" not in st.session_state:
        st.session_state.init_model = True
        st.session_state.model_variant = "은식"
        st.session_state.TTS = TTS("은식")

def update_model():
    if st.session_state.model_variant == "KSS":
        st.session_state.TTS = TTS("KSS")
    elif st.session_state.model_variant == "은식":
        st.session_state.TTS = TTS("은식")

def update_session_state(state_id, state_value):
    st.session_state[f"{state_id}"] = state_value
    
def centered_text(input_text, mode = "h1",):
    st.markdown(
        f"<{mode} style='text-align: center;'>{input_text}</{mode}>", unsafe_allow_html = True)

def generate_voice(input_text):
    # TTS Inference
    voice = st.session_state.TTS.inference(input_text)
    
    # Play audio
    st.audio(voice,sample_rate = 22050)
    os.remove(f"cache_sound/new_generated.wav")
    st.caption("Generated Voice")




init_session_state()

centered_text("🔉 소신 Team Demo")
centered_text("mel generator : Glow-TTS, vocoder : HiFi-GAN", "h5")
st.write(" ")

mode = "p"
st.markdown(
    f"<{mode} style='text-align: left;'><small>This is a demo trained by our vocie. The voice \"KSS\" is traind by KSS Dataset. \"은식\" which is about 1 hour audio is finetuned from \"KSS\". We got this deomoformat from Nix-TTS Interactive Demo</small></{mode}>",
    unsafe_allow_html = True
)

st.write(" ")
st.write(" ")
col1, col2 = st.columns(2)

with col1:
    input_text = st.text_input(
        "한글로만 입력해주세요",
        value = "딥러닝은 정말 재밌어!",
    )
with col2:
    model_variant = st.selectbox("목소리 선택해주세요", options = ["KSS", "은식"], index = 1)
    if model_variant != st.session_state.model_variant:
        # Update variant choice
        update_session_state("model_variant", model_variant)
        # Re-load model
        update_model()

button_gen = st.button("Generate Voice")
if button_gen == True:
    generate_voice(input_text)
    st.balloons()