GPT-SoVITS-v2

Running on Zero

App Files Files Community

lj1995 commited on Aug 9

Commit

21fe39c

•

1 Parent(s): 7474b27

Update inference_webui.py

Browse files

Files changed (1) hide show

inference_webui.py +125 -160

inference_webui.py CHANGED Viewed

@@ -253,7 +253,6 @@ def get_first(text):
 from text import chinese
 def get_phones_and_bert(text,language,version):
     if language in {"en", "all_zh", "all_ja", "all_ko", "all_yue"}:
-        print(":1")
         language = language.replace("all_","")
         if language == "en":
             LangSegment.setfilters(["en"])
@@ -264,39 +263,27 @@ def get_phones_and_bert(text,language,version):
         while "  " in formattext:
             formattext = formattext.replace("  ", " ")
         if language == "zh":
-            print(":2")
             if re.search(r'[A-Za-z]', formattext):
-                print(":3")
                 formattext = re.sub(r'[a-z]', lambda x: x.group(0).upper(), formattext)
                 formattext = chinese.mix_text_normalize(formattext)
-                print(":4")
                 return get_phones_and_bert(formattext,"zh",version)
             else:
-                print(":5")
                 phones, word2ph, norm_text = clean_text_inf(formattext, language, version)
-                print(":6")
                 bert = get_bert_feature(norm_text, word2ph).to(device)
-                print(":7")
         elif language == "yue" and re.search(r'[A-Za-z]', formattext):
                 formattext = re.sub(r'[a-z]', lambda x: x.group(0).upper(), formattext)
                 formattext = chinese.mix_text_normalize(formattext)
-                print(":8")
                 return get_phones_and_bert(formattext,"yue",version)
         else:
-            print(":9")
             phones, word2ph, norm_text = clean_text_inf(formattext, language, version)
-            print(":10")
             bert = torch.zeros(
                 (1024, len(phones)),
                 dtype=torch.float16 if is_half == True else torch.float32,
             ).to(device)
-            print(":11")
     elif language in {"zh", "ja", "ko", "yue", "auto", "auto_yue"}:
         textlist=[]
         langlist=[]
-        print(":12")
         LangSegment.setfilters(["zh","ja","en","ko"])
-        print(":13")
         if language == "auto":
             for tmp in LangSegment.getTexts(text):
                 langlist.append(tmp["lang"])
@@ -356,157 +343,135 @@ def merge_short_text_in_array(texts, threshold):
 cache= {}
 def get_tts_wav(ref_wav_path, prompt_text, prompt_language, text, text_language, how_to_cut=i18n("不切"), top_k=20, top_p=0.6, temperature=0.6, ref_free = False,speed=1,if_freeze=False,inp_refs=123):
     global cache
-    import psutil
-    # 获取内存信息
-    memory_info = psutil.virtual_memory()
-    # 打印总内存和剩余内存
-    total_memory = memory_info.total / (1024 ** 3)  # 转换为 GB
-    available_memory = memory_info.available / (1024 ** 3)  # 转换为 GB
-    print(f"总内存: {total_memory:.2f} GB")
-    print(f"剩余内存: {available_memory:.2f} GB")
-    try:
-        if ref_wav_path:pass
-        else:gr.Warning(i18n('请上传参考音频'))
-        if text:pass
-        else:gr.Warning(i18n('请填入推理文本'))
-        t = []
-        if prompt_text is None or len(prompt_text) == 0:
-            ref_free = True
-        t0 = ttime()
-        prompt_language = dict_language[prompt_language]
-        text_language = dict_language[text_language]
-        if not ref_free:
-            prompt_text = prompt_text.strip("\n")
-            if (prompt_text[-1] not in splits): prompt_text += "。" if prompt_language != "en" else "."
-            print(i18n("实际输入的参考文本:"), prompt_text)
-        text = text.strip("\n")
-        if (text[0] not in splits and len(get_first(text)) < 4): text = "。" + text if text_language != "en" else "." + text
-        print(i18n("实际输入的目标文本:"), text)
-        zero_wav = np.zeros(
-            int(hps.data.sampling_rate * 0.3),
-            dtype=np.float16 if is_half == True else np.float32,
-        )
-        if not ref_free:
             with torch.no_grad():
-                wav16k, sr = librosa.load(ref_wav_path, sr=16000)
-                if (wav16k.shape[0] > 160000 or wav16k.shape[0] < 48000):
-                    gr.Warning(i18n("参考音频在3~10秒范围外，请更换！"))
-                    raise OSError(i18n("参考音频在3~10秒范围外，请更换！"))
-                wav16k = torch.from_numpy(wav16k)
-                zero_wav_torch = torch.from_numpy(zero_wav)
-                if is_half == True:
-                    wav16k = wav16k.half().to(device)
-                    zero_wav_torch = zero_wav_torch.half().to(device)
-                else:
-                    wav16k = wav16k.to(device)
-                    zero_wav_torch = zero_wav_torch.to(device)
-                wav16k = torch.cat([wav16k, zero_wav_torch])
-                ssl_content = ssl_model.model(wav16k.unsqueeze(0))[
-                    "last_hidden_state"
-                ].transpose(
-                    1, 2
-                )  # .float()
-                codes = vq_model.extract_latent(ssl_content)
-                prompt_semantic = codes[0, 0]
-                prompt = prompt_semantic.unsqueeze(0).to(device)
         t1 = ttime()
-        t.append(t1-t0)
-        if (how_to_cut == i18n("凑四句一切")):
-            text = cut1(text)
-        elif (how_to_cut == i18n("凑50字一切")):
-            text = cut2(text)
-        elif (how_to_cut == i18n("按中文句号。切")):
-            text = cut3(text)
-        elif (how_to_cut == i18n("按英文句号.切")):
-            text = cut4(text)
-        elif (how_to_cut == i18n("按标点符号切")):
-            text = cut5(text)
-        while "\n\n" in text:
-            text = text.replace("\n\n", "\n")
-        print(i18n("实际输入的目标文本(切句后):"), text)
-        texts = text.split("\n")
-        texts = process_text(texts)
-        print(2)
-        texts = merge_short_text_in_array(texts, 5)
-        print(3)
-        audio_opt = []
-        if not ref_free:
-            phones1,bert1,norm_text1=get_phones_and_bert(prompt_text, prompt_language, version)
-        print(4)
-        for i_text,text in enumerate(texts):
-            # 解决输入目标文本的空行导致报错的问题
-            if (len(text.strip()) == 0):
-                continue
-            print(5)
-            if (text[-1] not in splits): text += "。" if text_language != "en" else "."
-            print(i18n("实际输入的目标文本(每句):"), text)
-            print(6)
-            phones2,bert2,norm_text2=get_phones_and_bert(text, text_language, version)
-            print(i18n("前端处理后的文本(每句):"), norm_text2)
-            print(7)
-            if not ref_free:
-                bert = torch.cat([bert1, bert2], 1)
-                all_phoneme_ids = torch.LongTensor(phones1+phones2).to(device).unsqueeze(0)
-            else:
-                bert = bert2
-                all_phoneme_ids = torch.LongTensor(phones2).to(device).unsqueeze(0)
-            bert = bert.to(device).unsqueeze(0)
-            all_phoneme_len = torch.tensor([all_phoneme_ids.shape[-1]]).to(device)
-            t2 = ttime()
-            # cache_key="%s-%s-%s-%s-%s-%s-%s-%s"%(ref_wav_path,prompt_text,prompt_language,text,text_language,top_k,top_p,temperature)
-            # print(cache.keys(),if_freeze)
-            if(i_text in cache and if_freeze==True):pred_semantic=cache[i_text]
-            else:
-                with torch.no_grad():
-                    pred_semantic, idx = t2s_model.model.infer_panel(
-                        all_phoneme_ids,
-                        all_phoneme_len,
-                        None if ref_free else prompt,
-                        bert,
-                        # prompt_phone_len=ph_offset,
-                        top_k=top_k,
-                        top_p=top_p,
-                        temperature=temperature,
-                        early_stop_num=hz * max_sec,
-                    )
-                    pred_semantic = pred_semantic[:, -idx:].unsqueeze(0)
-                    cache[i_text]=pred_semantic
-            t3 = ttime()
-            refers=[]
-            if(inp_refs):
-                for path in inp_refs:
-                    try:
-                        refer = get_spepc(hps, path.name).to(dtype).to(device)
-                        refers.append(refer)
-                    except:
-                        traceback.print_exc()
-            if(len(refers)==0):refers = [get_spepc(hps, ref_wav_path).to(dtype).to(device)]
-            audio = (vq_model.decode(pred_semantic, torch.LongTensor(phones2).to(device).unsqueeze(0), refers,speed=speed).detach().cpu().numpy()[0, 0])
-            max_audio=np.abs(audio).max()#简单防止16bit爆音
-            if max_audio>1:audio/=max_audio
-            audio_opt.append(audio)
-            audio_opt.append(zero_wav)
-            t4 = ttime()
-            t.extend([t2 - t1,t3 - t2, t4 - t3])
-            t1 = ttime()
-        print("%.3f\t%.3f\t%.3f\t%.3f" %
-               (t[0], sum(t[1::3]), sum(t[2::3]), sum(t[3::3]))
-               )
-    except:
-        print(traceback.format_exc())
     yield hps.data.sampling_rate, (np.concatenate(audio_opt, 0) * 32768).astype(
         np.int16
     )

 from text import chinese
 def get_phones_and_bert(text,language,version):
     if language in {"en", "all_zh", "all_ja", "all_ko", "all_yue"}:
         language = language.replace("all_","")
         if language == "en":
             LangSegment.setfilters(["en"])
         while "  " in formattext:
             formattext = formattext.replace("  ", " ")
         if language == "zh":
             if re.search(r'[A-Za-z]', formattext):
                 formattext = re.sub(r'[a-z]', lambda x: x.group(0).upper(), formattext)
                 formattext = chinese.mix_text_normalize(formattext)
                 return get_phones_and_bert(formattext,"zh",version)
             else:
                 phones, word2ph, norm_text = clean_text_inf(formattext, language, version)
                 bert = get_bert_feature(norm_text, word2ph).to(device)
         elif language == "yue" and re.search(r'[A-Za-z]', formattext):
                 formattext = re.sub(r'[a-z]', lambda x: x.group(0).upper(), formattext)
                 formattext = chinese.mix_text_normalize(formattext)
                 return get_phones_and_bert(formattext,"yue",version)
         else:
             phones, word2ph, norm_text = clean_text_inf(formattext, language, version)
             bert = torch.zeros(
                 (1024, len(phones)),
                 dtype=torch.float16 if is_half == True else torch.float32,
             ).to(device)
     elif language in {"zh", "ja", "ko", "yue", "auto", "auto_yue"}:
         textlist=[]
         langlist=[]
         LangSegment.setfilters(["zh","ja","en","ko"])
         if language == "auto":
             for tmp in LangSegment.getTexts(text):
                 langlist.append(tmp["lang"])
 cache= {}
 def get_tts_wav(ref_wav_path, prompt_text, prompt_language, text, text_language, how_to_cut=i18n("不切"), top_k=20, top_p=0.6, temperature=0.6, ref_free = False,speed=1,if_freeze=False,inp_refs=123):
     global cache
+    if ref_wav_path:pass
+    else:gr.Warning(i18n('请上传参考音频'))
+    if text:pass
+    else:gr.Warning(i18n('请填入推理文本'))
+    t = []
+    if prompt_text is None or len(prompt_text) == 0:
+        ref_free = True
+    t0 = ttime()
+    prompt_language = dict_language[prompt_language]
+    text_language = dict_language[text_language]
+    if not ref_free:
+        prompt_text = prompt_text.strip("\n")
+        if (prompt_text[-1] not in splits): prompt_text += "。" if prompt_language != "en" else "."
+        print(i18n("实际输入的参考文本:"), prompt_text)
+    text = text.strip("\n")
+    if (text[0] not in splits and len(get_first(text)) < 4): text = "。" + text if text_language != "en" else "." + text
+    print(i18n("实际输入的目标文本:"), text)
+    zero_wav = np.zeros(
+        int(hps.data.sampling_rate * 0.3),
+        dtype=np.float16 if is_half == True else np.float32,
+    )
+    if not ref_free:
+        with torch.no_grad():
+            wav16k, sr = librosa.load(ref_wav_path, sr=16000)
+            if (wav16k.shape[0] > 160000 or wav16k.shape[0] < 48000):
+                gr.Warning(i18n("参考音频在3~10秒范围外，请更换！"))
+                raise OSError(i18n("参考音频在3~10秒范围外，请更换！"))
+            wav16k = torch.from_numpy(wav16k)
+            zero_wav_torch = torch.from_numpy(zero_wav)
+            if is_half == True:
+                wav16k = wav16k.half().to(device)
+                zero_wav_torch = zero_wav_torch.half().to(device)
+            else:
+                wav16k = wav16k.to(device)
+                zero_wav_torch = zero_wav_torch.to(device)
+            wav16k = torch.cat([wav16k, zero_wav_torch])
+            ssl_content = ssl_model.model(wav16k.unsqueeze(0))[
+                "last_hidden_state"
+            ].transpose(
+                1, 2
+            )  # .float()
+            codes = vq_model.extract_latent(ssl_content)
+            prompt_semantic = codes[0, 0]
+            prompt = prompt_semantic.unsqueeze(0).to(device)
+    t1 = ttime()
+    t.append(t1-t0)
+    if (how_to_cut == i18n("凑四句一切")):
+        text = cut1(text)
+    elif (how_to_cut == i18n("凑50字一切")):
+        text = cut2(text)
+    elif (how_to_cut == i18n("按中文句号。切")):
+        text = cut3(text)
+    elif (how_to_cut == i18n("按英文句号.切")):
+        text = cut4(text)
+    elif (how_to_cut == i18n("按标点符号切")):
+        text = cut5(text)
+    while "\n\n" in text:
+        text = text.replace("\n\n", "\n")
+    print(i18n("实际输入的目标文本(切句后):"), text)
+    texts = text.split("\n")
+    texts = process_text(texts)
+    texts = merge_short_text_in_array(texts, 5)
+    audio_opt = []
+    if not ref_free:
+        phones1,bert1,norm_text1=get_phones_and_bert(prompt_text, prompt_language, version)
+    for i_text,text in enumerate(texts):
+        # 解决输入目标文本的空行导致报错的问题
+        if (len(text.strip()) == 0):
+            continue
+        if (text[-1] not in splits): text += "。" if text_language != "en" else "."
+        print(i18n("实际输入的目标文本(每句):"), text)
+        phones2,bert2,norm_text2=get_phones_and_bert(text, text_language, version)
+        print(i18n("前端处理后的文本(每句):"), norm_text2)
+        if not ref_free:
+            bert = torch.cat([bert1, bert2], 1)
+            all_phoneme_ids = torch.LongTensor(phones1+phones2).to(device).unsqueeze(0)
+        else:
+            bert = bert2
+            all_phoneme_ids = torch.LongTensor(phones2).to(device).unsqueeze(0)
+        bert = bert.to(device).unsqueeze(0)
+        all_phoneme_len = torch.tensor([all_phoneme_ids.shape[-1]]).to(device)
+        t2 = ttime()
+        # cache_key="%s-%s-%s-%s-%s-%s-%s-%s"%(ref_wav_path,prompt_text,prompt_language,text,text_language,top_k,top_p,temperature)
+        # print(cache.keys(),if_freeze)
+        if(i_text in cache and if_freeze==True):pred_semantic=cache[i_text]
+        else:
             with torch.no_grad():
+                pred_semantic, idx = t2s_model.model.infer_panel(
+                    all_phoneme_ids,
+                    all_phoneme_len,
+                    None if ref_free else prompt,
+                    bert,
+                    # prompt_phone_len=ph_offset,
+                    top_k=top_k,
+                    top_p=top_p,
+                    temperature=temperature,
+                    early_stop_num=hz * max_sec,
+                )
+                pred_semantic = pred_semantic[:, -idx:].unsqueeze(0)
+                cache[i_text]=pred_semantic
+        t3 = ttime()
+        refers=[]
+        if(inp_refs):
+            for path in inp_refs:
+                try:
+                    refer = get_spepc(hps, path.name).to(dtype).to(device)
+                    refers.append(refer)
+                except:
+                    traceback.print_exc()
+        if(len(refers)==0):refers = [get_spepc(hps, ref_wav_path).to(dtype).to(device)]
+        audio = (vq_model.decode(pred_semantic, torch.LongTensor(phones2).to(device).unsqueeze(0), refers,speed=speed).detach().cpu().numpy()[0, 0])
+        max_audio=np.abs(audio).max()#简单防止16bit爆音
+        if max_audio>1:audio/=max_audio
+        audio_opt.append(audio)
+        audio_opt.append(zero_wav)
+        t4 = ttime()
+        t.extend([t2 - t1,t3 - t2, t4 - t3])
         t1 = ttime()
+    print("%.3f\t%.3f\t%.3f\t%.3f" %
+           (t[0], sum(t[1::3]), sum(t[2::3]), sum(t[3::3]))
+           )
     yield hps.data.sampling_rate, (np.concatenate(audio_opt, 0) * 32768).astype(
         np.int16
     )