Spaces:

thanhtl
/

fake-giong-noi

Running

App Files Files Community

thanhtl commited on 26 days ago

Commit

017c213

verified ·

1 Parent(s): b3ec070

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -13

app.py CHANGED Viewed

@@ -26,6 +26,7 @@ SCRIPT_DIR = os.path.dirname(os.path.abspath(__file__))
 MODEL_DIR = os.path.join(SCRIPT_DIR, "model")
 OUTPUT_DIR = os.path.join(SCRIPT_DIR, "output")
 os.makedirs(OUTPUT_DIR, exist_ok=True)
 def clear_gpu_cache():
@@ -73,6 +74,7 @@ def load_model(checkpoint_dir="model/", repo_id="capleaf/viXTTS", use_deepspeed=
     print("Model Loaded!")
     return XTTS_MODEL
 def generate_hash(data):
     hash_object = hashlib.md5()
     hash_object.update(data)
@@ -95,6 +97,7 @@ def get_file_name(text, max_char=50):
 def normalize_vietnamese_text(text):
     text = (
         text
         .replace("..", ".")
@@ -107,6 +110,8 @@ def normalize_vietnamese_text(text):
         .replace("AI", "Ây Ai")
         .replace("A.I", "Ây Ai")
     )
     return text
@@ -126,24 +131,30 @@ def calculate_keep_len(text, lang):
 def run_tts(lang, tts_text, speaker_audio_file, normalize_text):
-    global XTTS_MODEL
     if XTTS_MODEL is None:
-        return "You need to run the previous step to load the model !!", None, None
     if not speaker_audio_file:
-        return "You need to provide reference audio!!!", None, None
     print("Computing conditioning latents...")
-    gpt_cond_latent, speaker_embedding = XTTS_MODEL.get_conditioning_latents(
-        audio_path=speaker_audio_file,
-        gpt_cond_len=XTTS_MODEL.config.gpt_cond_len,
-        max_ref_length=XTTS_MODEL.config.max_ref_len,
-        sound_norm_refs=XTTS_MODEL.config.sound_norm_refs,
-    )
-    if normalize_text and lang == "vi":
-        tts_text = normalize_vietnamese_text(tts_text)
     # Split text by sentence
     if lang in ["ja", "zh-cn"]:
@@ -233,7 +244,7 @@ if __name__ == "__main__":
     REFERENCE_AUDIO = os.path.join(SCRIPT_DIR, "audio.wav")
     t1 = threading.Thread(target=MyThread1, args=[])
     t1.start()
     with gr.Blocks() as demo:
         intro = """
         # Fake giọng Demo
@@ -279,7 +290,7 @@ if __name__ == "__main__":
                 tts_text = gr.Textbox(
                     label="Input Text.",
-                    value="Xin chào, tôi là một công cụ chuyển đổi văn bản thành giọng nói tiếng Việt được phát triển bởi nhóm Nón lá.",
                 )
                 tts_btn = gr.Button(value="Inference", variant="primary")

 MODEL_DIR = os.path.join(SCRIPT_DIR, "model")
 OUTPUT_DIR = os.path.join(SCRIPT_DIR, "output")
 os.makedirs(OUTPUT_DIR, exist_ok=True)
+REF_AUDIO_CACHE = {}
 def clear_gpu_cache():
     print("Model Loaded!")
     return XTTS_MODEL
 def generate_hash(data):
     hash_object = hashlib.md5()
     hash_object.update(data)
 def normalize_vietnamese_text(text):
+    digits = ["không", "một", "hai", "ba", "bốn", "năm", "sáu", "bảy", "tám", "chín"]
     text = (
         text
         .replace("..", ".")
         .replace("AI", "Ây Ai")
         .replace("A.I", "Ây Ai")
     )
+    for i in range(10):
+        text = text.replace(i.__str__(), digits[i]+ " ")
     return text
 def run_tts(lang, tts_text, speaker_audio_file, normalize_text):
+    global XTTS_MODEL, REF_AUDIO_CACHE
     if XTTS_MODEL is None:
+        return "Model đang được load. Vui lòng đợi !!", None, None
     if not speaker_audio_file:
+        return "Cần giọng đọc mẫu !!!", None, None
     print("Computing conditioning latents...")
+    cache_key_ref_audio = speaker_audio_file
+    if cache_key_ref_audio in REF_AUDIO_CACHE:
+        print("Using conditioning latents cache...")
+        gpt_cond_latent, speaker_embedding = REF_AUDIO_CACHE[cache_key_ref_audio]
+    else:
+        gpt_cond_latent, speaker_embedding = XTTS_MODEL.get_conditioning_latents(
+            audio_path=speaker_audio_file,
+            gpt_cond_len=XTTS_MODEL.config.gpt_cond_len,
+            max_ref_length=XTTS_MODEL.config.max_ref_len,
+            sound_norm_refs=XTTS_MODEL.config.sound_norm_refs,
+        )
+        REF_AUDIO_CACHE[cache_key_ref_audio] = (gpt_cond_latent, speaker_embedding)
+    tts_text = normalize_vietnamese_text(tts_text)
     # Split text by sentence
     if lang in ["ja", "zh-cn"]:
     REFERENCE_AUDIO = os.path.join(SCRIPT_DIR, "audio.wav")
     t1 = threading.Thread(target=MyThread1, args=[])
     t1.start()
     with gr.Blocks() as demo:
         intro = """
         # Fake giọng Demo
                 tts_text = gr.Textbox(
                     label="Input Text.",
+                    value="Chào bạn, đây là giọng đọc được sinh ra từ AI",
                 )
                 tts_btn = gr.Button(value="Inference", variant="primary")