Spaces:

amphion
/

maskgct

Running on Zero

App Files Files Community

簡體字和繁體字

by yiwei0730 - opened Nov 25, 2024

Discussion

yiwei0730

Nov 25, 2024

想詢問有關簡體字和繁體字的問題
我打上繁體字的時候，有時候他會直接跳過某些字發音，但簡體字的話則不會有這個問題。
想請教一下這個問題該怎麼解決呢?

HarryHe

Amphion org Nov 25, 2024

可以考虑用OpenCC对繁体中文做预处理 https://github.com/BYVoid/OpenCC

yiwei0730

Nov 26, 2024

了解，只是我想了解一下為什麼會有這樣的問題，就是輸入繁體中文和簡體中文對於模型輸入的差異。
一般來說其他使用的模型好像沒遇過這樣的狀況，有點特殊。

HarryHe

Amphion org Nov 26, 2024

了解，只是我想了解一下為什麼會有這樣的問題，就是輸入繁體中文和簡體中文對於模型輸入的差異。
一般來說其他使用的模型好像沒遇過這樣的狀況，有點特殊。

我的猜测跟Emilia-Pipe的ASR部分有关，在Emilia数据集 https://huggingface.co./datasets/amphion/Emilia-Dataset 里，我们尽量保存了简体中文转录文本，因此模型主要基于Emilia的简体中文训练。

yiwei0730

Nov 26, 2024

•

edited Nov 26, 2024

對的我在思考是哪裡出了問題，是不是L239: target_phone_id = g2p_(target_text, target_language)[1]
連結到models/tts/maskgct/g2p/g2p_generation.py中的
L9: from models.tts.maskgct.g2p.g2p import PhonemeBpeTokenizer
的這個tokenizer有關係

所以如果要根本性的解決問題，是否是需要增加繁體中文的資料集後，再把模型整個重新訓練一遍，才能解決問題嗎?

HarryHe

Amphion org Nov 26, 2024

對的我在思考是哪裡出了問題，是不是L239: target_phone_id = g2p_(target_text, target_language)[1]
連結到models/tts/maskgct/g2p/g2p_generation.py中的
L9: from models.tts.maskgct.g2p.g2p import PhonemeBpeTokenizer
的這個tokenizer有關係

所以如果要根本性的解決問題，應該是要把模型整個重新訓練一遍，才能解決問題嗎?

我个人猜测问题来自训练数据没有（或者只有少量）繁体中文，在繁体中文的数据集finetune可能就行

yiwei0730

Nov 26, 2024

•

edited Nov 27, 2024

了解，想要詢問一下作者大大，目前MaskGCT有釋出可訓練或Finetune的版本嗎? 看了一下官方目前似乎並無相關敘述? 只有看到issue說好像再train一個新版本的

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment