VITS-fast-fine-tuning模型分享
1.此模型包含三个说话人,刻晴,神里绫华,钟离。
2.模型训练了500个epoch,使用C底模训练而成。
3.训练的数据为每个说话人至少500条语音。
4.本地推理建议使用官方的推理程序。
5.解压之后把模型和json文件如下放置,之后运行 inference.exe文件即可。
inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth