请问 whisper 和 sovits 推荐的 vec 788l12 相比有哪些优劣呢
#3
by
b1ncer
- opened
sovits 4.1 的底模很难找。。看到您这里有,想试试看,顺便问问差异。。
本仓库的预训练模型使用的encoder是whisper-medium,无音量增强
相比vec768l12
优势
- whisper作为一个多语言asr模型,语义还原更为准确(咬字更准)
- whisper提取特征时可以过滤部分特定噪音
劣势
- whisper音色泄漏情况接近hubertsoft,不适合过多说话人的场景
- whisper的总体抗噪能力不如vec768l12
- 对一些非语音部分会产生错误的识别(如吸气声)
- 罕见的对部分音频无法提取特征
- 不支持实时变声
总结下来就是可用,也有突出的优点,但总体是不如vec768l12的
在sovits这个项目里whisper的定位差不多是cnhubert替代,cnhubert在sovits中音色泄漏问题太过严重,追求准确的咬字能力whisper较好一些
十分感谢您的悉心解答!
另外有一个细节想请教一下,音色泄漏问题表现是什么呢?是多说话人会音色趋同吗?如果只炼单说话人,是不是就不需要有音色泄漏的问题
十分感谢您的悉心解答!
另外有一个细节想请教一下,音色泄漏问题表现是什么呢?是多说话人会音色趋同吗?如果只炼单说话人,是不是就不需要有音色泄漏的问题
音色泄漏意思是输出的音频相比目标音色更接近于输入的音色,单说话人可以最大程度上减少音色泄漏造成的影响,但不代表不存在音色泄漏的问题
其他encoder的预训练模型可以看一下https://huggingface.co./ms903
Kakaru
changed discussion status to
closed