README.md · litagin/style_bert_vits2_jvnv at f0580f8a27fc3fcba246b83751836d745f854537

metadata

license: cc-by-sa-4.0
language:
  - ja
  - zh
  - en
pipeline_tag: text-to-speech

Style-Bert-VITS2のJVNVコーパスで学習したモデルファイル（と音声合成に必要ないくつか）です。

スタイル: JVNVコーパスの分類と同じ、Angry, Disgust, Fear, Happy, Sad, Surpriseと、平均のNeutralの7つです(Neutralといいつつかなり入力文章に応じた感情が出ます)。
オンラインデモ

ライセンスはJVNVコーパスのcc-by-sa-4.0を引き継ぎます。

TODO?: JVNVコーパスは非言語発話が冒頭にある場合が多いのが原因で、合成した場合に最初の方の音素長がバグることが多い。非言語発話を削除して学習し直す？かもしれない？

↑非言語を除去したものに置き換えました。音素長は安定したけど笑い声とかは下手になった、がこっちのverのほうが使いやすそうなので置き換えました。