Датасеты

#4
by ll2pakll - opened

Привет. Где вы брали датасеты? Я хочу обучить новые модели для RVC.

Здраствуйте - я достаю напрямую из игры.

Здраствуйте - я достаю напрямую из игры.

А у вас они не остались в каком нибудь архиве например? А то я не знаю как из игры достать.

Нет - я их не храню, так-как это занимает много дискового пространства и ощутимо замедляет работоспособность системы. У меня храниться только некоторая часть в виде не сортированных и не обработанных аудио файлов (60 000 с небольшим тысяч).

Нет - я их не храню, так-как это занимает много дискового пространства и ощутимо замедляет работоспособность системы. У меня храниться только некоторая часть в виде не сортированных и не обработанных аудио файлов (60 000 с небольшим тысяч).

Понял. А может поделитесь способом как вы извлекали голоса и сегригировали их по персонажам?

Извлечь файлы озвучки из "Ведьмак 3" не очень сложно, но занимает много машинного времени. Я знаю 2 способа:

  1. Крайне прост, но извлекает далеко не всё и нормально не работает с DLC и NextGen версией (У меня он извлекал +-60к аудио файлов из примерно 120к) - https://github.com/JTGizmo/Extracting-Voice-Over-Audio-from-Witcher-3
  2. Извлекает всё, но не работает из коробки и требует определённых манипуляций - https://www.playground.ru/witcher_3_wild_hunt/guide/the_witcher_3_wild_hunt_drugoe_modkit-1206307

Я использую объединённый способ:

  1. Использую настроенный инструмент из "2. playground" для извлечения ".wav (это сжатый тип, который не открывается без преобразования)" и ".cr2w (Это вроде как файл отвечающий за движения губ и он необходим для преобразования в читабельные аудио файлы)"
  • Для настройки надо следовать инструкции "Гайд по получению всех текстур из игры", но не создавать папку "exported_offzip";
  • Использовать команду lua lua/inspect_w3speech.lua "путь к папке с игрой\content\content0\Язык_Озвучкиpc.w3speech" exported_lua вместо lua lua/unpack_textures.lua texture.cache exported_lua
  • Пример команды для простой работы: lua lua/inspect_w3speech.lua "C:\Games\The_Witcher_3_Wild_Hunt\content\content0\rupc.w3speech" exported_lua
    (Эта команда извлечёт файлы русской озвучки из архива "rupc.w3speech" и поместит сжатые файлы в папку "exported_lua"
  1. Использую инструмент преобразования из "1. github" и преобразовываю файлы из ".wav" и ".cr2w" -> ".ogg" -> ".wav (читабельный PCM)"
  2. Использую текстовый файлы "w3dialog_id.txt" из "1. github" для сопоставления имения аудио файла и персонажей с фразами из игры
  • Пример: После извлечения и преобразования есть файл "0x0002a7e2.wav.ogg.wav" -> захожу в "w3dialog_id.txt" и ищу (для поиска использую "Notepad++") id без расширения "0x0002a7e2" -> находиться строка "48 0x0002a7e2 Geralt: We had a deal. I've done my part. Your turn to do yours."
    (48="Номер фразы по игровому порядку" 0x0002a7e2="Уникальное имя фразы (id)" Geralt:="Имя персонажа (бывает что имя не соответствует внутри игровому и приходится искать по фразам)")
  1. После сопоставления у меня получается следующие название файла "48_0x0002a7e2.wav" или "Rus_48_0x0002a7e2_Geralt"
  2. Сопоставленные фразы необходимо подготовить для обучения в "SO-VITS-SVC" -> Для этого их необходимо преобразовать со следующими параметрами "44100 Гц, Моно 1 канал, 16-Бит" -> Для преобразования можно использовать любой аудио редактор который умеет пакетно обрабатывать аудио файлы (Я использую "Adobe Audition")

Касаемо всего процесса - у меня он уже отточен и во многих вещях упрощён и автоматизирован.

Спасибо за подробную инструкцию. В целом вполне выполнимо, но я ещу попробую помучится с SO-VITS-SVC, потому что исходя из инструкции придётся много эксперементировать пока не получится то что нужно, уйдёт на это несколько недель, которых у меня нет. SO-VITS-SVC и ваши модели замечательные, но к сожалению местами кортавят и сложные слова как напрмиер "пятидесяти" звучат неестественно, но всё равно проделанная вами работа замечательна и мне, как человеку который хочет озвучить свою историю голосами персонажей из the witcher невероятно помогла.

Касаемо картавости - вы на какой голос пытаетесь накладывать модели, так-как звучание очень сильно привязано к говорящему (Я для этих целей в большинстве случаев использую синтезатор речи "Microsoft - Azure (Edge))

Sign up or log in to comment