Español de España es posible?

#3
by ebaxter - opened

Es posible replicar el modelo pero con español de España?

Buenas, sí. En el futuro la idea sería crear un modelo para cada acento, o tener suficientes audios de cada acento como para que el modelo pueda generalizar bien

que bien, aun asi es megnifico, buen trabajo, como puedo ejecutarlo en mi maquina, es posible?

Buenas, gracias! Puedes ejecutarlo con la app pinokio en tu pc.

de donde eres?

Gracias, voy a instalar app pinokio en mi pc a ver que tal.

error.png

Has intentado meter mi github como app no? Creo que no se puede. Tienes que ir a la app de F5 original y meterle ahi el custom model. https://x.com/cocktailpeanut/status/1856035873151918553

nada, no me deja, he instalado otros y perfecto. Gracias por dar a conocer pinokio, es la repera, me encanta. gracias

webdigitaco.png

Es posible acceder al modelo desplegado en Huggingface desde un API?

No se muy bien que necesitas, pero la herramienta es fantástica y la verdad me gustaría colaborar, en lo que mas puedo colaborar seria en limpiar audio para generar muestras de voz, pero ya me dices a ver si puedo hacer algo.

me gustaria poder utilizarla?

No se muy bien que necesitas, pero la herramienta es fantástica y la verdad me gustaría colaborar, en lo que mas puedo colaborar seria en limpiar audio para generar muestras de voz, pero ya me dices a ver si puedo hacer algo.

Estoy experimentando con limpiar el audio utilizando UVR, probablemente lo implemente aquí

Al final ya se puede en español de españa?

Al final ya se puede en español de españa?

Buenas, sigo trabajando en ello

Hola buenas, ¿Cómo se hace el fine tuning de un modelo de este tipo?¿Y se puede ejecutar en local sin necesidad de una app, osea como cualquier transformer o diffusor que lo cargas en la gpu y configuras una ruta de salida para el rsultado?

y para las transcripciones de audios propios como se hace? porque he probado distionts como el wisper de open AI y algunos opensource y los resultados en comparación a los que consigo con el Space de HF son nefastos.

Buenas, tienes discusiones sobre el finetuning aquí. https://github.com/SWivid/F5-TTS Se puede ejecutar en local con el cli o con una api. Para las transcripciones el espacio de HF usa whisper (openai/whisper-large-v3-turbo), pero puedes probar con crispr whisper por ejemplo, o incluso con modelos multimodales como el 4o nativo o el gemini flash 2.0.

Sign up or log in to comment