Spaces:

jpgallegoar
/

Spanish-F5

Running on Zero

App Files Files Community

Español de España es posible?

by ebaxter - opened Nov 15, 2024

Discussion

ebaxter

Nov 15, 2024

Es posible replicar el modelo pero con español de España?

jpgallegoar

Owner Nov 15, 2024

Buenas, sí. En el futuro la idea sería crear un modelo para cada acento, o tener suficientes audios de cada acento como para que el modelo pueda generalizar bien

gonzalolinares

Nov 17, 2024

que bien, aun asi es megnifico, buen trabajo, como puedo ejecutarlo en mi maquina, es posible?

jpgallegoar

Owner Nov 17, 2024

Buenas, gracias! Puedes ejecutarlo con la app pinokio en tu pc.

gonzalolinares

Nov 17, 2024

de donde eres?

gonzalolinares

Nov 17, 2024

Gracias, voy a instalar app pinokio en mi pc a ver que tal.

gonzalolinares

Nov 17, 2024

jpgallegoar

Owner Nov 17, 2024

•

edited Nov 17, 2024

Has intentado meter mi github como app no? Creo que no se puede. Tienes que ir a la app de F5 original y meterle ahi el custom model. https://x.com/cocktailpeanut/status/1856035873151918553

gonzalolinares

Nov 17, 2024

nada, no me deja, he instalado otros y perfecto. Gracias por dar a conocer pinokio, es la repera, me encanta. gracias

Vilabella

Nov 19, 2024

Es posible acceder al modelo desplegado en Huggingface desde un API?

drbafle

Dec 6, 2024

No se muy bien que necesitas, pero la herramienta es fantástica y la verdad me gustaría colaborar, en lo que mas puedo colaborar seria en limpiar audio para generar muestras de voz, pero ya me dices a ver si puedo hacer algo.

gonzalolinares

Dec 6, 2024

me gustaria poder utilizarla?

jpgallegoar

Owner Dec 6, 2024

No se muy bien que necesitas, pero la herramienta es fantástica y la verdad me gustaría colaborar, en lo que mas puedo colaborar seria en limpiar audio para generar muestras de voz, pero ya me dices a ver si puedo hacer algo.

Estoy experimentando con limpiar el audio utilizando UVR, probablemente lo implemente aquí

ebaxter

27 days ago

Al final ya se puede en español de españa?

jpgallegoar

Owner 27 days ago

Al final ya se puede en español de españa?

Buenas, sigo trabajando en ello

BeastDevMoney

7 days ago

Hola buenas, ¿Cómo se hace el fine tuning de un modelo de este tipo?¿Y se puede ejecutar en local sin necesidad de una app, osea como cualquier transformer o diffusor que lo cargas en la gpu y configuras una ruta de salida para el rsultado?

BeastDevMoney

7 days ago

y para las transcripciones de audios propios como se hace? porque he probado distionts como el wisper de open AI y algunos opensource y los resultados en comparación a los que consigo con el Space de HF son nefastos.

jpgallegoar

Owner 7 days ago

Buenas, tienes discusiones sobre el finetuning aquí. https://github.com/SWivid/F5-TTS Se puede ejecutar en local con el cli o con una api. Para las transcripciones el espacio de HF usa whisper (openai/whisper-large-v3-turbo), pero puedes probar con crispr whisper por ejemplo, o incluso con modelos multimodales como el 4o nativo o el gemini flash 2.0.

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment