¡Bienvenido al curso de Hugging Face de Audio!
Querido estudiante,
Bienvenido a este curso de transformers para audio. Una y otra vez, los transformers han demostrado ser una de las arquitecturas de aprendizaje profundo más poderosas y versátiles, capaces de lograr resultados que son estado del arte en una amplia gama de tareas, incluyendo el procesamiento del lenguaje natural, visión por computadora y, más recientemente, procesamiento de audio.
En este curso, exploraremos cómo se pueden aplicar los transformers a datos de audio. Aprenderás cómo utilizarlos para abordar una variedad de tareas relacionadas con el audio. Ya sea que estés interesado en reconocimiento de voz, clasificación de audio o generación de habla a partir de texto, los transformers y este curso te brindarán las herramientas necesarias.
Para que puedas tener una idea de lo que estos modelos pueden hacer, di algunas palabras en la siguiente demostración y observa cómo el modelo las ¡transcribe en tiempo real!
A lo largo del curso, adquirirás una comprensión de los aspectos específicos de trabajar con datos de audio. Aprenderás sobre diferentes arquitecturas de transformers y entrenarás tus propios transformers de audio aprovechando potentes modelos pre-entrenados.
Este curso está diseñado para estudiantes con experiencia en aprendizaje profundo y familiaridad general con los transformers. No se requiere experiencia en el procesamiento de datos de audio. Si necesitas repasar tu comprensión de los transformers, echa un vistazo a nuestro Curso de NLP, que profundiza en los fundamentos de los transformers en detalle.
Conoce al equipo del curso
Sanchit Gandhi, Machine Learning Research Engineer en Hugging Face
¡Hola! Soy Sanchit y soy un ingeniero de investigación en aprendizaje automático para audio en el equipo de código abierto de Hugging Face 🤗. Mi enfoque principal es el reconocimiento automático de voz y la traducción, con el objetivo actual de hacer que los modelos de habla sean más rápidos, ligeros y fáciles de usar.
Matthijs Hollemans, Machine Learning Engineer en Hugging Face
Soy Matthijs, y soy un ingeniero de aprendizaje automático para audio en el equipo de código abierto de Hugging Face. También soy el autor de un libro sobre cómo escribir sintetizadores de sonido, y creo plug-ins de audio en mi tiempo libre.
Maria Khalusova, Documentation & Courses at Hugging Face
Soy María, y creo contenido educativo y documentación para hacer que los Transformers y otras herramientas de código abierto sean aún más accesibles. Desgloso conceptos técnicos complejos y ayudo a las personas a comenzar con tecnologías de vanguardia.
Vaibhav Srivastav, ML Developer Advocate Engineer at Hugging Face
Soy Vaibhav (VB) y soy un Ingeniero de Promoción para audio en el equipo de código abierto de Hugging Face. Investigo sobre Texto a Voz(TTS) en lenguajes con bajos recursos y ayudo a llevar el estado del arte de la investigación del habla al público general.
Estructura del curso
El curso esta estructurado en varias unidades que cubren varios temas en profudidad:
- Unidad 1: Aprende sobre los detalles específicos de trabajar con datos de audio, incluyendo técnicas de procesamiento de audio y preparación de datos.
- Unidad 2: Conoce las aplicaciones de audio y aprende a utilizar las pipelines de 🤗 Transformers para diferentes tareas, como clasificación de audio y reconocimiento de voz.
- Unidad 3: Explora las arquitecturas de transformers de audio, aprende en qué se diferencian y para qué tareas son más adecuadas.
- Unidad 4: Aprende cómo construir tu propio clasificador de género musical.
- Unidad 5: Adéntrate en el reconocimiento de voz y construye un modelo para transcribir grabaciones de reuniones.
- Unidad 6: Aprende cómo generar habla a partir de texto.
- Unidad 7: Aprende cómo convertir audio a audio utilizando transformers.
Cada unidad incluye un componente teórico, donde podras adquirir un entendimiento profundo de los conceptos y técnicas. A lo largo del curso, hay quizzes para ayudarte a evaluar to conocimiento y reforzar tu aprendizaje. Algunos capítulos tambien incluyen ejercicios prácticos, en los que tendrás la oportunidad de aplicar todo lo que has aprendido.
Al finalizar el curso, tendras una formación sólida en el uso de transfomers para datos de audio y estarás bien equipado para aplicar este tipo de técnicas a un conjunto amplio de tareas relacionadas con audio.
Las unidades del curso serán publicadas en bloques consecutivos de acuerdo a la siguiente agenda:
Unidades | Fecha de publicación |
---|---|
Unidad 0, Unidad 1, and Unidad 2 | Junio 14, 2023 |
Unidad 3, Unidad 4 | Junio 21, 2023 |
Unidad 5 | Junio 28, 2023 |
Unidad 6 | Julio 5, 2023 |
Unidad 7, Unidad 8 | Julio 12, 2023 |
Rutas de aprendizaje y certificaciones
No hay una manera correcta o erronea de tomar este curso. Todos los materiales en este curso son 100% gratis, públicos y de código abierto. Puedes tomar el curso a tu propio ritmo, sin embargo, recomendamos ir a lo largo de las unidades en orden.
Si quieres tener un certificado al final del curso, ofrecemos dos opciones:
Tipo de certficado | Requerimientos |
---|---|
Certificado de finalización | Completa el 80% de los ejercicios prácticos según las instrucciones. |
Certificado de honor | Completa el 100% de los ejercicios prácticos según las instrucciones. |
Cada ejercicio práctico tiene unos criterios para considerarse completo. Una vez hayas completado suficientes ejericios prácticos para acceder a alguno de los certificados, visita la última unidad del curso para aprender como puedes obtener tu certificado. ¡Buena Suerte!
Suscríbete al curso
Las unidades de este curso seran publicadas gradualmente en el transcurso de un par de semanas. Te animamos a que te suscribas a las actualizaciones del curso y asi no te perderas ninguna unidad cuando sean publicadas. Los estudiantes que se suscriban a las actualizaciones del curso serán los primeros en darse cuenta de los eventos sociales que planeammos organizar.
¡Disfruta el curso!