Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Audio Course documentation

Revisa tu comprensión del material del curso

Audio Course

Unidad 0. ¡Bienvenido al curso!

Unidad 1. Trabajando con datos de audio

¿Qué aprenderás? Introducción a los datos de audio Cargar y Explorar un conjunto de datos Preprocesamiento de datos de audio Transmitiendo datos de audio Quiz Lecturas y recursos adicionales

Unidad 2. A gentle introduction to audio applications

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Revisa tu comprensión del material del curso

1. En que unidades se mide la frecuencia de muestreo?

dB Hz bit

2. Cuando haces streaming de una gran base de datos, ¿Qué tan pronto puedes empezar a usarla?

Tan pronto como se haya descargado el conjunto de datos completo. Tan pronto como los primeros 16 primeros ejemplos esten descargados Tan pronto como el primer ejemplo este descargado

3. ¿Qué es un espectrograma?

Un dispositivo utilizado para digitalizar el audio que es capturado primero por un micrófono, el cual convierte las ondas sonoras en una señal eléctrica. Un gráfico que muestra cómo la amplitud de una señal de audio cambia a lo largo del tiempo. También se conoce como la representación en el dominio del tiempo del sonido. Una representación visual del espectro de frecuencia de la señal que varia con el tiempo.

4. ¿Cúal es la forma más fácil de convertir una señal de audio en el espectro logarítmico de mel esperado por Whisper?

A.

librosa.feature.melspectrogram(audio["array"])

B.

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")
feature_extractor(audio["array"])

C.

dataset.feature(audio["array"], model="whisper")

A B C

5.¿Cómo cargas un dataset desde el 🤗 Hub?

A.

from datasets import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

B.

import librosa

dataset = librosa.load(PATH_TO_DATASET)

C.

from transformers import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

A B C

6. Tu conjunto de datos contiene audios de alta calidad con una frecuencia de muestreo de 32 kHz. Quieres entrenar un modelo de reconocimiento de voz que espera muestras de audio de 16kHz. ¿Qué debes hacer?

Usar el ejemplo como está, el modelo se adaptará facilmente a ejemplos con frecuencias muestreo más altas Usar el modulo Audio de la libreria 🤗 Datasets para hacer hacer downsampling de los ejemplos del conjunto de datos Disminuir la frecuencia de muestreo en un factor de 2x al descartar las muestras intermedias

7. ¿Cómo se puede convertir un espectrograma generado por un modelo de machine learning en una forma de onda?

Podemos usar una red neuronal llamada vocoder para reconstruir la forma de onda a partir del espectrograma. Se puede usar la transforma inversa de ls STFT para convertir el espectrograma en una forma de onda. No se puede convertir un espectrograma generado por un modelo de aprendizaje automático en una forma de onda.

< > Update on GitHub

←Transmitiendo datos de audio

Revisa tu comprensión del material del curso 1. En que unidades se mide la frecuencia de muestreo? 2. Cuando haces streaming de una gran base de datos, ¿Qué tan pronto puedes empezar a usarla? 3. ¿Qué es un espectrograma? 4. ¿Cúal es la forma más fácil de convertir una señal de audio en el espectro logarítmico de mel esperado por Whisper? 5.¿Cómo cargas un dataset desde el 🤗 Hub? 6. Tu conjunto de datos contiene audios de alta calidad con una frecuencia de muestreo de 32 kHz. Quieres entrenar un modelo de reconocimiento de voz que espera muestras de audio de 16kHz. ¿Qué debes hacer? 7. ¿Cómo se puede convertir un espectrograma generado por un modelo de machine learning en una forma de onda?