¿Y si mi dataset no está en el Hub?
Ya sabes cómo usar el Hub de Hugging Face para descargar datasets, pero usualmente vas a tener que trabajar con datos que están guardados en tu computador o en un servidor remoto. En esta sección te mostraremos cómo usar 🤗 Datasets para cargar conjuntos de datos que no están disponibles en el Hub de Hugging Face.
Trabajando con datos locales y remotos
🤗 Datasets contiene scripts para cargar datasets locales y remotos que soportan formatos comunes de datos como:
Formato de datos | Script de carga | Ejemplo |
---|---|---|
CSV y TSV | csv | load_dataset("csv", data_files="my_file.csv") |
Archivos de texto | text | load_dataset("text", data_files="my_file.txt") |
JSON y JSON Lines | json | load_dataset("json", data_files="my_file.jsonl") |
Pickled DataFrames | pandas | load_dataset("pandas", data_files="my_dataframe.pkl") |
Como ves en la tabla, para cada formato de datos solo tenemos que especificar el tipo de script de carga en la función load_dataset()
, así como el argumento data_files
que contiene la ruta a uno o más archivos. Comencemos por cargar un dataset desde archivos locales y luego veremos cómo hacer lo propio para archivos remotos.
Cargando un dataset local
Para este ejemplo, vamos a usar el [dataset SQuAD-it], que es un dataset de gran escala para responder preguntas en italiano.
Los conjuntos de entrenamiento y de prueba están alojados en GitHub, así que podemos descargarlos fácilmente con el comando wget
:
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz !wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz
Esto va a descargar dos archivos comprimidos llamados SQuAD_it-train.json.gz y SQuAD_it-test.json.gz, que podemos descomprimir con el comando gzip
de Linux:
!gzip -dkv SQuAD_it-*.json.gz
SQuAD_it-test.json.gz: 87.4% -- replaced with SQuAD_it-test.json SQuAD_it-train.json.gz: 82.2% -- replaced with SQuAD_it-train.json
De este modo, podemos ver que los archivos comprimidos son reemplazados por los archuvos en formato JSON SQuAD_it-train.json y SQuAD_it-test.json.
✎ Si te preguntas por qué hay un carácter de signo de admiración (!
) en los comandos de shell, esto es porque los estamos ejecutando desde un cuaderno de Jupyter. Si quieres descargar y descomprimir el archivo directamente desde la terminal, elimina el signo de admiración.
Para cargar un archivo JSON con la función load_dataset()
, necesitamos saber si estamos trabajando con un archivo JSON ordinario (parecido a un diccionario anidado) o con JSON Lines (JSON separado por líneas). Como muchos de los datasets de respuesta a preguntas que te vas a encontrar, SQuAD-it usa el formato anidado, en el que el texto está almacenado en un campo data
. Esto significa que podemos cargar el dataset especificando el argumento field
de la siguiente manera:
from datasets import load_dataset
squad_it_dataset = load_dataset("json", data_files="SQuAD_it-train.json", field="data")
Por defecto, cuando cargas archivos locales se crea un objeto DatasetDict
con un conjunto de entrenamiento –train
–. Podemos verlo al inspeccionar el objeto squad_it_dataset
:
squad_it_dataset
DatasetDict({
train: Dataset({
features: ['title', 'paragraphs'],
num_rows: 442
})
})
Esto nos muestra el número de filas y los nombres de las columnas asociadas al conjunto de entrenamiento. Podemos ver uno de los ejemplos al poner un índice en el conjunto de entrenamiento así:
squad_it_dataset["train"][0]
{
"title": "Terremoto del Sichuan del 2008",
"paragraphs": [
{
"context": "Il terremoto del Sichuan del 2008 o il terremoto...",
"qas": [
{
"answers": [{"answer_start": 29, "text": "2008"}],
"id": "56cdca7862d2951400fa6826",
"question": "In quale anno si è verificato il terremoto nel Sichuan?",
},
...
],
},
...
],
}
¡Genial, ya cargamos nuestro primer dataset local! Sin embargo, esto funcionó únicamente para el conjunto de entrenamiento. Realmente, queremos incluir tanto el conjunto train
como el conjunto test
en un único objeto DatasetDict
para poder aplicar las funciones Dataset.map()
en ambos conjuntos al mismo tiempo. Para hacerlo, podemos incluir un diccionario en el argumento datafiles
que mapea cada nombre de conjunto a su archivo asociado:
data_files = {"train": "SQuAD_it-train.json", "test": "SQuAD_it-test.json"}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")
squad_it_dataset
DatasetDict({
train: Dataset({
features: ['title', 'paragraphs'],
num_rows: 442
})
test: Dataset({
features: ['title', 'paragraphs'],
num_rows: 48
})
})
Esto es exactamente lo que queríamos. Ahora podemos aplicar varias técnicas de preprocesamiento para limpiar los datos, tokenizar las reseñas, entre otras tareas.
El argumento data_files
de la función load_dataset()
es muy flexible. Puede ser una única ruta de archivo, una lista de rutas o un diccionario que mapee los nombres de los conjuntos a las rutas de archivo. También puedes buscar archivos que cumplan con cierto patrón específico de acuerdo con las reglas usadas por el shell de Unix (e.g., puedes buscar todos los archivos JSON en una carpeta al definir datafiles="*.json"
). Revisa la documentación para más detalles.
Los scripts de carga en 🤗 Datasets también pueden descomprimir los archivos de entrada automáticamente, así que podemos saltarnos el uso de gzip
especificando el argumento data_files
directamente a la ruta de los archivos comprimidos.
data_files = {"train": "SQuAD_it-train.json.gz", "test": "SQuAD_it-test.json.gz"}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")
Esto puede ser útil si no quieres descomprimir manualmente muchos archivos GZIP. La descompresión automática también aplica para otros formatos de archivo comunes como TAR y ZIP, así que solo necesitas dirigir el argumento data_files
a los archivos comprimidos y ¡listo!.
Ahora que sabes cómo cargar archivos locales en tu computador portátil o de escritorio, veamos cómo cargar archivos remotos.
Cargando un dataset remoto
Si estás trabajando como científico de datos o desarrollador en una compañía, hay una alta probabilidad de que los datasets que quieres analizar estén almacenados en un servidor remoto. Afortunadamente, ¡la carga de archivos remotos es tan fácil como cargar archivos locales! En vez de incluir una ruta de archivo, dirigimos el argumento data_files
de la función load_datasets()
a una o más URL en las que estén almacenados los archivos. Por ejemplo, para el dataset SQuAD-it alojado en GitHub, podemos apuntar data_files
a las URL de SQuAD_it-*.json.gz así:
url = "https://github.com/crux82/squad-it/raw/master/"
data_files = {
"train": url + "SQuAD_it-train.json.gz",
"test": url + "SQuAD_it-test.json.gz",
}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")
Esto devuelve el mismo objeto DatasetDict
que obtuvimos antes, pero nos ahorra el paso de descargar y descomprimir manualmente los archivos SQuAD_it-*.json.gz. Con esto concluimos nuestra exploración de las diferentes maneras de cargar datasets que no están alojados en el Hub de Hugging Face. Ahora que tenemos un dataset para experimentar, ¡pongámonos manos a la obra con diferentes técnicas de procesamiento de datos!
✏️ ¡Inténtalo! Escoge otro dataset alojado en GitHub o en el Repositorio de Machine Learning de UCI e intenta cargarlo local y remotamente usando las técnicas descritas con anterioridad. Para puntos extra, intenta cargar un dataset que esté guardado en un formato CSV o de texto (revisa la documentación pata tener más información sobre estos formatos).