NLP Course documentation

Introducción

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Introducción

Ask a Question

En el Capítulo 3, revisamos como hacer fine-tuning a un modelo para una tarea dada. Cuando hacemos eso, usamos el mismo tokenizador con el que el modelo fue entrenado — pero, ¿Qué hacemos cuando queremos entrenar un modelo desde cero? En estos casos, usar un tokenizador que fue entrenado en un corpus con otro dominio u otro lenguaje típicamente no es lo más óptimo. Por ejemplo un tokenizador que es entrenado en un corpus en Inglés tendrá un desempeño pobre en un corpus de textos en Japonés porque el uso de los espacios y de la puntuación es muy diferente entre los dos lenguajes.

En este capítulo, aprenderás como entrenar un tokenizador completamente nuevo en un corpus, para que luego pueda ser usado para pre-entrenar un modelo de lenguaje. Todo esto será hecho con la ayuda de la librería 🤗 Tokenizers, la cual provee tokenizadores rápidos (fast tokenizers) en la librería 🤗 Transformers. Miraremos de cerca todas las características que la provee la librería, y explorar cómo los tokenizadores rápidos (fast tokenizers) difieren de las versiones “lentas”.

Los temas a cubrir incluyen:

  • Cómo entrenar un tokenizador nuevo similar a los usados por un checkpoint dado en un nuevo corpus de texto.
  • Las características especiales de los tokenizador rápidos (“fast tokenizers”).
  • Las diferencias entre los tres principales algoritmos de tokenización usados en PLN hoy.
  • Como construir un tokenizador desde cero con la librería 🤗 Tokenizers y entrenarlo en datos.

Las técnicas presentadas en este capítulo te prepararán para la sección en el Capítulo 7 donde estudiaremos cómo crear un modelo de lenguaje para Código Fuente en Python. Comenzaremos en primer lugar revisando qué significa “entrenar” un tokenizador.