NLP Course documentation

本章简介

NLP Course

0. 安装

1. Transformer 模型

2. 使用 🤗 Transformers

3. 微调一个预训练模型

4. 分享你的模型和标记器

5. 🤗 Datasets库

本章简介如果我的数据集不在 Hub 上怎么办？是时候来学一下切片了大数据? 🤗 Datasets 来救援! 创建自己的数据集使用 FAISS 进行语义搜索 🤗 Datasets，回顾！章末小测验

6. 🤗 Tokenizers库

7. 主要的 NLP 任务

8. 如何寻求帮助

9. 构建并分享你的模型

课程活动

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

本章简介

我们在第三章第一次体验了🤗 Datasets 库，了解到微调模型主要有三个步骤：

从 Hugging Face Hub 加载数据集。
使用 Dataset.map() 预处理数据。
加载和计算指标（特征）。

但这仅仅触及了🤗 Datasets 库能做的事情的冰山一角！在本章，我们将深入探索这个库。一路上，我们会找到以下问题的答案：

当你的数据集不在 Hub 上时，你应该怎么做？
你如何切分和操作数据集？（如果你非常需要使用 Pandas，该如何处理？）
当你的数据集非常大，会撑爆你笔记本电脑的 RAM 时，你应该怎么办？
什么是“内存映射”和 “Apache Arrow”？
如何创建自己的数据集并将其推送到中心？

你在这里学到的技术将为你在第六章和第七章中的高级 tokenization 和微调任务做好准备——所以，来杯咖啡，让我们开始吧！

< > Update on GitHub

←章末小测验如果我的数据集不在 Hub 上怎么办？→