本章简介
在第三章第一次体验了🤗Datasets 库,并发现在微调模型时有三个主要步骤:
- 从hugs Face Hub加载一个数据集。
- 使用Dataset.map()对数据进行预处理。
- 加载和计算指标(特征)。
但这只是🤗 Datasets的表面功能而已!在本章中,我们将深入了解这个库。在此过程中,我们将找到以下问题的答案:
- 当数据集不在hub上时,您该怎么做?
- 如何对数据集进行切片?(如果你真正的特别需要使用pandas的时候该怎么办?)
- 当你的数据集很大,会撑爆你笔记本电脑的RAM时,你会怎么做?
- “内存映射”和Apache Arrow到底是什么?
- 如何创建自己的数据集并将其推送到中心?