FRED-T5-large-instruct
🚧 WIP, still training...
Модель ai-forever/FRED-T5-large, обучаемая на инструктивном датасете. Пока что инструкциям следует не очень.
Веса лежат вместе с состоянием оптимизатора, шедулера и Trainer'а. Можно почти спокойно "продолжать" обучение на своих данных.
Usage
Basic
from transformers import pipeline
pipe = pipeline('text2text-generation', model='d0rj/FRED-T5-large-instruct')
pipe('<SC6>Придумай сказку про красную лягушку<extra_id_0>')
Training
Пока что можно следить за обучением здесь на WandB.
Учится в fp32.
Data
Сконкатенировано из разных переведённых инструктивных датасетов.
Всего 1.1B токенов (1133146852) в обучающем сете, 7506075 примеров system_prompt-question-answer. По Chinchilla статье это ~ в 15 раз меньше, чем нужно (но Chinchilla про претрейн).
Resources
Учится в Kaggle на одной P100. Медленно, но верно (лосс падает, а большего мне и не надо).
- Downloads last month
- 10
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Model tree for d0rj/FRED-T5-large-instruct
Base model
ai-forever/FRED-T5-large