DmitryYarov
commited on
Update README.md
Browse filesМы натренировали использовали модель от русского гиганта ПАО «СБербанк»
Модель была предварительно обучена с длиной последовательности 1024 с использованием трансформаторов командой SberDevices на 80B токенах около 3 эпох. После этого модель была настроена с размером контекста 2048. Общее время обучения заняло около одной недели на 32 GPU.
Необходимость использования отдельной русской модели обусловлено слабой представленностью русского языка в других языковых моделях Далее мы последовательно дообучивали эту модель на тексте Платона модель прошла 1 эпоху обучения, 7, 10,19