DmitryYarov commited on
Commit
30cc432
·
verified ·
1 Parent(s): f1a8306

Update README.md

Browse files

Мы натренировали использовали модель от русского гиганта ПАО «СБербанк»
Модель была предварительно обучена с длиной последовательности 1024 с использованием трансформаторов командой SberDevices на 80B токенах около 3 эпох. После этого модель была настроена с размером контекста 2048. Общее время обучения заняло около одной недели на 32 GPU.
Необходимость использования отдельной русской модели обусловлено слабой представленностью русского языка в других языковых моделях Далее мы последовательно дообучивали эту модель на тексте Платона модель прошла 1 эпоху обучения, 7, 10,19

Files changed (1) hide show
  1. README.md +5 -3
README.md CHANGED
@@ -1,3 +1,5 @@
1
- ---
2
- license: mit
3
- ---
 
 
 
1
+ ---
2
+ license: mit
3
+ language:
4
+ - ru
5
+ ---