Update README.md

Мы натренировали использовали модель от русского гиганта ПАО «СБербанк»
Модель была предварительно обучена с длиной последовательности 1024 с использованием трансформаторов командой SberDevices на 80B токенах около 3 эпох. После этого модель была настроена с размером контекста 2048. Общее время обучения заняло около одной недели на 32 GPU.
Необходимость использования отдельной русской модели обусловлено слабой представленностью русского языка в других языковых моделях Далее мы последовательно дообучивали эту модель на тексте Платона модель прошла 1 эпоху обучения, 7, 10,19

Files changed (1) hide show

README.md +5 -3

README.md CHANGED Viewed

@@ -1,3 +1,5 @@
----
-license: mit
----

+---
+license: mit
+language:
+- ru
+---