SentenceTransformer based on ai-forever/sbert_large_nlu_ru
This is a sentence-transformers model finetuned from ai-forever/sbert_large_nlu_ru on the csv dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: ai-forever/sbert_large_nlu_ru
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 1024 tokens
- Similarity Function: Cosine Similarity
- Training Dataset:
- csv
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'1 июня в России будут отмечать День защиты детей.',
'⚡️1 июня в России отмечают День защиты детей. Этот праздник напоминает нам, взрослым, о той большой ответственности, которую мы несём за подрастающее поколение. Забота о детях – важная государственная задача, от успешного решения которой зависит дальнейшее развитие и благополучие России. Выражаю искреннюю признательность родителям, педагогам и всем, кто вкладывает свои силы в воспитание молодежи, делает наших детей здоровыми и счастливыми! Дорогие ребята! Впереди вас ждут летние дни отдыха. Пусть они запомнятся вам интересными событиями, новыми открытиями, яркими впечатлениями.',
'📌 Продолжается реализация Программы «Единой России» и Минпросвещения РФ по капитальному ремонту учебных заведений. 👉 Программа была инициирована главой государства Владимиром Путиным на съезде «Единой России» в 2021 году. Для контроля всех этапов работ, от проекта до приёмки, «Единая Россия» и Минпросвещения сформировали в регионах родительские штабы. ✅ Только в Краснодарском крае за 2 прошедших года проведен капитальный ремонт в 53 общеобразовательных и 2 коррекционных школах в 19 муниципальных образованиях. На модернизацию и оснащение учебных заведений краем получено более 820 млн. рублей. В 2024 году капитальному ремонту подлежат 6 объектов в 2 образовательных учреждениях Корнеевского и Ейского районов. В 2025-2026 годах будут обновлены 10 объектов в Анапе, Армавире, Выселковском, Ленинградском, Каневском и Успенском районах. Подчеркну, что действие программы, по поручению Владимира Путина, продолжено до 2030 года. Также до 2030 года в регионах по программе капремонта общежитий вузов, колледжей и техникумов будет отремонтировано 800 зданий и построено 25 кампусов мирового уровня. ❗Начиная с 22 июля по 18 августа «Единая Россия» проведёт ежегодный всероссийский мониторинг готовности школ к началу учебного года. 👉 В настоящее время проходит традиционная партийная акция «Собери ребенка в школу», цель которой оказание адресной помощи детям из многодетных, малообеспеченных и других льготных категорий семей в подготовке к началу нового учебного года. Пункты сбора школьных рюкзаков организуются на базе приемных Председателя «Единой России» и в штабах общественной поддержки. Вопросы воспитания детей и укрепления семейных ценностей постоянно находятся в центре внимания «Единой России». Поэтому партия создаёт для подрастающего поколения все условия для получения необходимых знаний и последующей полноценной жизни. #ЕдинаяРоссия #НароднаяПрограммаЕР #Школа',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
csv
- Dataset: csv
- Size: 2,030 training samples
- Columns:
text1
,text2
, andlabel
- Approximate statistics based on the first 1000 samples:
text1 text2 label type string string int details - min: 8 tokens
- mean: 36.73 tokens
- max: 77 tokens
- min: 8 tokens
- mean: 174.29 tokens
- max: 512 tokens
- 0: ~48.90%
- 1: ~51.10%
- Samples:
text1 text2 label 22 июня – День памяти и скорби. День вероломного нападения нацисткой Германии на нашу страну. День, который по-прежнему отзывается негодованием, скорбью в сердцах всех поколений, накрывает болью за искалеченные судьбы миллионов людей.
22 июня — День памяти и скорби. В этот день в 1941 году началась Великая Отечественная война, ставшая самой кровавой и разрушительной в истории страны. В ночь с 21 на 22 июня в городах создадут сотни «огненных картин», посвящённых событиям Великой Отечественной войны. В акции примут участие ветераны, участники спецоперации, депутаты фракции «Единой России» в Госдуме, активисты МГЕР и движения «Волонтёры Победы». Мы будем хранить память и правду о войне. Мы делаем всё возможное и будем продолжать это делать, чтобы наша страна, наша Родина всегда оставалась великой и могущественной державой. Мы навсегда останемся благодарными шагнувшим в бессмертие победителям. Вечная слава павшим за свободу и независимость Родины. Вечная им память. Никто не забыт, ничто не забыто! #ЕдинаяРоссия #ДеньПамяти #ЗнатьЧтобыПомнить #ЕРТатарстан
1
Спортивная нация — это сильная нация. Единая Россия запустила летний этап спортивного марафона «Сила России». Этот проект - не просто набор тренировок, это символ нашего стремления к здоровому образу жизни.
Не только здоровья ради, но и выгоды для😎 3 июня #Правительство внесло в #Госдума поправки в Налоговый кодекс. В них заложены различные социальные истории, и одна из них – про спорт🏀 🏊♀️🚴🏽♀️ С 1 января 2022 года россияне могут возмещать расходы на занятия спортом – за себя и детей. Начиная с расходов, которые произведены с 1 января этого года, подтверждение права на социальный налоговый вычет будет происходить в упрощенном порядке. И это не единственное новшество. Теперь на возврат НДФЛ смогут претендовать и те, кто сдал нормы ГТО или прошел диспансеризацию. Государство таким образом стимулирует нас систематически заниматься спортом и заботиться о своем здоровье, проходя профосмотры. Это целенаправленная стратегия, которую установил Президент и озвучил в Послании, это не просто провозглашение цели – здорового образа жизни нации, но еще и разные государственные меры поддержки: строительство ФОКов, налоговые вычеты, которые можно получить через работодателя или оформить самому, различные общероссийские марафоны и спортивные праздники. Например, #ЕдинаяРоссия запустила летний этап спортивного марафона «Сила России». Он проходит на более чем 1100 площадках с участием известных спортсменов, заслуженных мастеров спорта, Чемпионов России, мира, Европы. Есть и детские занятия, и водные виды спорта – в общем на любой вкус, было бы желание😎 Зарегистрироваться на спортивные мероприятия можно на сайте «Сила России». #СилаРоссии
1
В акции примут участие ветераны, участники спецоперации, депутаты фракции «Единой России» в Госдуме, активисты МГЕР и движения «Волонтёры Победы».
Ассаламу 1алейкум, дорогие друзья! ⠀ 🚩В День памяти и скорби в Грозном прошла памятная акция «Огненные картины войны». ⠀ 🔷По традиции, на картине из свеч изображены нефтяной станок-качалка и самолет советской авиации – символ вклада чеченцев в Победу в Великой Отечественной войне. В День памяти и скорби в городах-героях, городах воинской славы и городах трудовой доблести зажглись изображения из свечей, посвященные вкладу регионов и их жителей в Победу в Великой Отечественной войне. ⠀ 📌Ежегодная международная акция «Огненные картины войны» проходит в рамках федерального партпроекта «Единой России» «Историческая память» по направлению «Культура, истории, традиции» Народной программы партии. Традиционно картины из свеч в память о павших в борьбе с фашизмом зажигаются в более 100 городах воинской Славы России. ⠀ ☑️В Грозном памятная акция состоялась на площади имени А.Ш. Кадырова у Стелы «Город воинской славы» — памятника, установленного 25 июня 2015 года в Грозном в честь присвоения городу почётного звания Российской Федерации «Город воинской славы». ⠀ 💬Долг старшего поколения – передать память о славных Героях, прививать молодежи гордость за свою Родину, уважение к предкам, отдавших жизни ради мира и свободы своих детей. Сегодня мы выражаем огромную признательность всем участникам Великой Отечественной войны и отдаем дань памяти нашим Героям! Мы не должны допустить искажения фактов истории, а обязанностью старшего поколения становится донести до детей и внуков историческую правду. Это и часть стратегии Народной программы партии. ⠀ ✅Далее волонтеры расставили и зажгли свечи, которые отразили инсталляцию «Огненной картины» - по традиции, на ней отражены нефтяной станок-качалка и самолет советской авиации – символ вклада чеченцев в Великую Победу. Именно в Чечне производилось авиационное топливо, которым снабжались самолеты советской армии. Также из свеч выставили лозунг «Грозный помнит!». В исполнении оркестра прозвучали главные песни военных лет, среди которых композиция «Журавли». Память погибших участников Великой Отечественной войны почтили минутой молчания. ⠀ 🌐 Читайте подробно на https://chechen.er.ru ⠀ #ЕдинаяРоссия #ДеньПамятиИСкорби #22июня #огненныекартинывойны #ЧеченскаяРеспублика #ГрозныйПомнит #ЕР95 #СвечаПамяти #Помним #знатьчтобыпомнить #деньпамяти #партпроекты #историческаяпамять #народнаяпрограмма #СторонникиЕР #ЛечхаджиевРуслан
1
- Loss:
CoSENTLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "pairwise_cos_sim" }
Evaluation Dataset
csv
- Dataset: csv
- Size: 2,030 evaluation samples
- Columns:
text1
,text2
, andlabel
- Approximate statistics based on the first 1000 samples:
text1 text2 label type string string int details - min: 8 tokens
- mean: 37.16 tokens
- max: 77 tokens
- min: 8 tokens
- mean: 185.45 tokens
- max: 512 tokens
- 0: ~51.72%
- 1: ~48.28%
- Samples:
text1 text2 label пост с воспоминаниями о школе. Можно вспомнить о своей первой учительнице, школьных друзьях, любимых предметах или просто расскажите об интересных, смешных случаях из школы, которые Вы запомнили на всю жизнь.
Ежегодно 22 июня мы отмечаем День памяти и скорби – день начала Великой Отечественной войны. Именно в этот день в 1941 году фашистская Германия вероломно напала на Советский Союз, положив начало самой разрушительной, жестокой и кровопролитной войне в истории нашей страны, ставшей основной частью Второй мировой войны 1939–1945 годов. В 12 часов 15 минут 22 июня в радиообращении к гражданам страны нарком иностранных дел СССР Вячеслав Молотов объявил о начале войны, завершив своё обращение словами: «Враг будет разбит. Победа будет за нами!» И враг был разбит. И победа осталась за нами. Но для того, чтобы 9 мая 1945 года водрузить знамя Победы над Рейхстагом, потребовалось 1418 бессонных дней и ночей. Общие людские потери СССР в ходе войны составили 26,6 миллиона человек. Полностью или частично были разрушены свыше 1,7 тысячи городов и поселков, свыше 70 тысяч сел и деревень СССР. 📌 Традиционно, в ночь с 21 на 22 июня «Единая Россия», активисты МГЕР и движения «Волонтёры Победы» провели в регионах памятные акции, в ходе которых были созданы сотни «огненных картин», посвящённых событиям Великой Отечественной войны. Аналогичные акции памяти также прошли в 40 странах мира, в том числе в Германии, Индии, Турции, ЮАР, на Кипре, в Сербии, Бразилии, Австралии, Египте, Ливане, Мексике, Нидерландах, Таджикистане, Узбекистане. В этот траурный День мы низко склоняем головы перед всеми погибшими в жестокой схватке с врагом, перед поколением советских людей, выстоявших и завоевавших победу, гарантировавшую свободу и независимость нашей Родины в настоящем и будущем – военнослужащими, тружениками тыла, мирными жителями - всеми, кто внес вклад в Победу, но не смог увидеть ее своими глазами. Память о подвиге советского народа священна, и мы эту память не предадим. Мы сделаем всё возможное, чтобы наша любимая страна всегда оставалась великой и могущественной державой. Вечная слава павшим за свободу и независимость Родины. Вечная им память. #ДеньПамяти #ЗнатьЧтобыПомнить #ЕдинаяРоссия
0
1 июня в России будут отмечать День защиты детей.
Уважаемые друзья! Поздравляю вас с замечательным праздником - Международным днем защиты детей! Дети – самое дорогое, что есть в нашей жизни, мы отдаём им все наше душевное тепло, всю нашу любовь. Мы стремимся сделать всё возможное, чтобы они были здоровыми и счастливыми, получили достойное образование и смогли реализовать себя в жизни. И от нас, взрослых, зависит, какими они станут, и в какой стране будут жить. Выражаю искреннюю признательность родителям, педагогам и всем, кто вкладывает свои силы и душу в воспитание подрастающего поколения. Отдельные слова благодарности – людям, которые подарили семейное счастье приёмным детям. От всей души желаю вам и вашим семьям крепкого здоровья, счастья и благополучия! Пусть у всех детей будет счастливое детство и светлое будущее!
1
Участвуют в сборке и отправке гуманитарной помощи для жителей Донбасса и помощи для мобилизованных, а также поддерживают семьи участников СВО.
Единая Россия совместно с Минпросвещения продолжает реализацию программы капремонта школ. ⠀ За 2022-2024 годы по народной программе капитально отремонтировано 4122 школы, построено 1236 новых школ и 1680 детсадов. Также по данной программе до 2025 года должен быть произведен капремонт школ в г. Боготол, с. Суриково Бирилюсского района, Лесосибирского Кадетского корпуса, с. Долгий Мост Абанского района. ⠀ И еще хочу сообщить, что «Единая Россия» дала старт традиционной партийной акции «Собери ребенка в школу». Партия ежегодно оказывает адресную помощь детям из льготных категорий семей в подготовке к началу нового учебного года. Поучаствовать в акции может каждый, пункты сбора школьных принадлежностей организованы на базе приемных Председателя «Единой России» и в штабах общественной поддержки. ⠀ #ЕдинаяРоссия #НароднаяПрограммаЕР #Школа
0
- Loss:
CoSENTLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "pairwise_cos_sim" }
Training Hyperparameters
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 8per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 3.0max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseeval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseeval_use_gather_object
: Falsebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss |
---|---|---|
2.4631 | 500 | 0.1782 |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.1.0
- Transformers: 4.44.2
- PyTorch: 2.4.0+cu121
- Accelerate: 0.34.2
- Datasets: 3.0.0
- Tokenizers: 0.19.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CoSENTLoss
@online{kexuefm-8847,
title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
author={Su Jianlin},
year={2022},
month={Jan},
url={https://kexue.fm/archives/8847},
}
- Downloads last month
- 0
Inference API (serverless) is not available, repository is disabled.
Model tree for zloishavrin/sbert-ru-pl
Base model
ai-forever/sbert_large_nlu_ru
Finetuned
this model