ModernBERT-Base
This is a sentence-transformers model finetuned from answerdotai/ModernBERT-base on the avemio/GRAG-EMBEDDING-TRIPLES-HESSIAN-AI dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: answerdotai/ModernBERT-base
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
- Language: de
- License: apache-2.0
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("avemio-digital/ModernBERT_base_triples_embedding")
# Run inference
sentences = [
'Wieso verklagte die Familie von Ritter die behandelnden Ärzte auf 67 Millionen US-Dollar Schadensersatz?',
'Während Proben zu einer Folge von "Meine wilden Töchter" traten bei Ritter im September 2003 starke Brustschmerzen auf, und er begab sich in das nahegelegene "Providence Saint Joseph Medical Center", in dem er am 11. September 2003 im Alter von 54 Jahren – eine Woche vor seinem 55. Geburtstag – an einer Aortendissektion starb. Seine Familie verklagte Anfang 2008 die behandelnden Ärzte auf einen Schadensersatz von 67 Millionen US-Dollar. Die Klage wurde im März 2008 abgewiesen.',
'Nach der Einstellung der Fernsehserie "Herzbube mit zwei Damen" nach acht Staffeln im Jahr 1984 machte er mit dem Spin-off "Three’s A Crowd" weiter, jedoch wurde die Serie nach einer Staffel eingestellt. Weitere Fernsehrollen hatte er in "Inspektor Hooperman" (1987), die ihm eine Nominierung sowohl für den Golden Globe als auch für den Emmy einbrachte, "Küß’ mich, John" (1992), "Ally McBeal" (1997), "Buffy – Im Bann der Dämonen" (1997), "Clifford the Big Red Dog" (2000), "Scrubs – Die Anfänger" oder "Meine wilden Töchter" (2002).',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Information Retrieval
- Dataset:
dim_768
- Evaluated with
InformationRetrievalEvaluator
Metric | Value |
---|---|
cosine_accuracy@1 | 0.5818 |
cosine_accuracy@3 | 0.9328 |
cosine_accuracy@5 | 0.9522 |
cosine_accuracy@10 | 0.9682 |
cosine_precision@1 | 0.5818 |
cosine_precision@3 | 0.3109 |
cosine_precision@5 | 0.1904 |
cosine_precision@10 | 0.0968 |
cosine_recall@1 | 0.5818 |
cosine_recall@3 | 0.9328 |
cosine_recall@5 | 0.9522 |
cosine_recall@10 | 0.9682 |
cosine_ndcg@10 | 0.814 |
cosine_mrr@10 | 0.7608 |
cosine_map@100 | 0.7618 |
Training Details
Training Dataset
json
- Dataset: json
- Size: 264,810 training samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 28 tokens
- mean: 54.52 tokens
- max: 307 tokens
- min: 30 tokens
- mean: 184.58 tokens
- max: 1293 tokens
- min: 33 tokens
- mean: 151.69 tokens
- max: 1297 tokens
- Samples:
anchor positive negative Was passiert, als die Haeduer sich gegen Caesar erheben und die Römer die Schlacht um Gergovia führen?
Während er Titus Labienus mit vier Legionen in die Gebiete der Senonen und Parisier verlegt, macht sich Caesar auf nach Gergovia ins Gebiet der Arverner und die Heimat des Vercingetorix. Die Haeduer erheben sich jedoch schon bald gegen Caesar. Während die Schlacht um Gergovia tobt, rücken die Haeduer auf die römischen Truppen zu. Die Römer verlieren an diesem Tag fast siebenhundert Männer, können die Stadt aber nicht einnehmen. Caesar zieht weiter zur Stadt Noviodunum, die von den Haeduern zerstört wurde, während Labienus gegen die Stadt Lutetia zieht. Dort kommt es für Labienus zur siegreichen Schlacht. Die Gallier fliehen. Nach drei Tagen vereinigen sich seine Truppen mit denen Caesars.
Unterdessen hält Vercingetorix gallischen Landtag in Bibracte. Fast alle gallischen Stämme nehmen teil und bestätigen Vercingetorix als Feldherrn. Es kommt zur Schlacht, in deren Verlauf die gallischen Reiter am Fluss Armançon vernichtet werden. Vercingetorix zieht mit seinen Fußtruppen zur Festung Alesia ab. Dort kommt es erneut zum Kampf, den Caesar dank germanischer Hilfstruppen für sich entscheiden kann. Ihm gelingt es, die Gallier einzuschließen und ein ausgeklügeltes Befestigungssystem rund um die Stadt zu errichten. Die eingeschlossenen Gallier warten jetzt dringend auf heranziehende gallische Hilfstruppen, denn ihre Lebensmittelvorräte sind fast aufgebraucht. Die Gallier diskutieren die Möglichkeit, sich zu ergeben. In der flammenden Rede des Arverners Critognatus spricht sich dieser gegen eine Kapitulation aus und überzeugt die Übrigen. Reitergefechte eröffnen die nächsten Kampfhandlungen, bis zum Abend bahnt sich aber keine Entscheidung an. Auch in den kommenden Tagen gelingt...
Wo war die Geburtsstätte der Hip-Hop-Musik und welches Label spielte eine bedeutende Rolle in den 1990er Jahren an der US-Ostküste?
Hip-Hop-Musik entstand in New York City, an der US-Ostküste. Obwohl es inzwischen auch andere wichtige Zentren wie zum Beispiel Philadelphia und Los Angeles gibt, ist die Stadt bis heute das Zentrum der Szene. 1992 begann sich die Musikszene zu verändern. Hip-Hop-Musik wurde immer mehr und schließlich endgültig vom Mainstream übernommen und versprach, kommerziell sehr lukrativ zu werden. Ein wichtiges Label an der Ostküste war zu dieser Zeit Bad Boy Entertainment von Puff Daddy, dort veröffentlichten Craig Mack, Mase und The Notorious B.I.G.
East Coast vs. West Coast ("Ostküste gegen Westküste") ist die gängigste Bezeichnung für den bekanntesten "Beef" – eine Fehde im Hip-Hop. Bei der in der Mitte der 1990er-Jahre stattfindenden Auseinandersetzung handelte es sich um eine Rivalität zwischen den Plattenfirmen Bad Boy Entertainment aus New York City und Death Row Records aus Los Angeles sowie den dazugehörigen Rappern und Produzenten, die gewaltsam eskalierte. In ihrer Folge wurden unter anderem die Rapper Tupac Shakur und Notorious B.I.G. erschossen, wobei die Täter und der jeweilige Zusammenhang mit der Fehde ungeklärt blieben. Benannt ist der Konflikt nach den Szenen des Eastcoast-Hip-Hops und des Westcoast-Hip-Hops.
Die Annäherung zwischen Nord- und Südkorea in Bezug auf die Olympischen Spiele von 2018 beinhaltete gemeinsame Gespräche, die Einigung auf die Teilnahme nordkoreanischer Athleten sowie das gemeinsame Eintreten bei der Eröffnungsfeier und im Frauen-Eishockey.
Am 1. Januar 2018 sagte der nordkoreanische Machthaber Kim Jong-un in seiner Neujahrsansprache, dass die beiden Länder wieder gemeinsame Gespräche führen sollten. Am 9. Januar 2018 trafen sich Regierungsvertreter beider Länder und einigten sich unter anderem auf Athleten aus Nordkorea bei den Wettkämpfen in Südkorea. Am 17. Januar 2018 sagte ein Sprecher des südkoreanischen Vereinigungsministeriums, dass die beiden Länder unter dem Namen „Korea“ bei der Eröffnungsfeier gemeinsam einlaufen und im Frauen-Eishockey gemeinsam antreten würden.
Während der XXIII. Olympischen Winterspiele gab es vier Dopingfälle. So wurde der japanische Shorttracker Kei Saito positiv auf das Diuretikum Acetazolamid, der slowenische Eishockeyspieler Žiga Jeglič positiv auf das Asthmamittel Fenoterol, der russische Curler Alexander Alexandrowitsch Kruschelnizki positiv auf das Herzmittel Meldonium und die russische Bobfahrerin Nadeschda Wiktorowna Sergejewa positiv auf das Herzmittel Trimetazidin getestet. Alle vier Athleten wurden von der Veranstaltung ausgeschlossen. Außerdem wurden dem russischen Curler und seiner Partnerin die zuvor gewonnene Bronzemedaille bei den Mixed Doubles aberkannt und dem norwegischen Team Kristin Skaslien/Magnus Nedregotten zugesprochen.
- Loss:
MatryoshkaLoss
with these parameters:{ "loss": "MultipleNegativesRankingLoss", "matryoshka_dims": [ 768 ], "matryoshka_weights": [ 1 ], "n_dims_per_step": -1 }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: epochgradient_accumulation_steps
: 16learning_rate
: 2e-05num_train_epochs
: 1lr_scheduler_type
: cosinewarmup_ratio
: 0.1bf16
: Truetf32
: Trueload_best_model_at_end
: Trueoptim
: adamw_torch_fusedbatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: epochprediction_loss_only
: Trueper_device_train_batch_size
: 8per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 16eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: cosinelr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Truelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Trueignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torch_fusedoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Click to expand
Epoch | Step | Training Loss | dim_768_cosine_ndcg@10 |
---|---|---|---|
0.0048 | 10 | 39.6025 | - |
0.0097 | 20 | 37.9613 | - |
0.0145 | 30 | 34.1056 | - |
0.0193 | 40 | 27.0495 | - |
0.0242 | 50 | 17.7033 | - |
0.0290 | 60 | 11.5513 | - |
0.0338 | 70 | 8.059 | - |
0.0387 | 80 | 5.7182 | - |
0.0435 | 90 | 4.1844 | - |
0.0483 | 100 | 3.5612 | - |
0.0532 | 110 | 2.7178 | - |
0.0580 | 120 | 2.4993 | - |
0.0628 | 130 | 2.0754 | - |
0.0677 | 140 | 1.9418 | - |
0.0725 | 150 | 1.4704 | - |
0.0773 | 160 | 1.3959 | - |
0.0822 | 170 | 1.4232 | - |
0.0870 | 180 | 1.5266 | - |
0.0918 | 190 | 1.2147 | - |
0.0967 | 200 | 1.3711 | - |
0.1015 | 210 | 1.0753 | - |
0.1063 | 220 | 1.156 | - |
0.1112 | 230 | 1.3619 | - |
0.1160 | 240 | 1.1122 | - |
0.1208 | 250 | 1.0742 | - |
0.1257 | 260 | 1.136 | - |
0.1305 | 270 | 0.858 | - |
0.1353 | 280 | 1.068 | - |
0.1402 | 290 | 0.6717 | - |
0.1450 | 300 | 0.8825 | - |
0.1498 | 310 | 0.7441 | - |
0.1547 | 320 | 0.8464 | - |
0.1595 | 330 | 0.7714 | - |
0.1643 | 340 | 0.8174 | - |
0.1692 | 350 | 0.7368 | - |
0.1740 | 360 | 0.741 | - |
0.1788 | 370 | 0.6764 | - |
0.1837 | 380 | 0.7638 | - |
0.1885 | 390 | 0.7172 | - |
0.1933 | 400 | 0.7113 | - |
0.1982 | 410 | 0.7091 | - |
0.2030 | 420 | 0.5405 | - |
0.2078 | 430 | 0.5891 | - |
0.2127 | 440 | 0.6461 | - |
0.2175 | 450 | 0.781 | - |
0.2223 | 460 | 0.6744 | - |
0.2272 | 470 | 0.5077 | - |
0.2320 | 480 | 0.7061 | - |
0.2368 | 490 | 0.5176 | - |
0.2417 | 500 | 0.4864 | - |
0.2465 | 510 | 0.5373 | - |
0.2513 | 520 | 0.5507 | - |
0.2562 | 530 | 0.6507 | - |
0.2610 | 540 | 0.5708 | - |
0.2658 | 550 | 0.4801 | - |
0.2707 | 560 | 0.3825 | - |
0.2755 | 570 | 0.5892 | - |
0.2803 | 580 | 0.5823 | - |
0.2852 | 590 | 0.51 | - |
0.2900 | 600 | 0.5337 | - |
0.2948 | 610 | 0.5187 | - |
0.2997 | 620 | 0.471 | - |
0.3045 | 630 | 0.5821 | - |
0.3093 | 640 | 0.3278 | - |
0.3142 | 650 | 0.5094 | - |
0.3190 | 660 | 0.4114 | - |
0.3238 | 670 | 0.4379 | - |
0.3287 | 680 | 0.5234 | - |
0.3335 | 690 | 0.5318 | - |
0.3383 | 700 | 0.4787 | - |
0.3432 | 710 | 0.3483 | - |
0.3480 | 720 | 0.465 | - |
0.3528 | 730 | 0.4302 | - |
0.3577 | 740 | 0.3866 | - |
0.3625 | 750 | 0.453 | - |
0.3673 | 760 | 0.3842 | - |
0.3722 | 770 | 0.4903 | - |
0.3770 | 780 | 0.33 | - |
0.3819 | 790 | 0.4736 | - |
0.3867 | 800 | 0.3975 | - |
0.3915 | 810 | 0.3676 | - |
0.3964 | 820 | 0.2913 | - |
0.4012 | 830 | 0.4038 | - |
0.4060 | 840 | 0.4749 | - |
0.4109 | 850 | 0.4103 | - |
0.4157 | 860 | 0.4588 | - |
0.4205 | 870 | 0.3013 | - |
0.4254 | 880 | 0.4855 | - |
0.4302 | 890 | 0.3959 | - |
0.4350 | 900 | 0.3933 | - |
0.4399 | 910 | 0.3598 | - |
0.4447 | 920 | 0.4467 | - |
0.4495 | 930 | 0.4035 | - |
0.4544 | 940 | 0.4247 | - |
0.4592 | 950 | 0.4468 | - |
0.4640 | 960 | 0.3264 | - |
0.4689 | 970 | 0.3445 | - |
0.4737 | 980 | 0.363 | - |
0.4785 | 990 | 0.3709 | - |
0.4834 | 1000 | 0.4586 | - |
0.4882 | 1010 | 0.3139 | - |
0.4930 | 1020 | 0.567 | - |
0.4979 | 1030 | 0.3755 | - |
0.5027 | 1040 | 0.2952 | - |
0.5075 | 1050 | 0.3576 | - |
0.5124 | 1060 | 0.311 | - |
0.5172 | 1070 | 0.381 | - |
0.5220 | 1080 | 0.3554 | - |
0.5269 | 1090 | 0.3065 | - |
0.5317 | 1100 | 0.4087 | - |
0.5365 | 1110 | 0.2437 | - |
0.5414 | 1120 | 0.4124 | - |
0.5462 | 1130 | 0.435 | - |
0.5510 | 1140 | 0.2396 | - |
0.5559 | 1150 | 0.3464 | - |
0.5607 | 1160 | 0.3872 | - |
0.5655 | 1170 | 0.4872 | - |
0.5704 | 1180 | 0.351 | - |
0.5752 | 1190 | 0.2864 | - |
0.5800 | 1200 | 0.4254 | - |
0.5849 | 1210 | 0.3073 | - |
0.5897 | 1220 | 0.3146 | - |
0.5945 | 1230 | 0.268 | - |
0.5994 | 1240 | 0.3106 | - |
0.6042 | 1250 | 0.426 | - |
0.6090 | 1260 | 0.4197 | - |
0.6139 | 1270 | 0.3648 | - |
0.6187 | 1280 | 0.272 | - |
0.6235 | 1290 | 0.3805 | - |
0.6284 | 1300 | 0.3631 | - |
0.6332 | 1310 | 0.265 | - |
0.6380 | 1320 | 0.288 | - |
0.6429 | 1330 | 0.2716 | - |
0.6477 | 1340 | 0.3444 | - |
0.6525 | 1350 | 0.2418 | - |
0.6574 | 1360 | 0.3825 | - |
0.6622 | 1370 | 0.2237 | - |
0.6670 | 1380 | 0.2659 | - |
0.6719 | 1390 | 0.244 | - |
0.6767 | 1400 | 0.2628 | - |
0.6815 | 1410 | 0.3385 | - |
0.6864 | 1420 | 0.3503 | - |
0.6912 | 1430 | 0.3228 | - |
0.6960 | 1440 | 0.3461 | - |
0.7009 | 1450 | 0.3283 | - |
0.7057 | 1460 | 0.3345 | - |
0.7105 | 1470 | 0.429 | - |
0.7154 | 1480 | 0.254 | - |
0.7202 | 1490 | 0.196 | - |
0.7250 | 1500 | 0.3695 | - |
0.7299 | 1510 | 0.2672 | - |
0.7347 | 1520 | 0.3063 | - |
0.7395 | 1530 | 0.3582 | - |
0.7444 | 1540 | 0.3276 | - |
0.7492 | 1550 | 0.3168 | - |
0.7540 | 1560 | 0.3315 | - |
0.7589 | 1570 | 0.3494 | - |
0.7637 | 1580 | 0.3574 | - |
0.7685 | 1590 | 0.2926 | - |
0.7734 | 1600 | 0.3158 | - |
0.7782 | 1610 | 0.2219 | - |
0.7830 | 1620 | 0.2301 | - |
0.7879 | 1630 | 0.3057 | - |
0.7927 | 1640 | 0.2204 | - |
0.7975 | 1650 | 0.2708 | - |
0.8024 | 1660 | 0.2864 | - |
0.8072 | 1670 | 0.3662 | - |
0.8120 | 1680 | 0.2674 | - |
0.8169 | 1690 | 0.284 | - |
0.8217 | 1700 | 0.2438 | - |
0.8265 | 1710 | 0.3772 | - |
0.8314 | 1720 | 0.3122 | - |
0.8362 | 1730 | 0.2474 | - |
0.8410 | 1740 | 0.2981 | - |
0.8459 | 1750 | 0.2331 | - |
0.8507 | 1760 | 0.2858 | - |
0.8555 | 1770 | 0.2362 | - |
0.8604 | 1780 | 0.254 | - |
0.8652 | 1790 | 0.2155 | - |
0.8700 | 1800 | 0.2614 | - |
0.8749 | 1810 | 0.2149 | - |
0.8797 | 1820 | 0.2774 | - |
0.8845 | 1830 | 0.3404 | - |
0.8894 | 1840 | 0.2184 | - |
0.8942 | 1850 | 0.2138 | - |
0.8990 | 1860 | 0.3272 | - |
0.9039 | 1870 | 0.3183 | - |
0.9087 | 1880 | 0.2401 | - |
0.9135 | 1890 | 0.2773 | - |
0.9184 | 1900 | 0.2353 | - |
0.9232 | 1910 | 0.2686 | - |
0.9280 | 1920 | 0.3028 | - |
0.9329 | 1930 | 0.2799 | - |
0.9377 | 1940 | 0.4128 | - |
0.9425 | 1950 | 0.1866 | - |
0.9474 | 1960 | 0.2149 | - |
0.9522 | 1970 | 0.2565 | - |
0.9570 | 1980 | 0.3198 | - |
0.9619 | 1990 | 0.2368 | - |
0.9667 | 2000 | 0.1715 | - |
0.9715 | 2010 | 0.2219 | - |
0.9764 | 2020 | 0.2335 | - |
0.9812 | 2030 | 0.2485 | - |
0.9860 | 2040 | 0.2966 | - |
0.9909 | 2050 | 0.2007 | - |
0.9957 | 2060 | 0.2383 | - |
0.9996 | 2068 | - | 0.8064 |
0.0048 | 10 | 0.2327 | - |
0.0097 | 20 | 0.2529 | - |
0.0145 | 30 | 0.2527 | - |
0.0193 | 40 | 0.2244 | - |
0.0242 | 50 | 0.4014 | - |
0.0290 | 60 | 0.3844 | - |
0.0338 | 70 | 0.2978 | - |
0.0387 | 80 | 0.3432 | - |
0.0435 | 90 | 0.184 | - |
0.0483 | 100 | 0.3491 | - |
0.0532 | 110 | 0.2435 | - |
0.0580 | 120 | 0.2032 | - |
0.0628 | 130 | 0.257 | - |
0.0677 | 140 | 0.3178 | - |
0.0725 | 150 | 0.2575 | - |
0.0773 | 160 | 0.2099 | - |
0.0822 | 170 | 0.232 | - |
0.0870 | 180 | 0.2196 | - |
0.0918 | 190 | 0.2303 | - |
0.0967 | 200 | 0.271 | - |
0.1015 | 210 | 0.1831 | - |
0.1063 | 220 | 0.1815 | - |
0.1112 | 230 | 0.2543 | - |
0.1160 | 240 | 0.2217 | - |
0.1208 | 250 | 0.2435 | - |
0.1257 | 260 | 0.247 | - |
0.1305 | 270 | 0.2078 | - |
0.1353 | 280 | 0.1966 | - |
0.1402 | 290 | 0.13 | - |
0.1450 | 300 | 0.1588 | - |
0.1498 | 310 | 0.1402 | - |
0.1547 | 320 | 0.1944 | - |
0.1595 | 330 | 0.1297 | - |
0.1643 | 340 | 0.2317 | - |
0.1692 | 350 | 0.137 | - |
0.1740 | 360 | 0.1501 | - |
0.1788 | 370 | 0.1475 | - |
0.1837 | 380 | 0.1325 | - |
0.1885 | 390 | 0.1457 | - |
0.1933 | 400 | 0.1415 | - |
0.1982 | 410 | 0.1256 | - |
0.2030 | 420 | 0.1201 | - |
0.2078 | 430 | 0.0994 | - |
0.2127 | 440 | 0.1208 | - |
0.2175 | 450 | 0.158 | - |
0.2223 | 460 | 0.1329 | - |
0.2272 | 470 | 0.1148 | - |
0.2320 | 480 | 0.1643 | - |
0.2368 | 490 | 0.1067 | - |
0.2417 | 500 | 0.089 | - |
0.2465 | 510 | 0.1037 | - |
0.2513 | 520 | 0.1159 | - |
0.2562 | 530 | 0.102 | - |
0.2610 | 540 | 0.1189 | - |
0.2658 | 550 | 0.0932 | - |
0.2707 | 560 | 0.0655 | - |
0.2755 | 570 | 0.1196 | - |
0.2803 | 580 | 0.1225 | - |
0.2852 | 590 | 0.1129 | - |
0.2900 | 600 | 0.098 | - |
0.2948 | 610 | 0.1093 | - |
0.2997 | 620 | 0.094 | - |
0.3045 | 630 | 0.1147 | - |
0.3093 | 640 | 0.0661 | - |
0.3142 | 650 | 0.1133 | - |
0.3190 | 660 | 0.0813 | - |
0.3238 | 670 | 0.0922 | - |
0.3287 | 680 | 0.1496 | - |
0.3335 | 690 | 0.113 | - |
0.3383 | 700 | 0.1132 | - |
0.3432 | 710 | 0.0712 | - |
0.3480 | 720 | 0.1276 | - |
0.3528 | 730 | 0.1022 | - |
0.3577 | 740 | 0.0779 | - |
0.3625 | 750 | 0.1139 | - |
0.3673 | 760 | 0.0753 | - |
0.3722 | 770 | 0.1194 | - |
0.3770 | 780 | 0.0701 | - |
0.3819 | 790 | 0.1178 | - |
0.3867 | 800 | 0.0992 | - |
0.3915 | 810 | 0.0906 | - |
0.3964 | 820 | 0.0699 | - |
0.4012 | 830 | 0.1325 | - |
0.4060 | 840 | 0.1236 | - |
0.4109 | 850 | 0.1026 | - |
0.4157 | 860 | 0.1389 | - |
0.4205 | 870 | 0.087 | - |
0.4254 | 880 | 0.134 | - |
0.4302 | 890 | 0.1171 | - |
0.4350 | 900 | 0.1081 | - |
0.4399 | 910 | 0.1205 | - |
0.4447 | 920 | 0.0975 | - |
0.4495 | 930 | 0.1331 | - |
0.4544 | 940 | 0.1272 | - |
0.4592 | 950 | 0.1445 | - |
0.4640 | 960 | 0.0818 | - |
0.4689 | 970 | 0.0996 | - |
0.4737 | 980 | 0.1063 | - |
0.4785 | 990 | 0.1124 | - |
0.4834 | 1000 | 0.168 | - |
0.4882 | 1010 | 0.0961 | - |
0.4930 | 1020 | 0.1498 | - |
0.4979 | 1030 | 0.1202 | - |
0.5027 | 1040 | 0.1063 | - |
0.5075 | 1050 | 0.1772 | - |
0.5124 | 1060 | 0.1073 | - |
0.5172 | 1070 | 0.1248 | - |
0.5220 | 1080 | 0.1265 | - |
0.5269 | 1090 | 0.1239 | - |
0.5317 | 1100 | 0.1154 | - |
0.5365 | 1110 | 0.0984 | - |
0.5414 | 1120 | 0.1572 | - |
0.5462 | 1130 | 0.149 | - |
0.5510 | 1140 | 0.0775 | - |
0.5559 | 1150 | 0.1215 | - |
0.5607 | 1160 | 0.1423 | - |
0.5655 | 1170 | 0.2041 | - |
0.5704 | 1180 | 0.1489 | - |
0.5752 | 1190 | 0.1116 | - |
0.5800 | 1200 | 0.1711 | - |
0.5849 | 1210 | 0.1188 | - |
0.5897 | 1220 | 0.1028 | - |
0.5945 | 1230 | 0.0867 | - |
0.5994 | 1240 | 0.1198 | - |
0.6042 | 1250 | 0.1741 | - |
0.6090 | 1260 | 0.1689 | - |
0.6139 | 1270 | 0.1622 | - |
0.6187 | 1280 | 0.1141 | - |
0.6235 | 1290 | 0.161 | - |
0.6284 | 1300 | 0.1321 | - |
0.6332 | 1310 | 0.092 | - |
0.6380 | 1320 | 0.1303 | - |
0.6429 | 1330 | 0.1126 | - |
0.6477 | 1340 | 0.1341 | - |
0.6525 | 1350 | 0.0947 | - |
0.6574 | 1360 | 0.2087 | - |
0.6622 | 1370 | 0.1157 | - |
0.6670 | 1380 | 0.1085 | - |
0.6719 | 1390 | 0.0938 | - |
0.6767 | 1400 | 0.125 | - |
0.6815 | 1410 | 0.163 | - |
0.6864 | 1420 | 0.1575 | - |
0.6912 | 1430 | 0.1585 | - |
0.6960 | 1440 | 0.1875 | - |
0.7009 | 1450 | 0.1624 | - |
0.7057 | 1460 | 0.1535 | - |
0.7105 | 1470 | 0.2075 | - |
0.7154 | 1480 | 0.1321 | - |
0.7202 | 1490 | 0.0914 | - |
0.7250 | 1500 | 0.1906 | - |
0.7299 | 1510 | 0.1301 | - |
0.7347 | 1520 | 0.1832 | - |
0.7395 | 1530 | 0.1919 | - |
0.7444 | 1540 | 0.1693 | - |
0.7492 | 1550 | 0.193 | - |
0.7540 | 1560 | 0.1707 | - |
0.7589 | 1570 | 0.1851 | - |
0.7637 | 1580 | 0.1886 | - |
0.7685 | 1590 | 0.1727 | - |
0.7734 | 1600 | 0.1654 | - |
0.7782 | 1610 | 0.1279 | - |
0.7830 | 1620 | 0.1506 | - |
0.7879 | 1630 | 0.1939 | - |
0.7927 | 1640 | 0.148 | - |
0.7975 | 1650 | 0.1656 | - |
0.8024 | 1660 | 0.1648 | - |
0.8072 | 1670 | 0.2508 | - |
0.8120 | 1680 | 0.1731 | - |
0.8169 | 1690 | 0.1835 | - |
0.8217 | 1700 | 0.1428 | - |
0.8265 | 1710 | 0.231 | - |
0.8314 | 1720 | 0.1976 | - |
0.8362 | 1730 | 0.1659 | - |
0.8410 | 1740 | 0.2064 | - |
0.8459 | 1750 | 0.1229 | - |
0.8507 | 1760 | 0.1709 | - |
0.8555 | 1770 | 0.1506 | - |
0.8604 | 1780 | 0.173 | - |
0.8652 | 1790 | 0.1587 | - |
0.8700 | 1800 | 0.1733 | - |
0.8749 | 1810 | 0.1407 | - |
0.8797 | 1820 | 0.187 | - |
0.8845 | 1830 | 0.2365 | - |
0.8894 | 1840 | 0.1434 | - |
0.8942 | 1850 | 0.1547 | - |
0.8990 | 1860 | 0.2597 | - |
0.9039 | 1870 | 0.2158 | - |
0.9087 | 1880 | 0.1674 | - |
0.9135 | 1890 | 0.196 | - |
0.9184 | 1900 | 0.2011 | - |
0.9232 | 1910 | 0.2137 | - |
0.9280 | 1920 | 0.2141 | - |
0.9329 | 1930 | 0.2114 | - |
0.9377 | 1940 | 0.2817 | - |
0.9425 | 1950 | 0.1285 | - |
0.9474 | 1960 | 0.1401 | - |
0.9522 | 1970 | 0.2044 | - |
0.9570 | 1980 | 0.2434 | - |
0.9619 | 1990 | 0.1693 | - |
0.9667 | 2000 | 0.1225 | - |
0.9715 | 2010 | 0.1716 | - |
0.9764 | 2020 | 0.1703 | - |
0.9812 | 2030 | 0.1686 | - |
0.9860 | 2040 | 0.242 | - |
0.9909 | 2050 | 0.1553 | - |
0.9957 | 2060 | 0.1721 | - |
0.9996 | 2068 | - | 0.8140 |
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 3.3.1
- Transformers: 4.48.1
- PyTorch: 2.5.1+cu124
- Accelerate: 1.2.1
- Datasets: 2.19.1
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 11
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Model tree for avemio/GRAG-ModernBERT-Base-TRIPLES
Base model
answerdotai/ModernBERT-baseDataset used to train avemio/GRAG-ModernBERT-Base-TRIPLES
Evaluation results
- Cosine Accuracy@1 on dim 768self-reported0.582
- Cosine Accuracy@3 on dim 768self-reported0.933
- Cosine Accuracy@5 on dim 768self-reported0.952
- Cosine Accuracy@10 on dim 768self-reported0.968
- Cosine Precision@1 on dim 768self-reported0.582
- Cosine Precision@3 on dim 768self-reported0.311
- Cosine Precision@5 on dim 768self-reported0.190
- Cosine Precision@10 on dim 768self-reported0.097
- Cosine Recall@1 on dim 768self-reported0.582
- Cosine Recall@3 on dim 768self-reported0.933