ModernBERT-Base

This is a sentence-transformers model finetuned from answerdotai/ModernBERT-base on the avemio/GRAG-EMBEDDING-TRIPLES-HESSIAN-AI dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("avemio-digital/ModernBERT_base_triples_embedding")
# Run inference
sentences = [
    'Wieso verklagte die Familie von Ritter die behandelnden Ärzte auf 67 Millionen US-Dollar Schadensersatz?',
    'Während Proben zu einer Folge von "Meine wilden Töchter" traten bei Ritter im September 2003 starke Brustschmerzen auf, und er begab sich in das nahegelegene "Providence Saint Joseph Medical Center", in dem er am 11. September 2003 im Alter von 54 Jahren – eine Woche vor seinem 55. Geburtstag – an einer Aortendissektion starb. Seine Familie verklagte Anfang 2008 die behandelnden Ärzte auf einen Schadensersatz von 67 Millionen US-Dollar. Die Klage wurde im März 2008 abgewiesen.',
    'Nach der Einstellung der Fernsehserie "Herzbube mit zwei Damen" nach acht Staffeln im Jahr 1984 machte er mit dem Spin-off "Three’s A Crowd" weiter, jedoch wurde die Serie nach einer Staffel eingestellt. Weitere Fernsehrollen hatte er in "Inspektor Hooperman" (1987), die ihm eine Nominierung sowohl für den Golden Globe als auch für den Emmy einbrachte, "Küß’ mich, John" (1992), "Ally McBeal" (1997), "Buffy – Im Bann der Dämonen" (1997), "Clifford the Big Red Dog" (2000), "Scrubs – Die Anfänger" oder "Meine wilden Töchter" (2002).',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.5818
cosine_accuracy@3 0.9328
cosine_accuracy@5 0.9522
cosine_accuracy@10 0.9682
cosine_precision@1 0.5818
cosine_precision@3 0.3109
cosine_precision@5 0.1904
cosine_precision@10 0.0968
cosine_recall@1 0.5818
cosine_recall@3 0.9328
cosine_recall@5 0.9522
cosine_recall@10 0.9682
cosine_ndcg@10 0.814
cosine_mrr@10 0.7608
cosine_map@100 0.7618

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 264,810 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 28 tokens
    • mean: 54.52 tokens
    • max: 307 tokens
    • min: 30 tokens
    • mean: 184.58 tokens
    • max: 1293 tokens
    • min: 33 tokens
    • mean: 151.69 tokens
    • max: 1297 tokens
  • Samples:
    anchor positive negative
    Was passiert, als die Haeduer sich gegen Caesar erheben und die Römer die Schlacht um Gergovia führen? Während er Titus Labienus mit vier Legionen in die Gebiete der Senonen und Parisier verlegt, macht sich Caesar auf nach Gergovia ins Gebiet der Arverner und die Heimat des Vercingetorix. Die Haeduer erheben sich jedoch schon bald gegen Caesar. Während die Schlacht um Gergovia tobt, rücken die Haeduer auf die römischen Truppen zu. Die Römer verlieren an diesem Tag fast siebenhundert Männer, können die Stadt aber nicht einnehmen. Caesar zieht weiter zur Stadt Noviodunum, die von den Haeduern zerstört wurde, während Labienus gegen die Stadt Lutetia zieht. Dort kommt es für Labienus zur siegreichen Schlacht. Die Gallier fliehen. Nach drei Tagen vereinigen sich seine Truppen mit denen Caesars. Unterdessen hält Vercingetorix gallischen Landtag in Bibracte. Fast alle gallischen Stämme nehmen teil und bestätigen Vercingetorix als Feldherrn. Es kommt zur Schlacht, in deren Verlauf die gallischen Reiter am Fluss Armançon vernichtet werden. Vercingetorix zieht mit seinen Fußtruppen zur Festung Alesia ab. Dort kommt es erneut zum Kampf, den Caesar dank germanischer Hilfstruppen für sich entscheiden kann. Ihm gelingt es, die Gallier einzuschließen und ein ausgeklügeltes Befestigungssystem rund um die Stadt zu errichten. Die eingeschlossenen Gallier warten jetzt dringend auf heranziehende gallische Hilfstruppen, denn ihre Lebensmittelvorräte sind fast aufgebraucht. Die Gallier diskutieren die Möglichkeit, sich zu ergeben. In der flammenden Rede des Arverners Critognatus spricht sich dieser gegen eine Kapitulation aus und überzeugt die Übrigen. Reitergefechte eröffnen die nächsten Kampfhandlungen, bis zum Abend bahnt sich aber keine Entscheidung an. Auch in den kommenden Tagen gelingt...
    Wo war die Geburtsstätte der Hip-Hop-Musik und welches Label spielte eine bedeutende Rolle in den 1990er Jahren an der US-Ostküste? Hip-Hop-Musik entstand in New York City, an der US-Ostküste. Obwohl es inzwischen auch andere wichtige Zentren wie zum Beispiel Philadelphia und Los Angeles gibt, ist die Stadt bis heute das Zentrum der Szene. 1992 begann sich die Musikszene zu verändern. Hip-Hop-Musik wurde immer mehr und schließlich endgültig vom Mainstream übernommen und versprach, kommerziell sehr lukrativ zu werden. Ein wichtiges Label an der Ostküste war zu dieser Zeit Bad Boy Entertainment von Puff Daddy, dort veröffentlichten Craig Mack, Mase und The Notorious B.I.G. East Coast vs. West Coast ("Ostküste gegen Westküste") ist die gängigste Bezeichnung für den bekanntesten "Beef" – eine Fehde im Hip-Hop. Bei der in der Mitte der 1990er-Jahre stattfindenden Auseinandersetzung handelte es sich um eine Rivalität zwischen den Plattenfirmen Bad Boy Entertainment aus New York City und Death Row Records aus Los Angeles sowie den dazugehörigen Rappern und Produzenten, die gewaltsam eskalierte. In ihrer Folge wurden unter anderem die Rapper Tupac Shakur und Notorious B.I.G. erschossen, wobei die Täter und der jeweilige Zusammenhang mit der Fehde ungeklärt blieben. Benannt ist der Konflikt nach den Szenen des Eastcoast-Hip-Hops und des Westcoast-Hip-Hops.
    Die Annäherung zwischen Nord- und Südkorea in Bezug auf die Olympischen Spiele von 2018 beinhaltete gemeinsame Gespräche, die Einigung auf die Teilnahme nordkoreanischer Athleten sowie das gemeinsame Eintreten bei der Eröffnungsfeier und im Frauen-Eishockey. Am 1. Januar 2018 sagte der nordkoreanische Machthaber Kim Jong-un in seiner Neujahrsansprache, dass die beiden Länder wieder gemeinsame Gespräche führen sollten. Am 9. Januar 2018 trafen sich Regierungsvertreter beider Länder und einigten sich unter anderem auf Athleten aus Nordkorea bei den Wettkämpfen in Südkorea. Am 17. Januar 2018 sagte ein Sprecher des südkoreanischen Vereinigungsministeriums, dass die beiden Länder unter dem Namen „Korea“ bei der Eröffnungsfeier gemeinsam einlaufen und im Frauen-Eishockey gemeinsam antreten würden. Während der XXIII. Olympischen Winterspiele gab es vier Dopingfälle. So wurde der japanische Shorttracker Kei Saito positiv auf das Diuretikum Acetazolamid, der slowenische Eishockeyspieler Žiga Jeglič positiv auf das Asthmamittel Fenoterol, der russische Curler Alexander Alexandrowitsch Kruschelnizki positiv auf das Herzmittel Meldonium und die russische Bobfahrerin Nadeschda Wiktorowna Sergejewa positiv auf das Herzmittel Trimetazidin getestet. Alle vier Athleten wurden von der Veranstaltung ausgeschlossen. Außerdem wurden dem russischen Curler und seiner Partnerin die zuvor gewonnene Bronzemedaille bei den Mixed Doubles aberkannt und dem norwegischen Team Kristin Skaslien/Magnus Nedregotten zugesprochen.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768
        ],
        "matryoshka_weights": [
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • gradient_accumulation_steps: 16
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • bf16: True
  • tf32: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 16
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: True
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_768_cosine_ndcg@10
0.0048 10 39.6025 -
0.0097 20 37.9613 -
0.0145 30 34.1056 -
0.0193 40 27.0495 -
0.0242 50 17.7033 -
0.0290 60 11.5513 -
0.0338 70 8.059 -
0.0387 80 5.7182 -
0.0435 90 4.1844 -
0.0483 100 3.5612 -
0.0532 110 2.7178 -
0.0580 120 2.4993 -
0.0628 130 2.0754 -
0.0677 140 1.9418 -
0.0725 150 1.4704 -
0.0773 160 1.3959 -
0.0822 170 1.4232 -
0.0870 180 1.5266 -
0.0918 190 1.2147 -
0.0967 200 1.3711 -
0.1015 210 1.0753 -
0.1063 220 1.156 -
0.1112 230 1.3619 -
0.1160 240 1.1122 -
0.1208 250 1.0742 -
0.1257 260 1.136 -
0.1305 270 0.858 -
0.1353 280 1.068 -
0.1402 290 0.6717 -
0.1450 300 0.8825 -
0.1498 310 0.7441 -
0.1547 320 0.8464 -
0.1595 330 0.7714 -
0.1643 340 0.8174 -
0.1692 350 0.7368 -
0.1740 360 0.741 -
0.1788 370 0.6764 -
0.1837 380 0.7638 -
0.1885 390 0.7172 -
0.1933 400 0.7113 -
0.1982 410 0.7091 -
0.2030 420 0.5405 -
0.2078 430 0.5891 -
0.2127 440 0.6461 -
0.2175 450 0.781 -
0.2223 460 0.6744 -
0.2272 470 0.5077 -
0.2320 480 0.7061 -
0.2368 490 0.5176 -
0.2417 500 0.4864 -
0.2465 510 0.5373 -
0.2513 520 0.5507 -
0.2562 530 0.6507 -
0.2610 540 0.5708 -
0.2658 550 0.4801 -
0.2707 560 0.3825 -
0.2755 570 0.5892 -
0.2803 580 0.5823 -
0.2852 590 0.51 -
0.2900 600 0.5337 -
0.2948 610 0.5187 -
0.2997 620 0.471 -
0.3045 630 0.5821 -
0.3093 640 0.3278 -
0.3142 650 0.5094 -
0.3190 660 0.4114 -
0.3238 670 0.4379 -
0.3287 680 0.5234 -
0.3335 690 0.5318 -
0.3383 700 0.4787 -
0.3432 710 0.3483 -
0.3480 720 0.465 -
0.3528 730 0.4302 -
0.3577 740 0.3866 -
0.3625 750 0.453 -
0.3673 760 0.3842 -
0.3722 770 0.4903 -
0.3770 780 0.33 -
0.3819 790 0.4736 -
0.3867 800 0.3975 -
0.3915 810 0.3676 -
0.3964 820 0.2913 -
0.4012 830 0.4038 -
0.4060 840 0.4749 -
0.4109 850 0.4103 -
0.4157 860 0.4588 -
0.4205 870 0.3013 -
0.4254 880 0.4855 -
0.4302 890 0.3959 -
0.4350 900 0.3933 -
0.4399 910 0.3598 -
0.4447 920 0.4467 -
0.4495 930 0.4035 -
0.4544 940 0.4247 -
0.4592 950 0.4468 -
0.4640 960 0.3264 -
0.4689 970 0.3445 -
0.4737 980 0.363 -
0.4785 990 0.3709 -
0.4834 1000 0.4586 -
0.4882 1010 0.3139 -
0.4930 1020 0.567 -
0.4979 1030 0.3755 -
0.5027 1040 0.2952 -
0.5075 1050 0.3576 -
0.5124 1060 0.311 -
0.5172 1070 0.381 -
0.5220 1080 0.3554 -
0.5269 1090 0.3065 -
0.5317 1100 0.4087 -
0.5365 1110 0.2437 -
0.5414 1120 0.4124 -
0.5462 1130 0.435 -
0.5510 1140 0.2396 -
0.5559 1150 0.3464 -
0.5607 1160 0.3872 -
0.5655 1170 0.4872 -
0.5704 1180 0.351 -
0.5752 1190 0.2864 -
0.5800 1200 0.4254 -
0.5849 1210 0.3073 -
0.5897 1220 0.3146 -
0.5945 1230 0.268 -
0.5994 1240 0.3106 -
0.6042 1250 0.426 -
0.6090 1260 0.4197 -
0.6139 1270 0.3648 -
0.6187 1280 0.272 -
0.6235 1290 0.3805 -
0.6284 1300 0.3631 -
0.6332 1310 0.265 -
0.6380 1320 0.288 -
0.6429 1330 0.2716 -
0.6477 1340 0.3444 -
0.6525 1350 0.2418 -
0.6574 1360 0.3825 -
0.6622 1370 0.2237 -
0.6670 1380 0.2659 -
0.6719 1390 0.244 -
0.6767 1400 0.2628 -
0.6815 1410 0.3385 -
0.6864 1420 0.3503 -
0.6912 1430 0.3228 -
0.6960 1440 0.3461 -
0.7009 1450 0.3283 -
0.7057 1460 0.3345 -
0.7105 1470 0.429 -
0.7154 1480 0.254 -
0.7202 1490 0.196 -
0.7250 1500 0.3695 -
0.7299 1510 0.2672 -
0.7347 1520 0.3063 -
0.7395 1530 0.3582 -
0.7444 1540 0.3276 -
0.7492 1550 0.3168 -
0.7540 1560 0.3315 -
0.7589 1570 0.3494 -
0.7637 1580 0.3574 -
0.7685 1590 0.2926 -
0.7734 1600 0.3158 -
0.7782 1610 0.2219 -
0.7830 1620 0.2301 -
0.7879 1630 0.3057 -
0.7927 1640 0.2204 -
0.7975 1650 0.2708 -
0.8024 1660 0.2864 -
0.8072 1670 0.3662 -
0.8120 1680 0.2674 -
0.8169 1690 0.284 -
0.8217 1700 0.2438 -
0.8265 1710 0.3772 -
0.8314 1720 0.3122 -
0.8362 1730 0.2474 -
0.8410 1740 0.2981 -
0.8459 1750 0.2331 -
0.8507 1760 0.2858 -
0.8555 1770 0.2362 -
0.8604 1780 0.254 -
0.8652 1790 0.2155 -
0.8700 1800 0.2614 -
0.8749 1810 0.2149 -
0.8797 1820 0.2774 -
0.8845 1830 0.3404 -
0.8894 1840 0.2184 -
0.8942 1850 0.2138 -
0.8990 1860 0.3272 -
0.9039 1870 0.3183 -
0.9087 1880 0.2401 -
0.9135 1890 0.2773 -
0.9184 1900 0.2353 -
0.9232 1910 0.2686 -
0.9280 1920 0.3028 -
0.9329 1930 0.2799 -
0.9377 1940 0.4128 -
0.9425 1950 0.1866 -
0.9474 1960 0.2149 -
0.9522 1970 0.2565 -
0.9570 1980 0.3198 -
0.9619 1990 0.2368 -
0.9667 2000 0.1715 -
0.9715 2010 0.2219 -
0.9764 2020 0.2335 -
0.9812 2030 0.2485 -
0.9860 2040 0.2966 -
0.9909 2050 0.2007 -
0.9957 2060 0.2383 -
0.9996 2068 - 0.8064
0.0048 10 0.2327 -
0.0097 20 0.2529 -
0.0145 30 0.2527 -
0.0193 40 0.2244 -
0.0242 50 0.4014 -
0.0290 60 0.3844 -
0.0338 70 0.2978 -
0.0387 80 0.3432 -
0.0435 90 0.184 -
0.0483 100 0.3491 -
0.0532 110 0.2435 -
0.0580 120 0.2032 -
0.0628 130 0.257 -
0.0677 140 0.3178 -
0.0725 150 0.2575 -
0.0773 160 0.2099 -
0.0822 170 0.232 -
0.0870 180 0.2196 -
0.0918 190 0.2303 -
0.0967 200 0.271 -
0.1015 210 0.1831 -
0.1063 220 0.1815 -
0.1112 230 0.2543 -
0.1160 240 0.2217 -
0.1208 250 0.2435 -
0.1257 260 0.247 -
0.1305 270 0.2078 -
0.1353 280 0.1966 -
0.1402 290 0.13 -
0.1450 300 0.1588 -
0.1498 310 0.1402 -
0.1547 320 0.1944 -
0.1595 330 0.1297 -
0.1643 340 0.2317 -
0.1692 350 0.137 -
0.1740 360 0.1501 -
0.1788 370 0.1475 -
0.1837 380 0.1325 -
0.1885 390 0.1457 -
0.1933 400 0.1415 -
0.1982 410 0.1256 -
0.2030 420 0.1201 -
0.2078 430 0.0994 -
0.2127 440 0.1208 -
0.2175 450 0.158 -
0.2223 460 0.1329 -
0.2272 470 0.1148 -
0.2320 480 0.1643 -
0.2368 490 0.1067 -
0.2417 500 0.089 -
0.2465 510 0.1037 -
0.2513 520 0.1159 -
0.2562 530 0.102 -
0.2610 540 0.1189 -
0.2658 550 0.0932 -
0.2707 560 0.0655 -
0.2755 570 0.1196 -
0.2803 580 0.1225 -
0.2852 590 0.1129 -
0.2900 600 0.098 -
0.2948 610 0.1093 -
0.2997 620 0.094 -
0.3045 630 0.1147 -
0.3093 640 0.0661 -
0.3142 650 0.1133 -
0.3190 660 0.0813 -
0.3238 670 0.0922 -
0.3287 680 0.1496 -
0.3335 690 0.113 -
0.3383 700 0.1132 -
0.3432 710 0.0712 -
0.3480 720 0.1276 -
0.3528 730 0.1022 -
0.3577 740 0.0779 -
0.3625 750 0.1139 -
0.3673 760 0.0753 -
0.3722 770 0.1194 -
0.3770 780 0.0701 -
0.3819 790 0.1178 -
0.3867 800 0.0992 -
0.3915 810 0.0906 -
0.3964 820 0.0699 -
0.4012 830 0.1325 -
0.4060 840 0.1236 -
0.4109 850 0.1026 -
0.4157 860 0.1389 -
0.4205 870 0.087 -
0.4254 880 0.134 -
0.4302 890 0.1171 -
0.4350 900 0.1081 -
0.4399 910 0.1205 -
0.4447 920 0.0975 -
0.4495 930 0.1331 -
0.4544 940 0.1272 -
0.4592 950 0.1445 -
0.4640 960 0.0818 -
0.4689 970 0.0996 -
0.4737 980 0.1063 -
0.4785 990 0.1124 -
0.4834 1000 0.168 -
0.4882 1010 0.0961 -
0.4930 1020 0.1498 -
0.4979 1030 0.1202 -
0.5027 1040 0.1063 -
0.5075 1050 0.1772 -
0.5124 1060 0.1073 -
0.5172 1070 0.1248 -
0.5220 1080 0.1265 -
0.5269 1090 0.1239 -
0.5317 1100 0.1154 -
0.5365 1110 0.0984 -
0.5414 1120 0.1572 -
0.5462 1130 0.149 -
0.5510 1140 0.0775 -
0.5559 1150 0.1215 -
0.5607 1160 0.1423 -
0.5655 1170 0.2041 -
0.5704 1180 0.1489 -
0.5752 1190 0.1116 -
0.5800 1200 0.1711 -
0.5849 1210 0.1188 -
0.5897 1220 0.1028 -
0.5945 1230 0.0867 -
0.5994 1240 0.1198 -
0.6042 1250 0.1741 -
0.6090 1260 0.1689 -
0.6139 1270 0.1622 -
0.6187 1280 0.1141 -
0.6235 1290 0.161 -
0.6284 1300 0.1321 -
0.6332 1310 0.092 -
0.6380 1320 0.1303 -
0.6429 1330 0.1126 -
0.6477 1340 0.1341 -
0.6525 1350 0.0947 -
0.6574 1360 0.2087 -
0.6622 1370 0.1157 -
0.6670 1380 0.1085 -
0.6719 1390 0.0938 -
0.6767 1400 0.125 -
0.6815 1410 0.163 -
0.6864 1420 0.1575 -
0.6912 1430 0.1585 -
0.6960 1440 0.1875 -
0.7009 1450 0.1624 -
0.7057 1460 0.1535 -
0.7105 1470 0.2075 -
0.7154 1480 0.1321 -
0.7202 1490 0.0914 -
0.7250 1500 0.1906 -
0.7299 1510 0.1301 -
0.7347 1520 0.1832 -
0.7395 1530 0.1919 -
0.7444 1540 0.1693 -
0.7492 1550 0.193 -
0.7540 1560 0.1707 -
0.7589 1570 0.1851 -
0.7637 1580 0.1886 -
0.7685 1590 0.1727 -
0.7734 1600 0.1654 -
0.7782 1610 0.1279 -
0.7830 1620 0.1506 -
0.7879 1630 0.1939 -
0.7927 1640 0.148 -
0.7975 1650 0.1656 -
0.8024 1660 0.1648 -
0.8072 1670 0.2508 -
0.8120 1680 0.1731 -
0.8169 1690 0.1835 -
0.8217 1700 0.1428 -
0.8265 1710 0.231 -
0.8314 1720 0.1976 -
0.8362 1730 0.1659 -
0.8410 1740 0.2064 -
0.8459 1750 0.1229 -
0.8507 1760 0.1709 -
0.8555 1770 0.1506 -
0.8604 1780 0.173 -
0.8652 1790 0.1587 -
0.8700 1800 0.1733 -
0.8749 1810 0.1407 -
0.8797 1820 0.187 -
0.8845 1830 0.2365 -
0.8894 1840 0.1434 -
0.8942 1850 0.1547 -
0.8990 1860 0.2597 -
0.9039 1870 0.2158 -
0.9087 1880 0.1674 -
0.9135 1890 0.196 -
0.9184 1900 0.2011 -
0.9232 1910 0.2137 -
0.9280 1920 0.2141 -
0.9329 1930 0.2114 -
0.9377 1940 0.2817 -
0.9425 1950 0.1285 -
0.9474 1960 0.1401 -
0.9522 1970 0.2044 -
0.9570 1980 0.2434 -
0.9619 1990 0.1693 -
0.9667 2000 0.1225 -
0.9715 2010 0.1716 -
0.9764 2020 0.1703 -
0.9812 2030 0.1686 -
0.9860 2040 0.242 -
0.9909 2050 0.1553 -
0.9957 2060 0.1721 -
0.9996 2068 - 0.8140

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.3.1
  • Transformers: 4.48.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.2.1
  • Datasets: 2.19.1
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
11
Safetensors
Model size
149M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for avemio/GRAG-ModernBERT-Base-TRIPLES

Finetuned
(208)
this model

Dataset used to train avemio/GRAG-ModernBERT-Base-TRIPLES

Evaluation results