nickprock commited on
Commit
400d90d
·
verified ·
1 Parent(s): e7b967f

Train completed

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,559 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:39780811
8
+ - loss:MatryoshkaLoss
9
+ - loss:MultipleNegativesRankingLoss
10
+ base_model: DeepMount00/Italian-ModernBERT-base
11
+ widget:
12
+ - source_sentence: numero di telefono del tribunale della contea di garza
13
+ sentences:
14
+ - La città di Bay Minette è il capoluogo della contea di Baldwin e sede del tribunale
15
+ della contea di Baldwin. Visita la nostra sezione governativa per saperne di più
16
+ sui servizi forniti dai governi della città e della contea.
17
+ - Radiatore. È realizzato in metallo che allontana il calore dal processore nelle
18
+ alette. Dispositivo di raffreddamento della CPU senza ventola (passivo). Dispositivi
19
+ di raffreddamento contenenti tubi di calore che contengono una piccola quantità
20
+ di liquido che diventa vapore quando riscaldato, che allontana il calore dalla
21
+ CPU verso le alette del dispositivo di raffreddamento.
22
+ - L'indirizzo del tribunale è 300 W Main St, PO Box 366, Post TX 79356. Il numero
23
+ di telefono del tribunale distrettuale della contea di Garza 106 è 806-495-4430
24
+ e il numero di fax è 806-495-4431. © Copyright 2018 RecordsFinder.com. Tutti
25
+ i diritti riservati.
26
+ - source_sentence: cos'è la connessione a banda larga.
27
+ sentences:
28
+ - ©2018 Atlantic Broadband. Chi siamo; Sedi primarie; Informazioni FCC;
29
+ Privacy; e911; legale
30
+ - 'Il taipan dell''entroterra (Oxyuranus microlepidotus) - noto anche come taipan
31
+ occidentale, serpente dalle piccole scaglie o serpente feroce - è un serpente
32
+ marrone chiaro che varia da una tonalità ricca e scura a un verde chiaro brunastro
33
+ a seconda della stagione . Ha una lunghezza media di circa 1,8 metri (5,9 piedi),
34
+ o le dimensioni di un maschio medio in Svezia. Come sopravvivere: il modo più
35
+ efficace per trattare un morso di taipan nell''entroterra è attraverso l''uso
36
+ di un antidoto polivalente o antidoto ad ampio spettro . Questo è un antidoto
37
+ combinato usato per trattare i morsi di qualsiasi serpente non identificato in
38
+ Australia.'
39
+ - Che cos'è la banda larga? La banda larga è un tipo di connessione Internet ad
40
+ alta velocità che ha superato il dial-up come metodo standard per connettersi
41
+ a Internet. I pacchetti a banda larga sono disponibili in tutte le forme e dimensioni,
42
+ dalla banda larga ADSL alla banda larga via cavo e alla banda larga mobile 3G
43
+ e 4G.
44
+ - source_sentence: qual è l'angolo di elevazione sulla terra?
45
+ sentences:
46
+ - L'elevazione, o altezza geometrica, viene utilizzata principalmente quando si
47
+ fa riferimento a punti sulla superficie terrestre, mentre l'altitudine o l'altezza
48
+ geopotenziale viene utilizzata per punti sopra la superficie, come un aereo in
49
+ volo o un veicolo spaziale in orbita, e la profondità viene utilizzata per punti
50
+ sotto la superficie.
51
+ - Originariamente era chiamato Next Generation Space Telescope (NGST), ma è stato
52
+ ribattezzato in onore dell'amministratore della NASA James Webb (1906-1992). [Webb
53
+ è interpretato da Ken Strunk nel film del 2016 Hidden Figures] James Webb è stato
54
+ nominato dal presidente John F. Kennedy a sovrintendere alla NASA nel 1961, cosa
55
+ che ha fatto fino al 1968. Webb ha supervisionato i primi lanci con equipaggio
56
+ nei programmi Mercury attraverso Gemini e nel 1969 è stato presentato con la Medaglia
57
+ presidenziale della libertà dal presidente Lyndon Johnson.
58
+ - Valvole e sedi di solito hanno lo stesso angolo per accoppiarsi correttamente.
59
+ Quell'angolo è solitamente di 45 gradi, ma in molte applicazioni moderne si possono
60
+ trovare 30 gradi. L'angolo di accoppiamento è spesso accompagnato da tagli dell'angolo
61
+ superiore e inferiore con una deflessione di 15 gradi su ciascun lato dell'angolo
62
+ di accoppiamento.
63
+ - source_sentence: significato di lorica
64
+ sentences:
65
+ - Vitamine del gruppo B. Le vitamine del gruppo B, come folato, niacina, riboflavina
66
+ e tiamina, riducono le malattie cardiache e l'ictus, alleviano lo stress, alleviano
67
+ la depressione, aiutano il sistema nervoso e aiutano a scomporre i carboidrati.
68
+ Le vitamine del gruppo B si trovano in banane, lenticchie, peperoncino, verdure
69
+ a foglia scura, bacche e fagioli.email. Vitamine. Le vitamine del gruppo B, come
70
+ folato, niacina, riboflavina e tiamina, riducono le malattie cardiache e l'ictus,
71
+ alleviano lo stress, alleviano la depressione, aiutano il sistema nervoso e aiutano
72
+ a scomporre i carboidrati. Le vitamine del gruppo B si trovano in banane, lenticchie,
73
+ peperoncino, verdure a foglia scura, bacche e fagioli. e-mail.
74
+ - 'Il nome Lily è un nome greco per bambini. In greco il significato del nome Lily
75
+ è: Lily. Significato ebraico: il nome Lily è un nome ebraico per bambini. In ebraico
76
+ il significato del nome Lily è: Lily. Significato americano: Il nome Lily è un
77
+ nome da bambino americano. In americano il significato del nome Lily è: Lily.n
78
+ Greco il significato del nome Lily è: Lily. Significato ebraico: il nome Lily
79
+ è un nome ebraico per bambini. In ebraico il significato del nome Lily è: Lily.
80
+ Significato americano: il nome Lily è un nome da bambino americano.'
81
+ - 'Freebase (0,00 / 0 voti) Valuta questa definizione: Lorica. Nella tradizione
82
+ monastica cristiana, una lorica è una preghiera recitata per la protezione. La
83
+ parola latina lorica originariamente significava armatura o pettorale. Entrambi
84
+ i significati si uniscono nella pratica di apporre iscrizioni verbali sugli scudi
85
+ o sugli stemmi dei cavalieri, che potrebbero recitarli prima di andare in battaglia.'
86
+ - source_sentence: chi è copa airlines?
87
+ sentences:
88
+ - Copa Airlines è la principale compagnia aerea di Panama, con sede a Panama City.
89
+ Le operazioni del Copa sono concentrate presso l'aeroporto internazionale di Tocumen,
90
+ situato a 15 miglia da Panama City. Fondata nel 1947, Copa Airways ha iniziato
91
+ con tre voli nazionali all'interno di Panama e oggi la compagnia vola verso 29
92
+ paesi e 64 destinazioni in Nord e Sud America e nei Caraibi.
93
+ - L'influenza può essere una malattia grave. I sintomi includono febbre, brividi,
94
+ mal di testa, dolori muscolari, mal di gola, naso che cola, tosse secca e una
95
+ sensazione generale di stanchezza e malessere. Mentre la febbre di solito dura
96
+ da due a cinque giorni, altri sintomi possono persistere per 10 giorni o più.
97
+ Se hai l'influenza, resta a casa, riposa e non esercitarti. Puoi ricominciare
98
+ ad allenarti in sicurezza quando sei stato senza febbre per almeno 24 ore o più.
99
+ Non solo puoi danneggiare il tuo corpo esercitandoti con la febbre, ma potresti
100
+ anche essere in grado di diffondere il virus dell'influenza ad altri. L'influenza
101
+ può essere una grave malattia. I sintomi includono febbre, brividi, mal di testa,
102
+ dolori muscolari, mal di gola, naso che cola, tosse secca e una sensazione generale
103
+ di stanchezza e malessere. Mentre la febbre di solito dura da due a cinque giorni,
104
+ altri sintomi possono persistere per 10 giorni o più.
105
+ - 'AIUTO: Ti trovi sulla pagina dei risultati dal vivo di Copa America amÃ''©rica
106
+ 2015 In/Soccer South america. FlashScore.flashscore com offre classifiche Copa
107
+ america amÃ''©rica, livescore 2015 e risultati parziali copa america amÃ''©rica
108
+ 2015 (e partita, dettagli goal, marcatori rosso, †¦). confronto quote
109
+ carte'
110
+ pipeline_tag: sentence-similarity
111
+ library_name: sentence-transformers
112
+ metrics:
113
+ - cosine_accuracy
114
+ model-index:
115
+ - name: SentenceTransformer based on DeepMount00/Italian-ModernBERT-base
116
+ results:
117
+ - task:
118
+ type: triplet
119
+ name: Triplet
120
+ dataset:
121
+ name: mmarco dev
122
+ type: mmarco_dev
123
+ metrics:
124
+ - type: cosine_accuracy
125
+ value: 0.9254999756813049
126
+ name: Cosine Accuracy
127
+ - task:
128
+ type: triplet
129
+ name: Triplet
130
+ dataset:
131
+ name: mmarco test
132
+ type: mmarco_test
133
+ metrics:
134
+ - type: cosine_accuracy
135
+ value: 0.9129999876022339
136
+ name: Cosine Accuracy
137
+ ---
138
+
139
+ # SentenceTransformer based on DeepMount00/Italian-ModernBERT-base
140
+
141
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [DeepMount00/Italian-ModernBERT-base](https://huggingface.co/DeepMount00/Italian-ModernBERT-base) on the mmarco dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
142
+
143
+ ## Model Details
144
+
145
+ ### Model Description
146
+ - **Model Type:** Sentence Transformer
147
+ - **Base model:** [DeepMount00/Italian-ModernBERT-base](https://huggingface.co/DeepMount00/Italian-ModernBERT-base) <!-- at revision 34324c2191a0209b17c8cd27dbf2f4f9d2821189 -->
148
+ - **Maximum Sequence Length:** 8192 tokens
149
+ - **Output Dimensionality:** 768 dimensions
150
+ - **Similarity Function:** Cosine Similarity
151
+ - **Training Dataset:**
152
+ - mmarco
153
+ <!-- - **Language:** Unknown -->
154
+ <!-- - **License:** Unknown -->
155
+
156
+ ### Model Sources
157
+
158
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
159
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
160
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
161
+
162
+ ### Full Model Architecture
163
+
164
+ ```
165
+ SentenceTransformer(
166
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
167
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
168
+ )
169
+ ```
170
+
171
+ ## Usage
172
+
173
+ ### Direct Usage (Sentence Transformers)
174
+
175
+ First install the Sentence Transformers library:
176
+
177
+ ```bash
178
+ pip install -U sentence-transformers
179
+ ```
180
+
181
+ Then you can load this model and run inference.
182
+ ```python
183
+ from sentence_transformers import SentenceTransformer
184
+
185
+ # Download from the 🤗 Hub
186
+ model = SentenceTransformer("Italian-ModernBERT-base-embed-mmarco-mnrl")
187
+ # Run inference
188
+ sentences = [
189
+ 'chi è copa airlines?',
190
+ "Copa Airlines è la principale compagnia aerea di Panama, con sede a Panama City. Le operazioni del Copa sono concentrate presso l'aeroporto internazionale di Tocumen, situato a 15 miglia da Panama City. Fondata nel 1947, Copa Airways ha iniziato con tre voli nazionali all'interno di Panama e oggi la compagnia vola verso 29 paesi e 64 destinazioni in Nord e Sud America e nei Caraibi.",
191
+ "AIUTO: Ti trovi sulla pagina dei risultati dal vivo di Copa America amÃ'©rica 2015 In/Soccer South america. FlashScore.flashscore com offre classifiche Copa america amÃ'©rica, livescore 2015 e risultati parziali copa america amÃ'©rica 2015 (e partita, dettagli goal, marcatori rosso, †¦). confronto quote carte",
192
+ ]
193
+ embeddings = model.encode(sentences)
194
+ print(embeddings.shape)
195
+ # [3, 768]
196
+
197
+ # Get the similarity scores for the embeddings
198
+ similarities = model.similarity(embeddings, embeddings)
199
+ print(similarities.shape)
200
+ # [3, 3]
201
+ ```
202
+
203
+ <!--
204
+ ### Direct Usage (Transformers)
205
+
206
+ <details><summary>Click to see the direct usage in Transformers</summary>
207
+
208
+ </details>
209
+ -->
210
+
211
+ <!--
212
+ ### Downstream Usage (Sentence Transformers)
213
+
214
+ You can finetune this model on your own dataset.
215
+
216
+ <details><summary>Click to expand</summary>
217
+
218
+ </details>
219
+ -->
220
+
221
+ <!--
222
+ ### Out-of-Scope Use
223
+
224
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
225
+ -->
226
+
227
+ ## Evaluation
228
+
229
+ ### Metrics
230
+
231
+ #### Triplet
232
+
233
+ * Datasets: `mmarco_dev` and `mmarco_test`
234
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
235
+
236
+ | Metric | mmarco_dev | mmarco_test |
237
+ |:--------------------|:-----------|:------------|
238
+ | **cosine_accuracy** | **0.9255** | **0.913** |
239
+
240
+ <!--
241
+ ## Bias, Risks and Limitations
242
+
243
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
244
+ -->
245
+
246
+ <!--
247
+ ### Recommendations
248
+
249
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
250
+ -->
251
+
252
+ ## Training Details
253
+
254
+ ### Training Dataset
255
+
256
+ #### mmarco
257
+
258
+ * Dataset: mmarco
259
+ * Size: 39,780,811 training samples
260
+ * Columns: <code>query</code>, <code>positive</code>, and <code>negative</code>
261
+ * Approximate statistics based on the first 1000 samples:
262
+ | | query | positive | negative |
263
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
264
+ | type | string | string | string |
265
+ | details | <ul><li>min: 4 tokens</li><li>mean: 10.93 tokens</li><li>max: 26 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 95.12 tokens</li><li>max: 532 tokens</li></ul> | <ul><li>min: 20 tokens</li><li>mean: 87.17 tokens</li><li>max: 423 tokens</li></ul> |
266
+ * Samples:
267
+ | query | positive | negative |
268
+ |:---------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
269
+ | <code>cosa significa tbh nei messaggi?</code> | <code>TBH significa essere onesti. TBH Significato: essere onesti. Ci sono quasi 6 milioni di foto con l'hashtag TBH su Instagram. TBH, o To Be Honest, è un acronimo particolarmente popolare su Facebook, ma utilizzato frequentemente anche quando si inviano messaggi di testo, messaggi o chat online. TBH significa âÂÀœPer essere onesti, Â⠀ .</code> | <code>Ora le chiamate e gli sms possono essere fatti praticamente ovunque. Il Wi-Fi è ovunque e oggi il tuo telefono si connette a ogni singola connessione Wi-Fi come se fossero torri T-Mobile. In realtà, falle diventare le tue torri. Ora puoi scegliere come connetterti, indipendentemente da dove ti trovi, a casa, in ufficio, anche fuori dalla portata del cellulare.</code> |
270
+ | <code>effetti del tè nero sul corpo</code> | <code>Gli effetti collaterali del bere troppo tè nero includono difficoltà a dormire, mal di testa, nervosismo, diarrea, irritabilità, battito cardiaco irregolare, confusione, bruciore di stomaco, tremori alle estremità e possibilmente convulsioni. Questi effetti collaterali sono tutti il ​​risultato del contenuto di caffeina nel tè nero. Se sei abituato a bere regolarmente tè nero, in particolare in quantità maggiori, potresti sviluppare una dipendenza fisica e psicologica dalla bevanda, ancora una volta, principalmente a causa del contenuto di caffeina.</code> | <code>Un tipo di tè meno conosciuto, il tè oolong è ottenuto dalle foglie della pianta Camellia sinensis, la stessa pianta utilizzata per produrre tè nero e verde. A differenza del tè nero, che viene ossidato fino a quando le foglie non assumono un colore nero intenso, il tè oolong è parzialmente ossidato. I benefici del tè Oolong.</code> |
271
+ | <code>un genitore può prelevare dal conto di un minore?</code> | <code>Il custode di un conto UGMA/UTMA controlla e gestisce i beni di un minore (il beneficiario del conto). Non è necessario che un genitore sia il custode dell'account e puoi scegliere qualcun altro per gestire un account UGMA / UTMA per conto di tuo figlio. Il custode di un account UGMA / UTMA controlla e gestisce il patrimonio di un minore (il beneficiario del conto). Non è necessario che un genitore sia il custode dell'account e puoi scegliere qualcun altro per gestire un UGMA / UTMA per conto di tuo figlio.</code> | <code>Ciò significa che il totale del tuo account è $ 5.272,50. Secondo le regole Roth IRA (controlla la pubblicazione IRS 590 per ulteriori informazioni), puoi prelevare fino a $ 5.000 senza pagare tasse su di esso e senza pagare una penale. Una volta che attingi ai tuoi guadagni che $272,50  la storia cambia. Puoi prelevare ciò che hai contribuito in qualsiasi momento e per qualsiasi motivo. Ciò significa che il totale del tuo account è $ 5,272,50. In base alle regole Roth IRA (controlla la pubblicazione IRS 590 per ulteriori informazioni), puoi prelevare fino a $ 5.000 senza pagare le tasse su di esso e senza pagare una penale. Una volta che ti immergi nei tuoi guadagni, che sono $272,50, la storia cambia.</code> |
272
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
273
+ ```json
274
+ {
275
+ "loss": "MultipleNegativesRankingLoss",
276
+ "matryoshka_dims": [
277
+ 768,
278
+ 512,
279
+ 256,
280
+ 128,
281
+ 64
282
+ ],
283
+ "matryoshka_weights": [
284
+ 1,
285
+ 1,
286
+ 1,
287
+ 1,
288
+ 1
289
+ ],
290
+ "n_dims_per_step": -1
291
+ }
292
+ ```
293
+
294
+ ### Evaluation Dataset
295
+
296
+ #### mmarco
297
+
298
+ * Dataset: mmarco
299
+ * Size: 39,780,811 evaluation samples
300
+ * Columns: <code>query</code>, <code>positive</code>, and <code>negative</code>
301
+ * Approximate statistics based on the first 1000 samples:
302
+ | | query | positive | negative |
303
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
304
+ | type | string | string | string |
305
+ | details | <ul><li>min: 4 tokens</li><li>mean: 11.05 tokens</li><li>max: 35 tokens</li></ul> | <ul><li>min: 16 tokens</li><li>mean: 93.92 tokens</li><li>max: 449 tokens</li></ul> | <ul><li>min: 20 tokens</li><li>mean: 89.53 tokens</li><li>max: 260 tokens</li></ul> |
306
+ * Samples:
307
+ | query | positive | negative |
308
+ |:------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
309
+ | <code>quali sono alcune cose importanti da ricordare quando si avvia un piano di fitness</code> | <code>Quattro cose che devi sapere prima di aprire una palestra Dall'addetto al check-in della reception al manager, un operatore del club deve assumere un ottimo personale per gestire le operazioni quotidiane del club. Foto per gentile concessione di Jonas Fitness. CONTENUTI SPONSORIZZATI DA: Jonas Fitness In questi giorni, molte palestre possono essere una monetina una dozzina.</code> | <code>Note importanti da ricordare. È importante ricordare che mentre la perdita del tappo di muco è un'indicazione del travaglio, non significa che il travaglio stia per iniziare subito. Per le donne che partoriscono per la prima volta, il tappo di muco viene solitamente espulso giorni prima dell'inizio del travaglio e spesso può essere un segno di un travaglio precoce.</code> |
310
+ | <code>i sunpatiens possono essere annaffiati ogni giorno?</code> | <code>Mi dispiace non essere d'accordo con te, ma io vivo nel sud, nella Georgia centrale e i Sunpatiens DO WILT al sole. Sono piantati sul lato sud della mia casa e ricevono la luce diretta del sole dalle 10:00 alle 16:00 quando sono all'ombra. Vengono annaffiate ogni mattina alle 6 quando l'impianto di irrigazione si attiva per ben 45 minuti. Si riprendono dopo che sono all'ombra, ma affermare che sono amanti del sole totale non è una vera affermazione.</code> | <code>Miglior risposta: ci sono centinaia di modi per risolvere i cubi di Rubik, ma la maggior parte di essi si diramano semplicemente dai quattro di base. Il metodo Petrus, CFOP, metodo Corners first e Roux. Il tuo metodo di base è una versione annacquata di CFOP. La maggior parte degli altri sono semplicemente versioni estese di questi metodi.</code> |
311
+ | <code>indirizzo di terapia fisica calaveras</code> | <code>Terapia fisica Calaveras 670 E. Calaveras Blvd., Suite 112 Milpitas, CA 95035 Telefono: (408) 934-4700 | Fax: (408) 934-4701</code> | <code>Deve lavorare secondo le linee guida dell'American Physical Therapy Association e del corrispondente State Board of Physical Therapy come richiesto dal fisioterapista (Home Health) - A tempo pieno - All Care Rehab & Staffing - San Fernando, CA</code> |
312
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
313
+ ```json
314
+ {
315
+ "loss": "MultipleNegativesRankingLoss",
316
+ "matryoshka_dims": [
317
+ 768,
318
+ 512,
319
+ 256,
320
+ 128,
321
+ 64
322
+ ],
323
+ "matryoshka_weights": [
324
+ 1,
325
+ 1,
326
+ 1,
327
+ 1,
328
+ 1
329
+ ],
330
+ "n_dims_per_step": -1
331
+ }
332
+ ```
333
+
334
+ ### Training Hyperparameters
335
+ #### Non-Default Hyperparameters
336
+
337
+ - `eval_strategy`: steps
338
+ - `per_device_train_batch_size`: 16
339
+ - `per_device_eval_batch_size`: 16
340
+ - `learning_rate`: 2e-05
341
+ - `num_train_epochs`: 1
342
+ - `warmup_ratio`: 0.1
343
+ - `fp16`: True
344
+ - `load_best_model_at_end`: True
345
+ - `batch_sampler`: no_duplicates
346
+
347
+ #### All Hyperparameters
348
+ <details><summary>Click to expand</summary>
349
+
350
+ - `overwrite_output_dir`: False
351
+ - `do_predict`: False
352
+ - `eval_strategy`: steps
353
+ - `prediction_loss_only`: True
354
+ - `per_device_train_batch_size`: 16
355
+ - `per_device_eval_batch_size`: 16
356
+ - `per_gpu_train_batch_size`: None
357
+ - `per_gpu_eval_batch_size`: None
358
+ - `gradient_accumulation_steps`: 1
359
+ - `eval_accumulation_steps`: None
360
+ - `torch_empty_cache_steps`: None
361
+ - `learning_rate`: 2e-05
362
+ - `weight_decay`: 0.0
363
+ - `adam_beta1`: 0.9
364
+ - `adam_beta2`: 0.999
365
+ - `adam_epsilon`: 1e-08
366
+ - `max_grad_norm`: 1.0
367
+ - `num_train_epochs`: 1
368
+ - `max_steps`: -1
369
+ - `lr_scheduler_type`: linear
370
+ - `lr_scheduler_kwargs`: {}
371
+ - `warmup_ratio`: 0.1
372
+ - `warmup_steps`: 0
373
+ - `log_level`: passive
374
+ - `log_level_replica`: warning
375
+ - `log_on_each_node`: True
376
+ - `logging_nan_inf_filter`: True
377
+ - `save_safetensors`: True
378
+ - `save_on_each_node`: False
379
+ - `save_only_model`: False
380
+ - `restore_callback_states_from_checkpoint`: False
381
+ - `no_cuda`: False
382
+ - `use_cpu`: False
383
+ - `use_mps_device`: False
384
+ - `seed`: 42
385
+ - `data_seed`: None
386
+ - `jit_mode_eval`: False
387
+ - `use_ipex`: False
388
+ - `bf16`: False
389
+ - `fp16`: True
390
+ - `fp16_opt_level`: O1
391
+ - `half_precision_backend`: auto
392
+ - `bf16_full_eval`: False
393
+ - `fp16_full_eval`: False
394
+ - `tf32`: None
395
+ - `local_rank`: 0
396
+ - `ddp_backend`: None
397
+ - `tpu_num_cores`: None
398
+ - `tpu_metrics_debug`: False
399
+ - `debug`: []
400
+ - `dataloader_drop_last`: False
401
+ - `dataloader_num_workers`: 0
402
+ - `dataloader_prefetch_factor`: None
403
+ - `past_index`: -1
404
+ - `disable_tqdm`: False
405
+ - `remove_unused_columns`: True
406
+ - `label_names`: None
407
+ - `load_best_model_at_end`: True
408
+ - `ignore_data_skip`: False
409
+ - `fsdp`: []
410
+ - `fsdp_min_num_params`: 0
411
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
412
+ - `tp_size`: 0
413
+ - `fsdp_transformer_layer_cls_to_wrap`: None
414
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
415
+ - `deepspeed`: None
416
+ - `label_smoothing_factor`: 0.0
417
+ - `optim`: adamw_torch
418
+ - `optim_args`: None
419
+ - `adafactor`: False
420
+ - `group_by_length`: False
421
+ - `length_column_name`: length
422
+ - `ddp_find_unused_parameters`: None
423
+ - `ddp_bucket_cap_mb`: None
424
+ - `ddp_broadcast_buffers`: False
425
+ - `dataloader_pin_memory`: True
426
+ - `dataloader_persistent_workers`: False
427
+ - `skip_memory_metrics`: True
428
+ - `use_legacy_prediction_loop`: False
429
+ - `push_to_hub`: False
430
+ - `resume_from_checkpoint`: None
431
+ - `hub_model_id`: None
432
+ - `hub_strategy`: every_save
433
+ - `hub_private_repo`: None
434
+ - `hub_always_push`: False
435
+ - `gradient_checkpointing`: False
436
+ - `gradient_checkpointing_kwargs`: None
437
+ - `include_inputs_for_metrics`: False
438
+ - `include_for_metrics`: []
439
+ - `eval_do_concat_batches`: True
440
+ - `fp16_backend`: auto
441
+ - `push_to_hub_model_id`: None
442
+ - `push_to_hub_organization`: None
443
+ - `mp_parameters`:
444
+ - `auto_find_batch_size`: False
445
+ - `full_determinism`: False
446
+ - `torchdynamo`: None
447
+ - `ray_scope`: last
448
+ - `ddp_timeout`: 1800
449
+ - `torch_compile`: False
450
+ - `torch_compile_backend`: None
451
+ - `torch_compile_mode`: None
452
+ - `dispatch_batches`: None
453
+ - `split_batches`: None
454
+ - `include_tokens_per_second`: False
455
+ - `include_num_input_tokens_seen`: False
456
+ - `neftune_noise_alpha`: None
457
+ - `optim_target_modules`: None
458
+ - `batch_eval_metrics`: False
459
+ - `eval_on_start`: False
460
+ - `use_liger_kernel`: False
461
+ - `eval_use_gather_object`: False
462
+ - `average_tokens_across_devices`: False
463
+ - `prompts`: None
464
+ - `batch_sampler`: no_duplicates
465
+ - `multi_dataset_batch_sampler`: proportional
466
+
467
+ </details>
468
+
469
+ ### Training Logs
470
+ | Epoch | Step | Training Loss | Validation Loss | mmarco_dev_cosine_accuracy | mmarco_test_cosine_accuracy |
471
+ |:---------:|:--------:|:-------------:|:---------------:|:--------------------------:|:---------------------------:|
472
+ | -1 | -1 | - | - | 0.6220 | - |
473
+ | 0.016 | 100 | 13.4237 | 10.6120 | 0.6920 | - |
474
+ | 0.032 | 200 | 8.2122 | 6.9047 | 0.7585 | - |
475
+ | 0.048 | 300 | 5.5919 | 4.6699 | 0.8280 | - |
476
+ | 0.064 | 400 | 4.0067 | 3.5824 | 0.8730 | - |
477
+ | 0.08 | 500 | 3.3341 | 3.1468 | 0.8890 | - |
478
+ | 0.096 | 600 | 2.9975 | 2.8752 | 0.8925 | - |
479
+ | 0.112 | 700 | 2.7298 | 2.6899 | 0.9050 | - |
480
+ | 0.128 | 800 | 2.4282 | 2.5905 | 0.9030 | - |
481
+ | 0.144 | 900 | 2.3087 | 2.2762 | 0.9095 | - |
482
+ | 0.16 | 1000 | 2.209 | 2.1136 | 0.9145 | - |
483
+ | 0.176 | 1100 | 2.0301 | 2.0292 | 0.9220 | - |
484
+ | 0.192 | 1200 | 2.1824 | 2.0094 | 0.9240 | - |
485
+ | 0.208 | 1300 | 1.8577 | 1.9690 | 0.9275 | - |
486
+ | **0.224** | **1400** | **1.9943** | **1.9013** | **0.93** | **-** |
487
+ | 0.24 | 1500 | 1.836 | 1.9025 | 0.9245 | - |
488
+ | 0.256 | 1600 | 2.0652 | 1.8127 | 0.9255 | - |
489
+ | -1 | -1 | - | - | - | 0.9130 |
490
+
491
+ * The bold row denotes the saved checkpoint.
492
+
493
+ ### Framework Versions
494
+ - Python: 3.11.11
495
+ - Sentence Transformers: 3.5.0.dev0
496
+ - Transformers: 4.50.0.dev0
497
+ - PyTorch: 2.5.1+cu124
498
+ - Accelerate: 1.3.0
499
+ - Datasets: 3.3.2
500
+ - Tokenizers: 0.21.0
501
+
502
+ ## Citation
503
+
504
+ ### BibTeX
505
+
506
+ #### Sentence Transformers
507
+ ```bibtex
508
+ @inproceedings{reimers-2019-sentence-bert,
509
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
510
+ author = "Reimers, Nils and Gurevych, Iryna",
511
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
512
+ month = "11",
513
+ year = "2019",
514
+ publisher = "Association for Computational Linguistics",
515
+ url = "https://arxiv.org/abs/1908.10084",
516
+ }
517
+ ```
518
+
519
+ #### MatryoshkaLoss
520
+ ```bibtex
521
+ @misc{kusupati2024matryoshka,
522
+ title={Matryoshka Representation Learning},
523
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
524
+ year={2024},
525
+ eprint={2205.13147},
526
+ archivePrefix={arXiv},
527
+ primaryClass={cs.LG}
528
+ }
529
+ ```
530
+
531
+ #### MultipleNegativesRankingLoss
532
+ ```bibtex
533
+ @misc{henderson2017efficient,
534
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
535
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
536
+ year={2017},
537
+ eprint={1705.00652},
538
+ archivePrefix={arXiv},
539
+ primaryClass={cs.CL}
540
+ }
541
+ ```
542
+
543
+ <!--
544
+ ## Glossary
545
+
546
+ *Clearly define terms in order to be accessible across audiences.*
547
+ -->
548
+
549
+ <!--
550
+ ## Model Card Authors
551
+
552
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
553
+ -->
554
+
555
+ <!--
556
+ ## Model Card Contact
557
+
558
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
559
+ -->
config.json ADDED
@@ -0,0 +1,49 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "DeepMount00/Italian-ModernBERT-base",
3
+ "architectures": [
4
+ "ModernBertModel"
5
+ ],
6
+ "attention_bias": false,
7
+ "attention_dropout": 0.0,
8
+ "bos_token_id": 2,
9
+ "classifier_activation": "gelu",
10
+ "classifier_bias": false,
11
+ "classifier_dropout": 0.0,
12
+ "classifier_pooling": "mean",
13
+ "cls_token_id": 2,
14
+ "decoder_bias": true,
15
+ "deterministic_flash_attn": false,
16
+ "embedding_dropout": 0.0,
17
+ "eos_token_id": 3,
18
+ "global_attn_every_n_layers": 3,
19
+ "global_rope_theta": 160000.0,
20
+ "gradient_checkpointing": false,
21
+ "hidden_activation": "gelu",
22
+ "hidden_size": 768,
23
+ "initializer_cutoff_factor": 2.0,
24
+ "initializer_range": 0.02,
25
+ "intermediate_size": 1152,
26
+ "layer_norm_eps": 1e-05,
27
+ "local_attention": 128,
28
+ "local_rope_theta": 10000.0,
29
+ "mask_token_id": 4,
30
+ "max_position_embeddings": 8192,
31
+ "mlp_bias": false,
32
+ "mlp_dropout": 0.0,
33
+ "model_type": "modernbert",
34
+ "norm_bias": false,
35
+ "norm_eps": 1e-05,
36
+ "num_attention_heads": 12,
37
+ "num_hidden_layers": 22,
38
+ "pad_token_id": 1,
39
+ "position_embedding_type": "absolute",
40
+ "reference_compile": false,
41
+ "repad_logits_with_grad": false,
42
+ "sep_token_id": 3,
43
+ "sparse_pred_ignore_index": -100,
44
+ "sparse_prediction": false,
45
+ "torch_dtype": "float32",
46
+ "transformers_version": "4.50.0.dev0",
47
+ "unk_token_id": 0,
48
+ "vocab_size": 32000
49
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.5.0.dev0",
4
+ "transformers": "4.50.0.dev0",
5
+ "pytorch": "2.5.1+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
eval/triplet_evaluation_mmarco_dev_results.csv ADDED
@@ -0,0 +1,17 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ epoch,steps,accuracy_cosine
2
+ 0.016,100,0.6919999718666077
3
+ 0.032,200,0.7584999799728394
4
+ 0.048,300,0.828000009059906
5
+ 0.064,400,0.8730000257492065
6
+ 0.08,500,0.8889999985694885
7
+ 0.096,600,0.8924999833106995
8
+ 0.112,700,0.9049999713897705
9
+ 0.128,800,0.902999997138977
10
+ 0.144,900,0.909500002861023
11
+ 0.16,1000,0.9144999980926514
12
+ 0.176,1100,0.921999990940094
13
+ 0.192,1200,0.9240000247955322
14
+ 0.208,1300,0.9275000095367432
15
+ 0.224,1400,0.9300000071525574
16
+ 0.24,1500,0.9244999885559082
17
+ 0.256,1600,0.9254999756813049
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d8ca76995fc7b8a5e80f83a46788ab41ebefd21f8f134f52e97623593786f9ac
3
+ size 539643640
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 8192,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[UNK]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[PAD]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": true,
45
+ "cls_token": "[CLS]",
46
+ "extra_special_tokens": {},
47
+ "mask_token": "[MASK]",
48
+ "model_input_names": [
49
+ "input_ids",
50
+ "attention_mask"
51
+ ],
52
+ "model_max_length": 1000000000000000019884624838656,
53
+ "pad_token": "[PAD]",
54
+ "sep_token": "[SEP]",
55
+ "special_tokens": {
56
+ "cls_token": "[CLS]",
57
+ "mask_token": "[MASK]",
58
+ "pad_token": "[PAD]",
59
+ "sep_token": "[SEP]",
60
+ "unk_token": "[UNK]"
61
+ },
62
+ "tokenizer_class": "PreTrainedTokenizer",
63
+ "unk_token": "[UNK]"
64
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c4f5b693d0d0fbf31a922c3daecb6ce97423d3a30e07c8ecc358b29a635f402c
3
+ size 5688