adriansanz commited on
Commit
688e7b1
1 Parent(s): ffe48f0

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,525 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: BAAI/bge-m3
3
+ datasets: []
4
+ language: []
5
+ library_name: sentence-transformers
6
+ pipeline_tag: sentence-similarity
7
+ tags:
8
+ - sentence-transformers
9
+ - sentence-similarity
10
+ - feature-extraction
11
+ - generated_from_trainer
12
+ - dataset_size:237
13
+ - loss:BatchAllTripletLoss
14
+ widget:
15
+ - source_sentence: 'El Viver dels Avis de Sitges. Activitat d''hort municipal per
16
+ a la gent gran A la nostra vila hi ha veïns i veïnes que els agradaria tornar
17
+ a fer de pagès o provar-ho per primera vegada. Potser molts d’ells enyoren el
18
+ contacte amb la terra i voldrien tenir un petit hort per dedicar-li un parell
19
+ d’hores cada dia i poder seguir el cicle natural de plantar, regar i recollir
20
+ els fruits de la terra, gaudint així d’un entorn on la naturalesa és generosa
21
+ amb qui la treballa. Aquest tipus d’activitat ha demostrat beneficis terapèutics
22
+ i eugenèsics entre els seus principals destinataris: la gent gran. Al nostre municipi
23
+ tenim la sort de comptar amb un ampli espai públic com és el viver municipal.
24
+ Dins d''aquest viver s''hi han habilitat 10 parcel·les sobre una superfície de
25
+ 300 m2.'
26
+ sentences:
27
+ - Acceptació / Renúncia. Ajuts per al projecte d'implantació i l'ús de la targeta
28
+ de fidelització del comerç local de Sitges Descripció
29
+ - Justificació Subvencions per a projectes i activitats de les entitats esportives
30
+ i esportistes de Sitges Les persones i entitats beneficiaries hauran de justificar
31
+ la realització del projecte/activitat subvencionada com a màxim el dia 31 de març
32
+ de 2023.
33
+ - Ajuts per les despeses d'instal·lació de mesures higièniques i de seguretat per
34
+ al retorn a l'activitat comercial d'establiments físics (COVID-19) Són ajuts econòmics
35
+ extraordinaris destinats a col·laborar amb la despesa que suposa la implementació
36
+ de mesures higièniques de prevenció, protecció i mesures de seguretat per a la
37
+ reobertura dels establiments comercials i la tornada a l’activitat econòmica d’aquests
38
+ establiments físics. Únicament es prendran en consideració per a l’atorgament
39
+ de l’ajut la compra de material fungible i les inversions per a la instal·lació
40
+ de mesures higièniques i de seguretat relacionades amb la gestió i prevenció de
41
+ la pandèmia COVID-19 d’acord amb l’annex 1 de les Bases que regulen l'atorgament
42
+ de l'ajut. L’àmbit temporal de l’ajut econòmic extraordinari tindrà caràcter retroactiu
43
+ al moment de la declaració de l’estat d’alarma; seran despeses finançables totes
44
+ aquelles que s’hagin produït des de la declaració de l’estat d’alarma i fins la
45
+ data de finalització el període de presentació de sol·licituds. L’import finançable
46
+ serà el 100% del cost de compra del material fungible i d’inversió excepte l’IVA
47
+ de la despesa que no formarà part de l’ajut econòmic extraordinari. L’import màxim
48
+ de l’ajut econòmic extraordinari anirà en funció del nombre de persona beneficiaris/ries
49
+ amb dret a l’ajut, entre un mínim de 500 € i un màxim de 3.000 €.
50
+ - source_sentence: Justificació de l'ajut a la consolidació d'empreses de persones
51
+ donades d'alta al règim especial de treballadors autònoms Les persones beneficiàries
52
+ de l'ajut a la consolidació d'empreses de persones donades d'alta al règim especial
53
+ de treballadors autònoms.
54
+ sentences:
55
+ - Preinscripció a la Fira d'Art de Sitges Amb l’objectiu de fomentar la participació
56
+ d’artistes plàstics d’arreu de Catalunya, anualment s'organitza la Fira d'Art.
57
+ Ubicada al carrer de Port Alegre (Platja de Sant Sebastià), els artistes (dibuix,
58
+ pintura, gravat i escultura) poden exposar i vendre les seves obres.
59
+ - 'Llicència ambiental (Annex II) Mitjançant la Llicència ambiental la persona interessada
60
+ sol·licita a l’Ajuntament l’inici o modificació substancial d’una activitat econòmica,
61
+ de les incloses en l’annex II de la Llei 20/2009, de prevenció i control ambiental
62
+ de les activitats (LPCAA), i hi adjunta el projecte tècnic acreditatiu del compliment
63
+ dels requisits necessaris que estableix la normativa vigent per a l’exercici de
64
+ l’activitat. Aquestes activitats se subdivideixen en: Activitats sotmeses a una
65
+ llicència ambiental amb declaració d’impacte ambiental Activitats sotmeses a una
66
+ llicència ambiental i a un procés de decisió prèvia sobre la necessitat de declaració
67
+ d’impacte ambiental i a avaluació d’impacte ambiental simplificada Activitats
68
+ sotmeses a una llicència ambiental sense necessitat de sotmetre’s a cap procés
69
+ d’avaluació d’impacte ambiental També està subjecta a llicència ambiental la modificació
70
+ substancial de qualsevol activitat de l’annex II de la LPCAA, amb els mateixos
71
+ procediments, documentació i requisits que els establerts per al seu atorgament.
72
+ Amb aquest formulari no es poden comunicar els establiments turístics (càmpings
73
+ de fins a 1500 unitats d’acamapada).'
74
+ - 'Servei de teleassistència El sistema de teleassistència o telealarma consisteix
75
+ en un dispositiu que es facilita a persones grans o discapacitades, que viuen
76
+ soles permanentment o durant gran part del dia, o bé que viuen amb altres persones
77
+ que presenten idèntiques característiques d''edat o discapacitat. Aquest sistema
78
+ permet: Connectar fàcilment amb la central receptora d’alarmes les 24 hores del
79
+ dia, els 365 dies de l’any facilitant la connexió immediata la línia telefònica
80
+ i d’una manera còmoda i ràpida. Només cal prémer un botó. Sistema de mans lliures,
81
+ que permet poder establir contacte verbal sense necessitat de despenjar cap telèfon
82
+ ni d’acostar-se al terminal teleassistència. Mobilització dels recursos que existeixen
83
+ a la localitat, mitjançant un fitxer actualitzat per avís d’ambulància o metge
84
+ en cas d’urgència i coordinació amb els recursos de la comunitat per a l’atenció
85
+ d’emergències socials, caigudes,.... Mobilització dels recursos propis de l’usuari.
86
+ Custòdia de claus Etc. Donat que la disponibilitat d''aparells és limitada, les
87
+ sol·licituds es prioritzaran en funció del grau de necessitat de l''usuari/ària.
88
+ A aquests efectes es valorarà per part dels Serveis Socials municipals el grau
89
+ d''autonomia personal, la situació de solitud i els ingressos de la unitat familiar
90
+ (vegeu l''ordenança reguladora del preu públic).'
91
+ - source_sentence: Instal·lació de parada a la Fira de la Vila del Llibre de Sitges
92
+ L'Ajuntament de Sitges, sota el paraigua de la marca cultural registrada Vila
93
+ del Llibre, organitza la Fira de la Vila del Llibre de Sitges consistent en un
94
+ conjunt de parades instal·lades al Passeig Marítim, dedicades exclusivament a
95
+ la venda de llibres i activitats relacionades amb les arts del llibre (il·lustració,
96
+ enquadernació, gravat…), ocupades per empreses del sector i entitats culturals,
97
+ amb activitat editorial acreditada.
98
+ sentences:
99
+ - Queixes, observacions i suggeriments Descripció
100
+ - Confirmació de continuïtat de residència al municipi de persones estrangeres no
101
+ obligades a renovar la seva inscripció padronal Les persones estrangeres amb ciutadania
102
+ d'estats de la Unió Europea, o de l'Espai Econòmic Europeu, o amb targeta de residència
103
+ de règim comunitari o de llarga durada, estan obligades a comunicar la seva continuïtat
104
+ de residència al municipi de Sitges cada cinc anys, o cada dos en cas de no constar
105
+ inscrites al Registre Central d'Estrangers, a comptar des de la darrera inscripció
106
+ padronal. La no confirmació durant el període establert suposa l'inici d'un expedient
107
+ de baixa en el Padró Municipal d'Habitants.
108
+ - 'Llicència d''obra menor La realització d’obres està subjecta a l’obtenció d’una
109
+ llicència atorgada per l’Ajuntament. S’estableixen tres tipus de llicència segons
110
+ la magnitud de l’obra a realitzar: TIPUS A Construcció de piscines (comunitàries
111
+ o particulars) Reparació / rehabilitació d’edificis i façanes en general i especialment
112
+ d’edificis afectats per patologies Modificació de la coberta dels edificis amb
113
+ augment de volum però sense augment de superfície construïda Actuacions puntuals
114
+ que afectin o alterin l’estructura i / o fonaments de l’edifici Obres que modifiquin
115
+ les instal·lacions o serveis dels espais comuns d’un edifici plurifamiliar Moviments
116
+ de terres no inclosos en altres llicències Enderrocs parcials Murs de contenció
117
+ de terres Formació de lavabos en locals comercials i magatzems Instal·lació d’aparells
118
+ elevadors, ascensors i aparells mecànics en edificacions existents L''acumulació
119
+ de residus i el dipòsit de materials que alterin les característiques del paisatge.
120
+ Construcció o instal·lació de cisternes que afectin l''estat de càrregues de l''edifici.
121
+ Canvis de distribució puntual interior (en locals i habitatges) sense afectar
122
+ elements estructurals. TIPUS B Col·locació de bastides a una alçada superior a
123
+ PB + 1 PP o a més de 6,00 m Arrebossat, estucat i pintat de façanes que necessiten
124
+ una bastida amb una alçada superior a PB + 1 PP o a més de 6,00 m. Noves obertures
125
+ ( finestres o portes ) o modificacions de les dimensions existents Reparació de
126
+ balcons o elements sortints Construcció d’envans pluvials Construcció de pous
127
+ i foses sèptiques Estintolament de façanes Construcció o modificació de tanques
128
+ que requereixin obra. Reparació de sostres i terrats sense afectar elements estructurals.
129
+ TIPUS C Obertures per a tub extractor Instal·lació d''aparells d''aire condicionat
130
+ o d''altres similars Instal·lació d''antenes parabòl·liques Formació de barbacoes
131
+ Col·locació de portes, finestres, persianes i reixes en obertures de façana Co·locació
132
+ i/o canvi de paviments i escales a l''exterior de l''edifici Arrebossat, estucat
133
+ i pintat de façanes que no necessiten una bastida amb una alçada inferior a PB
134
+ + 1 PP o menys de 6.00 m Construcció, reparació i substitució de canonades de
135
+ desguàs i claveguerons a l''exterior de l''edifici (sense bastida). Tala d''arbres'
136
+ - source_sentence: 'Ajuts per a fomentar la contractació laboral de persones i millora
137
+ de l''ocupació Els ajuts tenen com a objectiu millorar l''ocupabilitat i la inserció
138
+ de persones en situació d''atur o parades incentivant la contractació de qualitat.
139
+ Podran sol·licitar l''ajut aquelles persones físiques o jurídiques, persones autònomes
140
+ o empreses, amb seu fiscal al municipi o fora però amb centre de treball a Sitges,
141
+ i entitats sense ànim de lucre del municipi de Sitges també legalment constituïdes
142
+ i inscrites en els registres pertinents, que hagin realitzat contractacions de
143
+ personal per compte d''altri durant el període de l''1 de juliol de 2023 al 30
144
+ de juny de 2024. Resten fora d’aquesta convocatòria les empreses de treball temporal.
145
+ Els contractes que donaran dret a ser declarada beneficiària de l’ajut seran els
146
+ formalitzats des del seu inici com a contractes indefinits o fixes discontinus
147
+ o bé per conversió de contractes temporals en contractes indefinits o fixes discontinus.
148
+ Queden exclosos els contractes d’alta direcció i les contractacions a familiars:
149
+ a cònjuges, ascendents, descendents i parents fins a segon grau. Únicament es
150
+ prendran en consideració per a l’ajut econòmic les despeses derivades de la contractació
151
+ de personal (retribucions i quotes empresarials a la seguretat social). Les quanties
152
+ dels ajuts no podran excedir del 50 % dels costos derivats de la contractació.
153
+ S''estableixen els seguents imports màxims a percebre segons les modalitats de
154
+ contractació: De 3.000,00 € per als contractes de treball indefinits, fixos discontinus
155
+ o conversió de contractes temporals a indefinits amb jornada de treball del 100%,
156
+ els quals la persona contractada estigui inclosa dins del col·lectius vulnerables
157
+ pel Servei Públic d''Ocupació Estatal (SEPE). De 2.000,00 € per als contractes
158
+ de treball indefinits, fixos discontinus o conversió de contractes temporals a
159
+ indefinits amb jornada de treball del 100% per a la resta de col·lectius. L’import
160
+ es reduirà proporcionalment per aquells contractes celebrats com a fixes discontinus
161
+ en funció del percentatge d’activitat econòmica feta durant l’any natural. Igualment
162
+ es reduirà l’import per aquells contractes celebrats a temps parcial. En ambdós
163
+ casos el percentatge per poder optar a l’ajut serà el resultant d’aplicar el percentatge
164
+ d’activitat econòmica com el percentatge per temps parcial, i haurà de ser igual
165
+ o superior al 50,00 %. Només es poden presentar dues contractacions En cas que
166
+ dues contractacions donin dret a l''ajut econòmic, l''import màxim a percebre
167
+ per a totes les contractacions serà de 3.000,00 €.'
168
+ sentences:
169
+ - Acceptació / Renúncia Ajuts per a la creació de noves empreses per persones donades
170
+ d'alta al règim especial de treballadors autònoms Descripció
171
+ - Comunicació prèvia de primera utilització i ocupació d'edificis i instal·lacions
172
+ Aquest tràmit permet comunicar a l'Ajuntament de Sitges la finalització de les
173
+ obres de nova construcció, o bé aquelles que hagin estat objecte de modificació
174
+ substancial o d'ampliació quan per a l’autorització de les obres s’hagi exigit
175
+ un projecte tècnic i a l’empara d’una llicència urbanística d’obra major. Simultàniament,
176
+ s'acordarà el retorn de la quantia en concepte de garanties o avals dipositats,
177
+ si escau.
178
+ - 'Ajuts per a fomentar l''emprenedoria i la creació de noves empreses Són ajuts
179
+ destinats únicament a cobrir les despeses inicials necessàries per a la posada
180
+ en marxa del negoci. Les despeses subvencionables seran únicament aquelles estrictament
181
+ necessàries per a la posada en marxa del negoci com ara: despeses de constitució,
182
+ reformes del local, inversió inicial en tecnologia, desenvolupament de la web
183
+ corporativa, desenvolupament d’aplicacions de venda on line, fiança, assegurances,
184
+ registre de marques i patents, ... L’import de la subvenció serà com a màxim el
185
+ 80% de la factura presentada, excepte l’IVA de la despesa que no formarà part
186
+ de la despesa finançable, amb un import màxim de l’ajut de 6.000,00 €. Amb aquest
187
+ ajut es vol incentivar l’autoocupació i la creació d’empreses donant suport a
188
+ les persones que desenvolupin la seva activitat professional al municipi de Sitges,
189
+ les quals hagin iniciat la seva activitat econòmica entre l’1 de juliol de 2023
190
+ i fins el 30 de juny de 2024.'
191
+ - source_sentence: Acceptació / Renúncia Subvencions per a projectes i activitats
192
+ a entitats de l'àmbit de polítiques socials Descripció
193
+ sentences:
194
+ - 'Subvencions per al desenvolupament i/o consolidació de sectors econòmics del
195
+ municipi Subvencions per a entitats destinades a fomentar el desenvolupament i
196
+ la consolidació de sectors econòmics locals. L''objectiu és impulsar iniciatives
197
+ per millorar la competitivitat, la generació d''ocupació i potenciar el naixement
198
+ de nous sectors econòmics en el municipi i l’enfortiment dels existents, contribuint
199
+ així al creixement econòmic sostenible i al benestar de la comunitat. Per valorar
200
+ l’interès de la proposta es tindrà en compte: Tipus d’activitat Antecedents Dates
201
+ de celebració Accions de promoció dutes a terme des de l’organització'
202
+ - Autorització d'accés a les àrees de vianants Permet obtenir l'autorització municipal
203
+ per l'accés de vehicles a les àrees restringides a vianants establer-tes al municipi
204
+ (actualment nucli de Garraf i Platja de Sant Sebastià). Les persones interessades
205
+ poden presentar aquesta sol·lictud, i en cas de compliment dels requisits establerts
206
+ (persones residents, titulars de plaça d'aparcament, autotaxis, establiments hotelers),
207
+ se'ls traslladarà la resolució d’autorització.
208
+ - Declaració de baixa de la Taxa pel servei municipal complementari de recollida,
209
+ tractament i eliminació de residus comercials Declaració tributària mitjançant
210
+ la qual es sol·licita la baixa d'una activitat de la Taxa pel servei municipal
211
+ complementari de recollida, tractament i eliminació de residus comercials .
212
+ ---
213
+
214
+ # SentenceTransformer based on BAAI/bge-m3
215
+
216
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
217
+
218
+ ## Model Details
219
+
220
+ ### Model Description
221
+ - **Model Type:** Sentence Transformer
222
+ - **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision 5617a9f61b028005a4858fdac845db406aefb181 -->
223
+ - **Maximum Sequence Length:** 8192 tokens
224
+ - **Output Dimensionality:** 1024 tokens
225
+ - **Similarity Function:** Cosine Similarity
226
+ <!-- - **Training Dataset:** Unknown -->
227
+ <!-- - **Language:** Unknown -->
228
+ <!-- - **License:** Unknown -->
229
+
230
+ ### Model Sources
231
+
232
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
233
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
234
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
235
+
236
+ ### Full Model Architecture
237
+
238
+ ```
239
+ SentenceTransformer(
240
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
241
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
242
+ (2): Normalize()
243
+ )
244
+ ```
245
+
246
+ ## Usage
247
+
248
+ ### Direct Usage (Sentence Transformers)
249
+
250
+ First install the Sentence Transformers library:
251
+
252
+ ```bash
253
+ pip install -U sentence-transformers
254
+ ```
255
+
256
+ Then you can load this model and run inference.
257
+ ```python
258
+ from sentence_transformers import SentenceTransformer
259
+
260
+ # Download from the 🤗 Hub
261
+ model = SentenceTransformer("adriansanz/sitges1024-bai-batchalltripletsv3")
262
+ # Run inference
263
+ sentences = [
264
+ "Acceptació / Renúncia Subvencions per a projectes i activitats a entitats de l'àmbit de polítiques socials Descripció",
265
+ "Subvencions per al desenvolupament i/o consolidació de sectors econòmics del municipi Subvencions per a entitats destinades a fomentar el desenvolupament i la consolidació de sectors econòmics locals. L'objectiu és impulsar iniciatives per millorar la competitivitat, la generació d'ocupació i potenciar el naixement de nous sectors econòmics en el municipi i l’enfortiment dels existents, contribuint així al creixement econòmic sostenible i al benestar de la comunitat. Per valorar l’interès de la proposta es tindrà en compte: Tipus d’activitat Antecedents Dates de celebració Accions de promoció dutes a terme des de l’organització",
266
+ "Autorització d'accés a les àrees de vianants Permet obtenir l'autorització municipal per l'accés de vehicles a les àrees restringides a vianants establer-tes al municipi (actualment nucli de Garraf i Platja de Sant Sebastià). Les persones interessades poden presentar aquesta sol·lictud, i en cas de compliment dels requisits establerts (persones residents, titulars de plaça d'aparcament, autotaxis, establiments hotelers), se'ls traslladarà la resolució d’autorització.",
267
+ ]
268
+ embeddings = model.encode(sentences)
269
+ print(embeddings.shape)
270
+ # [3, 1024]
271
+
272
+ # Get the similarity scores for the embeddings
273
+ similarities = model.similarity(embeddings, embeddings)
274
+ print(similarities.shape)
275
+ # [3, 3]
276
+ ```
277
+
278
+ <!--
279
+ ### Direct Usage (Transformers)
280
+
281
+ <details><summary>Click to see the direct usage in Transformers</summary>
282
+
283
+ </details>
284
+ -->
285
+
286
+ <!--
287
+ ### Downstream Usage (Sentence Transformers)
288
+
289
+ You can finetune this model on your own dataset.
290
+
291
+ <details><summary>Click to expand</summary>
292
+
293
+ </details>
294
+ -->
295
+
296
+ <!--
297
+ ### Out-of-Scope Use
298
+
299
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
300
+ -->
301
+
302
+ <!--
303
+ ## Bias, Risks and Limitations
304
+
305
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
306
+ -->
307
+
308
+ <!--
309
+ ### Recommendations
310
+
311
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
312
+ -->
313
+
314
+ ## Training Details
315
+
316
+ ### Training Dataset
317
+
318
+ #### Unnamed Dataset
319
+
320
+
321
+ * Size: 237 training samples
322
+ * Columns: <code>sentence</code> and <code>label</code>
323
+ * Approximate statistics based on the first 1000 samples:
324
+ | | sentence | label |
325
+ |:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
326
+ | type | string | int |
327
+ | details | <ul><li>min: 13 tokens</li><li>mean: 135.46 tokens</li><li>max: 629 tokens</li></ul> | <ul><li>286: ~0.42%</li><li>288: ~0.42%</li><li>290: ~0.42%</li><li>291: ~0.42%</li><li>293: ~0.42%</li><li>295: ~0.42%</li><li>298: ~0.42%</li><li>302: ~0.42%</li><li>303: ~0.42%</li><li>304: ~0.42%</li><li>306: ~0.42%</li><li>309: ~0.42%</li><li>311: ~0.42%</li><li>313: ~0.42%</li><li>314: ~0.42%</li><li>315: ~0.42%</li><li>316: ~0.42%</li><li>320: ~0.42%</li><li>321: ~0.42%</li><li>322: ~0.42%</li><li>323: ~0.42%</li><li>324: ~0.42%</li><li>325: ~0.42%</li><li>327: ~0.42%</li><li>328: ~0.42%</li><li>331: ~0.42%</li><li>332: ~0.42%</li><li>333: ~0.42%</li><li>336: ~0.42%</li><li>338: ~0.42%</li><li>339: ~0.42%</li><li>346: ~0.42%</li><li>347: ~0.42%</li><li>355: ~0.42%</li><li>356: ~0.42%</li><li>357: ~0.42%</li><li>360: ~0.42%</li><li>361: ~0.42%</li><li>364: ~0.42%</li><li>366: ~0.42%</li><li>367: ~0.42%</li><li>368: ~0.42%</li><li>369: ~0.42%</li><li>370: ~0.42%</li><li>373: ~0.42%</li><li>376: ~0.42%</li><li>378: ~0.42%</li><li>384: ~0.42%</li><li>385: ~0.42%</li><li>386: ~0.42%</li><li>387: ~0.42%</li><li>390: ~0.42%</li><li>394: ~0.42%</li><li>400: ~0.42%</li><li>401: ~0.42%</li><li>405: ~0.42%</li><li>413: ~0.42%</li><li>417: ~0.42%</li><li>418: ~0.42%</li><li>419: ~0.42%</li><li>420: ~0.42%</li><li>422: ~0.42%</li><li>432: ~0.42%</li><li>443: ~0.42%</li><li>452: ~0.42%</li><li>455: ~0.42%</li><li>458: ~0.42%</li><li>463: ~0.42%</li><li>469: ~0.42%</li><li>470: ~0.42%</li><li>471: ~0.42%</li><li>475: ~0.42%</li><li>478: ~0.42%</li><li>480: ~0.42%</li><li>481: ~0.42%</li><li>485: ~0.42%</li><li>487: ~0.42%</li><li>489: ~0.42%</li><li>491: ~0.42%</li><li>492: ~0.42%</li><li>493: ~0.42%</li><li>494: ~0.42%</li><li>495: ~0.42%</li><li>497: ~0.42%</li><li>500: ~0.42%</li><li>502: ~0.42%</li><li>506: ~0.42%</li><li>522: ~0.42%</li><li>533: ~0.42%</li><li>536: ~0.42%</li><li>547: ~0.42%</li><li>548: ~0.42%</li><li>551: ~0.42%</li><li>553: ~0.42%</li><li>554: ~0.42%</li><li>558: ~0.42%</li><li>559: ~0.42%</li><li>561: ~0.42%</li><li>562: ~0.42%</li><li>563: ~0.42%</li><li>564: ~0.42%</li><li>565: ~0.42%</li><li>566: ~0.42%</li><li>567: ~0.42%</li><li>569: ~0.42%</li><li>570: ~0.42%</li><li>571: ~0.42%</li><li>572: ~0.42%</li><li>573: ~0.42%</li><li>574: ~0.42%</li><li>575: ~0.42%</li><li>576: ~0.42%</li><li>577: ~0.42%</li><li>582: ~0.42%</li><li>584: ~0.42%</li><li>585: ~0.42%</li><li>586: ~0.42%</li><li>587: ~0.42%</li><li>590: ~0.42%</li><li>591: ~0.42%</li><li>592: ~0.42%</li><li>593: ~0.42%</li><li>594: ~0.42%</li><li>595: ~0.42%</li><li>596: ~0.42%</li><li>597: ~0.42%</li><li>598: ~0.42%</li><li>599: ~0.42%</li><li>600: ~0.42%</li><li>601: ~0.42%</li><li>602: ~0.42%</li><li>603: ~0.42%</li><li>604: ~0.42%</li><li>605: ~0.42%</li><li>606: ~0.42%</li><li>607: ~0.42%</li><li>608: ~0.42%</li><li>609: ~0.42%</li><li>610: ~0.42%</li><li>611: ~0.42%</li><li>612: ~0.42%</li><li>614: ~0.42%</li><li>615: ~0.42%</li><li>616: ~0.42%</li><li>617: ~0.42%</li><li>618: ~0.42%</li><li>619: ~0.42%</li><li>620: ~0.42%</li><li>621: ~0.42%</li><li>622: ~0.42%</li><li>623: ~0.42%</li><li>624: ~0.42%</li><li>625: ~0.42%</li><li>626: ~0.42%</li><li>627: ~0.42%</li><li>628: ~0.42%</li><li>629: ~0.42%</li><li>630: ~0.42%</li><li>632: ~0.42%</li><li>633: ~0.42%</li><li>634: ~0.42%</li><li>635: ~0.42%</li><li>636: ~0.42%</li><li>637: ~0.42%</li><li>638: ~0.42%</li><li>639: ~0.42%</li><li>640: ~0.42%</li><li>641: ~0.42%</li><li>642: ~0.42%</li><li>643: ~0.42%</li><li>644: ~0.42%</li><li>645: ~0.42%</li><li>646: ~0.42%</li><li>647: ~0.42%</li><li>648: ~0.42%</li><li>649: ~0.42%</li><li>650: ~0.42%</li><li>651: ~0.42%</li><li>652: ~0.42%</li><li>653: ~0.42%</li><li>654: ~0.42%</li><li>655: ~0.42%</li><li>656: ~0.42%</li><li>657: ~0.42%</li><li>658: ~0.42%</li><li>659: ~0.42%</li><li>660: ~0.42%</li><li>661: ~0.42%</li><li>662: ~0.42%</li><li>663: ~0.42%</li><li>664: ~0.42%</li><li>666: ~0.42%</li><li>667: ~0.42%</li><li>668: ~0.42%</li><li>669: ~0.42%</li><li>670: ~0.42%</li><li>671: ~0.42%</li><li>672: ~0.42%</li><li>673: ~0.42%</li><li>674: ~0.42%</li><li>675: ~0.42%</li><li>676: ~0.42%</li><li>677: ~0.42%</li><li>678: ~0.42%</li><li>679: ~0.42%</li><li>680: ~0.42%</li><li>681: ~0.42%</li><li>682: ~0.42%</li><li>683: ~0.42%</li><li>684: ~0.42%</li><li>685: ~0.42%</li><li>686: ~0.42%</li><li>687: ~0.42%</li><li>688: ~0.42%</li><li>689: ~0.42%</li><li>690: ~0.42%</li><li>691: ~0.42%</li><li>692: ~0.42%</li><li>693: ~0.42%</li><li>694: ~0.42%</li><li>695: ~0.42%</li><li>696: ~0.42%</li><li>697: ~0.42%</li><li>698: ~0.42%</li><li>699: ~0.42%</li><li>700: ~0.42%</li><li>701: ~0.42%</li><li>702: ~0.42%</li><li>703: ~0.42%</li><li>704: ~0.42%</li><li>705: ~0.42%</li><li>706: ~0.42%</li><li>707: ~0.42%</li><li>708: ~0.42%</li><li>709: ~0.42%</li><li>710: ~0.42%</li><li>711: ~0.42%</li></ul> |
328
+ * Samples:
329
+ | sentence | label |
330
+ |:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
331
+ | <code>Presentació de sol·licituds per a l'atorgament de llicència d'ús privatiu del domini públic local Aquest tràmit permet la presentació de sol·licituds per a l’autorització a favor de tercers perquè utilitzin de forma privativa una porció de domini públic local, amb caràcter temporal i sense la seva transformació, pel seu posterior destí a la realització d’activitats d'interès. En funció del número de sol·licituds presentades en cada convocatòria es procedirà a l'atorgament de la llicència: de forma directa si no hi ha pluralitat de sol·licitants, o mitjançant previ concurs en cas que existeixi una pluralitat de sol·licitants.</code> | <code>647</code> |
332
+ | <code>Ajuts per fomentar l'associacionisme empresarial local Aquest ajut pretén fomentar l’associacionisme empresarial local, per tal de disposar d’agrupacions, gremis o associacions representatives de l’activitat empresarial del municipi.</code> | <code>636</code> |
333
+ | <code>Baixa al padró municipal d'habitants (persones estrangeres que marxen del país, o per defunció ...) No es poden realitzar inscripcions de baixa per canvi de municipi o país de residencia a petició de les persones interessades, tret de les persones estrangeres que traslladin la seva residència a un altre país. Les persones amb nacionalitat espanyola que estableixin la residencia en un altra municipi o país hauran de comunicar la inscripció en el Padró del nou municipi de residència o en el Registre de Matrícula de l'Oficina o Secció Consular del país de destinació. El tràmit de baixa del padró municipal d'habitants només es pot sol·lictar en les següents situacions: Persones estrangeres empadronades que traslladen la seva residència a un altre país. Defunció. L'Institut Nacional d'Estadística, a instàncies del Registre Civil, comunica periòdicament les baixes per defunció a l'Ajuntament. Si es necessita que aquesta baixa es produeixi a la major brevetat possible, es pot realitzar aquest tràmit aportant el certificat de defunció, o el llibre de família. Inclusió indeguda: Aquesta baixa afecta a persones que figuren empadronades en un domicili i ja no hi resideixen. La persona empadronada, o titular de l'habitatge, pot comunicar aquesta situació, i l'ajuntament comprovarà aquesta circunstancia amb la tramitació de l'expedient corresponent. En el cas que la persona interessada no manifesti expresament la seva conformitat, la baixa només es podrà resoldre amb informe favorable del Consejo de Empadronamiento. L'Ajuntament de Sitges també pot iniciar d'ofici aquests tipus d'expedients.</code> | <code>394</code> |
334
+ * Loss: [<code>BatchAllTripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#batchalltripletloss)
335
+
336
+ ### Training Hyperparameters
337
+ #### Non-Default Hyperparameters
338
+
339
+ - `per_device_train_batch_size`: 1
340
+ - `per_device_eval_batch_size`: 1
341
+ - `learning_rate`: 2e-05
342
+ - `num_train_epochs`: 10
343
+ - `warmup_ratio`: 0.1
344
+ - `fp16`: True
345
+ - `batch_sampler`: no_duplicates
346
+
347
+ #### All Hyperparameters
348
+ <details><summary>Click to expand</summary>
349
+
350
+ - `overwrite_output_dir`: False
351
+ - `do_predict`: False
352
+ - `eval_strategy`: no
353
+ - `prediction_loss_only`: True
354
+ - `per_device_train_batch_size`: 1
355
+ - `per_device_eval_batch_size`: 1
356
+ - `per_gpu_train_batch_size`: None
357
+ - `per_gpu_eval_batch_size`: None
358
+ - `gradient_accumulation_steps`: 1
359
+ - `eval_accumulation_steps`: None
360
+ - `learning_rate`: 2e-05
361
+ - `weight_decay`: 0.0
362
+ - `adam_beta1`: 0.9
363
+ - `adam_beta2`: 0.999
364
+ - `adam_epsilon`: 1e-08
365
+ - `max_grad_norm`: 1.0
366
+ - `num_train_epochs`: 10
367
+ - `max_steps`: -1
368
+ - `lr_scheduler_type`: linear
369
+ - `lr_scheduler_kwargs`: {}
370
+ - `warmup_ratio`: 0.1
371
+ - `warmup_steps`: 0
372
+ - `log_level`: passive
373
+ - `log_level_replica`: warning
374
+ - `log_on_each_node`: True
375
+ - `logging_nan_inf_filter`: True
376
+ - `save_safetensors`: True
377
+ - `save_on_each_node`: False
378
+ - `save_only_model`: False
379
+ - `restore_callback_states_from_checkpoint`: False
380
+ - `no_cuda`: False
381
+ - `use_cpu`: False
382
+ - `use_mps_device`: False
383
+ - `seed`: 42
384
+ - `data_seed`: None
385
+ - `jit_mode_eval`: False
386
+ - `use_ipex`: False
387
+ - `bf16`: False
388
+ - `fp16`: True
389
+ - `fp16_opt_level`: O1
390
+ - `half_precision_backend`: auto
391
+ - `bf16_full_eval`: False
392
+ - `fp16_full_eval`: False
393
+ - `tf32`: None
394
+ - `local_rank`: 0
395
+ - `ddp_backend`: None
396
+ - `tpu_num_cores`: None
397
+ - `tpu_metrics_debug`: False
398
+ - `debug`: []
399
+ - `dataloader_drop_last`: False
400
+ - `dataloader_num_workers`: 0
401
+ - `dataloader_prefetch_factor`: None
402
+ - `past_index`: -1
403
+ - `disable_tqdm`: False
404
+ - `remove_unused_columns`: True
405
+ - `label_names`: None
406
+ - `load_best_model_at_end`: False
407
+ - `ignore_data_skip`: False
408
+ - `fsdp`: []
409
+ - `fsdp_min_num_params`: 0
410
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
411
+ - `fsdp_transformer_layer_cls_to_wrap`: None
412
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
413
+ - `deepspeed`: None
414
+ - `label_smoothing_factor`: 0.0
415
+ - `optim`: adamw_torch
416
+ - `optim_args`: None
417
+ - `adafactor`: False
418
+ - `group_by_length`: False
419
+ - `length_column_name`: length
420
+ - `ddp_find_unused_parameters`: None
421
+ - `ddp_bucket_cap_mb`: None
422
+ - `ddp_broadcast_buffers`: False
423
+ - `dataloader_pin_memory`: True
424
+ - `dataloader_persistent_workers`: False
425
+ - `skip_memory_metrics`: True
426
+ - `use_legacy_prediction_loop`: False
427
+ - `push_to_hub`: False
428
+ - `resume_from_checkpoint`: None
429
+ - `hub_model_id`: None
430
+ - `hub_strategy`: every_save
431
+ - `hub_private_repo`: False
432
+ - `hub_always_push`: False
433
+ - `gradient_checkpointing`: False
434
+ - `gradient_checkpointing_kwargs`: None
435
+ - `include_inputs_for_metrics`: False
436
+ - `eval_do_concat_batches`: True
437
+ - `fp16_backend`: auto
438
+ - `push_to_hub_model_id`: None
439
+ - `push_to_hub_organization`: None
440
+ - `mp_parameters`:
441
+ - `auto_find_batch_size`: False
442
+ - `full_determinism`: False
443
+ - `torchdynamo`: None
444
+ - `ray_scope`: last
445
+ - `ddp_timeout`: 1800
446
+ - `torch_compile`: False
447
+ - `torch_compile_backend`: None
448
+ - `torch_compile_mode`: None
449
+ - `dispatch_batches`: None
450
+ - `split_batches`: None
451
+ - `include_tokens_per_second`: False
452
+ - `include_num_input_tokens_seen`: False
453
+ - `neftune_noise_alpha`: None
454
+ - `optim_target_modules`: None
455
+ - `batch_eval_metrics`: False
456
+ - `eval_on_start`: False
457
+ - `batch_sampler`: no_duplicates
458
+ - `multi_dataset_batch_sampler`: proportional
459
+
460
+ </details>
461
+
462
+ ### Training Logs
463
+ | Epoch | Step | Training Loss |
464
+ |:------:|:----:|:-------------:|
465
+ | 2.1097 | 500 | 0.0 |
466
+ | 4.2194 | 1000 | 0.0 |
467
+ | 6.3291 | 1500 | 0.0 |
468
+ | 8.4388 | 2000 | 0.0 |
469
+
470
+
471
+ ### Framework Versions
472
+ - Python: 3.10.12
473
+ - Sentence Transformers: 3.0.1
474
+ - Transformers: 4.42.4
475
+ - PyTorch: 2.3.1+cu121
476
+ - Accelerate: 0.32.1
477
+ - Datasets: 2.20.0
478
+ - Tokenizers: 0.19.1
479
+
480
+ ## Citation
481
+
482
+ ### BibTeX
483
+
484
+ #### Sentence Transformers
485
+ ```bibtex
486
+ @inproceedings{reimers-2019-sentence-bert,
487
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
488
+ author = "Reimers, Nils and Gurevych, Iryna",
489
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
490
+ month = "11",
491
+ year = "2019",
492
+ publisher = "Association for Computational Linguistics",
493
+ url = "https://arxiv.org/abs/1908.10084",
494
+ }
495
+ ```
496
+
497
+ #### BatchAllTripletLoss
498
+ ```bibtex
499
+ @misc{hermans2017defense,
500
+ title={In Defense of the Triplet Loss for Person Re-Identification},
501
+ author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
502
+ year={2017},
503
+ eprint={1703.07737},
504
+ archivePrefix={arXiv},
505
+ primaryClass={cs.CV}
506
+ }
507
+ ```
508
+
509
+ <!--
510
+ ## Glossary
511
+
512
+ *Clearly define terms in order to be accessible across audiences.*
513
+ -->
514
+
515
+ <!--
516
+ ## Model Card Authors
517
+
518
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
519
+ -->
520
+
521
+ <!--
522
+ ## Model Card Contact
523
+
524
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
525
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "BAAI/bge-m3",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.42.4",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.42.4",
5
+ "pytorch": "2.3.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:993b2248881724788dcab8c644a91dfd63584b6e5604ff2037cb5541e1e38e7e
3
+ size 2271064456
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 8192,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e4f7e21bec3fb0044ca0bb2d50eb5d4d8c596273c422baef84466d2c73748b9c
3
+ size 17083053
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 8192,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "sp_model_kwargs": {},
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }