SITGES_robertav1 / README.md
adriansanz's picture
Add new SentenceTransformer model.
7ea0d53 verified
metadata
base_model: PlanTL-GOB-ES/roberta-base-bne
datasets: []
language: []
library_name: sentence-transformers
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:512
  - loss:TripletLoss
widget:
  - source_sentence: >-
      Quin és el requisit per a la potència instal·lada de les instal·lacions de
      plaques solars en sòl urbà?
    sentences:
      - >-
        Permet comunicar les intervencions necessàries per executar una
        instal·lació/remodelació d’autoconsum amb energia solar fotovoltaica amb
        una potència instal·lada inferior a 100 kWp en sòl urbà consolidat.
      - Inferior a 100 kWp.
      - >-
        Aquesta bonificació tindrà caràcter pregat i s’aplicarà a la quota total
        si la resolució de la sol•licitud es realitza abans de la liquidació, en
        cas contrari es gestionarà la devolució de l’import pagat i bonificat.
  - source_sentence: Quins són els exemples d'obres que requereixen una llicència TIPUS B?
    sentences:
      - >-
        Ubicada al carrer de Port Alegre (Platja de Sant Sebastià), els artistes
        (dibuix, pintura, gravat i escultura) poden exposar i vendre les seves
        obres.
      - >-
        Col·locació de bastides, arrebossat, estucat i pintat de façanes, noves
        obertures, etc.
      - >-
        TIPUS B Col·locació de bastides a una alçada superior a PB + 1 PP o a
        més de 6,00 m Arrebossat, estucat i pintat de façanes que necessiten una
        bastida amb una alçada superior a PB + 1 PP o a més de 6,00 m.
  - source_sentence: >-
      Quin és el propòsit principal del tràmit de canvi de titular de la
      llicència de gual?
    sentences:
      - >-
        L'Ajuntament de Sitges atorga subvencions per a les activitats que
        realitzen les entitats del municipi que tinguin com a finalitat fomentar
        l’activitat física i esportiva al llarg de l’exercici pel qual es
        sol·licita la subvenció.
      - >-
        Aquest tràmit permet a la nova persona titular sol·licitar el canvi de
        nom d'una llicència de gual, sempre que no variïn la utilització ni les
        característiques de la llicència concedida prèviament, i s’acompleixen
        les ordenances vigents.
      - >-
        Permet el canvi de nom d'una llicència de gual sense variar la
        utilització ni les característiques.
  - source_sentence: Quin és el propòsit dels ajuts econòmics?
    sentences:
      - >-
        Aquest tràmit permet a la nova persona titular sol·licitar el canvi de
        nom d'una llicència de gual, sempre que no variïn la utilització ni les
        característiques de la llicència concedida prèviament, i s’acompleixen
        les ordenances vigents.
      - >-
        Ajuts econòmics destinats a reforçar les activitats econòmiques amb
        suspensió o limitació d’obertura al públic i per finançar les despeses
        de lloguer o hipoteca per empreses i/o establiments comercials
      - >-
        Reforçar les activitats econòmiques i finançar les despeses de lloguer o
        hipoteca.
  - source_sentence: Quin és el propòsit del Directori de la Vila?
    sentences:
      - >-
        Consulteu les dades i els horaris de funcionament de la instal·lació al
        Directori de la Vila.
      - >-
        Per consultar les dades i els horaris de funcionament de la
        instal·lació.
      - >-
        Aquelles persones que s'hagin inscrit a les estades esportives
        organitzades per l'Ajuntament de Sitges i que formin part d'una unitat
        familiar amb uns ingressos bruts mensuals, que una vegada dividits pel
        nombre de membres, siguin inferiors entre una i dues terceres parts de
        l'IPREM, poden sol·licitar una reducció de la quota d'aquestes
        activitats o l'aplicació de la corresponent tarifa bonificada establerta
        en les ordenances dels preus públics.

SentenceTransformer based on PlanTL-GOB-ES/roberta-base-bne

This is a sentence-transformers model finetuned from PlanTL-GOB-ES/roberta-base-bne. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: PlanTL-GOB-ES/roberta-base-bne
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("adriansanz/SITGES_robertav1")
# Run inference
sentences = [
    'Quin és el propòsit del Directori de la Vila?',
    'Consulteu les dades i els horaris de funcionament de la instal·lació al Directori de la Vila.',
    'Per consultar les dades i els horaris de funcionament de la instal·lació.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 512 training samples
  • Columns: sentence_0, sentence_1, and sentence_2
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 sentence_2
    type string string string
    details
    • min: 12 tokens
    • mean: 25.79 tokens
    • max: 56 tokens
    • min: 11 tokens
    • mean: 64.52 tokens
    • max: 143 tokens
    • min: 4 tokens
    • mean: 19.73 tokens
    • max: 79 tokens
  • Samples:
    sentence_0 sentence_1 sentence_2
    Quin és el requisit de duració mínima per a obtenir la bonificació de la taxa? Es concedirà una bonificació del 50 per cent de la quota de la Taxa quan es duguin a terme obres a les vies públiques, que tinguin una duració igual o superior a 1 mes i afectin directament als locals en que es realitzin activitats econòmiques. 1 mes
    Quin és el document que cal aportar per a rebre els ajuts? Aportació de documentació. Ajuts per la reactivació de petites empreses i persones autònomes donades d’alta al règim especial de treballadors autònoms (RETA) amb una antiguitat superior als cinc anys (COVID19) La documentació.
    Quin és el benefici de la inscripció en el Padró Municipal d'Habitants? La inscripció en el Padró municipal conté com a obligatories les dades personals de Nom i Cognoms, Sexe, Nacionalitat, Lloc i data de naixement, Número de document d'identidad (DNI, NIE, Passaport), i Certificat o títol escolar o académic. Té una informació actualitzada i correcta.
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 10
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.42.4
  • PyTorch: 2.4.0+cu121
  • Accelerate: 0.32.1
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification}, 
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}