|
--- |
|
license: apache-2.0 |
|
language: |
|
- pt |
|
pipeline_tag: text-classification |
|
library_name: transformers |
|
widget: |
|
- text: | |
|
As palavras "feliz" e "alegre" são sinônimos? |
|
tags: |
|
- portuguese |
|
- bert |
|
- sinônimos |
|
model-index: |
|
- name: simnonym |
|
results: |
|
- task: |
|
type: text-generation |
|
dataset: |
|
type: lrds-code/sym-pair |
|
name: sym-pair |
|
config: pt |
|
split: validation |
|
metrics: |
|
- type: Accuracy |
|
value: 91.79 |
|
datasets: |
|
- lrds-code/sym-pair |
|
--- |
|
|
|
<hr> |
|
|
|
# Simnonym |
|
|
|
Simnonym é um classificador BERT-based de sinônimos da língua portuguesa. |
|
|
|
## Entrada |
|
|
|
A entrada deve sempre seguir o template do prompt |
|
- **'As palavras "{}" e "{}" são sinônimos?'** |
|
|
|
## Dados de Treinamento |
|
|
|
O modelo foi treinado e avaliado no conjunto de dados [Sym-Pair](lrds-code/sym-pair). |
|
|
|
Sym-Pair possui aproximadamente 1.5 milhões de sentenças que comparam pares de palavras. Esses pares podem ser sinônimos ou não. |
|
|
|
Sym-Pair é composto por: |
|
- Pares de sinônimos e antônimos obtidos de dois datasets ([DicSin](https://github.com/fititnt/DicSin-dicionario-sinonimos-portugues-brasileiro) e [Portuguese Brazilian Synonyms](https://github.com/stavarengo/portuguese-brazilian-synonyms)). |
|
- Pares aleatórios de palavras não relacionadas. Obtidos através de combinação aleatória do conjunto de sinônimos. |
|
|
|
## Descrição do Modelo |
|
|
|
- **Desenvolvido por:** [Leonardo Souza](https://huggingface.co./lrds-code) |
|
- **Tipo do modelo:** BERT |
|
- **Licença:** Apache 2.0 |
|
- **Fine-tunado do modelo:** [BERTimbau Base](https://huggingface.co./neuralmind/bert-base-portuguese-cased) |
|
|
|
## Como Usar |
|
|
|
Exemplo de uma única classificação: |
|
|
|
```python |
|
import torch |
|
from transformers import AutoTokenizer |
|
from transformers import AutoModelForSequenceClassification |
|
|
|
model_name = 'lrds-code/simnonym' |
|
|
|
tokenizer = AutoTokenizer.from_pretrained(model_name) |
|
model = AutoModelForSequenceClassification.from_pretrained(model_name) |
|
|
|
inputs = tokenizer('As palavras "feliz" e "alegre" são sinônimos?', return_tensors='pt') |
|
|
|
with torch.no_grad(): |
|
output = model(**inputs).logits |
|
|
|
predict_id = logits.argmax().item() |
|
model.config.id2label[predict_id] |
|
``` |