File size: 2,164 Bytes
aa42b90
 
 
 
 
 
 
 
40c7e38
aa42b90
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3703773
aa42b90
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b27ba23
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
---
license: apache-2.0
language:
- pt
pipeline_tag: text-classification
library_name: transformers
widget:
- text: |
    As palavras "feliz" e "alegre" são sinônimos?
tags:
- portuguese
- bert
- sinônimos
model-index:
- name: simnonym
  results:
  - task:
      type: text-generation
    dataset:
      type: lrds-code/sym-pair
      name: sym-pair
      config: pt
      split: validation
    metrics:
    - type: Accuracy
      value: 91.79
datasets:
- lrds-code/sym-pair
---

<hr>

# Simnonym

Simnonym é um classificador BERT-based de sinônimos da língua portuguesa.

## Entrada

A entrada deve sempre seguir o template do prompt 
 - **'As palavras "{}" e "{}" são sinônimos?'**

## Dados de Treinamento

O modelo foi treinado e avaliado no conjunto de dados [Sym-Pair](lrds-code/sym-pair).

Sym-Pair possui aproximadamente 1.5 milhões de sentenças que comparam pares de palavras. Esses pares podem ser sinônimos ou não.

Sym-Pair é composto por:
- Pares de sinônimos e antônimos obtidos de dois datasets ([DicSin](https://github.com/fititnt/DicSin-dicionario-sinonimos-portugues-brasileiro) e [Portuguese Brazilian Synonyms](https://github.com/stavarengo/portuguese-brazilian-synonyms)).
- Pares aleatórios de palavras não relacionadas. Obtidos através de combinação aleatória do conjunto de sinônimos.

## Descrição do Modelo

- **Desenvolvido por:** [Leonardo Souza](https://huggingface.co./lrds-code)
- **Tipo do modelo:** BERT
- **Licença:** Apache 2.0
- **Fine-tunado do modelo:** [BERTimbau Base](https://huggingface.co./neuralmind/bert-base-portuguese-cased)

## Como Usar

Exemplo de uma única classificação:
​​
```python
import torch
from transformers import AutoTokenizer
from transformers import AutoModelForSequenceClassification

model_name = 'lrds-code/simnonym'

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

inputs = tokenizer('As palavras "feliz" e "alegre" são sinônimos?', return_tensors='pt')

with torch.no_grad():
    output = model(**inputs).logits

predict_id = logits.argmax().item()
model.config.id2label[predict_id]
```