nicolasdec commited on
Commit
a221dea
1 Parent(s): 3a9acf4

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +92 -3
README.md CHANGED
@@ -1,3 +1,95 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  | Tasks | Version | Filter | n-shot | Metric | Value | ± | Stderr |
2
  |------------------------------|---------|-----------------------|--------|----------|-------|----|--------|
3
  | assin2_rte | 1.1 | all | 15 | f1_macro | 0.9358| ± | 0.0035 |
@@ -38,6 +130,3 @@
38
  | hatebr_offensive_binary | 1.0 | all | 25 | f1_macro | 0.7212| ± | 0.0087 |
39
  | | | all | 25 | acc | 0.7393| ± | 0.0083 |
40
  | oab_exams | 1.5 | all | 3 | acc | 0.5718| ± | 0.0061 |
41
- | | | exam_id__2014-15 | 3 | acc | 0.6795| ± | 0.0305 |
42
- | | | exam_id__2012-09 | 3 | acc | 0.4805| ± | 0.0329 |
43
- ...
 
1
+ ---
2
+ language:
3
+ - pt
4
+ - en
5
+ license: cc-by-nc-2.0
6
+ tags:
7
+ - text-generation-inference
8
+ - transformers
9
+ - qwen
10
+ - gguf
11
+ - brazil
12
+ - brasil
13
+ - 72bb
14
+ - portuguese
15
+ base_model: Qwen/Qwen1.5-72B-Chat
16
+ pipeline_tag: text-generation
17
+
18
+ ---
19
+ # Cabra 72b
20
+ <img src="https://uploads-ssl.webflow.com/65f77c0240ae1c68f8192771/6611c4d5c4e2b5eaea0b979c_cabra72b.png" width="400" height="400">
21
+
22
+ Cabra 72b é um finetune do [Qwen 1.5 72b Chat](https://huggingface.co/Qwen/Qwen1.5-72B-Chat) com o dataset Cabra 30k. Esse modelo é otimizado para português e responde em portuguese. Ele apresenta melhoria em vários benchmarks brasileiros em comparação com o modelo base.
23
+
24
+
25
+ **Conheça os nossos outros [modelos Cabra](https://huggingface.co/collections/botbot-ai/models-6604c2069ceef04f834ba99b).**
26
+
27
+ ## Detalhes do modelo base
28
+
29
+ ### Modelo: Qwen 1.5 72b chat
30
+
31
+ Qwen1.5 é uma série de modelos de linguagem que inclui modelos de linguagem decodificadores de diferentes tamanhos de modelo. Para cada tamanho, lançamos o modelo de linguagem base e o modelo de chat alinhado. Baseia-se na arquitetura Transformer com ativação SwiGLU, viés de atenção QKV, atenção de consulta em grupo, mistura de atenção de janela deslizante e atenção completa, etc. Adicionalmente, temos um tokenizador melhorado adaptativo a múltiplas línguas naturais e códigos. Para a versão beta, temporariamente não incluímos GQA e a mistura de SWA e atenção completa.
32
+
33
+ ### dataset: Cabra 30k
34
+
35
+ Dataset interno para fine-tuning. Vamos lançar em breve.
36
+
37
+ ### Quantização / GGUF
38
+
39
+ Versões (GGUF) quantanizadas no branch "quantanization" em breve.
40
+
41
+ ### Exemplo
42
+
43
+ ```
44
+ <s> [INST]Quem são os jogadores brasileiros de futebol mais conhecidos, atuais e pasados? [/INST]
45
+
46
+ O Brasil tem uma rica história na produção de alguns dos maiores jogadores de futebol do mundo. Alguns dos jogadores brasileiros mais importantes atualmente e que já jogaram incluem:
47
+
48
+ Pelé - amplamente considerado um dos maiores jogadores de todos os tempos, o Pelé venceu três Copas do Mundo com o Brasil e marcou mais de 1.000 gols em sua carreira.
49
+ Ronaldo Nazário de Lima - conhecido como Ronaldo, este jogador de ataque é o segundo maior artilheiro da história da seleção brasileira e ajudou o Brasil a vencer duas Copas do Mundo.
50
+
51
+ Ronaldinho Gaúcho - um criativo meio-campista ofensivo que jogou pelo Barcelona e pela AC Milan, o Ronaldinho foi nomeado Jogador Mundial FIFA de 2004 e ajudou o Brasil a vencer a Copa do Mundo de 2002.
52
+
53
+ Neymar Jr. - um dos melhores jogadores do mundo hoje, o Neymar desempenhou um papel fundamental ao liderar o Brasil para várias vitórias em torneios principais e é conhecido por suas habilidades incríveis de drible e capacidade de marcar gols.
54
+
55
+ Esses são apenas alguns exemplos dos muitos talentosos jogadores de futebol que vieram do Brasil ao longo de sua rica história.
56
+ </s>
57
+
58
+ ```
59
+
60
+ ### Paramentros de trainamento
61
+
62
+ ```
63
+ - train/epoch: 3
64
+ - train/global_step: 1,893
65
+ - train/grad_norm: 0.5843151168226935
66
+ - train/learning_rate: 0.00000000006323276533
67
+ - train/loss: 0.4379
68
+ - train/total_flos: 7,334,660,338,089,984
69
+ - train/train_loss: 0.628420232404053
70
+ - train/train_runtime: 415,863.2395
71
+ - train/train_samples_per_second: 0.437
72
+ - train/train_steps_per_second: 0.005
73
+ - GPU: 8x A100 80GB SXB
74
+ ```
75
+
76
+ ### Framework
77
+
78
+ - Transformers 4.39.0.dev0
79
+ - Pytorch 2.1.2+cu118
80
+ - Datasets 2.14.6
81
+ - Tokenizers 0.15.2
82
+
83
+ ## Uso
84
+ O modelo é destinado, por agora, a fins de pesquisa. As áreas e tarefas de pesquisa possíveis incluem:
85
+
86
+ - Pesquisa sobre modelos gerativos.
87
+ - Investigação e compreensão das limitações e vieses de modelos gerativos.
88
+
89
+ **Proibido para uso comercial. Somente Pesquisa. Entre em contato para mais informações. **
90
+
91
+ ### Evals
92
+
93
  | Tasks | Version | Filter | n-shot | Metric | Value | ± | Stderr |
94
  |------------------------------|---------|-----------------------|--------|----------|-------|----|--------|
95
  | assin2_rte | 1.1 | all | 15 | f1_macro | 0.9358| ± | 0.0035 |
 
130
  | hatebr_offensive_binary | 1.0 | all | 25 | f1_macro | 0.7212| ± | 0.0087 |
131
  | | | all | 25 | acc | 0.7393| ± | 0.0083 |
132
  | oab_exams | 1.5 | all | 3 | acc | 0.5718| ± | 0.0061 |