Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,70 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
datasets:
|
3 |
+
- Error410/sharegpt
|
4 |
+
language:
|
5 |
+
- fr
|
6 |
+
base_model:
|
7 |
+
- meta-llama/Llama-3.1-8B-Instruct
|
8 |
+
tags:
|
9 |
+
- jvc
|
10 |
+
- issou
|
11 |
+
- aya
|
12 |
+
---
|
13 |
+
# Error410/JVCGPT-Medium
|
14 |
+
|
15 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/63ab1241ad514ca8d1430003/FvMVdId5XDkkSObKnSGVD.png)
|
16 |
+
|
17 |
+
## Description
|
18 |
+
Ce modèle est une version fine-tunée de **Llama 3.1 8B** ayant pour objectif de reproduire les styles d’écriture et les posts des utilisateurs du forum **jeuxvideo.com**. Entraîné sur une fraction des données publiques de **JVArchive**, ce modèle est conçu pour capturer le ton, l’humour et les références propres à cette communauté en ligne.
|
19 |
+
|
20 |
+
|
21 |
+
## Détails du modèle
|
22 |
+
- **Base** : Llama 3.1 (8B paramètres)
|
23 |
+
- **Contexte (train)** : 8192 tokens
|
24 |
+
- **Dataset utilisé** : **20%** de JVArchive (public et accessible librement, année 2024)
|
25 |
+
- **Entraînement** : ***EN COURS...*** [WanDB](https://wandb.ai/undis95/JVCGPT%20Medium%208b%20v2/runs/69onem5v?nw=nwuserundis95)
|
26 |
+
- **Objectif** : Générer des messages imitant le style des utilisateurs de jeuxvideo.com
|
27 |
+
- **Accès** : Dataset et modèles disponibles gratuitement sur notre repo [Error410](https://huggingface.co/Error410/).
|
28 |
+
|
29 |
+
|
30 |
+
## Format du prompt
|
31 |
+
|
32 |
+
```
|
33 |
+
<|begin_of_text|><|start_header_id|><|sujet|><|end_header_id|>
|
34 |
+
|
35 |
+
Sujet : "<SUJET>"<|eot_id|><|start_header_id|><|autheur|><|end_header_id|>
|
36 |
+
|
37 |
+
<|im_pseudo|>PSEUDO<|end_pseudo|>
|
38 |
+
<|im_date|>DATE<|end_date|>
|
39 |
+
|
40 |
+
<|begin_of_post|>MESSAGE<|end_of_post|><|eot_id|><|start_header_id|><|khey|><|end_header_id|>
|
41 |
+
|
42 |
+
<|im_pseudo|>PSEUDO<|end_pseudo|>
|
43 |
+
<|im_date|>DATE<|end_date|>
|
44 |
+
|
45 |
+
<|begin_of_post|>POST<|end_of_post|><|eot_id|>
|
46 |
+
```
|
47 |
+
|
48 |
+
Template SillyTavern: / (à voir plus tard si il sait chatter)
|
49 |
+
|
50 |
+
## Performances
|
51 |
+
- **Style** : Captures efficacement les références, expressions, et styles d’écriture caractéristiques des forums jeuxvideo.com.
|
52 |
+
- **Légèreté** : Très peu demandeur en calculation grâce à sa petit taille de 8B de paramètres.
|
53 |
+
- **Temps de réponse** : Optimisé pour des générations plûtot rapide.
|
54 |
+
|
55 |
+
|
56 |
+
## Dataset
|
57 |
+
Le modèle a été entraîné sur une sélection de **20% des archives de JVArchive** (~750 000 topics de 2024 entier). Ces données ont été traitées et filtrées pour garantir une qualité et une diversité optimales.
|
58 |
+
|
59 |
+
|
60 |
+
## Licence
|
61 |
+
Le modèle, le dataset, et tous les fichiers associés sont mis à disposition gratuitement sous la même license (PUBLIC) que JVArchive, dans notre repo.
|
62 |
+
|
63 |
+
|
64 |
+
## Remerciements
|
65 |
+
Un grand merci à **JVArchive** pour l’accès aux données publiques et à la communauté jeuxvideo.com pour son inspiration. Ce projet est dédié aux passionnés de l’histoire du forums et à la culture internet.
|
66 |
+
|
67 |
+
## Auteurs
|
68 |
+
|
69 |
+
- [Greums](https://huggingface.co/Greums/) : Pro des datasets bordelent cimer chef
|
70 |
+
- [Undi](https://huggingface.co/Undi95/)
|