Undi95 commited on
Commit
4488bf8
·
verified ·
1 Parent(s): a6dba23

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +70 -0
README.md ADDED
@@ -0,0 +1,70 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ datasets:
3
+ - Error410/sharegpt
4
+ language:
5
+ - fr
6
+ base_model:
7
+ - meta-llama/Llama-3.1-8B-Instruct
8
+ tags:
9
+ - jvc
10
+ - issou
11
+ - aya
12
+ ---
13
+ # Error410/JVCGPT-Medium
14
+
15
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/63ab1241ad514ca8d1430003/FvMVdId5XDkkSObKnSGVD.png)
16
+
17
+ ## Description
18
+ Ce modèle est une version fine-tunée de **Llama 3.1 8B** ayant pour objectif de reproduire les styles d’écriture et les posts des utilisateurs du forum **jeuxvideo.com**. Entraîné sur une fraction des données publiques de **JVArchive**, ce modèle est conçu pour capturer le ton, l’humour et les références propres à cette communauté en ligne.
19
+
20
+
21
+ ## Détails du modèle
22
+ - **Base** : Llama 3.1 (8B paramètres)
23
+ - **Contexte (train)** : 8192 tokens
24
+ - **Dataset utilisé** : **20%** de JVArchive (public et accessible librement, année 2024)
25
+ - **Entraînement** : ***EN COURS...*** [WanDB](https://wandb.ai/undis95/JVCGPT%20Medium%208b%20v2/runs/69onem5v?nw=nwuserundis95)
26
+ - **Objectif** : Générer des messages imitant le style des utilisateurs de jeuxvideo.com
27
+ - **Accès** : Dataset et modèles disponibles gratuitement sur notre repo [Error410](https://huggingface.co/Error410/).
28
+
29
+
30
+ ## Format du prompt
31
+
32
+ ```
33
+ <|begin_of_text|><|start_header_id|><|sujet|><|end_header_id|>
34
+
35
+ Sujet : "<SUJET>"<|eot_id|><|start_header_id|><|autheur|><|end_header_id|>
36
+
37
+ <|im_pseudo|>PSEUDO<|end_pseudo|>
38
+ <|im_date|>DATE<|end_date|>
39
+
40
+ <|begin_of_post|>MESSAGE<|end_of_post|><|eot_id|><|start_header_id|><|khey|><|end_header_id|>
41
+
42
+ <|im_pseudo|>PSEUDO<|end_pseudo|>
43
+ <|im_date|>DATE<|end_date|>
44
+
45
+ <|begin_of_post|>POST<|end_of_post|><|eot_id|>
46
+ ```
47
+
48
+ Template SillyTavern: / (à voir plus tard si il sait chatter)
49
+
50
+ ## Performances
51
+ - **Style** : Captures efficacement les références, expressions, et styles d’écriture caractéristiques des forums jeuxvideo.com.
52
+ - **Légèreté** : Très peu demandeur en calculation grâce à sa petit taille de 8B de paramètres.
53
+ - **Temps de réponse** : Optimisé pour des générations plûtot rapide.
54
+
55
+
56
+ ## Dataset
57
+ Le modèle a été entraîné sur une sélection de **20% des archives de JVArchive** (~750 000 topics de 2024 entier). Ces données ont été traitées et filtrées pour garantir une qualité et une diversité optimales.
58
+
59
+
60
+ ## Licence
61
+ Le modèle, le dataset, et tous les fichiers associés sont mis à disposition gratuitement sous la même license (PUBLIC) que JVArchive, dans notre repo.
62
+
63
+
64
+ ## Remerciements
65
+ Un grand merci à **JVArchive** pour l’accès aux données publiques et à la communauté jeuxvideo.com pour son inspiration. Ce projet est dédié aux passionnés de l’histoire du forums et à la culture internet.
66
+
67
+ ## Auteurs
68
+
69
+ - [Greums](https://huggingface.co/Greums/) : Pro des datasets bordelent cimer chef
70
+ - [Undi](https://huggingface.co/Undi95/)