Vigostral-7b-Chat GGUF

Conversion du modèle vigostral-7b-chat au format GGUF

Lien du modèle original: https://huggingface.co./bofenghuang/vigostral-7b-chat/

Le projet llama.cpp (pour l'inférence): https://github.com/ggerganov/llama.cpp/

Les modèles ont dans leur nom un suffixe qui définit la quantification.

La perte de qualité est tirée de la documentation de llama.cpp et a été calculée par la variation de la perplexité (ppl) sur le modèle LLaMA-v1-7B. Elle n'est donc fournie ici que pour donner une approximation de la perte rééle.

Méthode de quantification	Taille du fichier	Perte	Téléchargement
COPY	13,5 Go	Aucune	https://huggingface.co./FlorianJc/Vigostral-7b-Chat-GGUF/blob/main/vigostral-7b-chat-COPY.gguf
Q8_0	7,2 Go	+0.0004 ppl @ LLaMA-v1-7B	https://huggingface.co./FlorianJc/Vigostral-7b-Chat-GGUF/blob/main/vigostral-7b-chat-Q8_0.gguf
Q6_K	5,5 Go	-0.0008 ppl @ LLaMA-v1-7B	https://huggingface.co./FlorianJc/Vigostral-7b-Chat-GGUF/blob/main/vigostral-7b-chat-Q6_K.gguf
Q5_K_M	4,8 Go	+0.0122 ppl @ LLaMA-v1-7B	https://huggingface.co./FlorianJc/Vigostral-7b-Chat-GGUF/blob/main/vigostral-7b-chat-Q5_K_M.gguf
Q4_K_M	4,1 Go	+0.0532 ppl @ LLaMA-v1-7B	https://huggingface.co./FlorianJc/Vigostral-7b-Chat-GGUF/blob/main/vigostral-7b-chat-Q4_K_M.gguf