metadata
license: apache-2.0
datasets:
- pomelk1n/RuadaptQwen-Quantization-Dataset
language:
- ru
base_model:
- msu-rcc-lair/RuadaptQwen2.5-32B-instruct
pipeline_tag: text-generation
tags:
- AWQ
- GEMM
RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GEMM
Описание
Эта модель является квантизированной версией RuadaptQwen2.5-32B-instruct, выполненной с использованием метода Activation-aware Weight Quantization (AWQ) и с помощью ядра GEMM.
Конфигурация квантизации
{
"bits": 4,
"group_size": 128,
"modules_to_not_convert": null,
"quant_method": "awq",
"version": "gemm",
"zero_point": true
}
Для квантизации использовался датасет, состоящий из 4096 семплов длиной 512 токенов.
Как использовать
Для использования модели установите необходимые библиотеки: autoawq transformers tokenizers
Пример кода:
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer, TextStreamer
quant_path = "pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GEMM"
model = AutoAWQForCausalLM.from_quantized(quant_path, fuse_layers=True)
tokenizer = AutoTokenizer.from_pretrained(quant_path, trust_remote_code=True)
streamer = TextStreamer(tokenizer)
prompt = """
Дай мотивацию на работу, как будто ты Арсен Маркарян:
"""
messages = [
{"role": "system", "content": "Ты Qwen, супер умный ассистент"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.model.device)
generation_output = model.generate(
**model_inputs,
streamer=streamer,
max_new_tokens=512,
eos_token_id=[tokenizer.eos_token_id, tokenizer.eos_token_id]
)