pomelk1n's picture
Update README.md
d4ffe59 verified
metadata
license: apache-2.0
datasets:
  - pomelk1n/RuadaptQwen-Quantization-Dataset
language:
  - ru
base_model:
  - msu-rcc-lair/RuadaptQwen2.5-32B-instruct
pipeline_tag: text-generation
tags:
  - AWQ
  - GEMM

RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GEMM

Описание

Эта модель является квантизированной версией RuadaptQwen2.5-32B-instruct, выполненной с использованием метода Activation-aware Weight Quantization (AWQ) и с помощью ядра GEMM.

Конфигурация квантизации

{
  "bits": 4,
  "group_size": 128,
  "modules_to_not_convert": null,
  "quant_method": "awq",
  "version": "gemm",
  "zero_point": true
}

Для квантизации использовался датасет, состоящий из 4096 семплов длиной 512 токенов.

Как использовать

Для использования модели установите необходимые библиотеки: autoawq transformers tokenizers

Пример кода:

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer, TextStreamer

quant_path = "pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GEMM"
model = AutoAWQForCausalLM.from_quantized(quant_path, fuse_layers=True)
tokenizer = AutoTokenizer.from_pretrained(quant_path, trust_remote_code=True)

streamer = TextStreamer(tokenizer)

prompt = """
Дай мотивацию на работу, как будто ты Арсен Маркарян: 
"""
messages = [
    {"role": "system", "content": "Ты Qwen, супер умный ассистент"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.model.device)

generation_output = model.generate(
    **model_inputs, 
    streamer=streamer,
    max_new_tokens=512,
    eos_token_id=[tokenizer.eos_token_id, tokenizer.eos_token_id]
)