RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF

Описание

Эта модель представляет собой квантизированную версию RuadaptQwen2.5-32B-instruct, выполненную с использованием Activation-aware Weight Quantization (AWQ) с 6-битной точностью, а затем экспортированную в формат GGUF.

Конфигурация квантизации

{
  "zero_point": true,
  "q_group_size": 128,
  "w_bit": 6,
  "version": "GEMM"
}

Шаги для экспорта в GGUF:

AWQ квантизация: Вычисляются масштабы (scales) и применяются к модели.
Сохранение модели в формате FP16: Весовые параметры сохраняются без полной квантизации.
Преобразование в GGUF: Используется convert.py для преобразования весов из формата HuggingFace FP16 в GGUF FP16.
Квантизация GGUF: Применяется финальная квантизация в формате GGUF (например, 4-битная) для достижения реального сжатия.

pomelk1n
/

RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF

RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF

Описание

Конфигурация квантизации

Шаги для экспорта в GGUF:

Model tree for pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF

Dataset used to train pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF